Проект:Заливка новых статей/Технические детали

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску

Данный раздел предназначен для ботоводов, желающих самим работать над пространством статей заливки

Формат базы данных[править код]

В результате распознавания статей википедии-источника и ручной работы по выверке формируется база данных sqlite, в которой хранится информация о статьях и атрибутах. База данных может передаваться ботоводам при изъявлении желания с ней работать (и при наличии зарегистрированного бота, который сможет её прочесть!)

Административная структура[править код]

Таблица ADMIN хранит всю административную структуру страны

  • ID номер объекта
  • NAME имя на языке оригинала
  • TARGET_NAME имя на русском языке
  • LEVEL уровень в иерархии (0. страна, 3 - провинция, 6 - район, 8 - обoшbна, 9 - деревня, 100 - альтернативное имя; возможны и другие уровни в зависимости от страны)
  • PARENT_ID номер области более высокого ранге

Метаданные по административной структуре[править код]

Таблица ADMIN_META для каждого уровня содержит название уровня, это же название в родительном, предложном падеже и во множественном числе (район, района, районе, районы), высокий и низкий уровни ...

Атрибуты объектов[править код]

Таблица содержит следующие поля

  • ID - номер объекта
  • ATTR_NAME название атрибута (например - POPULATION)
  • ATTR_VALUE значение атрибута (например 45200)

Таблицы значений[править код]

Эти таблицы содержат перечни атрибутов и их значений на русском языке. Используется для перевода атрибутов

  • ID номер объекта
  • CONCEPT стандартизированное название атрибута (независимое от языка)
  • NAME имя на языке оригинала
  • TARGET_NAME имя на русском языке
  • SHORT_TARGET_NAME сокращённое имя на русском языке

Такие таблицы составляются например для островов, политических партий и других объектов, которые не входят в основную иерархию

Модули бота[править код]

Экстракторы информации[править код]

  1. Экстрактор шаблонов - читает основные шаблоны в статьях вики-источника и записывает информацию из них в базу данных
  2. Экстрактор навигационных шаблонов - читает навигационные шаблоны в статьях вики-источника и записывает информацию из них в базу данных
  3. Экстрактор списков - читает списки статей (из категории, из пользователей шаблонов, из ссылающихся на данную статью ...) и записывает информацию из них в базу данных
  4. Экстрактор словарей - читает словари, выверенные вручную, и записывает в базу данных
  5. Экстрактор интервики - находит названия на других языках
  6. Экстрактор статуса - распознаёт существование статей и их принадлежность к категориям
  7. Экстрактор изображений - находит изображения из Commons
  8. Экстрактор отдельной информации - выделяет требуемую информацию из анализа основного текста
  9. Экстрактор координат - находит координаты
  10. Экстрактор ссылок - находит ссылки на внешние источники
  11. Экстрактор таблиц

Генераторы[править код]

  1. Генератор шаблона-статьи
  2. Генератор применения шаблона по заданным атрибутам объекта
  3. Генераторы текста по разделам
  4. Генератор иллюстраций
  5. Генератор интервики

Корректоры[править код]

  1. Корректор ошибок
  2. Корректор стиля
  3. Корректор оформления
  4. Корректор шаблона в статье

Дизамбигуаторы[править код]

  1. Коллектор названий
  2. Генератор и корректор статей-дизамбигов
  3. Генератор указателей на многозначные термины

Автозамены[править код]

  • Бот автозамен
  • Бот переименований с автозаменами ссылок
  • Бот переименований категорий с автозаменами ссылок


Сталкеры[править код]

  1. Составитель статистики
  2. Слежение за событиями (новыми статьями, переименованиями ...) в википедии - источнике