Программы для обработки данных из метрических книг : ВГД

На сайте ВГД собираются люди, увлеченные генеалогией, историей, геральдикой и т.д. Здесь вы найдете собеседников, экспертов, умелых помощников в поисках предков и родственников. Вам подскажут где искать документы о павших в боях и пропавших без вести, в какой архив обратиться при исследовании родословной своей семьи, помогут определить по старой фотографии принадлежность к воинским частям, ведомствам и чину. ВГД - поиск людей в прошлом, настоящем и будущем!

Rychagov написал:

[q]
У меня ещё вопрос появился.
Собираюсь основывать базу по приходам.
Приходы привязывать к уездам, которые привязаны к губерниям.
Но ведь случалось так, что менялось территориальное деление - что делать в таком случае?
[/q]

Измените методику. За единицу возьмите не приход, а населенный пункт, который может быть привязан к нескольким разным территориальным единицам (в зависимости от времени) и приходам (иногда даже в один момент времени - встречалось такое).

Прочитал тему целиком, взялся за работу, могу сообщить предварительные выводы.

1. Проектов высокой степени готовности не нашел. То что есть обычно имеет ограниченный функционал. О своей работе рассказывал пользователь Rychagov, но до концовки и образца дело не дошло, на форуме его давно нет (

2. Excel, макросы VBA стал бы использовать только для маленьких проектов. Сам я этот вариант пробовал, - уже на нескольких сотнях фамилий понимаешь, что это абсолютно негодные инструменты для построения реляционной базы данных и ее анализа. Ну то есть в принципе делать что-то можно, но это как строить небоскреб из мусора в гараже...
Для первого подхода я выбрал Python + sqllite, т.е. реляционная БД, которая хорошо подходит для наших целей.

3. Существующие решения по распознаванию рукописного текста на текущем этапе не годятся для большинства задач. Ошибок слишком много, причем они концентрируются в критических местах (фамилии, названия населенных пунктов), так что их вычистка обесценивает выигрыш времени от автоматизации распознавания. Их можно использовать для индексации больших массивов (да и то, при условии качественного сканирования) и последующего сервиса первичного поиска по ним. Но для целевой работы отдельных исследователей над "своими" приходами требуется ручной ввод данных. Соответственно основной функционал программы а) ускоренный полуавтоматизированный ввод. б) выстраивание связей и формирование личностей на основе БД.

4. Проблема определения человека по ФИО , в том виде как это обсуждалось в данной теме, по большому счету отсутствует.
Основным структурным элементом базы является запись в метрической книге. Личность должна "создаваться" в результате анализа базы данных, после ее создания. Причем, каждый раз результат может быть иным, т.к. базу можно изменять (уточнять, исправлять ошибки) и дополнять. Выявление однофамильцев, ошибок присущих самим данным - это вопрос качества алгоритма анализа, но не ввода и хранения данных.

5. Ключевая проблема - структуризация или семантический анализ отдельных блоков данных при их вводе.
Например, в Книге рождений достаточно просто структурировать данные о дате и порядковом номере рождения, имени т.к. тут вариаций связанных с формой ввода и положением элемента в последовательности практически нет. Иное дело - текст записи о родителях и крестных, который весьма вариативен.
Сейчас вижу два основных способа решения задачи по разбиению этих блоков на структурные единицы (ФИО отца + его сословие и место жительства, религия, ФИО матери и т.п.).
№1 - структурированный ввод, с оригинальным для программы многовариантным алгоритмом разбиения на структурные единицы, с использованием оговоренных сокращений
№2 - использование готовых модулей семантического анализа, например, Natasha. Это более гибкий инструмент, но полученный результат все-равно нуждается в оригинальной переработке + доп вес программе.
Способы №1,2 можно комбинировать. Но легкого решения нет. Гарантированно будут ошибки для специфичных случаев, но продумал способ с ними бороться: программа на лету разбирает вводимый текст, демонстрируя пользователю "разобранный" вариант и сигнализирует об ошибках и несоответствиях, которые можно будет исправить в отдельных формах заготовленных под каждый структурный элемент.

В моем случае легкораспознаваемый шаблон ручного ввода записи, например, о рождении, может выглядеть так (структурные элементы определяются пробелами и переносом строки при вводе):

3 28 1 март евдокия (РОЖДЕНИЕ - №3 за год рождение (женщины) 28 февраля, крещенной 1 марта)
д полюбово к поликарп тимофеев лазарев васса борисова п (РОДИТЕЛИ: отец - деревни полюбово крестьянин Поликарп Тимофеевич Лазарев...
д починок к иван минаев макашенков д полюбово к евдокия пименова лазарева" (КРЕСТНЫЕ: крестный - деревни Починок крестьянин...

Следует заметить, что часть формируемых данных записи, которая будет сохранена в БД, например пол ребенка, фамилия жены, может определяться программно, после семантического распознавания, а также с учетом значений других структурных элементов (месяц рождения/крещения, лист, информация о священниках исполнявших обряд).

6. Для более качественного анализа и поиска связей потребуется создание нескольких библиотек. В их числе - перечень имен и их вариаций, например: Иван, пол - муж, вариации - Иоан, Иоанн и т.п..

7. Вопросы общей базы и доступности. Один из вариантов -- создание онлайн версии программы, которая бесплатно предоставляет базовый функционал пользователю, взамен на право доступа к введенным им данным (100 и более летней давности - под жесткие ограничения персональных данных не попадаем). Они, очевидно, имеют самостоятельную немалую ценность.

Продолжая тему автоматического распознавания, пытаюсь найти массив данных чтоб модель нейросети натренировать. Есть в свободном допуске например https://www.kaggle.com/dataset...ng-dataset , но это 20 век почерк, надо метрики. Транскирбуса модели тоже тренировали наверное на более легко читаемом почерке.
Мне даже не массив данных а просто несколько страничек насобирать, я потом сам разрежу и подготовлю. Где найти вот.

parija написал:

[q]
Продолжая тему автоматического распознавания, пытаюсь найти массив данных чтоб модель нейросети натренировать. Есть в свободном допуске например https://www.kaggle.com/dataset...g-dataset, но это 20 век почерк, надо метрики. Транскирбуса модели тоже тренировали наверное на более легко читаемом почерке.
Мне даже не массив данных а просто несколько страничек насобирать, я потом сам разрежу и подготовлю. Где найти вот.
[/q]

Посмотрите здесь https://cloud.mail.ru/public/4HPb/yn7dZfQjr. Здесь метрики Сине-Никольской церкви, Опочецкого уезда, Псковской губернии за 1,5 века. Есть все варианты почерков.

parija написал:

[q]
Продолжая тему автоматического распознавания, пытаюсь найти массив данных чтоб модель нейросети натренировать. Есть в свободном допуске например https://www.kaggle.com/dataset...g-dataset, но это 20 век почерк, надо метрики. Транскирбуса модели тоже тренировали наверное на более легко читаемом почерке.
Мне даже не массив данных а просто несколько страничек насобирать, я потом сам разрежу и подготовлю. Где найти вот.
[/q]

Гляньте у меня в дневнике. Выложены ревизии и метрики по нескольким губерниям.
Вот например https://forum.vgd.ru/post/2844...#pp2574113 Тверская, Калязинский (ранее Московская, Дмитровский)
Богородицкий уезд, до этого Крапивенский
Борисоглебский уезд Тамбовской

Более старые тексты здесь:

ЦГА Москвы на сайте Троица - Сергиевой лавры

Vorogeya написал:

[q]

Гляньте у меня в дневнике. Выложены ревизии и метрики по нескольким губерниям.
Вот например https://forum.vgd.ru/post/2844...#pp2574113 Тверская, Калязинский (ранее Московская, Дмитровский)
Богородицкий уезд, до этого Крапивенский
Борисоглебский уезд Тамбовской

Более старые тексты здесь:

ЦГА Москвы на сайте Троица - Сергиевой лавры

[/q]

Спасибо!

Но я плохо объяснил, мне нужен оригинал (я могу найти много) и перевод. Потом я оригинал разрезаю на слова и составляю таблицу, скан оригинального слова -> перевод
Вот это таблица будет входными данными в нейросеть.

такое например:

| поле
| критичны.

parija написал:

[q]
мне нужен оригинал (я могу найти много) и перевод.
[/q]

Здравствуйте! Если у Вас получится, будет замечательно. Древние тексты и их переводы Вы можете взять из тем (там встречаются и большие куски).
Помогите прочитать текст (старинный до ХХ века)
https://forum.vgd.ru/27/128152/
https://forum.vgd.ru/27/116642/
https://forum.vgd.ru/27/104558/

Руслан Дикушин написал:

[q]

parija написал:
[q]

мне нужен оригинал (я могу найти много) и перевод.
[/q]

Здравствуйте! Если у Вас получится, будет замечательно. Древние тексты и их переводы Вы можете взять из тем (там встречаются и большие куски).
Помогите прочитать текст (старинный до ХХ века)
https://forum.vgd.ru/27/128152/
https://forum.vgd.ru/27/116642/
https://forum.vgd.ru/27/104558/

[/q]

да, я так и думал что начинать с этой темы и собирать по кусочкам.
Я нашел хороший ресурс на http://personalhistory.ru/images/CGAM/459/index.html но там не МК пропись а понятные почерки (хоть и старые).

Здравствуйте помогите пожалуйста разобрать этот текс. vasy7837@gmail.com

Предлагаю на рассмотрение группу "Уголок Дурова" https://forum.vgd.ru/post/5/138902/p4348252.htm#pp4348252