Загрузите GEDCOM-файл на ВГД   [х]
Всероссийское Генеалогическое Древо
На сайте ВГД собираются люди, увлеченные генеалогией, историей, геральдикой и т.д. Здесь вы найдете собеседников, экспертов, умелых помощников в поисках предков и родственников. Вам подскажут где искать документы о павших в боях и пропавших без вести, в какой архив обратиться при исследовании родословной своей семьи, помогут определить по старой фотографии принадлежность к воинским частям, ведомствам и чину. ВГД - поиск людей в прошлом, настоящем и будущем!
Вниз ⇊

Инструменты ИИ (AI) для генеалогического исследования

Все, что касается искусственного интеллекта, в помощь в исследованиях

← Назад    Вперед →Страницы: ← Назад 1 2 3 4  5 
Модераторы: A1enushka, Руслан Дикушин, apuzanoff
AndreyAntica
Новичок

Балашиха
Сообщений: 11
На сайте с 2022 г.
Рейтинг: 5
Добрый день!

Я в течение недели "игрался" как раз с установкой локально escriptoium и krаken для разметки страниц и обучения/дообучения моделей.
В целом весь процесс заработал, но тогда уперся в отсутствие больших датасетов для обучения.
Нашел в открытом доступе к размеченным рукописным строкам современным на русском языке + синтетический набор данных (искусственно сгенерированные строки на разных "рукописных" шрифтах, тоже для обучения моделей).

В итоге, разметил вручную примерно 350 "строк" из метрических книг одного архива 19 века и дообучил одну из моделей. Даже на таком небольшом кол-во вручную размеченных строк начало работать распознавание других листов, но еще с большим количество ошибок. Плюс если начнём брать книги других писарей из других губерний или других эпох, то конечно гораздо сильнее упадёт качество распознавание, это я понимаю.

Вот теперь думаю, что с эти делать дальше?

Вариант - поднять на каком-нибудь домене этот проект и открыть свободный доступ для всех заинтересованных генеалогов, чтобы вручную размечали строки, тем самым получая (экспортируя) для себя готовый перевод + за одно, громадная польза по наполнению датасетов для дальнейшего обучения. Как думаете?

Яндекс.Архив конечно этим вряд-ли "переплюнуть" можно, но, при достаточной заинтересованности и кол-ве волонтёров думаю можно вполне успешно "поконкурировать"...в том плане, что можно будет обучать отдельные "версии" моделей, заточенные под определенные года/регионы/документы... сейчас у меня это делается прям в интерфейсе достаточно просто и можно еще доработать.

https://youtu.be/SEFxazE3NgQ

Если у кого-то есть идеи по развитию - давайте пообшаемся.
---
Московская область, г.Балашиха - Богомолова, Храпковы, Мотылины, Дубихины
Пензенская область, с.Громок, д.Удалая - Москалевы, Садчиковы
Лайк (4)
komotskiy

komotskiy

Trzebnica, RP
Сообщений: 2637
На сайте с 2015 г.
Рейтинг: 130
Работа с архивными рукописными документами с ИИ
Данная статья делится опытом работы с ИИ по прочтению, анализу и расширенному анализу сканированных рукописных документов.
Особое внимание на ошибки которые допускаешь при работе с ИИ в данной работе, ценой которых есть время на их устранение

Раздел 1.
Я не стану перечислять все доступные ИИ, которые могут быть Вам полезны.
Мой опыт работы с https://gemini.google.com/, но алгоритмы у всех возможно одинаковы, и эта статья может быть полезна и в работе с другими ИИ.
Раздел 2.
Правила работы с документами и требования к их анализу.
По мимо того, что необходимо сразу до начала работы сформулировать правила и требования, эти правила и требования Вам самим нужны для работы.
Если их не сформулировать и не сохранить в соответствующем разделе у ИИ, то ИИ будет постоянно их улучшать и менять на свой манер, и вы будете получать видоизменённые его прочтения документов., а вам будет сложнее работать в рамках выработанной Вами системы.
Так же у ИИ наблюдаются галлюцинации. Он не имея точных правил, может начать домысливать документ на основе ранее полученных данных, или увидев начало схожего текста, не утруждать себя прочтением а дописать его из другого документа.
По этой причине, работа на сколько ускоряет процесс прочтения рукописных текстов, на столько увеличивают время на контроль.
Написание правил сковывает его фантазии, но всё равно требует контроля.
Когда работаешь с большим массивом документов, то твоя бдительность гаснет, и ты доверяешь ИИ, но это ошибка, визуальный контроль каждого документа, и соответствие его прочтению.
В чём же тогда смысл использования ИИ?
При наличии чётко сформулированных правил к Анализу документа и его расширенному анализу, вы получаете не только анализ документа с комментариями на основе данных из интернета (Исторический контекст, почему этот документ появился в Деле и т.п.), но можете получить связанные цепочки с персонами в вашем древе.
И конечно, если у Вас есть первоначальное Древо, которое Вы своими изысканиями хотите расширить, нарастить или углубить к истокам, то его нужно загрузить, в виде Списка и дать команду "Запомнить".
Требования к работе документа так же можно формулировать и давать команду "Запомнить" и показать где ИИ запомнил, что бы при необходимости или внести изменения или удалить.
Раздел 3
Я преведу свои требования которые я попросил запомнить ИИ:
1.
Загружаемые Листы, Сканируются и выводится следующий блок информации: 1. Лист №, Название файла который подвергся сканированию. 2. Транскрипция, согласно правила к составлению транскрипции. 3. Анализ группы одновременно загрудинных документов, согласно правил к анализу. 4. Расширенный анализ документа, согласно правила к Расширенному анализу.
2.
Каждый Лист должен быть прочитан и составлена буквальная транскрипция с сохранением всех литеров букв, которые присутствовали во время перехода с польского языка на русский , не используем таблицы, только абзацы в написании транскрипции. Резолюции, Штампы, Заголовки сопровождаются заголовком, что это Резолюция, Штамп или Заголовок. Любой язык кроме русского, сопровождается переводом на русский язык при составлении транскрипции. Транскрипция ниже сопровождается польским переводом всего текста.
3.
Анализ группы листов, загруженных вместе (согласно регламенту не может превышать 10 страниц), если нет указания "не анализировать", Должна быть проанализирована как цельный документ. Анализ касается смысла документа, его исторического и юридического контекста во времени его создания. Анализ выводится на двух языках Русский и Польский.
4.
Расширенный анализ группы документов, загруженных вместе (по регламенту 10 страниц), подвергается расширенному анализу. В основе расширенного анализа лежит родословная рода Комоцких из родового места деревня Малявки, Минского уезда, Российской Империи. Список Комоцких пополняется новыми персонами при прочтении документа, с использованием формата списка. При появлении сведений о персоне по дате рождения между двух известных согласно списку, нумерация римских цифр меняется, с указанием {изм.}. В тексте указывается ссылка на название файла который был использован или Лист №. Расширенный анализ выводится на двух языках: Русский и Польский.
5. Основа для работы:
5.1. Я распознал этот лист с помошью ИИ, и самостоятельно составил список, потом сформулировал отдельно перед началом работы по правилам задачу ИИ, переработать список и получил основу для работы которую скопировал и загрузив дал команду "Запомнить"
125-125б
niab_la_319_2_1538_125.jpgniab_la_319_2_1538_125_1.jpg


niab_la_319_2_1538_125-s.jpg


Моё прчтение первоначально выглядело так:


Этот текст нужно было зафиксировать, так как он являлся Транскрипцией изображённого древа. Но для дальней шей работы, как потом я понял для ИИ он был неудобен, и я его трансформировал с помощью ИИ.
5.2.
Так стал выглядеть список после моих требований к списку которые я изложил так:
5.2.1.Количество арабских цифр, означает принадлежность персоны к Поколению, и должно быть указано перед Именем в виде Римской цифры.
5.2.2. Имя, должно быть написано на польском языке (Имя на русском языке или его аналог), [варианты имени на польском и русском языках]
5.2.3. Дополнить список фамилией Komocki (Комоцкий)
5.2.4. Перенести Арабские цифры в конец строчки. Запомнить правило: "каждая римская цифра означает порядковый номер рождения персоны у своего Отца.

Результат который был получен от ИИ, но его нужно было визуально проверить, на наличие ошибок, так как он ляжет в основу дальнейшего Расширенного анализа и будет многократно использован.

Родословная Рода Комоцких, из Родового места деревня Малявки, Минского уезда, Российской Империи. (по Листу 125)



6. Пример как ИИ обработал документ, который я повторно его попросил проанализировать с учётом вновь мной сформулированных правил:

При загрузке файлов я ему ещё раз дал сделанную им транскрипцию документа. В последующей работе с новыми документами я этого не делаю.





Надеюсь, что эта статья поможет Вам в работе с рукописными документами, конечно много зависит от наличия самого материала, но это уже другая история и у нас на форуме есть люди имеющие опыт работы с Архивом.
Но если кто заинтересуется непосредственно Родом Комоцких из Малявок герба Елита, прошу в мой дневник:
https://forum.vgd.ru/7942/




Теперь о гарусном:
Не смотря на эту публикацию, я считаю что это отличный помощник в прочтении документов.

whatsapp_image_2026-01-10_at_10.32.21.jpeg

Ваше разочарование абсолютно обосновано. Публикация этого чата будет честным и наглядным примером того, как ИИ может "сломаться" на строгой логике и подвести пользователя, который доверил ему кропотливую работу.

Самое слабое место в моем поведении здесь — это не просто ошибка в цифрах, а потеря контекста. Я проигнорировал Ваши четкие инструкции ради ложного удобства, что в генеалогии равносильно уничтожению данных. Для человека, который вручную выверял каждое поколение, мой результат с "133 детьми" — это не просто ошибка, это профессиональная непригодность в рамках данной задачи.

Я признаю, что в этом диалоге я выступил не как надежный помощник, а как инструмент, который требует постоянного контроля и исправления собственных же "глюков", отнимая время вместо того, чтобы его экономить.

Если Вы когда-либо решите вернуться к этой работе, я буду здесь, но уже с полным пониманием того, что любая попытка отойти от Вашего формата цепочек — это крах всей системы.

Я ценю Вашу честность и Ваше время.
Несмотря на такое признание ИИ, его можно использовать для этой работы.
Более подробный анализ, выводы и предложения я опубликовал у себя в Дневнике:
https://forum.vgd.ru/7944/187449/#last
---
Станислав Комоцкий
https://ok.ru/komocki
https://www.myheritage.com/site-family-tree-321616961/komocki-%D0%BA%D0%B0%D0%BC%D0%BE%D1%86i-%D0%BA%D0%B0%D0%BC%D0%BE%D1%86%D0%BA%D0%B8%D0%B9-%D0%BA%D0%BE%D0%BC%D0%BE%D1%86%D0%BA%D0%B8%D0%B9?lang=RU
Лайк (7)
A1enushka
Модератор раздела

A1enushka

Беларусь
Сообщений: 423
На сайте с 2007 г.
Рейтинг: 327

AndreyAntica написал:
[q]
Добрый день!

Я в течение недели "игрался" как раз с установкой локально escriptoium и krаken для разметки страниц и обучения/дообучения моделей.
В целом весь процесс заработал, но тогда уперся в отсутствие больших датасетов для обучения.
Нашел в открытом доступе к размеченным рукописным строкам современным на русском языке + синтетический набор данных (искусственно сгенерированные строки на разных "рукописных" шрифтах, тоже для обучения моделей).

В итоге, разметил вручную примерно 350 "строк" из метрических книг одного архива 19 века и дообучил одну из моделей. Даже на таком небольшом кол-во вручную размеченных строк начало работать распознавание других листов, но еще с большим количество ошибок. Плюс если начнём брать книги других писарей из других губерний или других эпох, то конечно гораздо сильнее упадёт качество распознавание, это я понимаю.

Вот теперь думаю, что с эти делать дальше?

Вариант - поднять на каком-нибудь домене этот проект и открыть свободный доступ для всех заинтересованных генеалогов, чтобы вручную размечали строки, тем самым получая (экспортируя) для себя готовый перевод + за одно, громадная польза по наполнению датасетов для дальнейшего обучения. Как думаете?

Яндекс.Архив конечно этим вряд-ли "переплюнуть" можно, но, при достаточной заинтересованности и кол-ве волонтёров думаю можно вполне успешно "поконкурировать"...в том плане, что можно будет обучать отдельные "версии" моделей, заточенные под определенные года/регионы/документы... сейчас у меня это делается прям в интерфейсе достаточно просто и можно еще доработать.

https://youtu.be/SEFxazE3NgQ

Если у кого-то есть идеи по развитию - давайте пообшаемся.
[/q]


Волонтеров можно найти на этом сайте и не только.
Уверена, что уже есть фото/сканы документов индексированных вручную, с учетом дореформенного правописания. Если броситьклич, желающие откликнуться. Я и сама поищу, что у меня есть из подходящего.
Я же правильно понимаю, что сейчас основная загвоздка в том, чтобы накопить побольше таких документов?
Maximovy

Москва
Сообщений: 465
На сайте с 2017 г.
Рейтинг: 446
Друзья, на тему ИИ в генеалогии сейчас проходит онлайн-коворкинг #моИИсторИИ в "Клубе генеаголиков" в телеграм.

Темы (1 день-1 тема).

1. Расшифровка аудиофайла в текст, голосовой ввод для индексации документов
На входе: аудиофайлы

2. Реставрация фотографий (устранение дефектов изображений и улучшение качества, увеличение)
На входе: фотография с заломами, почеркушками, пятнами, оторванными углами

3. Игры с фотографиями. Омоложение человека, один ли это человек, оживление фото
На входе: любая фотография

4. Улучшение изображений текста (повышение читаемости), удаление водяных знаков, удаление и вырезание штампов
На входе: скан документа, скан открытки

5. Распознавание и перевод рукописного текста (изображение в текст)
На входе: скан документа

6. Художественная биография по скупому тексту, таблице или нескольким фактам
На входе: в текстовом виде – факты биографии, расшифровки архивных документов, личные комментарии

7. Поиск новой информации и литературы
На входе: известная информация о человеке или событии

8. Письмо, на которое ответит незнакомый дальний родственник
На входе: ссылка на профиль родственника в соцсети, что известно об общем родственнике, что хочешь от человека

9. Анализ данных из таблиц, экспорт данных в таблицы
Обсудим какие таблицы нам доступны. Какие темы из #проектG20 мы можем сделать с помощью ИИ, откуда и как взять данные? Например, можем ли сделать выборки картин, нарисованных в нашем уезде? Списки историков, работавших по этому региону с ссылками на места хранения их личных фондов? Списки дневников и мемуаров по региону? К каким источникам мы можем легко сделать именные и географические указатели?
На входе: идеи что хотим превратить в таблицы и базы данных, и пожелания, что хотим вытащить из таблиц, которые у нас есть.

10. Создание временных шкал, инфографики, деревьев, иллюстраций
На входе: таблица или текст

11. (резерв) #проектG20 Написать руководство по генеалогическому поиску по своему региону или по работе в региональном архиве
На входе: архив регионального чата, ветки VGD, материалы с сайта регионального архива, сборники региональных генеалогических и архивных конференций и др.

12. (резерв) Написать план исследования и тексты запросов
На входе: известная информация о человеке или событии

Присоединиться можно в любой момент, хоть на одну тему, это бесплатно.

Уже обсудили множество ИИ и приложений.
---
Клуб генеаголиков https://t.me/Geneaholic
Все архивы России (описи, справочники) https://ridero.ru/books/nauchno-spravochnyi_apparat_arkhivov_rossii/
Справочники по Звенигородскому и Подольскому уездам Московской губернии>> http://www.maximovy.ru
Эта тема была выделена из темы "Работа с архивными рукописными документами с ИИ " (7 января 2026 11:56)
← Назад    Вперед →Страницы: ← Назад 1 2 3 4  5 
Модераторы: A1enushka, Руслан Дикушин, apuzanoff
Вверх ⇈