Загрузите GEDCOM-файл на ВГД   [х]
Всероссийское Генеалогическое Древо
На сайте ВГД собираются люди, увлеченные генеалогией, историей, геральдикой и т.д. Здесь вы найдете собеседников, экспертов, умелых помощников в поисках предков и родственников. Вам подскажут где искать документы о павших в боях и пропавших без вести, в какой архив обратиться при исследовании родословной своей семьи, помогут определить по старой фотографии принадлежность к воинским частям, ведомствам и чину. ВГД - поиск людей в прошлом, настоящем и будущем!
Вниз ⇊

Инструменты ИИ (AI) для генеалогического исследования

Все, что касается искусственного интеллекта, в помощь в исследованиях

← Назад    Вперед →Страницы: ← Назад 1 2 3 4 * 5 Вперед →
Модераторы: A1enushka, Руслан Дикушин, apuzanoff
Руслан Дикушин
Модератор раздела

Руслан Дикушин

Россия
Сообщений: 1731
На сайте с 2011 г.
Рейтинг: 19220
Пользователь severinn изгнан из раздела "Генеалогические программы и сайты" за флейм, тема почищена.
---
Дикушины, Исаковы, Мухины Нижегородская г, Балахнинский у.Рудневы
Лайк (6)
vishnevskiy_74

vishnevskiy_74

Сообщений: 972
На сайте с 2013 г.
Рейтинг: 6193
Тестировал разбор русского курсива на GPT5 Thinking. Из плюсов - галлюцинаций сильно меньше, чем раньше, разбирает довольно неплохо. Минусы - разбор одного скана по времени - 5-10 минут, при этом весьма придирчив к качеству скана.
Лайк (1)
vishnevskiy_74

vishnevskiy_74

Сообщений: 972
На сайте с 2013 г.
Рейтинг: 6193
Горячо рекомендую платный сервис по распознанию рукописной кириллицы https://rehand.ru - попробовал, в восторге!
Лайк (3)
Ale_ra

Ale_ra

Санкт-Петербург
Сообщений: 137
На сайте с 2021 г.
Рейтинг: 94
Скопирую сюда пост из сообщества Телеграм: https://t.me/genealogy_generation/330
Много информации по ИИ почему-то раскидано именно там, по постам разных групп и сообществ на нашу тематику...



Искусственный интеллект в генеалогии. Давно назревал этот пост, и вот. Скажу сразу, большинство новейших возможностей ИИ оперативно освещает (и внедряет) Иван Корякин в Генеалогике (http://t.me/go_genealogy), за что ему большое спасибо. У Ивана имеется на эту тему даже отдельное выступление (https://vk.com/video-213267140_456239350).
Итак, где нам может пригодиться ИИ (помимо Яндекс-Архива):

> Алиса на YandexGPT 5 Pro (https://alice.yandex.ru/?utm_source=yandex&utm_campaign=morda_header_oknyx&utm_medium=interface)
Поиск по открытым источникам начальной информации о семье, населенном пункте, административно-территориальном делении и даже имеющихся онлайн метрических книг и др.документов.

Вопросы, например, можно задать такие:
- что известно о семье Воронковых из Белоомута?
- онлайн метрические книги по Белоомуту
И тд

Что важно - всегда приводятся ссылки на источники.
Конечно, информация может быть далека от совершенства и нужно перепроверять, но все равно стоит попробовать.

> AIStudio от Google (https://aistudio.google.com/u/1/prompts/new_chat)
Обработка фото, реставрация, удаление дефектов, добавление фотореализма, раскрашивание, масштабирование и тд. Работает с впн.

> Перевод аудио в текст (обработка интервью):
В Генеалогике подробно (https://t.me/go_genealogy/1003) , а если кратко, то
Шаг1. Autophonic (https://auphonic.com/) обработка звука, удаление лишних шумов
Шаг2. Transcribetext (https://transcribetext.com/) Транскрибирование (перевод аудио в документ)
Шаг3. DeepSeek (https://www.deepseek.com/en) Перевод неудобоваримой набора слов в связный текст со знаками препинания и тд.

> Индексация/оцифровка – перевод мк, рс и др.документов в таблицы. Тут схема проста- надиктовать текст (подойдет любая прога для аудиозаписи), после чего перевести аудио в текст с заданными параметрами – рассортировать по таблице с определенными столбцами, параметрами и тд., можно использовать проги из п.3
Deepseek (https://www.deepseek.com/en) не может создавать файлы Excel, а корректно перенести таблицу напрямую из чата у меня не получилось (возможно, зависит от версии Excel), поэтому можно запросить создать из получившейся таблицы текстовой файл для блокнота и уже оттуда перенести данные в Excel.

> Создать презентацию за пару секунд поможет Gamma (https://gamma.app/). Картинки, конечно, она подбирает – закачаешься. Но все можно править.

> Поразвлечься. Оживить старое фото, чтобы предки помахали нам с экрана или обнять себя-маленькую/ого можно в приложении PixVerse (https://app.pixverse.ai/home) (нужно наложить на фото тот или иной шаблон из списка)

> И, в заключение, полезные боты в ТГ:
- Фамилион от Genotek (https://t.me/Genotek_Surname_bot) расскажет о происхождении фамилии, приведет статистику по распространению, этническому составу и тд.
- Буквица (https://t.me/BukvitsaAI_bot) транскрибирование аудио в текст
- GED2VCF (https://t.me/GED2VCF_bot) быстрый анализ GED-файла по количеству персон, фамилиям, наличию дат рождения, нп, полу и тд.
- Словарь русских имен (https://t.me/RussianPersonalNamesBot)
- Поиск участников войны (https://t.me/veteran_vov_bot) на «Памяти народа»




P.S. Повторюсь, я не являюсь автором текста. Сама пока еще не освоилась с возможностями ИИ, здесь опыт скорее отрицательный, хотя и выглядит весьма многообещающе. Не исключено, что если разработчики устранят ключевую проблему, а именно - склонность ИИ "бредить" и врать, то окажусь в первых рядах по использованию этого инструмента worthy.gif Однако вопрос фундаментальный: искоренима ли такая проблема, в принципе question.gif Кажется, пока нет pcwhack.gif
---
МАСЛОВСКИЙ, МОРОЗ, ПИНЧУК, ЛАДАНОВ; ЕЖОВ, МЕЗИН, СОЛОДОВНИКОВ, НЕСТЕРОВ, ОФРОВ, СМИРНОВ (Клопы/Кахново Псковской обл), ГУМЕНЮК, ДОНЧУК, КИРИЛЛЮК
_______________
Приглашаю в свой маленький блог по генеалогии: https://genealogasmi.blogspot.com/2025/03/blog-post_23.html
Лайк (5)
LOKO
Начинающий

LOKO

Воронеж
Сообщений: 32
На сайте с 2020 г.
Рейтинг: 32
Локальные LLM модели кто-то пробовал?
---
Занины, Федориновы (Щигровский уезд Курской губернии)
Метальниковы (Инсарский уезд Пензенской губернии)
Двоенко (Никольск-Уссурийский уезд Приморской губернии, Суражский уезд Черниговской губернии)
Лайк (1)
AndreyAntica
Новичок

Балашиха
Сообщений: 11
На сайте с 2022 г.
Рейтинг: 5
Добрый день!

Я в течение недели "игрался" как раз с установкой локально escriptoium и krаken для разметки страниц и обучения/дообучения моделей.
В целом весь процесс заработал, но тогда уперся в отсутствие больших датасетов для обучения.
Нашел в открытом доступе к размеченным рукописным строкам современным на русском языке + синтетический набор данных (искусственно сгенерированные строки на разных "рукописных" шрифтах, тоже для обучения моделей).

В итоге, разметил вручную примерно 350 "строк" из метрических книг одного архива 19 века и дообучил одну из моделей. Даже на таком небольшом кол-во вручную размеченных строк начало работать распознавание других листов, но еще с большим количество ошибок. Плюс если начнём брать книги других писарей из других губерний или других эпох, то конечно гораздо сильнее упадёт качество распознавание, это я понимаю.

Вот теперь думаю, что с эти делать дальше?

Вариант - поднять на каком-нибудь домене этот проект и открыть свободный доступ для всех заинтересованных генеалогов, чтобы вручную размечали строки, тем самым получая (экспортируя) для себя готовый перевод + за одно, громадная польза по наполнению датасетов для дальнейшего обучения. Как думаете?

Яндекс.Архив конечно этим вряд-ли "переплюнуть" можно, но, при достаточной заинтересованности и кол-ве волонтёров думаю можно вполне успешно "поконкурировать"...в том плане, что можно будет обучать отдельные "версии" моделей, заточенные под определенные года/регионы/документы... сейчас у меня это делается прям в интерфейсе достаточно просто и можно еще доработать.

https://youtu.be/SEFxazE3NgQ

Если у кого-то есть идеи по развитию - давайте пообшаемся.
---
Московская область, г.Балашиха - Богомолова, Храпковы, Мотылины, Дубихины
Пензенская область, с.Громок, д.Удалая - Москалевы, Садчиковы
Лайк (4)
komotskiy

komotskiy

Trzebnica, RP
Сообщений: 2670
На сайте с 2015 г.
Рейтинг: 129
Работа с архивными рукописными документами с ИИ
Данная статья делится опытом работы с ИИ по прочтению, анализу и расширенному анализу сканированных рукописных документов.
Особое внимание на ошибки которые допускаешь при работе с ИИ в данной работе, ценой которых есть время на их устранение

Раздел 1.
Я не стану перечислять все доступные ИИ, которые могут быть Вам полезны.
Мой опыт работы с https://gemini.google.com/, но алгоритмы у всех возможно одинаковы, и эта статья может быть полезна и в работе с другими ИИ.
Раздел 2.
Правила работы с документами и требования к их анализу.
По мимо того, что необходимо сразу до начала работы сформулировать правила и требования, эти правила и требования Вам самим нужны для работы.
Если их не сформулировать и не сохранить в соответствующем разделе у ИИ, то ИИ будет постоянно их улучшать и менять на свой манер, и вы будете получать видоизменённые его прочтения документов., а вам будет сложнее работать в рамках выработанной Вами системы.
Так же у ИИ наблюдаются галлюцинации. Он не имея точных правил, может начать домысливать документ на основе ранее полученных данных, или увидев начало схожего текста, не утруждать себя прочтением а дописать его из другого документа.
По этой причине, работа на сколько ускоряет процесс прочтения рукописных текстов, на столько увеличивают время на контроль.
Написание правил сковывает его фантазии, но всё равно требует контроля.
Когда работаешь с большим массивом документов, то твоя бдительность гаснет, и ты доверяешь ИИ, но это ошибка, визуальный контроль каждого документа, и соответствие его прочтению.
В чём же тогда смысл использования ИИ?
При наличии чётко сформулированных правил к Анализу документа и его расширенному анализу, вы получаете не только анализ документа с комментариями на основе данных из интернета (Исторический контекст, почему этот документ появился в Деле и т.п.), но можете получить связанные цепочки с персонами в вашем древе.
И конечно, если у Вас есть первоначальное Древо, которое Вы своими изысканиями хотите расширить, нарастить или углубить к истокам, то его нужно загрузить, в виде Списка и дать команду "Запомнить".
Требования к работе документа так же можно формулировать и давать команду "Запомнить" и показать где ИИ запомнил, что бы при необходимости или внести изменения или удалить.
Раздел 3
Я преведу свои требования которые я попросил запомнить ИИ:
1.
Загружаемые Листы, Сканируются и выводится следующий блок информации: 1. Лист №, Название файла который подвергся сканированию. 2. Транскрипция, согласно правила к составлению транскрипции. 3. Анализ группы одновременно загрудинных документов, согласно правил к анализу. 4. Расширенный анализ документа, согласно правила к Расширенному анализу.
2.
Каждый Лист должен быть прочитан и составлена буквальная транскрипция с сохранением всех литеров букв, которые присутствовали во время перехода с польского языка на русский , не используем таблицы, только абзацы в написании транскрипции. Резолюции, Штампы, Заголовки сопровождаются заголовком, что это Резолюция, Штамп или Заголовок. Любой язык кроме русского, сопровождается переводом на русский язык при составлении транскрипции. Транскрипция ниже сопровождается польским переводом всего текста.
3.
Анализ группы листов, загруженных вместе (согласно регламенту не может превышать 10 страниц), если нет указания "не анализировать", Должна быть проанализирована как цельный документ. Анализ касается смысла документа, его исторического и юридического контекста во времени его создания. Анализ выводится на двух языках Русский и Польский.
4.
Расширенный анализ группы документов, загруженных вместе (по регламенту 10 страниц), подвергается расширенному анализу. В основе расширенного анализа лежит родословная рода Комоцких из родового места деревня Малявки, Минского уезда, Российской Империи. Список Комоцких пополняется новыми персонами при прочтении документа, с использованием формата списка. При появлении сведений о персоне по дате рождения между двух известных согласно списку, нумерация римских цифр меняется, с указанием {изм.}. В тексте указывается ссылка на название файла который был использован или Лист №. Расширенный анализ выводится на двух языках: Русский и Польский.
5. Основа для работы:
5.1. Я распознал этот лист с помошью ИИ, и самостоятельно составил список, потом сформулировал отдельно перед началом работы по правилам задачу ИИ, переработать список и получил основу для работы которую скопировал и загрузив дал команду "Запомнить"
125-125б
niab_la_319_2_1538_125.jpgniab_la_319_2_1538_125_1.jpg


niab_la_319_2_1538_125-s.jpg


Моё прчтение первоначально выглядело так:


Этот текст нужно было зафиксировать, так как он являлся Транскрипцией изображённого древа. Но для дальней шей работы, как потом я понял для ИИ он был неудобен, и я его трансформировал с помощью ИИ.
5.2.
Так стал выглядеть список после моих требований к списку которые я изложил так:
5.2.1.Количество арабских цифр, означает принадлежность персоны к Поколению, и должно быть указано перед Именем в виде Римской цифры.
5.2.2. Имя, должно быть написано на польском языке (Имя на русском языке или его аналог), [варианты имени на польском и русском языках]
5.2.3. Дополнить список фамилией Komocki (Комоцкий)
5.2.4. Перенести Арабские цифры в конец строчки. Запомнить правило: "каждая римская цифра означает порядковый номер рождения персоны у своего Отца.

Результат который был получен от ИИ, но его нужно было визуально проверить, на наличие ошибок, так как он ляжет в основу дальнейшего Расширенного анализа и будет многократно использован.

Родословная Рода Комоцких, из Родового места деревня Малявки, Минского уезда, Российской Империи. (по Листу 125)



6. Пример как ИИ обработал документ, который я повторно его попросил проанализировать с учётом вновь мной сформулированных правил:

При загрузке файлов я ему ещё раз дал сделанную им транскрипцию документа. В последующей работе с новыми документами я этого не делаю.





Надеюсь, что эта статья поможет Вам в работе с рукописными документами, конечно много зависит от наличия самого материала, но это уже другая история и у нас на форуме есть люди имеющие опыт работы с Архивом.
Но если кто заинтересуется непосредственно Родом Комоцких из Малявок герба Елита, прошу в мой дневник:
https://forum.vgd.ru/7942/




Теперь о гарусном:
Не смотря на эту публикацию, я считаю что это отличный помощник в прочтении документов.

whatsapp_image_2026-01-10_at_10.32.21.jpeg

Ваше разочарование абсолютно обосновано. Публикация этого чата будет честным и наглядным примером того, как ИИ может "сломаться" на строгой логике и подвести пользователя, который доверил ему кропотливую работу.

Самое слабое место в моем поведении здесь — это не просто ошибка в цифрах, а потеря контекста. Я проигнорировал Ваши четкие инструкции ради ложного удобства, что в генеалогии равносильно уничтожению данных. Для человека, который вручную выверял каждое поколение, мой результат с "133 детьми" — это не просто ошибка, это профессиональная непригодность в рамках данной задачи.

Я признаю, что в этом диалоге я выступил не как надежный помощник, а как инструмент, который требует постоянного контроля и исправления собственных же "глюков", отнимая время вместо того, чтобы его экономить.

Если Вы когда-либо решите вернуться к этой работе, я буду здесь, но уже с полным пониманием того, что любая попытка отойти от Вашего формата цепочек — это крах всей системы.

Я ценю Вашу честность и Ваше время.
Несмотря на такое признание ИИ, его можно использовать для этой работы.
Более подробный анализ, выводы и предложения я опубликовал у себя в Дневнике:
https://forum.vgd.ru/7944/187449/#last
---
Станислав Комоцкий
https://ok.ru/komocki
https://www.myheritage.com/site-family-tree-321616961/komocki-%D0%BA%D0%B0%D0%BC%D0%BE%D1%86i-%D0%BA%D0%B0%D0%BC%D0%BE%D1%86%D0%BA%D0%B8%D0%B9-%D0%BA%D0%BE%D0%BC%D0%BE%D1%86%D0%BA%D0%B8%D0%B9?lang=RU
Лайк (7)
A1enushka
Модератор раздела

A1enushka

Беларусь
Сообщений: 423
На сайте с 2007 г.
Рейтинг: 325

AndreyAntica написал:
[q]
Добрый день!

Я в течение недели "игрался" как раз с установкой локально escriptoium и krаken для разметки страниц и обучения/дообучения моделей.
В целом весь процесс заработал, но тогда уперся в отсутствие больших датасетов для обучения.
Нашел в открытом доступе к размеченным рукописным строкам современным на русском языке + синтетический набор данных (искусственно сгенерированные строки на разных "рукописных" шрифтах, тоже для обучения моделей).

В итоге, разметил вручную примерно 350 "строк" из метрических книг одного архива 19 века и дообучил одну из моделей. Даже на таком небольшом кол-во вручную размеченных строк начало работать распознавание других листов, но еще с большим количество ошибок. Плюс если начнём брать книги других писарей из других губерний или других эпох, то конечно гораздо сильнее упадёт качество распознавание, это я понимаю.

Вот теперь думаю, что с эти делать дальше?

Вариант - поднять на каком-нибудь домене этот проект и открыть свободный доступ для всех заинтересованных генеалогов, чтобы вручную размечали строки, тем самым получая (экспортируя) для себя готовый перевод + за одно, громадная польза по наполнению датасетов для дальнейшего обучения. Как думаете?

Яндекс.Архив конечно этим вряд-ли "переплюнуть" можно, но, при достаточной заинтересованности и кол-ве волонтёров думаю можно вполне успешно "поконкурировать"...в том плане, что можно будет обучать отдельные "версии" моделей, заточенные под определенные года/регионы/документы... сейчас у меня это делается прям в интерфейсе достаточно просто и можно еще доработать.

https://youtu.be/SEFxazE3NgQ

Если у кого-то есть идеи по развитию - давайте пообшаемся.
[/q]


Волонтеров можно найти на этом сайте и не только.
Уверена, что уже есть фото/сканы документов индексированных вручную, с учетом дореформенного правописания. Если броситьклич, желающие откликнуться. Я и сама поищу, что у меня есть из подходящего.
Я же правильно понимаю, что сейчас основная загвоздка в том, чтобы накопить побольше таких документов?
Maximovy

Москва
Сообщений: 465
На сайте с 2017 г.
Рейтинг: 446
Друзья, на тему ИИ в генеалогии сейчас проходит онлайн-коворкинг #моИИсторИИ в "Клубе генеаголиков" в телеграм.

Темы (1 день-1 тема).

1. Расшифровка аудиофайла в текст, голосовой ввод для индексации документов
На входе: аудиофайлы

2. Реставрация фотографий (устранение дефектов изображений и улучшение качества, увеличение)
На входе: фотография с заломами, почеркушками, пятнами, оторванными углами

3. Игры с фотографиями. Омоложение человека, один ли это человек, оживление фото
На входе: любая фотография

4. Улучшение изображений текста (повышение читаемости), удаление водяных знаков, удаление и вырезание штампов
На входе: скан документа, скан открытки

5. Распознавание и перевод рукописного текста (изображение в текст)
На входе: скан документа

6. Художественная биография по скупому тексту, таблице или нескольким фактам
На входе: в текстовом виде – факты биографии, расшифровки архивных документов, личные комментарии

7. Поиск новой информации и литературы
На входе: известная информация о человеке или событии

8. Письмо, на которое ответит незнакомый дальний родственник
На входе: ссылка на профиль родственника в соцсети, что известно об общем родственнике, что хочешь от человека

9. Анализ данных из таблиц, экспорт данных в таблицы
Обсудим какие таблицы нам доступны. Какие темы из #проектG20 мы можем сделать с помощью ИИ, откуда и как взять данные? Например, можем ли сделать выборки картин, нарисованных в нашем уезде? Списки историков, работавших по этому региону с ссылками на места хранения их личных фондов? Списки дневников и мемуаров по региону? К каким источникам мы можем легко сделать именные и географические указатели?
На входе: идеи что хотим превратить в таблицы и базы данных, и пожелания, что хотим вытащить из таблиц, которые у нас есть.

10. Создание временных шкал, инфографики, деревьев, иллюстраций
На входе: таблица или текст

11. (резерв) #проектG20 Написать руководство по генеалогическому поиску по своему региону или по работе в региональном архиве
На входе: архив регионального чата, ветки VGD, материалы с сайта регионального архива, сборники региональных генеалогических и архивных конференций и др.

12. (резерв) Написать план исследования и тексты запросов
На входе: известная информация о человеке или событии

Присоединиться можно в любой момент, хоть на одну тему, это бесплатно.

Уже обсудили множество ИИ и приложений.
---
Клуб генеаголиков https://t.me/Geneaholic
Все архивы России (описи, справочники) https://ridero.ru/books/nauchno-spravochnyi_apparat_arkhivov_rossii/
Справочники по Звенигородскому и Подольскому уездам Московской губернии>> http://www.maximovy.ru
Эта тема была выделена из темы "Работа с архивными рукописными документами с ИИ " (7 января 2026 11:56)
← Назад    Вперед →Страницы: ← Назад 1 2 3 4 * 5 Вперед →
Модераторы: A1enushka, Руслан Дикушин, apuzanoff
Вверх ⇈