Инструменты ИИ (AI) для генеалогического исследования : ВГД

На сайте ВГД собираются люди, увлеченные генеалогией, историей, геральдикой и т.д. Здесь вы найдете собеседников, экспертов, умелых помощников в поисках предков и родственников. Вам подскажут где искать документы о павших в боях и пропавших без вести, в какой архив обратиться при исследовании родословной своей семьи, помогут определить по старой фотографии принадлежность к воинским частям, ведомствам и чину. ВГД - поиск людей в прошлом, настоящем и будущем!

Ivanovani написал:

[q]

Vkzh87 написал:
[q]

Мы с единомышленниками сейчас пытаемся ускорить процесс индексации, пока наиболее рабочий вариант это чтение книг с голосовым набором текстового файла, а потом Claude этот текстовый файл превращает в таблицу эксель с любыми нужными столбцами и фильтрами,
[/q]

На сколько близко к тексту происходит такая расшифровка? Что происходит, если в родном тексте документа рядом стоят Иоанн и Иоан, Федот и Хведот, Сигилинтия, Сигилития, Сиклинтия и Сгклитикия? Разницу он чувствует?
[/q]

Чаще всего на ходу приходится корректировать сложные имена и названия нп, все равно быстрее чем все перепечатывать.

Deepseek неплохо вылавливает логические ошибки в готовых расшифровках и условные "описки", но править ему готовый документ доверять нельзя, потому что родной текст документа он пытается подогнать под современный язык, а это есть искажение исходного текста.

Часто что-то пропускает и не учитывает.
Из недавних кейсов: делаю запрос на цензуру фамилий, прошу их заменить на [Цензура].
Из 8 фамилий 2 не цензурирует.

Vkzh87 написал:

[q]
на ходу приходится корректировать сложные имена
[/q]

Как это происходит? У меня исповедка на полторы тысячи человек. Я должна сесть и проверить построчно, все ли он корректно понял?

Ivanovani написал:

[q]

Vkzh87 написал:
[q]

на ходу приходится корректировать сложные имена
[/q]

Как это происходит? У меня исповедка на полторы тысячи человек. Я должна сесть и проверить построчно, все ли он корректно понял?
[/q]

время для таких объемов еще не наступило))) я имел ввиду корректировка на ходу при голосовом наборе, автоматом пока не получается, много глюков

Ivanovani написал:

[q]
Deepseek неплохо вылавливает логические ошибки в готовых расшифровках и условные "описки", но править ему готовый документ доверять нельзя, потому что родной текст документа он пытается подогнать под современный язык, а это есть искажение исходного текста.

Часто что-то пропускает и не учитывает.
Из недавних кейсов: делаю запрос на цензуру фамилий, прошу их заменить на [Цензура].
Из 8 фамилий 2 не цензурирует.
[/q]

Пробуйте более мощные модели. Лучше через claude, он в этом сейчас наверно топ

У кого есть опыт использования российских облачных сервисов, предоставляющих доступ к моделям по выбору, через локальный десктопный LM-клиент (по API) типа LMStudio/Jan/Gpt4all и т.п.?
Желательно с ссылками на сервис (или названием) и примерно в какую сумму выходит период или количество токенов.
Интересуют только российские, т.к. нет времени/сил/ресурса (и желания) заниматься всякими хитрыми схемами по доступу и оплате заграничных.

Поделитесь, пожалуйста, информацией!

В рамках своего проекта GEDKeeper, разработал на базе ядра программы MCP-сервер для пополнения базы данных (файла) GEDCOM, посредством работы с текстом на естественном языке.

Тестировал на двух бесплатных облачных подписках (сжег под ноль) и на локальных моделях. И на локальных, и на облачных - работает. Но облачные закончились, а локальные - дискретка слабовата, не планировалась на такое. Тянет только маленькие и тупенькие модели, рассуждение ползет, как улитка. Инструменты (команды) MCP-сервера выполняются, данные залетают в базу, можно сохранить/загрузить, просмотреть. В общей сложности 74 команды уже есть - где-то половина от планируемого финального количества. Но начинаются сложные сценарии работы, комплексные, которые локально тестировать уже совсем тягомотно. Никаких сил не хватает ждать, пока уже запущенная модель прогреется и начнет работать. А перезапуски при разработке - частые.

Смотрел статьи и рейтинги на LM-облака яндекс, сбер - не вдохновляют ни те, ни другие. Смотрел в сторону Cloud.ru (тоже бывший сбер, но какой-то подозрительно отделившийся) - не определился с мнением. Может кто знает больше?

На мой взгляд, для распознавания рукописного текста сейчас лучше всего подходит Gemini. Начал его использовать для дневников, мемуаров и документов на русском языке. Пока все отлично. Уверено читает и современные, и дореволюционные страницы, причем иногда с некачественных, размытых фотографий. Вот пример: https://vetvidreva.ru/showalbum.php?albumID=9
Конечно, контроль и вычитка необходимы, но в целом это большая подмога, на страницу уходят считанные секунды

Для рукописного текста - сильно рекомендую Scribe AI - https://www.myheritage.com/scribe-ai?lang=RU пробовал с помощью него распознать Венгерский - на удивление отлично
Для примера скачал рандомно в я.архиве метрику на русском

Вот результат:

[q]

МЕТРИЧЕСКОЙ КНИГИ НА 1883 ГОДЪ, ЧАСТЬ ВТОРАЯ, О БРАКОСОЧЕТАВШИХСЯ.
Счётъ браковъ.
Мѣсяцъ и день.
Званіе, имя, отчество, фамилія и вѣроисповѣданіе жениха, и которымъ бракомъ.
Лѣта жениха.
Званіе, имя, отчество, фамилія и вѣроисповѣданіе невѣсты, и которымъ бракомъ.
Лѣта невѣсты.
Кто совершалъ таинство.
Кто были поручители.
Подпись свидѣтелей записи по желанію.

5.
11
Большемышевской волости деревни Ступина крестьянинъ Федоръ Ивановъ православнаго вѣроисповѣданія первымъ бракомъ
24.
Большемышевской волости села Белянкинова крестьянская дѣвица Агафья Михайлова православнаго вѣроисповѣданія
19.
Приходскій Священникъ Николай Звѣревъ, Діаконъ Павелъ Орловъ, Пономарь Михаилъ Смоленскій
Поручителями по женихѣ были крестьяне Большемышевской волости деревни Ступина Егоръ Ивановъ, Терентій Васильевъ и Василій Никитинъ; по невѣстѣ - села Белянкинова крестьяне Николай Никифоровъ и Иванъ Ивановъ.

6.
18.
Большемышевской волости сельца Колыча крестьянинъ Егоръ Никифоровъ православнаго вѣроисповѣданія первымъ бракомъ.
19.
Большемышевской волости деревни Топорищева крестьянская дѣвица Параскева Никифорова православнаго вѣроисповѣданія
22.
Приходскій Священникъ Николай Звѣревъ, Діаконъ Павелъ Орловъ, Пономарь Михаилъ Смоленскій
Поручителями по женихѣ были крестьяне Большемышевской волости сельца Колыча Никифоръ Иларіоновъ, Николай Никифоровъ и Михаилъ Стефановъ; по невѣстѣ - Большемышевской волости деревни Топорищева крестьяне Максимъ Лукіановъ и Николай Егоровъ.

7.
18.
Большемышевской волости сельца Голубина крестьянинъ Іоаннъ Ефимовъ православнаго вѣроисповѣданія первымъ бракомъ
19.
Проживающая въ сельцѣ Голубинѣ воспитанница Воспитательнаго дома дѣвица Дарья Андреева православнаго вѣроисповѣданія
20.
Приходскій Священникъ Николай Звѣревъ, Діаконъ Павелъ Орловъ, Пономарь Михаилъ Смоленскій
Поручителями по женихѣ были крестьяне Большемышевской волости сельца Голубина Ефимъ Васильевъ, Александръ Тимофеевъ и Афанасій Ивановъ; по невѣстѣ - той же волости и сельца крестьяне Емельянъ Алексѣевъ и Федотъ Михаиловъ.

[/q]

Kaper156 написал:

[q]
Большемышевской
[/q]

В оригинале же Вельяминовской. Так что пока всё равно перепроверять нужно.

Инструменты ИИ (AI) для генеалогического исследования

Все, что касается искусственного интеллекта, в помощь в исследованиях