Загрузите GEDCOM-файл на ВГД   [х]
Всероссийское Генеалогическое Древо
На сайте ВГД собираются люди, увлеченные генеалогией, историей, геральдикой и т.д. Здесь вы найдете собеседников, экспертов, умелых помощников в поисках предков и родственников. Вам подскажут где искать документы о павших в боях и пропавших без вести, в какой архив обратиться при исследовании родословной своей семьи, помогут определить по старой фотографии принадлежность к воинским частям, ведомствам и чину. ВГД - поиск людей в прошлом, настоящем и будущем!
Вниз ⇊

Инструменты ИИ (AI) для генеалогического исследования

Все, что касается искусственного интеллекта, в помощь в исследованиях

    Вперед →Страницы: ← Назад 1 2 3 * 4 5 Вперед →
Модераторы: A1enushka, Руслан Дикушин, apuzanoff
vam

vam

Москва
Сообщений: 27987
На сайте с 2003 г.
Рейтинг: 3646
Я был на лекции с представителем Яндекса по ИИ.
Раньше они они были структурой Яндекса по машинному поиску, сейчас появились термины ИИ, нейропоиск - это все тот же автоматический поиск с постоянным совершенствованием алгоритмов.
Глупо отрицать возможности ИИ поиска, если уже есть возможность обрабатывать рукописные документы прошлых веков.
Качество здесь зависит не только от совершенства поиска, но от объемов информации, которые не может обработать, хранить и использовать человеческий мозг.
Это все равно, что сейчас отрицать возможности интернета и утверждать, что проще сходить в библиотеку и найти населенный пункт по справочнику.
Лайк (2)
vam

vam

Москва
Сообщений: 27987
На сайте с 2003 г.
Рейтинг: 3646

LonerD написал:
[q]
Распознать рукописный текст? Если попадётся трудночитаемый ("по скромному мнению ИИ") участок текста, то насочиняет такого, что и близко не похоже.
[/q]


Это частная задача.
Возможно, текст уже давно распознан и опубликован.
Кроме того, также возможны варианты с копиями первоисточниками лучшего качества для прочтения, которые хранятся в других архивам.
vam

vam

Москва
Сообщений: 27987
На сайте с 2003 г.
Рейтинг: 3646
Например, РГАДА забраковал процент распознавания рукописных описей, которые создавали архивисты прошлых веков с хреновым почерком.
Новые машинописные описи создавали те же архивисты с новыми ошибками по распознаванию текста.
И здесь напрашивается решение, если опубликовать первоисточники, то на выходе был бы другой результат.
Лайк (2)
severinn

Сообщений: 7233
На сайте с 2005 г.
Рейтинг: 2416
говорить об ИИ рано, есть только отдельные (в т.ч и неудачные) программы по распознаванию печатного или рукописного текста (разного уровня).
И никто не сделал программы по распознаванию и алфавитной систематизации изданных списков Литовской метрики, изданных реестров и т.д. И никто не выполнил и не выложил в качестве примеров на ВГД.
Делается все вручную. Где тут ИИ ?
vishnevskiy_74

vishnevskiy_74

Сообщений: 964
На сайте с 2013 г.
Рейтинг: 6126

severinn написал:
[q]
говорить об ИИ рано, есть только отдельные (в т.ч и неудачные) программы по распознаванию печатного или рукописного текста (разного уровня).
И никто не сделал программы по распознаванию и алфавитной систематизации изданных списков Литовской метрики, изданных реестров и т.д. И не выполнил и не выложил в качестве примеров на ВГД.
Делается все вручную. Где тут ИИ ?
[/q]


Я еще раз повторюсь, что нейросети сейчас не в состоянии делать всю работу за человека, но облегчить его труд в части распознания текста и систематизации данных - вполне. Почему никто не использует ИИ при распознавании и систематизации изданных списков Литовской метрики - вопрос риторический, инструменты для распознавания и систематизации есть. Вот, например, пилотный проект от FamilySearch. И пример его использования в поисках.
Лайк (2)
vam

vam

Москва
Сообщений: 27987
На сайте с 2003 г.
Рейтинг: 3646
Согласен, но как раз говорить не рано, а что бы что-то сделать, необходимо для начала оцифровать Литовскую метрику.
Лайк (4)
ciberhunter

ciberhunter

Барнаул FTDNA IN12531 GEDMATCH T775758
Сообщений: 1603
На сайте с 2015 г.
Рейтинг: 426
Коллеги, я уверен, что надо пробовать. А не подрывать моральный настрой тех кто хочет попробовать. Если вы совсем не понимаете в теме, не надо ставить палки в колеса. Да древние движки брешут очень сильно. Но чем больше обучают ИИ, тем они становятся совершенней. Ищу единомышленников. Считаю надо разбивать проблему на более мелкие. И мелкими шашками достигать истины.
Постановка задачи.
Есть куча архивов в виде фотографий и сканов документов.
Вижу подобные шаги
1 Необходимо для начала просто прочитать файлы и распознать их OCR движком
2 Для начала думаю не надо учить распознавать ИИ структуру документа. Просто для начала сделать контекстный поиск по документам. На полное распознание структуры не берется даже Yandex
3 Предусмотреть возможность создания данных для обучения ии в области распознания и в области обработки данных.
4 Я установил движки Deepseek-r1 и GPT-oss пока играюсь, но хотел бы научиться дообучать модели. В идеале бы найти программиста который бы помог написать нужные скрипты.
5. Постепенно надо как-то научить ИИ понимать структуру документа.
6. Цель научить ИИ обрабатывать запросы к локальной базе фото.

Как автор платить за распознание каждой страницы я не могу, у меня количество фото скоро достигнет 100тыс. Если бы я мог предложить людям проект, то таких фото было бы миллионы.
---
Клочки, Бельмесево, Бураново, Калманка, Стежки, Дегтянка, Верхние пупки, Малые пупки, Березовка, Тамбовка, Незнановка, Просечье
тг @chelnavskii Челнавский стан
тг @barnaul_genealogy Барнаульский уезд
тг @lysie_gory Лысые горы Тамбовский уезд и выселки Незнановка, Беломестная криуша, Козмодемьянов
Лайк (3)
severinn

Сообщений: 7233
На сайте с 2005 г.
Рейтинг: 2416
это задача не 21 века
на современном уровне не решить
vishnevskiy_74

vishnevskiy_74

Сообщений: 964
На сайте с 2013 г.
Рейтинг: 6126

severinn написал:
[q]
это задача не 21 века
на современном уровне не решить
[/q]


Вполне решаема уже на текущем этапе (и примеры Yandex archive и FamilySearch, eScriptorium пример и т.п. перед глазами), вопрос в поиске заинтересованных лиц, деньгах и трудозатратах.


Лайк (1)
vishnevskiy_74

vishnevskiy_74

Сообщений: 964
На сайте с 2013 г.
Рейтинг: 6126

vishnevskiy_74 написал:
[q]

severinn написал:
[q]

это задача не 21 века
на современном уровне не решить
[/q]



Вполне решаема уже на текущем этапе (и примеры Yandex archive и FamilySearch, eScriptorium пример и т.п. перед глазами), вопрос в поиске заинтересованных лиц, деньгах и трудозатратах.


[/q]



Про eScriptorium можно почитать здесь и здесь— это открытое веб-приложение для работы с историческими документами (печатными и рукописными): загрузка изображений/сканов, разметка и сегментация страниц, автоматическая и ручная транскрипция, обучение собственных моделей и экспорт результатов. Движок вот этот. Пишут про возможность полнотекстового поиска . И про возможность локального развертывания
Лайк (1)
    Вперед →Страницы: ← Назад 1 2 3 * 4 5 Вперед →
Модераторы: A1enushka, Руслан Дикушин, apuzanoff
Вверх ⇈