Инструменты ИИ (AI) для генеалогического исследования
Все, что касается искусственного интеллекта, в помощь в исследованиях
vam Москва Сообщений: 27987 На сайте с 2003 г. Рейтинг: 3646 | Наверх ##
12 августа 11:54 12 августа 11:55 Я был на лекции с представителем Яндекса по ИИ. Раньше они они были структурой Яндекса по машинному поиску, сейчас появились термины ИИ, нейропоиск - это все тот же автоматический поиск с постоянным совершенствованием алгоритмов. Глупо отрицать возможности ИИ поиска, если уже есть возможность обрабатывать рукописные документы прошлых веков. Качество здесь зависит не только от совершенства поиска, но от объемов информации, которые не может обработать, хранить и использовать человеческий мозг. Это все равно, что сейчас отрицать возможности интернета и утверждать, что проще сходить в библиотеку и найти населенный пункт по справочнику. | | Лайк (2) |
vam Москва Сообщений: 27987 На сайте с 2003 г. Рейтинг: 3646 | Наверх ##
12 августа 11:59 12 августа 12:17 LonerD написал: [q] Распознать рукописный текст? Если попадётся трудночитаемый ("по скромному мнению ИИ") участок текста, то насочиняет такого, что и близко не похоже.[/q]
Это частная задача. Возможно, текст уже давно распознан и опубликован. Кроме того, также возможны варианты с копиями первоисточниками лучшего качества для прочтения, которые хранятся в других архивам. | | |
vam Москва Сообщений: 27987 На сайте с 2003 г. Рейтинг: 3646 | Наверх ##
12 августа 12:16 Например, РГАДА забраковал процент распознавания рукописных описей, которые создавали архивисты прошлых веков с хреновым почерком. Новые машинописные описи создавали те же архивисты с новыми ошибками по распознаванию текста. И здесь напрашивается решение, если опубликовать первоисточники, то на выходе был бы другой результат. | | Лайк (2) |
severinn Сообщений: 7233 На сайте с 2005 г. Рейтинг: 2416
| Наверх ##
12 августа 15:25 12 августа 15:58 говорить об ИИ рано, есть только отдельные (в т.ч и неудачные) программы по распознаванию печатного или рукописного текста (разного уровня). И никто не сделал программы по распознаванию и алфавитной систематизации изданных списков Литовской метрики, изданных реестров и т.д. И никто не выполнил и не выложил в качестве примеров на ВГД. Делается все вручную. Где тут ИИ ? | | |
vishnevskiy_74 Сообщений: 964 На сайте с 2013 г. Рейтинг: 6126 | Наверх ##
12 августа 16:10 12 августа 16:20 severinn написал: [q] говорить об ИИ рано, есть только отдельные (в т.ч и неудачные) программы по распознаванию печатного или рукописного текста (разного уровня). И никто не сделал программы по распознаванию и алфавитной систематизации изданных списков Литовской метрики, изданных реестров и т.д. И не выполнил и не выложил в качестве примеров на ВГД. Делается все вручную. Где тут ИИ ?[/q]
Я еще раз повторюсь, что нейросети сейчас не в состоянии делать всю работу за человека, но облегчить его труд в части распознания текста и систематизации данных - вполне. Почему никто не использует ИИ при распознавании и систематизации изданных списков Литовской метрики - вопрос риторический, инструменты для распознавания и систематизации есть. Вот, например, пилотный проект от FamilySearch. И пример его использования в поисках. | | Лайк (2) |
vam Москва Сообщений: 27987 На сайте с 2003 г. Рейтинг: 3646 | Наверх ##
12 августа 16:10 Согласен, но как раз говорить не рано, а что бы что-то сделать, необходимо для начала оцифровать Литовскую метрику. | | Лайк (4) |
ciberhunter Барнаул FTDNA IN12531 GEDMATCH T775758 Сообщений: 1603 На сайте с 2015 г. Рейтинг: 426 | Наверх ##
13 августа 15:02 Коллеги, я уверен, что надо пробовать. А не подрывать моральный настрой тех кто хочет попробовать. Если вы совсем не понимаете в теме, не надо ставить палки в колеса. Да древние движки брешут очень сильно. Но чем больше обучают ИИ, тем они становятся совершенней. Ищу единомышленников. Считаю надо разбивать проблему на более мелкие. И мелкими шашками достигать истины. Постановка задачи. Есть куча архивов в виде фотографий и сканов документов. Вижу подобные шаги 1 Необходимо для начала просто прочитать файлы и распознать их OCR движком 2 Для начала думаю не надо учить распознавать ИИ структуру документа. Просто для начала сделать контекстный поиск по документам. На полное распознание структуры не берется даже Yandex 3 Предусмотреть возможность создания данных для обучения ии в области распознания и в области обработки данных. 4 Я установил движки Deepseek-r1 и GPT-oss пока играюсь, но хотел бы научиться дообучать модели. В идеале бы найти программиста который бы помог написать нужные скрипты. 5. Постепенно надо как-то научить ИИ понимать структуру документа. 6. Цель научить ИИ обрабатывать запросы к локальной базе фото.
Как автор платить за распознание каждой страницы я не могу, у меня количество фото скоро достигнет 100тыс. Если бы я мог предложить людям проект, то таких фото было бы миллионы. --- Клочки, Бельмесево, Бураново, Калманка, Стежки, Дегтянка, Верхние пупки, Малые пупки, Березовка, Тамбовка, Незнановка, Просечье
тг @chelnavskii Челнавский стан
тг @barnaul_genealogy Барнаульский уезд
тг @lysie_gory Лысые горы Тамбовский уезд и выселки Незнановка, Беломестная криуша, Козмодемьянов | | Лайк (3) |
severinn Сообщений: 7233 На сайте с 2005 г. Рейтинг: 2416
| Наверх ##
13 августа 15:12 это задача не 21 века на современном уровне не решить | | |
vishnevskiy_74 Сообщений: 964 На сайте с 2013 г. Рейтинг: 6126 | Наверх ##
13 августа 15:54 severinn написал: [q] это задача не 21 века на современном уровне не решить[/q]
Вполне решаема уже на текущем этапе (и примеры Yandex archive и FamilySearch, eScriptorium пример и т.п. перед глазами), вопрос в поиске заинтересованных лиц, деньгах и трудозатратах. | | Лайк (1) |
vishnevskiy_74 Сообщений: 964 На сайте с 2013 г. Рейтинг: 6126 | Наверх ##
13 августа 16:02 13 августа 16:06 vishnevskiy_74 написал: [q] severinn написал:
[q] это задача не 21 века на современном уровне не решить
[/q]
Вполне решаема уже на текущем этапе (и примеры Yandex archive и FamilySearch, eScriptorium пример и т.п. перед глазами), вопрос в поиске заинтересованных лиц, деньгах и трудозатратах.
[/q]
Про eScriptorium можно почитать здесь и здесь— это открытое веб-приложение для работы с историческими документами (печатными и рукописными): загрузка изображений/сканов, разметка и сегментация страниц, автоматическая и ручная транскрипция, обучение собственных моделей и экспорт результатов. Движок вот этот. Пишут про возможность полнотекстового поиска . И про возможность локального развертывания | | Лайк (1) |
|