Инструменты ИИ (AI) для генеалогического исследования
Все, что касается искусственного интеллекта, в помощь в исследованиях
vam Москва Сообщений: 27999 На сайте с 2003 г. Рейтинг: 3648 | Наверх ##
12 августа 12:16 Например, РГАДА забраковал процент распознавания рукописных описей, которые создавали архивисты прошлых веков с хреновым почерком. Новые машинописные описи создавали те же архивисты с новыми ошибками по распознаванию текста. И здесь напрашивается решение, если опубликовать первоисточники, то на выходе был бы другой результат. | | Лайк (2) |
severinn Сообщений: 7233 На сайте с 2005 г. Рейтинг: 2416
| Наверх ##
12 августа 15:25 12 августа 15:58 говорить об ИИ рано, есть только отдельные (в т.ч и неудачные) программы по распознаванию печатного или рукописного текста (разного уровня). И никто не сделал программы по распознаванию и алфавитной систематизации изданных списков Литовской метрики, изданных реестров и т.д. И никто не выполнил и не выложил в качестве примеров на ВГД. Делается все вручную. Где тут ИИ ? | | |
vishnevskiy_74 Сообщений: 964 На сайте с 2013 г. Рейтинг: 6127 | Наверх ##
12 августа 16:10 12 августа 16:20 severinn написал: [q] говорить об ИИ рано, есть только отдельные (в т.ч и неудачные) программы по распознаванию печатного или рукописного текста (разного уровня). И никто не сделал программы по распознаванию и алфавитной систематизации изданных списков Литовской метрики, изданных реестров и т.д. И не выполнил и не выложил в качестве примеров на ВГД. Делается все вручную. Где тут ИИ ?[/q]
Я еще раз повторюсь, что нейросети сейчас не в состоянии делать всю работу за человека, но облегчить его труд в части распознания текста и систематизации данных - вполне. Почему никто не использует ИИ при распознавании и систематизации изданных списков Литовской метрики - вопрос риторический, инструменты для распознавания и систематизации есть. Вот, например, пилотный проект от FamilySearch. И пример его использования в поисках. | | Лайк (2) |
vam Москва Сообщений: 27999 На сайте с 2003 г. Рейтинг: 3648 | Наверх ##
12 августа 16:10 Согласен, но как раз говорить не рано, а что бы что-то сделать, необходимо для начала оцифровать Литовскую метрику. | | Лайк (4) |
ciberhunter Барнаул FTDNA IN12531 GEDMATCH T775758 Сообщений: 1603 На сайте с 2015 г. Рейтинг: 426 | Наверх ##
13 августа 15:02 Коллеги, я уверен, что надо пробовать. А не подрывать моральный настрой тех кто хочет попробовать. Если вы совсем не понимаете в теме, не надо ставить палки в колеса. Да древние движки брешут очень сильно. Но чем больше обучают ИИ, тем они становятся совершенней. Ищу единомышленников. Считаю надо разбивать проблему на более мелкие. И мелкими шашками достигать истины. Постановка задачи. Есть куча архивов в виде фотографий и сканов документов. Вижу подобные шаги 1 Необходимо для начала просто прочитать файлы и распознать их OCR движком 2 Для начала думаю не надо учить распознавать ИИ структуру документа. Просто для начала сделать контекстный поиск по документам. На полное распознание структуры не берется даже Yandex 3 Предусмотреть возможность создания данных для обучения ии в области распознания и в области обработки данных. 4 Я установил движки Deepseek-r1 и GPT-oss пока играюсь, но хотел бы научиться дообучать модели. В идеале бы найти программиста который бы помог написать нужные скрипты. 5. Постепенно надо как-то научить ИИ понимать структуру документа. 6. Цель научить ИИ обрабатывать запросы к локальной базе фото.
Как автор платить за распознание каждой страницы я не могу, у меня количество фото скоро достигнет 100тыс. Если бы я мог предложить людям проект, то таких фото было бы миллионы. --- Клочки, Бельмесево, Бураново, Калманка, Стежки, Дегтянка, Верхние пупки, Малые пупки, Березовка, Тамбовка, Незнановка, Просечье
тг @chelnavskii Челнавский стан
тг @barnaul_genealogy Барнаульский уезд
тг @lysie_gory Лысые горы Тамбовский уезд и выселки Незнановка, Беломестная криуша, Козмодемьянов | | Лайк (3) |
severinn Сообщений: 7233 На сайте с 2005 г. Рейтинг: 2416
| Наверх ##
13 августа 15:12 это задача не 21 века на современном уровне не решить | | |
vishnevskiy_74 Сообщений: 964 На сайте с 2013 г. Рейтинг: 6127 | Наверх ##
13 августа 15:54 severinn написал: [q] это задача не 21 века на современном уровне не решить[/q]
Вполне решаема уже на текущем этапе (и примеры Yandex archive и FamilySearch, eScriptorium пример и т.п. перед глазами), вопрос в поиске заинтересованных лиц, деньгах и трудозатратах. | | Лайк (1) |
vishnevskiy_74 Сообщений: 964 На сайте с 2013 г. Рейтинг: 6127 | Наверх ##
13 августа 16:02 13 августа 16:06 vishnevskiy_74 написал: [q] severinn написал:
[q] это задача не 21 века на современном уровне не решить
[/q]
Вполне решаема уже на текущем этапе (и примеры Yandex archive и FamilySearch, eScriptorium пример и т.п. перед глазами), вопрос в поиске заинтересованных лиц, деньгах и трудозатратах.
[/q]
Про eScriptorium можно почитать здесь и здесь— это открытое веб-приложение для работы с историческими документами (печатными и рукописными): загрузка изображений/сканов, разметка и сегментация страниц, автоматическая и ручная транскрипция, обучение собственных моделей и экспорт результатов. Движок вот этот. Пишут про возможность полнотекстового поиска . И про возможность локального развертывания | | Лайк (1) |
Kolob-07 Санкт-Петербург Сообщений: 5172 На сайте с 2008 г. Рейтинг: 3916
| Наверх ##
13 августа 17:58 Не так давно было сообщение в прессе, что ИИ прочитал плохо сохранившийся старинный документ. До этого его "натаскивали" на конкретный почерк конкретного документа, а уж потом он по обрывкам слов и букв восстанавливал текст. Т.е. и очень сложные задачи уже сейчас решаются. Вопрос в средствах и специалистах. А школьникам домашнее сочинение уже и сейчас запросто напишет. | | Лайк (4) |
ciberhunter Барнаул FTDNA IN12531 GEDMATCH T775758 Сообщений: 1603 На сайте с 2015 г. Рейтинг: 426 | Наверх ##
14 августа 3:33 В том и дело, что нейросеть как человек. Первые несколько лет будет ошибаться, а потом почерк врачей начнет читать. Притом прогресс в последнее время идет 7 мильными шагами. --- Клочки, Бельмесево, Бураново, Калманка, Стежки, Дегтянка, Верхние пупки, Малые пупки, Березовка, Тамбовка, Незнановка, Просечье
тг @chelnavskii Челнавский стан
тг @barnaul_genealogy Барнаульский уезд
тг @lysie_gory Лысые горы Тамбовский уезд и выселки Незнановка, Беломестная криуша, Козмодемьянов | | |
|