Инструменты ИИ (AI) для генеалогического исследования
Все, что касается искусственного интеллекта, в помощь в исследованиях
ciberhunter Барнаул FTDNA IN12531 GEDMATCH T775758 Сообщений: 1603 На сайте с 2015 г. Рейтинг: 426 | Наверх ##
13 августа 15:02 Коллеги, я уверен, что надо пробовать. А не подрывать моральный настрой тех кто хочет попробовать. Если вы совсем не понимаете в теме, не надо ставить палки в колеса. Да древние движки брешут очень сильно. Но чем больше обучают ИИ, тем они становятся совершенней. Ищу единомышленников. Считаю надо разбивать проблему на более мелкие. И мелкими шашками достигать истины. Постановка задачи. Есть куча архивов в виде фотографий и сканов документов. Вижу подобные шаги 1 Необходимо для начала просто прочитать файлы и распознать их OCR движком 2 Для начала думаю не надо учить распознавать ИИ структуру документа. Просто для начала сделать контекстный поиск по документам. На полное распознание структуры не берется даже Yandex 3 Предусмотреть возможность создания данных для обучения ии в области распознания и в области обработки данных. 4 Я установил движки Deepseek-r1 и GPT-oss пока играюсь, но хотел бы научиться дообучать модели. В идеале бы найти программиста который бы помог написать нужные скрипты. 5. Постепенно надо как-то научить ИИ понимать структуру документа. 6. Цель научить ИИ обрабатывать запросы к локальной базе фото.
Как автор платить за распознание каждой страницы я не могу, у меня количество фото скоро достигнет 100тыс. Если бы я мог предложить людям проект, то таких фото было бы миллионы. --- Клочки, Бельмесево, Бураново, Калманка, Стежки, Дегтянка, Верхние пупки, Малые пупки, Березовка, Тамбовка, Незнановка, Просечье
тг @chelnavskii Челнавский стан
тг @barnaul_genealogy Барнаульский уезд
тг @lysie_gory Лысые горы Тамбовский уезд и выселки Незнановка, Беломестная криуша, Козмодемьянов | | Лайк (3) |
severinn Сообщений: 7234 На сайте с 2005 г. Рейтинг: 2415
| Наверх ##
13 августа 15:12 это задача не 21 века на современном уровне не решить | | |
vishnevskiy_74 Сообщений: 965 На сайте с 2013 г. Рейтинг: 6127 | Наверх ##
13 августа 15:54 severinn написал: [q] это задача не 21 века на современном уровне не решить[/q]
Вполне решаема уже на текущем этапе (и примеры Yandex archive и FamilySearch, eScriptorium пример и т.п. перед глазами), вопрос в поиске заинтересованных лиц, деньгах и трудозатратах. | | Лайк (1) |
vishnevskiy_74 Сообщений: 965 На сайте с 2013 г. Рейтинг: 6127 | Наверх ##
13 августа 16:02 13 августа 16:06 vishnevskiy_74 написал: [q] severinn написал:
[q] это задача не 21 века на современном уровне не решить
[/q]
Вполне решаема уже на текущем этапе (и примеры Yandex archive и FamilySearch, eScriptorium пример и т.п. перед глазами), вопрос в поиске заинтересованных лиц, деньгах и трудозатратах.
[/q]
Про eScriptorium можно почитать здесь и здесь— это открытое веб-приложение для работы с историческими документами (печатными и рукописными): загрузка изображений/сканов, разметка и сегментация страниц, автоматическая и ручная транскрипция, обучение собственных моделей и экспорт результатов. Движок вот этот. Пишут про возможность полнотекстового поиска . И про возможность локального развертывания | | Лайк (1) |
Kolob-07 Санкт-Петербург Сообщений: 5172 На сайте с 2008 г. Рейтинг: 3916
| Наверх ##
13 августа 17:58 Не так давно было сообщение в прессе, что ИИ прочитал плохо сохранившийся старинный документ. До этого его "натаскивали" на конкретный почерк конкретного документа, а уж потом он по обрывкам слов и букв восстанавливал текст. Т.е. и очень сложные задачи уже сейчас решаются. Вопрос в средствах и специалистах. А школьникам домашнее сочинение уже и сейчас запросто напишет. | | Лайк (5) |
ciberhunter Барнаул FTDNA IN12531 GEDMATCH T775758 Сообщений: 1603 На сайте с 2015 г. Рейтинг: 426 | Наверх ##
14 августа 3:33 В том и дело, что нейросеть как человек. Первые несколько лет будет ошибаться, а потом почерк врачей начнет читать. Притом прогресс в последнее время идет 7 мильными шагами. --- Клочки, Бельмесево, Бураново, Калманка, Стежки, Дегтянка, Верхние пупки, Малые пупки, Березовка, Тамбовка, Незнановка, Просечье
тг @chelnavskii Челнавский стан
тг @barnaul_genealogy Барнаульский уезд
тг @lysie_gory Лысые горы Тамбовский уезд и выселки Незнановка, Беломестная криуша, Козмодемьянов | | |
ciberhunter Барнаул FTDNA IN12531 GEDMATCH T775758 Сообщений: 1603 На сайте с 2015 г. Рейтинг: 426 | Наверх ##
14 августа 11:21 14 августа 14:28 Кто-нибудь может помочь с установкой kra.ken ocr ? --- Клочки, Бельмесево, Бураново, Калманка, Стежки, Дегтянка, Верхние пупки, Малые пупки, Березовка, Тамбовка, Незнановка, Просечье
тг @chelnavskii Челнавский стан
тг @barnaul_genealogy Барнаульский уезд
тг @lysie_gory Лысые горы Тамбовский уезд и выселки Незнановка, Беломестная криуша, Козмодемьянов | | |
severinn Сообщений: 7234 На сайте с 2005 г. Рейтинг: 2415
| Наверх ##
14 августа 15:43 vishnevskiy_74 написал: [q] severinn написал:
[q] это задача не 21 века на современном уровне не решить
[/q]
Вполне решаема уже на текущем этапе (и примеры Yandex archive и FamilySearch, eScriptorium пример и т.п. перед глазами), вопрос в поиске заинтересованных лиц, деньгах и трудозатратах.
[/q]
сказки и побрехеньки реклама | | Жалоба (3) |
severinn Сообщений: 7234 На сайте с 2005 г. Рейтинг: 2415
| Наверх ##
14 августа 15:44 ciberhunter написал: [q] В том и дело, что нейросеть как человек. Первые несколько лет будет ошибаться, а потом почерк врачей начнет читать. Притом прогресс в последнее время идет 7 мильными шагами.
[/q]
в тупик в пустоту сказки и побрехеньки реклама | | Жалоба (3) |
severinn Сообщений: 7234 На сайте с 2005 г. Рейтинг: 2415
| Наверх ##
14 августа 15:45 Kolob-07 написал: [q] Не так давно было сообщение в прессе, что ИИ прочитал плохо сохранившийся старинный документ. До этого его "натаскивали" на конкретный почерк конкретного документа, а уж потом он по обрывкам слов и букв восстанавливал текст. Т.е. и очень сложные задачи уже сейчас решаются. Вопрос в средствах и специалистах. А школьникам домашнее сочинение уже и сейчас запросто напишет. [/q]
сказки реклама | | Жалоба (3) |
|