Загрузите GEDCOM-файл на ВГД   [х]
Всероссийское Генеалогическое Древо
На сайте ВГД собираются люди, увлеченные генеалогией, историей, геральдикой и т.д. Здесь вы найдете собеседников, экспертов, умелых помощников в поисках предков и родственников. Вам подскажут где искать документы о павших в боях и пропавших без вести, в какой архив обратиться при исследовании родословной своей семьи, помогут определить по старой фотографии принадлежность к воинским частям, ведомствам и чину. ВГД - поиск людей в прошлом, настоящем и будущем!
Вниз ⇊

Инструменты ИИ (AI) для генеалогического исследования

Все, что касается искусственного интеллекта, в помощь в исследованиях

    Вперед →Страницы: ← Назад 1 2 3 * 4 5 Вперед →
Модераторы: A1enushka, Руслан Дикушин, apuzanoff
ciberhunter

ciberhunter

Барнаул FTDNA IN12531 GEDMATCH T775758
Сообщений: 1603
На сайте с 2015 г.
Рейтинг: 426
Коллеги, я уверен, что надо пробовать. А не подрывать моральный настрой тех кто хочет попробовать. Если вы совсем не понимаете в теме, не надо ставить палки в колеса. Да древние движки брешут очень сильно. Но чем больше обучают ИИ, тем они становятся совершенней. Ищу единомышленников. Считаю надо разбивать проблему на более мелкие. И мелкими шашками достигать истины.
Постановка задачи.
Есть куча архивов в виде фотографий и сканов документов.
Вижу подобные шаги
1 Необходимо для начала просто прочитать файлы и распознать их OCR движком
2 Для начала думаю не надо учить распознавать ИИ структуру документа. Просто для начала сделать контекстный поиск по документам. На полное распознание структуры не берется даже Yandex
3 Предусмотреть возможность создания данных для обучения ии в области распознания и в области обработки данных.
4 Я установил движки Deepseek-r1 и GPT-oss пока играюсь, но хотел бы научиться дообучать модели. В идеале бы найти программиста который бы помог написать нужные скрипты.
5. Постепенно надо как-то научить ИИ понимать структуру документа.
6. Цель научить ИИ обрабатывать запросы к локальной базе фото.

Как автор платить за распознание каждой страницы я не могу, у меня количество фото скоро достигнет 100тыс. Если бы я мог предложить людям проект, то таких фото было бы миллионы.
---
Клочки, Бельмесево, Бураново, Калманка, Стежки, Дегтянка, Верхние пупки, Малые пупки, Березовка, Тамбовка, Незнановка, Просечье
тг @chelnavskii Челнавский стан
тг @barnaul_genealogy Барнаульский уезд
тг @lysie_gory Лысые горы Тамбовский уезд и выселки Незнановка, Беломестная криуша, Козмодемьянов
Лайк (3)
severinn

Сообщений: 7234
На сайте с 2005 г.
Рейтинг: 2415
это задача не 21 века
на современном уровне не решить
vishnevskiy_74

vishnevskiy_74

Сообщений: 965
На сайте с 2013 г.
Рейтинг: 6127

severinn написал:
[q]
это задача не 21 века
на современном уровне не решить
[/q]


Вполне решаема уже на текущем этапе (и примеры Yandex archive и FamilySearch, eScriptorium пример и т.п. перед глазами), вопрос в поиске заинтересованных лиц, деньгах и трудозатратах.


Лайк (1)
vishnevskiy_74

vishnevskiy_74

Сообщений: 965
На сайте с 2013 г.
Рейтинг: 6127

vishnevskiy_74 написал:
[q]

severinn написал:
[q]

это задача не 21 века
на современном уровне не решить
[/q]



Вполне решаема уже на текущем этапе (и примеры Yandex archive и FamilySearch, eScriptorium пример и т.п. перед глазами), вопрос в поиске заинтересованных лиц, деньгах и трудозатратах.


[/q]



Про eScriptorium можно почитать здесь и здесь— это открытое веб-приложение для работы с историческими документами (печатными и рукописными): загрузка изображений/сканов, разметка и сегментация страниц, автоматическая и ручная транскрипция, обучение собственных моделей и экспорт результатов. Движок вот этот. Пишут про возможность полнотекстового поиска . И про возможность локального развертывания
Лайк (1)
Kolob-07

Санкт-Петербург
Сообщений: 5172
На сайте с 2008 г.
Рейтинг: 3916
Не так давно было сообщение в прессе, что ИИ прочитал плохо сохранившийся старинный документ. До этого его "натаскивали" на конкретный почерк конкретного документа, а уж потом он по обрывкам слов и букв восстанавливал текст. Т.е. и очень сложные задачи уже сейчас решаются. Вопрос в средствах и специалистах.
А школьникам домашнее сочинение уже и сейчас запросто напишет. biggrin1.gif
Лайк (5)
ciberhunter

ciberhunter

Барнаул FTDNA IN12531 GEDMATCH T775758
Сообщений: 1603
На сайте с 2015 г.
Рейтинг: 426
В том и дело, что нейросеть как человек. Первые несколько лет будет ошибаться, а потом почерк врачей начнет читать. Притом прогресс в последнее время идет 7 мильными шагами.
---
Клочки, Бельмесево, Бураново, Калманка, Стежки, Дегтянка, Верхние пупки, Малые пупки, Березовка, Тамбовка, Незнановка, Просечье
тг @chelnavskii Челнавский стан
тг @barnaul_genealogy Барнаульский уезд
тг @lysie_gory Лысые горы Тамбовский уезд и выселки Незнановка, Беломестная криуша, Козмодемьянов
ciberhunter

ciberhunter

Барнаул FTDNA IN12531 GEDMATCH T775758
Сообщений: 1603
На сайте с 2015 г.
Рейтинг: 426
Кто-нибудь может помочь с установкой kra.ken ocr ?
---
Клочки, Бельмесево, Бураново, Калманка, Стежки, Дегтянка, Верхние пупки, Малые пупки, Березовка, Тамбовка, Незнановка, Просечье
тг @chelnavskii Челнавский стан
тг @barnaul_genealogy Барнаульский уезд
тг @lysie_gory Лысые горы Тамбовский уезд и выселки Незнановка, Беломестная криуша, Козмодемьянов
severinn

Сообщений: 7234
На сайте с 2005 г.
Рейтинг: 2415

vishnevskiy_74 написал:
[q]

severinn написал:
[q]

это задача не 21 века
на современном уровне не решить
[/q]



Вполне решаема уже на текущем этапе (и примеры Yandex archive и FamilySearch, eScriptorium пример и т.п. перед глазами), вопрос в поиске заинтересованных лиц, деньгах и трудозатратах.


[/q]


сказки и побрехеньки
реклама
Жалоба (3)
severinn

Сообщений: 7234
На сайте с 2005 г.
Рейтинг: 2415

ciberhunter написал:
[q]
В том и дело, что нейросеть как человек. Первые несколько лет будет ошибаться, а потом почерк врачей начнет читать. Притом прогресс в последнее время идет 7 мильными шагами.
[/q]

в тупик
в пустоту

сказки и побрехеньки
реклама
Жалоба (3)
severinn

Сообщений: 7234
На сайте с 2005 г.
Рейтинг: 2415

Kolob-07 написал:
[q]
Не так давно было сообщение в прессе, что ИИ прочитал плохо сохранившийся старинный документ. До этого его "натаскивали" на конкретный почерк конкретного документа, а уж потом он по обрывкам слов и букв восстанавливал текст. Т.е. и очень сложные задачи уже сейчас решаются. Вопрос в средствах и специалистах.
А школьникам домашнее сочинение уже и сейчас запросто напишет.
[/q]

сказки
реклама
Жалоба (3)
    Вперед →Страницы: ← Назад 1 2 3 * 4 5 Вперед →
Модераторы: A1enushka, Руслан Дикушин, apuzanoff
Вверх ⇈