Загрузите GEDCOM-файл на ВГД   [х]
Всероссийское Генеалогическое Древо
На сайте ВГД собираются люди, увлеченные генеалогией, историей, геральдикой и т.д. Здесь вы найдете собеседников, экспертов, умелых помощников в поисках предков и родственников. Вам подскажут где искать документы о павших в боях и пропавших без вести, в какой архив обратиться при исследовании родословной своей семьи, помогут определить по старой фотографии принадлежность к воинским частям, ведомствам и чину. ВГД - поиск людей в прошлом, настоящем и будущем!
Вниз ⇊

Инструменты ИИ (AI) для генеалогического исследования

Все, что касается искусственного интеллекта, в помощь в исследованиях

← Назад    Вперед →Страницы: ← Назад 1 2 3 4  5 
Модераторы: A1enushka, Руслан Дикушин, apuzanoff
AndreyAntica
Новичок

Балашиха
Сообщений: 11
На сайте с 2022 г.
Рейтинг: 5
Добрый день!

Я в течение недели "игрался" как раз с установкой локально escriptoium и krаken для разметки страниц и обучения/дообучения моделей.
В целом весь процесс заработал, но тогда уперся в отсутствие больших датасетов для обучения.
Нашел в открытом доступе к размеченным рукописным строкам современным на русском языке + синтетический набор данных (искусственно сгенерированные строки на разных "рукописных" шрифтах, тоже для обучения моделей).

В итоге, разметил вручную примерно 350 "строк" из метрических книг одного архива 19 века и дообучил одну из моделей. Даже на таком небольшом кол-во вручную размеченных строк начало работать распознавание других листов, но еще с большим количество ошибок. Плюс если начнём брать книги других писарей из других губерний или других эпох, то конечно гораздо сильнее упадёт качество распознавание, это я понимаю.

Вот теперь думаю, что с эти делать дальше?

Вариант - поднять на каком-нибудь домене этот проект и открыть свободный доступ для всех заинтересованных генеалогов, чтобы вручную размечали строки, тем самым получая (экспортируя) для себя готовый перевод + за одно, громадная польза по наполнению датасетов для дальнейшего обучения. Как думаете?

Яндекс.Архив конечно этим вряд-ли "переплюнуть" можно, но, при достаточной заинтересованности и кол-ве волонтёров думаю можно вполне успешно "поконкурировать"...в том плане, что можно будет обучать отдельные "версии" моделей, заточенные под определенные года/регионы/документы... сейчас у меня это делается прям в интерфейсе достаточно просто и можно еще доработать.

https://youtu.be/SEFxazE3NgQ

Если у кого-то есть идеи по развитию - давайте пообшаемся.
---
Московская область, г.Балашиха - Богомолова, Храпковы, Мотылины, Дубихины
Пензенская область, с.Громок, д.Удалая - Москалевы, Садчиковы
Лайк (3)
← Назад    Вперед →Страницы: ← Назад 1 2 3 4  5 
Модераторы: A1enushka, Руслан Дикушин, apuzanoff
Вверх ⇈