| AndreyAntica Новичок
Балашиха Сообщений: 11 На сайте с 2022 г. Рейтинг: 5 | Наверх ##
2 декабря 2025 19:49 2 декабря 2025 19:50 Добрый день!Я в течение недели "игрался" как раз с установкой локально escriptoium и krаken для разметки страниц и обучения/дообучения моделей. В целом весь процесс заработал, но тогда уперся в отсутствие больших датасетов для обучения. Нашел в открытом доступе к размеченным рукописным строкам современным на русском языке + синтетический набор данных (искусственно сгенерированные строки на разных "рукописных" шрифтах, тоже для обучения моделей). В итоге, разметил вручную примерно 350 "строк" из метрических книг одного архива 19 века и дообучил одну из моделей. Даже на таком небольшом кол-во вручную размеченных строк начало работать распознавание других листов, но еще с большим количество ошибок. Плюс если начнём брать книги других писарей из других губерний или других эпох, то конечно гораздо сильнее упадёт качество распознавание, это я понимаю. Вот теперь думаю, что с эти делать дальше? Вариант - поднять на каком-нибудь домене этот проект и открыть свободный доступ для всех заинтересованных генеалогов, чтобы вручную размечали строки, тем самым получая (экспортируя) для себя готовый перевод + за одно, громадная польза по наполнению датасетов для дальнейшего обучения. Как думаете? Яндекс.Архив конечно этим вряд-ли "переплюнуть" можно, но, при достаточной заинтересованности и кол-ве волонтёров думаю можно вполне успешно "поконкурировать"...в том плане, что можно будет обучать отдельные "версии" моделей, заточенные под определенные года/регионы/документы... сейчас у меня это делается прям в интерфейсе достаточно просто и можно еще доработать. https://youtu.be/SEFxazE3NgQЕсли у кого-то есть идеи по развитию - давайте пообшаемся. --- Московская область, г.Балашиха - Богомолова, Храпковы, Мотылины, Дубихины
Пензенская область, с.Громок, д.Удалая - Москалевы, Садчиковы |