archivestra - ПО для автоматической индексации рукописного т

На сайте ВГД собираются люди, увлеченные генеалогией, историей, геральдикой и т.д. Здесь вы найдете собеседников, экспертов, умелых помощников в поисках предков и родственников. Вам подскажут где искать документы о павших в боях и пропавших без вести, в какой архив обратиться при исследовании родословной своей семьи, помогут определить по старой фотографии принадлежность к воинским частям, ведомствам и чину. ВГД - поиск людей в прошлом, настоящем и будущем!

Привет, коллеги!

Полагаю, что всем известен Яндекс Архив https://ya.ru/archive/search - роскошный сервис, который выполняет автоматическую индексацию рукописного текста архивных документов, сохраняет распознанный текст в БД, а затем позволяет искать документы по содержимому. Главный его недостаток - неполнота, вызванная тем, что
1) многие архивы отказываются сотрудничать с Яндексом или сотрудничают "для галочки";
2) простым пользователям не позволено загружать свои коллекции отснятых архивных документов для распознавания, т.к. может возбудиться "правообладатель" снимков.

Частично проблему неполноты попытался решить другой сервис (причем еще до появления Я.Архива ;D) - Генотек Архивы https://www.genotek.ru/archives/, который проиндексировал тысячи снимков, сделанных мормонами, и дал к ним доступ. Но у него как раз случилась проблема №2, как минимум, с Тульским архивом - по итогу, доступ к снимкам ГАТО пришлось убрать.

Я предлагаю следующее решение: отказаться от размещения снимков вообще! Для этого был разработан инструмент archivestra (archive orchestra - архивный оркестр/оркестратор архивов), который работает следующим образом:
1) отправляет снимок документа на распознавание в Yandex Cloud Vision OCR;
2) получает ответ с распознанным текстом (Яндекс дает координаты каждого распознанного слова) и сохраняет его в БД;
3) при получении запроса, собирает из распознанных слов картинку так, чтобы каждое распознанное слово занимало ровно то пространство на изображении, которое занимал его рукописный прообраз, а затем отдает его пользователю.

Вот как-то так, слева направо: оригинал, собранная картинка, совмещение
96OBZwNGafQ.jpg?size=2560x1207&quality=95&sign=654c5b15da0f22e32182ca6695fe9028&type=album

96OBZwNGafQ.jpg?size=2560x1207&quality=95&sign=654c5b15da0f22e32182ca6695fe9028&type=album

Исходный код лежит тут:
https://github.com/Daemon2017/archivestra

А здесь находится сайт, куда я загрузил почти все имеющиеся у меня доки (РС, ИР, ведомости о числе населения) по моему родному селу Корину Арзамасского уезда Нижегородской губернии
https://daemon2017.github.io/archivestra/
1-3РС не стал заливать, т.к. уже по 4-5РС видно, что шрифт 18 века Яшка не вытягивает(

Недавно у Яндекса был единый тариф на все модели: 0.13 рублей за снимок, но сейчас цены на модель распознавания рукописного текста выросли в 10+ раз - до 1.5 рублей за снимок. Но это всё еще очень демократично: мою коллекцию из 700 страниц распознали за 1000+ рублей. Актуальные расценки здесь:
https://yandex.cloud/ru/docs/vision/pricing

Немного о сайте и его функционале.
Чтобы сэкономить, я держу свой сервер в "холодном" режиме, так что при первом обращении сайт подтупливает секунды 3-4, но затем раскочегаривается и работает как надо.

Сайт состоит из 2 вкладок: заголовки и содержимое.
1а) На вкладке "Поиск по заголовкам" можно посмотреть список дел по нашему селу, которые я проиндексировал.
6X57-h2d8sc.jpg?size=1921x1080&quality=96&sign=a80cfe09c55c19adc65aad061e2fcf10&type=album

6X57-h2d8sc.jpg?size=1921x1080&quality=96&sign=a80cfe09c55c19adc65aad061e2fcf10&type=album

1б) Если известны координаты дела, то можно проверить, распознано ли оно и что находится внутри
FKYPVktcbE8.jpg?size=1921x1080&quality=96&sign=c1d97efd269346b496a325b13b44ee10&type=album

FKYPVktcbE8.jpg?size=1921x1080&quality=96&sign=c1d97efd269346b496a325b13b44ee10&type=album

2а) На вкладке "Поиск по содержимому" можно вести поиск по содержимому дел. Например, по имени или фамилии (до 1850 фамилии в моем селе не писали, так что в ревизиях 1721-1834 годов нет фамилий).
d-O3r0wZd7Q.jpg?size=1921x1080&quality=96&sign=1cc9be2b6be26c55ca9d338705ea7acb&type=album

d-O3r0wZd7Q.jpg?size=1921x1080&quality=96&sign=1cc9be2b6be26c55ca9d338705ea7acb&type=album

2б) А введя координаты конкретного дела, можно просмотреть, где именно находится искомое имя/фамилия
CC05QQi76fc.jpg?size=1920x1080&quality=96&sign=8e95ad9dcc0bdaf95654539f95bfaa03&type=album

CC05QQi76fc.jpg?size=1920x1080&quality=96&sign=8e95ad9dcc0bdaf95654539f95bfaa03&type=album

Немного о качестве распознавания Яндекса.

Если кратенько: к сожалению, результат не всегда так хорош, как хотелось бы. Но Яндекс постоянно совершенствует свой ИИ, так что можно будет попробовать повторно прогнать снимки через годик - возможно, что результат будет лучше.
Что именно влияет на результат - не ясно, но есть догадки:
* качество снимка: по одной и той же РС одного и того же села (т.е. разные копии одной сказки) фотки ГАНО весят 1 Мб, а фотки ЦАНО - почти 10 Мб. Разница, конечно, не в 10 раз, но она и есть и она в пользу тяжелых снимков;
* почерк писца: тут всё как у людей.

Некоторые дела распознались очень хорошо - даже цифры есть.
OzI8F_hkAcI.jpg?size=1921x1080&quality=96&sign=97061702c0e62b6da772b4a93c1216bd&type=album

OzI8F_hkAcI.jpg?size=1921x1080&quality=96&sign=97061702c0e62b6da772b4a93c1216bd&type=album

А некоторые - очень плохо. Например, ревизия 1782 года по нашему селу.
C3_cdh7axIM.jpg?size=1921x1080&quality=96&sign=f1bacc6a4fa9f61914e5020baa677c8f&type=album

C3_cdh7axIM.jpg?size=1921x1080&quality=96&sign=f1bacc6a4fa9f61914e5020baa677c8f&type=album

Забавная ситуация: на странице 3 семьи Дурнайкиных, но Яшенька ни разу не смог распознать фамилию правильно ;D То Дирияйкин, то Аурномкин, то Аурнанкин.

cy_c_tz94Ug.jpg?size=960x1280&quality=95&sign=af83036e266b0113d07fefa220d02bc0&type=album

cy_c_tz94Ug.jpg?size=960x1280&quality=95&sign=af83036e266b0113d07fefa220d02bc0&type=album

uMqSLayEvcA.jpg?size=1280x719&quality=95&sign=9c5b0e5fc15e6f0acac592e90686d80f&type=album

Так как же в итоге можно расшифровать рукописные записи? Простите, если туплю, так и не поняла, можно ли куда-то загрузить картинку (страницу из оцифрованного архивного документа), чтобы понять, что там написано

Ms_Hedgehog написал:

[q]
Так как же в итоге можно расшифровать рукописные записи? Простите, если туплю, так и не поняла, можно ли куда-то загрузить картинку (страницу из оцифрованного архивного документа), чтобы понять, что там написано
[/q]

Нет, загрузить картинку для распознавания нельзя, но если есть навыки разработки на Python и работы с Docker, то можно развернуть свой экземпляр сервиса, чтобы через него распознавать текст и вести поиск по нему.

Cdtnf написал:

[q]
все понятно: что ничего не понятно. Зачем информация, если ей нельзя воспользоваться
[/q]

Листая медицинский хирургический журнал, в котором рассказывается, как сделать операцию, можно прийти к такому же заключению. Зачем информация, если ей нельзя воспользоваться. Вот в другом журнале советуют не есть булочки на ночь. Там да, - все по делу, хороший журнал про здоровье.

Бывают случаи, когда чтобы воспользоваться информацией, требуются определенные навыки из знания. Здесь об этом прямо заявлено. Чтобы воспользоваться тем, что здесь описывается, нужно быть (или желательно быть) программистом. Тогда можно внести свой вклад в опубликованный код, либо можно развернуть свою копию на своих ресурса и допиливать систему под свои нужды.

Мне информация была полезна. Как развернуть копию такой системы я понимаю. На будущее буду иметь ввиду про такую возможность, но пока разворачивать не планирую, поскольку нет задач по массовому распознаванию текста. Для распознавания нескольких страниц большие затраты по времени, а для массового распознавания еще требуется оплачивать услуги Яндексу по 1.3руб/страница. Т.е. без спонсоров или пожертвований за свой счет больше 1-2тыс страниц распознавать будет накладно.

archivestra - ПО для автоматической индексации рукописного т

На движке Yandex Cloud Vision OCR