archivestra - ПО для автоматической индексации рукописного т
На движке Yandex Cloud Vision OCR
Daemon2011 Сообщений: 724 На сайте с 2011 г. Рейтинг: 577 | Наверх ##
2 апреля 2024 21:27 8 апреля 2024 11:53 Привет, коллеги! Полагаю, что всем известен Яндекс Архив https://ya.ru/archive/search - роскошный сервис, который выполняет автоматическую индексацию рукописного текста архивных документов, сохраняет распознанный текст в БД, а затем позволяет искать документы по содержимому. Главный его недостаток - неполнота, вызванная тем, что 1) многие архивы отказываются сотрудничать с Яндексом или сотрудничают "для галочки"; 2) простым пользователям не позволено загружать свои коллекции отснятых архивных документов для распознавания, т.к. может возбудиться "правообладатель" снимков. Частично проблему неполноты попытался решить другой сервис (причем еще до появления Я.Архива ;D) - Генотек Архивы https://www.genotek.ru/archives/, который проиндексировал тысячи снимков, сделанных мормонами, и дал к ним доступ. Но у него как раз случилась проблема №2, как минимум, с Тульским архивом - по итогу, доступ к снимкам ГАТО пришлось убрать. Я предлагаю следующее решение: отказаться от размещения снимков вообще! Для этого был разработан инструмент archivestra (archive orchestra - архивный оркестр/оркестратор архивов), который работает следующим образом: 1) отправляет снимок документа на распознавание в Yandex Cloud Vision OCR; 2) получает ответ с распознанным текстом (Яндекс дает координаты каждого распознанного слова) и сохраняет его в БД; 3) при получении запроса, собирает из распознанных слов картинку так, чтобы каждое распознанное слово занимало ровно то пространство на изображении, которое занимал его рукописный прообраз, а затем отдает его пользователю. Вот как-то так, слева направо: оригинал, собранная картинка, совмещение  Исходный код лежит тут: https://github.com/Daemon2017/archivestraА здесь находится сайт, куда я загрузил почти все имеющиеся у меня доки (РС, ИР, ведомости о числе населения) по моему родному селу Корину Арзамасского уезда Нижегородской губернии https://daemon2017.github.io/archivestra/1-3РС не стал заливать, т.к. уже по 4-5РС видно, что шрифт 18 века Яшка не вытягивает( Недавно у Яндекса был единый тариф на все модели: 0.13 рублей за снимок, но сейчас цены на модель распознавания рукописного текста выросли в 10+ раз - до 1.5 рублей за снимок. Но это всё еще очень демократично: мою коллекцию из 700 страниц распознали за 1000+ рублей. Актуальные расценки здесь: https://yandex.cloud/ru/docs/vision/pricing | | Лайк (9) |
Daemon2011 Сообщений: 724 На сайте с 2011 г. Рейтинг: 577 | Наверх ##
2 апреля 2024 21:35 Немного о сайте и его функционале. Чтобы сэкономить, я держу свой сервер в "холодном" режиме, так что при первом обращении сайт подтупливает секунды 3-4, но затем раскочегаривается и работает как надо. Сайт состоит из 2 вкладок: заголовки и содержимое. 1а) На вкладке "Поиск по заголовкам" можно посмотреть список дел по нашему селу, которые я проиндексировал.  1б) Если известны координаты дела, то можно проверить, распознано ли оно и что находится внутри  2а) На вкладке "Поиск по содержимому" можно вести поиск по содержимому дел. Например, по имени или фамилии (до 1850 фамилии в моем селе не писали, так что в ревизиях 1721-1834 годов нет фамилий).  2б) А введя координаты конкретного дела, можно просмотреть, где именно находится искомое имя/фамилия | | Лайк (1) |
Daemon2011 Сообщений: 724 На сайте с 2011 г. Рейтинг: 577 | Наверх ##
2 апреля 2024 21:44 Немного о качестве распознавания Яндекса. Если кратенько: к сожалению, результат не всегда так хорош, как хотелось бы. Но Яндекс постоянно совершенствует свой ИИ, так что можно будет попробовать повторно прогнать снимки через годик - возможно, что результат будет лучше. Что именно влияет на результат - не ясно, но есть догадки: * качество снимка: по одной и той же РС одного и того же села (т.е. разные копии одной сказки) фотки ГАНО весят 1 Мб, а фотки ЦАНО - почти 10 Мб. Разница, конечно, не в 10 раз, но она и есть и она в пользу тяжелых снимков; * почерк писца: тут всё как у людей. Некоторые дела распознались очень хорошо - даже цифры есть.  А некоторые - очень плохо. Например, ревизия 1782 года по нашему селу.  Забавная ситуация: на странице 3 семьи Дурнайкиных, но Яшенька ни разу не смог распознать фамилию правильно ;D То Дирияйкин, то Аурномкин, то Аурнанкин.  | | Лайк (3) |
Ms_Hedgehog Санкт-Петербург Сообщений: 103 На сайте с 2024 г. Рейтинг: 30 | Наверх ##
3 апреля 2024 16:00 Так как же в итоге можно расшифровать рукописные записи? Простите, если туплю, так и не поняла, можно ли куда-то загрузить картинку (страницу из оцифрованного архивного документа), чтобы понять, что там написано | | |
Daemon2011 Сообщений: 724 На сайте с 2011 г. Рейтинг: 577 | Наверх ##
3 апреля 2024 19:41 Ms_Hedgehog написал: [q] Так как же в итоге можно расшифровать рукописные записи? Простите, если туплю, так и не поняла, можно ли куда-то загрузить картинку (страницу из оцифрованного архивного документа), чтобы понять, что там написано[/q]
Нет, загрузить картинку для распознавания нельзя, но если есть навыки разработки на Python и работы с Docker, то можно развернуть свой экземпляр сервиса, чтобы через него распознавать текст и вести поиск по нему. | | |
xbox Сообщений: 962 На сайте с 2020 г. Рейтинг: 1910
| Наверх ##
6 апреля 2024 21:03 Cdtnf написал: [q] все понятно: что ничего не понятно. Зачем информация, если ей нельзя воспользоваться[/q]
Листая медицинский хирургический журнал, в котором рассказывается, как сделать операцию, можно прийти к такому же заключению. Зачем информация, если ей нельзя воспользоваться. Вот в другом журнале советуют не есть булочки на ночь. Там да, - все по делу, хороший журнал про здоровье. Бывают случаи, когда чтобы воспользоваться информацией, требуются определенные навыки из знания. Здесь об этом прямо заявлено. Чтобы воспользоваться тем, что здесь описывается, нужно быть (или желательно быть) программистом. Тогда можно внести свой вклад в опубликованный код, либо можно развернуть свою копию на своих ресурса и допиливать систему под свои нужды. Мне информация была полезна. Как развернуть копию такой системы я понимаю. На будущее буду иметь ввиду про такую возможность, но пока разворачивать не планирую, поскольку нет задач по массовому распознаванию текста. Для распознавания нескольких страниц большие затраты по времени, а для массового распознавания еще требуется оплачивать услуги Яндексу по 1.3руб/страница. Т.е. без спонсоров или пожертвований за свой счет больше 1-2тыс страниц распознавать будет накладно. --- epoisk.ru – Продвинутый онлайн поиск метрических книг, исповедных ведомостей, и ревизских сказок в ЦГА Москвы. | | Лайк (4) |
|