<?xml version="1.0" encoding="windows-1251" ?>
<rss version="2.0" xmlns:dc="https://purl.org/dc/elements/1.1/">
<channel>
<title>archivestra - ПО для автоматической индексации рукописного т</title>
<link>https://forum.vgd.ru/5/154887/</link>
<description>На движке Yandex Cloud Vision OCR</description>
<language>ru</language>
<item><guid>https://forum.vgd.ru/5/154887/p4920580.htm#pp4920580</guid><title></title>
<link>https://forum.vgd.ru/5/154887/p4920580.htm#pp4920580</link>
<description>  &lt;br&gt;Cdtnf написал:&lt;blockquote&gt;&lt;div style="height:1px;width:1px;overflow:hidden"&gt;[q]&lt;/div&gt;все понятно: что ничего не понятно. Зачем информация, если ей нельзя воспользоваться&lt;div style="height:1px;width:1px;overflow:hidden"&gt;[/q]&lt;/div&gt;&lt;/blockquote&gt;Листая медицинский хирургический журнал, в котором рассказывается, как сделать операцию, можно прийти к такому же заключению. Зачем информация, если ей нельзя воспользоваться. Вот в другом журнале советуют не есть булочки на ночь. Там да, - все по делу, хороший журнал про здоровье.&lt;br&gt;&lt;br&gt;Бывают случаи, когда чтобы воспользоваться информацией, требуются определенные навыки из знания. Здесь об этом прямо заявлено. Чтобы воспользоваться тем, что здесь описывается, нужно быть (или желательно быть) программистом. Тогда можно внести свой вклад в опубликованный код, либо можно развернуть свою копию на своих ресурса и допиливать систему под свои нужды.&lt;br&gt;&lt;br&gt;Мне информация была полезна. Как развернуть копию такой системы я понимаю. На будущее буду иметь ввиду про такую возможность, но пока разворачивать не планирую, поскольку нет задач по массовому распознаванию текста. Для распознавания нескольких страниц большие затраты по времени, а для массового распознавания еще требуется оплачивать услуги Яндексу по 1.3руб/страница. Т.е. без спонсоров или пожертвований  за свой счет больше 1-2тыс страниц распознавать будет накладно.  </description>
<dc:creator>xbox</dc:creator>
<pubDate>Sat, 06 Apr 2024 21:03:24 +0300</pubDate>
</item><item><guid>https://forum.vgd.ru/5/154887/p4917710.htm#pp4917710</guid><title></title>
<link>https://forum.vgd.ru/5/154887/p4917710.htm#pp4917710</link>
<description>  &lt;br&gt;Ms_Hedgehog написал:&lt;blockquote&gt;&lt;div style="height:1px;width:1px;overflow:hidden"&gt;[q]&lt;/div&gt;Так как же в итоге можно расшифровать рукописные записи? Простите, если туплю, так и не поняла, можно ли куда-то загрузить картинку (страницу из оцифрованного архивного документа), чтобы понять, что там написано&lt;div style="height:1px;width:1px;overflow:hidden"&gt;[/q]&lt;/div&gt;&lt;/blockquote&gt;&lt;br&gt;&lt;br&gt;Нет, загрузить картинку для распознавания нельзя, но если есть навыки разработки на Python и работы с Docker, то можно развернуть свой экземпляр сервиса, чтобы через него распознавать текст и вести поиск по нему.  </description>
<dc:creator>Daemon2011</dc:creator>
<pubDate>Wed, 03 Apr 2024 19:41:07 +0300</pubDate>
</item><item><guid>https://forum.vgd.ru/5/154887/p4917529.htm#pp4917529</guid><title></title>
<link>https://forum.vgd.ru/5/154887/p4917529.htm#pp4917529</link>
<description>  Так как же в итоге можно расшифровать рукописные записи? Простите, если туплю, так и не поняла, можно ли куда-то загрузить картинку (страницу из оцифрованного архивного документа), чтобы понять, что там написано  </description>
<dc:creator>Ms_Hedgehog</dc:creator>
<pubDate>Wed, 03 Apr 2024 16:00:10 +0300</pubDate>
</item><item><guid>https://forum.vgd.ru/5/154887/p4916954.htm#pp4916954</guid><title></title>
<link>https://forum.vgd.ru/5/154887/p4916954.htm#pp4916954</link>
<description>  Немного о качестве распознавания Яндекса.&lt;br&gt;&lt;br&gt;Если кратенько: к сожалению, результат не всегда так хорош, как хотелось бы. Но Яндекс постоянно совершенствует свой ИИ, так что можно будет попробовать повторно прогнать снимки через годик - возможно, что результат будет лучше. &lt;br&gt;Что именно влияет на результат - не ясно, но есть догадки: &lt;br&gt;* качество снимка: по одной и той же РС одного и того же села (т.е. разные копии одной сказки) фотки ГАНО весят 1 Мб, а фотки ЦАНО - почти 10 Мб. Разница, конечно, не в 10 раз, но она и есть и она в пользу тяжелых снимков;&lt;br&gt;* почерк писца: тут всё как у людей.&lt;br&gt;&lt;br&gt;Некоторые дела распознались очень хорошо - даже цифры есть.&lt;br&gt;&lt;img src="https://sun9-79.userapi.com/impg/z4lEYlKnUeMCvgNWedb5UQC-nsIJ37HpCvVYiA/OzI8F_hkAcI.jpg?size=1921x1080&amp;amp;quality=96&amp;amp;sign=97061702c0e62b6da772b4a93c1216bd&amp;amp;type=album" alt=""&gt;&lt;br&gt;&lt;br&gt;А некоторые - очень плохо. Например, ревизия 1782 года по нашему селу. &lt;br&gt;&lt;img src="https://sun1-27.userapi.com/impg/LqocFUgzO38hzSCqBKYeC0S04uIMy2lJvX-8DQ/C3_cdh7axIM.jpg?size=1921x1080&amp;amp;quality=96&amp;amp;sign=f1bacc6a4fa9f61914e5020baa677c8f&amp;amp;type=album" alt=""&gt;&lt;br&gt;&lt;br&gt;Забавная ситуация: на странице 3 семьи Дурнайкиных, но Яшенька ни разу не смог распознать фамилию правильно ;D То Дирияйкин, то Аурномкин, то Аурнанкин.&lt;br&gt;&lt;br&gt;&lt;img src="https://sun9-62.userapi.com/impg/I0Xfp4xRF-WF_vVp6sM1YJgDYp6fxT6YpMJA4w/cy_c_tz94Ug.jpg?size=960x1280&amp;amp;quality=95&amp;amp;sign=af83036e266b0113d07fefa220d02bc0&amp;amp;type=album" alt=""&gt;&lt;br&gt;&lt;img src="https://sun9-57.userapi.com/impg/h45WSRugDEA92cpfPEenzcdN6stIydFExNRnMg/uMqSLayEvcA.jpg?size=1280x719&amp;amp;quality=95&amp;amp;sign=9c5b0e5fc15e6f0acac592e90686d80f&amp;amp;type=album" alt=""&gt;  </description>
<dc:creator>Daemon2011</dc:creator>
<pubDate>Tue, 02 Apr 2024 21:44:57 +0300</pubDate>
</item><item><guid>https://forum.vgd.ru/5/154887/p4916940.htm#pp4916940</guid><title></title>
<link>https://forum.vgd.ru/5/154887/p4916940.htm#pp4916940</link>
<description>  Немного о сайте и его функционале.&lt;br&gt;Чтобы сэкономить, я держу свой сервер в "холодном" режиме, так что при первом обращении сайт подтупливает секунды 3-4, но затем раскочегаривается и работает как надо.&lt;br&gt;&lt;br&gt;Сайт состоит из 2 вкладок: заголовки и содержимое.&lt;br&gt;1а) На вкладке "Поиск по заголовкам" можно посмотреть список дел по нашему селу, которые я проиндексировал.&lt;br&gt;&lt;img src="https://sun9-49.userapi.com/impg/w4sRmttATtKDAfh5pGFKLBLCE-GUfONT_4g0bA/6X57-h2d8sc.jpg?size=1921x1080&amp;amp;quality=96&amp;amp;sign=a80cfe09c55c19adc65aad061e2fcf10&amp;amp;type=album" alt=""&gt;&lt;br&gt;&lt;br&gt;1б) Если известны координаты дела, то можно проверить, распознано ли оно и что находится внутри&lt;br&gt;&lt;img src="https://sun9-35.userapi.com/impg/5gVQvXmxDDMO3MuHfUIDF5Z0MXKAWZc4adBo8Q/FKYPVktcbE8.jpg?size=1921x1080&amp;amp;quality=96&amp;amp;sign=c1d97efd269346b496a325b13b44ee10&amp;amp;type=album" alt=""&gt;&lt;br&gt;&lt;br&gt;2а) На вкладке "Поиск по содержимому" можно вести поиск по содержимому дел. Например, по имени или фамилии (до 1850 фамилии в моем селе не писали, так что в ревизиях 1721-1834 годов нет фамилий).&lt;br&gt;&lt;img src="https://sun9-29.userapi.com/impg/mm2qqD3w_IwDDKtJ-VJ2CNv6KpK1F2_NBgJ9OQ/d-O3r0wZd7Q.jpg?size=1921x1080&amp;amp;quality=96&amp;amp;sign=1cc9be2b6be26c55ca9d338705ea7acb&amp;amp;type=album" alt=""&gt;&lt;br&gt;&lt;br&gt;2б) А введя координаты конкретного дела, можно просмотреть, где именно находится искомое имя/фамилия&lt;br&gt;&lt;img src="https://sun9-3.userapi.com/impg/VBmcTpjJGRi-QAMDWYrD7naAGUJwPqVBhUvwEQ/CC05QQi76fc.jpg?size=1920x1080&amp;amp;quality=96&amp;amp;sign=8e95ad9dcc0bdaf95654539f95bfaa03&amp;amp;type=album" alt=""&gt;&lt;br&gt;&lt;br&gt;  </description>
<dc:creator>Daemon2011</dc:creator>
<pubDate>Tue, 02 Apr 2024 21:35:10 +0300</pubDate>
</item><item><guid>https://forum.vgd.ru/5/154887/p4916926.htm#pp4916926</guid><title></title>
<link>https://forum.vgd.ru/5/154887/p4916926.htm#pp4916926</link>
<description>  Привет, коллеги!&lt;br&gt;&lt;br&gt;Полагаю, что всем известен Яндекс Архив &lt;script type='text/javascript'&gt;document.write('&lt;a href="https://ya.ru/archive/search" rel="noopener" target=_blank&gt;https://ya.ru/archive/search&lt;/a&gt;');&lt;/script&gt; - роскошный сервис, который выполняет автоматическую индексацию рукописного текста архивных документов, сохраняет распознанный текст в БД, а затем позволяет искать документы по содержимому. Главный его недостаток - неполнота, вызванная тем, что &lt;br&gt;1) многие архивы отказываются сотрудничать с Яндексом или сотрудничают "для галочки";&lt;br&gt;2) простым пользователям не позволено загружать свои коллекции отснятых архивных документов для распознавания, т.к. может возбудиться "правообладатель" снимков.&lt;br&gt;&lt;br&gt;Частично проблему неполноты попытался решить другой сервис (причем еще до появления Я.Архива  ;D) - Генотек Архивы &lt;script type='text/javascript'&gt;document.write('&lt;a href="https://www.genotek.ru/archives/," rel="noopener" target=_blank&gt;https://www.genotek.ru/archives/,&lt;/a&gt;');&lt;/script&gt; который проиндексировал тысячи снимков, сделанных мормонами, и дал к ним доступ. Но у него как раз случилась проблема №2, как минимум, с Тульским архивом - по итогу, доступ к снимкам ГАТО пришлось убрать.&lt;br&gt;&lt;br&gt;Я предлагаю следующее решение: отказаться от размещения снимков вообще! Для этого был разработан инструмент archivestra (archive orchestra - архивный оркестр/оркестратор архивов), который работает следующим образом:&lt;br&gt;1) отправляет снимок документа на распознавание в Yandex Cloud Vision OCR;&lt;br&gt;2) получает ответ с распознанным текстом (Яндекс дает координаты каждого распознанного слова) и сохраняет его в БД;&lt;br&gt;3) при получении запроса, собирает из распознанных слов картинку так, чтобы каждое распознанное слово занимало ровно то пространство на изображении, которое занимал его рукописный прообраз, а затем отдает его пользователю.&lt;br&gt;&lt;br&gt;Вот как-то так, слева направо: оригинал, собранная картинка, совмещение&lt;br&gt;&lt;img src="https://sun9-30.userapi.com/impg/jeLU713_1VZaeS1LJR_GDJwQh3nhlBmaB0SWTw/96OBZwNGafQ.jpg?size=2560x1207&amp;amp;quality=95&amp;amp;sign=654c5b15da0f22e32182ca6695fe9028&amp;amp;type=album" alt=""&gt;&lt;br&gt;&lt;br&gt;Исходный код лежит тут: &lt;br&gt;&lt;script type='text/javascript'&gt;document.write('&lt;a href="https://github.com/Daemon2017/archivestra" rel="noopener" target=_blank&gt;https://github.com/Daemon2017/archivestra&lt;/a&gt;');&lt;/script&gt;&lt;br&gt;&lt;br&gt;А здесь находится сайт, куда я загрузил почти все имеющиеся у меня доки (РС, ИР, ведомости о числе населения) по моему родному селу Корину Арзамасского уезда Нижегородской губернии &lt;br&gt;&lt;script type='text/javascript'&gt;document.write('&lt;a href="https://daemon2017.github.io/archivestra/" rel="noopener" target=_blank&gt;https://daemon2017.github.io/archivestra/&lt;/a&gt;');&lt;/script&gt;&lt;br&gt;1-3РС не стал заливать, т.к. уже по 4-5РС видно, что шрифт 18 века Яшка не вытягивает(&lt;br&gt;&lt;br&gt;Недавно у Яндекса был единый тариф на все модели: 0.13 рублей за снимок, но сейчас цены на модель распознавания рукописного текста выросли в 10+ раз - до 1.5 рублей за снимок. Но это всё еще очень демократично: мою коллекцию из 700 страниц распознали за 1000+ рублей. Актуальные расценки здесь: &lt;br&gt;&lt;script type='text/javascript'&gt;document.write('&lt;a href="https://yandex.cloud/ru/docs/vision/pricing" rel="noopener" target=_blank&gt;https://yandex.cloud/ru/docs/vision/pricing&lt;/a&gt;');&lt;/script&gt;  </description>
<dc:creator>Daemon2011</dc:creator>
<pubDate>Tue, 02 Apr 2024 21:27:37 +0300</pubDate>
</item></channel>
</rss>