Архивный хакатон

На сайте ВГД собираются люди, увлеченные генеалогией, историей, геральдикой и т.д. Здесь вы найдете собеседников, экспертов, умелых помощников в поисках предков и родственников. Вам подскажут где искать документы о павших в боях и пропавших без вести, в какой архив обратиться при исследовании родословной своей семьи, помогут определить по старой фотографии принадлежность к воинским частям, ведомствам и чину. ВГД - поиск людей в прошлом, настоящем и будущем!

Главархив Москвы приглашает команды разработчиков, аналитиков и IT-специалистов создать веб-сервис на базе искусственного интеллекта для автоматического извлечения информации из архивных документов.

Сервис извлечения и индексирования информации из образов архивных документов (Ретроконверсия)
Задача 09
https://i.moscow/lct/hackatons...66adc2/ru/

Главархив Москвы предлагает заглянуть в прошлое с помощью инструментов будущего. Командам предстоит разработать веб-сервис на базе ИИ, который позволит автоматически извлекать информацию из рукописных и машинописных архивных документов, индексировать ее и загружать в цифровую систему хранения. Сервис должен распознавать документы, сочетающие рукописный и печатный текст, с точностью не менее 95 процентов, а также включать инструменты для проверки и коррекции извлеченных данных. Важной функцией станет возможность гибкой выгрузки информации по заданным критериям. При этом система должна работать автономно, без доступа к внешним ресурсам, что позволит обеспечить безопасность и целостность архивных данных.
Источник: https://www.mos.ru/news/item/157387073/

Научите ИИ читать дореволюционные документы

* Задача от города 9 — автоматизировать процесс извлечения данных из архивных образов до 1917 года от Главархива Москвы.

* Что нужно сделать:
Разработать сервис на основе искусственного интеллекта для распознавания и извлечения информации из образов архивных рукописей до 1917 года. Решение должно уметь быстро и качественно «читать» старинные документы и преобразовывать их в печатный формат.

* Почему это важно:
Задача позволит ускорить оцифровку и обработку огромного массива исторических документов, пополнить базы данных и упростить доступ к информации для исследователей, историков и москвоведов.

‼ Призовой фонд задачи

1 место — 1 000 000 ₽
2 место — 600 000 ₽
3 место — 400 000 ₽

Источник: vk.cc/cOu8as и https://vk.com/wall-185263155_1921

Прием заявок до 18 сентября.

Разработка решений - 18 сентября - 2 октября.
Техническя экспертиза - 3-21 октября.
Питч-сессии - 22-23 октября.
Церемония награждения - 24-25 октярбря офлайн в Москве

Подать заявку https://i.moscow/lct/hackatons...66adc2/ru/

Dmitry111 написал:

[q]
Реально ли? (Даже у того же яндекса процент точности - гораздо меньше, он и слова режет, и читает "а" как "о" или "н" как "к" и многие другие неточности, при этом яндекс рассматривает только ряд документов, а в архиве хранятся разного рода документы)

Или это просто очередной Washing budget money, заточенный под конкретного уже известного в узких кругах исполнителя, как очень часто во всех сферах происходит в России? Ведь принимать работу будет комиссия, которая и решит, что все требования конкурса выполнены (а пешки, которые не выиграли - не захотят опротестовать результаты, потому что все равно бесполезно - на это и рассчитано).
У нас вон в Нижнем история тоже была, когда к Нижнему присоединили Кстовский округ и власти обещали, что тарифы на ЖКХ останутся кстовскими, а не нижегородскими. В итоге, пришли квитанции - а там все по Нижегородским тарифам. И власти написали, что люди пускай подают заявления на пересчет. (Многие организации ЖКХ в НН - это собственники москвичи, кстати - по сути частные собственники, и власти тут как бы непричем). Но многие ли будут связываться, ругаться с ЖКХ - из десяти жителей один подаст заявление, другие связываться не будут, проглотят...
[/q]

ничего не понял, причем здесь поиск - распознавание о или а - какие то кстовские тарифы, если оцифровать все архивные документы, то качество поиска достигнет 99 процентов.

То есть, у Вас в голове нижегородские или кстовские тарифы и какая то ограниченная историческая информация, на основании которой Вы делаете какие то выводы , а у ИИ стоит задача на конкретный поиск информации, ограниченной только отсутствием информации.

Здесь разбор этого хакатона:
https://vk.com/@-143396158-gla...pe=primary

Если коротко, то:
Закрытый контур оправдан для персональных данных или гостайны. Но применять его к публичным архивным материалам — это не про безопасность, а про демонстрацию, что контроль важнее прогресса.
А пока в остальном мире искусственный интеллект учится читать древние манускрипты в облаках и делиться результатами, у нас он будет читать их в бункере.
Что касается самого конкурса. Если у вас уже есть наработки по офлайн-распознаванию, опыт дообучения моделей (а еще лучше предобученные модели) под специфичный почерк и вы понимаете, что такое интеграция в закрытый контур — шансы хорошие. Остальным стоит оценить, не проще ли использовать этот конкурс как повод прокачать свои навыки, чем идти за победой.

vam написал:

[q]
То есть, у Вас в голове нижегородские или кстовские тарифы и какая то ограниченная историческая информация, на основании которой Вы делаете какие то выводы , а у ИИ стоит задача на конкретный поиск информации, ограниченной только отсутствием информации.
[/q]

Без оскорблений, пожалуйста, и намеков на них, сударь) Где ваше критическое мышление?
Если принять правильную расшифровку, учитываемую при процентовке результатов, как правильное дословное распознавание слов (пускай даже если сам писарь написал его с ошибкой, то процент яндекса гораздо меньше 95%. При этом, правильная расшифровка должна включать и аббревиатуры и сокращения, а также слова, переносимые с одной страницы на другую, что очень часто встречается в длинных текстах и даже в МК попадается. Но яндекс сколько работали со своей системой? Можно много привести примеров неправильной расшифровки даже ФИО (т. е. наиболее ограниченный случай расшифровке, но наибольшее количество пользователей ищет информацию в МК, РС, ИВ именно по фамилиям+нас. пунктам)
А тут, повторяю, предлагается за 2 недели разработать всю систему, чтобы она правильно распознавала 95% текста... Даже если через такую систему как яндекс в нынешнем ее состоянии, без ее модификации (в т.ч. внедрения "костылей", что очень не любят программисты) прогнать все МК, РС и ИВ - очень сомневаюсь, что результат улучшится до 95% без серьезной работы.
Документы, которые уже были расшифрованы ранее - в 2022-3-4 году, надо постоянно прогонять через новые версии ИИ, чтобы улучшать результат.

В том же ЦГАМ вероятно очень малый процент оцифрованных документов. Поэтому невозможно их все до сентября оцифровать и прогнать через новую систему, чтобы получить. В каждом виде документа свои особенности и построения документов и разные почерки, что система должна будет распознавать ПРАВИЛЬНО.

Поэтому интересно, все таки какой критерий будет браться за качество результата. Если это именно правильное дословное распознавание, то за две недели это сложно будет сделать.
Если же делать "костыли", например, убирать из результатов поиска ошибочно найденные в нем матерные слова (у яндекса такое тоже встречается) или заменять например написание фамилий на общеупотребимые (Галицын на Голицын) и т.п. - это еще более сложная задача (по написанным критериям - система должна будуте включать инструменты для проверки и коррекции извлеченных данных).

Также экспертиза... То есть, систему будут рассматривать со всех сторон с точки зрения кода, "кормить" условно выбранными текстами и смотреть на результат.
То есть, вопрос - какие примеры будут брать для оценки результата. Если система будет "выучена" на текстах 19 века, а ей предложат текст 16 века - она не даст 95% результат. Поэтому также многое будет зависеть от критериев оценки результата, какие именно примеры будут системе предложены для расшифровки. И тут уже важна инсайдерская информация и тот, кто ей владеет....

Что касается примеров с тарифами... В конкурсе допустим будут участвовать условно 5 команд, а призовых три места. Допустим, вторая или четвертая команда не признает результаты конкурса и захочет их опротестовать. Может быть, в каких-то моментах их системы будут лучше тех, кто занять более высокие места... Может ли такое? Не исключено.
Но весь вопрос - будут ли они опротестовывать результаты конкурса, захотят ли с этим связываться? Вряд ли. Многие из ИТ-фирм - это маленькие фирмы. И тут скорее участие в конкурсе для них будет действительно вопросом прокачки навыков и получения репутационных привилегий, чтобы грамоту за участие на стене повесить, чем действительно выиграть.

Alina_S написал:

[q]
‼ Призовой фонд задачи

1 место — 1 000 000 ₽
2 место — 600 000 ₽
3 место — 400 000 ₽
[/q]

Какие смешные деньги для озвученной задачи.

Такое чувство, что конкурс объявили простите "дубы" не сказать грубее.
Можно подумать за полтора месяца это можно сделать.
Туфта полная. А главное призы. Лучше ничего не делать, чем за такие деньги.
Я в трансе

В задании сказано до 1917, но не сказано с какого
Почерк 17 века, 18 века и 19 и даже 20 большие разницы. Чтобы распознавать все эти времена, надо как минимум 1 миллион образов кадров.
Причём начиная от ИР , РСи метрик.
А как быть с текстом, который клинописью? Его как ИИ будет читать?
А как быть с текстом 18твека, когда часто идёт сплошником.
Полтора месяца на решении задачи, которой как минимум год полтора нужно.

Wladzislaw написал:

[q]
Какие смешные деньги для озвученной задачи.
[/q]

Товарисчи видимо считают по простому - мульон за три недели... А что этому предшествовало и на каком уровне должен быть даже не один специалист, а все...
Я не одобряю задранные расценки IT специалистов, но в данном случае оплата не соответствует...

Мы с добровольцами пятый год работаем с описями РГАДА, начиная с 18 века. И тексты дел набираем, согласно археографическим правилам.
И все равно приходится составлять преамбулы по каждому почерку писца, секретаря, и т.д.
И только перекрестное изучение документов приводит к результату.
И я регулярно подсовываю дипсику УЖЕ НАБРАННЫЕ ТЕКСТЫ, так вот семантика, порядок слов, смысл написания предложений не всегда им определяется.
Приходится поправлять, прежде чем в него запустить на проверку объем уже набранных текстов.
И это всё равно не является конечным результатом, я только прошу указать на что-н, что я не заметила.
Отдавать на полную корректировку нельзя. Изменяет то, что не просишь.

И самые сложные даже не скорописные документы, а заборы 19 века, где все буквы написаны одинаково - м, т, ш, к, и, п
Тут даже со знанием фамилий и населенных пунктов проблема.

Поэтому, кто куда, а мы учиться, учиться и учиться. Спасение утопающих в море информации - дело рук и голов их же ...

>> Ответ на сообщение пользователя s_fedot от 24 августа 2025 20:04
Вот и я про то

Хакатон в данном деле вообще не уместен

Главархив Москвы проведет конкурс для разработчиков в сфере ИИ