Яндекс - «Поиск по архивам»
Imbir Новичок
Сообщений: 16 На сайте с 2021 г. Рейтинг: 99 | Наверх ##
25 января 2023 11:29 Возможно, кто-то не знает, темы такой не нашла. Яндекс запустил поиск по распознанным через ИИ архивам. Протестировала, пока, увы, видимо, в основном московские метрики и архивы, но и это - большое подспорье. Достаточно просто ввести в строку поиска фамилию, например, и выведется скан из архива, который доступен. Надеюсь, будет полезно: https://yandex.ru/archive Обратная связь с разработчиками.Пара советов, как задавать им вопросы. https://forum.vgd.ru/post/169/140482/p4446064.htm#pp4446064https://forum.vgd.ru/post/169/140482/p4447315.htm#pp4447315Яндекс "Поиск по архивам" в ТГ.Как Яндекс научился распознавать, что написано в рукописных архивах: статья на Хабре о технологиях распознавания рукописного текста и в комментариях - ответы на некоторые вопросы. Инструкция как открыть все дело, а не только одну найденную страницу от ozerskayaВ помощь желающим скачать изображение на локальный компьютер расширения для браузера от okolobaxa
Новости проекта 09.06.2023 Яндекс.Архивы добавили на сервис материалы ГАИО, загрузка и распознавание еще продолжаются, в общей сложности будет более 700 тыс. сканов по всем описям ф. 50 (включая особо ценные). 28.07.2023 Добавили Архивное управление Администрации городского округа Балашиха Московской области - Фондов 1 Дел 116 Оцифровано дел 114 Документов 55 323 31.10.2023 Первые итоги осени - Мы добавили на сервис “Епархиальные ведомости” и другие издания Русской Православной Церкви — около 77 тысяч выпусков или 3,5 млн сканов.
- Также наш сервис пополнился материалами Государственного архива Астраханской области — в общей сложности около 1,5 млн сканов.
- В разделе ЦГА Москвы добавилось более 600 дел, отсканированных архивом с июня по сентябрь.
- В общей сложности на 376 дел пополнилась коллекция материалов ОГАОО (Оренбургская область).
- 150 новых дел прислали наши партнеры из Государственного архива Иркутской области.
09.11.2023 ОГАОО прислал еще более 400 отсканированных дел с метрическими книгами! 14.11.2023 У нас появилось около 6 тысяч новых дел фонда 229 «Московская духовная академия». 21.11.2023 У нас снова пополнение! Теперь пользователям «Поиска по архивам» доступны материалы из Муниципального архива Уссурийска — около 140 дел с метрическими книгами из церквей города и близлежащих сёл. 24.11.2023 Добавили 50 новых дел архива Иркутской области (ГАИО), Ф. 50 Иркутская духовная консистория источник29.11.2023 Выложили материалы Ф. 392 оп. 1 Оренбургского архива "Книги записи родившихся, бракосочетавшихся, разведшихся и умерших евреев по городу Оренбургу" (75 дел) 06.12.2023 К юбилею "Вечерней Москвы" выложили на сервис полный архив газеты за 100 лет (разумеется, распознанный и с возможностью поиска) источник11.12.2023 Оренбургский архив продолжает радовать - с начала декабря прислали сканы более 400 новых дел. источник15.12.2023 Главархив Москвы передал в "Поиск по архивам" почти 1000 дел, отсканированных еще в октябре. Все уже выложены на сервис и почти все уже распознаны. источник21.12.2023 Выложили МК и записи ЗАГС муниципальных архивов Каширы, Луховиц и Павловского Посада, всего около 200 тыс. сканов источник27.12.2023 Выложили обновление по Оренбургу, документы распознались и появились в результатах поиска. Всего 246 дел. + перезалиты в лучшем качестве Ф. 98 оп. 2 д. 2 источник12.01.2024 Первые обновления января ( источник) 06.02.2024 За прошедшую неделю «Поиск по архивам» пополнили почти 360 новых дел! Это свыше 100 тысяч сканов, поступивших из четырёх регионов страны. ( источник) 25.02.2024 390 дел, отсканированных Главархивом Москвы в январе, загружены на сервис, распознаны, доступны в поиске (еще одно доедет на ближайшей неделе). ( источник) 27.02.2024 Добавлено более 500 дел с метрическими книгами и записями ЗАГС с 1893-го по 1925 год из Государственного архива Приморского края ( источник) 10.03.2024 Коллекцию «Поиска по архивам» пополнили материалы из фондов Государственного архива Вологодской области. На сервисе уже размещено около 800 дел (84,5 тыс. листов) ревизских сказок и других документов Вологодской казенной палаты; подготовка и публикация материалов продолжаются. ( источник) 16.04.2024 Коллекцию «Поиска по архивам» пополнили 92 метрические книги, относящиеся к Камышловскому и Екатеринбургскому уездам Пермской губернии — сейчас это территория Курганской и Свердловской областей, хранившиеся в библиотеке Екатеринбургской духовной семинарии. ( источник) | | Лайк (106) |
E_G_K Сообщений: 106 На сайте с 2018 г. Рейтинг: 117
| Наверх ##
8 апреля 2024 11:45 8 апреля 2024 12:10 Посмотрите подкаст с руководителем "Поиска по архивам". Там есть ответ на вопрос, почему они пока не могут предоставить возможность распознавать свои документы, но не исключают, что это будет реализовано. Где-то с 1:16:00 https://www.youtube.com/watch?v=UYg0DUxAfDk | | Лайк (2) |
platonshukin Сообщений: 117 На сайте с 2023 г. Рейтинг: 275 | Наверх ##
8 апреля 2024 12:14 Личное мнение напишу, может не совпадать с мнением руководства сервиса:
- распознавание пользовательского контента интересно делать только как способ наполнения базы сервиса. Пользы от этих сканов для улучшения модели распознавания нет (что мы, в интернете их не найдем, если нужно будет?), монетизация тут тоже если и возможна, то не того масштаба, чтобы с этим связываться - то есть, загруженные пользователями сканы нужно делать публичными. А раз так - нужно а) модерировать, чтобы там не загружали какое-нибудь непотребство, б) очевидно, пользователи сразу же зальют сканы архивных документов с сайтов архивов или с FamilySearch и архивы (и/или FS) придут с вопросиками
Поэтому задача где-то не в ближайших планах... | | Лайк (12) |
Михаха Сообщений: 4136 На сайте с 2008 г. Рейтинг: 3841 | Наверх ##
8 апреля 2024 12:28 platonshukin написал: [q] Личное мнение напишу, может не совпадать с мнением руководства сервиса:
[/q]
Обращение также лично к вам, не к руководству сервиса. Увлекающимся генеалогией плотно был бы интересен такой сервис: использование вашего движка на компьютере пользователя, на материалах пользователя с элементами обучения бездушного алгоритма пользователем. Монетизация? Ну, например, через подписку. Понятно, что это другой продукт. Несколько, даже гениальных, разработчиков алгоритма распознавания против тысяч упертых исследователей не потянут. | | |
Daemon2011 Сообщений: 725 На сайте с 2011 г. Рейтинг: 582 | Наверх ##
8 апреля 2024 12:29 8 апреля 2024 12:30 platonshukin написал: [q] Личное мнение напишу, может не совпадать с мнением руководства сервиса:
- распознавание пользовательского контента интересно делать только как способ наполнения базы сервиса. Пользы от этих сканов для улучшения модели распознавания нет (что мы, в интернете их не найдем, если нужно будет?), монетизация тут тоже если и возможна, то не того масштаба, чтобы с этим связываться - то есть, загруженные пользователями сканы нужно делать публичными. А раз так - нужно а) модерировать, чтобы там не загружали какое-нибудь непотребство, б) очевидно, пользователи сразу же зальют сканы архивных документов с сайтов архивов или с FamilySearch и архивы (и/или FS) придут с вопросиками
Поэтому задача где-то не в ближайших планах...[/q]
Обратил внимание, что один и тот же снимок по-разному распознается моделью Я.Архива и моделью "handwritten" Yandex Cloud Vision OCR: handwritten не знает о существовании ятя ( ѣ ) и распознает его то как Ъ, то как Ы, то как Ь. Также, она не знает о существовании "и десятеричной" (i) - ее она распознает как латинскую i. Помимо этого, некоторые, заведомо кириллические слова (сын) распознаются как латинские (in). Будет ли когда-нибудь доступна за денежку модель с ятями?  Уверен, если Вы сделаете ять-модель доступной в Yandex Cloud Vision OCR за денежку, сопоставимую с handwritten-моделью (1.5 руб/снимок, кажется), то в рунете появится не один проект, который будет готов за небольшой процент распознавать снимки из личных архивов пользователей (у меня таких 15+ Гб за 15 лет набежало, причем бОльшую часть я так и не успел выложить в общак - руки не доходят) и модерировать их своими силами. Т.е. Яндексу достаточно сделать b2b, а уж b2c на себе как-нибудь вытянет малый бизнес. | | Лайк (2) |
Daemon2011 Сообщений: 725 На сайте с 2011 г. Рейтинг: 582 | Наверх ##
8 апреля 2024 12:42 Михаха написал: [q] Обращение также лично к вам, не к руководству сервиса. Увлекающимся генеалогией плотно был бы интересен такой сервис: использование вашего движка на компьютере пользователя, на материалах пользователя с элементами обучения бездушного алгоритма пользователем. Монетизация? Ну, например, через подписку. Понятно, что это другой продукт. Несколько, даже гениальных, разработчиков алгоритма распознавания против тысяч упертых исследователей не потянут.[/q]
Опыт Geni и Familysearch показал, что это ужасная идея. Вспомните, сколько ошибок даже в дворянских профилях (по которым сведений всегда априори больше, чем по крестьянам) на Geni! Если глянуть в историю профиля, то становится ясно, почему: кто-то (упрямый исследователь) вносит дату рождения/брака/службы/смерти из справочника 1930-го года, потом приходит специалист, который перепроверяет сведения по архивным документам и узнает, что даты не те - исправляет, а когда это видят "тысячи упрямых исследователей", то они бегут переправлять все обратно - чтобы было как в справочнике 1930-го года Или посмотрите в Familysearch: там отчество написано в фамилию, тут Мария записана как Марина, там дата рождения одного ребенка записана другому и т.д. Так что Яндекс действует совершенно правильно: ищет людей с профильным образованием, большим практическим опытом, т.е. лучших из лучших - им и доверяет управление своей моделью. | | Лайк (4) |
KoLenka Питерская я Сообщений: 2349 На сайте с 2021 г. Рейтинг: 12912 | Наверх ##
8 апреля 2024 13:05 Daemon2011 написал: [q] Обратил внимание,[/q]
Я еще вчера обратила внимание, что Вы вставляете не кликабельные скриншоты. Их просто не посмотреть. Не увеличить. Вам в помощь- менеджер загрузки Или кнопка Выбрать файлы. Не обижайтесь. | | |
Михаха Сообщений: 4136 На сайте с 2008 г. Рейтинг: 3841 | Наверх ##
8 апреля 2024 13:09 Daemon2011 написал: [q] Опыт Geni и Familysearch показал, что это ужасная идея.[/q]
Согласен, что выкладывать в общий доступ результаты личного распознавания - плохая идея. А если мне нужно "для себя"? Конкретное село в моих шкурных интересах? Почерк у условного дьяка Кузьмы за 20 лет не менялся, без пользовательской настройки не один ИИ не справится. Особенно, если универсальным алгоритмом обрабатывают и метрики и ЕВ и подшивку "Советского Спорта". | | Лайк (1) |
platonshukin Сообщений: 117 На сайте с 2023 г. Рейтинг: 275 | Наверх ##
8 апреля 2024 13:12 >> Ответ на сообщение пользователя Daemon2011 от 8 апреля 2024 12:29 Всё так, YandexCloud OCR не умеет дореформенный рукописный текст и, насколько я знаю, пока не планирует его добавлять. | | Лайк (2) |
Daemon2011 Сообщений: 725 На сайте с 2011 г. Рейтинг: 582 | Наверх ##
8 апреля 2024 13:35 8 апреля 2024 14:13 Михаха написал: [q] Согласен, что выкладывать в общий доступ результаты личного распознавания - плохая идея. А если мне нужно "для себя"? Конкретное село в моих шкурных интересах? Почерк у условного дьяка Кузьмы за 20 лет не менялся, без пользовательской настройки не один ИИ не справится. Особенно, если универсальным алгоритмом обрабатывают и метрики и ЕВ и подшивку "Советского Спорта".[/q]
Затачивать модель под каждое село очень затратно: обучение подразумевает многократный пропуск всего обучающего набора (тысячи или десятки/сотни тысяч снимков) через нейросеть, что занимает часы/сутки, а иногда даже недели, в зависимости от оборудования. В этом основная черта производительности нейросетей: очень долго обучаются и очень быстро работают. Можно даже посчитать. Вот тут есть внешние расценки Яндекса на машинное обучение: https://yandex.cloud/ru/docs/datasphere/pricing - если предположить, что обучающий набор реально обработать за 24 часа на 1 видеокарте (цена аренды 0,0864 руб/сек), то выйдет 0,0864*60*60*24=7500 рублей за 1 обучение. Но на деле требуется гораздо больше видеокарт для того, чтобы уложиться в 24 часа, так что я бы умножал цену, минимум, на 10. Т.е. подстроиться под 100 почерков 100 писарей 100 приходов в 1 губернии - это уже целое состояние  Да и затея странная: наш мозг универсален и, после привыкания, хорошо справляется и с печатными буквами, и с рукописными, и со скорописью, и с вязью, а значит реально создать такой ИИ, который тоже будет справляться с самыми разными почерками. | | Лайк (4) |
Daemon2011 Сообщений: 725 На сайте с 2011 г. Рейтинг: 582 | Наверх ##
8 апреля 2024 13:36 platonshukin написал: [q] >> Ответ на сообщение пользователя Daemon2011 от 8 апреля 2024 12:29
Всё так, YandexCloud OCR не умеет дореформенный рукописный текст и, насколько я знаю, пока не планирует его добавлять.[/q]
Жаль, спасибо за ответ! | | |
|