Яндекс - «Поиск по архивам»
Imbir Новичок
Сообщений: 16 На сайте с 2021 г. Рейтинг: 99 | Наверх ##
25 января 2023 11:29 Возможно, кто-то не знает, темы такой не нашла. Яндекс запустил поиск по распознанным через ИИ архивам. Протестировала, пока, увы, видимо, в основном московские метрики и архивы, но и это - большое подспорье. Достаточно просто ввести в строку поиска фамилию, например, и выведется скан из архива, который доступен. Надеюсь, будет полезно: https://yandex.ru/archive Обратная связь с разработчиками.Пара советов, как задавать им вопросы. https://forum.vgd.ru/post/169/140482/p4446064.htm#pp4446064https://forum.vgd.ru/post/169/140482/p4447315.htm#pp4447315Яндекс "Поиск по архивам" в ТГ.Как Яндекс научился распознавать, что написано в рукописных архивах: статья на Хабре о технологиях распознавания рукописного текста и в комментариях - ответы на некоторые вопросы. Инструкция как открыть все дело, а не только одну найденную страницу от ozerskayaВ помощь желающим скачать изображение на локальный компьютер расширения для браузера от okolobaxa
Новости проекта 09.06.2023 Яндекс.Архивы добавили на сервис материалы ГАИО, загрузка и распознавание еще продолжаются, в общей сложности будет более 700 тыс. сканов по всем описям ф. 50 (включая особо ценные). 28.07.2023 Добавили Архивное управление Администрации городского округа Балашиха Московской области - Фондов 1 Дел 116 Оцифровано дел 114 Документов 55 323 31.10.2023 Первые итоги осени - Мы добавили на сервис “Епархиальные ведомости” и другие издания Русской Православной Церкви — около 77 тысяч выпусков или 3,5 млн сканов.
- Также наш сервис пополнился материалами Государственного архива Астраханской области — в общей сложности около 1,5 млн сканов.
- В разделе ЦГА Москвы добавилось более 600 дел, отсканированных архивом с июня по сентябрь.
- В общей сложности на 376 дел пополнилась коллекция материалов ОГАОО (Оренбургская область).
- 150 новых дел прислали наши партнеры из Государственного архива Иркутской области.
09.11.2023 ОГАОО прислал еще более 400 отсканированных дел с метрическими книгами! 14.11.2023 У нас появилось около 6 тысяч новых дел фонда 229 «Московская духовная академия». 21.11.2023 У нас снова пополнение! Теперь пользователям «Поиска по архивам» доступны материалы из Муниципального архива Уссурийска — около 140 дел с метрическими книгами из церквей города и близлежащих сёл. 24.11.2023 Добавили 50 новых дел архива Иркутской области (ГАИО), Ф. 50 Иркутская духовная консистория источник29.11.2023 Выложили материалы Ф. 392 оп. 1 Оренбургского архива "Книги записи родившихся, бракосочетавшихся, разведшихся и умерших евреев по городу Оренбургу" (75 дел) 06.12.2023 К юбилею "Вечерней Москвы" выложили на сервис полный архив газеты за 100 лет (разумеется, распознанный и с возможностью поиска) источник11.12.2023 Оренбургский архив продолжает радовать - с начала декабря прислали сканы более 400 новых дел. источник15.12.2023 Главархив Москвы передал в "Поиск по архивам" почти 1000 дел, отсканированных еще в октябре. Все уже выложены на сервис и почти все уже распознаны. источник21.12.2023 Выложили МК и записи ЗАГС муниципальных архивов Каширы, Луховиц и Павловского Посада, всего около 200 тыс. сканов источник27.12.2023 Выложили обновление по Оренбургу, документы распознались и появились в результатах поиска. Всего 246 дел. + перезалиты в лучшем качестве Ф. 98 оп. 2 д. 2 источник12.01.2024 Первые обновления января ( источник) 06.02.2024 За прошедшую неделю «Поиск по архивам» пополнили почти 360 новых дел! Это свыше 100 тысяч сканов, поступивших из четырёх регионов страны. ( источник) 25.02.2024 390 дел, отсканированных Главархивом Москвы в январе, загружены на сервис, распознаны, доступны в поиске (еще одно доедет на ближайшей неделе). ( источник) 27.02.2024 Добавлено более 500 дел с метрическими книгами и записями ЗАГС с 1893-го по 1925 год из Государственного архива Приморского края ( источник) 10.03.2024 Коллекцию «Поиска по архивам» пополнили материалы из фондов Государственного архива Вологодской области. На сервисе уже размещено около 800 дел (84,5 тыс. листов) ревизских сказок и других документов Вологодской казенной палаты; подготовка и публикация материалов продолжаются. ( источник) 16.04.2024 Коллекцию «Поиска по архивам» пополнили 92 метрические книги, относящиеся к Камышловскому и Екатеринбургскому уездам Пермской губернии — сейчас это территория Курганской и Свердловской областей, хранившиеся в библиотеке Екатеринбургской духовной семинарии. ( источник) | | Лайк (106) |
romanvm Россия, г. Ефремов Сообщений: 5396 На сайте с 2014 г. Рейтинг: 3402 | Наверх ##
8 июня 2024 10:00 platonshukin научите пожалуйста ИИ правильно распознавать фамилии МатОхин и МатЮхин  Всё распознаётся как МатОхин И ещё вопрос - не планируется ли распознавание ведомостей справок о судимости? --- Вопрошающие, большая просьба - приводите ссылки на документы из общедоступных источников. | | Лайк (1) |
platonshukin Сообщений: 117 На сайте с 2023 г. Рейтинг: 275 | Наверх ##
8 июня 2024 11:12 sbrest написал: [q] Интересно, а текст распознается единожды или по мере обучения ии перераспознается? Если первое, то все ошибки навсегда? Если второе, есть ли даты обновления распознавания документов, например как на скрине выше, заходишь в опись или в дело, а там указано - распознано такого то числа, или распознавание обновлено ....[/q]
Текст распознается при загрузке скана на сервис (точнее, вскоре после этого - примерно в течение суток, поэтому в новостях иногда пишем "все файлы загружены и скоро = завтра будут распознаны"). Иногда потом в расшифровку вносятся точечные правки (по обращениям пользователей или потому что мы сами увидели проблему) или можем перераспознать конкретный скан (напр., как сделали с описями ЦГАМ Ф.50). Кроме того, мы всё время работаем над дообучением модели распознавания, когда получается модель, которая распознает в среднем лучше (по метрикам) - мы переобходим всю базу документов и заново всё расшифровываем. Такое за время существования сервиса случалось, кажется, дважды, ждите новостей. Но тут важно заметить, что при решении выкатывать новую модель или нет мы ориентируемся на среднее качество распознавания - а в конкретном случае может случиться, что правильную расшифровку модель поменяет на неправильную :( Поэтому если вы что-то хорошее нашли - поставьте закладку и метку. | | Лайк (9) |
platonshukin Сообщений: 117 На сайте с 2023 г. Рейтинг: 275 | Наверх ##
8 июня 2024 11:14 >> Ответ на сообщение пользователя sbrest от 7 июня 2024 23:48 Скорее всего так. Если подходящих результатов много, поиск не всегда отдает их в одинаковом порядке. Кроме того (не про конкретный случай говорю, а вообще) пользователям часто кажется, что спрашивают они "точно так же" - а на самом деле запрос немного, но отличается - и выдача при этом может отличаться заметно. | | Лайк (4) |
platonshukin Сообщений: 117 На сайте с 2023 г. Рейтинг: 275 | Наверх ##
8 июня 2024 11:15 romanvm написал: [q] не планируется ли распознавание ведомостей справок о судимости?[/q]
В Яндексе не принято рассказывать про планы  Но этот вид справочников выглядит вполне логичным кандидатом на добавление к нам в сервис. И насколько я знаю, они неплохо оцифрованы в РГБ. | | Лайк (11) |
djaha Сообщений: 1301 На сайте с 2010 г. Рейтинг: 1010 | Наверх ##
9 июня 2024 23:33 platonshukin написал: [q] tirael написал:
[q] Уважаемый platonshukin, а не рассматривал ли "Яндекс - поиск по Архивам" добавление в список распознаваемых источников не только газет, но и адрес-календарей? Это же тоже кладезь генеалогической информации.
[/q]
Отличная идея, надо сделать!
Хотя... кажется, мы уже это сделали https://yandex.ru/archive/catalog/books
[/q]
У вас в справочник по СПб за 1849 год попало 300 листов справочной книги петербургского купечества неизвестно за какой год, скорее всего около 1900-го. | | Лайк (1) |
von_nachtigallPh.D. (Chem.)  Москва => не Москва Сообщений: 1913 На сайте с 2010 г. Рейтинг: 1948 | Наверх ##
10 июня 2024 0:38 И снова я с лютеранскими метриками на немецком языке . Например: https://yandex.ru/archive/cata...32789e56/7пару месяцев назад было распознано, но как русский текст (я об этом писал). теперь вижу, что распознавания текста вообще никакого нет... есть ли планы прикрутить немецкую языковую модель и распознавание куррентшрифта? --- Ik bun Normalis Archivaris
En ik beitel kronieken in een rots...
Ich fahre hier,
Ich fahre her
Ich habe keine Heimat mehr
R-M198, U7a (FTDNA); R-Z92, U7 (23&Me) | | |
platonshukin Сообщений: 117 На сайте с 2023 г. Рейтинг: 275 | Наверх ##
10 июня 2024 20:12 djaha написал: [q]
У вас в справочник по СПб за 1849 год попало 300 листов справочной книги петербургского купечества неизвестно за какой год, скорее всего около 1900-го.[/q]
Да, уже кто-то пожаловался в саппорт (возможно, вы). В таком виде справочник отсканирован в РГБ - см. здесь https://viewer.rusneb.ru/ru/00...eme=white. Задали вопрос коллегам, как на самом деле должно быть. | | |
platonshukin Сообщений: 117 На сайте с 2023 г. Рейтинг: 275 | Наверх ##
10 июня 2024 20:14 von_nachtigall написал: [q] теперь вижу, что распознавания текста вообще никакого нет... есть ли планы прикрутить немецкую языковую модель и распознавание куррентшрифта?[/q]
Решили, что совсем убрать у таких документов расшифровку будет честнее, чем пытаться что-то угадать (впрочем, в основном это относилось к старотатарскому арабской графикой). В ближайших планах других языков нет; "на сдачу" их не добавить, в любом случае нужно заниматься качеством. | | Лайк (1) |
platonshukin Сообщений: 117 На сайте с 2023 г. Рейтинг: 275 | Наверх ##
11 июня 2024 11:50 >> Ответ на сообщение пользователя platonshukin от 11 мая 2024 15:56 Всем доброго дня! За другими делами немного отложил историю по ссылке выше (напомню, там разбирались, почему отличается количество сканов в делах ЦГАМ на сайте "Поиска по архивам" и на сайте cgamos.ru), но теперь вернулся и честно сравнил количество сканов (а не просто указанное в НСА количество листов). На самом деле, по делам, опубликованным на сайте ЦГАМ, отличий оказалось немного, по сути я просто убрал вторую половину списка (дела, по которым сканы есть только в "Поиске по архивам" => данные по количеству листов брались из НСА) + скрыл листы со списками дел, где нумерация идет не подряд (их слишком много и это, кажется, часто нормальная ситуация). Итак, вот обновленная табличка на ~500 строк https://docs.google.com/spread...uFAS8/editСтолбцы слева до "Разобрались" закрыты от редактирования; в столбце "Комментарии" и правее может писать любой желающий. Так что если хотите помочь навести порядок - у нас или на сайте cgamos.ru - добро пожаловать! | | Лайк (2) |
anto Сообщений: 5793 На сайте с 2009 г. Рейтинг: 4449
| Наверх ##
14 июня 2024 12:41 http://forum.yar-genealogy.ru/...ntry362360Пишет Евгений Гузанов, начальник Управления по делам архивов Правительства Ярославской области - "Лет пять назад мы (несколько руководителей региональных архивных служб и директор ВНИИДАД) вышли с предложением к Яндексу с предложением по индексации документов. У Яндекса уже было свое видение работы ресурса и наши предложения они отклонили. После этого от них поступало предложение просто передать все оцифрованные документы в их систему. В предложенном варианте это было невозможно. К стати, до настоящего времени процент распознавания у Яндекса неизвестен. В тоже время, мы пытались решать эту проблему с высшими учебными учреждениями области. Результата пока нет. Но то, что проиндексировать нужно перепись, метрики, ревизии и газеты я полностью поддерживаю. Главное не в ущерб государству." | | Лайк (2) |
|