Яндекс - «Поиск по архивам»
Imbir Новичок
Сообщений: 16 На сайте с 2021 г. Рейтинг: 99 | Наверх ##
25 января 2023 11:29 Возможно, кто-то не знает, темы такой не нашла. Яндекс запустил поиск по распознанным через ИИ архивам. Протестировала, пока, увы, видимо, в основном московские метрики и архивы, но и это - большое подспорье. Достаточно просто ввести в строку поиска фамилию, например, и выведется скан из архива, который доступен. Надеюсь, будет полезно: https://yandex.ru/archive Обратная связь с разработчиками.Пара советов, как задавать им вопросы. https://forum.vgd.ru/post/169/140482/p4446064.htm#pp4446064https://forum.vgd.ru/post/169/140482/p4447315.htm#pp4447315Яндекс "Поиск по архивам" в ТГ.Как Яндекс научился распознавать, что написано в рукописных архивах: статья на Хабре о технологиях распознавания рукописного текста и в комментариях - ответы на некоторые вопросы. Инструкция как открыть все дело, а не только одну найденную страницу от ozerskayaВ помощь желающим скачать изображение на локальный компьютер расширения для браузера от okolobaxa
Новости проекта 09.06.2023 Яндекс.Архивы добавили на сервис материалы ГАИО, загрузка и распознавание еще продолжаются, в общей сложности будет более 700 тыс. сканов по всем описям ф. 50 (включая особо ценные). 28.07.2023 Добавили Архивное управление Администрации городского округа Балашиха Московской области - Фондов 1 Дел 116 Оцифровано дел 114 Документов 55 323 31.10.2023 Первые итоги осени - Мы добавили на сервис “Епархиальные ведомости” и другие издания Русской Православной Церкви — около 77 тысяч выпусков или 3,5 млн сканов.
- Также наш сервис пополнился материалами Государственного архива Астраханской области — в общей сложности около 1,5 млн сканов.
- В разделе ЦГА Москвы добавилось более 600 дел, отсканированных архивом с июня по сентябрь.
- В общей сложности на 376 дел пополнилась коллекция материалов ОГАОО (Оренбургская область).
- 150 новых дел прислали наши партнеры из Государственного архива Иркутской области.
09.11.2023 ОГАОО прислал еще более 400 отсканированных дел с метрическими книгами! 14.11.2023 У нас появилось около 6 тысяч новых дел фонда 229 «Московская духовная академия». 21.11.2023 У нас снова пополнение! Теперь пользователям «Поиска по архивам» доступны материалы из Муниципального архива Уссурийска — около 140 дел с метрическими книгами из церквей города и близлежащих сёл. 24.11.2023 Добавили 50 новых дел архива Иркутской области (ГАИО), Ф. 50 Иркутская духовная консистория источник29.11.2023 Выложили материалы Ф. 392 оп. 1 Оренбургского архива "Книги записи родившихся, бракосочетавшихся, разведшихся и умерших евреев по городу Оренбургу" (75 дел) 06.12.2023 К юбилею "Вечерней Москвы" выложили на сервис полный архив газеты за 100 лет (разумеется, распознанный и с возможностью поиска) источник11.12.2023 Оренбургский архив продолжает радовать - с начала декабря прислали сканы более 400 новых дел. источник15.12.2023 Главархив Москвы передал в "Поиск по архивам" почти 1000 дел, отсканированных еще в октябре. Все уже выложены на сервис и почти все уже распознаны. источник21.12.2023 Выложили МК и записи ЗАГС муниципальных архивов Каширы, Луховиц и Павловского Посада, всего около 200 тыс. сканов источник27.12.2023 Выложили обновление по Оренбургу, документы распознались и появились в результатах поиска. Всего 246 дел. + перезалиты в лучшем качестве Ф. 98 оп. 2 д. 2 источник12.01.2024 Первые обновления января ( источник) 06.02.2024 За прошедшую неделю «Поиск по архивам» пополнили почти 360 новых дел! Это свыше 100 тысяч сканов, поступивших из четырёх регионов страны. ( источник) 25.02.2024 390 дел, отсканированных Главархивом Москвы в январе, загружены на сервис, распознаны, доступны в поиске (еще одно доедет на ближайшей неделе). ( источник) 27.02.2024 Добавлено более 500 дел с метрическими книгами и записями ЗАГС с 1893-го по 1925 год из Государственного архива Приморского края ( источник) 10.03.2024 Коллекцию «Поиска по архивам» пополнили материалы из фондов Государственного архива Вологодской области. На сервисе уже размещено около 800 дел (84,5 тыс. листов) ревизских сказок и других документов Вологодской казенной палаты; подготовка и публикация материалов продолжаются. ( источник) 16.04.2024 Коллекцию «Поиска по архивам» пополнили 92 метрические книги, относящиеся к Камышловскому и Екатеринбургскому уездам Пермской губернии — сейчас это территория Курганской и Свердловской областей, хранившиеся в библиотеке Екатеринбургской духовной семинарии. ( источник) | | Лайк (106) |
sbrest Сообщений: 178 На сайте с 2019 г. Рейтинг: 313
| Наверх ##
7 июня 2024 17:55 Интересно, а текст распознается единожды или по мере обучения ии перераспознается? Если первое, то все ошибки навсегда? Если второе, есть ли даты обновления распознавания документов, например как на скрине выше, заходишь в опись или в дело, а там указано - распознано такого то числа, или распознавание обновлено .... | | Лайк (9) |
maripema Сообщений: 237 На сайте с 2020 г. Рейтинг: 778
| Наверх ##
7 июня 2024 23:12 sbrest написал: [q] Интересно, а текст распознается единожды или по мере обучения ии перераспознается? Если первое, то все ошибки навсегда? Если второе, есть ли даты обновления распознавания документов, например как на скрине выше, заходишь в опись или в дело, а там указано - распознано такого то числа, или распознавание обновлено ....[/q]
У меня вообще дела которые раньше находились , второй раз при таком же наборе слов не находятся, все рандомно, в Вы распознавание с указанием числа.  . Это же ИИ как хочет так и делает. | | |
sbrest Сообщений: 178 На сайте с 2019 г. Рейтинг: 313
| Наверх ##
7 июня 2024 23:48 7 июня 2024 23:49 maripema написал: [q] sbrest написал:
[q] Интересно, а текст распознается единожды или по мере обучения ии перераспознается? Если первое, то все ошибки навсегда? Если второе, есть ли даты обновления распознавания документов, например как на скрине выше, заходишь в опись или в дело, а там указано - распознано такого то числа, или распознавание обновлено ....
[/q]
У меня вообще дела которые раньше находились , второй раз при таком же наборе слов не находятся, все рандомно, в Вы распознавание с указанием числа.. Это же ИИ как хочет так и делает.
[/q]
я думаю это косяк поиска по распознанным записям, или Вы думаете, что при новом поиске он в онлайне Вам пере распознает в течении нескольких секунд все имеющиеся документы? вот Вам цитаты из шапки 09.06.2023 Яндекс.Архивы добавили на сервис материалы ГАИО, загрузка и распознавание еще продолжаются 06.12.2023 К юбилею "Вечерней Москвы" выложили на сервис полный архив газеты за 100 лет (разумеется, распознанный и с возможностью поиска) 15.12.2023 Главархив Москвы передал в "Поиск по архивам" почти 1000 дел, отсканированных еще в октябре. Все уже выложены на сервис и почти все уже распознаныну и так далее | | |
KoLenka Питерская я Сообщений: 2359 На сайте с 2021 г. Рейтинг: 12940 | Наверх ##
7 июня 2024 23:50 sbrest написал: [q] или по мере обучения ии перераспознается[/q]
Думаю этот вариант. Ибо раньше все позывные типа Сенненского района и Ряснянской волости были исковерканы, а теперь все красиво и почти без ошибок. Сама удивилась | | |
romanvm Россия, г. Ефремов Сообщений: 5385 На сайте с 2014 г. Рейтинг: 3390 | Наверх ##
8 июня 2024 10:00 platonshukin научите пожалуйста ИИ правильно распознавать фамилии МатОхин и МатЮхин  Всё распознаётся как МатОхин И ещё вопрос - не планируется ли распознавание ведомостей справок о судимости? --- Вопрошающие, большая просьба - приводите ссылки на документы из общедоступных источников. | | Лайк (1) |
platonshukin Сообщений: 117 На сайте с 2023 г. Рейтинг: 275 | Наверх ##
8 июня 2024 11:12 sbrest написал: [q] Интересно, а текст распознается единожды или по мере обучения ии перераспознается? Если первое, то все ошибки навсегда? Если второе, есть ли даты обновления распознавания документов, например как на скрине выше, заходишь в опись или в дело, а там указано - распознано такого то числа, или распознавание обновлено ....[/q]
Текст распознается при загрузке скана на сервис (точнее, вскоре после этого - примерно в течение суток, поэтому в новостях иногда пишем "все файлы загружены и скоро = завтра будут распознаны"). Иногда потом в расшифровку вносятся точечные правки (по обращениям пользователей или потому что мы сами увидели проблему) или можем перераспознать конкретный скан (напр., как сделали с описями ЦГАМ Ф.50). Кроме того, мы всё время работаем над дообучением модели распознавания, когда получается модель, которая распознает в среднем лучше (по метрикам) - мы переобходим всю базу документов и заново всё расшифровываем. Такое за время существования сервиса случалось, кажется, дважды, ждите новостей. Но тут важно заметить, что при решении выкатывать новую модель или нет мы ориентируемся на среднее качество распознавания - а в конкретном случае может случиться, что правильную расшифровку модель поменяет на неправильную :( Поэтому если вы что-то хорошее нашли - поставьте закладку и метку. | | Лайк (9) |
platonshukin Сообщений: 117 На сайте с 2023 г. Рейтинг: 275 | Наверх ##
8 июня 2024 11:14 >> Ответ на сообщение пользователя sbrest от 7 июня 2024 23:48 Скорее всего так. Если подходящих результатов много, поиск не всегда отдает их в одинаковом порядке. Кроме того (не про конкретный случай говорю, а вообще) пользователям часто кажется, что спрашивают они "точно так же" - а на самом деле запрос немного, но отличается - и выдача при этом может отличаться заметно. | | Лайк (4) |
platonshukin Сообщений: 117 На сайте с 2023 г. Рейтинг: 275 | Наверх ##
8 июня 2024 11:15 romanvm написал: [q] не планируется ли распознавание ведомостей справок о судимости?[/q]
В Яндексе не принято рассказывать про планы  Но этот вид справочников выглядит вполне логичным кандидатом на добавление к нам в сервис. И насколько я знаю, они неплохо оцифрованы в РГБ. | | Лайк (11) |
djaha Сообщений: 1299 На сайте с 2010 г. Рейтинг: 1009 | Наверх ##
9 июня 2024 23:33 platonshukin написал: [q] tirael написал:
[q] Уважаемый platonshukin, а не рассматривал ли "Яндекс - поиск по Архивам" добавление в список распознаваемых источников не только газет, но и адрес-календарей? Это же тоже кладезь генеалогической информации.
[/q]
Отличная идея, надо сделать!
Хотя... кажется, мы уже это сделали https://yandex.ru/archive/catalog/books
[/q]
У вас в справочник по СПб за 1849 год попало 300 листов справочной книги петербургского купечества неизвестно за какой год, скорее всего около 1900-го. | | Лайк (1) |
von_nachtigallPh.D. (Chem.)  Москва => не Москва Сообщений: 1912 На сайте с 2010 г. Рейтинг: 1944 | Наверх ##
10 июня 2024 0:38 И снова я с лютеранскими метриками на немецком языке . Например: https://yandex.ru/archive/cata...32789e56/7пару месяцев назад было распознано, но как русский текст (я об этом писал). теперь вижу, что распознавания текста вообще никакого нет... есть ли планы прикрутить немецкую языковую модель и распознавание куррентшрифта? --- Ik bun Normalis Archivaris
En ik beitel kronieken in een rots...
Ich fahre hier,
Ich fahre her
Ich habe keine Heimat mehr
R-M198, U7a (FTDNA); R-Z92, U7 (23&Me) | | |
|