Яндекс - «Поиск по архивам»
Imbir Новичок
Сообщений: 16 На сайте с 2021 г. Рейтинг: 99 | Наверх ##
25 января 2023 11:29 Возможно, кто-то не знает, темы такой не нашла. Яндекс запустил поиск по распознанным через ИИ архивам. Протестировала, пока, увы, видимо, в основном московские метрики и архивы, но и это - большое подспорье. Достаточно просто ввести в строку поиска фамилию, например, и выведется скан из архива, который доступен. Надеюсь, будет полезно: https://yandex.ru/archive Обратная связь с разработчиками.Пара советов, как задавать им вопросы. https://forum.vgd.ru/post/169/140482/p4446064.htm#pp4446064https://forum.vgd.ru/post/169/140482/p4447315.htm#pp4447315Яндекс "Поиск по архивам" в ТГ.Как Яндекс научился распознавать, что написано в рукописных архивах: статья на Хабре о технологиях распознавания рукописного текста и в комментариях - ответы на некоторые вопросы. Инструкция как открыть все дело, а не только одну найденную страницу от ozerskayaВ помощь желающим скачать изображение на локальный компьютер расширения для браузера от okolobaxa
Новости проекта 09.06.2023 Яндекс.Архивы добавили на сервис материалы ГАИО, загрузка и распознавание еще продолжаются, в общей сложности будет более 700 тыс. сканов по всем описям ф. 50 (включая особо ценные). 28.07.2023 Добавили Архивное управление Администрации городского округа Балашиха Московской области - Фондов 1 Дел 116 Оцифровано дел 114 Документов 55 323 31.10.2023 Первые итоги осени - Мы добавили на сервис “Епархиальные ведомости” и другие издания Русской Православной Церкви — около 77 тысяч выпусков или 3,5 млн сканов.
- Также наш сервис пополнился материалами Государственного архива Астраханской области — в общей сложности около 1,5 млн сканов.
- В разделе ЦГА Москвы добавилось более 600 дел, отсканированных архивом с июня по сентябрь.
- В общей сложности на 376 дел пополнилась коллекция материалов ОГАОО (Оренбургская область).
- 150 новых дел прислали наши партнеры из Государственного архива Иркутской области.
09.11.2023 ОГАОО прислал еще более 400 отсканированных дел с метрическими книгами! 14.11.2023 У нас появилось около 6 тысяч новых дел фонда 229 «Московская духовная академия». 21.11.2023 У нас снова пополнение! Теперь пользователям «Поиска по архивам» доступны материалы из Муниципального архива Уссурийска — около 140 дел с метрическими книгами из церквей города и близлежащих сёл. 24.11.2023 Добавили 50 новых дел архива Иркутской области (ГАИО), Ф. 50 Иркутская духовная консистория источник29.11.2023 Выложили материалы Ф. 392 оп. 1 Оренбургского архива "Книги записи родившихся, бракосочетавшихся, разведшихся и умерших евреев по городу Оренбургу" (75 дел) 06.12.2023 К юбилею "Вечерней Москвы" выложили на сервис полный архив газеты за 100 лет (разумеется, распознанный и с возможностью поиска) источник11.12.2023 Оренбургский архив продолжает радовать - с начала декабря прислали сканы более 400 новых дел. источник15.12.2023 Главархив Москвы передал в "Поиск по архивам" почти 1000 дел, отсканированных еще в октябре. Все уже выложены на сервис и почти все уже распознаны. источник21.12.2023 Выложили МК и записи ЗАГС муниципальных архивов Каширы, Луховиц и Павловского Посада, всего около 200 тыс. сканов источник27.12.2023 Выложили обновление по Оренбургу, документы распознались и появились в результатах поиска. Всего 246 дел. + перезалиты в лучшем качестве Ф. 98 оп. 2 д. 2 источник12.01.2024 Первые обновления января ( источник) 06.02.2024 За прошедшую неделю «Поиск по архивам» пополнили почти 360 новых дел! Это свыше 100 тысяч сканов, поступивших из четырёх регионов страны. ( источник) 25.02.2024 390 дел, отсканированных Главархивом Москвы в январе, загружены на сервис, распознаны, доступны в поиске (еще одно доедет на ближайшей неделе). ( источник) 27.02.2024 Добавлено более 500 дел с метрическими книгами и записями ЗАГС с 1893-го по 1925 год из Государственного архива Приморского края ( источник) 10.03.2024 Коллекцию «Поиска по архивам» пополнили материалы из фондов Государственного архива Вологодской области. На сервисе уже размещено около 800 дел (84,5 тыс. листов) ревизских сказок и других документов Вологодской казенной палаты; подготовка и публикация материалов продолжаются. ( источник) 16.04.2024 Коллекцию «Поиска по архивам» пополнили 92 метрические книги, относящиеся к Камышловскому и Екатеринбургскому уездам Пермской губернии — сейчас это территория Курганской и Свердловской областей, хранившиеся в библиотеке Екатеринбургской духовной семинарии. ( источник) | | Лайк (106) |
platonshukin Сообщений: 117 На сайте с 2023 г. Рейтинг: 275 | Наверх ##
25 декабря 2023 22:03 29112022 написал: [q] Это нормально, что распознаны только типографские заголовки с бланков записей ? ИИ стал халтурить ? https://ya.ru/archive/catalog/...048f610a8/[/q]
Если вы про записи в верхней части листа круглым витиеватым почерком - да, алгоритм такое очень плохо читает и нередко вообще не воспринимает как рукописный текст. В среднем послереволюционные тексты распознаются заметно хуже, по разным причинам (почерк, качество бумаги, особенности обучения алгоритма). Но уж что получили от архива - с тем работаем; вернуть и попросить те же записи с более аккуратным почерком не можем  Будем улучшать распознавание.
 | | Лайк (13) |
xax_nv г. Нижневартовск, ХМАО - Югра Сообщений: 3215 На сайте с 2010 г. Рейтинг: 7026 | Наверх ##
25 декабря 2023 22:38 Да, уж... Тут не только алгоритм, тут и человек 99% не прочтет. | | Лайк (2) |
xbox Сообщений: 985 На сайте с 2020 г. Рейтинг: 1956
| Наверх ##
25 декабря 2023 23:08 25 декабря 2023 23:09 platonshukin Согласен, что почерк очень сложный для разбора. Но там не только в почерке дело.
На прилагаемых скриншотах показано, что области с текстом определены неправильно. А если область определена неправильно, то вероятность точного распознования очень сильно снижается, а иногда может стремиться к нулю.
Запись о браке. ФИО жениха - почерк средней сложности, но определенная алгоритмом область распознавания не включает первые буквы. Щедров - распознано ведров (на мой взгляд, из за обрезанной области) Петр - не распознано Ильич - Ильинъ (твердый знак в эти года уже не писали, если это можно учитывать)
ФИО невесты - здесь уже почерк даже человеку непросто сразу понять. Елкина Клавдия Федоровна (если в фамилии не ошибся) Но алгоритм выделения области фамилию не захватил совсем, имя отчество захватил без небольшой части прописи слева. Имя и отчество в принципе были почти точно распознаны. Опять появился твердый знак в окончании и буква i латинская вместо кириллицы. Но фамилию даже не пытались распознать.
Очевидно, что для записей ЗАГС нужно как-то дополнительно донастроить алгоритм распознавания, чтобы повысить точность.
  --- epoisk.ru – Продвинутый онлайн поиск метрических книг, исповедных ведомостей, и ревизских сказок в ЦГА Москвы. | | Лайк (5) |
IrenaWaw Сообщений: 1690 На сайте с 2020 г. Рейтинг: 1096
| Наверх ##
25 декабря 2023 23:20 xax_nv написал: [q] Да, уж... Тут не только алгоритм, тут и человек 99% не прочтет.
[/q]
platonshukin написал: [q] 29112022 написал:
[q] Это нормально, что распознаны только типографские заголовки с бланков записей ? ИИ стал халтурить ? https://ya.ru/archive/catalog/...048f610a8/
[/q] Если вы про записи в верхней части листа круглым витиеватым почерком - да, алгоритм такое очень плохо читает и нередко вообще не воспринимает как рукописный текст. В среднем послереволюционные тексты распознаются заметно хуже, по разным причинам (почерк, качество бумаги, особенности обучения алгоритма). Но уж что получили от архива - с тем работаем; вернуть и попросить те же записи с более аккуратным почерком не можем Будем улучшать распознавание.[/q]
Грунина Нина Грунины Валентин Гаврилович Елена Ивановна Русский Русская Кочегар Обшивачка ??? Не так? --- Архивы и библиотеки Варшавы.
Поиском документов для Карты Поляка НЕ ЗАНИМАЮСЬ.
Убедительная просьба не писать мне в Личные сообщения просьб о поисках документов с указанием национальности.
Все сообщения такого содержания будут оставаться без ответа и удаляться. | | Лайк (1) |
Shurkincat Участник
Москва Сообщений: 55 На сайте с 2018 г. Рейтинг: 58 | Наверх ##
26 декабря 2023 12:15 А можно попросить разработчиков поиска по архивам добавить еще одну вкладку ( в дополнение к МК / РС/ ИВ) ? В последнее время попадаются результаты по ЦГАМ, из фондов 179, 131, 16, Р-369, которые не являются МК/РС/ИВ и их очень сложно вычленить из большого объема всех страниц выдачи. --- Азовцевы, Краснобаевы (Москва), Деевы (Свинино, Тамбовская губ., Касимов, Воронеж, Казань, Москва), Бодякшины, Суродины, Жданкины (с.Пермеево, Нижегородская обл.), Песины (Жлобин, Двинск), Евсеевы (Пенза/Коломна) | | Лайк (2) |
platonshukin Сообщений: 117 На сайте с 2023 г. Рейтинг: 275 | Наверх ##
26 декабря 2023 17:54 >> Ответ на сообщение пользователя xbox от 25 декабря 2023 23:08 Всё так, да. У сетки вообще сложности с распознаванием заполненных бланков - когда много печатного текста и местами вписано рукой. Видели, например, что один и тот же почерк по-разному распознается на первой странице листа переписи (где в основном печатный текст) и там, где написан состав семьи (где в основном рукописный). На первой - хуже. По мере того, как таких документов становится больше, будем им больше уделять внимания. | | Лайк (5) |
platonshukin Сообщений: 117 На сайте с 2023 г. Рейтинг: 275 | Наверх ##
26 декабря 2023 18:00 Shurkincat написал: [q] А можно попросить разработчиков поиска по архивам добавить еще одну вкладку ( в дополнение к МК / РС/ ИВ) ? В последнее время попадаются результаты по ЦГАМ, из фондов 179, 131, 16, Р-369, которые не являются МК/РС/ИВ и их очень сложно вычленить из большого объема всех страниц выдачи.[/q]
Я правильно понимаю, что речь идет про описи по этим фондам? Самих документов у нас пока нет. Хочется искать только по ним? или наоборот, убрать их из выдачи? Во втором случае вкладка не поможет, но мы тут попробуем улучшить жизнь пользователей. | | |
gbyudby Москва Сообщений: 1642 На сайте с 2020 г. Рейтинг: 889 | Наверх ##
26 декабря 2023 18:06 platonshukin написал: [q] описи по этим фондам? Хочется искать только по ним?
[/q]
это стало бы приятным дополнением, чтобы были вкладки "МК" "РС" "ИВ" которые уже есть, и... "РАЗНОЕ". например хотя и щас за пару кликов можно перейти в режим поиска по описям конкретного фонда, очень увлекательно... )) | | |
Shurkincat Участник
Москва Сообщений: 55 На сайте с 2018 г. Рейтинг: 58 | Наверх ##
26 декабря 2023 18:14 26 декабря 2023 18:15 platonshukin написал: [q]
Я правильно понимаю, что речь идет про описи по этим фондам? Самих документов у нас пока нет.
Хочется искать только по ним? или наоборот, убрать их из выдачи? Во втором случае вкладка не поможет, но мы тут попробуем улучшить жизнь пользователей.
[/q]
Хочется видеть отдельно результаты по тому что не является МК/ИВ/РС. . Как написали выше, добавьте вкладку РАЗНОЕ и туда помещайте такого рода док-ты (неважно, описи или сами док-ты) --- Азовцевы, Краснобаевы (Москва), Деевы (Свинино, Тамбовская губ., Касимов, Воронеж, Казань, Москва), Бодякшины, Суродины, Жданкины (с.Пермеево, Нижегородская обл.), Песины (Жлобин, Двинск), Евсеевы (Пенза/Коломна) | | |
Helen V Москва Сообщений: 6032 На сайте с 2016 г. Рейтинг: 2490
| Наверх ##
26 декабря 2023 19:18 Зачем же так сложно... Есть же вкладка Документы и под ней вкладка Дела (чем дела отличаются от документов, знает только яндекс. Хотя, может быть, документы - нереализованный поиск по части дела, по отдельным страницам?) --- План на следующую неделю: пн - ЦИАМ/ГАРФ, вт РГАЭ/ЦИАМ, ср РГВИА/ГАРФ | | Лайк (1) |
|