Яндекс - «Поиск по архивам»
Imbir Новичок
Сообщений: 16 На сайте с 2021 г. Рейтинг: 98 | Наверх ##
25 января 2023 11:29 Возможно, кто-то не знает, темы такой не нашла. Яндекс запустил поиск по распознанным через ИИ архивам. Протестировала, пока, увы, видимо, в основном московские метрики и архивы, но и это - большое подспорье. Достаточно просто ввести в строку поиска фамилию, например, и выведется скан из архива, который доступен. Надеюсь, будет полезно: https://yandex.ru/archive Обратная связь с разработчиками.Пара советов, как задавать им вопросы. https://forum.vgd.ru/post/169/140482/p4446064.htm#pp4446064https://forum.vgd.ru/post/169/140482/p4447315.htm#pp4447315Яндекс "Поиск по архивам" в ТГ.Как Яндекс научился распознавать, что написано в рукописных архивах: статья на Хабре о технологиях распознавания рукописного текста и в комментариях - ответы на некоторые вопросы. Инструкция как открыть все дело, а не только одну найденную страницу от ozerskayaВ помощь желающим скачать изображение на локальный компьютер расширения для браузера от okolobaxa
Новости проекта 09.06.2023 Яндекс.Архивы добавили на сервис материалы ГАИО, загрузка и распознавание еще продолжаются, в общей сложности будет более 700 тыс. сканов по всем описям ф. 50 (включая особо ценные). 28.07.2023 Добавили Архивное управление Администрации городского округа Балашиха Московской области - Фондов 1 Дел 116 Оцифровано дел 114 Документов 55 323 31.10.2023 Первые итоги осени - Мы добавили на сервис “Епархиальные ведомости” и другие издания Русской Православной Церкви — около 77 тысяч выпусков или 3,5 млн сканов.
- Также наш сервис пополнился материалами Государственного архива Астраханской области — в общей сложности около 1,5 млн сканов.
- В разделе ЦГА Москвы добавилось более 600 дел, отсканированных архивом с июня по сентябрь.
- В общей сложности на 376 дел пополнилась коллекция материалов ОГАОО (Оренбургская область).
- 150 новых дел прислали наши партнеры из Государственного архива Иркутской области.
09.11.2023 ОГАОО прислал еще более 400 отсканированных дел с метрическими книгами! 14.11.2023 У нас появилось около 6 тысяч новых дел фонда 229 «Московская духовная академия». 21.11.2023 У нас снова пополнение! Теперь пользователям «Поиска по архивам» доступны материалы из Муниципального архива Уссурийска — около 140 дел с метрическими книгами из церквей города и близлежащих сёл. 24.11.2023 Добавили 50 новых дел архива Иркутской области (ГАИО), Ф. 50 Иркутская духовная консистория источник29.11.2023 Выложили материалы Ф. 392 оп. 1 Оренбургского архива "Книги записи родившихся, бракосочетавшихся, разведшихся и умерших евреев по городу Оренбургу" (75 дел) 06.12.2023 К юбилею "Вечерней Москвы" выложили на сервис полный архив газеты за 100 лет (разумеется, распознанный и с возможностью поиска) источник11.12.2023 Оренбургский архив продолжает радовать - с начала декабря прислали сканы более 400 новых дел. источник15.12.2023 Главархив Москвы передал в "Поиск по архивам" почти 1000 дел, отсканированных еще в октябре. Все уже выложены на сервис и почти все уже распознаны. источник21.12.2023 Выложили МК и записи ЗАГС муниципальных архивов Каширы, Луховиц и Павловского Посада, всего около 200 тыс. сканов источник27.12.2023 Выложили обновление по Оренбургу, документы распознались и появились в результатах поиска. Всего 246 дел. + перезалиты в лучшем качестве Ф. 98 оп. 2 д. 2 источник12.01.2024 Первые обновления января ( источник) 06.02.2024 За прошедшую неделю «Поиск по архивам» пополнили почти 360 новых дел! Это свыше 100 тысяч сканов, поступивших из четырёх регионов страны. ( источник) 25.02.2024 390 дел, отсканированных Главархивом Москвы в январе, загружены на сервис, распознаны, доступны в поиске (еще одно доедет на ближайшей неделе). ( источник) 27.02.2024 Добавлено более 500 дел с метрическими книгами и записями ЗАГС с 1893-го по 1925 год из Государственного архива Приморского края ( источник) 10.03.2024 Коллекцию «Поиска по архивам» пополнили материалы из фондов Государственного архива Вологодской области. На сервисе уже размещено около 800 дел (84,5 тыс. листов) ревизских сказок и других документов Вологодской казенной палаты; подготовка и публикация материалов продолжаются. ( источник) 16.04.2024 Коллекцию «Поиска по архивам» пополнили 92 метрические книги, относящиеся к Камышловскому и Екатеринбургскому уездам Пермской губернии — сейчас это территория Курганской и Свердловской областей, хранившиеся в библиотеке Екатеринбургской духовной семинарии. ( источник) | | Лайк (106) |
Vladimir V Участник
Сообщений: 74 На сайте с 2005 г. Рейтинг: 64 | Наверх ##
28 апреля 2024 10:53 KoLenka написал: [q] Vladimir V написал:
[q] Хорошо бы понять, единичный ли это баг.
[/q]
приветствую ВАС Vladimir V Думаю,я знаю причину Вашего бага. Дело в том, что у Яндекса выложены ДВА экземпляра метрических книг, там, где они сохранились.
у меня по Москве есть в наличии Консисторский и Церковный экземпляры. Но не везде. И да, информация в них иногда разная. Как правило, в церковном, есть дополнительные записи, например о фамилии.[/q]
** И Вас приветствую. К сожалению, в приведенном примере речь идет об сканах одного и того же дела, то есть документ один и тот же, имеющий, естественно, один и тот же архивный номер. Просто в скане этого дела на яндексе после листа 160 идет лист 163. А в скане этого же дела на сайте архива все листы на месте, после листа 160 (полностью идентичному листу 160 на скане яндекса) идет лист 161, отсутствующий на сайте яндекса. | | |
von_nachtigallкандидат химических наук  Москва => не Москва Сообщений: 1865 На сайте с 2010 г. Рейтинг: 1913 | Наверх ##
3 мая 2024 1:08 Прибавилось более сотни дел из архива Одинцово - было 82, стало 195! --- Ik bun Normalis Archivaris
En ik beitel kronieken in een rots...
Ich fahre hier,
Ich fahre her
Ich habe keine Heimat mehr
R-M198, U7a (FTDNA); R-Z92, U7 (23&Me) | | Лайк (10) |
platonshukin Сообщений: 117 На сайте с 2023 г. Рейтинг: 275 | Наверх ##
3 мая 2024 21:15 Vladimir V написал: [q] По каким-то причинам сканы на сервисе яндекс-архива не полностью соответствуют сканам этого же дела на сайте архива. Например, в скане яндекса https://ya.ru/archive/catalog/...651cb690e3 (ИВ Замоскворецкого сорока 1800 года) отсутствуют листы 161 и 162, которые присутствуют в сканах этого дела в ЦГА Москвы https://cgamos.ru/ispovedalnye_vedomosti/203-747-2019/
Хорошо бы понять, единичный ли это баг.[/q]
Спасибо за репорт (на будущее - лучше про такое сообщать через https://ya.ru/archive/feedback, так и дойдет быстрее, и не потеряется). Действительно, если приглядеться, в этом деле пропущено довольно много листов. Подозреваю, что потерялись при загрузке к нам от архива. Конкретно это дело запросим у архива заново и перезальем; подумаем, как такое отловить системно (может быть, в случае с ЦГА можно ожидать, что номера сканов должны идти подряд - нужно проверить; в других архивах это не так, т.е., вполне нормально, когда в нумерации сканов есть пропуски). | | Лайк (4) |
Vladimir V Участник
Сообщений: 74 На сайте с 2005 г. Рейтинг: 64 | Наверх ##
4 мая 2024 21:19 Спасибо за отклик. platonshukin написал: [q] подумаем, как такое отловить системно
[/q]
Было бы просто, если бы в случаях потери каких-то сканов общее число образов на сервисе яндекса было бы меньше числа образов этого же дела на сайте архива. Можно было бы просто сравнивать эти числа, которые должны быть одинаковы. | | |
xbox Сообщений: 957 На сайте с 2020 г. Рейтинг: 1906
| Наверх ##
4 мая 2024 23:38 Vladimir V написал: [q] platonshukin написал:[q] подумаем, как такое отловить системно[/q] Было бы просто, если бы в случаях потери каких-то сканов общее число образов на сервисе яндекса было бы меньше числа образов этого же дела на сайте архива. Можно было бы просто сравнивать эти числа, которые должны быть одинаковы.[/q]
А как Вы представляете Яндекс должен сравнивать количество сканов по каждому делу с сайтом ЦГА Москвы?. В этом месяце архив загрузил больше тысячи дел. Дела эти грузятся в разные разделы (метрики, исповедки, сказки, обыски итп). Через какое-то время Яндекс будет загружать эти дела на свой сайт. Яндекс должен вручную искать всю тысячу дел и сравнивать количество "глазами"? Кроме того сам архив при заливке новых дел очень часто косячит. У архива крайне нестабильная система загрузки новых дел. Бывает с первой попытки в деле загружается 300 страниц из 1500. После этого пользователи начинают оставлять обращения. Архив исправляется, заливая дела повторно. Какие-то дела исправляют за неделю, а какие-то могут и через месяц. При некоторых ежемесячных обновлениях может до 10% дел заливаться с подобными ошибками. Представьте Яндекс заливает на свой сайт дело и хочет убедиться, что ничего не пропустил. У Яндекса 1498 сканов. Он находит вручную дело на сайте архива, там 300 сканов. 1498 > 300, значит все в порядке? Проходит месяц, архив заливает недостающие файлы и на сайте архива их 1500. А Яндекс об этом как узнает? Т.е. нужно не просто один раз проверить, а мониторить количество регулярно? Даже, если предположить, что Яндекс сохранил для каждого дела адрес соответствующей страницы на сайте архива, архив в любой момент может перенести дела в новый раздел. Архив может поменять верстку и тогда любой парсер Яндекса придется обновлять. Или сайт архива может быть недоступен. Что в таком случае делать Яндексу? То, что Вы называете "просто сравнивать", на самом деле, непросто. Теоретически есть один сайт, который при некоторой доработке, мог бы вывести список дел с расхождением количества сканов на разных сайтах. Но пока такой доработки в планах нет. Идея Яндекса сравнивать количество сканов с номером в названии последнего файла хорошая. Она довольно просто реализуется и не зависит от сторонних сайтов. В большинстве случаев у архива четкая нумерация сканов. Хотя в очень редких случаях раньше встречались и такие названия файлов 00000001_IMG3143.jpg, 00000002_IMG3147.jpg, 00000003_IMG3148.jpg... Это были единичные дела и было это год или два назад. Мне кажется сейчас такую нумерацию уже и не встретишь... Также, что важно, нужно понимать, что сравнение номера в названии файла помогает обнаружить пропуски только в середине дела. Если отсутствуют последние файлы (один или пара сотен), по номеру файла это не определить. --- epoisk.ru – Продвинутый онлайн поиск метрических книг, исповедных ведомостей, и ревизских сказок в ЦГА Москвы. | | Лайк (9) |
platonshukin Сообщений: 117 На сайте с 2023 г. Рейтинг: 275 | Наверх ##
11 мая 2024 15:56 11 мая 2024 15:57 Действительно, просто сравнить количество сканов - только первый шаг. 1. При ближайшем рассмотрении нашлось 843 дела, в которых количество сканов в Яндексе отличается от количества сканов на сайте cgamos.ru. Но далеко не во всех делах есть проблема на стороне Яндекса - где-то архив дважды залил сканы, где-то потерял часть сканов, где-то в архиве залит скан с пустой страницей или какая-нибудь обложка, а в Яндексе этого нет (ну и не очень страшно вроде бы). Или наоборот. 2. Нашлось 14.5К (!) случаев, где нумерация идет не подряд; более 3000 дел. Правда, в 12К случаев в деле пропущен всего один номер скана. Опять же, далеко не всегда это ошибка - бывает просто странная нумерация. Но часто находятся и проблемы. В общем, нужно всё проверять глазами. Если кто-то готов с этим помочь - вот все данные https://docs.google.com/spread...edit#gid=0Несколько первых столбцов защищены от редактирования (буду сам туда писать), но столбец "Комментарии" (и всё справа от него) можно редактировать свободно. Так что есть уникальная возможность сделать сервис "Поиск по архивам" лучше (по крайней мере, в части данных ЦГАМ); участвуйте и рассказывайте другим! | | Лайк (12) |
Julzz Сообщений: 131 На сайте с 2010 г. Рейтинг: 138 | Наверх ##
11 мая 2024 22:49 >> Ответ на сообщение пользователя platonshukin от 11 мая 2024 15:56 Я на этой неделе довольно плотно работала с документами Астраханского архива и там тоже не всё в порядке. Во всех делах, которые смотрела, есть дублирующиеся страницы, однажды пять раз подряд шла одна и та же страница. И ладно, если лишнее, можно просто пролистнуть, а если что-то потерялось? Никого не виню, понимаю, что в таком объёме легко запутаться, но в порядок привести всё тоже хочется. --- Плесовских/Плясовских
Архиповы, Павловы, Сысоевы, Конюховы - Новгородская губерния
Берген, Функ, Байтингер, Рат, Келе
Жулины, Бичановы - Астрахань
Полуостров Ямал - история, люди | | Лайк (1) |
xbox Сообщений: 957 На сайте с 2020 г. Рейтинг: 1906
| Наверх ##
12 мая 2024 2:21 12 мая 2024 12:01 >> Ответ на сообщение пользователя platonshukin от 11 мая 2024 15:56 А каким образом вы получили информацию о количестве страниц в делах на сайте архива? Проверил выборочно одно дело с телефона. В таблице указана разница 12 страниц, по факту разницы в количестве нет. 2126-3-71 --- epoisk.ru – Продвинутый онлайн поиск метрических книг, исповедных ведомостей, и ревизских сказок в ЦГА Москвы. | | Лайк (1) |
Vladimir V Участник
Сообщений: 74 На сайте с 2005 г. Рейтинг: 64 | Наверх ##
12 мая 2024 11:10 >> Ответ на сообщение пользователя platonshukin от 11 мая 2024 15:56 Спасибо! Да, это очень хорошая идея, чтобы пользователи участвовали в выявлении лакун на сервисе Яндекса. Ведь все пользователи заинтересованы, чтобы эти лакуны (которые могут нести важные данные) были закрыты. | | Лайк (1) |
platonshukin Сообщений: 117 На сайте с 2023 г. Рейтинг: 275 | Наверх ##
12 мая 2024 15:14 12 мая 2024 15:19 xbox написал: [q] >> Ответ на сообщение пользователя platonshukin от 11 мая 2024 15:56
А каким образом вы получили информацию о количестве страниц в делах на сайте архива? Проверил выборочно одно дело с телефона. В таблице указана разница 12 страниц, по факту разницы в количестве нет. 2126-3-71[/q]
Вот как раз пример того, про что вы выше писали: простого сравнения данных Яндекса с цифрами с сайта ЦГА недостаточно :( У этого дела на nsa.cgamos.ru указано "39 листов" - но это, видимо, количество непустых/пронумерованных листов (см. тж. лист-заверитель). Если добавить все пустые листы, обложки, лист-заверитель и пр. - получается 51 скан, которые и видим на Яндексе. На lib-fond.ru, кстати, то же самое - "39 листов" в описании и 51 скан по факту. Пожалуй, нужно обновить данные и посчитать конкретно количество сканов на сайте cgamos.ru (а не просто взять цифру из описания)... Попробую сделать в ближайшее время. | | |
|