Яндекс - «Поиск по архивам»
Imbir Новичок
Сообщений: 16 На сайте с 2021 г. Рейтинг: 99 | Наверх ##
25 января 2023 11:29 Возможно, кто-то не знает, темы такой не нашла. Яндекс запустил поиск по распознанным через ИИ архивам. Протестировала, пока, увы, видимо, в основном московские метрики и архивы, но и это - большое подспорье. Достаточно просто ввести в строку поиска фамилию, например, и выведется скан из архива, который доступен. Надеюсь, будет полезно: https://yandex.ru/archive Обратная связь с разработчиками.Пара советов, как задавать им вопросы. https://forum.vgd.ru/post/169/140482/p4446064.htm#pp4446064https://forum.vgd.ru/post/169/140482/p4447315.htm#pp4447315Яндекс "Поиск по архивам" в ТГ.Как Яндекс научился распознавать, что написано в рукописных архивах: статья на Хабре о технологиях распознавания рукописного текста и в комментариях - ответы на некоторые вопросы. Инструкция как открыть все дело, а не только одну найденную страницу от ozerskayaВ помощь желающим скачать изображение на локальный компьютер расширения для браузера от okolobaxa
Новости проекта 09.06.2023 Яндекс.Архивы добавили на сервис материалы ГАИО, загрузка и распознавание еще продолжаются, в общей сложности будет более 700 тыс. сканов по всем описям ф. 50 (включая особо ценные). 28.07.2023 Добавили Архивное управление Администрации городского округа Балашиха Московской области - Фондов 1 Дел 116 Оцифровано дел 114 Документов 55 323 31.10.2023 Первые итоги осени - Мы добавили на сервис “Епархиальные ведомости” и другие издания Русской Православной Церкви — около 77 тысяч выпусков или 3,5 млн сканов.
- Также наш сервис пополнился материалами Государственного архива Астраханской области — в общей сложности около 1,5 млн сканов.
- В разделе ЦГА Москвы добавилось более 600 дел, отсканированных архивом с июня по сентябрь.
- В общей сложности на 376 дел пополнилась коллекция материалов ОГАОО (Оренбургская область).
- 150 новых дел прислали наши партнеры из Государственного архива Иркутской области.
09.11.2023 ОГАОО прислал еще более 400 отсканированных дел с метрическими книгами! 14.11.2023 У нас появилось около 6 тысяч новых дел фонда 229 «Московская духовная академия». 21.11.2023 У нас снова пополнение! Теперь пользователям «Поиска по архивам» доступны материалы из Муниципального архива Уссурийска — около 140 дел с метрическими книгами из церквей города и близлежащих сёл. 24.11.2023 Добавили 50 новых дел архива Иркутской области (ГАИО), Ф. 50 Иркутская духовная консистория источник29.11.2023 Выложили материалы Ф. 392 оп. 1 Оренбургского архива "Книги записи родившихся, бракосочетавшихся, разведшихся и умерших евреев по городу Оренбургу" (75 дел) 06.12.2023 К юбилею "Вечерней Москвы" выложили на сервис полный архив газеты за 100 лет (разумеется, распознанный и с возможностью поиска) источник11.12.2023 Оренбургский архив продолжает радовать - с начала декабря прислали сканы более 400 новых дел. источник15.12.2023 Главархив Москвы передал в "Поиск по архивам" почти 1000 дел, отсканированных еще в октябре. Все уже выложены на сервис и почти все уже распознаны. источник21.12.2023 Выложили МК и записи ЗАГС муниципальных архивов Каширы, Луховиц и Павловского Посада, всего около 200 тыс. сканов источник27.12.2023 Выложили обновление по Оренбургу, документы распознались и появились в результатах поиска. Всего 246 дел. + перезалиты в лучшем качестве Ф. 98 оп. 2 д. 2 источник12.01.2024 Первые обновления января ( источник) 06.02.2024 За прошедшую неделю «Поиск по архивам» пополнили почти 360 новых дел! Это свыше 100 тысяч сканов, поступивших из четырёх регионов страны. ( источник) 25.02.2024 390 дел, отсканированных Главархивом Москвы в январе, загружены на сервис, распознаны, доступны в поиске (еще одно доедет на ближайшей неделе). ( источник) 27.02.2024 Добавлено более 500 дел с метрическими книгами и записями ЗАГС с 1893-го по 1925 год из Государственного архива Приморского края ( источник) 10.03.2024 Коллекцию «Поиска по архивам» пополнили материалы из фондов Государственного архива Вологодской области. На сервисе уже размещено около 800 дел (84,5 тыс. листов) ревизских сказок и других документов Вологодской казенной палаты; подготовка и публикация материалов продолжаются. ( источник) 16.04.2024 Коллекцию «Поиска по архивам» пополнили 92 метрические книги, относящиеся к Камышловскому и Екатеринбургскому уездам Пермской губернии — сейчас это территория Курганской и Свердловской областей, хранившиеся в библиотеке Екатеринбургской духовной семинарии. ( источник) | | Лайк (106) |
Vladimir V Участник
Сообщений: 74 На сайте с 2005 г. Рейтинг: 64 | Наверх ##
12 мая 2024 11:10 >> Ответ на сообщение пользователя platonshukin от 11 мая 2024 15:56 Спасибо! Да, это очень хорошая идея, чтобы пользователи участвовали в выявлении лакун на сервисе Яндекса. Ведь все пользователи заинтересованы, чтобы эти лакуны (которые могут нести важные данные) были закрыты. | | Лайк (1) |
platonshukin Сообщений: 117 На сайте с 2023 г. Рейтинг: 275 | Наверх ##
12 мая 2024 15:14 12 мая 2024 15:19 xbox написал: [q] >> Ответ на сообщение пользователя platonshukin от 11 мая 2024 15:56
А каким образом вы получили информацию о количестве страниц в делах на сайте архива? Проверил выборочно одно дело с телефона. В таблице указана разница 12 страниц, по факту разницы в количестве нет. 2126-3-71[/q]
Вот как раз пример того, про что вы выше писали: простого сравнения данных Яндекса с цифрами с сайта ЦГА недостаточно :( У этого дела на nsa.cgamos.ru указано "39 листов" - но это, видимо, количество непустых/пронумерованных листов (см. тж. лист-заверитель). Если добавить все пустые листы, обложки, лист-заверитель и пр. - получается 51 скан, которые и видим на Яндексе. На lib-fond.ru, кстати, то же самое - "39 листов" в описании и 51 скан по факту. Пожалуй, нужно обновить данные и посчитать конкретно количество сканов на сайте cgamos.ru (а не просто взять цифру из описания)... Попробую сделать в ближайшее время. | | |
platonshukin Сообщений: 117 На сайте с 2023 г. Рейтинг: 275 | Наверх ##
12 мая 2024 15:28 Julzz написал: [q] >> Ответ на сообщение пользователя platonshukin от 11 мая 2024 15:56
Я на этой неделе довольно плотно работала с документами Астраханского архива и там тоже не всё в порядке. Во всех делах, которые смотрела, есть дублирующиеся страницы, однажды пять раз подряд шла одна и та же страница. И ладно, если лишнее, можно просто пролистнуть, а если что-то потерялось? Никого не виню, понимаю, что в таком объёме легко запутаться, но в порядок привести всё тоже хочется.[/q]
По документам Астраханского архива видно, что при их сканировании (а точнее, микрофильмировании) нередко делалось несколько снимков с одного листа, когда были подозрения на проблемы с качеством снимка. Так что там действительно количество сканов часто больше, чем количество листов в деле. Надеюсь, пропуски там встречаются не чаще, чем в среднем (человеческий фактор никто не отменял); но строго говоря, отвечать за это не могу - мы сами не сканируем документы, работаем с тем, что было отсканировано в архиве. | | Лайк (3) |
xbox Сообщений: 985 На сайте с 2020 г. Рейтинг: 1956
| Наверх ##
12 мая 2024 17:11 platonshukin написал: [q] Вот как раз пример того, про что вы выше писали: простого сравнения данных Яндекса с цифрами с сайта ЦГА недостаточно :(
У этого дела на nsa.cgamos.ru указано "39 листов" - но это, видимо, количество непустых/пронумерованных листов (см. тж. лист-заверитель). Если добавить все пустые листы, обложки, лист-заверитель и пр. - получается 51 скан, которые и видим на Яндексе.
На lib-fond.ru, кстати, то же самое - "39 листов" в описании и 51 скан по факту.
Пожалуй, нужно обновить данные и посчитать конкретно количество сканов на сайте cgamos.ru (а не просто взять цифру из описания)... Попробую сделать в ближайшее время.[/q]
По секрету Вам расскажу, что при определении количества страниц на данные из НСА ориентироваться не стоит. Эти данные туда вносятся не по количеству сканов, а по количеству, указанному в бумажных описях. При этом естественно в бумажных описях не считались обложки, листы заверители итп. Кроме того очень часто встречаются опечатки в количестве, а также есть ноу-хау архива, когда они одно дело с длинным описанием разделяют на несколько дел в НСА и для каждого разделенного дела ставят количество от балды. Например в деле 1000 страниц. Они могут его разделить на пять дел и поставить в каждом 1000страниц, а могут поставить в каждом по 200 страниц, а могут поставить в первом деле 400, во втором 100 итп. Не удивительно, что у вас в таблицы количество дел с расхождениями исчисляется сотнями и тысячами. Для получения реального количества сканов на сайте ЦГА Москвы, Вы можете с ними договориться, чтобы они вам сделали отдельную станицу или API, которая будет выдавать только количество станиц в делах, исходя из данных в их БД на сайте. И для архива это не сложно, и для Яндекса будет быстро и удобно. При наличии такой станицы вы сможете получать нужные данные в любой момент времени за несколько минут. В противном случае вам придется написать парсер, который будет обходить все разделы архива, получать в каждом разделе сначала фонды, потом описи, потом дела, а после этого проходить по каждой странице дела, чтобы узнать там количество сканов. Количество дел сейчас больше 20тыс. Таким образом для получения количества вам придется каждый раз обходить 20-30 тыс страниц. Также нужно учитывать, что разделы в архиве могут добавляться, переезжать, а верстка меняться. Т.е. парсер придется периодически исправлять. Плюс, если не делать паузу между запросами, то архив ваш IP забанит и начнет выдавать ошибку 403 или 503. А полный обход всех страниц с делами на сайте архива с паузами занимает примерно сутки. Также можете брать количество страниц в делах на сайте epoisk.ru. На epoisk количество определяется так: для отсканированых и опубликованных дел берется количество сканов на сайте архива, для неопубликованных дел, количество берется из НСА. Т.е. это самый полный и самый точны источник. Обновление количества страниц производится примерно раз в месяц. --- epoisk.ru – Продвинутый онлайн поиск метрических книг, исповедных ведомостей, и ревизских сказок в ЦГА Москвы. | | Лайк (4) |
7_kolen_predkov ДиВанное заМКАДье Сообщений: 1033 На сайте с 2021 г. Рейтинг: 3420
| Наверх ##
14 мая 2024 19:27 https://vk.com/wall-222123016_895[q] Новые материалы в «Поиске по архивам»: Вологда, Оренбург, Одинцово
Вот и пролетели майские праздники! Увы, погода в Центральной России подвела любителей отдыха на природе. С другой стороны, был повод уделить больше времени генеалогическим поискам; надеемся, что вам удалось совершить новые открытия и дополнить своё древо. А мы и наши коллеги из архивов тем временем поработали над тем, чтобы таких открытий становилось больше! Рассказываем о новых материалах, добавленных на сервис за первые две недели мая.
Архив Вологодской области, который присоединился к нашему проекту два месяца назад, начал передачу большого объема фондов для публикации в «Поиске по архивам». Всего до конца мая планируется загрузить 1200 новых дел — метрические книги православных приходов региона, а также документы Вологодского римско-католического костела и записи ЗАГС за 1918-1925 годы. Почти 500 дел (220 тысяч листов) с метрическими книгами уже загружены на сервис и в ближайшие дни будут распознаны и доступны в поиске. Есть среди них и уникальные документы — например, запись о рождении святителя Игнатия (Брянчанинова), памяти которого отмечался вчера.
Наш давний партнер, архив Оренбургской области, несмотря на природные катаклизмы в регионе, продолжает оцифровывать фонды и с нашей помощью делать их доступными для полнотекстового поиска. В начале мая в «Поиске по архивам» появилось 323 новых дела, в основном относящихся к фонду Самарской духовной консистории (ф. 389).
Наконец, в помощь исследователям, изучающим Подмосковье, из муниципального архива Одинцова поступили 113 новых дел — это 27 тысяч листов полезной информации.
Знакомьтесь с добавленными материалами и следите за нашими обновлениями — в ближайшие дни «Поиск по архивам» пополнится еще одним регионом. У вас есть предположения, что это будет? Пишите варианты в комментариях[/q] | | Лайк (9) |
von_nachtigallPh.D. (Chem.)  Москва => не Москва Сообщений: 1910 На сайте с 2010 г. Рейтинг: 1944 | Наверх ##
15 мая 2024 20:08 Сообще уважаемому platonushkin об одной неприятной особенности мобильной версии поиска. Если после установки фильтров и совершенного поиска в строке поиска снова написать что-то и поискать снова, то все фильтры обнуляются. В полной версии (десктопной) этого нет. --- Ik bun Normalis Archivaris
En ik beitel kronieken in een rots...
Ich fahre hier,
Ich fahre her
Ich habe keine Heimat mehr
R-M198, U7a (FTDNA); R-Z92, U7 (23&Me) | | |
platonshukin Сообщений: 117 На сайте с 2023 г. Рейтинг: 275 | Наверх ##
16 мая 2024 10:01 von_nachtigall написал: [q] Сообще уважаемому platonushkin об одной неприятной особенности мобильной версии поиска. Если после установки фильтров и совершенного поиска в строке поиска снова написать что-то и поискать снова, то все фильтры обнуляются. В полной версии (десктопной) этого нет.[/q]
Спасибо, записал. Да, должен признать, что в фокусе у нас десктопная версия, мобильная, что называется, "на поддержке". Но явные баги стараемся чинить. | | Лайк (3) |
gbyudby Москва Сообщений: 1642 На сайте с 2020 г. Рейтинг: 889 | Наверх ##
21 мая 2024 10:49 21 мая 2024 10:51 platonshukin, а есть ли возможность запустить ИИ в рукописные описи - в частности ЦГАМ Ф.50, практически все в рукописи кроме оп.14 пример как сейчас расшифровывается рукописная страница https://ya.ru/archive/catalog/...942a6c0/10хотя текст принципиально не хуже, чем в книгах 18 века я недавно писал в поддержку, но видимо этот сервис настроен на точечную отладку, а здесь проблема с массивом спасибо )) п.с.: не знаю как сейчас, но в июне 2021 в НСА архива не было и половины описей указанного фонда | | Лайк (2) |
xbox Сообщений: 985 На сайте с 2020 г. Рейтинг: 1956
| Наверх ##
22 мая 2024 23:13 Что бы это значило?
 --- epoisk.ru – Продвинутый онлайн поиск метрических книг, исповедных ведомостей, и ревизских сказок в ЦГА Москвы. | | Лайк (3) |
Наташа СМ город-герой Смоленск Сообщений: 3079 На сайте с 2012 г. Рейтинг: 2499 | Наверх ##
23 мая 2024 8:46 --- Филимоновы - мещане г. Велижа
Вайсблит - Украина
Рейслер - Австро-Венгрия, Кишинёв
----
Работаю в архивах Смоленска с 2013г. Помогу в ваших поисках.
Мой телеграм-канал https://t.me/gen_sysk
| | |
|