Яндекс - «Поиск по архивам» - Генеалогический форум ВГД. Тема №140482

На сайте ВГД собираются люди, увлеченные генеалогией, историей, геральдикой и т.д. Здесь вы найдете собеседников, экспертов, умелых помощников в поисках предков и родственников. Вам подскажут где искать документы о павших в боях и пропавших без вести, в какой архив обратиться при исследовании родословной своей семьи, помогут определить по старой фотографии принадлежность к воинским частям, ведомствам и чину. ВГД - поиск людей в прошлом, настоящем и будущем!

Возможно, кто-то не знает, темы такой не нашла. Яндекс запустил поиск по распознанным через ИИ архивам. Протестировала, пока, увы, видимо, в основном московские метрики и архивы, но и это - большое подспорье.

Достаточно просто ввести в строку поиска фамилию, например, и выведется скан из архива, который доступен.

Надеюсь, будет полезно: https://yandex.ru/archive

Обратная связь с разработчиками.

Пара советов, как задавать им вопросы.
https://forum.vgd.ru/post/169/140482/p4446064.htm#pp4446064
https://forum.vgd.ru/post/169/140482/p4447315.htm#pp4447315

Яндекс "Поиск по архивам" в ТГ.

Как Яндекс научился распознавать, что написано в рукописных архивах: статья на Хабре о технологиях распознавания рукописного текста и в комментариях - ответы на некоторые вопросы.
Инструкция как открыть все дело, а не только одну найденную страницу от ozerskaya
В помощь желающим скачать изображение на локальный компьютер расширения для браузера от okolobaxa

Новости проекта

09.06.2023 Яндекс.Архивы добавили на сервис материалы ГАИО, загрузка и распознавание еще продолжаются, в общей сложности будет более 700 тыс. сканов по всем описям ф. 50 (включая особо ценные).
28.07.2023 Добавили Архивное управление Администрации городского округа Балашиха Московской области - Фондов 1 Дел 116 Оцифровано дел 114 Документов 55 323
31.10.2023 Первые итоги осени

Мы добавили на сервис “Епархиальные ведомости” и другие издания Русской Православной Церкви — около 77 тысяч выпусков или 3,5 млн сканов.
Также наш сервис пополнился материалами Государственного архива Астраханской области — в общей сложности около 1,5 млн сканов.
В разделе ЦГА Москвы добавилось более 600 дел, отсканированных архивом с июня по сентябрь.
В общей сложности на 376 дел пополнилась коллекция материалов ОГАОО (Оренбургская область).
150 новых дел прислали наши партнеры из Государственного архива Иркутской области.

09.11.2023 ОГАОО прислал еще более 400 отсканированных дел с метрическими книгами!
14.11.2023 У нас появилось около 6 тысяч новых дел фонда 229 «Московская духовная академия».
21.11.2023 У нас снова пополнение! Теперь пользователям «Поиска по архивам» доступны материалы из Муниципального архива Уссурийска — около 140 дел с метрическими книгами из церквей города и близлежащих сёл.
24.11.2023 Добавили 50 новых дел архива Иркутской области (ГАИО), Ф. 50 Иркутская духовная консистория источник
29.11.2023 Выложили материалы Ф. 392 оп. 1 Оренбургского архива "Книги записи родившихся, бракосочетавшихся, разведшихся и умерших евреев по городу Оренбургу" (75 дел)
06.12.2023 К юбилею "Вечерней Москвы" выложили на сервис полный архив газеты за 100 лет (разумеется, распознанный и с возможностью поиска) источник
11.12.2023 Оренбургский архив продолжает радовать - с начала декабря прислали сканы более 400 новых дел. источник
15.12.2023 Главархив Москвы передал в "Поиск по архивам" почти 1000 дел, отсканированных еще в октябре. Все уже выложены на сервис и почти все уже распознаны. источник
21.12.2023 Выложили МК и записи ЗАГС муниципальных архивов Каширы, Луховиц и Павловского Посада, всего около 200 тыс. сканов источник
27.12.2023 Выложили обновление по Оренбургу, документы распознались и появились в результатах поиска. Всего 246 дел. + перезалиты в лучшем качестве Ф. 98 оп. 2 д. 2 источник
12.01.2024 Первые обновления января (источник)

Появился Государственный архив Хабаровского края (ГАХК)
Добавились очередные 50 дел архива Иркутска (ГАИО, ф. 50, оп. 9)

06.02.2024 За прошедшую неделю «Поиск по архивам» пополнили почти 360 новых дел! Это свыше 100 тысяч сканов, поступивших из четырёх регионов страны. (источник)
25.02.2024 390 дел, отсканированных Главархивом Москвы в январе, загружены на сервис, распознаны, доступны в поиске (еще одно доедет на ближайшей неделе). (источник)
27.02.2024 Добавлено более 500 дел с метрическими книгами и записями ЗАГС с 1893-го по 1925 год из Государственного архива Приморского края (источник)
10.03.2024 Коллекцию «Поиска по архивам» пополнили материалы из фондов Государственного архива Вологодской области. На сервисе уже размещено около 800 дел (84,5 тыс. листов) ревизских сказок и других документов Вологодской казенной палаты; подготовка и публикация материалов продолжаются. (источник)
16.04.2024 Коллекцию «Поиска по архивам» пополнили 92 метрические книги, относящиеся к Камышловскому и Екатеринбургскому уездам Пермской губернии — сейчас это территория Курганской и Свердловской областей, хранившиеся в библиотеке Екатеринбургской духовной семинарии. (источник)

KoLenka написал:

[q]
В метриках, исповедках все фамилии в именительном падеже, в том то и дело.
А вот название волости, уже в другом падеже .
[/q]

У меня по одной фамилии такая же проблема. Название волости совпадает с фамилией. Никогда не задумывался, что фамилия волость всегда в другом падеже и это можно учитывать при поиске.Спасибо за совет. Правда и в метрических книгах фамилия не всегда в именительном падеже. Например "жена крестьянина Ивана Красновского".

То, что Вы просите, в Яндексе уже есть. Чтобы искать по точной форме слова, поставьте восклицательный знак перед словом.

Вот пример.

Красновский - 24704 результатов
Красновская - 24704 результатов
!Красновский - 20967 результатов
!Красновского - 8303 результатов
!Красновской - 2597 результатов
!Красновская - 283 результата

evva написал:

[q]
T S T
Вы хотите лишить себя такого удовольствия, как расшифровка старых записей? Это же настоящий кайф! Конечно, могут возникнуть трудности, тогда всегда можно обратиться за помощью здесь. Ну, а Новгородские берестовые записи расшифровать Вам и Яндекс не поможет.
[/q]

Наверное, когда появились первые автомобили, кто-то по-прежнему предпочитал по старинке передвигаться на телеге, бричке и т.д., убеждая других, какой это "кайф". И всегда можно было обратиться к опытным кузнецам за помощью в ремонте и обслуживании)
Но технологический прогресс ни тогда, ни сейчас не остановить

К слову, для общего развития, искусственный интеллект уже сейчас помогает расшифровывать даже не берестяные грамоты, а документы возрастом на тысячу лет старше:

"Искусственный Интеллект расшифровал древний свиток, пролежавший 2000 лет под пеплом Везувия

Расшифровка древних текстов — сложная задача, которую не всегда удается решить ученым. Мало того, что они часто написаны на древних, уже несуществующих языках, так еще сам текст разобрать порой не представляется возможным. За тысячи лет чернила выгорают или стираются, особенно, если свиток хранился не в библиотеке, а каких-нибудь экстремальных условиях. Хорошим тому примером являются свитки, которые были обнаружены при раскопках древнеримского города Геркуланум, уничтоженного вулканом Везувий. Эти тексты были обуглены и пролежали под слоем вулканического пепла почти 2000 лет. По словам археологов, свитки невозможно раскрыть, не говоря уже о прочтении текста. Однако эту задачу, возможно, сможет решить искусственный интеллект, которому уже удалось расшифровать слово и некоторые буквы.

Геркуланум — древнеримский город, расположенный в итальянском регионе Кампания, на берегу Неаполитанского залива. Осенью 79 года нашей эры он был уничтожен извержением вулкана Везувий, как и другой древнеримский город Помпеи. Надо сказать, что гибель Геркуланума была еще более загадочной, так как при раскопках практически не было обнаружено останков людей. Но зато археологи нашли много артефактов, среди которых обугленные свитки.

Надо сказать, что древние тексты, о которых идет речь, обнаружены еще в 18 веке, когда рабочие наткнулись на руины роскошной виллы. Предположительно, она принадлежала Луцию Кальпурнию Пизону Цезонину, отцу Юлия Цезаря. Развернуть свитки, как уже было сказано выше, невозможно, так как в этом случае они превратятся просто в прах.

Единственный способ получить доступ к тексту — выполнить рентген, что и сделали ученые. Однако разобрать что там написано, все равно невозможно. Весной 2023 года сотрудники Университета Кентукки запустили конкурс “Везувий”. Они предоставили тысячи рентгеновских снимков, обнаруженных в Геркулануме, а также предоставили необученное программное обеспечение, которое можно использовать для расшифровки древних текстов.

Расшифровать одно из слов свитка удалось сразу двум студентам, которые работали независимо друг от друга — Люку Фарритору, студенту Университета Небраски-Линкольн, а также Юсефу Надеру, аспиранту биоробототехники Свободного университета Берлина в Германии.

Оба студента смогли обнаружили в тексте слово “πορυρας”, или “порфиры”, что в переводе означает “фиолетовый”. Это первое слово из древних свитков Гераклуанума, которое удалось расшифровать с помощью искусственного интеллекта, о чем сообщает издание ScinceAlert.

Как поясняют исследователи, в Древнем Риме фиолетовый считался важным и очень символичным цветом, который ассоциировался в первую очередь со статусом и богатством. Считается, что это слово может относиться к одеянию или рангу. Однако, чтобы узнать точное его значение, необходимо проанализировать свиток и узнать контекст, в котором оно было использовано.

Люк Фарритор обучил модель машинного обучения на шаблоне, то есть одном из свитков, где текст был хорошо читаемым. Этот шаблон помог обучить систему распознавать чернильные штрихи. Более того, по мере обучения распознавать чернильные мазки, ИИ стал также обнаруживать и другие закономерности, связанные с рукописью. В итоге удалось расшифровать слово “порфиры”.

Юсеф Надер также воспользовался шаблонами, но применил несколько иной подход — он обучал распознавать формы на изображениях, которые напоминали буквы. В результате ИИ также смог расшифровать слово “porphyras” и обнаружил некоторые другие буквы, расположенные рядом.

Как сообщается, при обучении ИИ достаточному количеству данных, он начинает обнаруживать даже минимальные изменения текстуры и штрихи чернил на рентгеновских изображениях, которые невидимы человеческому глазу. Исследователи надеются, что система будет усовершенствована еще больше, что позволит расшифровать больше текста в древних свитках.

Данная технология, возможно, позволит расшифровать многие древние рукописи, текст которых остается пока загадкой. Например, многие свитки использовались повторно, в результате чего первый вариант текста удалялся, как это произошло с текстом Птолемея. Человеческим глазом восстановить некоторые подобные тексты невозможно, даже несмотря на современные технологии."

Так что Вам в расшифровке берестяных грамот уже есть на что положиться

Две совершенно разные модели ИИ расшифровали исключительно только одно и то же слово?
Как бы потом не оказалось, что все дело в настройках, которые ушлые студенты договорились использовать!
А так, Яндекс вон даже вензеля в углах страницы умудряется в слова перекладывать, так что для ИИ нет ничего невозможного))

T S T написал:

[q]
Наверное, когда появились первые автомобили, кто-то по-прежнему предпочитал по старинке передвигаться на телеге, бричке и т.д., убеждая других, какой это "кайф". И всегда можно было обратиться к опытным кузнецам за помощью в ремонте и обслуживании)
Но технологический прогресс ни тогда, ни сейчас не остановить
[/q]

А тут дело вообще не в игнорировании некоего "технического прогресса" (в отдельных случаях, кстати, большой вопрос, прогресс ли это)) Ну да ладно))
Дело в развитии интеллекта собственного. И вот без этого никакого прогресса точно не будет.

KoLenka написал:

[q]
Это тема Яндекса.
[/q]

Вопрос изначально был о возможном наличии как раз у сервиса Яндекса некой дополнительной опции в виде возможности распознавать не только загруженные самим Яндексом рукописные документы, но и самостоятельно загружать в этот сервис свои документы для такого же распознавания.
Дальше этот вопрос получил своё развитие

platonshukin
Не подскажете, есть ли какие-то надежда и предпосылки, что такая опция будет когда-то реализована? Вроде при первом приближении каких-то особых препятствий для её реализации не видится.

Сама по себе технология распознавания ведь остаётся одна и та же, просто будет расширен перечень пользователей, которые могут загружать в сервис рукописные и иные документы для её использования (не только архивы/Яндекс, но и обычные пользователи).

Это будет для них максимально удобно, а Яндекс будет получать новый разнообразный дополнительный материал для дальнейшей обкатки технологии распознавания

Посмотрите подкаст с руководителем "Поиска по архивам". Там есть ответ на вопрос, почему они пока не могут предоставить возможность распознавать свои документы, но не исключают, что это будет реализовано. Где-то с 1:16:00 https://www.youtube.com/watch?v=UYg0DUxAfDk

Личное мнение напишу, может не совпадать с мнением руководства сервиса:

- распознавание пользовательского контента интересно делать только как способ наполнения базы сервиса. Пользы от этих сканов для улучшения модели распознавания нет (что мы, в интернете их не найдем, если нужно будет?), монетизация тут тоже если и возможна, то не того масштаба, чтобы с этим связываться
- то есть, загруженные пользователями сканы нужно делать публичными. А раз так - нужно а) модерировать, чтобы там не загружали какое-нибудь непотребство, б) очевидно, пользователи сразу же зальют сканы архивных документов с сайтов архивов или с FamilySearch и архивы (и/или FS) придут с вопросиками

Поэтому задача где-то не в ближайших планах...

platonshukin написал:

[q]
Личное мнение напишу, может не совпадать с мнением руководства сервиса:
[/q]

Обращение также лично к вам, не к руководству сервиса.
Увлекающимся генеалогией плотно был бы интересен такой сервис: использование вашего движка на компьютере пользователя, на материалах пользователя с элементами обучения бездушного алгоритма пользователем. Монетизация? Ну, например, через подписку. Понятно, что это другой продукт.
Несколько, даже гениальных, разработчиков алгоритма распознавания против тысяч упертых исследователей не потянут.

platonshukin написал:

[q]
Личное мнение напишу, может не совпадать с мнением руководства сервиса:

- распознавание пользовательского контента интересно делать только как способ наполнения базы сервиса. Пользы от этих сканов для улучшения модели распознавания нет (что мы, в интернете их не найдем, если нужно будет?), монетизация тут тоже если и возможна, то не того масштаба, чтобы с этим связываться
- то есть, загруженные пользователями сканы нужно делать публичными. А раз так - нужно а) модерировать, чтобы там не загружали какое-нибудь непотребство, б) очевидно, пользователи сразу же зальют сканы архивных документов с сайтов архивов или с FamilySearch и архивы (и/или FS) придут с вопросиками

Поэтому задача где-то не в ближайших планах...
[/q]

Обратил внимание, что один и тот же снимок по-разному распознается моделью Я.Архива и моделью "handwritten" Yandex Cloud Vision OCR: handwritten не знает о существовании ятя ( ѣ ) и распознает его то как Ъ, то как Ы, то как Ь. Также, она не знает о существовании "и десятеричной" (i) - ее она распознает как латинскую i. Помимо этого, некоторые, заведомо кириллические слова (сын) распознаются как латинские (in). Будет ли когда-нибудь доступна за денежку модель с ятями?

lSnYS0VWNww.jpg?size=1280x692&quality=96&sign=b93537eded7ec442a90fcc3f0e43f870&type=album

Уверен, если Вы сделаете ять-модель доступной в Yandex Cloud Vision OCR за денежку, сопоставимую с handwritten-моделью (1.5 руб/снимок, кажется), то в рунете появится не один проект, который будет готов за небольшой процент распознавать снимки из личных архивов пользователей (у меня таких 15+ Гб за 15 лет набежало, причем бОльшую часть я так и не успел выложить в общак - руки не доходят) и модерировать их своими силами. Т.е. Яндексу достаточно сделать b2b, а уж b2c на себе как-нибудь вытянет малый бизнес.

Михаха написал:

[q]

Обращение также лично к вам, не к руководству сервиса.
Увлекающимся генеалогией плотно был бы интересен такой сервис: использование вашего движка на компьютере пользователя, на материалах пользователя с элементами обучения бездушного алгоритма пользователем. Монетизация? Ну, например, через подписку. Понятно, что это другой продукт.
Несколько, даже гениальных, разработчиков алгоритма распознавания против тысяч упертых исследователей не потянут.
[/q]

Опыт Geni и Familysearch показал, что это ужасная идея.

Вспомните, сколько ошибок даже в дворянских профилях (по которым сведений всегда априори больше, чем по крестьянам) на Geni! Если глянуть в историю профиля, то становится ясно, почему: кто-то (упрямый исследователь) вносит дату рождения/брака/службы/смерти из справочника 1930-го года, потом приходит специалист, который перепроверяет сведения по архивным документам и узнает, что даты не те - исправляет, а когда это видят "тысячи упрямых исследователей", то они бегут переправлять все обратно - чтобы было как в справочнике 1930-го года

Или посмотрите в Familysearch: там отчество написано в фамилию, тут Мария записана как Марина, там дата рождения одного ребенка записана другому и т.д.

Так что Яндекс действует совершенно правильно: ищет людей с профильным образованием, большим практическим опытом, т.е. лучших из лучших - им и доверяет управление своей моделью.

Яндекс - «Поиск по архивам»

Поиск по распознанным сканам метрических записей! https://yandex.ru/archive