Яндекс - «Поиск по архивам»
| Imbir Новичок
Сообщений: 16 На сайте с 2021 г. Рейтинг: 101 | Наверх ##
25 января 2023 11:29 Возможно, кто-то не знает, темы такой не нашла. Яндекс запустил поиск по распознанным через ИИ архивам. Протестировала, пока, увы, видимо, в основном московские метрики и архивы, но и это - большое подспорье. Достаточно просто ввести в строку поиска фамилию, например, и выведется скан из архива, который доступен. Надеюсь, будет полезно: https://yandex.ru/archive Обратная связь с разработчиками.Пара советов, как задавать им вопросы. https://forum.vgd.ru/post/169/140482/p4446064.htm#pp4446064https://forum.vgd.ru/post/169/140482/p4447315.htm#pp4447315Яндекс "Поиск по архивам" в ТГ.Как Яндекс научился распознавать, что написано в рукописных архивах: статья на Хабре о технологиях распознавания рукописного текста и в комментариях - ответы на некоторые вопросы. Инструкция как открыть все дело, а не только одну найденную страницу от ozerskayaВ помощь желающим скачать изображение на локальный компьютер расширения для браузера от okolobaxa
Новости проекта 09.06.2023 Яндекс.Архивы добавили на сервис материалы ГАИО, загрузка и распознавание еще продолжаются, в общей сложности будет более 700 тыс. сканов по всем описям ф. 50 (включая особо ценные). 28.07.2023 Добавили Архивное управление Администрации городского округа Балашиха Московской области - Фондов 1 Дел 116 Оцифровано дел 114 Документов 55 323 31.10.2023 Первые итоги осени - Мы добавили на сервис “Епархиальные ведомости” и другие издания Русской Православной Церкви — около 77 тысяч выпусков или 3,5 млн сканов.
- Также наш сервис пополнился материалами Государственного архива Астраханской области — в общей сложности около 1,5 млн сканов.
- В разделе ЦГА Москвы добавилось более 600 дел, отсканированных архивом с июня по сентябрь.
- В общей сложности на 376 дел пополнилась коллекция материалов ОГАОО (Оренбургская область).
- 150 новых дел прислали наши партнеры из Государственного архива Иркутской области.
09.11.2023 ОГАОО прислал еще более 400 отсканированных дел с метрическими книгами! 14.11.2023 У нас появилось около 6 тысяч новых дел фонда 229 «Московская духовная академия». 21.11.2023 У нас снова пополнение! Теперь пользователям «Поиска по архивам» доступны материалы из Муниципального архива Уссурийска — около 140 дел с метрическими книгами из церквей города и близлежащих сёл. 24.11.2023 Добавили 50 новых дел архива Иркутской области (ГАИО), Ф. 50 Иркутская духовная консистория источник29.11.2023 Выложили материалы Ф. 392 оп. 1 Оренбургского архива "Книги записи родившихся, бракосочетавшихся, разведшихся и умерших евреев по городу Оренбургу" (75 дел) 06.12.2023 К юбилею "Вечерней Москвы" выложили на сервис полный архив газеты за 100 лет (разумеется, распознанный и с возможностью поиска) источник11.12.2023 Оренбургский архив продолжает радовать - с начала декабря прислали сканы более 400 новых дел. источник15.12.2023 Главархив Москвы передал в "Поиск по архивам" почти 1000 дел, отсканированных еще в октябре. Все уже выложены на сервис и почти все уже распознаны. источник21.12.2023 Выложили МК и записи ЗАГС муниципальных архивов Каширы, Луховиц и Павловского Посада, всего около 200 тыс. сканов источник27.12.2023 Выложили обновление по Оренбургу, документы распознались и появились в результатах поиска. Всего 246 дел. + перезалиты в лучшем качестве Ф. 98 оп. 2 д. 2 источник12.01.2024 Первые обновления января ( источник) 06.02.2024 За прошедшую неделю «Поиск по архивам» пополнили почти 360 новых дел! Это свыше 100 тысяч сканов, поступивших из четырёх регионов страны. ( источник) 25.02.2024 390 дел, отсканированных Главархивом Москвы в январе, загружены на сервис, распознаны, доступны в поиске (еще одно доедет на ближайшей неделе). ( источник) 27.02.2024 Добавлено более 500 дел с метрическими книгами и записями ЗАГС с 1893-го по 1925 год из Государственного архива Приморского края ( источник) 10.03.2024 Коллекцию «Поиска по архивам» пополнили материалы из фондов Государственного архива Вологодской области. На сервисе уже размещено около 800 дел (84,5 тыс. листов) ревизских сказок и других документов Вологодской казенной палаты; подготовка и публикация материалов продолжаются. ( источник) 16.04.2024 Коллекцию «Поиска по архивам» пополнили 92 метрические книги, относящиеся к Камышловскому и Екатеринбургскому уездам Пермской губернии — сейчас это территория Курганской и Свердловской областей, хранившиеся в библиотеке Екатеринбургской духовной семинарии. ( источник) | | Лайк (108) |
| Ipgor Саратов Сообщений: 355 На сайте с 2017 г. Рейтинг: 217
| Наверх ##
15 января 17:15 Vladimir Ka написал: [q] Ipgor написал:
[q] Добрый день! В Тюменском архиве (ГАТО) есть Ф. 2426 с документами свободного доступа по Великой отечественной войне, в т.ч. документы Райвоенкоматов по мобилизации граждан. Есть ли возможность подключить их в Яндекс. Архив?
[/q]
Форумчане такой возможности Не имеют.
"Подключение" к Яндекс-Архивам производится на основании Договоров между Яндексом и соответствующим Архивом.
Естественно, если тот или иной архив на это согласен!
[/q]
Я и написал для того, чтобы Яндекс Архив услышал нас и подружится с ГАТО --- Городецкие Симбирской и Самарской губерний, Шнейдер из колонии Штефан, Новичковы Кузнецкий уезд Саратовской губернии | | |
romanvm Россия, г. Ефремов Сообщений: 5800 На сайте с 2014 г. Рейтинг: 3723 | Наверх ##
15 января 17:24 Ipgor написал: [q] Я и написал для того, чтобы Яндекс Архив услышал нас и подружится с ГАТО[/q]
Яндекс скорее услышит вас в своём телеграм-канале, чем здесь. --- Вопрошающие, большая просьба - приводите ссылки на документы из общедоступных источников. | | Лайк (2) |
| xbox Сообщений: 1047 На сайте с 2020 г. Рейтинг: 2198
| Наверх ##
15 января 19:21 Dmitry111 написал: [q] В связи с этим Яндекс и его партнеры, содействующие в предоставлении Сервиса, не гарантируют правильность, достоверность, корректность, точность и/или актуальность представленной в Сервисе информации, не несут ответственности за дальнейшее использование материалов Сервиса. Пользователь самостоятельно и всецело несёт все риски и ответственность за использование Сервиса и размещенных в нём материалов.
Но когда этот сервис станет платным (а то, что в какой-то момент, хоть через несколько лет, халява закончится - в этом можно не сомневаться), если в договоре-оферте останутся подобные вышеуказанным пункты - фиг на такой договор идти, если расшифровка ничего не гарантирует. Да и претензии не напишешь, а напишешь - над тобой только ехидно посмеются, как яндекс по сути и сделал - ты же сам такой договор и подписал (а в данном случае, используя сервис согласился с Условиями)[/q]
По-моему в оферте ничего особенного не написано. Это стандартная практика для большой компании ограничить поток претензий, а иногда и судебных разбирательств. Если бы Вы руководили этим проектом в Яндексе то, что бы Вы написали? Такой вариант подошел бы? Яндекс гарантирует соответствие Сервиса целям и ожиданиям Пользователя, бесперебойную и безошибочную работу Сервиса. Яндекс гарантируют правильность, достоверность, корректность, точность и актуальность представленной в Сервисе информации. Яндекс и его партнеры осуществляют проверку представленной в Сервисе информации, в том числе на предмет ее соответствия первоисточникам. Каждая страница проверяется ответственным сотрудником, несущим за пропущенные ошибки материальную ответственность. Яндекс несет ответственность за дальнейшее использование материалов Сервиса. Яндекс всецело несёт все риски и ответственность за использование Пользователем Сервиса и размещенных в нём материалов. ... Продолжите сами. P.S. Я к Яндексу отношения не имею, если что. --- epoisk.ru – Продвинутый онлайн поиск метрических книг, исповедных ведомостей, и ревизских сказок в ЦГА Москвы. | | Лайк (9) |
| dsukharev Начинающий
Москва Сообщений: 31 На сайте с 2018 г. Рейтинг: 30 | Наверх ##
16 января 23:13 16 января 23:13 7_kolen_predkov написал: [q]
В своем канале в ТГ представители ЯА ответили так
[q] Людмила, не очень понятно, какой тут нужен официальный ответ... Что у нейросети бывают ложные срабатывания (они же "галлюцинации") - вы и сами видите. Когда-то "википедия" массово была (сейчас тоже есть, но меньше), теперь вот джинсы, фастфуд и библиотека. Что мы о них знаем и ищем способ быстро починить - официально подтверждаем.
Выкатили новую версию расшифровок, в среднем стало лучше, но проявились вот такие спецэффекты, которых не увидели на этапе тестирования. Что выглядит забавно - согласны. Насколько эти "глюки" мешают вам искать то, - решать вам. 3000 ложных "выскочила из библиотеки" на 20+ миллионов документов - как будто не очень существенно (количество "свободно говорит по-французски", конечно, нас самих удивило...)
В общем, мы всё видим, починим, накажем невиновных, наградим непричастных... как там было?
[/q]
[/q]
Действительно, забавная ситуация, и интересная с технической точки зрения. Увы, но это особенность нейросетевых технологий, даже тех, которые были задолго до нынешнего ИИ - принципиальная невозможность понять, почему это так и как исправить конкретно эту проблему. Можно лишь крутить условные ручки качества, покрытия, скорости и т.д., надеясь найти оптимальный баланс. Хотя, конечно, этот случай явно выбивается из общего ряда, так что, возможно, и найдётся возможность починить конкретно эти приколы. Ну или просто жёстко запретить такие вставки (ведь их же немного, да?) Так что процитированный ответ Яндекса по сути верен, но вот по форме... не вполне некорректен. Неужели ребята из Яндекса в ходе общения с некоторыми представителями некоторых архивов научились у них общению с пользователями? (это ни разу не комплимент, если что) Самое время "Платону" "Щукину" мощно взяться за коммуникацию по этой и подобным проблемам и сказать - да, произошла вот такая фигня, причины сложны, работа ведётся, рассчитываем, что это не мешает целям пользователей. Действительно, вряд ли кто-то будет искать библиотеку, джинсы или французский в метриках... Насколько такой ответ "официален" не берусь судить. На мой взгляд, просто нормальная коммуникация с пользователями сервиса, которых, уверен, Яндекс по-прежнему уважает. Ведь любой сервис работает для пользователей, правда же? Главное, чтобы в один совсем не прекрасный день, такие вставки не превратились во что-то более связанное с содержимым архивов | | Лайк (1) |
| Наталия_Ф Чита (которая за Байкалом) Сообщений: 383 На сайте с 2007 г. Рейтинг: 237
| Наверх ##
19 января 13:23 О чем думает ИИ Яндекса? О производительности Метричка 1865 года храма села Крестовые Городищи Ставропольского уезда Самарской губернии
 --- С уважением Наталия.
Все мои личные данные и данные моей семьи размещены мною на сайте добровольно и специально для поиска родственников.
Мои корни: Игнатьевы, Штырковы, Кузнецовы (Татарстан), Киселевы (с. Крестово-Городище Самарская) | | Лайк (15) |
| Nadin2012 Москва Сообщений: 305 На сайте с 2012 г. Рейтинг: 244
| Наверх ##
19 января 16:49 Похоже, их ИИ за праздники спился и впал в белую горячку. | | Лайк (5) |
| xbox Сообщений: 1047 На сайте с 2020 г. Рейтинг: 2198
| Любой ИИ - это набор компромиссов.
Разработчики крутят различные настройки моделей, чтобы найти оптимальный баланс в результатах.
Обычно, если уменьшить количество ложных срабатываний, ухудшается качество распознавания. И наоборот, когда меняют настройки, чтобы распознавались более сложные случаи, то вырастает количество ложных срабатываний в других местах. А подобрать такие настройки, чтобы и всё распознавалось и ложных срабатываний не было, зачастую не представляется возможным.
Я думаю, что если среди пользователей провести опрос, что им важнее из указанных вариантов, то не будет однозначного ответа. Хотя в общем качество распознавания должно со временем улучшаться, какие-то недочеты будут всегда. --- epoisk.ru – Продвинутый онлайн поиск метрических книг, исповедных ведомостей, и ревизских сказок в ЦГА Москвы. | | Лайк (16) |
| oztech Санкт-Петербург Сообщений: 669 На сайте с 2005 г. Рейтинг: 454
| Наверх ##
20 января 12:45 На вкладке "О проекте" сайта ЯА прочитал такую фразу: [q] Сервис Яндекса «Поиск по архивам» позволяет быстро находить имена, фамилии, названия населённых пунктов и любые другие слова в рукописных документах XVIII — начала XX века. [/q]
И возник такой вопрос: а есть ли у разработчиков ЯА возможность собрать и статистически обработать запросы, с которыми пользователи обращаются к поиску в ЯА? Вот по этим категориям, которые упомянуты в цитате: имена, фамилии, топонимы, другие слова. По частоте запросов можно оценить, что важнее для генеалогического поиска, ведь у него есть своя специфика, отличающая суженную тематику от поиска в Гугле или Яндексе. Еще одна цитата из того же источника: [q] Сервис работает на базе технологии оптического распознавания текста Яндекса.[/q]
И что-то мне кажется, что разработчики вышеупомянутой базовой технологии не очень хорошо представляют специфику использования ИИ в генеалогии, и сами генеалогией не занимаются. Они явно увлечены улучшением качества распознавания всего рукописного текста - и это замечательно, но ставят ли они перед ИИ другие задачи? В частности, можно ли обучить ИИ фильтровать текст, чтобы потом вести поиск отдельно по отфильтрованным частям? Распределение частот запросов по категориям подскажет какие фильтры нужны генеалогам. Не в этом ли резерв повышения общей эффективности поиска в ЯА? Что думают по этому поводу platonshukin и его коллеги? --- С уважением,
Григорий Шпекторов | | |
tirael Подмосковье Сообщений: 875 На сайте с 2023 г. Рейтинг: 2822 | Наверх ##
20 января 12:51 oztech написал: [q] И что-то мне кажется, что разработчики вышеупомянутой базовой технологии не очень хорошо представляют специфику использования ИИ в генеалогии, и сами генеалогией не занимаются[/q]
Здесь вы не правы. Проект появился как раз благодаря энтузиастам из Яндекса, которые занимались генеалогией, о чем они рассказывали в видео, посвященных ресурсу, и здесь вроде бы тоже писали. --- Ищу сведения: Хижниковы,Хижняковы,Хижинковы (ст.Новочеркасская), Бродские (Одесса, Туркестанский край), Коломойцевы,Зоновы (Никополь,СПб,Мск) Погореловы (Воронеж. губ до1925, Крым/Кубань с1925, Ленинград с 60х), Саватеевы/Савватеевы (Владимирская губ, Москва и обл. Кулебякино), Моисеевы (Рязанская г | | Лайк (3) |
| oztech Санкт-Петербург Сообщений: 669 На сайте с 2005 г. Рейтинг: 454
| Наверх ##
20 января 15:19 tirael написал: [q] Проект появился как раз благодаря энтузиастам из Яндекса, которые занимались генеалогией[/q]
Тогда тем более интересно их мнение о резерве повышения эффективности поиска, который может дать обучение ИИ задаче фильтрации распознанного текста. Нейросеть распознала, отфильтровала, поколдовала над ошибками вместе с пользователями, которые могут помочь с "настройками моделей", и сформировала, например, фамильный индекс. Или пока это фантастика? --- С уважением,
Григорий Шпекторов | | |
|