Яндекс - «Поиск по архивам»
Imbir Новичок
Сообщений: 16 На сайте с 2021 г. Рейтинг: 99 | Наверх ##
25 января 2023 11:29 Возможно, кто-то не знает, темы такой не нашла. Яндекс запустил поиск по распознанным через ИИ архивам. Протестировала, пока, увы, видимо, в основном московские метрики и архивы, но и это - большое подспорье. Достаточно просто ввести в строку поиска фамилию, например, и выведется скан из архива, который доступен. Надеюсь, будет полезно: https://yandex.ru/archive Обратная связь с разработчиками.Пара советов, как задавать им вопросы. https://forum.vgd.ru/post/169/140482/p4446064.htm#pp4446064https://forum.vgd.ru/post/169/140482/p4447315.htm#pp4447315Яндекс "Поиск по архивам" в ТГ.Как Яндекс научился распознавать, что написано в рукописных архивах: статья на Хабре о технологиях распознавания рукописного текста и в комментариях - ответы на некоторые вопросы. Инструкция как открыть все дело, а не только одну найденную страницу от ozerskayaВ помощь желающим скачать изображение на локальный компьютер расширения для браузера от okolobaxa
Новости проекта 09.06.2023 Яндекс.Архивы добавили на сервис материалы ГАИО, загрузка и распознавание еще продолжаются, в общей сложности будет более 700 тыс. сканов по всем описям ф. 50 (включая особо ценные). 28.07.2023 Добавили Архивное управление Администрации городского округа Балашиха Московской области - Фондов 1 Дел 116 Оцифровано дел 114 Документов 55 323 31.10.2023 Первые итоги осени - Мы добавили на сервис “Епархиальные ведомости” и другие издания Русской Православной Церкви — около 77 тысяч выпусков или 3,5 млн сканов.
- Также наш сервис пополнился материалами Государственного архива Астраханской области — в общей сложности около 1,5 млн сканов.
- В разделе ЦГА Москвы добавилось более 600 дел, отсканированных архивом с июня по сентябрь.
- В общей сложности на 376 дел пополнилась коллекция материалов ОГАОО (Оренбургская область).
- 150 новых дел прислали наши партнеры из Государственного архива Иркутской области.
09.11.2023 ОГАОО прислал еще более 400 отсканированных дел с метрическими книгами! 14.11.2023 У нас появилось около 6 тысяч новых дел фонда 229 «Московская духовная академия». 21.11.2023 У нас снова пополнение! Теперь пользователям «Поиска по архивам» доступны материалы из Муниципального архива Уссурийска — около 140 дел с метрическими книгами из церквей города и близлежащих сёл. 24.11.2023 Добавили 50 новых дел архива Иркутской области (ГАИО), Ф. 50 Иркутская духовная консистория источник29.11.2023 Выложили материалы Ф. 392 оп. 1 Оренбургского архива "Книги записи родившихся, бракосочетавшихся, разведшихся и умерших евреев по городу Оренбургу" (75 дел) 06.12.2023 К юбилею "Вечерней Москвы" выложили на сервис полный архив газеты за 100 лет (разумеется, распознанный и с возможностью поиска) источник11.12.2023 Оренбургский архив продолжает радовать - с начала декабря прислали сканы более 400 новых дел. источник15.12.2023 Главархив Москвы передал в "Поиск по архивам" почти 1000 дел, отсканированных еще в октябре. Все уже выложены на сервис и почти все уже распознаны. источник21.12.2023 Выложили МК и записи ЗАГС муниципальных архивов Каширы, Луховиц и Павловского Посада, всего около 200 тыс. сканов источник27.12.2023 Выложили обновление по Оренбургу, документы распознались и появились в результатах поиска. Всего 246 дел. + перезалиты в лучшем качестве Ф. 98 оп. 2 д. 2 источник12.01.2024 Первые обновления января ( источник) 06.02.2024 За прошедшую неделю «Поиск по архивам» пополнили почти 360 новых дел! Это свыше 100 тысяч сканов, поступивших из четырёх регионов страны. ( источник) 25.02.2024 390 дел, отсканированных Главархивом Москвы в январе, загружены на сервис, распознаны, доступны в поиске (еще одно доедет на ближайшей неделе). ( источник) 27.02.2024 Добавлено более 500 дел с метрическими книгами и записями ЗАГС с 1893-го по 1925 год из Государственного архива Приморского края ( источник) 10.03.2024 Коллекцию «Поиска по архивам» пополнили материалы из фондов Государственного архива Вологодской области. На сервисе уже размещено около 800 дел (84,5 тыс. листов) ревизских сказок и других документов Вологодской казенной палаты; подготовка и публикация материалов продолжаются. ( источник) 16.04.2024 Коллекцию «Поиска по архивам» пополнили 92 метрические книги, относящиеся к Камышловскому и Екатеринбургскому уездам Пермской губернии — сейчас это территория Курганской и Свердловской областей, хранившиеся в библиотеке Екатеринбургской духовной семинарии. ( источник) | | Лайк (106) |
anto Сообщений: 5790 На сайте с 2009 г. Рейтинг: 4439
| Наверх ##
16 апреля 2024 19:05 https://dzen.ru/a/Zh00X9dwmWzpD_6dВот еще один ответ Росархива - ""Федеральное архивное агентство (Росархив) рассмотрело Ваше обращение по вопросу размещения метрических книг Российского государственного исторического архива Дальнего Востока в сервисе Яндекса "Поиск по архивам" и сообщает, что с пониманием относится к пожеланиям пользователей относительно размещения в сети Интернет архивных документов, содержащих сведения генеалогического характера. Однако следует отметить, что при всех достоинствах удалённого использования, его бесконтрольное и неограниченное внедрение несёт в себе существенные риски. Росархив ведёт переговоры с компанией Яндекс и готов рассмотреть вопрос о заключении соглашения об информационном взаимодействии с учётом организации такого взаимодействия с исключением либо компенсацией на достаточном уровне всех рисков"." | | Лайк (1) |
ELM Санкт-Петербург Сообщений: 1013 На сайте с 2014 г. Рейтинг: 585
| Наверх ##
16 апреля 2024 19:11 a-KaDeMi-k написал: [q] Условно, в документе 10 раз встречается фамилия "Иванов". Яндекс смог найти её только в пяти случаях. Следовательно, некий показатель качества распознавания - 50%
Про то, что чтобы найти первые 5 упоминаний мы можем потратить 1 минуту, а остальные 5 ("глазные") ещё 1 час... 1 сутки... бесконечность - это совсем другое.[/q]
В таком ключе Имхо эффективность 30% первично, и меняя формы написания её можно повысить до 50-70%, может чуть больше. Но тут принципиально, что действительно без ИИ некоторые документы практически невозможно найти вообще. P. S. В Яндекс Архив больше проблема в слишком простом ИИ, очень уж простой по сути, не ориентирован на распознавание имён, как таковых. Уверен его можно оптимизировать, но не знаю как, так как далёк от этой темы. В любом случае польза от него конечно колоссальная, даже в таком полуфабрикатном виде. --- Новоладожский уезд: Забелкин, Савин;
Рига: Lukaschewitz;
Санкт-Петербург:Оттов;
Беларусь: Матюшенок, Юрковец, Кривонос;
Весьегонский уезд: Морозов, Трусов;
Германия: Schwedler;
Кострома: Приданников;
Молвитино: Смагин, Коломинский;
Финляндия: Tjusman; | | Лайк (1) |
apuzanoff Модератор раздела
Ставропольский край Сообщений: 2326 На сайте с 2017 г. Рейтинг: 1470 | Наверх ##
16 апреля 2024 21:18 anto написал: [q] Однако следует отметить, что при всех достоинствах удалённого использования, его бесконтрольное и неограниченное внедрение несёт в себе существенные риски.
[/q]
Вот интересно о каких же таких рисках думают чиновники от архивов, когда это пишут... Риски того, что потомки людей смогут найти информацию о своих предках, которую без удаленного доступа к документам и ИИ для их распознавания (пусть и с качеством в 70/50/30%) вообще никто никогда бы не нашел ? Или всё же риски потерять доход от оказания платных услуг (официальных и неофициальных через "кротов") | | Лайк (12) |
balt-amber Сообщений: 848 На сайте с 2011 г. Рейтинг: 450
| Наверх ##
16 апреля 2024 21:23 16 апреля 2024 21:23 Из ответа Росархива: [q] "Однако следует отметить, что при всех достоинствах удалённого использования, его бесконтрольное и неограниченное внедрение несёт в себе существенные риски."[/q]
Что за бесконтрольное и неограниченное внедрение? Какие такие "существенные риски"? Какая-то билиберда. --- Ольшанка, Никольское Кашаево тож (Кашаевка), Никольское Шичкилей тож Пензенского наместничества (XVIII век и ранее).
Христорождественское Васильево село Стерлитамакского уезда (Васильевка Мелеузовского района)
Фролово, Мологинской волости, Старицкого уезда | | Лайк (4) |
a-KaDeMi-k Сообщений: 1902 На сайте с 2011 г. Рейтинг: 2624 | Наверх ##
16 апреля 2024 21:37 anto написал: [q] при всех достоинствах удалённого использования, его бесконтрольное и неограниченное внедрение несёт в себе существенные риски[/q]
То ли сегодня день такой, но мне в голову не приходят не то что "существенные", но и вообще любые риски от удаленного изучения документов, которые я бы мог без того же самого риска получить в читальных залах архивов. Риск, что хакеры залезут в сеть архива (или даже самого Яндекса ) и узнают, "кто убил Кенеди?" Риск, что будет покупаться меньше ж/д и авиабилетов, чтобы посетить архив? Меньше оплат в гостиницах, туристического сбора?
А! Понял! Критический риск, что Вася Пупкин в четверг не приедет в архив в "деревню Гадюкино", не встретит там Гюльчатай - любовь всей своей жизни, они не родят сына, внук которого с IQ=247.15 не предотвратит катастрофу на звездолете при полёте к альфа-Центавра (но только при условии, что Аннушка не разольет масло)!
Ну, так бы сразу и написали! Чего скрывать то!
Коллеги, подкиньте идеек про риск. Я не понимаю. Наверно, действительно не гожусь в управленцы, например, Росархива. Пойду, отзову резюме. | | Лайк (6) |
KoLenka Питерская я Сообщений: 2338 На сайте с 2021 г. Рейтинг: 12881 | Наверх ##
16 апреля 2024 21:55 anto написал: [q] его бесконтрольное и неограниченное внедрение несёт в себе существенные риски.[/q]
Они хотели написать безденежное для архива, видимо. Но , постеснялись | | |
Михаха Сообщений: 4133 На сайте с 2008 г. Рейтинг: 3830 | Наверх ##
16 апреля 2024 22:48 KoLenka написал: [q] Они хотели написать безденежное для архива, видимо. Но , постеснялись[/q]
Если бы архивисты, перед тем как написать ответ, советовались со мной, я бы сказал так: 1. Сведения из архива в Яндекс могут передаваться или по онлайн-запросу или массивом. 2. В первом случае возникает риск, что маскируясь под "хороший" запрос Яндекса, написанный Коленкой скрипт на Питоне высосет все сведения в личную базу Лены. 3. Во втором случае, сведения, доступ к которым имеет считанное число сотрудников архива, попадет на серверы Яндекса и теоретический доступ к ним будут иметь несколько тысяч сотрудников Яндекса. То есть, при сотрудничестве с Я-архивом, риски утечки данных, которые архив считает своими, возрастают. | | Лайк (4) |
Wladzislaw | Наверх ##
17 апреля 2024 5:16 a-KaDeMi-k написал: [q] внук которого с IQ=247.15[/q]
IQ48 знаю, а вот 247... Если на пару с Гюльчатай, тоже неплохо. --- Собрание Белорусской Шляхты — nobility.by
Исследования на заказ: Беларусь (шляхта), Литва (шляхта), Латвия (шляхта Латгалии и Курляндии; католики), Украина (шляхта; католики Киевщины, Волыни, Черниговщины), Россия (дворяне; католики). В Личные — только заказы. | | Жалоба (1) |
platonshukin Сообщений: 117 На сайте с 2023 г. Рейтинг: 275 | Наверх ##
18 апреля 2024 12:58 >> Ответ на сообщение пользователя xbox от 15 апреля 2024 21:15 Мы именно так и сделали  (не ради исправления конкретного случая, а чтобы понять проблему) Вот эти ссылки https://yandex.ru/archive/cata...=1649+3724https://yandex.ru/archive/cata...=1456+3760https://yandex.ru/archive/cata...=1725+6059 (два дела рядом) https://yandex.ru/archive/cata...=2625+5067Два раза распозналось "Чикитин", один раз "Пикитин", еще в одном случае в строку попали даты дела, еще в одном случае правильно распозналось "Никитиной", но по запросу [Никитин] это не находится. К сожалению, тут здорово не повезло и с качеством скана, и с конкретной печатной машинкой (буква Н везде пропечатывается так себе). Что не снимает с нас ответственности за то, чтобы уметь это читать - глазами-то это прочитать можно, значит, и нейросетка рано или поздно должна научиться | | Лайк (17) |
oztech Санкт-Петербург Сообщений: 637 На сайте с 2005 г. Рейтинг: 405
| Наверх ##
18 апреля 2024 13:12 18 апреля 2024 16:23 >> Ответ на сообщение пользователя oztech от 11 апреля 2024 19:40 Уважаемый platonshukin, а по поводу поднятого в цитате вопроса Вы можете что-либо ответить? Понятно, что готового решения нет, но как оцениваете шансы? Лайков-то под вопросом много, т.е. он актуальный. --- С уважением,
Григорий Шпекторов | | |
|