Яндекс - «Поиск по архивам»
Imbir Новичок
Сообщений: 16 На сайте с 2021 г. Рейтинг: 99 | Наверх ##
25 января 2023 11:29 Возможно, кто-то не знает, темы такой не нашла. Яндекс запустил поиск по распознанным через ИИ архивам. Протестировала, пока, увы, видимо, в основном московские метрики и архивы, но и это - большое подспорье. Достаточно просто ввести в строку поиска фамилию, например, и выведется скан из архива, который доступен. Надеюсь, будет полезно: https://yandex.ru/archive Обратная связь с разработчиками.Пара советов, как задавать им вопросы. https://forum.vgd.ru/post/169/140482/p4446064.htm#pp4446064https://forum.vgd.ru/post/169/140482/p4447315.htm#pp4447315Яндекс "Поиск по архивам" в ТГ.Как Яндекс научился распознавать, что написано в рукописных архивах: статья на Хабре о технологиях распознавания рукописного текста и в комментариях - ответы на некоторые вопросы. Инструкция как открыть все дело, а не только одну найденную страницу от ozerskayaВ помощь желающим скачать изображение на локальный компьютер расширения для браузера от okolobaxa
Новости проекта 09.06.2023 Яндекс.Архивы добавили на сервис материалы ГАИО, загрузка и распознавание еще продолжаются, в общей сложности будет более 700 тыс. сканов по всем описям ф. 50 (включая особо ценные). 28.07.2023 Добавили Архивное управление Администрации городского округа Балашиха Московской области - Фондов 1 Дел 116 Оцифровано дел 114 Документов 55 323 31.10.2023 Первые итоги осени - Мы добавили на сервис “Епархиальные ведомости” и другие издания Русской Православной Церкви — около 77 тысяч выпусков или 3,5 млн сканов.
- Также наш сервис пополнился материалами Государственного архива Астраханской области — в общей сложности около 1,5 млн сканов.
- В разделе ЦГА Москвы добавилось более 600 дел, отсканированных архивом с июня по сентябрь.
- В общей сложности на 376 дел пополнилась коллекция материалов ОГАОО (Оренбургская область).
- 150 новых дел прислали наши партнеры из Государственного архива Иркутской области.
09.11.2023 ОГАОО прислал еще более 400 отсканированных дел с метрическими книгами! 14.11.2023 У нас появилось около 6 тысяч новых дел фонда 229 «Московская духовная академия». 21.11.2023 У нас снова пополнение! Теперь пользователям «Поиска по архивам» доступны материалы из Муниципального архива Уссурийска — около 140 дел с метрическими книгами из церквей города и близлежащих сёл. 24.11.2023 Добавили 50 новых дел архива Иркутской области (ГАИО), Ф. 50 Иркутская духовная консистория источник29.11.2023 Выложили материалы Ф. 392 оп. 1 Оренбургского архива "Книги записи родившихся, бракосочетавшихся, разведшихся и умерших евреев по городу Оренбургу" (75 дел) 06.12.2023 К юбилею "Вечерней Москвы" выложили на сервис полный архив газеты за 100 лет (разумеется, распознанный и с возможностью поиска) источник11.12.2023 Оренбургский архив продолжает радовать - с начала декабря прислали сканы более 400 новых дел. источник15.12.2023 Главархив Москвы передал в "Поиск по архивам" почти 1000 дел, отсканированных еще в октябре. Все уже выложены на сервис и почти все уже распознаны. источник21.12.2023 Выложили МК и записи ЗАГС муниципальных архивов Каширы, Луховиц и Павловского Посада, всего около 200 тыс. сканов источник27.12.2023 Выложили обновление по Оренбургу, документы распознались и появились в результатах поиска. Всего 246 дел. + перезалиты в лучшем качестве Ф. 98 оп. 2 д. 2 источник12.01.2024 Первые обновления января ( источник) 06.02.2024 За прошедшую неделю «Поиск по архивам» пополнили почти 360 новых дел! Это свыше 100 тысяч сканов, поступивших из четырёх регионов страны. ( источник) 25.02.2024 390 дел, отсканированных Главархивом Москвы в январе, загружены на сервис, распознаны, доступны в поиске (еще одно доедет на ближайшей неделе). ( источник) 27.02.2024 Добавлено более 500 дел с метрическими книгами и записями ЗАГС с 1893-го по 1925 год из Государственного архива Приморского края ( источник) 10.03.2024 Коллекцию «Поиска по архивам» пополнили материалы из фондов Государственного архива Вологодской области. На сервисе уже размещено около 800 дел (84,5 тыс. листов) ревизских сказок и других документов Вологодской казенной палаты; подготовка и публикация материалов продолжаются. ( источник) 16.04.2024 Коллекцию «Поиска по архивам» пополнили 92 метрические книги, относящиеся к Камышловскому и Екатеринбургскому уездам Пермской губернии — сейчас это территория Курганской и Свердловской областей, хранившиеся в библиотеке Екатеринбургской духовной семинарии. ( источник) | | Лайк (106) |
СТАРМАР ВОРОНЕЖ Сообщений: 1275 На сайте с 2010 г. Рейтинг: 1209
| Наверх ##
1 ноября 2023 23:47 jrw
О чем вы ? Я всего лишь обратила ваше внимание на некорректные слова в вашем комменте - на мой взгляд.
Здоровья вам и успехов в поиске ! --- Граженские, Поляковы, Домогацкие , Бухоновы, Резниковы, Василевские, Тищевские, Какурины, Кареевы, Мирец-Имшенецкие. | | Лайк (2) |
СТАРМАР ВОРОНЕЖ Сообщений: 1275 На сайте с 2010 г. Рейтинг: 1209
| Наверх ##
1 ноября 2023 23:55 jrw
Взаимно. --- Граженские, Поляковы, Домогацкие , Бухоновы, Резниковы, Василевские, Тищевские, Какурины, Кареевы, Мирец-Имшенецкие. | | |
xbox Сообщений: 993 На сайте с 2020 г. Рейтинг: 1970
| Наверх ##
2 ноября 2023 0:34 KoLenka написал: [q] Я сейчас очень удивилась словам Платона про 9,5 млн листов, ибо ещё недавно было почти 8. зашла проверить.[/q]
Про количество листов я не могу сказать, но со всей ответственностью заявляю, что Яндекс количество оцифрованных дел завышает. Не специально, конечно. Но какая-то у них ошибка в подсчетах. Я уже ранее писал, как это легко проверить в небольших категориях, где, например, выложено 13 дел, а подписано, что есть 15 дел. Вот пример: https://ya.ru/archive/catalog/...?pageNum=1Тоже самое есть в крупных разделах, только там это заметить сложнее. И у меня есть еще свои дополнительные инструменты, которые глобальную разницу показывают. Могу судить только по статистике ЦГА Москвы. Сейчас Яндекс заявляет, что у них выложено 12046 оцифрованных дел, но по факту примерно на 200 дел меньше. И кроме того, Яндекс с самого момента запуска не может победить литерные дела. Выкладывают одно и тоже дело под двумя индексами. Про это я тоже подробно писал несколько месяцев назад. Ошибку не исправляют. Т.е. реальная разница уникальных выложенных дел после вычета литерных дубликатов будет еще больше. Вот пример 51-8-118 и 51-8-118а: https://ya.ru/archive/catalog/...5fb40eabechttps://ya.ru/archive/catalog/...ffc2cc16afВ ЦГА Москвы выложено 12046 дел и Яндекс тоже заявляет, что у него 12046 дел из этого архива. Но с учетом того, что реально в Яндексе дел меньше, непонятно, как они считают. Может вообще вручную число вводят (что конечно было бы странно). --- epoisk.ru – Продвинутый онлайн поиск метрических книг, исповедных ведомостей, и ревизских сказок в ЦГА Москвы. | | Лайк (2) |
KoLenka Питерская я Сообщений: 2396 На сайте с 2021 г. Рейтинг: 12978 | Наверх ##
2 ноября 2023 0:45 xbox написал: [q] Про количество листов я не могу сказать, но со всей ответственностью заявляю, что Яндекс количество оцифрованных дел завышает.[/q]
у меня практически все книги по Москве выложены в двух экземплярах. Может поэтому, количество больше. пысы. у меня прям праздник сегодня. Нашла еще одного про которого вообще не знала и метрику о рождении плюс о смерти итого, сразу 3 дела гип-гип уже поняла, чем кривее введёшь запись в поисковой строке, тем больше найдёщь | | Лайк (14) |
Nadin2012 Москва Сообщений: 281 На сайте с 2012 г. Рейтинг: 211
| Наверх ##
2 ноября 2023 5:42 Daemon2011 написал: [q] platonshukin, а будет ли развиваться язык запросов?
Например, у языка запросов https://www.familysearch.org/ru/ есть простенькие инструменты: ? - на этом месте ровно 1 знак. Если написать Ива?ов, то в выдаче будет Иванов, Ивамов, Ивалов, Иваков, Ивасов и пр. Некоторые рукописные буквы похожи до степени смешения (особенно - н/м/к) и тут это сильно выручает. Для примера, Я.Архив дает результатов Иванов: 4684к Иваков: 10к Ивалов: 5к Ивамов: 1к Не все варианты написания очевидны, так что даже "методом каменной задницы" удается перебрать не все способы написания.
* - на этом месте от 0 до 10 знаков. Если написать *горелов, то в выдаче будет Горелов, Погорелов, Пригорелов и пр. Если написать По*ников, то в выдаче будет Поников, Почников, Поченников, Посников, Постников и пр. Если написать Руса*, то в выдаче будет Русанов, Русаков, Русаковский, Русашвили и пр.
" " - точное совпадение формы. Если написать "Белова", то в выдаче не будет ни Белов, ни Беловъ, ни Беловы.
Несмотря на их простоту, выручают они знатно [/q]
Да. Если бы в выдаче объединялись Натальи с Наталиями, Марьи с Мариями, Иаковы с Яковами и т.д., поиск облегился бы существенно. | | Лайк (1) |
platonshukin Сообщений: 117 На сайте с 2023 г. Рейтинг: 275 | Наверх ##
2 ноября 2023 9:31 Уважаемые форумчане! Хочу принести свои извинения тем, кого задел мой предыдущий комментарий, в особенности многоуважаемому jrw; а также всем, кому пришлось и еще придется читать три последние страницы этой ветки. Предложение работы в моем посте было по сути своей серьезным; команде "Поиска по архивам" действительно в ближайшее время может снова понадобиться помощь специалистов по расшифровке (детали, как я написал, нужно обсуждать). А вот вопрос про оценку времени на исправление ошибок в миллионах сканов был, конечно, шуткой. Очевидно, что вручную решить такую задачу даже для сравнительно небольшого количества документов, которые выложены на нашем сервисе, невозможно -- даже если нанять штат корректоров. Предположу, что те, кто полайкал мой комментарий, именно с этим выразили согласие. Шутка получилась злой и очень личной; и я еще раз прошу за нее прощения у jrw. Делаю это от своего собственного имени, не от имени Яндекса или "Поиска по архивам", потому что содержание и тон комментарий - моя ответственность. Надеюсь, что несмотря на все отмеченные выше недочеты "Поиска по архивам", сервис всё же приносит немалую пользу; будем стараться (и я в том числе), чтобы этой пользы было ещё больше. | | Лайк (39) |
dobermorgan Русь - Матушка Сообщений: 474 На сайте с 2021 г. Рейтинг: 3178 | Наверх ##
2 ноября 2023 12:34 platonshukin написал: [q] исправление ошибок в миллионах сканов- невозможно даже если нанять штат корректоров.[/q]
Вы абсолютно правы. Однако такая масштабная задача абсолютно по плечу - пользователям сервиса. Если конечно предоставить им такую функциональную возможность - функцию "ПРАВКИ" страницы расшифровки текста от ИИ, с дальнейшим сохранением её в базе данных (естественно с возможностью "отката назад" в редких случаях всякого рода инсинуаций). Или же и вовсе - давать две версии расшифровки: от ИИ, и от человека. Тогда и никакой штат набирать для этой цели не будет необходимости. Ибо, какой бы ни был продвинутый ИИ, но он и близко в расшифровке не сравнится с опытным человеческим глазом (особенно в части распознания сложных текстов, почерков, выцветших чернил, разваливающихся листов). Например, форумчан с такими глазами - здесь большинство. Есть ли такая техническая возможность у Яндекс-архива, не знаю. Но это было бы хорошим выходом в части несовершенства автоматического оптического распознавания текста. P.S. А проект прекрасный, мы очень долго ждали нечто подобное. Огромная благодарность вам, и всем вашим коллегам за дело которое делаете. --- Москов. г., Богородский у.: Титово, Понарино, Заполицы, Богородское, Степановка, Мисцево
Рязан. г., Егорьевский у.: Знаменское, Василенцово, Федотиха, Поминово
Рязан.г., Зарайский у.: Гальцово (Гольцово)
Владимир.г., Меленковский у.: Каменка, Мильна
Кубан. обл.: ст. Передовая, ст. Отрадная | | Лайк (9) |
Daemon2011 Сообщений: 725 На сайте с 2011 г. Рейтинг: 582 | Наверх ##
2 ноября 2023 12:49 dobermorgan написал: [q] Если конечно предоставить им такую функциональную возможность - функцию "ПРАВКИ" страницы расшифровки текста от ИИ, с дальнейшим сохранением её в базе данных (естественно с возможностью "отката назад" в редких случаях всякого рода инсинуаций). [/q]
В лучшем случае, будет как у мормонов: люди будут писать свои фантазии вместо реальных значений. "Василиса" вместо "Васса", "Фёдор" вместо "Феодор" и т.д. В худшем случае, будет как у вики-проектов: вандализм, маты, оскорбления друзей, смешинки. Пример: открытая стена в МГТУ - https://sun9-66.userapi.com/im...type=albumУвы, таков финал всех открытых проектов  А если делать его полуоткрытым, то придется тратиться на модераторов. | | Лайк (5) |
dobermorgan Русь - Матушка Сообщений: 474 На сайте с 2021 г. Рейтинг: 3178 | Наверх ##
2 ноября 2023 13:23 2 ноября 2023 13:23 Daemon2011Тогда dobermorgan написал: [q] давать две версии расшифровки: от ИИ, и от человека.[/q]
Идеального решения тут все равно не будет, и определенная верификация все равно потребуется. --- Москов. г., Богородский у.: Титово, Понарино, Заполицы, Богородское, Степановка, Мисцево
Рязан. г., Егорьевский у.: Знаменское, Василенцово, Федотиха, Поминово
Рязан.г., Зарайский у.: Гальцово (Гольцово)
Владимир.г., Меленковский у.: Каменка, Мильна
Кубан. обл.: ст. Передовая, ст. Отрадная | | Лайк (1) |
Михаха Сообщений: 4143 На сайте с 2008 г. Рейтинг: 3859 | Наверх ##
2 ноября 2023 13:52 Обсуждая в данной ветке форума новый проект Яндекса, нужно понимать, что мы видим только надводную часть айсберга. Так сказать, внешний интерфейс. Он получился хоть кривоватый, но очень полезный в конкретных поисках форумчан (как подмножестве всех, желающих найти своих родственников). Что-то мне не верится в благотворительность Яндекса. Коммерческая версия проекта станет или платной или будет обвешана рекламой, как новогодняя ёлка игрушками. В альтруизм архивов также не особо верится. Добровольно отдать то, что "отсканировано непосильным трудом" и получить взамен уменьшение трафика на своём сайте и уменьшение поступления средств за коммерческие услуги? Поэтому, пользуемся бесплатно, наслаждаемся результатом и смотрим, как будет реализована монетизация. | | Лайк (3) |
|