Яндекс - «Поиск по архивам»
Imbir Новичок
Сообщений: 16 На сайте с 2021 г. Рейтинг: 99 | Наверх ##
25 января 2023 11:29 Возможно, кто-то не знает, темы такой не нашла. Яндекс запустил поиск по распознанным через ИИ архивам. Протестировала, пока, увы, видимо, в основном московские метрики и архивы, но и это - большое подспорье. Достаточно просто ввести в строку поиска фамилию, например, и выведется скан из архива, который доступен. Надеюсь, будет полезно: https://yandex.ru/archive Обратная связь с разработчиками.Пара советов, как задавать им вопросы. https://forum.vgd.ru/post/169/140482/p4446064.htm#pp4446064https://forum.vgd.ru/post/169/140482/p4447315.htm#pp4447315Яндекс "Поиск по архивам" в ТГ.Как Яндекс научился распознавать, что написано в рукописных архивах: статья на Хабре о технологиях распознавания рукописного текста и в комментариях - ответы на некоторые вопросы. Инструкция как открыть все дело, а не только одну найденную страницу от ozerskayaВ помощь желающим скачать изображение на локальный компьютер расширения для браузера от okolobaxa
Новости проекта 09.06.2023 Яндекс.Архивы добавили на сервис материалы ГАИО, загрузка и распознавание еще продолжаются, в общей сложности будет более 700 тыс. сканов по всем описям ф. 50 (включая особо ценные). 28.07.2023 Добавили Архивное управление Администрации городского округа Балашиха Московской области - Фондов 1 Дел 116 Оцифровано дел 114 Документов 55 323 31.10.2023 Первые итоги осени - Мы добавили на сервис “Епархиальные ведомости” и другие издания Русской Православной Церкви — около 77 тысяч выпусков или 3,5 млн сканов.
- Также наш сервис пополнился материалами Государственного архива Астраханской области — в общей сложности около 1,5 млн сканов.
- В разделе ЦГА Москвы добавилось более 600 дел, отсканированных архивом с июня по сентябрь.
- В общей сложности на 376 дел пополнилась коллекция материалов ОГАОО (Оренбургская область).
- 150 новых дел прислали наши партнеры из Государственного архива Иркутской области.
09.11.2023 ОГАОО прислал еще более 400 отсканированных дел с метрическими книгами! 14.11.2023 У нас появилось около 6 тысяч новых дел фонда 229 «Московская духовная академия». 21.11.2023 У нас снова пополнение! Теперь пользователям «Поиска по архивам» доступны материалы из Муниципального архива Уссурийска — около 140 дел с метрическими книгами из церквей города и близлежащих сёл. 24.11.2023 Добавили 50 новых дел архива Иркутской области (ГАИО), Ф. 50 Иркутская духовная консистория источник29.11.2023 Выложили материалы Ф. 392 оп. 1 Оренбургского архива "Книги записи родившихся, бракосочетавшихся, разведшихся и умерших евреев по городу Оренбургу" (75 дел) 06.12.2023 К юбилею "Вечерней Москвы" выложили на сервис полный архив газеты за 100 лет (разумеется, распознанный и с возможностью поиска) источник11.12.2023 Оренбургский архив продолжает радовать - с начала декабря прислали сканы более 400 новых дел. источник15.12.2023 Главархив Москвы передал в "Поиск по архивам" почти 1000 дел, отсканированных еще в октябре. Все уже выложены на сервис и почти все уже распознаны. источник21.12.2023 Выложили МК и записи ЗАГС муниципальных архивов Каширы, Луховиц и Павловского Посада, всего около 200 тыс. сканов источник27.12.2023 Выложили обновление по Оренбургу, документы распознались и появились в результатах поиска. Всего 246 дел. + перезалиты в лучшем качестве Ф. 98 оп. 2 д. 2 источник12.01.2024 Первые обновления января ( источник) 06.02.2024 За прошедшую неделю «Поиск по архивам» пополнили почти 360 новых дел! Это свыше 100 тысяч сканов, поступивших из четырёх регионов страны. ( источник) 25.02.2024 390 дел, отсканированных Главархивом Москвы в январе, загружены на сервис, распознаны, доступны в поиске (еще одно доедет на ближайшей неделе). ( источник) 27.02.2024 Добавлено более 500 дел с метрическими книгами и записями ЗАГС с 1893-го по 1925 год из Государственного архива Приморского края ( источник) 10.03.2024 Коллекцию «Поиска по архивам» пополнили материалы из фондов Государственного архива Вологодской области. На сервисе уже размещено около 800 дел (84,5 тыс. листов) ревизских сказок и других документов Вологодской казенной палаты; подготовка и публикация материалов продолжаются. ( источник) 16.04.2024 Коллекцию «Поиска по архивам» пополнили 92 метрические книги, относящиеся к Камышловскому и Екатеринбургскому уездам Пермской губернии — сейчас это территория Курганской и Свердловской областей, хранившиеся в библиотеке Екатеринбургской духовной семинарии. ( источник) | | Лайк (106) |
kpmuk18 Москва Сообщений: 197 На сайте с 2018 г. Рейтинг: 373
| Наверх ##
13 февраля 2023 12:47 | | Лайк (1) |
Gloyko Хабаровск Сообщений: 745 На сайте с 2019 г. Рейтинг: 1168 | Наверх ##
13 февраля 2023 13:20 microArt написал: [q] что для них недопустима непроверенная, искаженная, неверно расшифрованная информация. [/q]
Сильно сказано про недопустимость. По просмотренным мной проиндексированным метрикам Лохвицкого уезда Полтавской губернии - такое искажение фамилий идёт, что иногда сложно понять о ком идет речь. --- Биркин (с. Чесноково, Кузнецкий у, Томской г., с. Вышняя Замарайка Орловская г.), Климин, Шаров (он же Ульянов), Душанин (с. Араповка, с Стемас, д. Крутец Карсунский у Симбирской г) Кривов, Сивов (с. Кажлодка Тамбовской г. (ныне республика Мордовия), Ковшик (Полтавская г, Амурская обл), Ко(а)жарский | | Лайк (4) |
microArt г.Гатчина, Ленинградская область Сообщений: 3298 На сайте с 2008 г. Рейтинг: 2491 | Наверх ##
13 февраля 2023 13:56 13 февраля 2023 14:04 Я была не права, когда ответила, что FS не применяют машинное распознавание. Еще как применяют. После того, как я написала здесь предыдущее сообщение, я заинтересовалась вопросом и стала искать в Гугле по словам familysearch + AI. Вот что нашлось. Компьютерная индексация.Как OCR (оптическое распознавание символов) меняет историю семьи.Может, кому будет интересно ознакомиться с зарубежным опытом. Вот, например, по второй ссылке, в переводе на русский: Сегодня FamilySearch нуждается в вашей помощи в индексации больше, чем когда-либо. По мере развития технологии OCR, способ, которым вы помогаете с индексацией, может немного измениться. Вместо того, чтобы индексировать запись с нуля, вы можете просмотреть запись, которую компьютер проиндексировал, убедившись, что информация верна, и исправить любые ошибки, с которыми вы столкнулись. А мое личное (личное, да) мнение пока остается прежним: машина (нейросети) должна использоваться совместно с человеком (а не сама по себе). Сначала прогнать документ через нейросеть, потом проверить человеком (и исправить ошибки). Да, это дольше, но ошибок будет меньше. Почему бы Яндексу не подключить добровольцев - хуже не будет, как мне кажется. А добровольцы найдутся, хотя бы на этом форуме. --- Псковские документы (метрические книги из фонда 39) здесь:
https://www.geno-dbase.ru/storage/Russian_Empire/Pskov/ | | Лайк (3) |
ozerskaya Калининград Сообщений: 4016 На сайте с 2015 г. Рейтинг: 3568 | Наверх ##
13 февраля 2023 14:15 Gloyko написал: [q] По просмотренным мной проиндексированным метрикам Лохвицкого уезда Полтавской губернии - такое искажение фамилий идёт, что иногда сложно понять о ком идет речь.[/q] Тоже самое по Черниговской, и по Полтавской тоже смотрела, такое прочтение, что лучше читать рукописное, а не индексацию. Поэтому многие фамилии не находятся поиском. --- Г. Кролевец, коз.Лисогор, с.Спасское: коз. Говоруха,Городиский,Гудим,Шовкомуд, с.Божок, двор.Еремеев,Мирович,Коропчевский, Майбородов; Стародуб: священ.,учителя Озерский,Соловьянов, купцы Скабертины. | | Лайк (3) |
microArt г.Гатчина, Ленинградская область Сообщений: 3298 На сайте с 2008 г. Рейтинг: 2491 | Наверх ##
13 февраля 2023 15:06 Вот еще про FamilySearch, Здесь есть видео, скриншоты, а еще краткое объяснение, зачем это им нужно (для обрядов в храме. Кому интересно - можете немного поискать о мормонах. Скажу, что лично мне это совсем не мешает, наоборот, я благодарна им за псковские документы и могу только сожалеть, что проект оцифровки был прекращен по инициативе российской стороны. А наши сами знаете, какими темпами оцифровывают документы). Видео будет интересно тем, кто воспринимает на слух английский язык (я, к сожалению, не из таких). Понимаю, что тема про Яндекс, но ведь интересно, как и другие сделали такие же проекты. Мне, во всяком случае, интересно. Посмотрите, как компьютерная индексация разблокирует записи в FamilySearch для людей по всему миру. --- Псковские документы (метрические книги из фонда 39) здесь:
https://www.geno-dbase.ru/storage/Russian_Empire/Pskov/ | | Лайк (1) |
SlavPo Энгельс Сообщений: 261 На сайте с 2021 г. Рейтинг: 183
| Наверх ##
13 февраля 2023 15:16 Искал по каталогу по оренбургскому архиву опись 1 389 фонд самарская духовная к,в списке она есть, но по факту дел не выдаёт.. Будет загружено позже, раз есть в каталоге..? | | Лайк (1) |
DiMe_KzMУчастник  Козьмодемьянск Сообщений: 77 На сайте с 2019 г. Рейтинг: 43 | Наверх ##
13 февраля 2023 15:56 microArt написал: [q] Kreutzer написал:
[q] Если сравнивать с FamilySearch, их ИИ распознает тоже по-разному
[/q]
Там разве ИИ? У них же индексация людьми была...[/q]
Есть и индексация и проверка имён.
 --- Ищу информацию о Красильниковых (Козьмодемьянск, Марий Эл), Воздвиженских (с.Кужмара, г.Йошкар-Ола, г.Казань)
Никулиных (с.Владимирское (Марий-Эл) г.Королёв (Московская область) | | Лайк (2) |
Offnames Санкт-Петербург Сообщений: 394 На сайте с 2018 г. Рейтинг: 256 | Наверх ##
13 февраля 2023 17:01 Вот косяк нашел не по распознаванию, а по выделению областей - распознает две колонки как одну. И это очень не единичный вариант.
 | | Лайк (3) |
gbyudby Москва Сообщений: 1655 На сайте с 2020 г. Рейтинг: 894 | Наверх ##
13 февраля 2023 19:41 13 февраля 2023 19:44 madrih написал: [q] что у Яндекса есть обе картинки[/q]
яндекс нам находит листы книг, в которых есть заданная фамилия; корректность отображения в тексте вообще не обсуждалась - все "девиации" я просто проверяю вручную, благо у меня вообще выборка по яндексу - 40 совпадений пока, из них много задвоений и/или однофамильцев итак, единичная находка - это одна страница книги допустим, таких страниц, в электронном фонде яндекса на данный момент - 12 (реально на каждой фамилия один раз) в запросе применяется 4 варианта написания фамилии - А, О, внутри - сЬ и безЬ; Ъ на конце тоже пробовалось - разницы в моем случае никакой все 4 варианта в совокупности дают 10 из 12 имеющихся страниц 2 страницы - вообще не выпадают в результатах никаким образом, хотя они в одной книге и прекрасно смотрятся в окошке яндекса )) | | |
weright Санкт-Петербург Сообщений: 2489 На сайте с 2020 г. Рейтинг: 16510 | Наверх ##
13 февраля 2023 22:36 >> Ответ на сообщение пользователя microArt от 13 февраля 2023 15:06 Из видео: Тай Девис-директор по продуктам и Йен-менеджер по продуктам. "Чтобы жизни людей не потерялись в будущем" Собираем Ваши записи с помощью камер и сохраняем их, размещаем их в интернете, чтобы записи были доступны. Интернет содержал обещание, что вся информация будет доступна, но компьютеру трудно понять как их расшифровывать, особенно те, которые меняются со временем. ( Из 400 млрд -260-270 млн.выложены). Поэтому посмотрели на то, что делают индексаторы-вводят текст, который комп.может прочитать, привязывают информацию к тому, кем он является в записи. Создать отношения между этими людьми. Комп. должен сделать тоже самое. Автоматическое индексирование может стать реальностью, но нужно разработать базовый набор истин по всему миру. Комп. не видит разницы между языками, мы его этому обучаем. затем надо позволить компу выполнить фактическую транскрипцию. Но она недостаточна точна. Поэтому мы по-прежнему используем волонтеров. Индексация 1.Просматриваем сам документ и определяем его структуру ( в строчках, в абзацах, в блоках, в таблицах и надо ли мне это извлекать?.) Т.о. проводим анализ макета - научить компьютер, как это делать ( мозг делает автоматически) Уже здесь множество взаимосвязей. с помощью инженерного инструмента. Большая последовательность шагов, которые иногда сбиваются. Получаем структурированные данные, доступные компьютеру. Компьютер вычленяет кто есть кто, идентифицирует контент. Важно как преподносится информация. Надо обучать классификаторы. 2. Выполняем распознавание рукописного ввода на нем, следуя образцам и языковым изменениям в течение времени можно с точностью до 90 процентов 3. Идентифицировать всех людей во всех местах- обработка естсественного языка Начали в некоторых странах Латинской Америки, будем расширяться Сократить 2-летних процесс до 7 дневного --- Ищу контакты
Краснописцевых из Смоленска
| | Лайк (2) |
|