Загрузите GEDCOM-файл на ВГД   [х]
Всероссийское Генеалогическое Древо
На сайте ВГД собираются люди, увлеченные генеалогией, историей, геральдикой и т.д. Здесь вы найдете собеседников, экспертов, умелых помощников в поисках предков и родственников. Вам подскажут где искать документы о павших в боях и пропавших без вести, в какой архив обратиться при исследовании родословной своей семьи, помогут определить по старой фотографии принадлежность к воинским частям, ведомствам и чину. ВГД - поиск людей в прошлом, настоящем и будущем!
Вниз ⇊

Яндекс - «Поиск по архивам»

Поиск по распознаным сканам метрических записей! https://yandex.ru/archive

← Назад    Вперед →Страницы: ← Назад 1 2 3 4 5 ... 137 138 139 140 141 * 142 143 144 145 ... 197 198 199 200 201 202 Вперед →
Модератор: apuzanoff
Imbir
Новичок

Сообщений: 16
На сайте с 2021 г.
Рейтинг: 99
Возможно, кто-то не знает, темы такой не нашла. Яндекс запустил поиск по распознанным через ИИ архивам. Протестировала, пока, увы, видимо, в основном московские метрики и архивы, но и это - большое подспорье.

Достаточно просто ввести в строку поиска фамилию, например, и выведется скан из архива, который доступен.

Надеюсь, будет полезно: https://yandex.ru/archive

Обратная связь с разработчиками.


Пара советов, как задавать им вопросы.
https://forum.vgd.ru/post/169/140482/p4446064.htm#pp4446064
https://forum.vgd.ru/post/169/140482/p4447315.htm#pp4447315

Яндекс "Поиск по архивам" в ТГ.

Как Яндекс научился распознавать, что написано в рукописных архивах: статья на Хабре о технологиях распознавания рукописного текста и в комментариях - ответы на некоторые вопросы.
Инструкция как открыть все дело, а не только одну найденную страницу от ozerskaya
В помощь желающим скачать изображение на локальный компьютер расширения для браузера от okolobaxa

Новости проекта

09.06.2023 Яндекс.Архивы добавили на сервис материалы ГАИО, загрузка и распознавание еще продолжаются, в общей сложности будет более 700 тыс. сканов по всем описям ф. 50 (включая особо ценные).
28.07.2023 Добавили Архивное управление Администрации городского округа Балашиха Московской области - Фондов 1 Дел 116 Оцифровано дел 114 Документов 55 323
31.10.2023 Первые итоги осени
  • Мы добавили на сервис “Епархиальные ведомости” и другие издания Русской Православной Церкви — около 77 тысяч выпусков или 3,5 млн сканов.
  • Также наш сервис пополнился материалами Государственного архива Астраханской области — в общей сложности около 1,5 млн сканов.
  • В разделе ЦГА Москвы добавилось более 600 дел, отсканированных архивом с июня по сентябрь.
  • В общей сложности на 376 дел пополнилась коллекция материалов ОГАОО (Оренбургская область).
  • 150 новых дел прислали наши партнеры из Государственного архива Иркутской области.
09.11.2023 ОГАОО прислал еще более 400 отсканированных дел с метрическими книгами!
14.11.2023 У нас появилось около 6 тысяч новых дел фонда 229 «Московская духовная академия».
21.11.2023 У нас снова пополнение! Теперь пользователям «Поиска по архивам» доступны материалы из Муниципального архива Уссурийска — около 140 дел с метрическими книгами из церквей города и близлежащих сёл.
24.11.2023 Добавили 50 новых дел архива Иркутской области (ГАИО), Ф. 50 Иркутская духовная консистория источник
29.11.2023 Выложили материалы Ф. 392 оп. 1 Оренбургского архива "Книги записи родившихся, бракосочетавшихся, разведшихся и умерших евреев по городу Оренбургу" (75 дел)
06.12.2023 К юбилею "Вечерней Москвы" выложили на сервис полный архив газеты за 100 лет (разумеется, распознанный и с возможностью поиска) источник
11.12.2023 Оренбургский архив продолжает радовать - с начала декабря прислали сканы более 400 новых дел. источник
15.12.2023 Главархив Москвы передал в "Поиск по архивам" почти 1000 дел, отсканированных еще в октябре. Все уже выложены на сервис и почти все уже распознаны. источник
21.12.2023 Выложили МК и записи ЗАГС муниципальных архивов Каширы, Луховиц и Павловского Посада, всего около 200 тыс. сканов источник
27.12.2023 Выложили обновление по Оренбургу, документы распознались и появились в результатах поиска. Всего 246 дел. + перезалиты в лучшем качестве Ф. 98 оп. 2 д. 2 источник
12.01.2024 Первые обновления января (источник)

06.02.2024 За прошедшую неделю «Поиск по архивам» пополнили почти 360 новых дел! Это свыше 100 тысяч сканов, поступивших из четырёх регионов страны. (источник)
25.02.2024 390 дел, отсканированных Главархивом Москвы в январе, загружены на сервис, распознаны, доступны в поиске (еще одно доедет на ближайшей неделе). (источник)
27.02.2024 Добавлено более 500 дел с метрическими книгами и записями ЗАГС с 1893-го по 1925 год из Государственного архива Приморского края (источник)
10.03.2024 Коллекцию «Поиска по архивам» пополнили материалы из фондов Государственного архива Вологодской области. На сервисе уже размещено около 800 дел (84,5 тыс. листов) ревизских сказок и других документов Вологодской казенной палаты; подготовка и публикация материалов продолжаются. (источник)
16.04.2024 Коллекцию «Поиска по архивам» пополнили 92 метрические книги, относящиеся к Камышловскому и Екатеринбургскому уездам Пермской губернии — сейчас это территория Курганской и Свердловской областей, хранившиеся в библиотеке Екатеринбургской духовной семинарии. (источник)



Лайк (106)
Михаха

Михаха

Сообщений: 4143
На сайте с 2008 г.
Рейтинг: 3859

oztech написал:
[q]
Удивительно, конечно, что только половину машинописных текстов удается распознать по принятой ЯА методике.
[/q]

Ничего удивительного. Лет тридцать в рамках коммерческих программных продуктов существуют алгоритмы распознавания машинописного текста. Разработана и теория и практика.
Использование одного универсального алгоритма для работы с рукописными и печатными источниками, как вероятно реализовано в ЯА, непрактично. Если выбрать критерием точность распознавания.

Не собирался больше писать в данной теме и критиковать хорошее дело. Но, размещение в проекте ЕВ и газет не оставляет шансов.
Лайк (1)
platonshukin

platonshukin

Сообщений: 117
На сайте с 2023 г.
Рейтинг: 275

oztech написал:
[q]

Чего же ждали профессионалы от договора с ЯА? Что именно их не удовлетворило? А до ЯА эти профессионалы донесли свои претензии? Тогда, может, platonshukin поделится явно несекретным инсайдом?
[/q]


Кажется, инсайд по определению должен быть секретным, иначе это не инсайд 101.gif

Какие на самом деле ожидания были у РГАДА от сотрудничества с Яндексом, вероятно, знают только в архиве; по крайней мере, насколько мне известно, никакие явно указанные в договоре обязательства нарушены не были.

В качестве частного мнения (на основе https://archives.gov.ru/press/...ex.shtml), могу предположить: ожидалось, что в течение срока действия (до конца 2023 года) мы распознаем и передадим в архив описи в виде, пригодном "для заказа архивных дел читателями на сайте архива". То есть, с близким к 100% качеством распознавания и с сохранением структуры таблиц. В общем, аккуратненькую эксельку, готовую для загрузки в какую-нибудь АИС.

Пока таким требованиям качества наше распознавание не соответствует. Но, рискну предположить, оно тем не менее приносит пользу обычным людям. Тут каждый архив решает сам, что важнее.
Лайк (19)
platonshukin

platonshukin

Сообщений: 117
На сайте с 2023 г.
Рейтинг: 275

anto написал:
[q]
(при анализе методом шинглов доля распознавания составила 44,8% для машинопечатных описей и 25,6% для всех типов рукописных описей).
[/q]


Есть такая байка (мнения насчет ее правдивости расходятся): Аристотель в каком-то трактате написал, что у мухи восемь ног. И "ученые" средневековья старательно копировали это утверждение, не удосуживаясь прихлопнуть пролетавшее мимо насекомое и пересчитать ноги.

К чему я: мы точно не знаем, как именно были получены цифры 44,8% и 25,6% и как именно тут применялся метод шинглов (который вообще-то для другого используется). РГАДА эти цифры озвучил на одной из встреч, мы их оставили на совести того, кто проводил исследование. Наши замеры - по той методике, которую мы считаем более правильной для решаемых сервисом задач - показывают другие результаты (хотя, очевидно, и там не 100%).

Но сейчас полученные РГАДА цифры стали достоянием общественности и - что особенно неприятно - уже несколько архивов на запросы пользователей по поводу сотрудничества с Яндексом ответили отказом с формулировкой "у них качество распознавания 26%". Хотя мы - единственные из подобных проектов - показываем полный текст расшифровки (а не только отрывок в результатах поиска), так что оценить качество может любой желающий. По любой методике, которую считает правильной.
Лайк (38)
romanvm

romanvm

Россия, г. Ефремов
Сообщений: 5399
На сайте с 2014 г.
Рейтинг: 3404

platonshukin написал:
[q]
Но, рискну предположить, оно тем не менее приносит пользу обычным людям.
[/q]

Приносит. Я по одной описи РГАДА нашёл дело с упоминанием моего предка. Но совершил грубейшую ошибку - не сохранил ни данные дела, ни скан описи с названием дела. Но ведь я думал, что РГАДА и ЯА дружба на век и не мог даже помыслить, что описи РГАДА могут исчезнуть с ЯА. Думал вернусь позже и спокойно всё сделаю cray.gif
Лайк (2)
Nadin2012

Москва
Сообщений: 281
На сайте с 2012 г.
Рейтинг: 211

romanvm написал:
[q]

platonshukin написал:
[q]

Но, рискну предположить, оно тем не менее приносит пользу обычным людям.
[/q]


Приносит. Я по одной описи РГАДА нашёл дело с упоминанием моего предка. Но совершил грубейшую ошибку - не сохранил ни данные дела, ни скан описи с названием дела. Но ведь я думал, что РГАДА и ЯА дружба на век и не мог даже помыслить, что описи РГАДА могут исчезнуть с ЯА. Думал вернусь позже и спокойно всё сделаю
[/q]


Аналогично.
D_SK
Участник

Москва
Сообщений: 80
На сайте с 2009 г.
Рейтинг: 75

platonshukin написал:
[q]
мы точно не знаем, как именно были получены цифры 44,8% и 25,6% и как именно тут применялся метод шинглов (который вообще-то для другого используется).
[/q]

Так если это конкретные числа, а не какие-то абстрактные понятия, то почему бы не запросить у Росархива и РГАДА — документальное обоснование (методику) получения этих цифр?!
Раз уж эти две организации во имя своих шкурных интересов приплели науку (алгоритм шинглов, используемый для выявления плагиата), то пусть предоставят соответствующую научную документацию, подтверждающую, что эти цифры взяты не из воздуха!
Так как это, на мой взгляд, уже явно вопрос репутации.
Лайк (5)
Kolob-07

Санкт-Петербург
Сообщений: 5165
На сайте с 2008 г.
Рейтинг: 3910
Раз идет разговор о процентах, встает такой вопрос - а какой процент распозгования рукописного текста у человека. Например, если речь идет о медицинских записях. Собственно. с них во многих странах и началась работа по распознаванию. А если смотреть на подписи к некоторым портретам в таком музее, как Государственный Исторический в Москве, то процент может приближаться и к 0 - одна фамилия. и она прочитана неправильно, хотя нормально читается. Много или мало 25%. Для архива, чтобы ничего больше не делать - мало, для исследователя - очень неплохо для продвижения в поисках.
Лайк (8)
oztech

Санкт-Петербург
Сообщений: 645
На сайте с 2005 г.
Рейтинг: 414

platonshukin написал:
[q]
В качестве частного мнения (на основе https://archives.gov.ru/press/...ex.shtml), могу предположить: ожидалось, что в течение срока действия (до конца 2023 года) мы распознаем и передадим в архив описи в виде, пригодном "для заказа архивных дел читателями на сайте архива". То есть, с близким к 100% качеством распознавания и с сохранением структуры таблиц. В общем, аккуратненькую эксельку, готовую для загрузки в какую-нибудь АИС.
[/q]
platonshukin, Вы знаете, если именно так, как в закавыченном фрагменте, и было записано в договоре, то ЯА этого условия же не выполнил. Распознавание - это только инструмент, и заказчику, в конце концов, не так важно, что внутри черного ящика: главное, чтобы на входе машино/рукописная таблица, а на выходе - "екселька". Смысл разбора после драки не в том, чтобы насыпать соль на рану, а чтобы учесть допущенные ошибки. Может быть, если собственными силами ЯА до "ексельки" не добраться, живые волонтеры-помощники помогли бы в интерактивном режиме исправить то, с чем ИИ пока справиться не в силах? Смотрите, что уже прозвучало в нашей теме:

TatyanaEgorova написал:
[q]
на самом сайте cgamos.ru к каждому делу есть возможность добавлять комментарии ... . Если такие комментарии туда внесены пользователями, то их "подтягивает" к описанию дела сайт epoisk.ru
[/q]
Может, как раз подобного сервиса и не хватило выложенным на ЯА описям РГАДА? Вообще идея интерактивного сотрудничества ИИ с коллективным разумом пользователей профильных форумов Вам не кажется наиболее продуктивной на нынешнем этапе применения ИИ в генеалогии?

---
С уважением,
Григорий Шпекторов
Лайк (1)
klmnt
Участник

Сообщений: 67
На сайте с 2024 г.
Рейтинг: 70
Да не хотят платные архивы предоставлять "свои" архивные документы "Яндекс архиву" для бесплатной индексации и бесплатного получения информации.

Они считают, что - "Это их корова и только они ее доят и хотят доить дальше." dntknw.gif
Лайк (7)
oztech

Санкт-Петербург
Сообщений: 645
На сайте с 2005 г.
Рейтинг: 414

platonshukin написал:
[q]
К чему я: мы точно не знаем, как именно были получены цифры 44,8% и 25,6% и как именно тут применялся метод шинглов (который вообще-то для другого используется). РГАДА эти цифры озвучил на одной из встреч, мы их оставили на совести того, кто проводил исследование. Наши замеры - по той методике, которую мы считаем более правильной для решаемых сервисом задач - показывают другие результаты (хотя, очевидно, и там не 100%).
[/q]

platonshukin, сколько же тут недоговоренностей со всех сторон вместо того, чтобы отбросить обиняки. Я, например, понял из ответа Росархива так. что это ЯА применял метод шинглов для распознавания. Росархив привел числа, не дав возможности их проверить, так, и ЯА не приводит ни примеров своего расчета, ни его результатов. В мире точных наук на таком уровне научные споры не ведутся. Кстати, был же, ведь, и здесь, в нашей теме, прямой вопрос, оставшийся без ответа:
oztech написал:
[q]
Есть ли у команды ЯА объективные оценки достигнутых ими результатов в распознавании рукописных текстов?
[/q]

---
С уважением,
Григорий Шпекторов
Лайк (2)
← Назад    Вперед →Страницы: ← Назад 1 2 3 4 5 ... 137 138 139 140 141 * 142 143 144 145 ... 197 198 199 200 201 202 Вперед →
Модератор: apuzanoff
Вверх ⇈