Загрузите GEDCOM-файл на ВГД   [х]
Всероссийское Генеалогическое Древо
На сайте ВГД собираются люди, увлеченные генеалогией, историей, геральдикой и т.д. Здесь вы найдете собеседников, экспертов, умелых помощников в поисках предков и родственников. Вам подскажут где искать документы о павших в боях и пропавших без вести, в какой архив обратиться при исследовании родословной своей семьи, помогут определить по старой фотографии принадлежность к воинским частям, ведомствам и чину. ВГД - поиск людей в прошлом, настоящем и будущем!
Вниз ⇊

Яндекс - «Поиск по архивам»

Поиск по распознаным сканам метрических записей! https://yandex.ru/archive

← Назад    Вперед →Страницы: ← Назад 1 2 3 4 5 ... 26 27 28 29  30 31 32 33 34 ... 194 195 196 197 198 199 Вперед →
Модератор: apuzanoff
Imbir
Новичок

Сообщений: 16
На сайте с 2021 г.
Рейтинг: 99
Возможно, кто-то не знает, темы такой не нашла. Яндекс запустил поиск по распознанным через ИИ архивам. Протестировала, пока, увы, видимо, в основном московские метрики и архивы, но и это - большое подспорье.

Достаточно просто ввести в строку поиска фамилию, например, и выведется скан из архива, который доступен.

Надеюсь, будет полезно: https://yandex.ru/archive

Обратная связь с разработчиками.


Пара советов, как задавать им вопросы.
https://forum.vgd.ru/post/169/140482/p4446064.htm#pp4446064
https://forum.vgd.ru/post/169/140482/p4447315.htm#pp4447315

Яндекс "Поиск по архивам" в ТГ.

Как Яндекс научился распознавать, что написано в рукописных архивах: статья на Хабре о технологиях распознавания рукописного текста и в комментариях - ответы на некоторые вопросы.
Инструкция как открыть все дело, а не только одну найденную страницу от ozerskaya
В помощь желающим скачать изображение на локальный компьютер расширения для браузера от okolobaxa

Новости проекта

09.06.2023 Яндекс.Архивы добавили на сервис материалы ГАИО, загрузка и распознавание еще продолжаются, в общей сложности будет более 700 тыс. сканов по всем описям ф. 50 (включая особо ценные).
28.07.2023 Добавили Архивное управление Администрации городского округа Балашиха Московской области - Фондов 1 Дел 116 Оцифровано дел 114 Документов 55 323
31.10.2023 Первые итоги осени
  • Мы добавили на сервис “Епархиальные ведомости” и другие издания Русской Православной Церкви — около 77 тысяч выпусков или 3,5 млн сканов.
  • Также наш сервис пополнился материалами Государственного архива Астраханской области — в общей сложности около 1,5 млн сканов.
  • В разделе ЦГА Москвы добавилось более 600 дел, отсканированных архивом с июня по сентябрь.
  • В общей сложности на 376 дел пополнилась коллекция материалов ОГАОО (Оренбургская область).
  • 150 новых дел прислали наши партнеры из Государственного архива Иркутской области.
09.11.2023 ОГАОО прислал еще более 400 отсканированных дел с метрическими книгами!
14.11.2023 У нас появилось около 6 тысяч новых дел фонда 229 «Московская духовная академия».
21.11.2023 У нас снова пополнение! Теперь пользователям «Поиска по архивам» доступны материалы из Муниципального архива Уссурийска — около 140 дел с метрическими книгами из церквей города и близлежащих сёл.
24.11.2023 Добавили 50 новых дел архива Иркутской области (ГАИО), Ф. 50 Иркутская духовная консистория источник
29.11.2023 Выложили материалы Ф. 392 оп. 1 Оренбургского архива "Книги записи родившихся, бракосочетавшихся, разведшихся и умерших евреев по городу Оренбургу" (75 дел)
06.12.2023 К юбилею "Вечерней Москвы" выложили на сервис полный архив газеты за 100 лет (разумеется, распознанный и с возможностью поиска) источник
11.12.2023 Оренбургский архив продолжает радовать - с начала декабря прислали сканы более 400 новых дел. источник
15.12.2023 Главархив Москвы передал в "Поиск по архивам" почти 1000 дел, отсканированных еще в октябре. Все уже выложены на сервис и почти все уже распознаны. источник
21.12.2023 Выложили МК и записи ЗАГС муниципальных архивов Каширы, Луховиц и Павловского Посада, всего около 200 тыс. сканов источник
27.12.2023 Выложили обновление по Оренбургу, документы распознались и появились в результатах поиска. Всего 246 дел. + перезалиты в лучшем качестве Ф. 98 оп. 2 д. 2 источник
12.01.2024 Первые обновления января (источник)

06.02.2024 За прошедшую неделю «Поиск по архивам» пополнили почти 360 новых дел! Это свыше 100 тысяч сканов, поступивших из четырёх регионов страны. (источник)
25.02.2024 390 дел, отсканированных Главархивом Москвы в январе, загружены на сервис, распознаны, доступны в поиске (еще одно доедет на ближайшей неделе). (источник)
27.02.2024 Добавлено более 500 дел с метрическими книгами и записями ЗАГС с 1893-го по 1925 год из Государственного архива Приморского края (источник)
10.03.2024 Коллекцию «Поиска по архивам» пополнили материалы из фондов Государственного архива Вологодской области. На сервисе уже размещено около 800 дел (84,5 тыс. листов) ревизских сказок и других документов Вологодской казенной палаты; подготовка и публикация материалов продолжаются. (источник)
16.04.2024 Коллекцию «Поиска по архивам» пополнили 92 метрические книги, относящиеся к Камышловскому и Екатеринбургскому уездам Пермской губернии — сейчас это территория Курганской и Свердловской областей, хранившиеся в библиотеке Екатеринбургской духовной семинарии. (источник)



Лайк (106)
weright

weright

Санкт-Петербург
Сообщений: 2480
На сайте с 2020 г.
Рейтинг: 16133
>> Ответ на сообщение пользователя microArt от 13 февраля 2023 15:06

Из видео: Тай Девис-директор по продуктам и Йен-менеджер по продуктам. "Чтобы жизни людей не потерялись в будущем"

Собираем Ваши записи с помощью камер и сохраняем их, размещаем их в интернете, чтобы записи были доступны. Интернет содержал обещание, что вся информация будет доступна, но компьютеру трудно понять как их расшифровывать, особенно те, которые меняются со временем. ( Из 400 млрд -260-270 млн.выложены). Поэтому посмотрели на то, что делают индексаторы-вводят текст, который комп.может прочитать, привязывают информацию к тому, кем он является в записи. Создать отношения между этими людьми. Комп. должен сделать тоже самое. Автоматическое индексирование может стать реальностью, но нужно разработать базовый набор истин по всему миру. Комп. не видит разницы между языками, мы его этому обучаем. затем надо позволить компу выполнить фактическую транскрипцию. Но она недостаточна точна. Поэтому мы по-прежнему используем волонтеров.

Индексация

1.Просматриваем сам документ и определяем его структуру

( в строчках, в абзацах, в блоках, в таблицах и надо ли мне это извлекать?.)

Т.о. проводим анализ макета - научить компьютер, как это делать ( мозг делает автоматически)

Уже здесь множество взаимосвязей. с помощью инженерного инструмента. Большая последовательность шагов, которые иногда сбиваются. Получаем структурированные данные, доступные компьютеру. Компьютер вычленяет кто есть кто, идентифицирует контент. Важно как преподносится информация. Надо обучать классификаторы.

2. Выполняем распознавание рукописного ввода на нем, следуя образцам и языковым изменениям в течение времени

можно с точностью до 90 процентов

3. Идентифицировать всех людей во всех местах- обработка естсественного языка

Начали в некоторых странах Латинской Америки, будем расширяться

Сократить 2-летних процесс до 7 дневного
---
Ищу контакты

Краснописцевых из Смоленска
Лайк (2)
madrih

madrih

СПб, Пушкин
Сообщений: 941
На сайте с 2011 г.
Рейтинг: 1151

gbyudby написал:
[q]
2 страницы - вообще не выпадают в результатах никаким образом, хотя они в одной книге и прекрасно смотрятся в окошке яндекса ))
[/q]

Так мой вопрос про эти 2 страницы и был. Если вы их в яндексе можете найти вручную (не поиском, а перелистыванием), то найдите и посмотрите - как яндекс фактически распознает искомые фамилии именно на этих 2 страницах?
Это подскажет вам как фамилия может искажаться ИИ, а значит при последующем поиске по варианту с таким искажением, возможно, вы найдете еще варианты, о которых даже не знали.
---
По/аславские из Могилевской губернии
Лайк (6)
gbyudby

gbyudby

Москва
Сообщений: 1630
На сайте с 2020 г.
Рейтинг: 883

madrih написал:
[q]
Если вы их в яндексе можете найти вручную
[/q]


понятно, мы о разных вещах говорим))
цель моей исходной публикации была - обратить внимание, что если яндекс нашел что-то, это не значит что это = 100% того, что находится в ЭФП яндекса
данные 2 страницы (2 записи - по 1 шт на страницу) были найдены давно ручным поиском на сайте ЦГАМ
п.с. - это не критика яндекса, а, как это сейчас принято говорить - "помогите нам стать лучше" ))
Лайк (1)
balt-amber

Сообщений: 844
На сайте с 2011 г.
Рейтинг: 449
Вот еще одно применение искусственного интеллекта: https://www.vedomosti.ru/techn...ska-okulus
Пишут, что система будет "понимать" сложный рукописный текст.
---
Ольшанка, Никольское Кашаево тож (Кашаевка), Никольское Шичкилей тож Пензенского наместничества (XVIII век и ранее).
Христорождественское Васильево село Стерлитамакского уезда (Васильевка Мелеузовского района)
Фролово, Мологинской волости, Старицкого уезда
Nadin2012

Москва
Сообщений: 268
На сайте с 2012 г.
Рейтинг: 194
Все-таки Яндекс качество жизни вывел на совершенно новый уровень. Мой пра-пра за жизнь в Москве сменил как минимум 4 церкви и в разных сороках. И никогда я бы ручным способом не нашла, а сейчас просто не могу поверить своему счастью.
Лайк (12)
xbox

Сообщений: 977
На сайте с 2020 г.
Рейтинг: 1927

gbyudby написал:
[q]
итак, единичная находка - это одна страница книги
допустим, таких страниц, в электронном фонде яндекса на данный момент - 12 (реально на каждой фамилия один раз)
в запросе применяется 4 варианта написания фамилии - А, О, внутри - сЬ и безЬ; Ъ на конце тоже пробовалось - разницы в моем случае никакой
все 4 варианта в совокупности дают 10 из 12 имеющихся страниц
2 страницы - вообще не выпадают в результатах никаким образом, хотя они в одной книге и прекрасно смотрятся в окошке яндекса ))
[/q]

gbyudby написал:
[q]

цель моей исходной публикации была - обратить внимание, что если яндекс нашел что-то, это не значит что это = 100% того, что находится в ЭФП яндекса
данные 2 страницы (2 записи - по 1 шт на страницу) были найдены давно ручным поиском на сайте ЦГАМ
п.с. - это не критика яндекса, а, как это сейчас принято говорить - "помогите нам стать лучше" ))
[/q]
Представьте, что специалисты Яндекса решили заглянуть на форум, чтобы "помочь сервису стать лучше". И вот специалист читает последние несколько страниц, видит в основном тексты ни о чем, споры, оскорбления, бесконечные повторения и решает, что чтение темы будет неэффективной тратой времени. И уже перед тем, как "отписаться навсегда" от этого источника отзывов, принимается решение разобраться в Вашем случае, поскольку в нем есть хоть какие-то цифры - 10 страниц находится, 2 страницы не находятся. Но прочитав изначальное Ваше сообщение и два последующих уточнения на конкретные вопросы, все равно ничего не понятно. А раз нет конкретной проблемы, значит нечего исправлять.

Так это не работает. Если хотите помочь устранить недочеты на "Яндексе" или любой другом подобном сайте, пишите не абстрактно, а точно.
Вот список некоторых основных вопросов, ответы на которые позволят специалистам Яндекса или другим пользователям на форуме понять Вас, чтобы иметь возможность помочь.
  • Есть конкретная проблема с поиском и распознаванием? Какая категория проблемы?
    • Неправильное распознавание текста?
    • Текст распознан правильно, но поиск по точной фразе не находит место, которое есть в распознанном тексте?
    • Поиск не находит по слову, которое незначительно отличается от того, что есть в распознанном тексте?
    • Поиск по фразе выдает слишком много ложных результатов?
    • Неправильная автоматическая разметка страницы объединяет соседние несвязанные колонки в одну или наоборот, разметка считает две связанные колонки отдельными?
  • Укажите номер дела и убедитесь, что оно точно есть в каталоге Яндекса. Желательно ссылка на дело.
  • Укажите номер или ссылку на страницу, приложите скриншот "проблемной страницей".
  • Укажите точный поисковый запрос, который неправильно или неполно отрабатывает.
  • Укажите, что именно по вашему мнению в приведенном конкретном примере нужно исправить.

Этот список адресован всем, кто сообщает о проблемах.

---
epoisk.ru – Продвинутый онлайн поиск метрических книг, исповедных ведомостей, и ревизских сказок в ЦГА Москвы.
Лайк (12)
KoLenka

KoLenka

Питерская я
Сообщений: 2322
На сайте с 2021 г.
Рейтинг: 12809

xbox написал:
[q]
Представьте, что специалисты Яндекса решили заглянуть на форум,
[/q]


Специалист Яндекса сидит в кустах и читает, мы это и так знаем, а вот вылезти пообщаться с народом, как общаетесь Вы xbox в теме Вашего шикарного проекта, смелости у него не хватает .

Лайк (3)
gbyudby

gbyudby

Москва
Сообщений: 1630
На сайте с 2020 г.
Рейтинг: 883

xbox написал:
[q]
пишите не абстрактно, а точно
[/q]


"не абстрактно" было направлено в техподдержку яндекса, еще до публикации тут
Лайк (1)
balt-amber

Сообщений: 844
На сайте с 2011 г.
Рейтинг: 449
jrw, напрасно Вы удалили свой пост. По моему разумное предложение завести тему в которой форумчане высказывали бы свои предложения по проекту, а руководитель проекта Яндекс Архивы был бы модератором.
---
Ольшанка, Никольское Кашаево тож (Кашаевка), Никольское Шичкилей тож Пензенского наместничества (XVIII век и ранее).
Христорождественское Васильево село Стерлитамакского уезда (Васильевка Мелеузовского района)
Фролово, Мологинской волости, Старицкого уезда
Лайк (1)
gbyudby

gbyudby

Москва
Сообщений: 1630
На сайте с 2020 г.
Рейтинг: 883
о конкретике
то о чем советовал madrih - присмотреться что пишет яндекс в расшифровке
интересный глюк получается с переносом фамилии
перенос фамилии часто встречается в РС
вот например страница РС https://yandex.ru/archive/cata...749503/452
№ 358 фамилия Трусов - вообще не распознается
№ 360 фамилия Окользин - индексируется частично, "околь"
что любопытно - если в поиске ввести "околь" - в результатах эта с.452 появляется

вывод (на мой взгляд) - проводить поиск с "расчленением" фамилии ))
Лайк (4)
← Назад    Вперед →Страницы: ← Назад 1 2 3 4 5 ... 26 27 28 29  30 31 32 33 34 ... 194 195 196 197 198 199 Вперед →
Модератор: apuzanoff
Вверх ⇈