Яндекс - «Поиск по архивам»
Imbir Новичок
Сообщений: 16 На сайте с 2021 г. Рейтинг: 99 | Наверх ##
25 января 2023 11:29 Возможно, кто-то не знает, темы такой не нашла. Яндекс запустил поиск по распознанным через ИИ архивам. Протестировала, пока, увы, видимо, в основном московские метрики и архивы, но и это - большое подспорье. Достаточно просто ввести в строку поиска фамилию, например, и выведется скан из архива, который доступен. Надеюсь, будет полезно: https://yandex.ru/archive Обратная связь с разработчиками.Пара советов, как задавать им вопросы. https://forum.vgd.ru/post/169/140482/p4446064.htm#pp4446064https://forum.vgd.ru/post/169/140482/p4447315.htm#pp4447315Яндекс "Поиск по архивам" в ТГ.Как Яндекс научился распознавать, что написано в рукописных архивах: статья на Хабре о технологиях распознавания рукописного текста и в комментариях - ответы на некоторые вопросы. Инструкция как открыть все дело, а не только одну найденную страницу от ozerskayaВ помощь желающим скачать изображение на локальный компьютер расширения для браузера от okolobaxa
Новости проекта 09.06.2023 Яндекс.Архивы добавили на сервис материалы ГАИО, загрузка и распознавание еще продолжаются, в общей сложности будет более 700 тыс. сканов по всем описям ф. 50 (включая особо ценные). 28.07.2023 Добавили Архивное управление Администрации городского округа Балашиха Московской области - Фондов 1 Дел 116 Оцифровано дел 114 Документов 55 323 31.10.2023 Первые итоги осени - Мы добавили на сервис “Епархиальные ведомости” и другие издания Русской Православной Церкви — около 77 тысяч выпусков или 3,5 млн сканов.
- Также наш сервис пополнился материалами Государственного архива Астраханской области — в общей сложности около 1,5 млн сканов.
- В разделе ЦГА Москвы добавилось более 600 дел, отсканированных архивом с июня по сентябрь.
- В общей сложности на 376 дел пополнилась коллекция материалов ОГАОО (Оренбургская область).
- 150 новых дел прислали наши партнеры из Государственного архива Иркутской области.
09.11.2023 ОГАОО прислал еще более 400 отсканированных дел с метрическими книгами! 14.11.2023 У нас появилось около 6 тысяч новых дел фонда 229 «Московская духовная академия». 21.11.2023 У нас снова пополнение! Теперь пользователям «Поиска по архивам» доступны материалы из Муниципального архива Уссурийска — около 140 дел с метрическими книгами из церквей города и близлежащих сёл. 24.11.2023 Добавили 50 новых дел архива Иркутской области (ГАИО), Ф. 50 Иркутская духовная консистория источник29.11.2023 Выложили материалы Ф. 392 оп. 1 Оренбургского архива "Книги записи родившихся, бракосочетавшихся, разведшихся и умерших евреев по городу Оренбургу" (75 дел) 06.12.2023 К юбилею "Вечерней Москвы" выложили на сервис полный архив газеты за 100 лет (разумеется, распознанный и с возможностью поиска) источник11.12.2023 Оренбургский архив продолжает радовать - с начала декабря прислали сканы более 400 новых дел. источник15.12.2023 Главархив Москвы передал в "Поиск по архивам" почти 1000 дел, отсканированных еще в октябре. Все уже выложены на сервис и почти все уже распознаны. источник21.12.2023 Выложили МК и записи ЗАГС муниципальных архивов Каширы, Луховиц и Павловского Посада, всего около 200 тыс. сканов источник27.12.2023 Выложили обновление по Оренбургу, документы распознались и появились в результатах поиска. Всего 246 дел. + перезалиты в лучшем качестве Ф. 98 оп. 2 д. 2 источник12.01.2024 Первые обновления января ( источник) 06.02.2024 За прошедшую неделю «Поиск по архивам» пополнили почти 360 новых дел! Это свыше 100 тысяч сканов, поступивших из четырёх регионов страны. ( источник) 25.02.2024 390 дел, отсканированных Главархивом Москвы в январе, загружены на сервис, распознаны, доступны в поиске (еще одно доедет на ближайшей неделе). ( источник) 27.02.2024 Добавлено более 500 дел с метрическими книгами и записями ЗАГС с 1893-го по 1925 год из Государственного архива Приморского края ( источник) 10.03.2024 Коллекцию «Поиска по архивам» пополнили материалы из фондов Государственного архива Вологодской области. На сервисе уже размещено около 800 дел (84,5 тыс. листов) ревизских сказок и других документов Вологодской казенной палаты; подготовка и публикация материалов продолжаются. ( источник) 16.04.2024 Коллекцию «Поиска по архивам» пополнили 92 метрические книги, относящиеся к Камышловскому и Екатеринбургскому уездам Пермской губернии — сейчас это территория Курганской и Свердловской областей, хранившиеся в библиотеке Екатеринбургской духовной семинарии. ( источник) | | Лайк (106) |
Samael г.Куровское, Московская область Сообщений: 1562 На сайте с 2008 г. Рейтинг: 284
| Наверх ##
21 сентября 2024 0:47 21 сентября 2024 11:51 --- Боголюбское (Коробково) Кардоновы (Юрмовы, Юрмановы), Анискины - Ряжский уезд, Рязанской губернии
Куровская Шлыковы, Лашино Буслаковы, Асташково Чурилины, Хотеичи Прунтовы – Богородский уезд, Московской губернии
Перхурово Рыбины, Вантино Корпусовы –Богородский уезд, Московской губернии | | |
anto Сообщений: 5785 На сайте с 2009 г. Рейтинг: 4436
| Наверх ##
21 сентября 2024 16:08 gbyudby написал: [q] okolobaxa написал:
[q] ВЫПУСТИЛИ ИСПРАВЛЕННУЮ ВЕРСИЮ ПЛАГИНА ДЛЯ СКАЧИВАНИЯ ОТДЕЛЬНЫХ КАДРОВ с Яндекс.Архива
[/q]
увы, сломалось - скрин прилагаю одна и та же ситуация как со старой версией, так и с новой удалялось, перестанавливалась, перескачивалось и т.п. ))
при этом у меня на том ноуте, где после Вашей публикации - успешно установилось, после вышеписанного глюка слетело, и заново есс-но не ставится[/q]
У меня тоже такая ошибка выскакивает. Что делать? Вам удалось решить эту проблему? | | |
gbyudby Москва Сообщений: 1636 На сайте с 2020 г. Рейтинг: 885 | Наверх ##
21 сентября 2024 18:18 anto написал: [q] Что делать?[/q]
= кэш браузера, муторно но надежно)) по поводу этого плагина, я даже разработчику отправлял свойства браузеров и операционки, в которых этот плагин НЕ работал - диагноз не последовал | | Лайк (1) |
dsukharev Новичок
Москва Сообщений: 26 На сайте с 2018 г. Рейтинг: 22 | Наверх ##
22 сентября 2024 1:36 22 сентября 2024 1:42 >> Ответ на сообщение пользователя xbox от 21 сентября 2024 0:07 А меня удивило другое - очень хорошее распознавание имён и отчеств (ну и части фамилий). Не уверен, когда именно это так стало, но вроде раньше было хуже. Ещё интересный факт - смотрел на качество распознавания сёл с названиями Каменная Сарма, Медведка, Погромное, Никифоровка. Как вы думаете, где лучше? Никифоровка и Медведка - близко к 100%; Погромное - часто бывают ошибки типа Погрешнаго и тому подобных странных прилагательных; Сарма - качество процентов 50% и все возможные виды "коверкания" этого слова. Сие говорит нам о том, что словарь имён каким-то образом используется для конечного результата - или в пост-процессинге, или интегрирован прямо в "голову" нейросети. Если это действительно так, то хочется пожелать Яндексу улучшить также распознавание названий губерний, уездов и волостей (а то до сих пор процветают Орзовская, Грихеринославская и Тавричсская губернии и т.д.) Понятно, что с населёнными пунктами всё сложнее, но ведь можно что-то придумать? Основная идея - сузить словарь возможных вариантов названий сёл и деревень до реально используемых в данной МК. Навскидку, аж 4 варианта - а) использовать описи от архива, б) привлечь пользователей к этому благому делу, в) использовать заголовки дел (в некоторых местностях большая часть названий может относится именно к селу этой церкви) и г) статистический метод. Последнее мне самому понравилось. Действительно, перефразируя Толстого - все правильные названия всегда одинаковы, а все исковерканные - исковерканы по разному. И если в деле из моего примера 50 раз используется село Сарма, и по 3-5 раз вариации типа Серма, Сирма, Сарша, Сарна и т.д., то правильное название очевидно | | Лайк (2) |
xbox Сообщений: 982 На сайте с 2020 г. Рейтинг: 1936
| Наверх ##
22 сентября 2024 2:32 22 сентября 2024 2:32 dsukharev написал: [q] И если в деле из моего примера 50 раз используется село Сарма, и по 3-5 раз вариации типа Серма, Сирма, Сарша, Сарна и т.д., то правильное название очевидно [/q]
Следуя такой статистической логике. Если в Московской церкви 300 раз встречаемся слово Московский и один раз Можайский, то Можайский меняем на Московский. При плохом почерке написания могут быть схожие. Если 100 раз встречается Мария Ивановна и один раз Марфа Ивановна, то Марфу меняем на Марию. Если в книге 15 раз встречается Никольское и 45 раз встречается Николаевское, то тоже меняем. на что менять сразу не понятно, но наверняка один из вариантов неправильный. И ещё момент. В какой момент начинать менять слова на правильные. На первой распознаной странице статистики мало. На 100 странице статистика есть, но что делать с уже распознанными страницами? Ещё раз пройти по ним и распознать заново? Статистику собираем в одном деле или во всех? Если собирать статистику во всех делах, то Сарма может неожиданно превратиться, например в какое-нибудь Фарма. Для одного конкретного слова или дела оптимальные параметры, наверное, легко придумать, а для десятков тысяч дел не все так просто. --- epoisk.ru – Продвинутый онлайн поиск метрических книг, исповедных ведомостей, и ревизских сказок в ЦГА Москвы. | | Лайк (6) |
dsukharev Новичок
Москва Сообщений: 26 На сайте с 2018 г. Рейтинг: 22 | Наверх ##
23 сентября 2024 1:53 >> Ответ на сообщение пользователя xbox от 22 сентября 2024 2:32 Торопиться не надо, ведь первое правило мозгового штурма - критику оставить на потом. Делать все равно будут другие люди, и у них критики будет ещё больше  С другой стороны, спасибо, есть возможность что-то прояснить: предложение появилось после предположения, что Яндекс освоил распознавание со словарём. Если так, то было бы здорово использовать это для населённых пунктов. Ведь распознавать ограниченный набор слов лучше, чем почти неограниченное кол-во комбинаций отдельных символов, не так ли? Повторюсь, основная идея - сузить словарь возможных вариантов названий сёл и деревень до реально используемых в данной МК. Суть статистики - создать словарь, а не принимать решения о выборе того или иного слова. И да, это требует двойного прохода по одному делу. Естественно, речь идёт только о тех названиях, которые рядом со словами село, деревня и пр. Поэтому вопросы про Московский/Можайский, Марфу/Марью мимо. В случае с Никольским / Николаевским в словарь должны попасть оба. Обобщая, хотелось бы, чтобы в такой статистике увидели бы возможность, а не только одни проблемы. P.S. А вообще, давно пора уже в России заиметь открытый список населённых пунктов, желательно с губерниями и уездами, его и нужно использовать для создания словаря. Всего-то несколько сот тысяч строчек )). Возможно, такой список уже где-то есть, но я, увы, не в курсе. | | Лайк (1) |
Nadin2012 Москва Сообщений: 276 На сайте с 2012 г. Рейтинг: 200
| Наверх ##
23 сентября 2024 5:22 dsukharev Названия населенных пунктов писались так же свободно, как и фамилии. Как услышал, так и написал. В справочник вносить предлагаете все варианты? | | Лайк (4) |
tirael Подмосковье Сообщений: 792 На сайте с 2023 г. Рейтинг: 1529 | Наверх ##
23 сентября 2024 8:17 Nadin2012 написал: [q] dsukharev Названия населенных пунктов писались так же свободно, как и фамилии. Как услышал, так и написал. В справочник вносить предлагаете все варианты?[/q]
Дополню. В разное время этот список был разным. И тогда список нужно ещё соотносить с волостями, уездами, губерниями, потому что в них похоже, но все таки немного по разному могли писаться названия. И опять же, есть же приезжие и в данной местности его населённого пункта может не оказаться. Не получится ли так же как пишет xbox, что в угоду соответствия названию из списка ИИ верное наименование будет распознавать неверно. Те ИИ может распознать правильно, сравнить со списком и скорректировать на данное похожее для данной местности. Тогда переселенцев будет очень сложно выявить. --- Ищу сведения: Хижниковы,Хижняковы,Хижинковы (ст.Новочеркасская), Бродские (Одесса, Туркестанский край), Погореловы (Воронеж. губ до1925, Крым/Кубань с1925, Ленинград с 60х), Саватеевы/Савватеевы (Владимирская губ, Москва и обл. Кулебякино), Моисеевы (Рязанская губ. с. Добрые пчелы) | | Лайк (3) |
DogaevSУчастник  Samara / Самара Сообщений: 59 На сайте с 2023 г. Рейтинг: 50 | Наверх ##
23 сентября 2024 8:36 Nadin2012 написал: [q] dsukharev Названия населенных пунктов писались так же свободно, как и фамилии. Как услышал, так и написал. В справочник вносить предлагаете все варианты?[/q]
не нужно все, достаточно только встречающиеся - так, как написано, пусть и с ошибкой, но правильно прочитано. Была бы полезной настройка допустимых искажений, например галочка для полного совпадения, нет галочки - совпадение частичное или созвучное. --- Ищу сведения: - с.Кунье Староосколький уезд, д.Забугоровка, Бугульма. Догаевы/Дагаевы Скобкины - Бугульма. Егоровы - Мензелинский уезд, Бугульма, Самара (Куйбышев). Ероховы - Бугульма, Нагорновы - Бугульма, Бугуруслан, Севастополь. Таракановы - Оренбург (Петровское), с. Сляднево Нижегородской губ. | | |
dsukharev Новичок
Москва Сообщений: 26 На сайте с 2018 г. Рейтинг: 22 | Наверх ##
23 сентября 2024 23:09 Nadin2012 написал: [q] dsukharev Названия населенных пунктов писались так же свободно, как и фамилии. Как услышал, так и написал. В справочник вносить предлагаете все варианты?[/q]
В рамках одной МК писались более-менее одинаково, разве нет? | | |
|