Яндекс - «Поиск по архивам»
Imbir Новичок
Сообщений: 16 На сайте с 2021 г. Рейтинг: 99 | Наверх ##
25 января 2023 11:29 Возможно, кто-то не знает, темы такой не нашла. Яндекс запустил поиск по распознанным через ИИ архивам. Протестировала, пока, увы, видимо, в основном московские метрики и архивы, но и это - большое подспорье. Достаточно просто ввести в строку поиска фамилию, например, и выведется скан из архива, который доступен. Надеюсь, будет полезно: https://yandex.ru/archive Обратная связь с разработчиками.Пара советов, как задавать им вопросы. https://forum.vgd.ru/post/169/140482/p4446064.htm#pp4446064https://forum.vgd.ru/post/169/140482/p4447315.htm#pp4447315Яндекс "Поиск по архивам" в ТГ.Как Яндекс научился распознавать, что написано в рукописных архивах: статья на Хабре о технологиях распознавания рукописного текста и в комментариях - ответы на некоторые вопросы. Инструкция как открыть все дело, а не только одну найденную страницу от ozerskayaВ помощь желающим скачать изображение на локальный компьютер расширения для браузера от okolobaxa
Новости проекта 09.06.2023 Яндекс.Архивы добавили на сервис материалы ГАИО, загрузка и распознавание еще продолжаются, в общей сложности будет более 700 тыс. сканов по всем описям ф. 50 (включая особо ценные). 28.07.2023 Добавили Архивное управление Администрации городского округа Балашиха Московской области - Фондов 1 Дел 116 Оцифровано дел 114 Документов 55 323 31.10.2023 Первые итоги осени - Мы добавили на сервис “Епархиальные ведомости” и другие издания Русской Православной Церкви — около 77 тысяч выпусков или 3,5 млн сканов.
- Также наш сервис пополнился материалами Государственного архива Астраханской области — в общей сложности около 1,5 млн сканов.
- В разделе ЦГА Москвы добавилось более 600 дел, отсканированных архивом с июня по сентябрь.
- В общей сложности на 376 дел пополнилась коллекция материалов ОГАОО (Оренбургская область).
- 150 новых дел прислали наши партнеры из Государственного архива Иркутской области.
09.11.2023 ОГАОО прислал еще более 400 отсканированных дел с метрическими книгами! 14.11.2023 У нас появилось около 6 тысяч новых дел фонда 229 «Московская духовная академия». 21.11.2023 У нас снова пополнение! Теперь пользователям «Поиска по архивам» доступны материалы из Муниципального архива Уссурийска — около 140 дел с метрическими книгами из церквей города и близлежащих сёл. 24.11.2023 Добавили 50 новых дел архива Иркутской области (ГАИО), Ф. 50 Иркутская духовная консистория источник29.11.2023 Выложили материалы Ф. 392 оп. 1 Оренбургского архива "Книги записи родившихся, бракосочетавшихся, разведшихся и умерших евреев по городу Оренбургу" (75 дел) 06.12.2023 К юбилею "Вечерней Москвы" выложили на сервис полный архив газеты за 100 лет (разумеется, распознанный и с возможностью поиска) источник11.12.2023 Оренбургский архив продолжает радовать - с начала декабря прислали сканы более 400 новых дел. источник15.12.2023 Главархив Москвы передал в "Поиск по архивам" почти 1000 дел, отсканированных еще в октябре. Все уже выложены на сервис и почти все уже распознаны. источник21.12.2023 Выложили МК и записи ЗАГС муниципальных архивов Каширы, Луховиц и Павловского Посада, всего около 200 тыс. сканов источник27.12.2023 Выложили обновление по Оренбургу, документы распознались и появились в результатах поиска. Всего 246 дел. + перезалиты в лучшем качестве Ф. 98 оп. 2 д. 2 источник12.01.2024 Первые обновления января ( источник) 06.02.2024 За прошедшую неделю «Поиск по архивам» пополнили почти 360 новых дел! Это свыше 100 тысяч сканов, поступивших из четырёх регионов страны. ( источник) 25.02.2024 390 дел, отсканированных Главархивом Москвы в январе, загружены на сервис, распознаны, доступны в поиске (еще одно доедет на ближайшей неделе). ( источник) 27.02.2024 Добавлено более 500 дел с метрическими книгами и записями ЗАГС с 1893-го по 1925 год из Государственного архива Приморского края ( источник) 10.03.2024 Коллекцию «Поиска по архивам» пополнили материалы из фондов Государственного архива Вологодской области. На сервисе уже размещено около 800 дел (84,5 тыс. листов) ревизских сказок и других документов Вологодской казенной палаты; подготовка и публикация материалов продолжаются. ( источник) 16.04.2024 Коллекцию «Поиска по архивам» пополнили 92 метрические книги, относящиеся к Камышловскому и Екатеринбургскому уездам Пермской губернии — сейчас это территория Курганской и Свердловской областей, хранившиеся в библиотеке Екатеринбургской духовной семинарии. ( источник) | | Лайк (106) |
jrw Сообщений: 5687 На сайте с 2021 г. Рейтинг: 6143
| Наверх ##
13 февраля 2023 10:48 13 февраля 2023 10:57 Kreutzer написал: [q] Довольно странно критиковать проект[/q]
Странно не указывать на явные ошибки, а безоговорочно восхвалять. Критика должна быть всегда, даже если ее не любят. Да, проект хороший, но еще не доведенный до идеального состояния. Вы видели, как нейросеть расшифровала более ранний документ ? На странице нет ни одного правильно прочитанного слова. | | Лайк (3) |
EkaterinaK Санкт-Петербург; Владивосток Сообщений: 3294 На сайте с 2011 г. Рейтинг: 1993
| Наверх ##
13 февраля 2023 10:50 13 февраля 2023 10:52 Kreutzer написал: [q] печальна медлительность архивов по оцифровке и какая-то патологическая госжадность в большинстве регионов, заперших сканы под оплату),[/q]
даже если бы всё было оцифровано и "вывалено" в сеть, и даже если бы у Яндекса алгоритмы были бы идеальные, всё равно были бы проблемы. Основа любого поиска - ПОНИМАНИЕ поиска. --- Пишите в личку: Эвакуация детей, Николаевский уезд, город Пугачев (Николаевск), Дальний Восток (Владивосток)
| | Лайк (2) |
anto Сообщений: 5793 На сайте с 2009 г. Рейтинг: 4449
| Наверх ##
13 февраля 2023 11:04 Kreutzer написал: [q] Если сравнивать с FamilySearch, их ИИ распознает тоже по-разному, что интересно, если он сомневается то выдаёт несколько вариантов записи, которые как ему кажется, могут быть похожими на написанное[/q]
А у них есть проект искусственного машинного индексирования? Где? Пока видел у них только проекты обычного индексирования, людьми... | | Лайк (1) |
jrw Сообщений: 5687 На сайте с 2021 г. Рейтинг: 6143
| Наверх ##
13 февраля 2023 11:13 13 февраля 2023 11:26 anto написал: [q] Пока видел у них только проекты обычного индексирования, людьми...[/q]
В самую точку, бралось отсканированное программой слово и человек вручную вводил буквы его составляюшие в специальное поле. И так много много раз. Затем эти данные отправляли нейросети, и она обучалась распознованию. И это довольно тяжелый, титанический труд для человека - правильно прочитать, правильно ввести и проверить на опечатки прочитанный текст. | | Лайк (3) |
Kreutzer Сообщений: 325 На сайте с 2023 г. Рейтинг: 124
| Наверх ##
13 февраля 2023 12:03 anto написал: [q] Kreutzer написал:
[q] Если сравнивать с FamilySearch, их ИИ распознает тоже по-разному, что интересно, если он сомневается то выдаёт несколько вариантов записи, которые как ему кажется, могут быть похожими на написанное
[/q]
А у них есть проект искусственного машинного индексирования? Где? Пока видел у них только проекты обычного индексирования, людьми...[/q]
Мне по поиску фамилии FS выдал точную запись в метрической книге вообще другой губернии, я был убеждён, что надо искать в одной, а оказалось в Самарской... Не в жизнь бы не нашел. Как и почему предки там оказались, и никто ничего не рассказывал про это. Поэтому FS помог. При этом, FS, найдя человека, запись, сразу делает электронные карточки на человека - рожденного, его отца, мать и пр. И потом сразу при поиске пишет - найден такой-то, он отец такого-то. Насчёт сырости Яндекса, это понятно. Но я, благодарен, что его выложили сейчас, пусть и сырой, а не после "допила". Критиковать смысла не вижу, предлагать новые алгоритмы, давайте вместе. Нейросеть, ИИ, будут тем точнее, чем больше они обработают и чем больше будет разных алгоритмов. Должна появиться база по нас пунктам, уездам и губерниям за все года, по всем церквям. Это невозможно сразу сделать, но обработав, она это сделает | | Лайк (1) |
microArt г.Гатчина, Ленинградская область Сообщений: 3298 На сайте с 2008 г. Рейтинг: 2491 | Наверх ##
13 февраля 2023 12:09 Kreutzer написал: [q] Если сравнивать с FamilySearch, их ИИ распознает тоже по-разному[/q]
Там разве ИИ? У них же индексация людьми была... --- Псковские документы (метрические книги из фонда 39) здесь:
https://www.geno-dbase.ru/storage/Russian_Empire/Pskov/ | | Лайк (1) |
jrw Сообщений: 5687 На сайте с 2021 г. Рейтинг: 6143
| Наверх ##
13 февраля 2023 12:10 13 февраля 2023 12:10 Kreutzer написал: [q] Мне по поиску фамилии FS выдал точную запись в метрической [/q]
Я пытался там искать родственников из Бежецкого уезда, никого не нашел. | | |
microArt г.Гатчина, Ленинградская область Сообщений: 3298 На сайте с 2008 г. Рейтинг: 2491 | Наверх ##
13 февраля 2023 12:11 13 февраля 2023 12:14 jrw написал: [q] Затем эти данные отправляли нейросети[/q]
Где у Familysearch про нейросеть? Или я опять проспала все на свете? Но пока что я только про индексирование людьми читала. Мне кажется, что вот для их целей нейросеть неприменима в принципе. Потому что нейросеть ошибается (просто так устроена). А для них ошибки недопустимы (потому что при их обрядах используется информация). Поэтому, мне кажется, что они точно нейросети не станут применять. Может, я ошибаюсь. --- Псковские документы (метрические книги из фонда 39) здесь:
https://www.geno-dbase.ru/storage/Russian_Empire/Pskov/ | | Лайк (1) | Жалоба (1) |
jrw Сообщений: 5687 На сайте с 2021 г. Рейтинг: 6143
| Наверх ##
13 февраля 2023 12:13 13 февраля 2023 12:22 microArt написал: [q] ИИ?[/q]
ИИ яндекса тоже обучали люди, индексируя написанные слова. Первоначальный принцип одинаковый. Программисты Яндекса просто пошли дальше, создав обучаемую нейросеть. Но и дальше продолжать обучать и исправлять ошибки должны люди ! А Яндекс Архив полагается на свой ИИ. | | |
microArt г.Гатчина, Ленинградская область Сообщений: 3298 На сайте с 2008 г. Рейтинг: 2491 | Наверх ##
13 февраля 2023 12:18 ИИ в одиночку ничего не сделает. А вот если бы соединить его с естественными нейросетями (с людьми) - вот сила бы получилась. Как пример: сначала прогнать документ через нейросеть, а потом постраничный просмотр людьми (добровольцами) с исправлением найденных ошибок. И потом другой доброволец еще раз просматривает документ и расшифровку.
Что-то вроде мормонского проекта индексирования, только сначала документ просматривает нейросеть. --- Псковские документы (метрические книги из фонда 39) здесь:
https://www.geno-dbase.ru/storage/Russian_Empire/Pskov/ | | Лайк (2) |
|