Яндекс - «Поиск по архивам»
Imbir Новичок
Сообщений: 16 На сайте с 2021 г. Рейтинг: 99 | Наверх ##
25 января 2023 11:29 Возможно, кто-то не знает, темы такой не нашла. Яндекс запустил поиск по распознанным через ИИ архивам. Протестировала, пока, увы, видимо, в основном московские метрики и архивы, но и это - большое подспорье. Достаточно просто ввести в строку поиска фамилию, например, и выведется скан из архива, который доступен. Надеюсь, будет полезно: https://yandex.ru/archive Обратная связь с разработчиками.Пара советов, как задавать им вопросы. https://forum.vgd.ru/post/169/140482/p4446064.htm#pp4446064https://forum.vgd.ru/post/169/140482/p4447315.htm#pp4447315Яндекс "Поиск по архивам" в ТГ.Как Яндекс научился распознавать, что написано в рукописных архивах: статья на Хабре о технологиях распознавания рукописного текста и в комментариях - ответы на некоторые вопросы. Инструкция как открыть все дело, а не только одну найденную страницу от ozerskayaВ помощь желающим скачать изображение на локальный компьютер расширения для браузера от okolobaxa
Новости проекта 09.06.2023 Яндекс.Архивы добавили на сервис материалы ГАИО, загрузка и распознавание еще продолжаются, в общей сложности будет более 700 тыс. сканов по всем описям ф. 50 (включая особо ценные). 28.07.2023 Добавили Архивное управление Администрации городского округа Балашиха Московской области - Фондов 1 Дел 116 Оцифровано дел 114 Документов 55 323 31.10.2023 Первые итоги осени - Мы добавили на сервис “Епархиальные ведомости” и другие издания Русской Православной Церкви — около 77 тысяч выпусков или 3,5 млн сканов.
- Также наш сервис пополнился материалами Государственного архива Астраханской области — в общей сложности около 1,5 млн сканов.
- В разделе ЦГА Москвы добавилось более 600 дел, отсканированных архивом с июня по сентябрь.
- В общей сложности на 376 дел пополнилась коллекция материалов ОГАОО (Оренбургская область).
- 150 новых дел прислали наши партнеры из Государственного архива Иркутской области.
09.11.2023 ОГАОО прислал еще более 400 отсканированных дел с метрическими книгами! 14.11.2023 У нас появилось около 6 тысяч новых дел фонда 229 «Московская духовная академия». 21.11.2023 У нас снова пополнение! Теперь пользователям «Поиска по архивам» доступны материалы из Муниципального архива Уссурийска — около 140 дел с метрическими книгами из церквей города и близлежащих сёл. 24.11.2023 Добавили 50 новых дел архива Иркутской области (ГАИО), Ф. 50 Иркутская духовная консистория источник29.11.2023 Выложили материалы Ф. 392 оп. 1 Оренбургского архива "Книги записи родившихся, бракосочетавшихся, разведшихся и умерших евреев по городу Оренбургу" (75 дел) 06.12.2023 К юбилею "Вечерней Москвы" выложили на сервис полный архив газеты за 100 лет (разумеется, распознанный и с возможностью поиска) источник11.12.2023 Оренбургский архив продолжает радовать - с начала декабря прислали сканы более 400 новых дел. источник15.12.2023 Главархив Москвы передал в "Поиск по архивам" почти 1000 дел, отсканированных еще в октябре. Все уже выложены на сервис и почти все уже распознаны. источник21.12.2023 Выложили МК и записи ЗАГС муниципальных архивов Каширы, Луховиц и Павловского Посада, всего около 200 тыс. сканов источник27.12.2023 Выложили обновление по Оренбургу, документы распознались и появились в результатах поиска. Всего 246 дел. + перезалиты в лучшем качестве Ф. 98 оп. 2 д. 2 источник12.01.2024 Первые обновления января ( источник) 06.02.2024 За прошедшую неделю «Поиск по архивам» пополнили почти 360 новых дел! Это свыше 100 тысяч сканов, поступивших из четырёх регионов страны. ( источник) 25.02.2024 390 дел, отсканированных Главархивом Москвы в январе, загружены на сервис, распознаны, доступны в поиске (еще одно доедет на ближайшей неделе). ( источник) 27.02.2024 Добавлено более 500 дел с метрическими книгами и записями ЗАГС с 1893-го по 1925 год из Государственного архива Приморского края ( источник) 10.03.2024 Коллекцию «Поиска по архивам» пополнили материалы из фондов Государственного архива Вологодской области. На сервисе уже размещено около 800 дел (84,5 тыс. листов) ревизских сказок и других документов Вологодской казенной палаты; подготовка и публикация материалов продолжаются. ( источник) 16.04.2024 Коллекцию «Поиска по архивам» пополнили 92 метрические книги, относящиеся к Камышловскому и Екатеринбургскому уездам Пермской губернии — сейчас это территория Курганской и Свердловской областей, хранившиеся в библиотеке Екатеринбургской духовной семинарии. ( источник) | | Лайк (106) |
oztech Санкт-Петербург Сообщений: 645 На сайте с 2005 г. Рейтинг: 414
| Наверх ##
3 марта 2024 14:14 platonshukin написал: [q] К чему я: мы точно не знаем, как именно были получены цифры 44,8% и 25,6% и как именно тут применялся метод шинглов (который вообще-то для другого используется). РГАДА эти цифры озвучил на одной из встреч, мы их оставили на совести того, кто проводил исследование. Наши замеры - по той методике, которую мы считаем более правильной для решаемых сервисом задач - показывают другие результаты (хотя, очевидно, и там не 100%).[/q] platonshukin, сколько же тут недоговоренностей со всех сторон вместо того, чтобы отбросить обиняки. Я, например, понял из ответа Росархива так. что это ЯА применял метод шинглов для распознавания. Росархив привел числа, не дав возможности их проверить, так, и ЯА не приводит ни примеров своего расчета, ни его результатов. В мире точных наук на таком уровне научные споры не ведутся. Кстати, был же, ведь, и здесь, в нашей теме, прямой вопрос, оставшийся без ответа: oztech написал: [q] Есть ли у команды ЯА объективные оценки достигнутых ими результатов в распознавании рукописных текстов?[/q] --- С уважением,
Григорий Шпекторов | | Лайк (2) |
oztech Санкт-Петербург Сообщений: 645 На сайте с 2005 г. Рейтинг: 414
| Наверх ##
3 марта 2024 20:01 Malus_domestica написал: [q] Есть опасность, что начнётся анархия: каждый будет распознавать и вносить данные так, как он прочитал, как считает нужным, в меру своих знаний и опыта.[/q] Malus_domestica, Вы говорите довольно очевидную вещь, но, во-первых, на пути сотрудничества виден свет в конце туннеля, хотя конечную "эксельку" все равно нельзя доверить компьютеру, ее должен проверить программист, ответственный за введение данных в базу. А во-вторых, я собственными глазами видел и руками участвовал в том, как это все работает именно на достижение конечной цели - создания пригодной таблицы. И для этого машинное распознавание текста не очень нужно. Но тут-то, как я понимаю, еще делается попытка совместить оцифровку описей с тренировкой ИИ, чтобы потом оно пригодилось для контекстного поиска уже по отсканированным делам. Если в ЯА придумают как эту задумку реализовать, эффективность распознавания обязательно увеличится. --- С уважением,
Григорий Шпекторов | | |
Vladimir V Участник
Сообщений: 74 На сайте с 2005 г. Рейтинг: 64 | Наверх ##
5 марта 2024 15:13 Может быть, о сравнении распознавания рукописных документов между ЯА и Генотеком уже писали. Но скажу (возможно, повторю кого-то), что, на мой взгляд, алгоритм ЯА гораздо эффективнее алгоритма Генотека. Гораздо. И, добавлю, удобнее для пользователя.
Но! Генотек пользуется более широкой базой, в том числе, из региональных архивов. И Тверской архив, и Тульский...да очень немало. И получается такая неважная картинка – лучший алгоритм ЯА обладает более скромной базой, чем менее эффективный.
Что нужно ЯА, чтобы расширить свою базу? ведь Генотеку это удается. | | Лайк (1) |
TatyanaEgorova Рязанская область Сообщений: 1282 На сайте с 2021 г. Рейтинг: 1109
| Наверх ##
5 марта 2024 16:38 Vladimir V написал: [q] Что нужно ЯА, чтобы расширить свою базу? ведь Генотеку это удается. [/q]
Просто ЯА работает в правовом поле - на договорной основе с архивами, а Генотек работает с той информацией, которая находится в сети "в свободном доступе" (в том числе, на сайте мормонов). --- Ищу сведения об Остроумовых, Протопоповых, Беляевых, Благовещенских, Сретенских, Стрельцовых, Воскресенских (СЦС Москвы и Моск. губернии), а также Цховребовых (Юж. Осетия), Трифоновых и Кониных (Тульская губ.) | | Лайк (1) |
ixes Сообщений: 2659 На сайте с 2010 г. Рейтинг: 1296
| Наверх ##
5 марта 2024 17:02 Vladimir V[q] и Тульский[/q]
Тульские снимки Генотек закрыл. | | |
Vladimir V Участник
Сообщений: 74 На сайте с 2005 г. Рейтинг: 64 | Наверх ##
5 марта 2024 17:17 5 марта 2024 17:18 TatyanaEgorova написал: [q] Vladimir V написал:
[q] Что нужно ЯА, чтобы расширить свою базу? ведь Генотеку это удается.
[/q]
Просто ЯА работает в правовом поле - на договорной основе с архивами, а Генотек работает с той информацией, которая находится в сети "в свободном доступе" (в том числе, на сайте мормонов).[/q]
Я совершенно не специалист в юридических вопросах, но что мешает работать с информацией, которая находится в свободном доступе? Скажем, Гугл не заключал со мной никаких договоров, но те мои тексты, которые выложены в свободный доступ, Гуглом находятся. И Яндексом тоже. Значит ли это, что и Гугл, и Яндекс работают в неправовом поле? | | Лайк (1) |
7_kolen_predkov ДиВанное заМКАДье Сообщений: 1084 На сайте с 2021 г. Рейтинг: 3519
| Наверх ##
5 марта 2024 17:47 Vladimir V За юридическими разъяснениями на профильный форум нужно обращаться.
В теме обсуждаются генеалогия и обозначенная в названии СУБД.
| | |
Vladimir V Участник
Сообщений: 74 На сайте с 2005 г. Рейтинг: 64 | Наверх ##
5 марта 2024 18:25 ixes написал: [q] Vladimir V
[q] и Тульский
[/q]
Тульские снимки Генотек закрыл.[/q]
Вот пять минут назад смотрел - идет поиск по "Тульской губернии". Очевидно, они просто убрали ссылку на Тульский архив, но его содержание остается в базе поиска сервиса. | | |
ixes Сообщений: 2659 На сайте с 2010 г. Рейтинг: 1296
| Наверх ##
5 марта 2024 18:31 Vladimir V Поиск идет, снимки закрыты. Я писал про снимки. | | |
Vladimir V Участник
Сообщений: 74 На сайте с 2005 г. Рейтинг: 64 | Наверх ##
5 марта 2024 21:25 ixes написал: [q] Vladimir V Поиск идет, снимки закрыты. Я писал про снимки.[/q]
А, понятно. Но из этого есть выход, хоть снимков нет, они дают номер пленки у мормонов, и там можно посмотреть интересующий кадр. Другое дело, что распознавание гораздо хуже, чем у ЯА, и выдача результатов (где выделяется поисковое слово на снимках и во фрагменте распознанного текста) тоже хуже, чем у ЯА. | | Лайк (1) |
|