Яндекс - «Поиск по архивам»
Imbir Новичок
Сообщений: 16 На сайте с 2021 г. Рейтинг: 99 | Наверх ##
25 января 2023 11:29 Возможно, кто-то не знает, темы такой не нашла. Яндекс запустил поиск по распознанным через ИИ архивам. Протестировала, пока, увы, видимо, в основном московские метрики и архивы, но и это - большое подспорье. Достаточно просто ввести в строку поиска фамилию, например, и выведется скан из архива, который доступен. Надеюсь, будет полезно: https://yandex.ru/archive Обратная связь с разработчиками.Пара советов, как задавать им вопросы. https://forum.vgd.ru/post/169/140482/p4446064.htm#pp4446064https://forum.vgd.ru/post/169/140482/p4447315.htm#pp4447315Яндекс "Поиск по архивам" в ТГ.Как Яндекс научился распознавать, что написано в рукописных архивах: статья на Хабре о технологиях распознавания рукописного текста и в комментариях - ответы на некоторые вопросы. Инструкция как открыть все дело, а не только одну найденную страницу от ozerskayaВ помощь желающим скачать изображение на локальный компьютер расширения для браузера от okolobaxa
Новости проекта 09.06.2023 Яндекс.Архивы добавили на сервис материалы ГАИО, загрузка и распознавание еще продолжаются, в общей сложности будет более 700 тыс. сканов по всем описям ф. 50 (включая особо ценные). 28.07.2023 Добавили Архивное управление Администрации городского округа Балашиха Московской области - Фондов 1 Дел 116 Оцифровано дел 114 Документов 55 323 31.10.2023 Первые итоги осени - Мы добавили на сервис “Епархиальные ведомости” и другие издания Русской Православной Церкви — около 77 тысяч выпусков или 3,5 млн сканов.
- Также наш сервис пополнился материалами Государственного архива Астраханской области — в общей сложности около 1,5 млн сканов.
- В разделе ЦГА Москвы добавилось более 600 дел, отсканированных архивом с июня по сентябрь.
- В общей сложности на 376 дел пополнилась коллекция материалов ОГАОО (Оренбургская область).
- 150 новых дел прислали наши партнеры из Государственного архива Иркутской области.
09.11.2023 ОГАОО прислал еще более 400 отсканированных дел с метрическими книгами! 14.11.2023 У нас появилось около 6 тысяч новых дел фонда 229 «Московская духовная академия». 21.11.2023 У нас снова пополнение! Теперь пользователям «Поиска по архивам» доступны материалы из Муниципального архива Уссурийска — около 140 дел с метрическими книгами из церквей города и близлежащих сёл. 24.11.2023 Добавили 50 новых дел архива Иркутской области (ГАИО), Ф. 50 Иркутская духовная консистория источник29.11.2023 Выложили материалы Ф. 392 оп. 1 Оренбургского архива "Книги записи родившихся, бракосочетавшихся, разведшихся и умерших евреев по городу Оренбургу" (75 дел) 06.12.2023 К юбилею "Вечерней Москвы" выложили на сервис полный архив газеты за 100 лет (разумеется, распознанный и с возможностью поиска) источник11.12.2023 Оренбургский архив продолжает радовать - с начала декабря прислали сканы более 400 новых дел. источник15.12.2023 Главархив Москвы передал в "Поиск по архивам" почти 1000 дел, отсканированных еще в октябре. Все уже выложены на сервис и почти все уже распознаны. источник21.12.2023 Выложили МК и записи ЗАГС муниципальных архивов Каширы, Луховиц и Павловского Посада, всего около 200 тыс. сканов источник27.12.2023 Выложили обновление по Оренбургу, документы распознались и появились в результатах поиска. Всего 246 дел. + перезалиты в лучшем качестве Ф. 98 оп. 2 д. 2 источник12.01.2024 Первые обновления января ( источник) 06.02.2024 За прошедшую неделю «Поиск по архивам» пополнили почти 360 новых дел! Это свыше 100 тысяч сканов, поступивших из четырёх регионов страны. ( источник) 25.02.2024 390 дел, отсканированных Главархивом Москвы в январе, загружены на сервис, распознаны, доступны в поиске (еще одно доедет на ближайшей неделе). ( источник) 27.02.2024 Добавлено более 500 дел с метрическими книгами и записями ЗАГС с 1893-го по 1925 год из Государственного архива Приморского края ( источник) 10.03.2024 Коллекцию «Поиска по архивам» пополнили материалы из фондов Государственного архива Вологодской области. На сервисе уже размещено около 800 дел (84,5 тыс. листов) ревизских сказок и других документов Вологодской казенной палаты; подготовка и публикация материалов продолжаются. ( источник) 16.04.2024 Коллекцию «Поиска по архивам» пополнили 92 метрические книги, относящиеся к Камышловскому и Екатеринбургскому уездам Пермской губернии — сейчас это территория Курганской и Свердловской областей, хранившиеся в библиотеке Екатеринбургской духовной семинарии. ( источник) | | Лайк (106) |
KoLenka Питерская я Сообщений: 2349 На сайте с 2021 г. Рейтинг: 12912 | Наверх ##
8 апреля 2024 13:05 Daemon2011 написал: [q] Обратил внимание,[/q]
Я еще вчера обратила внимание, что Вы вставляете не кликабельные скриншоты. Их просто не посмотреть. Не увеличить. Вам в помощь- менеджер загрузки Или кнопка Выбрать файлы. Не обижайтесь. | | |
Михаха Сообщений: 4136 На сайте с 2008 г. Рейтинг: 3841 | Наверх ##
8 апреля 2024 13:09 Daemon2011 написал: [q] Опыт Geni и Familysearch показал, что это ужасная идея.[/q]
Согласен, что выкладывать в общий доступ результаты личного распознавания - плохая идея. А если мне нужно "для себя"? Конкретное село в моих шкурных интересах? Почерк у условного дьяка Кузьмы за 20 лет не менялся, без пользовательской настройки не один ИИ не справится. Особенно, если универсальным алгоритмом обрабатывают и метрики и ЕВ и подшивку "Советского Спорта". | | Лайк (1) |
platonshukin Сообщений: 117 На сайте с 2023 г. Рейтинг: 275 | Наверх ##
8 апреля 2024 13:12 >> Ответ на сообщение пользователя Daemon2011 от 8 апреля 2024 12:29 Всё так, YandexCloud OCR не умеет дореформенный рукописный текст и, насколько я знаю, пока не планирует его добавлять. | | Лайк (2) |
Daemon2011 Сообщений: 725 На сайте с 2011 г. Рейтинг: 582 | Наверх ##
8 апреля 2024 13:35 8 апреля 2024 14:13 Михаха написал: [q] Согласен, что выкладывать в общий доступ результаты личного распознавания - плохая идея. А если мне нужно "для себя"? Конкретное село в моих шкурных интересах? Почерк у условного дьяка Кузьмы за 20 лет не менялся, без пользовательской настройки не один ИИ не справится. Особенно, если универсальным алгоритмом обрабатывают и метрики и ЕВ и подшивку "Советского Спорта".[/q]
Затачивать модель под каждое село очень затратно: обучение подразумевает многократный пропуск всего обучающего набора (тысячи или десятки/сотни тысяч снимков) через нейросеть, что занимает часы/сутки, а иногда даже недели, в зависимости от оборудования. В этом основная черта производительности нейросетей: очень долго обучаются и очень быстро работают. Можно даже посчитать. Вот тут есть внешние расценки Яндекса на машинное обучение: https://yandex.cloud/ru/docs/datasphere/pricing - если предположить, что обучающий набор реально обработать за 24 часа на 1 видеокарте (цена аренды 0,0864 руб/сек), то выйдет 0,0864*60*60*24=7500 рублей за 1 обучение. Но на деле требуется гораздо больше видеокарт для того, чтобы уложиться в 24 часа, так что я бы умножал цену, минимум, на 10. Т.е. подстроиться под 100 почерков 100 писарей 100 приходов в 1 губернии - это уже целое состояние  Да и затея странная: наш мозг универсален и, после привыкания, хорошо справляется и с печатными буквами, и с рукописными, и со скорописью, и с вязью, а значит реально создать такой ИИ, который тоже будет справляться с самыми разными почерками. | | Лайк (4) |
Daemon2011 Сообщений: 725 На сайте с 2011 г. Рейтинг: 582 | Наверх ##
8 апреля 2024 13:36 platonshukin написал: [q] >> Ответ на сообщение пользователя Daemon2011 от 8 апреля 2024 12:29
Всё так, YandexCloud OCR не умеет дореформенный рукописный текст и, насколько я знаю, пока не планирует его добавлять.[/q]
Жаль, спасибо за ответ! | | |
dobby Минск, Беларусь Сообщений: 5240 На сайте с 2013 г. Рейтинг: 4922 | Наверх ##
8 апреля 2024 14:08 Михаха написал: [q] А если мне нужно "для себя"? Конкретное село в моих шкурных интересах? Почерк у условного дьяка Кузьмы за 20 лет не менялся, без пользовательской настройки не один ИИ не справится.[/q]
Пока что проще и несравнимо качественнее будет нанять расшифровщика, который расшифрует нужное Вам село. Медленнее, чем ИИ ) Но вряд ли дороже. --- Мой дневник
Нет неинтересных родословных - есть недоисследованные | | |
Михаха Сообщений: 4136 На сайте с 2008 г. Рейтинг: 3841 | Наверх ##
8 апреля 2024 14:12 dobby Daemon2011И помечтать нельзя. | | |
Offnames Санкт-Петербург Сообщений: 392 На сайте с 2018 г. Рейтинг: 255 | Наверх ##
8 апреля 2024 21:09 tirael написал: [q] Уже давно задумывался над вопросом, как Яндексу монетизировать вложения в Яндекс-Архив[/q]
сделать его доступным пользователям плюса | | |
7_kolen_predkov ДиВанное заМКАДье Сообщений: 1032 На сайте с 2021 г. Рейтинг: 3417
| Наверх ##
9 апреля 2024 17:04 Со странички ВК проекта [q] Наводим порядок в архивах: в инструментах нашего сервиса появились метки
Отличная новость для тех, кто любит структурировать информацию. Теперь избранные документы можно рассортировать при помощи меток.
Название категории вы придумываете сами, так что никаких ограничений по тематикам нет — разбирайте материалы в «Избранном» как вам удобно. Отделяйте собственные генеалогические исследования от просто любопытных архивных записей. Разложите по полочкам разные темы: политику, спорт и культуру. Рассортируйте ревизские сказки, метрические книги и периодические издания. Присваивайте каждой категории свой цвет, чтобы ваш архив стал не только более организованным, но и ярким.
Фильтровать документы в «Избранном» можно и по одной, и сразу по нескольким меткам: например, одновременно запрашивая категории «спорт» и «культура». Или, наоборот, исключая из поиска материалы этих групп.
Кроме того, метки позволят вам сразу видеть документы, с которыми вы уже работали, так как они высвечиваются не только в вашем «Избранном», но и при общем поиске по сайту. А новые документы вы сможете добавлять сразу в конкретную категорию, так что постоянно перебирать материалы не придется.
Пробуйте нашу новую функцию и делитесь своими впечатлениями в комментариях.[/q] | | Лайк (13) |
oztech Санкт-Петербург Сообщений: 637 На сайте с 2005 г. Рейтинг: 407
| Наверх ##
11 апреля 2024 19:40 Уважаемый platonshukin, а также все коллеги, кто разбирается в технической стороне работы сайтов - и ЯА в частности! Вот я открываю найденную в ЯА книгу и начинаю ее листать. Первое, с чего начинается просмотр, это подбор нужного увеличения. Несколько кликов мышкой или поворотов колесиком - и все настроено, можно читать. Дальше перемещаюсь на следующую страницу, при этом настройки увеличения сбиваются, и нужно снова регулировать масштаб. А есть ли возможность сохранять настройки? Скажем, такую настройку, как удаление с экрана поля расшифровки текста, программисты ЯА предусмотрели, и она не сбивается при переходе на новую страницу, так, может и с масштабом можно решить аналогичным способом? --- С уважением,
Григорий Шпекторов | | Лайк (16) |
|