Загрузите GEDCOM-файл на ВГД   [х]
Всероссийское Генеалогическое Древо

Генеалогический форум ВГД

На сайте ВГД собираются люди, увлеченные генеалогией, историей, геральдикой и т.д. Здесь вы найдете собеседников, экспертов, умелых помощников в поисках предков и родственников. Вам подскажут где искать документы о павших в боях и пропавших без вести, в какой архив обратиться при исследовании родословной своей семьи, помогут определить по старой фотографии принадлежность к воинским частям, ведомствам и чину. ВГД - поиск людей в прошлом, настоящем и будущем!

  platonshukin (Платон Щукин)
Профиль
Отзывы
Сообщения
Геометки
Друзья
В друзьях
Древа
GEDCOM

platonshukin

Платон Щукин

Создайте аккаунт или войдите, чтобы отправить личное сообщение этому пользователю и увидеть его полные контактные данные

Последние 30 сообщений platonshukin

Тема: Яндекс - «Поиск по архивам»
16.08.2024, 21:02


idylle написал:
[q]

Alla-zalivina написал:
[q]

Интересно, а Ргиа и РГАДА есть у Яндекса -архива в планах?
[/q]


Я так понимаю, тут вопрос по-другому ставится - есть ли у РГИА и РГАДА в планах Яндекс-архива. И похоже, что ответ НЕТ.
Ведь РГАДА уже был здесь...
[/q]


Всё так - мы рады любым архивам (а также библиотекам, музеям и т.д.), которые готовы разместить у нас полезные с точки зрения генеалогии материалы. С региональными архивами постепенно получается налаживать отношения. С федеральными - пока нет.




Тема: Яндекс - «Поиск по архивам»
2.08.2024, 15:53


Alla-zalivina написал:
[q]
Любчинова Ольга, задала вопрос именно Яндекс архиву и хотелось бы услышать их ответ .
Если по фамилии Яндекс ищет, почему бы по фонду , номеру дела и селу поиска нет?
[/q]


На нашем сервисе можно искать как по тексту документов, так и по
- номеру (фонда, описи, дела) в каталоге - пример
- заголовку (фонда, описи, дела) в каталоге - пример
- заголовку дела среди всех материалов сервиса или в конкретном архиве - пример

Тема: Яндекс - «Поиск по архивам»
2.08.2024, 15:49


Alla-zalivina написал:
[q]


Так и не ответили, на самый заглавный вопрос. Какие дела конкретно будут выложены от Омского архива?
[/q]


Конкретный список дел для публикации определяет архив; изначально планировалось, что в общей сложности дел будет 1600, но мы продолжаем общение с архивом, чтобы эту цифру увеличить. Рассчитываем, что в конце концов у нас появятся все дела с метрическими книгами, которые архив уже отсканировал (их около 2300), как минимум, из Ф. 16, но может быть, и из других фондов с МК тоже. Про документы других типов (не метрики) пока договоренностей нет.

Тема: Яндекс - «Поиск по архивам»
30.07.2024, 12:55


leh100 написал:
[q]
Вопрос. Можно ли передать в Яндекс купленные сканы Архивов. Мне например они уже не понадобятся- а людям была бы польза. Если так будут делать другие люди тоже- база будет расти быстрее и в тех архивах, которые жмоты и не хотят бесплатно отдать сканы для людей. Я же официально купил - значит работа оплачена.
[/q]



Спасибо за предложение; но tirael прав - не совсем понятно, что делать, если архив, материалы которого мы таким образом выложим, придет с вопросами/претензиями в Яндекс. Это не то чтобы совсем тупиковая история, но ее нужно хорошо юридически продумать. Пока не осилили.



Тема: Яндекс - «Поиск по архивам»
30.07.2024, 12:53


Alla-zalivina написал:
[q]
platonshukin Здравствуйте. А можно узнать, какие конкретно дела будут загружены от Омского архива?
Есть ли список?
И второй вопрос. Очень часто выскакивает сообщение - Вы не робот. И как от него избавиться?

.Прикладываю скрины.
[/q]


На втором и третьем скрине есть ссылочка на форму обратной связи - пожалуйста, напишите в нее. Так команда анти-робота (это сервис на уровне всего Яндекса, не специфически "наше", Поиска по архивам, изобретение) сможет получить и проверить нужные ей подробности.



Тема: Яндекс - «Поиск по архивам»
29.07.2024, 5:59


kotopes89 написал:
[q]
подскажите а неверно написаную или ненужную метку в избраном нельзя удалить или редактировать? она будет там вечно такая кривая висеть?
[/q]


Пока не сделали, хотя функция очевидная. Потерпите, пожалуйста.


Тема: Яндекс - «Поиск по архивам»
25.07.2024, 13:07

>> Ответ на сообщение пользователя xbox от 9 июля 2024 2:04

Этот баг починили, спасибо, что обратили внимание. Теперь надо заняться полнотой по описям ЦГАМ (чтобы у нас как минимум было всё, что на сайте cgamos.ru) + распознаванием рукописных.

Тема: Яндекс - «Поиск по архивам»
18.07.2024, 10:57

Мы про такое уже почти не пишем в новостях - вроде как в порядке вещей - но у нас еще +1021 дела из ЦГА Москвы, 99.4 тыс листов

https://telegra.ph/Glavarhiv-Moskvy-2024-07-18-07-18 (надеюсь, нигде в номерах не ошибся)

Тема: Яндекс - «Поиск по архивам»
9.07.2024, 9:22

>> Ответ на сообщение пользователя xbox от 9 июля 2024 2:04
Это баг. Знаем, починим.

Тема: Яндекс - «Поиск по архивам»
8.07.2024, 9:31


Lifehack написал:
[q]
И ещё один вопрос.
[/q]

> Если взять за 100% все когда-либо написанные в Москве метрические книги, какой примерно процент из них хранится в ЦГАМ (и есть ли другие архивы?)
Это скорее вопрос к архивам (думаю, что и там может не быть точного ответа)

> Из тех, что попали в ЦИАМ, какой примерно процент доступен онлайн?
Тоже, наверное, лучше спросить в ЦИАМ. У нас на сервисе по некоторым фондам/описям (где мы завели в систему все заголовки) посчитан процент оцифрованного - напр., для Ф. 203 оп. 745 это 51% (см. диаграмму справа вверху). Но, к сожалению, не могу гарантировать, что мы завели заголовки по всем фондам и описям (даже скажу: это пока точно не так), поэтому в целом по архиву % оцифрованности, указанный на сайте (67% МК, 30% РС, 37% ИВ), завышен.

> Из тех, что доступны онлайн, какой примерно процент распознан и проиндексирован Яндексом?
Близко к 100% - у нас обычно недоступны материалы, оцифрованные архивом в последний месяц, напр., прямо сейчас еще нет дел, оцифрованных в июне (но появятся в ближайшие пару недель). Всё остальное архив нам передал.




Тема: Яндекс - «Поиск по архивам»
7.07.2024, 21:21


xbox написал:
[q]
Яндекс заявил об пополнении дел из ЦГА Москвы 02/07/2024 в количестве 689шт и выложил список номеров. (см. скриншот)

Примерно 670 номеров в заявлении Яндекса относится к фонду 737. Это сразу показалось странным, т.к. реально архив опубликовал только 203 дела из этого фонда. А Яндекс пока не был замечен в опережении архива по публикации дел.

После проверки оказалось, что реально большая часть номеров в списке обновлений Яндекса относится к фонду 592, а не 737.


[/q]


Прошу прощения - человеческий фактор. Два раза написали "Ф. 737 Оп. 1", в первом случае, конечно, нужно было "Ф. 592 Оп. 1". Исправил. Спасибо за наблюдательность.



Тема: Яндекс - «Поиск по архивам»
11.06.2024, 11:50

>> Ответ на сообщение пользователя platonshukin от 11 мая 2024 15:56

Всем доброго дня! За другими делами немного отложил историю по ссылке выше (напомню, там разбирались, почему отличается количество сканов в делах ЦГАМ на сайте "Поиска по архивам" и на сайте cgamos.ru), но теперь вернулся и честно сравнил количество сканов (а не просто указанное в НСА количество листов).

На самом деле, по делам, опубликованным на сайте ЦГАМ, отличий оказалось немного, по сути я просто убрал вторую половину списка (дела, по которым сканы есть только в "Поиске по архивам" => данные по количеству листов брались из НСА) + скрыл листы со списками дел, где нумерация идет не подряд (их слишком много и это, кажется, часто нормальная ситуация).

Итак, вот обновленная табличка на ~500 строк https://docs.google.com/spread...uFAS8/edit

Столбцы слева до "Разобрались" закрыты от редактирования; в столбце "Комментарии" и правее может писать любой желающий. Так что если хотите помочь навести порядок - у нас или на сайте cgamos.ru - добро пожаловать!



Тема: Яндекс - «Поиск по архивам»
10.06.2024, 20:14


von_nachtigall написал:
[q]
теперь вижу, что распознавания текста вообще никакого нет... есть ли планы прикрутить немецкую языковую модель и распознавание куррентшрифта?
[/q]


Решили, что совсем убрать у таких документов расшифровку будет честнее, чем пытаться что-то угадать (впрочем, в основном это относилось к старотатарскому арабской графикой).

В ближайших планах других языков нет; "на сдачу" их не добавить, в любом случае нужно заниматься качеством.




Тема: Яндекс - «Поиск по архивам»
10.06.2024, 20:12


djaha написал:
[q]


У вас в справочник по СПб за 1849 год попало 300 листов справочной книги петербургского купечества неизвестно за какой год, скорее всего около 1900-го.
[/q]


Да, уже кто-то пожаловался в саппорт (возможно, вы).

В таком виде справочник отсканирован в РГБ - см. здесь https://viewer.rusneb.ru/ru/00...eme=white. Задали вопрос коллегам, как на самом деле должно быть.




Тема: Яндекс - «Поиск по архивам»
8.06.2024, 11:15


romanvm написал:
[q]
не планируется ли распознавание ведомостей справок о судимости?
[/q]


В Яндексе не принято рассказывать про планы 101.gif Но этот вид справочников выглядит вполне логичным кандидатом на добавление к нам в сервис. И насколько я знаю, они неплохо оцифрованы в РГБ.



Тема: Яндекс - «Поиск по архивам»
8.06.2024, 11:14

>> Ответ на сообщение пользователя sbrest от 7 июня 2024 23:48

Скорее всего так. Если подходящих результатов много, поиск не всегда отдает их в одинаковом порядке. Кроме того (не про конкретный случай говорю, а вообще) пользователям часто кажется, что спрашивают они "точно так же" - а на самом деле запрос немного, но отличается - и выдача при этом может отличаться заметно.

Тема: Яндекс - «Поиск по архивам»
8.06.2024, 11:12


sbrest написал:
[q]
Интересно, а текст распознается единожды или по мере обучения ии перераспознается?
Если первое, то все ошибки навсегда?
Если второе, есть ли даты обновления распознавания документов, например как на скрине выше, заходишь в опись или в дело, а там указано - распознано такого то числа, или распознавание обновлено ....
[/q]


Текст распознается при загрузке скана на сервис (точнее, вскоре после этого - примерно в течение суток, поэтому в новостях иногда пишем "все файлы загружены и скоро = завтра будут распознаны"). Иногда потом в расшифровку вносятся точечные правки (по обращениям пользователей или потому что мы сами увидели проблему) или можем перераспознать конкретный скан (напр., как сделали с описями ЦГАМ Ф.50).

Кроме того, мы всё время работаем над дообучением модели распознавания, когда получается модель, которая распознает в среднем лучше (по метрикам) - мы переобходим всю базу документов и заново всё расшифровываем. Такое за время существования сервиса случалось, кажется, дважды, ждите новостей. Но тут важно заметить, что при решении выкатывать новую модель или нет мы ориентируемся на среднее качество распознавания - а в конкретном случае может случиться, что правильную расшифровку модель поменяет на неправильную :( Поэтому если вы что-то хорошее нашли - поставьте закладку и метку.



Тема: Яндекс - «Поиск по архивам»
6.06.2024, 19:36


tirael написал:
[q]
Уважаемый platonshukin, а не рассматривал ли "Яндекс - поиск по Архивам" добавление в список распознаваемых источников не только газет, но и адрес-календарей? Это же тоже кладезь генеалогической информации.
[/q]


Отличная идея, надо сделать!

Хотя... кажется, мы уже это сделали 101.gif
https://yandex.ru/archive/catalog/books




Тема: Яндекс - «Поиск по архивам»
29.05.2024, 13:48

>Перевернуть станицу каждый может.
Вы правы, дешевый трюк 101.gif

>Пропали 1284 дела, которые были раньше в каталоге.
>Точнее, как водится, дела пропали, но не пропали.
Всё так. При обновлении счетчиков у некоторых фондов и описей слетел флажок "оцифровано", поэтому они не отображались при проставленной галочке "Оцифрованные документы". Обновили, всё вернулось
Фонд 2125
Ф. 2126 оп. 3

При этом все сканы из этих фондов были доступны в поиске и по прямым ссылкам.

Спасибо за багрепорт, пишите еще 101.gif



Тема: Яндекс - «Поиск по архивам»
28.05.2024, 13:38


tirael написал:
[q]
Уважаемый platonshukin. Работая с МК ЦГАМ обнаружил, что некоторые сканы перевернуты вверх ногами. Возможно ли их перевернуть в нужную ориентацию на сайте Яндекс.Архивы, поскольку нейросеть пока еще, наверное, не умеет распознавать перевернутый текст? Планируется ли сделать в дополнение к кнопкам масштабирования еще и кнопки поворота для таких случаев: https://yandex.ru/archive/cata...27ef4f/144 ? Здесь и далее 8 разворотов идут перевернутые, работать с такими документами невозможно.
[/q]


Спасибо за багрепорт. Перевернуты не сканы, а сами листы в деле (см. нумерацию листов в правом верхнем углу). Указанные изображения перевернул и перезалил; завтра распознаются и будут доступны в поиске (так, кажется, есть пусть и слабое, но подтверждение, что я какое-то отношение к сервису всё же имею 101.gif

Делать кнопку "перевернуть изображение" вряд ли будем. Во-первых, встречается такая ситуация редко, а кнопка будет всегда и у всех пользователей. Во-вторых, текст распознается при загрузке изображения, т.е., от того, что конкретный пользователь нажал на кнопку "перевернуть", текст прочитан не будет.

Лучше пишите багрепорты через форму обратной связи https://yandex.ru/archive/feedback (там есть опция "Скан плохого качества, нечитаемый"), будем исправлять.





Тема: Яндекс - «Поиск по архивам»
27.05.2024, 14:50


Majata написал:
[q]
Добрый день! Есть ли в планах добавить в Поиск по документам архив Курской области?
[/q]


Есть. Осталось, чтобы это появилось в планах архива Курской области 101.gif

Если без шуток: мы пробуем договариваться со всеми региональными архивами, но процесс это сложный. Иногда сотрудничество останавливается на этапе передачи описей - см. саратовский архив :( Но мы не сдаемся.

Тема: Яндекс - «Поиск по архивам»
27.05.2024, 14:49


burlayfo написал:
[q]
Кто в курсе , после загрузки файлов на Яндекс Архиве, искусственный интеллект как быстро обрабатывает эти тексты ? По Оренбургу почти 100 % разместили, а поисковик показывает
на 10.03.2024 по запросу Логачёвка Дергилёв -открывает 21 результат.
на 26.05.2024 г на тот же запрос -выдает 30 сканов на 3-х страницах.

[/q]


Обычно сканы распознаются и добавляются в поиск на следующий день после их появления на сервисе. Если за раз загружено больше 200 тыс сканов - может занять чуть больше. Но сейчас нераспознанных сканов на сервисе нет.

А вы ожидали, что по [Логачёвка Дергилёв] будет больше результатов? Или есть примеры документов, где эти слова есть (именно в расшифрованном тексте), а в результатах поиска их нет? Если такое обнаружится - пожалуйста, напишите в https://ya.ru/archive/feedback , будем разбираться.

На всякий случай напишу очевидное: фамилия и название могли распознаться неправильно; напр., сейчас сходу нашел один результат по запросу [Рергилев] и два - [Бергилев]. Может быть, с этим связано то, что вы не находите ожидаемого.



Тема: Яндекс - «Поиск по архивам»
23.05.2024, 15:57


gbyudby написал:
[q]

platonshukin написал:
[q]

имеете в виду.
[/q]


раньше фонды на странице шли по порядку, теперь - как картинке, вперемешку
как найти ф.50 ? видимо, вручную, когда открываешь любой фонд - в командной строке нет его номера
[/q]


Понял. Простите, обновляем счетчики по всем архивам, при этом временно ломается порядок. Скоро все починится.



Тема: Яндекс - «Поиск по архивам»
23.05.2024, 15:20


gbyudby написал:
[q]

там новый, как это говорят - "баг": с списке фондов все перемешано, в командной строке не вижу никакой логики, чтобы вбить номер фонда вручную
[/q]


Напишите, пожалуйста, в личку - не очень понимаю, что вы имеете в виду.

Тема: Яндекс - «Поиск по архивам»
23.05.2024, 13:57


gbyudby написал:
[q]
platonshukin, а есть ли возможность запустить ИИ в рукописные описи - в частности ЦГАМ Ф.50, практически все в рукописи кроме оп.14
пример как сейчас расшифровывается рукописная страница https://ya.ru/archive/catalog/...942a6c0/10
хотя текст принципиально не хуже, чем в книгах 18 века
я недавно писал в поддержку, но видимо этот сервис настроен на точечную отладку, а здесь проблема с массивом
спасибо ))
п.с.: не знаю как сейчас, но в июне 2021 в НСА архива не было и половины описей указанного фонда
[/q]


Посмотрите, пожалуйста, стало ли лучше?



Тема: Яндекс - «Поиск по архивам»
23.05.2024, 10:43


Наташа СМ написал:
[q]
platonshukin, скажите пожалуйста, а мой вопрос вы специально игнорите или случайно так получилось?
Надеюсь, что случайно) поэтому прошу всё же ответить. Вопрос здесь https://forum.vgd.ru/post/5/140482/p4939613.htm#pp4939613
[/q]


Наташа СМ, чаще всего злого умысла у меня нет confuse.gif . Просто форум - не самый надежный способ обращаться с вопросами и фидбеком, лучше писать в https://yandex.ru/archive/feedback

Конкретно по количеству результатов в "Также найдено": знаем проблему, иногда там действительно показывается число больше, чем реально доступно документов. Будем чинить.



Тема: Яндекс - «Поиск по архивам»
23.05.2024, 10:40


xbox написал:
[q]
Что бы это значило?
[/q]

Баг, уже починили.



Тема: Яндекс - «Поиск по архивам»
16.05.2024, 10:01


von_nachtigall написал:
[q]
Сообще уважаемому platonushkin об одной неприятной особенности мобильной версии поиска. Если после установки фильтров и совершенного поиска в строке поиска снова написать что-то и поискать снова, то все фильтры обнуляются. В полной версии (десктопной) этого нет.
[/q]


Спасибо, записал. Да, должен признать, что в фокусе у нас десктопная версия, мобильная, что называется, "на поддержке". Но явные баги стараемся чинить.



Тема: Яндекс - «Поиск по архивам»
12.05.2024, 15:28


Julzz написал:
[q]
>> Ответ на сообщение пользователя platonshukin от 11 мая 2024 15:56

Я на этой неделе довольно плотно работала с документами Астраханского архива и там тоже не всё в порядке. Во всех делах, которые смотрела, есть дублирующиеся страницы, однажды пять раз подряд шла одна и та же страница. И ладно, если лишнее, можно просто пролистнуть, а если что-то потерялось? Никого не виню, понимаю, что в таком объёме легко запутаться, но в порядок привести всё тоже хочется.
[/q]


По документам Астраханского архива видно, что при их сканировании (а точнее, микрофильмировании) нередко делалось несколько снимков с одного листа, когда были подозрения на проблемы с качеством снимка. Так что там действительно количество сканов часто больше, чем количество листов в деле. Надеюсь, пропуски там встречаются не чаще, чем в среднем (человеческий фактор никто не отменял); но строго говоря, отвечать за это не могу - мы сами не сканируем документы, работаем с тем, что было отсканировано в архиве.




Тема: Яндекс - «Поиск по архивам»
12.05.2024, 15:14


xbox написал:
[q]
>> Ответ на сообщение пользователя platonshukin от 11 мая 2024 15:56

А каким образом вы получили информацию о количестве страниц в делах на сайте архива? Проверил выборочно одно дело с телефона. В таблице указана разница 12 страниц, по факту разницы в количестве нет. 2126-3-71
[/q]


Вот как раз пример того, про что вы выше писали: простого сравнения данных Яндекса с цифрами с сайта ЦГА недостаточно :(

У этого дела на nsa.cgamos.ru указано "39 листов" - но это, видимо, количество непустых/пронумерованных листов (см. тж. лист-заверитель). Если добавить все пустые листы, обложки, лист-заверитель и пр. - получается 51 скан, которые и видим на Яндексе.

На lib-fond.ru, кстати, то же самое - "39 листов" в описании и 51 скан по факту.

Пожалуй, нужно обновить данные и посчитать конкретно количество сканов на сайте cgamos.ru (а не просто взять цифру из описания)... Попробую сделать в ближайшее время.