Загрузите GEDCOM-файл на ВГД   [х]
Всероссийское Генеалогическое Древо
На сайте ВГД собираются люди, увлеченные генеалогией, историей, геральдикой и т.д. Здесь вы найдете собеседников, экспертов, умелых помощников в поисках предков и родственников. Вам подскажут где искать документы о павших в боях и пропавших без вести, в какой архив обратиться при исследовании родословной своей семьи, помогут определить по старой фотографии принадлежность к воинским частям, ведомствам и чину. ВГД - поиск людей в прошлом, настоящем и будущем!
Вниз ⇊

ПОИСК ПО ИНДЕКСИРОВАННЫМ ДОКУМЕНТАМ. ОПЫТ ТЕСТИРОВАНИЯ

поиск по новой базе Генотек

← Назад    Вперед →Страницы: ← Назад 1 2 3 * 4 5 6 7 8 9 10 Вперед →
Модератор: Cathycat
gbyudby

gbyudby

Москва
Сообщений: 1762
На сайте с 2020 г.
Рейтинг: 949
Коллеги, похоже было обновление базы

на ту же тему - обнаружил 5 новых записей
Лайк (2)
xbox

Сообщений: 1044
На сайте с 2020 г.
Рейтинг: 2184

gbyudby написал:
[q]
Коллеги, похоже было обновление базы
на ту же тему - обнаружил 5 новых записей
[/q]
Скорее всего обновления распознавания не было, а то, что Вы видите связано с изменением алгоритма текстового поиска, который пытается предугадать ошибки.

Поясню на примере. Фамилию в примере заменил, поставил вымышленную. Главное здесь в окончаниях.
Количество результатов по запросам с разными окончаниями две недели назад.

БылинскИЙ - 3 результата
Былинск - 8337 результата
БылинскАЯ - 2884 результата
БылинскИЕ - 3 результата
БылинскИМ - 17 результата
БылинскОГО - 3 результата
БылинскУЮ - 5 результата
БылинскИХ - 18 результата

По сути это один и тот же запрос, но результаты разные. Как минимум запрос без окончания "Былинск" должен был выдавать всё, что есть. Но выдавал не все.
Сейчас, если вводить все эти запросы, то почти по всем количество результатов одинаковое. Это говорит о том, что подкрутили именно поисковую фильтрацию. Если бы просто распознали некоторое количество новых дел, то количество результатов все равно бы осталось различным в зависимости от окончания.

Кроме окончания учитываются еще возможные ошибки в середине слова. Дубнев и Руднев, к примеру - по первой букве. Их тоже могли подкрутить и это может влиять на незультат поиска.

То, что при тюнинге не учли, - возможное окончание АГО вместо ОГО.
Сейчас проверил на одной фамилии (в примере другая фамилия)
БылинскОГО - 2479 результатов.
БылинскАГО - 3641 результатов.

Хотя в метрических книгах часто писали именно с окончанием АГО, а не ОГО.
И в моем примере, если поправить алгоритм, количество результатов по двум запросам должно быть одинаковое и, скорее всего, количество уникальных записей в объединенном запросе после исправления будет больше, чем 3641шт.
Лайк (3)
gbyudby

gbyudby

Москва
Сообщений: 1762
На сайте с 2020 г.
Рейтинг: 949
интересно следующее...

одна фамилия реально есть дважды в 203-745-345 и один раз в 203-745-357

несколько раз проводил поиск и-так-и-сяк-и-наперекосяк ))
и система упорно находит только одну запись в 203-745-357

при этом оба дела были оцифрованы в конце 2020 года, первый транш так сказать...
Лайк (1)
Cathycat
Модератор раздела
Семейный архивариус

Cathycat

Москва
Сообщений: 299
На сайте с 2009 г.
Рейтинг: 208
>> Ответ на сообщение пользователя xbox от 25 марта 2022 14:37

Предполагаю, вы правы. Разработчики писали, что продолжают совершенствовать алгоритм поиска.


---
Ищу - Антонов Ювеналий Евпсихиевич ( Тамб. губ, Темн.уезд+Краснослободск), Скрябин Иоасаф (Тула+Воронеж.губ), Королёвы (Моск,Тульск губ.), Хелиус (Лифляндия, СПб/Моск губ.), Бабицыны (Уршель\Судогда, Владим.губ), Григорьевы (Смол.губ.-Духовщина,+Москва), Филимоновы (Тульск. губ, Алекс.уезд+Москва)
Cathycat
Модератор раздела
Семейный архивариус

Cathycat

Москва
Сообщений: 299
На сайте с 2009 г.
Рейтинг: 208

gbyudby написал:
[q]
интересно следующее...

одна фамилия реально есть дважды в 203-745-345 и один раз в 203-745-357

несколько раз проводил поиск и-так-и-сяк-и-наперекосяк ))
и система упорно находит только одну запись в 203-745-357

при этом оба дела были оцифрованы в конце 2020 года, первый транш так сказать...
[/q]


У меня тоже есть такой пример, даже еще более странный. Запись о переходе из лютеранства в православие. Фамилия семьи встречается в поиске много раз (уникальная, так что более 10 раз - это уже часто)))). Книга, в которой имеется запись, тоже из первого транша. Запись вполне разборчивая, у меня она давно имеется. Но алгоритм, как ни изощряйся, ее не видит. Вообще. Планирую проверить парочку первых попавшихся записей из той МК. Если не найдутся, может значить, что вся книга не попала в индексацию. Напишу разработчикам.


---
Ищу - Антонов Ювеналий Евпсихиевич ( Тамб. губ, Темн.уезд+Краснослободск), Скрябин Иоасаф (Тула+Воронеж.губ), Королёвы (Моск,Тульск губ.), Хелиус (Лифляндия, СПб/Моск губ.), Бабицыны (Уршель\Судогда, Владим.губ), Григорьевы (Смол.губ.-Духовщина,+Москва), Филимоновы (Тульск. губ, Алекс.уезд+Москва)
Лайк (2)
gbyudby

gbyudby

Москва
Сообщений: 1762
На сайте с 2020 г.
Рейтинг: 949
интересно, а насколько трудозатратно для разработчиков опубликовать список дел, которые вошли в систему ?

тогда заинтересованные лица могли бы сопоставить результаты поиска системой по конкретной совокупности дел с теми данными, которые были найдены ранее ручным поиском по той же совокупности

возможно это послужит отладке нейросети))
komsomolka

г.Орёл
Сообщений: 533
На сайте с 2016 г.
Рейтинг: 346
Добрый день!
У меня по работе с Генотеком возникли сложности.
При загрузке в поисковик сайта получаю результатом в пять с лишним сотен.Всё просмотреть невозможно.Как отметить просмотренное и позднее вернуться к дальнейшему просмотру?
Если бы не указанный нюанс,то всё остальное в проекте меня устраивает.Очень своевременная разработка,нуждающаяся,безусловно,в корректировке.
---
Ищу сведения о Щедровых из Москвы,Ульяновска,Украины;Казанцевых из Москвы,Воткинска;Царьковых из Пензенской обл.
Лайк (1)
gbyudby

gbyudby

Москва
Сообщений: 1762
На сайте с 2020 г.
Рейтинг: 949
500 записей - особых проблем не вижу
делал так
"проматывал" всю ленту вниз, чтобы "ухватить конец"
открывал вордовский файл
и потихоньку поднимаясь вверх копипастом "откладывал" в ворд то, что заинтересовало...

вот когда 5000 записей...
Лайк (1)
Poick1969

Poick1969

Москва
Сообщений: 519
На сайте с 2019 г.
Рейтинг: 338
Мне не хватает возможности отобрать дела по фильтру "Без ошибок".

По моему запросу было найдено 500 результатов, а фактически, после просмотра оказалось, что их 48 (если без ошибок).

Понимаю, что потенциально за каждым результатом "с ошибкой" может содержаться нужная метрика, но все-таки, хотелось бы иметь возможность отобрать дела точно по моему запросу, как это сделано на сайте https://hryc.by

Конечно можно воспользоваться быстрым поиском (ctrl + F), но для этого нужно развернуть все записи полностью, то есть нажать на все "Еще".


Прикрепленный файл: 2022-04-02 07-15-58 hryc.by — Яндекс.Браузер.png
---
Зейфист, Рыков, Волонцевич, Лемтюгов, Копшанинов - Рославль
Волонцевич - Духовщина
Мартынюк - Седлецкая- Бельский- Костеневичи- Б. Дубровица
Парфенов - Вяземский- с. Шуйское
Ильин - Волоколамский- Дубосеково
Перин - Вязьма, Воронеж, СПБ
Корабельников - Козлов
Смирнов - Ольхи, Тамбов
Лайк (2)
gbyudby

gbyudby

Москва
Сообщений: 1762
На сайте с 2020 г.
Рейтинг: 949
Poick1969 спасибо, напомнили про интересный ресурс ))

что касается генотек=ЦГАМ, про ошибки подумалось так:

ошибки в прочтении нейросетью = в оригинале Чушкин (одна из проверенных мною фамилий), сеть прочитала = Пушкин; вот такие ошибки как раз не стоит исключать, наверное...
Лайк (2)
← Назад    Вперед →Страницы: ← Назад 1 2 3 * 4 5 6 7 8 9 10 Вперед →
Модератор: Cathycat
Генеалогический форум » Дневники участников » Дневники участников » Дневник Cathycat » Архивы » ПОИСК ПО ИНДЕКСИРОВАННЫМ ДОКУМЕНТАМ. ОПЫТ ТЕСТИРОВАНИЯ [тема №131087]
Вверх ⇈