ПОИСК ПО ИНДЕКСИРОВАННЫМ ДОКУМЕНТАМ. ОПЫТ ТЕСТИРОВАНИЯ
поиск по новой базе Генотек
gbyudby Москва Сообщений: 1762 На сайте с 2020 г. Рейтинг: 949 | Наверх ##
23 марта 2022 23:13 Коллеги, похоже было обновление базы
на ту же тему - обнаружил 5 новых записей | | Лайк (2) |
| xbox Сообщений: 1044 На сайте с 2020 г. Рейтинг: 2184
| Наверх ##
25 марта 2022 14:37 25 марта 2022 16:23 gbyudby написал: [q] Коллеги, похоже было обновление базы на ту же тему - обнаружил 5 новых записей[/q] Скорее всего обновления распознавания не было, а то, что Вы видите связано с изменением алгоритма текстового поиска, который пытается предугадать ошибки.Поясню на примере. Фамилию в примере заменил, поставил вымышленную. Главное здесь в окончаниях. Количество результатов по запросам с разными окончаниями две недели назад. БылинскИЙ - 3 результата Былинск - 8337 результата БылинскАЯ - 2884 результата БылинскИЕ - 3 результата БылинскИМ - 17 результата БылинскОГО - 3 результата БылинскУЮ - 5 результата БылинскИХ - 18 результата По сути это один и тот же запрос, но результаты разные. Как минимум запрос без окончания "Былинск" должен был выдавать всё, что есть. Но выдавал не все. Сейчас, если вводить все эти запросы, то почти по всем количество результатов одинаковое. Это говорит о том, что подкрутили именно поисковую фильтрацию. Если бы просто распознали некоторое количество новых дел, то количество результатов все равно бы осталось различным в зависимости от окончания. Кроме окончания учитываются еще возможные ошибки в середине слова. Дубнев и Руднев, к примеру - по первой букве. Их тоже могли подкрутить и это может влиять на незультат поиска. То, что при тюнинге не учли, - возможное окончание АГО вместо ОГО.Сейчас проверил на одной фамилии (в примере другая фамилия) БылинскОГО - 2479 результатов. БылинскАГО - 3641 результатов. Хотя в метрических книгах часто писали именно с окончанием АГО, а не ОГО.И в моем примере, если поправить алгоритм, количество результатов по двум запросам должно быть одинаковое и, скорее всего, количество уникальных записей в объединенном запросе после исправления будет больше, чем 3641шт. | | Лайк (3) |
gbyudby Москва Сообщений: 1762 На сайте с 2020 г. Рейтинг: 949 | Наверх ##
30 марта 2022 16:54 интересно следующее...
одна фамилия реально есть дважды в 203-745-345 и один раз в 203-745-357
несколько раз проводил поиск и-так-и-сяк-и-наперекосяк )) и система упорно находит только одну запись в 203-745-357
при этом оба дела были оцифрованы в конце 2020 года, первый транш так сказать... | | Лайк (1) |
CathycatМодератор раздела Семейный архивариус  Москва Сообщений: 299 На сайте с 2009 г. Рейтинг: 208 | Наверх ##
31 марта 2022 6:41 >> Ответ на сообщение пользователя xbox от 25 марта 2022 14:37 Предполагаю, вы правы. Разработчики писали, что продолжают совершенствовать алгоритм поиска. --- Ищу - Антонов Ювеналий Евпсихиевич ( Тамб. губ, Темн.уезд+Краснослободск), Скрябин Иоасаф (Тула+Воронеж.губ), Королёвы (Моск,Тульск губ.), Хелиус (Лифляндия, СПб/Моск губ.), Бабицыны (Уршель\Судогда, Владим.губ), Григорьевы (Смол.губ.-Духовщина,+Москва), Филимоновы (Тульск. губ, Алекс.уезд+Москва) | | |
CathycatМодератор раздела Семейный архивариус  Москва Сообщений: 299 На сайте с 2009 г. Рейтинг: 208 | Наверх ##
31 марта 2022 6:45 gbyudby написал: [q] интересно следующее...
одна фамилия реально есть дважды в 203-745-345 и один раз в 203-745-357
несколько раз проводил поиск и-так-и-сяк-и-наперекосяк )) и система упорно находит только одну запись в 203-745-357
при этом оба дела были оцифрованы в конце 2020 года, первый транш так сказать...[/q]
У меня тоже есть такой пример, даже еще более странный. Запись о переходе из лютеранства в православие. Фамилия семьи встречается в поиске много раз (уникальная, так что более 10 раз - это уже часто)))). Книга, в которой имеется запись, тоже из первого транша. Запись вполне разборчивая, у меня она давно имеется. Но алгоритм, как ни изощряйся, ее не видит. Вообще. Планирую проверить парочку первых попавшихся записей из той МК. Если не найдутся, может значить, что вся книга не попала в индексацию. Напишу разработчикам. --- Ищу - Антонов Ювеналий Евпсихиевич ( Тамб. губ, Темн.уезд+Краснослободск), Скрябин Иоасаф (Тула+Воронеж.губ), Королёвы (Моск,Тульск губ.), Хелиус (Лифляндия, СПб/Моск губ.), Бабицыны (Уршель\Судогда, Владим.губ), Григорьевы (Смол.губ.-Духовщина,+Москва), Филимоновы (Тульск. губ, Алекс.уезд+Москва) | | Лайк (2) |
gbyudby Москва Сообщений: 1762 На сайте с 2020 г. Рейтинг: 949 | Наверх ##
31 марта 2022 13:11 31 марта 2022 16:14 интересно, а насколько трудозатратно для разработчиков опубликовать список дел, которые вошли в систему ?
тогда заинтересованные лица могли бы сопоставить результаты поиска системой по конкретной совокупности дел с теми данными, которые были найдены ранее ручным поиском по той же совокупности
возможно это послужит отладке нейросети)) | | |
| komsomolka г.Орёл Сообщений: 533 На сайте с 2016 г. Рейтинг: 346
| Наверх ##
1 апреля 2022 12:27 Добрый день! У меня по работе с Генотеком возникли сложности. При загрузке в поисковик сайта получаю результатом в пять с лишним сотен.Всё просмотреть невозможно.Как отметить просмотренное и позднее вернуться к дальнейшему просмотру? Если бы не указанный нюанс,то всё остальное в проекте меня устраивает.Очень своевременная разработка,нуждающаяся,безусловно,в корректировке. --- Ищу сведения о Щедровых из Москвы,Ульяновска,Украины;Казанцевых из Москвы,Воткинска;Царьковых из Пензенской обл. | | Лайк (1) |
gbyudby Москва Сообщений: 1762 На сайте с 2020 г. Рейтинг: 949 | Наверх ##
1 апреля 2022 19:34 500 записей - особых проблем не вижу делал так "проматывал" всю ленту вниз, чтобы "ухватить конец" открывал вордовский файл и потихоньку поднимаясь вверх копипастом "откладывал" в ворд то, что заинтересовало...
вот когда 5000 записей... | | Лайк (1) |
Poick1969 Москва Сообщений: 519 На сайте с 2019 г. Рейтинг: 338 | Наверх ##
2 апреля 2022 7:21 Мне не хватает возможности отобрать дела по фильтру "Без ошибок". По моему запросу было найдено 500 результатов, а фактически, после просмотра оказалось, что их 48 (если без ошибок). Понимаю, что потенциально за каждым результатом "с ошибкой" может содержаться нужная метрика, но все-таки, хотелось бы иметь возможность отобрать дела точно по моему запросу, как это сделано на сайте https://hryc.by Конечно можно воспользоваться быстрым поиском (ctrl + F), но для этого нужно развернуть все записи полностью, то есть нажать на все "Еще".
 --- Зейфист, Рыков, Волонцевич, Лемтюгов, Копшанинов - Рославль
Волонцевич - Духовщина
Мартынюк - Седлецкая- Бельский- Костеневичи- Б. Дубровица
Парфенов - Вяземский- с. Шуйское
Ильин - Волоколамский- Дубосеково
Перин - Вязьма, Воронеж, СПБ
Корабельников - Козлов
Смирнов - Ольхи, Тамбов | | Лайк (2) |
gbyudby Москва Сообщений: 1762 На сайте с 2020 г. Рейтинг: 949 | Наверх ##
2 апреля 2022 12:31 Poick1969 спасибо, напомнили про интересный ресурс ))
что касается генотек=ЦГАМ, про ошибки подумалось так:
ошибки в прочтении нейросетью = в оригинале Чушкин (одна из проверенных мною фамилий), сеть прочитала = Пушкин; вот такие ошибки как раз не стоит исключать, наверное... | | Лайк (2) |
|