Загрузите GEDCOM-файл на ВГД   [х]
Всероссийское Генеалогическое Древо
На сайте ВГД собираются люди, увлеченные генеалогией, историей, геральдикой и т.д. Здесь вы найдете собеседников, экспертов, умелых помощников в поисках предков и родственников. Вам подскажут где искать документы о павших в боях и пропавших без вести, в какой архив обратиться при исследовании родословной своей семьи, помогут определить по старой фотографии принадлежность к воинским частям, ведомствам и чину. ВГД - поиск людей в прошлом, настоящем и будущем!
Вниз ⇊

ПОИСК ПО ИНДЕКСИРОВАННЫМ ДОКУМЕНТАМ. ОПЫТ ТЕСТИРОВАНИЯ

поиск по новой базе Генотек

← Назад    Вперед →Страницы: ← Назад 1 2 * 3 4 5 6 7 8 9 10 Вперед →
Модератор: Cathycat
Cathycat
Модератор раздела
Семейный архивариус

Cathycat

Москва
Сообщений: 299
На сайте с 2009 г.
Рейтинг: 208
>> Ответ на сообщение пользователя xbox от 23 марта 2022 11:14
Еще добавлю, что озвученные вами объемы поиска очень похожи (ИМХО) на коммерческий поиск. За идеальные условия для коммерческого поиска нужно платить, если они есть. Или искать вручную. За что нам и платят клиенты.

---
Ищу - Антонов Ювеналий Евпсихиевич ( Тамб. губ, Темн.уезд+Краснослободск), Скрябин Иоасаф (Тула+Воронеж.губ), Королёвы (Моск,Тульск губ.), Хелиус (Лифляндия, СПб/Моск губ.), Бабицыны (Уршель\Судогда, Владим.губ), Григорьевы (Смол.губ.-Духовщина,+Москва), Филимоновы (Тульск. губ, Алекс.уезд+Москва)
xbox

Сообщений: 1043
На сайте с 2020 г.
Рейтинг: 2176

Cathycat написал:
[q]
>>Вы хотите от стороннего сервиса идеальную базу с идеальным поиском. Сферического коня в вакууме. Такую базу даже фондодержатель ЦГАМ за все эти годы не смог создать.
[/q]
Я полагал, что эта тема создана для того, чтобы собирать пожелания к Генотеку и обсуждать то, что хотелось бы доработать и улучшить.
Если основная задача этой темы написать, что все и так хорошо и не приставайте к разработчику, то обсуждать здесь больше нечего.

Когда я какие-то предложения здесь пишу, я точно знаю, что это полезно и, как программист знаю, что это может быть реализовано.
К тому же конкретное предложение с фильтрацией по номерам реализуется на порядок легче, чем уже готовый поиск по названиям.
Замена уже работающего фильтра по названием на фильтр по номерам - это замена нескольких существующих строчек кода на аналогичные.
Добавление фильтра по номерам с сохранением фильтра по названиям сложнее, но сложность относительно невысокая.
Сложно сделать первую фильтрацию, а поправить/расширить рабочий фильтр гораздо проще.
А если сравнивать сложность реализации распознавания рукописных метрик и сложность доработки фильтра, то соотношение примерно такое же как первый полет в космос и замена тормозных колодок на автомобиле.

То, что фондодержатель (ЦГАМ) не смог создать, это вопросу к нему и ровняться на это не стоит.
Я такую базу поиска дел ЦГАМ создал в другом виде. Дела можно искать по абсолютно любым запросам и любым комбинациям запросов.
Если хотите, можете искать по 10 несвязанным словам. Хотите ищите одновременно по плюс-словам, и минус-словам. Можно искать и по названиям фондов/описей/дел и по номерам, и по годам и по диапазонам лет и по диапазонам номеров описей/фондов/дел итп.
Публикуется здесь: https://forum.vgd.ru/post/462/129726/

И в заключение добавлю. Я уже неоднократно писал в разных местах, что то, что сделал Геонтек в части индексирования метрических книг - это фантастика. Я продолжаю придерживаться этого мнения и очень благодарен Генотеку. Даже в текущем виде - это революционное событие в генеалогии. Любые мои пожелания по доработке не относятся к критике Генотека, а публикуются с целью обратить внимание разработчиков на возможные пути развития.
Лайк (4)
Cathycat
Модератор раздела
Семейный архивариус

Cathycat

Москва
Сообщений: 299
На сайте с 2009 г.
Рейтинг: 208

xbox написал:
[q]


Я полагал, что эта тема создана для того, чтобы собирать пожелания к Генотеку и обсуждать то, что хотелось бы доработать и улучшить.
Если основная задача этой темы написать, что все и так хорошо и не приставайте к разработчику, то обсуждать здесь больше нечего.

[/q]


Я не сотрудник Генотека, обычный пользователь. Эта тема - моя личная тема с обсуждением опыта работы сервиса в существующих условиях. В первых сообщениях указан адрес телеграм-чата Генотека, он открыт для всех. Сюда разработчики не заходят. Я состою в том чате, новости оттуда переношу сюда, некоторые пожелания и вопросы переношу туда. Я не программист совершенно. Если вы, из своего опыта, знаете, что и как можно реализовать - приходите в чат Генотека. Там есть, с кем обсудить конкретику. В чате обращайтесь к Александру Ракитько, это директор по продукту.
---
Ищу - Антонов Ювеналий Евпсихиевич ( Тамб. губ, Темн.уезд+Краснослободск), Скрябин Иоасаф (Тула+Воронеж.губ), Королёвы (Моск,Тульск губ.), Хелиус (Лифляндия, СПб/Моск губ.), Бабицыны (Уршель\Судогда, Владим.губ), Григорьевы (Смол.губ.-Духовщина,+Москва), Филимоновы (Тульск. губ, Алекс.уезд+Москва)
Лайк (1)
gbyudby

gbyudby

Москва
Сообщений: 1758
На сайте с 2020 г.
Рейтинг: 948

Cathycat написал:
[q]
Кстати, а зачем вам фильтровать ф203 по описям? Не могу себе представить такой необходимости. Там же все дела вперемешку, абсолютно без логики внесены. Частично соблюдена хронология, есть деление по сорокам, и все. Ну разве что вы описи эти знаете наизусть). Но таких людей, полагаю, немного.
[/q]


к примеру, меня интересует диапазон дат по 1862-й, как Москва так и губерния
из выпадающего списка совпадений по фамилии хотелось бы увидеть именно совпадения по ф.203 оп.745, которая как раз и охватывает интересующий меня период

логика описей заключается в географии и хронологии
если ищется человек в первой половине 19 века в Москве и Губернии - это ф.203 оп.745
если интересует однозначно Губерния с 1870 и выше - это оп.780

что же касается самого проекта Генотек - еще раз повторюсь, проект шикарный, вне всяких сомнений
лично я просто высказал "хотелку", я не программист и не знаю и знать не хочу, насколько это сложно сделать

если сложно - значит этим не будут заниматься
а если совсем просто и внимания не обратили (не успели) - может что-то подправят

Лайк (3)
gbyudby

gbyudby

Москва
Сообщений: 1758
На сайте с 2020 г.
Рейтинг: 948
Коллеги, похоже было обновление базы

на ту же тему - обнаружил 5 новых записей
Лайк (2)
xbox

Сообщений: 1043
На сайте с 2020 г.
Рейтинг: 2176

gbyudby написал:
[q]
Коллеги, похоже было обновление базы
на ту же тему - обнаружил 5 новых записей
[/q]
Скорее всего обновления распознавания не было, а то, что Вы видите связано с изменением алгоритма текстового поиска, который пытается предугадать ошибки.

Поясню на примере. Фамилию в примере заменил, поставил вымышленную. Главное здесь в окончаниях.
Количество результатов по запросам с разными окончаниями две недели назад.

БылинскИЙ - 3 результата
Былинск - 8337 результата
БылинскАЯ - 2884 результата
БылинскИЕ - 3 результата
БылинскИМ - 17 результата
БылинскОГО - 3 результата
БылинскУЮ - 5 результата
БылинскИХ - 18 результата

По сути это один и тот же запрос, но результаты разные. Как минимум запрос без окончания "Былинск" должен был выдавать всё, что есть. Но выдавал не все.
Сейчас, если вводить все эти запросы, то почти по всем количество результатов одинаковое. Это говорит о том, что подкрутили именно поисковую фильтрацию. Если бы просто распознали некоторое количество новых дел, то количество результатов все равно бы осталось различным в зависимости от окончания.

Кроме окончания учитываются еще возможные ошибки в середине слова. Дубнев и Руднев, к примеру - по первой букве. Их тоже могли подкрутить и это может влиять на незультат поиска.

То, что при тюнинге не учли, - возможное окончание АГО вместо ОГО.
Сейчас проверил на одной фамилии (в примере другая фамилия)
БылинскОГО - 2479 результатов.
БылинскАГО - 3641 результатов.

Хотя в метрических книгах часто писали именно с окончанием АГО, а не ОГО.
И в моем примере, если поправить алгоритм, количество результатов по двум запросам должно быть одинаковое и, скорее всего, количество уникальных записей в объединенном запросе после исправления будет больше, чем 3641шт.
Лайк (3)
gbyudby

gbyudby

Москва
Сообщений: 1758
На сайте с 2020 г.
Рейтинг: 948
интересно следующее...

одна фамилия реально есть дважды в 203-745-345 и один раз в 203-745-357

несколько раз проводил поиск и-так-и-сяк-и-наперекосяк ))
и система упорно находит только одну запись в 203-745-357

при этом оба дела были оцифрованы в конце 2020 года, первый транш так сказать...
Лайк (1)
Cathycat
Модератор раздела
Семейный архивариус

Cathycat

Москва
Сообщений: 299
На сайте с 2009 г.
Рейтинг: 208
>> Ответ на сообщение пользователя xbox от 25 марта 2022 14:37

Предполагаю, вы правы. Разработчики писали, что продолжают совершенствовать алгоритм поиска.


---
Ищу - Антонов Ювеналий Евпсихиевич ( Тамб. губ, Темн.уезд+Краснослободск), Скрябин Иоасаф (Тула+Воронеж.губ), Королёвы (Моск,Тульск губ.), Хелиус (Лифляндия, СПб/Моск губ.), Бабицыны (Уршель\Судогда, Владим.губ), Григорьевы (Смол.губ.-Духовщина,+Москва), Филимоновы (Тульск. губ, Алекс.уезд+Москва)
Cathycat
Модератор раздела
Семейный архивариус

Cathycat

Москва
Сообщений: 299
На сайте с 2009 г.
Рейтинг: 208

gbyudby написал:
[q]
интересно следующее...

одна фамилия реально есть дважды в 203-745-345 и один раз в 203-745-357

несколько раз проводил поиск и-так-и-сяк-и-наперекосяк ))
и система упорно находит только одну запись в 203-745-357

при этом оба дела были оцифрованы в конце 2020 года, первый транш так сказать...
[/q]


У меня тоже есть такой пример, даже еще более странный. Запись о переходе из лютеранства в православие. Фамилия семьи встречается в поиске много раз (уникальная, так что более 10 раз - это уже часто)))). Книга, в которой имеется запись, тоже из первого транша. Запись вполне разборчивая, у меня она давно имеется. Но алгоритм, как ни изощряйся, ее не видит. Вообще. Планирую проверить парочку первых попавшихся записей из той МК. Если не найдутся, может значить, что вся книга не попала в индексацию. Напишу разработчикам.


---
Ищу - Антонов Ювеналий Евпсихиевич ( Тамб. губ, Темн.уезд+Краснослободск), Скрябин Иоасаф (Тула+Воронеж.губ), Королёвы (Моск,Тульск губ.), Хелиус (Лифляндия, СПб/Моск губ.), Бабицыны (Уршель\Судогда, Владим.губ), Григорьевы (Смол.губ.-Духовщина,+Москва), Филимоновы (Тульск. губ, Алекс.уезд+Москва)
Лайк (2)
gbyudby

gbyudby

Москва
Сообщений: 1758
На сайте с 2020 г.
Рейтинг: 948
интересно, а насколько трудозатратно для разработчиков опубликовать список дел, которые вошли в систему ?

тогда заинтересованные лица могли бы сопоставить результаты поиска системой по конкретной совокупности дел с теми данными, которые были найдены ранее ручным поиском по той же совокупности

возможно это послужит отладке нейросети))
← Назад    Вперед →Страницы: ← Назад 1 2 * 3 4 5 6 7 8 9 10 Вперед →
Модератор: Cathycat
Генеалогический форум » Дневники участников » Дневники участников » Дневник Cathycat » Архивы » ПОИСК ПО ИНДЕКСИРОВАННЫМ ДОКУМЕНТАМ. ОПЫТ ТЕСТИРОВАНИЯ [тема №131087]
Вверх ⇈