ПОИСК ПО ИНДЕКСИРОВАННЫМ ДОКУМЕНТАМ. ОПЫТ ТЕСТИРОВАНИЯ
поиск по новой базе Генотек
CathycatМодератор раздела Семейный архивариус  Москва Сообщений: 299 На сайте с 2009 г. Рейтинг: 207 | Наверх ##
19 марта 2022 8:41 G_Spasskaya написал: [q] Заметила, что часто почему-то дважды отображаются записи (при том, что оригинальная запись одна - фонд-опись-дело). .[/q]
да. Один из глюков/багов системы. Причем иногда сдвоенные записи идут подряд. Не представляю причины..... Это тоже передам разработчикам. --- Ищу - Антонов Ювеналий Евпсихиевич ( Тамб. губ, Темн.уезд+Краснослободск), Скрябин Иоасаф (Тула+Воронеж.губ), Королёвы (Моск,Тульск губ.), Хелиус (Лифляндия, СПб/Моск губ.), Бабицыны (Уршель\Судогда, Владим.губ), Григорьевы (Смол.губ.-Духовщина,+Москва), Филимоновы (Тульск. губ, Алекс.уезд+Москва) | | |
CathycatМодератор раздела Семейный архивариус  Москва Сообщений: 299 На сайте с 2009 г. Рейтинг: 207 | Наверх ##
19 марта 2022 9:07 G_Spasskaya написал: [q] Заметила, что часто почему-то дважды отображаются записи .[/q]
Ответили мне очень быстро). Общей такой тенденции с удвоением пока не замечено. Это очевидно, ведь не все записи дублируются. Чтобы понять причину глюка, разработчикам нужны конкретные примеры. Я передам свои, какие вспомню. Если Вы несколько конкретных припомните, тоже передам. По своим - сделаю скрины и пошлю. И ОТЛИЧНАЯ НОВОСТЬ! НОВЫЕ ИНДЕКСИРОВАННЫЕ ЗАПИСИ ДОЛЖНЫ ПОЯВИТЬСЯ УЖЕ НА СЛЕДУЮЩЕЙ НЕДЕЛЕ! Возможно, как предлагали выше, новые записи будут как-то помечены, что они "новые". Такое предложение я тоже передала. --- Ищу - Антонов Ювеналий Евпсихиевич ( Тамб. губ, Темн.уезд+Краснослободск), Скрябин Иоасаф (Тула+Воронеж.губ), Королёвы (Моск,Тульск губ.), Хелиус (Лифляндия, СПб/Моск губ.), Бабицыны (Уршель\Судогда, Владим.губ), Григорьевы (Смол.губ.-Духовщина,+Москва), Филимоновы (Тульск. губ, Алекс.уезд+Москва) | | Лайк (1) |
| Kolob-07 Санкт-Петербург Сообщений: 5229 На сайте с 2008 г. Рейтинг: 3981
| Наверх ##
19 марта 2022 11:14 Cathycat написал: [q] новые записи будут как-то помечены, что они "новые"[/q]
Беда всех поисковиков по базам - в фильтре нет позиции о дате добавления, т.е. нельзя продолжить поиск после последнего просмотра. И чем больше база, тем проблема актуальнее. Метка "новый" ничего не даст, т.к. потом будет еще другой "новый". Опять-таки, без фильтра количество найденных записей уменьшаться не будет. | | Лайк (1) |
CathycatМодератор раздела Семейный архивариус  Москва Сообщений: 299 На сайте с 2009 г. Рейтинг: 207 | Наверх ##
19 марта 2022 13:39 Kolob-07 написал: [q]
Метка "новый" ничего не даст, т.к. потом будет еще другой "новый". Опять-таки, без фильтра количество найденных записей уменьшаться не будет.[/q]
Сейчас разработчики решают, как лучше использовать обозначение "новый". Оставлять ли его возле записи на определенный срок (неделя, две, месяц - до следующего обновления), вносить ли в фильтры возможность выбора среди последних записей. Не забывайте, что проект и база - исключительно частная инициатива, архивы и государство в ней не участвуют. Только позволяют использовать МК для индексации. Плюс - проект новый, и все мы - практически, бета-тестеры. Выявляем "узкие" места, баги, глюки, предлагаем варианты улучшения и дополнения для функционала. Но для меня, как исследователя, появление базы Генотек, пока что, - событие года в генеалогии. Даже в таком виде. --- Ищу - Антонов Ювеналий Евпсихиевич ( Тамб. губ, Темн.уезд+Краснослободск), Скрябин Иоасаф (Тула+Воронеж.губ), Королёвы (Моск,Тульск губ.), Хелиус (Лифляндия, СПб/Моск губ.), Бабицыны (Уршель\Судогда, Владим.губ), Григорьевы (Смол.губ.-Духовщина,+Москва), Филимоновы (Тульск. губ, Алекс.уезд+Москва) | | |
gbyudby Москва Сообщений: 1756 На сайте с 2020 г. Рейтинг: 948 | Наверх ##
22 марта 2022 22:37 проект феерический, бесспорно))
однако было бы еще лучше, если было бы понятно в фильтрах - какой номер описи выбирается; допустим, чтобы можно было отфильтровать в.203 оп.745 ... | | Лайк (2) |
CathycatМодератор раздела Семейный архивариус  Москва Сообщений: 299 На сайте с 2009 г. Рейтинг: 207 | Наверх ##
23 марта 2022 7:58 23 марта 2022 8:00 gbyudby написал: [q] проект феерический, бесспорно))
однако было бы еще лучше, если было бы понятно в фильтрах - какой номер описи выбирается; допустим, чтобы можно было отфильтровать в.203 оп.745 ...[/q]
Описи даны по их описанию. Я не встречала в сервисах по индексации возможностей всесторонней фильтрации. Даже на gryc.by дается фонд - опись - страница описи, выбирать можно только из всего фонда. Выбор по описям теоретически был возможен в Фамилио, но без взаимодействия с архивами мы видим, во что превратился сервис. Не думаю, что сервисам по индексации нужно подменять собой архивы. Особенно, если речь об индексации уникальной - распознаванию рукописного текста. И абсолютно бесплатной для пользователей. Между прочим, возможность поиска церкви по названию (определение всех МК одной церкви во всех описях за все время) отсутствует даже в базе ЦГАМ на компах читального зала. Кстати, а зачем вам фильтровать ф203 по описям? Не могу себе представить такой необходимости. Там же все дела вперемешку, абсолютно без логики внесены. Частично соблюдена хронология, есть деление по сорокам, и все. Ну разве что вы описи эти знаете наизусть). Но таких людей, полагаю, немного. --- Ищу - Антонов Ювеналий Евпсихиевич ( Тамб. губ, Темн.уезд+Краснослободск), Скрябин Иоасаф (Тула+Воронеж.губ), Королёвы (Моск,Тульск губ.), Хелиус (Лифляндия, СПб/Моск губ.), Бабицыны (Уршель\Судогда, Владим.губ), Григорьевы (Смол.губ.-Духовщина,+Москва), Филимоновы (Тульск. губ, Алекс.уезд+Москва) | | |
| xbox Сообщений: 1043 На сайте с 2020 г. Рейтинг: 2174
| Наверх ##
23 марта 2022 11:14 23 марта 2022 14:55 Cathycat написал: [q] Кстати, а зачем вам фильтровать ф203 по описям? Не могу себе представить такой необходимости. Там же все дела вперемешку, абсолютно без логики внесены. Частично соблюдена хронология, есть деление по сорокам, и все. Ну разве что вы описи эти знаете наизусть). Но таких людей, полагаю, немного.[/q]
Фильтрация результатов по номерам фонда/описи/дела - это очень нужная вещь. Фильтровать по названию церкви неудобно. Это связано с тем, что названия не формализованные. Если к примеру взять пять дел, в которых точно есть определенная церковь, то можно условно получить три разных названия церкви, дело, в котором указан только уезд и не указана церковь, и дело, в котором вообще нет описания. Итого из пяти дел в лучшем случае можно выбрать два, если очень долго листать список церквей. Да и сами названия церквей могут быть сродни фамилии "Иванов". Попробуйте поискать по названию Ильинскую церковь или Успенскую, Троицкую, А в этом же примере, если фильтрацию делать по номеру фонда/описи можно сначала выбрать какую-то область поиска, а дальше анализировать результаты именно найденных ключевых слов в распознанном тексте. Привожу пример. Основано на личном опыте. Предположим я исследовал весь Клинский уезд от корки до корки. В этом уезде мне нечего искать, поскольку я все лично просмотрел и вряд ли что-то пропустил. Но я хочу найти искомую фамилию или в других регионах, куда кто-то мог уехать из Клина. Например меня интересует, есть ли кто-то в Москве. Сейчас я это сделать очень сложно. Сейчас в фильтре по фондам отображается 15 названий, которые в узком столбике долго листать и непонятно, что там еще есть, а в списке церквей вообще черт ногу сломит. Например, как Вам название описи "Метрические книги"? А если бы была фильтрация по номерам, то можно было бы выбрать, к примеру фонды 2121-2126 для просмотра результатов по сорокам. После просмотра сороков можно было бы другие фонды/описи искать. Легче просматривать небольшие выдачи результатов, чем листать несколько тысяч за раз. Вы спросили, а зачем фильтровать по описям 203 фонд. Вот этот пример как раз очень показателен. В этом фонде более 10тыс дел с метрическими книгами, исповедками итп (с учетом пока не оцифрованных). Без фильтрации там очень тяжело. Но есть какие-то группы по описям. Если выбрать 780 опись, - то область поиска по Московской губернии будет примерно с 1870 года и позже. Если выбрать 745 опись, то временной диапазон будет до ~1865. Если выбрать 750, 764, 771, 776, 782 и др описи, то это будет только Москва. итп. Возможность сократить область поиска с 10тыс книг до 1тыс книг, путем выбора одной описи - это очень ценный инструмент, который сильно экономит время. | | Лайк (3) |
CathycatМодератор раздела Семейный архивариус  Москва Сообщений: 299 На сайте с 2009 г. Рейтинг: 207 | Наверх ##
23 марта 2022 11:40 >> Ответ на сообщение пользователя xbox от 23 марта 2022 11:14 Не вижу для себя никаких сложностей при существующем порядке вещей. Церкви фильтрую по названию (по части названия, на сайте ЦГАМ они фильтруются точно так же). Есть фильтр по фондам сороков (но и в ЦГАМ в этих фондах не все МК). Есть дополнительный фильтр по годам. Ну и т.д. И это еще надо учесть, что и ЦГАМ далеко не все МК выложил, и сервис не все выложенные обработал. Вы хотите от стороннего сервиса идеальную базу с идеальным поиском. Сферического коня в вакууме. Такую базу даже фондодержатель ЦГАМ за все эти годы не смог создать. Даже для работы в чит.зале. Кстати, и у Family Search с их огромными возможностями (финансовыми и кадровыми) до сих пор большая часть сканов МК не индексирована. Так что скажем спасибо прекрасному сервису, решившему сделать всем нам роскошный подарок, совершенно не по своему профилю. Профиль компании Генотек - расшифровка ДНК. И ни один из крупных игроков на том рынке (MH, FTDNA и тд) ничего похожего сделать не смог и не слышу, чтобы планировал. А в планах и постепенное добавление разных фильтров, и возможная разбивка по страницам, и обозначение новых записей, и реиндексация, и еще много всякого. --- Ищу - Антонов Ювеналий Евпсихиевич ( Тамб. губ, Темн.уезд+Краснослободск), Скрябин Иоасаф (Тула+Воронеж.губ), Королёвы (Моск,Тульск губ.), Хелиус (Лифляндия, СПб/Моск губ.), Бабицыны (Уршель\Судогда, Владим.губ), Григорьевы (Смол.губ.-Духовщина,+Москва), Филимоновы (Тульск. губ, Алекс.уезд+Москва) | | |
CathycatМодератор раздела Семейный архивариус  Москва Сообщений: 299 На сайте с 2009 г. Рейтинг: 207 | Наверх ##
23 марта 2022 11:50 >> Ответ на сообщение пользователя xbox от 23 марта 2022 11:14 Еще добавлю, что озвученные вами объемы поиска очень похожи (ИМХО) на коммерческий поиск. За идеальные условия для коммерческого поиска нужно платить, если они есть. Или искать вручную. За что нам и платят клиенты. --- Ищу - Антонов Ювеналий Евпсихиевич ( Тамб. губ, Темн.уезд+Краснослободск), Скрябин Иоасаф (Тула+Воронеж.губ), Королёвы (Моск,Тульск губ.), Хелиус (Лифляндия, СПб/Моск губ.), Бабицыны (Уршель\Судогда, Владим.губ), Григорьевы (Смол.губ.-Духовщина,+Москва), Филимоновы (Тульск. губ, Алекс.уезд+Москва) | | |
| xbox Сообщений: 1043 На сайте с 2020 г. Рейтинг: 2174
| Наверх ##
23 марта 2022 12:25 Cathycat написал: [q] >>Вы хотите от стороннего сервиса идеальную базу с идеальным поиском. Сферического коня в вакууме. Такую базу даже фондодержатель ЦГАМ за все эти годы не смог создать. [/q]
Я полагал, что эта тема создана для того, чтобы собирать пожелания к Генотеку и обсуждать то, что хотелось бы доработать и улучшить. Если основная задача этой темы написать, что все и так хорошо и не приставайте к разработчику, то обсуждать здесь больше нечего. Когда я какие-то предложения здесь пишу, я точно знаю, что это полезно и, как программист знаю, что это может быть реализовано. К тому же конкретное предложение с фильтрацией по номерам реализуется на порядок легче, чем уже готовый поиск по названиям. Замена уже работающего фильтра по названием на фильтр по номерам - это замена нескольких существующих строчек кода на аналогичные. Добавление фильтра по номерам с сохранением фильтра по названиям сложнее, но сложность относительно невысокая. Сложно сделать первую фильтрацию, а поправить/расширить рабочий фильтр гораздо проще. А если сравнивать сложность реализации распознавания рукописных метрик и сложность доработки фильтра, то соотношение примерно такое же как первый полет в космос и замена тормозных колодок на автомобиле. То, что фондодержатель (ЦГАМ) не смог создать, это вопросу к нему и ровняться на это не стоит. Я такую базу поиска дел ЦГАМ создал в другом виде. Дела можно искать по абсолютно любым запросам и любым комбинациям запросов. Если хотите, можете искать по 10 несвязанным словам. Хотите ищите одновременно по плюс-словам, и минус-словам. Можно искать и по названиям фондов/описей/дел и по номерам, и по годам и по диапазонам лет и по диапазонам номеров описей/фондов/дел итп. Публикуется здесь: https://forum.vgd.ru/post/462/129726/И в заключение добавлю. Я уже неоднократно писал в разных местах, что то, что сделал Геонтек в части индексирования метрических книг - это фантастика. Я продолжаю придерживаться этого мнения и очень благодарен Генотеку. Даже в текущем виде - это революционное событие в генеалогии. Любые мои пожелания по доработке не относятся к критике Генотека, а публикуются с целью обратить внимание разработчиков на возможные пути развития. | | Лайк (4) |
|