Всероссийское Генеалогическое Древо
На сайте ВГД собираются люди, увлеченные генеалогией, историей, геральдикой и т.д. Здесь вы найдете собеседников, экспертов, умелых помощников в поисках предков и родственников. Вам подскажут где искать документы о павших в боях и пропавших без вести, в какой архив обратиться при исследовании родословной своей семьи, помогут определить по старой фотографии принадлежность к воинским частям, ведомствам и чину. ВГД - поиск людей в прошлом, настоящем и будущем!
Вниз ⇊

ПОИСК ПО ИНДЕКСИРОВАННЫМ ДОКУМЕНТАМ. ОПЫТ ТЕСТИРОВАНИЯ

поиск по новой базе Генотек

← Назад    Вперед →Страницы:  1 2 3 4 5 6 7 8 9 10 Вперед →
Модератор: Cathycat
Cathycat
Модератор раздела
Семейный архивариус

Cathycat

Москва
Сообщений: 282
На сайте с 2009 г.
Рейтинг: 182
ПОИСК ПО ИНДЕКСИРОВАННЫМ ДОКУМЕНТАМ. ОПЫТ ТЕСТИРОВАНИЯ сервиса ГЕНОТЕК


После нескольких дней активного тестирования сервиса для меня кое-что прояснилось, поделюсь и здесь своими выводами, опытом и вопросами.



ОБЩАЯ ИНФОРМАЦИЯ

  • К проиндексированным документам относятся метрические книги, выложенные в открытом доступе на сайте ЦГАМ (т.е. Москва и Московская губерния), период - 1700е-1920е. У сервиса есть договоренность с ЦГАМ, так что никуда информация из базы не исчезнет, можно не бояться 🙂
  • Не раз уже встречала упреки, что текст в выборке малочитаемый, и всякое подобное. Это НОРМАЛЬНО. Индексирование (распознавание) проводили не люди вручную, а нейросеть. Как получилось распознать то или иное слово, то вы и видите в поисковой выборке.
  • Степень "читабельности" зависит, в первую очередь, от качества исходного текста. Если в записи хороший/нормальный ровный почерк, расшифровка получается дословная, без ошибок.
  • Объем проиндексированной информации не равен объему метрических книг, выложенных в настоящий момент на сайте ЦГАМ. Не индексировались лютеранские и прочие неправославные МК, плюс индексирование было проведено некоторое время назад. По личному опыту могу судить на примере отслеживаемой мной церкви Иерусалимской на Бойнях. На сайте ЦГАМ сейчас выложено 4 МК: за 1913 год - две, за 1916 - одна, за 1918 - одна. Записи из МК за 1918 г в выборку не попадают. Выбрать эту МК в фильтре тоже нельзя. На сайте ЦГАМ эта МК появилась не позже декабря 2021 г. Остальные выложены давно, в них можно искать.



ЧТО МОЖНО НАЙТИ?

  • Найти можно любые записи с упоминанием человека по ФИО, месту рождения/приписки, чину, и т.д. Записи о рождении, венчании, отпевании. В том числе можно обнаружить воспреемников.
  • Поскольку некоторые МК выложены на сайте ЦГАМ в 2х экземплярах, вы увидите обе записи. Просматривать необходимо обе, одна может оказаться более подробной. В моем случае в записи о смерти только в одной МК было указано, где проживал человек на момент смерти.
  • Найденная запись видна в выборке (несколько строк текста), указаны церковь, где зафиксировано событие, год ведения МК, и дана ссылка на сайт ЦГАМ, с указанием электронного номера страницы МК. Номер страницы придется вводить на сайте ЦГАМ вручную, когда откроется МК.




КАК ИСКАТЬ. НЮАНСЫ И НЕДОРАБОТКИ


  • Нужно учитывать, что МК написаны в дореформенной орфографии, с использованием несуществующих ныне букв. Букву ЕР можно в поисковой строке заменить на Ъ, остальные несуществующие буквы передаются в выборке по-разному, в зависимости от почерка в записи.
  • В поисковую строку можно забивать ФИО, ИО, фамилию полностью. Поисковые алгоритмы покажут и сходные записи тоже, включая склонение по падежам.
    Если поиск по ФИО ничего не дает (или не дает нужного результата), можно использовать самые немыслимые комбинации. Имя + чин, фамилия + населенный пункт, отчество + семейный статус - на что хватит вашей фантазии. Можно вводить все эти слова не полностью, ограничиться 4-5 знаками. Менее 4х знаков - либо поиск не срабатывает вовсе, либо выдает более 10000 записей.
  • Не забывайте, что фамилии указывались далеко не у всех (даже если имелись), и среди воспреемников-крестьян намного чаще встретится гипотетический Иван Иванов (отчество), чем Иван Иванов Григорьев. У замужней женщины в записи о рождении ребенка фамилия также не будет указана, обнаружится только "Иван Иванов Григорьев и законная жена его, Дарья Семенова".
  • Имена в МК встречаются как в каноническом написании (Георгий), так и в разговорном/просторечном (Егор). Особо тщательно проверяйте иностранные имена и фамилии, при записи они иногда трансформировались довольно сильно.
  • После заполнения поисковой строки и появления определенной выборки можно использовать фильтры. По используемому фонду, названию церкви, нужному периоду и т.д. Так выборка сокращается с 10000 до 200-400 записей, которые вполне реально быстро просмотреть (особенно, ориентируясь на год, и сразу пропуская слишком ранние, допустим).



НЕДОРАБОТКИ/НЮАНСЫ, которые я обнаружила в процессе поиска.


  • плохо ищется имя АННА. Забиваешь его в поисковую строку, но в выборке выходит только АНАНИЙ, или ЛННА, ННАЯ и т.д.
  • в некоторых записях указанная в ссылке электронная страница МК ошибочна. Как правило, речь идет о записях о смерти. И сбой вызван тем, что в МК вклеены некие дополнительные документы (справки и тд, сбивающие нумерацию). Прежде, чем отчаиваться, пролистайте назад 2-3 страницы, и скорее всего, нужная запись обнаружится.


НЕКОТОРЫЕ ВОПРОСЫ Я ЗАДАЛА РАЗРАБОТЧИКАМ, ПО МЕРЕ ПОЯВЛЕНИЯ ОТВЕТОВ ПОСТ ДОПОЛНЮ
Дополняю ответами директора по продукту Genotek Александра Ракитько

  • на сайте ЦГАМ пополнения в МК происходят каждый месяц. Каким периодом выкладки сейчас ограничивается база (выше я описала свой опыт, хотя на странице написано - дата обновления 23.02.2022), при дальнейших обновлениях на сервисе будет ли указываться этот период?

    Сейчас в поиске участвуют только метрические книги, которые были опубликованы на ЦГАМ до ноября 2021. В будущем, при обновлениях планируем указывать, что добавилось. Дата обновления так же будет актуализироваться.
  • будут ли учитываться замечания пользователей при исправлении багов (как с именем АННА, например)?

    Да, конечно. Любая обратная связь либо приятна, либо полезна 😊
  • будет ли база и дальше оставаться доступной для всех желающих, или в планах сделать к ней платный доступ? (скажу за себя - меня такой вариант не смущает, потому что сервис уникален и крайне полезен)

    Мы планируем оставлять поиск бесплатным.
  • некоторые записи сделаны практически нечитаемым почерком, иногда текст почти угас. Такие записи индексировались, хоть какая-то часть слов попала в базу, или они целиком пропускались?

    Они не пропускались. Алгоритм пытался их индексировать.





В заключение еще раз повторю: не забывайте, в базе нет ничего, помимо инфы из МК, УЖЕ выложенных на сайте ЦГАМ. Если вы, используя все мыслимые и немыслимые комбинации слов, ничего не можете найти, допустите, что нужная вам информация в тех МК, которые пока не выложены на сайте.
А создателей сервиса благодарю за уникальный проект, для многих этот поиск станет (и уже стал) возможностью совершить прорыв в расследовании, распутать давние загадки и исключить тупики.


genoteka.jpg
---
Ищу - Антонов Ювеналий Евпсихиевич ( Тамб. губ, Темн.уезд+Краснослободск), Скрябин Иоасаф (Тула+Воронеж.губ), Королёвы (Моск,Тульск губ.), Хелиус (Лифляндия, СПб/Моск губ.), Бабицыны (Уршель\Судогда, Владим.губ), Григорьевы (Смол.губ.-Духовщина,+Москва), Филимоновы (Тульск. губ, Алекс.уезд+Москва)
Лайк (10)
Kolob-07

Санкт-Петербург
Сообщений: 5013
На сайте с 2008 г.
Рейтинг: 3689

Cathycat написал:
[q]
НЕДОРАБОТКИ
[/q]

1. Нет возможности в фильтре выставить уезд или сорок
2. Сложно выбрать установку фильтра по названию или церкви, т.к. надо выбирать из огромного предлагаемого столбца при ошибке задания фильтра ничего не находится, что естественно.
3. Нет сортировки найденных результатов по уезду (сороку), дате.
Лайк (3)
Cathycat
Модератор раздела
Семейный архивариус

Cathycat

Москва
Сообщений: 282
На сайте с 2009 г.
Рейтинг: 182

Kolob-07 написал:
[q]
1. Нет возможности в фильтре выставить уезд или сорок
2. Сложно выбрать установку фильтра по названию или церкви, т.к. надо выбирать из огромного предлагаемого столбца при ошибке задания фильтра ничего не находится, что естественно.
3. Нет сортировки найденных результатов по уезду (сороку), дате.
[/q]


Вы не совсем правы.
При выдаче информация связана напрямую с исходником, поэтому сортировка возможна лишь та, которая УЖЕ существует на сайте ЦГАМ.

1. МК хранятся в разных фондах, консисторские экземпляры - в фонде консистории (ф203), приходские экземпляры - в фондах церквей/сороков. Соответственно, можно выбирать в фильтре нужный уезд/сорок, и если МК оттуда уже выложены на сайт, и среди них есть нужная вам МК, выборка покажет запись оттуда.

filtr-soroka.jpg filtr-uezdy.jpg


2. При поиске в фильтре нужной церкви можно не выбирать из выпадающего списка, а ввести часть названия вручную. Выйдут все варианты названий, под которыми церковь фигурирует в описях.
filtr-cerkvi.jpg


3. Нет сортировки результатов по уезду, дате и т.д. поскольку содержимое не преобразовано в единый массив связного текста. Тексты МК распознаны, для того, чтобы можно было найти в них отдельные записи по ключевым словам, которые вы задаете в поиске. Но это не единая сводная таблица, в которой можно сортировать контент по столбцам. В этом отличие баз, индексированных вручную, от баз, созданных при индексации текста нейросетью.
---
Ищу - Антонов Ювеналий Евпсихиевич ( Тамб. губ, Темн.уезд+Краснослободск), Скрябин Иоасаф (Тула+Воронеж.губ), Королёвы (Моск,Тульск губ.), Хелиус (Лифляндия, СПб/Моск губ.), Бабицыны (Уршель\Судогда, Владим.губ), Григорьевы (Смол.губ.-Духовщина,+Москва), Филимоновы (Тульск. губ, Алекс.уезд+Москва)
Kolob-07

Санкт-Петербург
Сообщений: 5013
На сайте с 2008 г.
Рейтинг: 3689

Cathycat написал:
[q]
сортировка возможна лишь та, которая УЖЕ существует на сайте ЦГАМ.
[/q]

Практически в каждом названии дела указан сорок или уезд, это и хотелось бы выставить в фильтре, а не метить все дела.. Не важно, в каком фонде или описи находится дело. Уверен, что это достаточно легко сделать, и к анализу самого текста отношения не имеет.
Выставлять в фильтре одно дело - это уже совсем частный случай.
Лайк (2)
Kerrel

Сообщений: 484
На сайте с 2018 г.
Рейтинг: 664
Было бы удобно, если бы с выходом обновления новые записи как-то помечались, чтобы новое легко выделялось из общей массы
---
Ищу родственников Тарасовых (R-YP682), Озеровых (E-CTS2001) из села Осиновые Гаи, Кирсановского у., Тамбовской г.

Ищу информацию об однодворце Прокофие Тарасове (г.р. ~1702-1714)
Лайк (2)
Cathycat
Модератор раздела
Семейный архивариус

Cathycat

Москва
Сообщений: 282
На сайте с 2009 г.
Рейтинг: 182

Kolob-07 написал:
[q]
Практически в каждом названии дела указан сорок или уезд, это и хотелось бы выставить в фильтре, а не метить все дела.. Не важно, в каком фонде или описи находится дело. Уверен, что это достаточно легко сделать, и к анализу самого текста отношения не имеет.
[/q]

Как постоянный пользователь раздела оцифрованных МК в ЦГАМ, могу сказать что в текстовом названии дела почти никогда не фигурирует название сорока. Уезды - да, кое-где указаны. Поскольку ЦГАМ при составлении своих фондов и описей руководствовался собственным удобством , а не удобством пользователей, то там имеется три категории фондов с православными МК: фонд 203 - консистория, фонды сороков, фонды отдельных церквей. МК нужной церкви может оказаться в описях любого из этих фондов. Причем вторые и третьи экземпляры (приходские и черновые) все окажутся в разных фондах. Не знаю, может для сотрудников ЦГАМ и имеется какая-то внутренняя база, где все церкви по алфавиту, и т.д. Но даже на компах в чит.зале во внутренней базе ЦГАМ для посетителей нет раздела для поиска церквей по названию/уезду/сороку. Листаем вручную описи. Или онлайн, тк они оцифрованы, но не индексированы.

Таким образом, при отсутствии исходных списков составлять новые для фильтров - дело нудное и небыстрое.

Вопросы вы можете задать в телеграм-канале сервиса лично директору Александру Ракитько. Сейчас для общения создан телеграм-канал. Адрес - t.me/genotek_genealogy
---
Ищу - Антонов Ювеналий Евпсихиевич ( Тамб. губ, Темн.уезд+Краснослободск), Скрябин Иоасаф (Тула+Воронеж.губ), Королёвы (Моск,Тульск губ.), Хелиус (Лифляндия, СПб/Моск губ.), Бабицыны (Уршель\Судогда, Владим.губ), Григорьевы (Смол.губ.-Духовщина,+Москва), Филимоновы (Тульск. губ, Алекс.уезд+Москва)
Cathycat
Модератор раздела
Семейный архивариус

Cathycat

Москва
Сообщений: 282
На сайте с 2009 г.
Рейтинг: 182

Kerrel написал:
[q]
Было бы удобно, если бы с выходом обновления новые записи как-то помечались, чтобы новое легко выделялось из общей массы
[/q]


По словам директора, по мере выхода обновлений будет указываться дата обновлений. Насчет пометок новых записей - с этим предложением можете обратиться в телеграм-канале сервиса лично к директору Александру Ракитько. Сейчас для общения создан телеграм-канал. Адрес - t.me/genotek_genealogy

Но предполагаю, что помечать новые (хронологически) записи особого смысла не имеет, поскольку идет отладка системы, исправляются те баги, на которые указывали пользователи ранее. И нужная вам запись может обнаружиться в "старой" загрузке, а раньше не показывалась по причине багов.

---
Ищу - Антонов Ювеналий Евпсихиевич ( Тамб. губ, Темн.уезд+Краснослободск), Скрябин Иоасаф (Тула+Воронеж.губ), Королёвы (Моск,Тульск губ.), Хелиус (Лифляндия, СПб/Моск губ.), Бабицыны (Уршель\Судогда, Владим.губ), Григорьевы (Смол.губ.-Духовщина,+Москва), Филимоновы (Тульск. губ, Алекс.уезд+Москва)
Rolavke

Rolavke

Сообщений: 524
На сайте с 2009 г.
Рейтинг: 1464
Для поиска конкретно по фамилии, по одному слову.
Было бы очень-очень удобно, если бы при сортировке результатов поиска полное совпадение с комбинацией заданных символов шло в начале выдаваемого списка.

Лайк (1)
Cathycat
Модератор раздела
Семейный архивариус

Cathycat

Москва
Сообщений: 282
На сайте с 2009 г.
Рейтинг: 182

Rolavke написал:
[q]
Для поиска конкретно по фамилии, по одному слову.
Было бы очень-очень удобно, если бы при сортировке результатов поиска полное совпадение с комбинацией заданных символов шло в начале выдаваемого списка.

[/q]

да, удобно. Предполагаю, что алгоритм выдачи не сортирует найденные записи, а выдает их в том порядке, в котором они хранятся в базе. Выше я дала телеграм-канал директора, там идет активное обсуждение сервиса. Присоединяйтесь.
t.me/genotek_genealogy

---
Ищу - Антонов Ювеналий Евпсихиевич ( Тамб. губ, Темн.уезд+Краснослободск), Скрябин Иоасаф (Тула+Воронеж.губ), Королёвы (Моск,Тульск губ.), Хелиус (Лифляндия, СПб/Моск губ.), Бабицыны (Уршель\Судогда, Владим.губ), Григорьевы (Смол.губ.-Духовщина,+Москва), Филимоновы (Тульск. губ, Алекс.уезд+Москва)
G_Spasskaya

G_Spasskaya

Москва
Сообщений: 7391
На сайте с 2015 г.
Рейтинг: 4019
Заметила, что часто почему-то дважды отображаются записи (при том, что оригинальная запись одна - фонд-опись-дело). Когда надо пролистать сотню - не очень страшно, но когда поиск выдает несколько сотен, причем листать их нельзя, эта задвоенность очень усложняет просмотр.
---
Спасские (Тульская губ. и Серпухов);
Козыревы, Смирновы и Захаровы (Костромская губ., Москва и Петербург);
Козловские и Дубенские (Тульская губ.); Странские, Корсаковы (Серпухов), Жиляй.
← Назад    Вперед →Страницы:  1 2 3 4 5 6 7 8 9 10 Вперед →
Модератор: Cathycat
Генеалогический форум » Дневники участников » Дневники участников » Дневник Cathycat » Архивы » ПОИСК ПО ИНДЕКСИРОВАННЫМ ДОКУМЕНТАМ. ОПЫТ ТЕСТИРОВАНИЯ [тема №131087]
Вверх ⇈