Indexing-Индексирование
интернет проект по оцифровке микрофильмов
YulitaНа перекрестке трех веков  Киев Сообщений: 3378 На сайте с 2003 г. Рейтинг: 1787 | Наверх ##
22 января 2009 20:47 Paulina, конечно есть --- Юлия, КиевБляхер, Бурштейн, Гречаные, Дзюман, Замула, Иващенко, Ка(в)уровы, Каменецкие, Лабыш, Сорочан
Мой дневник | | |
YulitaНа перекрестке трех веков  Киев Сообщений: 3378 На сайте с 2003 г. Рейтинг: 1787 | Наверх ##
22 января 2009 20:49 Paulina, не думаю, что люди, никогда не видевшие, что такое метрическая книга, смогут что-то там разобрать, а тем более правильно прочитать, что там написано, поэтому я точно никого из знакомых (кроме тех, что работают в архивах), привлекать не буду. --- Юлия, КиевБляхер, Бурштейн, Гречаные, Дзюман, Замула, Иващенко, Ка(в)уровы, Каменецкие, Лабыш, Сорочан
Мой дневник | | |
Mich_Glitch | Наверх ##
22 января 2009 21:07 Yulita написал: [q] Paulina, не думаю, что люди, никогда не видевшие, что такое метрическая книга, смогут что-то там разобрать, а тем более правильно прочитать, что там написано[/q]
Аминь. | | |
Mich_Glitch | Наверх ##
22 января 2009 21:15 Paulina написал: [q] Я с недавнего времени делаю там арбитраж (сравниваю параллельную работу двух индексеров) и просто вижу некоторые типичные проблемы, которые могут возникать при расшифровке. [/q]
Я вычитываю сотни страниц метрических книг, написанных одним почерком. Список встречающихся фамилий уже достаточно выверен. Имена из Святцев и персонализированные варианты написания их дьячком - отскакивают от зубов. И тем не менее почти на каждой странице происходят заминки. Проект индексирования по-моему имеет серьезную методологическую ошибку: необходимо предусмотреть и упростить порядок выдачей батчей по индивидуальным запросам (по названию населенного пункта, прихода, или по архивной номенклатуре). Если обработкой информации будут заниматься люди знакомые с предметом, то это ускорит процесс и повысит точность ввода. | | |
GenForsch Не скажу. :) Сообщений: 694 На сайте с 2005 г. Рейтинг: 138
| Наверх ##
22 января 2009 23:32 Не согласен. Все здесь присутствующие, будучи начинающими, когда-то впервые увидели метрическую книгу. И разобрались....И читают теперь легко. --- Грузинские лютеране | | |
GenForsch Не скажу. :) Сообщений: 694 На сайте с 2005 г. Рейтинг: 138
| Наверх ##
22 января 2009 23:35 22 января 2009 23:37 Paulina написал: [q] [/q]
[q] Вы сами регистрировались и учились или кто-то помог?[/q]
Регистрировался сам и учился, в помощь была только аннотация с сайта. [q] Есть какие-нибудь вопросы или трудности?[/q] Вопрос есть. Когда разрешат выбирать нужную лично мне местность? [q] А то у меня проблемы с этим. У меня, наверное, завышенные требования к индексерам и я не могу предлагать делать эту работу тем, кто не знаком хорошо с метрическими книгами тогдашней Малороссии середины 19 века[/q]
Что ж, к концу пятилетки,глядишь и закончите Киев индексировать --- Грузинские лютеране | | |
Mich_Glitch | Наверх ##
22 января 2009 23:46 GenForsch написал: [q] Не согласен. Все здесь присутствующие, будучи начинающими, когда-то впервые увидели метрическую книгу. И разобрались....И читают теперь легко.[/q]
Тоже правильно. | | |
GenForsch Не скажу. :) Сообщений: 694 На сайте с 2005 г. Рейтинг: 138
| Наверх ##
22 января 2009 23:51 Я работал последнее время с немецкими данными, с готическим шрифтом. Те же самые проблемы. Если пастором был в ближайшие 5 лет один человек, и почерк его распознан, то можно хоть все 5 лет читать в один день. Проблема есть, в слишком большой разнице написания одних и тех же букв и разными стилями готики. Но, не боги горшки обжигают... --- Грузинские лютеране | | |
YulitaНа перекрестке трех веков  Киев Сообщений: 3378 На сайте с 2003 г. Рейтинг: 1787 | Наверх ##
23 января 2009 0:00 GenForsch, так ведь вопрос не в том, чтобы научиться читать потом, а в том, чтобы эти самые люди, которые первый раз увидят эту метрику, сейчас это смогли сделать. Именно потому, что я до сих пор помню свою первую реакцию на метрическую книгу , попытки хоть что-нибудь понять и количество ошибок в именах-фамилиях, которые я допустила, пока хорошо не вникла в это дело, я и не горю желанием привлекать совсем "нулевых" людей к этому проекту. Боюсь, что даже при наличии таковых, их энтузиазм пропадет после первого же батча :(
Paulina, я хотела спросить, а почему при загрузке и отправке полностью заполненного батча всегда высвечивается 30-40%? Что это значит? --- Юлия, КиевБляхер, Бурштейн, Гречаные, Дзюман, Замула, Иващенко, Ка(в)уровы, Каменецкие, Лабыш, Сорочан
Мой дневник | | |
Mich_Glitch | Наверх ##
23 января 2009 6:07 Yulita написал: [q] я и не горю желанием привлекать совсем "нулевых" людей к этому проекту. [/q] Yulita, тот редкий случай, когда я не согласен с Вами. Если у человека пропадет энтузиазм после первого батча, то действительно, ценность его "нулевая". Если же он останется, то после десятка-другого страниц превратится во вполне закаленного бойца. Давайте посмотрим на дело с другой стороны и попытаемся оценить примерный объем работ. Итак. На сегодня имеем 582 микрофильма с метрическими книгами по Киевской губернии с 1715 по 1919 гг.Или, учитывая, что каждый фильм содержит примерно 1000 кадров, или 2000 страниц, около миллиона с лишним страниц. (Предположим, 1164000 страниц.) На каждой странице встречается в среднем по 15 персоналий. То есть имеем свыше 15 миллионов единиц ввода. (Скажем, 17460000 персоналий.) Каждый человек в среднем встречается в метрических книгах 7 раз. Цифра лично моя. Так сказать, экспериментальная. Считаем вместе: 1) Рождение. 2) Брак. 3) Смерть. 4) Дети. 5) Опционально восприемник, поручитель, свидетель. Еще раз повторю, цифра взята из моих наблюдений и является усредненной. Что-то между двух записей (рождение-смерть) для умерших младенчиков и цифирью для супер-чемпионов, типа моего прадеда, Трофима Кассианова Дзюбенко, поминаемого под сотню раз. Итого имеем около двух с половиной миллионов человек. Для нас же важны единицы ввода. Примем цифру в 15 миллионов. Как я понял, делается дубль-чек, т.е. один батч вводится дважды, а то и трижды. Отсюда предполагаемый мною ответ на Ваш вопрос: Yulita написал: [q] а почему при загрузке и отправке полностью заполненного батча всегда высвечивается 30-40%?[/q]
Т.е. полагаю, что по второму проходу (для второго человека, обрабатывающего тот же самый батч) процент вырастет до 60-80. Если человеку попадется дважды работанный батч, то возможно высветится 100%. (Повторюсь, это моя гипотеза. Самостоятельная попытка дать ответ на поставленный Вами вопрос.) А потом еще производится сверка. Итого в грубом приближении имеем 30-50 миллионов строк ввода. Я редко ввожу в день более 100 персоналий. Но возьмем 100 строк ввода в день, как среднюю производительность. Значит работа оценивается в 300-500 тысяч человеко-дней. Как недавно говорила уважаемая Gontar, в проекте уже участвуют около 50 человек. Пусть с тех пор их стало 100. Если им хватит терпения на работу без выходных в течении почти 10 лет, то при самых оптимистичных прогнозах, проект закончат через 3000 дней. Для того, чтобы закончить проект за год - нужно 1000 считчиков. Это не математика даже, а арифметика. Думаю, что вряд ли цифра вовлеченных в киевский проект превысит 150-200 эпизодически работающих добровольцев. Т.е. закончат его лет через пять. Поэтому каждая пара рук на счету. Согласен, что хорошо, если бы к рукам прилагалась голова. | | |
|