Indexing-Индексирование
интернет проект по оцифровке микрофильмов
Mich_Glitch | Наверх ##
22 января 2009 21:07 Yulita написал: [q] Paulina, не думаю, что люди, никогда не видевшие, что такое метрическая книга, смогут что-то там разобрать, а тем более правильно прочитать, что там написано[/q]
Аминь. | | |
Mich_Glitch | Наверх ##
22 января 2009 21:15 Paulina написал: [q] Я с недавнего времени делаю там арбитраж (сравниваю параллельную работу двух индексеров) и просто вижу некоторые типичные проблемы, которые могут возникать при расшифровке. [/q]
Я вычитываю сотни страниц метрических книг, написанных одним почерком. Список встречающихся фамилий уже достаточно выверен. Имена из Святцев и персонализированные варианты написания их дьячком - отскакивают от зубов. И тем не менее почти на каждой странице происходят заминки. Проект индексирования по-моему имеет серьезную методологическую ошибку: необходимо предусмотреть и упростить порядок выдачей батчей по индивидуальным запросам (по названию населенного пункта, прихода, или по архивной номенклатуре). Если обработкой информации будут заниматься люди знакомые с предметом, то это ускорит процесс и повысит точность ввода. | | |
GenForsch Не скажу. :) Сообщений: 694 На сайте с 2005 г. Рейтинг: 138
| Наверх ##
22 января 2009 23:32 Не согласен. Все здесь присутствующие, будучи начинающими, когда-то впервые увидели метрическую книгу. И разобрались....И читают теперь легко. --- Грузинские лютеране | | |
GenForsch Не скажу. :) Сообщений: 694 На сайте с 2005 г. Рейтинг: 138
| Наверх ##
22 января 2009 23:35 22 января 2009 23:37 Paulina написал: [q] [/q]
[q] Вы сами регистрировались и учились или кто-то помог?[/q]
Регистрировался сам и учился, в помощь была только аннотация с сайта. [q] Есть какие-нибудь вопросы или трудности?[/q] Вопрос есть. Когда разрешат выбирать нужную лично мне местность? [q] А то у меня проблемы с этим. У меня, наверное, завышенные требования к индексерам и я не могу предлагать делать эту работу тем, кто не знаком хорошо с метрическими книгами тогдашней Малороссии середины 19 века[/q]
Что ж, к концу пятилетки,глядишь и закончите Киев индексировать --- Грузинские лютеране | | |
Mich_Glitch | Наверх ##
22 января 2009 23:46 GenForsch написал: [q] Не согласен. Все здесь присутствующие, будучи начинающими, когда-то впервые увидели метрическую книгу. И разобрались....И читают теперь легко.[/q]
Тоже правильно. | | |
GenForsch Не скажу. :) Сообщений: 694 На сайте с 2005 г. Рейтинг: 138
| Наверх ##
22 января 2009 23:51 Я работал последнее время с немецкими данными, с готическим шрифтом. Те же самые проблемы. Если пастором был в ближайшие 5 лет один человек, и почерк его распознан, то можно хоть все 5 лет читать в один день. Проблема есть, в слишком большой разнице написания одних и тех же букв и разными стилями готики. Но, не боги горшки обжигают... --- Грузинские лютеране | | |
YulitaНа перекрестке трех веков  Киев Сообщений: 3378 На сайте с 2003 г. Рейтинг: 1787 | Наверх ##
23 января 2009 0:00 GenForsch, так ведь вопрос не в том, чтобы научиться читать потом, а в том, чтобы эти самые люди, которые первый раз увидят эту метрику, сейчас это смогли сделать. Именно потому, что я до сих пор помню свою первую реакцию на метрическую книгу , попытки хоть что-нибудь понять и количество ошибок в именах-фамилиях, которые я допустила, пока хорошо не вникла в это дело, я и не горю желанием привлекать совсем "нулевых" людей к этому проекту. Боюсь, что даже при наличии таковых, их энтузиазм пропадет после первого же батча :(
Paulina, я хотела спросить, а почему при загрузке и отправке полностью заполненного батча всегда высвечивается 30-40%? Что это значит? --- Юлия, КиевБляхер, Бурштейн, Гречаные, Дзюман, Замула, Иващенко, Ка(в)уровы, Каменецкие, Лабыш, Сорочан
Мой дневник | | |
Mich_Glitch | Наверх ##
23 января 2009 6:07 Yulita написал: [q] я и не горю желанием привлекать совсем "нулевых" людей к этому проекту. [/q] Yulita, тот редкий случай, когда я не согласен с Вами. Если у человека пропадет энтузиазм после первого батча, то действительно, ценность его "нулевая". Если же он останется, то после десятка-другого страниц превратится во вполне закаленного бойца. Давайте посмотрим на дело с другой стороны и попытаемся оценить примерный объем работ. Итак. На сегодня имеем 582 микрофильма с метрическими книгами по Киевской губернии с 1715 по 1919 гг.Или, учитывая, что каждый фильм содержит примерно 1000 кадров, или 2000 страниц, около миллиона с лишним страниц. (Предположим, 1164000 страниц.) На каждой странице встречается в среднем по 15 персоналий. То есть имеем свыше 15 миллионов единиц ввода. (Скажем, 17460000 персоналий.) Каждый человек в среднем встречается в метрических книгах 7 раз. Цифра лично моя. Так сказать, экспериментальная. Считаем вместе: 1) Рождение. 2) Брак. 3) Смерть. 4) Дети. 5) Опционально восприемник, поручитель, свидетель. Еще раз повторю, цифра взята из моих наблюдений и является усредненной. Что-то между двух записей (рождение-смерть) для умерших младенчиков и цифирью для супер-чемпионов, типа моего прадеда, Трофима Кассианова Дзюбенко, поминаемого под сотню раз. Итого имеем около двух с половиной миллионов человек. Для нас же важны единицы ввода. Примем цифру в 15 миллионов. Как я понял, делается дубль-чек, т.е. один батч вводится дважды, а то и трижды. Отсюда предполагаемый мною ответ на Ваш вопрос: Yulita написал: [q] а почему при загрузке и отправке полностью заполненного батча всегда высвечивается 30-40%?[/q]
Т.е. полагаю, что по второму проходу (для второго человека, обрабатывающего тот же самый батч) процент вырастет до 60-80. Если человеку попадется дважды работанный батч, то возможно высветится 100%. (Повторюсь, это моя гипотеза. Самостоятельная попытка дать ответ на поставленный Вами вопрос.) А потом еще производится сверка. Итого в грубом приближении имеем 30-50 миллионов строк ввода. Я редко ввожу в день более 100 персоналий. Но возьмем 100 строк ввода в день, как среднюю производительность. Значит работа оценивается в 300-500 тысяч человеко-дней. Как недавно говорила уважаемая Gontar, в проекте уже участвуют около 50 человек. Пусть с тех пор их стало 100. Если им хватит терпения на работу без выходных в течении почти 10 лет, то при самых оптимистичных прогнозах, проект закончат через 3000 дней. Для того, чтобы закончить проект за год - нужно 1000 считчиков. Это не математика даже, а арифметика. Думаю, что вряд ли цифра вовлеченных в киевский проект превысит 150-200 эпизодически работающих добровольцев. Т.е. закончат его лет через пять. Поэтому каждая пара рук на счету. Согласен, что хорошо, если бы к рукам прилагалась голова. | | |
YulitaНа перекрестке трех веков  Киев Сообщений: 3378 На сайте с 2003 г. Рейтинг: 1787 | Наверх ##
23 января 2009 10:29 Mich_Glitch, ну пока проект затрагивает только 1840-1842 года и только Киевский уезд, так что, надеюсь, что времени на его индексацию понадобится все-таки меньше  За 1,5 месяца участия в этом проекте я пока не встретила населенных пунктов из других уездов, а вот метрики по некоторым селам, опять-таки Киевского уезда, за более поздние года там проскакивали. Я все-таки надеюсь, что и другие уезды здесь будут присутствовать. Все-таки, личная заинтересованность - это личная заинтересованность. Если бы можно было работать по выбранным населенным пунктам, то я свои села смогла бы полностью обработать очень быстро ( и не за 1840-1842 года, а за все года, что есть), т.к. и фамилии все знакомые, не нужно тратить время на расшифровку и почерка уже родные...но, увы :( --- Юлия, КиевБляхер, Бурштейн, Гречаные, Дзюман, Замула, Иващенко, Ка(в)уровы, Каменецкие, Лабыш, Сорочан
Мой дневник | | |
Paulina Киев Сообщений: 81 На сайте с 2004 г. Рейтинг: 108
| Наверх ##
23 января 2009 11:30 23 января 2009 11:31 Юля, рада опять "пересечься". То-то я тебя не вижу уже очень давно в архиве. Ты перешла "в подполье" и наверное теперь из дому не выходишь?  Индексирование (работа фактически для других людей) затягивает не меньше, чем корпение над метриками по собственным предкам. Ты заметила это? Твой вопрос возникает почти у всех. Не могу точно ответить, но как и ты, подозреваю, что 30-40%, означают, что один индексер сделал свою работу. Параллельно работает другой, так что в итоге 60-80% после работы двух индексеров должно быть. (Правда, признаюсь, я тоже всегда вижу только 30-40% когда сама индексирую). Когда я беру "батчи" на арбитраж, там уже 90% выполненного стоит. После арбиража батчи проходят еще и аудит. Так что цепочка довольно длинная. Я стараюсь искать для этой работы людей, которые знакомы с украинским языком и видели метрики именно по Украине. Писари/псаломщики передавали украинские имена с помощью русского правописания и это надо немного учитывать. Если имена и отчества еще можно угадать почти на 100%, то с фамилиями... Особенно если писарь слишком часто употребляет не очень четко написанную букву "Ы". Только украинец может понять, что написана, например, фамилия "Сыняк", а не "Свеняк" и "Долынський", а не "Долбенський". Мы корни слов, из которых состоят фамилии, легко улавливаем. Но соглашусь, что это не очень большая проблема и со временем навыки приобретаются у всех. Когда я делаю арбитраж, вижу иногда очень кропотливую тщательную работу некоторых особо щепетильных индексеров. Юля, я уверена, ты среди них. Спасибо. От нас не требуется скорость - ребята, я говорю это всем. Не наша это забота. Некуда торопиться. Все делается в свое время. И еще - пишите буквальное написание имен. Не унифицируйте их. Если написано Иулияния, Татиянна - так и пишите. Нам обещают, что все варианты одного имени будут забиты в справочник и в дальнейшем при поиске имен это все будет учитываться. Естественно, мы все пишем современным языком, без твердых знаков и т.д. - это все делают правильно. Согласна, свои села расшифровывать легче. Нет человека, который бы не ставил этот вопрос. Я выскажу это пожелание администраторам проекта, они донесут его до разработчиков. | | |
|