Familysearch.org - архивная база мормонов
общие вопросы
dobby Минск, Беларусь Сообщений: 5432 На сайте с 2013 г. Рейтинг: 5081 | Наверх ##
16 марта 2017 15:33 gecube написал: [q] idrua Добрый день! Вы мне в личке ответили, ответили бы и здесь для приличия. А то получается, что посмотрели, что сделать ничего не можете, и как будто "слились". Верю в Вашу порядочность и корректность :-) P.s. фоты, которые я Вам отправил, абсолютно реальные и представляют выборку документов, которые мы здесь обсуждаем. P.p.s. или можно я хоты бы Ваш приватный ответ мне здесь опубликую?[/q]
Очевидно, что подобные программы пока что и еще долго не расшифруют архивные документы. Им только цифры и подписи по клеточкам разбирать. | | |
EkaterinaTR Новичок
Тула Сообщений: 21 На сайте с 2015 г. Рейтинг: 11 | Наверх ##
16 марта 2017 15:38 BORISBEL написал: [q] [/q]
Спасибо огромное, получилось | | |
microArt г.Гатчина, Ленинградская область Сообщений: 3297 На сайте с 2008 г. Рейтинг: 2496 | Наверх ##
16 марта 2017 15:49 Автоматическое распознавание таких документов пока что невозможно.
Документы из украинских архивов пока что недоступны. Из российских можно смотреть.
Регистрируетесь на сайте familysearch.org, входите на сайт, находите нужную пленку и правой кнопкой мыши щелкаете по значку фотоаппарата, выбираете "Открыть в новой вкладке".
Открывать в новой вкладке обязательно, иначе документы не откроются. --- Псковские документы (метрические книги из фонда 39) здесь:
https://www.geno-dbase.ru/storage/Russian_Empire/Pskov/ | | |
Linino Шведское Королевство Сообщений: 4025 На сайте с 2015 г. Рейтинг: 1468
| Наверх ##
16 марта 2017 16:36 microArt написал: [q] Документы из украинских архивов пока что недоступны.[/q]
я бы немного поправила, что они как и раньше доступны из центров семейной истории или у кого есть доступ как члена церкви.....а то получается, что вообще не доступны | | |
idrua Новичок
Харьков Сообщений: 4 На сайте с 2017 г. Рейтинг: 2 | Наверх ##
16 марта 2017 18:35 gecube написал: [q] idrua Добрый день! Вы мне в личке ответили, ответили бы и здесь для приличия. А то получается, что посмотрели, что сделать ничего не можете, и как будто "слились". Верю в Вашу порядочность и корректность :-) P.s. фоты, которые я Вам отправил, абсолютно реальные и представляют выборку документов, которые мы здесь обсуждаем. P.p.s. или можно я хоты бы Ваш приватный ответ мне здесь опубликую? [/q]
Да никуда я не сливался. Текущая работа отвлекает и не всегда есть время на форумы. Не вопрос, отвечу всем. Итак, если разные типы документов. 1) Структурированные (по простому: одинаковые на просвет). С помощью специализированного софта задаем какие поля извлекать, указываем типы полей (цифровые, текстовые и т.д.) и получаем результат. Можно задействовать несколько движков, чтобы улучшить уровень достоверности. В результате примерно 95% распознается в полном автомате, а 5% на ручной ввод (где компьютер не смог определить гипотезу ответа и сомневается в результате) 2) Полуструктурированные. Чеки, договора, налоговые и т.д. Они не одинаковые на просвет, но структура у этих документов всегда одинаковая. Например, если стоит задача извлечь сумму чека, то нужно искать текст "сумма", а дальше программно смотреть вправо или вниз для поиска сниппета с цифрами. Чуть труднее и дольше, чем со структурированными. 3) Неструктурированные. Вот то что вы мне выслали, это и есть пример неструктурированного документа. Какие-то линии, поля, пометки. Каждый документ кардинально отличается от предыдущего. Сплошной естественный рукописный. Из неструктурованных документов можно извлекать только ключевые данные, а не всё. ФИО, даты, причины смерти/болезни, возможно что-то еще. Т.е. мы заранее обучаем распознаватель на возможные ответы и извлекаем их. | | |
idrua Новичок
Харьков Сообщений: 4 На сайте с 2017 г. Рейтинг: 2 | Наверх ##
16 марта 2017 18:42 Из нюансов. Abbyy, ключевой игрок на российском рынке, может извлекать только рукопечатный текст (где каждая буква написана отдельно). А Parascript, который, собственно, я и представляю может извлекать и естественный рукописный. В этом главное отличие.
Распознать письмо "на деревню деду" невозможно в принципе. Технология не совершенна. Сужаем возможные варианты до минимума (ФИО, даты ...), получаем результат. | | |
BORISBEL Сообщений: 10182 На сайте с 2012 г. Рейтинг: 11652 | Наверх ##
16 марта 2017 18:47 16 марта 2017 18:49 idrua написал: [q] Из неструктурованных документов можно извлекать только ключевые данные, а не всё. ФИО, даты, причины смерти/болезни, возможно что-то еще. Т.е. мы заранее обучаем распознаватель на возможные ответы и извлекаем их. [/q]
Эффективность программ распознавания текста на 70-80% (если не больше) зависит от лексического и грамматического анализа, т.е. от внеграфической интерпретации. Если текст нестандартный (в широком смысле) или источник плохого качества, то и качество распознавания будет мусорным. | | |
Любимова г. Нижневартовск Сообщений: 438 На сайте с 2006 г. Рейтинг: 219
| Наверх ##
16 марта 2017 20:44 Обратила внимание Через поисковик по селу Маклауш - сайт дает метрики за 1840, 1844 и 1852 год. Однако, про просмотре пленки по селу Борисоглебскому - нашла село Маклауш за 1837 год. Делаем выводы... --- Ищу: Любимовы (Урмалеевка, Бугульминский), Точилины (Старый Маклауш, Бугульминский), Кирдины, Соломоновы (Староборискино, Бугульминский),
Еремины, Бел(ь)ковы ( Верхний Карачан, Ржавац, Новохоперский), Сигаревы, Волченко (Беляевка, Новоузенский), Золотар | | |
microArt г.Гатчина, Ленинградская область Сообщений: 3297 На сайте с 2008 г. Рейтинг: 2496 | Наверх ##
16 марта 2017 21:28 Любимова написал: [q] Однако, про просмотре пленки по селу Борисоглебскому - нашла село Маклауш за 1837 год.[/q]
Скоро запустят проект по маршрутизации. Наверное, там можно будет внести все поправки. У меня, например, куча пленок по Порховскому уезду с общим названием "Порховский уезд". Тоже надеюсь расписать их по приходам. --- Псковские документы (метрические книги из фонда 39) здесь:
https://www.geno-dbase.ru/storage/Russian_Empire/Pskov/ | | |
dickest Россия, Пенза Сообщений: 168 На сайте с 2010 г. Рейтинг: 436
| Наверх ##
16 марта 2017 21:47 idrua написал: [q] Из нюансов. Abbyy, ключевой игрок на российском рынке, может извлекать только рукопечатный текст (где каждая буква написана отдельно). А Parascript, который, собственно, я и представляю может извлекать и естественный рукописный. В этом главное отличие. [/q]
товарищ специально зарегился сегодня, чтобы написать этот пост это реклама | | |
|