Familysearch.org - архивная база мормонов
общие вопросы
idrua Новичок
Харьков Сообщений: 4 На сайте с 2017 г. Рейтинг: 2 | Наверх ##
16 марта 2017 18:35 gecube написал: [q] idrua Добрый день! Вы мне в личке ответили, ответили бы и здесь для приличия. А то получается, что посмотрели, что сделать ничего не можете, и как будто "слились". Верю в Вашу порядочность и корректность :-) P.s. фоты, которые я Вам отправил, абсолютно реальные и представляют выборку документов, которые мы здесь обсуждаем. P.p.s. или можно я хоты бы Ваш приватный ответ мне здесь опубликую? [/q]
Да никуда я не сливался. Текущая работа отвлекает и не всегда есть время на форумы. Не вопрос, отвечу всем. Итак, если разные типы документов. 1) Структурированные (по простому: одинаковые на просвет). С помощью специализированного софта задаем какие поля извлекать, указываем типы полей (цифровые, текстовые и т.д.) и получаем результат. Можно задействовать несколько движков, чтобы улучшить уровень достоверности. В результате примерно 95% распознается в полном автомате, а 5% на ручной ввод (где компьютер не смог определить гипотезу ответа и сомневается в результате) 2) Полуструктурированные. Чеки, договора, налоговые и т.д. Они не одинаковые на просвет, но структура у этих документов всегда одинаковая. Например, если стоит задача извлечь сумму чека, то нужно искать текст "сумма", а дальше программно смотреть вправо или вниз для поиска сниппета с цифрами. Чуть труднее и дольше, чем со структурированными. 3) Неструктурированные. Вот то что вы мне выслали, это и есть пример неструктурированного документа. Какие-то линии, поля, пометки. Каждый документ кардинально отличается от предыдущего. Сплошной естественный рукописный. Из неструктурованных документов можно извлекать только ключевые данные, а не всё. ФИО, даты, причины смерти/болезни, возможно что-то еще. Т.е. мы заранее обучаем распознаватель на возможные ответы и извлекаем их. | | |
idrua Новичок
Харьков Сообщений: 4 На сайте с 2017 г. Рейтинг: 2 | Наверх ##
16 марта 2017 18:42 Из нюансов. Abbyy, ключевой игрок на российском рынке, может извлекать только рукопечатный текст (где каждая буква написана отдельно). А Parascript, который, собственно, я и представляю может извлекать и естественный рукописный. В этом главное отличие.
Распознать письмо "на деревню деду" невозможно в принципе. Технология не совершенна. Сужаем возможные варианты до минимума (ФИО, даты ...), получаем результат. | | |
BORISBEL Сообщений: 10124 На сайте с 2012 г. Рейтинг: 11554 | Наверх ##
16 марта 2017 18:47 16 марта 2017 18:49 idrua написал: [q] Из неструктурованных документов можно извлекать только ключевые данные, а не всё. ФИО, даты, причины смерти/болезни, возможно что-то еще. Т.е. мы заранее обучаем распознаватель на возможные ответы и извлекаем их. [/q]
Эффективность программ распознавания текста на 70-80% (если не больше) зависит от лексического и грамматического анализа, т.е. от внеграфической интерпретации. Если текст нестандартный (в широком смысле) или источник плохого качества, то и качество распознавания будет мусорным. | | |
Любимова г. Нижневартовск Сообщений: 438 На сайте с 2006 г. Рейтинг: 215
| Наверх ##
16 марта 2017 20:44 Обратила внимание Через поисковик по селу Маклауш - сайт дает метрики за 1840, 1844 и 1852 год. Однако, про просмотре пленки по селу Борисоглебскому - нашла село Маклауш за 1837 год. Делаем выводы... --- Ищу: Любимовы (Урмалеевка, Бугульминский), Точилины (Старый Маклауш, Бугульминский), Кирдины, Соломоновы (Староборискино, Бугульминский),
Еремины, Бел(ь)ковы ( Верхний Карачан, Ржавац, Новохоперский), Сигаревы, Волченко (Беляевка, Новоузенский), Золотар | | |
microArt г.Гатчина, Ленинградская область Сообщений: 3298 На сайте с 2008 г. Рейтинг: 2494 | Наверх ##
16 марта 2017 21:28 Любимова написал: [q] Однако, про просмотре пленки по селу Борисоглебскому - нашла село Маклауш за 1837 год.[/q]
Скоро запустят проект по маршрутизации. Наверное, там можно будет внести все поправки. У меня, например, куча пленок по Порховскому уезду с общим названием "Порховский уезд". Тоже надеюсь расписать их по приходам. --- Псковские документы (метрические книги из фонда 39) здесь:
https://www.geno-dbase.ru/storage/Russian_Empire/Pskov/ | | |
dickest Россия, Пенза Сообщений: 168 На сайте с 2010 г. Рейтинг: 434
| Наверх ##
16 марта 2017 21:47 idrua написал: [q] Из нюансов. Abbyy, ключевой игрок на российском рынке, может извлекать только рукопечатный текст (где каждая буква написана отдельно). А Parascript, который, собственно, я и представляю может извлекать и естественный рукописный. В этом главное отличие. [/q]
товарищ специально зарегился сегодня, чтобы написать этот пост это реклама | | |
Nikolay_Ch Москва, Россия Сообщений: 984 На сайте с 2010 г. Рейтинг: 384 | Наверх ##
16 марта 2017 22:11 microArt написал: [q] Скоро запустят проект по маршрутизации.[/q]
Где? --- Чапкины (Орл.+Тул. губ.), Орловы (Мог. губ.), Тиуновы (Смол. губ.), Эренсы(Орл. губ.), Мочаловы (Арх. губ.)
Закроевы, Озорнины, Ковалевы, Беликовы, Селедкины, Абрамовы, Корнеевы, Леоновы, Макаренковы, Черезовы | | |
minuta Сообщений: 236 На сайте с 2015 г. Рейтинг: 926 | Наверх ##
16 марта 2017 22:31 Любимова написал: [q] про просмотре пленки по селу Борисоглебскому[/q]
Скажите, пожалуйста, речь не о Воронежской области? --- Говоровы, Лихачевы, Поменовы, Филькины, Зюзины, Бадиковы, Хмыре(о)вы, Гончаровы, Хащиновы, Орловы, Ивочкины, Зимины и Зюзюкины, Хайловы | | |
microArt г.Гатчина, Ленинградская область Сообщений: 3298 На сайте с 2008 г. Рейтинг: 2494 | Наверх ##
16 марта 2017 22:58 Nikolay_Ch написал: [q] Где? [/q]
На Familysearch. Gontar не раз об этом писала. --- Псковские документы (метрические книги из фонда 39) здесь:
https://www.geno-dbase.ru/storage/Russian_Empire/Pskov/ | | |
Олинка Кемерово Сообщений: 811 На сайте с 2007 г. Рейтинг: 703 | Наверх ##
17 марта 2017 7:07 Linino написал: [q] доступ как члена церкви[/q]
Вот вопрос уже давно назрел.... А у нас на форуме такие есть??? --- Дневник http://forum.vgd.ru/891/
ZF1192774 (Gedmatch)
Бушуев, Пальцев, Сафронов/Федотов/Казаков, Панфилов, Кулагин, Кочетков, Воронин, Отцын/Оцинов, Мурзаев, Тюкин/Кырмагин, Пучинин, Мерзляков, Полатов, Хлебников, Пермяков, Кудриков, Седых, Лазарев, Босенко, Омельченко, Мороз, Манякин, Кубушка, Б | | |
|