 | idruaСоздайте аккаунт или войдите, чтобы отправить личное сообщение этому пользователю и увидеть его полные контактные данные |
Сообщения idrua (4)Тема: Familysearch.org - архивная база мормонов 16.03.2017, 18:42
Из нюансов. Abbyy, ключевой игрок на российском рынке, может извлекать только рукопечатный текст (где каждая буква написана отдельно). А Parascript, который, собственно, я и представляю может извлекать и естественный рукописный. В этом главное отличие.
Распознать письмо "на деревню деду" невозможно в принципе. Технология не совершенна. Сужаем возможные варианты до минимума (ФИО, даты ...), получаем результат.
|
Тема: Familysearch.org - архивная база мормонов 16.03.2017, 18:35
gecube написал:[q] idrua Добрый день! Вы мне в личке ответили, ответили бы и здесь для приличия. А то получается, что посмотрели, что сделать ничего не можете, и как будто "слились". Верю в Вашу порядочность и корректность :-) P.s. фоты, которые я Вам отправил, абсолютно реальные и представляют выборку документов, которые мы здесь обсуждаем. P.p.s. или можно я хоты бы Ваш приватный ответ мне здесь опубликую? [/q]
Да никуда я не сливался. Текущая работа отвлекает и не всегда есть время на форумы. Не вопрос, отвечу всем.
Итак, если разные типы документов. 1) Структурированные (по простому: одинаковые на просвет). С помощью специализированного софта задаем какие поля извлекать, указываем типы полей (цифровые, текстовые и т.д.) и получаем результат. Можно задействовать несколько движков, чтобы улучшить уровень достоверности. В результате примерно 95% распознается в полном автомате, а 5% на ручной ввод (где компьютер не смог определить гипотезу ответа и сомневается в результате)
2) Полуструктурированные. Чеки, договора, налоговые и т.д. Они не одинаковые на просвет, но структура у этих документов всегда одинаковая. Например, если стоит задача извлечь сумму чека, то нужно искать текст "сумма", а дальше программно смотреть вправо или вниз для поиска сниппета с цифрами. Чуть труднее и дольше, чем со структурированными.
3) Неструктурированные. Вот то что вы мне выслали, это и есть пример неструктурированного документа. Какие-то линии, поля, пометки. Каждый документ кардинально отличается от предыдущего. Сплошной естественный рукописный.
Из неструктурованных документов можно извлекать только ключевые данные, а не всё. ФИО, даты, причины смерти/болезни, возможно что-то еще. Т.е. мы заранее обучаем распознаватель на возможные ответы и извлекаем их.
|
Тема: Familysearch.org - архивная база мормонов 16.03.2017, 11:58
gecube написал:[q] системы, которая это будет делать устойчиво, на текущем этапе развитии технологий скорее всего нет; - а если даже и есть или заказать ее разработку, то будет она стоить как Боинг. И еще к тому же не один. Что нереально не только для нас, но и для гигантов вроде мормонов. Ну, и время. Времени на разработку такого проекта уйдет масса. - поэтому хоть индексация и есть важная задача, но откладывать как фоновый процесс. - и все равно нужна платформа, которая позволит её проводить.[/q]
Разрабатывать ничего не надо, все уже разработано. Стоит копейки в пересчете на лист. Присылайте сканы, будем смотреть.
|
Тема: Familysearch.org - архивная база мормонов 16.03.2017, 11:54
dickest написал:[q] Это реклама! Рукописный тест offline пока никакая программа распознавать не умеет!!! http://idr.in.ua/info/rukopisniy-tekst.html (обратите внимание: буквы написаны раздельно)[/q]
Добрый день. Увидел пару переходов на сайт с вашего форума, решил ответить.
Где вы увидели раздельные буквы? Нам без разницы сплошной рукописный или рукопечатный.
Рукописный текст прекрасно извлекается из бумажных форм. Вопрос только в том, как структурированы бумажные формы. Если они одинаковы на просвет, то можно обрабатывать в любом объеме. Если это всегда разные документы, то нужно как-то находить местоположение с ключевой информацией. Это может быть динамическое распознавание или ручное выделение, с последующим распознаванием. Задача решаемая! Да, будут ошибки, но и с ними можно бороться. Можно всю извлекаемую информацию экспортировать в Excel с подсветкой реальной картинки из формы (пример: http://idr.in.ua/article/05_2015/22.html)
Вышлите десяток сканов, посмотрим чем можем помочь.
|
|
|