Загрузите GEDCOM-файл на ВГД   [х]
Всероссийское Генеалогическое Древо

Генеалогический форум ВГД

На сайте ВГД собираются люди, увлеченные генеалогией, историей, геральдикой и т.д. Здесь вы найдете собеседников, экспертов, умелых помощников в поисках предков и родственников. Вам подскажут где искать документы о павших в боях и пропавших без вести, в какой архив обратиться при исследовании родословной своей семьи, помогут определить по старой фотографии принадлежность к воинским частям, ведомствам и чину. ВГД - поиск людей в прошлом, настоящем и будущем!

  idrua, Харьков
Профиль
Отзывы
Сообщения
Геометки
Друзья
В друзьях
Древа
GEDCOM

idrua

Создайте аккаунт или войдите, чтобы отправить личное сообщение этому пользователю и увидеть его полные контактные данные

Сообщения idrua (4)

Тема: Familysearch.org - архивная база мормонов
16.03.2017, 18:42

Из нюансов. Abbyy, ключевой игрок на российском рынке, может извлекать только рукопечатный текст (где каждая буква написана отдельно). А Parascript, который, собственно, я и представляю может извлекать и естественный рукописный. В этом главное отличие.

Распознать письмо "на деревню деду" невозможно в принципе. Технология не совершенна. Сужаем возможные варианты до минимума (ФИО, даты ...), получаем результат.


Тема: Familysearch.org - архивная база мормонов
16.03.2017, 18:35


gecube написал:
[q]
idrua
Добрый день! Вы мне в личке ответили, ответили бы и здесь для приличия. А то получается, что посмотрели, что сделать ничего не можете, и как будто "слились". Верю в Вашу порядочность и корректность :-)
P.s. фоты, которые я Вам отправил, абсолютно реальные и представляют выборку документов, которые мы здесь обсуждаем.
P.p.s. или можно я хоты бы Ваш приватный ответ мне здесь опубликую?
[/q]


Да никуда я не сливался. Текущая работа отвлекает и не всегда есть время на форумы.
Не вопрос, отвечу всем.

Итак, если разные типы документов.
1) Структурированные (по простому: одинаковые на просвет). С помощью специализированного софта задаем какие поля извлекать, указываем типы полей (цифровые, текстовые и т.д.) и получаем результат. Можно задействовать несколько движков, чтобы улучшить уровень достоверности. В результате примерно 95% распознается в полном автомате, а 5% на ручной ввод (где компьютер не смог определить гипотезу ответа и сомневается в результате)

2) Полуструктурированные. Чеки, договора, налоговые и т.д. Они не одинаковые на просвет, но структура у этих документов всегда одинаковая. Например, если стоит задача извлечь сумму чека, то нужно искать текст "сумма", а дальше программно смотреть вправо или вниз для поиска сниппета с цифрами. Чуть труднее и дольше, чем со структурированными.

3) Неструктурированные. Вот то что вы мне выслали, это и есть пример неструктурированного документа. Какие-то линии, поля, пометки. Каждый документ кардинально отличается от предыдущего. Сплошной естественный рукописный.

Из неструктурованных документов можно извлекать только ключевые данные, а не всё. ФИО, даты, причины смерти/болезни, возможно что-то еще. Т.е. мы заранее обучаем распознаватель на возможные ответы и извлекаем их.


Тема: Familysearch.org - архивная база мормонов
16.03.2017, 11:58


gecube написал:
[q]
системы, которая это будет делать устойчиво, на текущем этапе развитии технологий скорее всего нет;
- а если даже и есть или заказать ее разработку, то будет она стоить как Боинг. И еще к тому же не один. Что нереально не только для нас, но и для гигантов вроде мормонов. Ну, и время. Времени на разработку такого проекта уйдет масса.
- поэтому хоть индексация и есть важная задача, но откладывать как фоновый процесс.
- и все равно нужна платформа, которая позволит её проводить.
[/q]


Разрабатывать ничего не надо, все уже разработано. Стоит копейки в пересчете на лист.
Присылайте сканы, будем смотреть.


Тема: Familysearch.org - архивная база мормонов
16.03.2017, 11:54


dickest написал:
[q]
Это реклама!
Рукописный тест offline пока никакая программа распознавать не умеет!!!
http://idr.in.ua/info/rukopisniy-tekst.html (обратите внимание: буквы написаны раздельно)
[/q]


Добрый день. Увидел пару переходов на сайт с вашего форума, решил ответить.

Где вы увидели раздельные буквы? Нам без разницы сплошной рукописный или рукопечатный.

Рукописный текст прекрасно извлекается из бумажных форм. Вопрос только в том, как структурированы бумажные формы. Если они одинаковы на просвет, то можно обрабатывать в любом объеме. Если это всегда разные документы, то нужно как-то находить местоположение с ключевой информацией. Это может быть динамическое распознавание или ручное выделение, с последующим распознаванием. Задача решаемая! Да, будут ошибки, но и с ними можно бороться. Можно всю извлекаемую информацию экспортировать в Excel с подсветкой реальной картинки из формы (пример: http://idr.in.ua/article/05_2015/22.html)

Вышлите десяток сканов, посмотрим чем можем помочь.