Загрузите GEDCOM-файл на ВГД   [х]
Всероссийское Генеалогическое Древо
На сайте ВГД собираются люди, увлеченные генеалогией, историей, геральдикой и т.д. Здесь вы найдете собеседников, экспертов, умелых помощников в поисках предков и родственников. Вам подскажут где искать документы о павших в боях и пропавших без вести, в какой архив обратиться при исследовании родословной своей семьи, помогут определить по старой фотографии принадлежность к воинским частям, ведомствам и чину. ВГД - поиск людей в прошлом, настоящем и будущем!
Вниз ⇊

Епархиальные ведомости и прибавления

Источники информации

← Назад    Вперед →Страницы: ← Назад 1 2 3 4 5 6 7 8 * 9 10 11 12 Вперед →
Siegehardus
Konstantin Ivanov

[q]
Управился за два часа с четвертью.
[/q]


У меня скачалось за 11 мин.
vnbob

Сообщений: 542
На сайте с 2013 г.
Рейтинг: 117

lactarius написал:
[q]
Распознается очень медленно: где-то 1 страница в минуту. Хотя у меня довольно слабая машина. Получается в среднем по одной книге в день.
Никакой вычитки я не делал - что распозналось, то распозналось.

Поделюсь своим опытом по поиску фамилий в тексте: так как качество плохое, искать нужно минимальную имеющую смысл подстрочку. Например по фамилии Флоринский я искал подстроку "флор". В результате получал несколько десятков мест в каждой книге, которые уже подробно смотрел.
[/q]


Моё Вам уважение за такой труд!
Машинка действительно слабая. На 2-х ядерном компе страница распознаётся ~ 6-8 сек..
Поиск нужно делать по всем возможным вариантам, учитывая ошибки распознавания - часто буквы c одинаковым написанием путаются (л-п, и-н и т.п.)
Мой совет : поскольку нас в данном случае интересует только текст, в программе распознавания в установках : сохранение результатов
нужно убрать сохранение картинок, оформления, шрифтов и вариантов написания - только планарный текст.
Т.о. размер выходного файла уменьшится на 2 порядка, и поиск вести быстрее.
Ведь в случае нахождения всё-равно придётся обращаться к первоисточнику в PDF
lactarius

Москва->США->?
Сообщений: 394
На сайте с 2011 г.
Рейтинг: 372

vnbob написал:
[q]
Машинка действительно слабая. На 2-х ядерном компе страница распознаётся ~ 6-8 сек..
[/q]

тут странная штука получается. На первых томах распознавание шло раза в 3 быстрее, чем сейчас. Возможно PDF-transformer постепенно накапливает какую-то статистику для улучшения результатов распознавания, но использование этой статистики сильно замедляет процесс


vnbob написал:
[q]
Мой совет : поскольку нас в данном случае интересует только текст, в программе распознавания в установках : сохранение результатов
нужно убрать сохранение картинок, оформления, шрифтов и вариантов написания - только планарный текст.
Т.о. размер выходного файла уменьшится на 2 порядка, и поиск вести быстрее.
Ведь в случае нахождения всё-равно придётся обращаться к первоисточнику в PDF
[/q]

Мне кажется картинки и оформление могут быть полезны как раз для того, чтобы потом легче было найти нужное место в оригинальном PDF.
С другой стороны, если хочется оставить только голый текст, то сбросить его из Ворда не составляет труда.
---
Все мои личные данные, размещены мною на сайте добровольно и специально для поиска родственников
Грибок: село Александро-дар (Рахмановка) Криво-Рогской волости Херсонского уезда Херсонской губернии;
Щежины: Ардатовский уезд Нижегородской губернии
vnbob

Сообщений: 542
На сайте с 2013 г.
Рейтинг: 117

lactarius написал:
[q]
Мне кажется картинки и оформление могут быть полезны как раз для того, чтобы потом легче было найти нужное место в оригинальном PDF.
С другой стороны, если хочется оставить только голый текст, то сбросить его из Ворда не составляет труда.
[/q]


1. картинки не нужны! когда производится текстовый поиск - сохраняйте с "разбивкой на страницы", и легко сориентируетесь
2. лучше сделать это сразу, многие так и не смогли скачать Ваш архив по причине большого объёма, где 95% занимают именно изображения, которые -> см. п.1
lactarius

Москва->США->?
Сообщений: 394
На сайте с 2011 г.
Рейтинг: 372
Оставил только текст: http://depositfiles.com/files/ajknpo0t0 (29Mb)
---
Все мои личные данные, размещены мною на сайте добровольно и специально для поиска родственников
Грибок: село Александро-дар (Рахмановка) Криво-Рогской волости Херсонского уезда Херсонской губернии;
Щежины: Ардатовский уезд Нижегородской губернии
lactarius

Москва->США->?
Сообщений: 394
На сайте с 2011 г.
Рейтинг: 372
Распознал еще 10 номеров:
Прибавления_к_церковным_ведомостям_1888_2.txt
Прибавления_к_церковным_ведомостям_1889_1.txt
Прибавления_к_церковным_ведомостям_1889_2.txt
Прибавления_к_церковным_ведомостям_1890_1.txt
Церковные_ведомости_1891.txt
Церковные_ведомости_и_прибавления_1892_1.txt
Церковные_ведомости_и_прибавления_1892_2.txt
Церковные_ведомости_и_прибавления_1897_2.txt
Церковные_ведомости_и_прибавления_1900_2.txt
Церковные_ведомости_и_прибавления_1907_2.txt

Выложил текстовые версии на http://depositfiles.com/files/uw6o2341u
---
Все мои личные данные, размещены мною на сайте добровольно и специально для поиска родственников
Грибок: село Александро-дар (Рахмановка) Криво-Рогской волости Херсонского уезда Херсонской губернии;
Щежины: Ардатовский уезд Нижегородской губернии
vnbob

Сообщений: 542
На сайте с 2013 г.
Рейтинг: 117

lactarius написал:
[q]
Выложил текстовые версии на http://depositfiles.com/files/uw6o2341u
[/q]


Спасибо. Уже легче 101.gif

Но первые 9 ведомостей сохранены в кодовой странице 1251 (ANSI) - там нет старославянских символов, они замещены ?

Только последняя: Церковные_ведомости_и_прибавления_1907_2.txt - сохранена правильно: codepage 1200 (UTF-16), все символы в наличии!


elena_krd

elena_krd

Сообщений: 6565
На сайте с 2008 г.
Рейтинг: 11469

vnbob написал:
[q]
Но первые 9 ведомостей сохранены в кодовой странице 1251 (ANSI) - там нет старославянских символов, они замещены ?
[/q]

А я, не мудрствуя лукаво, в текстах со знаком "?" на месте старославянских в поисковой строке и вбивала этот "?" на месте старославянских 101.gif
Т.е. вместо своих "Цѣлиц" вбивала "Ц?ли". "Цели" мне и искались 101.gif
Спасибо Вам, lactarius.
Самый первоначальный вариант (с "тяжелыми" файлами в *.doc) мой Опенофис переварить не смог. Не стала уж капризничать confuse.gif А в таком виде файлы идут на "Ура!".
Спасибо Вам smayli.ru/smile/molitva-16.html

---
Спасибо.
С уважением, Елена.

----
Шафрановские (Гомельский уезд Могилевской губ.), Целицо(а) (везде), Цы(и)товичи (Могилевская губ.), Ка(о)ктыш (Зубелевичи/Ляховичи, Слуцкого уезда Минской губ.).
lactarius

Москва->США->?
Сообщений: 394
На сайте с 2011 г.
Рейтинг: 372
[q]
Но первые 9 ведомостей сохранены в кодовой странице 1251 (ANSI) - там нет старославянских символов, они замещены ?
[/q]

Спасибо за замечания, vnbob! Жаль что Вы это раньше не сказали, когда я выкладывал первую партию. Там та же проблема с кодировкой.
Вторую партию я поправил (надеюсь dntknw.gif ):
http://depositfiles.com/files/nlrvmajyb
Через пару дней переконвертирую и первую.
---
Все мои личные данные, размещены мною на сайте добровольно и специально для поиска родственников
Грибок: село Александро-дар (Рахмановка) Криво-Рогской волости Херсонского уезда Херсонской губернии;
Щежины: Ардатовский уезд Нижегородской губернии
vnbob

Сообщений: 542
На сайте с 2013 г.
Рейтинг: 117

lactarius написал:
[q]
Спасибо за замечания, vnbob! Жаль что Вы это раньше не сказали, когда я выкладывал первую партию. Там та же проблема с кодировкой.
[/q]


Моя работа связана с компьютерами...

Что касается темы, то наиболее оптимальным будет способ наложения распознанного текста подоснову оригинального изображения вторым слоем - это умеет делать FinerReader (версии 8). При этом размер PDF ненамного увеличивается , но в нём можно производить полноценный текстовый поиск, и сразу видно при удачном нахождении, что было в оригинале.
← Назад    Вперед →Страницы: ← Назад 1 2 3 4 5 6 7 8 * 9 10 11 12 Вперед →
Вверх ⇈