Епархиальные ведомости и прибавления
Источники информации
lactarius Москва->США->? Сообщений: 394 На сайте с 2011 г. Рейтинг: 372
| Наверх ##
29 сентября 2011 10:39 vnbob написал: [q] Машинка действительно слабая. На 2-х ядерном компе страница распознаётся ~ 6-8 сек..[/q]
тут странная штука получается. На первых томах распознавание шло раза в 3 быстрее, чем сейчас. Возможно PDF-transformer постепенно накапливает какую-то статистику для улучшения результатов распознавания, но использование этой статистики сильно замедляет процесс vnbob написал: [q] Мой совет : поскольку нас в данном случае интересует только текст, в программе распознавания в установках : сохранение результатов нужно убрать сохранение картинок, оформления, шрифтов и вариантов написания - только планарный текст. Т.о. размер выходного файла уменьшится на 2 порядка, и поиск вести быстрее. Ведь в случае нахождения всё-равно придётся обращаться к первоисточнику в PDF[/q]
Мне кажется картинки и оформление могут быть полезны как раз для того, чтобы потом легче было найти нужное место в оригинальном PDF. С другой стороны, если хочется оставить только голый текст, то сбросить его из Ворда не составляет труда. --- Все мои личные данные, размещены мною на сайте добровольно и специально для поиска родственников
Грибок: село Александро-дар (Рахмановка) Криво-Рогской волости Херсонского уезда Херсонской губернии;
Щежины: Ардатовский уезд Нижегородской губернии | | |
vnbob Сообщений: 542 На сайте с 2013 г. Рейтинг: 116
| Наверх ##
1 октября 2011 15:22 lactarius написал: [q] Мне кажется картинки и оформление могут быть полезны как раз для того, чтобы потом легче было найти нужное место в оригинальном PDF. С другой стороны, если хочется оставить только голый текст, то сбросить его из Ворда не составляет труда.[/q]
1. картинки не нужны! когда производится текстовый поиск - сохраняйте с "разбивкой на страницы", и легко сориентируетесь 2. лучше сделать это сразу, многие так и не смогли скачать Ваш архив по причине большого объёма, где 95% занимают именно изображения, которые -> см. п.1 | | |
lactarius Москва->США->? Сообщений: 394 На сайте с 2011 г. Рейтинг: 372
| Наверх ##
8 октября 2011 9:44 --- Все мои личные данные, размещены мною на сайте добровольно и специально для поиска родственников
Грибок: село Александро-дар (Рахмановка) Криво-Рогской волости Херсонского уезда Херсонской губернии;
Щежины: Ардатовский уезд Нижегородской губернии | | |
lactarius Москва->США->? Сообщений: 394 На сайте с 2011 г. Рейтинг: 372
| Наверх ##
17 октября 2011 19:51 Распознал еще 10 номеров: Прибавления_к_церковным_ведомостям_1888_2.txt Прибавления_к_церковным_ведомостям_1889_1.txt Прибавления_к_церковным_ведомостям_1889_2.txt Прибавления_к_церковным_ведомостям_1890_1.txt Церковные_ведомости_1891.txt Церковные_ведомости_и_прибавления_1892_1.txt Церковные_ведомости_и_прибавления_1892_2.txt Церковные_ведомости_и_прибавления_1897_2.txt Церковные_ведомости_и_прибавления_1900_2.txt Церковные_ведомости_и_прибавления_1907_2.txt Выложил текстовые версии на http://depositfiles.com/files/uw6o2341u --- Все мои личные данные, размещены мною на сайте добровольно и специально для поиска родственников
Грибок: село Александро-дар (Рахмановка) Криво-Рогской волости Херсонского уезда Херсонской губернии;
Щежины: Ардатовский уезд Нижегородской губернии | | |
vnbob Сообщений: 542 На сайте с 2013 г. Рейтинг: 116
| Наверх ##
18 октября 2011 17:59 lactarius написал: [q] Выложил текстовые версии на http://depositfiles.com/files/uw6o2341u[/q]
Спасибо. Уже легче Но первые 9 ведомостей сохранены в кодовой странице 1251 (ANSI) - там нет старославянских символов, они замещены ? Только последняя: Церковные_ведомости_и_прибавления_1907_2.txt - сохранена правильно: codepage 1200 (UTF-16), все символы в наличии! | | |
elena_krd Сообщений: 6598 На сайте с 2008 г. Рейтинг: 11371 | Наверх ##
18 октября 2011 20:01 vnbob написал: [q] Но первые 9 ведомостей сохранены в кодовой странице 1251 (ANSI) - там нет старославянских символов, они замещены ?[/q]
А я, не мудрствуя лукаво, в текстах со знаком "?" на месте старославянских в поисковой строке и вбивала этот "?" на месте старославянских Т.е. вместо своих "Цѣлиц" вбивала "Ц?ли". "Цели" мне и искались Спасибо Вам, lactarius. Самый первоначальный вариант (с "тяжелыми" файлами в *.doc) мой Опенофис переварить не смог. Не стала уж капризничать  А в таком виде файлы идут на "Ура!". Спасибо Вам smayli.ru/smile/molitva-16.html --- Спасибо.
С уважением, Елена.
----
Шафрановские (Гомельский уезд Могилевской губ.), Целицо(а) (везде), Цы(и)товичи (Могилевская губ.), Ка(о)ктыш (Зубелевичи/Ляховичи, Слуцкого уезда Минской губ.). | | |
lactarius Москва->США->? Сообщений: 394 На сайте с 2011 г. Рейтинг: 372
| Наверх ##
20 октября 2011 9:51 [q] Но первые 9 ведомостей сохранены в кодовой странице 1251 (ANSI) - там нет старославянских символов, они замещены ? [/q]
Спасибо за замечания, vnbob! Жаль что Вы это раньше не сказали, когда я выкладывал первую партию. Там та же проблема с кодировкой. Вторую партию я поправил (надеюсь  ): http://depositfiles.com/files/nlrvmajybЧерез пару дней переконвертирую и первую. --- Все мои личные данные, размещены мною на сайте добровольно и специально для поиска родственников
Грибок: село Александро-дар (Рахмановка) Криво-Рогской волости Херсонского уезда Херсонской губернии;
Щежины: Ардатовский уезд Нижегородской губернии | | |
vnbob Сообщений: 542 На сайте с 2013 г. Рейтинг: 116
| Наверх ##
21 октября 2011 7:45 lactarius написал: [q] Спасибо за замечания, vnbob! Жаль что Вы это раньше не сказали, когда я выкладывал первую партию. Там та же проблема с кодировкой.[/q]
Моя работа связана с компьютерами... Что касается темы, то наиболее оптимальным будет способ наложения распознанного текста подоснову оригинального изображения вторым слоем - это умеет делать FinerReader (версии 8). При этом размер PDF ненамного увеличивается , но в нём можно производить полноценный текстовый поиск, и сразу видно при удачном нахождении, что было в оригинале. | | |
lactarius Москва->США->? Сообщений: 394 На сайте с 2011 г. Рейтинг: 372
| Наверх ##
21 октября 2011 10:08 [q] Что касается темы, то наиболее оптимальным будет способ наложения распознанного текста подоснову оригинального изображения вторым слоем - это умеет делать FinerReader (версии 8). При этом размер PDF ненамного увеличивается , но в нём можно производить полноценный текстовый поиск, и сразу видно при удачном нахождении, что было в оригинале.[/q]
Именно так я хотел сделать с самого начала. Но увы.. Возможно в FineReadere размер действительно увеличивается незначительно, но при использовании PDF-transformerа он возрастает катастрофически - в 2-3 раза. При этом размеры оригинальных файлов до распознавания уже весьма немаленькие - 100 и более мегабайт. В результате получаем документы размером в несколько сот мегабайт. Более того, с большими по размеру файлами PDF-transformer в этом случае просто не справляется - вылетает с ошибкой. Для получения разумных по размеру двухслойных файлов нужно использовать djvu-формат, но это за пределами возможностей продуктов ABBYY. Видимо надо разбираться с Tesseract-OCR. --- Все мои личные данные, размещены мною на сайте добровольно и специально для поиска родственников
Грибок: село Александро-дар (Рахмановка) Криво-Рогской волости Херсонского уезда Херсонской губернии;
Щежины: Ардатовский уезд Нижегородской губернии | | |
lactarius Москва->США->? Сообщений: 394 На сайте с 2011 г. Рейтинг: 372
| Наверх ##
20 ноября 2011 1:15 lactarius написал: [q] Через пару дней переконвертирую и первую.[/q]
Насчет пары дней я погорячился.  Но вот наконец и она: первая часть в исправленной кодировке http://depositfiles.com/files/av3g6lnvk --- Все мои личные данные, размещены мною на сайте добровольно и специально для поиска родственников
Грибок: село Александро-дар (Рахмановка) Криво-Рогской волости Херсонского уезда Херсонской губернии;
Щежины: Ардатовский уезд Нижегородской губернии | | |
|