Епархиальные ведомости и прибавления
Источники информации
TatianaLGNNМодератор раздела ВГД дарит удочку. Рыбу ловить должны вы сами  Нижний Новгород Сообщений: 25313 На сайте с 2003 г. Рейтинг: 7648 | Наверх ##
28 сентября 2011 8:13 28 сентября 2011 8:14 lactarius Спасибо большое Уже в трех журналах нашла о нижегородцах --- Уважаемые друзья, вновь пришедшие на форум. Очень прошу, прежде чем задать мне вопрос в личку, ну почитайте немного форум.И потом мои знания распространяются не на всю бывшую Российскую империю, а в основном на Нижегородскую губернию.
_______
https://forum.vgd.ru/899/
| | |
ЛюбчиноваОльга, инженер-строитель на пенсии  Омск Сообщений: 17101 На сайте с 2010 г. Рейтинг: 8656 | Наверх ##
28 сентября 2011 14:34 Скачалось нормально, только часа два, не менее качалось... распозналось действительно фрагментами... --- Любчин(ов), Пострешкин (Пострехин), Свидерский(ой)(ов), Балов, Самсонов, Тугов, Сухов(ых), Табанаков, Пакулев, Суранов, Потоцкий, Чулков, Черданце(о)в, Кунгуров, Buck, Joa, Brinkmann, Kibbermann, Си(е)дя(е)ков, Шляпников, Вьюков, Булгаков, Рождественский, фон Йорк, Костюков | | |
Siegehardus | Наверх ##
28 сентября 2011 16:13 Konstantin Ivanov[q] Управился за два часа с четвертью. [/q]
У меня скачалось за 11 мин. | | |
vnbob Сообщений: 542 На сайте с 2013 г. Рейтинг: 116
| Наверх ##
28 сентября 2011 20:25 28 сентября 2011 20:26 lactarius написал: [q] Распознается очень медленно: где-то 1 страница в минуту. Хотя у меня довольно слабая машина. Получается в среднем по одной книге в день. Никакой вычитки я не делал - что распозналось, то распозналось.
Поделюсь своим опытом по поиску фамилий в тексте: так как качество плохое, искать нужно минимальную имеющую смысл подстрочку. Например по фамилии Флоринский я искал подстроку "флор". В результате получал несколько десятков мест в каждой книге, которые уже подробно смотрел.[/q]
Моё Вам уважение за такой труд! Машинка действительно слабая. На 2-х ядерном компе страница распознаётся ~ 6-8 сек.. Поиск нужно делать по всем возможным вариантам, учитывая ошибки распознавания - часто буквы c одинаковым написанием путаются (л-п, и-н и т.п.) Мой совет : поскольку нас в данном случае интересует только текст, в программе распознавания в установках : сохранение результатов нужно убрать сохранение картинок, оформления, шрифтов и вариантов написания - только планарный текст. Т.о. размер выходного файла уменьшится на 2 порядка, и поиск вести быстрее. Ведь в случае нахождения всё-равно придётся обращаться к первоисточнику в PDF | | |
lactarius Москва->США->? Сообщений: 394 На сайте с 2011 г. Рейтинг: 372
| Наверх ##
29 сентября 2011 10:39 vnbob написал: [q] Машинка действительно слабая. На 2-х ядерном компе страница распознаётся ~ 6-8 сек..[/q]
тут странная штука получается. На первых томах распознавание шло раза в 3 быстрее, чем сейчас. Возможно PDF-transformer постепенно накапливает какую-то статистику для улучшения результатов распознавания, но использование этой статистики сильно замедляет процесс vnbob написал: [q] Мой совет : поскольку нас в данном случае интересует только текст, в программе распознавания в установках : сохранение результатов нужно убрать сохранение картинок, оформления, шрифтов и вариантов написания - только планарный текст. Т.о. размер выходного файла уменьшится на 2 порядка, и поиск вести быстрее. Ведь в случае нахождения всё-равно придётся обращаться к первоисточнику в PDF[/q]
Мне кажется картинки и оформление могут быть полезны как раз для того, чтобы потом легче было найти нужное место в оригинальном PDF. С другой стороны, если хочется оставить только голый текст, то сбросить его из Ворда не составляет труда. --- Все мои личные данные, размещены мною на сайте добровольно и специально для поиска родственников
Грибок: село Александро-дар (Рахмановка) Криво-Рогской волости Херсонского уезда Херсонской губернии;
Щежины: Ардатовский уезд Нижегородской губернии | | |
vnbob Сообщений: 542 На сайте с 2013 г. Рейтинг: 116
| Наверх ##
1 октября 2011 15:22 lactarius написал: [q] Мне кажется картинки и оформление могут быть полезны как раз для того, чтобы потом легче было найти нужное место в оригинальном PDF. С другой стороны, если хочется оставить только голый текст, то сбросить его из Ворда не составляет труда.[/q]
1. картинки не нужны! когда производится текстовый поиск - сохраняйте с "разбивкой на страницы", и легко сориентируетесь 2. лучше сделать это сразу, многие так и не смогли скачать Ваш архив по причине большого объёма, где 95% занимают именно изображения, которые -> см. п.1 | | |
lactarius Москва->США->? Сообщений: 394 На сайте с 2011 г. Рейтинг: 372
| Наверх ##
8 октября 2011 9:44 --- Все мои личные данные, размещены мною на сайте добровольно и специально для поиска родственников
Грибок: село Александро-дар (Рахмановка) Криво-Рогской волости Херсонского уезда Херсонской губернии;
Щежины: Ардатовский уезд Нижегородской губернии | | |
lactarius Москва->США->? Сообщений: 394 На сайте с 2011 г. Рейтинг: 372
| Наверх ##
17 октября 2011 19:51 Распознал еще 10 номеров: Прибавления_к_церковным_ведомостям_1888_2.txt Прибавления_к_церковным_ведомостям_1889_1.txt Прибавления_к_церковным_ведомостям_1889_2.txt Прибавления_к_церковным_ведомостям_1890_1.txt Церковные_ведомости_1891.txt Церковные_ведомости_и_прибавления_1892_1.txt Церковные_ведомости_и_прибавления_1892_2.txt Церковные_ведомости_и_прибавления_1897_2.txt Церковные_ведомости_и_прибавления_1900_2.txt Церковные_ведомости_и_прибавления_1907_2.txt Выложил текстовые версии на http://depositfiles.com/files/uw6o2341u --- Все мои личные данные, размещены мною на сайте добровольно и специально для поиска родственников
Грибок: село Александро-дар (Рахмановка) Криво-Рогской волости Херсонского уезда Херсонской губернии;
Щежины: Ардатовский уезд Нижегородской губернии | | |
vnbob Сообщений: 542 На сайте с 2013 г. Рейтинг: 116
| Наверх ##
18 октября 2011 17:59 lactarius написал: [q] Выложил текстовые версии на http://depositfiles.com/files/uw6o2341u[/q]
Спасибо. Уже легче Но первые 9 ведомостей сохранены в кодовой странице 1251 (ANSI) - там нет старославянских символов, они замещены ? Только последняя: Церковные_ведомости_и_прибавления_1907_2.txt - сохранена правильно: codepage 1200 (UTF-16), все символы в наличии! | | |
elena_krd Сообщений: 6598 На сайте с 2008 г. Рейтинг: 11371 | Наверх ##
18 октября 2011 20:01 vnbob написал: [q] Но первые 9 ведомостей сохранены в кодовой странице 1251 (ANSI) - там нет старославянских символов, они замещены ?[/q]
А я, не мудрствуя лукаво, в текстах со знаком "?" на месте старославянских в поисковой строке и вбивала этот "?" на месте старославянских Т.е. вместо своих "Цѣлиц" вбивала "Ц?ли". "Цели" мне и искались Спасибо Вам, lactarius. Самый первоначальный вариант (с "тяжелыми" файлами в *.doc) мой Опенофис переварить не смог. Не стала уж капризничать  А в таком виде файлы идут на "Ура!". Спасибо Вам smayli.ru/smile/molitva-16.html --- Спасибо.
С уважением, Елена.
----
Шафрановские (Гомельский уезд Могилевской губ.), Целицо(а) (везде), Цы(и)товичи (Могилевская губ.), Ка(о)ктыш (Зубелевичи/Ляховичи, Слуцкого уезда Минской губ.). | | |
|