⮉
| VGD.ru | РЕГИСТРАЦИЯ | Войти | Поиск |
Web scrape Как скачать без всякого труда (или с трудом, но небольшим; или с большим, но не очень) золотую рыбку из интернетовского пруда?
|
| Вперед → | Страницы: ← Назад 1 2 3 * 4 Вперед → Модератор: abv |
| buldiga Участник Сообщений: 64 На сайте с 2017 г. Рейтинг: 60 | >> Ответ на сообщение пользователя abv от 27 февраля 2022 15:52 Доступ к карточкам - только через регистрацию в ЛК. Это надо убрать. |
| buldiga Участник Сообщений: 64 На сайте с 2017 г. Рейтинг: 60 | >> Ответ на сообщение пользователя abv от 27 февраля 2022 15:52 Есть ли сканы карточек где-то на внешних носителях, мы не знаем. Предположения можно строить всякие. |
| abv Модератор раздела Красногорск, Моск.обл. Сообщений: 2214 На сайте с 2004 г. Рейтинг: 965 | buldiga написал: >> Ответ на сообщение пользователя abv от 27 февраля 2022 15:52 Тематические карточки переписи 1917 доступны и при ГОСТЕВОМ ВХОДЕ. Проверено только что. Доступ к сканам, действительно, будет только при (бесплатной) регистрации. Но в данном случае - сканов переписи 1917 нет вовсе. |
| abv Модератор раздела Красногорск, Моск.обл. Сообщений: 2214 На сайте с 2004 г. Рейтинг: 965 | Вот что крест животворящий делает! Появились таки карточки. Так что хакеры оказались честные грабители и (все?) что они похитили, вернули (на место) под шумок. Кстати, справедливости ради, хотя и был период, когда карточек на сайте не было, но все-таки "расширенный поиск" с флажком "Наличие электронной копии" во вкладке "Дела" не отражает наличие или отсутствие электронных образов для тематических карточек переписи 1917. Для тематических карточек в расширенном поиске есть отдельная вкладка "Тематические карточки". В этой вкладке нет флажка "Наличие электронной копии", т.е. отфильтровать с помощью расширенного поиска электронные образы карточек не получится - надо проверять каждую карточку на наличие скана индивидуально. Была просьба отыскать карточку на Клявлин Михаил Александрович. Нижнеломовский уезд, Аршиновская волость, село Самодуровка Вот карточка ![]() А вот ссылка на карточку Если для каждой карточки переписи знать ее ID (для этой конкретной карточки) id=b1695c77-514c-499d-a0a2-16dacce019ff то можно скачать любую из них, или даже все (а то вдруг "хакеры" передумают) 04.09.23 Карточки можно скачивать по ссылкам вида
| ||||||||||||
Лайк (1) |
| abv Модератор раздела Красногорск, Моск.обл. Сообщений: 2214 На сайте с 2004 г. Рейтинг: 965 | Томская областная библиотека им. А.С. Пушкина Сибирская железная дорога. Список личного состава на 1 февраля 1911 года. Вып. 6. - Томск, 1911 Сибирская железная дорога. Список личного состава на 1 февраля 1911 года. Вып. 6 / М. П. С., Сиб. ж. д. — Томск : Издание канцелярии начальника дороги, 1911 ( : Товарищество "Печатня С. П. Яковлева"). — II, [2], 104 с., XI c. ; 26 см.
Содержание : Начало.
ОТДЕЛ I. Центральные учреждения Министерства Путей сообщения. ОТДЕЛ II. Список личного состава старших агентов дороги на 1 февраля 1911 года. ОТДЕЛ III. Список чинов учреждений и ведомств, причастных к Сибирской железной дороге, а также находящихся в пределах ее. ОТДЕЛ IV. Список начальствующих лиц казенных и частных железных дорог.
Алфавитный указатель.
Замеченные опечатки.
Прилагаю готовый файл "Сибирская железная дорога.htm" для закачки сканов. Инструкция по его применению:
Прикрепленный файл (Сибирская железная дорога.htm, 9826 байт) |
| abv Модератор раздела Красногорск, Моск.обл. Сообщений: 2214 На сайте с 2004 г. Рейтинг: 965 | Адрес-календарь на 1892-1893 год должностных лиц правительственных и общественных установлений Степного генерал-губернаторства "http://books.omsklib.ru/Knigi/NEW/Adres-kalendar'_liz/index.html" Ссылка заключена в кавычки, поскольку иначе forum.vgd.ru ошибочно заканчивает ссылку на символе амперсанта. Загружается pdf файл постранично (все 176 страниц), но сохранять предлагается каждую страницу по отдельности. Это кажется не совсем удобным. Может, так кажется только мне? Если нет, предлагается следующее:
В конце скопированного находим фрагмент fetch("http://books.omsklib.ru/Knigi/NEW/Adres-kalendar'_liz/Adres-kalendar'_liz.pdf", { из которого получаем правильную ссылку для закачки pdf файла "http://books.omsklib.ru/Knigi/NEW/Adres-kalendar'_liz/Adres-kalendar'_liz.pdf" |
| abv Модератор раздела Красногорск, Моск.обл. Сообщений: 2214 На сайте с 2004 г. Рейтинг: 965 | Сканы газеты "Вестник Манчжурских армий" 1905 №№ 147 (1 янв.) - 471 (31 дек.) Отсутствуют № (стр.): 150, 154, 160, 200-203, 264, 267,293, 296, 313, 327, 338, 342, 357, 373, 390, 419, 469 Повреждены № (стр.): 147, 148(1), 331, 334, 343, 344, 346, 348, 349(2), 350-353(1), 355, 369, 376, 397, 398, 422, 424, 471 Файл подготовлен с помощью программы на Питоне Сама программа не приводится здесь, но она подобна той, что была использована для составления таблицы сканов газеты "Московский Листок". Прикрепленный файл (vma.html, 74502 байт) |
| abv Модератор раздела Красногорск, Моск.обл. Сообщений: 2214 На сайте с 2004 г. Рейтинг: 965 | familysearch.org Метрические книги России - сканы и их индексированный текст КАК СОХРАНИТЬ ИНДЕКСИРОВАННЫЙ ТЕКСТ СКАНОВ ПЛЕНКИ? На примере пленки Ukraine, Odesa, church records № 005685190 г. Одесса и область - Метрические книги, Ф. 37, on. 3, д. 365-3, 1829 Инструкция по применению. 1. Открываем в браузере исходную страницу 2. Нажимаем кнопку F12 (это режим разработчика в Google Chrome), находим в меню открывшегося окна закладку Elements и нажимаем на нее, нажимаем самую левую кнопку (квадратик со стрелкой наискосок), в окне браузера нажимаем на слова "Указатель снимков" (когда мы находимся на первом из 290 сканов, под этими словами будет написано "Нет доступных индексов", для других страниц там будут текстовые поля с расшифровкой скана). После нажатия слов "Указатель снимков" в окне разработчика курсор попадет на строчку div class="record-list-tab active"... Переводим курсор на строчку выше div class="record-list-content".. Слева в этой строчке есть многоточие, нажимаем правую кнопку мыши на этом многоточии, в появившемся всплывающем меню выбираем "Copy / Copy outerHTML". В итоге нужный фрагмент страницы скопируется в текстовый буфер. (См. скриншот 1) 3. Открываем текстовый редактор, создаем новую страницу, копируем туда содержимое буфера, сохраняем полученный файл на диск с расширением htm и открываем этот файл в браузере (не закрывая файл в текстовом редакторе и не закрывая исходную страницу familysearch.org, а также не закрывая окно разработчика). В итоге мы на экране получим индексированный текст первого скана (для этой пленки первый скан не проиндексирован, для других пленок это, возможно, будет не так, т.е. индексированный текст будет непустым). 4. Далее в цикле по всем 290 сканам проделываем следующее (См. скриншот 2) 4.1. В исходном окне, где указан номер скана, нажимаем стрелку направо, чтобы перейти к следующему скану 4.2. В окне разработчика, где наш курсор уже находится на нужном месте - в строчке с кодом div class="record-list-content", нажимаем правую кнопку мыши на символе многоточия и выбираем пункт "Copy / Copy outerHTML" 4.3. Переходим в окно текстового редактора и копируем из буфера в конец открытого нами ранее файла, сохраняем файл, не закрывая его 4.4. При желании убедиться, что все идет так, как надо, можно в браузере обновить страницу с нашим локальным файлом - там снизу должен добавиться индексированный текст очередного скана. (См. скриншот 3) Прилагаю три скриншота и файл с сохраненными индексами для первых четырех сканов. Файл family.htm, 129 Кб Чтобы этот файл можно было видеть в нормальном виде, его надо сохранить на диск и уже оттуда открыть в браузере. |
Лайк (2) |
| abv Модератор раздела Красногорск, Моск.обл. Сообщений: 2214 На сайте с 2004 г. Рейтинг: 965 | Calaméo - Publishing Platform for Documents and Magazines как скачивать документы? На примере указателей к газете "Южный край" (Харьков, 1880-1919). Применяем утилиту https://calameodownload.com/ Copy and paste the url of the Calameo document you need to download as PDF into the textbox and click on "View pages and download PDF" Вот список этих указателей
В связи с этим, прилагаю 10 маленьких файлов ukaz01.html ... ukaz10.html Их надо открыть, по одному, в браузере. Дождаться полной загрузки страницы и затем сохранить под именами *.htm Тогда в 10 папках ukaz01_files ... ukaz10_files окажутся все сканы страниц. 21.06.23 Calameo Вот все хорошо в сайте https://calameodownload.com/, да не все.. Выяснилось, что не все страницы этот сайт умеет корректно читать. Пример - книга "Саратов дворянский" из коллекции книг по Саратову В этой книге 304 страницы, но читаются, примерно, 270. Проблемы есть, например, со стр.170-171, где есть фотографии, вызывающие интерес. Скажем, страница 171 так не читается: http://p.calameoassets.com/130...5/p171.jpg, выдает ошибку [code] AccessDenied[/code] а так http://p.calameoassets.com/130.../p171.svgz - читается. Все эти 304 страницы можно скачать по именам файлов p1.svgz, .., p304.svgz (начальная часть пути этих файлов одинакова). Экспериментально выяснено, что их даже можно сохранить с расширением svg, но при этом пострадает качество. Скачав и сохранив все эти файлы svgz, можно их затем открыть в броузере Chrome. А также открыть в бесплатной программе Inkscape и сохранить в формате ps. Затем в программе IrfanView можно сконвертировать файлы с расширением ps в файлы, например, с расширением jpg. Установлено, что при таком способе перевода svgz->ps->jpg качество не ухудшается. Вот такая длинная история. Кстати, для другой книги (т.е. с кодом, отличным от 001277039d506baaace05 - это код книги "Саратов дворянский"), нужно еще найти длинный код (который в данном случае равен 130805122853-08c3f8979c11e1939cec6995e34c06f5). Чтобы это сделать, надо открыть нужную книгу в броузере и в режиме разработчика (т.е. по кнопке F12) найти ссылку на любую из страниц. Эта ссылка будет содержать нужный длинный код, за которым в имени файла следует номер страницы. Вот некоторые книги коллекции (и их коды) # klubsaratovec https://www.calameo.com/accounts/1277039 # Семенов В. Н., Семенов Н. Н. Саратов дворянский http://calameo.download/001277039d506baaace05 # Зайцев М.В. Саратовская городская дума https://www.calameo.com/books/0012770397d49a5baafe5 # Рабинович Я.Н. Гдов в Смутное время (1604-1621 гг.) https://www.calameo.com/books/0012770395d33174320ce # Ардабацкий Е.Н., Ищенко А.Ф. Саратовское казначейство (исторический очерк) https://www.calameo.com/books/00127703953c23b993366 # Цыбин В.М. Судостроительные заводы в Саратовской губернии и на Волге в 1843-1917 годах https://www.calameo.com/books/0012770395a471ea0b8e6 # Саратовский государственный театр им. Н. Г. Чернышевского. 1865-1925 https://www.calameo.com/books/0012770391e1fe7eff8bb # Местное самоуправление Саратова. История и современность https://www.calameo.com/books/001277039d2547c503a97 # Сидоренко Д.Д., Сидоренко А.Д. Боевой путь 53-ей https://www.calameo.com/books/001277039d3922018b9b7 # Степаненко А. Н. Корабли постоят. Из истории саратовского судоходства https://www.calameo.com/books/001277039edc564c076fe # Сидоренко А.Д., Жуков Н.Д. Родной завод. Ч. 9 https://www.calameo.com/books/0012770392e81ec2e5725 # Рабинович Я.Н. Воеводы левобережного Саратова (1616 1641) https://www.calameo.com/books/00127703974f71c5684d1 # Семенов В. Н. Правители земли Саратовской https://www.calameo.com/books/0012770395dcbee7fa2dd # Вардугин В. И. Во благо народного здравия https://www.calameo.com/books/001277039bf7766c3877a # Семенов В. Н. Саратов геологический https://www.calameo.com/books/0012770393c41e838856c # Семенов В. Н. Саратов геофизический https://www.calameo.com/books/0012770391902eb9d7f52 # Гусакова З.Е., Майрова А.С. Саратовский край XVIII века в документах https://www.calameo.com/books/001277039ee44890c7f90 # Семенов В. Н., Семенов Н. Н. Саратов купеческий https://www.calameo.com/books/001277039d4b04e61ca41 # Семенов В. Н., Семенов Н. Н. Саратов мещанский https://www.calameo.com/books/001277039365860737ec7 # Семенов В. Н. Братья Семеновы https://www.calameo.com/books/00127703979e05fda5d6f Прикрепленный файл (ukaz01.html, 44816 байт) Прикрепленный файл (ukaz02.html, 44816 байт) Прикрепленный файл (ukaz03.html, 44816 байт) Прикрепленный файл (ukaz04.html, 44816 байт) Прикрепленный файл (ukaz05.html, 44816 байт) Прикрепленный файл (ukaz06.html, 44816 байт) Прикрепленный файл (ukaz07.html, 44816 байт) Прикрепленный файл (ukaz08.html, 44816 байт) Прикрепленный файл (ukaz09.html, 44816 байт) Прикрепленный файл (ukaz10.html, 44816 байт) | ||||||||||||||||||||||||||||||||||||||||||||
Лайк (1) |
| Вперед → | Страницы: ← Назад 1 2 3 * 4 Вперед → Модератор: abv |
Генеалогический форум » Дневники участников » Дневники участников » Дневник abv » Программа создания глоссария » Web scrape [тема №127273] | Вверх ⇈ |
|
|
| Сайт использует cookie и данные об IP-адресе пользователей, если Вы не хотите, чтобы эти данные обрабатывались, пожалуйста, покиньте сайт Пользуясь сайтом вы принимаете условия Пользовательского соглашения, Политики персональных данных, даете Согласие на распространение персональных данных и соглашаетесь с Правилами форума Содержимое страницы доступно через RSS © 1998-2026, Всероссийское генеалогическое древо 16+ Правообладателям |