Загрузите GEDCOM-файл на ВГД   [х]
Всероссийское Генеалогическое Древо
На сайте ВГД собираются люди, увлеченные генеалогией, историей, геральдикой и т.д. Здесь вы найдете собеседников, экспертов, умелых помощников в поисках предков и родственников. Вам подскажут где искать документы о павших в боях и пропавших без вести, в какой архив обратиться при исследовании родословной своей семьи, помогут определить по старой фотографии принадлежность к воинским частям, ведомствам и чину. ВГД - поиск людей в прошлом, настоящем и будущем!
Вниз ⇊

Web scrape

Как скачать без всякого труда (или с трудом, но небольшим; или с большим, но не очень) золотую рыбку из интернетовского пруда?
Ответ: я тоже не знаю (все). Но кое что все-таки из моих потуг может оказаться не вредным.

← Назад    Вперед →Страницы:  1 2 3 4 Вперед →
Модератор: abv
abv
Модератор раздела

abv

Красногорск, Моск.обл.
Сообщений: 2143
На сайте с 2004 г.
Рейтинг: 915
На золотом крыльце forum.vgd.ru, на золотой его ветке "Императорский Варшавский университет" https://forum.vgd.ru/1411/90097/all.htm?a=stdforum_view&o= сидят золотые ссылки на списки студентов оного университета
[q]


[/q]

Удобно (мне было) скачивать эти 6 коллекций (в каждой из которых от 60 до 520 сканов) с помощью 6 маленьких файликов, которые прикрепляю.
Суть в том, что каждый файл, который содержит ссылки на сканы коллекции, надо открыть в браузере, дождаться загрузки всех страниц, и затем сохранить файл себе на диск. На диске образуется папка вида .._files/, в которой и сохранятся все сканы коллекции.


Прикрепленный файл (1909-1910.htm, 31348 байт)
Прикрепленный файл (1910-1911.htm, 44145 байт)
Прикрепленный файл (1911-1912.htm, 57336 байт)
Прикрепленный файл (1913-1914.htm, 57345 байт)
Прикрепленный файл (1913-1914-2.htm, 57345 байт)
Прикрепленный файл (1914-1915.htm, 57345 байт)
---
Персональная история русскоязычного мира
http://personalhistory.ru
info@personalhistory.ru
Новости из царской России
Яндекс-дзен https://zen.yandex.ru/id/5eee495659f4f25be9052961
medium.com https://medium.com/me/stories/public
Дневник https://forum.vgd.ru/5623/
https://1russia.wordpress.com/
Лайк (1)
abv
Модератор раздела

abv

Красногорск, Моск.обл.
Сообщений: 2143
На сайте с 2004 г.
Рейтинг: 915
А вот другой случай.
elibrary.tambovlib.ru
Понадобилось (попросили помочь) скачать "Материалы для истории, статистики и археологии города Темникова и его уезда XVII и XVIII ст. (Темниковская десятина). Приложение к "Известиям" Тамбовской архивной комиссии" https://elibrary.tambovlib.ru/?ebook=3425#n=1
Решение прилагаю ниже (файл elibrary.tambovlib.ru.html)
Инструкция:

  • В браузере открыть эту страницу
  • Дождаться, пока страница полностью загрузится (т.е. когда колесико перестанет крутиться)
  • Сохранить эту страницу на диск, под именем, скажем, elibrary.tambovlib.ru+.html
  • В папке elibrary.tambovlib.ru+_files будут 146 файлов с именами вида saved_resource, ..., saved_resource(145) (без расширения)
  • Дать файлам расширение jpg и, по вкусу, перенумеровать их по порядку


Ежли кому интересны детали (откуда взялся волшебный файл) - о том поведаю завтра. А если никому не интересно, то не буду на это тратить время.

15.12.21 Сайт хитренький маленько. В принципе, можно на нем скачивать по одной странице, и казалось бы, качай да качай, да устанет рука (хотя от коровы от этой молока не видали пока). Но после неск. скачиваний корова начинает брыкаться:

Сайт заводит cookies, в котором можно видеть следующее
NameValueExpires
SPH_EBOOK[3425][pages_viewed]32021-12-16T07:27:18.816Z
SPH_EBOOK[view]2Session
После каждого скачивания одного скана счетчик (значение колонки Value первой строчки) увеличивается на единицу. Заканчивается все это (на моем компе) зависанием очередного скачивания (без каких-бы то ни было сообщений и предупреждений) - видать программа проверяет что Value в первой строчке превысило значение во второй строчке. Судя по колонке Expires, действует такое ограничение ровно сутки.
Люди говорят, что у них появляется сообщение
[q]
Ограниченный просмотр
Вы находитесь в режиме ограниченного доступа к "Электронной библиотеке Тамбовской области" и просмотрели допустимое число страниц.
Если вы хотите пользоваться электронной библиотекой без ограничений, необходимо осуществить вход на сайт. Для этого вы можете использовать свою учётную запись в одной из предложенных социальных сетей.
[/q]

Последующая регистрация и вход пользы не приносят.
Возможно в игре (на нервах) участвует также следующая плеяда в полосатых купальниках (особенно третья строчка)
[q]
<input id="book-id" type="hidden" value="3425" />
<input id="user" type="hidden" value="guest" />
<input id="maxShow" type="hidden" value="10" />
[/q]

Как говорится, Show must stop on 10.

Возникает резонный вопрос - и куды бедному крестьянину податься?

Если глянуть на исходный код страницы, можно видеть следующее:
[q]
json_pages = [{"total":146,"d":"Материалы для истории, статистики и археологии города Темникова и его уезда XVII и XVIII ст. (Темниковская десятина). Приложение к \"Известиям\" Тамбовской архивной комиссии ","bookmarks":0},{"id":"1831411a9422634c92a3","d":"Обложка"},{"id":"1831411a9422c74c92a3","d":""},{"id":"17d7411a941f434c92b3","d":""},{"id":"17d7411a941fa74c92b3","d":""},{"id":"17d7411a94200b4c92b3","d":"Титульный лист"},...
[/q]

Если первую строчку превратить в (до гориз. черты - что надо вставить в файл, далее - что будет видно в броузере)
[q]
<center><h2>Материалы для истории, статистики и археологии города Темникова и его уезда XVII и XVIII ст. (Темниковская десятина). Приложение к \"Известиям\" Тамбовской архивной комиссии</h2>
<br>Всего сканов 146</center>

Материалы для истории, статистики и археологии города Темникова и его уезда XVII и XVIII ст. (Темниковская десятина). Приложение к \"Известиям\" Тамбовской архивной комиссии



Всего сканов 146
[/q]

А все остальные - вида
[q]
{"id":"17d7411a94200b4c92b3","d":"Титульный лист"}
[/q]

преобразовать в (до гориз. черты - что надо вставить в файл, далее - что будет видно в броузере)
[q]
<hr>Титульный лист<br><img src="https://elibrary.tambovlib.ru/?eimg=17d7411a94200b4c92b3.800x1200">

Титульный лист
[/q]

то и получится этот волшебный файл.


Прикрепленный файл (elibrary.tambovlib.ru.html, 19987 байт)
---
Персональная история русскоязычного мира
http://personalhistory.ru
info@personalhistory.ru
Новости из царской России
Яндекс-дзен https://zen.yandex.ru/id/5eee495659f4f25be9052961
medium.com https://medium.com/me/stories/public
Дневник https://forum.vgd.ru/5623/
https://1russia.wordpress.com/
Лайк (4)
abv
Модератор раздела

abv

Красногорск, Моск.обл.
Сообщений: 2143
На сайте с 2004 г.
Рейтинг: 915
А вот еще один случай.
Вестник Грузинского экзархата 1891-1917 https://dspace.nplg.gov.ge/han...&locale=en
Скачивать не очень удобно - приходится открывать 337 страниц (по одной на каждый выпуск) и там скачивать, как правило, две ссылки - сам Вестник и прибавление к нему (если оно есть).

Скачивайте Братья, применяя прикладываемый файл.
Надо его открыть в браузере и прощелкать (по правой кнопке мыши открыть выпадающее меню и выбрать "Сохранить ссылку как" и скачать файл pdf в текущую или выбранную папку) в каждой строчке две ссылки - на Вестник и на Прибавление.


Прикрепленный файл (Вестник Грузинского экзархата.html, 272667 байт)
---
Персональная история русскоязычного мира
http://personalhistory.ru
info@personalhistory.ru
Новости из царской России
Яндекс-дзен https://zen.yandex.ru/id/5eee495659f4f25be9052961
medium.com https://medium.com/me/stories/public
Дневник https://forum.vgd.ru/5623/
https://1russia.wordpress.com/
Лайк (2)
abv
Модератор раздела

abv

Красногорск, Моск.обл.
Сообщений: 2143
На сайте с 2004 г.
Рейтинг: 915
Еще был другой случай..
dlib.rsl.ru
Скачать хотелось "Кавказский календарь" https://search.rsl.ru/ru/record/01003506297
Хотеть не вредно. Вредно не хотеть.
Опустим (ненужные?) подробности. Скажу только, что вящего удобства ради ссылки упорядочены по годам (это делает программа на Питоне).
Открывайте приложенный файл в браузере и кликайте на кнопку "Ссылка" в последней колонке каждой строчки.

Грузится медленно, но не спешите стрелять в тапера - пуля вылетела, проблема на той стороне (сервер viewer.rusneb.ru), точнее, относительно малая скорость - из-за больших размеров файлов - каждый весит 500 и больше мегабайт.

В той коллекции одного года не хватает - 1863.
Но он есть здесь: https://book-olds.ru/BookLibra...3-god.html
И еще одного года нет - 1888
Он есть по адресам
https://rusneb.ru/catalog/001199_000087_77/
https://book-olds.ru/BookLibra...8-god.html

Подработал малость эту ситуацию с годом 1888. Он в списке коллекции есть, а вот ссылки для скачивания файла для этого года нет.
Старый вариант программы проверял наличие ссылки так:
[q]
tag.name=='p' and tag.span and tag.find_next_sibling('a', {'class':'rsl-clear-link'})
[/q]

В итоге для 1888 года неправильно подбиралась (дублировалась) ссылка для скачивания следующего, 1889, года.
Исправленный вариант проверки имеет вид:
[q]
tag.name=='p' and tag.span and 'rsl-clear-link' in tag.next_sibling.next_sibling['class']
[/q]

Теперь, как и должно быть, в файле оказывается не 72, а 71 ссылка на скачивание.
Остается добавить вручную, по вкусу, ссылки для двух исключительных лет - 1863 и 1888, и усе.


Прикрепленный файл (Кавказский календарь_.html, 16219 байт)
---
Персональная история русскоязычного мира
http://personalhistory.ru
info@personalhistory.ru
Новости из царской России
Яндекс-дзен https://zen.yandex.ru/id/5eee495659f4f25be9052961
medium.com https://medium.com/me/stories/public
Дневник https://forum.vgd.ru/5623/
https://1russia.wordpress.com/
Лайк (2)
abv
Модератор раздела

abv

Красногорск, Моск.обл.
Сообщений: 2143
На сайте с 2004 г.
Рейтинг: 915
Я тут как-то думал-думал, и мысль меня посетила - а не замахнуться ли нам на Вильяма, понимаешь-ли, Шекспира?
shpl.ru
Хотим мы скачать, скажем
[q]
Вся Москва. Адресная и справочная книга... [по годам]. - М., 1875-. - Издательство: 1875-1881 гг. -
... на 1892 год : Год 21-й. - 1892. - 308 с., 774 стб., 1 л. пл. - Загл. вып. : Адрес-календарь г. Москвы.
http://elib.shpl.ru/ru/nodes/27260
Содержит 785 сканов
[/q]

или, еще того пуще
[q]
Россия. Министерство народного просвещения. Список лиц, служащих по ведомству Министерства народного просвещения ... [по годам]. - Пг., 1878-1916. - Загл. за ряд лет : Список лицам, служащим по ведомству Министерства народного просвещения ... .
... на 1907 год. - 1907. - VIII, 1266 с.
http://elib.shpl.ru/ru/nodes/70449
1290 сканов
[/q]

Удобной кнопки для скачивания нет. А вручную. скачивать по одной страничке - устанет рука, да и не кошерно это.

Выручает (меня) программа на Питоне, которой нужно сообщить два параметра:
  • node - это id издания (Напр., у "Всей Москвы 1892" - 27260, а у "Списка лицам МНП 1907" - 70449)
  • local_dir - путь к папке, в которую надо сохранить сканы

Программа создаст в указанном месте (local_dir) папку с именем node и запишет туда последовательно все сканы (каждый из которых, в свою очередь, тоже имеет свой id в системе учета shpl.ru, вот с этим именем будет записан скан, с расширением jpg)
---
Персональная история русскоязычного мира
http://personalhistory.ru
info@personalhistory.ru
Новости из царской России
Яндекс-дзен https://zen.yandex.ru/id/5eee495659f4f25be9052961
medium.com https://medium.com/me/stories/public
Дневник https://forum.vgd.ru/5623/
https://1russia.wordpress.com/
Лайк (2)
Nikola

Nikola

Эстония
Сообщений: 6044
На сайте с 2006 г.
Рейтинг: 2960
Полезно было бы так же получать карты с ОБД "Память народа"
---
Барчаны, Шаповаловы, Бражник (Украина), Ларюшины, Воронины (Рязанская обл.)
abv
Модератор раздела

abv

Красногорск, Моск.обл.
Сообщений: 2143
На сайте с 2004 г.
Рейтинг: 915

Nikola написал:
[q]
Полезно было бы так же получать карты с ОБД "Память народа"
[/q]

Что за карты? Ссылку дайте, в качестве примера.


---
Персональная история русскоязычного мира
http://personalhistory.ru
info@personalhistory.ru
Новости из царской России
Яндекс-дзен https://zen.yandex.ru/id/5eee495659f4f25be9052961
medium.com https://medium.com/me/stories/public
Дневник https://forum.vgd.ru/5623/
https://1russia.wordpress.com/
abv
Модератор раздела

abv

Красногорск, Моск.обл.
Сообщений: 2143
На сайте с 2004 г.
Рейтинг: 915
А вот был еще другой случай.
odintsovo.info
Список чинов Министерства Императорского двора 1910
Сайт предлагает просматривать сие богатство в виде слайд-шоу. Ну я и подумал, ничтоже сумняшеся, а оно нам надо?
Решил я эти сканы, числом 791, скачивать через Orbit Downloader - задаешь список для закачки

https://odintsovo.info/img/blo...ca_001.jpg
...
https://odintsovo.info/img/blo...ca_791.jpg

и идешь чай пить.
Ну думаю, успею ли попить-то?
Зря волновался - успел. Сутки Orbit качал, дв и то еще 41 скан осталось скачать.
Видать, нервно относится сайт к даунлоадерам типа Orbit.

Пришлось идти на поклон к Питону. Ну он, добрый, помог. Вот программа

import requests
import os.path
from user_agent import generate_user_agent
timeout = 45
base = 'https://odintsovo.info/'
for n in range(791):
nt = str(n+1).zfill(3)
if os.path.exists(f"{nt}.jpg"):
print(f"{nt}.jpg already exists")
else:
url=f"{base}img/blog-new/2018/61931/Spisok.chinov.Ministerstva.Imperatorskogo.dvora.5.sentjabrja.1910.1910.PDF_Stranica_{nt}.jpg"
headers = {'User-Agent': generate_user_agent(device_type="desktop", os=('mac', 'linux'))}
img = requests.get(url, timeout=timeout, headers=headers).content
with open(f"{nt}.jpg", 'wb') as handler:
handler.write(img)
print(f"{nt}.jpg written")

Ожидая худшего, предусмотрел даже многократный запуск (проверка того, что какие-то сканы уже скачаны, чтобы скачивать остальные).
Но и тут интуиция подвела - не понадобилась эта предосторожность.

Бог троицу любит. Фефекты фикции. Стал копировать скачанные файлы, смотрю - оказывается я еще в 2010 уже скачивал откуда-то, причем не постранично, а одним файлом pdf.
---
Персональная история русскоязычного мира
http://personalhistory.ru
info@personalhistory.ru
Новости из царской России
Яндекс-дзен https://zen.yandex.ru/id/5eee495659f4f25be9052961
medium.com https://medium.com/me/stories/public
Дневник https://forum.vgd.ru/5623/
https://1russia.wordpress.com/
Nikola

Nikola

Эстония
Сообщений: 6044
На сайте с 2006 г.
Рейтинг: 2960

abv написал:
[q]
Ссылку дайте, в качестве примера.
[/q]

https://pamyat-naroda.ru/warun...4b676620v1
https://pamyat-naroda.ru/warun...4b676620v1
---
Барчаны, Шаповаловы, Бражник (Украина), Ларюшины, Воронины (Рязанская обл.)
abv
Модератор раздела

abv

Красногорск, Моск.обл.
Сообщений: 2143
На сайте с 2004 г.
Рейтинг: 915

Nikola написал:
[q]

https://pamyat-naroda.ru/warun...4b676620v1
[/q]


Там адреса вида core-renderer-tiles.maps.yandex.net/tiles?l=map&v=21.12.21-1-b211218133230&x=39&y=18&z=6&scale=1&lang=ru_RU
[q]
https://core-renderer-tiles.ma...lang=ru_RU
[/q]

Это tiles - разбиение большой карты на кусочки, номера которых по x и y указываются в параметрах x=39 и y=18 (параметр z=6 отвечает, я думаю, за зум - масштаб), хотя там есть еще параметр scale=1

Можно нажать F12, там выбрать вкладку Network, выбрать нужные tiles и скачать их по одному (например, по правой кнопке мыши на строке очередного tile выбрать "Open in new tab"), откроется новая вкладка браузера с этим куском карты, сохранить его).
Соседние участки можно уже не в F12 искать, а в этой новой открытой вкладке браузера менять параметры x и y, как нужно.


---
Персональная история русскоязычного мира
http://personalhistory.ru
info@personalhistory.ru
Новости из царской России
Яндекс-дзен https://zen.yandex.ru/id/5eee495659f4f25be9052961
medium.com https://medium.com/me/stories/public
Дневник https://forum.vgd.ru/5623/
https://1russia.wordpress.com/
← Назад    Вперед →Страницы:  1 2 3 4 Вперед →
Модератор: abv
Вверх ⇈