⮉
VGD.ru | РЕГИСТРАЦИЯ | Войти | Поиск |
Web scrape Как скачать без всякого труда (или с трудом, но небольшим; или с большим, но не очень) золотую рыбку из интернетовского пруда?
|
← Назад Вперед → | Страницы: 1 2 3 4 Вперед → Модератор: abv |
abv Модератор раздела Красногорск, Моск.обл. Сообщений: 2143 На сайте с 2004 г. Рейтинг: 915 | На золотом крыльце forum.vgd.ru, на золотой его ветке "Императорский Варшавский университет" https://forum.vgd.ru/1411/90097/all.htm?a=stdforum_view&o= сидят золотые ссылки на списки студентов оного университета
Удобно (мне было) скачивать эти 6 коллекций (в каждой из которых от 60 до 520 сканов) с помощью 6 маленьких файликов, которые прикрепляю. Суть в том, что каждый файл, который содержит ссылки на сканы коллекции, надо открыть в браузере, дождаться загрузки всех страниц, и затем сохранить файл себе на диск. На диске образуется папка вида .._files/, в которой и сохранятся все сканы коллекции. Прикрепленный файл (1909-1910.htm, 31348 байт) Прикрепленный файл (1910-1911.htm, 44145 байт) Прикрепленный файл (1911-1912.htm, 57336 байт) Прикрепленный файл (1913-1914.htm, 57345 байт) Прикрепленный файл (1913-1914-2.htm, 57345 байт) Прикрепленный файл (1914-1915.htm, 57345 байт) |
Лайк (1) |
abv Модератор раздела Красногорск, Моск.обл. Сообщений: 2143 На сайте с 2004 г. Рейтинг: 915 | А вот другой случай. elibrary.tambovlib.ru Понадобилось (попросили помочь) скачать "Материалы для истории, статистики и археологии города Темникова и его уезда XVII и XVIII ст. (Темниковская десятина). Приложение к "Известиям" Тамбовской архивной комиссии" https://elibrary.tambovlib.ru/?ebook=3425#n=1 Решение прилагаю ниже (файл elibrary.tambovlib.ru.html) Инструкция:
Ежли кому интересны детали (откуда взялся волшебный файл) - о том поведаю завтра. А если никому не интересно, то не буду на это тратить время. 15.12.21 Сайт хитренький маленько. В принципе, можно на нем скачивать по одной странице, и казалось бы, качай да качай, да устанет рука (хотя от коровы от этой молока не видали пока). Но после неск. скачиваний корова начинает брыкаться: Сайт заводит cookies, в котором можно видеть следующее
Люди говорят, что у них появляется сообщение Ограниченный просмотр Последующая регистрация и вход пользы не приносят. Возможно в игре (на нервах) участвует также следующая плеяда в полосатых купальниках (особенно третья строчка) <input id="book-id" type="hidden" value="3425" /> Как говорится, Show must stop on 10. Возникает резонный вопрос - и куды бедному крестьянину податься? Если глянуть на исходный код страницы, можно видеть следующее: json_pages = [{"total":146,"d":"Материалы для истории, статистики и археологии города Темникова и его уезда XVII и XVIII ст. (Темниковская десятина). Приложение к \"Известиям\" Тамбовской архивной комиссии ","bookmarks":0},{"id":"1831411a9422634c92a3","d":"Обложка"},{"id":"1831411a9422c74c92a3","d":""},{"id":"17d7411a941f434c92b3","d":""},{"id":"17d7411a941fa74c92b3","d":""},{"id":"17d7411a94200b4c92b3","d":"Титульный лист"},... Если первую строчку превратить в (до гориз. черты - что надо вставить в файл, далее - что будет видно в броузере) <center><h2>Материалы для истории, статистики и археологии города Темникова и его уезда XVII и XVIII ст. (Темниковская десятина). Приложение к \"Известиям\" Тамбовской архивной комиссии</h2> А все остальные - вида {"id":"17d7411a94200b4c92b3","d":"Титульный лист"} преобразовать в (до гориз. черты - что надо вставить в файл, далее - что будет видно в броузере) <hr>Титульный лист<br><img src="https://elibrary.tambovlib.ru/?eimg=17d7411a94200b4c92b3.800x1200"> то и получится этот волшебный файл. Прикрепленный файл (elibrary.tambovlib.ru.html, 19987 байт) | |||||||||
Лайк (4) |
abv Модератор раздела Красногорск, Моск.обл. Сообщений: 2143 На сайте с 2004 г. Рейтинг: 915 | А вот еще один случай. Вестник Грузинского экзархата 1891-1917 https://dspace.nplg.gov.ge/han...&locale=en Скачивать не очень удобно - приходится открывать 337 страниц (по одной на каждый выпуск) и там скачивать, как правило, две ссылки - сам Вестник и прибавление к нему (если оно есть). Скачивайте Братья, применяя прикладываемый файл. Надо его открыть в браузере и прощелкать (по правой кнопке мыши открыть выпадающее меню и выбрать "Сохранить ссылку как" и скачать файл pdf в текущую или выбранную папку) в каждой строчке две ссылки - на Вестник и на Прибавление. Прикрепленный файл (Вестник Грузинского экзархата.html, 272667 байт) |
Лайк (2) |
abv Модератор раздела Красногорск, Моск.обл. Сообщений: 2143 На сайте с 2004 г. Рейтинг: 915 | Еще был другой случай.. dlib.rsl.ru Скачать хотелось "Кавказский календарь" https://search.rsl.ru/ru/record/01003506297 Хотеть не вредно. Вредно не хотеть. Опустим (ненужные?) подробности. Скажу только, что вящего удобства ради ссылки упорядочены по годам (это делает программа на Питоне). Открывайте приложенный файл в браузере и кликайте на кнопку "Ссылка" в последней колонке каждой строчки. Грузится медленно, но не спешите стрелять в тапера - пуля вылетела, проблема на той стороне (сервер viewer.rusneb.ru), точнее, относительно малая скорость - из-за больших размеров файлов - каждый весит 500 и больше мегабайт. В той коллекции одного года не хватает - 1863. Но он есть здесь: https://book-olds.ru/BookLibra...3-god.html И еще одного года нет - 1888 Он есть по адресам https://rusneb.ru/catalog/001199_000087_77/ https://book-olds.ru/BookLibra...8-god.html Подработал малость эту ситуацию с годом 1888. Он в списке коллекции есть, а вот ссылки для скачивания файла для этого года нет. Старый вариант программы проверял наличие ссылки так: tag.name=='p' and tag.span and tag.find_next_sibling('a', {'class':'rsl-clear-link'}) В итоге для 1888 года неправильно подбиралась (дублировалась) ссылка для скачивания следующего, 1889, года. Исправленный вариант проверки имеет вид: tag.name=='p' and tag.span and 'rsl-clear-link' in tag.next_sibling.next_sibling['class'] Теперь, как и должно быть, в файле оказывается не 72, а 71 ссылка на скачивание. Остается добавить вручную, по вкусу, ссылки для двух исключительных лет - 1863 и 1888, и усе. Прикрепленный файл (Кавказский календарь_.html, 16219 байт) |
Лайк (2) |
abv Модератор раздела Красногорск, Моск.обл. Сообщений: 2143 На сайте с 2004 г. Рейтинг: 915 | Я тут как-то думал-думал, и мысль меня посетила - а не замахнуться ли нам на Вильяма, понимаешь-ли, Шекспира? shpl.ru Хотим мы скачать, скажем Вся Москва. Адресная и справочная книга... [по годам]. - М., 1875-. - Издательство: 1875-1881 гг. - или, еще того пуще Россия. Министерство народного просвещения. Список лиц, служащих по ведомству Министерства народного просвещения ... [по годам]. - Пг., 1878-1916. - Загл. за ряд лет : Список лицам, служащим по ведомству Министерства народного просвещения ... . Удобной кнопки для скачивания нет. А вручную. скачивать по одной страничке - устанет рука, да и не кошерно это. Выручает (меня) программа на Питоне, которой нужно сообщить два параметра:
Программа создаст в указанном месте (local_dir) папку с именем node и запишет туда последовательно все сканы (каждый из которых, в свою очередь, тоже имеет свой id в системе учета shpl.ru, вот с этим именем будет записан скан, с расширением jpg) |
Лайк (2) |
Nikola Эстония Сообщений: 6044 На сайте с 2006 г. Рейтинг: 2960 | Полезно было бы так же получать карты с ОБД "Память народа" |
abv Модератор раздела Красногорск, Моск.обл. Сообщений: 2143 На сайте с 2004 г. Рейтинг: 915 | Nikola написал: Полезно было бы так же получать карты с ОБД "Память народа" Что за карты? Ссылку дайте, в качестве примера. |
abv Модератор раздела Красногорск, Моск.обл. Сообщений: 2143 На сайте с 2004 г. Рейтинг: 915 | А вот был еще другой случай. odintsovo.info Список чинов Министерства Императорского двора 1910 Сайт предлагает просматривать сие богатство в виде слайд-шоу. Ну я и подумал, ничтоже сумняшеся, а оно нам надо? Решил я эти сканы, числом 791, скачивать через Orbit Downloader - задаешь список для закачки
и идешь чай пить. Ну думаю, успею ли попить-то? Зря волновался - успел. Сутки Orbit качал, дв и то еще 41 скан осталось скачать. Видать, нервно относится сайт к даунлоадерам типа Orbit. Пришлось идти на поклон к Питону. Ну он, добрый, помог. Вот программа
Ожидая худшего, предусмотрел даже многократный запуск (проверка того, что какие-то сканы уже скачаны, чтобы скачивать остальные). Но и тут интуиция подвела - не понадобилась эта предосторожность. Бог троицу любит. Фефекты фикции. Стал копировать скачанные файлы, смотрю - оказывается я еще в 2010 уже скачивал откуда-то, причем не постранично, а одним файлом pdf. |
Nikola Эстония Сообщений: 6044 На сайте с 2006 г. Рейтинг: 2960 | abv написал: Ссылку дайте, в качестве примера. https://pamyat-naroda.ru/warun...4b676620v1 https://pamyat-naroda.ru/warun...4b676620v1 |
abv Модератор раздела Красногорск, Моск.обл. Сообщений: 2143 На сайте с 2004 г. Рейтинг: 915 | Nikola написал:
Там адреса вида core-renderer-tiles.maps.yandex.net/tiles?l=map&v=21.12.21-1-b211218133230&x=39&y=18&z=6&scale=1&lang=ru_RU https://core-renderer-tiles.ma...lang=ru_RU Это tiles - разбиение большой карты на кусочки, номера которых по x и y указываются в параметрах x=39 и y=18 (параметр z=6 отвечает, я думаю, за зум - масштаб), хотя там есть еще параметр scale=1 Можно нажать F12, там выбрать вкладку Network, выбрать нужные tiles и скачать их по одному (например, по правой кнопке мыши на строке очередного tile выбрать "Open in new tab"), откроется новая вкладка браузера с этим куском карты, сохранить его). Соседние участки можно уже не в F12 искать, а в этой новой открытой вкладке браузера менять параметры x и y, как нужно. |
← Назад Вперед → | Страницы: 1 2 3 4 Вперед → Модератор: abv |
Генеалогический форум » Дневники участников » Дневники участников » Дневник abv » Программа создания глоссария » Web scrape [тема №127273] | Вверх ⇈ |
|
Сайт использует cookie и данные об IP-адресе пользователей, если Вы не хотите, чтобы эти данные обрабатывались, пожалуйста, покиньте сайт Пользуясь сайтом вы принимаете условия Пользовательского соглашения, Политики персональных данных, даете Согласие на распространение персональных данных и соглашаетесь с Правилами форума Содержимое страницы доступно через RSS © 1998-2025, Всероссийское генеалогическое древо 16+ Правообладателям |