⮉
| VGD.ru | РЕГИСТРАЦИЯ | Войти | Поиск |
Web scrape Как скачать без всякого труда (или с трудом, но небольшим; или с большим, но не очень) золотую рыбку из интернетовского пруда?
|
| Вперед → | Страницы: 1 * 2 3 4 Вперед → Модератор: abv |
| Nikola Эстония Сообщений: 6179 На сайте с 2006 г. Рейтинг: 3038 | Полезно было бы так же получать карты с ОБД "Память народа" |
| abv Модератор раздела Красногорск, Моск.обл. Сообщений: 2196 На сайте с 2004 г. Рейтинг: 954 | Nikola написал: Полезно было бы так же получать карты с ОБД "Память народа" Что за карты? Ссылку дайте, в качестве примера. |
| abv Модератор раздела Красногорск, Моск.обл. Сообщений: 2196 На сайте с 2004 г. Рейтинг: 954 | А вот был еще другой случай. odintsovo.info Список чинов Министерства Императорского двора 1910 Сайт предлагает просматривать сие богатство в виде слайд-шоу. Ну я и подумал, ничтоже сумняшеся, а оно нам надо? Решил я эти сканы, числом 791, скачивать через Orbit Downloader - задаешь список для закачки
и идешь чай пить. Ну думаю, успею ли попить-то? Зря волновался - успел. Сутки Orbit качал, дв и то еще 41 скан осталось скачать. Видать, нервно относится сайт к даунлоадерам типа Orbit. Пришлось идти на поклон к Питону. Ну он, добрый, помог. Вот программа
Ожидая худшего, предусмотрел даже многократный запуск (проверка того, что какие-то сканы уже скачаны, чтобы скачивать остальные). Но и тут интуиция подвела - не понадобилась эта предосторожность. Бог троицу любит. Фефекты фикции. Стал копировать скачанные файлы, смотрю - оказывается я еще в 2010 уже скачивал откуда-то, причем не постранично, а одним файлом pdf. |
| Nikola Эстония Сообщений: 6179 На сайте с 2006 г. Рейтинг: 3038 | abv написал: Ссылку дайте, в качестве примера. https://pamyat-naroda.ru/warun...4b676620v1 https://pamyat-naroda.ru/warun...4b676620v1 |
| abv Модератор раздела Красногорск, Моск.обл. Сообщений: 2196 На сайте с 2004 г. Рейтинг: 954 | Nikola написал:
Там адреса вида core-renderer-tiles.maps.yandex.net/tiles?l=map&v=21.12.21-1-b211218133230&x=39&y=18&z=6&scale=1&lang=ru_RU https://core-renderer-tiles.ma...lang=ru_RU Это tiles - разбиение большой карты на кусочки, номера которых по x и y указываются в параметрах x=39 и y=18 (параметр z=6 отвечает, я думаю, за зум - масштаб), хотя там есть еще параметр scale=1 Можно нажать F12, там выбрать вкладку Network, выбрать нужные tiles и скачать их по одному (например, по правой кнопке мыши на строке очередного tile выбрать "Open in new tab"), откроется новая вкладка браузера с этим куском карты, сохранить его). Соседние участки можно уже не в F12 искать, а в этой новой открытой вкладке браузера менять параметры x и y, как нужно. |
| abv Модератор раздела Красногорск, Моск.обл. Сообщений: 2196 На сайте с 2004 г. Рейтинг: 954 | Лужу, паяю, сайты скачаю! А вот был еще другой случай. http://historypenza.ru/imennoj-ukazatel/ Именной указатель священно-церковно-служителей пензенской губернии 1866-1917 На сайте - список из 23000+ персон, да попробуй скачай (а хотя бы и не скачай, а просто выбери нужную страницу или найди нужную фамилию). Ну пришлось применить Python+Selenium. Вроде помогло - программа скачивает порциями по 100 записей (каждая порция примерно за минуту-полторы). Весь процесс займет 4-5 часов. Получится файл в виде таблицы html. Спешу поделиться - прилагаю первые три порции - 300 персон. P.S. Докладываю обстановку. Не понравилось сайту (и, возможно, программе тоже) четырехчасовое сидение. Пришлось добавить в программу возможность повторной закачки и докачки. Для этого разделил один выходной файл на 232 - каждую порцию в 100 персон вывожу отдельно. При повторном запуске программа сначала проверяет существование файлов с номером порции, и скачивает, только если такой порции еще в виде файла нет. Это помогло закачать все 23144 записи за два вызова программы (1 прогон - порции 1-88, 2-й - остальные). Если кому сильно надо скачать данные с этого сайта или с какого другого - обращайтеся, поможем. Не за здорово живешь, конечно. Но не обидим, однозначно. 04.09.2023 Кстати, о птичках. Сделал эту работу еще раз, забыв, что это уже было https://forum.vgd.ru/post/5625/125597/p4692533.htm#pp4692533 Но все равно оказалось полезно, т.к. ПО за эти два года изменилось (Selenium 4), и программу пришлось малость обновить, но хуже, вроде, не стало. Прикрепленный файл (result_.html, 58448 байт) |
Лайк (1) |
| Михаха Сообщений: 4161 На сайте с 2008 г. Рейтинг: 3980 | Ура! Нашел разбирающегося в тексте, который появляется при нажатии F12. На форуме регулярно появляются желающие узнать "закрытый" адрес награжденного в наградных листах. На приведенном примере в пункте 9 закрыт плашкой следующий текст: "Орловская обл., Орловский р-н, с. Бахлансвск" Важный для многих вопрос: как прочитать закрытый планкой адрес? В принципе, если разберетесь, то этой услугой можно даже торговать. Если планка выставляется после загрузки полного документа из базы, то можно ли отключить эту ветку алгоритма? Если документ хранится в базе в двух вариантах, то как от варианта с плашкой перейти к полному варианту? |
Лайк (2) |
| abv Модератор раздела Красногорск, Моск.обл. Сообщений: 2196 На сайте с 2004 г. Рейтинг: 954 | Там на Помазнев Василий Трофимович выскакивает 28 ссылок, да в каждой по нескольку документов. Дайте конкретную ссылку на случай "закрытого планкой адреса". |
| Михаха Сообщений: 4161 На сайте с 2008 г. Рейтинг: 3980 | |
| abv Модератор раздела Красногорск, Моск.обл. Сообщений: 2196 На сайте с 2004 г. Рейтинг: 954 | https://cdnc.pamyat-naroda.ru/...000181.jpg Думаю, картинка с такой закраской поля "Пост. адрес" приходит с сервера, а не на клиенте планка вставляется. Это логично и с точки зрения скорости работы сайта. Картинки в данном случае там хранятся по адресу https://cdnc.pamyat-naroda.ru/podvig/Z/001/033-0682524-0439 , который непосредственно недоступен, только конкретные адреса картинок. Возня какая-то с секретностью там есть, но она касается не планок, а инф. с номерами ящиков в ЦАМО. function setSecrecy() { $('.js__hero-card-doc-not-pub__desc').html(''); |
| Вперед → | Страницы: 1 * 2 3 4 Вперед → Модератор: abv |
Генеалогический форум » Дневники участников » Дневники участников » Дневник abv » Программа создания глоссария » Web scrape [тема №127273] | Вверх ⇈ |
|
|
| Сайт использует cookie и данные об IP-адресе пользователей, если Вы не хотите, чтобы эти данные обрабатывались, пожалуйста, покиньте сайт Пользуясь сайтом вы принимаете условия Пользовательского соглашения, Политики персональных данных, даете Согласие на распространение персональных данных и соглашаетесь с Правилами форума Содержимое страницы доступно через RSS © 1998-2026, Всероссийское генеалогическое древо 16+ Правообладателям |