⮉
| VGD.ru | РЕГИСТРАЦИЯ | Войти | Поиск |
Web scrape Как скачать без всякого труда (или с трудом, но небольшим; или с большим, но не очень) золотую рыбку из интернетовского пруда?
|
| Вперед → | Страницы: ← Назад 1 2 * 3 4 Вперед → Модератор: abv |
| Михаха Сообщений: 4161 На сайте с 2008 г. Рейтинг: 3978 | Ура! Нашел разбирающегося в тексте, который появляется при нажатии F12. На форуме регулярно появляются желающие узнать "закрытый" адрес награжденного в наградных листах. На приведенном примере в пункте 9 закрыт плашкой следующий текст: "Орловская обл., Орловский р-н, с. Бахлансвск" Важный для многих вопрос: как прочитать закрытый планкой адрес? В принципе, если разберетесь, то этой услугой можно даже торговать. Если планка выставляется после загрузки полного документа из базы, то можно ли отключить эту ветку алгоритма? Если документ хранится в базе в двух вариантах, то как от варианта с плашкой перейти к полному варианту? |
Лайк (2) |
| abv Модератор раздела Красногорск, Моск.обл. Сообщений: 2193 На сайте с 2004 г. Рейтинг: 950 | Там на Помазнев Василий Трофимович выскакивает 28 ссылок, да в каждой по нескольку документов. Дайте конкретную ссылку на случай "закрытого планкой адреса". |
| Михаха Сообщений: 4161 На сайте с 2008 г. Рейтинг: 3978 | |
| abv Модератор раздела Красногорск, Моск.обл. Сообщений: 2193 На сайте с 2004 г. Рейтинг: 950 | https://cdnc.pamyat-naroda.ru/...000181.jpg Думаю, картинка с такой закраской поля "Пост. адрес" приходит с сервера, а не на клиенте планка вставляется. Это логично и с точки зрения скорости работы сайта. Картинки в данном случае там хранятся по адресу https://cdnc.pamyat-naroda.ru/podvig/Z/001/033-0682524-0439 , который непосредственно недоступен, только конкретные адреса картинок. Возня какая-то с секретностью там есть, но она касается не планок, а инф. с номерами ящиков в ЦАМО. function setSecrecy() { $('.js__hero-card-doc-not-pub__desc').html(''); |
| abv Модератор раздела Красногорск, Моск.обл. Сообщений: 2193 На сайте с 2004 г. Рейтинг: 950 | Юстас Алексу - информация к размышлению "Как скачать полный комплект епархиальных ведомостей любимой губернии" https://forum.vgd.ru/post/5625/125597/p4036021.htm#pp4036021 Если кто слышал звон, то теперь будет знать, где он. |
Лайк (1) |
| abv Модератор раздела Красногорск, Моск.обл. Сообщений: 2193 На сайте с 2004 г. Рейтинг: 950 | А вот еще один был, помнится, случай. gwar.mil.ru "Первая мировая война – Министерство обороны РФ и Корпорация ЭЛАР представляют крупнейший в мире Интернет-портал подлинных документов о Первой мировой 1914-1918." Посмотрел я на это чудо и не знаю, то ли плакать, то ли смеяться. Ну мы же оптимисты, будем смеяться, а если нельзя, - посмеиваться. Да здравствуют советские микросхемы - самые крупные микросхемы в мире" Захотелось мне, к примеру, найти все карточки по первой мировой, где селение Миловице (что сейчас в Чехии) задействовано, как место события. Это мне нужно, чтобы найти (и исправить, если они неточно написаны) фамилии всех, захороненных на кладбище лагеря военнопленных 1914-1918 в Миловице. См. проект https://forum.vgd.ru/5624/128495/all.htm?a=stdforum_view&o= Набираю я, значится, на сайте https://gwar.mil.ru/heroes/ запрос event_place=миловице А мне в ответ - бум-с, 185 страниц, на каждой по 10 персон, да еще не по алфавиту. Листать - не перелистать. Ну что тут скажешь, ЭЛАР свое дело туго знает (и знает также себе цену) - работает "по-крупному", на такие мелочи, как удобство населения, недосуг ему отвлекаться. Бедному крестьянину надо как-то изворачиваться. Сбацал я программку, задаешь ей тот запрос, который предназначен сайту gwar.mil.ru. Например, как в данном случае - event_place=миловице, или какой другой, который на ум взбредет. Ну программе деваться некуда, вынуждена она этот запрос отрабатывать - скачивать все страницы по одной и формировать выходную таблицу, сохраняя ее на диске. А там уж, делай, что хошь - сортируй по ФИО, фильтруй (базар) - и никакого базара. А то отвык я уже от такого "удобства" - во дворе. Чай - не дворовый мальчик, да и вообще уже не мальчик (с пальчик) как-никак. |
Лайк (3) |
| abv Модератор раздела Красногорск, Моск.обл. Сообщений: 2193 На сайте с 2004 г. Рейтинг: 950 | По алфавиту
Прикрепленный файл (result-.html, 943872 байт) | |||||
| abv Модератор раздела Красногорск, Моск.обл. Сообщений: 2193 На сайте с 2004 г. Рейтинг: 950 | Это провал - подумал Штирлиц. Правильно подумал. Излагаю ниже историю провала. www.evidencevh.army.cz Речь идет о сайте МО Чехии http://www.evidencevh.army.cz/evidence/vysledky-hledani-v-cr На котором располагается, в числе прочего паспорт захоронения русских военнопленных 1914-1918 на военном кладбище города Миловице http://www.evidencevh.army.cz/evidence/vysledky-hledani-v-cr Извиняюсь за "неправильную" ссылку на источник. "Правильная" (т.е. когда две строки соединены в одну - вторая добавлена в конец первой) не хочет работать. С неправильной надо работать так: нажимаешь на первую строчку (ссылку) - она открывается в браузере и показывает список в 39120 строк. Затем в строке адреса в конец первой ссылки добавляешь вторую строчку (которая начинается со знака вопроса - это признак начала параметров адреса). Тогда на этот список накладывается фильтр и остается ровно 473 строки - это русские военнопленные (если уж быть совсем точным, один - румын - лишний). Это была присказка. А сказка (история "сказочного" провала миссии) впереди. Перво-наперво, список выдается порциями по 10 - значит, предстоит пролистать 48 страниц, чтобы просмотреть всех. Ну это еще полбеды. Когда пытаешься напустить на сие чудо-юдо python+selenium и думаешь перелистывание (т.е. нажатие на кнопку ">" внизу экрана) автоматизировать - это программное нажатие, вызывающее функцию __doPostBack('ctl00$ContentPlaceHolder1$RadGridGraves$ctl00$ctl03$ctl01$ctl28','') (как повествует великий и ужасный знаток всего и вся - интернет - это любимая фишка ASP.NET), это нажатие относится не к кнопке ">", а к какой-то другой. В итоге автоматизирование перелистывание закончилось грандиозным провалом, чуть ли не вселенского масштаба. Слава богу, не боги об горшки обжигаются - мы тоже обжигаемся, кое-где у нас порой. Так что обжигаться - не впервой. Привыкли руки к топорам. Пришлось пойти в обход. Используются и python+seneium и "ручная" доводка (до ума).
А с этим __doPost - разбираться да разбираться, т.к. это встречается и на других сайтах, как оказалось, часто. Пока что прилагаю этот чешский список русских военнопленных 1914-1918 из Миловице См. связанный с этим проект https://forum.vgd.ru/5624/128495/all.htm?a=stdforum_view&o= Прикрепленный файл (evidencevh.army.cz-.html, 20340 байт) |
Лайк (2) |
| abv Модератор раздела Красногорск, Моск.обл. Сообщений: 2193 На сайте с 2004 г. Рейтинг: 950 | Не хочется (сегодня) снова говорить о провале, хочется - об успехе (хотя бы относительном). gwar.mil.ru Номера дел https://gwar.mil.ru/heroes/?nomer_dela=1 В этом диапазоне не все номера дел реально соответствуют каким-то документам. Для таких "пустых" дел сайт выдает сообщение К сожалению, не найдено документов по Вашему запросу. Попробуйте уточнить поиск. В диапазоне 1-9000 таких пустых дел 1006, первое из них - 2472. Последнее непустое дело в этом диапазоне 8706. Но пусть их сообщение не слишком обнадеживает - не всякое пустое дело имеет шансы когда-нибудь стать непустым. Например, такое же сообщение выдается и для очень большого номера 19000. Это если непустые номера будут заполняться по порядку. В ином случае ЭЛАР останется таким непредсказуемым.. Для каждого (непустого) номера дела приведена статистика: общее количество найденных (или "похожих", что бы это ни значило) документов, разбитое по типам. Примеры, когда документы найдены: '0002': {'Документы о награждениях': 18452, Примеры, когда найденных документов нет, но есть "похожие": '0003': {'Документы о награждениях': 8944, Полный отчет прилагается ниже. Захоронения 1-476 https://gwar.mil.ru/burial/ С небольшими пропусками в нумерации
Полный список захоронений прилагается Файл burial.html, 159 Кб Прикрепленный файл (gwar.mil.ru-nomer_dela.txt, 960725 байт) |
Лайк (2) |
| abv Модератор раздела Красногорск, Моск.обл. Сообщений: 2193 На сайте с 2004 г. Рейтинг: 950 | LittleBig - а вот еще один малюсенький большой успех. Есть такой сайтик (сайтище) rusneb.ru Нет-нет, да попадаются на нем, иногда, небесполезные вещи. Вот взять, например, журнал "Искры Илл., худож.-лит. и юморист. журнал с карикатурами Выходит еженедельно при газ. "Русское слово"" Взять, да прочитать (бы). Кое-кто кое-где у нас порой уже сподобился чуть-чуть почитать и дать читать другим. Смотри, например журнал "Искры" 1915
Ну а я зыков знаю, поэтому - могу. Прилагаю "волшебный файл" "Искры.html". Инструкция по применению: открываешь в браузере и прощелкиваешь ссылки - каждый щелчок приводит к загрузке (в папку Загрузки по умолчанию) соответствующего номера журнала. Этих номеров там 649 - за годы в диапазоне 1902-1917. Как возник этот волшебный ключик? Путем скрейпинга страниц Прикрепленный файл (Искры.html, 133251 байт) | ||||||||||||||
Лайк (2) |
| Вперед → | Страницы: ← Назад 1 2 * 3 4 Вперед → Модератор: abv |
Генеалогический форум » Дневники участников » Дневники участников » Дневник abv » Программа создания глоссария » Web scrape [тема №127273] | Вверх ⇈ |
|
|
| Сайт использует cookie и данные об IP-адресе пользователей, если Вы не хотите, чтобы эти данные обрабатывались, пожалуйста, покиньте сайт Пользуясь сайтом вы принимаете условия Пользовательского соглашения, Политики персональных данных, даете Согласие на распространение персональных данных и соглашаетесь с Правилами форума Содержимое страницы доступно через RSS © 1998-2026, Всероссийское генеалогическое древо 16+ Правообладателям |