Всероссийское Генеалогическое Древо
На сайте ВГД собираются люди, увлеченные генеалогией, историей, геральдикой и т.д. Здесь вы найдете собеседников, экспертов, умелых помощников в поисках предков и родственников. Вам подскажут где искать документы о павших в боях и пропавших без вести, в какой архив обратиться при исследовании родословной своей семьи, помогут определить по старой фотографии принадлежность к воинским частям, ведомствам и чину. ВГД - поиск людей в прошлом, настоящем и будущем!
Вниз ⇊

Web scrape

Как скачать без всякого труда (или с трудом, но небольшим; или с большим, но не очень) золотую рыбку из интернетовского пруда?
Ответ: я тоже не знаю (все). Но кое что все-таки из моих потуг может оказаться не вредным.

    Вперед →Страницы: ← Назад 1 2 * 3 4 Вперед →
Модератор: abv
abv
Модератор раздела

abv

Красногорск, Моск.обл.
Сообщений: 1562
На сайте с 2004 г.
Рейтинг: 479
https://cdnc.pamyat-naroda.ru/...000181.jpg

Думаю, картинка с такой закраской поля "Пост. адрес" приходит с сервера, а не на клиенте планка вставляется.
Это логично и с точки зрения скорости работы сайта.
Картинки в данном случае там хранятся по адресу https://cdnc.pamyat-naroda.ru/podvig/Z/001/033-0682524-0439 , который непосредственно недоступен, только конкретные адреса картинок.
Возня какая-то с секретностью там есть, но она касается не планок, а инф. с номерами ящиков в ЦАМО.
[q]
function setSecrecy() {
$('.js__hero-card-doc-not-pub__desc').html('');
[/q]

[q]
$('.js__hero-card-doc-not-pub__desc').html('');
$('.js__hero-card-doc-not-pub__desc').append('Запись в галерее Дорога памяти');
$('.js__hero-card-doc-not-pub__desc').append('Фонд: ' + docInfo.nomer_fonda + '');
$('.js__hero-card-doc-not-pub__desc').append('Опись: ' + docInfo.nomer_opisi + '');
$('.js__hero-card-doc-not-pub__desc').append('Дело: ' + docInfo.nomer_dela + '');
$('.js__hero-card-doc-not-pub__desc').append('' + docInfo.shkaf_i_yaschik + '');
$('.js__hero-card-doc-not-pub__desc').append('Шкаф: ' + docInfo.shkaf_number + '');
$('.js__hero-card-doc-not-pub__desc').append('Ящик: ' + docInfo.box_number + '');
$('.js__hero-card-doc-not-pub__desc').append('Дело: ' + docInfo.storage_number + '');
[/q]

Прикрепленный файл: 00000181.jpg
---
Персональная история русскоязычного мира
http://personalhistory.ru
info@personalhistory.ru
Новости из царской России
Яндекс-дзен https://zen.yandex.ru/id/5eee495659f4f25be9052961
Дневник https://forum.vgd.ru/5623/
abv
Модератор раздела

abv

Красногорск, Моск.обл.
Сообщений: 1562
На сайте с 2004 г.
Рейтинг: 479
Юстас Алексу - информация к размышлению "Как скачать полный комплект епархиальных ведомостей любимой губернии" https://forum.vgd.ru/post/5625/125597/p4036021.htm#pp4036021
Если кто слышал звон, то теперь будет знать, где он.
---
Персональная история русскоязычного мира
http://personalhistory.ru
info@personalhistory.ru
Новости из царской России
Яндекс-дзен https://zen.yandex.ru/id/5eee495659f4f25be9052961
Дневник https://forum.vgd.ru/5623/
Лайк (1)
abv
Модератор раздела

abv

Красногорск, Моск.обл.
Сообщений: 1562
На сайте с 2004 г.
Рейтинг: 479
А вот еще один был, помнится, случай.
gwar.mil.ru
[q]
"Первая мировая война – Министерство обороны РФ и Корпорация ЭЛАР представляют крупнейший в мире Интернет-портал подлинных документов о Первой мировой 1914-1918."
[/q]


Посмотрел я на это чудо и не знаю, то ли плакать, то ли смеяться. Ну мы же оптимисты, будем смеяться, а если нельзя, - посмеиваться.
[q]
Да здравствуют советские микросхемы - самые крупные микросхемы в мире"
[/q]


Захотелось мне, к примеру, найти все карточки по первой мировой, где селение Миловице (что сейчас в Чехии) задействовано, как место события. Это мне нужно, чтобы найти (и исправить, если они неточно написаны) фамилии всех, захороненных на кладбище лагеря военнопленных 1914-1918 в Миловице. См. проект https://forum.vgd.ru/5624/128495/all.htm?a=stdforum_view&o=

Набираю я, значится, на сайте https://gwar.mil.ru/heroes/ запрос event_place=миловице
А мне в ответ - бум-с, 185 страниц, на каждой по 10 персон, да еще не по алфавиту. Листать - не перелистать.
Ну что тут скажешь, ЭЛАР свое дело туго знает (и знает также себе цену) - работает "по-крупному", на такие мелочи, как удобство населения, недосуг ему отвлекаться.

Бедному крестьянину надо как-то изворачиваться.
Сбацал я программку, задаешь ей тот запрос, который предназначен сайту gwar.mil.ru. Например, как в данном случае - event_place=миловице, или какой другой, который на ум взбредет. Ну программе деваться некуда, вынуждена она этот запрос отрабатывать - скачивать все страницы по одной и формировать выходную таблицу, сохраняя ее на диске.
А там уж, делай, что хошь - сортируй по ФИО, фильтруй (базар) - и никакого базара.

А то отвык я уже от такого "удобства" - во дворе. Чай - не дворовый мальчик, да и вообще уже не мальчик (с пальчик) как-никак.
---
Персональная история русскоязычного мира
http://personalhistory.ru
info@personalhistory.ru
Новости из царской России
Яндекс-дзен https://zen.yandex.ru/id/5eee495659f4f25be9052961
Дневник https://forum.vgd.ru/5623/
Лайк (2)
abv
Модератор раздела

abv

Красногорск, Моск.обл.
Сообщений: 1562
На сайте с 2004 г.
Рейтинг: 479
По алфавиту
№ здесьФИО№ тамСсылка тудаОписание оттуда


Прикрепленный файл (result-.html, 943872 байт)
---
Персональная история русскоязычного мира
http://personalhistory.ru
info@personalhistory.ru
Новости из царской России
Яндекс-дзен https://zen.yandex.ru/id/5eee495659f4f25be9052961
Дневник https://forum.vgd.ru/5623/
abv
Модератор раздела

abv

Красногорск, Моск.обл.
Сообщений: 1562
На сайте с 2004 г.
Рейтинг: 479
Это провал - подумал Штирлиц. Правильно подумал. Излагаю ниже историю провала.
www.evidencevh.army.cz
Речь идет о сайте МО Чехии http://www.evidencevh.army.cz/evidence/vysledky-hledani-v-cr
На котором располагается, в числе прочего паспорт захоронения русских военнопленных 1914-1918 на военном кладбище города Миловице
[q]
http://www.evidencevh.army.cz/evidence/vysledky-hledani-v-cr
?rgid=13&rgn=Středočeský&orid=52&orn=Lysá%20nad%20Labem&mid=1196&min=Milovice&arid=20&arin=Красная%20Армия%20(СССР)&st=1
[/q]

Извиняюсь за "неправильную" ссылку на источник. "Правильная" (т.е. когда две строки соединены в одну - вторая добавлена в конец первой) не хочет работать. С неправильной надо работать так: нажимаешь на первую строчку (ссылку) - она открывается в браузере и показывает список в 39120 строк. Затем в строке адреса в конец первой ссылки добавляешь вторую строчку (которая начинается со знака вопроса - это признак начала параметров адреса). Тогда на этот список накладывается фильтр и остается ровно 473 строки - это русские военнопленные (если уж быть совсем точным, один - румын - лишний).

Это была присказка. А сказка (история "сказочного" провала миссии) впереди.
Перво-наперво, список выдается порциями по 10 - значит, предстоит пролистать 48 страниц, чтобы просмотреть всех. Ну это еще полбеды.
Когда пытаешься напустить на сие чудо-юдо python+selenium и думаешь перелистывание (т.е. нажатие на кнопку ">" внизу экрана) автоматизировать - это программное нажатие, вызывающее функцию __doPostBack('ctl00$ContentPlaceHolder1$RadGridGraves$ctl00$ctl03$ctl01$ctl28','') (как повествует великий и ужасный знаток всего и вся - интернет - это любимая фишка ASP.NET), это нажатие относится не к кнопке ">", а к какой-то другой.
В итоге автоматизирование перелистывание закончилось грандиозным провалом, чуть ли не вселенского масштаба.

Слава богу, не боги об горшки обжигаются - мы тоже обжигаемся, кое-где у нас порой. Так что обжигаться - не впервой. Привыкли руки к топорам.
Пришлось пойти в обход. Используются и python+seneium и "ручная" доводка (до ума).

  • Открываем в питоне через селениум сайт по вышеуказанному адресу
  • В браузере выбираем (вручную) вывод порциями по 50 (эта опция располагается внизу окна)
  • Загружаем и выводим в файл (c "погонялом" g) очередную порцию из 50 персон, оформленную в виде функции с именем "p", путем вызова этой функции в консоли (т.е. набираем там p()), тако:
    [q]
    def p():
    table = driver.find_element_by_id('ctl00_ContentPlaceHolder1_RadGridGraves_ctl00')
    g.write(table.get_attribute('outerHTML'))

    [/q]
  • Нажимаем, также внизу экрана, волшебную (и таинственную) кнопку ">", в результате чего в браузере отображается очередная порция
  • Повторяем предыдущие два пункта, слава богу, не до потери пульса, но все-таки, 10 раз.


А с этим __doPost - разбираться да разбираться, т.к. это встречается и на других сайтах, как оказалось, часто.

Пока что прилагаю этот чешский список русских военнопленных 1914-1918 из Миловице
См. связанный с этим проект https://forum.vgd.ru/5624/128495/all.htm?a=stdforum_view&o=


Прикрепленный файл (evidencevh.army.cz-.html, 20340 байт)
---
Персональная история русскоязычного мира
http://personalhistory.ru
info@personalhistory.ru
Новости из царской России
Яндекс-дзен https://zen.yandex.ru/id/5eee495659f4f25be9052961
Дневник https://forum.vgd.ru/5623/
Лайк (2)
abv
Модератор раздела

abv

Красногорск, Моск.обл.
Сообщений: 1562
На сайте с 2004 г.
Рейтинг: 479
Не хочется (сегодня) снова говорить о провале, хочется - об успехе (хотя бы относительном).
gwar.mil.ru Номера дел
[q]
https://gwar.mil.ru/heroes/?nomer_dela=1
...
https://gwar.mil.ru/heroes/?nomer_dela=9000
[/q]

В этом диапазоне не все номера дел реально соответствуют каким-то документам. Для таких "пустых" дел сайт выдает сообщение
[q]
К сожалению, не найдено документов по Вашему запросу. Попробуйте уточнить поиск.
Возможно, эта информация еще не загружена в базу данных. Работа по обработке и загрузке информации продолжается.
[/q]

В диапазоне 1-9000 таких пустых дел 1006, первое из них - 2472. Последнее непустое дело в этом диапазоне 8706.
Но пусть их сообщение не слишком обнадеживает - не всякое пустое дело имеет шансы когда-нибудь стать непустым. Например, такое же сообщение выдается и для очень большого номера 19000.
Это если непустые номера будут заполняться по порядку. В ином случае ЭЛАР останется таким непредсказуемым..

Для каждого (непустого) номера дела приведена статистика: общее количество найденных (или "похожих", что бы это ни значило) документов, разбитое по типам.
Примеры, когда документы найдены:
[q]
'0002': {'Документы о награждениях': 18452,
'Именные списки потерь': 94591,
'Картотека потерь': 1331,
'Найдено документов': 115411,
'Послужные списки': 1037},
..
'0098': {'Документы о награждениях': 45,
'Именные списки потерь': 20002,
'Картотека потерь': 1517,
'Найдено документов': 21594,
'Послужные списки': 30},
..
[/q]

Примеры, когда найденных документов нет, но есть "похожие":
[q]
'0003': {'Документы о награждениях': 8944,
'Именные списки потерь': 115838,
'Картотека потерь': 1419,
'Послужные списки': 559,
'Похожие документы': 126760},
..
'8706': {'Документы о награждениях': 1, 'Похожие документы': 1},
[/q]

Полный отчет прилагается ниже.


Захоронения 1-476 https://gwar.mil.ru/burial/
С небольшими пропусками в нумерации
[q]

https://gwar.mil.ru/burial/burial.php?id=118456001
...
https://gwar.mil.ru/burial/burial.php?id=118456503
[/q]


Полный список захоронений прилагается
Файл burial.html, 159 Кб


Прикрепленный файл (gwar.mil.ru-nomer_dela.txt, 960725 байт)
---
Персональная история русскоязычного мира
http://personalhistory.ru
info@personalhistory.ru
Новости из царской России
Яндекс-дзен https://zen.yandex.ru/id/5eee495659f4f25be9052961
Дневник https://forum.vgd.ru/5623/
Лайк (2)
abv
Модератор раздела

abv

Красногорск, Моск.обл.
Сообщений: 1562
На сайте с 2004 г.
Рейтинг: 479
LittleBig - а вот еще один малюсенький большой успех.
Есть такой сайтик (сайтище) rusneb.ru

Нет-нет, да попадаются на нем, иногда, небесполезные вещи.
Вот взять, например, журнал "Искры Илл., худож.-лит. и юморист. журнал с карикатурами Выходит еженедельно при газ. "Русское слово""
Взять, да прочитать (бы).
Кое-кто кое-где у нас порой уже сподобился чуть-чуть почитать и дать читать другим. Смотри, например
журнал "Искры" 1915
04.01 № 1
11.01 № 2
18.01 № 3
25.01 № 4
01.02 № 5
08.02 № 6
15.02 № 7
22.02 № 8
01.03 № 9
08.03 № 10
15.03 № 11
22.03 № 12
05.04 № 13
12.04 № 14
И спросил Петька Чапая: — "А могёшь ли ты в мировом масштабе?"/ А тот отвечает: — "Не могу, Петька, не могу - языков не знаю".
Ну а я зыков знаю, поэтому - могу.

Прилагаю "волшебный файл" "Искры.html".
Инструкция по применению: открываешь в браузере и прощелкиваешь ссылки - каждый щелчок приводит к загрузке (в папку Загрузки по умолчанию) соответствующего номера журнала. Этих номеров там 649 - за годы в диапазоне 1902-1917.

Как возник этот волшебный ключик? Путем скрейпинга страниц


Прикрепленный файл (Искры.html, 133251 байт)
---
Персональная история русскоязычного мира
http://personalhistory.ru
info@personalhistory.ru
Новости из царской России
Яндекс-дзен https://zen.yandex.ru/id/5eee495659f4f25be9052961
Дневник https://forum.vgd.ru/5623/
Лайк (1)
abv
Модератор раздела

abv

Красногорск, Моск.обл.
Сообщений: 1562
На сайте с 2004 г.
Рейтинг: 479
Враги сожгли родную хату.
Жил был сайт http://82.209.65.104:180/Default.aspx Пензенского архива, сбацанный шарашкиной конторой "ЭЛАР-Архив".
Худо-бедно, выложены были там сканы (аж 317287 штук)
Всероссийская сельскохозяйственная и поземельная перепись 1917 г. по Пензенской губернии
Казалось бы, вот оно — счастье, в чистом виде. И не (так уж) важно, что сайт еле-еле тащится, дышит на ладан. Главное, что (теоретически) можно было посмотреть и, если сильно интересно, скачать какую-нибудь карточку переписи (и даже несколько карточек).
Но недолго музыка играла. С ребятами из Елара не забалуешь. Как ручеек бюджетного финансирования засыхает, так начинаются проблемы для пользователей. Хоть и пронесся слух, что хакеры уничтожили все сканы карточек переписи 1917 в Пензенском архиве, сдается мне, что это - дело рук этих гавриков из Элары.
Так или иначе в сухом остатке сейчас имеем следующее: наименование и текстовое описание карточек есть, а электронных образов (сканов) - нет.
Хакеры обычно так не работают - уж если уничтожать, так уничтожать. Здесь, в данном случае, слой электронных образов аккуратно срезан, не задевая текстовые описания.

Возникает закономерный вопрос, а сколько вообще из всех дел в Пензенском архиве в настоящий момент имеют электронные образы?
Спрашивайте, отвечаем: таких дел всего лишь 8375 (хотя, зная, на что способны "деятели" из Элар-Архив, и этому можно порадоваться).

Чтобы найти все эти дела, надо нажать кнопку "Расширенный поиск" и во вкладке "Дела" установить флажок "Наличие электронной копии". Получится список, который можно просматривать порциями по 100 строк.
См. скриншот Файл Буфер обмена01.pdf, 122 Кб

Поскольку сайт архива работает нестабильно, я скачал, для вящего удобства, все 84 страницы по 100 строк (т.е. весь список длиной 8375).
Ниже прилагаю полный список всех этих 8375 дел (файл index0.htm, размер 2 Мб). Надо открыть этот файл в браузере и тогда можно каждое дело открыть (кликнув на ссылку в соответствующей строке) и затем, если надо скачать сканы дела.


Прикрепленный файл (index0.htm, 2529272 байт)
---
Персональная история русскоязычного мира
http://personalhistory.ru
info@personalhistory.ru
Новости из царской России
Яндекс-дзен https://zen.yandex.ru/id/5eee495659f4f25be9052961
Дневник https://forum.vgd.ru/5623/
Лайк (2)
buldiga
Начинающий

Сообщений: 35
На сайте с 2017 г.
Рейтинг: 22
>> Ответ на сообщение пользователя abv от 27 февраля 2022 11:00

Спасибо! Очень хорошая работа. Может быть, предложить архиву открыть свободный доступ к карточкам - без регистрации в личном кабинете? Тогда "хакерам" будет нечего делать.
---
Алина Иванова
abv
Модератор раздела

abv

Красногорск, Моск.обл.
Сообщений: 1562
На сайте с 2004 г.
Рейтинг: 479

buldiga написал:
[q]
>> Ответ на сообщение пользователя abv от 27 февраля 2022 11:00

Спасибо! Очень хорошая работа. Может быть, предложить архиву открыть свободный доступ к карточкам - без регистрации в личном кабинете? Тогда "хакерам" будет нечего делать.
[/q]


А чего открывать? У них и так все открыто. И карточки переписи там есть, все 317287. Только сканов карточек там нет. И если нет дыма без огня (про хакеров), то, значит, этих сканов у них вовсе нет сейчас, ни на сайте, ни где либо еще. Им надо фотографировать или сканировать их заново (или заплатить Эларе еще монеток, чтобы они выложили эти сканы из припрятанного места).


---
Персональная история русскоязычного мира
http://personalhistory.ru
info@personalhistory.ru
Новости из царской России
Яндекс-дзен https://zen.yandex.ru/id/5eee495659f4f25be9052961
Дневник https://forum.vgd.ru/5623/
Лайк (1)
    Вперед →Страницы: ← Назад 1 2 * 3 4 Вперед →
Модератор: abv
Вверх ⇈