Загрузите GEDCOM-файл на ВГД   [х]
Всероссийское Генеалогическое Древо
На сайте ВГД собираются люди, увлеченные генеалогией, историей, геральдикой и т.д. Здесь вы найдете собеседников, экспертов, умелых помощников в поисках предков и родственников. Вам подскажут где искать документы о павших в боях и пропавших без вести, в какой архив обратиться при исследовании родословной своей семьи, помогут определить по старой фотографии принадлежность к воинским частям, ведомствам и чину. ВГД - поиск людей в прошлом, настоящем и будущем!
Вниз ⇊

Web scrape

Как скачать без всякого труда (или с трудом, но небольшим; или с большим, но не очень) золотую рыбку из интернетовского пруда?
Ответ: я тоже не знаю (все). Но кое что все-таки из моих потуг может оказаться не вредным.

← Назад    Вперед →Страницы: ← Назад 1 2 * 3 4 Вперед →
Модератор: abv
Михаха

Михаха

Сообщений: 4145
На сайте с 2008 г.
Рейтинг: 3868
abv
Модератор раздела

abv

Красногорск, Моск.обл.
Сообщений: 2143
На сайте с 2004 г.
Рейтинг: 915
https://cdnc.pamyat-naroda.ru/...000181.jpg

Думаю, картинка с такой закраской поля "Пост. адрес" приходит с сервера, а не на клиенте планка вставляется.
Это логично и с точки зрения скорости работы сайта.
Картинки в данном случае там хранятся по адресу https://cdnc.pamyat-naroda.ru/podvig/Z/001/033-0682524-0439 , который непосредственно недоступен, только конкретные адреса картинок.
Возня какая-то с секретностью там есть, но она касается не планок, а инф. с номерами ящиков в ЦАМО.
[q]
function setSecrecy() {
$('.js__hero-card-doc-not-pub__desc').html('');
[/q]

[q]
$('.js__hero-card-doc-not-pub__desc').html('');
$('.js__hero-card-doc-not-pub__desc').append('Запись в галерее Дорога памяти');
$('.js__hero-card-doc-not-pub__desc').append('Фонд: ' + docInfo.nomer_fonda + '');
$('.js__hero-card-doc-not-pub__desc').append('Опись: ' + docInfo.nomer_opisi + '');
$('.js__hero-card-doc-not-pub__desc').append('Дело: ' + docInfo.nomer_dela + '');
$('.js__hero-card-doc-not-pub__desc').append('' + docInfo.shkaf_i_yaschik + '');
$('.js__hero-card-doc-not-pub__desc').append('Шкаф: ' + docInfo.shkaf_number + '');
$('.js__hero-card-doc-not-pub__desc').append('Ящик: ' + docInfo.box_number + '');
$('.js__hero-card-doc-not-pub__desc').append('Дело: ' + docInfo.storage_number + '');
[/q]

Прикрепленный файл: 00000181.jpg
---
Персональная история русскоязычного мира
http://personalhistory.ru
info@personalhistory.ru
Новости из царской России
Яндекс-дзен https://zen.yandex.ru/id/5eee495659f4f25be9052961
medium.com https://medium.com/me/stories/public
Дневник https://forum.vgd.ru/5623/
https://1russia.wordpress.com/
abv
Модератор раздела

abv

Красногорск, Моск.обл.
Сообщений: 2143
На сайте с 2004 г.
Рейтинг: 915
Юстас Алексу - информация к размышлению "Как скачать полный комплект епархиальных ведомостей любимой губернии" https://forum.vgd.ru/post/5625/125597/p4036021.htm#pp4036021
Если кто слышал звон, то теперь будет знать, где он.
---
Персональная история русскоязычного мира
http://personalhistory.ru
info@personalhistory.ru
Новости из царской России
Яндекс-дзен https://zen.yandex.ru/id/5eee495659f4f25be9052961
medium.com https://medium.com/me/stories/public
Дневник https://forum.vgd.ru/5623/
https://1russia.wordpress.com/
Лайк (1)
abv
Модератор раздела

abv

Красногорск, Моск.обл.
Сообщений: 2143
На сайте с 2004 г.
Рейтинг: 915
А вот еще один был, помнится, случай.
gwar.mil.ru
[q]
"Первая мировая война – Министерство обороны РФ и Корпорация ЭЛАР представляют крупнейший в мире Интернет-портал подлинных документов о Первой мировой 1914-1918."
[/q]


Посмотрел я на это чудо и не знаю, то ли плакать, то ли смеяться. Ну мы же оптимисты, будем смеяться, а если нельзя, - посмеиваться.
[q]
Да здравствуют советские микросхемы - самые крупные микросхемы в мире"
[/q]


Захотелось мне, к примеру, найти все карточки по первой мировой, где селение Миловице (что сейчас в Чехии) задействовано, как место события. Это мне нужно, чтобы найти (и исправить, если они неточно написаны) фамилии всех, захороненных на кладбище лагеря военнопленных 1914-1918 в Миловице. См. проект https://forum.vgd.ru/5624/128495/all.htm?a=stdforum_view&o=

Набираю я, значится, на сайте https://gwar.mil.ru/heroes/ запрос event_place=миловице
А мне в ответ - бум-с, 185 страниц, на каждой по 10 персон, да еще не по алфавиту. Листать - не перелистать.
Ну что тут скажешь, ЭЛАР свое дело туго знает (и знает также себе цену) - работает "по-крупному", на такие мелочи, как удобство населения, недосуг ему отвлекаться.

Бедному крестьянину надо как-то изворачиваться.
Сбацал я программку, задаешь ей тот запрос, который предназначен сайту gwar.mil.ru. Например, как в данном случае - event_place=миловице, или какой другой, который на ум взбредет. Ну программе деваться некуда, вынуждена она этот запрос отрабатывать - скачивать все страницы по одной и формировать выходную таблицу, сохраняя ее на диске.
А там уж, делай, что хошь - сортируй по ФИО, фильтруй (базар) - и никакого базара.

А то отвык я уже от такого "удобства" - во дворе. Чай - не дворовый мальчик, да и вообще уже не мальчик (с пальчик) как-никак.
---
Персональная история русскоязычного мира
http://personalhistory.ru
info@personalhistory.ru
Новости из царской России
Яндекс-дзен https://zen.yandex.ru/id/5eee495659f4f25be9052961
medium.com https://medium.com/me/stories/public
Дневник https://forum.vgd.ru/5623/
https://1russia.wordpress.com/
Лайк (3)
abv
Модератор раздела

abv

Красногорск, Моск.обл.
Сообщений: 2143
На сайте с 2004 г.
Рейтинг: 915
По алфавиту
№ здесьФИО№ тамСсылка тудаОписание оттуда


Прикрепленный файл (result-.html, 943872 байт)
---
Персональная история русскоязычного мира
http://personalhistory.ru
info@personalhistory.ru
Новости из царской России
Яндекс-дзен https://zen.yandex.ru/id/5eee495659f4f25be9052961
medium.com https://medium.com/me/stories/public
Дневник https://forum.vgd.ru/5623/
https://1russia.wordpress.com/
abv
Модератор раздела

abv

Красногорск, Моск.обл.
Сообщений: 2143
На сайте с 2004 г.
Рейтинг: 915
Это провал - подумал Штирлиц. Правильно подумал. Излагаю ниже историю провала.
www.evidencevh.army.cz
Речь идет о сайте МО Чехии http://www.evidencevh.army.cz/evidence/vysledky-hledani-v-cr
На котором располагается, в числе прочего паспорт захоронения русских военнопленных 1914-1918 на военном кладбище города Миловице
[q]
http://www.evidencevh.army.cz/evidence/vysledky-hledani-v-cr
?rgid=13&rgn=Středočeský&orid=52&orn=Lysá%20nad%20Labem&mid=1196&min=Milovice&arid=20&arin=Красная%20Армия%20(СССР)&st=1
[/q]

Извиняюсь за "неправильную" ссылку на источник. "Правильная" (т.е. когда две строки соединены в одну - вторая добавлена в конец первой) не хочет работать. С неправильной надо работать так: нажимаешь на первую строчку (ссылку) - она открывается в браузере и показывает список в 39120 строк. Затем в строке адреса в конец первой ссылки добавляешь вторую строчку (которая начинается со знака вопроса - это признак начала параметров адреса). Тогда на этот список накладывается фильтр и остается ровно 473 строки - это русские военнопленные (если уж быть совсем точным, один - румын - лишний).

Это была присказка. А сказка (история "сказочного" провала миссии) впереди.
Перво-наперво, список выдается порциями по 10 - значит, предстоит пролистать 48 страниц, чтобы просмотреть всех. Ну это еще полбеды.
Когда пытаешься напустить на сие чудо-юдо python+selenium и думаешь перелистывание (т.е. нажатие на кнопку ">" внизу экрана) автоматизировать - это программное нажатие, вызывающее функцию __doPostBack('ctl00$ContentPlaceHolder1$RadGridGraves$ctl00$ctl03$ctl01$ctl28','') (как повествует великий и ужасный знаток всего и вся - интернет - это любимая фишка ASP.NET), это нажатие относится не к кнопке ">", а к какой-то другой.
В итоге автоматизирование перелистывание закончилось грандиозным провалом, чуть ли не вселенского масштаба.

Слава богу, не боги об горшки обжигаются - мы тоже обжигаемся, кое-где у нас порой. Так что обжигаться - не впервой. Привыкли руки к топорам.
Пришлось пойти в обход. Используются и python+seneium и "ручная" доводка (до ума).

  • Открываем в питоне через селениум сайт по вышеуказанному адресу
  • В браузере выбираем (вручную) вывод порциями по 50 (эта опция располагается внизу окна)
  • Загружаем и выводим в файл (c "погонялом" g) очередную порцию из 50 персон, оформленную в виде функции с именем "p", путем вызова этой функции в консоли (т.е. набираем там p()), тако:
    [q]
    def p():
    table = driver.find_element_by_id('ctl00_ContentPlaceHolder1_RadGridGraves_ctl00')
    g.write(table.get_attribute('outerHTML'))

    [/q]
  • Нажимаем, также внизу экрана, волшебную (и таинственную) кнопку ">", в результате чего в браузере отображается очередная порция
  • Повторяем предыдущие два пункта, слава богу, не до потери пульса, но все-таки, 10 раз.


А с этим __doPost - разбираться да разбираться, т.к. это встречается и на других сайтах, как оказалось, часто.

Пока что прилагаю этот чешский список русских военнопленных 1914-1918 из Миловице
См. связанный с этим проект https://forum.vgd.ru/5624/128495/all.htm?a=stdforum_view&o=


Прикрепленный файл (evidencevh.army.cz-.html, 20340 байт)
---
Персональная история русскоязычного мира
http://personalhistory.ru
info@personalhistory.ru
Новости из царской России
Яндекс-дзен https://zen.yandex.ru/id/5eee495659f4f25be9052961
medium.com https://medium.com/me/stories/public
Дневник https://forum.vgd.ru/5623/
https://1russia.wordpress.com/
Лайк (2)
abv
Модератор раздела

abv

Красногорск, Моск.обл.
Сообщений: 2143
На сайте с 2004 г.
Рейтинг: 915
Не хочется (сегодня) снова говорить о провале, хочется - об успехе (хотя бы относительном).
gwar.mil.ru Номера дел
[q]
https://gwar.mil.ru/heroes/?nomer_dela=1
...
https://gwar.mil.ru/heroes/?nomer_dela=9000
[/q]

В этом диапазоне не все номера дел реально соответствуют каким-то документам. Для таких "пустых" дел сайт выдает сообщение
[q]
К сожалению, не найдено документов по Вашему запросу. Попробуйте уточнить поиск.
Возможно, эта информация еще не загружена в базу данных. Работа по обработке и загрузке информации продолжается.
[/q]

В диапазоне 1-9000 таких пустых дел 1006, первое из них - 2472. Последнее непустое дело в этом диапазоне 8706.
Но пусть их сообщение не слишком обнадеживает - не всякое пустое дело имеет шансы когда-нибудь стать непустым. Например, такое же сообщение выдается и для очень большого номера 19000.
Это если непустые номера будут заполняться по порядку. В ином случае ЭЛАР останется таким непредсказуемым..

Для каждого (непустого) номера дела приведена статистика: общее количество найденных (или "похожих", что бы это ни значило) документов, разбитое по типам.
Примеры, когда документы найдены:
[q]
'0002': {'Документы о награждениях': 18452,
'Именные списки потерь': 94591,
'Картотека потерь': 1331,
'Найдено документов': 115411,
'Послужные списки': 1037},
..
'0098': {'Документы о награждениях': 45,
'Именные списки потерь': 20002,
'Картотека потерь': 1517,
'Найдено документов': 21594,
'Послужные списки': 30},
..
[/q]

Примеры, когда найденных документов нет, но есть "похожие":
[q]
'0003': {'Документы о награждениях': 8944,
'Именные списки потерь': 115838,
'Картотека потерь': 1419,
'Послужные списки': 559,
'Похожие документы': 126760},
..
'8706': {'Документы о награждениях': 1, 'Похожие документы': 1},
[/q]

Полный отчет прилагается ниже.


Захоронения 1-476 https://gwar.mil.ru/burial/
С небольшими пропусками в нумерации
[q]

https://gwar.mil.ru/burial/burial.php?id=118456001
...
https://gwar.mil.ru/burial/burial.php?id=118456503
[/q]


Полный список захоронений прилагается
Файл burial.html, 159 Кб


Прикрепленный файл (gwar.mil.ru-nomer_dela.txt, 960725 байт)
---
Персональная история русскоязычного мира
http://personalhistory.ru
info@personalhistory.ru
Новости из царской России
Яндекс-дзен https://zen.yandex.ru/id/5eee495659f4f25be9052961
medium.com https://medium.com/me/stories/public
Дневник https://forum.vgd.ru/5623/
https://1russia.wordpress.com/
Лайк (2)
abv
Модератор раздела

abv

Красногорск, Моск.обл.
Сообщений: 2143
На сайте с 2004 г.
Рейтинг: 915
LittleBig - а вот еще один малюсенький большой успех.
Есть такой сайтик (сайтище) rusneb.ru

Нет-нет, да попадаются на нем, иногда, небесполезные вещи.
Вот взять, например, журнал "Искры Илл., худож.-лит. и юморист. журнал с карикатурами Выходит еженедельно при газ. "Русское слово""
Взять, да прочитать (бы).
Кое-кто кое-где у нас порой уже сподобился чуть-чуть почитать и дать читать другим. Смотри, например
журнал "Искры" 1915
04.01 № 1
11.01 № 2
18.01 № 3
25.01 № 4
01.02 № 5
08.02 № 6
15.02 № 7
22.02 № 8
01.03 № 9
08.03 № 10
15.03 № 11
22.03 № 12
05.04 № 13
12.04 № 14
И спросил Петька Чапая: — "А могёшь ли ты в мировом масштабе?"/ А тот отвечает: — "Не могу, Петька, не могу - языков не знаю".
Ну а я зыков знаю, поэтому - могу.

Прилагаю "волшебный файл" "Искры.html".
Инструкция по применению: открываешь в браузере и прощелкиваешь ссылки - каждый щелчок приводит к загрузке (в папку Загрузки по умолчанию) соответствующего номера журнала. Этих номеров там 649 - за годы в диапазоне 1902-1917.

Как возник этот волшебный ключик? Путем скрейпинга страниц


Прикрепленный файл (Искры.html, 133251 байт)
---
Персональная история русскоязычного мира
http://personalhistory.ru
info@personalhistory.ru
Новости из царской России
Яндекс-дзен https://zen.yandex.ru/id/5eee495659f4f25be9052961
medium.com https://medium.com/me/stories/public
Дневник https://forum.vgd.ru/5623/
https://1russia.wordpress.com/
Лайк (2)
abv
Модератор раздела

abv

Красногорск, Моск.обл.
Сообщений: 2143
На сайте с 2004 г.
Рейтинг: 915
Враги сожгли родную хату.
Жил был сайт http://82.209.65.104:180/Default.aspx Пензенского архива, сбацанный шарашкиной конторой "ЭЛАР-Архив".
Худо-бедно, выложены были там сканы (аж 317287 штук)
Всероссийская сельскохозяйственная и поземельная перепись 1917 г. по Пензенской губернии
Казалось бы, вот оно — счастье, в чистом виде. И не (так уж) важно, что сайт еле-еле тащится, дышит на ладан. Главное, что (теоретически) можно было посмотреть и, если сильно интересно, скачать какую-нибудь карточку переписи (и даже несколько карточек).
Но недолго музыка играла. С ребятами из Елара не забалуешь. Как ручеек бюджетного финансирования засыхает, так начинаются проблемы для пользователей. Хоть и пронесся слух, что хакеры уничтожили все сканы карточек переписи 1917 в Пензенском архиве, сдается мне, что это - дело рук этих гавриков из Элары.
Так или иначе в сухом остатке сейчас имеем следующее: наименование и текстовое описание карточек есть, а электронных образов (сканов) - нет.
Хакеры обычно так не работают - уж если уничтожать, так уничтожать. Здесь, в данном случае, слой электронных образов аккуратно срезан, не задевая текстовые описания.

Возникает закономерный вопрос, а сколько вообще из всех дел в Пензенском архиве в настоящий момент имеют электронные образы?
Спрашивайте, отвечаем: таких дел всего лишь 8375 (хотя, зная, на что способны "деятели" из Элар-Архив, и этому можно порадоваться).

Чтобы найти все эти дела, надо нажать кнопку "Расширенный поиск" и во вкладке "Дела" установить флажок "Наличие электронной копии". Получится список, который можно просматривать порциями по 100 строк.
См. скриншот Файл Буфер обмена01.pdf, 122 Кб

Поскольку сайт архива работает нестабильно, я скачал, для вящего удобства, все 84 страницы по 100 строк (т.е. весь список длиной 8375).
Ниже прилагаю полный список всех этих 8375 дел (файл index0.htm, размер 2 Мб). Надо открыть этот файл в браузере и тогда можно каждое дело открыть (кликнув на ссылку в соответствующей строке) и затем, если надо скачать сканы дела.


Прикрепленный файл (index0.htm, 2529272 байт)
---
Персональная история русскоязычного мира
http://personalhistory.ru
info@personalhistory.ru
Новости из царской России
Яндекс-дзен https://zen.yandex.ru/id/5eee495659f4f25be9052961
medium.com https://medium.com/me/stories/public
Дневник https://forum.vgd.ru/5623/
https://1russia.wordpress.com/
Лайк (2)
buldiga
Участник

Сообщений: 65
На сайте с 2017 г.
Рейтинг: 58
>> Ответ на сообщение пользователя abv от 27 февраля 2022 11:00

Спасибо! Очень хорошая работа. Может быть, предложить архиву открыть свободный доступ к карточкам - без регистрации в личном кабинете? Тогда "хакерам" будет нечего делать.
---
Алина Иванова
← Назад    Вперед →Страницы: ← Назад 1 2 * 3 4 Вперед →
Модератор: abv
Вверх ⇈