Загрузите GEDCOM-файл на ВГД   [х]
Всероссийское Генеалогическое Древо
На сайте ВГД собираются люди, увлеченные генеалогией, историей, геральдикой и т.д. Здесь вы найдете собеседников, экспертов, умелых помощников в поисках предков и родственников. Вам подскажут где искать документы о павших в боях и пропавших без вести, в какой архив обратиться при исследовании родословной своей семьи, помогут определить по старой фотографии принадлежность к воинским частям, ведомствам и чину. ВГД - поиск людей в прошлом, настоящем и будущем!
Вниз ⇊

Web scrape

Как скачать без всякого труда (или с трудом, но небольшим; или с большим, но не очень) золотую рыбку из интернетовского пруда?
Ответ: я тоже не знаю (все). Но кое что все-таки из моих потуг может оказаться не вредным.

    Вперед →Страницы: ← Назад 1 2  3 4 Вперед →
Модератор: abv
abv
Модератор раздела

abv

Красногорск, Моск.обл.
Сообщений: 2192
На сайте с 2004 г.
Рейтинг: 950
LittleBig - а вот еще один малюсенький большой успех.
Есть такой сайтик (сайтище) rusneb.ru

Нет-нет, да попадаются на нем, иногда, небесполезные вещи.
Вот взять, например, журнал "Искры Илл., худож.-лит. и юморист. журнал с карикатурами Выходит еженедельно при газ. "Русское слово""
Взять, да прочитать (бы).
Кое-кто кое-где у нас порой уже сподобился чуть-чуть почитать и дать читать другим. Смотри, например
журнал "Искры" 1915
04.01 № 1
11.01 № 2
18.01 № 3
25.01 № 4
01.02 № 5
08.02 № 6
15.02 № 7
22.02 № 8
01.03 № 9
08.03 № 10
15.03 № 11
22.03 № 12
05.04 № 13
12.04 № 14
И спросил Петька Чапая: — "А могёшь ли ты в мировом масштабе?"/ А тот отвечает: — "Не могу, Петька, не могу - языков не знаю".
Ну а я зыков знаю, поэтому - могу.

Прилагаю "волшебный файл" "Искры.html".
Инструкция по применению: открываешь в браузере и прощелкиваешь ссылки - каждый щелчок приводит к загрузке (в папку Загрузки по умолчанию) соответствующего номера журнала. Этих номеров там 649 - за годы в диапазоне 1902-1917.

Как возник этот волшебный ключик? Путем скрейпинга страниц


Прикрепленный файл (Искры.html, 133251 байт)
---
Персональная история русскоязычного мира
http://personalhistory.ru
info@personalhistory.ru
Новости из царской России
Яндекс-дзен https://zen.yandex.ru/id/5eee495659f4f25be9052961
medium.com https://medium.com/me/stories/public
Дневник https://forum.vgd.ru/5623/
https://1russia.wordpress.com/
Лайк (2)
abv
Модератор раздела

abv

Красногорск, Моск.обл.
Сообщений: 2192
На сайте с 2004 г.
Рейтинг: 950
Враги сожгли родную хату.
Жил был сайт http://82.209.65.104:180/Default.aspx Пензенского архива, сбацанный шарашкиной конторой "ЭЛАР-Архив".
Худо-бедно, выложены были там сканы (аж 317287 штук)
Всероссийская сельскохозяйственная и поземельная перепись 1917 г. по Пензенской губернии
Казалось бы, вот оно — счастье, в чистом виде. И не (так уж) важно, что сайт еле-еле тащится, дышит на ладан. Главное, что (теоретически) можно было посмотреть и, если сильно интересно, скачать какую-нибудь карточку переписи (и даже несколько карточек).
Но недолго музыка играла. С ребятами из Елара не забалуешь. Как ручеек бюджетного финансирования засыхает, так начинаются проблемы для пользователей. Хоть и пронесся слух, что хакеры уничтожили все сканы карточек переписи 1917 в Пензенском архиве, сдается мне, что это - дело рук этих гавриков из Элары.
Так или иначе в сухом остатке сейчас имеем следующее: наименование и текстовое описание карточек есть, а электронных образов (сканов) - нет.
Хакеры обычно так не работают - уж если уничтожать, так уничтожать. Здесь, в данном случае, слой электронных образов аккуратно срезан, не задевая текстовые описания.

Возникает закономерный вопрос, а сколько вообще из всех дел в Пензенском архиве в настоящий момент имеют электронные образы?
Спрашивайте, отвечаем: таких дел всего лишь 8375 (хотя, зная, на что способны "деятели" из Элар-Архив, и этому можно порадоваться).

Чтобы найти все эти дела, надо нажать кнопку "Расширенный поиск" и во вкладке "Дела" установить флажок "Наличие электронной копии". Получится список, который можно просматривать порциями по 100 строк.
См. скриншот Файл Буфер обмена01.pdf, 122 Кб

Поскольку сайт архива работает нестабильно, я скачал, для вящего удобства, все 84 страницы по 100 строк (т.е. весь список длиной 8375).
Ниже прилагаю полный список всех этих 8375 дел (файл index0.htm, размер 2 Мб). Надо открыть этот файл в браузере и тогда можно каждое дело открыть (кликнув на ссылку в соответствующей строке) и затем, если надо скачать сканы дела.


Прикрепленный файл (index0.htm, 2529272 байт)
---
Персональная история русскоязычного мира
http://personalhistory.ru
info@personalhistory.ru
Новости из царской России
Яндекс-дзен https://zen.yandex.ru/id/5eee495659f4f25be9052961
medium.com https://medium.com/me/stories/public
Дневник https://forum.vgd.ru/5623/
https://1russia.wordpress.com/
Лайк (2)
buldiga
Участник

Сообщений: 64
На сайте с 2017 г.
Рейтинг: 60
>> Ответ на сообщение пользователя abv от 27 февраля 2022 11:00

Спасибо! Очень хорошая работа. Может быть, предложить архиву открыть свободный доступ к карточкам - без регистрации в личном кабинете? Тогда "хакерам" будет нечего делать.
---
Алина Иванова
abv
Модератор раздела

abv

Красногорск, Моск.обл.
Сообщений: 2192
На сайте с 2004 г.
Рейтинг: 950

buldiga написал:
[q]
>> Ответ на сообщение пользователя abv от 27 февраля 2022 11:00

Спасибо! Очень хорошая работа. Может быть, предложить архиву открыть свободный доступ к карточкам - без регистрации в личном кабинете? Тогда "хакерам" будет нечего делать.
[/q]


А чего открывать? У них и так все открыто. И карточки переписи там есть, все 317287. Только сканов карточек там нет. И если нет дыма без огня (про хакеров), то, значит, этих сканов у них вовсе нет сейчас, ни на сайте, ни где либо еще. Им надо фотографировать или сканировать их заново (или заплатить Эларе еще монеток, чтобы они выложили эти сканы из припрятанного места).


---
Персональная история русскоязычного мира
http://personalhistory.ru
info@personalhistory.ru
Новости из царской России
Яндекс-дзен https://zen.yandex.ru/id/5eee495659f4f25be9052961
medium.com https://medium.com/me/stories/public
Дневник https://forum.vgd.ru/5623/
https://1russia.wordpress.com/
Лайк (1)
buldiga
Участник

Сообщений: 64
На сайте с 2017 г.
Рейтинг: 60
>> Ответ на сообщение пользователя abv от 27 февраля 2022 15:52

Доступ к карточкам - только через регистрацию в ЛК. Это надо убрать.
---
Алина Иванова
buldiga
Участник

Сообщений: 64
На сайте с 2017 г.
Рейтинг: 60
>> Ответ на сообщение пользователя abv от 27 февраля 2022 15:52

Есть ли сканы карточек где-то на внешних носителях, мы не знаем. Предположения можно строить всякие.
---
Алина Иванова
abv
Модератор раздела

abv

Красногорск, Моск.обл.
Сообщений: 2192
На сайте с 2004 г.
Рейтинг: 950

buldiga написал:
[q]
>> Ответ на сообщение пользователя abv от 27 февраля 2022 15:52

Доступ к карточкам - только через регистрацию в ЛК. Это надо убрать.
[/q]


Тематические карточки переписи 1917 доступны и при ГОСТЕВОМ ВХОДЕ. Проверено только что.
Доступ к сканам, действительно, будет только при (бесплатной) регистрации. Но в данном случае - сканов переписи 1917 нет вовсе.
---
Персональная история русскоязычного мира
http://personalhistory.ru
info@personalhistory.ru
Новости из царской России
Яндекс-дзен https://zen.yandex.ru/id/5eee495659f4f25be9052961
medium.com https://medium.com/me/stories/public
Дневник https://forum.vgd.ru/5623/
https://1russia.wordpress.com/
abv
Модератор раздела

abv

Красногорск, Моск.обл.
Сообщений: 2192
На сайте с 2004 г.
Рейтинг: 950
Вот что крест животворящий делает!

Появились таки карточки. Так что хакеры оказались честные грабители и (все?) что они похитили, вернули (на место) под шумок.
Кстати, справедливости ради, хотя и был период, когда карточек на сайте не было, но все-таки "расширенный поиск" с флажком "Наличие электронной копии" во вкладке "Дела" не отражает наличие или отсутствие электронных образов для тематических карточек переписи 1917. Для тематических карточек в расширенном поиске есть отдельная вкладка "Тематические карточки". В этой вкладке нет флажка "Наличие электронной копии", т.е. отфильтровать с помощью расширенного поиска электронные образы карточек не получится - надо проверять каждую карточку на наличие скана индивидуально.

Была просьба отыскать карточку на
Клявлин Михаил Александрович. Нижнеломовский уезд, Аршиновская волость, село Самодуровка

Вот карточка
00000007.jpg
А вот ссылка на карточку
Если для каждой карточки переписи знать ее ID
(для этой конкретной карточки) id=b1695c77-514c-499d-a0a2-16dacce019ff
то можно скачать любую из них, или даже все (а то вдруг "хакеры" передумают)

04.09.23 Карточки можно скачивать по ссылкам вида
Вид
Размер
Качество

http://82.209.65.104:180/Pages/ImageFile.ashx?id={id}
2.36Mb
JPEG, quality: 87

http://82.209.65.104:180/Pages/ImageFilePart.ashx?zoom=1&id={id}
7.06Mb
JPEG, quality: 100

http://82.209.65.104:180/Pages/ImageFilePart.ashx?zoom=2&Id={id}
22.16Mb
JPEG, quality: 100

---
Персональная история русскоязычного мира
http://personalhistory.ru
info@personalhistory.ru
Новости из царской России
Яндекс-дзен https://zen.yandex.ru/id/5eee495659f4f25be9052961
medium.com https://medium.com/me/stories/public
Дневник https://forum.vgd.ru/5623/
https://1russia.wordpress.com/
Лайк (1)
abv
Модератор раздела

abv

Красногорск, Моск.обл.
Сообщений: 2192
На сайте с 2004 г.
Рейтинг: 950
Томская областная библиотека им. А.С. Пушкина
Сибирская железная дорога. Список личного состава на 1 февраля 1911 года. Вып. 6. - Томск, 1911
Сибирская железная дорога. Список личного состава на 1 февраля 1911 года. Вып. 6 / М. П. С., Сиб. ж. д. — Томск : Издание канцелярии начальника дороги, 1911 ( : Товарищество "Печатня С. П. Яковлева"). — II, [2], 104 с., XI c. ; 26 см.

Содержание :
Начало.

ОТДЕЛ I. Центральные учреждения Министерства Путей сообщения.
ОТДЕЛ II. Список личного состава старших агентов дороги на 1 февраля 1911 года.
ОТДЕЛ III. Список чинов учреждений и ведомств, причастных к Сибирской железной дороге, а также находящихся в пределах ее.
ОТДЕЛ IV. Список начальствующих лиц казенных и частных железных дорог.

Алфавитный указатель.

Замеченные опечатки.


Прилагаю готовый файл "Сибирская железная дорога.htm" для закачки сканов.
Инструкция по его применению:

  • Открыть в броузере файл "Сибирская железная дорога.htm"
  • Сохранить на диск, под именем, скажем "Сибирская железная дорога+.htm"
  • В подпапке "Сибирская железная дорога+_files" будут 126 нужных сканов



Прикрепленный файл (Сибирская железная дорога.htm, 9826 байт)
---
Персональная история русскоязычного мира
http://personalhistory.ru
info@personalhistory.ru
Новости из царской России
Яндекс-дзен https://zen.yandex.ru/id/5eee495659f4f25be9052961
medium.com https://medium.com/me/stories/public
Дневник https://forum.vgd.ru/5623/
https://1russia.wordpress.com/
abv
Модератор раздела

abv

Красногорск, Моск.обл.
Сообщений: 2192
На сайте с 2004 г.
Рейтинг: 950
Адрес-календарь на 1892-1893 год должностных лиц правительственных и общественных установлений Степного генерал-губернаторства
"http://books.omsklib.ru/Knigi/NEW/Adres-kalendar'_liz/index.html"
Ссылка заключена в кавычки, поскольку иначе forum.vgd.ru ошибочно заканчивает ссылку на символе амперсанта.
Загружается pdf файл постранично (все 176 страниц), но сохранять предлагается каждую страницу по отдельности.
Это кажется не совсем удобным. Может, так кажется только мне?
Если нет, предлагается следующее:

  • Включаем режим отладки в браузере (клавишу F12)
  • Открываем вкладку "Network"
  • В колонке "Name" открываем контекстное меню (нажимаем правую кнопку мышки) и выбираем пункт "Copy - Copy all as Node.js fetch"
  • Копируем это в текстовый редактор


В конце скопированного находим фрагмент
[q]
fetch("http://books.omsklib.ru/Knigi/NEW/Adres-kalendar'_liz/Adres-kalendar'_liz.pdf", {
"headers": {
"accept": "*/*",
"accept-language": "ru-RU,ru;q=0.9,en-US;q=0.8,en;q=0.7",
"cookie": "_ga=GA1.2.1337419021.1650200459; _gid=GA1.2.966182245.1650200459; _gat_gtag_UA_70972518_1=1",
"Referer": "http://books.omsklib.ru/Knigi/NEW/Adres-kalendar'_liz/index.html",
"Referrer-Policy": "strict-origin-when-cross-origin"
},
"body": null,
"method": "GET"
});
[/q]

из которого получаем правильную ссылку для закачки pdf файла "http://books.omsklib.ru/Knigi/NEW/Adres-kalendar'_liz/Adres-kalendar'_liz.pdf"
---
Персональная история русскоязычного мира
http://personalhistory.ru
info@personalhistory.ru
Новости из царской России
Яндекс-дзен https://zen.yandex.ru/id/5eee495659f4f25be9052961
medium.com https://medium.com/me/stories/public
Дневник https://forum.vgd.ru/5623/
https://1russia.wordpress.com/
    Вперед →Страницы: ← Назад 1 2  3 4 Вперед →
Модератор: abv
Вверх ⇈