Загрузите GEDCOM-файл на ВГД   [х]
Всероссийское Генеалогическое Древо
На сайте ВГД собираются люди, увлеченные генеалогией, историей, геральдикой и т.д. Здесь вы найдете собеседников, экспертов, умелых помощников в поисках предков и родственников. Вам подскажут где искать документы о павших в боях и пропавших без вести, в какой архив обратиться при исследовании родословной своей семьи, помогут определить по старой фотографии принадлежность к воинским частям, ведомствам и чину. ВГД - поиск людей в прошлом, настоящем и будущем!
Вниз ⇊

Электронная библиотека РГБ

тексты книг

← Назад    Вперед →Страницы:  1 2 3 4 5 6 Вперед →
Модератор: olyvd
Celler
Про РГБ уже есть одна тема, но я решил завести новую, поскольку у меня есть одна идея.
Многие уже наверное знают, сколько там интересной литературы, но у этой библиотеки есть и существенные недостатки или недоработки. Самый главный из них - отсутствие полнотекстового поиска как это реализовано например на books.google. Поэтому таким образом не только нужную книгу не найдёшь, но и чтобы что-то найти в какой-то конкретной книге,- её нужно скачивать. А размеры pdf-файлов гигантские. Я уже сообщал, что не сложно просмотреть всю коллекцию и даже составить каталог всего имеющегося. Потенциально интересных книг для занимающихся генеалогией там не менее половины (кстати, более 5000 книг - это журналы земств). На сайте я не нашёл статистики выставленных фондов, но грубо прикинул, что там порядка 6 миллионов сканированных страниц, объёмом около 2 терабайт. В виде pdf-файлов это около 7 терабайт, для скачивания которых при нынешней скорости отдачи этих файлов потребуется, как ни странно, 365 дней непрерывного скачивания.
Пока самый большой встретившийся мне файл был rsl01003821681.pdf размером 2,1 гигабайта. Распознанный текст из этого файла составляет 10 мегабайт, а в виде архива всего 2 мегабайта. Получается, что весь текст всей коллекции будет занимать порядка 35 гигабайт, а в виде архивов всего 7 гигабайт. Прошу прощения за много цифр, но всё это только для того, чтобы показать, что абсолютному большинству не только нереально скачать всю коллекцию, но могут возникнуть проблемы даже при скачивании нескольких книг. А вот распознанный текст из всех этих книг много места не занимает и, хотя и очень плохого качества, но вполне достаточен для того, чтобы производить поиск по содержанию и чтобы вообще оценить нужна ли эта книга.
Поэтому я предлагаю копировать текст из скачанных книг, выкладывать его в виде архивов текстовых файлов на файлообменники и давать ссылки на них в этой теме. Никаких особых комментариев можно не давать, а только лишь все файлы называть точно так, как они называются в библиотеке - по этим названиям легко восстанавливается адрес книги в библиотеке и каждый может сам посмотреть что это за книга.
Текст из скачанных pdf-файлов можно скопировать следующим образом. Открываем файл и в меню pdf-программы выбираем инструмент для копирования. В этом случае курсор становится не в виде кисти руки, а другим. Открываем самую первую страницу документа, на которой есть текст и кликаем мышкой в самом начале этого текста. Затем переходим к самой последней странице документа с текстом, и, нажав предварительно клавишу регистра, снова кликаем мышкой в самом конце текста. После этого весь текст книги должен оказаться выделенным. Кликаем по этому выделенному тексту правой кнопкой мыши и выбираем копирование. Если книга большая, то процесс копирования может занять некоторое время. Когда текст скопируется, то переносим его в неформатированном виде в любой простой текстовый редактор, например "Блокнот" и запоминаем в виде текстового unicode-файла.
Есть только один момент, который может нам помешать - библиотека может запретить такое использование текста из её файлов, поэтому если кто-то найдёт на сайте указание на такие ограничения, то просьба тут же сообщить об этом в этой теме.
Для начала вот текст из упомянутой выше книги с 1609 страницами:
rsl01003821681
Kolob-07

Санкт-Петербург
Сообщений: 5135
На сайте с 2008 г.
Рейтинг: 3879
Celler
Простите за вопрос, раз уж Вы провели такой серьезный анализ. Какой объем книг из данной коллекции Вы считаете действительно нужно держать под рукой. Имеются в виду книги с уже найденной информацией и для ближайшего потенциального поиска. Сохранение коллекции на случай прикрытия "кормушки", вероятно, рассматривать не стоит. Общий вал доступных книг увеличивается - все их не сохранить.
Задаю вопрос, т.к., мне кажется, что среднее число таких книг у среднего исследователя будет не таким уж запредельным, особенно с прямой информацией, а не общеобразовательной, что тоже необходимо. У меня пока набралось не так уж и много, остальные можно не хранить постоянно. При хорошей связи обычный файл скачивается за несколько минут, а сбое, характерных для начального периода, уже давно небыло. Здесь, конечно, надо сделать поправку на возможности получения хорошей связи.
Т.е. пока есть сомнения в необходимости такой, для некоторых и не такой простой, работы.
Celler
Kolob-07
Всё зависит от глубины и серьёзности увлечения генеалогией. Во-первых, у многих уже за несколько поколений география расширяется чуть ли не на весь мир. Во-вторых, серьёзно занявшиеся генеалогией, как правило вскоре увлекаются параллельно и историей, географией, топонимикой и прочими дисциплинами. Все будут рады найти фамилию своего предка в любой книге. Поэтому потенциально интересны почти все из более чем 17000 книг, доступных там для скачивания. Среди них, как я уже сообщал, более 5000 всевозможных документов земств. Я до них ещё не добрался, но думаю, что они должны быть потенциально интересны. В названиях более чем 300 книг фигурируют какие-либо списки. Всевозможные полкИ фигурируют тоже в более чем 300 книгах. Вариации слова "история" встречаются примерно в 1600 названиях и т.д.
Вы правильно говорите, что скачать оттуда что-либо не проблема, проблема найти нужное для скачивания. Каким бы макаром я бы смог узнать, что в 42 томе Полного собрания законов (выше приведённый файл), на 1293 странице файла есть интересный мне список станиц Оренбургского казачьего войска?
Поэтому я и предлагаю собирать в одном месте содержание всех этих книг. Место для них найдётся на любом компьютере и не надо с РГБ вообще ничего тогда скачивать впрок. Если что-то заинтересовало, то достаточно произвести поиск по содержанию и только тогда скачать необходимое.
Скопировать же текст скачанной книги в текстовый файл очень просто и это может сделать каждый. Если у кого-то не получится, то спрашивайте.
Если же на РГБ появится возможность полнотекстового поиска, то и проделанной работы не так жалко, поскольку она совсем простая - скопировал и выложил.
Kolob-07

Санкт-Петербург
Сообщений: 5135
На сайте с 2008 г.
Рейтинг: 3879
Celler
Спасибо за ответ. Я как раз и не хотел учитывать книги по общим интересам (история, география и т.д.) Их круг достаточно многочисленен и, естественно, интересен и необходим.
Что касается Вашего оптимистичного утверждения, что многие в своих исследованиях уже охватили весь мир, то Вы правы, есть и такие счастливцы. Их много, но, увы, не больщинство и даже не значительная часть. В этом легко убедиться полистав разделы форума по фамильному поиску, особенно это касается поиску по обычным россиянам, с приезжими ну и со знатью - проще. Знаю людей, которые за почти тридцать лет достаточно активных поисков не так уж и сильно продвинулись. Поэтому я и упомянул про среднестатистического исследователя.
Хотя может Вы и правы, что для быстрого поиска проще иметь преобразованные документы.
Sonnenstrahl
Долгожитель форума

Sonnenstrahl

Москва
Сообщений: 476
На сайте с 2005 г.
Рейтинг: 504
Полезная идея для тех у кого медленная перекачка или медленная загрузка.
---
Ищу любых Мюрат (Россия и СНГ, (особенно г.Бронницы), Фере,Госин, жителях села Троице-Зотово Моск.губ. (Орловы, Гуськовы); выпускниках Белостокского реального училища 1913-1916 гг.,, предков Серг. Иосиф. Фролова (Сарат. губ.)
kott
Участник

Московская область
Сообщений: 78
На сайте с 2007 г.
Рейтинг: 73
Вы предложили интересную идею и дали интересную оценку объемов. Кроме того, я не знал что распознанный текст можно извлекать из pdf.

Вот только это трудоемко. Во-первых трудоемко выкладывать txt, во-вторых трудоемко искать нужный файл по его номеру. Короче, это пойдет только если найдутся энтузиасты, которые, впрочем среди вгд-шников вполне могут найтись.

А еще полезнее было бы иметь возможность искать не в отдельных txt-файлах какую-нибудь фамилию, а сразу по всем файлам. Например, если выложить распознанные txt-файлы на какой-нибудь сайт и проиндексиовать Яндексом, то такая полезная возможность появится.
SurnameIndex info
http://www.SurnameIndex.Info/mil

SurnameIndex info

Сообщений: 617
На сайте с 2009 г.
Рейтинг: 851

kott написал:
[q]
А еще полезнее было бы иметь возможность искать не в отдельных txt-файлах какую-нибудь фамилию, а сразу по всем файлам. Например, если выложить распознанные txt-файлы на какой-нибудь сайт и проиндексиовать Яндексом, то такая полезная возможность появится.
[/q]


Индексация фамилий из книг - http://www.SurnameIndex.info.
Celler

kott написал:
[q]

Вот только это трудоемко. Во-первых трудоемко выкладывать txt, во-вторых трудоемко искать нужный файл по его номеру. Короче, это пойдет только если найдутся энтузиасты, которые, впрочем среди вгд-шников вполне могут найтись.

А еще полезнее было бы иметь возможность искать не в отдельных txt-файлах какую-нибудь фамилию, а сразу по всем файлам. Например, если выложить распознанные txt-файлы на какой-нибудь сайт и проиндексиовать Яндексом, то такая полезная возможность появится.
[/q]

Лучше всего это могла бы сделать сама библиотека РГБ. Может она это вскоре и сделает, поэтому наверное нецелесообразно заниматься созданием какой-либо серьёзной альтернативы. Я же предлагал собирать эти тексты на своих компьютерах всем желающим. Они много места не занимают и есть хорошие программы, которые позволяют искать по содержанию множества файлов даже в заархивированном виде локально на компьютере. По номеру файла легко находится его адрес в сети. Этот адрес всегда имеет такой вид: http ://dlib.rsl.ru/view.php?path=/rsl01003000000/rsl01003548000/rsl01003548569/rsl01003548569.pdf (вставил пробел, чтобы линк отражался в виде простого текста), в котором есть 4 одиннадцатизначных числа. В первом числе пять первых цифр от исходного номера, а остальные нули. Во втором - восемь цифр, а остальные нули, а третье и четвёртое полностью совпадают с исходным номером файла. Если у кого-то будут сложности, то могу сделать и выложить Excel-файл, в котором этот адрес будет формироваться автоматически после копирования в него названия файла.
Делать простой поиск по фамилиям по всем файлам я считаю нецелесообразным, поскольку по распространённым фамилиям будет выдаваться слишком большой список. Имеет смысл делать это регионально, например только по соответствующим адрес-календарям, но, к сожалению, на РГБ их совсем мало.
Всё это технически не сложно, но одному человеку на одно только скачивание всех книг и копирование из них текста потребуется несколько лет времени. А если будет много человек, то сделать всё можно очень быстро.
Sonnenstrahl
Долгожитель форума

Sonnenstrahl

Москва
Сообщений: 476
На сайте с 2005 г.
Рейтинг: 504

Celler написал:
[q]
Лучше всего это могла бы сделать сама библиотека РГБ.
[/q]

Уже объявлено, что полнотекстовые национальные библиотеки в августе работают в тестовом режиме, а потом перейдут в промышленный. Это означает, что в соответствии с с федеральной национальной программой "Электронная Россия" ( к 2010 году для обеспечения свободного доступа граждан к информации должен в интернет встать и объединенный каталог библиотек и архивов, а также единый электронный читательский билет и многое другое) была разработана и реализована соответствующая концепция и рабочий проект. Программа начата в 2002 г. Общественность гадает, что сделано. Программа бюджетная, речь шла о свободном доступе. Но кажется идет утверждение прейскуранта платных услуг. Обсуждение интерфейса национальной электронной библиотеки - право общественности, неспользуемое этой общественногстью. Уже генеалогические услуги и справки в архивах сделаны платныфми. Будем дожидаться того же в библиотеках? Какое из наших генеалогических сообществ представляло наши потребности при сдаче полнотекстовых библиотек? Или это делало Министерство культуры? Общество потребителей?
---
Ищу любых Мюрат (Россия и СНГ, (особенно г.Бронницы), Фере,Госин, жителях села Троице-Зотово Моск.губ. (Орловы, Гуськовы); выпускниках Белостокского реального училища 1913-1916 гг.,, предков Серг. Иосиф. Фролова (Сарат. губ.)
vam

vam

Москва
Сообщений: 27499
На сайте с 2003 г.
Рейтинг: 3593
Почему для просмотра пдф-файлов на сайте РГБ мне навязывается платная программа ?

Программа DefView для интернет-пользователей

Приобретая лицензию на право пользования программой DefView, Вы со своего компьютера сможете получить доступ к электронным документам, расположенным в разных библиотеках России.

Вы можете попробовать демо-версию DefView перед покупкой лицензии.

На данный момент, купив лицензию DefView, Вы сможете просматривать документы, хранящиеся в фондах
← Назад    Вперед →Страницы:  1 2 3 4 5 6 Вперед →
Модератор: olyvd

Вверх ⇈