ЗадачаНайти в периодическом издании упоминания человека, места или события, когда вам известен минимум вводных. В моем случае, совершенно случайно, мне на глаза попалась запись о потенциальном предке с минимумом информации в одном из номеров. Название награды, фамилия, имя, род занятий (учитель школы грамоты) и название нас. пункта - все что было. Посмотрим, удастся ли найти что-то еще. Никакого индекса (каталога) по фамилиям мне найти не удалось, поэтому было выбрано следующее решение. Оно не самое изящное, но я его счел наиболее подходящим в моем случае.Поскольку, периодика обычно представлена сканированными и распознанными (OCR) номерами (каждый номер - отдельный файл в формате pdf, djvu и т.п.), то задача сводится к
поиску по содержимому большого количества файлов.
Использовать текстовый поиск, открывая каждый номер по отдельности мне было лень, к тому же я понятия не имел - в каком году искомый человек мог мелькнуть еще раз (да и мог ли вообще)Решение Первый этап. Подготовительный, и, если у вас на жестком диске уже есть подборка вашей периодики, его можно пропустить перейдя ко второму.
В моем случае, этот этап оказался самым проблемным. Вот отсюда https://pravoslavnoe-duhovenstvo.ru/library/material/6088/ предстояло выкачать номера ведомостей как минимум за период 1890-1917 (27 лет примерно по 25 номеров на год = 675 файлов!)Для решения такой задачи можно воспользоваться старомодными программами для создания архивной копии сайта у вас на диске, например: Cyotek WebCopy, Teleport Pro или Offline Explorer. Однако я воспользовался программой
Download Master она на русском, бесплатная, а ее расширение для браузера позволяет в пару кликов добавить все номера за 1 год. Вполне компромиссное решение из времен dial-up (кому надо, тот поймет

)
Мне пришлось создать отдельные папки для каждого года, так как авторы сайта почему то переименовали все pdf таким образом, что невозможно было понять - какой номер и год. После чего, я добавил задания на закачку и скачал все выпуски за интересующий меня период. Второй этап. Можно осуществить
двумя способами - с помощью стандартного поиска Windows или с помощью альтернативной программы.
СПОСОБ 1 - Стандартный поиск Windows. С некоторых пор, windows умеет делать поиск не только по имени файла, но и по содержимому. Однако, особо не афишируется, что делать она это умеет
только по индексируемым папкам, а это (сюрприз!) всего несколько папок вашего ПК. Соответственно, вам нужно либо переместить вашу подборку в одну из этих папок, либо указать windows дополнительную папку для включения ее в индекс (инструкция
тут). Какой бы вы способ не применили, знайте - индексирование занимает время и вы нигде не уведите никакого прогресс бара или сообщения о готовности. Система будет делать это в фоновом режиме и когда закончит - неизвестно. Через какое-то время вы можете повторить поиск (пункт 1 инструкции) и получите список файлов в которых встречается ваш поисковый запрос.
СПОСОБ 2 - Стороннее ПО Я воспользовался
DocFetcher - бесплатная, русский интерфейс, поддерживает pdf и поиск по содержимому. По ссылке инструкция по установке - не забудьте java. Интерфейс простой и интуитивный. Все что нужно - включить папку с вашими файлами в индекс (скрин ниже) и ввести запрос в поле вверху окна. После чего получаете аналогичный список с возможностью просмотра.
О формировании запроса: Какой бы из двух путей вы не использовали - иногда запрос стоит сделать шире. Например, если вы ищете записи об Иванове, то запрос лучше сделать таким: "иванов*". Звездочка здесь - это любые другие символы, то есть, вы получите и "иванов", и "иванова", и "иванову" и т.д.
Помните! Всегда есть риск, что распознанный текст будет низкого качества. Например, "И В А Н О В" вместо "Иванов" как защититься от этого - я не знаю.
ВыводыИз явных минусов этого подхода - вам нужно держать всю подборку на жестком диске (по крайней мере - на время поиска). Можно, наверное, сжать до минимального качества, но большинство из нас воспользуется этим методом - пару раз. Есть и другие методы и пути, более правильные и изящные, но требующие больше времени и знаний для подготовки. Использование сторонней программы показалось мне чуть удобнее (проще ориентироваться в выдаче, понятно - когда индексирование окончилось), но стандартный поиск не требует никаких программ.
Возможно, в будущем я попробую оптимизировать процесс и предложу другое решение.
Если у вас есть соображения на этот счет - прошу, поделиться!