Всероссийское Генеалогическое Древо
На сайте ВГД собираются люди, увлеченные генеалогией, историей, геральдикой и т.д. Здесь вы найдете собеседников, экспертов, умелых помощников в поисках предков и родственников. Вам подскажут где искать документы о павших в боях и пропавших без вести, в какой архив обратиться при исследовании родословной своей семьи, помогут определить по старой фотографии принадлежность к воинским частям, ведомствам и чину. ВГД - поиск людей в прошлом, настоящем и будущем!
Вниз ⇊

Выгрузки данных в Excel из АИС ЦГА Москвы.

Записи по метрическим книгам, исповедным ведомостям, ревизским сказкам, опубликованных на сайте ЦГАМ. Учет, отслеживание изменений, немного магии, аналитика. Записи из "Научно-Справочного Аппарата", "Мегатаблицы"...

← Назад    Вперед →Страницы:  1 2 3 Вперед →
Модератор: Lara
xbox

Сообщений: 491
На сайте с 2020 г.
Рейтинг: 977
Начинаю эту тему для публикации, на мой взгляд, очень полезных и удобных таблиц в формате Excel.
Эти таблицы позволяют на порядок сократить время поиска информации по метрическим книгам, исповедным ведомостям и ревизским сказкам и другим материалам, опубликованным на сайте ЦГА Москвы.
Кроме этого публикуемые таблицы позволяют отслеживать регулярные пополнения и изменения в публикуемых архивом материалах.

Первичные данные для таблиц собираются путем программного обхода сайта архива. Затем происходит обработка, в результате которой данные обобщаются, систематизируются, сравниваются с предыдущими выгрузками, исправляются ошибки в текстах, производится форматирование текста, удаляется все лишнее, добавляется немного магии, наводится марафет и получается то, что вы видите.

Ссылки на основные таблицы в формате Excel:Ссылки на последние версии основных таблиц будут закреплены в первом сообщении с указанием даты их последнего обновления.
Кроме основных таблиц, со временем будут и другие. Их в шапку выносить не буду, ищите такие таблицы в последующих сообщениях.

Это не диалоговая тема. Хотелось бы, чтобы в этом разделе сохранялась возможность легкой навигации и быстрого поиска нужных материалов.
Поэтому прошу в эту тему не писать за исключением крайних случаев по действительно очень существенным вопросам, относящимся к публикуемым таблицам.
Также прошу не спрашивать, когда будет обновление или есть ли аналогичная таблица по другому уезду итп.
Когда и если появится новая таблица или обновление, я её опубликую при наличии свободного времени.
Об обнаруженных ошибках и замечаниях пишите в личку или на адрес, указанный на странице info в последних версиях файлов.

Относительно работы самого сайта ЦГА Москвы на этом форуме есть отдельная тема: "Заработал новый АИС".
По всем вопросам, касающимся работы сайта ЦГА, по ожиданиям публикаций новых дел, для обсуждения размещенных архивом материалов, пишите в указанную отдельную тему.
Её отслеживают множество пользователей форума. Вам там обязательно ответят.
Я тоже читаю тему "Заработал новый АИС" и там оставляю комментарии.

Прикрепленный файл: xbox_xlsx1.pngxbox_xlsx2.png, 224168 байтxbox_xlsx3_mega.png, 260399 байт
Лайк (30)
xbox

Сообщений: 491
На сайте с 2020 г.
Рейтинг: 977
ОБНОВЛЕННЫЙ ФАЙЛ В ФОРМАТЕ EXCEL с полной информацией
ПО МЕТРИЧЕСКИМ КНИГАМ, выложенным на сайте ЦГА Москвы,
с учетом изменений на сайте с 18/12/2021 по 03/02/2022

См. вложение.

В ЯНВАРЕ 2022 Г. ДОБАВЛЕНЫ НОВЫЕ ДЕЛА:

Фонд 203 опись 745: 1199, 1222, 1251, 1268, 1298, 1317. (Всего 6шт)

Фонд 203 опись 780: 2748, 2749, 2750, 2751, 2752, 2753, 2754, 2755, 2756, 2757, 2758, 2759, 2760, 2761, 2763, 2764, 2765, 2766, 2767, 2771, 2772, 2773, 2774, 2775, 2776, 2777, 2778, 2779, 2780, 2781, 2782, 2784, 2785, 2786, 2789, 2790, 2791, 2792, 2793, 2794, 2796, 2797, 2798, 2799, 2800, 2801, 2803, 2804, 2805, 2806, 2808, 2810, 2811, 2812, 2813, 2814, 2817, 2818, 2819, 2820, 2822, 2823, 2826, 2827, 2828, 2829, 2830, 2831, 2832, 2833, 2834, 2836, 2837, 2840, 2841, 2843, 2845, 2846, 2847, 2848, 2849. (Всего 81шт)

Фонд 592 опись 1: 1702, 2044. (Всего 2шт)

Фонд 592 опись 2: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32. (Всего 32шт)

Фонд 607 опись 1: 937, 1354, 1355, 1356, 1907. (Всего 5шт)

Фонд 608 опись 2: 1741, 1750, 1780, 2069, 2070, 2085, 2089, 2111, 2161, 2162. (Всего 10шт)

Всего на текущий момент: 6889 книг, 2 627 268 страниц.

Среди новых выложенных книг в 11 не заполнены описания. По старым делам описания отсутствуют у 136 книг.


Прикрепленный файл (MetricBookData-20220203-103620.xlsx, 1225771 байт)
Лайк (18)
xbox

Сообщений: 491
На сайте с 2020 г.
Рейтинг: 977
ОБНОВЛЕННЫЙ ФАЙЛ В ФОРМАТЕ EXCEL с полной информацией
ПО ИСПОВЕДНЫМ ВЕДОМОСТЯМ, выложенным на сайте ЦГА Москвы,
с учетом изменений на сайте с 19/10/2021 по 03/02/2022

См. вложение.

В ЯНВАРЕ 2022 Г. ДОБАВЛЕНЫ НОВЫЕ ДЕЛА:

Фонд 203 опись 747: 1535, 1536, 1537, 1554, 1577, 1578, 1585, 1591, 1594, 1596, 1614. (Всего 11шт)

Фонд 592 опись 1: 2416. (Всего 1шт)

Фонд 607 опись 1: 1429, 1437. (Всего 2шт)

Фонд 608 опись 2: 37, 1742, 1779, 1805, 2102, 2153. (Всего 6шт)

Фонд 2126 опись 1: 76. (Всего 1шт)

Всего на текущий момент: 787 дел с исповедными ведомостями, 381 311 страниц.

В 8 новых делах не заполнено описание. По старым делам описание заполнено везде.


Прикрепленный файл (IspovednieVedomostiData-20220203-091622.xlsx, 99650 байт)
Лайк (13)
xbox

Сообщений: 491
На сайте с 2020 г.
Рейтинг: 977
ОБНОВЛЕННЫЙ ФАЙЛ В ФОРМАТЕ EXCEL с полной информацией
ПО РЕВИЗСКИМ СКАЗКАМ, выложенным на сайте ЦГА Москвы,
с учетом изменений на сайте с 19/10/2021 по 01/02/2022

См. прилагаемый файл.

Состав самих публикуемых дел остался без изменений.
Однако в 404 из 405 дел изменилось описание.

В основном изменения такие.

Было: "Московская губерния. Волоколамский уезд. Ревизские сказки священно- и церковнослужителей г. Волоколамска и уезда по 8-й ревизии"
Стало: "Ревизские сказки священно - и церковнослужителей г. Волоколамска и уезда по 8-й ревизии."

Т.е. почти во всех описаниях убрали вначале указание губернии и уезда, которые вероятно на сайте автоматически подставлялись перед основным описанием.


Прикрепленный файл (RevSkazkiData-20220201-103648.xlsx, 66272 байт)
Лайк (14)
xbox

Сообщений: 491
На сайте с 2020 г.
Рейтинг: 977
Многие пользователи форума уже знакомы с таблицами со списками доступных на сайте ЦГА Москвы метрических книг, исповедных ведомостей и ревизских сказок. Эти таблицы я выкладываю уже более полугода. Поэтому не буду про них совсем все расписывать, а отмечу только отдельные моменты, связанные с их использованием, а также расскажу, что появилось в последней (январской) версии таблиц, чего ранее не было.

В общих словах таблицы помогают не только иметь под рукой список всех доступных онлайн книг, но и отслеживать ежемесячные обновления. Без таких таблиц пришлось бы вручную каждый месяц пытаться найти 100-250 новых книг среди более 6тыс старых книг. Кроме того, в старых книгах может меняться описание, а иногда ранее выложенные книги могут пропасть с сайта. И с таблицами это тоже под контролем...

Таблицы позволяют фильтровать записи по колонкам. По одной колонке можно установить сразу несколько фильтров. Например, если Вы хотите найти Троицкую церковь Можайского уезда, то нужно выбрать "настраиваемый фильтр" по колонке "Название" и там указать не изменяющиеся части значимых слов, а именно "значение содержит Можайск" И "значение содержит Троицк". Пример на скриншоте. Дополнительно в полученном результате можно оставить только "новые книги", а потом только "новые книги" за 1899г. итп. Пример на скриншоте.

Из-за окончательного перехода сайта ЦГАМ на новую версию программу по сбору данных пришлось очень сильно переделывать, чтобы она снова заработала. Во время переделки и подстройки под новый сайт возникали некоторые сложности обработки, которые в тоже время привели к новым идеям и помогли дальнейшему развитию программы.

Одна из таких сложностей заключалось в следующем... Раньше описание каждой метрической книге хранилось в одном HTML блоке единым "куском". В новой версии сайта длинные описания метрических книг постарались с помощью некоторого алгоритма разбить на отдельные строчки. При этом алгоритм был выбран не самый удачный, - новая строка начинается после каждой точки. Вероятно, предполагалось, что каждое новое предложение будет начинаться с новой строки. Но, похоже, забыли про сокращения итп. В результате совершенно обычная часть описания типа "г. Москва Церковь Св. Валентины 1830 г. (На Калужской ул.)" из-за содержания четырех точек разбивается на четыре разные строки в самых неподходящих местах, так что даже закрывающая скобка остается без текста на новой строке. При этом каждая строка теперь хранится в отдельном HTML блоке.

Описания книг, хранящиеся теперь не в одном, а нескольких разных блоков я склеил. Это было не сложно. Но тут обнаружилась проблема. Каждый месяц я сравниваю, в каких старых книгам изменилось описания и/или год(даты). При разбиении описания на строчки, алгоритм сайта иногда пробелы удалял, иногда добавлял, в конце всегда добавлял точку, даже если она уже была в описании. После склейки описания для человека оно получалось похожим на старое, но при программном сравнении оказалось, что более 3тыс описаний не совпадают со старыми. Сначала я пробовал делать постобработку склеенных строк, чтобы подогнать новый результат под старый. После каких-то сокращений пробовал добавлять пробелы, где-то убирать, какие строки заменять, двойные точки и пробелы заменять на одинарные. В результате количество расхождений уменьшилось с 3тыс до примерно 300. И тогда я понял, что пытаться из новой версию сделать старую бессмысленно. Вместо этого, чтобы понять изменилось описание или нет, я предварительно из текста старой и новой версии удаляю все пробелы, точки, запятые, дефисы итп и затем сравниваю то, что осталось. При таком подходе, оказалось, что не совпадают всего 11 дел и они действительно ранее были изменены.

Следующее, на что я обратил внимание, при работе с описаниями книг, - это очень большое количество "ляпов" и не совсем корректно заполненных подписей. Где-то запятая может прилипать к правому слову, где-то слова идут через запятую без пробелов. Иногда пробел стоит с обеих сторон запятой, иногда открывающаяся скобка прилипает к тексту слева, а после нее идет пробел. Иногда по ошибке идут две точки подряд. Встречаются двойные пробелы. При написании дефисов с одной стороны может быть пробел, а со второй нет. Одинаковые сокращения типа г., гг., св., ч.,чч. и другие в разных местах оформляются по-разному. Это только часть замечаний. Их гораздо больше. В результате я решил полученный текст перед сохранением обрабатывать и делать красивым. Поиск и исправление "некрасивых вхождений в тексте" осуществляется с помощью нескольких десятков "регулярных выражений". После множества экспериментов полученным результатом я остался доволен.

Дальше дошла очередь и до колонки с датами. И здесь сразу четыре нововведения, одно из которых просто "бомба".
Даты на сайте ЦГА могут быть записаны как угодно. Встречаются, как простые варианты типа "1788-", "[1883-1901]", "(1815,1816)", "1888-(1890)", "12 мая /1860/", "20 [8] сентября 1840", так и более сложные типа "0,1755" (число с годом в дробной части), "185018511852" (три склеенных года без пробелов), "181 818 191 820" (три склеенных года 1818, 1819, 1820, затем разбиты на разряды по три цифры. Именно так на сайте). И конечно пробелы после запятых, дефисов, точек, скобок итп расставлены, как придется.

Первое, что было сделано с датами, - после получения значения с сайта, все найденные ошибки исправляются, все лишнее убирается и потом красиво форматируется. В результате даты в колонке "Годы (Сайт)" выглядят намного лучше, чем в оригинале. Колонка получилась красивой, но фильтровать по ней сложно, потому что отдельные годы идут вперемешку с диапазонами. Поэтому появилось второе и третье решение по хранению дат.

Из изначальной колонки с датами были сформированы две новые колонки "Год1" и "Год2". "Год1" - это один год, который соответствует началу диапазона. Например для "1855" и "декабрь 1855 - январь 1870", значение "Год1" будет "1855". "Год2" - это один год, который соответствует концу диапазона. Для "1855" это будет "1855", а для "декабрь 1855 - январь 1870" это будет "1870". Две новые колонки содержат по одному году и по ним удобно делать как простые фильтры, так и сложные. Например, по колонке можно установить фильтр Год1 больше 1855, но меньше 1865.

Получилось хорошо, но чего-то не хватало. А не хватало следующего. Предположим, что в оригинале на сайте указан диапазон дат для дела "1816-1832, 1840-1856". А мы предположим ищем дело 1830года. В таблице в колонке Год1 у нас будет указано начало первого диапазона - 1816, в колонке Год2 будет конец второго диапазона - 1856. Как бы мы не делали фильтры по этим колонкам 1830год выделить без кучи "мусора" не получится. Мы могли бы поставить фильтр по Год1 больше 1822, а фильтр по Год2 меньше 1842, но оба фильтра исключат из результатов то, что нам нужно.

И поэтому было добавлено четвертое нововведение по датам, - колонка "Все годы". Название у колонки скромное, но за ним скрывается невероятный потенциал для использования в поиске.
Для формирования этого поля, вычисляются все годы, входящие в найденные диапазоны лет. Затем в исходном источнике находятся все годы, указанные отдельно, без диапазонов. После этого в полученном списке лет удаляются дубликаты, годы сортируются по порядку и выводятся через запятую.
Пример: при входном значении "2 января 1863, 1865-1867, 1877" расчетное значение -> "1863, 1865, 1866, 1867, 1877". Более если в оригинале указано "не ранее 1870", то в колонке "Все годы будет указано "1870, 1871, 1872, 1873, 1874". Аналогично с подписями "не позднее", при чем эти подписи корректно обрабатываются даже при указании в диапазонах.

Что нам это дает? А дает нам это то, что теперь, если установить в фильтре колонки "Все годы" значение "1876", то мы найдем не только все записи, у которых в оригинале отдельно указан 1876год, но и записи у которых в оригинале этот год в явном виде не указан, а указано, например так: "1872, 1873, 1875-1894" или так "20 января 1871 - 9 ноября 1887" итп.

Для наглядности порядка обработки дат прилагаю скиншот с примерами во время тестовой отладки, а также скриншоты из готовой версии таблицы.

Обращаю внимание, что новые способы обработки названий и дат, включая формирование колонки "все годы" будут применяться и во всех следующих таблицах, например, в "мегатаблице" и в других, которые будут выложены позже.




Прикрепленный файл: filter0.pngfilter1.png, 364586 байтfilter2.png, 353820 байтfilter3.png, 345758 байтotladka.png, 124984 байтxkey.png, 348622 байтyears0.png, 267705 байтyears1.png, 342167 байтyears2.png, 350906 байт
Лайк (28)
xbox

Сообщений: 491
На сайте с 2020 г.
Рейтинг: 977
ОБНОВЛЕННЫЕ МЕГАТАБЛИЦЫ В ЭКСЕЛЕ - 203 И 51 ФОНДЫ
Данные по состоянию на 04.02.2022

Вторая версия "мегатаблиц". См. прилагаемый файл.

Эти таблицы будут полезны всем, и исследователям, и сотрудникам архива.
Это не замена старых таблиц (со списками метрических книг), а дополнение к дальнейшее развитие.
По сравнению с предыдущей версией "мегатаблиц" месячной давности, кроме обновления источников, был произведена работа над ошибками и дополнительная работа по улучшению удобства пользования.

Для тех, кто встречается с мегатаблицами впервые приведу описание, частично предыдущее, частично дополненное.

Для того, чтобы получить эти мегатаблицы, собираются данные из НСА (Научно справочный аппарат), затем объединяются с данными по метрикам, исповедкам, и ревизским сказкам, собранным на основном сайте ЦГА Москвы в разделе "Моя семья". Данные в этих источниках не связанны и для того, чтобы найти соответствие строк в разных источниках формируются "ключи", которые позволяют однозначно идентифицировать каждую запись и далее их сопоставлять друг с другом. После объединения, выбрасывается лишнее, проводится сравнение данных из двух источников, выделение ошибок, несоответствий, а также строк, содержащих записи о делах, уже оцифрованных, но пока не выложенных на сайт.

В данной таблице представлен:
  • 203 фонд - записи по всем метрическим книгам (описи 745, 750, 764, 768, 771, 776, 777, 780, 782) - 9971 записей
  • 203 фонд - записи по исповедным ведомостям (опись 747) - 2113 записей
  • 51 фонд - записи по ревизскими сказкам (опись 8) - 988 записей
По указанным разделам данные в НСА представлены хоть и с пробелами, но довольно полно. Таким образом, первое, что мы получаем:
Почти полную опись в табличном виде по всем метрикам, исповедкам и ревизским сказкам 203 и 51 фонда.

До этого в трех отдельных таблицах был только список дел, выложенных на сайте в разделе Моя семья (а это далеко не все, что есть) и многостраничные сканы описей в PDF формате.
Описи в PDF формате точные, но они разбросаны по разным томам, отметки там стоят по состоянию на дату сканирования, несколько лет назад, а главное в них очень непросто и очень не быстро искать даже при наличии опыта.

Поскольку данные объединяются, теперь у нас в файле сразу два описания.
Первое из базы НСА, оно обычно есть, но далеко не всегда. Второе описание есть в случае, если дело выложено на основном сайте.
Можно отфильтровать дела, выложенные на сайте без описания и сразу посмотреть описание из базы НСА.
Или, если есть какие-то сомнения в описании на сайте, можно сравнить его с данными из НСА.

Для всех выложенных на сайте дел, есть ссылка для просмотра в разделе "Моя семья".

Объединение данных открывает нам новые возможности.

Можно посмотреть отметки ОФП в базе НСА и сравнить их с сайтом.

1. Таким образом, в базе НСА можно найти записи, в которых забыли поставить отметку ОФП. Если дело выложено на сайте, то оно точно отсканировано и отметка в НСА должна быть. Но в представленном куске НСА есть более 100 дел, где забыли поставить эту отметку.

2. А можно найти записи, по которым в базе НСА стоит отметка ЭФП, но при этом дело не выложено на сайт. Это, как минимум, означает, что такое дело можно посмотреть без заказа в читальном зале. А еще это может означать, что, в перспективе уже отсканированные дела появятся могут появится в последующих выгрузках при обновлении раздела сайта "Моя семья".

Для более удобной фильтрации дел по признаку ЭФП, я добавил столбец "ЭФП-diff".
В этом столбце может быть четыре значения:
  • "НСА, Сайт" - это норма, дело имеет пометку ЭФП в базе НСА и оно выложено на сайт
  • "Сайт" - дело выложено на сайт, но у него нет пометки ЭФП в базе НСА. Такие записи помечены красным. Всего таких дел 103шт. Это "флаг" для работников архива, чтобы внесли пометку в НСА.
  • "НСА" - а это те самые дела отсканированные, но не выложенные на сайт. Они помечены "золотым" цветом.
  • "НСА-У" - это виртуальное дело. Фактически это всего лишь продолжение очень длинного описания, не помещающегося в одно поле, основного дела.
Кроме этого появилась возможность сверить год и количество страниц в двух источниках. Если есть расхождение, то значит высокая вероятность ошибки.
Год сравнивается даже при условии вольного написания. Например, запись "(1912,1913-1918) и " 1912-" будут считаться совпадающими.
По году дополнительно проверяется слишком низкое значение. Разница и ошибки в записях по году отмечаются красной заливкой.

При сравнении количества страниц встречаются записи с большим расхождением. Если разница двух источников по одному делу составляет более 50 страниц, то число страниц помечается красным шрифтом. У этой проверки есть исключение. Опись 745, 203 фонда не проверяется, поскольку там очень много "виртуальных дел"...

Совсем все типы ошибок я не стал раскрашивать цветом. Применений прилагаемого файла для контроля ошибок может быть гораздо больше. Например, можно отобрать записи в НСА, у которых вообще не указан год, но при этом год указан в записях на сайте. Или наоборот. И после этого можно год быстро скопировать из одной базы в другую.

При наличии расхождений в двух версиях можно перейти прямо из таблицы на сайт и посмотреть сканы. В 99% случаев в разделе Моя семья будет более точная информация.

И по аналогии с предыдущими таблицами в мегатаблице представлены "вычисляемые" колонки "Год1", "Год2" и "Все годы", которые позволяют искать и фильтровать записи по году в случаях, когда в оригинале год не указан явным образом, а указан, например, диапазоном.
фильтры" -> "между" -> 1860 и 1870.

Обращаю внимание, особенно сотрудников архива, что Excel позволяет фильтровать и сортировать колонки не только по значению, но и по цвету.
Это может пригодиться для выбора всех строк с каким-нибудь типом ошибки.
Например, чтобы выбрать все строки с расхождением и ошибками в годе, ставим фильтр по цвету - красная заливка.
А для того, чтобы выбрать все записи с большим расхождением по количеству страниц, ставим фильтр по цвету - красный шрифт.

Список сокращений в таблице:
  • ФП - Фонд пользования (копия оригинала в каком-то виде)
  • СФ - Страховой фонд (копия на пленке)
  • ЭФП - Электронный Фонд Пользования (дело отсканировано и доступно на компьютере в читальном зале, а некоторые доступны и на сайте)
  • ОЦ - Особая ценность
  • УД - Уникальные документы

В следующем сообщении будет иллюстрация по мегатаблицам. А уже последующие обновления через месяц будут без таких длинных описаний.

Теперь живите с этим.


Прикрепленный файл (nsa-combined-metrics-203-51--20220207-0828.xlsx, 2026684 байт)
Лайк (13)
xbox

Сообщений: 491
На сайте с 2020 г.
Рейтинг: 977
Иллюстрация к предыдущему сообщению по "Мегатаблицам".

Прикрепленный файл: 1_two_sources.png2_combined_data.png, 331634 байт3_site_and_onlysite_records.png, 327683 байт4_all_years_filter.png, 296514 байт5_golden_unpublished.png, 326529 байт6_filter_by_color.png, 299129 байт7_years_diff.png, 197295 байт8_stat_by_opis.png, 155112 байт9_x_key.png, 345579 байт
Лайк (9)
xbox

Сообщений: 491
На сайте с 2020 г.
Рейтинг: 977
И еще один небольшой бонус.

В прилагаемом файле отобраны записи, которые изменились в базе НСА примерно за месяц (за Январь 2022г).
Сравнивались все данные (примерно 89тыс записей), которые есть в онлайн-базе НСА.

В первую очередь меня интересовало, у каких дел за месяц появилась свежая отметка "ЭФП".
Всего таких дел было найдено ~239шт, а именно
  • 203ф 745оп - 2шт
  • 203ф 747оп - 20шт (исповедки, в январе на сайт выложена только половина)
  • 203ф 764оп - 1шт
  • 203ф 776оп - 1шт
  • 203ф 776оп - 81шт (эти все выложены на сайт в январе)
  • 1472ф 1оп - 52шт
  • 2124ф 2оп -1шт
Таким образом, теперь мы знаем, что именно сканировал архив в январе 2022, а может быть пораньше - в декабре 2021г.
На сайт выложено далеко не все. То, что пока не выложено можно посмотреть на компьютерах читального зала.



Прикрепленный файл (nsa_diff_january_2022.xlsx, 80204 байт)
Лайк (14)
xbox

Сообщений: 491
На сайте с 2020 г.
Рейтинг: 977
ОБНОВЛЕННЫЕ МЕГАТАБЛИЦЫ В ЭКСЕЛЕ - 203 И 51 ФОНДЫ
Данные по состоянию на 08.02.2022

Вчера я выкладывал "мегатаблицу" с записями по состоянию на 04.02.2022.
Сегодня ЦГАМ выгрузил обновления в копию базы НСА на сайте.
Добавилось сразу 760 новых записей. Все по 203 фонду, 745 описи.

И хотя с момента предыдущей таблицы прошло всего несколько дней, я решил обновить мегатаблицу.

Вообще, обновления в базу НСА на сайте попадают не в ежедневном режиме, а выкладываются партиями один или несколько раз в месяц.
Поэтому следующие обновления и тем более крупные, скорее всего, не раньше чем через несколько недель могут быть.

Дополнительно сюда же прикладываю файл со списком новых записей, которые сегодня появились в НСА.


Прикрепленный файл (nsa-combined-metrics-203-51--20220208-2000.xlsx, 2298533 байт)
Прикрепленный файл (nsa-diff-20220208-2054.xlsx, 272484 байт)
Лайк (15)
xbox

Сообщений: 491
На сайте с 2020 г.
Рейтинг: 977
ОБНОВЛЕННЫЕ ФАЙЛЫ В ФОРМАТЕ EXCEL с полной информацией
ПО МЕТРИЧЕСКИМ КНИГАМ, ИСПОВЕДНЫМ ВЕДОМОСТЯМ И РЕВИЗСКИМ СКАЗКАМ,
выложенным на сайте ЦГА Москвы, с учетом изменений на сайте с 03/02/2022 по 22/02/2022.
См. вложение.

В ФЕВРАЛЕ 2022 Г. ДОБАВЛЕНЫ НОВЫЕ ДЕЛА С МЕТРИЧЕСКИМИ КНИГАМИ:

Фонд 203 опись 745: 1659, 1660, 1667, 1686, 1688. (Всего 5шт)

Фонд 203 опись 776: 448, 504. (Всего 2шт)

Фонд 203 опись 780: 2658, 2850, 2851, 2853, 2854, 2855, 2856, 2857, 2859, 2861, 2863, 2864, 2865, 2867, 2868, 2870, 2871, 2872, 2873, 2874, 2875, 2877, 2878, 2879, 2880, 2883, 2885, 2887, 2889, 2892, 2895, 2896, 2897, 2899, 2900, 2903, 2904, 2905, 2906, 2909, 2910, 2911, 2916, 2917, 2919, 2920, 2921, 2922, 2923, 2924, 2925, 2926, 2927, 2928, 2929, 2930, 2931, 2932, 2933, 2941, 2942, 2948, 2949, 2950, 2951, 2952, 2953, 2954, 2956, 2957, 2958, 2959, 2960, 2961, 2962, 2963, 2964, 2966, 2968, 2969, 2972, 2973, 2974, 2975, 2976, 2977, 2978, 2979, 2980, 2981, 2983, 2984, 2985, 2986, 2988, 2993, 2994, 2996, 2997, 2998, 2999, 3000, 3001, 3002, 3003, 3894. (Всего 106шт)


В ФЕВРАЛЕ 2022 Г. ДОБАВЛЕНЫ НОВЫЕ ДЕЛА С ИСПОВЕДНЫМИ ВЕДОМОСТЯМИ:

Фонд 203 опись 747: 1473, 1475, 1476, 1484, 1485, 1490, 1515, 1516, 1532. (Всего 9шт)

Кроме того в файлах отражено перемещение за прошедший месяц некоторых дел из раздела "метрические книги" в раздел "исповедные ведомости" и "ревизские сказки".


Начиная с этой версии, в таблицах реализован новый алгоритм по заполнению описаний дел.

В случае, если на сайте ЦГАМ в разделе "Моя Семья" дело не подписано и/или по нему не указаны "годы", то такая информация берется из другого источника - НСА (Научно справочный аппарат) https://nsa.cgamos.ru/ . Причем, в базе НСА по некоторым делам описания из-за слишком длинного текста разбиваются на 2-3-4 отдельные записи, в каждой из которых содержится только часть текста. Все такие записи находятся и перед копированием объединяются в одну.

В случае, если и в НСА не находятся данные с описанием и/или датами, то используется еще одни источник, - гугл-таблица с заголовками дел, наполнением которой занимаются волонтеры с этого форума.

Несмотря на то, что гугл-таблица заполнена, все желающие могут там вносить правки. Это может быть как исправление ошибок и опечаток, так и дополнение существующих коротких заголовков более развернутыми данными. Кроме того эта же таблица будет использоваться в будущем в случаях, если в новых ежемесячных обновлениях на сайте ЦГАМ появятся еще "неподписанные" дела. В любой момент можете редактировать гугл-таблицу при необходимости.

Ссылка на упомянутую выше гугл-таблицу с пользовательскими заголовками. https://docs.google.com/spread...sp=sharing


В экселевских файлах описания, получены из альтернативных источников, выделены цветом и дополнительно подписаны "Данные из НСА: " или "Данные с форума: ".

На сайте ЦГАМ есть около 180 дел, в которых отсутствуют описания и/или годы.
В результате применения описанных выше новых алгоритмов, в приложенных файлах все такие дела уже подписанны.
На текущий момент в таком виде информации по выложенным на сайте ЦГАМ делам, больше нет нигде.




Файл: MetricBookData-20220222-124736.xlsx, 1256 Кб

Файл: IspovednieVedomostiData-20220222-130054.xlsx, 102 Кб

Файл: RevSkazkiData-20220222-130721.xlsx, 66 Кб
table_new_feature.png
Лайк (21)
← Назад    Вперед →Страницы:  1 2 3 Вперед →
Модератор: Lara
Вверх ⇈