 | microArt Мысякина Елена Геннадьевна Создайте аккаунт или войдите, чтобы отправить личное сообщение этому пользователю и увидеть его полные контактные данные |
Последние 30 сообщений microArtТема: Яндекс - «Поиск по архивам» 1.03.2023, 22:14
Они просто не хотят предоставлять свои копии в открытый доступ для всех. Другой причины лично я не вижу.
Ладно. Тут эти разнообразные Чаты плодятся в невообразимых количествах (потому что тема весьма популярная). Может и этот ИИ Яндекса расплодится со временем, как знать. И тогда, может быть, настанет возможность загрузки документов самими пользователями...
А может, это только мои мечты...
А ведь документы не только в архивах. Еще в музеях, например, в краеведческих.
|
Тема: Яндекс - «Поиск по архивам» 16.02.2023, 20:47
solo_vv, можно опубликовать тексты запросов (в Петербург и в Тверь)? Конечно, убрав все личные данные...
Я сама сейчас размышляю над такими запросами. В Росархив, в Минцифры (потому что Яндекс подчиняется им), в Псков (в местную администрацию). (Только это вовсе не значит, что я все-таки отправлю запросы, я пока думаю так сделать).
Я хочу понять технологию: кто с кем договаривается? Не может быть, что без ведома Росархива все это происходит.
Конкретно: псковские документы (ГАПО, фонд 39 и другие, сейчас по памяти не вспомню) появятся когда-нибудь в проекте Яндекса? Стоит ли ждать? Там не только мормоны в архив копии документов (оцифрованные микрофильмы) передавали (то, что сейчас на FS), там еще своя собственная оцифровка ведется. Но я так понимаю, что раньше, чем появится глобальный читальный зал для всех архивов - на публикацию оцифрованных документов в Интернете не стоит даже рассчитывать.
Из ответа Государственного комитета Псковской области по культуре от 1 декабря 2017 года:
Размещение копий архивных документов в сети Интернет будет проведено после разработки Федеральным архивным агентством порядка предоставления доступа к данной категории документов, которым будут определены условия регистрации пользователей, оплаты или бесплатного доступа к оцифрованным документам.
Сам этот документ мне искать надо. Если надо - поищу. А цитата скопирована с моего сайта (выписывала когда-то давно).
|
Тема: Яндекс - «Поиск по архивам» 16.02.2023, 14:10
Я карту хочу. На ней отмечен приход, а по приходу - дела (в разных архивах), которые относятся к этому приходу. Ну, или дела, относящиеся к некоторой деревне.
Пример. На карте отмечен приход во имя Грузинской иконы Божией Матери в селе Богородицкое Порховского уезда Псковской области. Список деревень известен (по состоянию на 1913 год): село Хохловы Горки, Запольский Ям; деревни: Большие Замошки, Большое Колотилово, Борзилец, Батино, Вышково, Гнилки, Губошино, Гусли, Заполье, Злятино, Козьян, Малые Замошки, Малое Колотилово, Петрищево, Поддубье, Сивково, Шилы.
И вот такой список архивных дел по приходу (смотрите приложенный файл Excel). В основном, дела из псковского архива, но есть и другие архивы (ГАНО, ЦГИА в Петербурге). Список, конечно, не полный - на что хватило моего терпения, если честно.
Файл Документы прихода Богородицкое в разных архивах.zip, 18 Кб
По крестьянам есть выкупные дела. Выкупные дела по Псковской губернии хранятся в петербургском РГИА, фонд 577, опись 31, и в Псковском архиве (ГАПО). Там указана деревня (и помещик). Их тоже можно к карте (к деревне или приходу) привязать.
|
Тема: Яндекс - «Поиск по архивам» 16.02.2023, 12:38
Сейчас перечитываю там комментарии.
Вот xbox пишет, процитирую полностью:
[q] Александр, примите в качестве идеи на будущее. У архивов есть большое количество описей дел, которые хранятся в их фондах. Небольшая часть из этих описей переведена в "текстовый" вид, по которому можно проводить поиск. Но бОльшая часть остается "нераспознанной".
К примеру, на сайте ЦГА Москвы выложено ~5500 отсканированных описей в формате PDF и это количество увеличивается. Из всего этого объема, я думаю, текстовый поиск доступен в лучшем случае в ~10%. В каждой описи может быть от нескольких страниц, до нескольких сотен страниц. На одной странице описи может быть до 10-20 заголовков единиц хранения. Т.е. в одной описи максимум может быть до 1-2 тыс записей.
В архивах очень много ценных документов, которые никто не смотрит десятилетиями, просто по той причине, что люди о них не знают. Например, я недавно смотрел ценный документ 17 века, который до меня с 1917года не посмотрел ни один человек... В заголовках дел в описи может быть много интересного. Например, почти по каждому уезду сохранились фонды, хранящие судебные дела. Заголовки в описи примерно такие: "Дело об оскорблении мещанина Иванова Ивана Ивановича мещанином Петровым П.П", "Дело о взыскании купцом Ивановым И.И. долга с ....", "Дело о духовном завещании купца ... своего состояния такой-то церкви и открытия при ней богадельни", "Дело крестьян деревни такой-то к ...". Ходатайства, обвинения, личные дела учащихся, служащих, арестованных итп. Все варианты заголовков не перечисляю. Их огромное количество. Даже в заголовках уже много ценной генеалогической информации. А если кто-то нашел нужный заголовок, то он может дополнительно в архиве посмотреть или удаленно заказать копию дела. А в одном таком деле может быть информации о предке больше, чем во всех остальных источниках.
Я понимаю, что для Яндекса задача распознавания описей в приоритетах далеко не на первых строчках. Но, может быть, когда-нибудь вы и на нее обратите внимание. С технической точки зрения распознавание таких документов намного проще распознавания метрик. Очень многие описи напечатаны на печатной машинке или в типографии, а более старые описи, хоть и написаны от руки, но обычно написаны "современным" почерком и в большинстве случаев имеют четкую структуру.[/q]
Ответ:
[q] В этом направлении (наполнение описями и их добавление в поиск) мы также движется. И тут я думаю скоро будут обновления на сервисе.[/q]
По моему личному мнению, такие дела удобно привязывать к карте, к определенному приходу или к деревне, населенному пункту. Просто я когда пробовала составить свою базу данных (в Access, преимущественно, по Порховскому уезду Псковской губернии), то привязывала такие дела (заголовки дел) к приходу.
|
Тема: Яндекс - «Поиск по архивам» 16.02.2023, 12:23
Лично я хотела узнать у представителя Яндекса о том: - какие перспективы у вашего проекта? Есть ли сведения, что и другие архивы присоединятся к проекту? Какие требования выдвигают архивы (чтобы присоединиться к проекту)? С Росархивом как-то контактируете? (Или это секретные сведения, о которых даже не спрашивать?) - будет ли возможность редактирования просматриваемых данных пользователями? - будет ли возможность загрузить свой документ и попробовать его расшифровать? (Скорее всего, нет, а жаль). - будет ли возможность ведения пользователями списков (населенных мест, например)? - собираетесь ли вы в будущем делать этот проект платным? (Провокационный вопрос, конечно. Впрочем, тут уже мелькал на него ответ, в скриншоте с Хабра).
|
Тема: Яндекс - «Поиск по архивам» 15.02.2023, 17:22
jrw написал:[q] руководитель проекта Яндекс-Архив зарегистрирован на этом форуме и постоянно его посещает ?[/q]
Если это так, то почему он не принимает участие в дискуссии? Ведь интересно было бы пообщаться, тем более, что тема общая для всех, всем интересна.
Присоединитесь к нам, пожалуйста!
|
Тема: Яндекс - «Поиск по архивам» 14.02.2023, 17:27
xbox написал:[q] И вот специалист читает последние несколько страниц, видит в основном тексты ни о чем, споры, оскорбления, бесконечные повторения и решает, что чтение темы будет неэффективной тратой времени.[/q]
Лично я никого не оскорбляла (надеюсь). Это были просто мои размышления (дилетанта) на тему машинной расшифровки рукописного документа. Плюс сравнение с другим ресурсом (как это сделано у других). Надеюсь, что этим никого не обидела.
А тема искусственного интеллекта для меня в любом случае интересна.
|
Тема: Яндекс - «Поиск по архивам» 13.02.2023, 15:06
Вот еще про FamilySearch, Здесь есть видео, скриншоты, а еще краткое объяснение, зачем это им нужно (для обрядов в храме. Кому интересно - можете немного поискать о мормонах. Скажу, что лично мне это совсем не мешает, наоборот, я благодарна им за псковские документы и могу только сожалеть, что проект оцифровки был прекращен по инициативе российской стороны. А наши сами знаете, какими темпами оцифровывают документы).
Видео будет интересно тем, кто воспринимает на слух английский язык (я, к сожалению, не из таких).
Понимаю, что тема про Яндекс, но ведь интересно, как и другие сделали такие же проекты. Мне, во всяком случае, интересно.
Посмотрите, как компьютерная индексация разблокирует записи в FamilySearch для людей по всему миру.
|
Тема: Яндекс - «Поиск по архивам» 13.02.2023, 13:56
Я была не права, когда ответила, что FS не применяют машинное распознавание. Еще как применяют.
После того, как я написала здесь предыдущее сообщение, я заинтересовалась вопросом и стала искать в Гугле по словам familysearch + AI.
Вот что нашлось. Компьютерная индексация. Как OCR (оптическое распознавание символов) меняет историю семьи.
Может, кому будет интересно ознакомиться с зарубежным опытом.
Вот, например, по второй ссылке, в переводе на русский:
Сегодня FamilySearch нуждается в вашей помощи в индексации больше, чем когда-либо. По мере развития технологии OCR, способ, которым вы помогаете с индексацией, может немного измениться. Вместо того, чтобы индексировать запись с нуля, вы можете просмотреть запись, которую компьютер проиндексировал, убедившись, что информация верна, и исправить любые ошибки, с которыми вы столкнулись.
А мое личное (личное, да) мнение пока остается прежним: машина (нейросети) должна использоваться совместно с человеком (а не сама по себе). Сначала прогнать документ через нейросеть, потом проверить человеком (и исправить ошибки). Да, это дольше, но ошибок будет меньше.
Почему бы Яндексу не подключить добровольцев - хуже не будет, как мне кажется. А добровольцы найдутся, хотя бы на этом форуме.
|
Тема: Копирование архивных документов мормонами 13.02.2023, 12:48
Kreutzer написал:[q] Не очень понял, извините, мормоны вручную чтоли расшифровывают сидят? Что имеется, ввиду?
[/q]
Добровольцы по всему миру. У них раньше программа была по индексированию, не знаю, как сейчас - перестала следить за новостями.
Kreutzer написал:[q] И что за обряды?[/q]
Да, в общем-то, ерунда. Для своих внутренних целей. Я просто, к тому, что для них недопустима непроверенная, искаженная, неверно расшифрованная информация. Потому они не станут применять нейросети. Но это я так думаю, а как на самом деле - не знаю.
|
Тема: Яндекс - «Поиск по архивам» 13.02.2023, 12:18
ИИ в одиночку ничего не сделает. А вот если бы соединить его с естественными нейросетями (с людьми) - вот сила бы получилась. Как пример: сначала прогнать документ через нейросеть, а потом постраничный просмотр людьми (добровольцами) с исправлением найденных ошибок. И потом другой доброволец еще раз просматривает документ и расшифровку.
Что-то вроде мормонского проекта индексирования, только сначала документ просматривает нейросеть.
|
Тема: Яндекс - «Поиск по архивам» 13.02.2023, 12:11
jrw написал:[q] Затем эти данные отправляли нейросети[/q]
Где у Familysearch про нейросеть? Или я опять проспала все на свете? Но пока что я только про индексирование людьми читала.
Мне кажется, что вот для их целей нейросеть неприменима в принципе. Потому что нейросеть ошибается (просто так устроена). А для них ошибки недопустимы (потому что при их обрядах используется информация). Поэтому, мне кажется, что они точно нейросети не станут применять. Может, я ошибаюсь.
|
Тема: Яндекс - «Поиск по архивам» 13.02.2023, 12:09
Kreutzer написал:[q] Если сравнивать с FamilySearch, их ИИ распознает тоже по-разному[/q]
Там разве ИИ? У них же индексация людьми была...
|
Тема: Яндекс - «Поиск по архивам» 13.02.2023, 1:03
balt-amber написал:[q] И когда наконец наступит светлое будущее машины будут не только расшифровывать содержание метрических книг, но и произносить то, что прочитали приятным голосом.[/q]
Создавать виртуальные деревни на месте исчезнувших. Создавать дополненную реальность на месте утраченных домов и храмов. Погружение в историю. Прибываешь на место, надеваешь шлем виртуальной реальности - и как будто в машине времени - вперед, в прошлое. А кибернетический гид все тебе расскажет о каждом, кто здесь жил...
Если только у людей интерес к истории к тому времени не пропадет - из-за событий в настоящем.
|
Тема: Яндекс - «Поиск по архивам» 7.02.2023, 15:39
jrw написал:[q] За "немного денег" исправлять ошибки прочтения никто не будет. [/q]
Если бы был некоторый словарь слов (населенных пунктов, других стандартных слов, имен), то можно было бы сделать, как в Word - подозрительные слова подчеркивать красной волнистой линией - чтобы человек глянул и посмотрел бы.
Тогда человек пробежит глазами распознанный результат и сразу все видно, все странности текста. Тогда никаких "Вто Рая".
|
Тема: Яндекс - «Поиск по архивам» 7.02.2023, 15:33
Kapibara2022 написал:[q] А вот остальные эти все супер-пупер-кибер технологии -зачем,а главное нафига? )))
[/q]
Я фантастику люблю. Интересно, во что все это в итоге разовьется. Люди, разговаривающие с машиной. И даже свои задачи кое-какие решают.
Я бы вот вообще прогноз сделала бы. что к концу года уйма "умных колонок" будет со встроенным chatGPT. Мне кажется, что они были бы популярны.
Хотя, после скандала с яндекс-колонкой (когда якобы микрофон включался произвольно для прослушки) - может быть, и нет.
|
Тема: Яндекс - «Поиск по архивам» 5.02.2023, 14:51
jrw написал:[q] Вероятно капчу уберут, когда ресурс сделают платным[/q]
Сейчас накаркаете. Не хочу, чтобы по настоящему интересные ресурсы стали бы платными. Искренне, не хочу. Вот сейчас chatGPT - не хочу, чтобы он стал платным. И здесь, с метрическими книгами - не хочу.
Впрочем, это всего лишь мое личное мнение.
|
Тема: Яндекс - «Поиск по архивам» 5.02.2023, 11:53
ИнокКент написал:[q] Яндекс постоянно добивается, чтобы пользователь включил куки.[/q]
Что в куках плохого? Они мне не мешают. (В отличие от рекламы Яндекса, от которой мне трудно иногда избавиться). Во-первых, периодически можно в броузере очищать историю (в том числе, и куки). Во-вторых, можно использовать "песочницу" (Sandboxie) и запускать в ней броузер (со всеми куками). В-третьих, можно вообще броузер запускать в виртуальной машине (лично я предпочитаю virtual box, но можно и другие использовать).
[q] Мне одному в такой постановке вопроса видится неприкрытое хамство "с позиции силы"?
[/q]
Это не хамство, а технология такая.
|
Тема: Яндекс - «Поиск по архивам» 4.02.2023, 20:24
anto написал:[q] а как распознают - вопрос второстепенный...[/q]
Биологическими нейросетями. Если бы они там такую возможность сделали бы.
|
Тема: Яндекс - «Поиск по архивам» 4.02.2023, 20:01
anto написал:[q] на основании Соглашения компании Яндекс и правительства Оренбуржья.[/q]
Спасибо.
Значит, надо к местным (псковским) властям обращаться. И к митрополиту Тихону Шевкунову. Эх...
|
Тема: Яндекс - «Поиск по архивам» 4.02.2023, 19:48
jrw написал:[q] Их надо только проиндексировать.[/q]
Той же нейросетью. Там печатный текст.
Я когда свой сайт делала (давно уже), то скопировала туда списки деревень, относящихся к определенному приходу (найденные мной на сайте Псковской епархии). Могу поделиться этими списками. По крайней мере, приходов Порховского уезда Псковской губернии.
|
Тема: Яндекс - «Поиск по архивам» 4.02.2023, 19:44
anto написал:[q] Вряд ли с каждым они будут переговоры вести, разве что рассылку сделают, а там если ответят...[/q]
А они не через Росархив договаривались? Вот, тоже вопрос. Или через правительство Москвы? (Вроде, там московские архивы сейчас представлены).
|
Тема: Яндекс - «Поиск по архивам» 4.02.2023, 19:39
xbox написал:[q] У любой компании есть ограничения ресурсов, выделенных на определенную задачу. [/q]
Я в последнее время немного Linux увлеклась. (На уровне пользователя, конечно). Есть множество форумов по этой теме. Там и разработчики общаются, находят как-то время. Я к тому, что есть множество специализированных форумов, и разработчики программных продуктов находят возможность их организовать. Несмотря на загруженность...
А тут такой проект, где людям есть, что сказать и что обсудить. Например, справочники по географическим местам. Действительно, люди, которые в теме - быстро составят такие справочники в помощь нейросетям.
|
Тема: Яндекс - «Поиск по архивам» 4.02.2023, 19:30
anto написал:[q] Это наверное в архивы и архивные управления надо обращаться.[/q]
Тоже верно. А только, чем в местные органы власти писать (и ждать по тридцать дней ответа), может, лучше так спросить? В яндексе... Должны ведь они тоже знать.
Я бы дала им те документы (их совсем немного), что я сама лично получила из Псковского архива. С одним только условием - чтобы они были в открытом доступе. Если нет - тогда и давать нет смысла.
|
Тема: Яндекс - «Поиск по архивам» 4.02.2023, 19:08
anto написал:[q] Есть технические вопросы - задавайте ему.[/q]
Я не понимаю, как с ним связаться. На Хабре я только читатель, но не более. Я там не зарегистрирована.
Знаете, иногда даже по узкоспециальным программным продуктам делают форумы. А здесь такой проект... и форума от разработчиков нет. Чтобы каждый мог бы зарегистрироваться там и высказать свое мнение или спросить.
Вот, например, первый пришедший в голову вопрос: какие еще архивы могут принять в вашем проекте участие? Ведете ли вы переговоры? Псковский областной архив с вами договаривается о документах? Ведь помимо микрофильмов, которые им передали мормоны, в архиве ведется и собственная оцифровка.
Вопросов тьма, спрашивать негде, если честно. Им бы форум свой сделать. Или сюда кого-нибудь пригласить.
xbox, скажите им там на Хабре - может, пришлют своего специалиста сюда, в эту ветку? Это было бы замечательно, как мне кажется. Здесь на форуме даже директора архивов иногда общаются.
|
Тема: Яндекс - «Поиск по архивам» 4.02.2023, 18:40
xbox написал:[q] Вы можете от них требовать на "заглушке сайта" размешать фото не американцев из стока, а фото чистокровных славян[/q]
Да я не требовала, а робко предложила... Просто, другие люди делают так (пример я привела) - и ничего, никто не умер. Ну да ладно.
Вот, даже здесь на форуме можно в профиле свое фото разместить.
|
Тема: Яндекс - «Поиск по архивам» 4.02.2023, 16:25
А я все про фотографии экспертов думаю. Почему бы не сделать нормальную страничку с фотографиями и кратким описанием - за что этот человек отвечает. А может быть, и контакты для связи с ним.
"Буржуи" иногда так делают. Ведь приятно же, а! Поговорить с человеком, а не с роботом из техподдержки.
Вот пример такой странички: https://ripe79.ripe.net/on-site/ripe-ncc-staff/
Почему бы и нашим не сделать что-то похожее?
|
Тема: Яндекс - «Поиск по архивам» 4.02.2023, 0:01
xbox, спасибо за ответ. Лично я Хабр иногда читаю (там интересное попадается про IT-технологии, а мне такое нравится), но никогда там не писала (в комментариях). Тогда спросите их, пожалуйста, хотя бы про географический список (в помощь нейросети). Это-то могут люди составить...
Про загрузку своих собственных документов для расшифровки можно даже не мечтать - архивы не потерпят такого самоуправства. Это я поняла.
А про рекомендацию про торренты - это спасибо. Учту...
|
|
|