Загрузите GEDCOM-файл на ВГД   [х]
Всероссийское Генеалогическое Древо
На сайте ВГД собираются люди, увлеченные генеалогией, историей, геральдикой и т.д. Здесь вы найдете собеседников, экспертов, умелых помощников в поисках предков и родственников. Вам подскажут где искать документы о павших в боях и пропавших без вести, в какой архив обратиться при исследовании родословной своей семьи, помогут определить по старой фотографии принадлежность к воинским частям, ведомствам и чину. ВГД - поиск людей в прошлом, настоящем и будущем!
Вниз ⇊

Сравнение списков "родственников" от нескольких платформ.

Анализ выдачи Genotek, MyHeritage, FTDNA, GEDMatch статистическими методами.

    Вперед →Модератор: Gregarius
Gregarius
Модератор раздела

Gregarius

Калуга Россия
Сообщений: 190
На сайте с 2022 г.
Рейтинг: 219
Введение
Возможность загрузить результаты тестирования на разные платформы неизбежно порождает вопросы. А можно ли сравнивать напрямую их результаты? А если нет, то какие поправки нужно учитывать? На данный момент я не смогу дать исчерпывающего ответа на этот вопрос, однако один из аспектов попробую объяснить ниже.
Дисклеймер
  • Автор использует набор исключительно примитивных инструментов и методов, доступных к повторению каждому при небольшом усердии и желании. Хотя, серьезных исследователей такой подход может и позабавить.
  • Все приличные исследователи обычно предоставляют исходные данные, чтоб коллеги смогли их перепроверить и покритиковать. Но я этого делать не стану - используйте доступные вам наборы данных, так вы сможете (возможно) выявить индивидуальные закономерности или особенности.
  • Если вы понимаете термины: статистика, теория вероятности, нормальное распределение, карманы и распределение Пуассона - переходите сразу к следующему посту. Если нет - продолжайте чтение.



Итак. Большинство вещей в вашей жизни подчиняются закону случайности. Вам наверняка приходилось слышать про эксперимент с монеткой: если ее подбросить то в половине случаев выпадет орел, а в другой - решка. А что если вариантов исхода не два, а больше? В таком случае вы получите одно из распределений, чаще всего: стандартное (или Гаусса). Тут нужно бы объяснить про плотность вероятности и дискретные величины, но мы это пропустим. Для данного случая отлично подойдет визуализация этого распределения - доска Гальтона. Каждый из колодцев, в который падают шарики называется карман и представляет собой группу случайных величин. Например - это могут быть совпаденцы, у которых с вами общих сантиморган от 10 до 12. Тогда, если мы возьмем наши карманы, расположим их по оси x, то по y будет количество наших совпаденцев в каждом из карманов.
О карманах. Поскольку я буду использовать excel, там есть довольно примитивное правило - карман описывается одной цифрой. Пример. Возьмем ряд карманов 5-6-7-8-9-10, в карман 7 попадут значения больше 6 и меньше или равные 7. Такой подход позволяет разбить все множество анализируемых данных на группы и работать с ними.
Распределений бываем много, самое типичное - стандартное (о нем говорили выше). Однако бывают и другие например Пуассона, его характеризует асимметричность - правое плечо значительно больше, а левое меньше или вовсе отсутствует. Строго говоря это не совсем наш случай, но нам важна форма распределения.
В исследовании строится гистограмма распределяющая все кейсы совпадений ДНК по карманам. Те карманы, что находятся ближе к нулю будут обильно "наполнены", те же, что дальше от нуля (а значит там выше степень родства) будут иметь всего по несколько совпаденцев. Ведь чем больше степень родства - тем меньше родственников.

Я попытался изложить все как можно проще и короче, иногда в ущерб теории. Простите.
Лайк (3)
Gregarius
Модератор раздела

Gregarius

Калуга Россия
Сообщений: 190
На сайте с 2022 г.
Рейтинг: 219
Исследование
На первом этапе были выгружены списки с совпадениями со всех платформ для одного и того же тестируемого. Тест изначально был расшифрован в компании Genotek, после чего загружен на остальные платформы. Все выгрузки были сделаны в короткий период (2 дня), а значит - можем считать их одинаковыми. Нас интересует - сумма общих сегментов (сМ) и, далее, их количество (к сожалению только одна из платформ дает такие данные). Предварительно были откинуты все нулевые значения из отчета Genotek - данные кейсы нас не интересуют. Входные данные представляют собой - 4 набора цифр (по одному на компанию), каждая цифра отражает сумму общих сегментов в сМ. Результаты вышли следующие:
snimok_ekrana_2023-02-20_123339.png
Это модуль описательной статистики из Excel, из его отчета можно обратить внимание на следующее:
  • Столбцы-компании отсортированы по возрастанию (строка Счет). Обратите внимание, что у Genotek нашлось меньше всего совпадений (причина - размер базы), в то время как лидер выборки - MyHeritage - 6286;
  • Строка минимальных значений говорит о принятой в компании "точке отсчета" или минимальной чувствительности алгоритма. Тут выделяется GEDMatch, где у меня не оказалось ни одного кейса с сМ менее 12,1. Крайне маловероятно, что это индивидуальная особенность - выборка достаточно велика (почти 3000 совпадений), чтобы говорить об этом;
  • Стоит обратить внимание на то, что в половине компаний принято исчислять совпадения не целочисленными (Genotek, MyHeritage), а десятичными (FTDNA, GEDMatch).
Для дальнейшего исследования (построения гистограммы) нужно определить интервал карманов. Очевидно, что первым карманом будет 8 - туда попадут те кейсы, в которых сумма сМ меньше или равна 8. Крайний правым карман я определил в процессе работы - 46. В некоторых из выборок есть кейсы и с большим числом сМ, но они носят единичный характер и скорее вносят ошибку, чем пользу. Шаг кармана я принял равным 1, по двум причинам. Во-первых у нас два набора данных целочисленные, а значит, если взять 0,5 (например), будем иметь график с провалами в десятичных карманах для целочисленных наборов данных. Во-вторых - при построении диаграмм распределения важно соблюдать баланс между "детализацией" и "обобщением" иначе можно исказить картину и не увидеть закономерностей.
Следующим шагом стало использование пакета анализа данных Excel с построением диаграммы для каждой из выборок. Приводить их здесь не вижу смысла а размещу сразу итоговую диаграмму:
1_(2).png
На графике показаны 4 кривые (с соблюдением масштаба) и пунктирная кривая, отражающая распределение Пуассона (для наглядности). Для тех кто не понял или забыл - высота пиков здесь обусловлена числом совпаденцев, попавших в тот или иной карман, и зависит (главным образом) от размера базы. Поэтому, нужно обращать внимание на характер кривых, а не сравнивать их напрямую между собой.
Итак, что же здесь видно? Кривая Genotek еще как-то укладывается в логику распределения Пуассона, а вот остальные - выглядят как сильнейшие аномалии. Я приведу ниже комментарий представителя Genotek из чата:

Alexander Rakitko написал:
[q]
Так как вводится порог на минимальную величину сегмента, то не стоит ожидать пуассоновского распределения для суммы. Первый пик должен быть в районе 8сМ, а затем спадать , до 14сМ = 8+6. Затем он спадает до следующего пика в районе 8+6+6, который соответствует уже трем сегмента.
То есть, каждый новый пик — это добавления сегмента в сумму.
Кажется, что каждый следующий пик должен быть ниже предыдущего . Это не так для MyHeritage, что может объясняться плохой фильтрацией детектированных сегментов (история про 15 хромосому и тд)
Для GedMatch график выглядит так же плохо, как и для MYHeritage с дополнительным сдвигом вправо. Это объясняется тем, что GedMatch считает некоторую метрику похожести, а не пытается детектировать общие сегменты.
У Генотек тоже есть небольшой пик в районе 14сМ. Думаю, при увеличении образцов он станет более явным, а картинка — похожей на ftDNA.
Меня немного смущает то, что в распределении ftDNA первый пик приходится на 10сМ, но есть сегменты и по 9, и по 8. Возможно, это объясняется результатами из разных версий алгоритмов в разные года. Не знаю, пересчитывали ли они результаты
[/q]
На данный момент не представляется возможны прокомментировать - почему у GEDMatch нет совпадений равных и меньше 12 сМ. Предположу, что при обновлении своих алгоритмов, сайта и т.п. они просто не стали тратить ресурсы на бесплатный тул. Мне была доступна бесплатная "старая" версия отчета, в "новой" версии возможно самостоятельно указать значение "отсечки" (вплоть до 7 сМ), но полный отчет только платный, иначе - лимитированная выгрузка.
Обратите внимание на самое первое замечание Александра - мы должны получить не идеальное пуассоновское распределение (гладкое и без пиков), а постепенно затухающий график с пиками на минимальной величине сегмента ( см график FTDNA). Важно отметить, что каждый последующий пик должен быть ниже предыдущего. И вот именно иной характер кривой (MyHeritage, GEDMatch) и будет говорить о "проблеме" и каком-то "особом факторе" работы алгоритма компании.

К сожалению из всех 4х компаний только одна (MyHeritage) предоставляет отчет о количестве общих сегментов. Однако, даже на примере одной компании можно попробовать подтвердить, то, о чем говорилось ранее. Для этого возьмем все ту же гистограмму распределения сумм общих сегментов и добавим на нее график среднего количества сегментов в кармане. Для этого был написан нехитрый массив формул, который отбирал все кейсы (совпадений) входящих в один карман и вычислял их среднее арифметическое.
3.png
Как можете видеть - оранжевый график имеет характерную форму лестницы. В теории он должен бы иметь вид равномерно восходящей кривой, плавно переходящей в горизонтальную линию (примерно, на участке примерно от 40 до 60 сМ). Однако, тот факт что алгоритм анализа имеет разрешающую способность превращает плавную линию в ломанную кривую. Стоит отметить, что где-то в районе 30-40 сМ начинается статистический шум. Там настолько мало данных (буквально по несколько кейсов на карман), что любое случайное отклонение от нормы сильно искажает картину. Эту часть графика нужно игнорировать.
На левой части четко прослеживаются 4 ступени. Если идти по оранжевым "ступеням", то, по мере того как вы приближаетесь к переходу из группы с одним сегментом в группу с двумя сегментами, у вас растет вероятность того, что алгоритм не увидел родственные сантиморганы. Говоря проще - ваше сито на 8 сМ, и если у вас есть сегменты длиной скажем 2 или 4 сМ, то сито их точно упустит. Если б у нас было идеальное "сито" пики на графике превратились бы "ступени". Что же это значит для нас? А то, что та степень сродства которая близка например к 12 сМ вероятно является более близкой чем 13 сМ. Подчеркну - это именно ВЕРОЯТНОСТЬ. Какова она в численном выражении - задачка, на мой взгляд, для неплохой кандидатской по математике или статистике.

Выводы
  • У компаний MyHeritage, GEDMatch есть "проблема" или "особый фактор" работы алгоритма компании, которые не очевидны.
  • FTDNA обнаруживает наиболее корректную картину работы алгоритма поиска совпаденцев.
  • По моему мнению, делать выводы о Genotek пока нельзя - нужно подождать момента, когда размер базы увеличится в несколько раз (как минимум). Когда это произойдет - завтра или через 5 лет, сказать сложно.
  • Величина общих сМ, в областях близких к шагу чувствительности алгоритма (8 - 14 - 20 - 26 - 32 - 38), имеет ВЕРОЯТНОТЬ быть больше указанных в отчете компании значений. Данное утверждение верно для MH и минимальной чувствительности - 8 сМ.
Лайк (9)
    Вперед →Модератор: Gregarius
Генеалогический форум » Дневники участников » Дневники участников » Дневник Gregarius » ДНК генеалогия » Сравнение списков "родственников" от нескольких платформ. [тема №141442]
Вверх ⇈