<?xml version="1.0" encoding="windows-1251" ?>
<rss version="2.0" xmlns:dc="https://purl.org/dc/elements/1.1/">
<channel>
<title>Сравнение списков &amp;quot;родственников&amp;quot; от нескольких платформ.</title>
<link>https://forum.vgd.ru/6840/141442/</link>
<description>Анализ выдачи Genotek, MyHeritage, FTDNA, GEDMatch статистическими методами.</description>
<language>ru</language>
<item><guid>https://forum.vgd.ru/6840/141442/p4453941.htm#pp4453941</guid><title></title>
<link>https://forum.vgd.ru/6840/141442/p4453941.htm#pp4453941</link>
<description>  &lt;b&gt;&lt;font size="4"&gt;Исследование&lt;/font&gt;&lt;/b&gt;&lt;br&gt;На первом этапе были выгружены списки с совпадениями со всех платформ для одного и того же тестируемого. Тест изначально был расшифрован в компании Genotek, после чего загружен на остальные платформы. Все выгрузки были сделаны в короткий период (2 дня), а значит - можем считать их одинаковыми. Нас интересует - сумма общих сегментов (сМ) и, далее, их количество (к сожалению только одна из платформ дает такие данные). Предварительно были откинуты все нулевые значения из  отчета Genotek - данные кейсы нас не интересуют. Входные данные представляют собой - 4 набора цифр (по одному на компанию), каждая цифра отражает сумму общих сегментов в сМ. Результаты вышли следующие:&lt;br&gt;&lt;a href="https://files.vgd.ru/516178/cZQqO1amVyCzh7b7ddt0QFnHR8zKi85/snimok_ekrana_2023-02-20_123339.png" rel="nofollow" target=_blank&gt;&lt;img src="https://files.vgd.ru/516178/cZQqO1amVyCzh7b7ddt0QFnHR8zKi85/preview/snimok_ekrana_2023-02-20_123339.png" alt=""&gt;&lt;/a&gt;&lt;br&gt;Это модуль описательной статистики из Excel, из его отчета можно обратить внимание на следующее:&lt;ul&gt;&lt;li&gt; Столбцы-компании отсортированы по возрастанию (строка Счет). Обратите внимание, что у Genotek нашлось меньше всего совпадений (причина - размер базы), в то время как лидер выборки - MyHeritage - 6286;&lt;li&gt; Строка минимальных значений говорит о принятой в компании "точке отсчета" или минимальной чувствительности алгоритма. Тут выделяется GEDMatch, где у меня не оказалось ни одного кейса с сМ менее 12,1. Крайне маловероятно, что это индивидуальная особенность - выборка достаточно велика (почти 3000 совпадений), чтобы говорить об этом;&lt;li&gt; Стоит обратить внимание на то, что в половине компаний принято исчислять совпадения не целочисленными (Genotek, MyHeritage), а десятичными (FTDNA, GEDMatch).&lt;/ul&gt;Для дальнейшего исследования (построения гистограммы) нужно определить интервал карманов. Очевидно, что первым карманом будет 8 - туда попадут те кейсы, в которых сумма сМ меньше или равна 8. Крайний правым карман я определил в процессе работы - 46. В некоторых из выборок есть кейсы и с большим числом сМ, но они носят единичный характер и скорее вносят ошибку, чем пользу. Шаг кармана я принял равным 1, по двум причинам. Во-первых у нас два набора данных целочисленные, а значит, если взять 0,5 (например), будем иметь график с провалами в десятичных карманах для целочисленных наборов данных. Во-вторых - при построении диаграмм распределения важно соблюдать баланс между "детализацией" и "обобщением" иначе можно исказить картину и не увидеть закономерностей.&lt;br&gt;Следующим шагом стало использование пакета анализа данных Excel с построением диаграммы для каждой из выборок. Приводить их здесь не вижу смысла а размещу сразу итоговую диаграмму:&lt;br&gt;&lt;a href="https://files.vgd.ru/516178/BQrXmiB6d2XiAXTKBQP6Q0zA3Bl1xA/1_(2).png" rel="nofollow" target=_blank&gt;&lt;img src="https://files.vgd.ru/516178/BQrXmiB6d2XiAXTKBQP6Q0zA3Bl1xA/preview/1_(2).png" alt=""&gt;&lt;/a&gt;[more]&lt;a href="https://files.vgd.ru/516178/BQrXmiB6d2XiAXTKBQP6Q0zA3Bl1xA/2_(2).png" rel="nofollow" target=_blank&gt;&lt;img src="https://files.vgd.ru/516178/BQrXmiB6d2XiAXTKBQP6Q0zA3Bl1xA/preview/2_(2).png" alt=""&gt;&lt;/a&gt;[/more]На графике показаны 4 кривые (с соблюдением масштаба) и пунктирная кривая, отражающая распределение Пуассона (для наглядности). Для тех кто не понял или забыл - высота пиков здесь обусловлена числом совпаденцев, попавших в тот или иной карман, и зависит (главным образом) от размера базы. Поэтому, нужно обращать внимание на характер кривых, а не сравнивать их напрямую между собой.&lt;br&gt;Итак, что же здесь видно? Кривая Genotek еще как-то укладывается в логику распределения Пуассона, а вот остальные - выглядят как сильнейшие аномалии. Я приведу ниже комментарий представителя Genotek из чата:&lt;br&gt;&lt;br&gt;Alexander Rakitko написал:&lt;blockquote&gt;&lt;div style="height:1px;width:1px;overflow:hidden"&gt;[q]&lt;/div&gt;Так как вводится порог на минимальную величину сегмента, то не стоит ожидать пуассоновского распределения для суммы. Первый пик должен быть в районе 8сМ, а затем спадать , до 14сМ = 8+6. Затем он спадает до следующего пика в районе 8+6+6, который соответствует уже трем сегмента.&lt;br&gt;То есть, каждый новый пик — это добавления сегмента в сумму. &lt;br&gt;Кажется, что каждый следующий пик должен быть ниже предыдущего . Это не так для MyHeritage, что может объясняться плохой фильтрацией детектированных сегментов (история про 15 хромосому и тд)&lt;br&gt;Для GedMatch график выглядит так же плохо, как и для MYHeritage с дополнительным сдвигом вправо. Это объясняется тем, что GedMatch считает некоторую метрику похожести, а не пытается детектировать общие сегменты.&lt;br&gt;У Генотек тоже есть небольшой пик в районе 14сМ. Думаю, при увеличении образцов он станет более явным, а картинка — похожей на ftDNA.&lt;br&gt;Меня немного смущает то, что в распределении ftDNA первый пик приходится на 10сМ, но есть сегменты и по 9, и по 8. Возможно, это объясняется результатами из разных версий алгоритмов в разные года. Не знаю, пересчитывали ли они результаты&lt;div style="height:1px;width:1px;overflow:hidden"&gt;[/q]&lt;/div&gt;&lt;/blockquote&gt;На данный момент не представляется возможны прокомментировать - почему у GEDMatch нет совпадений равных и меньше 12 сМ. Предположу, что при обновлении своих алгоритмов, сайта и т.п. они просто не стали тратить ресурсы на бесплатный тул. Мне была доступна бесплатная "старая" версия отчета, в "новой" версии возможно самостоятельно указать значение "отсечки" (вплоть до 7 сМ), но полный отчет только платный, иначе - лимитированная выгрузка.&lt;br&gt;Обратите внимание на самое первое замечание Александра - мы должны получить не идеальное пуассоновское распределение (гладкое и без пиков), а постепенно затухающий график с пиками на минимальной величине сегмента (  см график FTDNA). Важно отметить, что каждый последующий пик должен быть ниже предыдущего. И вот именно иной характер кривой (MyHeritage, GEDMatch) и будет говорить о "проблеме" и каком-то "особом факторе" работы алгоритма компании.&lt;br&gt;&lt;br&gt;К сожалению из всех 4х компаний только одна (MyHeritage) предоставляет отчет о количестве общих сегментов. Однако, даже на примере одной компании можно попробовать подтвердить, то, о чем говорилось ранее. Для этого возьмем все ту же гистограмму распределения сумм общих сегментов и добавим на нее график среднего количества сегментов в кармане. Для этого был написан нехитрый массив формул, который отбирал все кейсы (совпадений) входящих в один карман и вычислял их среднее арифметическое. &lt;br&gt;&lt;a href="https://files.vgd.ru/516178/BQrXmiB6d2XiAXTKBQP6Q0zA3Bl1xA/3.png" rel="nofollow" target=_blank&gt;&lt;img src="https://files.vgd.ru/516178/BQrXmiB6d2XiAXTKBQP6Q0zA3Bl1xA/preview/3.png" alt=""&gt;&lt;/a&gt;&lt;br&gt;Как можете видеть - оранжевый график имеет характерную форму лестницы. В теории он должен бы иметь вид равномерно восходящей кривой, плавно переходящей в горизонтальную линию (примерно, на участке примерно от 40 до 60 сМ). Однако, тот факт что алгоритм анализа имеет разрешающую способность превращает плавную линию в ломанную кривую. Стоит отметить, что где-то в районе 30-40 сМ начинается статистический шум. Там настолько мало данных (буквально по несколько кейсов на карман), что любое случайное отклонение от нормы сильно искажает картину. Эту часть графика нужно игнорировать.&lt;br&gt;На левой части четко прослеживаются 4 ступени. Если идти по оранжевым "ступеням", то, по мере того как вы приближаетесь к переходу из группы с одним сегментом в группу с двумя сегментами, у вас растет вероятность того, что алгоритм не увидел родственные сантиморганы. Говоря проще - ваше сито на 8 сМ, и если у вас есть сегменты длиной скажем 2 или 4 сМ, то сито их точно упустит. Если б у нас было идеальное "сито" пики на графике превратились бы "ступени". Что же это значит для нас? А то, что та степень сродства которая близка например к 12 сМ вероятно является более близкой чем 13 сМ. Подчеркну - это именно &lt;u&gt;ВЕРОЯТНОСТЬ&lt;/u&gt;. Какова она в численном выражении - задачка, на мой взгляд, для неплохой кандидатской по математике или статистике.&lt;br&gt;&lt;br&gt;&lt;b&gt;&lt;font size="4"&gt;Выводы&lt;/font&gt;&lt;/b&gt;&lt;br&gt;&lt;ul&gt;  &lt;li&gt; У компаний MyHeritage, GEDMatch есть "проблема" или "особый фактор" работы алгоритма компании, которые не очевидны.&lt;li&gt; FTDNA обнаруживает наиболее корректную картину работы алгоритма поиска совпаденцев.&lt;li&gt; По моему мнению, делать выводы о Genotek пока нельзя - нужно подождать момента, когда размер базы увеличится в несколько раз (как минимум). Когда это произойдет - завтра или через 5 лет, сказать сложно.&lt;li&gt; Величина общих сМ, в областях близких к шагу чувствительности алгоритма (8 - 14 - 20 - 26 - 32 - 38), имеет &lt;u&gt;ВЕРОЯТНОТЬ&lt;/u&gt; быть больше указанных в отчете компании значений. Данное утверждение верно для MH и минимальной чувствительности - 8 сМ.&lt;/ul&gt;  </description>
<dc:creator>Gregarius</dc:creator>
<pubDate>Mon, 20 Feb 2023 13:43:22 +0300</pubDate>
</item><item><guid>https://forum.vgd.ru/6840/141442/p4453718.htm#pp4453718</guid><title></title>
<link>https://forum.vgd.ru/6840/141442/p4453718.htm#pp4453718</link>
<description>  &lt;b&gt;&lt;font size="4"&gt;Введение&lt;/font&gt;&lt;/b&gt;&lt;br&gt;Возможность загрузить результаты тестирования на разные платформы неизбежно порождает вопросы. А можно ли сравнивать напрямую их результаты? А если нет, то какие поправки нужно учитывать? На данный момент я не смогу дать исчерпывающего ответа на этот вопрос, однако один из аспектов попробую объяснить ниже.&lt;br&gt;&lt;b&gt;&lt;font size="4"&gt;Дисклеймер&lt;/font&gt;&lt;/b&gt;&lt;ul&gt;&lt;li&gt; Автор использует набор исключительно примитивных инструментов и методов, доступных к повторению каждому при небольшом усердии и желании. Хотя, серьезных исследователей такой подход может и позабавить.&lt;li&gt; Все приличные исследователи обычно предоставляют исходные данные, чтоб коллеги смогли их перепроверить и покритиковать. Но я этого делать не стану - используйте доступные вам наборы данных, так вы сможете (возможно) выявить индивидуальные закономерности или особенности.&lt;li&gt; &lt;font color="purple"&gt;Если вы понимаете термины: статистика, теория вероятности, нормальное распределение, карманы и распределение Пуассона - переходите сразу к следующему посту. Если нет - продолжайте чтение.&lt;/font&gt;&lt;/ul&gt;&lt;br&gt;&lt;hr width="50%" align=left&gt;&lt;br&gt;Итак. Большинство вещей в вашей жизни подчиняются закону случайности. Вам наверняка приходилось слышать про эксперимент с монеткой: если ее подбросить то в половине случаев выпадет орел, а в другой - решка. А что если вариантов исхода не два, а больше? В таком случае вы получите одно из распределений, чаще всего: &lt;script type='text/javascript'&gt;document.write('&lt;a href="https://ru.wikipedia.org/wiki/%D0%9D%D0%BE%D1%80%D0%BC%D0%B0%D0%BB%D1%8C%D0%BD%D0%BE%D0%B5_%D1%80%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5" rel="nofollow" target=_blank&gt;стандартное&lt;/a&gt;');&lt;/script&gt; (или Гаусса). Тут нужно бы объяснить про плотность вероятности и дискретные величины, но мы это пропустим. Для данного случая отлично подойдет визуализация этого распределения - &lt;script type='text/javascript'&gt;document.write('&lt;a href="https://youtu.be/EDkDv7CzHP0" rel="nofollow" target=_blank&gt;доска Гальтона&lt;/a&gt;');&lt;/script&gt;. Каждый из колодцев, в который падают шарики называется карман и представляет собой группу случайных величин. Например - это могут быть совпаденцы, у которых с вами общих сантиморган от 10 до 12. Тогда, если мы возьмем наши карманы, расположим их по оси x, то по y будет количество наших совпаденцев в каждом из карманов.&lt;br&gt;О карманах. Поскольку я буду использовать excel, там есть довольно примитивное правило - карман описывается одной цифрой. Пример. Возьмем ряд карманов 5-6-7-8-9-10, в карман 7 попадут значения больше 6 и меньше или равные 7. Такой подход позволяет разбить все множество анализируемых данных на группы и работать с ними.&lt;br&gt;Распределений бываем много, самое типичное - стандартное (о нем говорили выше). Однако бывают и другие например Пуассона, его характеризует асимметричность - правое плечо значительно больше, а левое меньше или вовсе отсутствует. Строго говоря это не совсем наш случай, но нам важна форма распределения.&lt;br&gt;В исследовании строится гистограмма распределяющая все кейсы совпадений ДНК по карманам. Те карманы, что находятся ближе к нулю будут обильно "наполнены", те же, что дальше от нуля (а значит там выше степень родства) будут иметь всего по несколько совпаденцев. Ведь чем больше степень родства - тем меньше родственников.&lt;br&gt;&lt;br&gt;Я попытался изложить все как можно проще и короче, иногда в ущерб теории. Простите.  </description>
<dc:creator>Gregarius</dc:creator>
<pubDate>Mon, 20 Feb 2023 11:10:23 +0300</pubDate>
</item></channel>
</rss>