Помогите пожалуйста, первый раз столкнулась с таким форматом данных, таблица 24х30 В колонках разные этнические выборки, в рядах гаплотипы, в каждой клетке, соответственно, число носителей гаплотипа Х в выборке Y. Выборки разного размера. Каким методом можно сравнить выборки между собой по всему набору гаплотипов?
pooha, 19.06.2015 10:59
Ещё уточнение, есть 2 гаплотипа, которых нет нигде, эти ряды с нулями надо будет вставить или нет при обсчёте?
PS2004R, 20.06.2015 19:51
(pooha @ 19.06.2015 10:57)
Помогите пожалуйста, первый раз столкнулась с таким форматом данных, таблица 24х30 В колонках разные этнические выборки, в рядах гаплотипы, в каждой клетке, соответственно, число носителей гаплотипа Х в выборке Y. Выборки разного размера. Каким методом можно сравнить выборки между собой по всему набору гаплотипов?
Помогите пожалуйста, первый раз столкнулась с таким форматом данных, таблица 24х30 В колонках разные этнические выборки, в рядах гаплотипы, в каждой клетке, соответственно, число носителей гаплотипа Х в выборке Y. Выборки разного размера. Каким методом можно сравнить выборки между собой по всему набору гаплотипов?
В принципе у вас таблица частот, а значит и обсчитывать её можно критериями типа хи-квадрат: хи-квадрат Пирсона, отношение правдоподобия (G-критерий), критерий Фримана-Тьюки. Только толку от этого будет мало: ну получите вы, что выборки значимо отличаются по частотам гаплотипов (хи-квадрат=..., df=667, р=...), а дальше что? А если не отличаются? Такие данные обычно или редуцируют с обобщением методами типа анализа сооветствий (correspondence analysis), многомерного шкалирования (multidimensional scaling), анализа главных координат (PCoA). Или по результатам кластерного анализа строят дендрограммы сходства и их рассматривают и обсуждают более детально.
pooha, 22.06.2015 10:25
Я сдала нашему математику на обсчёт, но печаль в том, что он биологии не знает совсем, его приходится контролировать. Он посчитал методом главных компонент, насколько я поняла, картнку выдал в Kruskal stress, и мне результат кажется подозрительным. У меня есть пара аллелей, по которым отличия максимальны, если просто считать по частоте аллелей, а в две главные компоненты вошли генотипы, которые вот этих самых наиболее "разных" аллелей не содержат. Такое может быть?
PS2004R, 23.06.2015 12:54
(pooha @ 22.06.2015 10:25)
Я сдала нашему математику на обсчёт, но печаль в том, что он биологии не знает совсем, его приходится контролировать. Он посчитал методом главных компонент, насколько я поняла, картнку выдал в Kruskal stress, и мне результат кажется подозрительным. У меня есть пара аллелей, по которым отличия максимальны, если просто считать по частоте аллелей, а в две главные компоненты вошли генотипы, которые вот этих самых наиболее "разных" аллелей не содержат. Такое может быть?
Если данные не секретные (или их можно обезличить не теряя смысла), то выкладывайте исходный датасет сюда.
Den-N, 10.07.2015 22:27
(pooha @ 22.06.2015 13:25)
Я сдала нашему математику на обсчёт, но печаль в том, что он биологии не знает совсем, его приходится контролировать. Он посчитал методом главных компонент, насколько я поняла, картнку выдал в Kruskal stress, и мне результат кажется подозрительным. У меня есть пара аллелей, по которым отличия максимальны, если просто считать по частоте аллелей, а в две главные компоненты вошли генотипы, которые вот этих самых наиболее "разных" аллелей не содержат. Такое может быть?
Думаю может, зависит от того как считать. Скорее всего, раз "Kruskal stress", то математик считал многомерное шкалирование, а не PCA. Но здесь это не принципиально: обе ординационные техники не накладывают на решение никаких ограничений, поэтому в массиве данных находится общее, а не особенности - как в корреляции. Есть ординационные техники с ограничением по типу регрессии: анализируется не вся изменчивость, а только задаваемая предикторами. Т.е. не корреляция, а регрессия, не главные компоненты, а анализ избыточности (Redundancy analysis), не анализ соответствий, а канонический анализ соответствий... В варианте с регрессором скорее всего увидели бы паттерн показателей, дающих именно максимальных вклад в различия. Почитать про всякие такие техники можно здесь: http://ordination.okstate.edu/
Есть пакеты где многие из перечисленных мной методов делаются в несколько кликов мышью - могу показать. Также не отказывайтесь от помощи людей, просящих у вас данные. Ведь это вам нужно решать свою проблему, а тем кто вам помогает интересно расти дальше на реальных примерах из жизни. Дайте их взамен помощи.
guest: Гость , 10.08.2015 12:47
Логлиненый анализ таблиц сопряженности обрабатывает данные со множеством переменных. Критерий - Хи-квадрат. Метод итераций оставляет только значимое сочетание переменных в модели, все остальное отметается. В какой программе вы обсчитываете? Попробуйте SPSS.
guest: great , 31.10.2018 17:47
The information you have posted is very useful. The sites you have referred was good. Thanks for sharing. http://www.sceneunited.com
guest: 123 , 31.05.2022 09:13
SINCE LAUNCHING AMB CASINO HIS INVASION OF UKRAINE, RUSSIA'S FC SLOT PRESIDENT VLADIMIR PUTIN 88KTC HAS FACED AN UNPRECEDENTED 11HILO GLOBAL RESPONSE, FROM CULTURAL BOYCOTTS TO 123GOAL COUNTRIES RADICALLY 123VEGA TRANSFORMING THEIR ALLBET FOREIGN POLICIES. BUT THE สูตรสล็อต LONGER THE CONFLICT CANDY BURST GOES ON, THE MORE SIGNS THERE ปั่นสล็อต ARE OF DIVISIONS.
Это — лёгкая версия форума. Чтобы попасть на полную, щелкните здесь.