Полная версия страницы  English  

Каким методом обсчитать таблицу

pooha, 19.06.2015 10:57
Помогите пожалуйста, первый раз столкнулась с таким форматом данных, таблица 24х30 В колонках разные этнические выборки, в рядах гаплотипы, в каждой клетке, соответственно, число носителей гаплотипа Х в выборке Y. Выборки разного размера. Каким методом можно сравнить выборки между собой по всему набору гаплотипов?
pooha, 19.06.2015 10:59
Ещё уточнение, есть 2 гаплотипа, которых нет нигде, эти ряды с нулями надо будет вставить или нет при обсчёте?
PS2004R, 20.06.2015 19:51
(pooha @ 19.06.2015 10:57)
Ссылка на исходное сообщение  Помогите пожалуйста, первый раз столкнулась с таким форматом данных, таблица 24х30  В колонках разные этнические выборки, в рядах гаплотипы, в каждой клетке, соответственно, число носителей гаплотипа Х в выборке Y. Выборки разного размера. Каким методом можно сравнить выборки между собой по всему набору гаплотипов?


Надо преобразовать из широкого формата в длинный

CODE

data <- data.frame("гапло"=1:24, data)
data<-as.data.frame(matrix(42, nrow=24, ncol=30))
names(data) <- paste0("этно", 1:30)

> str(data)
'data.frame': 24 obs. of  31 variables:
$ гапло : int  1 2 3 4 5 6 7 8 9 10 ...
$ этно1 : num  42 42 42 42 42 42 42 42 42 42 ...
$ этно2 : num  42 42 42 42 42 42 42 42 42 42 ...
$ этно3 : num  42 42 42 42 42 42 42 42 42 42 ...
$ этно4 : num  42 42 42 42 42 42 42 42 42 42 ...
$ этно5 : num  42 42 42 42 42 42 42 42 42 42 ...
$ этно6 : num  42 42 42 42 42 42 42 42 42 42 ...
$ этно7 : num  42 42 42 42 42 42 42 42 42 42 ...
$ этно8 : num  42 42 42 42 42 42 42 42 42 42 ...
$ этно9 : num  42 42 42 42 42 42 42 42 42 42 ...
$ этно10: num  42 42 42 42 42 42 42 42 42 42 ...
$ этно11: num  42 42 42 42 42 42 42 42 42 42 ...
$ этно12: num  42 42 42 42 42 42 42 42 42 42 ...
$ этно13: num  42 42 42 42 42 42 42 42 42 42 ...
$ этно14: num  42 42 42 42 42 42 42 42 42 42 ...
$ этно15: num  42 42 42 42 42 42 42 42 42 42 ...
$ этно16: num  42 42 42 42 42 42 42 42 42 42 ...
$ этно17: num  42 42 42 42 42 42 42 42 42 42 ...
$ этно18: num  42 42 42 42 42 42 42 42 42 42 ...
$ этно19: num  42 42 42 42 42 42 42 42 42 42 ...
$ этно20: num  42 42 42 42 42 42 42 42 42 42 ...
$ этно21: num  42 42 42 42 42 42 42 42 42 42 ...
$ этно22: num  42 42 42 42 42 42 42 42 42 42 ...
$ этно23: num  42 42 42 42 42 42 42 42 42 42 ...
$ этно24: num  42 42 42 42 42 42 42 42 42 42 ...
$ этно25: num  42 42 42 42 42 42 42 42 42 42 ...
$ этно26: num  42 42 42 42 42 42 42 42 42 42 ...
$ этно27: num  42 42 42 42 42 42 42 42 42 42 ...
$ этно28: num  42 42 42 42 42 42 42 42 42 42 ...
$ этно29: num  42 42 42 42 42 42 42 42 42 42 ...
$ этно30: num  42 42 42 42 42 42 42 42 42 42 ...


library(reshape2)
> head(melt(data, id.vars=c("гапло")), 50)
  гапло variable value
1      1    этно1    42
2      2    этно1    42
3      3    этно1    42
4      4    этно1    42
5      5    этно1    42
6      6    этно1    42
7      7    этно1    42
8      8    этно1    42
9      9    этно1    42
10    10    этно1    42
11    11    этно1    42
12    12    этно1    42
13    13    этно1    42
14    14    этно1    42
15    15    этно1    42
16    16    этно1    42
17    17    этно1    42
18    18    этно1    42
19    19    этно1    42
20    20    этно1    42
21    21    этно1    42
22    22    этно1    42
23    23    этно1    42
24    24    этно1    42
25     1    этно2    42
26     2    этно2    42
27     3    этно2    42
28     4    этно2    42
29     5    этно2    42
30     6    этно2    42
31     7    этно2    42
32     8    этно2    42
33     9    этно2    42
34    10    этно2    42
35    11    этно2    42
36    12    этно2    42
37    13    этно2    42
38    14    этно2    42
39    15    этно2    42
40    16    этно2    42
41    17    этно2    42
42    18    этно2    42
43    19    этно2    42
44    20    этно2    42
45    21    этно2    42
46    22    этно2    42
47    23    этно2    42
48    24    этно2    42
49     1    этно3    42
50     2    этно3    42
.......

> str(melt(data, id.vars=c("гапло")))
'data.frame': 720 obs. of  3 variables:
$ гапло   : int  1 2 3 4 5 6 7 8 9 10 ...
$ variable: Factor w/ 30 levels "этно1","этно2",..: 1 1 1 1 1 1 1 1 1 1 ...
$ value   : num  42 42 42 42 42 42 42 42 42 42 ...

Den-N, 21.06.2015 07:27
(pooha @ 19.06.2015 13:57)
Ссылка на исходное сообщение  Помогите пожалуйста, первый раз столкнулась с таким форматом данных, таблица 24х30  В колонках разные этнические выборки, в рядах гаплотипы, в каждой клетке, соответственно, число носителей гаплотипа Х в выборке Y. Выборки разного размера. Каким методом можно сравнить выборки между собой по всему набору гаплотипов?

В принципе у вас таблица частот, а значит и обсчитывать её можно критериями типа хи-квадрат: хи-квадрат Пирсона, отношение правдоподобия (G-критерий), критерий Фримана-Тьюки. Только толку от этого будет мало: ну получите вы, что выборки значимо отличаются по частотам гаплотипов (хи-квадрат=..., df=667, р=...), а дальше что? А если не отличаются?
Такие данные обычно или редуцируют с обобщением методами типа анализа сооветствий (correspondence analysis), многомерного шкалирования (multidimensional scaling), анализа главных координат (PCoA). Или по результатам кластерного анализа строят дендрограммы сходства и их рассматривают и обсуждают более детально.
pooha, 22.06.2015 10:25
Я сдала нашему математику на обсчёт, но печаль в том, что он биологии не знает совсем, его приходится контролировать. Он посчитал методом главных компонент, насколько я поняла, картнку выдал в Kruskal stress, и мне результат кажется подозрительным. У меня есть пара аллелей, по которым отличия максимальны, если просто считать по частоте аллелей, а в две главные компоненты вошли генотипы, которые вот этих самых наиболее "разных" аллелей не содержат. Такое может быть?
PS2004R, 23.06.2015 12:54
(pooha @ 22.06.2015 10:25)
Ссылка на исходное сообщение  Я сдала нашему математику на обсчёт, но печаль в том, что он биологии не знает совсем, его приходится контролировать. Он посчитал методом главных компонент, насколько я поняла, картнку выдал в Kruskal stress, и мне результат кажется подозрительным. У меня есть пара аллелей, по которым отличия максимальны, если просто считать по частоте аллелей, а в две главные компоненты вошли генотипы, которые вот этих самых наиболее "разных" аллелей не содержат. Такое может быть?


Если данные не секретные (или их можно обезличить не теряя смысла), то выкладывайте исходный датасет сюда.
Den-N, 10.07.2015 22:27
(pooha @ 22.06.2015 13:25)
Ссылка на исходное сообщение  Я сдала нашему математику на обсчёт, но печаль в том, что он биологии не знает совсем, его приходится контролировать. Он посчитал методом главных компонент, насколько я поняла, картнку выдал в Kruskal stress, и мне результат кажется подозрительным. У меня есть пара аллелей, по которым отличия максимальны, если просто считать по частоте аллелей, а в две главные компоненты вошли генотипы, которые вот этих самых наиболее "разных" аллелей не содержат. Такое может быть?

Думаю может, зависит от того как считать. Скорее всего, раз "Kruskal stress", то математик считал многомерное шкалирование, а не PCA. Но здесь это не принципиально: обе ординационные техники не накладывают на решение никаких ограничений, поэтому в массиве данных находится общее, а не особенности - как в корреляции. Есть ординационные техники с ограничением по типу регрессии: анализируется не вся изменчивость, а только задаваемая предикторами. Т.е. не корреляция, а регрессия, не главные компоненты, а анализ избыточности (Redundancy analysis), не анализ соответствий, а канонический анализ соответствий... В варианте с регрессором скорее всего увидели бы паттерн показателей, дающих именно максимальных вклад в различия. Почитать про всякие такие техники можно здесь: http://ordination.okstate.edu/

Есть пакеты где многие из перечисленных мной методов делаются в несколько кликов мышью - могу показать. Также не отказывайтесь от помощи людей, просящих у вас данные. Ведь это вам нужно решать свою проблему, а тем кто вам помогает интересно расти дальше на реальных примерах из жизни. Дайте их взамен помощи.
guest: Гость , 10.08.2015 12:47
Логлиненый анализ таблиц сопряженности обрабатывает данные со множеством переменных. Критерий - Хи-квадрат. Метод итераций оставляет только значимое сочетание переменных в модели, все остальное отметается. В какой программе вы обсчитываете? Попробуйте SPSS.
guest: great , 31.10.2018 17:47
The information you have posted is very useful. The sites you have referred was good. Thanks for sharing.
http://www.sceneunited.com
guest: 123 , 31.05.2022 09:13
SINCE LAUNCHING AMB CASINO HIS INVASION OF UKRAINE, RUSSIA'S FC SLOT PRESIDENT VLADIMIR PUTIN 88KTC HAS FACED AN UNPRECEDENTED 11HILO GLOBAL RESPONSE, FROM CULTURAL BOYCOTTS TO 123GOAL COUNTRIES RADICALLY 123VEGA TRANSFORMING THEIR ALLBET FOREIGN POLICIES. BUT THE สูตรสล็อต LONGER THE CONFLICT CANDY BURST GOES ON, THE MORE SIGNS THERE ปั่นสล็อต ARE OF DIVISIONS.
Это — лёгкая версия форума. Чтобы попасть на полную, щелкните здесь.
Invision Power Board © 2001-2024 Invision Power Services, Inc.