Полная версия страницы  English  

Вопрос про p-value и нулевую гипотезу

nattali80, 03.12.2014 18:56
Очень удивляет, почему этот несложный вопрос при объяснении даже в книгах, которые должны быть простыми (объясняя азы) ухитряются изложить так, что ну совсем ничего не понятно?

В книге дано описание Shapiro-Wilk normality test

x <- exp(rnorm(30))
shapiro.test(x)
Shapiro-Wilk normality test
data: x
W = 0.5701, p-value = 3.215e-08


И дальше приводится пояснение, исходящее из значения p-value.
Казалось бы, нужно написать только: если p-value меньше 0.01 (критериев значимости), то распределение - нормальное (или не нормальное). Соотв-но, если оно больше, то наоборот.

Но приводится такой текст (с таким внутренне сложным сочетанием "не" внутри), что понять точно, при каком значении p-value какой результат - я не могу.
Не мог бы кто-то объяснить, все же, при каком значении p-value - мы считаем, что распределение нормальное?? Больше или меньше критериев значимости?

По логике (других тесто). Если в этом тесте "The null hypothesis is that the sample data are normally distributed. ", то p-value может быть вероятностью того, что нулевая гипотеза не выполняется. Тогда чем меньше p-value критериев значимости, тем лучше (то есть ответ, что если p-value меньше критериев значимости, то распределение нормальное).
Но почему авторы говорят, что при малом p-value = 3.215e-08 They certainly do fail: p < 0.000 001. ??

В цитате выделенное красным - кажется прямым издевательством над пытающимся разобраться. Сказать вначале, что что-то "обычное заблуждение", а потом объяснить так, чтобы запутать окончательно.

We might use shapiro.test for testing whether the data in a vector come from a normal distribution.
The null hypothesis is that the sample data are normally distributed.

They certainly do fail: p < 0.000 001. A p value is not the probability that the null hypothesis is true (this is a common misunderstanding). On the contrary, the p value is based on the assumption that the null hypothesis is true. A p value is an estimate of the probability that a particular result (W = 0.5701 in this case), or a result more extreme than the result observed, could have occurred by chance, if the null hypothesis were true. In short, the p value is a measure of the credibility of the null hypothesis. A large p value (say, p = 0.23) means that there is no compelling evidence on which to reject the null hypothesis. Of course, saying ‘we do not reject the null hypothesis’ and ‘the null hypothesis is true’ are two quite different things. For instance,
we may have failed to reject a false null hypothesis because our sample size was too low, or because our measurement error was too large. Thus, p values are interesting, but they do not tell the whole story: effect sizes and sample sizes are equally important in drawing conclusions
.


Изложенное - изложено так, что разум не может вынести из всех этих "не" и предположений (того, чем объясняется ответ теста) - ясное понимание. А ведь это предлагается новичкам в статистике..
Сказать бы сначала четко, при каком p-value что происходит. А потом объяснять уже причины с какой угодно сложностью.
nattali80, 03.12.2014 19:37
Ну ладно, косвенно из "p value is a measure of the credibility of the null hypothesis" а также потому что автор в начале признался, что "They certainly do fail: p < 0.000 001"

понимаю, что в данном тесте, если p-value меньше наименьшего критерия значимости (0.01) , то мы отвергаем нулевую гипотезу. То есть распределение - ненормальное.


Для меня стал новостью тот факт, что в одних тестах мы принимаем нулевую гипотезу при p-value меньше критериев значимости (например в Anova), а в других - наоборот, при p-value больше критериев значимости (shapiro.test, ks-test).


Но и также - видимо, второй параметр играет большое значение в оценке результата теста (здесь это W, в Anova - F value. Это кажется самым сложным. Не понимаю.
PS2004R, 03.12.2014 20:04
Вас тревожат уже многократно обсужденные вопросы smile.gif

Вольный перевод англоязычного текста: smile.gif

Нулевая гипотеза всегда может быть отвергнута при увеличении объема выборки.

Поэтому есть смысл для исследователя не использовать "гипотезы" для проверки величин эффектов, а считать то что предназначено для оценки величин эффектов --- доверительные интервалы, квантили, перцентили... да просто распределение величины эффекта восстанавливать, раз не на счетах считают smile.gif
AlexRez, 03.12.2014 20:12
Используя тест мы сравниваем одну выборку с другой выборкой или с эталоном (в приведенном случае эталон - это нормально распределенная выборка с заданными параметрами). При сравнении мы предполагаем, что выборки отличаются друг от друга. Величина p указывает на вероятность того, что наше предположение ошибочно. Т.е., например, при p=0.01 вероятность ошибочно сказать, что выборки отличаются составляет 1%. Если вас устраивает такая вероятность ошибиться (в биологии достаточно чтобы она не превышала 5%), то вы принимаете предположение за правду. Это вполне логично т.к. приняв гипотезу о достоверности различия выборок вы правы на 99% и не правы на 1%.

Проблема в том, что из этого не следует обратное т.е. вы можете судить только о том насколько выборки отличаются друг от друга, но не можете судить о том насколько они идентичны друг другу. Это следует из того, что любой тест "смотрит на выборку" с одной стороны т.е. учитывает не все возможные параметры выборки, а только некоторые. И если этих параметров достаточно, чтобы сделать вывод о достоверности различая выборок, то их может быть недостаточно, чтобы сделать заключение о идентичности выборок.

В вашем примере можно сказать, что исследуемая выборка отличается от нормально рапределенной (т.е. распределена ненормально) с вероятностью 1-p т.е. ошибка при принятии этой гипотезы составляет p-value = 3.215e-08. Тут все понятно, выборка распределена ненормально, тест Shapiro-Wilk нашел несоответствия эталону. Но если вы возьмете выборку при исследовании которой получите p=0.6, то сможете сделать вывод только о том, что тест Shapiro-Wilk не нашел несоответствия эталону. Из этого не следует, что выборка распределена нормально (т.е. обратное заключение). Возможно другой тест, например Колмогорова-Смирнова, найдет такое несоответствие т.к. будет руководствоваться другими критериями.
AlexRez, 03.12.2014 20:19
(nattali80 @ 03.12.2014 20:37)
Ссылка на исходное сообщение  Для меня стал новостью тот факт, что в одних тестах мы принимаем нулевую гипотезу при p-value меньше критериев значимости (например в Anova), а в других - наоборот, при p-value больше критериев значимости (shapiro.test, ks-test).


Вообще-то везде одинаково
nattali80, 03.12.2014 21:15
(AlexRez @ 03.12.2014 21:12)
Ссылка на исходное сообщение  Используя тест мы сравниваем одну выборку с другой выборкой или с эталоном (в приведенном случае эталон - это нормально распределенная выборка с заданными параметрами). При сравнении мы предполагаем, что выборки отличаются друг от друга. Величина p указывает на вероятность того, что наше предположение ошибочно. Т.е., например, при p=0.01 вероятность ошибочно сказать, что выборки отличаются составляет 1%. Если вас устраивает такая вероятность ошибиться (в биологии достаточно чтобы она не превышала 5%), то вы принимаете предположение за правду. Это вполне логично т.к. приняв гипотезу о достоверности различия выборок вы правы на 99% и не правы на 1%.


То, что вы сказали сходится в том, что:
всегда, когда сравниваемые выборки РАЗЛИЧАЮТСЯ, p-value меньше критериев значимости (0.1, 0.05 или 0.01)

и всегда, когда сравниваемые выборки НЕ ИМЕЮТ РАЗЛИЧИЙ (или тест их не выявляет) p-value больше критериев значимости.

Если рассуждать так, , то и правда, ANOVA дает результат "отличия есть" при p-value < критериев значимости.

И этот shapiro-test говорит, что распределение ненормальное (т.е. ЕСТЬ ОТЛИЧИЯ от нормально распределенного образца) тоже при при p-value < критериев значимости.



Но тогда , значит, в тестах различны нулевые гипотезы, то есть по разному ставится что желают проверить - есть отличия ли их нет. Вот это - меня запутало.


Ведь и вы написали как для общего случая "При сравнении мы предполагаем, что выборки отличаются друг от друга". Автоматически я это поняла, как такую постоянную для всех тестов "нулевую гипотезу"
Но вот в шапиро-тесте нулевая гипотеза поставлена так "The null hypothesis is that the sample data are normally distributed", то есть здесь нулевая гипотеза что ОТЛИЧИЙ НЕТ (отличий от нормально-распр образца.

А для ANOVA например, нулевая гипотеза состоит в том, что отличия есть.



Правильно ли я теперь понимаю? Я поняла, что неизменно во всех тестах это соотношение:
p-value < критериев значимости (0.1, 0.05 или 0.01), отличия между выборками ЕСТЬ
p-value > критериев значимости, отличий между выборками НЕТ (или не выявлено)
AlexRez, 03.12.2014 22:18
Да, правильно.
Путаница возникает, иногда, из-за того, что в ANOVA исследователь ожидает (ему так очень хотелось бы) что выборки отличаются (т.е. при p<0.05), а в Shapiro-Wilk наоборот.

Я написал "При сравнении мы предполагаем, что выборки отличаются друг от друга" для простоты объяснения. Это не нулевая гипотеза для конкретного критерия, а ожидаемый результат, цель. На самом деле все немного запутаннее. Нулевая гипотеза чаще предполагает отсутствие различий (т.е. однородности) в распределениях (некоторых параметрах распределений) двух и/или более выборок. А альтернативная гипотеза предполагает наличие таковых. И с помощью критериев проверки гипотез (ANOVA, Shapiro-Wilk и др.) мы не пытаемся подтвердить нулевую гипотезу, а пытаемся показать ее несостоятельность, то есть отвергнуть ее и принять альтернативную. При проверке статистических гипотез уровнем значимости называют вероятность ошибки первого рода. А ошибка первого рода это ложное принятие альтернативной гипотезы при правильной нулевой. Т.е. на самом деле правда это нулевая гипотеза - выборки по распределению идентичны, а мы ложно принимаем не ее, а альтернативную - утверждаем, что их распределения отличаются. p - это вероятность такого заблуждения. В Shapiro-Wilk при p<0,05 принятие альтернативной гипотезы вполне допустимо т.е. выборка не соответствует нормальному распределению.
Нулевой гипотезой в дисперсионном анализе является утверждение о равенстве средних значений. Т.е. об отсутствии отличий.
AlexRez, 03.12.2014 22:25
(nattali80 @ 03.12.2014 22:15)
Ссылка на исходное сообщение  
Правильно ли я теперь понимаю? Я поняла, что неизменно во всех тестах это соотношение:
p-value < критериев значимости (0.1, 0.05 или 0.01), отличия между выборками ЕСТЬ
p-value > критериев значимости, отличий между выборками НЕТ (или не выявлено)



В статистике очень много разных критериев на разные случаи жизни. И гипотезы там бывают очень разные. Если грубо, то правильно. Но лучше, чтобы не ошибиться, вникать в суть критерия.
nattali80, 04.12.2014 00:16
AlexRez, спасибо за объяснения! Главное, в чем-то я обрела уверенность, это поможет разбираться дальше.


(PS2004R @ 03.12.2014 21:04)
Ссылка на исходное сообщение  Вас тревожат уже многократно обсужденные вопросы smile.gif

Вольный перевод англоязычного текста: smile.gif

Нулевая гипотеза всегда может быть отвергнута при увеличении объема выборки.



Там было и про это?

(PS2004R @ 03.12.2014 21:04)
Ссылка на исходное сообщение  
Поэтому есть смысл для исследователя не использовать "гипотезы" для проверки величин эффектов, а считать то что предназначено для оценки величин эффектов --- доверительные интервалы, квантили, перцентили... да просто распределение величины эффекта восстанавливать, раз не на счетах считают smile.gif


Я интуитивно понимаю, что все это можно и самому рассчитать.
Но во встречаемых книгах это на поверхности не описано.
Потом, что важно, в научных статьях необходимо приводить результаты известных тестев, так короче, явно точнее и требуется редакцией. Потому, ставлю себе задачу разобраться в механизмах базовых тестев, научиться этим пользоваться.
biomol_user, 04.12.2014 08:29
на сколько я понимаю, то в тестах проверки на нормальность:

если p<0.05, то распределение не нормальное.

Т.е. в тестах проверки на нормальность нулевая гипотеза такова:

H0: Y не принадлежит популяции с нормальным распределением



Поправьте, если что...
PS2004R, 04.12.2014 10:53
1) Лучше забудьте про p-валуе вообще, иначе "вы готовитесь к прошедшей войне" smile.gif

Вся литература методологическая полна статьей про кризис "p-value", результатом которого стал вал бессмысленных и не воспроизводимых работ.

Короткий и универсальный совет (вы похоже именно такие любите smile.gif ) --- считайте 95% доверительный интервал для обнаруженных эффектов.

2) Проблемы статистики "в докомпьютерную" эпоху проще всё же в той эпохе и оставить (как и всё "пофамильные критерии" smile.gif ).
Guest, 04.12.2014 11:47
(PS2004R @ 04.12.2014 10:53)
Ссылка на исходное сообщение 
...считайте 95% доверительный интервал для обнаруженных эффектов...


т.е. рассчитывать 95%CI для полученной статистики confused.gif ?

подкинете литературы smile.gif ?
nattali80, 04.12.2014 15:43
(PS2004R @ 04.12.2014 11:53)
Ссылка на исходное сообщение  1) Лучше забудьте про p-валуе вообще, иначе "вы готовитесь к прошедшей войне" smile.gif

Вся литература методологическая полна статьей про кризис "p-value", результатом которого стал вал бессмысленных и не воспроизводимых работ.

Короткий и универсальный совет (вы похоже именно такие любите smile.gif ) --- считайте 95% доверительный интервал для обнаруженных эффектов.



Короткие советы - могут давать общую направленность. Но научиться можно только на предельно конкретных ответах на вопросы.

Что-то такое из лит-ры я уловила про "кризис "p-value" или нулевых гипотез (старого подхода?), но не помню точно. Но я пока ориентируюсь на тот стандарт, который вижу в публикациях и работах других студентов, там это - использование готовых пакетов в R.
Может быть. когда я освоюсь с базой, я смогу пройти куда-то дальше и работать со статистикой и R на более высоком уровне. Но пока мне бы научится пользоваться уже готовыми простыми инструментами правильно.
Как понимаю, готовые стат. пакеты - предназначены для определенных задач.
То есть важно - понимать суть данных, выбирать правильно (более подходящие) стат. функции, подготовить правильно данные, уметь понимать, что именно делает эта функция в анализе, за счет этого - правильно интерпретировать результат анализа.
AlexRez, 04.12.2014 18:37
(nattali80 @ 04.12.2014 16:43)
Ссылка на исходное сообщение  То есть важно - понимать суть данных, выбирать правильно (более подходящие) стат. функции, подготовить правильно данные, уметь понимать, что именно делает эта функция в анализе, за счет этого - правильно интерпретировать результат анализа.

Вот это Вы в самую точку!
Кризис не в p-value, а в бездумном применении тестов.
PS2004R, 04.12.2014 22:45
(Guest @ 04.12.2014 11:47)
Ссылка на исходное сообщение  т.е. рассчитывать 95%CI для полученной статистики confused.gif ?

подкинете литературы smile.gif ?


Да вон Эфрона про бутстреп почитайте, не зря же человек просветлял мрак замшелого средневековья smile.gif.
PS2004R, 04.12.2014 22:51
(AlexRez @ 04.12.2014 18:37)
Ссылка на исходное сообщение  Вот это Вы в самую точку!
Кризис не в p-value, а в бездумном применении тестов.


Ну почему сразу "бездумном" smile.gif всех всё устраивает (какая ерунда, что из топовых прошедших фейсконтроль работ удается воспроизвести ~8%)

В общем увы, но с радостью "ученые" на ровном месте изобретают сомнительные "метрики успешности" их методов...
PS2004R, 04.12.2014 23:12
(nattali80 @ 04.12.2014 15:43)
Ссылка на исходное сообщение  Короткие советы - могут давать общую направленность. Но научиться можно только на предельно конкретных ответах на вопросы.

Что-то такое из лит-ры я уловила про  "кризис "p-value" или нулевых гипотез (старого подхода?), но не помню точно. Но я пока ориентируюсь на тот стандарт, который вижу в публикациях и работах других студентов, там это - использование готовых пакетов в R.
Может быть. когда я освоюсь с базой, я смогу пройти куда-то дальше и работать со статистикой и R на более высоком уровне. Но пока мне бы научится пользоваться уже готовыми простыми инструментами правильно.
Как понимаю, готовые стат. пакеты - предназначены для определенных задач.
То есть важно - понимать суть данных, выбирать правильно (более подходящие) стат. функции, подготовить правильно данные, уметь понимать, что именно делает эта функция в анализе, за счет этого - правильно интерпретировать результат анализа.


Вопрос на который можно получить "предельно конкретный ответ" очень не легко сформулировать...

Есть очень хороший рассказ на эту тему http://www.adme.ru/svoboda-avtorskie-kolon...ajnerom-349305/

Пакеты в R просто добавляют базовые функции для некоторых действий над данными. Без понимания сути проводимого анализа довольно трудно что то сделать (и как ни странно объяснить). Дело в том, что каждый раз у вас будет просто другой порядок действий, а определяться он будет вовсе не тем, что реализовано в пакете, а некими общими соображениями.

Лучше быстрее дочитайте до главы о фите моделей в R book, она ключевая если речь о статистике (и тестах smile.gif ). Если больше актуален анализ данных, то читайте сразу многомерные "проективные" методы (типа PCA).
biomol_user, 05.12.2014 09:49
(PS2004R @ 04.12.2014 22:45)
Ссылка на исходное сообщение  ...Эфрона про бутстреп почитайте...

дайте ссылку, пожалуйста mol.gif
PS2004R, 05.12.2014 13:36
(biomol_user @ 05.12.2014 09:49)
Ссылка на исходное сообщение  дайте ссылку, пожалуйста mol.gif


Вот русский сборник переводов его работ http://libgen.org/search.php?req=%D0%AD%D1...se=1&column=def

Что бы самотужно не писать семплеры используется обычно что то из списка http://probabilistic-programming.org/wiki/Home

Например вот такое онлайн руководство в стиле литературного программирования https://probmods.org/
nattali80, 05.12.2014 20:28
(PS2004R @ 05.12.2014 00:12)

Лучше быстрее дочитайте до главы о фите моделей в R book, она ключевая если речь о статистике (и тестах smile.gif ). Если больше актуален анализ данных, то читайте сразу многомерные "проективные" методы (типа PCA).



Я дошла до раздела Fitting models, но не могу точно понять - что это .. хммм.. вообще такое.
Вот в другом месте вы говорили:

(PS2004R @ 05.12.2014 00:12)
В R  весь подход к статистике через фит моделей, и соответственно подробно описан процесс фита.

2) почитайте ?aov может проще сразу lm() или glm() использовать?

Ключевые операции анализа фита:
AIC(модель1)
AIC(модель2)
anova(модель1, модель2)

... или можно даже step(модель) делать для автоматического отбора по AIC


Как поняла, Fitting models - эта операция по упрощению модели и нахождению модели и самой простой, и самой подходящей.

Но это относится, как я думаю логически, к каждой задаче (проекта) отдельно?
Так, по моему проекту я уже сформулировала вопросы к анализам в максимально упрощенном виде. Но этих вопросов - там несколько и они предполагают разные тесты.

И здесь также вы противопоставили "фит модели, статистику" и "анализ данных"

Совсем не понимаю.
Как мне кажется, заниматься этим - и есть зачем-то все усложнять?

У меня есть вопросы, которые я хочу решить. Мне надо понять из сути данных - какие тесты для этого подходят. И провести эти тесты (разные для каждого типа анализов).
Так, (примерно, тк. пока плохо разобралась) у меня задачи для таких тестев:
- сравнения выборок (т.е. ANOVA)
- коэф. коррелция Пирсона или коэф ранговой корреляция Спирмена
- многофакторынй анализ (нужно провести анализ того, какие из факторов влияют сильнее). Это (пока не изучала, но думаю) MANOVA или PCA (Principle Component Analyses)

И через эти тесты я хочу пропустить данные по проекту (в разных комбинациях) для поиска ответа на сформулированные вопросы.

Весь этот план - это одна модель или несколько?

Пока, исходя из прочтенного про фит моделей, я вынесла, как следует подходить к подготовке данных и выборе теста. То есть определила explanatory и response переменные – как continuous, - из чего следует применения регрессионного анализа (Normal regression, ANOVA or ANCOVA).
PS2004R, 05.12.2014 22:44
Принципиально есть две различных вещи:

1) Анализ данных --- занимается визуализацией для исследователя зависимостей имеющихся в данных исследователя. Это эксплораторный подход, и гипотезы о данных в нем скорее отсутствуют чем присутствуют smile.gif. Это наиболее правильно поскольку позволяет увидеть какую чушь на самом деле намерял в своём гениальном эксперименте ученый smile.gif

Очень часто эти методы хотя и имеют (очень вторичную и запутывающую кстати) "статистичекую интерпретацию", на самом деле представляют собой просто многомерное перепроецирование данных в виде наилучшим образом визуализирующем многомерное распределение экспериментальных данных.

2) Статистика --- занимается доказательством уже сформулированных зависимостей относительно данных. Это конфирматорный подход.

Конфирматорный подход в R реализован современно, через подгонку-фит моделей. Модель целиком описывает проведенный эксперимент-наблюдение, и можно измерить насколько и при каких параметрах она соответствует данных полученным в этом самом эксперименте.

Процесс анализа насколько фит удачен, и в каком направлении его вести максимально унифицирован. Поэтому важно таки прочитать R book, ну не учить же для каждой разновидности моделей конфирматорного анализа как их подгонять smile.gif Более того авторы пакетов и не очень напрягаются объяснять такие общие понятия, практически всё в документации R изложено однократно smile.gif.

PS А то таким образом вы скоро начнете спрашивать как бы множественное попарное "тестирование" организовать для данных smile.gif

PPS ну зачем при работе практической пользоваться всякими именованными окаменелостями? посчитайте просто --- бутстрепом. а уже потом результаты которые выдал бутстреп подтвердите для публикации чем там у маразматиков в редколегии целевого журнала принято пользоваться последние 25 лет smile.gif
nattali80, 06.12.2014 00:13
Спасибо! Да, этого не было понятно совсем из мануала. То есть, Конфирматорный подход (для чего используют фит моделей) - когда мы подгоняем наши данные под же описанные модели. И этим же занимается Статистический бутстрэп


Я не очень понимаю как это можно сделать (как можно подгонять какие-то данные под модель и при этом - получать научную новую информацию. Видимо, чтобы понять это, нужен вводный учебник или курс только по этому вопросу). Потому, вижу, что моей базы сейчас не хватит, чтобы прийти к такой - даже постановки задачи. Но ваши слова теперь многое прояснили.

Однако, вижу, что то, что хочу сделать я, это первый подход - эксплораторный ("Анализ данных").

Да и из сути проекта - моя задача проанализировать данные, с тем, чтобы выявить, какие зависимости существуют, какие факторы влияют больше и меньше на численность птиц, и какова суть этого влияния (т.е. как именно меняется распределение птиц в зависимости от параметров, где его пики и спады и пр).
Очевидно, что подгонять большое число вопросов - под какую-то модель, это не то, что мне нужно. Я ведь ищу новую информацию, проверяю есть влияние или его нет, а не пытаюсь обосновать то, что уже как-то знаю.

Хотя есть рабочие гипотезы, которые я хочу таким образом проверить.


Потому, делаю для себя вывод, что раздел про "фит моделей" мне сейчас не нужен. Буду читать по тем анализам, которые отбираю, как наиболее подходящие под мои задачи.
PS2004R, 06.12.2014 11:51
(nattali80 @ 06.12.2014 00:13)
Ссылка на исходное сообщение  
Хотя есть рабочие гипотезы, которые я хочу таким образом проверить.
Потому, делаю для себя вывод, что раздел про "фит моделей" мне сейчас не нужен. Буду читать по тем анализам, которые отбираю, как наиболее подходящие под мои задачи.


1) Давненько не видел статей (в основном 50-60е), где кто то делиться описание применения эксплораторного вида анализа к своим данным. Если найдете свежего чего с удовольствием посмотрю.

2) Вам увы еще рано выбирать в R book что читать, а что нет. Читайте подряд и особенно читайте именно те места, которые не понимаете. Рассширение своего кругозора взегда несколько натужное занятие... ведь вы стремитесь объять кругозором вещь которая туда так просто не лезет из-за размера smile.gif

PS Но вообще я наверное сделал всё что мог smile.gif, поскольку моё положение всё больше стремиться к вот такой иллюстрации ... smile.gif Еще раз читайте книгу "от корки до корки", и особенно "непонятные места".... а с "выводами" лучше погодите хотя бы до конца книги smile.gif


Картинки:
картинка: 813ae4c70a74.jpg
813ae4c70a74.jpg — (38.33)   

nattali80, 06.12.2014 14:18
(PS2004R @ 06.12.2014 12:51)
Ссылка на исходное сообщение  

2) Вам увы еще рано выбирать в R book что читать, а что нет. Читайте подряд и особенно читайте именно те места, которые не понимаете. Рассширение своего кругозора взегда несколько натужное занятие... ведь вы стремитесь объять кругозором вещь которая туда так просто не лезет из-за размера  smile.gif



Расширение кругозора - это важно, и я это приобрела, познакомившись с этим понятием в общем плане. Не нужно читать - имелось в виду не нужно использовать для реализации проекта.

Вполне может быть, что если бы "мне помогали" в этом, то все там можно было повернуть на другие рельсы. Однако, в основном я предоставлена здесь себе и своему уровню. В том и дело - как можно использовать то, что не понимаешь еще совсем? Разве только - пойти на год поучиться на курсах. Для следующих проектов, может быть, так и будет, а сейчас уже нет времени.


Правда, мне намного больше помогают и важны - ответы на мои конкретные вопросы по задачам. Так по шагу, постепенно, - можно пройти дальше. Всегда необходимо опираться на то, что уже точно знаешь и понимаешь. Вы же такие вопросы в основном игнорируете, зато с размахом указываете на далекие горные вершины. Но мне то что с того, что они там есть, если как добраться до них - не имею представления.
nattali80, 06.12.2014 14:45
Вы говорите, что сейчас второй метод (конфирматорный, через фит модели) является основным?

Может быть, в качестве более понятного объяснения этого подхода, вы могли бы предложить - план (или алгоритм его создания) стат. обработки по этому проекту?
Его описание - в первом сообщении темы
http://molbiol.ru/forums/index.php?showtopic=551790

Мой подход я говорила, и в том посте также:
Исходя из задач, разбить всё на ряд простых вопросов к данным, проводить стат. тесты по этим вопросам, описывать в тексте полученные результаты.
PS2004R, 06.12.2014 14:50
Указания на конкретные пакеты и книги с подходящими способами анализа вы странно интерпретируете как повод к дискуссии, а не руководство к действию...

... а если просто за вас обработать ваши данные этими пакетами и методами, то это было бы "медвежьей услугой" в смысле вашего обучения

(и тем более глупостью было бы "на слабо" обработать ваши данные "на халяву" и выслушать в ответ опять "как всё непонятно и неконкретно").
nattali80, 06.12.2014 18:37
(PS2004R @ 06.12.2014 15:50)
Ссылка на исходное сообщение  Указания на конкретные пакеты и книги с подходящими способами анализа вы странно интерпретируете как повод к дискуссии, а не руководство к действию...

... а если просто за вас обработать ваши данные этими пакетами и методами, то это было бы "медвежьей услугой" в смысле вашего обучения

(и тем более глупостью было бы "на слабо" обработать ваши данные "на халяву" и выслушать в ответ опять "как всё непонятно и неконкретно").



Конечно не обработать. Выше с привела свой алгоритм действий, считая это первым подходом (эксплораторным). Но вы сказали, что так сейчас не делают, а делают по другому подходу - конфирматорному.
Я всего лишь попросила проиллюстрировать немного яснее на примере моего проекта, что это вообще такое.

Ну ладно. Вижу уже, что выше себя сильно не прыгнуть, чтобы задавать вопрос, нужно уже знать большую часть ответа..
потому, буду двигаться так, как я это для себя определила и более-менее понимаю технику.
bubnilkin, 06.12.2014 18:39
>nattali80:

разобраться в P-values для ANOVA, возможно, поможет эта статья:

B.Winter: The F distribution and the basic principle behind ANOVAs:
http://www.bodowinter.com/tutorial/bw_anova_general.pdf


Линейные статистические\математические (как правильно?) модели подразумевают своё применение в случаях, когда удовлетворяются определённые условия.

Короткая и полезная заметка на эту тему:
http://www.theanalysisfactor.com/assumptio...-linear-models/

Более подробно эти самые linear model assumptions разбираются, например, в классическом учебнике по биомедицинской статистике:
R.R.Sokal, F.J.Rohlf. Biometry: The Principles and Practices of Statistics in Biological Research. 1994

Также вы можете просмотреть этот источник:
Chiarotti F. Detecting assumption violations in mixed-model analysis of variance. Ann Ist Super Sanita. 2004;40(2):165-71 http://www.ncbi.nlm.nih.gov/pubmed/15536266
(правда, считаю, что в "the normality of the distribution of the sampled data" в Introduction закралась ошибка; думаю, что "the normality of the distribution of the population the sampled data were obtained from" корректнее).

Также можете посмотреть следующие вопросы и ответы:
http://stats.stackexchange.com/questions/6...ty-of-residuals
http://stats.stackexchange.com/questions/1...ed-but-y-is-not
http://www.researchgate.net/post/Which_nor...10_observations
bubnilkin, 18.12.2014 07:34
(biomol_user @ 04.12.2014 08:29)
Ссылка на исходное сообщение  на сколько я понимаю, то в тестах проверки на нормальность:

если p<0.05, то распределение не нормальное.

Т.е. в тестах проверки на нормальность нулевая гипотеза такова:

H0: Y не принадлежит популяции с нормальным распределением
Поправьте, если что...


H0: Y принадлежит популяции с нормальным распределением
guest: great , 31.10.2018 18:06
This is actually the kind of information I have been trying to find. Thank you for writing this information.
guest: great , 31.10.2018 18:13
This is actually the kind of information I have been trying to find. Thank you for writing this information.
http://www.smartmoneysuccess.com
guest: 123 , 31.05.2022 09:11
SINCE LAUNCHING AMB CASINO HIS INVASION OF UKRAINE, RUSSIA'S FC SLOT PRESIDENT VLADIMIR PUTIN 88KTC HAS FACED AN UNPRECEDENTED 11HILO GLOBAL RESPONSE, FROM CULTURAL BOYCOTTS TO 123GOAL COUNTRIES RADICALLY 123VEGA TRANSFORMING THEIR ALLBET FOREIGN POLICIES. BUT THE สูตรสล็อต LONGER THE CONFLICT CANDY BURST GOES ON, THE MORE SIGNS THERE ปั่นสล็อต ARE OF DIVISIONS.
guest: 123 , 08.06.2022 12:45
South Korea 123VEGA and the US launched WAZDAN eight missiles WM CASINO on Monday, in AFFILIATE response to a ลิงค์รับทรัพย์ volley of ballistic missiles fired by North Korea the 123GOAL previous day. It comes 88KTC as Pyongyang continues FC SLOT to escalate its AMB CASINO missile tests. South 11HILO Korea's president Yoon Suk-yeol.
guest: 123 , 11.06.2022 10:47
Saxon Mullins 123VEGA says she once had PRAGMATIC PLAY romantic dreams of what her 'first time' would ICONIC GAMING be like. In none was หวยปิงปอง she paralysed by fear in a Sydney ปั่นสล็อต alleyway, aged 18, with a 123GOAL man she had met only minutes earlier. Ms 88KTC Mullins has always maintained FC SLOT this incident - in 2013 - was rape. It spurred AMB CASINO her to push for legal 11HILO reform in Australia, after a long court battle ended with a judge finding the man involved did not realise she hadn't consented to sex.
Это — лёгкая версия форума. Чтобы попасть на полную, щелкните здесь.
Invision Power Board © 2001-2024 Invision Power Services, Inc.