Этот анализ и график box plot приводила в другой теме:
но там уже много всего, а вопрос сейчас конкретный.
По данным, описанным в теме по ссылке (скрипт в приложении) где, r-vult - среднее число птиц учтенных за 15-мин интервал времени, hours – время, month - месяц ) я сделала анализ ANOVA и TukeyHSD. С целью – выявить различия между месяцами (просто по медиане и разбросу, без учета формы кривых активности)
Однако, потом провела проверку данных (r_vult) на нормальность и тест shapiro показал, что r_vult (по которому делала дисперсионный анализ) имеет ненормальное распределение:
> shapiro.test(r_vult)
Shapiro-Wilk normality test
data: r_vult
W = 0.8018, p-value < 2.2e-16
Shapiro-Wilk normality test
data: r_vult
W = 0.8018, p-value < 2.2e-16
Но при этом другой метод проверки на нормальность:
qqnorm(r_vult)
qqline(r_vult,ltr_vult=2)
Показал такой график (в приложении).
По этому методу, чем ближе все данные к прямой, тем более это распределение можно считать нормальным.
При этом на графике - основная часть данных лежит ровно на прямой. Почему получилась длинная линия с "r_vult=0" не понятно, а отличие от нормальности, как я думаю, - дают выбросы (небольшие в процентном отношении) в конце.
И вот параметры данных:
summary(r_vult)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.000 1.912 3.125 3.661 4.918 28.750
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.000 1.912 3.125 3.661 4.918 28.750
Как я думаю, они тоже говорят о нормальности, поскольку значение Min и Max не выходят за пределы выражения (определенного в книге Crawley,348 как "выброс": "This is useful in the detection of outliers: a good rule of thumb is that an outlier is a value that is more than 1.5 times the interquartile range above the third quartile or below the first quartile"
Значение 1.5*( 3rd Qu.-1st Qu) = 1.5 ( 4.918 - 1.912) = 4.509
1st Qu.- 4.509 намного меньше, чем Min (то есть снизу не имеем выбросов)
3rd Qu+ 4.509 = 33.259 (что больше, чем Max, т.е и сверху не имеем значимых выбросов (хотя и на графике проверки нормальности, и на box plot, построенных по r_vult, он показывает круглыми точками то, что считает, видимо, выбросами. И именно из-за них не дает нормальности в shapiro-test)
Мой вопрос - можно ли в этом случае использовать ANOVA (ведь его можно использовать только для нормально распределенных данных)? Например, просто удалив из данных эти выбросы (ведь тогда распределение окажется нормальным)?
Правильно ли я рассуждаю при проверке на нормальность ?