Полная версия страницы  English  

логистическая регрессия:

elenag1999, 02.08.2015 11:16
Задача - найти бинарную регрессию с максимальной предсказательной способностью для категории Х. Возможных предикторов - около 10 (независимых друг от друга), наблюдений - около 300. Имеет ли смысл выбирать best-fit model с минимальным количеством предикторов, основываясь на AIC или надо выбирать ту, у которой самый высокий процент верной классификации по интересующей категории независимо от количества статистически достоверных предикторов?
При большем количестве предикторов в модели, процент ложноположительных существенно меньше (что логично), но возрастает риск overfitting'a. Как (формально) решить - приемлем ли этот риск?
PS2004R, 02.08.2015 12:04
Или AIC или кроссвалидация как оценка максимума возможности полученной модели в экстраполяции на новые случаи. В любом случае будет получаться некоторый набор "почти оптимальных" моделей, и иногда их объединяют в ансамбль (раз так важно получить практический результат, а не максимально простую модель).

В принципе есть куча методов отбора оптимального состава предикторов в модель и получения оптимального ансамбля таких моделей.
elenag1999, 02.08.2015 14:24
Большое спасибо за ответ (особенно в воскресеньеsmile.gif. Но я, видимо, плохо сформулировала вопрос. Что считать (не КАК проидентифицировать предикторы) оптимальной моделью - ту, что дает максимальный процент идентификации категории Х, или ту, что делает это с минимальным количеством предикторов?
В первом случае, подразумемается, что предикторы не коррелируют между собой, естественно.
Ансамбль нежелателен с практической точки зрения.
Делить данные на test и training тоже нежелательно, их не так много, можно, конечно пробудстраппить, но сначала все-таки хочется определиться с первым вопросом.
PS2004R, 02.08.2015 17:55
(elenag1999 @ 02.08.2015 14:24)
Ссылка на исходное сообщение  Большое спасибо за ответ (особенно в воскресеньеsmile.gif. Но я, видимо, плохо сформулировала вопрос. Что считать (не КАК проидентифицировать предикторы) оптимальной моделью - ту, что дает максимальный процент идентификации категории Х, или ту, что делает это с минимальным количеством предикторов?
В первом случае, подразумемается, что предикторы не коррелируют между собой, естественно.
Ансамбль нежелателен с практической точки зрения.
Делить данные на test и training тоже нежелательно, их не так много, можно, конечно пробудстраппить, но сначала все-таки хочется определиться с первым вопросом.


1) Да пришлось нарушить религиозные нормы не работы по воскресным дням и пойти (5 км лесом) в правление колхоза воспользоваться единственным на всё село ПК подключенным к интернет.

2) Зависит от цели.

С помощью модели выбранной кроссвалидацией будет получена более "трудно объяснимая и нелинейная" модель, по AIC более "объяснимая" модель. В обоих случаях если совсем не повезет с данными (например придется делать прогноз для сочетаний данных которые принципиально не встречались в имеющихся на момент обучения) будет весьма вероятно полный пролет (с AIC и линейной моделью кстати вероятен "менее полный пролет").

Скажем так --- интерполирует (на области которую охватывают имеющиеся данные) лучше модель полученная отбором по ошибке кроссвалидации. Экстраполирует лучше модель полученная по AIC (хотя наверное можно как то исхитриться и кроссвалидацию сделать для "экстремальных вариант имеющейся многомерной выборки" и тогда вполне возможно тоже будет отобрана модель которая приемлемо экстраполирует).

Вообще большую ценность имеет интерпретация модели (ну вот как "ансамбли не нужны"), точный ответ можно у самой природы получить всегда в ходе прямого опыта smile.gif и тогда AIC наш выбор (ну только конечно если там совсем не "в разы" эффективность отличается smile.gif.
Nastja, 03.08.2015 07:22
Если сомневаетесь, делайте рандомизацию и проверяйте. Можно назначить случайным образом категорию Y и построить классификатор тем же методом. Сразу многие сомнения отпадут.
Ну и понятно, что сильно хорошие классификаторы всегда вызывают подозрения в переобучении.
elenag1999, 03.08.2015 11:19
#PS2004R
1) smile.gif
2) а вот тут, если можно, поподробнееsmile.gif Грубенько: какая модель предпочтительнее:
модель 1: Y= x1+x2, AIC=100, correct classification: sensitivity 60%, specificity 80%
модель 2: Y= x1, AIC=100, correct classification: sensitivity 62%, specificity 78%
Y - binary variable
обе - объяснимы, с равной степенью здравого смысла.

#Nastja
Спасибо, я подумаю. Но, по-моему, остается вероятность того, что придется решать ту же проблему (см. выше) с моделями полученными в результате рандомизированных тестов, или я ошибаюсь?
PS2004R, 03.08.2015 15:11
(elenag1999 @ 03.08.2015 11:19)
Ссылка на исходное сообщение  #PS2004R

2) а вот тут, если можно, поподробнееsmile.gif Грубенько: какая модель предпочтительнее:
модель 1: Y= x1+x2, AIC=100, correct classification: sensitivity 60%, specificity 80%
модель 2: Y= x1, AIC=100, correct classification: sensitivity 62%, specificity 78%
Y - binary variable
обе - объяснимы, с равной степенью здравого смысла.



Это реальные данные, или "фигура бокала"? smile.gif

у меня плохие новости frown.gif

CODE

> hist(replicate(100, AIC(lm(runif(100) ~ runif(100)+ runif(100) + runif(100)))))
Было 50 или более предупреждений (введите warnings() чтобы просмотреть первые 50)
> hist(replicate(100, AIC(lm(runif(100) ~ runif(100)+ runif(100)))), add=TRUE, col="red")
Было 50 или более предупреждений (введите warnings() чтобы просмотреть первые 50)
> hist(replicate(100, AIC(lm(runif(100) ~ runif(100)))), add=TRUE, col="green")
Было 50 или более предупреждений (введите warnings() чтобы просмотреть первые 50)


AIC не "реагирует" на выбрасывание только когда модель безнадежно плоха.

Раз хочется свести sensitivity и specificity к одному числу и "взять и сравнить", то считайте AUC (или pAUC если "не для сферического в вакууме" варианта). И естественно доверительный интервал для неё.


Картинки:
картинка: _________________2015_08_03_15_09_24.png
_________________2015_08_03_15_09_24.png — (10.29)   

elenag1999, 03.08.2015 17:41
хмм... это, собственно, даже не фигура бокала, а сам принцип... ну, скажем, что в модели 1 AIC= не 100, а 98.1.
Не одна из этих моделей не "безнадежно плоха", но общий процент классификации 65 и 70% - это разница и, похоже, я склоняюсь к тому, чтобы примириться с наличем х2, невзирая на AIC, BIC, etc. Вот это-то меня и смущает...
Вы даже не представляете себе всю степень моей благодарности за поддержание сией дискуссии... Даже все это проговорить - уже пользаsmile.gif
PS2004R, 03.08.2015 18:21
(elenag1999 @ 03.08.2015 17:41)
Ссылка на исходное сообщение
Не одна из этих моделей не "безнадежно плоха", но общий процент классификации 65 и 70% - это разница и, похоже, я склоняюсь к тому, чтобы примириться с наличем х2, невзирая на AIC, BIC, etc.


Так а AUC какие под ROC получается у обоих моделей?
elenag1999, 03.08.2015 20:18
с перекрывающимися доверительными интервалами...
PS2004R, 03.08.2015 21:47
(elenag1999 @ 03.08.2015 20:18)
Ссылка на исходное сообщение  с перекрывающимися доверительными интервалами...


1) А сколько именно? (если не секрет)

2) А если считать partial AUC в практически значимой области? Может там окажется разница существенной?

3) Еще одна тонкость -- был ли скорректирован выбранный thresholds по Youden’s J statistic с частотами реальных исходов и ценой false negative решений? Возможно что оптимальные точки у моделей другие.

4) Может надо какие то трансформации шкал измерений предикторов совершить для повышения точности модели (иногда в таких простых методах это помогает). Ну или посмотреть насколько лучше при кроссвалидации ведут себя более сложные методы классификации.
elenag1999, 04.08.2015 10:51
1) model 1: AUC=0.93 (CI: 0.84-1.02)
model 2: AUC=0.86 (CI: 0.72-1.01)

2) что считать "практически значимой областью"? И как это формализовать?
3) нет. А в каком случае такая коррекция требуется?
4) сложно, легче обойтись "лишним" предиктором...хотя неспортивно.
elenag1999, 04.08.2015 12:17
опять 3) - поняла, попробую.
PS2004R, 06.08.2015 00:12
(elenag1999 @ 04.08.2015 10:51)
Ссылка на исходное сообщение  1) model 1: AUC=0.93 (CI: 0.84-1.02)
    model 2: AUC=0.86 (CI: 0.72-1.01)

2) что считать "практически значимой областью"? И как это формализовать?



1) Судя по AUC первая модель существенно (решающим образом) лучше. ROC надо сравнить бутстрепом (чтоб 1.02 не получалось smile.gif) на достоверность различий.

2) Надо бы глазами посмотреть на ROC моделей на одном графике и нарисовать диапазоны приемлемой в реальной работе чувствительности и специфичности. Нанести трешоилды для реальных частот диагностируемых исходов в популяции на этот же график.
guest: great , 31.10.2018 17:47
The information you have posted is very useful. The sites you have referred was good. Thanks for sharing.
http://www.travelpaisa.com
guest: 123 , 31.05.2022 09:13
SINCE LAUNCHING AMB CASINO HIS INVASION OF UKRAINE, RUSSIA'S FC SLOT PRESIDENT VLADIMIR PUTIN 88KTC HAS FACED AN UNPRECEDENTED 11HILO GLOBAL RESPONSE, FROM CULTURAL BOYCOTTS TO 123GOAL COUNTRIES RADICALLY 123VEGA TRANSFORMING THEIR ALLBET FOREIGN POLICIES. BUT THE สูตรสล็อต LONGER THE CONFLICT CANDY BURST GOES ON, THE MORE SIGNS THERE ปั่นสล็อต ARE OF DIVISIONS.
Это — лёгкая версия форума. Чтобы попасть на полную, щелкните здесь.
Invision Power Board © 2001-2024 Invision Power Services, Inc.