Полная версия страницы  English  

Представление доверительных интервалов

amaxa, 12.01.2015 15:00
Здравствуйте! Вопрос касается представления доверительных интервалов. При представлении результатов (например, каких-нибудь фармакологических или биологических испытаний) сколько должно быть значащих цифр? Как определить число значащих цифр и правильно представить доверительный интервал для относительных величин (например, для индекса массы тела правильным будет представление 31,6 +/- 0,3 или 31,6 +/- 0,321 или др.)? Как представит доверительный интервал для относительной величины, которая имеет значение 0,00578: 0,00578+/- 0,000321 или 0,00578 +/- 0,0003 или вообще использовать запись вида: число*(10 в степени)? Может, кто ссылки на кикие-нибудь руководства по данному вопросу даст? Заранее благодарен за помощь.
Den-N, 12.01.2015 22:29
http://forum.disser.ru/index.php?showtopic=3075

ДИ для среднего округляются как само среднее. Про степени искать нужно, не попадалось наверное или опускал при прочтении...
Diusha, 26.06.2015 15:42
Самый общий подход относительно числа значащих цифр: последняя цифра должна нести информацию (а не шум) (т.е., не следует писать слишком много) и не стоит терять информацию (писать слишком мало цифр).

Поконкретнее. Например, получили точечную оценку М среднего некоторой величины, посчитали ее среднеквадратическое отклонение СКО(М) (корень из выборочной дисперсии S2). Стандартная запись резултата
М±sqrt(S2) = М±S = М±СКО(М). (1)
При этом выборочная дисперсия S2 (и ее корень – СКО(М)) отражает точность оцененной величины.

Но выборочная дисперсия сама есть случайная величина, т.к. вычисляется как функция от от случайных величин (наблюдений). Поэтому можно говорить и о ее собственной дисперсии (надеюсь, не запутаетесь в переплетении слов: есть выборочная дисперсия, а у нее есть своя дисперсия – дисперсия выборочной дисперсии). Дисперсия выборочной дисперсии D(S2) отражает точность выборочной дисперсии S2. Т.е.,
S2±sqrt(D(S2)) = S2±СКО(S2).
Тогда вместо (1)
М±sqrt(S2±СКО(S2)).

Эта «±СКО(S2)» и отвечает за «дискретность», за «шкалу», в которой мы измеряем М (грубо говоря, мм или см или метры), а следовательно, и число значащих цифр.

В частности, для нормально распределенной величины
M±sqrt(S2±СКО(S2)) =
= M±S*sqrt(1±sqrt(2/n)) ≈
≈ M±S*(1±1/sqrt(2n)) =
= M±[S±S/sqrt(2n)]
(n – количество измерений).

Итого, если (для нормально распределенной величины) получили
123.45±43.21 и

а) S/sqrt(2n)≈0.1
=> 123.5±43.2;

б) S/sqrt(2n)≈1
=> 123±43;

в) S/sqrt(2n)≈10
=> 120±40.

В случае ДИ уровня 1–a для нормально распределенной величины резултат записывается
( M–S*v/sqrt(n–1), M+S*v/sqrt(n–1) ),
v – квантиль распределения Стьюдента с n–1 ст. св. уровня 1–a/2 (напр., для 0.95-ДИ это будет 0.975).
Опять добавка к М имеет такую точность:
[S±S/sqrt(2n)]*v/sqrt(n–1) =
= S*v/sqrt(n–1) ± S/sqrt(2n)*v/sqrt(n–1) ≈
≈ S*v/sqrt(n–1) ± S*v/sqrt(2)/n
Значащие цифры определяются порядком величины S*v/sqrt(2)/n.
PS2004R, 26.06.2015 21:40
Тут вопрос на самом деле состоит из двух:

1) Как принято представлять доверительный интервал в конкретной области науки если вы уже знаете число значащих цифр у измеренных величин (и на него уже привели ссылку)

2) И собственно основной вопрос --- "сколько значащих цифр?". Ответ --- столько, сколько позволила используемая методика. Проверяют практически меряя много раз один и тот же образец. Для каждой лаборатории используемый метод как правило поверен и известно число значащих цифр в его результатах.

Это число значащих цифр проводите через вычисления, где основное правило -- если встречаются два числа с разной точностью, то "побеждает" наиболее неточное. Вот как например у химиков описывается процесс этого действа при расчетах http://chem21.info/info/132792/
Diusha, 28.06.2015 12:18
(PS2004R @ 26.06.2015 21:40)
Ссылка на исходное сообщение  2) И собственно основной вопрос --- "сколько значащих цифр

Я только этого вопроса и касался.

(PS2004R @ 26.06.2015 21:40)
Ссылка на исходное сообщение  Ответ --- столько, сколько позволила используемая методика.

Да! Но, похоже, Вы в эти слова вкладываете неправильный смысл.

(PS2004R @ 26.06.2015 21:40)
Ссылка на исходное сообщение Для каждой лаборатории используемый метод как правило поверен и известно число значащих цифр в его результатах.

«Известно» – откуда?
Ну в каком-то смысле – да, известно. Но опять же, смысл не тот. Ниже поясню.
«Зависимость от лаборатории», естественно заключается не в влиянии ее названия, улицы, где она расположена и т.п.
«Лаборатория влияет» посредством новизны/допотопности приборов, криворукости работников, наличии грязи в помещении и др. Все это в конечном итоге приводит к определенному разбросу измеренных данных. А дальше из этих данных нам нужно что-то выудить. И тут в игру вступает математика, которой в равной степени по барабану как название лаборатории, так и криворукость работников. Она работает с голыми цифирями. А вот как из этих цифирь (с имеющимся разбросом) выудить точность, я написал выше (не уверен, что понятным языком; если что, постараюсь улучшить).
И вот это самое «для_лаборатории_известно» известно может быть из накопленного опыта предыдущих сходных исследований, но в каждом из них (из предыдущих) – не иначе как описанным выше путем.
Другое дело, что, видимо, почти никто с этим вопросом не парится и пишут от балды ивестное smile.gif число цифр.
Короче, методика влияет, но на фактическое число значащих цифр, но не на то, как это число узнать.
Diusha, 28.06.2015 12:23
В приведенной Вами ссылке написано, как работать с числами, точность которых уже звестна, а не как эту точность узнать.
PS2004R, 28.06.2015 13:00
(Diusha @ 28.06.2015 12:23)
Ссылка на исходное сообщение  В приведенной Вами ссылке написано, как работать с числами, точность которых уже звестна, а не как эту точность узнать.


Эту "точность" можно узнать для каждого конкретного метода измерения одним способом --- проведя поверку прибора. И этой "точности" несколько разновидностей.
Diusha, 28.06.2015 13:24
(PS2004R @ 28.06.2015 13:00)
Ссылка на исходное сообщение  Эту "точность" можно узнать для каждого конкретного метода измерения одним способом --- проведя поверку прибора. И этой "точности" несколько разновидностей.

Это от лукавого. Если бы так, то статистика вообще была бы не нужна. Ну даст поверенный (видимо, господом богом wink.gif) прибор известную точность того, что в него засунули. Но то, что в него засунули, прошло через пипетку в чьих-то руках, через организм крысы, … Вы можете провести поверку крысы? smile.gif
amaxa, 28.06.2015 21:08
Спасибо за Вашу помощь. В аналитической химии, вроде как, правило такое: последняя значащая цифра в результате должна быть того же порядка, что и погрешность. Все промежуточные результаты расчетов должны содержать на одну значащую цифру больше, чем это оправдано погрешностью конечного результата измерения. Погрешность рекомендуется записывать с одной значащей цифрой, редко с двумя (две цифры рекомендуется записывать, если первая из них 1 или 2). А вот как с биологическими данными быть (например, как EC50 представить)... Указаний в литературе не видел как-то.
PS2004R, 28.06.2015 21:51
(Diusha @ 28.06.2015 13:24)
Ссылка на исходное сообщение  Это от лукавого. Если бы так, то статистика вообще была бы не нужна. Ну даст поверенный (видимо, господом богом wink.gif) прибор известную точность того, что в него засунули. Но то, что в него засунули, прошло через пипетку в чьих-то руках, через организм крысы, … Вы можете провести поверку крысы? smile.gif


Этак всю метрологию отменить удастся. Только это вряд ли, не надо придумывать понятий там где они уже есть и ставить телегу впереди лошади. Сначала идет точность метода, все остальное потом.

И в том числе чем лучше известна точность метода тем более можно оценить "точность крыс". Обычная микседэффект модель получается, какая с ней может быть проблема (кроме уменьшения числа "открытий") я не могу даже представить.
PS2004R, 28.06.2015 22:01
(amaxa @ 28.06.2015 21:08)
Ссылка на исходное сообщение  А вот как с биологическими данными быть (например, как EC50 представить)... Указаний в литературе не видел как-то.


1)
Данные собственные. Берем и добавляем случайную "незначащую часть" всем исходным данным (2.55(сюда случайное число)), вычисляем EC50, повторяем 1000 раз. Получив 1000 вариантов EC50 оставляем те числа которые совпали во всех 1000 вариантах.

2)

Берем какую нибудь maxima или Математика и загрузив библиотеку интервальной арифметики задаем все свои результаты как интервалы и считаем EC50. Результат тоже интервал по которому сразу видно что надо оставить.
Diusha, 29.06.2015 15:35
(amaxa @ 28.06.2015 21:08)
Ссылка на исходное сообщение  В аналитической химии, вроде как, правило такое: последняя значащая цифра в результате должна быть того же порядка, что и погрешность.

Именно это я и написал, только для чуть более сложного (и при этом более частого) случая. Сам сейчас вижу, что не очень удачно там сформулировал; поясню еще раз.

(Только «того же порядка, что и погрешность» – имеется в виду «последняя значащая цифра в результате должна быть в том же разряде, каков порядок погрешности». Неудчное использование слова «порядок», которое и без того в обиходной речи используется слишком вольно относительно строгого определения в математике).

То, что Вы привели, подразумевает запись измеренной величины в виде одного числа «А» (напимер, 2.832). Это число имеет погрешность (дисперсию) В (А±В), которую в данном случае мы не пишем. Если, например, В=0.091≈0.1, то величину А следует записать как 2.8, а последние «32» учитывать бессмысленно (последняя значащая цифра в «2.8» в том же разряде, что и 0.1). Последние «32» уже информации не несут, т.к. по порядку меньше погрешности. Если 2.832 округлим до 3, то это будет слишком грубо – потеря информации в десятых.

Но обычно в статьях принято писать величину плюс/минус погрешность: «А±В» (пишем два числа – тот случай, который я и описывал). Величина В сама имеет погрешность (В±С). Тогда роль для количества знаков играет С. Если С≈0.01, то В должно записываться 0.09 (последняя значащая цифра в «0.09» в том же разряде, что и 0.01). Величина А должна округляться до той же точности, что и В.
А±В записываем
2.83±0.09.

(amaxa @ 28.06.2015 21:08)
Ссылка на исходное сообщениеА вот как с биологическими данными быть (например, как EC50 представить)

Биологические данные ничем не отличаются, от химических, физических, социологических… А статистика – она одна. Могут быть только некоторые принятые нормы по мелочам в журналах: где-то потребуют, чтобы 2.83±0.09 непременно было в скобочках, где-то – чтобы скобочки непременно были квадратными.

Вышеописанный рецепт – это не приказ, не постановление правительства, не требование редакции журнала; он просто позволяет записать результат так, чтобы все выписанные цифры и только они были информативны.
Каждый волен записать так, как ему заблагорассудится.

(amaxa @ 28.06.2015 21:08)
Ссылка на исходное сообщение  Погрешность рекомендуется записывать с одной значащей цифрой, редко с двумя (две цифры рекомендуется записывать, если первая из них 1 или 2).

Такая рекомендация представляется высосанной из пальца (больше похоже на «постановление правительства»).
Diusha, 29.06.2015 15:43
(PS2004R @ 28.06.2015 21:51)
Ссылка на исходное сообщение  Этак всю метрологию отменить удастся.

Ни в коем случае!

(PS2004R @ 28.06.2015 21:51)
Ссылка на исходное сообщение не надо придумывать понятий там где они уже есть

Я ни каких понятий не придумывал, тем более там, где они есть.

(PS2004R @ 28.06.2015 21:51)
Ссылка на исходное сообщение  и ставить телегу впереди лошади.
Сначала идет точность метода, все остальное потом.
И в том числе чем лучше известна точность метода тем более можно оценить "точность крыс".

Объясните, пожалуйста, откуда изначально может быть известна точность метода, кроме описанного мной пути.

Вижу, что про «точность крыс» нужно расписать поподробнее.
Вот есть у нас крысы и есть приборы. И те и другие вносят лепту в разброс. Вы верно заметили, что
(PS2004R @ 26.06.2015 21:40)
Ссылка на исходное сообщение  если встречаются два числа с разной точностью, то "побеждает" наиболее неточное.

Предположим, наиболее (и намного) неточный у нас – прибор, а крысы – «инкубаторские-преинкубаторские». Чтобы не быть голословным, пусть мы хотим проверить, как влияет некоторое в-во на массу крысы к определенному возрасту (с детства крысу кормим им и в опр. возрасте взвешиваем). Это означает, что все 10 крыс контроля имеют строго одну и ту же массу (у нас же весы менее точные, чем крысы), и 10 опытных крыс имеют строго одну и ту же массу (уже другую). Так зачем тогда статистика, зачем столько крыс? 1 – опыт, 1 – контроль, и пишем погрешность из паспорта весов.
По-моему, ситуация, мягко говоря, экзотическая для биологии.

Пусть теперь ситуация такая, которая обычно и имеет место: весы точные, крысы «не точные». Навзвешивали (пусть весы дают такую точность):
110.6732, 108.0334, 94.6231, 126.8532, 105.7432
Вы предлагаете усреднить и написать 4 цифры после запятой? Никто не запрещает, но при этом последние 5 цифр представляют собой мусор (шум). А если измерений не 5, а 500, столько же цифр писать?

(PS2004R @ 28.06.2015 21:51)
Ссылка на исходное сообщение  чем лучше известна точность метода тем более можно оценить "точность крыс".

Конечно, неточный метод (в котором используется стеклянная пипетка, в которую засасывают ртом) по сравнению с точным методом (в котором используется фирменный автоматический дозатор) приведет к бóльшему разбросу. Конечно, с фирменнм дозатором можно будет больше знаков написать. Так вот сколько конкретно в том и другом случае? Достаточная для этого информация есть в выборке.
Насколько точно можно оценить величину при данном количестве измерений (предел точности), определяется законом распределения этой величины (погуглите про информацию Фишера).

(PS2004R @ 28.06.2015 21:51)
Ссылка на исходное сообщение  (кроме уменьшения числа "открытий")

Вы описанное мной приписываете мне? Вы мне льстите smile.gif
Возможно, это Вас успокоит. Хотя критерием правильности чего бы то ни было, имхо, должно быть не имя, а содержание.
Diusha, 29.06.2015 16:00
(PS2004R @ 28.06.2015 22:01)
Ссылка на исходное сообщение  1)
Данные собственные. Берем и добавляем случайную "незначащую часть" всем исходным данным (2.55(сюда случайное число)), вычисляем EC50, повторяем 1000 раз. Получив 1000 вариантов EC50 оставляем те числа которые совпали во всех 1000 вариантах.

Можно поподробнее, как Вы это делаете?
Т.е., берете случайное число (как оно респределено?) и прибавляете его – одно и то же – ко всем наблюдениям?
Или к каждому наблюдению свое случайное число?
Есть похожий (на первый взгляд) метод повышения точности измерений (когда крысы «точные», а прибор – нет), но здесь явно что-то другое.
Diusha, 29.06.2015 16:20
(amaxa @ 28.06.2015 21:08)
Ссылка на исходное сообщение  например, как EC50 представить...

Общий принцип – вычислить дисперсию конечной величины (ЕС50) через дисперсию наблюдений.
Напишите подробнее, как ищете ЕС50 (функция Хилла или как-то еще?)
PS2004R, 29.06.2015 17:19
(Diusha @ 29.06.2015 16:00)
Ссылка на исходное сообщение  Можно поподробнее, как Вы это делаете?
Т.е., берете случайное число (как оно респределено?) и прибавляете его – одно и то же – ко всем наблюдениям?
Или к каждому наблюдению свое случайное число?
Есть похожий (на первый взгляд) метод повышения точности измерений (когда крысы «точные», а прибор – нет), но здесь явно что-то другое.


Берете ГСЧ
CODE

runif(y)/(10*n)

где n число знаков значащих после запятой у результатов измерений, y сколько надо сгенерировать данных.

Этот вектор плюсуете к данным ограниченной точности (обрезанных по n) и считаете процедуру вычисления нужного Вам параметра. Повторив несколько тысяч раз получаете его "неизменяемую часть", в которой цифры-разряды не меняются. (причем можно считать и любые производные от показателя статистики)

Это просто замена интервальной арифметики оценки интервалов их МонтеКарло оценкой.
amaxa, 30.06.2015 21:20
(Diusha @ 29.06.2015 16:20)
Ссылка на исходное сообщение Напишите подробнее, как ищете ЕС50 (функция Хилла или как-то еще?)

Например, http://www.sciencegateway.org/protocols/ce...drug/hcic50.htm
Diusha, 13.07.2015 15:30
(PS2004R @ 29.06.2015 17:19)
Ссылка на исходное сообщение 
runif(y)/(10*n)

Ну здесь, конечно, очепятка: подразумевалось 10 в степени n.

(PS2004R @ 29.06.2015 17:19)
Ссылка на исходное сообщение 
Повторив несколько тысяч раз получаете его "неизменяемую часть", в которой цифры-разряды не меняются. (причем можно считать и любые производные от  показателя статистики)

Есть разумное зерно, но есть и скользкие места.
n надо еще как-то выбрать (впрочем, вся ветка об этом).

Главное вот что. Допустим, получили диапазон 12.00016 … 12.00234. «Неизменяемая часть» = 12.00 .
А теперь представим, что результат не такой, а меньше на мизерную величину 0.0002:
11.99996 … 12.00214. «Неизменяемая часть» = 10.
С точки зрения точности ничего не поменялось, а различие – 3 разряда.
Поэтому отталкиваться надо не от «неизменяемой части», а от того, насколько сильно меняется. Ниже напишу подробнее.

(amaxa @ 30.06.2015 21:20)

Оценка по первой формуле (Linear Regression) вообще несостоятельна в данном случае.
Если пользуетесь второй формулой (Four-Parameter Logistic Function), то для определения числа знаков надо:

1. Оценить дисперсию наблюдений:


Картинки:
картинка: 1.png
1.png — (1.18)   

Diusha, 13.07.2015 15:35
где
n – число наблюдений;
m – число оцененных параметров; в нашем случае m=4;
Yi – наблюдаемые величины (отклики);
Xi – значения фактора (концентрация);
y(Xi) – вычислено подстановкой в формулу по Вашей ссылке.

Замечание по поводу m. В случае линейной регессии было бы точно так, как написал выше. Но для нелинейной (как здесь) сейчас, к сожалению, не могу гарантировать, что будет так же.
Но это не так страшно, т.к. n>>m (ведь так?) и нас интересует только порядок величины дисперсии, а не сама.

2. Оценить дисперсию искомой величины (ЕС50). Здесь, наверно, лучше всего пойти примерно путем, намеченным PS2004R:
а) сгенерировать n нормально распределенных случайных величин со средним 0 и дисперсией S2 (полученной в п.1);
б) прибавить их к Y-ам;
в) получить новое значение Cj (по Вашей ссылке);
г) произвести пп. а–в N раз; в результате имеем N штук Cj;
д) собственно дисперсию ЕС50:


Картинки:
картинка: 2.png
2.png — (1.2)   

Diusha, 13.07.2015 15:36
где C – ЕС50, полученная без случайных величин.

3. Последний значащий разряд определить порядком величины S1 (без квадрата).

Все это – для случая, если Вам надо записать точечную оценку ЕС50 без +-. Если надо +- или ДИ, это еще добавит «этаж». Если это действительно надо, можно покумекать.
duongthanhtu, 15.09.2015 16:17
Ну и нагородили smile.gif
Помнится. один наш прекрасный препод по математике много раз подчеркивал, что статистика дает ОЦЕНОЧНЫЕ значения.
Следовательно, в вашем случае доверительный интервал не может иметь более 2-х значимых цифр (а часто только одну). От этого и пляшите. Как выбрать 1 или 2? По большому счету берите 1 и спите спокойно smile.gif Количество циферок в статье НЕ ИЗМЕНЯЕТ действительную правильность ваших результатов.


То есть
2,33 +- 0,55 или лучше
2,3+-0,6
0,00057 +-0,00009 или
5,7+-0,9 *10Е-4

или 2,333+- 0,055 тогда лучше
2,33+-0,06
guest: great , 31.10.2018 17:47
The information you have posted is very useful. The sites you have referred was good. Thanks for sharing.
http://www.dressesgreat.com
guest: 123 , 31.05.2022 09:13
SINCE LAUNCHING AMB CASINO HIS INVASION OF UKRAINE, RUSSIA'S FC SLOT PRESIDENT VLADIMIR PUTIN 88KTC HAS FACED AN UNPRECEDENTED 11HILO GLOBAL RESPONSE, FROM CULTURAL BOYCOTTS TO 123GOAL COUNTRIES RADICALLY 123VEGA TRANSFORMING THEIR ALLBET FOREIGN POLICIES. BUT THE สูตรสล็อต LONGER THE CONFLICT CANDY BURST GOES ON, THE MORE SIGNS THERE ปั่นสล็อต ARE OF DIVISIONS.
guest: 123 , 06.06.2022 12:50
South Korea 123VEGA and the US launched WAZDAN eight missiles WM CASINO on Monday, in AFFILIATE response to a ลิงค์รับทรัพย์ volley of ballistic missiles fired by North Korea the 123GOAL previous day. It comes 88KTC as Pyongyang continues FC SLOT to escalate its AMB CASINO missile tests. South 11HILO Korea's president Yoon Suk-yeol.
guest: 123 , 08.06.2022 11:42
South Korea 123VEGA and the US launched WAZDAN eight missiles WM CASINO on Monday, in AFFILIATE response to a ลิงค์รับทรัพย์ volley of ballistic missiles fired by North Korea the 123GOAL previous day. It comes 88KTC as Pyongyang continues FC SLOT to escalate its AMB CASINO missile tests. South 11HILO Korea's president Yoon Suk-yeol.
guest: 123 , 11.06.2022 10:49
Saxon Mullins 123VEGA says she once had PRAGMATIC PLAY romantic dreams of what her 'first time' would ICONIC GAMING be like. In none was หวยปิงปอง she paralysed by fear in a Sydney ปั่นสล็อต alleyway, aged 18, with a 123GOAL man she had met only minutes earlier. Ms 88KTC Mullins has always maintained FC SLOT this incident - in 2013 - was rape. It spurred AMB CASINO her to push for legal 11HILO reform in Australia, after a long court battle ended with a judge finding the man involved did not realise she hadn't consented to sex.
Это — лёгкая версия форума. Чтобы попасть на полную, щелкните здесь.
Invision Power Board © 2001-2024 Invision Power Services, Inc.