Полная версия страницы  English  

Веса во взвешенной корелляции

a-marko, 01.02.2015 14:49
Мне нужно рассчитать корреляцию между двумя рядами данных с учетом надежности отдельных значений. Каждое значение имеет свою стандартную ошибку. Вопрос: как рассчитать суммарный вес каждой пары для использования в формуле взвешенной корреляции -

1. Как величину, обратную ошибке их суммы? confused.gif
2. Как-то иначе? smile.gif

Буду крайне признателен за совет.
a-marko, 03.02.2015 08:27
(PS2004R @ 03.02.2015 02:43)


Проблема в том, что эта и подобные функции предполагают, что вектор весов равен по длине векторам, между которыми считается корреляция. Вопрос в том, как суммировать веса для данных, если каждый из показателей, между которыми нужно найти корреляцию, имеет свою стандартную ошибку.
PS2004R, 03.02.2015 10:03
(a-marko @ 03.02.2015 08:27)
Ссылка на исходное сообщение  Проблема в том, что эта и подобные функции предполагают, что вектор весов равен по длине векторам, между которыми считается корреляция. Вопрос в том, как суммировать веса для данных, если каждый из показателей, между которыми нужно найти корреляцию, имеет свою стандартную ошибку.


если дизайн данных таков, что в нём принципиально не было ни одного парного измерения, то о какой корреляции Вы спрашиваете?

даже если построить семплер таких переменных с указанными матожиданиями и стандартными ошибками, то никакой дополнительной информации извлечь не удастся.
Den-N, 03.02.2015 11:13
(PS2004R @ 03.02.2015 13:03)
Ссылка на исходное сообщение  если дизайн данных таков, что в нём принципиально не было ни одного парного измерения, то о какой корреляции Вы спрашиваете?

Не сталкивался на практике, но такая ситуация возможна. Например, нужно определить корреляцию двух показателей в 15 образцах почвы. Первый показатель определяется по одной методике и трижды с выводом среднего, а второй - трижды по другой с выводом своего среднего. Получается пара из 2-х значений, каждое из которых измерено со своей точностью. В другой паре -они будут своими. И таких пар 15, причём хочется чтобы неточные измерения меньше влияли на итоговую корреляцию.

>a-marko
Не попадалось нигде про такое, и вообще со взвешиванием не работаю. Но уж если взвешивать, то логичнее брать в знаменатель веса не сумму, а произведение ошибок, т.к. в основе корреляции - именно произведение стандартизованных значений х и у. А вот что взять в качестве ошибки - стандартное отклонение или стандартную ошибку - сомневаюсь. Если в каждой паре значения получались на основании одного числа определений среднего, то это - не принципиально.
PS2004R, 03.02.2015 20:01
(Den-N @ 03.02.2015 11:13)
Ссылка на исходное сообщение  Не сталкивался на практике, но такая ситуация возможна. Например, нужно определить корреляцию двух показателей в 15 образцах почвы. Первый показатель определяется по одной методике и трижды с выводом среднего, а второй  - трижды по другой с выводом своего среднего. Получается пара из 2-х значений, каждое из которых измерено со своей точностью. В другой паре -они будут своими. И таких пар 15, причём хочется чтобы неточные измерения меньше влияли на итоговую корреляцию.



Тогда, раз есть парные измерения (раз есть образцы обработанные разными методами, а то исходно очень непонятно сформулировано), то строить семплер. Каждый раз извлекать одно значение для каждой пробы почвы и считать интересующую статистику.
a-marko, 03.02.2015 20:35
(Den-N @ 03.02.2015 11:13)
Ссылка на исходное сообщение  Первый показатель определяется по одной методике и трижды с выводом среднего, а второй  - трижды по другой с выводом своего среднего. Получается пара из 2-х значений, каждое из которых измерено со своей точностью. В другой паре -они будут своими. И таких пар 15, причём хочется чтобы неточные измерения меньше влияли на итоговую корреляцию.


Да, смысл именно такой! В моем случае у меня есть значения обилия нескольких видов за два сезона, каждое со своей ошибкой. Меня интересует корреляция между обилием в первый и второй сезон для всей группы видов в целом - при этом я хочу, чтобы виды, у которых обилие определено точнее, давали больший вклад в корреляцию.

(Den-N @ 03.02.2015 11:13)
Ссылка на исходное сообщение  Но уж если взвешивать, то логичнее брать в знаменатель веса не сумму, а произведение ошибок, т.к. в основе корреляции - именно произведение стандартизованных значений х и у. А вот что взять в качестве ошибки - стандартное отклонение или стандартную ошибку - сомневаюсь. Если в каждой паре значения получались на основании одного числа определений среднего, то это - не принципиально.


Большое спасибо за совет!
a-marko, 03.02.2015 20:40
(PS2004R @ 03.02.2015 20:01)
Ссылка на исходное сообщение  Тогда, раз есть парные измерения (раз есть образцы обработанные разными методами, а то исходно очень непонятно сформулировано), то строить семплер. Каждый раз извлекать одно значение для каждой пробы почвы и считать интересующую статистику.


Спасибо, никогда не пользовался такой техникой. А нет ли у Вас каких нибудь ссылок, где о ней можно узнать подробнее?

Правда, в моем случае воспользоваться ей вряд ли удастся, поскольку расчет обилия видов я веду по стандартным упрощенным формулам, которые дают готовые значения со стандартными ошибками. "Разложить" исходные данные на отдельные пробы при этом нельзя.
PS2004R, 04.02.2015 22:46
(a-marko @ 03.02.2015 20:40)
Ссылка на исходное сообщение  Спасибо, никогда не пользовался такой техникой. А нет ли у Вас каких нибудь ссылок, где о ней можно узнать подробнее?

Правда, в моем случае воспользоваться ей вряд ли удастся, поскольку расчет обилия видов я веду по стандартным упрощенным формулам, которые дают готовые значения со стандартными ошибками. "Разложить" исходные данные на отдельные пробы при этом нельзя.


Вместо аналитического вывода делается прямой счет с помощью монте-карло. Основание как у бутстрепа и рандомизации, например можно на Эфрона сослаться.

Я все равно плохо представляю что за данные. Ну не "пробы" а "виды"? Есть набор "чего то" у каждого "чего то" есть матожидание и среднеквадратичное для каждого "показателя" который характеризует каждую из проб. Выборка для этой ситуации это для каждого "чего то" извлечь по значению для каждого из "показателей". Ну и по набору данных посчитать например коэффициент корреляции. Естественно надо повторить этот расчет 10000 раз (а лучше смотреть как этот процесс "сходится") и построить распределение для этих 10000 значений коэффициента корреляции. Если нужны доверительные интервалы и матожидание, то сразу их и получаем в результате.
a-marko, 05.02.2015 10:28
(PS2004R @ 04.02.2015 22:46)
Ссылка на исходное сообщение  Вместо аналитического вывода делается прямой счет с помощью монте-карло. Основание как у бутстрепа и рандомизации, например можно на Эфрона сослаться.


Понял, спасибо.

Я использую методику расчета обилия птиц Равкина-Челинцева. Исходной единицей выборки служит индивидуальная дальность обнаружения особи. Из них рассчитывается среднее гармоническое, которое служит коэффициентом пересчета из числа встреченных птиц в плотность населения. Сложным образом высчитывается и станд. ошибка ее оценки, но на практике используется упрощенная формула 1.2/sqrt(K), где K - число встреч.
PS2004R, 05.02.2015 14:13
(a-marko @ 05.02.2015 10:28)
Ссылка на исходное сообщение  Понял, спасибо.

Я использую методику расчета обилия птиц Равкина-Челинцева. Исходной единицей выборки служит индивидуальная дальность обнаружения особи. Из них рассчитывается среднее гармоническое, которое служит коэффициентом пересчета из числа встреченных птиц в плотность населения. Сложным образом высчитывается и станд. ошибка ее оценки, но на практике используется упрощенная формула 1.2/sqrt(K), где K - число встреч.


Скорее всего птицы "одного вида" и объединены в "один случай"? Или "особь птицы" как то индивидуально идентифицируется? То что является "точкой" на коррелограмме (scatter plot) и надо извлекать из независимых семплеров для её "x" и "y". За "один цикл" семплинга надо получить по одной реализации для всех "точек". Это будет симулированная выборка, если таких выборок накопить достаточно много, то можно рассчитать по каждой из них нужную статистику и по сумме всех расчетов распределение этой "нужной статистики. Такой подход максимально учтет всю имеющуюся информацию.

Сложность расчета показателей не представляет никакой помехи для применения к этим показателям ресемплинга и прямого монте-карло расчета распределения этих показателей по исходным распределениям (или параметрам распределений как в этом случае).
a-marko, 05.02.2015 14:45
(PS2004R @ 05.02.2015 14:13)
Ссылка на исходное сообщение  То что является "точкой" на коррелограмме (scatter plot) и надо извлекать из независимых семплеров для её "x" и "y".


Проблема в том, что каждый "случай", т.е. значение обилия конкретного вида за конкретный сезон - это НЕ среднее арифметическое из отдельных независимых проб. Оно рассчитывается как N/(B*L), где N - число встреченных птиц, B - среднее гармоническое дальностей их обнаружения, L - длина маршрута.

Если бы я рассчитал обилие по данным отдельных "проб", т.е. на основе дальностей обнаружения каждой конкретной встречи, и потом усреднил эти показатели, результат будет совсем другой.

Т.е., как мне кажется, независимых семплеров тут просто нет. Значение обилия и их ошибка получаются только на основе всей совокупности регистраций, в рамках принятой математической модели, на которой основан метод.
PS2004R, 05.02.2015 23:47
(a-marko @ 05.02.2015 14:45)
Ссылка на исходное сообщение  Проблема в том, что каждый "случай", т.е. значение обилия конкретного вида за конкретный сезон - это НЕ среднее арифметическое из отдельных независимых проб. Оно рассчитывается как N/(B*L), где N - число встреченных птиц, B - среднее гармоническое дальностей их обнаружения, L - длина маршрута.

Если бы я рассчитал обилие по данным отдельных "проб", т.е. на основе дальностей обнаружения каждой конкретной встречи, и потом усреднил эти показатели, результат будет совсем другой.

Т.е., как мне кажется, независимых семплеров тут просто нет. Значение обилия и их ошибка получаются только на основе всей совокупности регистраций, в рамках принятой математической модели, на которой основан метод.


Это значит что всё еще проще, пишете функцию которая для данной формулы N/(B*L) считает значение по имеющейся выборке. потом перевыбираете эту выборку "с возвращением" достаточное число раз (ну 10000 например) и для каждой выборки получаете значение этой статистики-формулы. Используете полученное распределение (или перцентили нужные, или параметры распределения, или напрямую из неё извлекаете случайные значения для семплеров более высокого порядка).
a-marko, 06.02.2015 11:10
(PS2004R @ 05.02.2015 23:47)
Ссылка на исходное сообщение  Это значит что всё еще проще, пишете функцию которая для данной формулы N/(B*L) считает значение по имеющейся выборке. потом перевыбираете эту выборку "с возвращением" достаточное число раз (ну 10000 например) и для каждой выборки получаете значение этой статистики-формулы. Используете полученное распределение (или перцентили нужные, или параметры распределения, или напрямую из неё извлекаете случайные значения для семплеров более высокого порядка).


Идея понятна, спасибо!
guest: great , 31.10.2018 18:13
This is actually the kind of information I have been trying to find. Thank you for writing this information.
http://www.south-craft.com
guest: 123 , 31.05.2022 09:12
SINCE LAUNCHING AMB CASINO HIS INVASION OF UKRAINE, RUSSIA'S FC SLOT PRESIDENT VLADIMIR PUTIN 88KTC HAS FACED AN UNPRECEDENTED 11HILO GLOBAL RESPONSE, FROM CULTURAL BOYCOTTS TO 123GOAL COUNTRIES RADICALLY 123VEGA TRANSFORMING THEIR ALLBET FOREIGN POLICIES. BUT THE สูตรสล็อต LONGER THE CONFLICT CANDY BURST GOES ON, THE MORE SIGNS THERE ปั่นสล็อต ARE OF DIVISIONS.
guest: 123 , 08.06.2022 12:45
South Korea 123VEGA and the US launched WAZDAN eight missiles WM CASINO on Monday, in AFFILIATE response to a ลิงค์รับทรัพย์ volley of ballistic missiles fired by North Korea the 123GOAL previous day. It comes 88KTC as Pyongyang continues FC SLOT to escalate its AMB CASINO missile tests. South 11HILO Korea's president Yoon Suk-yeol.
guest: 123 , 11.06.2022 10:47
Saxon Mullins 123VEGA says she once had PRAGMATIC PLAY romantic dreams of what her 'first time' would ICONIC GAMING be like. In none was หวยปิงปอง she paralysed by fear in a Sydney ปั่นสล็อต alleyway, aged 18, with a 123GOAL man she had met only minutes earlier. Ms 88KTC Mullins has always maintained FC SLOT this incident - in 2013 - was rape. It spurred AMB CASINO her to push for legal 11HILO reform in Australia, after a long court battle ended with a judge finding the man involved did not realise she hadn't consented to sex.
Это — лёгкая версия форума. Чтобы попасть на полную, щелкните здесь.
Invision Power Board © 2001-2024 Invision Power Services, Inc.