Меню
Главная
Авторизация/Регистрация
 
Главная arrow Психология arrow Математические методы в психологии

Статистические гипотезы о коэффициентах корреляции и регрессии

В ряде случаев исследователь, проводя эксперимент, стремится оценить, каким образом вычисленные им коэффициенты корреляции и регрессии соотносятся с некоторыми теоретическими значениями, например с нулевым значением, отражающим отсутствие какой-либо связи между переменными. В таком случае простой оценки коэффициентов корреляции и регрессии оказывается недостаточно. Ведь рассмотренные нами способы вычисления статистической связи представляют лишь варианты оценивания теоретических параметров, скрытых от непосредственного наблюдения. А мы уже хорошо знаем, что статистика и параметр далеко не всегда совпадают.

Поэтому необходимыми становятся выдвижение и проверка статистических гипотез. Такая ситуация предполагает структурную статистическую модель, получившую название фиксированной линейной модели. Рассмотрим эту модель в первую очередь.

Фиксированная линейная модель

Метод простой линейной регрессии так же, как и различные варианты дисперсионного анализа, рассмотренные ранее, относят к общим линейным моделям. Таким образом, структурные предположения регрессионного анализа для одной независимой и одной зависимой переменных близки к тому, что мы уже знаем применительно к однофакторному дисперсионному анализу. Предполагается, что всякое значение критерия, зависимой переменной, может быть выражено как аддитивная сумма трех компонентов:

  • • популяционной константы μ;
  • • эффекта независимой переменной τ;
  • • эффекта экспериментальной ошибки ε.

Формально это может быть выражено следующим соотношением:

Таким образом, первое предположение фиксированной линейной модели заключается в том, что связь между независимой и зависимой переменной носит линейный характер. Отсюда название модели – линейная.

Другое предположение рассматриваемой модели заключается в том, что независимая переменная, предиктор, принимает в эксперименте все возможные значения, а не является случайной выборкой экспериментальных наблюдений из генеральной совокупности. Такие переменные, как мы помним, называются фиксированными. Отсюда второе название модели – фиксированная.

На самом деле в эксперименте это может быть и не так. Однако эти два предположения не создают серьезных проблем для экспериментатора: нелинейную зависимость во множестве случаев оказывается довольно легко преобразовать к линейному виду, а фиксация значений важна лишь для толкования результатов статистического анализа[1]. Гораздо серьезнее третье допущение рассматриваемой структурной модели. Оно предполагает, что эффект экспериментальной ошибки не зависит от эффектов предиктора. Иными словами, предполагается, что дисперсия экспериментальной ошибки является величиной постоянной, а сама экспериментальная ошибка распределена в генеральной совокупности в соответствии с нормальным законом с параметрами 0 и При этом каких-либо предположений о характере распределения каждой в отдельности независимой и зависимой переменных не делается.

Если верны предположения структурной модели регрессионного анализа, в частности последнее, третье предположение, тогда вся дисперсия зависимой переменной (критерия) Y должна описываться двумя аддитивными частями: 1) дисперсия, связанная с воздействием независимой переменной (предиктора) X, и 2) дисперсия, являющаяся результатом экспериментальной ошибки. Поскольку параметр μ оказывается константой, он не вносит вклада в дисперсию зависимой переменной. Формально это утверждение может быть описано следующим соотношением:

(7.12)

Поскольку дисперсия х представляет собой ту часть дисперсии независимой переменной X, которая одновременной является дисперсией Υ, т.е. , а дисперсия экспериментальной ошибки – ту часть дисперсии Υ, которая не зависит от дисперсии X, т.е. , уравнение (7.12) можно переписать следующим образом:

Так как ни одна из частей этого соотношения никогда не известна – ведь речь идет о теоретических параметрах, есть смысл перейти от первоначальных единиц измерения к стандартизированным, осуществив их 2-трансформацию. Таким образом, мы получаем следующее соотношение:

Теперь

Отсюда находим:

Величина 1 – r2 определяет долю остаточной дисперсии. Она показывает, какая часть дисперсии зависимой переменной не связана с действием независимой переменной. Напротив, величина r2 указывает на то, какая часть независимой переменной ассоциирована с зависимой переменной и ее определяет (рис. 7.2). Иными словами, зная величину r2, можно судить о том, насколько надежна связь независимой и зависимой переменной.

Соотношение дисперсий коррелируемых переменных X и Y

Рис. 7.2. Соотношение дисперсий коррелируемых переменных X и Y

Например, если величина коэффициента корреляции между переменными Y и X оказалась равной 0,70, то это значит, что только 49% дисперсии Y связано с дисперсией X и ею определяется, а 51% дисперсии зависимой переменной происходит от других, не исследованных в эксперименте источников – экспериментальной ошибки.

Руководствуясь этими соображениями, можно перейти к исходным единицам измерения:

Последнее соотношение описывает так называемую стандартную ошибку регрессии. Величина называется коэффициентом отчуждения. Она показывает величину стандартного отклонения для зависимой переменной Y, когда та ее часть, которая оказывается общей с X, удаляется. Ее можно обозначить как коэффициент некорреляции, так как сам коэффициент корреляции, очевидно, представляет собой ту часть стандартного отклонения Y, которая оказывается связанной с X.

Оценить стандартную ошибку регрессии по результатам эксперимента можно следующим образом:

Интервальная оценка параметров

Предположим, что мы провели ряд экспериментов, оценивая статистическую связь двух переменных и строя всякий раз для вновь получаемых данных уравнения линейной регрессии. Ясно, что всякий раз мы получали бы несколько разнящиеся коэффициенты корреляции и регрессии.

Известно, однако, что распределение коэффициентов регрессии будет приблизительно описываться нормальным распределением. Стандартная ошибка для среднего значения наклона, коэффициента регрессии В, будет оцениваться следующим образом:

Для константы, коэффициента регрессии А, стандартная ошибка может быть оценена несколько по-другому:

Таким образом, распределение коэффициентов регрессии может быть описано в соответствии с t-распределением с п – 2 степенями свободы для наклона и п – 1 степенями свободы для константы. Поскольку, как мы знаем, распределение Стьюдента оказывается симметричным независимо от числа степеней свободы, границы доверительных интервалов их значений могут быть найдены на основе имеющихся у нас значений коэффициентов регрессии и соответствующих им значений стандартной ошибки – В ± SEB или А ± SEA.

Аналогичным образом можно построить доверительный интервал для предсказанных регрессионной моделью значений . Стандартная ошибка для этих значений определяется следующим образом:

  • [1] В рассмотренном в параграфе 7.2 примере, касающемся предсказания оценок студентов на экзамене по результатам промежуточной контрольной работы, независимая переменная вполне может трактоваться как фиксированная. Ведь она принимает все возможные значения от 2 до 5. Но если бы, например, на контрольной работе не было поставлено ни одной двойки, переменная могла бы рассматриваться как фиксированная в более узком диапазоне. Но в этом случае выводы статистического анализа не могли бы касаться тех, кто в другой раз не сможет сдать контрольную на удовлетворительную оценку.
 
Если Вы заметили ошибку в тексте выделите слово и нажмите Shift + Enter
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 

Популярные страницы