Проверка значимости и интервальная оценка параметров связи

В практических исследованиях о тесноте корреляционной зависимости между рассматриваемыми переменными судят фактически не по величине генерального коэффициента корреляции р (который обычно неизвестен),

а по величине его выборочного аналога г. Так как г вычисляется по значениям переменных, случайно попавшим в выборку из генеральной совокупности, то в отличие от параметра р оценка г — величина случайная.

Пусть вычисленное значение г * 0. Возникает вопрос, объясняется ли это действительно существующей линейной корреляционной связью между переменными X и Y в генеральной совокупности или является следствием случайности отбора переменных в выборку (т.е. при другом отборе возможно, например, г = 0 или изменение знака г ).

Обычно в этих случаях проверяется гипотеза Я0 об отсутствии линейной корреляционной связи между переменными в генеральной совокупности, т.е. Я0: р = 0 против альтернативной гипотезы Яр р * 0. При справедливости этой гипотезы статистика

имеет ^-распределение Стьюдента с k = п - 2 степенями свободы. Поэтому гипотеза Я0 отвергается, т.е. выборочный коэффициент корреляции г значимо (существенно) отличается от нуля, если[1]

где t{_a.k табличное значение ^-критерия Стьюдента, определенное на уровне значимости а при числе степеней свободы k = п - 2.

t> Пример 12.6. Проверить на уровне а = 0,05 значимость коэффициента корреляции между переменными X и Y по данным табл. 12.1.

Решение. В примере 12.3 вычислен г = 0,740. Статистика критерия по формуле (12.43):

Для уровня значимости а = 0,05 и числа степеней свободы k = 50 - 2 = = 48 находим критическое значение статистики ?q,95:48 = 2,01 (см. табл. IV приложений). Поскольку t > ?0,95;48> коэффициент корреляции между суточной выработкой продукции Y и величиной основных производственных фондов X значимо отличается от нуля. ?

Для значимого коэффициента корреляции г целесообразно найти доверительный интервал (интервальную оценку), который с заданной надежностью Y = содержит (точнее, «накрывает») неизвестный генеральный коэффициент корреляции р. Для построения такого интервала необходимо знать выборочное распределение коэффициента корреляции г, которое при р*0 несимметрично и очень медленно (с ростом п) сходится к нормальному распределению. Поэтому прибегают к специально подобранным функциям от г, которые сходятся к хорошо изученным распределениям. Чаще всего для подбора функции применяют z-преобразование Фишера.

Распределение г уже при небольших п является приближенно нормальным с математическим ожиданием

и дисперсией

Поэтому вначале строят доверительный интервал для M(z):

где ?,_а — нормированное отклонение z, определяемое с помощью функции Лапласа:

При определении границ доверительного интервала для р, г.е. для перехода от z к р, существует специальная таблица. При ее отсутствии переход может быть осуществлен но формуле:

где th z — гиперболический тангенс 2.

Если коэффициент корреляции значим, то коэффициенты регрессии Ьух. и Ьху также значимо отличаются от пуля, а интервальные оценки для соответствующих генеральных коэффициентов регрессии Pyv и Ри/ могут быть получены по формулам, основанным на том, что статистики (6 -(3;/l) / sb , (b - Ри.) / sh имеют ^распределение Стыоден га с (п - 2) степенями сво- ооды:

Z-преобразование Фишера может быть применено при проверке различных гипотез относительно коэффициента корреляции.

Например, если поданным выборки объема п вычислен коэффициент корреляции г, то для проверки нулевой гипотезы Я0 о том, что генеральный коэффициент корреляции р равен значению р0, т.е. Я0: р = р0, используется статистика

А для проверки существенности (значимости) различия двух коэффициентов корреляции гх и г2, полученных по выборкам объемов и, и п2, т.е. для проверки гипотезы Я0: р, = р2, применяется статистика

При достаточных объемах выборки (больших 10) можно считать, что при выполнении соответствующих нулевых гипотез статистики (12.52) и (12.52') имеют приближенно нормальный закон распределения. Поэтому (см. параграф 10.6) гипотеза Я0 отвергается на уровне значимости а,

если (при использовании двустороннего критерия) или |f|>?i_2a

при использовании одностороннего критерия).

О Пример 12.7. По данным табл. 12.1 найти с надежностью 0,95 интервальные оценки (доверительные интервалы) параметров связи между суточной выработкой продукции Y и величиной основных производственных фондов X.

Решение. Так как коэффициент корреляции X и Y значим (см. пример 12.5), то построим доверительный интервал для генерального коэффициента корреляции р, применяя 2-преобразование Фишера. По формуле (12.45)

По формуле (12.49) из условия ф(^_а) = 0,95по таблице функции

Лапласа находим ?0,95= 1,96. По формуле (12.48) построим доверительный интервал для M(z):

или 0,6646 < М (2) < 1,2364. Находим границы доверительного интервала для р, используя специальную таблицу или формулу (12.50): th 0,6646 < р < th 1,2364 или 0,581 <р<0,844. В указанных границах на уровне значимости 0,05 (с надежностью 0,95) заключен генеральный коэффициент корреляции р.

Теперь построим доверительные интервалы для генеральных коэффициентов регрессии (3/ух. и (31;/у. Вначале определим средние квадратические отклонения переменных:

Теперь но формуле (12.51):

или 0,4979 < (3/ул. < 0,8545. Аналогично по формуле (12.5Г):

При содержательной интерпретации параметров р, р/уЛ и Рлуу следует считаться в первую очередь с их интервальными (а не только точечными) оценками.

> Пример 12.7а. При исследовании связи между производительностью труда и уровнем механизации работ на предприятиях одной отрасли промышленности, расположенных в двух различных районах страны, вычислены коэффициенты корреляции гх = 0,95 и г2 = 0,88 по выборкам объемов соответственно п{ = 14 и п2 = 20. Выяснить, имеются ли на уровне а = 0,05 существенные различия в тесноте связи между рассматриваемыми переменными на предприятиях отрасли в этих районах.

Решение. Проверяемая гипотеза Я0: pj = р2. В качестве альтернативной возьмем гипотезу Я0: pj ^ р2, т.е. применяем двусторонний критерий. По формуле (12.5Г) с учетом соотношения (12.45) статистика

Так как t < ?0 95 = 1,96, то гипотеза Я0 не отвергается, т.е. нет оснований считать существенным различие показателей связи между рассматриваемыми переменными на предприятиях двух районов страны. ?

  • [1] При использовании одностороннего критерия (в случае альтернативной гипотезыЯ,: р > 0 или Я,: р < 0) г значим, если |f| >t-2a,n-2-
 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >