Статистическая гипотеза и общая схема ее проверки

С теорией статистического оценивания параметров тесно связана проверка статистических гипотез. Она используется всякий раз, когда необходим обоснованный вывод о преимуществах того или иного способа инвестиций, измерений, стрельбы, технологического процесса, об эффективности нового метода обучения, управления, о пользе вносимого удобрения, лекарства, об уровне доходности ценных бумаг, о значимости математической модели и т.д.

Определение. Статистической гипотезой называется

любое предположение о виде или параметрах неизвестного закона распределения.

Различают простую и сложную статистические гипотезы. Простая гипотеза, в отличие от сложной, полностью определяет теоретическую функцию распределения случайной величины. Например, гипотезы «вероятность появления события в схеме Бернулли равна 1/2», «закон распределения случайной величины нормальный с параметрами а = 0, а2 = 1» являются простыми, а гипотезы «вероятность появления события в схеме Бернулли заключена между 0,3 и 0,6», «закон распределения не является нормальным» — сложными.

Если простая гипотеза однозначно характеризует значение параметра распределения, то сложная гипотеза указывает область возможных значений параметров.

Проверяемую гипотезу обычно называют пулевой (или основной) и обозначают Н0. Наряду с нулевой гипотезой #0 рассматривают альтернативную, или конкурирующую, гипотезу Нх> являющуюся логическим отрицанием Н0. Нулевая и альтернативная гипотезы представляют собой две возможности выбора, осуществляемого в задачах проверки статистических гипотез.

Суть проверки статистической гипотезы заключается в том, что используется специально составленная выборочная характеристика {статистика) Qn[xx,..., хп), полученная по выборке Хх, ..., Хп, точное или приближенное распределение которой известно. Затем по этому выборочному распределению определяется критическое значение 0кр — такое, что если гипотеза Н0 верна, то вероятность Р(0/? > 0кр) = а мала; так что в соответствии с принципом практической уверенности в условиях данного исследования событие 0„ > 0кр можно (с некоторым риском) считать практически невозможным. Поэтому если в данном конкретном случае обнаруживается значение статистики 0„ > 0кр, то гипотеза Я0 отвергается, в то время как появление значения 0/? < 0кр считается совместимым с гипотезой Я0, которая тогда принимается (точнее, не отвергается). Правило, по которому гипотеза Я0 отвергается или принимается, называется статистическим критерием или статистическим тестом.

Таким образом, множество возможных значений статистики критерия (критической статистики) 0„ разбивается на два непересекающихся подмножества: критическую область (область отклонения гипотезы) W и область допустимых значений (область принятия гипотезы) W . Если фактически наблюдаемое значение статистики критерия 0,7 попадает в критическую область W, го гипотезу Я0 отвергают. При этом возможны четыре случая (табл. 10.1).

Таблица 10.1

Гипотеза Н0

Принимается

Отвергается

Верна

Правильное решение

Ошибка 1-го рода

Неверна

Ошибка 2-го рода

Правильное решение

Определение. Вероятность а допустить ошибку 1-го рода, т.е. отвергнуть гипотезу Я0, когда она верна, называется уровнем значимости, или размером, критерия.

Вероятность допустить ошибку 2-го рода, т.е. принять гипотезу Я0, когда она неверна, обычно обозначают р.

Определение. Вероятность (1 - р) не допустить ошибку 2-го рода, т.е. отвергнуть гипотезу Я0, когда она неверна, называется мощностью критерия!.

Пользуясь терминологией статистического контроля качества продукции, можно сказать, что вероятность а представляет «риск поставщика», связанный с забраковкой по результатам выборочного контроля изделий всей партии, удовлетворяющей стандарту, а вероятность р — «риск потребителя», связанный с принятием по анализу выборки партии, не удовлетворяющей стандарту.

1 В отличие от простых, при проверке сложных гипотез вероятности ошибок а и р являются функциями неизвестного параметра; например, а(0) и Р(0)— функции параметра 0, если нулевая и альтернативная гипотезы предполагают принадлежность параметра 0 к двум непе- ресекающимся областям значений. В этом случае вероятность 1 - а(0) принять гипотезу Я0, когда она верна, называют оперативной характеристикой критерия, а вероятность 1 - р(0) отвергнуть гипотезу #0, когда она неверна, — функцией мощности критерия.

Применяя юридическую терминологию, а — вероятность вынесения судом обвинительного приговора, когда на самом деле обвиняемый невиновен, р — вероятность вынесения судом оправдательного приговора, когда на самом деле обвиняемый виновен в совершении преступления. В ряде прикладных исследований ошибка первого рода а означает вероятность того, что предназначавшийся наблюдателю сигнал не будет им принят, а ошибка второго рода Р — вероятность того, что наблюдатель примет ложный сигнал.

Возможностью двойной ошибки (1-го и 2-го рода) проверка гипотез отличается от рассматриваемого выше интервального оценивания параметров, в котором имелась лишь одна возможность ошибки: получение доверительного интервала, который на самом деле не содержит оцениваемого параметра.

Вероятности ошибок 1-го и 2-го рода (а и р) однозначно определяются выбором критической области. Очевидно, желательно сделать как угодно малыми а и р. Однако это противоречивые требования: при фиксированном объеме выборки можно сделать как угодно малой лишь одну из величин — а или р, что сопряжено с неизбежным увеличением другой. Лишь при увеличении объема выборки возможно одновременное уменьшение вероятностей аир (см. пример 10.1).

Какими принципами следует руководствоваться при построении критической области W?

Предположим, что используемая для проверки (тестирования) нулевой гипотезы Я0 статистика критерия 0„ имеет нормальный закон распределения N(a0; а2). В качестве критической области, отвечающей уровню значимости а = 0,05, можно взять множество областей — таких, что площадь соответствующих им криволинейных трапеций под кривой распределения составляет 5/100 от общей площади под кривой распределения. Например (рис. 10.1): [1| — область больших положительных отклонений (при 0/? >01ф1); [II] — область больших отрицательных отклонений (при 0ft <0кр.2); [ш] — область больших по абсолютной величине отклонений (при 0„ < 0'р3 , 0,? > О'рз ); [IV] — область малых по абсолютной величине отклонений (при 0'р4 < < ®кр.4 ) и Т-Д-

Рис. 10.1

Рис. 10.2

Какую из этих областей предпочесть в качестве критической? Пусть с проверяемой гипотезой #0 конкурирует другая, альтернативная, гипотеза Нпри которой распределение статистики критерия 0„ нормально: N(a0; а1 [1] [2]), где а > я0 (рис. 10.2). Очевидно, следует предпочесть ту критическую область, при которой мощность критерия будет наибольшей. Если, например, критическая область типа [I], то в случае 0„ < 0крЛ гипотеза Я0 принимается. Но в этом случае может быть верна конкурирующая гипотеза Нх с вероятностью ошибки второго рода р. Вероятность Р интерпретируется площадью под кривой распределения Ц>(0п) левее 0кр / , а мощность критерия (1 - Р) — площадью Рх правее 0крл (см. рис. 10.2). Аналогично Ри, Рш, PIV интерпретируют мощность критерия при критических областях соответственно II, III и IV типов (на рис. 10.2 площади РгPIV заштрихованы)[2]. Очевидно, что в данном случае целесообразно выбрать в качестве критической область [I], т.е. правостороннюю критическую область, так как такой выбор гарантирует максимальную мощность критерия.

Требования к критической области аналитически можно записать так:

т.е. критическую область Wследует выбирать так, чтобы вероятность попадания в нее статистики критерия Qn была минимальной и равной а, если верна нулевая гипотеза #0, и максимальной в противоположном случае.

Другими словами, критическая область должна быть такой, чтобы при заданном уровне значимости а мощность критерия 1 - (3 была максимальной. Задача построения такой критической области W (или, как говорят, построения наиболее мощного критерия) для простых гипотез решается с помощью следующей теоремы.

Теорема (лемма) Неймана — Пирсона. Среди всех критериев заданного уровня значимости а, проверяющих простую гипотезу Я0 против альтернативной гипотезы Нх, критерий отношения правдоподобия является наиболее мощным.

Поясним смысл этой теоремы, полагая случайную величину X непрерывной.

Если верна простая гипотеза Я0, то плотность вероятности (р(х) определяется однозначно, и функция правдоподобия L0(x), выражающая плотность вероятности совместного появления результатов выборки (х1; х2,..., х„), имеет вид (см. параграф 9.3):

Напомним, что функция Lq(х ..., х„) есть мера правдоподобности получения выборочных наблюдений xt, х2,..., хп.

Аналогично, если верна простая гипотеза НЛ, то функция правдоподобия

В теореме Неймана — Пирсона рассматривается отношение правдоподобия Lx/L0 (при L0 Ф 0); чем правдоподобнее выборка в условиях гипотезы Я,, тем больше отношение L,/Z.0 или его логарифм In (1,/10). А критерий этого отношения, по заключению теоремы, и является наиболее мощным среди других возможных критериев.

Используя данный критерий, можно найти такую постоянную С (или In С = с), что

С помощью полученной постоянной С (или с) определяется критическая область W критерия и его мощность.

О Пример 10.1. Случайная величина X имеет нормальный закон распределения N(a0; ст2), где а = М(Х) не известно, а а2 = D(X) известно. Построить наиболее мощный критерий проверки гипотезы Я0: а = а0 против альтернативной Нх: а = ах> а{). Найти: а) мощность критерия; б) минимальный объем выборки, обеспечивающий заданные уровень значимости а и мощность критерия 1 - (3.

Решение. Если верна гипотеза Я0, г.е. X ~ Лг0; а2), то функция правдоподобия (см. параграф 9.3) имеет вид

Аналогично, если верна гипотеза Ну, т.е. X ~ Я(й0; а2), то

Согласно теореме Неймана — Пирсона наиболее мощный критерий основан на отношении правдоподобия Ly/L0. Найдем его логарифм; получим

Для построения критерия найдем такую постоянную С (или In С = с), что

Полученное выражение для уровня значимости а можно заменить ему равносильным (учитывая монотонность функции In (Ly/L0) относительно ж):

Для определения с' следует учесть, что если случайная величина X распределена нормально, т.е. X ~ N(a0, ст2), то ее средняя х также распределена нормально с параметрами «0 и а2/п (см. параграфы 6.3, 9.3), т.е.

х ~ N(a0; а2/ 4п ).

Используя выражение функции распределения нормального закона через функцию Лапласа (4.30), получим

А с'-ап г . _ с'-ап г~

откуда Ф --уд I = 1 - 2а или--Уд = twla и определяющее границу

V ° ) °

критической области W значение с'= а0+ t{_2a —j=.

УД

Следовательно, наиболее мощным критерием проверки гипотезы Я0: а = а0 против альтернативной Яр а = ах > а0 является следующий: гипо-

тг (Т „

теза Я0 отвергается, если х > а0 + ty_2a —j= ; Я0 не отвергается, если о

  • -*? — а0 t\_2a ~1= ?
  • а) Для нахождения мощности критерия определим вначале вероятность р допустить ошибку 2-го рода — принять гипотезу //0, когда она не верна, а верна альтернативная гипотеза Hv т.е. X ~ N(ax, а2) или х ~ N(aа2/ Vп ):

Следовательно, мощность критерия есть

Рассматривая полученные выражения, еще раз (теперь уже аналитически) убеждаемся в том, что уменьшение уровня значимости а при неизменном объеме выборки п ведет к увеличению вероятности (3 и соответственно к снижению мощности критерия 1 - р. И только при увеличении объема выборки п возможно, уменьшая вероятность а, одновременно уменьшать вероятность р (увеличивать мощность критерия 1 - р).

б) При заданных вероятностях ошибок 1-го и 2-го рода аир из выражения для Р нетрудно найти соответствующий объем выборки по формуле

В зависимости от вида конкурирующей гипотезы Н} выбирают правостороннюю, левостороннюю или двустороннюю критическую область. Так, в рассмотренном примере мы убедились, что при конкурирующей гипотезе Нхх> а0 следовало использовать правостороннюю критическую область [I] (см. рис. 10.1, 10.2). Аналогично можно показать, что в случае //,: < а0 следовало использовать левостороннюю критическую область [II],

а при гипотезеП{. — двустороннюю критическую область [III]. Границы критических областей 0кр при заданном уровне значимости а определяются соответственно из соотношений: для правосторонней критической области

для левосторонней критической области для двусторонней критической области

Соответствующий равенствам (10.2) или (10.3) критерий называется односторонним, а равенству (10.4) — двусторонним.

Следует отметить, что в компьютерных статистических пакетах обычно не находятся границы критической области 0кр, необходимые для сравнения их с фактически наблюдаемыми значениями выборочных характеристик 0набл и принятия решения о справедливости гипотезы Я0. А рассчитывается точное значение уровня значимости (р-value) исходя из соотношения P(Qn > 0набл) = Р• Если р очень мало, то гипотезу Я0 отвергают, в противном случае Я0 принимают (точнее, не отвергают; при этом рассчитанное на компьютере значение р может быть удвоено при выборе двусторонней критической области).

Принцип проверки статистической гипотезы не дает логического доказательства ее верности или неверности. Принятие гипотезы Я0 в сравнении с альтернативной Н{ не означает, что мы уверены в абсолютной правильности Я0 или что высказанное в гипотезе Я0 утверждение является наилучшим, единственно подходящим; просто гипотеза Я0 не противоречит имеющимся у пас выборочным данным, таким же свойством наряду с Я0 могут обладать и другие гипотезы. Более того, возможно, что при увеличении объема выборки п либо при испытании Я0 против другой альтернативной гипотезы Я2 гипотеза Я0 будет отвергнута. Так что принятие гипотезы Я0 следует расценивать не как раз и навсегда установленный, абсолютно верный содержащийся в пей факт, а лишь как достаточно правдоподобное, не противоречащее опыту утверждение.

В описанной выше схеме проверка гипотез основывается на предположении об известном (с точностью до параметров) законе распределения генеральной совокупности, из которого следует определенное распределение критерия. Критерии проверки таких гипотез называются параметрическими. Если закон распределения генеральной совокупности неизвестен, то соответствующие критерии получили название иепараметрическихК Естественно, что непараметрические критерии обладают значительно меньшей мощностью, чем параметрические. Это означает, что для сохранения той же мощности при использовании непараметрического критерия по сравнению с параметрическим нужно иметь значительно больший объем наблюдений.

По своему прикладному содержанию статистические гипотезы можно подразделить на несколько основных типов:

  • • о равенстве числовых характеристик генеральных совокупностей;
  • • о числовых значениях параметров;
  • • о законе распределения;
  • • об однородности выборок (т.е. принадлежности их одной и той же генеральной совокупности);
  • • о стохастической независимости элементов выборки.

  • [1] Здесь отчетливо видно, что если увеличить 0кр1, то ошибка а 1-го рода уменьшится(станет меньше чем 0,05), но увеличится ошибка 2-го рода р, и наоборот; одновременно жеуменьшить и а, и р невозможно.
  • [2] Рш частично перекрывается с Р, и Рп.
  • [3] Рш частично перекрывается с Р, и Рп.
 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >