ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ

Общее представление о статистической гипотезе. Проверка статистической гипотезы об отсутствии связи (критерий x²)

Общее представление о статистической гипотезе

Начнем с примеров.

Пример I. Рассмотрим две дискретные переменные: X, принимающую значения из множества {1,..., г, и К, принимающую значения из множества {1,..., с}. Будем их использовать как номинальные признаки, хотя может быть, что их значения получены по шкалам более высоких типов.

Предположим, что нам задана частотная таблица вида || /г ||, где /= 1,..., r(raw)J= 1,... ,с (column) п..— количество объектов (например, респондентов), обладающих/-м значением признака^и/'-м значением признака Y. Обозначим также через nh и ntj маргинальные частоты (соответственно, по /-й строке и у'-му столбцу), а через йи — п — объем выборки. Такую таблицу называют частотной, или таблицей сопряженности. Частоты, стоящие в клетках этой таблицы, назовем эмпирическими, или наблюдаемыми. Мы хотим на основе анализа эмпирических частот определить, имеется ли связь между рассматриваемыми переменными.

Здравый смысл подсказывает, что независимыми признаки можно считать в том случае, когда строки частотной таблицы пропорциональны[1]. Можно понятие независимости признаков отождествить и с другими свойствами частотной таблицы. Нетрудно проверить экви валентность следующих утверждений.

Предположим, что мы на основе собранной информации рассчитали частотнуютаблицудля некоторыхдвух переменных и хотим оценить, можно ли говорить о том, что связь между рассматриваемыми переменными отсутствует. Вопрос не так прост, как кажется на первый взгляд. Рассмотрим его подробнее.

Вспомним, что в действительности нас интересует генеральная совокупность, хотя имеющиеся в нашем распоряжении эмпирические данные, в том числе и таблица сопряженности, обычно отвечают выборке. Мы знаем, что выборочные данные никогда на 100% не отвечают генеральным. Любая, даже самая хорошая выборка будет отражать генеральную совокупность лишь с некоторым приближением, любая закономерность будет содержать так называемую выборочную ошибку, случайную погрешность. Учитывая это, мы, вероятно, будем полагать, что, если столбцы выборочной таблицы сопряженности мало отличаются отпропорциональных, такое отличие, скорее всего, объясняется именно выборочной погрешностью и вряд ли свидетельствуетотом, что в генеральной совокупности наши признаки связаны. Сильное отклонение от пропорциональности заставит нас сомневаться в отсутствии связи в генеральной совокупности. Насколько же сильным должно быть такое отклонение, чтобы у нас возникли указанные сомнения? Наука не дает точного ответа. Она предлагаетлишьтакой вариант, который формулируется на вероятностном языке. Но прежде, чем ответить на поставленный вопрос, рассмотрим пример несколько иного плана.

Пример 2. Предположим, что в процессе решения социологической задачи мы хотим проверить гипотезу, что при оплате труда работников какого-то предприятия (отрасли и т.д.) нет дискриминации работников по полу. Это — содержательная гипотеза. Вероятно, наиболее естественными действиями исследователя, направленными на ее проверку, будут организация некоторой выборки из работников рассматриваемого предприятия и осуществление анкетного опроса с использованием, в частности, вопроса о поле респондента и его зарплате. Затем исследователь подсчитает среднюю зарплату мужчин и среднюю зарплату женщин. Обозначим зарплату буквой х и предположим, что получены соотношения (числа условны):

Далее возможны разные рассуждения. Исследователь, пытающийся доказать отсутствие дискриминации, скажет: конечно, факт есть факт — средняя зарплата женщин меньше средней зарплаты мужчин, но различие очень мало. Наверное, его можно отнести за счет того, что мы взяли не всех работников, а только некоторую выборку из них. Другими словами, можно полагать, что наша статистика не дает оснований говорить о наличии дискриминации.

Другой исследователь, сторонник того, что дискриминация имеет место, твердо убежден в своей правоте: статистические данные подтвердили его гипотезу — женщины в среднем получают меньше мужчин.

Кто прав? Где та граница, то значение разности зарплат, превышение которого говорит о том, что эти зарплаты действительно можно считать разными, что они отличны друг от друга не только в выборке, но и в генеральной совокупности?

Ответ получим, если воспользуемся логикой математической статистики, точнее, логикой проверки статистической гипотезы. Ответ, конечно, будет носить вероятностный характер.

  • [1] Подробнее об этом можно прочесть, например: Толстова Ю.Н. Анализ социологических данных.
 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >