Меню
Главная
Авторизация/Регистрация
 
Главная arrow Статистика arrow МАТЕМАТИЧЕСКАЯ СТАТИСТИКА ДЛЯ СОЦИОЛОГОВ
Посмотреть оригинал

Интервальное оценивание параметров

Понятие доверительного интервала и принципы его построения (на примере математического ожидания)

Рассмотрим какой-нибудь параметр распределения изучаемой случайной величины, например математическое ожидание, и попытаемся понять, каким образом можно судить о его значении на основе знания соответствующей выборочной точечной оценки, т.е. найденного для выборки среднего арифметического рассматриваемого признака.

Зададимся некоторой вероятностью а (обычно а = 0,05; подробнее об этой величине будет сказано ниже). Можно утверждать, что существует такое Л , для которого имеет место соотношение:

Определение. Интервал (6.1) называется доверительным.

Чтобы понять, как находится А, напомним, что среднее арифметическое X для гипотетического бесконечного количества выбо-

о

рок имеет распределение Nх, ).

Вспомним, что такое стандартизованное нормальное распределение, и попытаемся понять, как оно связано с нестандартизован- ным распределением случайной величины X (напомним, что значения средних мы рассматриваем как реализацию некоторой случайной величины).

Нетрудно видеть, что величина

имеет стандартизованное нормальное распределение.

Если мы зададимся целью найти интервал, в который попадает, скажем, 95% значений стандартизированной нормально распределенной величины, пользуясь известной таблицей, установим, что этот интервал имеет вид ( -1,96; +1,96).

Использовав это обстоятельство применительно к величине (6.2), получим, что 95% значений этой величины удовлетворяют соотношению:

Значит, 95% значений случайной величины ^удовлетворяютусловию

или, что то же самое,

Определение. Интервал (6.3) называется 95%-м доверительным интервалом для математического ожидания.

Если мы захотим, чтобы аналогичному условию удовлетворяло 90% выборочных значений среднего арифметического, следует число 1,96 заменить на 1,64; для 99% должны использовать множитель 2,57 и т.д.

К соотношению типа (6.3) можно прийти и по-другому.

Рассмотрим рис. 6.1. Теоретически мы знаем, что Р% (выше — 95%) средних арифметических, рассчитанных для разных выборок, лежит вокруг рх в интервале, обозначенном овалом.

Ситуация, когда доверительный интервал (обозначен прямоугольником) «накрывает» математическое ожидание (овал отвечает тому интервалу, в который попадают Р% выборочных средних арифметических)

Рис. 6.1. Ситуация, когда доверительный интервал (обозначен прямоугольником) «накрывает» математическое ожидание (овал отвечает тому интервалу, в который попадают Р% выборочных средних арифметических)

Теперь представим реальную ситуацию. У нас имеется единственная выборка и единственное значение среднего арифметического, вычисленное для нее. Обозначим его Л'вы6. Нам надо выяснить,где находится На помощь приходит соображение о том, чтоЛ^, очевидно, с вероятностью Р% попадает в «овальный» интервал. Поэтому, вероятно, логично было бы предположить, что цяс такой же вероятностью попадет в интервал такого же размера, но с центром не в хх,, а вЛ^. Этот интервал обозначен прямоугольником (см. рис. 6.1). С помощью этого интервала мы можем с вероятностью Р% «поймать» математическое ожидание. Ясно, что это — интервал типа (6.3) (для последнего Р = 95%).

Не исключено, что Хвы6 не попадет в «овальный» интервал. Тогда имеем ситуацию, предоставленную на рис. 6.2. Ясно, что в таком случае реальное математическое ожидание не попадет в построенный для него интервал, не будем нами «поймано».

Ситуация, когда математическое ожидание лежит вне доверительного интервала (последний обозначен прямоугольником; овал отвечает тому интервалу , в который попадают Р% выборочных средних арифметических)

Рис. 6.2. Ситуация, когда математическое ожидание лежит вне доверительного интервала (последний обозначен прямоугольником; овал отвечает тому интервалу , в который попадают Р% выборочных средних арифметических)

Проиллюстрируем то же по-другому, прибегнув к изображению функции плотности распределения средних арифметических для выборок объема л, из генеральной совокупности с математическим ожидай ием р . Случаи, когда построенный по некоторому выборочному значению X доверительный интервал содержит либо не содержит генеральное математическое ожидание, показаны, соответственно, на рис. 6.3 и 6.4.

Иллюстрация случая, когда интервал, установленный относительно X, содержит р в своих границах Источник

Рис. 6.3. Иллюстрация случая, когда интервал, установленный относительно X, содержит р в своих границах Источник: Гласс Дж., Стэнли Дж. С. 235.

Иллюстрация случая, когда интервал, установленный относительно X, не содержит р в своих границах

Рис. 6.4. Иллюстрация случая, когда интервал, установленный относительно X, не содержит р в своих границах

Источник: Гласс Дж., Стэнли Дж. С. 235.

Возвращаясь к соотношению (6.1) и сравнивая его с (6.3), можно сказать, что для математического ожидания имеет место соотношение:

Другими словами, соотношение (6.1) превращается в где z определяется по таблице, исходя из выбранного а.

Определение. Интервал (X — А, X + А), или, что то же самое, интервал

называется доверительным интервалом для рх.

Построение такого интервала — это и есть результат переноса сведений о выборочном среднем (коим является значение*) на генеральную совокупность.

Определение, а называется уровнем значимости доверительного интервала.

Как уже отмечалось, он задается исследователем. Его выбор обусловливается содержательными соображениями. Чаще всего полагают, что а = 0,05. Такой выбор означает, что 95%-й уверенности в том, что генеральное ожидание принадлежит заданному интервалу, нам достаточно, чтобы считать это утверждение практически всегда верным. Другими словами, уровень значимости — это такая вероятность, относительно которой мы предполагаем, что события, имеющие такую (или меньшую) вероятность, практически не происходят. Подчеркнем, что с оценкой подобной вероятности человек не редко сталкивается в обыденной жизни. Именно на базе подобных оценок мы очень часто принимаем те или иные решения. Например, предположим, что по дороге на работу мы должны пройти мимо строящегося дома. Мы можем не давать себе в этом отчета, но где-то в подсознании у нас всегда будет происходить оценка вероятности того, что нам на голову свалится кирпич. Если нам случалось много раз проходить мимо этого дома без всяких неприятных последствий и мы никогда не слышали о том, что на кого-то что-то здесь свалилось, будем считать, что вероятность неприятности слишком мала, чтобы на нее следовало обратить внимание при принятии решения о нашем маршруте, и мы смело идем мимо стройки, не переходя на другую сторону ул и цы. В мате маги чес кой стагисти ке обычно сч итается, что «слишком мала» означает «не более 5%». Напротив, если мы вчера прочитали в газете, что позавчера именно на этой стройке кирпич все-таки свалился кому-то на голову[1], то мы, наверное, решим, что вероятность неприятности достаточно велика; ее надо учитывать и мы делаем крюк, чтобы обойти стройку, даже если опаздываем на работу. Опыт применения математической статистики говоритотом, что «достаточно велика» означает «превышает 5%».

Понятно, что, если суть задачи требует более надежной информации, мы должны понизить уровень значимости, скажем, полагать, что он равен 0,01. Если, напротив, нас вполне устраивает меньшая уверенность, скажем, в 90%, будем полагать, что а = 0,1.

Значение z находят по таблице нормального распределения. Величины z и а (стало быть, z и Р) полностью определяют друг друга.

Исследователю всегда хочется, чтобы были поменьше и уровень значимости а (а Р— побольше), и длина доверительного интервала (и, значит, z)• Однако, к сожалению, законы природы так устроены, что уменьшение уровня значимости влечет за собой увеличение доверительного интервала. Поясним сказанное с помощью следующего рассуждения. Нетрудно понять, что, если Ху например, —? возраст, выборочное среднее арифметическое значение которого оказалось равным 40 годам, с вероятностью, практически равной 100% (т.е. а 0, математическое ожидание будет находиться в интервале (40 лет —100 лет, 40 лет + 100 лет). Однако от этой информации вряд ли может быть какая-либо практическая польза. Напротив, вероятность того, что генеральное математическое ожидание в той же ситуации в точности равно 40 годам (т.е. равен нулю доверительный интервал), практически нулевая (выборка всегда хотя бы в какой-то мере отличается от генеральной совокупности, и поэтому выборочная статистика, как правило, будет отличаться от значения соответствующего генерального парамегра)43.

Отметим, что величина о2х социологу, как правило, неизвестна (хотя бывают ситуации, когда генеральную дисперсию признака удается как-то оценить по каким-либо косвенным данным — скажем, воспользоваться результатами переписи, данными исследования, проведенного другим социологом, и т.д.). Поэтому ее вынуждены заменять выборочной дисперсией s2x. Тогда, казалось бы, должно иметь

s

место соотношение —р= и, следовательно, равенство (6.4) заме-

yjn

S

няется на равенство Д = z~f= . Однако это не так. Дело в том, что

yjn

нормальное распределение при построении доверительного интервала для математического ожидания, вообще говоря, используется только при заданной генеральной дисперсии. В тех случаях, когда происходит замена а на s2x, нормальное распределение «превращается» в распределение Стьюдента. Коротко опишем, как в таких случаях надо действовать, не приводя строгих рассуждений, объясняющих описываемый алгоритм.

1

Если мы пользуемся выборочной оценкой sx дисперсии признака, доверительный интервал для рг приобретает вид:

где I — величина, найденная способом, аналогичным тому, с помощью которого мы искали г, но с использованием таблицы для распределения Стьюдента с числом степеней свободы, равным (п — I). Другими словами, величина, полученная из (6.2) заменой ах на sx, будет иметь не нормальное распределение, а распределение Стьюдента:

(Заметим, что, вообще говоря, нельзя пользоваться нормальным распределением и при малых объемах выборки, даже если ах известна; однако некоторая корректировка величины (6.2) все же приводит ее распределение к нормальному. А именно, нормально распределенной будет величина:

где N — объем генеральной совокупности; при бесконечной генеральной совокупности эта поправка не имеет смысла. Мы ее учитывать не будем.)

Но, как уже отмечалось (см. п.3.4), при достаточно большом объеме выборки распределение Стьюдента можно считать приблизительно совпадающим с нормальным, поэтому при большой выборке можно пользоваться нормальным распределением (т.е. вместо / находить г) даже в том случае, когда генеральное значение ах мы вынуждены заменить на выборочную его оценку sx.

Обычно применяют следующее правило44:

Повторим сказанное: относительно доверительного интервала для математического ожидания необходимо учитывать, что вид этого интервала зависит от того, если

  • • известно а;
  • • о не известно, вместо него выступает s, а величина z заменяется на /я1;
  • • указанная в предыдущем пункте замена может не осуществляться, когда объем выборки >30.

  • [1] Подобная ситуация, к великому нашему сожалению, имела место прямоперед зданием ГУ ВШЭ, где автор читала курс лекций по математической статистике. Поднимаемые кирпичи свалились на строителей высотного дома. Этот ужасный случай, будучи разобранным на лекции с точки зрения оценки описываемогоуровня значимости, как нам кажется, способствовал лучшему усвоению студентамисмысла этого показателя, а заодно и своеобразной математико-статистической логики рассуждений.
 
Посмотреть оригинал
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 

Популярные страницы