Общие принципы определения доверительных границ для выборочных значений из генеральной совокупности

Из всего многообразия возможных проявлений случайности, в экономической практике она чаще всего проявляется в форме нормального закона распределения вероятностей. Именно это положение и лежит в основе рассматривае-

мой процедуры определения доверительных границ выборочных оценок. Прежде всего, необходимо вспомнить, что функция распределения вероятностей случайной величины F(y) определяет вероятность того, что случайная величина yt при испытании примет значение, меньшее произвольно изменяемого действительного числа у ( <у < +°°):

Эта функция положительна и меньше единицы. Для непрерывно возрастающего у график этой функции является возрастающим. На рис. 3.1 построен график функции нормального распределения вероятностей. Если взять на оси у этого графика две произвольные точки у0 и у0 + Ау, то их ординатами соответственно будут F(y0) и F(y0 + Ay). Для приращения функции распределения вероятностей на этом участке имеем:

Первая производная функции распределения вероятностей получила название плотности вероятности и имеет вид

из чего следует, что плотность вероятности представляет собой предел отношения вероятности того, что случайная величина yt примет значение, лежащее в границах от у0 до у0+Ау, к величине интервала Ду, когда этот интервал стремится к нулю.

Функция распределения вероятностей является первообразной функцией по отношению к функции плотности вероятности, поэтому вероятность (3.23) того, что случайная величина Y примет значение, лежащее в границах от у0 до у0 + Ду, может быть найдена так:

На графике плотности вероятности полученная вероятность (3.25) будет представлять собой площадь криволиней-

График функции нормального распределения

Рис. 3.1. График функции нормального распределения

ной трапеции с основанием от у0 до у0 + Ду, ограниченной сверху кривой плотности вероятности (рис. 3.2).

Иногда функцию распределения вероятностей F(y) называют «интегральной функцией распределения», а функцию плотности вероятности ф(г/) — «дифференциальной кривой распределения», исходя из их математического смысла.

График функции плотности нормального распределения вероятностей

Рис. 3.2. График функции плотности нормального распределения вероятностей

В математике среди элементарных функций известна функция Гаусса, которая имеет вид

Эта функция симметрична относительно нулевого значения у, всегда положительна, а кроме того — принимает свое максимальное значение, равное единице, в том случае, когда у - 0. По своему виду она как нельзя лучше подходит для описания графика плотности вероятности нормального распределения (рис. 3.2), что и дало возможность Гауссу предложить функцию, аппроксимирующую нормальный закон распределения вероятностей и носящую сто имя:

Часто для того, чтобы показать, что случайная величина распределена нормально, в соответствии с формулой (3.27) прибегают к записи вида:

Характер функции (3.27) определяется двумя характеристиками — дисперсией y2 и математическим ожиданием ху. Увеличение математического ожидания ху приводит к сдвигу кривой вправо вдоль оси Оу, а ее уменьшение — к сдвигу влево. С возрастанием дисперсии максимальная ордината нормальной кривой убывает, а сама кривая становится более пологой.

Так как, варьируя эти параметры, можно получить любое семейство кривых, то следует взять за основу функцию плотности вероятности при каких-то фиксированных стандартных значениях, а затем — подставлять в нее эти две характеристики. Именно так и поступил в свое время Лаплас. Для этого он принял ру = 0, т.е. получил ситуацию, когда график рис. 3.2 симметричен относительно нулевого значения на оси г/, и приравнял дисперсии распределения единице. Так была получена нормированная кривая плотности распределения, или «кривая плотности стандартного нормального распределения»:

Случайная величина, распределенная в соответствии со стандартным нормальным законом распределения, обозначается соответственно: у ~ N(0,1).

К этому виду можно привести любой ряд у, для чего следует от каждого значения ряда отнять его математическое ожидание р, а затем полученные значения разделить на среднее квадратичное отклонение сг^:

Такой ряд будет называться стандартизированным. Больший интерес, чем функция (3.28), представляет ее первообразная, которая характеризует вероятность того, что yt лежит в интервале от нуля до некоторого значения Z:

Эта функция получила название нормированной функции Лапласа. Подставляя в нее различные значения уу можно получить разные значения вероятностей. Эта работа и была в свое время выполнена, а расчетные значения вероятности сведены в соответствующие таблицы, которые можно встретить в любом учебнике по теории вероятностей и математической статистике. Очевидно, что для условия у = 0, т.с. для ситуации, когда выборочное значение yt точно соответствует математическому ожиданию процесса, вероятность будет равна нулю. А вот уже вероятность того, что yt лежит в интервале от нуля до значения Z- 0,01, не равна нулю. Подставляя это значение в функцию (3.30) или просто заглянув в соответствующую строку таблицы, получим вероятность, равную 0,0040. А вот вероятность того, что для нормированной величины ее значение окажется в интервале от нуля до значения Z = 5,00, равна 0,4999997, т.е. очень высока.

Таким образом, можно увидеть, что имеется возможность оценить то, с какой вероятностью выборочное значение попадет в заданный интервал от нуля до Z.

На практике можно каждый имеющийся ряд у отцентрировать относительно его математического ожидания р,, а затем полученные значения разделить на среднее квадратичное отклонение а. Но значительно удобнее, воспользовавшись функцией Лапласа, привести формулу (3.25) к такому виду, чтобы при нормальном распределении можно было сразу определить вероятность того, что случайная величина yt примет значение, лежащее в границах от г/0 до г/0 + Ду. Для этого воспользуемся очевидным равенством:

Для того чтобы применить функцию Лапласа, определим из (3.29) исходную переменную у у = оу z + p,y, a dy - а dz. Теперь можно найти новые пределы интегрирования: если у = =у0 + Ду, то в соответствии с (3.29) z = (г/0 + Ду - р„) /а, а если у = г/0, то z — (г/0 — р) / оу. Теперь, подставляя в (3.31) функцию Лапласа с этими пределами интегрирования, получим

Пусть теперь необходимо решить задачу нахождения вероятности того, что выполняется неравенство: yt - р| < 5. Это неравенство равносильно двойному неравенству: р -5 t< < р + 5, что, как легко заметить, дает формулировку в терминах задачи (3.32), поэтому решение этой задачи легко найти с помощью (3.32):

Так как б — некоторое наперед заданное число, его можно задавать различными способами, в частности, как некоторую линейную функцию от среднеквадратичного отклонения, например, так: б = а t. Откуда t = б / о . Пусть, например, t = 3. Тогда вероятность того, что отклонение случайной величины yt от его математического ожидания р по абсолютной величине будет меньше 5 = 3равна р(|г/, -р|<Зо,/) = 2Ф(?) = 2Ф(3) = 0,9973, что известно в математической статистике иод правилом грех сигм.

Неравенство yt - р| < <5lft равносильно не только двустороннему неравенству: ху - ayt < yt < ху + ayt, но и другому двустороннему неравенству:

Здесь следует обратить внимание на то, что в последнем двойном неравенстве неизвестно математическое ожидание.

Воспользовавшись (3.33), заменив Y на среднюю арифметическую и общую дисперсию а;/2 на дисперсию средней арифметической относительно математического ожидания, получим

Так как в соответствии с (3.18)

а ранее мы рассмотрели замену 5 = ayt, которая для случая средней арифметической примет вид:

то (3.35) можно записать в другой форме

Как следует из (3.38), при достаточно большом числе наблюдений п выборочная дисперсия практически равна генеральной дисперсии а2, поэтому можно утверждать, что с заданной доверительной вероятностью а математическое ожидание случайной величины лежит в пределах:

Но при малых выборках (Т< 30), с которыми в основном и приходится иметь дело в прогнозировании социально-экономических процессов, выборочная дисперсия отличается от общей, поэтому значение требуется заменить на исправленную дисперсию stJ2. Тем не менее, введение поправочного коэффициента (3.38) не меняет ситуацию, потому что при малых выборках выборочное значение дисперсии ведет себя иначе, чем это следовало бы из нормального закона распределения. В результате и нормированный ряд (3.29), в котором вместо дисперсии подставляется ее выборочное значение, а вместо случайной переменной — средняя арифметическая:

не будет распределен нормально; функция Лапласа к нему неприменима.

Английский статистик В. Госсет предложил описывать распределение величины (3.38) близким по форме к нормальному. Оно получило название «распределение Стью- дента», поскольку под этим псевдонимом В. Госсет опубликовал соответствующие материалы. Это распределение также симметрично, как и функция Лапласа, имеет такую же форму, но ее максимум несколько меньше, а с увеличением величины tm функция более пологая, чем функция нормального распределения Лапласа. С увеличением числа наблюдений Т распределение случайной переменной (3.38) стремится к нормальному и при Т > 30 практически совпадает с ним.

Плотность распределения величины t (3.38) определяется только одним параметром — количеством наблюдений

T=m + 1:

где Г(.г) — Гамма функция Эйлера в точке х m = Т - 1 — величина, получившая название «число степеней свободы».

С помощью этой плотности распределения случайной величины t можно рассчитать вероятность 1 - а того, что истинное значение нормированной переменной t лежит в пределах от минус ta т до плюс ta т:

Эта вероятность получила название «доверительной вероятности».

Подставляя в это равенство значения tm, взятые из (3.38), получим, что для выборочных значений средней арифметической и дисперсии с доверительной вероятностью 1 - а математическое ожидание случайной величины лежит в пределах:

Здесь множитель ta т рассчитывается по функции (3.39) или берется из таблиц ^-статистики Стьюдента. В таблицах эта величина выбирается, исходя из числа степеней свободы т и остаточной вероятности а.

В общем случае, если перед исследователем стоит задача построить доверительные границы для некоторой зависимой переменной у при известных параметрах и значениях независимых переменных xt, х2,х исследователю достаточно оценить условное математическое ожидание М(у хх2>~.,хЛ (оно соответствует расчетному значению у = f[x{yx2>...txk)) и условную дисперсию D(y xvx2,...,xk), а далее, предполагая совместное нормальное распределение случайных величин, воспользоваться формулой для построения доверительных границ на основе ^-статистики с Т - к числом степеней свободы:

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >