Основные понятия математической статистики

Понятия выборки, оценки и их свойства

Математическая статистика решает две основные задачи. Первая – это оценивание параметров законов распределения случайных переменных и функций этих параметров. Вторая – это проблемы проверки различных статистических гипотез. Отметим, что методы решения первой задачи применяются при выполнении третьего этапа построения эконометрической модели.

Решение задач математической статистики базируется па двух основных понятиях: выборка возможных значений случайной переменной и оценка параметра закона распределения.

Выборка возможных значений случайной переменной – это случайный вектор, составленный из результатов наблюдений, каждое из которых суть независимая случайная величина.

Пустьрезультаты наблюдений за некоторой случайной переменной Y с законом распределения Тогда вектор', собранный из результатов наблюдений, представляет собой выборку из генеральной совокупности всех возможных значений случайной переменной Y.

Предполагается, что элементы выборки удовлетворяют следующим требованиям:

  • • все элементы выборки суть независимые случайные величины;
  • • все элементы выборки подчиняются тому же закону распределения, что и переменная Y.

Следовательно, для каждого элемента выборки можно записать его функцию плотности вероятностей:

Так как элементы выборки являются независимыми случайными переменными, то для них справедлива теорема умножения вероятностей. Согласно этой теореме, вероятность появления выборки равна произведению вероятностей появления в наблюдениях каждого ее элемента:

(3.16)

Выражение (3.16) называется законом распределения выборки.

Задача заключается в том, чтобы по данным случайной выборки вычислить значения оценок параметров, входящих в закон распределения, т.е. найти функцию (правило вычисления), с помощью которой по известным значениям выборки можно вычислить значения оценки параметров:

Второе базовое понятие – оценка параметра закона распределения.

Оценкойпараметра а называется приближенное значение этого параметра, вычисленное по результатам выборки.

В отличие от параметра его оценка является величиной случайной. Очевидно, можно предложить некоторое количество процедур, с помощью которых можно по результатам наблюдений вычислить значение оценки параметра. Чтобы сделать выбор процедур целенаправленным, сформулированы два основных требования к качеству оценок.

Оценкапараметра а называется несмещенной, если ее математическое ожидание совпадает со значением параметра:

(3.17)

Если условие (3.17) не выполняется, то такую оценку называют смещенной, а разностьназывается смещением.

Это условие позволяет сократить количество допустимых процедур вычисления значений оценок, хотя его недостаточно, чтобы свести их к единственной.

Пример. Рассмотрим оценку среднего значения. Возьмем случайную величину X с известным законом распределения и как следствие с известными значениямии

Задача – подобрать процедуры оценки среднего значения (математического ожидания) этой переменной.

Пусть для простоты вычислений имеется выборка наблюдений за поведением переменной X, состоящей из двух наблюдений и

Для элементов выборки должны выполняться условия:

  • • все элементы выборки независимые случайные величины;
  • • все элементы выборки имеют одинаковый закон распределения, совпадающий с законом распределения самой случайной величины а, следовательно:

Известно, что оценку среднего значения проводят по формуле

(3.18)

Найдем альтернативные процедуры, которые позволяют так же получить несмещенные оценки среднего значения. Пусть такая процедура выглядит так:

(3.19)

гдеи– произвольные константы.

Математическое ожидание такой оценки с учетом статистических свойств выборки есть

(3.20)

Отсюда видно, что математические ожидания случайной величины х, полученные по формулам (3.18) и (3.20), будут совпадать при условии

(3.21)

Мы получили бесконечное количество процедур, которые обеспечивают несмещенные оценки среднего значения.

Для того чтобы выбрать наилучшую, среди всех несмещенных, процедуру оценки используют критерий минимальности дисперсии оценки.

Эффективной среди всех несмещенных оценок параметра называется та оценка, которая имеет минимальную дисперсию.

Другими словами, выбирается та процедура вычисления оценки, которая дает минимальный разброс значений оценки.

Найдем, при каких значенияхидисперсия выражения (3.19) будет минимальной. Дисперсияс учетом независимостииимеет вид

Для нахождения минимума функции W необходимо приравнять ее производную понулю и из полученного уравнения найти значение. С учетом, что по свойству выборки дисперсии наблюдений равны, получим:

Откуда получаем, что процедура (3.19) дает наилучшую (несмещенную и эффективную) оценку среднего значения

при

Далеко не всегда удается подобрать процедуру, которая обеспечивала получение несмещенных и эффективных оценок при конечном (небольшом) объеме выборки.

Рассмотрим понятия асимптотически несмещенных и асимптотически эффективных оценок. Это оценки, для которых свойства несмещенности и эффективности достигаются при неограниченном увеличении объема выборки. Однако и такие оценки получаются не всегда. Нас будут удовлетворять оценки, обладающие только свойством несмещенности при больших выборках. Такие оценки называют состоятельными.

Уточним, что задача построения эконометрической модели заключается в нахождении значений оценок параметров модели, удовлетворяющих как минимум условию состоятельности. На практике часто используются две процедуры: метод максимального правдоподобия (ММП) и метод наименьших квадратов (МНК).

В табл. 3.1 приведены процедуры вычисления по результатам наблюдений несмещенных и эффективных оценок основных количественных характеристик законов распределения.

Таблица 3.1

Вычисления основных количественных характеристик законов распределения

Наименование характеристики

Теоретическое

значение

Несмещенная оценка

Математическое ожидание

Дисперсия

Ковариация между х и у

Опенка в виде определенного числа называется в статистике точечной. Наряду с точечной на практике часто пользуются интервальной оценкой параметра.

Интервальной оценкой параметра а называется числовой интервал (т-, т+), который с заданной вероятностью Рдов "накрывает" неизвестное значение параметра а.

Такой интервал называется доверительным, а Рдов – доверительной вероятностью. Размер доверительного интервала существенно зависит от объема выборки и уровня доверительной вероятности. Размер доверительного интервала уменьшается с увеличением объема выборки и сокращается с ростом доверительной вероятности.

 
< Пред   СОДЕРЖАНИЕ     След >