Требования, предъявляемые к данным

Рассматривая итоговую статистику регрессионного анализа, необходимо быть уверенными в том, что полученные оценки отражают поведение признаков в реальности. В основе всех наших расчетов лежит метод наименьших квадратов. Следует тщательно следить за тем, чтобы: 1) этот метод был принципиально применим к решению аналитической задачи и 2) выполнялся набор условий, при котором МНК дает наилучшие (несмещенные, состоятельные и эффективные) оценки параметров. Принципиальная применимость МНК (как и любого линейного метода, в том числе рассмотренной выше корреляции Пирсона) связана с линейной формой связи и с параметрическим типом шкалы всех переменных[1]. Эти проблемы мы детально рассмотрели выше и не будем останавливаться на них вновь. Сосредоточимся на условиях получения наилучших оценок с помощью МНК, тем более что только часть из них мы рассматривали в контексте корреляционного анализа.

Первым условием является близость распределений переменных к нормальному. Мы уже знакомы с тремя распространенными типами отклонений распределений от нормального вида: расслоением совокупности, выбросами и асимметрией. Применительно к регрессии особое значение имеет отсутствие выбросов; поясним это специально.

В методе наименьших квадратов «вес» каждого наблюдения в расчете параметров линии регрессии предполагается равным. В примере с влиянием урбанизации на явку мы исходили из того, что каждый регион вносит одинаковый «вклад» в результаты анализа; было бы странно считать Томскую область важнее Саратовской. Наличие выброса нарушает этот принцип «равновесности» наблюдений. Точка, расположенная далеко от основной тенденции рассеивания данных (рис. 10.26), приобретает значительно больший вес по сравнению с другими случаями. Напомним, что МНК представляет собой метод оценки параметров, минимизирующий сумму квадратов остатков (10.11). Иначе говоря, ищется такое положение линии регрессии, когда сумма квадратов расстояний от нее до всех точек минимальна. Квадрат расстояния от «истинной» линии до выброса оказывается «астрономическим»; чтобы компенсировать этот эффект, линия смещается в сторону выброса. Фактически, выбросы «тянут на себя» линию регрессии, вызывая смещение оценок параметров.

Рис. 10.26

Еще одна нередко встречающаяся в социально- политических данных проблема с распределениями — гетероскедастичность («неодинаковая изменчивость»). В противоположность гомоскедастичности («равноизменчивости»), этот термин означает, что теоретическая дисперсия различных наблюдений неодинакова.

Но что такое «дисперсия наблюдения», ведь это одно конкретное число? Прежде всего, вспомним, что статистический анализ рассматривает переменные как случайные величины, включающие в себя закономерную и случайную составляющие. После извлечения выборки случайные величины приобретают конкретные значения; однако если бы мы имели возможность извлечь другую выборку, эти значения могли бы также стать другими (этот вопрос мы детально обсуждали в главе 3).

Условие гомоскедастичности предполагает отсутствие причин, по которым дисперсия одних наблюдений должна закономерно отличаться от дисперсии других наблюдений. Оно выполняется, например, на рис. 10.20я, б. На этих диаграммах отклонения точек от линии регрессии иногда больше, иногда меньше; но нет оснований полагать, что для одних наблюдений дисперсия систематически больше, чем для других. Покажем диаграмму, где это условие не выполняется и имеет место гетероскедастичность (рис. 10.27).

Рис. 10.27

Мы видим, что дисперсия наблюдений возрастает вместе со значениями независимой переменной: при больших значениях X мы ожидаем большей вариации Y, чем при малых. Имеется систематическая (закономерная) зависимость дисперсии Yот значений X. В терминах регрессионной модели это также означает, что дисперсия случайного члена е непостоянна и зависит от X.

Конкретным примером такого рода совместного распределения может быть зависимость между ВВП государств (GDP) и их расходами на оборону (МЕХР). Дисперсия расходов на оборону для стран с малыми объемами ВВП будет небольшой, так как они попросту не могут себе позволить тратить очень большие средства в этой сфере (как и в любой другой). Страны со значительным объемом ВВП могут тратить на оборону большую или меньшую долю своих доходов, в зависимости от внешних угроз, реализуемого политического курса, особенностей исторического развития и многих других причин. Дисперсия расходов на оборону в этой второй группе стран будет закономерно больше, чем в первой (см. рис. 10.28).

Рис. 10.28

Следует подчеркнуть, что гетероскедастичность совсем не обязательно должна проявляться в увеличении дисперсии зависимой переменной с ростом значений независимой. Любое закономерное изменение дисперсии свидетельствует о гетероскедастичности. Например, на рис. 10.29 дисперсия У нелинейно зависит от X.

Рис. 10.29

Кстати, рис. 10.29 дает пример отсутствия регрессионной связи (условное среднее У не зависит от А", линия регрессии параллельна оси абсцисс) при наличии статистической связи в целом (условная дисперсия У зависит от X).

В чем проявляется негативное влияние гетероскедастичности на качество результатов регрессионного анализа? Во- первых, оценка параметров методом наименьших квадратов перестает быть наиболее эффективной. При вычислениях с использованием МНК мы, как известно, исходим из предположения о равной ценности каждого наблюдения для расчета параметров. Но при наличии гетероскедастичности лучшими ориентирами для линии регрессии являются наблюдения с меньшей дисперсией. Например, на рис. 10.27 точки, которые находятся около значения 50 по оси абсцисс (в левой части диаграммы), гораздо лучше «направляют» теоретическую прямую, чем точки с большой дисперсией в правой части диаграммы. Если бы мы смогли найти способ придать большие веса точкам с меньшим разбросом, мы получили бы более эффективные оценки по сравнению с оценками, полученными методом наименьших квадратов.

Во-вторых, отсутствие гомоскедастичности может приводить к занижению стандартной ошибки регрессионных коэффициентов и, соответственно, завышению их статистической значимости. Следовательно, создается неверное представление о точности построенной модели. Это особенно существенно в тех случаях, когда статистическая значимость коэффициентов лежит «на грани» приемлемого доверительного уровня. Так, например, при р = 0,04 был бы сделан вывод о том, что коэффициент значим на уровне 0,05. Однако в условиях гетероскедастичности истинное значение р может быть значительно выше, и вывод об отклонении нулевой гипотезы на этом уровне значимости оказался бы поспешным.

Существует два основных средства «борьбы» с гетеро- скедастичностью. Прежде всего, мы можем попытаться изменить размерность участвующих в анализе переменных, используя некоторый дополнительный признак. Так, в примере с зависимостью государственных расходов на оборону от ВВП мы можем попытаться использовать переменную «численность населения страны» (POP) для масштабирования данных. Разделив и зависимую, и независимую переменную на численность населения, мы перейдем к переменным «расходы на оборону на душу населения» и «ВВП на душу населения». Таким образом, мы переходим от оценки модели

к оценке модели

в которой дисперсия случайного члена может стать постоянной. Впрочем, хотя этот способ практически всегда снижает гетероскедастичность, он далеко не всегда устраняет ее.

Второй способ тот же, что мы использовали для выравнивания асимметричности распределений, — логарифмирование. Вообще говоря, в определенном смысле гомоскеда- стичность можно считать специальным случаем асимметрии. В примере с расходами на оборону и ВВП именно логарифмирование дает хорошие результаты (см. рис. 10.30; сравните с рис. 10.28).

Рис. 10.30

Еще одно важное условие использования линейной регрессии методом наименьших квадратов — отсутствие автокорреляции остатков. Детальная характеристика и формальное описание понятия автокорреляции выходят за рамки данного пособия, а потому мы определим его в самом общем виде. Автокорреляция подразумевает зависимость одних значений переменной от других значений той же самой переменной. К примеру, при наличии автокорреляции высокий уровень явки в одном российском регионе способствует повышению (положительная автокорреляция) или снижению (отрицательная автокорреляция) явки в другом российском регионе. Отсутствие же автокорреляции предполагает независимость наблюдений друг от друга. В регрессионном анализе тестируется автокорреляция ошибок модели: приводит ли положительное отклонение предсказания от фактического значения в одном случае к положительному или отрицательному отклонению в другом?

В принципе, наличие автокорреляции нетипично для данных вида «объект — свойство», на которые мы обращаем основное внимание в рамках этого учебника. Однако это совершенно обычная вещь во временных рядах, когда значение переменной в следующий момент времени зависит от ее значения в предыдущие моменты. К примеру, ав- токоррелированы временные ряды, содержащие сезонные (периодические) колебания (см. рис. 10.31а). На рис. 10.316 показан график остатков: явственно видна периодическая закономерность в отклонении наблюдений от линии регрессии.

юл

Рис. юл

Очень важный с практической точки зрения момент, связанный с автокорреляцией, заключается в следующем: регрессию методом наименьших квадратов в общем случае нельзя использовать для анализа временных рядов. В таком анализе стандартная модель У = |30 + PiA' + е не отражает реальность корректно, так как не принимает в расчет зависимость значений У от ее значений в предыдущие моменты времени. МНК-оценки параметров в таких случаях становятся неэффективными, их стандартные ошибки занижаются, — эти последствия наличия автокорреляции сходны с последствиями гетероскедастичности. Однако существуют ситуации, когда наличие корреляции приводит и к смещению оценки.

Кроме содержательного анализа рассматриваемых переменных на предмет зависимости наблюдений, имеется формальный инструмент обнаружения автокорреляции. Он называется тестом Дарбина—Уотсона. К сожалению, он реализован только в профессиональных программных приложениях, таких как SPSS, а его математический аппарат требует понимания логики анализа временных рядов. Поэтому мы ограничимся краткой характеристикой интерпретации результатов статистики Дарбина—Уотсона.

Численный результат теста (с!) принимает значения от нуля до четырех. В отсутствие автокорреляции d = 2. При наличии положительной автокорреляции d будет стремиться к нулю, отрицательной — к четырем. Так, в примере на рис.10.31 d = 0,49, что значительно меньше двух и явно указывает на положительную автокорреляцию, которая и имеет место в действительности.

  • [1] Из этого правила есть исключения (см. последний раздел даннойглавы).
 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >