Статистика качества модели

Продолжим работу с компьютерной моделью парной регрессионной зависимости, которая получилась у нас после выполнения последнего упражнения. Пусть снова р0 = О, Р, = 1 и модель по-прежнему имеет вид

Важнейший вопрос, на который нам следует ответить, состоит в следующем: в какой мере переменная X «объясняет» переменную У? Точнее, в какой мере поведение У подчиняется закону (функции), ставящему ее в зависимость от X, а в какой — случайной составляющей?

Так как модель У = 1+ е в упражнении 10.1 мы создали своими руками, в нашем распоряжении имеется вся информация для ответа на этот вопрос. Вариация переменной У представляет собой некоторую комбинацию вариации переменной X и случайной ошибки е. Моделируя обе эти величины, мы пользовались функцией «=СЛЧИС», генерирующей равномерно распределенные значения в интервале от 0 до 1. Из главы 3 нам уже известно теоретическое стандартное отклонение такой переменной. В рамках данного закона распределения оно полностью определяется минимумом и максимумом по формуле (3.29) и составляет примерно 0,29. В модели (10.13) закономерная и случайная компоненты вносят одинаковый вклад в Y; соответственно, и вклад их вариаций в вариацию зависимой переменной также должен быть одинаковым. Если принять дисперсию (или стандартное отклонение) Y за единицу, вклад закономерной и случайной составляющей должен составить по 0,5. Из предыдущего раздела вы уже знаете, что долю единичной дисперсии зависимой переменной, «объясняемой» независимой переменной, показывает коэффициент детерминации г Для модели (10.13) он должен составить 0,5; соответственно, коэффициент корреляции составит 5 = 0,7. Проверим наши предположения.

Вернемся к последнему пункту упражнения 10.1, где нами была сконструирована компьютерная модель линейной связи, и выполним

Упражнение 10.2

  • 1. Используя функцию «=СТАНДОТКЛОН», рассчитайте стандартные отклонения закономерной (У = р„ + р,Л) и случайной (е) компонент (рис. 10.11).
  • 2. Используя функцию «=КОРРЕЛ», рассчитайте коэффициент корреляции Пирсона между закономерной (Y = = Р„ + Р,А) компонентой и Y(Y = р(> + p,,Y + ?).
  • 3. Получите коэффициент детерминации, возведя полученный на предыдущем шаге коэффициент корреляции в квадрат.

Рис. 10.11

Полученные значения соответствуют нашим ожиданиям. Несколько раз пересчитав модель, вы убедитесь, что стандартные отклонения, коэффициенты корреляции и детерминации колеблются вокруг теоретических значений, рассчитанных нами выше.

Теперь изменим коэффициент р, с 1 на 2, увеличивая таким образом силу влияния X на Y. Это приводит к двукратному увеличению стандартного отклонения[1] закономерной компоненты К, в то время как стандартное отклонение случайной составляющей остается неизменным. Теперь вклад закономерной части в общую вариацию Y выше по сравнению со случайной. Соответственно, увеличивается коэффициент корреляции и детерминации. Графически эти изменения показаны на рис. 10.12д, б. На рисунках видно, что с увеличением коэффициента р, точки стали более плотно «прилегать» к линии регрессии.

Рис 10.12

Из этих рассуждений вытекает несколько очень важных с практической точки зрения следствий. Первое из них состоит в том, что вопрос об объяснительной силе модели — это вопрос о доле вариации закономерной компоненты в общей вариации зависимой переменной. Под другим углом зрения — это вопрос о доле вариации случайной составляющей в общей вариации зависимой переменной. Изменение «угла зрения» ничего не меняет по сути, так как в соответствии с моделью линейной регрессии зависимая переменная определяется как сумма закономерности и случайности.

Сформулируем эти утверждения математически. Сумма квадратов отклонений значений зависимой перемен-

п

ной от ее среднего — - Y)2 — складывается из суммы

/=1

квадратов отклонений предсказанных значений от средне- " „ _ п

го — 2*(Yi-Y)2 и суммы квадратов ошибки — ?е2 (см. -1

рис. 10.13).

Рис. 10.13

Иначе это можно записать таким образом:

где TSS (Total Sum of Squares) — общая сумма квадратов, ESS (Explained Sum of Squares) — объясненная сумма квадратов, RSS (Residual Sum of Squares) — сумма квадратов остатков.

Часть общей суммы квадратов, объясненная регрессионной моделью, обозначается регрессионным коэффициентом детерминации R2 и представляет собой отношение объясненной суммы квадратов к общей сумме квадратов:

Регрессионный коэффициент детерминации R2 — обязательная составляющая статистики регрессионного анализа. Он показывает, какую долю вариации зависимой переменной объясняют все независимые переменные, включенные в регрессионную модель. Когда независимая переменная только одна, как в нашем примере, регрессионный коэффициент детерминации R2 равен корреляционному коэффициенту детерминации г2.

Рассмотрим расчет коэффициента детерминации R2 на практическом примере.

В качестве зависимой переменной возьмем электоральную активность избирателей — явку на избирательные участки на выборах депутатов Государственной Думы в 2007 г., в процентах от общего числа избирателей (А). В качестве независимой переменной будет выступать доля городского населения (U, % от общей численности населения). Данные взяты в разрезе субъектов Российской Федерации, объем выборки — 40 случаев (см. табл. 10.5; в электронном виде данные доступны по ссылке http://polit.msu.ru/kaf/ labquant/).

Таблица 10.5

А

и

А

V

А

V

А

V

I

86,42

37,4

11

96,68

58,5

21

60,26

94,8

31

80,41

79,2

2

54,29

73,2

12

57,11

76,8

22

78,53

63,2

32

63,90

73,1

3

62,45

66

13

55,95

76

23

94,49

59,4

33

61,39

80,6

4

89,70

59,6

14

92,44

44

24

55,10

100

34

66,95

91,2

5

56,74

75,3

15

54,90

75,8

25

71,01

64,2

35

67,21

81,4

6

64,42

68,4

16

71,09

71,7

26

51,58

100

36

99,46

34,4

7

66,85

62,8

17

65,11

75,7

27

61,69

73,9

37

70,64

57,3

8

91,71

42,6

18

64,55

52,6

28

85,40

74,6

38

78,66

66,5

9

98,35

42,9

19

59,54

75,4

29

59,18

68,6

39

84,87

85,0

10

58,80

79

20

53,6

66,3

30

80,74

51,4

40

62,32

81,6

Мы предполагаем, что в российских условиях связь между городским населением и явкой будет иметь отрицательное направление: с ростом городского населения условное среднее значение явки будет сокращаться. Формально это означает, что коэффициент р, будет отрицательным. Соответственно, наше предположение состоит в том, что зависимость явки от доли городского населения описывается линейной моделью вида

Содержательное основание данной гипотезы заключается в том, что социальные сети на селе являются значительно более плотными по сравнению с городами; следовательно, усилия по мобилизации сельского электората (в том числе с использованием административного ресурса) будут более эффективны.

Упражнение 10.3

1. Оценим коэффициенты регрессионного уравнения А = b0 + 6, U. Для этого построим диаграмму рассеивания и воспользуемся опциями «добавить линию тренда» и «показать уравнение на диаграмме» (см. рис. 10.14).

Рис. 10.14

Итак, оцененная модель имеет вид

Дадим содержательную интерпретацию коэффициента 6,. Размерность независимой и зависимой переменной одна и та же — %. Следовательно, увеличение доли городского населения на 1% приводит к снижению явки в среднем на 0,6275%.

  • 2. Воспользуемся формулой (10.16), чтобы рассчитать предсказанные значения Л, для каждого наблюдения (все используемые функции показаны на рис. 10.17).
  • 3. Убедитесь, что все предсказанные моделью значения лежат на одной прямой. Постройте диаграмму рассеивания, отложив U по оси абсцисс и А по оси ординат (рис. 10.15).

Рис. 10.15

Рассчитайте:

  • а) среднее арифметическое Л;
  • б) отклонения А от среднего: А, — А;
  • в) квадраты отклонений А от среднего: (А, — А)2;
  • г) отклонения А от среднего А: А — А; л
  • д) квадраты отклонений А от среднего А: (А — А)2;
  • е) сумму квадратов отклонений А от среднего: ?(4 - А)2;
  • ж) сумму квадратов отклонений А от среднего: (А, - А)2;

з) R2 как отношение суммы квадратов отклонений А к сумме квадратов отклонений А:

Мы получили значение 0,47. Оно означает, что доля городского населения объясняет 47% вариации явки. В программе Excel имеется возможность рассчитать R2 автоматически: для этого в меню «Формат линии тренда» нужно поставить флажок напротив опции «поместить на диаграмму величину достоверности аппроксимации» (рис. 10.16а, б).

Рис. 10.16

  • 4. Рассчитайте коэффициент корреляции между А и U: г (A, U) = -0,69.
  • 5. Возведите коэффициент корреляции r(A,U) в квадрат. Убедитесь, что г2 = R2. Подчеркнем, что это справедливо только для моделей с одной независимой переменной.

Существует еще одно представление коэффициента детерминации R2, помимо (10.15). Регрессионный коэффициент детерминации R2 равен квадрату коэффициента корреляции между наблюдаемыми и предсказанными значениями:

Чтобы убедиться в этом, рассчитаем:

  • а) Коэффициент корреляции между А и А. Он составит 0,69.
  • б) Квадрат коэффициента корреляции между А и А: он будет равен 0,47.

Наконец, мы можем получить регрессионный коэффициент детерминации R2, отталкиваясь не от доли объясненной вариации, а наоборот — от доли необъясненной, остаточной вариации. Для этого следует вычесть из единицы отношение суммы квадратов остатков к общей сумме квадратов:

для знаменателя правой части уравнения (10.17), не хватает числителя.

2. Рассчитаем остатки, которые представляют собой разности между наблюдаемыми и предсказанными значениями: е, = А,: - А (функции приведены на рис. 10.18).

Рис. 10.18

3. Возведем все значения остатков в квадрат: е}.

п

4. Рассчитаем сумму квадратов остатков

/=1

5. Получим значение R2 по формуле (10.17), вычтя из единицы отношение суммы квадратов остатков к обшей сумме квадратов. Вновь мы получили 0,47.

Итак, существует несколько альтернативных способов получить значение регрессионного коэффициента детерминации. Но все они имеют в основе общую идею: расчет доли объясненной вариации зависимой переменной в ее общей вариации.

Полученный в ходе выполнения последнего упражнения столбец остатков е, понадобится нам для расчета еще одного регрессионного показателя, оценивающего общее качество модели. Он называется стандартной ошибкой оценки (SE) и измеряет среднее отклонение предсказанных значений от наблюдаемых, средний остаток:

Формула (10.18) очень похожа на формулу стандартного отклонения (6.7) с учетом двух отличий. Во-первых, мы берем не отклонения от среднего, а отклонения от предсказанного значения. Во-вторых, в знаменателе вместо п - 1 стоит л-2. Это обусловлено тем, что расчет двух оценок параметров регрессионного уравнения (Ь0 и Ь{) «забирает» две степени свободы.

Рассчитаем стандартную ошибку оценки для примера с явкой избирателей.

Упражнение 10.5

1. Разделите полученную в упражнении 10.4 сумму ква-

п

дратов остатков на число случаев минус два (40 - 2 = 38). 1=1

Получится 113,22.

2. Извлеките квадратный корень из результата предыдущего расчета. Стандартная ошибка оценки составит 10,64 (см. рис. 10.19).

Рис. 10.19

Стандартная ошибка оценки имеет ту же размерность, что и зависимая переменная. В данном случае результат 10,64 означает, что регрессионная модель (10.15) при предсказании явки на основе доли городского населения в среднем «ошибается» на 10,64%.

Чтобы понять, насколько эта ошибка велика, полезно сравнить ее со стандартным отклонением зависимой переменной. Рассчитаем стандартное отклонение явки, используя функцию «=СТАНДОТКЛОН». SA = 14,43. Стандартная ошибка оценки существенно меньше стандартного отклонения зависимой переменной. Чем больше объяснительная сила модели, чем выше R2, тем больше будет стандартное отклонение зависимой переменной по сравнению со стандартной ошибкой. Это положение проиллюстрировано на рис. 10.20а, б.

Рис. 10.20

На первом рисунке показана модель со сравнительно небольшой объяснительной силой. R2 составляет 0,54; это означает, что независимая переменная объясняет несколько более половины вариации зависимой. Стандартная ошибка оценки (0,2) примерно вполовину меньше стандартного отклонения зависимой переменной (0,41). На втором рисунке показана очень сильная модель с R2 = 0,91. Стандартная ошибка оценки (0,09) теперь уже более чем в 10 раз меньше, чем стандартное отклонение зависимой переменной (0,95). Визуально это выражается в том, что разброс значений (наблюдаемых) вокруг линии регрессии (предсказание) существенно сократился. Среднее отклонение остатков уменьшилось.

Подведем первые промежуточные итоги. По результатам парного регрессионного анализа мы имеем практически:

  • 1. Оцененную с помощью метода наименьших квадратов регрессионную модель, позволяющую делать предсказания о значениях зависимой переменной на основе значений независимой. В примере с явкой и городским населением эта модель имеет вид Л = 114,17 — 0,627?/;.
  • 2. Статистику качества модели, отражающую точность предсказаний. Она состоит из:
    • а) регрессионного коэффициента детерминации R2, показывающего долю вариации зависимой переменной, которую объясняет независимая переменная. В нашем примере этот показатель равен 0,47; следовательно, фактор урбанизации объясняет 47% колебаний явки. Имеется также способ косвенно оценить статистическую значимость коэффициента детерминации (об этом ниже);
    • б) стандартную ошибку оценки SE, показывающую, насколько модель ошибается в среднем (в единицах измерения зависимой переменной). SE= 10,64, следовательно, средняя ошибка при предсказании явки составляет 10,64%. Хорошо, что она существенно меньше стандартного отклонения зависимой переменной (14,43%).
  • 3. Статистику, оценивающую влияние независимой переменной. В этом качестве выступает коэффициент Ьх, показывающий, насколько в среднем изменится значение зависимой переменной (в ее единицах измерения) при изменении независимой переменной (в ее единицах измерения) на единицу. Ьх ~ -0,63; следовательно, увеличение доли городского населения на 1% приведет к снижению явки в среднем на 0,63%. Или, что то же самое, снижение доли городского населения на 1% приведет к увеличению явки в среднем на 0,63%.

В программе Excel имеется способ рассчитать всю приведенную статистику значительно быстрее, чем мы делали это до сих пор. Воспользуемся надстройкой «Анализ данных», в ней найдем раздел «Регрессия» (см. рис. 10.21).

В появившемся окне (рис. 10.22) следует указать входной интервал для зависимой переменной и входной интервал для независимой переменной (если в первой строке указаны названия переменных, не забудьте поставить флажок «Метки»). Кроме того, полезно предпринять анализ остатков, поэтому еще один флажок ставим в соответствующем окошке.

Рис. 10.22

Таблица 10.6

Регрессионная статистика

Множественный R

0,69

R- квадрат

0,47

Нормированный /?-квадрат

0,46

Стандартная ошибка

10,64

Наблюдения

40,00

Распечатка регрессионной статистики состоит из. следующих блоков. Первый блок — статистика качества модели. В нем два основных подраздела. Сначала приводятся основные числовые характеристики полученной модели (см. табл. 10.6).

Множественный R — коэффициент корреляции между наблюдаемыми и предсказанными значениями. Понятия «/?-квадрат» и «стандартная ошибка» детально рассмотрены нами выше. «Нормированный /?-квадрат» (правильнее было бы назвать его «скорректированный Л-квадрат») — R2, скорректированный на число степеней свободы. Его значение будет, как правило, несколько меньше, чем у «простого» R2.

Второй подраздел, посвященный качеству модели, содержит статистику дисперсионного анализа (табл. 10.7).

Таблица 10.7

Дисперсионный анализ

df

ss

MS

F

Значимость F

Регрессия

1,00

3815.50

3815,50

33,70

0,00

Остаток

38,00

4302,30

113,22

Итого

39,00

8117,81

В регрессии дисперсионный анализ используется для оценки статистической значимости коэффициента R2. Его применение основано на представлении совокупной дисперсии зависимой переменной как суммы «объясненной» и «необъясненной» частей, /•'-отношение для проверки общего качества модели представляет собой отношение объясненной суммы квадратов к остаточной сумме квадратов (10.19). Как и в «обычном» дисперсионном анализе, необходима коррекция на число независимых переменных и на число степеней свободы:

где к — число оцениваемых параметров, которое зависит от числа независимых переменных. Так, в парной регрессии одна независимая переменная, следовательно, оцениваются два параметра — р0 и р,. Соответственно, к = 2.

Выражение (10.19) можно переписать, разделив числитель и знаменатель на TSS это дает нам включение в него R2:

В нашем примере:

Далее полученное значение F сравнивается с критическим точно так же, как это делается в «обычном» дисперсионном анализе (см. главу 7). В данном случае расчетное F во много раз превышает критическое, наблюдаемый уровень значимости составляет 0,000001. Это означает, что объясненная часть дисперсии не является случайным эффектом выборки.

Второй раздел итоговой распечатки посвящен отдельным параметрам модели (см. табл. 10.8).

Таблица 10.8

Коэффициенты

Стандартная ошибка

/-статистика

р-значе-

ние

Нижние

95%

Верхние

95%

У-перессченис

114,17

7,65

14,93

0.00

98,69

129,65

и

-0,63

0,11

-5,81

0.00

-0,85

-0,41

Таблица содержит оценку коэффициентов (К-пересечение в нашей записи означает Ьп), их стандартную ошибку, /-статистику и наблюдаемый уровень значимости (р-значе- ние), а также интервальные оценки.

Обратите внимание на понятия стандартной ошибки и доверительных интервалов для коэффициентов регрессии. Следует вспомнить, что приведенные в таблице оценки (Ь0 и Ь) коэффициентов подвержены влиянию случайной составляющей, хотя оцениваемые параметры р0 и Ь{ представляют собой закономерную часть регрессионной модели. Если в оценках Ьп и 6, имеется стохастическая составляющая, они являются случайными величинами и как таковые обладают вариацией. Стандартная ошибка коэффициента регрессии представляет собой оценку его теоретического стандартного отклонения. Она позволяет судить о том, с какой точностью рассчитаны коэффициенты. В нашем примере стандартная ошибка Ьп составляет 7,65; это означает, что при расчете значения коэффициента мы в среднем ошибаемся на 7,65. Аналогично, среднее отклонение 6, от истинного р, составляет 0,11.

Здесь мы не будем приводить всю технику расчета стандартных ошибок регрессионных коэффициентов. Однако обратим самое пристальное внимание на то, от каких факторов зависит этот показатель. Во-первых, от величины стандартной ошибки, которая определяется соотношением вариаций случайной составляющей и независимой переменной. По существу, это все тот же вопрос об отношении доли случайности и доли закономерности в вариации зависимой переменной.

Посмотрите на диаграммы ниже, где пунктирной линией показана теоретическая линия регрессии, сплошной — оцененная. На рис. 10.23а стандартное отклонение X в два раза больше, чем на рис. 10.236, при одинаковом стандартном отклонении стохастической компоненты. Вследствие этого стандартные ошибки коэффициентов (особенно углового) на рис. 10.23а существенно меньше по сравнению с рис. 10.236. Соответственно, точность оценок коэффициентов на левом рисунке значительно выше.

Рис. 10.23

Второй фактор, влияющий на точность оценки коэффициентов регрессии, — число случаев в рассматриваемой выборке. Чем большим объемом информации мы располагаем, тем точнее будет оценка. На рис. 10.24а регрессионная модель рассчитана по 10 случаям, на рис. 10.246 — по 100 случаям, прочие условия равны. Вновь пунктирной линией показана теоретическая линия регрессии, сплошной — оцененная.

На правом рисунке точность оценок значительно выше, чем на левом, о чем свидетельствуют величины стандартных ошибок.

Рис. 10.24

Та же самая логика распространяется и на интервальные оценки. Чем выше модульное значение углового коэффициента и чем больше объем выборки, тем меньше будет ширина доверительного интервала. Кстати, в табл. 10.8 загадочные слова «верхние 95%» и «нижние 95%» переводятся на нормальный статистический язык так: «верхняя граница интервала на доверительном уровне 0,95» и «нижняя граница интервала на доверительном уровне 0,95». Более наглядное представление об интервальных оценках для углового параметра можно получить, посмотрев на рис. 10.25 (пунктирные линии).

Рис. 10.25

Статистика Стьюдента (/-статистика) и наблюдаемый уровень значимости (//-значение) характеризуют степень статистического доверия к полученным оценкам регрессионных параметров. Нас интересует, прежде всего, угловой коэффициент. Как и в корреляционном анализе, нулевая гипотеза содержит утверждение об отсутствии связи между независимой и зависимой переменными:

Полученное ^-значение показывает вероятность отказа от нулевой гипотезы, когда она истинна. В данном случае (см. табл. 10.8) такая вероятность чрезвычайно мала. Поэтому мы уверенно отказываемся от нулевой гипотезы в пользу альтернативной, согласно которой связь между независи-

Та блица 10.9

Наблюдение

Предсказанное А

Остатки

Наблюдение

Предсказанное А

Остатки

1,00

90,70

-4.28

21,00

54,68

5,58

2,00

68,23

-13,94

22,00

74,51

4,02

3,00

72,75

-10,30

23,00

76,89

17,60

4,00

76,77

12,93

24,00

51,42

3,68

5,00

66,92

-10,18

25,00

73,88

-2,87

6,00

71,25

-6,83

26,00

51,42

0,16

7,00

74,76

-7.91

27,00

67,79

-6,10

8,00

87,43

4,28

28,00

67,35

18,05

9,00

87,25

11,10

29,00

71,12

-11.94

10.00

64,59

-5.79

30,00

81,91

-1,17

11,00

77,46

19,22

31,00

64,47

15,94

12,00

65,97

-8,86

32,00

68,30

-4,40

13,00

66,48

-10,53

33,00

63,59

-2,20

14,00

86,56

5,88

34,00

56,94

10,01

15,00

66,60

-11,70

35.00

63,09

4,12

16,00

69,17

1.92

36,00

92,58

6,88

17.00

66,66

-1,55

37,00

78,21

-7,57

18.00

81,16

-16,61

38,00

72,44

6.22

19.00

66.85

-7,31

39,00

60,83

24,04

20.00

72,56

-18,96

40,00

62,96

-0,64

мой и зависимой переменной существует и в генеральной совокупности. Как и для корреляции, оценка значимости регрессионных коэффициентов чрезвычайно важна: рассматривать незначимые коэффициенты содержательно — попусту тратить время. Поэтому р-значения — это первое, на что мы смотрим в регрессионной статистике, посвященной влиянию отдельных предикторов.

Наконец, в конце распечатки результатов приводится таблица с предсказанными значениями Y и остатками е( (см. табл. 10.9).

Эти значения уже были нами рассчитаны по шагам. Проверьте правильность вычислений, сравнив полученные вами результаты с результатами, приведенными в табл. 10.9.

  • [1] Напомним, что при умножении всех значений переменной на числопроисходит умножение стандартного отклонения этой переменной на тоже число. Это свойство рассмотрено нами в главе 3.
 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >