Однофакторный линейный корреляционно-регрессионный анализ

Перечисленные в параграфе 11.2 методы исследования стохастических зависимостей (сравнение параллельных и динамических рядов, метод аналитических группировок, графический метод) позволяют выявить только общий характер и направление связи. Основная же задача факторного статистического анализа — определить степень влияния каждого фактора на уровень результативного показателя. Для этой цели применяются корреляционно-регрессионный анализ, дисперсионный, компонентный, дискриминантный, многомерный факторный анализ и г.д.

На практике наиболее широкое применение нашли приемы корреляционно-регрессионного анализа, которые позволяют количественно выразить взаимосвязь между показателями.

Корреляционная связь — это связь, где воздействие отдельных факторов проявляется только как тенденция (в среднем) при массовом наблюдении фактических данных.

Наиболее разработанной в теории статистики является методология так называемой парной корреляции — зависимости между двумя случайными величинами, не имеющей строго функционального характера, при которой изменение одной из случайных величин приводит к изменению другой. Например, зависимость между производительностью труда и объемом производства, зависимость между размерами активов банка и суммой прибыли банка; между ростом производительности труда и стажем работы сотрудников.

Для выявления и оценки связи между изучаемыми признаками в корреляционно-регрессионном анализе необходимо построить регрессионную модель (уравнение регрессии), которая лучше других будет отражать реально существующие связи между анализируемыми признаками. Выбор типа функции может опираться на теоретические знания об изучаемом явлении, опыт предыдущих исследований или осуществляться эмпирически — перебором и оценкой функций разных типов.

Наиболее простым уравнением, которое характеризует прямолинейную зависимость между двумя показателями, является уравнение прямой (уравнение однофакторной корреляционной связи)

где х — факторный признак; у — результативный признак; а и Ъ — неизвестные параметры уравнения регрессии.

Это уравнение описывает такую связь между двумя признаками, при которой с изменением факторного показателя на определенную величину наблюдается равномерное возрастание или убывание значений результативного по казател я.

Параметры a w b оцениваются с помощью специальных методов, наибольшее распространение из которых получил метод наименьших квадратов, суть которого заключается в том, чтобы подобрать параметры уравнения уг=а + Ьх с таким расчетом, чтобы квадраты суммарных отклонений фактических значений ряда х) от найденных по статистической модели х) были бы минимально возможными, т.е.

Для нахождения параметров а и b надо приравнять к нулю частные производные от полученного выражения по каждой искомой константе в отдельности. После соответствующих преобразований получают систему уравнений, которую называют нормальной:

где п — количество наблюдений.

Подставив в систему имеющуюся исходную информацию, рассчитывают параметры а и Ъ.

Параметр а является свободной переменной и не несет никакого экономического смысла, а параметр b — коэффициент регрессии — при наличии прямой зависимости имеет положительное значение, а в случае обратной зависимости — отрицательное. Кроме того, он показывает, насколько в среднем изменяется величина результативного признака у при изменении факторного признаках на единицу.

Например, по данным о стоимости оборудования (х) и производительности труда (у) методом наименьших квадратов получено уравнение

В этом случае коэффициент b означает, что увеличение стоимости оборудования на 1 млн руб. ведет в среднем к росту производительности труда на 2,08 тыс. руб.

Коэффициент регрессии применяют для определения коэффициента эластичности, который показывает, на сколько процентов изменится величина результативного признака у при изменении факторного признака хна 1%:

Для измерения тесноты связи между факторными и результативными показателями в однофакторном корреляционно-регрессионном анализе определяется коэффициент корреляции, который рассчитывается по формуле

где х — факторный признак; у — результативный признак; ах среднее квадратическое отклонение по признаку х; а — среднее квадратическое отклонение по признаку у.

Коэффициент корреляции принимает значение в интервале от -1 до + 1.

Если г < 0,3, то связь слабая; при г = (0,3...0,7) — средняя; при |г| > 0,7 — сильная (тесная). При |r| = 1 связь называется функциональной, а при г = 0 линейная связь между х и у отсутствует.

Квадрат коэффициента корреляции носит название коэффициента детерминации (R2).

Величина коэффициента детерминации служит одним из критериев качества линейной модели. Чем ближе его значение к единице, тем меньше роль случайных факторов, и, следовательно, данную линейную модель можно использовать для прогноза значений результативного признака.

Типовая задача 11.1

Известны данные о средней продолжительности жизни и потреблении мяса на душу населения по 20 странам мира (табл. 11.2). Проведите корреляционно-регрессионный анализ.

Таблица 11.2

Средняя продолжительность жизни и среднее потребление мяса

на душу населения

№ п/п

Страна

Средняя ожидаемая продолжительность жизни, лет

Потребление мяса, кг/ чел. в год

1

Австрия

77,0

95

2

Австралия

78,2

104

3

Белоруссия

68,0

59

4

Великобритания

77,2

72

5

Венгрия

70,9

59

6

Германия

77,2

86

7

Дания

75,7

98

8

Италия

78,2

79

9

Казахстан

67,6

50

10

Канада

79,0

98

11

Латвия

68,4

56

12

Нидерланды

77,0

88

13

Россия

66,6

46

14

Румыния

69,9

43

15

США

76,7

114

16

Украина

68,8

37

17

Финляндия

76,8

63

18

Франция

78,1

91

19

Чехия

73,9

70

20

Швейцария

78,6

56

Решение

Примем в качестве факторного признака х потребление мяса на душу населения в год (кг), а в качестве результативного признака у — среднюю ожидаемую продолжительность жизни (лет).

Для выявления наличия связи между признаками построим поле корреляции (рис. 11.2).

Точки поля корреляции расположены близко друг к другу и группируются вокруг некоторой линии. Поэтому можно сказать, что связь между признаками хну присутствует. Предположим, что она линейная, т.с. можно построить такую прямую линию, расстояние от всех точек графика до которой будет наименьшим (рис. 11.3).

Построим уравнение регрессии и определим его параметры.

Уравнением, которое характеризует линейную зависимость между двумя показателями, является уравнение прямой (уравнение однофакторной корреляционной связи): ух = а + Ьх.

Поле корреляции, отражающее зависимость между среднедушевым потреблением мяса и продолжительностью жизни человека

Рис. 11.2. Поле корреляции, отражающее зависимость между среднедушевым потреблением мяса и продолжительностью жизни человека

Линейный график зависимости между среднедушевым потреблением мяса и продолжительностью жизни человека

Рис. 11.3. Линейный график зависимости между среднедушевым потреблением мяса и продолжительностью жизни человека

Определим параметры а и b с помощью метода наименьших квадратов, для этого решим систему нормальных уравнений:

где п — количество наблюдений.

Построим рабочую таблицу для промежуточных расчетов (табл. 11.3). Подставим полученные данные в систему нормальных уравнений:

Решив систему уравнений, получим а = 63,21, b = 0,15. Следовательно, уравнение регрессии имеет вид

Таблица 113

Таблица промежуточных расчетов

№ п/п

X

У

X2

ху

1

95

77,0

9025

7315,0

2

104

78,2

10816

8132,8

3

59

68,0

3481

4012,0

4

72

77,2

5184

5558,4

5

59

70,9

3481

4183,1

6

86

77,2

7396

6639,2

7

98

75,7

9604

7418,6

8

79

78,2

6241

6177,8

9

50

67,6

2500

3380,0

10

98

79,0

9604

7742,0

11

56

68,4

3136

3830,4

12

88

77,0

7744

6776,0

13

46

66,6

2116

3063,6

14

43

69,9

1849

3005,7

15

114

76,7

12 996

8743,8

16

37

68,8

1369

2545,6

17

63

76,8

3969

4838,4

18

91

78,1

8281

7107,1

19

70

73,9

4900

5173,0

20

56

78,6

3136

4401,6

Сумма

1464

1483,8

116 828

110 044,0

Среднее

значение

73,2

74,19

5502,21

Таким образом, можно утверждать, что связь между душевым потреблением мяса и ожидаемой продолжительностью жизни прямая (b > 0), причем при увеличении потребления мяса на 1 кг на душу населения в год средняя продолжительность жизни увеличивается на 0,15 лет.

Для оценки тесноты связи между признаками определим линейный коэффициент корреляции:

тогда

Рассчитаем недостающие данные:

Поскольку коэффициент корреляции |г| > 0,7, то связь между признаками х и у сильная (тесная).

Оценим качество построенной модели (правильность выбора формы связи), для этого определим коэффициент детерминации: R2 = г2 = 0,58.

Таким образом, можно утверждать, что на среднюю ожидаемую продолжительность жизни только на 58% влияет факторный признак, т.е. среднедушевое потребление мяса в год. На остальные 42% влияют неучтенные факторы. В данном случае, возможно, целесообразно подобрать другое уравнение регрессии, которое будет более точно описывать связь между изучаемыми признаками.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >