Определение вида зависимости у от х
После того, как с помощью корреляционного анализа выявлена степень тесноты статистических связей между переменными, как правило, переходят к определению вида зависимостей с использованием уравнения регрессии. С этой целью подбирают класс функций, связывающий результативный признак у и аргумент х. Термин «регрессия» (лат. — regression — отступление, возврат к чему-либо) введен английским психологом и антропологом Фрэнсисом Гальтоном и обусловлен спецификой примера, в котором это понятие было впервые использовано. Так, обрабатывая статистические данные в связи с анализом наследственности роста,
Ф. Гальтон нашел, что если отцы отклоняются от среднего роста всех отцов на х дюймов, то их сыновья отклоняются от среднего роста всех сыновей меньше, чем на х дюймов. Выявленная тенденция была названа «регрессией к среднему состоянию». С тех пор термин «регрессия» широко применяется в статистической литературе, хотя во многих случаях он недостаточно точно характеризует понятие статистической зависимости.
Для описания уравнения регрессии в статистической практике главным образом ограничиваются поиском подходящих аппроксимаций для неизвестной функции регрессии /(х). Пусть имеется п наблюдений (х,, */,), (х2,у2), ..., (хи, уп). Требуется по этим двумерным данным определить /(х). На основании предварительного анализа исследуемого явления предполагается, что в «среднем» у есть линейная функция отх. Таким образом, предполагается, что зависимость у отх корреляционная и линейная, т.е. у = Ь0 + Ь{х.
Задача определения вида зависимости сводится к нахождению параметров Ь0 и Ьх уравнения регрессии. Для этого в основном используют метод наименьших квадратов, где в качестве параметров фигурируют такие значения, которые минимизируют сумму квадратов отклонений наблюдаемых значений г/; от расчетных у.

Рис. 5.4. Построение линейного уравнения регрессии
Разделив на п левую и правую части обоих уравнений, запишем
Отсюда
Поставив выражение Ь0 во второе уравнение, имеем
На основании двумерных данных получили количественное представление зависимости у от х вида у - Ь()+ Ь{х.
Здесь Ь0 — свободный член уравнения, характеризующий среднее значение у при х = 0. Как правило, содержательно не интерпретируется.
Коэффициент регрессии Ь{ показывает, на какую величину в среднем изменится у, если х увеличить на единицу его измерения.
Адекватность уравнения регрессии исследуемому явлению описывается остаточной дисперсией:
В линейной модели у = Ь0+ Ькх коэффициент регрессии связан с коэффициентом корреляции следующим соотношением:
а в уравнении регрессии х по у, когда х = Ь'п + Ь'у , имеет место функциональная зависимость между средним значением х и переменной у.
Отсюда следует, что ЬЬ - г2, а знаки коэффициентов регрессии и коэффициента корреляции совпадают. Квадрат коэффициента корреляции г2 называют коэффициентом детерминации. Он характеризует долю дисперсии у, объясняемой влиянием х.
Пример 5.4
По данным годовых отчетов десяти (п = 10) машиностроительных предприятий построить уравнение регрессии, характеризующее зависимость производительности труда у (тыс. руб. на чел.) от объема производства х (млн руб.). Предполагается, что уравнение регрессии линейно и имеет вид у = Ь0+ 1х. Исходные данные для анализа представлены в табл. 5.2.
10
Решение. Согласно (5.11), учитывая, что ?хд = 666,5, получим
Исходные данные и результаты расчетов
Номер предприятия (0 |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
|
|
|
|
|
|
|
|
Сумма |
61,5 |
75 |
835 |
272,5 |
- |
- |
|
Средняя |
6,15 |
7,5 |
83,5 |
- |
- |
- |
Таким образом, оценка регрессии будет иметь вид у = Ь0+ Ь{х. После подстановки окончательно запишем у = 0,502 + 0,753*.
Из уравнения регрессии следует, что при увеличении объема производства на единицу его измерения производительность труда в среднем увеличивается на 0,753 тыс. руб.
Для интерпретации модели можно также воспользоваться коэффициентом эла-
х 7 5
стичности, значение которого е, = Ь, — = 0,753—-— = = 0,918 показывает, что при уве-
1 ' у 6,15
личении объема производства * на 1% производительность труда у в среднем увеличится на 0,918%.
Перейдем к статистическому анализу полученного уравнения регрессии и рассчитаем остаточную дисперсию 52, абсолютные ei = у. - у. и относительные
е.
8. = —100% ошибки аппроксимации. Остаточная дисперсия равна Уг
Теперь среднюю относительную ошибку аппроксимации вычислим, как
где 15, | — абсолютное значение относительной ошибки аппроксимации. Среднее значение относительной ошибки 14,54% говорит о том, что наша модель достаточно хорошо согласуется с исходными данными.
Самую низкую эффективность но производительности труда, как следует из табл. 5.2, имеет третье предприятие. У этого предприятия производительность труда г/3 = 3,2 тыс. руб. на человека, что на 33,4% ниже того, что имело бы «среднее» предприятие с объемом производства *3 = 5,0 млн руб. По производительности труда лучшим признается шестое предприятие, у которого этот показатель на 12,9% выше среднего значения по рассматриваемым предприятиям при * = 5.