Выбор наилучшей функции регрессии

Если функциональная форма связи между показателями неизвестна, необходимо построить несколько функций регрессии и выбрать из них наилучшую. Перечень функций, которые будут рассмотрены, определяется знаниями и предположениями, экспертными оценками относительно характера связи между показателями.

При прочих равных условиях критериями выбора наилучшей функции являются следующие.

  • 1. Статистическая значимость всех параметров при независимых переменных.
  • 2. Значимость всей функции в целом.
  • 3. Выполнение требований Гаусса – Маркова, предъявляемых к случайным остаткам модели, в первую очередь, постоянство дисперсии и независимость друг от друга.
  • 4. Минимальная доля остаточной дисперсии в общей дисперсии, т.е. максимальная величина коэффициента детерминации R2. Если модели регрессии содержат разное количество параметров, вместо R2 следует сравнивать скорректированные коэффициенты детерминации R2скорр.

Сопоставление функций по коэффициентам детерминации можно проводить только в том случае, если зависимая переменная представлена в моделях в одной и той же форме. Например, в линейной, полулогарифмической, полиномиальной функциях зависимая переменная у представлена в исходной форме:

– линейная функция;

– полулогарифмическая функция;

– полином второй степени.

В нелинейных функциях, линеаризация которых связана с преобразованием зависимой переменной, коэффициент детерминации рассчитывается для значений преобразованной переменной. Например, при логарифмировании зависимой переменной

при преобразовании зависимой переменой в обратной функции

Очевидно, что показатели детерминации, рассчитанные по исходным и преобразованным значениям зависимой переменной, сравнивать нельзя. Не является корректным решением и расчет коэффициента детерминации по исходным (нелинейным) функциям. Это связано с тем, что при мультипликативной связи переменных (степенная, показательная функции) параметры могут быть найдены с помощью МНК, только если случайные остатки умножаются на выровненные значения зависимой переменной, а не прибавляются к ней:

Если рассчитать выровненное значение зависимой переменной по исходной функции

то случайные остатки е не могут быть вычислены как разность фактического и выровненного значений зависимой переменной, что предполагается при расчете коэффициента детерминации:

Аналогичный вывод можно сделать для регрессии, построенной на основе обратной функции. Случайные остатки для этой функции могут быть вычислены как

Иногда коэффициент детерминации по исходным данным можно вычислить в качестве меры приближения выровненных значений зависимой переменной к исходным. В этом случае используют формулу

Полученный показатель называют квази-R2. Для функций, линеаризуемых путем логарифмирования правой и левой части, значения коэффициента детерминации, рассчитанные по линеаризованной регрессии и по исходной, часто имеют близкие значения.

На основе данных примера 2.1 найдем параметры степенной функции

В линеаризованной форме она будет иметь вид

После применения МНК к данным примера 2.1, получим функцию

Коэффициент детерминации для этой функции равен R2 = = 0,84. Случайными остатками в данном случае являются величины In е. Именно к ним предъявляются требования Гаусса – Маркова.

Перейдем к исходной функции:

Если рассчитать случайные остатки

то коэффициент детерминации будет равен Я2 = 0,68.

Различия между двумя показателями детерминации получились заметными (более 0,1), однако показатель детерминации по исходной функции регрессии находится в допустимых границах [0; 1] и может быть соответствующим образом проинтерпретирован.

Рассмотрим по тем же данным регрессию на основе обратной функции

После линеаризации и применения МНК получим регрессию в линеаризованном виде:

В исходной форме эта регрессия будет иметь вид

Принимая за выровненное значение зависимой переменной значение дроби без учета случайного остатка, рассчитаем (у-у) и найдем коэффициент детерминации по исходной модели. Он оказался равным R2 = -40,04. Очевидно, что это значение не имеет никакого смысла. Таким образом, мы убедились, что расчет показателя детерминации по исходным значениям преобразуемой в ходе линеаризации зависимой переменной не только некорректен, но и может привести к бессмысленному результату. Следовательно, сопоставление коэффициентов детерминации по различным нелинейным функциям не приведет к желаемому результату – выбору наилучшей функции.

Процедура выбора наилучшего преобразования зависимой переменной была предложена Дж. Боксом и Д. Коксом[1]. В их честь эту процедуру называют тестом БоксаКокса. В ее основе лежит утверждение о том, что как исходные (наблюдаемые), так и преобразованные значения какой-либо переменной являются частными случаями реализации функции (2.46) при разных значениях λ:

(2.46)

В частности,

В работе Н. Дрейпера, Г. Смита[2] указывается, что при преобразовании по формуле (2.46) величина у' может сильно меняться, что приводит к проблемам в анализе и требует специальной программы для нахождения наилучшего значения λ. Поэтому предпочтительнее рассчитывать у по формуле

(2.47)

где – среднее геометрическое из значений зависимой переменной;

При применении формулы (2.47) преобразованное значение у будет равно

Тест Бокса – Кокса заключается в поиске такого значения параметра λ, при котором остаточная сумма квадратов SSe для модели с преобразованной переменнойу будет минимальной. Для этого необходимо выполнить следующие действия.

  • 1. Выбрать конкретные значения λ. Например, λ = -1; -0,5; 0; 0,5; 1. Границы интервала рассматриваемых значений λ можно при необходимости расширить, а шаг перебора уменьшить. Например, можно использовать интервал для λ от -2 до 2, а шаг уменьшить до 0,25. Для λ = 0 значение ^ высчитывается как In у (при использовании формулы (2.46)) или уіпу (при использовании формулы (2.47)).
  • 2. Для каждого λ вычислить:
    • – параметры регрессии

где /– линейная по параметрам функция.

Отметим, что функция/должна быть не только линейна по параметрам, но и количество этих параметров должно быть одинаковым для всех сравниваемых функций. В противном случае дальнейшие действия по сопоставлению остаточных сумм квадратов (см. ниже) будут некорректными из-за разного числа степеней свободы этих показателей;

– остаточную сумму квадратов SS^:

3. Выбрать λ с наименьшим SS^. Соответствующее преобразование у и будет наилучшим. Отметим, что модель, выбранная в качестве наилучшей, должна отвечать требованиям, перечисленным выше (параметры и уравнение регрессии должны быть значимыми, должны соблюдаться требования, предъявляемые к случайным остаткам).

Так как преобразования зависимой переменной предполагают, в частности, ее логарифмирование, тест Бокса – Кокса может быть применен только если все значения этой переменной положительны. Кроме того, как отмечают в своей работе Н. Дрейпер и Г. Смит[3], тест Бокса – Кокса целесообразно применять, если соотношение максимального и минимального значений зависимой переменной больше 10.

Предположим, например, что для показателей примера 2.1 рассматриваются следующие модели регрессии: линейная

полиномиальная второй степени

полулогарифмическая

обратная

степенная

показательная

Мы не имеем теоретических оснований предпочесть ту или иную функцию и должны выбрать наилучшую опытным путем. Оценим параметры каждой из функций с помощью МНК, предварительно произведя линеаризацию нелинейных функций. Результаты расчетов параметров, оценки значимости, величины показателей детерминации приведены в табл. 2.4.

Таблица 2.4. Результаты оценки параметров линейной и нелинейных функций, представленных в линеаризованной форме

Параметры функции и оценка их значимости по t-критерию

Показатель детерминации

К2."скорр

Общий F-критерий

Из рассмотренных функций незначимые параметры при независимых переменных имеют:

  • – полиномиальная (второй степени);
  • – обратная;
  • – полулогарифмическая;
  • – степенная.

Эти функции следует исключить из процедуры выбора наилучшей функции. Таким образом, необходимо выбрать функцию из двух оставшихся – линейной и показательной. Так как зависимые переменные в линеаризованной форме этих функций различны, а соотношение максимального и минимального значений зависимой переменной больше 10 (равно 26,11), применим тест Бокса – Кокса. Найдем уравнения регрессии и остаточные суммы квадратов для преобразованной переменной у , вычисленной по формуле (2.47). Нас интересуют только две функции, поэтому у* необходимо вычислить только для двух значений λ:

  • (для непреобразованного значения зависимой переменной);
  • (для In у).

Имеем следующие результаты:

  • – при λ = 1 –
  • – при

Остаточная сумма квадратов при λ = 1 меньше, чем остаточная сумма квадратов при λ → 0. Следовательно, линейная функция лучше описывает связь между переменными, чем показательная.

Еще раз подчеркнем, что тест Бокса – Кокса предполагает перебор функций при большем количестве возможных значений λ. Мы ограничились только двумя, так как наша задача заключалась в выборе наилучшей функции из перечня предложенных выше.

Модификацией теста Бокса – Кокса является преобразование Зарембки, которое применяется для сопоставления только двух форм зависимой переменной – непреобразованной и прологарифмированной. Для применения этого преобразования необходимо выполнить следующие шаги.

1. Рассчитать значение у* по формуле

(2.48)

2. Оценить параметры двух регрессий:

(2.49)

(2.50)

где f – та же функция, которая была в исходных сравниваемых моделях.

3. Рассчитать и сравнить остаточные суммы квадратов SSe по регрессиям (2.49):

и (2.50):

Регрессия, имеющая меньшее значение SSe, будет лучшей.

4. Для оценки значимости различий остаточных сумм квадратов можно рассчитать величину статистики

где – меньшее значение остаточной суммы квадратов; – большее значение остаточной суммы квадратов.

Полученная величина имеет распределение с числом степеней свободы df = 1. Если она превышает критическое значение (а – уровень значимости), то различия между остаточными суммами квадратов признаются существенными.

Рассмотрим применение преобразования Зарембки на нашем примере. После преобразования зависимой переменной по формуле (2.48) применим МНК к функциям

Получим следующие результаты:

Остаточные суммы квадратов составили

  • – для регрессии у : SSe = 7,312;
  • – для регрессии ln у*: SSe = 9,472.

Очевидно, что первая модель лучше, т.е. следует отдать предпочтение линейной модели регрессии. Проверим значимость отличий остаточных сумм квадратов с помощью теста

Табличное значение для и составляет 3,84, следовательно, различия между остаточными суммами квадратов для двух сравниваемых моделей статистически значимы. Вывод о том, что линейная модель регрессии лучше аппроксимирует связь между показателями, подтверждается.

  • [1] Box G. Е. Р., and Сох D. R. An analysis of transformations. Journal of the Royal Statistical Society. 1964. Series B, 26. pp. 211–43.
  • [2] Дрейпер Н., Смит Г. Прикладной регрессионный анализ: пер. с англ. 3-є изд. М.: ИД "Вильямс", 2007. С. 367–369.
  • [3] Дрейпер Н., Смит Г. Указ. соч. С. 369.
 
< Пред   СОДЕРЖАНИЕ     След >