Определение порядка модели авторегрессии со скользящей средней

Для того чтобы определить порядок модели ARMA по исходному ряду, пользуются методологией, названной в честь ее авторов – Дж. Бокса и Г. Дженкинса. Важным ее элементом является изучение коррелограмм по стационарному ряду данных. Так, наиболее простые процессы авторегрессии и скользящего среднего имеют коррелограммы определенного вида, соответственно, изучая их по фактическим данным, исследователь может выдвинуть предположение относительно того, какая модель лежит в основе ряда данных. Критериями правильности выбранной модели являются нормально распределенные, некоррелированные остатки модели. Если один из критериев остается неудовлетворенным, поиск модели продолжается. Лишь на основе наилучшей из выбранных моделей делается прогноз.

Не углубляясь в выводы автокорреляционной и частной автокорреляционной функций для модели ARMA, отметим основные черты, присущие простейшим процессам авторегрессии и скользящей средней.

Для начала рассмотрим чистые процессы авторегрессии.

Если процесс генерируется моделью AR(1), то его АКФ будет убывать экспоненциально после первого лага, а ЧАКФ – обрываться после первого лага. Эго поведение показано на рис. 8.16.

Коррелограммы для процесса AR(1) с положительным коэффициентом (верхние два графика) и отрицательным коэффициентом (нижние два графика)

Рис. 8.16. Коррелограммы для процесса AR(1) с положительным коэффициентом (верхние два графика) и отрицательным коэффициентом (нижние два графика)

В верхней части рис. 8.16 показаны коррелограммы для процесса AR(1) с а1 > 0, а в нижней – для процесса с а1 < 0. За счет того, что частные коэффициенты автокорреляции рассчитываются так, чтобы убрать влияние соседних лагов, все частные коэффициенты для лагов, начиная со второго, оказываются статистически незначимыми (а в нашем случае со сгенерированным рядом – и вовсе равны нулю).

У процесса AR(2) поведение АКФ и ЧАКФ значительно сложнее, так как в модель включены уже два коэффициента. Более того, в ряде случаев при некоторых значениях коэффициентов коррелограммы для процесса AR(2) на практике становятся похожими на коррелограммы для процесса AR(1). В результате выбор подходящей модели значительно усложняется.

На рис. 8.17 приведено четыре примера коррелограмм для процесса AR(2). Все эти четыре ситуации, как можно заметить, объединяет одна черта: автокорреляционная функция убывает либо экспоненциально, либо гармонически, а частные коэффициенты автокорреляции после второго лага становятся статистически незначимыми.

В целом можно сделать следующий вывод: для чистого AR(p) процесса характерны убывание (либо гармоническое, либо экспоненциальное) АКФ и обрыв ЧАКФ после лага р. Именно по второй части определить порядок авторегрессии обычно оказывается легче всего.

Теперь рассмотрим коррелограммы чистых процессов скользящего среднего.

Можно сразу сказать, что для этих процессов характерна ситуация, "зеркальная" относительно авторегрессионных процессов. Например, для чистого процесса ΜА( 1) характерны коррелограммы, приведенные на рис. 8.18.

Как видим, если в случае с AR(1) экспоненциально убывала автокорреляционная функция, то в случае с МА(1) убывает уже частная автокорреляционная функция. При этом, начиная со второго лага, коэффициенты автокорреляции для МА(1) становятся статистически незначимыми.

Эта "зеркальность" сохраняется и для процессов более высокого порядка. Поэтому можно так же обобщить: для чистого МА(q) процесса характерны убывание (либо гармоническое, либо экспоненциальное) ЧАКФ и обрыв АКФ после лага q.

Коррелограммы для процесса AR(2)

Puc. 8.17. Коррелограммы для процесса AR(2):

ряды сверху вниз: 1 – а1 > 0 и а2 > 0; 2 – а1 > 0 и а2 < 0; 3 – а1 < 0 и а2 > 0; 4 – а1 < 0 и а2 < 0

Коррелограммы для процесса МА(1)

Рис. 8.18. Коррелограммы для процесса МА(1):

сверху – с положительным коэффициентом;

снизу – с отрицательным

Зная эти черты коррелограмм для чистых AR и МА процессов, можно выбирать порядок модели, которая смогла бы наилучшим образом описать ряд данных. Однако, очевидно, что чистые процессы встречаются достаточно редко и чаще приходиться иметь дело с процессами смешанными. Их идентифицировать сложнее, так как в них происходит наложение АКФ и ЧАКФ из AR и МА процессов. В результате этого обе функции могут затухать гармонически или экспоненциально, но с небольшой задержкой, соответствующей порядку модели. Проблема усугубляется тем, что разные процессы ARMA могут иметь похожие коррелограммы. В таком случае идентифицировать порядок р и q оказывается затруднительно.

В целом процесс построения модели ARIMA с помощью методологии Бокса – Дженкинса можно свести к следующим шагам;

  • 1. Проверка па стационарность и приведение ряда к стационарному виду.
  • 2. Изучение коррелограмм по стационарному ряду и выбор наиболее подходящей модели ARMA.
  • 3. Оценка модели.
  • 4. Проверка остатков на нормальность и отсутствие автокорреляции. Если в остатках есть автокорреляция, порядок модели модифицируется с учетом выявленных зависимостей по коррелограммам остатков, после чего осуществляется переход к шагу 3.
  • 5. Построение прогноза по полученной модели ARIMA.

Как видим, элементы методологии Бокса – Дженкинса позволяют идентифицировать достаточно простые процессы авторегрессии и скользящего среднего, и в общем случае с помощью итерационной процедуры построить модель, наилучшим образом подходящую для изучаемого временно́го ряда.

Рассмотрим на примере ряда № 2568 из базы М3 процесс идентификации и построения модели ARIMA и получения прогноза по ней. Этот ряд мы уже изучали в связи с вопросом о его стационарности в предыдущем параграфе и пришли к выводу о том, что для приведения к стационарному виду достаточно его предварительно прологарифмировать, а затем взять по нему сезонные разности. На рис. 8.19 приведены итоговый полученный ряд и коррелограммы по нему.

Ряд № 2568, приведенный к стационарному виду, и его коррелограммы

Рис. 8.19. Ряд № 2568, приведенный к стационарному виду, и его коррелограммы

Оценивая коррелограммы, можно заметить, что статистически значимыми оказались коэффициенты корреляции на третьем лаге. После этого функция незначительно убывает. Скорее всего, наличие значимых коэффициентов на лагах далее третьего вызвано сезонностью в исходном ряде данных. Можно предположить, что данный процесс будет успешно описан моделью ARMA(3,3). Кроме того, в связи с тем что изучаемый ряд оказался систематически выше нуля, мы включили в модель константу.

В результате оценки модели по ряду данных были получены следующие коэффициенты (табл. 8.3).

Таблица 8.3

Результаты оценивания модели ARMA(3,3)

A R(1)

AR(2)

AR(3)

MA(1)

MA(2)

MA(3)

Intercept

Coefficients

-0,2093

0,1190

0,9456

0,2591

0,0875

-0,8342

0,0660

s.e.

0,0555

0.0627

0,0653

0,0958

0,1019

0,0940

0,0174

p-value

<0,01

0,0607

<0,01

<0,01

0,3926

<0,01

<0,01

Примечание: Coefficients – строка со значениями коэффициентов; s.e. – строка со значениями стандартных ошибок коэффициентов; p-value– строка со значениями остаточных вероятностей по значимости коэффициентов.

Математически полученная в табл. 8.3 модель (с округлением коэффициентов до сотых) может быть записана следующим образом (в скобках приведены стандартные ошибки, вычисляемые на основе расчета ковариационно-вариационной матрицы коэффициентов, похожей на матрицу (4.37), обсуждавшуюся нами в параграфе 4.3):

Данные табл. 8.3 говорят о том, что на 5% значимыми оказались все коэффициенты, за исключением коэффициента при скользящей средней второго порядка и авторегрессии второго порядка. Это, правда, имеет смысл только в случае, если остатки полученной модели распределены нормально. Чтобы проверить правильность идентификации модели, рассмотрим коррелограммы по полученным остаткам (рис. 8.20).

Как видно из коррелограмм, значимыми оказались лишь коэффициенты автокорреляции на 12-м лаге. Это в очередной раз указывает нам на сезонность ряда данных. Чтобы учесть сезонность, нужно воспользоваться моделью сезонной ARIMA, о которой пойдет речь в следующем параграфе. Пока же мы на этом остановимся, так как

(8.61)

более никаких значимых коэффициентов автокорреляции до 12-го лага по коррелограммам выявлено не было.

Ряд остатков по модели (8.61) и его коррелограммы

Рис. 8.20. Ряд остатков по модели (8.61) и его коррелограммы

Совершенно естественно, что из-за того, что мы не учли сезонность в ряде данных, остатки оказались распределенными ненормально. По крайней мере, тест Шапиро – Уилка (см. параграф 3.4) указывает, что гипотеза о нормальности распределения остатков отвергается на уровне 0,02403%, что находится в зоне отклонения гипотезы на 5%-ном уровне.

Итак, можно заключить, что полученный результат – наилучший, если не учитывать сезонность, а модель ARMA(3,3), выявленная по методологии Бокса – Дженкинса, подходит к исследуемому ряду данных. Стоит, однако, заметить, что из-за взятия сезонных разностей мы в дальнейшем работали уже не с исходным рядом данных, а с преобразованным, в связи с чем и ошибки модели считались по преобразованному ряду данных, а значит, и скользящая средняя оценивалась не по исходному ряду. Это не совсем корректно, но для того, чтобы разобраться в том, как работает методология, это не критично. На рис. 8.21 приведены последняя часть по ряду данных № 2568, фактические, расчетные и прогнозные значения, полученные по модели ARMA(3,3). Вертикальной линией показан момент времени, относительно которого делался прогноз.

Ряд № 2568 (сплошная линия с точками) и прогноз на 18 значений вперед по модели ARMA(3,3) (сплошная линия)

Рис. 8.21. Ряд № 2568 (сплошная линия с точками) и прогноз на 18 значений вперед по модели ARMA(3,3) (сплошная линия)

Рисунок 8.21 показывает, что модель ARMA(3,3) смогла достаточно точно аппроксимировать и спрогнозировать ряд данных, ошибка прогноза в данном случае оказалась минимальной из всех, получаемых нами по этому ряду по другим моделям: sMAPE – 2,96%. Вызвано это в первую очередь тем, как был аппроксимирован и спрогнозирован преобразованный ряд данных: модель линейного тренда дала прогноз на снижение значения показателя, в то время как модель ARMA(3,3) дата прогноз на незначительное увеличение с колебаниями (аппроксимация преобразованного ряда и прогноз показаны на рис. 8.22).

Заметим, что успешность идентификации модели ARIMA на основе методологии Бокса – Дженкинса во многом зависит от опыта исследователя. Некоторые исследователи даже отмечают, что это уже скорее "искусство", а не конкретное руководство к действиям. Вызвано это не в последнюю очередь тем, что, как уже было замечено ранее, разные процессы могут производить схожие коррелограммы. В результате этого точная идентификация порядка модели оказывается затрудненной. В те времена, когда был предложен описанный подход, других методов идентификации не существовало из-за слабой мощности компьютеров. В наши дни за счет увеличения мощности вычислительной техники используются и другие методы идентификации процессов. Общая

Ряд № 2568 (сплошная линия с точками) в логарифмах и в сезонных разностях и прогноз на 18 значений вперед по модели ARMA(3,3) (сплошная линия)

Рис. 8.22. Ряд № 2568 (сплошная линия с точками) в логарифмах и в сезонных разностях и прогноз на 18 значений вперед по модели ARMA(3,3) (сплошная линия)

черта, присущая этим методам: автоматическое построение ряда моделей и выбор наилучшей из них.

Один из таких методов заключается в том, чтобы построить всевозможные виды моделей ARIMA для исходного ряда с ограничениями на порядок модели:

  • d ≤ 2;
  • p ≤ 3;
  • q ≤ 3.

В результате это дает 48 возможных моделей, которые требуется оценить. Оценивание обычно производится методом максимального правдоподобия из предположения о том, что остатки должны быть нормально распределенными. После оценки всех моделей рассчитывается информационный критерий (AIC, BIC и т.д.), на основе которого полученные модели затем сравниваются. Например, для модели ARMA (p,q) информационный критерий Акайке, упоминавшийся нами в параграфе 2.5, будет рассчитываться по формуле[1]

(8.62)

где L – значение максимизированной функции правдоподобия.

Предпочтение отдается модели с минимальным AIC, что указывает на модель, наилучшим образом аппроксимирующую ряд данных (с остатками, наиболее приближенными к нормальным) при наименьшем числе коэффициентов.

В таком подходе, однако, есть свои проблемы. Одна из них заключается в следующем. В связи с тем что в основе функции правдоподобия лежит сумма квадратов ошибок модели, сравнивать AIC по моделям с разными значениями d некорректно из-за использования разных значений, по которым считаются ошибки. Так, в большинстве случаев исходные данные будут содержать бо́льшие значения, нежели данные по разностям (очевидно, что темпы роста по величине меньше самих значений). В результате этого и модели в разностях будут иметь меньшую сумму квадратов отклонений и, как результат, большее значение функции правдоподобия. Это будет приводить к выбору большего порядка разности, чем нужно, что, в свою очередь, грозит потенциально неточными прогнозами и широкими прогнозными интервалами. Поэтому выбирать оптимальную модель нужно, предварительно выбрав порядок разностей. Это можно легко сделать, проведя предварительно рассмотренные нами ранее тесты на единичный корень (например, ADF- и KPSS-тесты).

Рассмотрим для нашего примера, как работает процедура подбора модели в пакете "R". Для этого в пакете "forecast" есть функция "auto, arima".

С ее помощью была получена модель АRIМА(2,1,3), которую можно записать так:

(8.63)

Как видим, там, где мы при проведении KPSS-теста решили, что у нас нет оснований отклонить гипотезу о стационарности ряда, заложенный в программе алгоритм пришел к тому, что такие основания есть. Явным результатом этого являются отсутствие константы в модели (8.63) и получение противоположных знаков при коэффициентах авторегрессии (оба положительные). Какая из полученных моделей корректнее и нужно ли было брать разности, точно сказать невозможно.

Проведем диагностику модели. Тест Шапиро – Уилка на нормальность остатков модели ARIMA(2,1,3) позволяет на 5% отклонить нулевую гипотезу (остаточная вероятность составила 0,006942). Коррелограмма по остаткам модели (8.63) представлена на рис. 8.23.

Ряд остатков по модели (8.63) и его коррелограммы

Рис. 8.23. Ряд остатков по модели (8.63) и его коррелограммы

Как видим, коррелограмма незначительно отличается от коррелограммы на рис. 8.20: все так же значимыми оказались лишь коэффициенты на 12-м лаге. Все, что раньше него, – незначимо.

По полученным признакам тяжело отдать предпочтение одной из этих моделей. Если сравнить точность аппроксимации исходного ряда, то она оказывается практически идентичной – средняя относительная ошибка аппроксимации по модели ARMA(3,3) составила 4,06%, а по модели ARIMA(2,1,3) – 4,34%. Таким образом, выбрать лучшую из этих двух моделей представляется практически невозможным.

Дадим прогноз по модели ARIMA(2,1,3) и преобразуем полученные значения так, чтобы прийти к исходному ряду данных. Итоговый прогноз показан на рис. 8.24. Вертикальной линией показан момент времени, относительно которого делался прогноз.

Ряд № 2568 (сплошная линия с точками) и прогноз на 18 значений вперед по модели ARIMA(2,1,3) (сплошная линия)

Рис. 8.24. Ряд № 2568 (сплошная линия с точками) и прогноз на 18 значений вперед по модели ARIMA(2,1,3) (сплошная линия)

Точность прогноза по модели ARIMA(2,1,3) оказалась несколько ниже, чем по модели ARMA(3,3), что может быть вызвано либо взятием лишней разности, либо менее оптимистичным прогнозом преобразованного ряда (прогноз по модели ARIMA(2,1,3) оказался несколько заниженным по сравнению с прогнозом по ARMA(3,3)). В данном случае sMAPE = 4,29%.

Что любопытно, при ограничении на порядок разностей (d = 0) функция auto.arima выбирает модель ARIMA(3,0,3) как наиболее подходящую для преобразованного ряда данных, т.е., результат идентификации, полученный по методологии Бокса – Дженкинса, в таком случае оказывается идентичным результату автоматического выбора но AIC.

  • [1] Hyndman Rob.J., Khandakar Yeasmin. Automatic Time Series Forecasting: The forecast Package for R // Journal of Statistical Software. 2008. Vol. 27. Issue 3. P. 9.
 
< Пред   СОДЕРЖАНИЕ     След >