Преимущества и недостатки моделей ARIMA
Чтобы подытожить наше рассмотрение моделей ARIMA, обсудим их преимущества и недостатки.
К очевидным преимуществам можно отнести то, что эти модели имеют очень четкое математико-статистическое обоснование, что делает их одними из наиболее научно обоснованных моделей из всего множества моделей прогнозирования тенденций во временны́х рядах.
Еще одним преимуществом является формализованная и наиболее подробно разработанная методика, следуя которой можно подобрать модель, наиболее подходящую к каждому конкретному временно́му ряду. Формальная процедура проверки модели на адекватность достаточно проста, а разработанные методики по автоматическому подбору наилучшей ARIMA и вовсе "значительно облегчают жизнь" прогнозиста.
Кроме того, точечные и интервальные прогнозы следуют из самой модели и не требуют отдельного оценивания.
Один из явных недостатков моделей заключается в требовании к рядам данных: для построения адекватной модели ARIMA требуется не менее 40 наблюдений, а для SARIМА – порядка 6–10 сезонов[1], что на практике не всегда возможно.
Вторым серьезным недостатком является неадаптивность моделей авторегрессии: при получении новых данных модель нужно периодически переоценивать, а иногда – и переидентифицировать.
Третий недостаток заключается в том, что построение удовлетворительной модели ARIMA требует больших затрат ресурсов и времени. Само же построение модели скорее является "искусством", т.е. требует большого опыта со стороны прогнозиста.
Но эти все преимущества и недостатки касаются лишь процесса построения модели. Интересно сравнение точности прогнозов моделей ARIMA с другими моделями, которое было осуществлено в ряде испытаний, проводимых Международным институтом прогнозистов (International Institute of Forecasters).
До 1982 г. среди прогнозистов бытовало мнение, что модели ARIMA дают самые точные прогнозы, так как являются более общими для класса других моделей. Однако после проведения первых испытаний точности прогнозирования различных моделей в рамках "М – Competition", проведенного Международным институтом прогнозистов, в ходе которого модели ARIMA показали себя не лучше моделей экспоненциального сглаживания, это мнение сменилось на вполне логичное представление о том, что в каждом конкретном случае нужно использовать свою модель[2].
Более того, дальнейшие исследования показали, что использование моделей AR(1), AR(2) и ARMA(1,1) в обход методологии Бокса – Дженкинса (т.е. без исследования коррелограмм и оценки остатков) в ряде случаев дает не менее точные прогнозы, чем по моделям ARIMA, построенным на основе методологии Бокса – Дженкинса[3]. Данный вывод указывает на то, что для получения точных прогнозов с помощью моделей ARIMA добиваться некоррелированных нормально распределенных остатков не имеет смысла: одно просто не зависит от другого.
Исследования в рамках последующих испытаний, опубликованных в статьях 1998-х, 2000-х и 2005-х гг.[4], показали, что статистически обоснованные модели (в первую очередь имелась в виду именно ARIMA) не превосходят другие модели по точности прогнозов.
Все это вызывает вопросы о том, почему же методы, имеющие такое хорошее научное обоснование с точки зрения математической статистики, не превосходят "дикие" методы, у которых полноценное статистическое обоснование появилось в лучшем случае в начале XXI в.
Ответ на этот вопрос заключается в самом подходе, лежащем в основе этих методов: все построение моделей ARIMA основывается на предположении о том, что временно́й ряд генерируется бесконечно в соответствии с какой-то функцией, параметры которой нам нужно идентифицировать и оценить, т.е. в основе подхода ARIMA лежит предположение о застывшем характере протекающих процессов, эволюциоииость как таковая в модели не учитывается. Вызвано это не в последнюю очередь тем, что модели изначально разрабатывались для моделирования физических и технических процессов (например, один из основоположников моделей авторегрессии, Дж. Юл, в своих работах опирался на моделирование числа пятен на солнце[5]), в которых практически все виды процессов описываются либо как стационарные, либо как стационарные в разностях. Проблема же применения этих методов к экономическим рядам заключается в том, что экономические процессы, как мы уже знаем, по сути своей необратимы, а значит, и такое "техническое" отношение к ним не позволяет учесть их особенности и, как результат, не позволяет давать точные прогнозы.
В эконометрике считается, что для получения адекватных прогнозов нужно добиться различными способами несмещенных, эффективных и состоятельных оценок коэффициентов модели, избавиться от гетероскедастичности и автокорреляции, получить нормально распределенные остатки и т.д. И конечно лее, при прогнозировании тенденций во временны́х рядах эконометрика всего этого добивается с помощью модели ARIMA (и различных ее модификаций для отдельных случаев автокорреляции остатков и гетероскедастичности). Однако все эти характеристики имеют смысл только в случае с техническими процессами либо при работе с пространственными данными – там, где нет эволюции. В эволюционных процессах происходят постоянные изменения всех характеристик распределения, в связи с чем "гонка" за лучшими оценками скорее напоминает поиски единорога: мы ищем то, что не существует, там, где его в принципе нет.
Более того, зависимость текущего значения от предыдущего во многих рядах носит скорее виртуальный, нежели реальный характер: действительно, если в понедельник продажи тапочек были на одном уровне, то и во вторник они будут близки к нему. Однако это ни в коей мере не говорит о том, что количество проданных тапочек в понедельник действительно влияет на то, сколько будет продано тапочек во вторник. По сути своей это независимые друг от друга события, на которые влияют какие-то внешние факторы. Но формально при построении коррелограмм мы увидим, что между этими событиями есть некая корреляция. Очевидно, что она носит ложный характер, а значит, и модели, основывающиеся на ней, будут носить ложный характер.
Модели экспоненциального сглаживания, не имея столь хорошего статистического обоснования, как модели ARIMA, одновременно с этим не вводят каких-то предположений о том, как процесс генерируется и какие в нем имеются зависимости. Они нацелены в первую очередь не на "вскрытие зависимостей", а на "внешнее" описание динамики. Именно поэтому, например, в М3 – Competition самые точные прогнозы во многих случаях дал один из наименее статистически обоснованных на тот момент методов – метод Theta[6] (который, как мы уже рассматривали в параграфе 7.3, является частным случаем модели простого экспоненциального сглаживания с дрейфом).
Конечно, у моделей ARIMA есть свои недостатки, лежащие в самой их основе. Однако это ни в коей мере не говорит о том, что от этих моделей надо отказаться и при прогнозировании использовать только модели экспоненциального сглаживания! Для каждого конкретного случая стоит обращаться к своей прогнозной модели: будь то простейшие модели, модели трендов, сезонной декомпозиции, модели экспоненциального сглаживания или модели авторегрессий со скользящей средней. Просто стоит иметь в виду как положительные, так и отрицательные стороны используемых моделей и опираться на те прогнозы, относительно которых (на основе экспертного мнения и фундаментального анализа отрасли) можно сказать, что они лучше опишут реальную ситуацию в будущем.
- [1] Ханк Д. Э„ Уичери Д. У., Райте А. Дж. Бизнес-прогнозирование: пер. с англ. 7-е изд. М.: Вильямс, 2003. С. 506.
- [2] Makridakis 5., Andersen A., Carbone R., Fildes R., Hibon M., Lewandowski R., Newton J., Parzen E., Winkler R. The accuracy of extrapolation (time series) methods: Results of a forecasting competition // Journal of Forecasting. 1982. Vol. 1. Issue 2. P. 111-153.
- [3] Makridakis S., Hibon M. ARMA models and the Box-Jenkins Methodology // Journal of Forecasting. 1997. Vol. 16. P. 147–163.
- [4] Fildes R„ Hibon M., Makridakis 5., Meade N. Generalising about univariate forecasting methods: further empirical evidence // International Journal of Forecasting. 1998. Vol. 14. Issue 3. P. 339–358; Makridakis 5., Hibon M. The М3 – Competition: results, conclusions and implications // International Journal of Forecasting. 2000. Vol. 16. P. 451–476; Koning A.J., Franses P. H„ Hibon M., Stekler H. O. The М3 competition: Statistical tests of the results // International Journal of Forecasting. 2005. Vol. 21. P. 397–409.
- [5] Yule С. Udny. On a Method of Investigating Periodicities in Disturbed Series, with Special Reference to Wolfer's Sunspot Numbers // Philosophical Transactions of the Royal Society of London. 1927. Ser. A. Vol. 226. P. 267–298.
- [6] Makridakis S., Hibon М. The М3 – competition: Results, conclusions and implications. P. 451–476.