Анализ панельных данных

Панельные данные и их преимущества

Термин "панельные данные" (panel data) пришел из обследований индивидов, и в этом контексте "панель" представляла собой группу индивидов, за которыми регулярно осуществляли наблюдения в течение определенного периода времени. В настоящее время методы анализа панельных данных получили большое распространение, и понимание панельных данных стало намного шире. Наряду с термином "панельные данные" иногда также используется термин "лонгитюдные данные" (longitudinal data).

Панельные данные состоят из повторных наблюдений одних и тех же выборочных единиц, которые осуществляются в последовательные периоды времени. В качестве объектов наблюдения могут выступать индивиды, домашние хозяйства, фирмы, страны и т.д. Примером панельных данных могут быть ежегодные обследования одних и тех же домашних хозяйств или индивидов (например, для определения изменения их благосостояния), ежеквартальные данные об экономической деятельности отдельных компаний, ежегодные социально-экономические показатели для регионов одной страны или для группы стран и т.д.

Панельные данные совмещают в себе как пространственные данные, так и временные ряды и сочетают достоинства каждого их этих видов данных. Это позволяет строить более адекватные и содержательные модели для изучения истинной причинно-следственной связи между различными переменными, что представляется невозможным в рамках только временных или только пространственных данных. Выделяют следующие преимущества использования панельных данных.

  • 1. Панельные данные позволяют учитывать индивидуальную неоднородность. Временные ряды или пространственные данные не всегда позволяют учесть неоднородность индивидов, фирм, регионов или стран, что может привести к смещенным оценкам. Так, например, в исследовании Б. Балтаги и Д. Левина[1] изучался спрос на сигареты в США. Спрос моделировался как функция от лагов потребления, цены и дохода. Эти переменные отличались по штатам и во времени. Однако существовало множество других факторов, различающихся по штатам или во времени, которые могли оказывать влияние на потребление, например такие факторы, как религия, образование и реклама на телевидении и радио. При измерении этих переменных для каждого штата и периода времени возникают определенные трудности и очень сложно достигнуть того, чтобы их можно было включить в уравнение потребления. Однако пропуск этих переменных приведет к смещению в оценках. Панельные данные способны учитывать переменные, отличающиеся по штатам и во времени, вне зависимости от того, измеряемы они или нет, в то время как временные ряды или пространственные данные не позволяют этого сделать. Таким образом, панельные данные дают возможность избежать ошибки спецификации, возникающей из-за того, что существенные переменные не включены в модель.
  • 2. Панельные данные содержат большое число наблюдений и тем самым предоставляют исследователю большее количество информации, им свойственна большая вариация и меньшая коллинеарность объясняющих переменных, они дают большее число степеней свободы и обеспечивают большую эффективность оценок. При анализе временных рядов исследователи часто сталкиваются с мультиколлинеарностью факторов. Например, в рассмотренном выше случае со спросом на сигареты существовала высокая зависимость между ценой и доходом в агрегированных временных рядах для США. Высокая коллинеарность между этими факторами будет менее вероятна при использовании панельных данных по штатам, так как пространственное измерение немного увеличивает вариацию факторов и делает более информативными данные по цене и доходу. Действительно, вариация в данных может быть разложена на две составляющие: вариацию между штатами разных размеров и с различными характеристиками и вариацию внутри штатов, при этом последняя обычно всегда больше. К тому же более информативные данные могут привести к более надежным оценкам параметров.
  • 3. Панельные данные предоставляют возможность изучать динамику изменений индивидуальных характеристик единиц совокупности. Панельные данные хорошо подходят для изучения перемены работы, периода безработицы, изменений в доходах, для исследования длительности пребывания в определенном экономическом состоянии, например в бедности или в качестве безработного, а также могут помочь изучить скорость приспособления индивидов к изменениям в экономической политике. Так, при измерении безработицы пространственные данные позволяют оценить, какую долю в совокупности составляют безработные в конкретный момент времени; временные данные могут показать, как эта доля менялась во времени; и только панельные данные позволяют оценить, какая доля тех, кто являлся безработным в один период, останется безработным в другой период. Панельные данные могут использоваться как для объяснения того, почему различные единицы совокупности ведут себя по-разному, так и для того, чтобы определить, почему конкретная единица совокупности ведет себя по-разному в различные периоды времени.
  • 4. Панельные данные лучше способны идентифицировать и измерить эффекты, которые просто не определяемы только во временных рядах или только в пространственных данных. В качестве примера может выступать исследование того, происходит ли увеличение или уменьшение заработной платы за счет членства в профсоюзе. На этот вопрос лучше всего ответить, если мы наблюдаем переход работника с работы с профсоюзом на работу без профсоюза или наоборот, а это могут отразить только панельные данные. Рассматривая индивидуальную характеристику работника в качестве константы, можно будет определить, оказывает ли влияние членство в профсоюзе на зарплату и насколько. Подобный анализ может также использоваться для оценки других типов дифференциации зарплаты, например, для оценки премии, выплачиваемой за опасную или неприятную работу.
  • 5. Панельные данные позволяют конструировать и тестировать более сложные поведенческие модели, чем пространственные данные и временные ряды в отдельности. Например, техническая эффективность лучше изучается и моделируется с панельными данными. Также в панелях может быть наложено меньше ограничений на модели распределенного лага, которые обычно рассматриваются во временных рядах.
  • 6. Панельные данные позволяют избежать смещения, связанного с агрегированием данных, так как панельные данные, собранные на микроуровне (по индивидам, фирмам или домашним хозяйствам), могут быть измерены более точно, чем аналогичные переменные, полученные на макроуровне. При этом во временных рядах рассматривается изменение во времени характеристик некоторой усредненной репрезентативной единицы совокупности, а в пространственных данных не учитываются ненаблюдаемые индивидуальные характеристики единиц совокупности.
  • 7. Панельные данные макроуровня имеют более длинные временные ряды, и панельные тесты на единичный корень имеют стандартные асимптотические распределения в отличие от проблемы нестандартных распределений, типичной для теста на единичный корень в анализе временных рядов.

Однако у панельных данных есть и недостатки. Определенные проблемы связаны со сбором данных: проблема покрытия, т.е. неполный учет интересующей совокупности; отсутствие отклика, которое может быть связано как с отсутствием взаимодействия с респондентом, так и с ошибкой интервьюера, искажения, связанные с ошибками измерения, которые могут возникнуть по причине неправильного ответа из-за неясной формулировки вопроса, ошибок памяти, намеренного искажения ответа (престижное смещение), неподходящих информантов, ошибочной записи ответов и эффектов интервьюера.

Отсутствие данных может быть вызвано различными причинами. Например, если индивиды выбирают, что им не стоит работать, потому что предлагаемая зарплата ниже минимального размера оплаты труда, то в этом случае для этих индивидов будут отсутствовать данные по зарплате, но будут иметься данные по другим характеристикам. Так как пропущена только их зарплата, то выборка будет цензурированной. Однако если мы не наблюдаем всех данных этих индивидов, то выборка будет уже усеченной, и в результате получатся смещенные оценки. В первой волне панели отсутствие отклика может быть связано с тем, что выбранный индивид или домохозяйство отказались участвовать в опросе или просто никого не оказалось дома. Частичное отсутствие отклика возникает, когда не дан ответ на один или несколько вопросов. В последующих волнах панели вследствие отсутствия отклика может возникнуть проблема истощения данных, когда респондент, ранее принимавший участие в опросах, может умереть, переехать на другое место жительства или обнаружить, что затраты на участие в опросе для него стали слишком большими, и отказаться от дальнейшего участия.

В настоящее время панельные обследования в разных формах проводятся во многих странах. Впервые панельные данные начали формироваться в США в 1960-х гг. Среди наиболее известных баз панельных данных США можно выделить PSID и NLS.

Панельное исследование динамики доходов (The US Panel Study of Income Dynamics (PSID), psidonline.isr.umich.edu /)– база панельных данных по американским домохозяйствам, собираемая Институтом социальных исследований Мичиганского университета. База PSID появилась в 1968 г. и включала данные по 4800 семьям. В настоящее время она охватывает около 9000 американских семей. Данные содержат более 5000 переменных по экономике, демографии, здоровью и социальному поведению.

Национальные лонгитюдные исследования (National Longitudinal Surveys (NLS), bls.gov / nls / horrktm) – панельные исследования, спонсируемые Бюро трудовой статистики США, которые начали проводиться с 1966 г. На примере нескольких групп мужчин и женщин изучаются различные аспекты активности на рынке труда и другие значительные события в жизни этих людей.

Европейские панельные данные стали появляться только в 1980-х гг. Так, например первая волна панельного обследования Немецкой социально-экономической панели (Soziooekonomisches Panel (SOEP), diw.de/soep), формируемой Немецким институтом экономических исследований (Deutsches Institut fiir Wirtschaftsforschung (DIW), Berlin), состоялась в 1984 г. и охватила более 5000 западногерманских домохозяйств. В настоящее время это обследование содержит данные около 11 000 домохозяйств, которые включают в себя демографические переменные, зарплату, доход, выплату пособий, уровень удовлетворенности различными аспектами жизни, надежды и страхи, политическую активность и т.д. С 1991 г. Институтом социальных и экономических исследований Эссекского университета проводится панельное исследование британских домохозяйств (The British Household Panel Survey (BHPS), iser.essex.ac.uk/survey / bhps). Это национальная репрезентативная выборка 5500 домохозяйств и 10 300 индивидов, выбранных из 250 районов Великобритании. Эти данные отражают демографические характеристики домохозяйств, рынок труда, здоровье, образование, жилищные условия, потребление, доход и т.д. В 1994– 2001 гг. при содействии Евростата проводилось Европейское панельное обследование домохозяйств (The European Community Household Panel (ECHP), epunet.essex.ac.uk / echpphp), в рамках которого в странах, являющихся членами Евросоюза, собирались данные домохозяйств по доходу, работе и безработице, бедности, жилью, здоровью и т.д.

В России панельные обследования стали проводиться в 1990-х г. Наиболее известной базой панельных данных является РМЭЗ – Российский мониторинг экономического положения и здоровья населения (Russia Longitudinal Monitoring Survey (RLMS), cpc.unc.edu /projects / rims). РМЭЗ представляет собой серию общенациональных репрезентативных опросов домохозяйств и индивидов, проводившихся в России с 1992 г. Данные обследований содержат ответы на более чем 3000 вопросов, касающихся доходов и расходов, материального благосостояния, занятости, уровня образования, состояния здоровья и т.д.

  • [1] Baltagi В. Н. and Levin D. Cigarette taxation: Raising revenues and reducing consumption, Structural Change and Economic Dynamics. 1992. 3. Pp. 321–335.
 
< Пред   СОДЕРЖАНИЕ     След >