Проблема пропущенных данных в психологических исследованиях

Если в экспериментальном, корреляционном или квазиэкспериментальном исследовании используется несколько измеренных переменных, много заданий или условий, то возникает проблема, все ли испытуемые прошли через все планируемые условия опытов и имеются для каждого из них данные по всем методикам.

Наличие пропущенных данных в матрице, отражающей "сырые" результаты проведенного исследования, крайне редко упоминается исследователями при представлении результатов проведенных исследований.

Пропущенные данные (ПД) появляются, когда для испытуемых не предоставлена информация по одной и более переменным.

Это часто происходит, в частности, когда переменные являются результатом применения психодиагностических тестов (возникают пропуски ответов как на уровне заданий в тестах или опросниках, так и заполнение не всех предложенных испытуемому опросников). Имплицитным правилом, которому следует большинство исследователей, является удаление ПД и проведение статистического анализа на полной матрице, содержащей данные по всем переменным для всех испытуемых. В реальности игнорирование ПД имеет важные последствия для валидности и надежности полученных исследователем результатов, наиболее очевидным из которых является снижение мощности статистического критерия из-за уменьшения выборки ("выбрасывания" испытуемых, которые ответили не на все вопросы/приняли участие не во всех экспериментальных процедурах/вышли из лонгитюдного исследования). Менее очевидной является связь ПД с надежностью измерений, конструктной валидностью и валидностью исследования.

Виды пропущенных данных и их влияние на надежность и валидность

В случае, когда психолог использует только один показатель интересующего его свойства (так называемый монометод), пропуск ответа на соответствующий вопрос или отсутствие решения соответствующей задачи приводит к полному отсутствию данных по указанному свойству. Использование множества измерений свойства (мультиметод) позволяет частично преодолеть это ограничение. Тем не менее даже в случае использования множества индикаторов (например, в случае использования опросника с множеством вопросов) пропущенные данные ведут к снижению качества получаемой информации о свойстве. Так, в классической теории тестов надежность измерительного инструмента прямо связана с количеством заданий и вопросов, поэтому отсутствие показателей может привести к снижению надежности операционализированных переменных, увеличению несистематической вариативности в данных и, как следствие, снижению мощности исследования, т.е. снижению вероятности обнаружения эффекта. Помимо влияния на надежность диагностического инструментария ПД оказывают негативное воздействие на его конструктную валидность, поскольку наличие ПД может приводить к неполному представлению в матрице данных сторон интересующего конструкта.

Наличие ПД имеет множество последствий и для внутренней валидности исследования, а также для возможности обобщения результатов. Наличие систематических ПД может возникнуть, когда испытуемые, предоставившие и не предоставившие ответ на указанный вопрос, систематически отличаются по интересующему исследователя или иному свойству. Другим примером являются систематические различия между теми, кто закончил исследование и теми, кто отказался от продолжения исследования. В этом случае результаты исследования могут отражать систематические различия между группами, не связанные с экспериментальным воздействием.

Ответ на вопрос о потенциальной угрозе валидности исследования со стороны ПД связан с решением проблемы классификации ПД в конкретном исследовании как систематических или несистематических. Наиболее широкую известность получила схема Д. Рубина, согласно которой ПД можно разделить на три вида: 1) совершенно случайно пропущенные данные — ССПД (missing completely at random, MCAR), 2) случайно пропущенные данные — СПД (missing at random, MAR) и 3) неслучайно пропущенные данные — НСПД (missing not at random, MNÄR). Эта схема связана с оценкой вероятности ПД исходя из информации о конкретных переменных, ковариатах и гипотетических механизмах, лежащих в основе ПД [Rubin, 1976].

В основе получения МСЛЙ - данных лежат случайные процессы, не связанные с интересующими исследователя свойствами (это аналоги несистематических смешений с ПП в эксперименте). Так, ПД будут считаться совершенно случайно пропущенными, если паттерн ПД систематически не связан как с не пропущенными данными (показателями по другим переменным), так и с самими значениями ПД (например, когда испытуемого отвлек случайный звук, когда был потерян протокол и т.д.).

Случайно пропущенные данные (СПД - данные) связаны с наблюдаемыми — измеряемыми переменными и могут быть смоделированы исходя из значений, связанных с ПД систематических смешений с переменными, выступающими в качестве ковариат.

Например, если проводится лонгитюдное исследование лидерских навыков новых сотрудников, отбираемых в организацию, в том числе на основе баллов IQ, ненанятые сотрудники будут иметь ПД ii отношении показателей лидерских навыков, связанные не с самими лидерскими навыками, но систематически связанные с попаданием в зону критериального отвержения на основе балла IQ.

НСПД - данные, в свою очередь, связаны непосредственно с пропущенными значениями, интересующими исследователя (например, пропуск ответа на задание в тесте на интеллект испытуемыми, имеющими низкий уровень развития аналитических способностей).

Указанное различение трех видов ПД требует различных подходов к анализу данных. Поскольку в основу совершенно случайно пропущенных данных (MCAR) полагаются случайные механизмы, такие ПД могут быть проигнорированы в статистическом анализе, тогда как игнорирование СПД - данных может привести к ошибочным заключениям. Таким образом, ПД требуют от исследователя принятия решения о механизме, лежащем в основе паттернов ПД. В случае неслучайно пропущенных данных вероятно возникновение систематических смешений, которые могут привести к искажению результатов исследования.

 
< Пред   СОДЕРЖАНИЕ     След >