Валидность статистического вывода

К нарушению валидности эксперимента, т.е. соответствия между целями и выводами исследования, часто приводит неправильное использование методов измерения и статистики. Валидность статистического вывода отражает то, насколько выводы исследования подтверждены собранными данными, могут ли эти выводы быть сделаны из представленных данных на основании использованных в исследовании методов статистической обработки результатов. Снижение валидности статистического вывода отражает тот факт, что из полученных в исследовании данных следует делать совсем не те заключения, которые сделал исследователь.

Принцип нарушения валидности статистического вывода совершенно иной, чем в случае с внутренней и внешней валидностью. При нарушении валидности статистического вывода нельзя говорить о влиянии каких-то условий, которое неотделимо от влияния независимой переменной, и поэтому не позволяет сделать окончательные выводы о причинах изменения зависимой переменной (но аналогии с действием побочных и дополнительных переменных).

В случае нарушения валидности статистического вывода исследователь делает неверные выводы, потому что неправильно обработал данные. Одну из главнейших угроз этому виду валидности представляют не неучтенные влияния, а действия самого исследователя. Суть этого нарушения состоит в том, что в результате неверно обработанных данных невозможно понять, изменилась ли зависимая переменная от предварительного замера к заключительному или эти изменения — только иллюзия, обусловленная неправильным способом обработки. Таким образом, нарушение данного вида валидности связано не с тем, что некое дополнительное влияние изменило зависимую переменную, а с тем, изменилась ли зависимая переменная вообще или ее изменение — лишь видимость.

Нарушение валидности статистического вывода приводит к двум возможным искажениям выводов исследования, которые соответствуют понятию ошибки первого и второго рода в статистике. Ошибка первого рода предполагает, что исследователь сделал вывод о подтверждении гипотезы исследования, тогда как на самом деле данных для такого вывода недостаточно. Исследователь делает вывод о том, что зависимая переменная изменилась под влиянием независимой, в то время как зависимая переменная на самом деле не изменилась или изменилась несущественно. Ошибка второго рода — это пропущенный результат, когда исследователь делает вывод, что его гипотеза не подтвердилась, зависимая переменная не изменилась под влиянием независимой, тогда как на самом деле зависимая переменная изменилась, но исследователь не увидел этого изменения вследствие некорректной обработки данных.

Обе ошибки фатальны для гипотез исследования, но могут быть исправлены при правильной работе с данными. При этом зачастую достаточно заново статистически обработать уже собранные данные и изменить цели и гипотезы исследования в соответствии с теми возможностями и ограничениями, которые накладывают методы статистической обработки. В некоторых случаях, о которых будет сказано при обсуждении угроз валидности статистического вывода, для того чтобы корректно обработать данные, их необходимо дополнить, обратившись для этого снова к уже поучаствовавшим в исследовании испытуемым, или набрать дополнительную группу испытуемых и получить недостающие данные.

Предотвратить нарушения валидности статистического вывода несложно, для этого достаточно на этапе планирования исследования четко определиться с тем, как и с помощью каких шкал будут измеряться переменные, с помощью каких методов статистики полученные данные будут обработаны. Шкалы и методы должны быть приведены во взаимное соответствие.

Если исследователь понимает, что выбранные им изначально методики построены на шкалах, не допускающих желаемый способ статистической обработки, то он должен использовать другие методики или способы обработки, адекватные методам измерения. Здесь следует помнить о том, что методы измерения и обработки данных накладывают ограничения на выводы исследования. Эти выводы в обязательном порядке должны отвечать на вопросы о том, достигнута ли цель исследования, подтвердилась или не подтвердилась гипотеза. Поэтому цель и гипотеза исследования в конечном итоге формулируются с учетом возможностей методов измерения и статистической обработки данных.

Любое исследование, в котором цели и гипотезы формулируются с учетом возможностей и ограничений шкал измерения и методов статистической обработки данных, довольно надежно, хотя и не на все 100% защищено от нарушений валидности статистического вывода. Поэтому основную угрозу этой валидности представляют пробелы в планировании исследования, зависящие в первую очередь от усердия и компетентности исследователя. Кэмпбелл с соавторами в своих работах менее подробно обсуждают угрозы валидности, которые не касаются валидности внутренней и внешней. Их последователи выделяют несколько наиболее распространенных угроз статистической валидности, соответствующих наиболее частым пробелам в планировании исследования. Их можно упорядочить следующим образом.

Выбор метода обработки, не соответствующего шкале измерения. Мы уже знаем, что, согласно Стивенсу, существует четыре типа шкал измерения: номинативная, шкала порядка, шкала равных интервалов и шкала отношений. Любые экспериментальные данные представляют собой результаты измерения с помощью одной из этих шкал.

Для любого метода статистической обработки существуют определенные требования (такие как соответствие нормальному распределению, равенство дисперсий, количество градаций факторов т.д.), определяющие цели и область его применения. Эти требования проистекают в основном из возможностей и ограничений шкал измерения, а также условий соотнесения друг с другом различающихся по силе шкал (например, если необходимо сопоставить данные, измеренные в шкале наименований и в шкале интервалов). Если исследователь пренебрегает этими требованиями, он нарушает статистическую валидность исследования, так как использует критерий не по назначению или выходит за пределы области его допустимого применения.

В итоге исследователь не может сделать однозначного вывода о том, изменилась ли зависимая переменная в действительности, или он приходит к ложному выводу об ее изменении в результате ошибки измерения (совершает ошибку первого рода). В случае же опровержения гипотезы исследования возникает аналогичный вопрос: действительно ли не изменилась зависимая переменная или исследователь не увидел ее изменения в результате некорректной статистической обработки данных, совершив ошибку второго рода?

Примерами действий, приводящих к актуализации дайной угрозы, являются применение параметрической статистики к неметрическим шкалам (наименований и порядка), использование линейного коэффициента корреляции для оценки нелинейных зависимостей, проверка большого количества гипотез на одной выборке.

Для того чтобы избежать данной угрозы, еще до начала сбора данных необходимо определиться с тем, в какой шкале данные будут представлены, спланировать методы их статистической обработки и далее применять методы сбора данных с учетом требований, предъявляемых к данным в методах статистической обработки.

Некорректное обращение исследователя с результатами измерения. Наиболее распространенными формами такого некорректного обращения считаются формулировка выводов, выходящих за ограничения шкал измерения и методик статистической обработки данных, и избирательность исследователя в сообщении данных.

Первое нарушение связано с тем, что для каждой шкалы измерения существует набор отношений, позволяющий делать лишь определенные выводы относительно объектов, измеренных с помощью этой шкалы. Чем сильнее шкала, тем больше отношений на ней соблюдается, тем более разнообразные выводы можно делать на основании соответствующих измерений.

Так, шкала наименований является наиболее слабой, на ней соблюдается только одно отношение — отношение эквивалентности. Поэтому в отношении данных, измеренных в этой шкале, можно делать выводы о том, эквивалентны ли, взаимозаменяемы ли объекты измерения или нет.

На шкале порядка, помимо отношения эквивалентности, соблюдается отношение порядка, и выводы, которые можно делать на се основе, касаются не только возможности группировать объекты по сходству, но и позволяют определить характер различий: различающиеся объекты отличаются по выраженности измеряемого качества, а эквивалентные объекты обладают этим качеством в одинаковой мере.

При использовании шкалы равных интервалов исследователь может делать оба названных вывода и еще оценивать, насколько больше или меньше измеряемое качество выражено у разных объектов. Однако исследователь не может делать вывод о том, во сколько раз один объект превосходит другой по выраженности измеряемого качества, а также о полном отсутствии этого качества, так как на шкале интервалов отсутствует абсолютный ноль, отражающий полное отсутствие измеряемого качества.

Такие выводы (во сколько раз больше/меньше и о полном отсутствии измеряемого качества) можно делать только в том случае, если используется шкала отношений. Шкала отношений является наиболее сильной и позволяет делать все перечисленные выводы.

Если исследователь делает выводы, недопустимые для использованной им шкалы измерения, речь идет о нарушении валидности статистического вывода. Например, оценка испытуемым степени его разочарования в соответствим с методом балльной оценки — это измерение с применением шкалы порядка. Исследователь может сделать вывод лишь о том, что некоторый объект вызывает большее разочарование, чем другой, но не может делать заключений о том, насколько или во сколько раз это разочарование сильнее или слабее, даже несмотря на формальное присутствие цифр в его измерениях. Точно так же исследователь не имеет права делать выводы о низкой, высокой или умеренной выраженности разочарования, заявлять о его полном отсутствии или чрезмерной выраженности. Все это выводы, недопустимые для шкалы порядка, поскольку на ней отсутствуют ноль, выражающий отсутствие измеряемого качества, и стандартная единица, которая могла бы помочь отличить нормальную выраженность от чрезмерной.

Если исследователь будет делать такие выводы, он превысит свои полномочия и тем самым нарушит статистическую валидность исследования, так как использованная им шкала измерения не дает информации, необходимой для таких выводов. Поступая так, исследователь допускает грубейшее нарушение валидности статистического вывода в его классическом определении: его выводы не основаны на использованных в исследовании измерениях.

Второй вид некорректного обращения с результатами исследования — избирательность в сообщении данных — предполагает, что исследователь по тем или иным причинам не сообщает о части полученных им результатов. Очевидная причина этого — желание подтвердить свою гипотезу. Исследователь исключает из обработки те данные, которые противоречат гипотезе или не несут однозначной информации о ней, тем самым уменьшая в выборке долю испытуемых, на которых экспериментальное воздействие сказалось не так, как того хотел бы исследователь.

Этот образ действий называется мошенничеством и карается дисквалификацией работы или отчета об исследовании. В качестве примера здесь можно привести работы британского психолога С. Берта, опубликованные в British Journal of Psychology, а затем признанные научной фальсификацией.

Избирательность в сообщении данных может происходить и по другой причине. Например, если исследователь отсеивает тех испытуемых, которые неправильно (с его точки зрения) выполнили задание, не успели выполнить задание за отведенное время, экстравагантно вели себя во время исследования, задавали странные вопросы, сообщали противоречивую информацию или информацию, которую не удалось однозначно интерпретировать в процессе обработки данных. Во всех этих случаях исследователь не виноват в том, что он сообщил только часть информации, так как всю ту информацию, которую он не сообщил, он не смог обработать или посчитал, что испытуемые слишком уж отклоняются от обычного поведения — возможно, из-за проблем с мотивацией или еще более глубоких проблем.

В этом случае, во-первых, происходит отсев испытуемых, и возникают проблемы с внутренней валидностью, связанные с феноменом истощения выборки. Во-вторых, нарушается внешняя валидность, так как выборка становится менее репрезентативной, из нее исключаются некоторые представители, обладающие общими особенностями, проявившимися в том, что они не поняли задание или испортили бланк. И, наконец, изменяется распределение изучаемых признаков, так как из общего распределения данных исключается некоторая их часть, что имеет непосредственное отношение уже к нарушению статистической валидности.

Когда исследователь изменил количество людей или распределение ответов, исключив те, которые не смог обработать или которым не стал доверять, он ограничил диапазон шкалы измерения и уменьшил объем выборки. Дальнейшая статистическая обработка проходит не вполне корректно, поскольку результаты статистической обработки зависят и от диапазона шкалы, и от количества испытуемых. Вследствие этого нельзя сказать, чем обусловлен вывод о результатах исследования и гипотезах реальными отношениями между независимой и зависимой переменной или неправильной работой с данными (иначе говоря, была ли совершена ошибка первого или второго рода, или же выводы сделаны корректно).

Данная угроза валидности статистического вывода напрямую обусловлена навыками исследователя в планировании обработки данных. Опытный исследователь использует методы, позволяющие обработать результаты подавляющего большинства испытуемых, для работы с которыми они предназначены. При этом он обязательно задастся вопросом о том, можно ли с помощью этих шкал и методов получить ту информацию, которая ему необходима для выводов относительно целей и гипотез исследования. В зависимости от ответа на этот вопрос он может либо формулировать цели исследования с учетом возможности шкалы, либо пользоваться шкалами, подходящими для его целей, позволяющими получить необходимую информацию.

Количество ошибок измерения также является источником нарушений статистической валидности. Существует множество источников ошибок измерения — от неправильно данной инструкции, которая приводит к сдвигам в распределении ответов испытуемых и в выполнении ими заданий, конкретных недостатков самих заданий, таких как их несоответствие целям исследования, слабость создаваемого в них экспериментального воздействия, ненадежность процедуры измерения зависимой переменной и невысокая чувствительность к уровню выраженности переменной, до недобросовестности испытуемых, их невнимательного отношения к инструкции, заданиям, отсутствия желания и готовности выполнять задания.

Чем больше допущено ошибок измерения, тем хуже собранные в исследовании данные отражают особенности исследуемой реальности. В самом плохом случае испытуемые выполняют задания исследователя, давая ответы случайным образом, наугад. Никакая статистическая обработка таких данных не приведет к содержательным выводам, потому что сами данные изначально не несут информации о тех психологических качествах, которые планировал измерить исследователь.

От такой угрозы может защитить только хорошее планирование исследования, предполагающее выбор качественных падежных методик, четкое определение шкал измерения и продумывание процедур обработки данных.

 
< Пред   СОДЕРЖАНИЕ     След >