Виды статистического анализа

Выделяют пять основных видов статистического анализа, используемых при проведении социологических исследований: дескриптивный анализ, выводной анализ, анализ различий, анализ связей и предсказательный анализ. Иногда эти виды анализа используются по отдельности, иногда — совместно.

В основе дескриптивного анализа лежит использование таких статистических мер, как средняя величина (средняя), мода, среднее квадратическое отклонение, размах или амплитуда вариации.

Анализ, в основе которого лежит использование статистических процедур (например, проверка гипотез) с целью обобщения полученных результатов на всю совокупность, называется выводным анализом.

Анализ различий используется для сравнения результатов исследования двух групп опрошенных для определения степени реального отличия в их поведении, в реакции на одни и те же общественные события и т. п.

Анализ связей направлен на определение систематических связей (их направленности и силы) переменных. Например, определение как увеличение затрат на продвижение кандидата в депутаты влияет на увеличение его известности.

Предсказательный анализ используется в целях прогнозирования развития событий в будущем, например, путем анализа временных рядов.

Рассмотрим названные виды анализа более подробно.

При проведении дескриптивного анализа для описания информации, полученной на основе выборочных измерений, широко используются две группы мер. Первая включает меры «центральной тенденции» или меры, которые описывают типичного респондента или типичный ответ. Вторая включает меры вариации или меры, описывающие степень схожести или несхожести респондентов или ответов от «типичных» респондентов или ответов.

Существуют и другие описательные меры, например меры ассиме- трии (насколько найденные кривые распределения отличаются от нормальных кривых распределения). Однако они используются не столь часто, как вышеупомянутые.

Ниже дается только краткая характеристика указанных мер. Более подробную информацию можно получить из книг по математической статистике, например [4; 12].

К числу мер центральной тенденции относятся мода, медиана и средняя.

Мода характеризует величину признака, появляющуюся наиболее часто по сравнению с другими величинами данного признака.

Мода носит относительный характер и не обязательно, чтобы большинство респондентов указало именно эту величину признака.

Медиана характеризует значение признака, занимающее срединное место в упорядоченном ряду значений данного признака.

Третьей мерой центральной тенденции является средняя, которая чаще всего рассчитывается как средняя арифметическая величина. При ее вычислении общий объем признака поровну распределяется между всеми единицами совокупности.

Видно, что степень информативности средней величины больше, чем медианы, а медианы — больше, чем моды.

Однако рассмотренные меры не характеризуют вариацию ответов на какой-то вопрос или, говоря другими словами, несходство, различие респондентов или измеренных характеристик. Очевидно, что помимо знания величин мер центральной тенденции является важным установить, насколько близко к этим величинам расположены остальные полученные оценки. Обычно используют три меры вариации: распределение частот, размах вариации и среднее квадратическое отклонение.

Распределение частот представляет в табличной или графической форме число случаев появления каждого значения измеренной характеристики (признака) в каждом выбранном диапазоне ее значений. Распределение частот позволяет быстро сделать выводы о степени подробности результатов измерений.

Размах вариации определяет абсолютную разность между максимальным и минимальным значениями измеренного признака. Говоря другими словами, это разница между конечными точками в распределении упорядоченных величин измеренного признака. Данная мера определяет интервал распределения значений признака.

Среднее квадратическое отклонение является обобщающей статистической характеристикой вариации значений признака. Если эта мера мала, то кривая распределения имеет узкую, сжатую форму (результаты измерений обладают высокой степенью схожести); если мера велика, то кривая распределения имеет широкий, растянутый вид (велика степень различия оценок).

Ранее было отмечено, что выбор шкалы измерений, а следовательно, типа вопросов в опросном листе предопределяет количество получаемой информации. Подобным образом количество информации, получаемой при использовании рассмотренных выше мер, является различным. Общим правилом является то, что статистические меры дают возможность получить больше информации при применении наиболее информативных шкал измерений. Выбор шкалы измерений предопределяет выбор статистических мер. Например, один из вопросов демографического исследования, при поведении которого использовалась шкала наименований, касался национальности. Русским был присвоен код 1, украинцам — 2, татарам — 3 и т. д. В данном случае, конечно, можно вычислить среднее значение. Но как интерпретировать среднюю национальность, равную, скажем, 5,67? Для вычисления средних надо использовать интервальную шкалу или шкалу отношений. Однако в нашем примере можно использовать моду.

Что касается мер вариации, то при использовании номинальной шкалы применяется распределение частот, при использовании шкалы порядков — кумулятивное распределение частот, а при использовании интервальной шкалы и шкалы отношений — среднее квадратическое отклонение.

Статистический вывод основан на статистическом анализе результатов выборочных исследований и направлен на оценку параметров совокупности в целом. Он является видом логического анализа, направленного на получение общих заключений о всей совокупности на основе наблюдений за малой группой единиц данной совокупности. Результаты выборочных исследований являются только отправной точкой для получения общих выводов.

Например, местные органы власти провели два независимых исследования с целью определения степени удовлетворенности жителей работой коммунальных служб. Первая выборка включала 100 жителей, вторая — 1000 жителей. В ходе телефонного интервьюирования респонденты отвечали на вопрос: «Удовлетворены вы или не удовлетворены работой коммунальных служб?» Первый опрос выявил 30 % неудовлетворенных, второй — 35 %.

Поскольку существуют ошибки выборки и в первом, и во втором случаях, то можно сделать следующий вывод. Для первого случая: около 30 % опрошенных выразили неудовлетворенность работой коммунальных служб. Для второго случая: около 35 % опрошенных выразили эту неудовлетворенность. Какой же общий вывод можно сделать в данном случае? Как избавиться от термина «около»? Для этого введем показатель ошибки: 30 ±х % и 35 ±у % и сравним х и у. Используя логический анализ, можно сделать вывод, что большая выборка содержит меньшую ошибку и что на ее основе можно сделать более правильные выводы о мнении всей совокупности потребителей. Видно, что решающим фактором для получения правильных выводов является размер выборки. Данный показатель присутствует во всех формулах, определяющих содержание различных методов статистического вывода.

При проведении социологических исследований чаще всего используются следующие методы статистического вывода: оценка параметров и проверка гипотез.

Оценка параметров генеральной совокупности представляет собой процесс определения исходя из данных о выборке, интервала, в котором находится один из параметров генеральной совокупности, например среднее значение. Для этого используют следующие статистические показатели: средние величины, среднюю квадратическую ошибку и желаемый уровень доверительности (обычно 95 % или 99 %).

Ниже пойдет разговор об их роли при проведении оценки параметров.

Средняя квадратическая ошибка является, как отмечалось выше, мерой вариации выборочного распределения при теоретическом предположении, что исследовалось множество независимых выборок одной и той же генеральной совокупности.

Она определяется по следующей формуле:

где Sx— средняя квадратическая ошибка выборочной средней;

S — среднее квадратическое отклонение от средней величины в выборке;

п — объем выборки.

Если используются процентные меры, выражающие альтернативную изменчивость качественных признаков, то

где Sp — средняя квадратическая ошибка выборочной средней при использовании процентных мер;

р — процент респондентов в выборке, поддержавших первую альтернативу;

q = (100 — q) — процент респондентов в выборке, поддержавших вторую альтернативу;

п — объем выборки.

Видно, что средняя ошибка выборки тем больше, чем больше вариация, и тем меньше, чем больше объем выборки.

Поскольку всегда существует выборочная ошибка, то необходимо оценить разброс значений изучаемого параметра генеральной совокупности. Предположим, исследователь выбрал уровень доверительности, равный 99 %. Из свойств нормальной кривой распределения вытекает, что ему соответствует параметр Z = ±2,58. Средняя для генеральной совокупности в целом вычисляется по формуле

Если используются процентные меры, то

Это означает, что если вы хотите, чтобы при 99 %-ном уровне доверительности диапазон оценок включал истинную для генеральной совокупности оценку, то необходимо умножить среднюю квадратическую ошибку на 2,58 и добавить к процентному значению р (верхняя предельная оценка). Если же произвести вычитание данного произведения, то найдем нижнюю предельную оценку.

Как эти формулы связаны со статистическим выводом?

Поскольку производится оценка параметра генеральной совокупности, то здесь указывается диапазон, в который попадает истинное значение параметра генеральной совокупности. Для этого для выборки берется статистическая мера центральной тенденции, величина дисперсии и объем выборки. Далее делается предположение об уровне доверительности и рассчитывается диапазон разброса параметра для генеральной совокупности.

Например, для членов выборки (100 читателей какой-то газеты) было установлено, что среднее время чтения газеты составляет 45 минут при средней квадратической ошибке в 20 минут. При уровне доверительности, равном 95 %, получим

т. е. 41,1-48,9 минуты.

При 99 %-ном уровне доверительности получим х ± 2,58S;

т. е. 39,8-50,2 минуты.

Видно, что доверительный интервал шире для 99 % по сравнению с 95 %-ным уровнем доверительности.

Если используются проценты и оказалось, что из выборки в 100 человек 50 % опрошенных по утрам читает газеты, то при уровне доверительности в 99 % получим следующий диапазон оценок:

т. е. 37,1-62,9%.

Таким образом, логика статистического вывода направлена на получение конечных заключений об изучаемом параметре генеральной совокупности на основе выборочного исследования, осуществленного по законам математической статистики. Если используется простое заключение, не основанное на статистических измерениях, то конечные выводы носят субъективный характер, и на основе одних и тех же фактов разные специалисты могут сделать разные выводы.

При использовании статистического вывода применяются формулы, носящие объективный характер, в основе которых лежат общепризнанные статистические концепции. В результате конечные выводы носят намного более объективный характер.

В ряде случаев делаются суждения относительно какого-то параметра генеральной совокупности (величины средней, дисперсии, характера распределения, формы и тесноты связи между переменными), исходя только из некоторых предположений, размышлений, интуиции, неполных знаний. Такие суждения называются гипотезами.

Статистической гипотезой называется предположение о свойстве генеральной совокупности, которое можно проверить, опираясь на данные выборки.

Под проверкой гипотезы понимается статистическая процедура, применяемая для подтверждения или отклонения гипотезы, основанной на результатах выборочных исследований. Проверка гипотезы осуществляется на основе выявления согласованности эмпирических данных с гипотетическими. Если расхождение между сравниваемыми величинами не выходит за пределы случайных ошибок, гипотезу принимают. При этом не делается никаких заключений о правильности самой гипотезы, речь идет лишь о согласованности сравниваемых данных.

Проверка гипотезы проводится в пять этапов:

  • 1. Делается некоторое предположение относительно какой-то характеристики генеральной совокупности, например, о средней величине определенного параметра.
  • 2. Формируется случайная выборка, проводится выборочное исследование и определяются статистические показатели выборки.
  • 3. Сравнивается гипотетическое и статистическое значения исследуемой характеристики.
  • 4. Определяется, соответствуют или нет результаты выборочного исследования принятой гипотезе.
  • 5. Если результаты выборочного исследования не подтверждают гипотезу, последняя пересматривается; она должна соответствовать данным выборочного исследования.

Вследствие вариации результатов выборочных исследований невозможно сделать абсолютно точный вывод о достоверности гипотезы, проводя простое арифметическое сравнение величин характеристик. Поэтому статистическая проверка гипотезы включает использование: выборочного значения характеристики, среднего квадратического отклонения, желательного уровня доверительности и гипотетического значения характеристики для генеральной совокупности в целом.

Для проверки гипотез о средних величинах применяется следующая формула:

где х — средняя для выборки;

рн— гипотетическое значение средней (из формулы (10.3));

S — средняя квадратическая ошибка средней.

Например, готовя рекламу учебной программы по подготовке менеджеров по сбыту, руководитель программы считал, что выпускники программы получают в среднем 1750 долларов в месяц. Таким образом, гипотетическая средняя для генеральной совокупности равна 1750 долларам. Для проверки данной гипотезы было проведено телефонное обследование менеджеров по сбыту разных фирм.

Выборка составила 100 человек, средняя для выборки равнялась 1800 долларам и среднее квадратическое отклонение составляло 350 долларов. Возникает вопрос, является ли большой разница (50 долларов) между гипотетической зарплатой и ее средним значением для выборки? Проводим расчеты по формуле (10.3):

Видно, что средняя квадратическая ошибка средней величины была равна 35 долларам, а частное от деления 50 на 45 составляет 1,43 (нормированное отклонение), что меньше ± 1,96, величины, характеризующей уровень доверительности 95 %. В данном случае выдвинутую гипотезу можно признать достоверной.

При использовании процентной меры испытание гипотезы осуществляется следующим образом. Предположим, что, исходя из собственного опыта, один из исследователей выдвинул гипотезу, согласно которой только 10 % автолюбителей используют ремни безопасности. Однако национальные выборочные исследования 1000 автолюбителей показали, что 80 % из них используют ремни безопасности. Расчеты в данном случае проводятся следующим образом:

где р — процент из выборочных исследований; пн— процент из гипотезы;

Sp — средняя квадратическая ошибка при расчетах в процентах.

Видно, что первоначальная гипотеза отличалась от найденных 80 % на величину 55,3, умноженную на среднеквадратическую ошибку, т. е. не может быть признана достоверной.

В ряде случаев целесообразно использовать направленные гипотезы. Направленные гипотезы определяет направления возможных значений какого-то параметра генеральной совокупности. Например, заработок больше 1750 долларов. В данном случае используется только одна сторона кривой распределения, что находит отражение в использовании знаков «+» и «-» в расчетных формулах.

Более детальную информацию по данной проблеме можно получить из [11].

Здесь, правда, возникает вопрос. Если можно провести выборочные исследования, то зачем выдвигать гипотезы? Обработка результатов выборочных исследований дает возможность получить средние величины и их статистические характеристики, не выдвигая никаких гипотез. Поэтому проверка гипотез скорее применяется в случаях, когда невозможно или чрезвычайно трудоемко проводить полномасштабные исследования и когда требуется сравнивать результаты нескольких исследований (для разных групп респондентов или проведенные в разное время). Такого рода задачи, как правило, возникают в социальной статистике. Трудоемкость статистико-социологических исследований приводит к тому, что почти все они строятся на несплошном учете. Поэтому проблема доказательности выводов в социальной статистике стоит особенно остро.

Применяя процедуру проверки гипотез, следует помнить, что она может гарантировать результаты с определенной вероятностью лишь по «беспристрастным» выборкам, на основе объективных данных.

Анализ различий заключается в проверке существенности различий путем сопоставления ответов на один и тот же вопрос, полученных для двух или более независимых групп респондентов. Кроме того, в ряде случаев представляет интерес сравнение ответов на два или более независимых вопросов для одной и той же выборки.

Примером первого случая может служить изучение вопроса: какие радиопрограммы предпочитают слушать по утрам жители определенного региона: местную или центральную? Первоначально было опрошено на основе формирования случайной выборки 100 респондентов, 60 % которых отдают предпочтение центральной программе; через год исследование было повторено, только 40 % из 300 опрошенных человек высказалось за центральную программу. Как можно сопоставить результаты этих двух исследований? Прямым арифметическим путем сравнивать 40 % и 60 % нельзя из-за разных ошибок выборок. Хотя в случае больших различий в цифрах, скажем, 20 % и 80 %, легче сделать вывод об изменении вкусов. Однако если есть уверенность, что эта большая разница обусловлена прежде всего тем, что в первом случае использовалась очень малая выборка, то такой вывод может оказаться сомнительным. Таким образом, при проведении подобного сравнения в расчет необходимо принять два критических фактора: степень существенности различий между величинами параметра для двух выборок и средние квадратические ошибки двух выборок, определяемые их объемами.

Для проверки, является ли существенной разница измеренных средних, используется нулевая гипотеза. Нулевая гипотеза предполагает, что две совокупности, сравниваемые по одному или нескольким признакам, не отличаются друг от друга. При этом предполагается, что действительное различие сравниваемых величин равно нулю, а выявленное по данным отличие от нуля носит случайный характер [4; 11].

Для проверки существенности разницы между двумя измеренными средними (процентами) вначале проводится их сравнение, а затем полученная разница переводится в значение среднеквадратических ошибок и определяется, насколько далеко они отклоняются от гипотетического нулевого значения.

Как только определены среднеквадратические ошибки, становится известной площадь под нормальной кривой распределения и появляется возможность сделать заключение о вероятности выполнения нулевой гипотезы. Рассмотрим следующий пример. Попытаемся ответить на вопрос: «Есть ли разница в потреблении прохладительных напитков между девушками и юношами?» При опросе был задан вопрос относительно числа банок прохладительных напитков, потребляемых в течение недели. Описательная статистика показала, что в среднем юноши потребляют 9, а девушки — 7,5 банки прохладительных напитков. Средние квадратические отклонения соответственно составили 2 и 1,2. Объем выборок в обоих случаях составлял 100 человек. Проверку статистически значимой разницы в оценках осуществляем следующим образом:

где х1их2 — средние для двух выборок;

S] и S2— средние квадратические отклонения для двух выборок;

nj и п2— объем соответственно первой и второй выборок.

Числитель данной формулы характеризует разницу средних. Кроме того, необходимо учесть различие формы двух кривых распределения. Это осуществляется в знаменателе формулы. Выборочное распределение теперь рассматривается как выборочное распределение разницы между средними (процентными мерами). Если нулевая гипотеза является справедливой, то распределение разницы является нормальной кривой со средней, равной нулю, и средней квадратической ошибкой, равной 1.

Видно, что величина 6,43 существенно превышает значение 1,96 (95 %-ный уровень доверительности) и 2,58 (99 %-ный уровень доверительности). Это означает, что нулевая гипотеза не является истинной.

Вопросы анализа существенности различий более детально рассмотрены в [11].

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >