Меню
Главная
Авторизация/Регистрация
 
Главная arrow Статистика arrow МАТЕМАТИЧЕСКАЯ СТАТИСТИКА ДЛЯ СОЦИОЛОГОВ
Посмотреть оригинал

Понятие статистической закономерности

Статистической закономерностью обыч но назы вают закономерность, характеризующую совокупность изучаемых объектов в целом как систему. Чаще всего — это закономерность, говорящая об изучаемой совокупности «в среднем».

Для того чтобы глубже понять, что именно здесь имеется в виду, совершим небольшой исторический экскурс.

Само представление о статистических закономерностях (и, соответственно, о статистических методах и статистическом подходе) зародилось в XVII в., когда появилось то направление в общество- знании, которое впоследствии было названо политической арифметикой[1] . О статистических приемах изучения общества стали говорить в тех ситуациях, когда цель исследования заключалась «не в исследовании качественных признаков отдельного явления, а в определении количества явлений с известными качествами... Каждый знает, что дети и старики подвергаются большей опасности умереть, чем люди в средних возрастах; мы получили это сведение из векового жизненного опыта; но лишь по переводе в числа оно приобретает в наших глазах полную убедительность, возвышается до степени общественного закона. Если нам покажут, что в Европейской России в среднем выводе за десятилетие (1874—1884) в течение первого года жизни из 1000 родившихся умирало 305 человек, в возрасте от 10 до 15 лет — только 6 человек, а в возрасте от 75 до 80 лет 130 человек на 1000, живущих этого возраста, то наше представление о распределении смертности по возрастам приобретет совершенно точный вид. Таким образом, систематическое изучение общества может состоять, с одной стороны, в качественном наблюдении отдельных явлений, с другой стороны, в количественном наблюдении обширных масс явлений. Этот последний прием изучения и носит название статистического»[2].

Представляется небезынтересным отметить, что первыми стали пользоваться статистическими приемами именно обществоведы, а отнюдь не естествоиспытатели, как иногда пишется в ориентированной на социолога литературе. А. А. Чупров пишет:[3] «В известных условиях массовый итог являет закономерность, постижимую для нас и без того, чтобы была необходимость знать в точности ход всех единичных процессов, которые к нему приводят... Статистические формы знания... зародились в XVII столетии. Однако их применение долгое время ограничивалось исследованием явлений социальной жизни... Потребовалось добрых два века, прежде чем они были осознаны во всей своей общеприменимости... Статистическая точка зрения знаменует собой отказ от того прослеживания единичных событий, которое рисуется уму естествоиспытателя как идеал полноты и совершенства знания»[4].

В процессе институциализации математической статистики определение статистического подхода как подхода, позволяющего изучать рассматриваемую совокупность объектов «в среднем», претерпело изменение (уточнение).

Когда говорят об использовании математико-статистических приемов, представление о статистической закономерности обычно связывают с предположением о вероятностном порождении данных: предполагается, что все наши признаки — это выборочные представления случайных величин, каждое выборочное значение какого-либо признака — это реализация одного из значений случайной величины, и такая реализация имеет определенную вероятность. Поиск любой статистической закономерности сводится к поиску значений совокупности параметров распределений каких-либо случайных величин (одномерных, двумерных, многомерных). Подчеркнем, сказанное означает, что само понятие закономерности мы в таком случае связываем не с выборкой, а с генеральной совокупностью.

Так, казалось бы, простейшими примерами статистических закономерностей, характеризующих студентов какого-либо вуза, мы можем считать утверждения вида: «20% студентов вуза — юноши»; «средняя успеваемость студентов — 6,7 баллов»; коэффициент корреляции между успеваемостью студента на первом и на пятом курсе равен 0,8 и т.д. Однако сказанное позволяет нам расценивать эти соотношения как статистические закономерности только в том случае, если «переведем» их на «язык» генеральной совокупности. Например, говоря о среднем арифметическом значении какого-либо признака для выборки, мы полагаем, что закономерность будет найдена только в том случае, если мы сумеем на базе выборочного среднего арифметического сделать какие-то выводы о генеральном среднем. Например, мы можем полагать, что найденное выборочное среднее само по себе хорошая оценка генерального. Но обычно такого рода утверждения являются не очень корректными. Оказывается, что можно на основе выборочного среднего по определенным правилам сформировать некое более адекватное (вероятностное) представление о генеральном. Собственно, такого рода формирование и относится к основной задаче математической статистики.

Поскольку все интересующие нас статистические закономерности мы связали с поиском параметров распределений случайных величин в генеральной совокупности, то по сути дела само понятие генеральной совокупности было отождествлено с существованием, осмысленностью тех случайных величин, которые «стоят» за нашими наблюдаемыми признаками.

Для социолога очень важно то, что выполнение предположения о вероятностном порождении исходных данных при решении социологических задач далеко не всегда очевидно. Здесь хотелось бы выделить две основные причины такой неочевидности (обе связаны с возможными сомнениями в существовании «генеральных» случайных величин).

Во-первых, нередко у исследователя есть сомнения в том, что он имеет дело с выборкой из какой бы то ни было генеральной совокупности (и, соответственно, с выборочными реализациями значений какой-то случайной величины). Изучаем, скажем, 100 студентов, и у нас нет оснований считать их частью какой-то генеральной совокупности, обобщать соответствующим образом результаты; все выводы считаем справедливыми только для этих 100 человек. В этом случае, естественно, сомнительным становится и использование положений математической статистики. Подобные ситуации были учтены при разработке ряда методов анализа данных. Существуют такие методы, которые заведомо не предполагают вероятностного порождения данных[5]. И мы не можем их сбрасывать со счетов даже тогда, когда говорим о математической статистике. Дело в том, что одна и та же (с содержательной точки зрения) социологическая задача может решаться по-разному в зависимости от того, что думает исследователь по поводу модели порождения имеющихся в его распоряжении данных. Мы должны сознательно выбрать тот или иной подход (в данном случае речь идет о выборе математико-статистического подхода или отказа от него)[6] . И не говорить об этом нельзя.

Во-вторых, мы можем, не сомневаясь в существовании генеральной совокупности, сомневаться в объективности нашего знания о том, как соотносятся наши наблюдаемые признаки и генеральные случайные величины. Так, например, мы можем, опираясь на расчет средней выборочной зарплаты составляющих выборку респондентов, использовать мощный аппарат математической статистики и находить интервал, в который с определенной вероятностью попадает генеральное математическое ожидание рассматриваемого признака. А в действительности в генеральной совокупности существует, скажем, два распределения: одно для малооплачиваемых, нормальное со средним в 5000 руб., а другое — для высоко оплачиваемых, тоже нормальное со средним 50 000 руб. Другими словами, в нашей генеральной совокупности существует не одна, а две случайные величины, и с каждой из них надо работать отдельно (отдельно осуществлять все необходимые оценки). Математическая статистика может помочь «разделить» такую «смесь», но оченьтрудно заранее догадаться отом, что это надо делать.

Отметим, что здесь проблема существования случайной величины переплетается с проблемой однородности генеральной совокупности (о проблеме однородности мы будем также говорить в п. 1.7): под однородной совокупностью нередко пони мают такую, на которой задана содержательно интерпретируемая нормально распределенная случайная переменная".

2

Проблема однородности всоциологии иногда бывает очень сложной[7]. Особенно тонкие и важные для нашей темы моменты возникают в связи с осмыслением понятия вероятности. Адекватный поиск статистических закономерностей (понимание которых не отделимо от понимания вероятности) предполагает умение исследователя различать две ситуации: когда изменение относительной частоты изучаемого явления обусловлено действием случайных по отношению к этому явлению факторов и поэтому может быть нейтрализовано действием закона больших чисел и когда то же изменение возникло из-за изменения того комплекса условий, который входит в само определение вероятности; в таком случае закон больших чисел не при чем, мы имеем дело с разными статистическими закономерностями[8].

Иногда говорят о том, что статистическая закономерность вроде бы отвечает некой необходимости, «пробивающей себе дорогу» через массу случайностей (в том же смысле обычно говорят о наличии средней тенденции). Например, если коэффициент корреляции близок к единице, можно говорить, что между признаками «в среднем» имеется линейная зависимость. В частности, с ростом значений одного признака «в среднем» растут значения другого. Но только «в среднем». В этом процессе могут быть «сбои»[9]. Говорить о таком понимании статистической зависимости целесообразнее в том случае, когда речь идет о «средней» ситуации для разных выборок: взяли одну выборку — одни точки признакового пространства отклоняются от прямой линии, взяли другую выборку — другие, а «в среднем» все же большинство точек плотным облаком охватывают прямую (надеемся, читатель имеет представление о том, какова сущность коэффициента корреляции и какая прямая линия имеется в виду).

Конечно, о какой-то средней «тенденции» можно говорить и в случае, когда нам кажется неадекватной реальности гипотеза о вероятностном порождении исходных данных. Однако обнаружение такой «тенденции» вряд ли можно считать нахождением научно осмысленной закономерности. Пусть, например, мы опросили какое-то количество (например, 100 человек) мужчин — студентов московских вузов, подсчитали их среднюю успеваемость (4,3 балла) и вычислили формально по известной формуле значение коэффициента корреляции между какими-то двумя переменными (0,9). Предположим также, что у нас нет оснований считать, что наши респонденты являются выборкой из некоторой генеральной совокупности и, соответственно, что значения любого из наших признаков — это реализации некоторой случайной величины. Тогда мы не имеем права хотя бы как-то обобщать эти результаты ни на московских студентов вообще, ни на студентов-мужчин, ни на какую-либо другую совокупность людей. Вполне может случиться так, что если мы добавим к этой совокупности еще 50 юношей — студентов московских вузов, получим совсем другие цифры (скажем, среднюю успеваемость — 2,3 балла, коэффициент корреляции между теми же переменными— 0,1). И мы даже не можем сказать, какова вероятность такой метаморфозы[10].

  • [1] 'См., например: Птуха M.R. Очерки по истории статистики XVII — XVIII вв.М., 1945.
  • [2] ь Чупров А.А. Статистика. Лекции. СПб.: Санкт-Петербургский политехнический институт, 1907. С. 6—7. Статистические данные взяты автором из работы: Ян-сон Ю.Э. Сравнительная статистика населения. СПб., т. 1, 1978; т. 2, 1980.
  • [3] ’Любой человек, хотя бы в какой-то мере изучавший основные приемы анализа данных, знает термин «коэффициент Чупрова». Это — один из самых используемых (мы говорим о современной мировой науке и практике) коэффициентов связимежду двумя номинальными признаками. Но при этом забыто то, что А.А.Чупров(1874—1926) был известным ученым, органично сочетавшим в своей работе знаниясоциолога и математика (и имевшим два соответствующих высших образования),получившим математические результаты, позволяющие адаптировать понятие вероятности для социальных исследований, и написавшим огромное количество методологических работ, не потерявших своего значения и в наше время. Некоторыеего идеи мы рассмотрим в теме 12. Отметим также, что многие социологи зачастуюиз-за незнания истории используют несостоятельные аргументы, пытаясь доказать,что математика вообще и математико-статистические методы, в частности, — «инородное тело» для «истинного» социолога.
  • [4] * ЧупровЛ.А. Вопросы статистики. М.: Госстатиздат, I960. С. 143.
  • [5] 4 О сходстве и различии подходов математической статистики и анализа данных к поиску статистических закономерностей см.: Толстова Ю.Н. Анализ социологических данных. Методология, дескриптивная статистика, анализ связей номинальных признаков. М.: Научный мир, 2000.
  • [6] 1,1 Наверное, можно сказать, что рассмотрение в данной работе подходов, неявляющихся математико-статистическими, необходимо хотя бы для того, чтобы ярчеоттенить возможности математической статистики.
  • [7] Подробнее об этом см.*: Толстова Ю.Н. Логика математического анализа социологических данных. М.: Наука, 1991.
  • [8] п Напомним, что вероятность определяется как «числовая характеристика степени возможности появления какого-либо определенного события в тех или иныхопределенных, могущих повторяться неограниченное число раз, условиях» {Колмогоров А. Н. Вероятность // Вероятность и математическая статистика: энцикл. М.:Большая российская энциклопедия, 1999. С. 96). Вопрос о виде упомянутых условий и даже о самом их существовании для социологических задач нередко являетсяпроблематичным.
  • [9] О таком понимании статистических закономерностей и о том, как на базе соответствующих наблюдений рождались основные положения математической статистики (в частности, понятие коэффициента корреляции), говорится в работах А.А. Чупро-ва (например: Чупров А.А. Основы статистики. М.: Госстатиздат ЦСУ СССР, I960).
  • [10] Для дальнейшего важно отметить, что в описанных «некондиционных» условиях мы не только не можем считать, что за нашим вроде бы непрерывным признаком (например, за средней успеваемостью студента) стоит некоторая непрерывнаяслучайная величина, но и вообше не имеем оснований полагать, что наш признакнепрерывен. У нас имеется несколько его значений и остается неизвестным, имеютли смысл остальные гипотетически мыслимые значения. Дело в том, что в социологии очень часто наблюдаемые признаки служат признаками-приборами, значениякоторых интересуют социолога только постольку, поскольку отражают какие-то латентные свойства изучаемых объектов (респондентов). Не все возможные значенияпризнака могут отражать эти латентные свойства, некоторые свойства могут отражаться группами значений и т.д.
 
Посмотреть оригинал
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 

Популярные страницы