Меню
Главная
Авторизация/Регистрация
 
Главная arrow Статистика arrow МАТЕМАТИЧЕСКАЯ СТАТИСТИКА ДЛЯ СОЦИОЛОГОВ
Посмотреть оригинал

Невозможность все содержание любой социологической задачи вложить в математическую модель, а любой формальный объект содержательно проинтерпретировать. Рождение понятий анализа данных и прикладной статистики

Итак, в течение трех с половиной веков развивались статистические методы социологии в тесном взаимодействии с развитием теории вероятностей и математической статистики. По мере роста возможности получения все более объемных и разнообразных данных, расширялся и круг поддающихся решению содержательных задач, постепенно выходя за пределы статистики. В области разработки методов сбора и анализа данных интересы социологии все более совпадали с интересами других наук (как социальногуманитарных, так и естественных), использующих эмпирический материал для получения нового знания — медицины, геологии, психологии, истории и т.д. Ширилась совокупность алгоритмов, позволяющих решать общие для всех этих наук задачи, методные достижения отдельных наук обогащали друг друга.

Круг используемых алгоритмов ширился не только за счет развития теории вероятностей и математической статистики и не только за счет развития нестатистических подходов, решающих сходные задачи. Опишем важный методологический аспект процесса математического моделирования реальных явлений.

Постепенно стало ясно, что при решении любой содержательной задачи с помощью любого математического метода интерпретация исследователем исходных данных, трактовка решаемой задачи всегда содержали фрагменты, не поддающиеся формализации. И, напротив, фрагменты математических теорий, даже в тех случаях, когда их создание начиналось с формализации реальных явлений, развиваясь в соответствии с законами математики, в итоге увенчивались такими математическими конструкциями, которые иногда не удавалось интерпретировать содержательно.

1

Кроме того, как мы уже упомянули, решаемые задачи явно вышли за пределы того, что называлось статистикой.

К середине XX в. описываемый процесс развился настолько, что потребовалась институциализация соответствующего направления науки. И она была осуществлена путем введения в науку понятия анализ данных, отвечающего отдельной ветви научного знания[1], успешно использующейся и развивающейся в настоящее время. В ее основе лежит некое «ядро», набор огромного количества математических (иногда довольно сложных и не всегда строго формализованных, иногда не статистических) алгоритмов обработки данных. В их число обычно включают и методы математической статистики (например, регрессионный и дисперсионный анализы, часто используемые в социологии, второй рассмотрен в данном учебнике). Своеобразие этой ветви заключается прежде всего в том, что ее нельзя назвать математической. Сами алгоритмы зачастую носят эвристический характер (не обоснованы с той строгостью, которая принята в математике); выбор входящих в алгоритм параметров требует вмешательства исследователя. Для полноценного решения содержательной задачи часто нужно комплексное применение нескольких методов, ответ же на вопросы о том, какие алгоритмы и как надо комбинировать, снова требует содержательных соображений исследователя. Исходные данные нуждаются в предварительном преобразовании для того, чтобы их анализ имел смысл (имеются в виду такие процедуры, как нормировка данных, заполнение пропусков, разбиение диапазона изменения переменных на интервалы и т.д.; сюда же можно отнести и некоторые проблемы измерения, т.е. способов получения исходных данных). Для реализации методов анализа данных надо выбрать компьютерные пакеты, что также часто определяется отнюдь не математическими соображениями. В некоторых практических ситуациях требуется разработать логику процесса использования того или иного алгоритма и т.д.

Анализом данных часто называют совокупность формальных алгоритмов «ядра» вместе с правилами их использования для решения конкретных содержательных задач с учетом указанных выше проблем. Упомянутые правила нередко бывают настолько привязаны к содержательной стороне решаемых задач, что приходится говорить об анализе данных для конкретного направления науки, например, в нашем случае, об анализе социологических данных. Таким образом, наше понимание анализа данных отвечает как бы «погружению» «ядра» (совокупности математических алгоритмов) в тот неформальный контекст, в котором происходит практическое использование математических алгоритмов. И надо еще добавить, что раз уж мы говорим об анализе данных как о ветви науки, то подразумеваем наличие всех тех атрибутов, которые присущи той или иной области знания именно как относительно самостоятельной научной ветви. В частности, предполагаем, что эта область знания находится в постоянном развитии, осуществляющемся в соответствии с определенными правилами.

Примерно то же в литературе часто называют прикладной статистикой. Приведем соответствующее определение. Прикладная статистика — научная дисциплина, разрабатывающая и систематизирующая понятия, приемы, математические методы и модели, предназначенные для организации сбора, стандартной записи, систематизации и обработки статистических данных с целью их удобного представления, интерпретации и получения научных и практических выводов[2]. Другими словами, указанный термин используется для обозначения множества алгоритмов анализа данных (нашего «ядра») вкупе с методами подготовки данных к анализу и выбором компьютерных подходов к реализации рассматриваемых алгоритмов. Это примерно отвечает приведенному выше определению анализа данных. Оба определения неформализованы, поэтому их трудно сравнивать друг с другом. Мы этого и не будем делать, считая эти дефиниции синонимичными. Оговорим лишь один момент: в определении анализа данных мы упоминали как часть контекста, в который «погружается ядро», логику использования как отдельных алгоритмов, так и нескольких методов в комплексе. Этого нет в определении прикладной статистики. Такую корректировку указанного определения вряд ли можно считать принципиальной (с учетом уровня неформализованности наших дефиниций и крута наших рассмотрений). Но мы все же говорим об этом, поскольку выделение соответствующих шагов важно для социолога.

Итак, мы трактуем прикладную статистику (синоним — анализ данных)1 как результат «погружения» совокупности соответствующих математических алгоритмов в ту содержательную (неформализованную) среду, которая «окружает» процесс использования выбранных алгоритмов. Мы утверждаем, что при современном состоянии науки никакие математические методы не могут использоваться в социологии без описанного «погружения» процесса применения метода в содержательную логику решения конкретной социологической задачи. И это касается не только социологии, но и других ветвей науки, использующих математические методы[3] [4].

Подчеркнем один методологический момент. Социолог, желающий воспользоваться положениями прикладной статистики, должен настолько глубоко проанализировать содержательные смыслы и решаемой социологической задачи, и моделей, заложенных в алгоритмах нашего «ядра»[5], чтобы на основе такого анализа можно было выбрать и эти алгоритмы, и логику их использовании, и тот контекст, в который при таком использовании алгоритмы будут «погружены».

Полагаем, что путем такого «погружения» процесса применения того или иного математического метода в содержательный контекст реальной социологической задачи поможет решить также сформулированную в п. В.2 проблему преподавания студентам- социологам математических дисциплин. «Погружение» послужит фактором, побуждающим исследователя, помимо всего прочего, раскрыть содержательный смысл моделей, заложенных в используемых математических алгоритмах (в нашем случае — алгоритмах построения доверительных интервалов и проверки статистических гипотез), и на этой базе продумать способы формирования исходных данных и т.д. Обсуждение таких вопросов даст возможность определенной «привязки» курса к содержательной социологической проблематике.

Для того чтобы точно обрисовать круг рассматриваемых в учебнике положений, нужно ограничить и совокупность рассматриваемых алгоритмов (т.е. наше «ядро»; выше мы говорили о произвольных математических методах, содержащихся в ядре), и множество учитываемых характеристик упомянутой неформализованной среды, в которой алгоритмы должны функционировать. И то, и другое невозможно рассмотреть в полной мере в одной книге из-за огромного объема материала и постоянного развития множеств алгоритмов и методических положений по их использованию.

В настоящем учебнике рассматриваются только такие алгоритмы анализа данных, которые обычно относят к области математической статистики в том смысле, который мы охарактеризовали в начале введения. Другими словами, как мы уже оговаривали, речь идет о методах перенесения результатов с выборки на генеральную совокупность, т.е. о способах построения доверительных интервалов и проверки статистических гипотез. Именно для этих методов мы будем говорить о контексте их использования.

Тот неформализованный антураж (содержательный контекст), свойства той среды, которые социолог должен использовать, применяя положения математической статистики для решения содержательных задач, рассматриваются в учебнике в очень небольшой степени: говорится о типах шкал, использованных для получения исходных данных.

При рассмотрении содержательного контекста в учебнике в единый процесс объединяются и анализ содержательных сторон моделей, заложенных в рассматриваемых математических алгоритмах (в данном случае — алгоритмов математической статистики), и изучение характеристик социологической ситуации, в которую «погружено» использование этих алгоритмов.

  • [1] Термин анализ данных не имеет однозначной трактовки. Об использующихся смыслах см.: Толстова Ю.Н. Анализ данных // Энциклопедический социологический словарь. М.: ИСПИ РАН, 1995. 18—21. Проблема понимания рассматриваемого термина анализируется применительно к потребностям социологии.См.: Толстова Ю.Н. Анализ социологических данных. М: Мир науки, 2000. Подчеркнем еще раз, что мы рассматриваем анализ данных именно как ветвь науки,а не как набор шагов по обработке данных.
  • [2] Айвазян С.А., Мхитарян В.С. Теория вероятностей и прикладная статистика. М.: ЮНИТИ-ДАНА, 2001. С. 49.
  • [3] Следует оговорить, что анализ данных включает в себя и нестатистическиеметоды. Такая возможность обычно не предполагается для прикладной статистики, хотя явно это нигде не оговаривается.
  • [4] Подчеркнем, что сказанное противоречит бытующему среди социологовмнению о том, что математические алгоритмы, будучи частью строгих математических построений, с одинаковым успехом могут быть применены к любымданным (конечно, отвечающим условиям применимости метода), приводя приэтом к некоторому «объективному» результату. Никакой «объективности» бытьне может без привязки математического аппарата к конкретной содержательнойзадаче.
  • [5] О подобных моделях подробнее см.: Толстова Ю.Н. Анализ социологических данных. М.: Мир науки, 2000.
 
Посмотреть оригинал
Если Вы заметили ошибку в тексте выделите слово и нажмите Shift + Enter
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 

Популярные страницы