Нормирование (стандартизация) и унификация данных

Нормированные (стандартизованные) данные. В ряде задач бывает удобно или даже необходимо перейти от исходных наблюдений, где i = 1, 2,.... п, к нормированным (стандартизованным), которые введем далее. Пусть имеются данные, на основании которых получены

Нормированными (стандартизованными) называют данные вида

– безразмерные величины, удовлетворяющие условию

Покажем, что средняя арифметическая нормированных данных равна нулю:

а дисперсия равна единице:

При этом если нормированная величина больше нуля (.г* > 0), то наблюдаемое значение больше среднего ; > х). Если же х' < 0, то х, < х.

Стандартизация (нормирование) данных является необходимым начальным этапом преобразования данных при использовании многих многомерных статистических методов – снижения размерности признакового пространства (факторный, компонентный анализ, см. гл. 5), классификации объектов (кластерный анализ, см. гл. 6) и др., особенно если переменные измерены в шкалах, существенно различающихся в величинах (микроны единиц – миллиарды единиц).

Вследствие распространенности и востребованности в статистических пакетах процедура нормирования (стандартизации) обычно вынесена в меню (рис. 1.31).

Вызов процедуры нормирования (стандартизации) данных в меню пакета STA TISTICA (StatSoft)

Рис. 1.31. Вызов процедуры нормирования (стандартизации) данных в меню пакета STA TISTICA (StatSoft)

Унификация данных (унифицированная шкала). При построении интегральных обобщающих показателей часто возникает ситуация, когда нормирование данных не дает нужного результата. Например, нам необходимо построить интегральный показатель качества жизни в стране (регионе)[1], включающий в себя три исходные переменные – продолжительность жизни, младенческую смертность и уровень безработицы. При этом, даже переведя эти три показателя в единую шкалу (например, со значениями от 0 до 1 или от 0 до N), мы будем иметь конфликт в интерпретации переменных следующего плана.

Первая переменная – продолжительность жизни – характеризуется тем, что чем большие значения она принимает, тем выше качество жизни в стране (регионе). Напротив, вторая переменная – младенческая смертность – при повышении значений понижает качество жизни. Третья переменная – безработица – имеет свой некоторый оптимум (примерно 5% обеспечивает нормальное функционирование и развитие экономики[2]). И, соединив все три признака в один интегральный показатель, мы будем иметь отсутствие адекватной интерпретации полученного показателя. Чем он выше, тем выше продожительность жизни (лучше), выше младенческая смерность (хуже), выше безработица (непонятно). Для разрешения таких проблем и существует при анализе данных способ, позволяющий это сделать, – приведение всех переменных, участвующих в построении интегрального показателя, к единой унифицированной шкале.

Унифицированная шкала – используемая при построении интегральных показателей из различных переменных шкала, принимающая значения от 0 до N имеющая единую систему интерпретации: чем выше значения переменной в унифицированной шкале, тем выше значение интегрального показателя. При N = получаем шкалу от 0 до 1.

Переменные первого типа – чем выше показатель, тем лучше (продолжительность жизни) – приводятся к унифицированной шкале следующим образом:

где Xj – значение переменной для г-го наблюдения; amin и атах – соответственно наименьшее и наибольшее наблюдаемые значения переменной.

Согласно этой формуле если xt amin, то а' =0, а если .г, – апт, то х] = N, т.е. чем больше значение переменной а,, тем выше (лучше) ее значение в унифицированной шкале а*.

2. Переменные второго типа – чем выше показатель, тем хуже (младенческая смертность) – приводятся к унифицированной шкале следующим образом:

Согласно этой формуле если а, = ат|1), го х = N, а если а,- = а„их, то а* = 0, т.е. чем больше значение переменной а,, тем ниже (хуже) ее значение в унифицированной шкале X/.

3. Переменные третьего типа – показатель имеет некий оптимум аопт, это значение наилучшее, чем больше отклонения от него, тем хуже (уровень безработицы) – приводятся к унифицированной шкале следующим образом:

Согласно этой формуле если xt = аопт, то х] = N. Если же а, имеет максимально возможное отклонение оташп, то а," =0. Например, если (ашах – а,шт) > > (aOMT-amin) и а, = атах, то а' =0. Таким образом, чем больше значение переменной а, отклоняется от оптимального, тем ниже (хуже) значение а* в унифицированной шкале, а чем ближе значение а, к этому аопт, тем лучше.

  • [1] Айвазян С. А. Анализ качества и образа жизни населения // ЦЭМИ РАН. М.: Наука, 2012. (Экономическая наука современной России).
  • [2] Там же.
 
< Пред   СОДЕРЖАНИЕ     След >