З. Стандартизация значений случайных величин. Виды некоторых специфических распределений, использующихся при переносе результатов с выборки на генеральную совокупность

Стандартизация (нормировка) значений случайной величины: способы и цели

В эмпирических исследованиях зачастую бывают задействованы такие признаки, значения которых не сравнимы по величине. И если мы не обратим на это внимания, при анализе данных можем придти к нелепости. Например, предположим, что мы хотим построить типологию какой-то совокупности людей, описываемых, в частности, значениями их зарплаты и возраста. Включаем компьютер, «просим» его осуществить классификацию наших респондентов. Компьютер умеет работать с числами. В соответствии с большинством известных алгоритмов классификации, оценивая по определенным правилам степень близости между всевозможными парами объектов, программа будет близкие объекты относить к одному классу, далекие — к разным. Представим две пары людей: респонденты первой пары отличаются друг от друга только тем, что у одного — зарплата на 50 руб. больше, чем у другого; объекты второй пары — только тем, что у них такая же разница в возрасте (50 лет). Вероятно, при любом разумном алгоритме, если уж первые два респондента окажутся включенными в один класс, то и вторые — тоже, и обратно. Вряд л и это можно считать разумным: какова бы ни была решающаяся задача, различие зарплаты в 50 руб. вряд ли стоит принимать во внимание, а различие в возрасте в 50 лет — напротив, по- видимому, надо будет учесть.

Могут возникнуть недоразумения и из-за того, что наблюдаемые значения рассматриваемых признаков будут «колебаться» вокругсиль- но отличающихся друг от друга точекчисловой прямой (если, например, среднее арифметическое значение одного признака равно 5000 (руб.), а другого — 50 (лет)).

Чтобы подобных недоразумений не происходило, признаки обычно определенным образом нормируюг(хотя, вообще говоря, бывают задачи, когда этого делать не надо). Нормировкабывает разной. Чаще всего делают так, чтобы среднее значение признака стало равным нулю, а остальные значения измерялись в «сигмах». Нетрудно видеть, что к такой ситуации приводит следующая нормировка (стандартизация) всех значений признаках:

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >