Меню
Главная
Авторизация/Регистрация
 
Главная arrow Информатика arrow ВВЕДЕНИЕ В АНАЛИЗ ДАННЫХ
Посмотреть оригинал

Ф2.1. Формулировки

Рассмотрим N объектов, пронумерованных от 1 до N: i = 1, 2, ..., N. Значения признака х на этих объектах представляют собой индексированный набор чисел хи ..., xN. Этот набор чаще всего обозначается как X = {хь ..., xv}.

Для того чтобы в интервале (а, Ь), где а — левый, а b — правый конец интервала) построить п бинов, требуется (п - 1) разделителей в точках хк = а + к(Ь - - а)/п (к = 1, 2,..., п- 1). На самом деле, эта же формула может быть использована и при к = 0, когда х0 = а, и при к = п, когда хк = Ь. Этот прием может оказаться полезным при нахождении числа объектов Nk, попадающих в &-й бин к = 1,2,..., п. Левая граница k-го бина находится в точке хк_ = а + (к - I )(Ь - а)/п, а правая в точке хк= а + к(Ь - а)/п. Одну из границ следует исключить из бина, для того чтобы бины не пересекались даже в граничных точках. Числа Nk, к = 1,2, ..., п характеризуют распределение признака. Гистограмма — это визуальное представление распределения. Для к-го бина рисуют столбик высотой Nk (k = 1,2, ..., п) (см. рис. 2.2—2.5). Заметим, что выбор числа бинов определяется пользователем исходя из характера распределения и цели анализа; надежных теоретических рекомендаций не существует.

Гистограмму можно рассматривать как эмпирическое представление теоретической так называемой функции плотности распределения. Функция плотности р(х) выражает понятие вероятности, но не напрямую с помощью своих значений

р(х), а с использованием интегралов, т.е. площадей между кривой р(х) и осью X на интервалах значений признака [/, g. Такой интеграл равен вероятности того, что случайная величина, распределенная по р(х), попадет в интервал [f,g]. Следовательно, площадь подо всей кривой должна быть равна 1. Для того чтобы получить такую функцию, ее шкалируют с помощью деления на полную площадь в случае необходимости.

Функция плотности степенного закона записывается как р(х) = а/х где X характеризует степень уменьшения частоты при увеличении х (рис. 2.6). Считается, что этот закон распределения выражает явление, которое называется эффектом Матфея. Это название связано с притчей о талантах из Евангелия от Матфея: «Ибо всякому имеющему дастся и приумножится; а у неимеющего отнимется и то, что имеет» (Мф.25:29). Эффект Матфея проявляется, например, в популярном «механизме предпочтительного присоединения» в Интернете. Согласно этому механизму вероятность того, что новый пользователь зайдет на определенный сайт, пропорциональна популярности этого сайта, измеряемой, например, количеством «кликов» пользователей на сайт за единицу времени. При этом у более популярного сайта больше посетителей, что делает его еще более популярным.

Функции плотности

Рис. 2.6. Функции плотности:

слева — степенной закон при X = -0,8; справа — нормальное распределение N(2, 1)

Функция плотности нормального, или Гауссова, распределения (см. рис. 2.6 справа) имеет форму р(х) = С exp|-(x - а)2 /21, где С — константа, выбранная так, чтобы площадь между кривой и осью абсцисс равнялась единице. Эта функция обозначается N(a, а). Распределения ошибок измерений, как и другие распределения, порожденные наложением многих малых случайных независимых эффектов, приближаются к Гауссовому, что может быть обосновано с привлечением математического аппарата теории вероятностей. Параметры Гауссова распределения, а и а2, имеют естественную интерпретацию: а выражает ожидаемое или среднее значение, а а2 — дисперсию.

Эти параметры и способы их оценки по данным описаны в параграфе 2.2. Следует отмстить, что для Гауссова распределения вероятность того, что величина х попадет в интервал а ± а, составляет примерно 88%, а вероятность попадания в интервал а ± За — практически единицу, точнее 99,7%. Последнее означает, что при относительно скромных выборках, до тысячи объектов, случайные значения, выбранные в соответствии с нормальным распределением, не смогут оказаться вне интервала, определенного этим так называемым правилом трех сигма. Гауссово распределение может быть приведено шкалированием к стандартному виду Лг(0, 1) с нулевым математическим ожиданием и дисперсией, равной 1. Для этого значение переменной х сдвигают к математическому ожиданию, а, а затем нормализуют квадратным корнем из дисперсии а. Это преобразование называется

2-стандартизацией, по-английски z-scoring, и записывается как у = (.г - я)/а, где у — преобразованная переменная.

Еще одно популярное распределение — равномерное распределение на интервале у b|. Его функция плотности постоянна и равна р(х) = 1 /{Ь - а), так что вероятность интервала (/, г), лежащего внутри [а, Ь], составляетр = (г - 1)/{Ь - а) и пропорциональна длине интервала.

Более сложные виды распределений моделируют с помощью «смесей» Гауссовых распределений (рис. 2.7).

Функция плотности р(х) в данном случае — смесь двух нормальных распределений, 7V(2, 1) с весом 0,4 и N(8, 2) с весом 0,6

Рис. 2.7. Функция плотности р(х) в данном случае — смесь двух нормальных распределений, 7V(2, 1) с весом 0,4 и N(8, 2) с весом 0,6:

площадь между двумя пунктирными линиями соответствует вероятности того, что величина х попадет в интервал между 0 и 2

 
Посмотреть оригинал
Если Вы заметили ошибку в тексте выделите слово и нажмите Shift + Enter
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 

Популярные страницы