Меню
Главная
Авторизация/Регистрация
 
Главная arrow Информатика arrow ВВЕДЕНИЕ В АНАЛИЗ ДАННЫХ
Посмотреть оригинал

Ф2.2. Центр и рассеяние: формулировки

Существует два принципиально разных взгляда на методы суммаризации и коррелирования данных. Согласно одному взгляду, наиболее четко выраженному в классической математической статистике, данные порождены неким вероятностным механизмом, поэтому их используют для восстановления механизма или хотя бы некоторых его свойств. С точки зрения подхода анализа данных вероятностный механизм не существует или не интересен, а главная задача — это поиск закономерностей в самих данных как они есть.

Ф2.2.1. Подход анализа данных

Пусть дано множество наблюденных значений признака X = {х{,..., xN). Задача — представить это множество в «сжатом» виде некой центральной точкой а. Эта центральная точка а должна минимизировать среднее индекса расстояния от нес до всех наблюденных значений:

В зависимости от того, как определен индекс расстояния d(xi} а)} оптимальными могут быть разные значения а. Например, естественно определить d(xit а) = = xj — а|р для некоторого вещественного положительного/? (правило Минковского). К сожалению, нет единого простого метода минимизации (2.1) для произвольного р. Впрочем, для трех значений р = 1, 2 и °° (бесконечность) можно указать простые правила вычисления оптимального а.

Рассмотрим сначала принцип наименьших квадратов, соответствующий р = 2. Согласно этому принципу индекс расстояния — это квадрат разности, d(x, а) = = х — а|2. Тогда минимум среднего расстояния (2.1) достигается в точке а, равной среднему арифметическому значению с. Это доказывается приравниванием нулю производной от выражения (2.1) при квадратах разностей, подставленных вместо d(xv а). Среднее арифметическое значение определяется выражением

Следовательно, среднее расстояние D(X, с) (2.1) в этом случае не что иное, как

Эта величина часто называется дисперсией среднего значения.

Если определить индекс расстояния более традиционным способом просто как величину отклонения d(x, а) = х - а|, т.е. р = 1 в формуле (2.1), то нетрудно доказать, индукцией но N, что оптимальное значение а (центр) при минимизации

(2.1) — это медиана, ms, a D(X, а) — в этом случае — среднее абсолютное отклонение от медианы

На самом деле, медиана — единственный оптимум только при нечетном N. Если же N четное, то оптимальной будет любая величина между двумя числами, Хдг/2 и xN/2+, находящимися в середине упорядоченного ряда элементов X, включая медиану.

Если расстояние D(X, а) в формуле (2.1) определено не как среднее, а как максимум из расстояний, D(X, а) = vmx{d(x}, a), d(x2, а),..., d{xN, а)}, то минимум (2.1) достигается на середине размаха тг. Вместе с тем само правило взятия максимума величин d(xv а) может рассматриваться как предельный случай минимизации суммы (2.1) по правилу Минковского при р => °°.

Рассмотренные выше утверждения объясняют связь между характеристиками центра и характеристиками разброса, приведенными в табл. 2.1 и 2.2. Каждая из характеристик центра минимизирует соответствующую ей меру разброса.

Задача минимизации среднего индекса расстояния, особенно в форме Минковского, может быть представлена в рамках подхода восстановления данных, который позволяет развить для аппроксимационной задачи минимизации (2.1) некоторое подобие теории. Согласно этому подходу любой метод анализа данных перекодирует данные к более простому, в какой-то мере «идеальному», виду. В частности, в задачах вычисления центральной величины, все наблюденные значения рассматриваются как «зашумленные» реализации некого неизвестного значения а, так что имеют место равенства

где ei аддитивные, т.е. суммируемые, остатки, которые необходимо минимизировать, чтобы обеспечить наилучшсс качество восстановления данных в случае их утери — замену каждого значением а. Чтобы не связываться с совершенно неясной проблематикой минимизации всех остатков одновременно, используется какой-либо интегральный критерий. Существует достаточно общее семейство таких критериев — критерий Минковского, математически называемый также нормой Lf). Норма Минковского для многомерного набора остатков определяется как

где р — некоторое положительное число.

При разных значениях р задача минимизации Lp или, эквивалентно, ее р-й степени LpPy будет давать разные решения. Самые часто используемые значения р = 1, 2, и °° (бесконечность) как раз и дают вышеупомянутые критерии:

(1) Принцип наименьших квадратов: минимизировать L22 = e{2 + е22 + ... + е^2, при р = 2.

Минимизация L22 по неизвестному а эквивалентна задаче минимизации среднего квадрата отклонений ех = хх — а. Оптимальное а в этой задаче — среднее значение.

(2) Принцип наименьших модулей: минимизировать L{ = ех + е2 + ... + |^jV|, при р = 1.

Минимизация L{ по неизвестному а эквивалентна задаче минимизации среднего абсолютного отклонения. Оптимальное значение а в этой задаче — медиана, а = ms.

(3) Принцип наименьшего максимума (Чебышева) L^ = maxdej, е2, ... |ejV|), при р = °°.

Минимизация Lпо неизвестному а эквивалентна задаче минимизации максимального отклонения. Оптимальное значение а в этой задаче — середина размаха, а = тг.

Может показаться, что критерий Минковского LpP для модели (2.5) является всего лишь тривиальной переформулировкой критерия минимизации расстояния

(2.1). Как говорится, старое вино в новой упаковке. По это не так. Дело в том, что уравнение (2.5) позволяет не только оценить расстояние, но и разложить разброс данных на «объясненную» и «необъясненную» составляющие.

Особенно просто это можно сделать для принципа наименьших квадратов. Величина критерия в точке а, равной среднему значению с, равна L22 = (х{ - с)2 + + 2 - с)2 + ... + (Ху - с)2. Раскроем скобки в этом выражении, приведем подобные и получим, что L22 = хх2 + х22 + ... + згу2 - 2с(хх + х2 + ... + xN) + Nc2 = х{2 + + х22 + ... + хЛг - Nc2 = Т(Х) - Nc2, где Т(Х) — квадратичный разброс данных, который определяется как сумма квадратов наблюденных значений Т(Х) = хх2 + + х22 + ... + xj .

Таким образом, квадратичный разброс данных согласно модели (2.5) равен

т.с. состоит из двух частей: первая, Nc2, характеризует ту часть разброса, которая объясняется моделью (2.5), а вторая — ту, которая остается необъясненной, L22. Поскольку разброс данных — константа, минимизация L22 эквивалентна максимизации Nc2. Разложение разброса данных на две составляющие позволяет оценить адекватность модели (2.5) не только с помощью дисперсии, усредненного квадратичного критерия, но и с помощью относительной величины объясненной части Ь22/ Т(Х). Похожее разложение может быть найдено и для принципа наименьших модулей Lx [16].

Вопрос 2.5. Какую часть разброса данных объясняет модель (2.5) для данных вопроса из рабочего примера 2.1?

Ответ. Разброс данных Х= {1, 1, 5, 3, 4, 1,2} по определению равен Т(Х) = I2 + + I2 + 52 + З2 + 42 + I2 + 22 = 1 + 1 + 25 + 9 + 16 + 1 + 4 = 57. Согласно материалу раздела Ф.2.2, объясненная часть разброса равна Nx2= 7 • (2,4286)2 = 41,2857, где х — среднее значение X. Таким образом, среднее для этих данных объясняет 41,2857 / 57 = 0,724, т.е. 72,4% разброса данных. Для проверки можно рассчитать необъясненную часть разброса непосредственно L22=(x -1)2+(Т -1)2+(Т - 5)2 + (х -3)2+(х — 4)2 + (х - 1)2+ - 2)2= 2,04 + 2,04 + 6,61 + 0,33 + + 2,47 + 2,04 + 0,18 = 15,71. Ее доля составляет 15,71 / 57 = 0,276, т.е. 27,6%, что дополняет предыдущий результат до 100% и этим подтверждает правильность вывода.

Вопрос 2.6. Рассмотрим не аддитивную, как в выражении (2.5), а мультипликативную модель ошибки хг- а(1 + е}), предполагая, что ошибки ^ пропорциональны величинам хКаков будет центр а но принципу наименьших квадратов для этой модели?

Ответ. Согласно принципу наименьших квадратов центр должен минимизировать сумму квадратов ошибок. По модели каждая ошибка может быть выражена как ех = хх/ а - 1 = (х, - а) / а. Следовательно, критерий записывается как L22 = = е{2 + ех2 + ... + вдг2 = 1 - I)2 + 2 - I)2 + .... + (xN/a - I)2. По условию оптимальности первого порядка найдем производную L22 по а и приравняем ее нулю. Производная равна 22)' = -(2 3)Х;(хх - а)хх. Допустим, что оптимальное значение а отлично от нуля, тогда условие первого порядка эквивалентно перепишется как Iхх - а)х, = 0, так что а = I.ixi2/'Lixi = (SXx^/N)/(ZjXj/N). Здесь знаменатель — это среднее значение с, а числитель может быть выражен через дисперсию 52, так как имеет место соотношение s2 = T.jXj2/N - IjXj/N, которое нс сложно доказать. После преобразований получим, что оптимальное a = s2/c + 1. В статистике часто рассматривается близкая величина, коэффициент вариации s/с.

Заметим, что и стандартное отклонение, и абсолютное отклонение не превышают половины размаха признака. Этот факт может быть доказан математически [17].

Таблица 23

Центры Минковского для признака «Ширина чашелистика» из данных об Ирисах при разных р

р

р-центр

Нсобъясненный р-разброса, %

0,5

3

28,40

1

3(медиана)

10,82

2

3,057 (среднее)

1,98

3

3,083

0,44

4

3,103

0,11

5

3,120

0,01

Задание 2.1. Величину с назовем р-центр Минковского, если она минимизирует среднее расстояние Минковского (2.1) с показателем степени р. Докажите, что относительное положение центра Минковского не меняется при изменении масштаба.

Задание 2.2. Для признака «Ширина чашелистика» из данных об Ирисах вычислите центр Минковского при р = 0,5; 1; 2; 3; 4; 5.

Ответ. Решение приведено в табл. 2.3. Оно получено с помощью программы cm.m, разработанной в рамках проекта 2.1.

Задание 2.3. Докажите, что р-центр Минковского возрастает с ростом р.

 
Посмотреть оригинал
Если Вы заметили ошибку в тексте выделите слово и нажмите Shift + Enter
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 

Популярные страницы