Общая постановка задачи расщепления смеси вероятностных распределений и алгоритм ее выполнения

Параметрическое моделирование социально-экономических процессов предполагает декомпозицию закона распределения функции /(д ). Его представляют в виде весовой суммы р законов распределений, каждый из которых описывает распределение однородной j-й группы объектов (страты), долю которой в общей совокупности определяет весовой коэффициент я в модели.

Плотность вероятности признака X в неоднородной совокупности имеет вид взвешенной суммы р плотностей вероятности:

(6.20)

где П) – удельный вес j-го компонента смеси,

плотность распределения j- го компонента смеси, полагаемая унимодальной.

При едином виде законов распределения каждой из однородных групп f(x,Qj) задача декомпозиции представляет собой расщепление смеси вероятностных распределений:

(6.21)

Задача разделения смеси заключается в том, чтобы, имея выборку случайных и независимых наблюдений из смеси /(.г), зная число компонентов и функцию /, оценить вектор параметров по выборке х,,х2,..., хп.

В случае нормальности распределений вектор 0; будет определяться параметрамии. В случае если исследователь располагает оценками параметров априорно известных видов распределения, задача решается на основании параметрической схемы дискриминантного анализа.

Главное отличие схемы параметрического дискриминантного анализа от расщепления или декомпозиции смеси распределений заключается в методе оценивания неизвестных параметров, от которых зависят функции распределения, описывающие классы. В этом плане оценивание параметров в модели смеси распределений значительно сложнее, чем оценивание по обучающим выборкам.

Задача расщепления смеси распределений отличается от задачи оценивания по выборке, так как задача расщепления сохраняет смысл и применительно к генеральной совокупности.

В этом случае она состоит в восстановлении компоненти весов по заданной левой части f(X) в выражении (6.20).

Конечная смесь (6.20) называется идентифицируемой, если из равенства

следует, что р- р а для каждого j найдется I такое, чтои

С этим свойством связано требование унимодальности распределений I.

Неизвестные параметры я: и 0; могут быть оценены по наблюдениям Xf,x2?...,x„ методом наибольшего правдоподобия путем максимизации логарифма функции правдоподобия по неизвестным параметрам Hj и 0^:

Конкретные алгоритмы, построенные по этой схеме, часто называют итерационными алгоритмами (типа ЕМ), поскольку в каждом из них можно выделить два чередующихся этапа: оценивание (estimation) и максимизацию (maximization). Этот алгоритм как инструмент для самопроизвольной классификации образов был предложен М. И. Шлезингером[1]. Впоследствии он был доработан и систематизирован в работах А. Дем- стера, Н. Лаирда и Д. Рубина[2] и представлен под названием £М-алгоритма. Область применения данного алгоритма чрезвычайно широка: дискриминантный анализ, кластеризация, восстановление пропусков в данных, обработка сигналов и изображений [32]. Мы рассматриваем £М-алгоритм как инструмент декомпозиции смеси вероятностных распределений.

Итерационный алгоритм вычисления оценок предусматриваетна этапе оценивания задание начальных приближений вектора оценоки вычисление начального приближения для апостериорных вероятностей

На этапе максимизации исходя из значенийпо формуле

(6.22)

определяютиз условия максимизации отдельно каждого из первых двух слагаемых правой части формулы (6.22). При этом учитывается, что первое слагаемоезависит только от параметров, а второе слагаемое – только от параметров.

Соответственно, решаются две оптимизационные задачи

Таким образом, этап максимизации сводится к вычислению весов компонент как средних арифметических и оцениванию параметров компонент 0 путем решения р независимых оптимизационных задач. После этапа максимизации вновь возвращаются к оцениванию, но уже на следующей итерации, и процедура повторяется. Итерации останавливаются, когда значения оцениваемых параметров перестают существенно изменяться. Условия сходимости алгоритма ЕМ рассматриваются в работе [32]. EM-алгоритмы показывают достаточную работоспособность даже при большом числе классов и высокой размерности признакового пространства. Их недостатками являются трудоемкость реализации вычислительных процедур, а также медленная сходимость алгоритмов.

Обобщенный EM-алгоритм предполагает, что необязательно добиваться высокой точности решения оптимизационной задачи на каждом шаге алгоритма. Достаточно лишь сместиться в направлении максимума, сделав одну или несколько итераций, и затем выполнить шаг оценивания. Этот алгорEM-алгоритмом (generalized EM-algorithm, GEM) [32].

Стандартная процедура заключается в том, чтобы выбрать параметры компонент случайным образом. Однако лучший результат будет достигнут в том случае, если в выборке будут найдены п объектов, максимально удаленных друг от друга, и именно эти точки использованы в качестве начальных приближений центров компонент. В случае невысокой размерности признакового пространства целесообразно исследовать данные визуально или прибегнуть к экспертному определению начальных приближений.

Важной проблемой является выбор числа компонент р. До сих пор предполагалось, что число кластеров известно заранее, однако на практике, как правило, это не всегда так. Иногда число компонент удается оценить визуально, спроецировав выборку на плоскость каким-либо способом и определив число локальных сгустков точек. Однако проецирование искажает структуру выборки, а обращение к эксперту исключает возможность автоматического анализа данных.

Существует еще один прием – решить задачу несколько раз при различных значениях числа компонент р, построить график зависимости функции правдоподобия выборки <2(0) от числа компонент и выбрать наименьшее число компонент, при котором на графике наблюдается резкий скачок в увеличении значения функции правдоподобия.

Смеси многомерных нормальных распределений позволяют приближать любые непрерывные плотности вероятности. Они являются универсальными аппроксиматорами плотностей, подобно тому как полиномы являются универсальными аппроксиматорами непрерывных функций.

Недостатком гауссовских смесей является необходимость обращать ковариационные матрицы, которые нередко оказываются вырожденными или плохо обусловленными. Тогда возникает проблема неустойчивости выборочных оценок плотности и самого классификатора.

Таким образом, в алгоритме смеси вероятностных распределений для оценки р (числа кластеров) предварительно для ряда значений р = 2, 3,... находят оценки параметров 0(р), при которых соответствующие логарифмы функции правдоподобия In L(Q(k)) достигают максимума.

После нахождения по выборке оценокдляприходят к схеме дискриминантного анализа (см. параграф 6.3). Для получения однозначного правила отнесения произвольного объекта к одному из выделенных классов можно использовать байесовский подход, позволяющий получать оптимальную процедуру классификации и использующий в качестве критерия минимум среднего риска ошибочной классификации:

Таким образом, наблюдение, будет отнесено к классу / тогда, когда средние удельные потери от его отнесения именно к этому классу окажутся минимальными по сравнению с потерями от его отнесения к любому другому классу.

Процесс классификации наблюденийпроводится так же, как и в схеме параметрического дискриминантного анализа, т.е. наблюдение .г, относят к классу с номером 9j, если

При простой функции стоимости ошибок классификации в отсутствие априорных предпочтений границы страт определяются абсциссами точек пересечения соседних компонентов смеси. В окрестностях этих точек вероятность ошибочной классификации близка к 1/2. Такой подход в случае существенного наложения компонент может приводить к результатам, противоречащим экономическому смыслу: незначительные отличия обусловливают переход объекта из одной группы в другую.

Для устранения граничного эффекта иногда используют двойные критерии, приводящие к появлению зон неопределенности, в пределах которых принимается решение об отсутствии достаточных оснований для отнесения объектов к одному из соседних классов.

Более адекватным реальности представляется подход, учитывающий отсутствие резких границ между стратами, когда переход от принадлежности к непринадлежности объекта к данному классу постепенный, а не скачкообразный. В этом случае естественным является отражение степени близости i-го объекта к j-й страте с помощью функции принадлежности (membership function)

которая показывает, что i-й объект наотносится к у-й группе.

Изменение значений функции принадлежности во времени обусловливает наглядное представление о динамике перехода объекта из одной страты в другую. Каждая страта может быть охарактеризована по ее наиболее ярким представителям, обладающим близкими к единице значениями функции принадлежности к данной страте.

Иллюстрация решающего правила для модельного распределения в виде одномерной смеси трех компонентов приведена на рис. 6.14. На рис. 6.15 отображен вариант нечеткого решающего правила, представленный функциями принадлежности к каждой из страт.

Компоненты общего закона распределения с четкими границами страт

Рис. 6.14. Компоненты общего закона распределения с четкими границами страт

Функции принадлежности к каждой из страт:

Рис. 6.15. Функции принадлежности к каждой из страт:

Функция принадлежности позволяет представить результаты параметрического структурного моделирования в дружественном для потребителя информации виде.

  • [1] Шлезингер М. /7. О самопроизвольном распознавании образов // Читающие автоматы. Киев: Наукова думка. 1965
  • [2] Demster A., Laird N. М„ Rubin D. В. Maximum likelihood estimation from incomplete data //Journal of the Royal Statisical Society. Series B. 1977. Vol. 39. P. 1–38.
 
< Пред   СОДЕРЖАНИЕ     След >