Меню
Главная
Авторизация/Регистрация
 
Главная arrow Информатика arrow ИНТЕЛЛЕКТУАЛЬНЫЕ СИСТЕМЫ
Посмотреть оригинал

Алгоритм Парзена — Розенблатта

Для представления о методе Парзена — Розенблатта начнем с простого случая — восстановления одномерной плотности распределения р(х | у).

Для случая дискретной переменной х можно восстановить плотность при помощи гистограммы:

Для непрерывной переменной можно сделать восстановление по ее по плотности по определению этого понятия:

Выражение (5.7) называется эмпирической оценкой плотности распределения но окну шириной /?. Нотация Аверсона в данном выражении позволяет выполнить восстановление плотности при помощи кусочно-постоянной функции. Недостатком использования такой функции можно считать то, что точки xif попадающие в сканирующее окно ширины А, будут давать одинаковый вклад независимо от расстояния до центра.

Однако от этого недостатка легко избавиться — достаточно сделать обобщение для сканирующего окна в виде использования любой функции (называемой ядром), удовлетворяющей следующим критериям:

  • • ядро К(г) должно быть четной функцией;
  • К(г) — нормированная функция, т.е. jK(r)dr = 1;
  • • за особым исключением К(г) — невозрастающая, неотрицательная функция (имеется в виду ее правая ветвь, так как она четная).

Таким образом, мы приходим к обобщенной оценке Парзена — Розенблатта по окну шириной /г[1]:

Выполним обобщение на многомерный случай. Если для представления объектов классификации используется k вещественных признаков, то можно оставить одномерную функцию-ядро:

На практике часто берется гауссово ядро:

Однако далеко не всегда признаки представляются только вещественными числами, в таких случаях приходится прибегать к созданию собственной функции-метрики для данного пространства признаков:

где V(h) — объем шара в ^-мерном пространстве признаков; р(х, Xj) — метрика, введеная для оценки расстояния между объектами в ^-мерном пространстве.

Объем шара V(h) можно рассчитать по следующей формуле:

Однако если пространство однородное, т.е. значение объема шара не зависит от того, в какой точке пространства он вычисляется (в нашем случае подразумевается независимость от х,), то для максимизации (5.6) в общем случае вычислять его не нужно и V(h) можно просто опустить.

Подставив выражение (5.8) в (5.6), получим финальный вид метода Парзена — Розенблатта:

где /,у — число объектов класса у на обучающей выборке.

Как видно из (5.9), метод Парзена — Розеблатта требует хранения всей обучающей выборки и зависит от размера окна h. Но как его выбрать? В данном случае может пригодиться метод для выбора оптимальных параметров алгоритма машинного обучения, называемый методом скользящего контроля (Leave-One-Out, LOO)[2]:

Суть метода заключается в том, что мы поочередно для каждого объекта выборки без него проводим обучение модели и пытаемся предсказать значение класса для этого исключенного объекта. Выбирая диапазон изменения настраиваемого параметра (в нашем случае — размер окна /?), мы подбираем такое его значение, при котором минимизируется выражение (5.10).

  • [1] См.: Воронцов К. В. Лекции по статистическим (байесовским) алгоритмам.URL: http://www.machinelearning.rU/wiki/images/e/ed/Voron-ML-Bayes.pdf
  • [2] Statistical Learning : Stability is Sufficient for Generalization and Necessary andSufficient for Consistency of Empirical Risk Minimization / S. Mukherjee, P. Niyogi,T. Poggio, R. Rifkin // Advances in Computational Mathematics. 2006. № 25.
 
Посмотреть оригинал
Если Вы заметили ошибку в тексте выделите слово и нажмите Shift + Enter
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 

Популярные страницы