Алгоритм обратного распространения ошибки для сети TSK

Нечеткая нейронная сеть TSK. имеет многослойную структуру с прямым распространением сигнала, значение выхода которой можно изменять, корректируя параметры элементов слоев, что позволяет для обучения этой сети использовать алгоритм обратного распространения ошибки [11]. Для этого потребуется обучающая выборка в виде пар (х, d), где х=[х,, ..., xN]T - это входной вектор, ad- эталонный сигнал. Задача заключается в такой коррекции параметров сети, описанной выражением чтобы мера погрешности, задаваемая выражением:

была минимальной.

Если применяется простейший метод наискорейшего спуска, то соответствующие формулы адаптации принимают форму:

где п обозначает номер очередной итерации.

Формулы ( - ) требуют расчета градиента целевой функции относительно параметров функции принадлежности. Окончательный вид этих формул зависит от используемого определения функции погрешности на выходе сети, так и от формы функции принадлежности. Например, при использовании функции Гаусса

Соответствующие формулы градиента целевой функции для одной пары обучающих данных (х, d) принимают вид [21]:

где

Несмотря на сложную структуру приведенных формул, выражающих компоненты вектора градиента, они позволяют аналитически определить величины, необходимые для уточнения параметров нечеткой сети.

Метод наискорейшего спуска имеет линейную сходимость, поскольку в нем используются только слагаемые первого порядка при разложении целевой функции в ряд Тейлора. Указанный недостаток, а также резкое замедление минимизации в ближайшей окрестности точки оптимального решения, когда градиент принимает очень малые значения, делают алгоритм наискорейшего спуска низкоэффективным. Повысить эффективность удается путем эвристической модификации выражения, определяющего направление градиента.

Одна из модификаций получила название алгоритма обучения с моментом. При этом подходе уточнение весов сети производится по формуле:

где а - это коэффициент момента, принимающий значения в интервале [0, 1].

Первое слагаемое в формуле соответствует алгоритму наискорейшего спуска, а второе слагаемое учитывает последнее изменение весов и не зависит от фактического значения градиента. Чем больше значение коэффициента а, тем большее значение оказывает показатель момента на подбор весов. При постоянном значении коэффициента обучения t][t)=rj приращение весов остается примерно одинаковым, то есть Awy (г) = rjp(t)+aAwj. (/) , поэтому эффективное приращение весов можно писать формулой:

При значении а=0,9 это соответствует десятикратному увеличению значения коэффициента обучения и, следовательно, десятикратному ускорению процесса обучения. При малых значениях градиента показатель момента начинает доминировать, что приводит к такому приращению весов, которое соответствует увеличению значения целевой функции, позволяющему выйти из зоны локального минимума. Однако показатель момента, не должен доминировать на протяжении всего процесса обучения, поскольку это приводит к нестабильности алгоритма. На практике, увеличение целевой функции не допускается больше, чем на 4%. В противном случае, Ди^(/) = 0. При этом показатель градиента начинает доминировать над показателем момента и процесс развивается в направлении минимизации, заданном вектором градиента [17].

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >