Алгоритмы оптимизации нечеткой нейронной сети

Адекватность модели, которая описывается нечеткими базами знаний, данным эксперимента определяется типом и качеством настройки функций принадлежности и весов правил, с помощью которых лингвистические оценки параметров модели превращаются в количественную форму.

Но поскольку функции принадлежности в свою очередь определяются экспертными методами [15], то адекватность нечеткой модели в целом также зависит от квалификации экспертов. Кроме того, далеко нс всегда существует возможность привлечения эксперта, который бы промоделировал тот или иной объект (процесс), что может быть связано с его сложностью или определенной новизной и как следствие - недостаточным освоением. В связи с этим возникает вопрос о возможности автоматизации процесса построения нечетких баз знаний, которые моделируют указанные объекты, на основе имеющихся экспериментальных данных, полученных в результате их исследования. Так, преобразование экспериментальной информации в нечеткие базы знаний могло бы быть полезным в медицине, и других областях, где лица, принимающие решения, вместо строгих количественных соотношений (которых они зачастую не имеют по объективным причинам) отдают предпочтение прозрачным и легким для интерпретации словесным правилам. Чтобы улучшить классификационную способность базы правил рассмотрим различные алгоритмы оптимизации.

Для исследования были выбраны среднемасштабная оптимизация с использованием нелинейного программирования с ограничениями, и оптимизация с использованием алгоритма на основе фильтра Калмана [3, 8, 31].

Так как объем выборки недостаточно большой, то используется среднемасштабная оптимизация. В общем случае, эта задача относится к нелинейной оптимизации с ограничениями или к нелинейному программированию [3, 8, 31]. В данном методе на каждой итерации решается подзадача Квадратичного Программирования. В то же время квадратичная задача достаточно проста, и для нее существуют эффективные (в том числе конечные) методы решения. Таким образом, указанный подход имеет практический смысл, в отличие, например, от использования аппроксимаций более высокого порядка. С другой стороны, методы Последовательного Квадратичного Программирования (SQP) [24] могут рассматриваться как результат распространения фундаментальной идеи ньютоновских методов на задачи оптимизации с функциональными ограничениями. Например, в случае задачи с чистыми ограничениями-равенствами методы SQP суть не более чем специальные реализации ньютоновских методов решения системы Лагранжа. На сегодняшний день методы SQP входят в число наиболее эффективных оптимизационных методов общего назначения.

Оптимизация с использованием нелинейного программиро- вания с ограничениями относится к этапу алгоритма обучения адаптивных нечетких нейронных сетей. Оптимизация представляет собой нахождение таких параметров весовых коэффициентов правил w = {w|,w2,...,wn}, которые являются оптимальными в смысле некоторою критерия. В этом случае такая задача сводится к минимизации целевой функции с ограничениями, в виде неравенств 0l (и')<1 (/ = 1,2,.../?г) или параметрических границ wL,wu. Общая формулировка задачи параметрической оптимизации представляется следующим образом: требуется найти вектор vr, обеспечивающий:

при ограничениях

где w - вектор оптимизируемых параметров (we R"),J(w) - скалярная целевая функция векторного аргумента (/(w):/?" —> /?(, g,(w) - некоторые скалярные функции векторного аргумента. Данная задача может быть решена с применением метода SQP. В настоящее время, более эффективным считается применение так называемых уравнений Куна-Таккера с использованием леммы Фаркаша, которая утверждают о существовании решения одной и только одной из двух систем линейных уравнений и неравенств [24]. То, что из уравнения следует V/(w* (> 0, означает, что существует множество таких неотрицательных скалярных постоянных, что

где V - векторный дифференциальный оператор, w* - является точкой минимума функции Дуг) при ограничениях , удовлетворяющих условию регулярности в виде линейной независимости, Л* - неотрицательный множитель Лагранжа, /- множество индексов активных ограничений.

Поскольку при уе/ функция Vg(W) = 0, а приy'g/ Л.= О, поскольку g,(w*)<0 для всех jtl. Поскольку градиенты подлежат выходу на нулевые значения, то множители Лагранжа (Д(, / = 1,.,.,/л) будут необходимы для того, чтобы уравновесить отклонения по величине данной целевой функции и градиентов ограничений. Поскольку только активные ограничения вовлечены в данную процедуру обнуления, то ограничения не активны и не должны подвергаться данной процедуре и поэтому соответствующие множители Лагранжа будут равны нулю. Решение уравнений Куна-Таккера служит основой для последовательного квадратичного программирования. В этом алгоритме используется прямое вычисление множителей Лагранжа. Пусть j,gni ^i< т, обладают непрерывными частными производными на некотором открытом множестве пространства R", содержащем и<*. Если w* является точкой минимума функции /(vr) при ограничениях 0<§,(щ)<1 (/ = 1,2,...т), удовлетворяющих условию регулярности в виде линейной независимости, то существуют такие неотрицательные множители Лагранжа (Я,, / = 1,...,т), что

Используя последовательное квадратичное программирование на каждом шаге которого функции цели и ограничений заменяются на их квадратичные приближения, и решается следующая подзадача квадратичного программирования: нахождение вектора d, с помощью которого корректируется вектор весов w,+| = и», + d, такого, что d является решением задачи квадратичного программирования:

где V - векторный дифференциальный оператор, Н - симметричная и положительно определенная матрица вторых частных и смешанных производных (матрица Гессе), А - якобиан ограничений.

В качестве матрицы Я (гессиан Лагранжа) может быть использован как полный гессиан:

так и неполный:

0Л - нулевая квадратная матрица размерности п,„.

Положим, что якобиан ограничений g(w) равен A(w), т.е. что

Отметим, далее, что ограничения g(w) входят только в выражения якобиана и гессиана ограничений, а, следовательно, только эти матрицы зависят от схемы численного интегрирования целевой функции.

Неполный гессиан используется для возмещения отсутствия положительной определённости V,L(w,X) и для уменьшения сложности вычисления. Также использование неполного гессиана приводит к упрощению программного кода и ускорению его разработки, при этом, как будет показано, скорость сходимости алгоритма к решению будет выше при выполнении некоторых условий. Вид матрицы Гессе для Лагранжевой функции обновляется на каждой итерации с помощью метода BFGS (Broyden, Fletcher, Goldfarb, Shanno) [28].

Метод BFGS оптимизации, использующий аппроксимацию матрицы вторых производных Я, представлен ниже.

На первом шаге рассчитывается матрица Я„. В качестве Я0 выбирается единичная матрица. На втором шаге рассчитывается градиент в текущей точке. На третьем шаге рассчитывается направления J. = -V7/(и;)ЯГ'. На четвертом шаге происходит расчет шага. На пятом шаге рассчитывается новая точка с/, = м>(+| - и>.

. На шестом шаге алгоритма происходит пересчет матрицы Яж согласно методу BFGS.

На седьмом шаге происходит проверка критерия останова qj dt > 0. Если не выполняется, то положить i = / + 1 и перейти к шагу два.

Матрица Я должна обладать двумя свойствами:

  • - симметричность;
  • - положительная определенность.

Матрицу Я, можно искать из условия линейной интерполяции для квадратичной модели.

Если d, = wl4l - Wj, r/(w(.+l)-Vr/(v^.), тогда соотношение секущих для оптимизации будет иметь вид:

Пересчет Нм происходит по формуле .

Суть метода Бройдена [27] состоит в том, чтобы вычислить матрицу Гессе аналитически или с помощью метода конечных разностей на первой итерации, а после этого на каждой итерации обновлять матрицу Гессе, не вычисляя значения функций и их производных.

Рассмотрим следующий алгоритм оптимизации применительно к базе знаний нечеткой нейронной сети ANFIS типа Сугено [24]. Предполагается, что задана нечеткая база знаний Сугено и существует обучающая выборка из М пар экспериментальных данных, связывающих входы Xr=(xrl9xr29...9xm) с выходом у исследуемой зависимости г,у), г = 1,Л/. Параметрическая идентификация нечеткой базы знаний Сугено сводится к следующей задаче нахождения вектора (P,fV) по формуле:

В этой задаче оптимизации на управляемые переменные Р налагаются ограничения, обеспечивающие линейную упорядоченность элементов терм-множеств. Такие ограничении не позволяют алгоритму оптимизации сделать, нечеткое множество «низкий» больше «высокого». Что касается вектора W, то его координаты должны находиться в диапазоне [0,1]. Уверенность эксперта в каждом правиле ЕСЛИ-TO, входящем в нечеткую базу знаний, может быть различной. Для отражения значимости правил введены их веса. Вес правила которое характеризует субъективную меру уверенности эксперта в этом правиле. На практике такую задачу решают алгоритмами на основе фильтра Калмана [24], которые оптимизируют только линейные параметры нечеткой базы знаний - коэффициенты в заключениях правил. Задача сводится к нахождению таких коэффициентов в заключениях нечетких правил W, которые обеспечивают минимум квадратичной невязки:

где yf - результат вывода по нечеткой базе знаний с параметром W при значении входов из строки выборки Хг Входному вектору *r соответствует такой результат нечеткого вывода:

полненияу-го правила.

Относительную степень выполненияу-го правила для входного Хг обозначим через:

Тогда формула можно переписать в виде:

Введем следующие обозначения:

Тогда задача настройки в матричной форме ставится следующим образом нахождения вектора W:

где Yf = AW.

Минимальное значение квадратичной невязки Е достигается Y1 = Y, что соответствует решению уравнения

Недостатком данного алгоритма является то, что при решении реальных задач количество настраиваемых параметров меньше объема выборки данных, следовательно, уравнение нс имеет точного решения. Трудности при решении также связаны с сингулярностью матрицы А. Количество итераций данного алгоритма равно объему выборки экспериментальных данных. На первом шаге алгоритма координаты вектора W настраиваются по первой строчке выборки данных. На второй итерации координаты вектора W подстраивают под вторую пару «входы-выход» и т.д. Другой недостаток данного алгоритма оптимизации при больших обучающих выборках наступает эффект насыщения - точность оптимизация практически не улучшается с увеличением числа наблюдений.

Подход нелинейной оптимизации обеспечивает существенный вклад от ограничения с небольшими параметрами в значения штрафных параметров, что особенно актуально для активных ограничений вблизи точки решения. Преимущества данного метода оптимизации заключаются в его простоте и ясной содержательной интерпретации. Процент ошибок широко используется как критерий обучения различных систем распознавания образов. Целевая функция задачи оптимизации принимает дискретные значения.

Таким образом, из проведенного анализа видно, что с использованием алгоритма нелинейной оптимизации с ограничениями происходит оптимальная настройка весов заключений правил, что дает возможность лучше подготовить нечеткую нейронную сеть для решения конкретных задач с меньшими вычислениями. Это предполагает выбор данного алгоритма для дальнейших экспериментов.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >