Меню
Главная
Авторизация/Регистрация
 
Главная arrow Информатика arrow ИНТЕЛЛЕКТУАЛЬНЫЕ СИСТЕМЫ
Посмотреть оригинал

Проблема переобучения

Ранее мы указывали на обобщающую способность модели. Более формально говорят, что модель обладает обобщающей способностью, когда вероятность появления ошибки на тестовой выборке мала и не сильно отличается от вероятности ошибки на обучающей выборке.

Однако прежде чем говорить о проблеме переобучения, необходимо сделать ремарку, касающуюся того, что выборки, сформированные для обучения и тестирования модели, должны быть получены одним и тем же способом, т.е. из одного и того же распределения. Хорошая выборка должна быть простой, так чтобы все объекты в нее брались равновероятно и независимо от других объектов выборки. По возможности выборки должны быть максимально репрезентативны, т.е. получены из наблюдаемого на практике распределения объектов, а не каким-либо другим способом.

Простейший способ сформировать репрезентативную выборку — это равновероятно отбирать объекты, приходящие из общей совокупности. В таком случае выборка должна оставаться репрезентативной. В случае если выборка будет сильно смещена относительно настоящего распределения объектов, то модель, обучающаяся на такой смещенной выборке, будет стремиться повторить смещенное распределение объектов.

При проведении экспериментов по обучению тех или иных алгоритмов машинного обучения важно обращать внимание на фактор репрезентативности выборки. Если же известно точно, что выборки сформированы правильно, а модель на тестовой выборке дает значительно более худшие оценки, чем на обучающей, то необходимо обратить внимание на возможную проблему переобучения или недообучения.

Переобучение — это явление, возникающее при обучении модели, когда вероятность появления ошибки на тестовой выборке существенно выше, чем на обучающей. Причина, по которой может возникнуть переобучение, — излишняя сложность модели.

Недообучеиие — явление, возникающее в процессе обучения модели, когда вероятность ошибки на обучающей выборке достаточно высока. Обычно причиной тому может быть малая сложность модели.

Интуитивно понятным примером переобучения можно считать случай подготовки студента-двоечника, который не ходит на пары, к экзамену, например но программированию, по вопросам прежних лет. Он может за пару дней выучить все ответы на вопросы прежних лет, но на экзамене преподаватель ему может задавать не те вопросы, но по тому же предмету (таким образом, выборка не смещена) или же задавать дополнительные вопросы по пройденным темам. Естественно, к этому студент будет не готов, и оценка качества его модели обучения будет низкой.

Более близким к машинному обучению является пример аппроксимации сложной функции полиномом. Пусть необходимо аппроксимировать такую функцию:

Вообще заранее известно, что полиномами такие функции плохо аппроксимируются, однако для нашего примера этот метод подойдет. В качестве параметра алгоритма аппроксимации возьмем степень полинома k, а обучать модель будем при помощи

Аппроксимация полиномом степени 2

Рис. 4.3. Аппроксимация полиномом степени 2

метода наименьших квадратов. Модель и метод обучения будут выглядеть следующим образом:

Выберем три значения параметра k — 2, 20, 200 и построим графики получившихся функций (рис. 4.3—4.5).

Аппроксимация полиномом степени 20

Рис. 4.4. Аппроксимация полиномом степени 20

В качестве объектов обучающей выборки выбирались целые значения аргумента интерполируемой функции. Очевидно, что с увеличением сложности полинома он начинает более точно проходить через точки обучающей выборки, однако если начать проверять его на точках рядом, то очевидно, что чем сложней полином, тем большая ошибка получится на такой тестовой выборке. Чтобы это увидеть, необходимо построить так называемые кривые обучения.

Аппроксимация полиномом степени 200

Рис. 4.5. Аппроксимация полиномом степени 200

Кривые обучения — это удобный способ видеть то, насколько хороша получаемая при обучении модель. Графики обычно строятся двумерными. По оси абцисс откладывается значение какого-то параметра алгоритма машинного обучения (в нашем примере — это степень полинома), а по оси ординат — значения метрики качества на обучающей выборке и на тестовой выборке. Большая разница между получившимися кривыми говорит о проблеме переобучения.

Относительно проблемы переобучения необходимо сделать еще важное замечание. Минимизация эмпирического риска не гарантирует малую вероятность ошибки на обучающей выборке. Модель должна не только минимизировать эмпирический риск, но и иметь обобщающую способность. Как в примере со студентом — точное знание ответов на вопросы обучающей выборки не гарантирует получение хорошей оценки на тестовой выборке.

На практике проблему переобучения удается побороть оптимальным подбором параметров алгоритма. Один из методов выбора их значений — как раз построение кривых обучения.

 
Посмотреть оригинал
Если Вы заметили ошибку в тексте выделите слово и нажмите Shift + Enter
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 

Популярные страницы