Меню
Главная
Авторизация/Регистрация
 
Главная arrow Информатика arrow ИНТЕЛЛЕКТУАЛЬНЫЕ СИСТЕМЫ
Посмотреть оригинал

ОБУЧЕНИЕ С УЧИТЕЛЕМ

В результате освоения данной главы обучающийся будет: знать

  • • основные методы машинного обучения с учителем; уметь
  • • применять базовые алгоритмы машинного обучения с учителем; владеть
  • • основными подходами к решению задачи машинного обучения с учителем.

Линейная регрессия

Постановка задачи восстановления линейной регрессии

Мы начнем раздел машинного обучения с учителем, пожалуй, с самого простого алгоритма машинного обучения для восстановления регрессии.

Модель линейной регрессии (linear regression) — часто используемая в статистике модель линейной зависимости одной переменной у от другой, независимой переменной х, или нескольких переменных[1]. В терминах машинного обучения у — это ответ, а множество независимых переменных — признаки. Простая линейная регрессия выглядит как функция свертки множества признаков с весовыми коэффициентами:

Эта модель уже встречалась нам ранее, в параграфе 4.1, где приводился пример задачи о классификации спама. В этой задаче модель линейной регрессии была встроена в классификатор для создания разделяющей классы гиперплоскости. В задаче восстановления регрессии это же уравнение используется напрямую.

Рассмотрим следующую задачу. Пусть по имеющимся данным о площади квартиры, высоте потолков, близости к метро, удаленности от центра необходимо давать предсказания о возможной стоимости такой квартиры. Так как цена квартиры в общем случае — это вещественная переменная, то согласно классификации алгоритмов машинного обучения, приведенной ранее (см. рис. 4.1), эта задача попадает под класс задач о восстановлении многомерной регрессии.

Задача восстановления регрессии часто встречается при обработке экспериментальных данных. Возьмем, например, такую задачу, как определение зависимости между успеваемостью по математике и концентрацией наркотических веществ в крови.

Группа волонтеров принимала наркотический препарат ЛСД перед тем, как сдавать экзамен по математике. На рис. 5.1 показаны результаты измерений.

Результаты проведения эксперимента

Рис. 5.1. Результаты проведения эксперимента1

1

На рис. 5.1 очевидно видна (с некоторой погрешностью) линейная закономерность в данных: чем выше концентрация наркотического препарата в крови, тем ниже балл.

При обучении модели для восстановления линейной регрессии используется метод наименьших квадратов. Данный алгоритм обучения выглядит следующим образом:

Простая модель линейной регрессии является на самом деле одним из мощнейших инструментов анализа данных. Как мы увидим далее, ее можно использовать, как это ни странно, для предсказания сложных нелинейных зависимостей, классификации. Регрессию можно использовать в том числе и для решения задачи ранжирования — достаточно принять ответ модели за вес объекта, представленного вектором х. Однако прежде всего необходимо научиться решать оптимизационную задачу.

  • [1] См.: Елисеева И. И. Эконометрика. М.: Финансы и статистика, 2003.
 
Посмотреть оригинал
Если Вы заметили ошибку в тексте выделите слово и нажмите Shift + Enter
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 

Популярные страницы