Меню
Главная
Авторизация/Регистрация
 
Главная arrow Информатика arrow ВВЕДЕНИЕ В АНАЛИЗ ДАННЫХ
Посмотреть оригинал

Классификатор по правилу ближнего соседа

Один из наиболее популярных методов — классификатор по правилу ближнего соседа [nearest neighbor (NN) classifier]. Он применим к любым данным, для которых можно задать расстояние или иную меру сходства/различия между объектами. NN-классификагор работает следующим образом: берется объект из «обучения», наиближайший к рассматриваемому объекту, после чего рассматриваемый объект относится к той категории, к которой принадлежит этот наиближайший объект. Можно посмотреть на результаты применения NN-классификатора к данным о компьютерных атаках и об ирисах на примерах табл. 3.7 (атаки) и табл. 3.9 (ирисы). Результаты сильно отличаются: для данных об атаках получены хорошие результаты (см. табл. 3.7), в то время как для данных об ирисах — значительно хуже (см. табл. 3.9). Объяснение этому — различие в уровне связи между признаками — очень высокий в одном случае (см. табл. 3.6) и не очень высокий в другом (табл. 3.8).

NN-классификатор легко распространить на так называемый k-NN- классификатор, который определяет категорию признака на основе большинства из к ближних соседей рассматриваемого объекта. Этот классификатор также имеет возможность «отказаться» от прогноза, когда правило большинства не дает четкого победителя.

Рабочий пример 3.8. Классификатор по ближнему соседу.

Рассмотрим два признака из таблицы данных о компьютерных атаках: тип атаки Att — как целевой признак, и количество подключений к текущему хосту за последние 2 секунды — входной признак SH. Для ускорения работы метода отсортируем объекты по возрастанию SH. Далее случайным образом выберем подмножество из 10 элементов (верхняя строка в табл. 3.7) вместе со значениями Att для них (вторая строка) и величинами SII (третья строка) — эти объекты относятся к «экзамену», а остальные 90 — к обучению. Выберем обучающие объекты, для которых значения SH близки к величинам в третьем ряду, и запишем их в четвертый ряд. Также в пятую строку запишем значения признака Att для объектов в четвертом ряду (самый нижний ряд). Поразительный успех: все 10 предсказаны верно!

Таблица 3.7

Применение NN-классификатора «SH=>Thii атаки» к случайной нодвыборке из множества данных о компьютерных атаках

Случайная выборка 10 объектов

9

29

37

51

63

70

72

80

86

89

Категория целевого признака

ара

nor

nor

nor

nor

nor

nor

sai

sai

sai

Значение входного признака

24

10

1

14

2

3

1

482

482

483

Значение наиближайшего соседа

23

11

1

13

2

3

1

482

482

482

Категория наиближайшего соседа

ара

nor

nor

nor

nor

nor

nor

sai

sai

sai

Вопрос 3.11. Постройте табличную регрессию длины чашелистика но таксону и найдите корреляционное отношение Ответ. См. табл. 3.8.

Таблица 3.8

Табличная регрессия длины чашелистика по таксонам по данным об ирисах, объясняющая порядка 61% дисперсии длины чашелистика: стандартное отклонение внутри категорий сравнительно невелико, порядка 10% от среднего

Таксон

Количество

Среднее

Ст. откл.

Таксон 1

50

5,00

0,35

Таксон 2

50

5,94

0,52

Таксон 3

50

6,59

0,64

Всего

150

5,84

0,83

Корреляционное отношение

0,6135

Вопрос 3.12. Примените NN-классификатор для прогнозирования таксона по длине чашелистика из таблицы данных об ирисах.

Ответ. См. табл. 3.9.

Применение NN-классификатора «Длина чашелистика=>Таксон» к случайной подвыборке из таблицы данных об ирисах; неверный прогноз (5 из 10) выделен жирным шрифтом

Таблица 3.9

Случайная выборка цветов ириса

123

99

32

40

22

34

92

91

146

119

Таксон

ТЗ

Т2

Т1

Т1

Т1

Т1

Т2

Т2

ТЗ

ТЗ

Длина чашелистика

6.7

6.1

5.0

5.4

4.8

5.4

5.5

5.5

7.3

6.0

Наиближайший сосед

6.7

6.1

5.0

5.4

4.8

5.4

5.5

5.5

7.4

6.0

Таксон наиближайшего соседа

Т2*

Т2*

Т1*

Т1*

ТГ

Т1*

Т1*

Т1*

Т2

Т2*

* Выбрана самая частая категория (из нескольких).

Вопрос 3.13. Рассмотрим таблицу данных о восьми студентах с двумя признаками.

Студент

Оценка

Профессия

1

50

ИТ

2

80

ИТ

3

80

ИТ

4

60

БА

5

60

БА

6

40

БА

7

50

БА

8

40

БА

  • (i) Постройте регрессионную таблицу для прогнозирования оценки по профессии.
  • (и) Спрогнозируйте оценку нового студента профессии БА.
  • (ш) Найдите корреляционное отношение для этой таблицы.

Ответ, (i) Табличная регрессия оценки по профессии. Строки соответствуют категориям профессии, их частотам, а также средней оценке и ее дисперсии внутри каждой категории:

  • (и) Для студента профессии БА наиболее вероятная оценка будет в интервале 50 ± 8,9.
  • (Ш) Корреляционное отношение определяется взвешенной дисперсией в категориях: (3 • 14,1 + 5 • 8,9) / 8 = (42,3 + 44,5) / 8 = 10,85, и общей дисперсией для всех выборочных данных с средним, равным 57,5, которая равна 14,79. Корреляционное отношение ц2= 1 - 10,85 / 14,79 = 0,266. Это означает, что данная табличная регрессия объясняет лишь 26,6% дисперсии оценки.

Вопрос 3.14. Постройте табличную регрессию длины лепестка по таксону, используя таблицу данных об ирисах, и найдите корреляционное отношение.

Ответ. См. табл. 3.10. Очень высокий уровень корреляционного отношения определяется, по-видимому, тем, что внутригрупповые стандартные отклонения количественного признака значительно меньше, чем его стандартное отклонение на всем множестве.

Таблица 3.10

Табличная регрессия длины лепестка w3 по таксону по данным об ирисах

Таксон

Количество

Среднее

Ст. откл.

Т1

50

1,46

0,17

Т2

50

4,26

0,47

ТЗ

50

5,55

0,55

Всего

150

3,76

1.77

Корреляционное отношение

0,9406

Самостоятельная работа

Постройте табличную регрессию признака «Пас» (численность населения) по признаку «Бас» (число бассейнов) но данным о городах английского побережья (см. табл 1.5), а также величину корреляционного отношения. Дайте интерпретацию этой величины.

 
Посмотреть оригинал
Если Вы заметили ошибку в тексте выделите слово и нажмите Shift + Enter
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 

Популярные страницы