Меню
Главная
Авторизация/Регистрация
 
Главная arrow Информатика arrow ВВЕДЕНИЕ В АНАЛИЗ ДАННЫХ
Посмотреть оригинал

Случай смешанных шкал: номинальный и количественный признаки

Целевой количественный признак

П3.3.1. Бокс-плот, табличная регрессия и корреляционное отношение

Рассмотрим неколичественный признак х на том же множестве объектов, что и количественный признак у. В качестве такой пары можно взять, например, признаки «Тип протокола» и «SH», Количество соединений источника за последние две секунды, в таблице данных о компьютерных атаках.

Графическое представление диапазонов количества соединений SH

Рис. 3.14. Графическое представление диапазонов количества соединений SH

для различных типов протокола

Распределения у внутри категорий х могут быть использованы для изучения связи между д: и у. Распределения могут быть визуализированы с использованием лишь диапазона признаков следующим образом: на оси х изобразим категории отдельными бинами, и проведем две линии параллельно оси х, чтобы отобразить минимальное и максимальное значения признака у (на всем множестве данных). Затем представим диапазоны значений у внутри каждой категории так, как показано на рис. 3.14.

В случае абсолютной корреляции с нулевой дисперсией внутри категории, знание типа протокола обеспечит точный прогноз количества соединений SH для каждого типа протокола

Рис. 3.15. В случае абсолютной корреляции с нулевой дисперсией внутри категории, знание типа протокола обеспечит точный прогноз количества соединений SH для каждого типа протокола

Уровень связи между х и у тем выше, чем меньше разброс у внутри категорий х. На рис. 3.15 приведен идеальный случай полной корреляции — все величины у внутри категорий одинаковы, что позволяет дать абсолютно точный прогноз количества соединений SH для каждого типа протокола.

Распределения внутри категорий

Рис. 3.16. Распределения внутри категорий: случай, когда знание тина протокола не даст никакой дополнительной информации о количестве соединений

Рисунок 3.16 представляет еще один крайний случай, когда знание типа протокола не может дать никакого уточнения в прогнозировании количества соединений SH.

Информация о связи количественного и качественного признаков может быть представлена в виде так называемой табличной регрессии. Табличная регрессия у по х — это трехстолбцовая таблица, строки которой соответствуют категориям х. В каждой размещается следующая информация о категории:

  • (1) численность категории;
  • (2) среднее значение у внутри категории;
  • (3) стандартное отклонение у внутри категории.

Последняя, «маргинальная», строка содержит такую же информацию для всего множества объектов.

Рабочий пример 3.4. Табличная регрессия количества соединений SH по типу протокола для данных о компьютерных атаках

Таблица 3.5

Табличная регрессия количества соединений SH (количественный целевой признак) по типу протокола (категоризованный входной признак) для данных о компьютерных атаках

Тип протокола

Численность

SII, среднее

SII, ст. откл.

Тср

64

98,98

177,70

Icmp

10

50,40

5,13

Udp

26

2,15

1,38

Всего

100

114,75

198,09

Построим табличную регрессию количества соединений SH по типу протокола (табл. 3.5). Эта таблица позволяет спрогнозировать количество соединений пакета, зная тип протокола. Например, для udp среднее количество соединений составляет 2,15 ± 1,38. Если же нс иметь никаких сведений о типе протокола, то можно лишь утверждать, что количество соединений пакета в среднем 114,75 ± 198,09 — это значительно менее точная оценка.

Самостоятельная работа

  • 3.4.1. Постройте уравнение регрессии признака «Ширина лепестка» по признаку «Длина лепестка» по данным об ирисах (см. табл. 1.2), сравните прогнозируемые значения признака «Ширина лепестка» с наблюденными значениями и рассчитайте значения относительных ошибок. Вычислите среднее значение относительной ошибки.
  • 3.4.2. Постройте уравнение регрессии признака «Ба» (число отделений банков) по признаку Нас (численность населения) по данным о городах английского побережья (см.

табл 1.5), сравните спрогнозированные значения признака «Ба» с наблюденными значениями и рассчитайте значения относительных ошибок. Вычислите среднее значение относительной ошибки.

Данные табл. 3.5 можно визуализировать так же, как на рис. 3.14—3.16, с указанием средних значений и стандартных отклонений внутри каждой категории, однако в анализе данных более популярен иной способ визуализации, так называемый бокс-плот.

Бокс-илот в МатЛабе формируется следующим образом. При заданном уровне квантиля, но умолчанию — 25%, диапазон (al, а2) значений количественного признака от нижнего 25%-ного квантиля al до верхнего 25%-ного квантиля а2 представляется прямоугольником — «боксом», расположенным вдоль оси ординат от уровня al до уровня а2. 50%-ный квантиль, т.с. медиана, изображается сплошной линией внутри прямоугольника. Полный диапазон изменения признака отмечается вертикальной линией, заканчивающейся «усиками», соответствующими минимальному и максимальному значениям (рис. 3.17). При этом из диапазона удаляются так называемые выбросы, т.е. значения признака, удаленные от медианы более, чем на полтора интервала а2—al, покрываемого прямоугольником. Именно такие значения оказываются дальше от среднего, чем «три сигма», в случае, когда распределение признака Гауссово. Эти значения помечаются в МатЛабе крестиками.

Рабочий пример 3.5. Бокс-плот количества соединений SH (количественный целевой признак) по типу протокола (категоризованный входной признак) для данных о компьютерных атаках

Построим с помощью МатЛаба бокс-плот признака SH в категориях признака «Тип протокола» в данных о компьютерных атаках. Для этого по данным табл. 1.4 переформатируем ее столбцы 1—3, содержащие фиктивные переменные для различных типов, в номинальный признак gr со значениями tep, iemp, udp:

» boxplot(x(:,5), gr); % SH в 5-м столбце массива х, (см. рис. 3.17).

» x=load(‘smalln.dat’); % загрузка файла, содержащего данные таблицы 1.4 » g={‘tcp7icmp7udp’}; % формирование переменной с названиями протоколов » n=100; for k=l:3; for j=l:n; if x(j,k)=l, gr{j}=g{k};end;end;

% 100x1 массив gr содержит названия протоколов, соответствующих каждому пакету Теперь формируем бокс-плот признака SH в категориях признака gr:

Бокс-плот, отображающий связь типа протокола с SII с точностью до 25% квантилей; высота прямоугольников — боксов — характеризует диапазон признака для 50% его значений в соответствующей категории

Рис. 3.17. Бокс-плот, отображающий связь типа протокола с SII с точностью до 25% квантилей; высота прямоугольников — боксов — характеризует диапазон признака для 50% его значений в соответствующей категории. Полные интервалы значений показаны «усиками». Горизонтальные отрезки отражают медианы признака SH внутри категорий

Расположение бокса категории tcp не соответствует информации о признаке SH для этой категории в табл. 3.6, где указано среднее значение 98,98 с вдвое превышающим его стандартным отклонением. Проверим, как это получилось. Отсортируем но возрастанию от 1 до 510 все 64 значения SH, попавшие в категорию tcp, и определим нижнюю и верхнюю 25%-ные квантили. Эго 17-е и 48-е значения отсортированного ряда, так как 25% в данном случае — ровно 16 объектов. Они равны соответственно 7 и 44. Медиана вычисляется как среднее значений 19 и 20 на 32-м и 33-м объектах соответственно, т.е. 19,5. Сильное отличие медианы от среднего объясняется присутствием в категории нескольких выбросов, которые отмечены на рис. 3.17 плюсами.

Бокс-плот, отображающий связь типа атаки с SH (расшифровка та же, что и па рис. 3.17)

Рис. 3.18. Бокс-плот, отображающий связь типа атаки с SH (расшифровка та же, что и па рис. 3.17)

Рабочий пример 3.6. Анализ связи между типом атаки и количеством соединений SH для данных о компьютерных атаках

Построим с помощью МатЛаба бокс-плот признака SH в категориях признака Тип атаки по данным о компьютерных атаках. Это делается так же, как и в предыдущем примере (рис. 3.18).

Интуитивно чувствуется, что связь Типа атаки с SH выше, чем связь Типа протокола: боксы па рис. 3.18 выглядят тоньше, чем па рис. 3.17. Это указывает па то, что прогнозировать значения признака SH, зная тип атаки, можно точнее, чем зная тин протокола. Вычислим табличную регрессию SH по типу атаки (табл. 3.6).

Таблица 3.6

Табличная регрессия количества соединений SH (количественный целевой признак) по типу атаки (категоризованный входной признак) для данных о компьютерных атаках

Тип атаки

Численность

SH, среднее

SH, ст. откл.

Apache

23

33,61

12,13

Norm

56

5,12

5,59

Saint

И

484, 64

8,42

Smurf

10

508,40

5,13

Всего

100

114,75

198,09

Эта таблица, в общем, подтверждает мнение о том, что тин атаки больше связан с SH, чем тип протокола, так как стандартные отклонения в группах одинаковых атак (см. табл. 3.6) в среднем меньше, чем в группах одинаковых протоколов (см. табл. 3.5).

Но как установить это с непреложной точностью? К сожалению, в анализе данных точность и полнота могут противоречить друг другу. Табличная регрессия отражает так называемую кусочно-постоянную модель связи категоризованного и количественного признака (см. далее в подпараграфе Ф3.3.1). Применение метода наименьших квадратов к оценке этой модели приводит к коэффициенту корреляционного отношения, показывающему, какую долю дисперсии количественного признака позволяют учитывать категории номинального признака. Этог-то коэффициент и принимается часто за характеристику силы связи номинального и количественного признака. Коэффициент корреляционного отношения оценивает, насколько дисперсия внутри групп меньше, чем дисперсия значений признака до его разбиения на категории; это аналог коэффициента детерминации для обычной регрессии.

Рабочий пример 3.7. Корреляционное отношение

Вопрос: выше ли связь между признаками в табл. 3.5 по сравнению с табл. 3.6? Чтобы ответить, рассчитаем корреляционное отношение для табл. 3.5, 3.6 по формулам (3.14) и (3.12), приведенным в подпараграфе Ф3.3.1:

Количество соединений SH/Тин протокола 48,5%

Количество соединений SH/Тин атаки 99,8%

Уменьшение дисперсии количественного признака в категориях качественного признака, выраженное корреляционным отношением, выше во второй таблице, т.е. действительно, корреляция между типом атаки пакета и количеством в нем соединений SH выше, чем между этим последним и типом протокола. Более того, величина коэффициента корреляционного отношения в этом случае составляет почти единицу — внутригрупповые дисперсии SH в группах по типу протокола значительно ниже, чем общая дисперсия. Напротив, для протокола tsp внутригрупповая дисперсия сравнима по величине с общей дисперсией, что и предопределяет значительно меньшую связь между SH и типом протокола.

Вопрос 3.9. Влияют ли величины внутригрупповых средних на величину корреляционного отношения?

Ответ. Нет, величина средних значений нс имеет отношения к уровню связи, измеряемому корреляционным отношением. Уровень связи в табл. 3.6 выше, чем в табл. 3.5, из-за меньшего разброса количественного признака в категориях табл. 3.6.

 
Посмотреть оригинал
Если Вы заметили ошибку в тексте выделите слово и нажмите Shift + Enter
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 

Популярные страницы