Меню
Главная
Авторизация/Регистрация
 
Главная arrow Информатика arrow ВВЕДЕНИЕ В АНАЛИЗ ДАННЫХ
Посмотреть оригинал

Бинарные и категоризованные признаки

П2.3. Представление

Категоризованные признаки отличаются от количественных не только тем, что их значения — строки символов, а не числа. Строки символов все равно кодируются числами при обработке. Более существенная разница в том, что вычисление среднего значения для количественного признака имеет смысл, а для качественного — нет. Например, для таких признаков как Тип протокола — со значениями tep, iemp, udp — в данных Компьютерные атаки или Сектор экономики — Торговля, Энергия или Мануфактура — в данных Компании — среднее значение не имеет смысла, даже если категории кодированы числами. Иногда утверждают, что даже такие признаки, как Количество поставщиков в данных Компании, нельзя рассматривать как количественные, поскольку их значения должны быть целыми, тогда как средние могут быть дробными. На взгляд автора, подобные утверждения излишне ограничительны; фраза «среднее число поставщиков составляет 3,15» имеет смысл, поскольку может быть переформулирована переходом от единиц к сотням: в среднем на 100 компаний приходится 315 поставщиков.

Признак, принимающий значения «Да» или «Нет», иногда называют Булевым, связывая его с Булевой алгеброй, где утверждения бывают либо истинными, либо ложными. Чтобы нс вносить путаницу, будем называть такие признаки бинарными. Нам удобнее оперировать с такими признаками, как количественные. Значения признака будем кодировать числами, 1 вместо «Да», и 0 вместо «Нет». Арифметические действия с ними действительно имеют смысл.

Действительно, среднее значение бинарного признака, кодированного нулями и единицами, показывает, какую долю составляют наблюдения, соответствующие категории «Да». Другие, определенные выше, характеристики центральности дают меньше информации в бинарном случае. Медиана равна 1 тогда и только тогда, когда доля единиц составляет 0,5 или больше, в противном случае она равна 0. В тех редких случаях, когда число наблюдений четно и доля единиц составляет ровно половину, медиана принимает значение 0,5. Мода равна 1 либо 0 в тех же случаях.

Для категоризованных признаков нет надобности вводить бины: сами категории выполняют роль бинов. В отличие от количественного случая, их порядок безразличен. Как правило, их гистограммы изображают столбцами или ростками (stem). На рис. 2.8 представлено распределение категорий tep, iemp и udp признака Тип протокола из данных о компьютерных атаках.

Распределение признака может быть выражено в абсолютном числе объектов, приходящихся на каждую категорию, т.е. D = (64, 10, 26), в абсолютной шкале. При переходе к относительной шкале число объектов каждой категории делят на общее число объектов, 64 + 10 + 26 = 100, и получают относительное распределение частот d = (0,64, 0,10, 0,26).

Распределение категорий tep, iemp и udp признака Тин протокола из данных Компьютерные атаки, представленное столбцами (bar) слева

Рис. 2.8. Распределение категорий tep, iemp и udp признака Тин протокола из данных Компьютерные атаки, представленное столбцами (bar) слева

и ростками (stem) справа

Рассмотрим пример еще более неоднородной выборки. В Великобритании полиция имеет право остановить и обыскать человека, показавшегося подозрительным, прямо на улице (процедура Останови_и_Обыщи, ОО). Пресса критикует эту практику, подозревая в ней расистскую тенденцию. В частности, так были интерпретированы статистические данные за 2005—2006 гг. Распределение 878 153 случаев 00 по цвету кожи задержанного[1] представлено в табл. 2.4. Обращает на себя внимание, что доля ОО в категории Б трижды превышает долю двух других категорий, вместе взятых. Однако доля Б во всем населении оказывается еще больше, что и приводит к утверждениям, что чернокожие подвергаются процедуре ОО непропорционально часто (см. подробнее в параграфе 3.4).

Таблица 2.4

Распределение случаев ОО по цвету кожи в 2005—2006 гг.

Расовая категория

Количество ОО

Относительная частота ОО, %

Чернокожий (Ч)

131 723

15

Азиат (А)

70 250

8

Белый (Б)

676 180

77

Всего

878 153

100

Вопрос 2.7. Какая из категорий является модальной для распределения в табл. 2.4?

Ответ. Мода, т.е. наиболее вероятная категория в табл. 2.4, — это Б.

Существует множество коэффициентов, позволяющих оценить, насколько распределение отличается от равномерного, т.е. такого, при котором вероятность попадания в какой-либо интервал значений признака зависит только от длины интервала, а не от его местоположения. Самые популярные из них — это энтропия и коэффициент Джини, определенные на стр. 45. Последний также называют качественной дисперсией.

Понятие «энтропия» было введено для измерения количества информации в сигналах, передаваемых по каналам связи. Редкие сигналы несут больше информации, чем частые. Кроме того, количество информации в независимых сигналах можно суммировать, для того чтобы оценить всю переданную информацию. Эти два условия приводят к необходимости использования логарифма величины 1 /р, т.е. -log(/;), в качестве меры количества информации в сигнале, вероятность которого равна р. Логарифм берется по основанию 2, поскольку все цифровые устройства используют двоичную систему счисления. Энтропия определяется как среднее количество информации, приходящееся на одну категорию качественного признака, рассматриваемую как сигнал. За единицу измерения количества информации принят один бит — энтропия равномерно распределенного бинарного признака, т.е. двоичного разряда с равновероятными значениями. Иными словами, бит — это количество информации в ответе на вопрос, допускающий только два ответа, при условии, что никакого знания о возможном ответе не было. Максимум энтропии для признака с т категориями, Я = log(m), достигается при равномерном распределении.

Максимум индекса Джини, - 1 )/т, также достигается на равномерном распределении. Индекс Джини позволяет оценить средний уровень ошибки метода пропорционального предсказания. Такое предсказание осуществляется в ситуации, когда объекты, у которых неизвестны значения некоторого качественного признака, появляются случайно и независимо один за другим. Пропорциональный классификатор будет случайным образом присваивать объектам категории признака в соответствии с вероятностями категорий. Средняя ошибка, т.е. вероятность того, что объекту категории, встречающейся с частотой р, будет приписана другая категория, равна р( 1 - р) =р - р2. Так, например, при р = 20%, средняя ошибка составит 0,2 • (1 — 0,2) = 16%.

Рабочий пример 2.5. Энтропия и индекс Джини

Таблица 2.5 представляет все шаги, которые нужны для того, чтобы рассчитать энтропию и индекс Джини, с использованием р вероятности (относительной частоты) категории.

Таблица 2.5

Энтропия и индекс Джини для распределения обысков но расе из табл. 2.4

Распределение

Энтропия

Качественная дисперсия

Категория

Относительная частота р

Информация -log(p)

Взвешенная информация -plog(p)

Ошибка

1-р

Дисперсия Р( 1 -Р)

Ч

0,15

2,74

0,41

0,85

0,128

А

0,08

3,64

0,29

0,92

0,074

Б

0,77

0,38

0,29

0,23

0,177

Итого

1,00

-

0,99

-

0,378

Энтропия — это среднее количество информации в трех категориях, Н = -p^og(p{) -

- p2log(p2) - p3log(p3). Отношение энтропии из табл. 2.5 к максимально возможной энтропии составляет 0,99 / 1,585 = 0,625, так как для т = .3 максимум энтропии равен Н = = log(3) = 1,585.

Индекс Джини G определяется как средняя ошибка пропорционального классификатора. Принцип действия пропорционального классификатора определяется для объектов, о которых ничего не известно, кроме распределения категорий {рф Этот классификатор приписывает объектам категорию / с вероятностью р/. В нашем случае G = />,(1 -

- р,)+ р2(1 - р2) + р3(1 -Рз) = 0,378. Максимум индекса Джини равен - 1)/т — значение, соответствующее равномерному распределению, G = 2/3. Тогда относительный индекс Джини составит 0,378 / (2 / 3) = 0,567, что не очень отличается от относительной энтропии.

Итоги голосования по партийному признаку должны суммироваться к 100% согласно принципу «один избиратель — один голос». Ведущая в замешательстве — в одной из областей это явно не так!

Рис. 2.9. Итоги голосования по партийному признаку должны суммироваться к 100% согласно принципу «один избиратель — один голос». Ведущая в замешательстве — в одной из областей это явно не так!

Самостоятельная работа

  • 2.5.1. Найдите распределение, энтропию и индекс Джини для признака Тип протокола данных о компьютерных атаках (см. табл. 1.4).
  • 2.5.2. Найдите распределение, энтропию и индекс Джини для признака Бол в данных о малых городах английского побережья (см. табл. 1.5).

  • [1] См.: ВВС : интермет-сайт. URL: http://www.bbc.com/news/uk
 
Посмотреть оригинал
Если Вы заметили ошибку в тексте выделите слово и нажмите Shift + Enter
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 

Популярные страницы