Меню
Главная
Авторизация/Регистрация
 
Главная arrow Информатика arrow ВВЕДЕНИЕ В АНАЛИЗ ДАННЫХ
Посмотреть оригинал

Наивный Байесовский классификатор

Рассмотрим задачу выявления корреляции по данным табл. 4.1: здесь объектами являются газетные статьи, разделенные на три категории в соответствии с темами «Феминизм», «Развлечения» и «Домохозяйство». Каждая статья характеризуется своим набором ключевых слов, представленных в соответствующей строке таблицы. Элементы каждого столбца показывают, сколько раз соответствующее ключевое слово встретилось в соответствующей статье. Задача заключается в том, чтобы сформировать правило, с помощью которого любая статья, в том числе и не из табл. 4.1, могла быть отнесена к одной из имеющихся категорий с помощью своего профиля — данных о частотах ключевых слов из табл. 4.1.

Таблица 4.1

Иллюстративные данные о встречаемости 10 ключевых слов в 12 газетных статьях. Статьи помечены в соответствии с их главными темами.

F означает тему феминизма, Е — развлечений, Н — домохозяйства

Статья

Ключевые слова

нить

равный

греть

играть

легкий

цена

свобода

талант

налог

женский

F1

1

2

0

1

2

0

0

0

0

2

F2

0

0

0

1

0

1

0

2

0

2

F3

0

2

0

0

0

0

0

1

0

2

F4

2

1

0

0

0

2

0

2

0

1

Е1

2

0

1

2

2

0

0

1

0

0

Е2

0

1

0

3

2

1

2

0

0

0

ЕЗ

1

0

2

0

1

1

0

3

1

1

Е4

0

1

0

1

1

0

1

1

0

0

Н1

0

0

2

0

1

2

0

0

2

0

Н2

1

0

2

2

0

2

2

0

0

0

НЗ

0

0

1

1

2

1

1

0

2

0

Н4

0

0

1

0

0

2

2

0

2

0

Сформируем наивное Байесовское решающее правило. Каждой категории k оно присваивает условную вероятность P(k / х), как это сделано в уравнениях

(4.2), в зависимости от профиля х рассматриваемой статьи:

где /(*)=2>,/,(*).

/

По правилу Бэйеса статья х относится к той категории k, для которой значение P(k / х) максимально. Очевидно, что знаменатель в формуле для P(k / х) не зависит от k и может быть отброшен. Таким образом, будет выбрана категория k с наибольшим значением р^/^(х) .

Условимся, что разные вхождения одного и того же ключевого слова не зависят друг от друга. Тогда для статьи с численностями появления ключевых слов, описываемых вектором х =1? х2, хр)у вероятность ее появления в &-й категории будет равна где fkbfkb •••yfkp ~ вероятности появления соответствующих ключевых слов.

Остается договориться, как можно оценить вероятности появления ключевых слов в данной категории. Это нс так просто, как может показаться на первый взгляд. Например, какова вероятность появления слова «пить» в категории Н? Возможно, ее следует положить равной 1/4, поскольку это слово присутствует только в одной статье из четырех в Н. Но что тогда делать со словом «играть» в этой же категории — оно появляется трижды, хотя и только в двух документах, поэтому вероятность его появления нельзя считать равной 3/4; однако значение 2/4 также не кажется правильным. Для оценки вероятностей частот ключевых слов используют так называемую модель «мешка слов».

Модель «мешок слов». Вместо общих определений воспользуемся данными табл. 4.1. Прежде всего суммируем все появления ключевых слов в каждой целевой категории. Для категории Н по табл. 4.1 получаем 31. Идея: при расчете вероятностей относить количество появлений слов к «объему мешка». Но 31 — не полный объем мешка Н. Дело в том, что таблица содержит слишком много нулей, — не потому, что слово не может встретиться в той или иной категории, а просто из-за случайностей в имеющейся выборке статей. Чтобы уменьшить эффект случайности отбора статей в таблицу данных, примем, что «мешок» содержит по одному появлению каждого ключевого слова, независимо от того, появилось ли оно в статьях данной категории или нет. Это добавляет 10 к наблюденным появлениям слов в категории Н. Таким образом, полная емкость мешка Н равна 41 — это сумма общего числа встречаемости ключевых слов в Н и числа ключевых слов. Вероятность каждого слова вычисляется как отношение количества его экземпляров в мешке к полному объему мешка. Следует отмстить, что в некоторых учебниках модель мешка слов вводится с использованием теории вероятностей. Данная здесь модель соответствует частному случаю вероятностной модели, связанному с «равномерными априорными вероятностями».

Таким образом, вероятности слов «пить», «греть» и «играть» в категории II соответственно равны (1 + 1) / 41 = 2 / 41, (6 + 1) / 41 = 7 / 41 и (3 + 1) / 41 = = 4/41.

При практическом применении наивного Байесовского классификатора удобно использовать не сами вероятности P(k / х)} а их логарифмы. Согласно уравнению (4.5) логарифм log P(k /х) равен

log P(k/x) = log pk + Xjlog/nCxj) + x2ogfk2(x2) + ... + xplog fkp(xp). (4.6)

Правая часть этого выражения,.^log/^Xj) + x2ogf к22) + ... + xpogfkp{xp)yнс что иное, как скалярное произведение вектора х и вектора логарифмов вероятностей появления соответствующих ключевых слов,//г1,/^2, ...,/^.

Априорные вероятности категорий считаются равными их долям в общей коллекции, 1/3 (второй столбец табл. 4.2).

Теперь мы можем применить наивный Бэйесовский классификатор к объекту, представленному в формате табл. 4.1, включая непосредственно объекты из табл. 4.1 (обучающая выборка). В табл. 4.3 приведены логарифмы оценок статьи Е1 для каждой категории, рассчитанные по формуле (4.6).

Таблица 4.2

Априорные вероятности для наивного Байесовского правила по данным из табл. 4.1, полученные с применением модели «мешок слов». В трех строках, соответствующих каждой категории, находятся численности слов в документах этой категории, их вероятности, умноженные на 1000 и округленные до целых, а также натуральные логарифмы найденных

вероятностей

Категория

Априорная вероятность Ее логарифм

Общее

количество

Вероятности

Вхождения слов вхождения слов (в тысячных) Их логарифмы

F

1/3

27

3

5

0

2

2

3

0

5

0

7

108

162

27

81

81

108

27

162

27

216

-1,099

4,6

5,1

3,3

4,4

4,4

4,7

3,3

5,1

3,3

5,4

Е

1/3

32

3

2

3

6

6

2

3

5

1

1

95

71

95

167

167

71

95

143

48

48

-1.099

4,6

4,3

4,6

5,1

5,1

4,3

4,6

5,0

3,9

3,9

Н

1/3

31

1

0

6

3

3

7

5

0

6

0

49

24

171

98

98

195

146

24

171

24

-1,099

3,9

3,2

5,1

4,6

4,6

5,3

5,0

3,2

5,1

3,2

Таблица 43

Вычисление оценки категории для объекта Е1 (первая строка) из табл. 4.1 по логарифмам вероятностей признаков внутри каждого класса. Для каждой категории имеются две строки: верхняя повторяет логарифмы из табл. 4.2, а в нижней рассчитывается скалярное произведение из уравнения (4.6)

Объект Е1

2

0

1

2

2 0 0

1

0

0

Категория

Log(pk)

Веса признаков (логарифмы вероятностей) Скалярное произведение

Оценка

F

-1,099

4,6

5,1

3,3

4,4

4,4 4,7 3,3

5,1

3,3

5,4

35,2

2

• 4,6

+ 0 +

1 • 3,3

+ 2

4,4 + 2 • 4,4 + 0 +

0

+ 1

5,1 +

0

+

0

Е

-1,099

4,6

4,3

4,6

5,1

5,1 4,3 4,6

5,0

3,9

3,9

2

• 4,6

+ 0 +

1 • 4,6

+ 2

5,1 + 2 • 5,1 + 0 +

0

+ 1

5,0 +

0

+

0

39,2

Н

-1,099

3,9

3,2

5,1

4,6

4,6 5,3 5,0

3,2

5,1

3,2

34,5

2

• 3,9

+ 0 +

1 • 5,1

+ 2

4.6 + 2 • 4,6 + 0 +

0

+ 1

3,2 +

0

+

0

Следует отметить, что при расчетах по методу наивного Байесовского классификатора в задаче категоризации текстов, мы следовали так называемой мультиномиальной модели, в которой рассматриваются только вхождения слов в тексты. Другая популярная модель, называемая моделью Бернулли, предполагает, что слова генерируются независимо как биномиальные переменные. Вычисления, основанные па модели Бернулли, отличаются от представленных двумя моментами: во-первых, рассматриваются только действительно бинарные признаки, т.е. учитывается только бинарная информация о каждом слове (встретилось или нет); во-вторых, для каждого слова учитывается и вероятность его отсутствия (подробнее см. [15], [19]).

Вопрос 4.1. Применить наивный Байесовский классификатор в табл. 4.2 к статье, которая характеризуется вектором встречаемости ключевых слов Х= (2 20000220 0), т.е. включает в себя по два вхождения слов «пить», «равный», «освободить» и «способности».

Ответ. Оценки категорий: s(F / X) = 35,2, s(E / X) = 35,6, и s(H / X) = 29,4 указывают на категорию «Развлечения» или, что чуть менее вероятно, категорию «Феминизм».

Таблица 4.4

Оценки методом наивного Байесовского классификатора для объектов из табл. 4.1. Максимумы по строке выделены жирным

Статьи

F

Оценки категорий Е

Н

F1

37,7006

35,0696

29,3069

F2

28,9097

25,9362

21,5322

F3

24,9197

20,1271

14,8723

F4

38,2760

34,6072

30,0000

Е1

34,2349

37,9964

33,3322

Е2

37,2440

42,1315

40,2435

ЕЗ

43,1957

44,5672

40,8398

Е4

21,1663

22,9203

19,4367

Н1

25,8505

29,3940

34,5895

Н2

34,9290

40,4527

42,7490

НЗ

29,9582

35,3573

38,3227

Н4

24,7518

28,8344

34,8408

Вопрос 4.2. Вычислить оценки наивного Байесовского классификатора для всех объектов из табл. 4.1 и доказать, что он верно отнес их к категориям.

Ответ. См. табл. 4.4.

 
Посмотреть оригинал
Если Вы заметили ошибку в тексте выделите слово и нажмите Shift + Enter
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 

Популярные страницы