Меню
Главная
Авторизация/Регистрация
 
Главная arrow Информатика arrow ВВЕДЕНИЕ В АНАЛИЗ ДАННЫХ
Посмотреть оригинал

Меры качества классификатора

П4.3. Точность и связанные с ней показатели

Рассмотрим общую задачу описания бинарного целевого признака, когда все объекты обучения принадлежат либо классу 1, либо классу 2 этого признака. Решающее правило, примененное к объекту, предсказывает, к какому из двух классов он принадлежит. Решения классификатора могут быть как верными, так и ошибочными. Выберем один из классов, например 1, как интересующий нас класс, скажем, изучаемого заболевания. Существует два вида ошибок: ложные

«за» (ошибка первого рода, FP) — классификатор относит объект к классу 1, хотя это неверно, и ложные «против» (ошибка второго рода, FN), когда классификатор отрицает принадлежность объекта классу 1, хотя на самом деле объект из этого класса.

Рассмотрим, например, устройство сканирования легких для тестирования на рак. Установленное в палате онкологического центра устройство сканировало 200 пациентов; результаты представлены в табл. 4.5. Строки этой таблицы соответствуют диагнозу сканера, а столбцы — окончательным результатам, установленным с помощью дальнейших тестов. Эта таблица перекрестной классификации (сопряженности) по-английски часто называется confusion table, что, вероятно, можно перевести как «таблица ошибок».

Согласно данным табл. 4.5, есть 94 истинных «за» (ИЗ) и 98 истинных «против» (ИП), так что общая точность устройства может быть оценена как (94 + 98) / 200 = 0,96 = 96%. Соответственно ложные «за» ЛЗ = 7 и ложные «против» ЛП = 1 в сумме дают 8, т.е. 4% ошибок.

Таблица 4.5

Таблица сопряженности результатов сканирования легких

Наличие заболевания

Всего

Да

Нет

Диагноз заболевания

Да

94

7

101

Пет

1

98

99

Всего

95

105

200

Однако существует значительное различие между этими двумя видами ошибок. Сканер на самом деле сработал лучше, чем показали итоговые оценки, потому что 7 ложных «за» нс так уж и важны — с этими пациентами ничего нс случится; дальнейшее исследование покажет отсутствие болезни — правда, с этим связаны определенные затраты. В то же время одно ложное «против» может привести к тому, что пациент останется без лечения, т.е. к потенциальной потере жизни из-за ошибки устройства. Это пример того, как отличаются потери, связанные с ложными «за» и «против». Сканер сделал лишь одну серьезную ошибку, не установив один из 95 случаев заболевания раком. Доля истинных «за», равная доле верно установленных положительных случаев, часто называется мерой полноты или чувствительности (recall or sensitivity)’, в данном случае результат 94 / 95 = = 98,9% действительно впечатляет. С другой стороны, точность precision), равная отношению 94 истинных «за» к 101 случаю диагноза «за» заболевание, несколько меньше, 93%, что показывает также и долю ложных «за» в 7%. Усредненное значение точности и чувствительности, равное 96% в нашем случае, является достаточно хорошей мерой корректности (accuracy rate) данного устройства, и может быть выбрано для общей оценки качества в данном случае.

Однако в ситуациях, когда обнаруживается большая разница между размерами положительного («да») и отрицательного («нет») классов, данная мера корректности работает не лучшим образом. Рассмотрим, например, результаты работы того же сканера, но теперь уже на другой, случайной, выборке 200 человек «самотека», пришедших без направления врача (табл. 4.6).

Величина корректности для табл. 4.6 даже выше, чем для табл. 4.5, (2 + + 195) / 200 = 98,5%. Тем не менее и чувствительность, 2 / 3 = 66,7%, и точность, 2/4 = 50%, весьма далеки от этого уровня. Высокий уровень корректности обусловлен тем, что велика специфичность (specificity) — доля правильно определенных случаев «нет», 195 / 197 = 98,9%, а также тем фактом, что в данной выборке очень мало случаев заболевания («да»).

Таблица 4.6

Таблица ошибок результатов сканирования легких на случайной выборке

Наличие заболевания

Всего

Да

Нет

Диагноз заболевания

Да

2

2

4

Нет

1

195

196

Всего

3

197

200

Поэтому в качестве единой меры корректности, адекватно отражающей и чувствительность, и точность, наиболее популярно не среднее арифметическое, а среднее гармоническое, так называемая F-мера, равная в данном случае F= 2 / (1 / (2 / 3) + 1 / (2 / 4)) = 2/(3/2 + 4/2) = 4/ 7 = 57,1%.

Задание 4.1. Индекс распространенности и коэффициент Кетле

Если посмотреть на результаты сканирования в табл. 4.6, где было обнаружено 4 случая заболевания, 2 из них истинных, и сравнить этот результат с уровнем распространенности заболевания раком в выборке (всего 3 случая из 200), то разница окажется впечатляющей. Это разница и есть то, что обнаруживается коэффициентом Кетле q (// k) (см. подпараграф 3.3.2) в строке k = 1 и столбце 1=1. Коэффициент равен относительной разности между условной вероятностью истинного «за» Р(1/1) = 2/ 4и средней вероятностью «за» на множестве, Р(1) = 3 / 200. Эта последняя иногда называется индексом распространенности (prevalence): q( 1 / 1) = (2 / 4 - 3 / 200) / (3 / 200) = 2 • 200 / (3 • 4) - 1 = 32,33 = = 3233%. Такое высокое значение коэффициента Кетле, вероятно, и объясняет разницу характеристик чувствительности и специфичности в табл. 4.5 и 4.6.

В самом деле, такой же коэффициент Кетле для табл. 4.5 равен q( 1 / 1) = 94 х х 200 / (101 • 95) - 1 = 0,96 = 96%, менее чем 100%-нос увеличение. Это показывает, что табл. 4.5 более сбалансирована, чем табл. 4.6. Характеристика корректности работает хорошо на сбалансированных таблицах и не совсем удовлетворительно на несбалансированных.

 
Посмотреть оригинал
Если Вы заметили ошибку в тексте выделите слово и нажмите Shift + Enter
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 

Популярные страницы