Меню
Главная
Авторизация/Регистрация
 
Главная arrow Информатика arrow ВВЕДЕНИЕ В АНАЛИЗ ДАННЫХ
Посмотреть оригинал

Постановка проблемы

Анализ двух признаков на одном и том же наборе объектов может представлять интерес тогда, когда признаки связаны, т.е. изменяются более или менее одновременно. Такая связь — если она в самом деле наблюдается — может быть использована в различных целях, среди которых обычно различают следующие две основные:

  • (i) прогнозирование значений одного признака по значениям другого;
  • (и) добавление новой связи к знанию о предметной области через ее интерпретацию в терминах данной области.

Цель (и) как часть так называемого дедуктивного подхода возникает при разработке баз знаний; в них каждое отношение задается логическими предикатами и рассматривается с точки зрения формальной логики — этот подход в данном учебнике не рассматривается. Мы занимаемся другим подходом — индуктивным, который связан с анализом того, какая информация может быть извлечена из данных с учетом задач (i) и (и). Признак, значение которого предсказывается, принято называть целевым, выходным или прогнозируемым, а второй признак — входным или предиктором. Примеры задач типа (i): прогнозирование компьютерных атак определенного типа или числа школ в малом городе с известным числом жителей. Кто-то может спросить, зачем собственно волноваться: ведь все значения признаков уже находятся в файле! Дело в том, что в задаче прогноза имеющиеся данные — всего лишь выборка из большой популяции, используемая как полигон для формирования решающего правила для прогнозирования целевых признаков на других, не попавших в данное множество, объектах. Обычно входной признак на этих других объектах известен или легко измеряем, в то время как целевой — нет. Что касается задачи (й), то данные представляют собой простые эмпирические факты, не обязательно достойные внимания, до тех пор, пока они не обобщены в виде правил для принятия решений.

Математическая структура и визуализация контекста анализа связи между признаками зависят от шкал измерения признаков. Естественно рассматривать следующие случаи:

  • (1) оба признака количественные;
  • (2) один признак категоризованный, другой количественный;
  • (3) оба признака категоризованные.

Рассмотрим эти случаи последовательно.

 
Посмотреть оригинал
Если Вы заметили ошибку в тексте выделите слово и нажмите Shift + Enter
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 

Популярные страницы