Методы многомерного анализа данных

Очень часто извлечение знаний трактуется как «смесь статистики, средств искусственного интеллекта и анализа баз данных» и до последнего времени не признавалось полноценной областью интересов для специалистов по статистике. Однако благодаря большому практическому значению эта проблематика сейчас интенсивно разрабатывается и вызывает большой интерес (в том числе и в ее статистических аспектах) и в ней достигнуты важные теоретические результаты.

Есть, однако, важное отличие процедуры извлечения знаний от классического разведывательного анализа данных: системы извлечения знаний в большей степени ориентированы на практическое использование полученных результатов, чем на выяснение природы явления. Иными словами, при извлечении данных не очень важен конкретный вид зависимостей между переменными задачи. Выяснение природы функций, участвующих в процессе, или конкретной формы интерактивных многомерных зависимостей между переменными не является главной целью этой процедуры. Основное внимание уделяется поиску решений, на основании которых можно было бы строить достоверные прогнозы. Таким образом, в области извлечения данных принят такой подход к анализу данных и извлечению знаний, которые иногда характеризуют словами «черный ящик». При этом используются не только классические приемы разведывательного анализа данных, но и такие средства, как нейронные сети, которые позволяют строить достоверные прогнозы, не уточняя конкретный вид тех зависимостей, на которых такой прогноз основан.

Методы многомерного разведывательного анализа специально разработаны для поиска закономерностей в многомерных БД (последовательностей одномерных данных). К ним относятся:

  • 1) кластерный анализ;
  • 2) факторный анализ;
  • 3) анализ дискриминантных функций;
  • 4) многомерное шкалирование;
  • 5) логлинейный анализ;
  • 6) каноническая корреляция;
  • 7) пошаговая линейная и нелинейная регрессия;
  • 8) анализ соответствия;
  • 9) анализ временных рядов и деревьев классификации.

К основным средствам разведывательного статистического анализа относятся:

  • • процедура анализа распределения переменных (например, чтобы обнаружить переменные с несимметричным или негауссовским распределением, в том числе и бимодальные);
  • • просмотр корреляционных матриц с целью поиска коэффициентов, которые превышают по величине определенные пороговые значения;
  • • анализ многовходовых таблиц частот (например, «послойный» последовательный просмотр комбинаций уровня управляющих переменных).

В отличие от традиционной проверки гипотез разведывательный анализ данных применяется для нахождения связей между переменными в ситуациях, когда отсутствует (или недостаточно) априорное представление о природе этих связей. При разведывательном анализе учитывается и сравнивается большое число переменных. Вычислительные методы разведывательного анализа данных включают основные статистические средства, а также более сложные, специально разработанные средства многомерного анализа, предназначенные для поиска закономерностей в многомерных данных.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >