Меню
Главная
Авторизация/Регистрация
 
Главная arrow Информатика arrow ВВЕДЕНИЕ В АНАЛИЗ ДАННЫХ
Посмотреть оригинал

ОДНОМЕРНЫЙ АНАЛИЗ

В данной главе рассмотрены задачи суммаризации и визуализации для самого простого вида данных, когда признак всего один.

Объясняются понятия гистограммы, центральной точки (центра) и разброса. Изложены две точки зрения па задачу суммаризации: первая — это классическая вероятностная, а вторая — аппроксимационная, в рамках которой разброс данных разложим на объясненную и необъясненную часть.

Разница между количественными и качественными признаками определяется с помощью операции взятия среднего. Для количественных признаков взятие среднего имеет смысл, в то время как для качественных признаков — нет. Э го различие стирается на бинарных признаках, представляющих отдельные категории. Они задаются так называемыми фиктивными переменными, которые можно считать количественными.

Современные вычислительные подходы, такие как имитирующие природу методы и бутстрэппинг для оценки доверительных интервалов, объяснены на отдельных примерах в проектах в конце главы.

В результате изучения данной главы студент будет:

знать

  • • понятие гистограммы распределения;
  • • характеристики центральности: среднее, медиану, середину размаха, моду;
  • • характеристики рассеяния: дисперсию и среднее абсолютное отклонение;
  • • характеристики рассеяния номинальных признаков: энтропию и индекс Джини;
  • • аппроксимационный смысл характеристик центральности и рассеяния;
  • • понятия плотности распределения и механизмов, приводящих к Гауссовому, и степенному распределениям;
  • • понятия бутегрэпа и перекрестной валидации как вычислительных способов оценки доверия выборочным характеристикам;

уметь

  • • вычислять и визуализировать гистограммы в различных форматах (столбчатые, круговые и пр.);
  • • вычислять характеристики центральности и рассеяния признаков;
  • • использовать метод бутстрэпа для вычислительной оценки доверительного интервала для среднего значения опорным и безопорным методами;

владеть навыками

  • • использования МатЛаба или другой вычислительной среды для вычисления и визуализации гистограмм признаков в различных форматах (столбчатые, круговые и пр.);
  • • использования МатЛаба или другой вычислительной среды для вычисления характеристик центральности и рассеяния признаков;
  • • использования МатЛаба или другой вычислительной среды для вычислительной оценки доверия среднего значения опорным и безопорным методами бутстрэпа.
 
Посмотреть оригинал
Если Вы заметили ошибку в тексте выделите слово и нажмите Shift + Enter
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 

Популярные страницы