В данной главе рассмотрены задачи суммаризации и визуализации для самого простого вида данных, когда признак всего один.
Объясняются понятия гистограммы, центральной точки (центра) и разброса. Изложены две точки зрения па задачу суммаризации: первая — это классическая вероятностная, а вторая — аппроксимационная, в рамках которой разброс данных разложим на объясненную и необъясненную часть.
Разница между количественными и качественными признаками определяется с помощью операции взятия среднего. Для количественных признаков взятие среднего имеет смысл, в то время как для качественных признаков — нет. Э го различие стирается на бинарных признаках, представляющих отдельные категории. Они задаются так называемыми фиктивными переменными, которые можно считать количественными.
Современные вычислительные подходы, такие как имитирующие природу методы и бутстрэппинг для оценки доверительных интервалов, объяснены на отдельных примерах в проектах в конце главы.
В результате изучения данной главы студент будет:
знать
• понятие гистограммы распределения;
• характеристики центральности: среднее, медиану, середину размаха, моду;
• характеристики рассеяния: дисперсию и среднее абсолютное отклонение;
• характеристики рассеяния номинальных признаков: энтропию и индекс Джини;
• аппроксимационный смысл характеристик центральности и рассеяния;
• понятия плотности распределения и механизмов, приводящих к Гауссовому, и степенному распределениям;
• понятия бутегрэпа и перекрестной валидации как вычислительных способов оценки доверия выборочным характеристикам;
уметь
• вычислять и визуализировать гистограммы в различных форматах (столбчатые, круговые и пр.);
• вычислять характеристики центральности и рассеяния признаков;
• использовать метод бутстрэпа для вычислительной оценки доверительного интервала для среднего значения опорным и безопорным методами;
владеть навыками
• использования МатЛаба или другой вычислительной среды для вычисления и визуализации гистограмм признаков в различных форматах (столбчатые, круговые и пр.);
• использования МатЛаба или другой вычислительной среды для вычисления характеристик центральности и рассеяния признаков;
• использования МатЛаба или другой вычислительной среды для вычислительной оценки доверия среднего значения опорным и безопорным методами бутстрэпа.