Методы визуализации статистической информации

В данном параграфе будут перечислены основные методы визуализации имеющейся статистической информации, а именно: описательные статистики, частотные распределения, гистограмма, диаграмма рассеяния, Q-Q- и Р— Д-графики, корреляционные таблицы, таблицы сопряженности. Визуализация крайне эффективна при первичном анализе данных, так как позволяет изучить закономерности в данных и получить представление об их природе.

1. Описательные статистики (descriptive statistics). Изучение описательных статистик является весьма эффективным методом получения информации о данных. Чаще всего описательные статистики представляются в виде таблиц, в которых содержится следующая информация по каждой переменной: количество наблюдений, максимум, минимум, выборочное среднее, выборочное стандартное отклонение; иногда приводятся квартили.

Пример вычисления описательных статистик приведен в упражнении 2.1.

2. Частотные распределения (frequency distribution). Благодаря анализу частотных распределений можно определить, какие значения принимает случайная величина в конкретной выборке, а также выявить частоту появления этих значений.

Пример вычисления частотных распределений приведен в упражнении 2.2.

3. Гистограмма {histogram) — один из самых популярных способов визуализации данных. Гистограмма — это эмпирическая оценка плотности случайной величины по выборке. Графически гистограмма представляет собой набор прямоугольников. Высота каждого столбца (прямоугольника) определяется количеством значений выборки в выбранном диапазоне, а количество столбцов задает число выбранных диапазонов. Гистограмма дает некоторое представление о распределении случайной величины, является ли оно симметричным, похоже ли на нормальное и т.д.

Построение гистограммы осуществляется следующим образом. Весь диапазон выборочных значений разбивается на априорно заданное количество участков (обычно равной длины) xmin = а0 < а1 < ... < ак = дгтах. Подсчитывается количество наблюдений njf попавших в каждый интервал [ai a), i = 1,..., к.

Тогда ширина столбца задается длиной диапазона, а высота рассчитывает-

п-

ся по формуле h = —--, где п — общее количество наблюдений.

nifli-1 “ ai)

При всех значительных плюсах у гистограммы есть один минус: форма гистограммы существенно зависит от количества (и, следовательно, ширины) интервалов, на которые разбивается множество значений случайной величины. Более того, визуализация распределений дискретных случайных величин чувствительна к выбору границ участков, гак как при сдвиге границы из одного столбца в другой может переходитю сразу несколько значений, что резко изменит высоты двух соседних столбцов.

Пример построения гистограммы приведен в упражнении 2.3.

4. Диаграмма рассеяния {scatter plot) — метод визуализации данных, при котором на декартовой плоскости отображаются значения переменных в виде точек. Данный метод бывает крайне полезен при попарном сопоставлении переменных: благодаря таким графикам можно определить тип взаимосвязи переменных.

Пример построения диаграммы рассеяния приведен в упражнении 2.4.

5. Графики Q—Q {quantile — quantile) и Р—Р {probability — probability). Напомним, что квантиль распределения — это значение, которого случайная величина не превышает с заданной вероятностью. Данный тип графиков часто используется при анализе распределений. Q-Q-график — это метод сравнения квантилей двух распределений для одного и того же набора данных. По вертикальной оси откладываются квантили одного распределения, по горизонтальной оси — другого. Тогда если оба распределения дают одинаковые значения для квантилей, все значения будут лежать вдоль линии у = х. Если же нет идеальной зависимости, то тогда будут отклонения от этой линии. Аналогично строится и Р—Р-график, только по осям откладываются значения вероятностей, а не квантилей.

Пример построения Q-Q- и Р—Р-графиков приведен в упражнении 2.5.

6. Корреляционные таблицы {correlation matrix). В ячейках таблиц данного типа приведены значения выборочного коэффициента корреляции переменных. Значение коэффициента корреляции, близкое по модулю к единице, свидетельствует о том, что между переменными существует зависимость, близкая к линейной.

Пример расчета корреляционных таблиц приведен в упражнении 2.7.

7. Таблицы сопряженности {cross tabulation) — достаточно популярный метод представления данных, при котором классификация наблюдений производится по двум признакам. Обычно проверяется гипотеза об их независимости1.

Пример построения таблиц сопряженности приведен в упражнении 2.8.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >