Классификация данных по числу переменных

По числу переменных различают одномерный, двумерный и многомерный массив данных (см. рис. 3.1).

В одномерных наборах данных у каждого наблюдения регистрируется только один признак. В этом случае статистические методы используются для определения основных характеристик этого признака:

  • • расчет средних значений и показателей вариации, размаха признака;
  • • группировка данных и построение вариационных рядов (дискретных и интервальных);
  • • графическое представление данных с целью их визуализации и анализа;
  • • исследование различий наблюдений или групп наблюдений, требующих особого рассмотрения (задача классификации и выявления аномальных наблюдений).

Примеры одномерных данных

  • • Цена товара определенной категории в разных магазинах Москвы.
  • • Динамика числа семей, нуждающихся в улучшении жилищных условий в Москве.

Пример 3.1

Источник: URL: http://www.gks.ru/free_doc/new_site/prices/housing/ tab9.htm.

Данные представлены в табличной форме и в виде точечно-линейного графика (linechart, timeplot). Болес подробно о видах графического представления данных — в гл. 4.

Пример 3.2

Источник: URL: http://sophist.hse.ru/exes/tables/UNEMPL_M_SH.htm.

Данные представлены в табличной форме и в виде столбиковой (столбчатой) диаграммы {barchan).

В многомерных (двумерных, трехмерных и т.д.) наборах данных у каждого наблюдения регистрируется несколько признаков. Статистические методы в этом случае используются для решения задач:

  • • определения основных характеристик по каждому одномерному признаку;
  • • анализа наличия и степени зависимости между этими признаками;
  • • исследования вида зависимости одной переменной (результативной) от остальных (факторных);
  • • классификации наблюдений с целью получения однородных групп (кластеров) и выявления аномальных наблюдений;
  • • построения обобщающих, интегральных показателей с целью снижения размерности исходного признакового пространства;
  • • для временных данных решаются задачи анализа временных рядов и прогнозирования.

Примеры многомерных данных

  • • Работник некоторой фирмы характеризуется показателями: заработная плата, пол, образование, стаж работы, категория работы и производительность труда (многомерные данные).
  • • Квартира на рынке вторичного жилья в Москве характеризуется показателями: стоимость квартиры, общая площадь, площадь кухни, удаленность от центра, этаж, материалы стен дома (многомерные данные).

Ежемесячные данные курса доллара и цены на нефть в Российской Федерации в 2008—2009 гг. (двумерные данные)

Месяц, год

Курс доллара, руб.

Цена на нефть, долл. США/бар

Март, 2008

23,75

102,81

Апрель, 2008

23,52

111,09

Май, 2008

23,72

125,58

Июнь, 2008

23,63

135,05

Июль, 2008

23,35

133,49

Август, 2008

24,15

114,97

Сентябрь, 2008

25,27

100,22

Октябрь, 2008

26,39

73,83

Ноябрь, 2008

27,33

54,61

Декабрь, 2008

28,2

43,57

Январь, 2009

32,49

46,34

Февраль, 2009

35,81

44,19

Март, 2009

34,62

47,71

Апрель, 2009

33,55

51,88

Май, 2009

31,99

58,98

Июнь, 2009

31,05

69,47

Июль, 2009

31,49

65,93

Август, 2009

31,65

72,85

Источник: URL: http://news.yandex.ru/quotes/index.html.

Данные представлены в табличной форме и в виде точечного графика (scatterplot, pointplot) — диаграммы рассеяния с построенной регрессионной зависимостью между переменными (см. гл. 5).

Характеристика стран мира на 1 июля 2009 г. по показателям: площадь территории, численность населения и плотность населения на 1 км2 (трехмерные данные)

Страны

Территория, км2

Население, тыс. чел.

Человек на 1 км2

Монако

2

33

16 350

Сингапур

705

4615

6545

Бермудские острова

54

65

1190

Сан-Марино

61

31

512

Китай

9 596 961

1 337 411

139

США

9 629 091

311 666

32

Россия

17 098 240

141 394

8

Канада

9 984 670

33 259

3

Монголия

1 564 100

2641

2

Гренландия

2 166 086

57

0,03

Источник: URL: http://www.statistica.md/category.php?l=ru&idc=147. Данные представлены в табличной форме.

Из приведенных примеров следует, что в статистике каждое наблюдение, кроме количественных признаков, содержит качественные характеристики, привязывающие это наблюдение ко времени и месту (страна, город и т.д.).

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >