Меню
Главная
Авторизация/Регистрация
 
Главная arrow Информатика arrow ВВЕДЕНИЕ В АНАЛИЗ ДАННЫХ
Посмотреть оригинал

Иллюстративные проблемы анализа данных

Прежде чем переходить к обсуждению методов, рассмотрим примеры данных и задач, связанных с их анализом. Чтобы проиллюстрировать мысль, что анализ данных может применяться не только к большим множествам данных, но и к малым, первый пример взят намеренно очень небольшим. Это также полезно с точки зрения того, что данные можно увидеть такими, как они есть, просто глядя на таблицу.

Пример 1.1. Компании

В табл. 1.1 приводятся данные о восьми компаниях в разрезе следующих пяти признаков:

  • 1) доход — годовой доход, млрд руб.;
  • 2) доля Р — доля рынка, %;
  • 3) ОП — число основных потребителей;
  • 4) Инт — есть ли ведение бизнеса по Интернету (+) или нет (-);
  • 5) сектор экономики — превалирующая отрасль народного хозяйства: а) химия;
  • б) металлургия; в) торговля.

Обратим внимание на терминологию: графы табл. 1.1, как и других таблиц данных, соответствуют признакам, строки — объектам, а в самой таблице находятся значения признаков.

Данные о компаниях

Таблица 1.1

Компания

Доход, млрд руб.

Доля Р, %

ОП

Инт

(да/нет)

Сектор

экономики

А вер

19,0

21,85

2

-

Химия

Ант

29,4

18,00

3

-

Химия

Астон

23,9

19,00

3

-

Металлургия

Бмарт

18,4

13,95

2

+

Химия

Брек

25,7

11,15

3

+

Металлургия

Бумо

12,1

8,45

2

+

Металлургия

Виж

23,9

15,10

4

+

Торговля

Вурд

27,2

29,00

5

+

Торговля

Примечание. Совокупность восьми компаний охарактеризована пятью разнотипными признаками. Имена компаний отражают основные группы производимой продукции (либо А, либо Б, либо В).

Хотя сами данные носят чисто иллюстративный характер, следующие вычислительные проблемы довольно типичны в анализе данных:

  • • однородность. Есть ли в данных аномально большие или аномально малые компании? Можно ли утверждать, что в данных механически объединены разные типы компаний?
  • • визуализация. Отображение компании на экране так, чтобы расстояния между их позициями отражали сходство между ними: чем более похожи компании, тем ближе позиции;
  • • если кластеризовать компании в группы по степени сходства, будут ли кластеры соответствовать основным группам продукции, А, Б и В? Если да, то какие признаки будут наиболее весомы?
  • • можно ли вывести какие-либо точные правила для атрибуции вида продукции исходя из данных признаков? (Эти правила затем можно применить и для компаний, не вошедших в данную таблицу (прогноз));
  • • можно ли обнаружить какую-либо взаимосвязь между структурными признаками компаний (три признака справа в таблице) и признаками рыночной активности (доход и доля рынка)?

Имеется серьезная структурная разница между признаками в табл. 1.1: не все они количественные! На самом деле в табл. 1.1 представлены все три обычно рассматриваемые типа шкал:

  • 1) количественные, т.е. такие, для которых осмысленна операция усреднения их значений. В табл. 1.1 таковыми являются признаки «Доход», «Доля Р» и «ОП»;
  • 2) бинарные, т.е. такие, которые допускают только значения, соответствующие ответам «да» и «нет»; таков признак «Инт» в табл. 1.1;
  • 3) номинальные, т.е. такие, которые допускают несколько непересекающихся категорий, такие как «Сектор» в табл. 1.1.

Обычно бинарные и номинальные признаки рассматривают как иеколиче- ственные, т.е. «категоризованные». На самом деле их можно перевести в «количественный» формат, приписывая 1 ответу «да» и 0 — ответу «нет». Для бинарных признаков эта перекодировка тривиальна. Номинальный признак должен быть сначала «расщеплен» в систему бинарных признаков, соответствующих отдельным категориям. Например, признак «Сектор» в табл. 1.1 будет заменен на три бинарных признака, соответствующих его категориям (табл. 1.2):

  • • Сектор химии;
  • • Сектор металлургии;
  • • Сектор торговли.

Такие бинарные признаки часто называют фиктивными, или «дамми» (от англ. dummy — чурбан).

Таблица 1.2

Данные о компаниях из табл. 1.1, преобразованные в количественный формат

Номер

Доход

Доля Р

ОП

Инг

Хим

Мега

Торг

1

19,0

21,85

2

0

1

0

0

2

29,4

18,00

3

0

1

0

0

3

23,9

19,00

3

0

0

1

0

4

18,4

13,95

2

1

1

0

0

5

25,7

11,15

3

1

0

1

0

6

12,1

8,45

2

1

0

1

0

7

23,9

15,10

4

1

0

0

1

8

27,2

29,00

5

1

0

0

1

Среднее

22,4

17,06

3,0

0,625

0,375

0,375

0,25

Взятие среднего значения у бинарного 1/0 признака вполне осмысленно: среднее значение есть не что иное как доля данной категории в множестве объектов! Этот факт, а также ему подобные, приводят к тому, что в данном тексте 1/0 признак считается количественным.

Пример 1.2. Ирисы

Ирисы — пожалуй, самая популярная таблица данных (табл. 1.3). Она характеризует коллекцию, собранную ботаником Э. Андерсоном и использованную Р. Фишером (1936) в его основополагающей статье о дискриминантном анализе. В ней представлены 150 цветков ириса, относящихся к трем видам: I. lrissetosa (диплоид), II. Iris versicolor {тетраплоид) и III. Iris znrginica (гсксаплоид), по 50 экземпляров из каждого. Признаки таблицы относятся к измерениям длины и ширины чашелистика (wl, w2), а также лепестков (w3, w4) (рис. 1.1).

Виды определяются генотипом, а признаки — фенотипом. Возникает вопрос, можно ли описать виды в терминах измеренных признаков. Хорошо известно, что вид I довольно легко отделяется от остальных, тогда как виды II и III перемешаны (возможно, из-за ошибок Андерсона в определении видов). Вместе с тем ботаники понимают, что виды можно неплохо отличить по форме лепестка, которая в определенной степени отражается площадью прямоугольника, т.е. произведения w3 • w4.

Из проблем анализа данных, относящихся к этой таблице, укажем следующие:

  • • существует ли признак или пара признаков, распределение которых информативно с точки зрения описания трех видов ириса?
  • • визуализация данных на экране так, чтобы похожие объекты отображались близкими друг к другу точками;
  • • анализ связи между разными измерениями, включая возможность предсказания, скажем, размеров лепестка по размерам чашелистика;
  • • возможность сведения всех признаков в единый непосредственно неизмеримый признак «размер» цветка.
Чашелистик (sepal) и лепесток (petal) в цветке ириса

Рис. 1.1. Чашелистик (sepal) и лепесток (petal) в цветке ириса

Таблица 13

Ирисы (в строках — информация о 150 экземпляров ириса, измеренных по четырем признакам в разрезе трех видов)

1 Iris setosa

II Iris versicolor

III Iris virginica

wl v2 vv3 v4

wl w2 w3 w4

wl w2 w3 w4

1

5.1 3.5 1.4 0.3

6.4 3.2 4.5 1.5

6.3 3.3 6.0 2.5

2

4.4 3.2 1.3 0.2

5.5 2.4 3.8 1.1

6.7 3.3 5.7 2.1

3

4.4 3.0 1.3 0.2

5.7 2.9 4.2 1.3

7.2 3.6 6.1 2.5

4

5.0 3.5 1.6 0.6

5.7 3.0 4.2 1.2

7.7 3.8 6.7 2.2

5

5.1 3.8 1.6 0.2

5.6 2.9 3.6 1.3

7.2 3.0 5.8 1.6

6

4.9 3.1 1.5 0.2

7.0 3.2 4.7 1.4

7.4 2.8 6.1 1.9

7

5.0 3.2 1.2 0.2

6.8 2.8 4.8 1.4

7.6 3.0 6.6 2.1

8

4.6 3.2 1.4 0.2

6.1 2.8 4.7 1.2

7.7 2.8 6.7 2.0

9

5.0 3.3 1.4 0.2

4.9 2.4 3.3 1.0

6.2 3.4 5.4 2.3

10

4.8 3.4 1.9 0.2

5.8 2.7 3.9 1.2

7.7 3.0 6.1 2.3

11

4.8 3.0 1.4 0.1

5.8 2.6 4.0 1.2

6.8 3.0 5.5 2.1

12

5.0 3.5 1.3 0.3

5.5 2.4 3.7 1.0

6.4 2.7 5.3 1.9

13

5.1 3.3 1.7 0.5

6.7 3.0 5.0 1.7

5.7 2.5 5.0 2.0

14

5.0 3.4 1.5 0.2

5.7 2.8 4.1 1.3

6.9 3.1 5.1 2.3

15

5.1 3.8 1.9 0.4

6.7 3.1 4.4 1.4

5.9 3.0 5.1 1.8

16

4.9 3.0 1.4 0.2

5.5 2.3 4.0 1.3

6.3 3.4 5.6 2.4

17

5.3 3.7 1.5 0.2

5.1 2.5 3.0 1.1

5.8 2.7 5.1 1.9

18

4.3 3.0 1.1 0.1

6.6 2.9 4.6 1.3

6.3 2.7 4.9 1.8

19

5.5 3.5 1.3 0.2

5.0 2.3 3.3 1.0

6.0 3.0 4.8 1.8

20

4.8 3.4 1.6 0.2

6.9 3.1 4.9 1.5

7.2 3.2 6.0 1.8

21

5.2 3.4 1.4 0.2

5.0 2.0 3.5 1.0

6.2 2.8 4.8 1.8

22

4.8 3.1 1.6 0.2

5.6 3.0 4.5 1.5

6.9 3.1 5.4 2.1

23

4.9 3.6 1.4 0.1

5.6 3.0 4.1 1.3

6.7 3.1 5.6 2.4

24

4.6 3.1 1.5 0.2

5.8 2.7 4.1 1.0

6.4 3.1 5.5 1.8

25

5.7 4.4 1.5 0.4

6.3 2.3 4.4 1.3

5.8 2.7 5.1 1.9

26

5.7 3.8 1.7 0.3

6.1 3.0 4.6 1.4

6.1 3.0 4.9 1.8

27

4.8 3.0 1.4 0.3

5.9 3.0 4.2 1.5

6.0 2.2 5.0 1.5

28

5.2 4.1 1.5 0.1

6.0 2.7 5.1 1.6

6.4 3.2 5.3 2.3

I Iris setosa

II Iris versicolor

III Iris virginica

wl w2 w3 w4

wl w2 w3 w4

wl w2 w3 w4

29

4.7 3.2 1.6 0.2

5.6 2.5 3.9 1.1

5.8 2.8 5.1 2.4

30

4.5 2.3 1.3 0.3

6.7 3.1 4.7 1.5

6.9 3.2 5.7 2.3

31

5.4 3.4 1.7 0.2

6.2 2.2 4.5 1.5

6.7 3.0 5.2 2.3

32

5.0 3.0 1.6 0.2

5.9 3.2 4.8 1.8

7.7 2.6 6.9 2.3

33

4.6 3.4 1.4 0.3

6.3 2.5 4.9 1.5

6.3 2.8 5.1 1.5

34

5.4 3.9 1.3 0.4

6.0 2.9 4.5 1.5

6.5 3.0 5.2 2.0

35

5.0 3.6 1.4 0.2

5.6 2.7 4.2 1.3

7.9 3.8 6.4 2.0

36

5.4 3.9 1.7 0.4

6.2 2.9 4.3 1.3

6.1 2.6 5.6 1.4

37

4.6 3.6 1.0 0.2

6.0 3.4 4.5 1.6

6.4 2.8 5.6 2.1

38

5.1 3.8 1.5 0.3

6.5 2.8 4.6 1.5

6.3 2.5 5.0 1.9

39

5.8 4.0 1.2 0.2

5.7 2.8 4.5 1.3

4.9 2.5 4.5 1.7

40

5.4 3.7 1.5 0.2

6.1 2.9 4.7 1.4

6.8 3.2 5.9 2.3

41

5.0 3.4 1.6 0.4

5.5 2.5 4.0 1.3

7.1 3.0 5.9 2.1

42

5.4 3.4 1.5 0.4

5.5 2.6 4.4 1.2

6.7 3.3 5.7 2.5

43

5.1 3.7 1.5 0.4

5.4 3.0 4.5 1.5

6.3 2.9 5.6 1.8

44

4.4 2.9 1.4 0.2

6.3 3.3 4.7 1.6

6.5 3.0 5.5 1.8

45

5.5 4.2 1.4 0.2

5.2 2.7 3.9 1.4

6.5 3.0 5.8 2.2

46

5.1 3.4 1.5 0.2

6.4 2.9 4.3 1.3

7.3 2.9 6.3 1.8

47

4.7 3.2 1.3 0.2

6.6 3.0 4.4 1.4

6.7 2.5 5.8 1.8

48

4.9 3.1 1.5 0.1

5.7 2.6 3.5 1.0

5.6 2.8 4.9 2.0

49

5.2 3.5 1.5 0.2

6.1 2.8 4.0 1.3

6.4 2.8 5.6 2.2

50

5.1 3.5 1.4 0.2

6.0 2.2 4.0 1.0

6.5 3.2 5.1 2.0

Пример 1.3. Компьютерные атаки

С учетом растущего значения компьютерных сетей возрастает опасность их атак, приводящих к нарушению функционирования сетей. Простейший вид атаки — отказ от обслуживания [denial of service DoS]. Такая атака причиняется командами, которые приводят к тому, что какой-либо ресурс — процессор, память, входное устройство — оказывается перегружен и не может обслуживать нормальные запросы. Две такие атаки в габл. 1.4 помечены как «арасЬс2» и «smurf».

Таблица 1.4

Данные о компьютерных атаках

Pr

BySD

SH

SS

SE

RE

A

Pr

ByS

SH

SS

SE

RE

A

Tcp

62344

16

16

0

0.94

Ap

Tcp

287

14

14

0

0

no

Tcp

60884

17

17

0.06

0.88

Ap

Tcp

308

1

1

0

0

no

Tcp

59424

18

18

0.06

0.89

Ap

Tcp

284

5

5

0

0

no

Tcp

59424

19

19

0.05

0.89

Ap

Udp

105

2

2

0

0

no

Tcp

59424

20

20

0.05

0.9

Ap

Udp

105

2

2

0

0

no

Tcp

75484

21

21

0.05

0.9

Ap

Udp

105

2

2

0

0

no

Tcp

76944

22

22

0.05

0.91

Ap

Udp

105

2

2

0

0

no

Tcp

59424

23

23

0.04

0.91

Ap

Udp

105

2

2

0

0

no

Tcp

57964

24

24

0.04

0.92

Ap

Udp

44

3

8

0

0

no

Tcp

59424

25

25

0.04

0.92

Ap

Udp

44

6

11

0

0

no

Tcp

0

40

40

1

0

Ap

Udp

42

5

8

0

0

no

Tcp

0

41

41

1

0

Ap

Udp

105

2

2

0

0

no

Продолжение табл. 1.4

Рг

BySD

SH

SS

SE

RE

л

Pr

ByS

SH

SS

SE

RE

A

Тср

0

42

42

1

0

Ар

Udp

105

2

2

0

0

no

Тср

0

43

43

1

0

Ар

Udp

42

2

3

0

0

no

Тср

0

44

44

1

0

Ар

Udp

105

1

1

0

0

no

Тср

0

45

45

1

0

Ар

Udp

105

1

1

0

0

no

Тср

0

46

46

1

0

Ар

Udp

44

2

4

0

0

no

Тср

0

47

47

1

0

Ар

Udp

105

1

1

0

0

no

Тср

0

48

48

1

0

Ар

Udp

105

1

1

0

0

no

Тср

0

49

49

1

0

Ар

Udp

44

3

14

0

0

no

Тср

0

40

40

0.62

0.35

Ар

Udp

105

1

1

0

0

no

Тср

0

41

41

0.63

0.34

Ар

Udp

105

1

1

0

0

no

Тср

0

42

42

0.64

0.33

Ар

Udp

45

3

6

0

0

no

Тср

258

5

5

0

0

No

Udp

45

3

6

0

0

no

Тср

316

13

14

0

0

No

Udp

105

1

1

0

0

no

Тср

287

7

7

0

0

No

Udp

34

5

9

0

0

no

Тср

380

3

3

0

0

No

Udp

105

1

1

0

0

no

Тср

298

2

2

0

0

No

Udp

105

1

1

0

0

no

Тср

285

10

10

0

0

No

Udp

105

1

1

0

0

no

Тср

284

20

20

0

0

No

Tcp

0

482

1

0.05

.95

sa

Тср

314

8

8

0

0

No

Tcp

0

482

1

0.05

.95

sa

Тср

303

18

18

0

0

No

Tcp

0

482

1

0.05

.95

sa

Тср

325

28

28

0

0

No

Tcp

0

482

1

0.05

.95

sa

Тср

232

1

1

0

0

No

Tcp

0

482

1

0.05

.95

sa

Тср

295

4

4

0

0

No

Tcp

0

482

1

0.05

.95

sa

Тср

293

13

14

0

0

No

Tcp

0

482

1

0.06

.94

sa

Тср

305

1

8

0

0

No

Tcp

0

482

1

0.06

.94

sa

Тср

348

4

4

0

0

No

Tcp

0

482

1

0.06

.94

sa

Тср

309

6

6

0

0

No

Tcp

0

483

1

0.06

.94

sa

Тср

293

8

8

0

0

No

Tcp

0

510

1

0.04

.96

sa

Тср

277

1

8

0

0

no

Icmp

1032

509

509

0

0

sm

Тср

296

13

14

0

0

no

Icmp

1032

510

510

0

0

sm

Тср

286

3

6

0

0

no

Icmp

1032

510

510

0

0

sm

Тср

311

5

5

0

0

no

Icmp

1032

511

511

0

0

sm

Тср

305

9

15

0

0

no

Icmp

1032

511

511

0

0

sm

Тср

295

11

25

0

0

no

Icmp

1032

494

494

0

0

sm

Тср

511

1

4

0

0

no

Icmp

1032

509

509

0

0

sm

Тср

239

12

14

0

0

no

Icmp

1032

509

509

0

0

sm

Рг

BvSD

SH

SS

SE

RE

A

Pr

ByS

SH

SS

SE

RE

A

Тср

5

1

1

0

0

no

Icmp

1032

510

510

0

0

sm

Тср

288

4

4

0

0

no

Icmp

1032

511

511

0

0

sm

Атака ‘apache2’ нацелена на популярный веб-сервер открытого пользования, Apache HTTP Server, заставляя его посылать клиенту огромное количество «пустых» запросов и переполняя буферные каналы. Атака ‘smurf посылает фальшивые ответные послания, «пинги», но различным адресам, заставляя соответствующие компьютеры отвечать «пингами» же по обратным адресам. Если главный адрес «подделан» нарушителем, возникает шквал «пингов», направляемых какому-либо серверу из группы компьютеров сети, переполняя его входные каналы. Такая атака может начинаться с «разведки», отыскивающей проблемы в сети. Популярный софтвер для проведения разведки называется SAINT [Security Administrator’s Integrated Network Tool].

Таблица 1.4 — случайная выборка из данных, синтезированных в одной из лабораторий Массачусетского технологического института (Бостон, США, www.ll.mit.cdu/mission/communications/ist/corpora/idcval/data/ intex.html). Признаки характеризуют пакет и его источник.

  • 1. Рг — тип протокола, в данном случае один из трех: tep, iemp, udp (этот признак — номинальный).
  • 2. BySD — число байтов в пакете.
  • 3. SH — количество соединений источника за последние две секунды.
  • 4. SS — число соединений с тем же сервером за последние две секунды.
  • 5. SE — процент ошибочных соединений.
  • 6. RE — процент соединений с отказом обслуживания.
  • 7. А — тип атаки (ар — apache2, sa — saint, sm — smurf, и отсутствие атаки — no).

Из сотни объектов в табл. 1.4 первые 23 — атаки сервера apache2, пакеты

24—69 — нормальные, следующие одиннадцать, 80—90, соответствуют разведке SAINT, и последние десять, 91 —100, — атаки smurf.

Примеры проблем анализа данных, которые можно исследовать с использованием табл. 1.4:

  • • найти признаки пакетов, которые можно использовать для того, чтобы определить, нормально ли функционирует сеть или же она атакована;
  • • выяснить, есть ли связь между используемым протоколом и типом атаки;
  • • визуализировать данные так, чтобы близость точек соответствовала похожести значений признаков соответствующих объектов.

Пример 1.4. Малые города английского побережья

В табл. 1.5 приведены иллюстративные данные о 45 малых городах юго-запада Англии. Для целей социального планирования имеет смысл выделить сравнительно небольшую их группу так, чтобы каждый попавший в нее город представлял весь «кластер» похожих на него городов. В таблице города упорядочены по числу жителей. Например, 21 самых малых городов имеют меньше 4000 жителей каждый. Число 4000 взято в качестве разделителя не случайно. Во-первых, оно круглое. Во-вторых, оно помечает значительный разрыв в более чем 1300 между Кингскерсвеллом (3672 жителя) и следующим по численности городом Луе (5022 жителя). Следующий большой разрыв — после Лискярда (7044), отделяющего 9 городов среднего размера от двух групп больших городов, насчитывающих соответственно 6 и 9 городов соответственно. Разделитель между двумя последними группами — между Тавистоком (10 222) и Бодмином (12 553). Так мы получим три или четыре группы городков, которые можно использовать укрупненно при социальном мониторинге. А достаточно ли однородны эти группы с точки зрения других имеющихся признаков? В работе [18] показано, что более однородны в этом множестве не четыре, а семь кластеров: большие города порядка 17—20 тыс. жителей, два кластера городков средних размеров (8—10 тыс. жителей), три кластера малых городков (порядка 5 тыс. жителей), а также кластер совсем небольших поселений порядка 2,5 тыс. жителей. Каждый из трех кластеров маленьких городков выделяется наличием некоего объекта, отсутствующего в двух других кластерах — фермерский рынок в одном, больница в другом и снортцентр с плавательным бассейном в третьем. Эти объекты предполагают соответствующую направленность образа жизни.

В табл. 1.5 приводятся данные по следующим 12 признакам:

  • 1) Нас — число жителей;
  • 2) Нш — число начальных школ;
  • 3) Тер — число терапевтов1;
  • 4) Бол — число больниц;
  • 5) Ба — число отделений банков;
  • 6) Ун — число продуктовых универмагов;
  • 7) Ав — число автозаправок;
  • 8) Ст — число магазинов строительных материалов;
  • 9) Бас — число бассейнов;
  • 10) По — число почтамтов;
  • 11) Юр — число бесплатных юридических консультаций;
  • 12) Фр — число фермерских рынков.

Таблица 1.5

Данные о малых городах юго-запада Англии по переписи 1991 г.

Город

Нас

Нш

Тер

Бол

Ба

Ун

Ав

Ст

Бас

По

Юр

фр

Мулл ион

2040

1

0

0

2

0

1

0

0

1

0

0

Юж. Брент

2087

1

1

0

1

1

0

0

0

1

0

0

Сент-Жюст

2092

1

0

0

2

1

1

0

0

1

0

0

Сент-Колумб

2119

1

0

0

2

1

1

0

0

1

1

0

Наннин

2230

2

1

0

0

0

0

0

0

2

0

0

Гуннислэйк

2236

2

1

0

1

0

1

0

0

3

0

0

Мевагисси

2272

1

1

0

1

0

0

0

0

1

0

0

Иплепен

2275

1

1

0

0

0

1

0

0

1

0

0

Алстон

2362

1

0

0

1

1

0

0

0

1

0

0

Лоствизел

2452

2

1

0

2

0

1

0

0

1

0

1

С. Кулом

2458

1

0

0

0

1

3

0

0

2

0

0

Падстоу

2460

1

0

0

3

0

0

0

0

1

1

0

Перранпорс

2611

1

1

0

1

1

2

0

0

2

0

0

Бугль

2695

2

0

0

0

0

1

0

0

2

0

0

Бакфастль

2786

2

1

0

1

2

2

0

1

1

1

1

Сент-Агнес

2899

1

1

0

2

1

1

0

0

2

0

0

Порслевен

3123

1

0

0

1

1

0

0

0

1

0

0

Калл ин ггон

3511

1

1

0

3

1

1

0

1

1

0

0

Хорабридж

3609

1

1

0

2

1

1

0

0

2

0

0

Эшбуртон

3660

1

0

1

2

1

2

0

1

1

1

0

Кингс керс

3672

1

0

0

0

1

2

0

0

1

0

0

1 В Англии медицинское обслуживание населения организовано в виде сети «практикующих терапевтов», а не в поликлиниках.

Город

Нас

Нш

Тер

Бол

Ба

Ун

Ав

Ст

Бас

По

Юр

Фр

Луе

5022

1

1

0

2

1

1

0

1

3

1

0

Кингсбридж

5258

2

1

1

7

1

2

0

0

1

1

1

Вадбридж

5291

1

1

0

5

3

1

0

1

1

1

0

Дартмаут

5676

2

0

0

4

4

1

0

0

2

1

1

Лонсестон

6466

4

1

0

8

4

4

0

1

3

1

0

Тотнес

6929

2

1

1

7

2

1

0

1

4

0

1

Пенрин

7027

3

1

0

2

4

1

0

0

3

1

0

Хэйль

7034

4

0

1

2

2

2

0

0

2

1

0

Лискярд

7044

2

2

2

6

2

3

0

1

2

2

0

Торпойнт

8238

2

3

0

3

2

1

0

0

2

1

0

Хелстон

8505

3

1

1

7

2

3

0

1

1

1

1

Сент-Блэзи

8837

5

2

0

1

1

4

0

0

4

0

0

Айвибридж

9179

5

1

0

3

1

4

0

0

1

1

0

Сент-Иве

10 092

4

3

0

7

2

2

0

0

4

1

0

Тависток

10 222

5

3

1

7

3

3

1

2

3

1

1

Бодмин

12 553

5

2

1

6

3

5

1

1

2

1

0

Салташ

14 139

4

2

1

4

2

3

1

1

3

1

0

Бриксхэм

15 865

7

3

1

5

5

3

0

2

5

1

0

Ньюкэй

17 390

4

4

1

12

5

4

0

1

5

1

0

Труро

18 966

9

3

1

19

4

5

2

2

7

1

1

Пензанс

19 709

10

4

1

12

7

5

1

1

7

2

0

Фалмаут

20 297

6

4

1

11

3

2

0

1

9

1

0

Сент-Остелл

21 622

7

4

2

14

6

4

3

1

8

1

1

Эббот-Ныотон

23 801

13

4

1

13

4

7

1

1

7

2

0

Таким образом, главная цель анализа таких данных — это формирование кластеров однородных городов. Также интересным могло бы явиться исследование на тему, не являются ли все представленные признаки городов просто поверхностными измерителями некоторого «внутреннего», не измеряемого непосредственно фактора «уровень развития города»? Если ответ не совсем отрицательный, то следующий вопрос — нельзя ли сформировать шкалу измерения этого внутреннего фактора, например, связав ее со шкалами измерения признаков в данных? Определенный интерес, конечно, может представлять анализ распределения городов по численности населения, а также корреляции этого показателя как с сопрягающимися признаками, такими как число начальных школ Нш, так и признаками, не связанными с населением административно, такими, скажем, как число отделений банков.

 
Посмотреть оригинал
Если Вы заметили ошибку в тексте выделите слово и нажмите Shift + Enter
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 

Популярные страницы