Меню
Главная
Авторизация/Регистрация
 
Главная arrow Статистика arrow Статистика

этап. Определение сходства объектов

Производится выбор команд в окне редактора данных: Анализ – Классификация – Иерархическая кластеризация (рис. 10.1).

Выбор переменных для кластеризации, представленный на рис. 10.2, предполагает указание всех переменных энергоэффективности. В поле Метить значеними помещаем качественную переменную Страны, которая выступает в качестве идентификатора.

Выбор команд в окне редактора данных

Рис. 10.1. Выбор команд в окне редактора данных

Выбор переменных для кластеризации

Рис. 10.2. Выбор переменных для кластеризации

Графически кластеризацию представляют в виде дендрограммы. На рис. 10.3 показано диалоговое окно Иерархический кластерный анализ: Графики, в котором в качестве диаграммы предлагается построить дендрограмму.

Диалоговое окно Иерархический кластерный анализ: Графики

Рис. 10.3. Диалоговое окно Иерархический кластерный анализ: Графики

В качестве метода кластеризации используем Межгрупповые связи, при котором в кластеры объединяются объекты, расстояние между которыми минимально. Выберем Квадрат расстояния Евклида (формула (10.7)) в качестве меры близости (рис. 10.4).

Выбор способа измерения расстояния и метода формирования кластеров

Рис. 10.4. Выбор способа измерения расстояния и метода формирования кластеров

Для проявления стандартизации переменных в поле Стандартизация задается вид формулы. Выбираем г-значения (см. формулу (10.2)).

В табл. 10.5 представлен фрагмент матрицы расстояний, которая представляет собой квадратную матрицу типа "объект – объект" (см. формулу (10.11)).

Таблица 10.5

Фрагмент матрицы расстояний

Австралия

Аргентина

Бразилия

Великобритания

Германия

Европейский Союз

Индия

Австралия

0,0

17,1

20,5

5,7

4,1

7,1

33,5

Аргентина

17,1

0,0

3,4

5,1

5,9

3,9

5,8

Бразилия

20,5

3,4

0,0

5,3

6,4

3,5

14,2

Великобритания

5,7

5,1

5,3

0,0

0,5

0,5

18,7

Германия

4,1

5,9

6,4

0,5

0,0

0,4

20,0

Европейский Союз

7,1

3,9

3,5

0,5

0,4

0,0

17,2

Индия

33,5

5,8

14,2

18,7

20,0

17,2

0,0

этап. Выбор метода объединения объектов в кластеры

Для определения оптимального числа кластеров применим таблицу последовательности слияния, которая позволяет просмотреть очередность слияния кластеров и выбрать их оптимальное число (табл. 10.6).

Таблица 10.6

Таблица слияния

Этап

Кластер объединен с

Коэффициенты

Этап первого появления кластера

Следующий этап

Абсолютный прирост коэффициента*

Кластер 1

Кластер 2

Кластер 2

Кластер 1

1

2

16

0,016

0

0

6

-

2

5

20

0,160

0

0

7

0,144

3

4

9

0,310

0

0

5

0,150

4

11

18

0,312

0

0

10

0,002

5

4

6

0,502

3

0

7

0,190

e

2

12

0,793

1

0

11

0,291

7

4

5

1,052

5

2

13

0,259

8

13

19

1,438

0

0

14

0,386

9

10

15

1,672

0

0

12

0,235

10

7

11

1,991

0

4

14

0,318

11

2

3

3,932

6

0

15

1,942

12

1

10

4,937

0

9

18

1,005

13

4

17

5,168

7

0

15

0,231

14

7

13

5,793

10

8

16

0,625

15

2

4

6,897

11

13

18

1,105

16

7

14

11,482

14

0

17

4,585

17

7

8

12.926

16

0

19

1,444

18

1

2

13,416

12

15

19

0,490

19

1

7

16,241

18

17

0

2,825

* Абсолютные приросты коэффициентов рассчитаны нами самостоятельно, так как в программе этот расчет не осуществляется.

Столбец таблицы "Коэффициенты" содержит расстояния для соответствующих кластеров. Каждая строка показывает состав кластера на данном шаге классификации. На первом этане объединены объекты (страны) № 2 и № 16, на втором – № 5 и № 20, на третьем – № 4 и № 9 и т.д.

этап. Определение оптимального числа кластеров

В столбце "Коэффициенты" расположены расстояния между двумя кластерами, рассчитанные на основе выбранной меры расстояний (в нашем примере это квадрат евклидова расстояния). Кластеризацию нужно остановить на том этапе, когда изменение коэффициента происходит скачкообразно, так как в противном случае в одном кластере окажутся слишком далекие друг от друга объекты.

Оптимальным считается число кластеров, равное разности числа наблюдений и номера этапа, после которого происходит скачок. Последний столбец табл. 10.6 демонстрирует прирост коэффициента. Как было отмечено выше, этот расчет мы сделали самостоятельно для того, чтобы обнаружить скачок. Мы видим, что коэффициент прирастает скачкообразно, неравномерно, и самый большой скачок наблюдается на этапе с 15-го на 16-й. Получается, что в первом случае оптимальное число кластеров равно пяти (20 – 15 = 5), во втором случае – четырем (20 – 16 = 4). Проведя качественный анализ кластеров в обоих случаях, остановимся на выборе пяти кластеров (рис. 10.5). Этот выбор позволяет дать более четкую характеристику однородных групп.

Иерархический кластерный анализ: выбор числа кластеров

Рис. 10.5. Иерархический кластерный анализ: выбор числа кластеров

На рис. 10.6 представлена горизонтальная древовидная диаграмма, называемая дендрограмма. На горизонтальной оси представлены расстояния, на вертикальной оси перечислены страны "Группы двадцати".

Дендрограмма

Рис. 10.6. Дендрограмма

Метод К-средних

Как было отмечено выше, наиболее популярным методом кластеризации является метод К-средних, который относится к итеративному виду кластерного анализа. В отличие от иерархического вида кластерного анализа, в методе К-средних число кластеров определяется в начале анализа.

Проведенный выше иерархический анализ позволил нам определить оптимальное количество кластеров: 5. Выбираем команды в окне редактора данных: АнализКлассификацияКластеризация К-средними (рис. 10.7).

Выбор переменных для кластеризации методом К-средних представлен на рис. 10.8. В поле Переменные указываем все переменные для анализа энергоэффективности стран "Группы двадцати". В поле Метить наблюдения помещаем качественную переменную Страны, которая выступает идентификатором.

Выбор команд в окне редактора данных

Рис. 10.7. Выбор команд в окне редактора данных

Важно указать число кластеров, на которое будем разбивать изучаемую совокупность, в поле Число кластеров. Для нашего примера в этом поле указываем число 5.

Выбор переменных для кластеризации методом К-средних

Рис. 10.8. Выбор переменных для кластеризации методом К-средних

Далее выбираем опцию Сохранить... для того, чтобы получить результаты: Принадлежность к кластеру и Расстояние от центра кластера (рис. 10.9).

Кластеризация методом К-средних: Сохранить новую принадлежность к кластеру

Рис. 10.9. Кластеризация методом К-средних: Сохранить новую принадлежность к кластеру

Дать качественный анализ новых труни (кластеров) позволяет описательная статистика энергоэффективности. Для этого выбираем опцию Параметры... и делаем выбор в ноле Статистики: Начальные центры кластеров, Таблица дисперсионного анализа и Конечный кластер для каждого наблюдения (рис. 10.10).

Выбор параметров для кластерного анализа методом К-средних

Рис. 10.10. Выбор параметров для кластерного анализа методом К-средних

Выполнив вышеперечисленные команды, получим таблицу, в которой показана принадлежность стран "Группы двадцати" к кластерам (табл. 10.7).

Таблица 10.7

Принадлежность стран "Группы двадцати" к кластерам

Страны

Кластер

Расстояние

1

Австралия

1

0,000

2

Аргентина

4

3,580

3

Бразилия

4

5,479

4

Великобритания

3

1,366

5

Германия

3

4,993

6

Европейский Союз

3

3,851

7

Индия

4

7,521

8

Индонезия

4

5,308

9

Италия

3

4,716

10

Канада

5

5,248

11

Китай

4

3,627

12

Мексика

4

2,049

13

Россия

2

7,640

14

Саудовская Аравия

2

6,203

15

США

5

2,792

16

Турция

4

3,098

17

Франция

3

4,586

18

ЮАР

4

5,090

19

Южная Корея

2

3,671

20

Япония

5

7,122

Для качественного анализа групп разбиения в программе рассчитывается среднее значение для каждого показателя энергоэффективности по странам "Группы двадцати". Конечные центры кластеров и средние значения по странам "Группы двадцати" представлены в табл. 10.8.

Таблица 10.8

Конечные центры кластеров

Показатели

энергоэффективности

Средние значения по странам "Группы двадцати"

Кластер

1

2

3

4

5

Электроемкость ВПП, кВт•ч/долл.

0,31

0,16

0,46

0,17

0,39

0,26

Производство электроэнергии на душу населения, МВт•ч/чел.

6,61

10,41

8,92

6,62

2,77

13,22

ВВП на единицу выбросов СО2, долл/кг

3,01

4,04

1,26

5,09

2,13

3,28

ВВП на душу населения, тыс. долл/чел.

26,47

65,55

20,14

38,18

8,03

49,44

Выбросы СО2 на душу населения, т/чел.

9,33

17,28

16,30

7,73

4,32

15,74

Выбросы СО2 на единицу производства электроэнергии, кг/Втч

1,50

1,66

1,83

1,21

1,64

1,22

этап. Интерпретация кластеров

Учитывая результаты, представленные в табл. 10.7 и 10.8, проводим сравнение средних значений по каждому кластеру.

Первый кластер состоит из одной страны: Австралия, которая характеризуется хорошим уровнем следующих показателей: электроемкость ВВП, ВВП на единицу выбросов СО2 и ВВП на душу населения. Отметим, что три показателя имеют значения хуже средних: производство электроэнергии на душу населения, выбросы СО2 на душу населения, выбросы СО2 на единицу производства электроэнергии.

Во второй кластер вошли три страны: Россия, Саудовская Аравия и Южная Корея, у которых все показатели энергоэффективности хуже, чем средние значения по всем странам.

В третий кластер в результате кластерного анализа определены пять стран: Великобритания, Германия, Европейский Союз, Италия и Франция. В эту группу вошли страны, у которых все показатели энергоэффективности выше среднего значения для всех стран "Группы двадцати".

Четвертый кластер представляют восемь стран: Аргентина, Бразилия, Индия, Индонезия, Китай, Мексика, Турция и ЮАР. Эта группа стран характеризуется высокой электроемкостью и низким ВВП на душу населения. В то же время наблюдаются ниже среднего производство электроэнергии на душу населения и выбросы СО2 на душу населения.

В пятый кластер попали три страны: Канада, США и Япония. Этот кластер составляют страны с высокой энергоэффективностью, так как почти все показатели имеют значения лучше средних значений, кроме двух показателей, которые имеют значения хуже среднего значения по совокупности "Группы двадцати": производство электроэнергии па душу населения и выбросы СО2 на душу населения.

Дадим названия полученным кластерам и распределим эти кластеры в порядке возрастания: первый кластер – это кластер, включающий страны с низким уровнем энергоэффективности, пятый – кластер, включающий страны с высоким уровнем энергоэффективности (табл. 10.9). В результате первоначальная нумерация изменится, но для логического обобщения результатов это удобнее.

Таблица 10.9

Результаты кластерного анализа

Кластер

Название кластера по уровню энергоэффективности в стране

Число стран в кластере

Страны, определенные в кластер

1

Низкий

3

Россия, Саудовская Аравия, Южная Корея

2

Ниже среднего

8

Аргентина, Бразилия, Индия, Индонезия, Китай, Мексика, Турция, ЮАР

3

Средний

1

Австралия

4

Выше среднего

3

Канада, США, Япония

5

Высокий

5

Великобритания, Германия, Европейский Союз, Италия, Франция

Всего

20

Спрос на энергию во всем мире растет и будет продолжать расти. Повышение энергоэффективности использования всех видов энергии является одной из приоритетных задач в мире. Как правило, это обусловлено высоким уровнем энергоемкости ВВП, необходимостью модернизации экономики, повышения конкурентоспособности промышленности и улучшения состояния окружающей среды.

 
Если Вы заметили ошибку в тексте выделите слово и нажмите Shift + Enter
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 

Популярные страницы