20.2.3 Иерархический кластерный анализ с предварительным факторным анализом
Рассмотрим пример из области географии. В 28 европейских странах в 1985 году были собраны следующие данные, выступающие здесь в качестве переменных:
Переменная
|
Значение
|
land
|
Страна
|
sb
|
Процент городского населения
|
lem
|
Средняя продолжительность жизни мужчин
|
lew
|
|
ks
|
Детская смертность на 1000 новорожденных
|
so
|
Количество часов ясной погоды в году
|
nt
|
Количество дней пасмурной погоды в году
|
tjan
|
Средняя дневная температура в январе
|
tjul
|
Средняя дневная температура в июле
|
Эти данные вы увидите, если откроете файл europa.sav. Переменная land является текстовой переменной, предназначенной для обозначения страны.
Целью нашего кластерного анализа является нахождение стран с похожими свойствами. При самом общем рассмотрении переменных (от непосредственного указания стран мы здесь воздержимся) становится заметным, что данные, содержащиеся в файле связаны исключительно с ожидаемой продолжительностью жизни или с климатом. Лишь процентный показатель населения, проживающего в городах, не вписывается в эти рамки. Стало быть, сходства, которые возможно будут найдены между некоторыми странами, основываются на продолжительности жизни и климате этих стран.
Исходя из вышесказанного, в данном случае перед проведением кластерного анализа рекомендуется сократить количество переменных. Подходящим методом для этого является факторный анализ (см. гл. 19), который вы можете провести, выбрав в меню Analyze (Анализ) Data Reduction (Преобразование данных) Factor... (Факторный анализ)
Если Вы проведёте факторный анализ и примените, к примеру, вращение по методу варимакса, то получите два фактора. В первый фактор войдут переменные: lem. lew, ks и sb, а во второй фактор - переменные: so, nt, tjan и tjul. Первый фактор однозначно характеризует продолжительность жизни, причём высокое значение фактора означает высокую продолжительность жизни, а второй отражает климатические условия; здесь высокие значения означают тёплый и сухой климат. Вместе с тем, Вы наверняка заметили, что в первый фактор интегрирована и переменная sb, что очевидно указывает на высокую ожидаемую продолжительность жизни при высоких процентных долях городского населения. Вы можете рассчитать факторные значения для этих двух факторов и добавить их к файлу под именами fac1_1 и fac2_1. Чтобы Вам не пришлось самостоятельно проводить факторный анализ на этом этапе, указанные переменные уже включены в файл europa.sav. Вы можете видеть, к примеру, что высокой продолжительностью жизни обладают северные страны (высокие значения переменной fac1_1) или южные страны с тёплым и сухим климатом (высокие значения переменной fac2_1). Факторные значения можно вывести с помощью меню Analyze (Анализ) Reports (Отчёты) Case Summaries... (Итоги по наблюдениям)
Они выглядят следующим образом:
Case Summaries a (Итоги по наблюдениям)
|
LAND (Страна)
|
Lebenserwartung (Ожидаемая продолжительность жизни)
|
Klima (Климат)
|
1
|
ALBA
|
-1,78349
|
,57155
|
2
|
BELG
|
,55235
|
-,57937
|
3
|
BULG
|
-,43016
|
-,13263
|
4
|
DAEN
|
,97206
|
-,23453
|
5
|
DDR
|
,26961
|
-,3351 1
|
6
|
DEUT
|
,19121
|
-,44413
|
7
|
FINN
|
-,30226
|
-1,28467
|
8
|
FRAN
|
1,05511
|
1,04870
|
9
|
GRIE
|
,12794
|
2,65654
|
10
|
GROS
|
,75443
|
-,05221
|
11
|
IRLA
|
,16370
|
-,66514
|
12
|
ISLA
|
1,75315
|
-,97421
|
13
|
ITAL
|
,40984
|
1,68933
|
14
|
JUGO
|
-2,63161
|
-,44127
|
15
|
LUXE
|
-.16469
|
-,98618
|
16
|
NIED
|
1,31001
|
-,29362
|
17
|
NORW
|
,96317
|
-,46987
|
18
|
OEST
|
-,20396
|
-,31971
|
19
|
POLE
|
-,65937
|
-,92081
|
20
|
PORT
|
-1,10510
|
1,59478
|
21
|
RUMA
|
-1,32450
|
,09481
|
22
|
SCHD
|
1,22645
|
-,20543
|
23
|
SCHZ
|
, 56289
|
-,45454
|
24
|
SOWJ
|
-,67091
|
-1,32517
|
25
|
SPAN
|
, 83627
|
1,91193
|
26
|
TSCH
|
-,59407
|
-,40632
|
27
|
TUER
|
-,52049
|
1,04424
|
28
|
UNGA
|
-,75761
|
-,08695
|
Total N
|
28
|
28
|
28
|
a. Limited to first 100 cases (Ограничено первыми 100 наблюдениями).
Распределим эти 28 стран по кластерам при помощи двух факторов: ожидаемая продолжительность жизни и климат.
-
Выберите в меню Analyze (Анализ) Classify (Классифицировать) Hierarchical Cluster... (Иерархический кластерный анализ)
-
Переменные fac1_1 и fac2_1 поместите в поле тестируемых переменных, а переменную land (страна) — в поле с именем Label cases by: (Наименование (маркировка) наблюдений).
-
После прохождения выключателя Statistics... (Статистики), наряду с таблицей порядка агломерации сделайте запрос на вывод информации о принадлежности к кластеру для наблюдений. Активируйте Range of solutions: (Область решений) и введите граничные значения 2 и 5.
-
Для сохранения информации о принадлежности отдельных наблюдений к кластеру в виде дополнительных переменных, воспользуйтесь выключателем Save... (Сохранить). В соответствии с установками, произведенными в диалоговом окне статистики, активируйте и здесь Range of solutions: (Область решений) и введите граничные значения 2 и 5.
-
Деактивируйте вывод дендрограмм. Так как переменные, используемые в данном кластерном анализе, являются факторными значениями с одинаковыми областями допустимых значений, то стандартизация (z-преобразование) значений является излишней.
Agglomeration Schedule
(Порядок агломерации)
|
Stage (Шаг)
|
Cluster Combined (Объединение в кластеры)
|
Coefficients (Коэф-фициенты)
|
Stage Cluster First Appears (Шаг, на котором кластер появляется впервые)
|
Next Stage (Следу-ющий шаг)
|
Cluster 1 (Кластер 1)
|
Cluster 2 (Кластер 2)
|
Cluster 1 (Кластер 1)
|
Cluster 2 (Кластер 2)
|
1
|
16
|
22
|
1,476
|
0
|
0
|
8
|
2
|
2
|
23
|
1,569
|
0
|
0
|
10
|
3
|
5
|
6
|
1,803
|
0
|
0
|
5
|
4
|
4
|
17
|
5,546
|
0
|
0
|
8
|
5
|
5
|
11
|
8,487
|
3
|
0
|
10
|
6
|
3
|
18
|
8,617
|
0
|
0
|
12
|
7
|
7
|
15
|
,108
|
0
|
0
|
15
|
8
|
4
|
16
|
,118
|
4
|
1
|
13
|
9
|
26
|
28
|
,129
|
0
|
0
|
12
|
10
|
2
|
5
|
,148
|
2
|
5
|
18
|
11
|
19
|
24
|
,164
|
0
|
0
|
15
|
12
|
3
|
26
|
,183
|
6
|
9
|
20
|
13
|
4
|
10
|
,228
|
8
|
0
|
18
|
14
|
13
|
25
|
,231
|
0
|
0
|
19
|
15
|
7
|
19
|
,254
|
7
|
11
|
20
|
16
|
1
|
21
|
,438
|
0
|
0
|
22
|
17
|
20
|
27
|
,645
|
0
|
0
|
22
|
18
|
2
|
4
|
,648
|
10
|
13
|
21
|
19
|
8
|
13
|
,810
|
0
|
14
|
23
|
20
|
3
|
7
|
,939
|
12
|
15
|
24
|
21
|
2
|
12
|
1,665
|
18
|
0
|
24
|
22
|
1
|
20
|
1,793
|
16
|
17
|
25
|
23
|
8
|
9
|
1,839
|
19
|
0
|
27
|
24
|
2
|
3
|
2,229
|
21
|
20
|
26
|
25
|
1
|
14
|
4,220
|
22
|
0
|
26
|
26
|
1
|
2
|
5,925
|
25
|
24
|
27
|
27
|
1
|
8
|
6,957
|
26
|
23
|
0
|
Сначала приводятся самые важные результаты. В таблице порядка агломерации Вы можете проследить последовательность образования кластеров; объяснения по этому поводу приводились в разделе 20.1. Скачкообразное изменение коэффициентов наблюдается при значениях 2,229 и 4,220; это означает, что после образования четырёх кластеров больше не должно происходит ни каких объединений и решение с четырьмя кластерами является оптимальным.
Принадлежность наблюдений к кластерам можно взять из нижеследующей таблицы, которая содержит также и информацию о принадлежности к кластерам для других вариантов решения (пять, три и два кластера).
Если Вы посмотрите на четырёхкластернное решение на нижеследующей таблице, то заметите, к примеру, что к третьему кластеру относятся следующие страны: Франция, Греция, Италия и Испания. Это страны с высокой продолжительностью жизни и тёплым климатом и поэтому не зря они являются предпочтительными для отдыха.
Cluster Membership (Принадлежность к кластеру)
Case (Случай)
|
5 Clusters (5 кластеров)
|
4 Clusters (4 кластера)
|
3 Clusters (3 кластера)
|
2 Clusters (2 кластера)
|
1:ALBA
|
1
|
1
|
1
|
1
|
2:BELG
|
2
|
2
|
2
|
1
|
3:BULG
|
3
|
2
|
2
|
1
|
4:DAEN 5:DEUT
|
2
|
2
|
2
|
1
|
6:DDR
|
2
|
2
|
2
|
1
|
7:FINN
|
3
|
2
|
-3
|
2
|
8:FRAN
|
4
|
3
|
-3
|
2
|
9:GRIE
|
4
|
2
|
2
|
1
|
10:iGROS
|
2
|
|
2
|
1
|
11:IRLA
|
2
|
2
|
2
|
1
|
12:ISLA
|
2
|
3
|
о
|
2
|
13:ITAL
|
4
|
4
|
1
|
1
|
14:JUGO
|
5
|
2
|
2
|
1
|
1 5:LUXE
|
3
|
2
|
2
|
1
|
16:NIED
|
2
|
|
2
|
1
|
17:NORW
|
2
|
2
|
2
|
1
|
18:OEST
|
3
|
2
|
2
|
1
|
19:POLE
|
3
|
2
1
|
1
|
1
|
20:PORT
|
1
|
1
|
1
|
1
|
21:RUMA
|
1
|
2
|
|
1
|
22:SCHD 23:SCHZ
|
2
|
2
|
2
|
1
|
24:SOWJ
|
3
|
1
|
i
|
2
|
!25:SPAN
|
4
|
1
|
|
|
26:TSCH
|
3
|
1
|
1
|
1
|
27:TUER 28:UNGA
|
1
|
2
|
1
|
1
|
|
|
|