Anc3a1lisis de Cluster PDF
Anc3a1lisis de Cluster PDF
Anc3a1lisis de Cluster PDF
Universitat de València
Dpto. de Dirección de Empresas “Juan José Renau Piqueras”
1
Estas notas son una selección de aquellos textos que, bajo mi punto de vista, mejor abordan
el tema analizado. Sus autores aparecen citados al principio de cada epígrafe, y a ellos hay
que referirse cuando se citen los contenidos de estas notas. Mi única tarea ha sido la de selec-
cionar, ordenar y, en algunos casos traducir los textos originales.
2 Análisis cluster
Joaquín Aldás Manzano
El análisis cluster
Para entender esta tabla, comentaremos el caso del español (Sp) y el inglés
(E). El número de concordancias es 4, que corresponden a los números tres
(three), seis (six), siete (seven) y nueve (nine). A simple vista, ya se observa que
hay idiomas que tienen un número muy alto de concordancias, como es el caso
del inglés, el noruego y el danés y otros que se parecen muy poco a todos los
demás, como el finlandés o el húngaro. Pues bien, el análisis cluster, nos permi-
tirá analizar de una manera más objetiva estas similitudes y diferencias,
haciendo grupos de idiomas que se parecerán mucho entre sí y que diferirán lo
máximo posible unos de otros.
Gráfico 1. Dendograma
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
SP 7 -+
I 8 -+---+
FR 6 -+ +-------------------------------------------+
P 9 -----+ I
H 10 ---------+---------------------------+ I
FI 11 ---------+ I I
N 2 -+ +-----------+
DA 3 -+-------------+ I
E 1 -+ +---------------------+
DU 4 -----+---------+
G 5 -----+
Mantendremos en el desarrollo del análisis cluster, los mismos pasos que hemos
venido siguiendo en temas anteriores y que son los seis que debe seguir el
establecimiento de cualquier modelo multivariante. Ilustraremos cada uno de
ellos con la aplicación de un análisis cluster a la base de datos de ejemplo de
HATCO.
En nuestro caso de ejemplo, podemos aplicar el análisis cluster para uno de sus
usos más habituales, el establecimiento de segmentos del mercado. Trataremos
de establecer grupos de clientes de HATCO, atendiendo a la imagen que tienen
de esta empresa de acuerdo con los habituales siete atributos X1 a X7. Nuestro
objetivo es segmentar a los clientes en grupos con percepciones similares de
HATCO. Si esto se lograra se podría, por ejemplo, formular distintas estrate-
gias de comunicación para cada uno de ellos.
En nuestro caso, los análisis anteriores que hemos realizado sobre la base de
datos de HATCO, parecen confirmar la relevancia de las variables
introducidas, sin embargo, no debe descartarse eliminar alguna que no difiera
entre los grupos formados.
Debemos decir que no hay por lo general una respuesta definitiva para todas
estas preguntas y, según el procedimiento que apliquemos, puede llegarse a
resultados diferentes con la misma base de datos. Al igual que ocurría con el
análisis factorial, el análisis cluster tiene, en algunos momentos, algo más de
arte que de ciencia.
Ward, dado que al no calcular la raíz cuadrada facilita los cálculos del ordena-
dor. Estas medidas se caracterizan porque no utilizan datos estandarizados y
plantean el problema de que pueden dar soluciones muy distintas con sólo
cambiar la escala de medida de una variable determinada (pasar el tiempo de
minutos a segundos, por ejemplo). Por ello, si conceptualmente es posible,
debería estandarizarse los datos antes de aplicar este tipo de escalas, como
discutiremos más tarde.
CLUSTER x1 x2 x3 x4 x5 x6 x7
/METHOD WARD
/MEASURE= SEUCLID
/PRINT SCHEDULE
/PLOT DENDROGRAM
/SAVE CLUSTER(2,5) .
Historial de conglomeración
15 -+
20 -+
19 -+
28 -+-+
67 -+ I
90 -+ I
7 -+ +-+
49 -+ I I
97 -+ I I
66 -+-+ I
80 -+ I
38 -+ I
63 -+ +-------+
14 -+ I I
12 -+ I I
76 -+ I I
9 -+ I I
74 -+ I I
58 -+ I I
5 -+---+ I
42 -+ I
22 -+ +-----------------------------------+
55 -+-+ I I
13 -+ I I I
21 -+ +-+ I I
35 -+ I I I I
47 -+ I I I I
61 -+-+ I I I
16 -+ I I I
73 -+ I I I
29 -+ I I I
78 -+ +-------+ I
43 -+ I I
46 -+-+ I I
18 -+ I I I
92 -+ I I I
69 -+ I I I
81 -+ I I I
50 -+ +-+ I
72 -+ I I
26 -+ I I
59 -+ I I
33 -+ I I
62 -+ I I
25 -+-+ I
44 -+ I
51 -+ I
77 -+ I
1 -+ I
95 -+ I
82 -+-+ I
93 -+ I I
3 -+ I I
71 -+ +-------+ I
37 -+ I I I
48 -+ I I I
10 -+ I I I
34 -+-+ I I
30 -+ I I
53 -+ I I
31 -+ I I
57 -+ I I
65 -+ I I
79 -+-+ I I
39 -+ I +-------------------------------------+
96 -+ I I
94 -+ +---+ I
98 -+ I I I
40 -+ I I I
54 -+ I I I
45 -+-+ I I
86 -+ I I
2 -+ I I
83 -+ I I
24 -+ I I
27 -+ I I
75 -+ +---+
99 -+ I
4 -+ I
89 -+ I
56 -+ I
91 -+-+ I
23 -+ I I
32 -+ I I
85 -+ I I
87 -+-+ I
11 -+ I I
100 -+ +---+
52 -+ I
60 -+-+
6 -+ I
70 -+ I
17 -+ I
64 -+-+
8 -+
68 -+
36 -+
41 -+
84 -+
88 -+
13 Análisis cluster
Joaquín Aldás Manzano
/SAVE CLUSTER(2,5) .
luego tenemos una variable, que nos dice si un individuo pertenece al grupo 1 o
al 2. Basta que calculemos una tabla cruzada entre la pertenencia al grupo y
las variables X1 a X7 como la recogida en el cuadro 3
Media
Ward 1 Rapidez de
4,46
Method servicio
nivel de
1,58
precios
flexibilidad
8,90
de precios
Imagen del
4,93
fabricante
Servicio 2,99
Imagen de
los 2,51
vendedores
Calidad del
5,90
producto
2 Rapidez de
2,57
servicio
nivel de
3,15
precios
flexibilidad
6,89
de precios
Imagen del
5,57
fabricante
Servicio 2,84
Imagen de
los 2,82
vendedores
Calidad del
8,04
producto
14 Análisis cluster
Joaquín Aldás Manzano
QUICK CLUSTER X1 TO X7
/INITIAL = (4.46 1.58 8.90 4.93 2.99 2.51 5.90
2.57 3.15 6.89 5.57 2.84 2.82 8.04)
/CRITERIA = CLUSTERS (2)
/PRINT = CLUSTER ANOVA
/SAVE CLUSTER.
que nos ofrece los siguientes resultados. En primer lugar debemos comparar si
la solución óptima de dos cluster difiere mucho de la que obtuvimos mediante
el cluster jerárquico. El cuadro 4, nos permite comprar los dos centroides:
Conglomerado
1 2
Rapidez de
4.46 2.57
servicio
nivel de
1.58 3.15
precios
flexibilidad
8.90 6.89
de precios
Imagen del
4.93 5.57
fabricante
Servicio 2.99 2.84
Imagen de
los 2.51 2.82
vendedores
Calidad del
5.90 8.04
producto
Entrada desde el subcomando
INITIAL
15 Análisis cluster
Joaquín Aldás Manzano
Conglomerado
1 2
Rapidez de
4,38 2,57
servicio
nivel de
1,58 3,21
precios
flexibilidad
8,90 6,80
de precios
Imagen del
4,93 5,60
fabricante
Servicio 2,96 2,87
Imagen de
los 2,53 2,82
vendedores
Calidad del
5,90 8,13
producto
A simple vista se observa que los dos centroides son prácticamente idénticos,
luego el análisis cluster no jerárquico viene a confirmar que la solución que
obtuvimos con anterioridad es fiable. De todas formas, un buen indicador de la
calidad de los clusters obtenidos es si las medias de las variables en cada cluster
son significativamente distintas. En su momento indicamos que el objetivo es
que cada conglomerado sea cuanto más distinto mejor de los demás. Si las
medias de las variables no difiereran significativamente entre un grupo y otro,
estos serían muy parecidos y la calidad del análisis muy baja. El programa
efectúa un análisis de varianza que, en síntesis, viene a contrastar la hipótesis
nula de que las medias de cada variable en los dos conglomerados son las
mismas. Esta hipótesis debe poder rechazarse, por lo menos, para la mayoría de
variables. El cuadro 5 resume esta información:
16 Análisis cluster
Joaquín Aldás Manzano
ANOVA
Conglomerado Error
Media Media
cuadrática gl cuadrática gl F Sig.
Rapidez de
81,563 1 ,930 98 87,717 ,000
servicio
nivel de
66,457 1 ,766 98 86,753 ,000
precios
flexibilidad
109,637 1 ,823 98 133,175 ,000
de precios
Imagen del
11,302 1 1,178 98 9,596 ,003
fabricante
Servicio ,188 1 ,568 98 ,331 ,566
Imagen de
los 2,109 1 ,578 98 3,647 ,059
vendedores
Calidad del
123,372 1 1,280 98 96,404 ,000
producto
Las pruebas F sólo se deben utilizar con una finalidad descriptiva puesto que los
conglomerados han sido elegidos para maximizar las diferencias entre los casos en
diferentes conglomerados. Los niveles críticos no son corregidos, por lo que no pueden
interpretarse como pruebas de la hipótesis de que los centros de los conglomerados son
iguales.
Conglomerado
1 2
Rapidez de
4,38 2,57
servicio
nivel de
1,58 3,21
precios
flexibilidad
8,90 6,80
de precios
Imagen del
4,93 5,60
fabricante
Servicio 2,96 2,87
Imagen de
los 2,53 2,82
vendedores
Calidad del
5,90 8,13
producto
Conglomerado
1 2
Rapidez de
servicio 6,0 ,0
nivel de
,9 2,1
precios
flexibilidad
9,6 6,9
de precios
Imagen del
fabricante 7,8 5,4
Conglomerado
1 2
Rapidez de
4,4 2,6
servicio
nivel de
precios 1,6 3,2
flexibilidad
8,9 6,8
de precios
Imagen del
4,9 5,6
fabricante
Servicio 3,0 2,9
Imagen de
los 2,5 2,8
vendedores
Calidad del
5,9 8,1
producto
Conglomerado Error
Media Media
cuadrática gl cuadrática gl F Sig.
Rapidez de
81,563 1 ,930 98 87,717 ,000
servicio
nivel de
66,457 1 ,766 98 86,753 ,000
precios
flexibilidad
109,637 1 ,823 98 133,175 ,000
de precios
Imagen del
11,302 1 1,178 98 9,596 ,003
fabricante
Servicio ,188 1 ,568 98 ,331 ,566
Imagen de
los 2,109 1 ,578 98 3,647 ,059
vendedores
Calidad del
123,372 1 1,280 98 96,404 ,000
producto
Las pruebas F sólo se deben utilizar con una finalidad descriptiva puesto que los
conglomerados han sido elegidos para maximizar las diferencias entre los casos en
diferentes conglomerados. Los niveles críticos no son corregidos, por lo que no pueden
interpretarse como pruebas de la hipótesis de que los centros de los conglomerados son
iguales.
El último criterio para validar los cluster obtenidos, pasa por intentar determi-
nar si los sujetos que pertenecen a cada grupo, se comportan de distinta
manera respecto a variables que no se han incluido en el análisis. Es decir, si
cada conglomerado está recogiendo a grupos con características distintas, cabe
esperar que esta diferencia se traduzca en actitudes o comportamientos
también distintos en otros ámbitos. Por ejemplo, podemos plantearnos si
alguno de los dos grupos está más satisfecho que otro respecto a HATCO
(X10) y utiliza más o menos sus productos (X9). Estamos, de nuevo, ante un
análisis de varianza que plantea la hipótesis nula de que la satisfacción y el uso
es el mismo entre los dos conglomerados y cuya solución se recoge en el cuadro
8.
Cuadro 8 Análisis de varianza.
Descriptivos
Intervalo de confianza
para la media al 95%
Desviación Error Límite Límite
N Media típica típico inferior superior Mínimo Máximo
Nivel de Ward 1 50 49,880 8,552 1,209 47,450 52,310 31,0 65,0
uso Method 2 50 42,320 7,807 1,104 40,101 44,539 25,0 62,0
Total 100 46,100 8,989 ,899 44,316 47,884 25,0 65,0
nivel de Ward 1 50 5,164 ,778 ,110 4,943 5,385 3,3 6,8
satisfacción Method 2 50 4,378 ,747 ,106 4,166 4,590 3,2 6,2
Total 100 4,771 ,856 8,556E-02 4,601 4,941 3,2 6,8
20 Análisis cluster
Joaquín Aldás Manzano
ANOVA
Suma de Media
cuadrados gl cuadrática F Sig.
Nivel de Inter-grupos 1428,840 1 1428,840 21,312 ,000
uso Intra-grupos 6570,160 98 67,042
Total 7999,000 99
nivel de Inter-grupos 15,445 1 15,445 26,545 ,000
satisfacción Intra-grupos 57,021 98 ,582
Total 72,466 99
Referencias bibliográficas