El documento explica el análisis de conglomerados o análisis cluster. 1) El análisis cluster agrupa observaciones en conjuntos de variables cuantitativas en grupos homogéneos que sean diferentes entre sí. 2) Se presenta un ejemplo de clasificar 11 idiomas en grupos según su similitud numérica y se muestra un dendograma con los resultados. 3) Se describe un ejemplo de aplicar el análisis cluster para segmentar clientes de una empresa según su percepción de la misma.
0 calificaciones0% encontró este documento útil (0 votos)
62 vistas20 páginas
El documento explica el análisis de conglomerados o análisis cluster. 1) El análisis cluster agrupa observaciones en conjuntos de variables cuantitativas en grupos homogéneos que sean diferentes entre sí. 2) Se presenta un ejemplo de clasificar 11 idiomas en grupos según su similitud numérica y se muestra un dendograma con los resultados. 3) Se describe un ejemplo de aplicar el análisis cluster para segmentar clientes de una empresa según su percepción de la misma.
El documento explica el análisis de conglomerados o análisis cluster. 1) El análisis cluster agrupa observaciones en conjuntos de variables cuantitativas en grupos homogéneos que sean diferentes entre sí. 2) Se presenta un ejemplo de clasificar 11 idiomas en grupos según su similitud numérica y se muestra un dendograma con los resultados. 3) Se describe un ejemplo de aplicar el análisis cluster para segmentar clientes de una empresa según su percepción de la misma.
El documento explica el análisis de conglomerados o análisis cluster. 1) El análisis cluster agrupa observaciones en conjuntos de variables cuantitativas en grupos homogéneos que sean diferentes entre sí. 2) Se presenta un ejemplo de clasificar 11 idiomas en grupos según su similitud numérica y se muestra un dendograma con los resultados. 3) Se describe un ejemplo de aplicar el análisis cluster para segmentar clientes de una empresa según su percepción de la misma.
Descargue como PDF, TXT o lea en línea desde Scribd
Descargar como pdf o txt
Está en la página 1de 20
El anlisis cluster
J oaqun Alds Manzano
1 Universitat de Valncia Dpto. de Direccin de Empresas Juan Jos Renau Piqueras 1 Estas notas son una seleccin de aquellos textos que, bajo mi punto de vista, mejor abordan el tema analizado. Sus autores aparecen citados al principio de cada epgrafe, y a ellos hay que referirse cuando se citen los contenidos de estas notas. Mi nica tarea ha sido la de selec- cionar, ordenar y, en algunos casos traducir los textos originales. El anlisis cluster 1. Qu es el anlisis cluster? (Ferrn, 1996) Dada una muestra de observaciones en un conjunto grande de variables cuantitativas, el anlisis de conglomerados es una tcnica para agrupar a los elementos de la muestra en grupos, denominados conglomerados (clusters), de tal forma que, respecto a la distribucin de los valores de las variables, por un lado, cada conglomerado sea lo ms homogneo posible y, por otro, los conglo- merados sean muy distintos entre s. La forma ms intuitiva de entender esta definicin puede ser mediante un ejemplo tomado de Johnson y Wichern (1998). Supongamos que queremos clasificar a 11 idiomas distintos: ingls (E), noruego (N), dans (Da), holands (Du), alemn (D), espaol (Sp), italiano (I), polaco (P), hngaro (H) y finlan- ds (Fi) segn se parezcan ms o menos unos a otros. Para ello, analizamos cmo se deletrean los nmeros uno al diez en cada uno de los idiomas y tomaremos como medida de similitud cuntos de estos nmeros comienzan por la misma letra en distintos idiomas. El cuadro 1 ofrece la informacin de parti- da: Cuadro 1. Nmeros en 11 idiomas kymmenen tiz dziesiec dieci diez diz zehn tien ti ti ten yhdeksan kilenc dziewiec nove nueve neuf neun negen ni ni nine kahdeksan nyolc osiem otto ocho huit acht acht otte atte eight seitseman het siedem sette siete sept sieben zeven syv sju seven kuusi hat szesc sei seis six sechs zes seks seks six viisi ot piec cinque cinco cinq funf vijf fem fem five neua negy cztery quattro cuatro quatre vier vier fire fire four kolme harom trzy tre tres trois drei drie tre tre three kaksi ketto dwa due dos deux zwei twee to to two yksi egy jeden uno uno un eins een en en one FI H P I SP FR G DU DA N E y el cuadro 2 el nmero de concordancias: Joaqun Alds Manzano Anlisis cluster 2 Cuadro 2. Nmero de primeras letras concordantes 10 2 1 1 1 1 1 1 1 1 1 FI 10 0 0 0 0 1 2 2 2 1 H 10 6 7 5 2 0 4 3 3 P 10 9 9 3 1 5 4 4 I 10 8 3 1 5 4 4 SP 10 3 1 4 4 4 FR 10 5 5 6 4 G 10 4 5 3 DU 10 9 8 DA 10 8 N 10 E FI H P I SP FR G DU DA N E Para entender esta tabla, comentaremos el caso del espaol (Sp) y el ingls (E). El nmero de concordancias es 4, que corresponden a los nmeros tres (three), seis (six), siete (seven) y nueve (nine). A simple vista, ya se observa que hay idiomas que tienen un nmero muy alto de concordancias, como es el caso del ingls, el noruego y el dans y otros que se parecen muy poco a todos los dems, como el finlands o el hngaro. Pues bien, el anlisis cluster, nos permi- tir analizar de una manera ms objetiva estas similitudes y diferencias, haciendo grupos de idiomas que se parecern mucho entre s y que diferirn lo mximo posible unos de otros. El grfico que nos permitir identificar adecuadamente estos grupos, es el llamado dendograma. El correspondiente al ejemplo que acabamos de poner es el siguiente: Joaqun Alds Manzano Anlisis cluster 3 Grfico 1. Dendograma Dendrogram using Ward Method Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ SP 7 -+ I 8 -+---+ FR 6 -+ +-------------------------------------------+ P 9 -----+ I H 10 ---------+---------------------------+ I FI 11 ---------+ I I N 2 -+ +-----------+ DA 3 -+-------------+ I E 1 -+ +---------------------+ DU 4 -----+---------+ G 5 -----+ En este dendograma podemos observar que, en un primer momento, son agrupadas entre s, por ser las lenguas ms cercanas el espaol, italiano y francs en un grupo y el noruego, dans e ingls en otro. En una segunda etapa se asocian el alemn y el holands y se une el polaco al grupo del espaol. En la medida en que queramos ser menos precisos con la clasificacin, podemos desplazarnos hacia la derecha en la escala de distancias reescaladas y, si lo hacemos, podremos agrupar al holands y alemn con el grupo del norue- go, juntar el hngaro con el finlands e incluso, incluir en un solo grupo al noruego, dans, ingls, holands, hngaro y finlands. En ltimo trmino, encontraramos un grupo con todos los idiomas juntos. Esta es una caracterstica muy importante del anlisis cluster. En un momento determinado, el investigador ha de intervenir para determinar cual es, en su opinin, el nmero de grupos ms adecuado entre que cada idioma sea un grupo en s mismo o que todos pertenezcan al mismo grupo. En el desarrollo del tema veremos como tomar esta decisin. Joaqun Alds Manzano Anlisis cluster 4 2. Un ejemplo de aplicacin del anlisis cluster (Hair, Anderson, Tatham y Black, 1995) Mantendremos en el desarrollo del anlisis cluster, los mismos pasos que hemos venido siguiendo en temas anteriores y que son los seis que debe seguir el establecimiento de cualquier modelo multivariante. Ilustraremos cada uno de ellos con la aplicacin de un anlisis cluster a la base de datos de ejemplo de HATCO. Paso 1. Objetivos del anlisis cluster El principal objetivo del anlisis cluster es dividir un conjunto de objetos en dos o mas grupos, basndose en la similitud de un conjunto de variables que los caracterizan. El uso ms tradicional del anlisis cluster ha sido el explorato- rio, es decir, pretendiendo clasificar un conjunto de objetos. Pero el anlisis cluster tambin puede utilizarse con fines confirmatorios. Si en base a los fundamentos tericos del problema que estamos analizando, podemos suponer que existe determinada estructura que siguen los individuos, sta puede compa- rarse con la que se deriva del anlisis cluster. En nuestro caso de ejemplo, podemos aplicar el anlisis cluster para uno de sus usos ms habituales, el establecimiento de segmentos del mercado. Trataremos de establecer grupos de clientes de HATCO, atendiendo a la imagen que tienen de esta empresa de acuerdo con los habituales siete atributos X1 a X7. Nuestro objetivo es segmentar a los clientes en grupos con percepciones similares de HATCO. Si esto se lograra se podra, por ejemplo, formular distintas estrate- gias de comunicacin para cada uno de ellos. La seleccin de las variables que van a incluirse en el anlisis cluster debe hacerse atendiendo tanto a cuestiones tericas como prcticas, es decir, debe basarse tanto en la revisin de la literatura sobre el tema, como en investigacio- nes pasadas. En todo caso, deben incluirse aquellas variables que: (1) caracteri- cen a los objetos que van a clasificarse y (2) estn vinculadas a los objetivos de la clasificacin. Es muy importante saber que el anlisis cluster no tiene forma de saber qu variables son relevantes y cules no (no disponemos de coeficien- tes con tests de significatividad). El anlisis cluster forma los grupos atendiendo a todas las variables. El incluir variables irrelevantes, aumenta la probabilidad de que aparezcan outliers que afecten a los resultados. Es muy importante que el investigador revise los resultados para eliminar aquellas variables que no difieran significativamente entre los grupos formados. Joaqun Alds Manzano Anlisis cluster 5 En nuestro caso, los anlisis anteriores que hemos realizado sobre la base de datos de HATCO, parecen confirmar la relevancia de las variables introducidas, sin embargo, no debe descartarse eliminar alguna que no difiera entre los grupos formados. P aso 2. Desarrollo del plan de anlisis Una vez definidos los objetivos y seleccionadas las variables, el investigador debe tomar tres decisiones antes de comenzar el proceso de anlisis: 1. Existen outliers? y si existen, deben ser eliminados? 2. Qu medida de la similitud entre los objetos debe utilizarse? 3. Deben estandarizarse los datos? Debemos decir que no hay por lo general una respuesta definitiva para todas estas preguntas y, segn el procedimiento que apliquemos, puede llegarse a resultados diferentes con la misma base de datos. Al igual que ocurra con el anlisis factorial, el anlisis cluster tiene, en algunos momentos, algo ms de arte que de ciencia. El anlisis cluster, como hemos dicho, es muy sensible a la existencia de outliers (casos que son muy distintos de otros). Los outliers pueden representar, o bien casos que de verdad difieren de la media de la poblacin, o bien que en nuestro proceso de seleccin muestral hemos infrarrepresentado un segmento de pobla- cin determinado. Un procedimiento habitual de deteccin es la distancia D 2 de Mahalanobis, que es una medida de la distancia en un espacio multidimensional de cada observa- cin del centro (media) de todas las observaciones. Esta medida tiene propieda- des estadsticas que permiten analizar la significatividad de las diferencias detectadas. Se recomienda ser muy exigente en el nivel de significacin exigido para clasificar a una observacin como outlier: 0.01. Otra alternativa es recurrir a grficos que representen los valores que toman cada variable en los distintos casos y ver si existe alguno con patrones muy distintos, pero para un nmero importante de casos, este procedimiento puede ser farragoso. La siguiente decisin es elegir la medida de similaridad que vaya a utilizarse. Hemos dicho que dos objetos se podrn en un mismo grupo si estn cerca uno de otro respecto a las variables que empleemos. Pero esa distancia debe ser medida de alguna manera. Existen muchas medidas de la distancia. La ms comn es la distancia eucldea o variaciones de la misma como la distancia eucldea al cuadrado que es la recomendada en algunos mtodos como el de Joaqun Alds Manzano Anlisis cluster 6 Ward, dado que al no calcular la raz cuadrada facilita los clculos del ordena- dor. Estas medidas se caracterizan porque no utilizan datos estandarizados y plantean el problema de que pueden dar soluciones muy distintas con slo cambiar la escala de medida de una variable determinada (pasar el tiempo de minutos a segundos, por ejemplo). Por ello, si conceptualmente es posible, debera estandarizarse los datos antes de aplicar este tipo de escalas, como discutiremos ms tarde. Existe otra medida de distancia, la distancia de Mahalanobis que incorpora directamente un procedimiento de estandarizacin de los datos. Tiene el problema, sin embargo, de que en caso de que exista un grupo de variables muy correlacionadas, estas tengan un peso desproporcionado en la formacin de los grupos. En general, la recomendacin es que, dado que distintas medidas de distancia pueden conducir a diferentes resultados del anlisis cluster, deben emplearse varias y comparar los resultados buscando los que sean conceptualmente ms coherentes. En el caso de que no se detecten correlaciones significativas entre grupos de variables, la distancia de Mahalanobis es muy recomendable. La tercera decisin que debe adoptarse, y que ya hemos apuntado, es si deben o no estandarizarse los datos antes de aplicar el anlisis cluster. Recordemos que muchas medidas de distancias son muy sensibles a variaciones de escala o magnitud entre variables. As, por ejemplo, si quisiramos agrupar a los indivi- duos por su edad, nivel de ingresos y actitud hacia un producto (medido en una escala de 1 a 7), la mayor dispersin provendra del nivel de ingresos y ocultara las diferencias de edad y de actitud hacia el producto. La forma ms lgica de proceder es estandarizar las variables, es decir, restarles a cada una de las puntuaciones su media y dividir por la desviacin tpica. En nuestro ejemplo de HATCO no tiene sentido utilizar la distancia de Mahalanobis porque ya detectamos elevadas correlaciones entre algunas varia- bles y no hemos aplicado ningn tipo de estandarizacin, porque todas ellas estaban medidas en una misma escala, como vimos en el primer tema. Paso 3. Condiciones de aplicabilidad del anlisis cluster El anlisis cluster, no pretende inferir resultados de una muestra hacia una poblacin, sino slamente agrupar objetivamente por similitud los casos que estemos investigando. Por tanto, aunque tiene fundamentos matemticos Joaqun Alds Manzano Anlisis cluster 7 complejos, no son demasiado relevantes las propiedades estadsticas de normali- dad, linealidad y homoscedasticidad. El investigador, por el contrario, debe prestar especial atencin a otros dos aspectos: la representatividad de la muestra y la multicolinealidad. El investigador debe ser consciente de que un anlisis cluster es tan bueno como representativa sea la muestra a la que se ha aplicado, por lo tanto debe prestarse tanta atencin como sea posible a llevar a cabo un muestreo adecua- do. La eliminacin de outliers, es tambin muy importante para un buen anli- sis cluster. La multicolinealidad afecta muchsimo a los resultados porque, como hemos indicado, aquellas variables que estn afectadas de esta propiedad tendrn una influencia mayor en el establecimiento de los grupos. Vemoslo con un ejemplo. Supongamos que queremos clasificar a una poblacin atendiendo a diez varia- bles, ocho de las cuales tienen mucho que ver unas con otras (llevando el ejemplo al extremo: el nivel de estudios y el nmero de aos de estudio...) y las otras dos son independientes de las anteriores. Como el anlisis cluster pondera a todas las variables por igual, el grupo de ocho, que no estn midiendo ocho cosas distintas, sino la misma realidad, tendrn un peso muy superior a las otras dos. Por este motivo el investigador debe cuidar de analizar la multicoli- nealidad, tal y como describimos en el tema 1 y cuidarse de utilizar medidas de distancia muy sensibles a esta propiedad, como la de Mahalanobis. En nuestro ejemplo, supusimos que la muestra de encuestados de HATCO estaba seleccionada correctamente y, como vimos en el tema 1, no se detecta- ron problemas de multicolinealidad significativos. Paso 4. Estimacin del modelo y ajuste global. Para comenzar el proceso de agrupacin en el anlisis cluster, es necesario elegir entre los distintos procedimientos disponibles, y esta no es una decisin sencilla, porque existen muchsimos. El criterio general de todos ellos es maximizar la distancia entre los grupos que se formen y minimizar la distancia entre los distintos elementos de cada grupo, como se ilustra en la figura 2. Joaqun Alds Manzano Anlisis cluster 8 Figura 2 Ejemplo de distancias intra y entre clusters
Vari aci n entre cl usters Vari aci n i ntra cl usters En los mtodos jerrquicos, el anlisis comienza con tantos conglomerados como individuos (cada individuo es un conglomerado inicial). A partir de estas unidades iniciales se van formando nuevos conglomerados de forma ascendente agrupando en cada etapa a los individuos de los dos conglomerados ms prxi- mos. Al final del proceso todos los individuos estarn agrupados en un nico conglomerado. La diferencia entre los diversos mtodos reside en la distancia considerada para medir la proximidad entre conglomerados. Como ejemplo, en el promedio entre grupos se define la distancia entre dos conglomerados como el promedio de las distancias entre todos los pares de individuos, en los que cada componente del par pertenece a un conglomerado distinto. Si el nmero de individuos y variables es muy alto, requiere un nmero de clculos muy elevados. En los mtodos no jerrquicos, primero se determina el nmero de cluster que se desea. As, una solucin de seis cluster no se forma al agrupar dos cluster de la solucin de siete, sino que se busca la mejor solucin de seis clusters. Estos mtodos necesitan que se les diga cual es el centroide inicial de cada conglome- rado y el programa incluye todos los individuos que estn a una distancia preestablecida de ese centro. A continuacin se calcula de nuevo el centro del conglomerado con los individuos que se le han sumado y vuelve a incluir a los individuos que estn a la distancia fijada. El procedimiento se detiene cuando se d alguno de los criterios de parada. El principal problema de estos mtodos es cmo seleccionar el centroide inicial. Joaqun Alds Manzano Anlisis cluster 9 Qu metodo utilizar? la recomendacin general es: ambos. Primero utilicemos un mtodo jerrquico para establecer el nmero de clusters, una aproximacin de los centroides y detectar los outliers. A continuacin con esta informacin de partida se puede llevar a cabo un anlisis no jerrquico. La ltima decisin era decidir cuntos conglomerados elegir. Ya se ha dicho que no hay una solucin objetiva, sino que depende del criterio del investigador y este criterio suele indicar: aquella solucin que sea ms coherente con la lgica o los fundamentos tericos del problema. Apliquemos lo expuesto al ejemplo de HATCO. En primer lugar llevaremos a cabo un anlisis jerrquico mediante la siguiente sintaxis: CLUSTER x1 x2 x3 x4 x5 x6 x7 /METHOD WARD /MEASURE= SEUCLID /PRINT SCHEDULE /PLOT DENDROGRAM /SAVE CLUSTER(2,5) . La primera salida que obtenemos es el historial de conglomeracin que debe leerse de la siguiente forma: en primer lugar, ha combinado los casos 15 y 20 y que no volver a agruparse con otro hasta la etapa 60 en que se junta con el 19. En segundo lugar se han unido los casos 5 y 42 que en la etapa 94 se han juntado con el caso nmero 7 y as sucesivamente. El historial nos proporciona un coeficiente que, si toma un valor pequeo, indica que los casos que se han unido eran parecidos y, por ello, no ha sido necesario realizar un gran esfuerzo para unirlos. Cuando este coeficiente aumenta, quiere decir que la unin es ms artificial. La mejor forma de visualizar este historial de conglomeracin, es mediante el dendograma, que aparece en la siguiente figura. Joaqun Alds Manzano Anlisis cluster 10 15 20 ,000 0 0 60 5 42 ,005 0 0 94 24 27 ,010 0 0 74 47 61 ,020 0 0 78 19 28 ,040 0 0 60 67 90 ,070 0 0 39 18 92 ,105 0 0 65 51 77 ,140 0 0 72 33 62 ,175 0 0 63 36 41 ,210 0 0 45 85 87 ,260 0 0 69 65 79 ,310 0 0 68 43 46 ,360 0 0 76 25 44 ,410 0 0 63 38 63 ,475 0 0 54 69 81 ,555 0 0 52 94 98 ,650 0 0 73 56 91 ,745 0 0 66 50 72 ,840 0 0 52 75 99 ,950 0 0 62 16 73 1,060 0 0 61 37 48 1,170 0 0 58 1 95 1,291 0 0 72 11 100 1,416 0 0 69 4 89 1,556 0 0 62 84 88 1,696 0 0 45 2 83 1,836 0 0 82 29 78 1,976 0 0 61 3 71 2,116 0 0 75 23 32 2,256 0 0 66 17 64 2,446 0 0 83 12 76 2,661 0 0 67 8 68 2,876 0 0 70 9 74 3,141 0 0 55 52 60 3,431 0 0 57 10 34 3,766 0 0 43 26 59 4,116 0 0 64 49 97 4,536 0 0 81 7 67 5,006 0 6 77 13 21 5,526 0 0 51 82 93 6,051 0 0 91 40 54 6,576 0 0 53 10 30 7,108 36 0 50 66 80 7,643 0 0 59 36 84 8,200 10 26 70 22 55 8,760 0 0 71 6 70 9,420 0 0 57 45 86 10,250 0 0 53 39 96 11,090 0 0 68 10 53 11,976 43 0 56 13 35 13,036 40 0 71 50 69 14,479 19 16 65 40 45 15,981 42 48 73 14 38 17,570 0 15 59 9 58 19,225 34 0 67 10 31 21,272 50 0 58 6 52 23,527 47 35 88 10 37 25,880 56 22 75 14 66 28,256 54 44 80 15 19 30,716 1 5 77 16 29 33,191 21 28 78 4 75 35,726 25 20 74 25 33 38,548 14 9 64 25 26 41,579 63 37 84 18 50 44,890 7 52 76 23 56 48,557 30 18 87 9 12 52,290 55 32 80 39 65 56,225 49 12 89 11 85 60,263 24 11 87 8 36 64,375 33 45 83 13 22 68,591 51 46 90 1 51 73,077 23 8 84 40 94 77,881 53 17 85 4 24 82,779 62 3 82 3 10 88,128 29 58 79 18 43 93,517 65 13 92 7 15 98,971 39 60 86 16 47 104,829 61 4 90 3 57 111,619 75 0 91 9 14 118,524 67 59 81 9 49 126,001 80 38 86 2 4 134,767 27 74 85 8 17 143,869 70 31 88 1 25 156,705 72 64 92 2 40 170,246 82 73 89 7 9 185,576 77 81 94 11 23 201,096 69 66 93 6 8 218,427 57 83 93 2 39 236,097 85 68 96 13 16 258,717 71 78 95 3 82 281,415 79 41 97 1 18 305,053 84 76 95 6 11 333,106 88 87 96 5 7 364,923 2 86 98 1 13 398,113 92 90 98 2 6 446,314 89 93 97 Etapa 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 Conglomerado 1 Conglomerado 2 Conglomerado que se combina Coeficientes Conglomerado 1 Conglomerado 2 Etapa en la que el conglomerado aparece por primera vez Prxima etapa Historial de conglomeracin Joaqun Alds Manzano Anlisis cluster 11 Figura 5.2. Dendograma * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 15 -+ 20 -+ 19 -+ 28 -+-+ 67 -+ I 90 -+ I 7 -+ +-+ 49 -+ I I 97 -+ I I 66 -+-+ I 80 -+ I 38 -+ I 63 -+ +-------+ 14 -+ I I 12 -+ I I 76 -+ I I 9 -+ I I 74 -+ I I 58 -+ I I 5 -+---+ I 42 -+ I 22 -+ +-----------------------------------+ 55 -+-+ I I 13 -+ I I I 21 -+ +-+ I I 35 -+ I I I I 47 -+ I I I I 61 -+-+ I I I 16 -+ I I I 73 -+ I I I 29 -+ I I I 78 -+ +-------+ I 43 -+ I I 46 -+-+ I I 18 -+ I I I 92 -+ I I I 69 -+ I I I 81 -+ I I I 50 -+ +-+ I 72 -+ I I 26 -+ I I 59 -+ I I 33 -+ I I 62 -+ I I 25 -+-+ I 44 -+ I 51 -+ I 77 -+ I 1 -+ I 95 -+ I 82 -+-+ I 93 -+ I I 3 -+ I I 71 -+ +-------+ I 37 -+ I I I 48 -+ I I I 10 -+ I I I 34 -+-+ I I 30 -+ I I 53 -+ I I 31 -+ I I 57 -+ I I 65 -+ I I 79 -+-+ I I 39 -+ I +-------------------------------------+ 96 -+ I I 94 -+ +---+ I 98 -+ I I I 40 -+ I I I 54 -+ I I I 45 -+-+ I I 86 -+ I I 2 -+ I I 83 -+ I I 24 -+ I I 27 -+ I I 75 -+ +---+ 99 -+ I 4 -+ I 89 -+ I 56 -+ I 91 -+-+ I 23 -+ I I 32 -+ I I 85 -+ I I 87 -+-+ I 11 -+ I I 100 -+ +---+ 52 -+ I 60 -+-+ 6 -+ I 70 -+ I 17 -+ I 64 -+-+ 8 -+ 68 -+ 36 -+ 41 -+ 84 -+ 88 -+ Joaqun Alds Manzano Anlisis cluster 12 Analizando este dendograma vemos que la solucin natural es la de dos grupos, dado que a una distancia bastante cercana aparecen estas dos agrupaciones que, adems, deben ser muy distintas puesto que slo se agrupan en una a una distancia mucho mayor. Dado que para pasar ahora al cluster no jerrquico, necesitamos informar al programa de cules son los centroides iniciales de esos dos grupos (es decir la media en los dos grupos de las siete variables que hemos utilizado en el cluster), necesitamos obtener esta informacin. Como se ve en la sintaxis, hemos pedido al programa que nos guarde en una variable a cul de los dos grupos pertenece cada sujeto (realmente le hemos pedido que nos guarde el rango de soluciones desde dos grupos hasta cinco): /SAVE CLUSTER(2,5) . luego tenemos una variable, que nos dice si un individuo pertenece al grupo 1 o al 2. Basta que calculemos una tabla cruzada entre la pertenencia al grupo y las variables X1 a X7 como la recogida en el cuadro 3 Cuadro 3 Medias de X1 a X7 en cada conglomerado 4,46 1,58 8,90 4,93 2,99 2,51 5,90 2,57 3,15 6,89 5,57 2,84 2,82 8,04 Rapidez de servicio nivel de precios flexibilidad de precios Imagen del fabricante Servicio Imagen de los vendedores Calidad del producto Rapidez de servicio nivel de precios flexibilidad de precios Imagen del fabricante Servicio Imagen de los vendedores Calidad del producto 1 2 Ward Method Media Joaqun Alds Manzano Anlisis cluster 13 Pues bien, con esa informacin alimentamos el cluster no jerrquico mediante la siguiente sintaxis: QUICK CLUSTER X1 TO X7 /INITIAL = (4.46 1.58 8.90 4.93 2.99 2.51 5.90 2.57 3.15 6.89 5.57 2.84 2.82 8.04) /CRITERIA = CLUSTERS (2) /PRINT = CLUSTER ANOVA /SAVE CLUSTER. que nos ofrece los siguientes resultados. En primer lugar debemos comparar si la solucin ptima de dos cluster difiere mucho de la que obtuvimos mediante el cluster jerrquico. El cuadro 4, nos permite comprar los dos centroides: Cuadro 4 Centroidejerrquico y no jerrquico 4.46 2.57 1.58 3.15 8.90 6.89 4.93 5.57 2.99 2.84 2.51 2.82 5.90 8.04 Rapidez de servicio nivel de precios flexibilidad de precios Imagen del fabricante Servicio Imagen de los vendedores Calidad del producto 1 2 Conglomerado Centros iniciales de los conglomerados Entrada desde el subcomando INITIAL Joaqun Alds Manzano Anlisis cluster 14 4,38 2,57 1,58 3,21 8,90 6,80 4,93 5,60 2,96 2,87 2,53 2,82 5,90 8,13 Rapidez de servicio nivel de precios flexibilidad de precios Imagen del fabricante Servicio Imagen de los vendedores Calidad del producto 1 2 Conglomerado Centros de los conglomerados finales A simple vista se observa que los dos centroides son prcticamente idnticos, luego el anlisis cluster no jerrquico viene a confirmar que la solucin que obtuvimos con anterioridad es fiable. De todas formas, un buen indicador de la calidad de los clusters obtenidos es si las medias de las variables en cada cluster son significativamente distintas. En su momento indicamos que el objetivo es que cada conglomerado sea cuanto ms distinto mejor de los dems. Si las medias de las variables no difiereran significativamente entre un grupo y otro, estos seran muy parecidos y la calidad del anlisis muy baja. El programa efecta un anlisis de varianza que, en sntesis, viene a contrastar la hiptesis nula de que las medias de cada variable en los dos conglomerados son las mismas. Esta hiptesis debe poder rechazarse, por lo menos, para la mayora de variables. El cuadro 5 resume esta informacin: Joaqun Alds Manzano Anlisis cluster 15 Cuadro 5. Diferencias de medias de cada variable en los dos conglomerados 81,563 1 ,930 98 87,717 ,000 66,457 1 ,766 98 86,753 ,000 109,637 1 ,823 98 133,175 ,000 11,302 1 1,178 98 9,596 ,003 ,188 1 ,568 98 ,331 ,566 2,109 1 ,578 98 3,647 ,059 123,372 1 1,280 98 96,404 ,000 Rapidez de servicio nivel de precios flexibilidad de precios Imagen del fabricante Servicio Imagen de los vendedores Calidad del producto Media cuadrtica gl Conglomerado Media cuadrtica gl Error F Sig. ANOVA Las pruebas F slo se deben utilizar con una finalidad descriptiva puesto que los conglomerados han sido elegidos para maximizar las diferencias entre los casos en diferentes conglomerados. Los niveles crticos no son corregidos, por lo que no pueden interpretarse como pruebas de la hiptesis de que los centros de los conglomerados son iguales. Analizando los valores p, se observa que solamente la variable X5 (y en el extremo la X6) no presentan diferencias significativas entre los dos cluster, luego la calidad del anlisis efectuado se confirma. Paso 5. I nterpretacion de los conglomerados La interpretacin de los conglomerados debe hacerse atendiendo a qu valores medios toman en cada uno de ellos las variables que se han utilizado para caracterizarlos (X1 a X7) que, recordemos, recogamos en la siguiene tabla: Joaqun Alds Manzano Anlisis cluster 16 4,38 2,57 1,58 3,21 8,90 6,80 4,93 5,60 2,96 2,87 2,53 2,82 5,90 8,13 Rapidez de servicio nivel de precios flexibilidad de precios Imagen del fabricante Servicio Imagen de los vendedores Calidad del producto 1 2 Conglomerado Centros de los conglomerados finales Si eliminamos del anlisis la variable X5 (Servicio) que hemos visto que no presenta resultados distintos en los dos conglomerados, y nos centramos en las dems, podremos concluir que el conglomerado 1 est formado por aquellos clientes que prestan especial atencin, respecto al segundo, a la rapidez del servicio y la flexibilidad de precios. Por el contrario, el conglomerado 2 enfatiza el nivel de precios, la imagen del fabricante y la de los vendedores y la calidad del producto. P aso 6. Validacin del modelo La validacin del modelo pasa por que el investigador se asegure de que la solucin es representativa de la poblacin y que ser aplicable a otros indivi- duos que no estn en la muestra y ser estable en el tiempo. La forma habitual de contrastar este hecho, es llevar a cabo otro anlisis no jerrquico, pero no indicndole al programa el centroide de partida, sino dejando que este lo establezca aleatoriamente. Si el anlisis es robusto, la solucin final no debera diferir de la que se ha obtenido con anterioridad. El cuadro 6, recoge el centroide de partida establecido aleatoriamente y la solucin a la que llega el programa partiendo de l. Joaqun Alds Manzano Anlisis cluster 17 Cuadro 6. Nuevo anlisis no jerrquico 6,0 ,0 ,9 2,1 9,6 6,9 7,8 5,4 3,4 1,1 4,6 2,6 4,5 8,9 Rapidez de servicio nivel de precios flexibilidad de precios Imagen del fabricante Servicio Imagen de los vendedores Calidad del producto 1 2 Conglomerado Centros iniciales de los conglomerados 4,4 2,6 1,6 3,2 8,9 6,8 4,9 5,6 3,0 2,9 2,5 2,8 5,9 8,1 Rapidez de servicio nivel de precios flexibilidad de precios Imagen del fabricante Servicio Imagen de los vendedores Calidad del producto 1 2 Conglomerado Centros de los conglomerados finales Puede comprobarse que, aunque los centroides de partida son radicalmente distintos, los centroides finales son prcticamente idnticos y, adems, el anli- sis de varianza recogido en el cuadro 7 vuelve a confirmar que las medias son significativament distintas si descontamos el caso de X5 Joaqun Alds Manzano Anlisis cluster 18 Cuadro 7 Anlisis de varianza 81,563 1 ,930 98 87,717 ,000 66,457 1 ,766 98 86,753 ,000 109,637 1 ,823 98 133,175 ,000 11,302 1 1,178 98 9,596 ,003 ,188 1 ,568 98 ,331 ,566 2,109 1 ,578 98 3,647 ,059 123,372 1 1,280 98 96,404 ,000 Rapidez de servicio nivel de precios flexibilidad de precios Imagen del fabricante Servicio Imagen de los vendedores Calidad del producto Media cuadrtica gl Conglomerado Media cuadrtica gl Error F Sig. ANOVA Las pruebas F slo se deben utilizar con una finalidad descriptiva puesto que los conglomerados han sido elegidos para maximizar las diferencias entre los casos en diferentes conglomerados. Los niveles crticos no son corregidos, por lo que no pueden interpretarse como pruebas de la hiptesis de que los centros de los conglomerados son iguales. El ltimo criterio para validar los cluster obtenidos, pasa por intentar determi- nar si los sujetos que pertenecen a cada grupo, se comportan de distinta manera respecto a variables que no se han incluido en el anlisis. Es decir, si cada conglomerado est recogiendo a grupos con caractersticas distintas, cabe esperar que esta diferencia se traduzca en actitudes o comportamientos tambin distintos en otros mbitos. Por ejemplo, podemos plantearnos si alguno de los dos grupos est ms satisfecho que otro respecto a HATCO (X10) y utiliza ms o menos sus productos (X9). Estamos, de nuevo, ante un anlisis de varianza que plantea la hiptesis nula de que la satisfaccin y el uso es el mismo entre los dos conglomerados y cuya solucin se recoge en el cuadro 8. Cuadro 8 Anlisis de varianza. 50 49,880 8,552 1,209 47,450 52,310 31,0 65,0 50 42,320 7,807 1,104 40,101 44,539 25,0 62,0 100 46,100 8,989 ,899 44,316 47,884 25,0 65,0 50 5,164 ,778 ,110 4,943 5,385 3,3 6,8 50 4,378 ,747 ,106 4,166 4,590 3,2 6,2 100 4,771 ,856 8,556E-02 4,601 4,941 3,2 6,8 1 2 Total Ward Method 1 2 Total Ward Method Nivel de uso nivel de satisfaccin N Media Desviacin tpica Error tpico Lmite inferior Lmite superior Intervalo de confianza para la media al 95% Mnimo Mximo Descriptivos Joaqun Alds Manzano Anlisis cluster 19 1428,840 1 1428,840 21,312 ,000 6570,160 98 67,042 7999,000 99 15,445 1 15,445 26,545 ,000 57,021 98 ,582 72,466 99 Inter-grupos Intra-grupos Total Inter-grupos Intra-grupos Total Nivel de uso nivel de satisfaccin Suma de cuadrados gl Media cuadrtica F Sig. ANOVA Se comprueba que el grupo 1 tiene un mayor nivel uso de los productos de HATCO (49,88) que el 2 (42,30) y de satisfaccin (5,16 frente a 4.37) y que, adems ambas diferencias son significativas (p<0.01). Este resultado tiene importantes implicaciones para HATCO que deber mejorar los factores que han sido peor valorado por el grupo 2, dado que es un grupo menos satisfecho, concretamente, X1 y X3. Referencias bibliogrficas FERRN, M. (1996): SPSS para Windows. Programacin y anlisis estadstico. Madrid: McGraw-Hill. HAIR, J.F.; ANDERSON, R.E.; TATHAM, R.L. Y BLACK, W. (1995): Multivariate Data Analysis. 4 Edicin. Englewood Cliffs: Prentice Hall. JOHNSON, R.A. Y WICHERN, D. W. (1998): Applied Multivariate Statistical Analysis. 4 Edicin. Englewood Cliffs: Prentice Hall. Joaqun Alds Manzano Anlisis cluster 20