Libro Analisis Multivariante Repositorio
Libro Analisis Multivariante Repositorio
Libro Analisis Multivariante Repositorio
PYDLOS Ediciones
ISBN: 978-9978-14-315-5
Derecho de autor: CUE-2347
Diseo Portada: scar Santacreu
Diagramacin: Patricia Barbero
Correccin de estilo: Mara Eugenia Estrella
Impresin: Editorial Don Bosco-Centro Grfico Salesiano - Telf.: 2831745
Tiraje: 300
Impreso en Ecuador - Printed in Ecuador
2015
Este libro ha sido debidamente examinado y valorado por evaluadores ajenos a PYDLOS EDICIONES,
con el fin de garantizar la calidad cientfica del mismo.
Edicin corregida, revisada y ampliada del texto El anlisis de la realidad social, para servir de referencia
durante el Curso de formacin de Posgrado: Investigacin Aplicada en Ciencias Sociales: Tcnicas de
produccin de datos y anlisis, actividad acadmica organizada por el Grupo de investigacin PYDLOS del
Departamento de Investigacin Espacio y Poblacin, en coordinacin con las Facultades de Ciencias
Econmicas y Administrativas, Jurisprudencia, Psicologa, Filosofa Letras y Ciencias de la Educacin,
y con aval de la DIUC de la Universidad de Cuenca.
NDICE
PRESENTACIN ....................................................................................... 9
1. LA INVESTIGACIN SOCIAL Y LA MEDICIN ........................... 11
2. LA SIMILITUD Y LA DIFERENCIA ................................................. 15
2.1. LOS DIFERENTES TIPOS DE NDICES Y SU MEDICIN ............................... 22
2.1.1. Datos expresando nivel de medicin de intervalo .......................... 23
2.1.2. Datos expresando nivel de medicin ordinal y rangos .................. 33
2.1.3. Datos expresando nivel de medicin recuentos .............................. 33
2.1.4. Datos expresando nivel de medicin binario ................................. 34
2.2. EjEMPLOS EN SPSS Y SYSTAT ........................................................... 43
3. EL ANLISIS DE CONGLOMERADOS ........................................... 49
3.1. MTODOS DE VINCULACIN, DISTRIbUCIONALES Y DE DENSIDAD .......... 51
3.2. MTODOS jERRqUICOS ....................................................................... 57
3.2.1. Procedimientos de validacin de los clsteres ............................... 63
3.2.1.1. Anlisis de la varianza de un factor ............................................. 64
3.2.1.2. ndices de validacin de clsteres ................................................ 68
3.2.2. La agrupacin de casos mediante mtodos jerrquicos ................ 72
3.2.3. Agrupacin de variables mediante mtodos jerrquicos ............... 79
3.2.4. La conglomeracin de variables y casos ........................................ 83
3.2.5. Ejemplos en SPSS y SYSTAT ........................................................... 84
3.3. MTODOS NO jERRqUICOS PARA LA FORMACIN DE
CONGLOMERADOS ................................................................................. 94
3.3.1. Conglomerados mediante k-medias y k-medianas ......................... 95
3.3.2. Ejemplos en SPSS y SYSTAT ......................................................... 101
4. EL ANLISIS FACTORIAL .............................................................. 107
4.1. EL MODELO MATEMTICO ................................................................... 111
4.2. DIAGNSTICOS DE PERTINENCIA DEL ANLISIS FACTORIAL .................. 113
PRESENTACIN
Durante aos, el Programa Interdisciplinario de Poblacin y Desarrollo Local
Sustentable (PYDLOS) de la Universidad de Cuenca (Ecuador), y el grupo
de ObETS, del Instituto de Desarrollo Social y Paz de la Universidad de Alicante (Espaa) vienen manteniendo una estrecha colaboracin en docencia
e investigacin.
Esta alianza ha sido posible gracias a la intensa actividad desarrollada por
el director de PYDLOS, el profesor Dr. Alejandro Guilln, gracias a cuyo
apoyo se han plasmado diversas lneas de cooperacin.
En este marco, el presente texto es una prueba ms ello, formando parte
del conjunto de libros metodolgicos dentro del compromiso entre la Universidad de Alicante y la Universidad de Cuenca, en materia de formacin de
Postgrado, a travs del Grupo de Investigacin PYDLOS del Departamento de
Investigacin Espacio y Poblacin, en coordinacin con las Facultades de
Ciencias Econmicas y Administrativas, jurisprudencia, Psicologa, Filosofa
Letras y Ciencias de la Educacin, y con aval de la DIUC de la Universidad de
Cuenca.
Estamos convencidos de que estos textos constituyen un aporte significativo para la formacin de investigadores y docentes de nuestras universidades
y para el robustecimiento de los vnculos entre ambas.
LOS AUTORES
Sant Vicent del Raspeig (Alicante)
Octubre 2015
12
categorizacin (es decir, decidir cules son las categoras realmente existentes y significativas) pasan a primer plano. Medir variables e ndices que
expresen estados subjetivos de los individuos presenta sus propios desafos.
Este tipo de variables son de carcter subjetivo, al igual que lo son sus unidades de medida o los valores que adoptan esas unidades de medida. Existen
en la mente de los individuos, pero no tienen una existencia objetiva, percibible directamente por los sentidos. Un ejemplo, en otro mbito de conocimiento, es la temperatura corporal. La percepcin que cada individuo tiene
de su temperatura corporal es subjetiva y personal. Para establecer una medicin comn y estndar para todos los individuos, debe construirse un instrumento externo como es el termmetro, que permite expresar de forma objetiva y comparable (mediante un instrumento o aparataje) esa temperatura
corporal. La existencia de un termmetro no elimina la experiencia personal
de cada individuo, las sensaciones subjetivas que le pueden producir la sensacin de calor o fro. Lo que permite es establecer un indicador que ofrece una
informacin externa y objetiva de la temperatura corporal. Y a partir de ello,
facilitar la comparacin intersubjetiva. En ambas situaciones, dnde la medicin es de caractersticas externas (observables directamente) o se refiere a
caractersticas internas (no observables directamente), las respuestas a cmo
construir ndices de medicin deben ser diferentes, si bien respetando principios metodolgicos semejantes.
Cuando hablamos de medir, en cualquiera de sus niveles, resulta evidente que existe un lenguaje apropiado, que no es el lenguaje natural. Las operaciones que se efectan sobre las mediciones, ya sea con la finalidad de descripcin o explicacin, requieren de un lenguaje formalizado creado para ello:
el lenguaje matemtico y estadstico. La estadstica y las matemticas en
general, son el lenguaje que opera con mediciones cuantitativas. Desde la ms
bsica de clasificar, hasta las explicaciones empricas ms sofisticadas.
En este texto presentamos tres estrategias de medicin multivariante, que
son tiles tanto para mediciones de caractersticas que se pueden percibir
direc-tamente, como de estados subjetivos. Nos centraremos en su empleo para
medir (por ejemplo, estados subjetivos de los individuos), permitiendo
construir, por ejemplo, un ndice. Resulta evidente, una vez que hemos logrado
asignar una cifra a cada individuo o caso (su valor en un ndice), ya es decisin
del investigador si las emplear para agrupar los casos en tipologas o usar su
magnitud para relacionarla con otras magnitudes medidas en otras variables.
Es importante que el investigador comprenda que la mayora de los procedimientos estadsticos estn interconectados entre s. Podemos llamarlos de
forma diferente por motivos varios. As es habitual que sea la finalidad inicial
para la que se establecieron la que los diferencia y les da nombre. Sin embar-
para
las
Ciencias
Sociales I
Anlisis multivariante
13
)DFWRULDO
6LPLODULGDG\GLVLPLODULGDG
&O~VWHUHV
$QiOLVLVGH&RUUHVSRQGHQFLD
6HJPHQWDFLyQ
(VFDODPLHQWR0XOWLGLPHQVLRQDO
7LSRORJtDV
(VFDODPLHQWRySWLPR
'LVFULPLQDQWH
14
1. Las distancias son el punto de partida en el anlisis de Conglomerados (las distancias entre
casos o variables), en el escalamiento multidimensional (distancias entre casos o tambin
entre variables), en el anlisis factorial (la similitud entre variables define el factor). En los
tres mtodos, la similitud o la disimilitud son muy importantes dado que los casos son
agrupados en funcin a su proximidad.
2. LA SIMILITUD Y LA DIFERENCIA
Los conceptos de similitud y disimilitud son esenciales en la investigacin
social. El nivel ms bsico de medicin, el nominal, emplea la clasificacin
de objetos (cualidades o caractersticas de un objeto). El criterio de clasificacin es la similitud o la disimilitud. En este contexto, los conceptos de similitud y proximidad se consideran sinnimos, al igual que el de distancia y
disimilaridad. Ambos conceptos expresan una misma realidad desde dos puntos de vista opuestos. Mientras que el concepto de distancia expresa en qu
medida son diferentes dos objetos, el concepto de similaridad mide el grado
de proximidad entre ellos. En ese sentido, para dos casos que sean muy parecidos, la medida de distancia debera de ser pequea mientras que, por el
contrario la medida de similaridad debera de ser elevada. La idea de medir
la similitud o disimilitud (la proximidad o distancia) entre objetos (casos) o
variables es el punto de partida de muchas tcnicas estadsticas.
Vamos a plantear un ejemplo sencillo de cmo se calcula una distancia.
Se pueden emplear medidas muy diferentes para cuantificar la similaridad o
la disimilaridad. Una de las ms utilizadas para medir la distancia entre casos
(objetos) es la distancia euclidiana al cuadrado. En el caso de variables, el
coeficiente de correlacin es uno de los que se utiliza con ms frecuencia para
medir la similaridad entre dos variables. Cuando el valor de correlacin es
muy elevado indica que las dos variables son muy parecidas.
Vamos a considerar uno de los ndices de Desarrollo Democrtico en Latinoamrica. Estimaremos qu distancia existe entre dos casos (en este ejemplo pases). Para ello, operaremos con los valores que poseen en cuatro variables diferentes (realmente son dimensiones que sintetizan diferentes indicadores). La idea es combinar la informacin que facilitan las cuatro dimensiones para determinar en qu forma ambos casos (dos pases) se parecen o son
diferentes. Tomemos como ejemplo de ndice de disimilitud la distancia eucldea al cuadrado. Este ndice en definitiva lo que hace calcular las diferencias
que existen entre los valores que tienen los casos en las variables consideradas,
elevarlos al cuadrado y sumar los trminos.
16
DIM I
DIM II
DIM III
DIM IV
9,5
0,7
1,3
Costa Rica
7,43
6,7
2,3
0,1
Chile
7,2
5,3
2,4
1,7
Argentina
6,5
3,1
2,6
0,7
2,3
-0,25
-1,5
Per
5,4
1,5
1,6
Nicaragua
5,3
-2,3
-0,8
Ecuador
5,3
2,9
0,4
0,3
brasil
5,1
2,4
0,9
-0,3
El Salvador
6,9
-0,7
-1,8
Paraguay
3,3
-1,3
-0,7
Panam
4,8
2,5
1,4
0,4
Rep. Dominicana
4,7
2,8
-3,1
-0,9
3,7
0,4
1,6
Venezuela
3,1
1,9
-0,7
0,3
Colombia
2,8
3,5
-1
0,9
Honduras
2,4
3,6
-1
-1,2
Guatemala
3,8
-2,3
-1,7
Uruguay
bolivia
Mxico
17
DIM I
DIM II
DIM III
DIM IV
bolivia
2,3
-0,25
-1,5
Ecuador
5,3
2,9
0,4
0,3
18
15
33
105
22
11
(Vector fila)
Media: 31,3
Desviacin tpica: 37,5
Puntuacin Z = (x-media)/desviacin tpica
Z de la variable 1 para el caso 1 = (15 31,3) / 37,5 = -,43
Variable 1
Variable 2
Variable 3
Variable 4
Variable 5
Variable 6
Caso 1
15
33
105
22
11
Caso1(a) Z
-,43
-,78
,04
1,9
-,24
-,54
19
Variable 1
Caso 1
13
Caso 2
25
Caso 3
32
Caso 4
12
Caso 5
56
Caso 6
43
Caso 7
15
(Vector columna)
Media: 28
Desviacin tpica: 16,7
Puntuacin Z del caso 1 en la variable 1 = (13 28) / 16,7 = -,89
Casos
Variable 1
Variable 1(a) Z
Caso 1
13
-,89536
Caso 2
25
-,17907
Caso 3
32
,23876
Caso 4
12
-,95505
Caso 5
56
1,67133
Caso 6
43
,89536
Caso 7
15
-,77598
20
Desviacin tpica de 1
Rango de -1 a 1
Rango de 0 a 1
Valor mximo de 1
21
Casos
Variable 1
Caso 1
13
Caso 2
25
Caso 3
32
Caso 4
12
Caso 5
56
Caso 6
43
Caso 7
15
22
servar un peso especial en algunas variables, no es conveniente la normalizacin. Introduciremos ejemplos ms adelante.
c) Por ltimo, la tercera decisin se refiere a la necesidad que exista, o
no, de normalizar el ndice que expresa de forma resumida la diferencia o
similitud entre los casos (o las variables). La intencin es que los valores que
adopte el ndice sean ms comprensibles para el investigador. Estas transformaciones se efectan sobre el ndice que calcula la distancia final, es decir,
que la normalizacin se aplica despus de calcular la medida de distancia.
Algunas opciones habituales son: Valores absolutos, Cambiar el signo, y
Cambiar la escala al rango de 0 hasta 1.
En el caso de tomar el valor absoluto del ndice de disimilaridad o similaridad, estaremos indicando que el posible signo que adopte el coeficiente no
tiene significado relevante para el investigador. Es el caso del coeficiente de
correlacin, usado para expresar proximidad. En el caso que solamente interese su magnitud como referente de proximidad, el signo es perfectamente
prescindible. Recordemos que en este caso, el coeficiente de correlacin se
encuentra normalizado entre -1 y +1. Tomar su valor absoluto lo transforma
en un nuevo rango, entre 0 y 1. La opcin de cambiar de signo, esencialmente es un cambio de tipo de medida. Transforma las mediciones de disimilaridad en similaridad. Su consecuencia es que invierte el orden de las distancias entre los casos o las variables. Por ltimo, los ndices de disimilaridad
o similaridad pueden normalizarse entre 0 y 1. Para ello, tomados los valores de las mediciones de similaridad (o disimilaridad), se resta de todas ellas
el valor de la distancia menor, y se dividen por el rango de variabilidad (es
decir, el valor de la distancia mayor entre dos casos o variables, menos el
valor de la distancia menor entre dos casos o variables). Mediante este procedimiento, las distancias calculadas entre casos o variables se normalizan a
una variacin entre 0 y 1.
Es importante notar la diferencia entre las dos transformaciones mencionadas. La primera, (apartado b) se refiere a las transformaciones de los valores que presentan los casos, de forma que la unidad de medida tenga un
impacto menor en los coeficientes de disimilaridad o similaridad. La segunda (apartado c), modifica los resultados de la aplicacin de cualquiera de los
ndices de proximidad o distancia. Es decir, una matriz de distancias se vera
transformada de forma que todas las distancias oscilarn entre 0 y 1.
2.1. LOS DIFERENTES TIPOS DE NDICES Y SU MEDICIN
Como es evidente existen muchas definiciones operacionales diferentes, en
trminos matemticos y estadsticos, para medir los conceptos de distancia
23
DIM I
DIM II
DIM III
DIM IV
bolivia
2,3
-0,25
-1,5
Ecuador
5,3
2,9
0,4
0,3
24
Pas
25
DIM I
DIM II
DIM III
DIM IV
bolivia
2,3
-0,25
-1,5
Ecuador
5,3
2,9
0,4
0,3
Distancia bloque =
6 - 5,3 + 2,3 - 2,9+ 0,25 - 0,4 + -1,5 - 0,3 =
0,7 + 0,6 + 0,65 + 1,8 = 3,75
La distancia entre bolivia y Ecuador en el ndice de democracia sera de 3,7
de utilizar esta medicin. En conjunto, la distancia viene a definir la distancia media entre dimensiones, con unos resultados bastante prximos a los de
la distancia eucldea, si bien el efecto de los casos extremos es menos fuerte
dado que no se elevan los valores al cuadrado.
Chebychev
La distancia Chebychev tambin emplea las diferencias expresadas en valores absolutos. Sin embargo, no utiliza todas las variables. Esta distancia se
define como la diferencia mayor en trminos absolutos entre dos casos, considerando todas las diferencias entre variables. En ese sentido, ignora gran
parte de la informacin disponible. Solamente la variable que muestra la
diferencia mxima entre los dos casos ser la utilizada.
Distancia (x,y) = MA Xi xi yi
Pas
DIM I
DIM II
DIM III
DIM IV
bolivia
2,3
-0,25
-1,5
Ecuador
5,3
2,9
0,4
0,3
Distancia Chebychev =
6 - 5,3 , 2,3 - 2,9 , 0,25 - 0,4 , -1,5 - 0,3 =
0,7 , 0,6 , 0,65 , 1,8 = 1,8
Aquellas observaciones que hacamos anteriormente respecto al peso en el
ndice que pueden llegar a tener las variables con una unidad de medida superior (por ejemplo renta cuando la utilizamos a la par que la variable edad)
son especialmente relevantes en esta ocasin. Dado que se utiliza solamente una variable como referencia de distancia, ser aquella que emplea magnitudes mayores la que defina finalmente el valor del ndice. Supongamos que
empleamos las variables Producto Interior bruto (en miles de millones),
26
Porcentaje de participacin en las elecciones generales y nmero de desempleados. La distancia que se calcule empleando este ndice tendr en cuenta
exclusivamente el PIb, dado que arrojar la diferencia de mayor magnitud.
Por ello, es conveniente efectuar previamente transformaciones en los datos,
o tener una razn significativa para utilizar este ndice. La lgica que rige
esta medicin de distancia es que lo importante es la diferencia, sin dar importancia a las dimensiones o variables que definen esas diferencias. En ese sentido, la diferencia es lo central, concediendo un peso o importancia equivalente a todas las dimensiones.
Son muchas las alternativas de medicin de disimilitud o distancia, y
cada una de ellas responde a una lgica diferente. Dado el carcter introductorio de este texto, donde se muestra la lgica de la estimacin de distancias,
no abundamos en ms ejemplos de disimilaridad en mediciones mtricas.
Como puede apreciarse en la tabla comparativa siguiente, los diferentes mtodos de estimar las distancias ofrecen magnitudes diferentes. Especialmente
el resultado de la distancia eucldea al cuadrado. Esto es cierto tanto en trminos absolutos (puede afectar a la representacin de los datos) como en trminos relativos, de distancia entre ellos. Elevar al cuadrado incrementa la
separacin entre casos. No obstante, la posicin ordinal de los pases con
respecto a Ecuador (tomado como referencia) no se ve alterada. Sin embargo,
con el empleo de la medida "bloque o Manhattan" se puede afectar tanto a
la posicin ordinal de algn pas (as como a su distancia) con Ecuador. As,
Nicaragua (3,9) estara a menor distancia de Ecuador que Argentina (4) o
Venezuela (4,3) si empleamos la distancia "bloque".
Tabla 2. Clculo de la disimilaridad de Ecuador con otros pases
segn diferentes coeficientes.
Distancia de Ecuador con varios pases en el IDD-lat 2014
Distancia
eucldea
Distancia
eucldea al
cuadrado
Distancia
Distancia
de Chebychev de bloques de
ciudad
brasil
0,949
0,9
0,6
1,8
Panam
1,192
1,42
Mxico
2,005
4,02
1,3
3,4
Per
2,03
4,12
1,3
3,6
Paraguay
2,035
4,14
1,7
3,4
bolivia
2,124
4,513
1,8
3,75
Argentina
2,546
6,48
2,2
27
Distancia
eucldea
Distancia
eucldea al
cuadrado
Distancia
Distancia
de Chebychev de bloques de
ciudad
Venezuela
2,655
7,05
2,2
4,3
Nicaragua
2,917
8,51
2,7
3,9
Colombia
2,988
8,93
2,5
5,1
Honduras
3,621
13,11
2,9
6,5
Rep. Dominicana
3,75
14,06
3,5
5,4
Chile
3,915
15,33
2,4
7,7
El Salvador
4,659
21,71
7,5
Costa Rica
4,757
22,627
3,8
8,03
Guatemala
5,531
30,59
4,3
9,9
Uruguay
7,207
51,94
6,6
10,6
Hasta aqu hemos operado calculando las distancias entre casos (pases). El
mismo procedimiento puede aplicarse a las variables. Es decir, podemos
aplicar todos estos ndices de distancia para determinar la similitud entre las
variables.
Tabla 3. Las cuatro dimensiones3 del IDD-lat 2014
Pas
DIM I
DIM II
DIM III
DIM IV
9,5
0,7
1,3
Costa Rica
7,43
6,7
2,3
0,1
Chile
7,2
5,3
2,4
1,7
Argentina
6,5
3,1
2,6
0,7
2,3
-0,25
-1,5
5,4
1,5
1,6
Uruguay
bolivia
Per
28
Pas
DIM I
DIM II
DIM III
DIM IV
Nicaragua
5,3
-2,3
-0,8
Ecuador
5,3
2,9
0,4
0,3
brasil
5,1
2,4
0,9
-0,3
El Salvador
6,9
-0,7
-1,8
Paraguay
3,3
-1,3
-0,7
Panam
4,8
2,5
1,4
0,4
Rep. Dominicana
4,7
2,8
-3,1
-0,9
3,7
0,4
1,6
Venezuela
3,1
1,9
-0,7
0,3
Colombia
2,8
3,5
-1
0,9
Honduras
2,4
3,6
-1
-1,2
Guatemala
3,8
-2,3
-1,7
Mxico
29
DIM 2
DIM 3
DIM 1
,000
DIM 2
8,868
,000
DIM 3
21,918
19,131
,000
DIM 4
22,169
18,842
5,332
DIM 4
,000
DIM 2
DIM 3
DIM 1
,0
DIM 2
0,20
,0
DIM 3
0,98
0,82
,0
DIM 4
0,80
DIM 4
,0
Recordemos que, en este caso, hemos normalizado las distancias. Esta matriz
puede ser empleada posteriormente para mltiples anlisis multivariantes, basados en matrices de proximidad o distancia.
b) Similaridad
Cuando los datos estn expresados en un nivel de medicin de intervalo
o superior, y consideramos la estimacin de ndices basados en las medidas
30
de similitud, proximidad o semejanza, las opciones ms usuales son el coeficiente de correlacin de Pearson y el Coseno.
Correlacin de Pearson
El coeficiente de correlacin de Pearson puede ser considerado como una
medicin de similaridad entre variables o entre casos medidos en un nivel de
intervalo o superior. La proximidad o igualdad entre dos variables vendran
definidas por la correlacin entre los vectores definidos por los valores de cada
una de ellas. Como es bien conocido, el coeficiente de correlacin de Pearson
oscila entre -1 y +1 (es un coeficiente normalizado), dnde 0 expresa la ausencia de correlacin entre las variables. Cuanto ms prximo est el coeficiente
a -1 o +1, ms fuerte es la relacin entre las variables4. En otras palabras, cuanto ms elevada es la correlacin, tanto en positivo (directamente proporcional)
como en negativo (inversamente proporcional), ms fuerte es la relacin, y
expresa que las dos variables estn bastante prximas. Una relacin no significativa o muy baja indicara que las dos variables son muy diferentes.
Correlacin (x,y) = Si ZxiZyi / N - 1
Tngase presente que en este caso, la proximidad o similaridad se establece
tanto entre variables, como entre casos. Depende del vector (fila o columna)
que se emplee para estimar la correlacin. En el caso de los ndices de democracia considerados en el ejemplo, la correlacin (proximidad) entre dimensiones es la siguiente
Correlacin entre vectores de valores (Columna)
DIM 1
DIM 2
DIM 3
DIM 1
1,000
DIM 2
,497
1,000
DIM 3
,622
,265
1,000
DIM 4
,386
,193
,645
DIM 4
1,000
Matriz de similaridades
31
Costa Rica
0,92
Chile
0,88
0,96
Argentina
0,65
0,85 0,92
bolivia
0,79
0,92 0,98
0,97
Per
0,90
0,93 0,99
0,88
0,96
Nicaragua
0,90
0,89 0,95
0,81
0,92
0,98
Ecuador
0,84
0,91 0,98
0,92
0,98
0,99
0,97
Matriz de similaridades
Correlacin entre vectores de valores (fila)
Tomando como referencia las cuatro dimensiones consideradas, los dos pases (de los analizados) ms similares (prximos) son Per y Ecuador (0,99),
o Per y Chile (0,99). Los menos similares, en este caso, son Argentina y
Uruguay (0,65). Como puede apreciarse, el coeficiente de correlacin expresa
similaridad sobre la base de la asociacin.
Coseno
Esta es una medida de similaridad que utiliza los cosenos de los vectores definidos por los valores de cada variable (vector columna), o de cada caso en las
diferentes variables (vector fila). Desarrolla el planteamiento de expresar los
datos como vectores, si bien en esta ocasin empleados para calcular la similitud. La similitud entre dos vectores, evaluada por el coseno del ngulo, oscila entre los valores -1 y 1. El valor mximo de 1 resulta cuando el ngulo entre
los dos vectores es cero. En definitiva, que ambos vectores apuntan hacia la
32
DIM 2
DIM 3
DIM 1
1,000
DIM 2
,921
1,000
DIM 3
,207
,113
1,000
DIM 4
,129
,084
,645
DIM 4
1,000
Matriz de similaridades
Los ndices ms prximos son la Dimensin 1 (Democracia de los ciudadanos) y la Dimensin 2 (Democracia de las instituciones), con un coseno de ,92. Al igual que con el coeficiente de correlacin, las dimensiones 2
(Democracia de las instituciones) y la dimensin 4 (Democracia econmica) son las menos similares, con un coseno de ,084, en la medicin del
Desarrollo Democrtico.
Uruguay Costa Chile Argentina bolivia Per Nicaragua Ecuador
Rica
Uruguay
Costa Rica
0,97
Chile
0,95
0,98
Argentina
0,87
0,95 0,97
bolivia
0,82
0,87 0,84
0,87
Per
0,95
0,97 0,99
0,96
0,83
Nicaragua
0,83
0,80 0,76
0,73
0,93
0,77
Ecuador
0,93
0,96 0,96
0,95
0,94
0,96
0,896
Matriz de similaridades
Coseno de vectores de valores
Como podemos observar, se aprecian cambios en los coeficientes de similaridad cuando comparamos el coeficiente de correlacin y el coseno. Esto suce-
33
34
a) Distancia
Medida de Chi-cuadrado
Un procedimiento frecuente para medir la disimilaridad cuando se emplean
frecuencias se basa en Chi-cuadrado. El test de Chi-cuadrado determina si
dos variables son o no independientes estadsticamente. Es decir, que no existe relacin entre ellas. En su empleo como medida de distancia o disimilaridad, simplemente se calcula el coeficiente chi-cuadrado de la tabla de contingencia y se extrae su raz cuadrada. En definitiva, esta medida de distancia consiste en la raz cuadrada de chi-cuadrado. Cuando consideramos muchas
variables, para cada par podemos estimar su distancia segn chi-cuadrado,
construyendo una matriz de disimilaridad entre las variables. Es importante
recordar que las tablas son del tipo 2 x n n x 2, es decir que la comparacin se contina haciendo por pares, sean definidos por las filas (2) o por las
columnas.
Dado que el valor que adquiera chi-cuadrado depende del tamao muestral, la magnitud que alcance este coeficiente de distancia depender del
nmero de casos considerados. Para intentar normalizar los coeficientes de
distancia en variables que adoptan valores de frecuencia, se utiliza como alternativa el coeficiente phi-cuadrado.
Medida de phi-cuadrado
Esta medida intenta corregir el efecto que tiene la muestra en el clculo
del Chi-cuadrado. Para ello, divide la medicin anterior, es decir, la medicin
de disimilaridad basada en chi-cuadrado, por la raz cuadrada de las frecuencias totales (el total de casos u observaciones contenidas en la tabla de contingencia). Con ello, el valor del ndice no se ve influido por las diferencias
de frecuencias de las variables que se comparan.
Otros ndices son la V de Cramer, el coeficiente de contingencia, Lambda
y varios ms.
2.1.4. Datos expresando nivel de medicin binario
En el caso de datos binarios existen numerosos coeficientes de similaridad.
Se consideran datos binarios los que se codifican con solamente dos valores.
Ejemplos de esto pueden ser poseer una casa o no, estar sano o enfermo, hombre o mujer, etc. Si las observaciones son pases, por ejemplo, las variables
binarias pueden considerar poseer o no un sistema de salud pblica, tener o
no tener libertad de prensa, realizarse o no elecciones libres, etc. Habi-
35
Variable 2
(tiene TV)
Variable 3
(tiene radio)
Variable 4
(lee prensa)
Variable 5
(debate con
amigos)
Caso 1
Caso 2
Si consideramos las caractersticas que poseen en comn y las que no, obtenemos una tabla de contingencia de 2 x 2. El caso 1 y el caso 2 coinciden
que s en la variable 2 (tener TV). Es decir, 1 coincidencia en que s-s.
Los dos casos coinciden que no en la variable 3 (tener radio). Es decir, 1
coincidencia en que no-no. El caso 1 dice s en dos ocasiones que el caso
2 dice no (variables 1 y 5). Es decir, 2 veces. Por ltimo, el caso 1 dice no
cuando el caso 2 dice s, en 1 sola ocasin, (variable 4).
Tabla. Ejemplo A distancia entre casos: cuadro resumen
Caso 1
Caso 2
No
No
En este ejemplo se compara las respuestas dadas por dos casos a las cinco
variables. Partiendo de esta tabla cruzada, es posible estimar varios ndices de
similitud y disimilitud.
Al igual que en la ocasin anterior, puede efectuarse la misma operacin
para comparar dos variables (considerando los valores 0 y 1 presentes en los
diferentes casos). Con ello construiremos una tabla comparando dos variables
36
Radio
Ciudad A
Ciudad b
Ciudad C
Ciudad D
Ciudad F
Ciudad G
Ciudad H
Ciudad I
si
no
Total
si
no
37
1 (S)
0 (No)
Totales
1(S)
a+b
0 (No)
c+d
Totales
a+b
b+d
m= a+b+c+d
38
39
40
41
42
43
la realidad, con todas las limitaciones por todos conocidas. Los programas
son una herramienta. Una ayuda valiosa que permite afrontar tareas que seran
casi imposibles por su coste en tiempo para cualquier investigador. La
oferta de programas comerciales es muy elevada y cada vez son ms. Una
opcin interesante es utilizar programas liberados como son el programa R.
Sin embargo, su curva de aprendizaje es lenta y exige una documentacin
extensa de procedimientos para aquellos que no estn familiarizados con l.
La paradoja est servida. Aquellos que conocen el programa, dada su especializacin, posiblemente ya saben dnde encontrar estos anlisis (incluso
buscando en CRAN). Para los no competentes con R, obliga a escribir un
manual formativo que excede este texto. Hoy por hoy, los programas comerciales son ms intuitivos y fciles de usar. basta unas orientaciones bsicas
y la curva de aprendizaje es rpida. Obviamente, al ser un producto comercial que compite en un mercado en expansin, buscan la frmula de hacerlos ms acogedores. En esta ocasin los ejemplos se expondrn en dos programas bastante extendidos: SPSS y SYSTAT.
2.2. EjEMPLOS EN SPSS Y SYSTAT
En el programa SPSS las distancias y las similitudes se obtienen desde el men
Analizar, opcin Correlaciones y dentro de ella Distancias.
Una vez elegida la opcin Distancia, aparecen las dos ventanas, a la izquierda el listado de variables existente en la base de datos y a la derecha las variables que se eligen para calcular las distancias o similitudes.
44
Es posible elegir las distancias ente casos o variables, as como que medida
de distancia o similitud se desea calcular. Las medidas disponibles en SPSS
se muestran desplegando la opcin medidas. Estn organizadas segn mtrica de las variables en Intervales, Recuentos y binarias. Al elegir el tipo de
medida, se activa el desplegable de la derecha dando a elegir qu ndice se
desea emplear. Los ndices sern del tipo elegido en la ventana anterior: de
disimilaridad o de similaridad.
45
En la zona inferior izquierda de la ventana se muestran las opciones de transformar los valores, ya sea en fila (casos) o columnas (variables). A la derecha, la opcin de normalizar los ndices de similitud o disimilitud. Las transformaciones de casos o variables se utilizan para el clculo de los ndices de
similitud o disimilitud.
En el programa SYSTAD los mens son bastante semejantes. El clculo
de las matrices de disimilitud y similitud (proximidad y distancia) se encuentran en la opcin Analizar, y dentro del desplegable la opcin Correlacin
y nuevamente Simple. El procedimiento para estimar las distancias se
encuentra incorporado dentro del sistema de opciones de Correlacin.
En el SYSTAD cabe la posibilidad de producir matrices de distancias cuadradas o simtricas. En el caso de elegir un solo grupo, se produce una matriz
simtrica. Al elegir un grupo se desactiva la segunda ventana de seleccin de
variables.
Las diferentes distancias estn agrupadas segn una lgica ms detallada. En el rea inferior izquierda se puede elegir entre Intervalo, datos expresando Distancias, medicin ordinal y de rangos, datos categoriales o recuentos y binarios. Dentro de cada opcin se encuentran una importante diversidad
de indicadores de distancia.
46
Algunos ejemplos, las distancias para datos ordenados y las distancias para
datos no ordenados. Para datos ordenados, como son las variables ordinales o
los rankings.
47
3. EL ANLISIS DE CONGLOMERADOS
diame por piedad, yo te lo pido
diame sin medida ni clemencia!
Ms vale el odio que la indiferencia.
El rencor hiere menos que el olvido.
Yo quedar, si me odias, convencido,
de que otra vez fue ma tu existencia.
Ms vale el odio a la indiferencia.
Nadie aborrece sin haber querido!
El ltimo ruego1 (1903)
FEDERICO bARRETO (1862-1929)
Como hemos comentado anteriormente, el clculo de una medida que estime la proximidad o distancia entre casos o variables, nos permite establecer
una serie de procedimientos de anlisis. En trminos intuitivos, posiblemente
el ms inmediato se refiere a la posibilidad de formar grupos de casos a partir de la proximidad que se haya establecido entre ellos. El inters es evidente, en la medida que agrupar los casos, por ejemplo pases, instituciones,
individuos, grupos, asociaciones, nos permite establecer posibles tipos diferenciados, en funcin a las caractersticas que les hacen estar prximos. El
procedimiento estadstico ms generalizado que considera la agrupacin de
objetos o casos en funcin a su similitud o disimilitud es el denominado anlisis de conglomerados.
De forma simple, el anlisis de clster consiste en identificar la existencia de grupos en los datos u observaciones. As, para Kaufman y Rousseeuw
6. barreto F. El ltimo ruego. No. 35de la revista Actualidades, n. 35, 21 de septiembre de
1903, pgina 576
50
51
52
narlos en diferentes grupos. stas alternativas siguen diferentes lgicas, especialmente en las situaciones donde el nmero de casos que deben ser agrupados es muy elevado. Evidentemente, los procedimientos para agrupar un
nmero limitado de casos permiten unas herramientas analticas diferentes a
cuando son muchos casos. Vamos a considerar dos grandes procedimientos:
los mtodos de aglomeracin jerrquicos y los no jerrquicos.
En los mtodos jerrquicos, un clster contiene otros clsteres, quienes
a su vez contienen otros clsteres y as sucesivamente hasta finalizar en un
solo grupo agrupando todos los clsteres. Es un procedimiento que opera
tanto de forma inclusiva agregando clsteres como divisiva, separndolos
progresivamente. Por lo general, los mtodos jerrquicos son plenamente
exploratorios, de forma que decidir cuntos grupos existen es el resultado
del anlisis. Los mtodos jerrquicos utilizan sobre todo procedimientos de
vinculacin (linkage) entre casos o variables. En ese sentido, los mtodos
jerrquicos permiten establecer clsteres de variables, de casos o de ambos
simultneamente.
En los mtodos no jerrquicos, lo ms frecuente es ir decidiendo cuntos grupos al iniciar el anlisis (tal y como sucede con el anlisis discriminante). Con este enfoque, solamente se establecen grupos de casos, no de
variables. Los clsteres son el resultado de la particin en grupos de los casos
en estudio. En definitiva, en el primer caso los grupos se van agregando
incrementando la heterogeneidad del grupo resultante, mientras que en los
mtodos de particin, como son k-medias o k-medianas, se separan los casos
intentando optimizar las diferencias entre los grupos solicitados y buscando
la mayor homogeneidad interna.
Considerando estos dos tipos de procedimientos para buscar clsteres
(jerrquicos y k-clsteres), ya existe una gran diversidad de mtodos diferentes. La mayora de los mtodos permiten elegir qu medida de similitud
o disimilitud emplear para formar los grupos. De hecho, existe una inmensa
lista de opciones de medidas de similitud y disimilitud. Por ejemplo, si consideramos Minkowski, es muy elevado el nmero de medidas de distancia
que podemos definir. Para incrementar an ms la diversidad, aparece la
opcin, que ya hemos considerado, de transformar las variables (mediante
normalizacin o estandarizacin). Otra cuestin relevante son las reglas que
podemos establecer para decidir cuntos son los grupos existentes en los datos.
Estas reglas o criterios para dar por finalizada la exploracin son ms abundantes de lo que pudiese parecer, llegando Milligan y Cooper (1985) a identificar y analizar hasta 30 reglas o criterios diferentes. Si combinamos todas las
53
opciones anteriores (tipos de anlisis, mtodos de anlisis, medida de similaridad o disimilaridad elegida, trasformaciones y reglas de finalizacin), podemos apreciar la gran cantidad de tipos de anlisis existentes.
La confusin se agrava por el hecho de que diferentes disciplinas han
producido, para sus anlisis mtodos muy parecidos para el anlisis de clsteres, si bien les han denominado de formas diferentes. En el caso de los
mtodos jerrquicos, hierarchical clustering (Mcquitty, 1960; johnson,
1967); single linkage clustering (Sokal and Sneath, 1963), o joining
(Hartigan, 1975). En lo referido a los procedimientos para producir las agregaciones (o desagregaciones segn se elija) de los grupos, blashfield y
Aldenderfer (1978) facilitan una relacin de equivalencias entre los trminos empleados, que jain y Dubes (1988), y Day y Edelsbrunner (1984) completan incluyendo sinnimos y acrnimos. La relacin siguiente muestra
varias de esas equivalencias y sinnimos. Un investigador, segn su disciplina,
tender a emplear unos u otros trminos. No obstante, se referirn en la prctica al mismo procedimiento. En este texto mantenemos los nombres en su
versin inglesa, en un intento de reducir la confusin ya existente, y que se
incrementa an ms cuando median traducciones.
Sinnimos y equivalencias
Single linkage: Nearest-neighbor method, Minimum method, Hierarchical
analysis, Space-contracting method, Elementary linkage analysis, Connectedness method.
Weighted average linkage: Weighted pair-group method using arithmetic averages, WPGMA, Weighted group-average method.
Centroid linkage: Unweighted centroid method, Unweighted pairgroup centroid method, UPGMC, Nearest-centroid sorting
Complete linkage: Furthest-neighbor method, Maximum method,
Compact method, Space-distorting method, Space-dilating method, Rankorder typal analysis, Diameter analysis.
Median linkage: Gowers method, Weighted centroid method, Weighted
pair-group centroid method, WPGMC, Weighted pair method, Weighted
group method.
Average linkage: Arithmetic-average clustering, Unweighted pair-group
method using arithmetic averages, UPGMA, Unweighted clustering, Groupaverage method, Unweighted group mean, Unweighted pair-group method.
Wards method: Minimum-variance method, Error-sum-of-squares
method, Hierarchical grouping to minimize tr(W), HGROUP.
54
Los nombres en negrita sern los utilizados en este libro cuando nos refiramos y describamos los mtodos para establecer la vinculacin entre clsteres.
Como hemos observado anteriormente, el anlisis de clster es una
estrategia fundamental en las tareas de minera de datos y en lo que actualmente se denomina big data. Es decir, de la explotacin exploratoria de
grandes bases de datos que incorporan informacin de diverso tipo. Este
hecho hace que partiendo de los mtodos anteriores se hayan desarrollado
otros procedimientos alternativos. Es el caso de la bsqueda de clsteres
basndose en las distribuciones multivariables o los que se basan en el estudio de la densidad. Las estimaciones de densidad (Hartigan 1975; Wong and
Lane, 1983) pueden ser aplicadas al anlisis de clsteres, existiendo varios
mtodos para ello (Silverman, 1986).
El mtodo para detectar clsteres ms directamente conectados con la
estadstica es el basado en el anlisis conjunto de distribuciones. Para ello se
modifica levemente la definicin de clster de forma que incluya el concepto de distribucin. Un clster estar formado por aquellos casos que con mayor
probabilidad pertenezcan a una misma distribucin. Este tipo de modelado
presenta el problema del sobreajuste, de forma que el investigador debe establecer una serie de criterios y condiciones que limiten las soluciones posibles
de los modelos. Por definicin, cuanto ms complejo es un modelo mejor
ajustar sobre la diversidad de los datos, sin embargo la nocin misma de parsimonia ya sugiere que el modelo ms complejo no es necesariamente el mejor,
aun cuando sea el ms explicativo. En esta lgica distribucional de la exploracin de clsteres, los clsteres capturan y expresan la correlacin e interdependencia entre los atributos empleados para agrupar los casos. Entre los
mtodos ms empleados se encuentran los modelos gaussianos mixtos, dnde
los datos son modelados mediante un nmero fijo de distribuciones gaussianas, inicializadas mediante valores aleatorios, y que mediante un procedimiento de ajuste iterativo busca optimizar su ajuste a los datos. Los casos se
atribuyen a aquella distribucin gaussiana a la que es ms probable que pertenezcan. Como es habitual en este tipo de ajustes, el riesgo de un mnimo local
(con lo que el ajuste no sera ptimo considerando toda la funcin) siempre
est presente, por lo que se habita a efectuar varios intentos, en los que pueden encontrarse soluciones diferentes.
Los mtodos que emplean el enfoque del anlisis de la densidad, plantean
que los clsteres vienen definidos por reas donde los casos se concentran
densamente. Ests reas de concentracin de casos estaran rodeadas de zonas
de baja densidad, que delimitaran a los diferentes clsteres entre s. Los
casos presentes en esas zonas difusas son definidos como ruidos o casos
55
atpicos. Partiendo de esta idea, existen diferentes mtodos para darle una
forma operativa. Algunos de ellos an no estn incorporados en la mayora
de los programas comerciales ms extendidos, al surgir asociados a la minera de datos y el anlisis de big data. El mtodo DbSCAN propone un modelo de conglomerado basado en el alcance de densidad (density-reachability),
y consiste en conectar aquellos casos que se encuentran espacialmente dentro
de un intervalo. Para poder incluir los casos dentro del clster estos deben
cumplir unos criterios de densidad (como es un nmero mnimo de casos
dentro de un determinado radio), por lo que el clster consiste en todos los
casos que estn densamente conectados ms todos los casos que se encuentran dentro de un radio de influencia de ese grupo. En ese sentido, los clsteres pueden adoptar formas muy irregulares. Este mtodo emplea dos parametros: e (el rango de influencia que atrapa a los casos dentro del clster)
y el nmero mnimo de puntos (minPts) a partir del cual podemos concluir
que existe una regin especialmente densa y definitoria de un clster. Por lo
general, el procedimiento se inicia con un caso cualquiera y se determina si
el nmero de casos que captura el parmetro e es suficiente para definir un
clster. En caso afirmativo se identifican como un clster. Todos los casos
que forman parte de ese clster incorporarn, a su vez, al clster aquellos
otros casos que se encuentren dentro de su radio de influencia e. El proceso
contina hasta cerrar el clster dado que todos los dems casos estaran
fuera del rea de influencia. Entonces se reinicia nuevamente el proceso
comenzando con otro caso fuera del clster, en bsqueda de posibles nuevos
grupos. Cuando el caso de inicio no define un clster es etiquetado provisionalmente como ruido, aunque ms tarde pueda ser capturado dentro del
radio de influencia de otro clster y con ello ser incorporado a l. Otras
variantes de este mtodo son OPTICS (que elimina la necesidad del parmetro e mediante la generacin de clsteres jerrquicos) o DeLi-Clu (DensityLink-Clustering) que combina los mtodos de linkage simple con OPTICS.
Es evidente que estos mtodos tienen limitaciones, muchas de ellas equivalentes a todos los que se basan en el concepto de distancia. La calidad del resultado depende, como ya sabemos, de la distancia elegida. La ms habitual en
DbSCAN es la distancia euclidea, que siendo una medida de distancia eficaz, presenta serios problemas cuando existe una elevada dimensionalidad
en los datos. Esa hace muy dificultosa la tarea de decidir un valor apropiado para e. Recordemos, asimismo, el efecto de las mtricas que se empleen,
y que tambin afectar al radio de influencia. Otra limitacin es cuando los
clsteres muestran grados diferentes de compactacin. Si son muy desiguales
56
57
Cuando el nmero de casos no es excesivo, una de las lgicas ms frecuentes es establecer un procedimiento jerrquico. Los mtodos jerrquicos son
generalmente de dos tipos, segn se parta de tantos grupos como casos, o
considerando todos los casos como un clster y posteriormente ir desagregando. El primer procedimiento se denomina por aglomeracin y el segundo por divisin.
Los mtodos por aglomeracin comienzan considerando cada caso como
un grupo separado. En definitiva, N grupos con un tamao de 1. Los dos grupos (casos) ms prximos se unen en un nico clster. En ese momento existirn N-1 grupos, con uno de ellos de tamao 2 y el resto de tamao 1. Este
procedimiento contina hasta que todos los casos pertenecen a un nico
grupo. As, partiendo de los casos individuales, los va agrupando sucesivamente de forma que finalmente en un ltimo paso definen un nico grupo. En
la ejecucin de este proceso, los casos forman grupos que a su vez son agregados en otros grupos en un proceso de simplificacin. Al inicio existen tantos grupos como individuos, en un segundo paso, dos casos forman un grupo.
En un tercer momento, o bien un nuevo caso es agregado a este grupo o dos
casos diferentes se unen formando un segundo grupo. Conforme el proceso
7. Dra. Mara Helena barrera Agarwal, quien el domingo 3 de julio del presente ao public
el artculo "Los orgenes de Odiame" en la revista Artes del diario ecuatoriano La Hora.
Dicho artculo se encuentra en la pgina 7 de la mencionada revista y puede ser ledo en la
siguiente direccin: http://issuu.com/la_hora/docs/artes030711
58
de agrupacin va avanzando, a) nuevos casos se incorporan a grupos ya existentes, b) definen ellos mismos un nuevo grupo, o c) se unen en un solo
grupo otros grupos ya preexistentes. Una caracterstica de los mtodos jerrquicos es que una vez asignado un caso a un grupo, ya no puede ser retirado de l, como tampoco pueden subdividirse grupos ya existentes. Como
puede apreciarse, los clsteres se van agrupando de forma jerrquica, donde
el superior engloba a otros ms pequeos.
Los mtodos de tipo divisivo comienzan con todos los casos formando un
nico grupo. Este grupo se divide segn el criterio que se decida para crear
dos grupos. Posteriormente uno de esos dos grupos se divide en otros dos, de
forma que se generan tres grupos. Nuevamente, uno de los tres grupos se subdivide para formar otros dos, produciendo un total de cuatro grupos. Se contina hasta que finalmente hay tantos grupos como casos. Si bien es un procedimiento alternativo a los procedimientos por conglomeracin jerrquica,
son bastante infrecuentes tanto en aplicaciones concretas como en opcin de
anlisis en la mayora de los programas de anlisis. Las dos estrategias para
generar los grupos son bastante exigentes desde el punto de vista estadstico
al implicar mltiples comparaciones. Como observan Kaufman y Rousseeuw
(1990), en el primer paso de cualquier procedimiento jerrquico aglomerativo se deben considerar N(N-1)/2 pares de observaciones o casos a efectos de
determinar cules son los ms similares. El nmero de pares crece exponencialmente conforme crece el valor de N (nmero de casos u observaciones).
En los procedimientos de formacin de clsteres mediante divisin, el primer
paso es elegir los dos subgrupos (no vacios) que menos se parecen (ms disimilares). Considerando todas las posibilidades, implica 2(N-1) 1 comparaciones. Al igual que en el procedimiento anterior, el nmero de comparaciones
crece de forma exponencial conforme crece N.
En todo caso, es el investigador quien decide qu criterio (similaridad o
disimilaridad) se va a emplear para fusionar los casos en un clster. Cuando
en un grupo hay ms de un caso, debe decidirse qu criterio se va a seguir
para determinar si los grupos son ms o menos prximos (similares). Estos
procedimientos para comparar grupos se denominan mtodos de vinculacin
(linkage methods). La definicin del trmino ms prximo es diferente
para cada mtodo de vinculacin (linkage). Por ello, dependiendo del mtodo empleado, la matriz de distancias (o disimilaridad) que se obtine despus
de cada fusin se calcula mediante frmulas diferentes. Al comenzar el proceso, se emplea la matriz de distancias original, pero esta vara conforme se
van produciendo las agregaciones de clsteres. Esa es la diferencia clave entre
mtodos: como se calcula la nueva matriz de distancias cada vez que se fusionan dos grupos.
59
Lance y Williams (1967) desarrollaron una frmula que permite considerar, como casos especiales, la mayor parte de los mtodos ms conocidos de
conglomeracin jerrquica. Esta propuesta ha sido debatida por mltiples
autores como Anderberg (1973); jain y Dubes (1988); Kaufman y Rousseeuw
(1990); Gordon (1999); Everitt et al. (2011); and Rencher and Christensen
(2012), mostrando como los diferentes mtodos de conglomeracin pueden
ser incluidos en ella. De acuerdo con la notacin de Everitt et al. (2011, 78),
la frmula de LanceWilliams puede expresarse de la forma siguiente
dk(ij) = i dki + j dkj + dij + dki dkj
donde dij es la distancia o disimilaridad entre el clster i y el clster j; dk(ij)
es la distancia entre el clster k y el nuevo clster formado al fusionar los
clsteres i y j; i , j, , son parmetros que varan segn el mtodo de vinculacin (linkage) que se elija en cada caso. Esta frmula recurrente permite que se pueda calcular la disimilaridad entre los nuevos grupos creados y
los grupos existentes en cada fase de la agrupacin jerrquica. Consideremos
un ejemplo concreto para presentar los diferentes coeficientes , , .
Pensemos que R, P y q son clsteres existentes y que se va a generar un
nuevo grupo resultado de la fusin entre P y q. Este nuevo grupo vendr
notado por P+q, y donde nP nota el nmero de objetos (casos) existentes en
el clster P, nR el nmero de casos en el clster R y nq los casos en el clster q. La distancia entre los clsteres R y el nuevo formado por P+q vendra planteada en la siguiente ecuacin
d(R,P+Q) = 1d(R,P) + 2d(R,Q) + d(P,Q) + d(R,P) d(R,Q)
donde los parmetros varan segn el mtodo que se aplique, como puede apreciarse en la tabla siguiente. Las distancias son diferentes para cada mtodo as,
Mtodo de
vinculacin
(linkage)
d(R,P+Q) =
Single
1/2
1/2
1/2
Complete
1/2
1/2
1/2
Average
nP / (nP + nq)
nq / (nP + nq)
Weighted
1/2
1/2
Centroid
Median
Ward
Flexibeta
0
2
nP / (nP + nq)
nq / (nP + nq)
1/2
1/2
1/4
(nR + nP) / (nR + nP + nq) (nR + nq) / (nR + nP + nq) nR / (nR + nP + nq)
(1 ) / 2
(1 ) / 2
0
0
0
0
60
Los mtodos anteriores empleados para producir los grupos pueden ser considerados de tres tipos. Los basados en la a) vinculacin entre grupos, b)
mtodos de varianza y los c) mtodos basados en los centroides. Adems,
recordemos la existencia de los mtodos de carcter distribucional y los basados en la densidad. Como hemos considerado, estos mtodos se diferencian
en la forma como determinan la distancia entre los grupos existentes conforme avanza el proceso de aglomeracin. Vamos seguidamente a describir las
caractersticas de los mtodos anteriores.
Single linkage o Vecino ms prximo (nearest neighbour). Uno de los
procedimientos ms bsicos es la agrupacin segn el vecino ms prximo.
Los primeros casos que se combinan son aquellos que tienen una distancia
menor (o una proximidad mayor) entre ellos. A partir de ah, las distancias
de los otros casos hasta ese grupo se determina a partir de la distancia con el
caso ms prximo que ya pertenece a ese grupo. La distancia entre los casos
que no han sido agrupados no vara, de forma que la distancia entre dos conglomerados o grupos es la distancia entre los dos casos ms prximos, perteneciendo cada uno de ellos un grupo distinto. Tal y como puede observarse, en el mtodo de vinculacin simple, la distancia entre dos clsteres es la
distancia mnima considerando todos los pares de casos entre los dos clsteres. Una vez estimada la distancia ms prxima, se fusionan los dos grupos.
El mtodo es poco robusto, por lo que pueden influir notablemente los casos
extremos. Tanto produciendo nuevos clsteres adicionales, como provocando que otros clsteres se fusionen. Es lo que se denomina como efecto de
encadenado (chaining). Dado que los casos ms prximos a cada uno de los
dos grupos son los que dirigen la fusin, los clsteres resultantes pueden ser
alargados y delgados. En el caso en que esta propiedad sea indeseable para
el investigador, es posible recurrir a otros mtodos como son complete linkage o average linkage.
Complete linkage o Vecino ms lejano (furthest neighbour), Tambin
es posible emplear criterios alternativos (siguiendo una lgica parecida) para
definir la distancia entre grupos, como es por ejemplo la tcnica conocida
como el vecino ms alejado. En este mtodo la distancia entre los grupos es
la que determine los dos casos ms diferentes o distantes, perteneciendo cada
caso un grupo diferente. Este procedimiento produce el efecto contrario sobre
los clsteres. Genera clsteres muy compactos espacialmente. Este efecto
puede ser inapropiado si el objetivo es detectar clsteres alargados y delgados. Estos dos efectos contrarios de los dos mtodos en la formacin de los
grupos son analizados en detalle por Kaufman y Rousseeuw (1990).
Average linkage. Otras tcnicas, como el mtodo de agrupacin segn la
media entre grupos (UPGMA), considera la distancia entre dos grupos como
61
la media de las distancias entre todos los pares de casos en los que cada uno
de ellos procede de un grupo (clster) diferente. Este procedimiento emplea
la informacin de todos los pares de distancias, y no solamente los de aquellos pares que se encuentran particularmente prximos o alejados. En ese
sentido, es un procedimiento que incorpora mucha ms informacin para ir
definiendo la pertenencia a grupos, por lo que acostumbra ser preferido respecto a las tcnicas que solamente tiene en cuenta los pares de casos ms
extremos, ya sea por su proximidad o lejana.
Al igual que el mtodo de agrupacin anterior considera las distancias
entre los pares definidos por los casos que pertenecen a grupos distintos, existe otra opcin alternativa por la cual se combinan los grupos de forma que las
distancias medias entre todos los pares de casos que perteneceran a ese nuevo
grupo se minimiza (Average linkage within groups method). Es decir, que la
distancia entre dos grupos es la media de todas las distancias entre los pares
de casos posibles que formaran el nuevo grupo. Kaufman y Rousseeuw
(1990), proponen que el mtodo de average linkage como uno de los ms
robustos y posiblemente el ms apropiado para la mayora de las ocasiones.
El mtodo Weighted average linkage es una variacin del average linkage. La idea bsica (al igual que suceder con median linkage) es responder a
cmo se deben tratar los grupos con un tamao desigual cuando se fusionan.
En average linkage, el nmero de casos en cada grupo se tiene en cuenta al
producir el grupo resultante de la fusin, por lo que los grupos ms grandes
tienen un peso mucho mayor. Este mtodo da un peso igual a cada caso, independientemente del clster al que pertenezca. Como su nombre indica, en
weighted average, los dos grupos reciben el mismo peso para definir el grupo
que resulta de la fusin, independientemente del nmero de casos de cada
grupo. Para ello, los casos que proceden de grupos ms pequeos reciben un
peso mayor que aquellos casos que forman los grupos ms grandes.
Centroid linkage o Agrupacin de centroides (centroid clustering). El
mtodo de centroides determina la distancia entre dos grupos como la distancia entre sus medias. Es decir, este mtodo fusiona aquellos grupos cuyas
medias estn ms prximas. Para ello, considera las medias como una especie
de centro de gravedad del grupo. Su diferencia con el mtodo de average linkage es que, como ya hemos considerado, este ltimo considera la distancia
media entre los casos que pertenecen a los dos grupos, mientras que el mtodo de centroide considera la distancia entre las medias de los dos grupos.
Una de las desventajas de este mtodo es que la distancia en la que cada
grupo se combina puede disminuir de un paso para el siguiente. Es decir, que
los grupos que se fusionan en una etapa ms avanzada son ms diferentes que
aquellos que fueron fusionados en etapas anteriores. Esto es una propiedad
62
indeseable en la medida que existen diferentes probabilidades de ser agrupados en funcin al momento en que se encuentra el proceso de agrupacin.
En este mtodo, el centroide de un nuevo grupo que es producto de la fusin
de otros grupos, se calcula como una combinacin ponderada de los centroides de los dos grupos que han sido fusionados, y donde los pesos son proporcionales al tamao de los grupos. En ese sentido, el tamao de los grupos
que son fusionados influye sensiblemente en el nuevo centroide que define
el nuevo grupo. Esto es consecuencia de que todos los casos tienen un peso
igual.
Median linkage. Es una variacin del mtodo de centroides. Este efecto
del tamao de los grupos en la formacin de los nuevos grupos, que se produce cuando se emplea el mtodo del centroide, puede corregirse mediante
la aplicacin del mtodo basado en la mediana. En este mtodo, los centroides de los dos grupos que son combinados, se ponderan con igual peso para
calcular el nuevo centroide, independientemente del tamao previo de cada
grupo fusionado. Esto permite que los grupos pequeos tengan una mayor
presencia (y peso) en el momento de caracterizar (es decir, determinar el
nuevo centroide) del nuevo grupo en el que se incorporan. Esta posibilidad
de caracterizar el grupo resultante de la fusin segn la heterogeneidad de
los grupos que se fusionan, y no segn el tamao de los grupos fusionados,
es un elemento importante que debe ser decido por el investigador de acuerdo con los objetivos de la investigacin.
Wards method. Otro mtodo usado con frecuencia es el propuesto por
Ward. Aplicando el Mtodo de Ward, para cada grupo se calcula la media de
todas las variables. Posteriormente, y para cada caso, se calcula la distancia
eucldea al cuadrado a la media del grupo. Esa distancia se suma para todos
los casos. En cada paso se agrupan los dos clster que producen un menor incremento en la suma total de cuadrados de las distancias en los conglomerados. En definitiva, fusiona los dos grupos que producen el incremento menor
en la suma de cuadrados del error. Su enfoque es fusionar aquellos grupos que
optimizan una funcin definida en trminos objetivos. Kaufman y Rousseeuw
(1990) afirman que este mtodo funciona correctamente cuando los grupos
son esfricos y multivariados normales, pero es problemtico si los grupos son
de diferentes tamaos o contiene un nmero desigual de casos.
Flexibeta. Flexible beta emplea una distancia media ponderada entre dos
casos incorporados en dos clsteres diferentes para decidir los alejados que
se encuentran. El investigador decide el valor de la ponderacin a utilizar, dentro de un rango de -1 a 1.
63
64
65
66
dor de la media en el grupo de hombres, y la variabilidad de la variable ingresos en torno a su media de ingresos en el grupos de mujeres). Esta variabilidad intragrupos se mide mediante la denominada suma de cuadrados intragrupos (within-groups sum of squares o SSW). La idea es determinar cuanta
variacin interna respecto a la media existe en los diferentes grupos. Siendo K
el nmero de grupos considerados.
SSW = S (Ni 1) Si2
Siendo Si2 la varianza del grupo i entorno a su media y Ni el nmero de casos
en el grupo i.
La otra variabilidad considerada es la variabilidad existente en las medias
de los diferentes grupos. Esta variabilidad se mide mediante la suma de cuadrados entre-grupos o (between-groups sun of squares o SSb).
SSb = SNi (i - )2
Siendo Ni el nmero de casos en el grupo i, i la media del grupo i y la
media para el conjunto de la muestra.
Otros coeficientes que se calculan son las medias cuadrticas, que se
obtienen dividiendo la suma de cuadrados por los grados de libertad. Los
grados de libertad en el caso de la suma de cuadrados entre-grupos es k 1
(siendo k el nmero de grupos). Por ello, la media cuadrtica entre-grupos es
igual a
Media cuadrtica entre-grupos = SSb / k - 1
Para la suma de cuadrados intra-grupo, sus grados de libertad son el nmero
de casos de la muestra menos el nmero de grupos k, es decir N - k.
Media cuadrtica intra-grupos = SSW / N - k
Todos estos datos se muestran habitualmente en los resultados de un anlisis de
varianza. Para testar la posible igualdad entre las medias de los grupos considerados se calcula el estadstico F. Este estadstico es simplemente la media
cuadrtica entre-grupos dividida por la media cuadrtica intra-grupos.
F = media cuadrtica entre-grupos / media cuadrtica intra-grupos
Para determinar si las diferencias entre medias son significativas se compara el valor F obtenido con la distribucin F, para k-1 y N-k grados de libertad. El nivel de significacin que se observa se refiere a la probabilidad de
obtener un valor F de ese valor cuando todas las medias sean iguales en la poblacin. Si la probabilidad es lo bastante pequea, la hiptesis que afirma
que todas las medias son iguales en la poblacin puede ser rechazada. Por lo
67
68
69
quier par de clsteres xi y xj sea (xi,xj) la distancia entre los dos clsteres.
Consideremos (xi) el dimetro del clster xi. El ndice de Dunn se define
como el valor mnimo de la razn entre la medida de disimilaridad de los dos
clsteres y el dimetro del clster. El mnimo se determina para todos los
clsteres presentes en los datos. Este planteamiento presenta un problema
especfico. En el caso que uno de los clsteres este bastante disperso, mientras que el otro sea muy compacto, dado que el denominador emplea el valor
mximo en lugar de algn promedio, puede producir que el valor del ndice
de Dunn para ese par de clsteres sea inusualmente bajo. Es algo a considerar durante el anlisis. Por lo general, cuanto mayor es el valor del ndice de
Dunn ms compacta y diferenciada es la solucin que ofrece el anlisis de
clsteres (nmero de clsteres). Cuando los datos contienen clsteres muy
compactos y bien separados entre ellos, la expectativa es que la distancia
entre los clsteres sea elevada y el dimetro de los clsteres muy reducido.
basndonos en esa definicin, valores elevados del ndice corresponden con
clsteres compactos y bien separados. Cuando se muestra en formato grfico la relacin entre el nmero de clsteres y el ndice de Dunn, la solucin
que muestre el mayor valor en el ndice debera ser la ms correcta. En este
caso, su empleo es adecuado tanto para matrices de datos rectangulares como
de disimilaridad.
Otra estrategia para medir la validez de la solucin que ofrece el nmero
de clsteres, es el ndice de Davies-bouldin (1979). Este ndice busca cuantificar la similaridad media entre un clster y aquellos otros clsteres que
puedan estar prximos a l. Sea k el nmero de grupos en un determinado
momento del anlisis jerrquico y donde Vxi indica el centro del clster Xi y
| Xi | el tamao del clster Xi.
Si la medicin de la dispersin del clster Xi la definimos como
Si = (1/ Xi Sd2 (x, Vxi))1/2
para todo x perteneciente a Xi , y la disimilaridad entre dos clsteres (Xi y Xj)
como
dij = d(Vxi, Vxj)
y sea Ri = Max j, j1 ( Si + Sj / dij)
Entonces el ndice de Davies y bouldin es igual a 1/k ( SRi)
De acuerdo a la formulacin del ndice Davies-bouldin, cuanto menor es
su valor mejor es la solucin. Es decir, el nmero de clsteres puede ser el ms
apropiado. Este ndice puede calcularse para matrices rectangulares de datos.
El ndice pseudo F (Calinski y Harabasz, 1974) muestra la razn entre la
varianza entre-grupos con la varianza intra-grupos. Siendo n el nmero de
70
71
Matriz distancias
Matriz
rectangular
Interpretacin
Solamente
centroide,
average, Ward
SI
Dunn
SI
SI
Davies-bouldin (Db)
NO
SI
Solamente
centroide,
average, Ward
SI
RMSSTD
pseudo F (CHF)
Si cambia fuertemente en la
fase t del procedimiento de
conglomeracin, significa
que la solucin de clster en
la fase t+1 es ptima.
RSq (R cuadrado)
Silhouette coefficient
72
73
0
12,165
3: Chile
21,33
4,583
4: Argentina
47,18
14,275
6,37
5: bolivia
6: Per
37,74
14,301
0
13,853
5,75
4,04
15,923
7: Nicaragua
62,95
40,197
37,24
27,71
5,673
21,21
8: Ecuador
51,94
22,627
15,33
6,48
4,513
4,12
8,51
9: brasil
61,42
26,039
19,07
6,34
3,583
6,62
10,89
0,9
10: El Salvador
27,33
18,555
29,26
33,83
22,453 24,97
18,86
21,71
11: Paraguay
55,44
31,065
28,29
19,46
3,743
13,78
1,19
4,14
12: Panam
60,54
25,457
16,29
4,78
7,813
4,06
15,63
1,42
13: Rep.
Dominicana
75,06
52,823
49,51
38,38
10,423 29,34
1,05
14,06
14: Mxico
49,82
26,625
16,81
12,26
15,993
3,26
15,23
4,02
15: Venezuela
84,73
50,829
39,94
24,05
12,013 16,23
9,82
7,05
16: Colombia
66,09
43,207
34,8
26,85
18,003 13,75
11,08
8,93
17: Honduras
75,31
47,491
45,9
33,63
15,303 23,25
10,62
13,11
18: Guatemala
99,49
74,155
74,34
60,51
31,493 44,73
19,94
30,59
74
tanto en forma numrica como grfica. Ciertamente las presentaciones grficas son dificultosas cuando parten de la agregacin desde el nivel de caso.
Este es uno de los motivos por lo que el empleo de mtodos jerrquicos de
conglomeracin son especialmente apropiados cuando el anlisis no excede
de unos 200 casos.
Recordemos que el anlisis de conglomerados es (en el caso de mtodos
jerrquicos) en gran parte exploratorio. Por ello, son varias las presentaciones grficas de la misma informacin de forma que ayude al investigador a
decidir el nmero de grupos, como por ejemplo representando la forma de un
rbol (Hartigan, 1975). En ese sentido, el dendrograma (Sokal and Sneath,
1963) es una expresin grfica de este proceso de agrupacin de casos y clsteres. En este ejemplo, veremos que en el lado izquierdo aparecen los pases, y se aprecia cmo van incorporndose nuevos casos a grupos existentes,
formando nuevos grupos o combinndose dos grupos en uno. As, brasil,
Panam y Ecuador forman un grupo rpidamente. Per y Mxico otro grupo
diferente, que se unen al formado por brasil, Ecuador y Panam, en un paso
posterior. Al grupo formado por los cinco pases anteriores se une Argentina
ms tardamente.
Recordemos que esta paulatina agrupacin y combinacin de pases se
produce sobre la base de la matriz distancias (segn la medida elegida y tras
decidir transformar o no los valores y los coeficientes), y del procedimiento
escogido para determinar el clculo de la distancia a la que se combinan los
casos y los grupos. Para llegar al dendrograma el investigador ha debido
tomar ya cuatro decisiones relevantes (qu variables, qu transformacin,
qu coeficiente de distancia, y qu mtodo de agregacin). En esta ltima decisin, el mtodo de agrupacin, se est decidiendo cunta diferencia integramos
en un mismo grupo10. En trminos paradjicos, cunta heterogeneidad se
admite dentro de un grupo que pretendemos homogneo. Al final, a la derecha del grfico, todos los pases han sido integrados en un solo grupo. Empleando la informacin del proceso de agregacin debe decidirse cuntos grupos consideramos significativamente diferentes (es decir, que los pases que
los forman estn prximos entre s y diferenciados de otros grupos).
Sobre la base del dendrograma siguiente, parece observarse al menos dos
soluciones diferentes. Una de estas soluciones ofrecera cuatro grupos de
pases, ms El Salvador y posiblemente Uruguay como casos atpicos. Un
10. En alguna ocasin, el dendrograma no puede producir una combinacin en la que las distancias se incrementan progresivamente. En esta situacin, es posible apreciar que algunas
ramas no llegan a conectarse unas con otras. En estos casos cabe plantearse optar por los
mtodos de vinculacin simple o vinculacin completa (Single o Complete linkage) segn
Fisher y Van Ness (1971).
75
grupo podra ser brasil, Panam, Ecuador, Per, Mxico, Argentina. Otro
grupo Nicaragua, Rep. Dominicana, Paraguay y bolivia. El tercer clster
puede definirse por Venezuela, Colombia, Honduras y Guatemala. El cuarto
clster, por Costa Rica y Chile.
Otra solucin es decidir que son relevantes tres grupos. El grupo 1 for por brasil, Panam, Ecuador, Per, Mxico, Argentina.
2 formado
El grupo
Rep.
Paraguay,
mado por
Nicaragua,
Dominicana,
bolivia,
Venezuela,
Colom
bia, Honduras y Guatemala. El tercer grupo por Costa Rica, Uruguay y Chile.
queda como pas ms atpico El Salvador.
76
Conglomerado 1 Conglomerado 2
1
Prxima
etapa
Conglomerado 1 Conglomerado 2
12
,840
13
1,050
1,160
11
2,405
10
15
16
3,100
12
14
3,260
17
18
3,940
12
4,583
14
5,017
11
10
6,613
13
11
6,780
15
12
15
17
9,165
13
13
15
13,556
10
12
15
14
16,747
17
15
17,647
11
13
16
16
10
24,331
15
17
17
41,874
14
16
77
En definitiva, la informacin se expresa de forma diferente para ayudar al investigador en la interpretacin lgica de la agrupacin. En todo caso, en la
medida que con posterioridad se puede evaluar la consistencia explicativa o
diagnstica de las agrupaciones, siempre puede retomarse el anlisis y comprobar agrupaciones alternativas que incorporen menos heterogeneidad dentro
del clster. Cabe recordar que son varias las decisiones importantes:
a) qu variables se emplean para determinar los grupos. Con ello decidimos el significado terico que estos grupos pueden tener.
b) qu medida de similitud o disimilitud se va a emplear
78
79
Cuando la intencin es producir una agrupacin de variables segn su similitud, una de las opciones es partir de su matriz de correlacin. De esta forma, las
variables con una correlacin mayor estaran ms prximas entre ellas que
aquellas otras variables cuyo coeficiente de correlacin sea menor o no signifi11. Fuente: Odio [disco de pizarra]) / Sebastin Rosado. Disco Favorite Record AKT-Ges.
Linden. Precioso Record 1-45052. Ecuador song en Fidel Pablo Guerrero Transferencias
musicales, http://soymusicaecuador.blogspot.com.es/2011/10/el-odio-trasferenciasmusicales.html
80
81
Variables
DIM 1
DIM 2
DIM 3
DIM 1
,000
DIM 2
78,643
,000
DIM 3
480,409
366,012
,000
DIM 4
22,169
18,842
5,332
DIM 4
,000
De acuerdo
a las
distancias
que
se determinan
entre las
variables,
observa
mos como las
dimensiones
DIM3
y
la
DIM4
se
agrupan
rpidamente
(son
muy prximas), mientras que la formacin de otro grupo por parte de las
dimensiones DIM1 y DIM2 se hace ms tardamente. Es decir, que las dimen DIM1
y DIM2 se encuentran
a mayor distancia
entre s
que
la DIM3
siones
La unificacin
de los
dos
grupos
(el formado
por lasdimensio
y la DIM4.
nes DIM3
y
DIM4,
y
el
formado
por
las
dimensiones
DIM1
y
DIM2)
se
hace
al final
del
proceso.
Con
ello
se
expresa
que
existe
una
heterogeneidad
muy
elevada, o dicho en otras palabras, una relacin dbil entre los dos grupos de
variables.
Dendrograma que utiliza una vinculacin media (entre grupos)
Combinacin de conglomerados de distancia re-escalados
82
Conglomerado 1 Conglomerado 2
1
Prxima
etapa
Conglomerado 1 Conglomerado 2
28,433
78,643
423,230
83
Como hemos podido apreciar, los procedimientos de formacin de conglomerados o clster son aplicables tanto a los casos (sean individuos, pases, ciudades, asociaciones, etc.) como a las variables o indicadores que se empleen para
medir sus caractersticas. Este doble uso de la formacin de clsteres aproxima tcnicas como son el anlisis factorial y el anlisis de conglomerados.
3.2.4. La conglomeracin de variables y casos
Una posibilidad es efectuar un anlisis que combine la estimacin de grupos
de casos y de variables simultneamente. Como ya sabemos, el anlisis de
84
clster es un procedimiento diseado para detectar grupos de casos y de variables. Tambin es posible considerar simultneamente los casos y las variables. Es decir, la matriz de filas y columnas. Para agrupar filas y columnas
simultneamente, es preciso estandarizar primero las variables para darles a
todas ellas el mismo peso. De esta forma, todas tendrn una oportunidad
igual de expresar su influencia sobre los diferentes casos. Tras la estandarizacin, es adecuado emplear distancia eucldea con linkage simple.
Por lo general, el resultado del anlisis se puede expresar con un grfico
donde se muestra la matriz de datos, si bien permutando las filas y variables
para mostrar la agrupacin de casos y variables.
3.2.5. Ejemplos en SPSS y SYSTAT
La realizacin de estos anlisis requiere del apoyo de programas informticos. En ese sentido, son muchas las ofertas de programas tanto comerciales
como no comerciales. Vamos a considerar dos programas comerciales de uso
bastante extendido: SPSS y SYSTAT. Veamos seguidamente como se efecta un anlisis de conglomerados con SPSS. La opcin de este anlisis se
encuentra en la categora analizar, y despus la opcin clasificar. Esta ubicacin en el men del programa puede variar segn versiones, dado que este
programa ha reclasificado varias veces su sistema de mens.
85
En la pantalla tras elegir este anlisis, puede escogerse las variables que participarn en el anlisis, as como otras opciones analticas. En este momento,
la ms relevante es la decisin sobre si los conglomerados se van a efectuar
operando con las variables o con los casos.
86
Las opciones que tenemos disponibles en esta ventana se refieren al historial de aglomeracin, en el cual se recoge el paso en el que los grupos se van
combinando, as como a la distancia que lo hacen, tal y como mostrbamos en
el cuadro anterior. La opcin matriz de distancias visualiza las distancias
entre los objetos considerados. En el caso de ser variables mostrar una matriz
cuadrada con las variables. De haber seleccionado casos, la matriz de distancias cuadrada indicar la distancia entre casos. La distancia que se calcular
depende de la que haya sido seleccionada en la primera ventana.
Otra opcin interesante es indicar a qu grupo pertenecera cada caso segn
el nmero de clsteres elegidos. La opcin ninguna elimina de los resultados esta informacin. Al elegir una solucin nica (es decir, un nmero
determinado de clsteres), registrar la pertenencia de cada caso a cada uno
de los clsteres especificados. En este caso debe advertirse que se desea una
solucin con ms de un clster. Otra posibilidad es elegir un rango de soluciones. En este caso, se estimarn varios clsteres, indicando la pertenencia
a cada uno de ellos de cada caso. Los valores deben ser superiores a uno y el
nmero mnimo de conglomerados menor (obviamente) que el nmero mayor.
Si tomamos el ejemplo de calidad democrtica, podemos apreciar como bajo
la columna 2 conglomerados se indican cifras 1 y 2 mostrando la pertenencia de cada caso a cada uno de los dos conglomerados. En el otro extremo, en la columna 5 conglomerados, las cifras van desde 1 hasta 5, indicando a cul de los cinco conglomerados pertenece cada caso.
Conglomerado de pertenencia
Caso
5
4
3
2
conglomerados conglomerados conglomerados conglomerados
10
Caso
87
5
4
3
2
conglomerados conglomerados conglomerados conglomerados
11
12
13
14
15
16
17
18
En lo que se refiere a los resultados grficos, la opcin dendrograma muestra el grfico de agrupacin visto anteriormente. En el caso del grfico de
tmpanos es posible elegir cuntos clsteres se desea visualizar. As la opcin
todos los conglomerados indicar el proceso de agrupacin de todos los
clsteres. Es posible establecer un rango de conglomerados para ser mostrados, as como el ritmo de aglomeracin. Por ejemplo, indicando iniciar en 2
y terminar en 10, en saltos de 2, el grfico mostrar la solucin para 2, 4, 6,
8 y 10 clsteres. Tambin es posible eliminar el grfico de tmpanos, o decidir la orientacin vertical u horizontal.
Los grficos son una utilidad para poder visualizar el proceso de agrupacin y las distancias en las que se efectan. Debemos recordar que cuanta
ms distancia, ms heterogeneidad se incorpora al conglomerado.
88
En la opcin mtodo encontramos las operaciones ya tratadas anteriormente. As, podremos elegir el mtodo que se prefiera de conglomeracin, la distancia que se desea emplear (de intervalo, recuentos o binaria) y para cada
una de ellas las diferentes medidas de proximidad o distancia. As mismo,
encontramos las opciones de estandarizar y normalizar las variables o los
casos antes del anlisis. Transformar las medidas recordemos que consiste
en modificar los coeficientes de distancia o proximidad que han sido calculados para cada par de objetos.
Por ltimo, y solamente para la opcin de efectuar clsteres con los casos,
tenemos la opcin de crear una nueva variable donde se indique la pertenencia de cada caso a cada uno de los conglomerados estimados. Nuevamente,
la opcin es crear una variable (solucin nica), donde se indique la pertenencia de cada caso a los clsteres decididos, o crear un conjunto de variables, donde cada una de ellas muestra la pertenencia de cada caso segn el
nmero de clsteres en esa solucin (Rango de soluciones).
En el caso de utilizar el programa SYSTAT la organizacin de los mens
es bastante similar al programa anterior. La eleccin en el men de la opcin
Analizar nos ofrece la opcin anlisis de clsteres, y dentro de ella las
opciones de jerrquicos y no jerrquicos (K-clsteres).
Dentro de la opcin jerrquicos, la mayor parte de las opciones ya son
conocidas. Tanto las opciones para elegir el mtodo para estimar las distancias entre clsteres, como la eleccin de la distancia elegida, el efectuar el
clster de filas (rows), que indican por lo habitual los casos, o de columnas
(columns) expresando variables son semejantes en los dos programas.
89
90
Aparecen, sin embargo, dos opciones especialmente interesantes, que implican a la expresin grfica. El programa SYSTAT ofrece la oportunidad de mostrar la agrupacin mediante un grfico polar como el que se muestra seguidamente, para el ejemplo de la agrupacin de pases segn calidad democrtica. Es la opcin polar, que se encuentra encima de la opcin guardar
en una variable nueva el clster de pertenencia.
Cuando no se solicita la opcin polar, se muestra el dendograma clsico.
91
92
El programa SYSTAT, ofrece varias opciones para estudiar ms en profundidad la formacin de los clsteres. Son las que se muestran en la pestaa de
opciones. En la columna izquierda aparecen las opciones para controlar la
profundidad y color del dendrograma, segn varios indicadores, como son
las distancias, pero tambin el nmero de casos en cada clster. En ese sentido, es ms flexible al incorporar la opcin del color como elemento sustantivo para reconocer el proceso de agrupacin.
En las pestaas de vinculacin (linkage) y distancia (distance) se puede
elegir entre varios mtodos de vinculacin y procedimientos de clculo de distancias. Los mtodos de vinculacin (Linkage) en SYSTAT, permiten elegir
entre Single, Complete, Average, Centroid, Median, Wards (Ward, 1963),
Weighted Average and Flexible beta.
SYSTAT ofrece dos mtodos para efectuar la agrupacin en base a la densidad. Uno de ellos es Uniform y el otro es K-nbd (vecino ms prximo).
En ambos mtodos se estima una probabilidad de densidad para los casos, y
se construye una nueva matriz de disimilaridad (combinando la estimacin
de probabilidad y la matriz de disimilaridad original). Ambos mtodos fueron explicados en pginas anteriores.
93
94
Los mtodos jerrquicos son operativos cuando el nmero de casos es relativamente pequeo. Cuando consideramos miles de casos deben buscarse estrategias que permitan formar los grupos o conglomerados mediante diferentes
algoritmos que definan lo que es un grupo, y los criterios de distancia o similitud para pertenecer a l. Como hemos advertido, los mtodos no jerrquicos son los adecuados cuando el nmero de casos es elevado. Vamos a considerar dos tipos diferentes de estimacin de conglomerados. Uno de ellos ms
tradicional, el mtodo de k-medias, en el que se debe indicar el nmero de clsteres a estimar y es aplicable exclusivamente a niveles de medicin de razn
o de intervalo. El segundo de los mtodos se basa en el empleo de las medianas para vertebrar la formacin de los clsteres12.
12. Existen otros mtodos como el anlisis de clster en dos pasos (two steps cluster analysis).
Este mtodo es aplicable a bases de datos con un gran nmero de casos, y no es imprescindible indicar un nmero previamente al anlisis. Es decir, los propone automticamente.
Existe una cierta controversia en la literatura especializada sobre las condiciones de apli-
95
96
anlisis multivariante de la varianza, donde los grupos (es decir, los casos
que los conforman) no son conocidos previamente. Por esta razn, an cuando empleemos el anlisis de varianza para evaluar la validez de los grupos,
es importante recordar que el procedimiento se orienta a optimizar el valor
de F por lo que es fcil que produzca valores elevados.
Es importante considerar que con este mtodo partimos de un nmero
concreto de clsteres. El procedimiento por el cual se van construyendo los
clsteres vara dependiendo de si se conoce el valor del centro de los grupos,
o si por el contrario los centros deben de ser estimados de forma iterativa,
eso s, siempre partiendo de un nmero prefijado de clsteres.
Ciertamente no siempre es posible tener una idea clara de cuntos grupos
pueden definir las distancias. Por eso, dado que este procedimiento exige que
se le indique el nmero de grupos que debe calcular, una solucin es extraer
una muestra aleatoria del total de los datos y sobre esta muestra parcial efectuar un anlisis jerrquico. Tal y como hemos visto anteriormente. Tras efectuar esa aproximacin de forma exploratoria, se puede determinar aproximadamente cuntos grupos parecen estar presentes en la matriz de datos y, asimismo, mediante este anlisis exploratorio previo es posible estimar un valor
inicial para el centro de cada clster. Los valores que corresponden en el anlisis jerrquico con los grupos buscados seran los valores de partida para
construir los k-grupos. El valor inicial para formar los clsteres a partir de l
es un elemento importante que debe decidir el investigador.
Ya con estos datos preliminares, el nmero de grupos y el valor de sus
centros, es posible iniciar el ajuste de los casos a dichos grupos mediante el
anlisis de k-medias. Consideremos este caso en el que los centros de los grupos son conocidos. Para cada caso calcularemos su distancia al centro de cada
uno de los grupos. El caso ser agregado al grupo de cuyo centro se encuentre ms prximo. Lo ideal es que la solucin final de clsteres, muestre unos
grupos cuyos centros se encuentran muy separados entre s, y donde adems
los casos que pertenecen a cada grupo se encuentren muy prximos a su centro. Este es un dato importante para determinar la bondad de la solucin.
Otros mtodos alternativos para estimar el centro de los clsteres analizan los datos varias veces. Debemos partir de la idea de que una buena solucin de clsteres debe de separar los casos lo bastante bien. Para ello, una
estrategia posible es partir de los casos con una mayor distancia entre ellos
y tomarlos como una estimacin de los centros de los futuros clsteres. As,
se tomaran tantos casos como nmero de grupos se haya especificado inicialmente. Conforme se van incorporando ms casos, uno de ellos ocupar
97
el centro del conglomerado cuando su distancia ms corta a uno de los centros sea mayor que la distancia entre ese centro con todos los dems.
Otras alternativas son tomar los k primeros casos (siendo k el nmero de
clsteres) como centros iniciales para los grupos, o por el contrario, tomar
los ltimos k casos. Tambin se pueden decidir de forma aleatoria los centros, eligindolos al azar, o en otra estrategia, agrupar aleatoriamente los
casos en los k grupos, y calcular la media, o la mediana, segn se est procediendo, de los casos que forman cada grupo. Estas medias (o medianas
segn el caso), formaran los valores iniciales para ir formando los grupos.
Existe la posibilidad de efectuar un anlisis de componentes principales
y ordenar los casos segn su valor en el primer componente. Despus se
dividen los valores por k (n/k), y se toma el primer valor de la primera particin como centro del primer clster, el primer valor de la segunda particin
de n/k como centro del segundo clster, y as hasta tomar todos los primeros
valores de cada particin.
Veamos el siguiente ejemplo, considerando los datos de calidad democrtica, podemos observar como los valores iniciales son los ms extremos.
En una solucin de dos conglomerados, la DIM1 inicia el clster 1 con el
valor 8 (el mximo de esa variable) y el clster 2 con el valor 1 (el mnimo
de esa variable).
Centros iniciales de los conglomerados
Conglomerado
1
DIM1
8,00
1,00
DIM2
9,50
3,80
DIM3
,70
-2,30
DIM4
1,30
-1,70
98
Historial de iteracionesa
Iteracin
3,433
3,544
,572
,253
,095
,018
,016
,001
,003
9,225E-5
,000
6,589E-6
7,359E-5
4,707E-7
1,226E-5
3,362E-8
2,044E-6
2,401E-9
10
3,407E-7
1,715E-10
11
5,678E-8
1,225E-11
12
9,463E-9
8,758E-13
13
1,577E-9
6,172E-14
14
2,629E-10
5,032E-15
15
4,381E-11
9,222E-16
16
7,302E-12
1,110E-16
17
1,217E-12
,000
18
2,033E-13
,000
19
3,390E-14
,000
20
5,626E-15
,000
21
9,155E-16
,000
22
,000
,000
El resultado de esta iteracin es una nueva estimacin del valor de cada variable respecto al centro de cada conglomerado. Este centro final se calcula como
la media para cada variable en el conglomerado final. En cierto modo, expresa
los valores caractersticos de un caso tpico en cada clster.
99
DIM1
6,91
4,19
DIM2
5,72
3,28
DIM3
1,90
-,73
DIM4
1,08
-,42
DIM1
DIM2
DIM3
DIM4
Error
Media
cuadrtica
gl
Media
cuadrtica
gl
24,272
34,614
19,433
3,240
1
1
1
1
1,960
1,912
1,821
1,248
16
16
16
16
Sig.
12,383
18,104
10,674
2,597
,003
,001
,005
,127
100
4,744
4,744
Por ltimo, se ofrece informacin sobre cuntos casos existen en cada conglomerado (tipologa o segmento).
Nmero de casos en cada conglomerado
Conglomerado
Vlidos
Perdidos
5,000
13,000
18,000
,000
El anlisis de clster es una tcnica eminentemente exploratoria, y sern sucesivos diagnsticos los que ayudarn a perfilar y decidir los grupos ms significativos.
Tambin es posible aplicar el anlisis k-grupos empleando medianas en
lugar de medias. El procedimiento es esencialmente igual que para k-medias,
excepto que se emplea la mediana para reasignar cada caso a cada clster, y
que el criterio de referencia es minimizar la suma intra-grupos de las desviaciones absolutas.
Tanto los procedimientos jerrquicos como los basados en k-grupos son
los procedimientos ms utilizados en la deteccin y estimacin de clsteres
101
102
103
Finalmente, permite dos criterios para excluir casos del anlisis segn sus
valores perdidos. Excluir los casos que tengan algn valor perdido en alguna variable (lista), o excluirlos parcialmente de aquellas parejas de variables
en las que presente un valor perdido. En esta situacin, los casos aparecen o
desaparecen segn su valor en cada pareja.
Clsteres con K-medias y K-medianas en SYSTAT
En SYSTAT se pueden realizar clsteres mediante K-medias y K-medianas.
Los dos procedimientos tienen el mismo objetivo, maximizar las diferencias
entre grupos y optimizar la homogeneidad intragrupos. En cierto sentido, equivale a efectuar un anlisis de varianza donde se desconocen los grupos y se
procede reclasificando de forma que el valor F se optimice.
En la ventana principal se eligen las variables, como es usual. Se debe
elegir qu procedimiento se desea utilizar para la formacin de clsteres, la
media o la mediana, mtodo ms robusto a los casos extremos. Seguidamente
se debe indicar el nmero de grupos que se quiere investigar. El nmero por
defecto es dos. Se puede decidir el nmero mximo de iteraciones, con un
valor por defecto de 20.
104
Debe decidirse qu distancia se va a utilizar para determinar las proximidades o las similitudes intra y entre clsteres.
Las distancias disponibles en SYSTAT para k-medias y k-medianas son Chicuadrado, Eucldea, Gamma, Minkowski, MW, Pearson, Phi-cuadrado,
R-cuadrado, Absoluta y Mahalanobis. Es posible guardar en una nueva variable el grupo de perteneca para cada caso as como los centros finales de cada
grupo.
105
Por ltimo, SYSTAT da nueve opciones para determinar cules van a ser los
centros desde los que iniciar la agrupacin de casos. None (ninguno) inicia
el procedimiento con un grupo, y calcula su centro (media o mediana). A partir de l construye dos, basndose en el valor ms alejado de ese centro, que
pasa a ser el centro de un segundo grupo. Con esos dos centros procede a clasificar los casos de forma ptima. Contina dividiendo grupos y reasignando
casos hasta alcanzar el nmero de k-clsteres especificado. First k (primeros k casos), tras tomar los primeros k casos (que presenten valores vlidos),
los adopta como centros de inicio para clasificar el resto de los casos. Last
k (ltimos k-valores) emplea el mismo sistema, solamente que tomando los
ltimos k valores. Random k (aleatoria) elige de forma aleatoria los k centros para iniciar la clasificacin. Random segmentation (segmentacin aleatoria) construye k grupos de forma aleatoria y calcula sus respectivas medias
o medianas. Posteriormente se adoptan dichas medias o medianas como valores iniciales para empezar a clasificar los casos. Principal component (componente principal) primero estima, y despus toma, el primer componente
principal como si fuese una variable. Tras ordenar todos los casos por su valor
en el componente, divide el nmero de casos por k (nmero de clsteres) y
construye los centros tomando el primer caso de cada grupo. Hierarchical
segmentation (segmentacin jerrquica), efecta el procedimiento de clster
jerrquico, con el criterio de vinculacin (linkage) que se especifique, y toma
los k grupos que resultan de ese anlisis como particin inicial que da origen
a la clasificacin. Partition variable (variable de particin) toma como cri-
106
terio para formar los k grupos (de los que extraer la media o mediana que inicia la clasificacin) de una variable que especifique el investigador. From
file, la opcin desde archivo indica que tenemos los centros de inicio de la clasificacin escritos en un archivo externo. Random seed pide que los valores iniciales que deben referenciar la clasificacin de los casos en los k grupos se estime de forma aleatoria.
4. EL ANLISIS FACTORIAL
Como se ha comentado anteriormente, los procedimientos estadsticos, en su
mayor parte, son aplicables a diferentes objetivos. Otro ejemplo de esto es
el denominado anlisis factorial. En esencia, determina qu variables o indicadores estn ms prximos entre s (forman clsteres) y partiendo de dichas
agrupaciones, procede a estimar una puntuacin para cada caso en ese grupo
de variables. Al igual que en el anlisis de clsteres, y como resultado de la
agrupacin de casos, se generaba una nueva variable donde se indicaba a qu
clster perteneca cada caso, en el anlisis factorial se emplean las variables
agrupadas para calcular una puntuacin para cada caso. La interpretacin
terica es ms amplia (los grupos de variables expresan un nico concepto terico, del que son expresin fragmentada), pero en la prctica, es una anlisis
de clsteres de variables que toma generalmente como unidad de proximidad
la correlacin o la covarianza.
Por ese motivo (empleo de la matriz de covarianzas o correlaciones), las
variables deben ser de tipo cuantitativo, con niveles de medicin de intervalo
o razn. Como principio general, las variables para las que se pueda calcular el coeficiente de correlacin de Pearson seran las ms adecuadas. La razn
bsica es que el modelo de anlisis factorial toma como presunciones que los
datos deben de mostrar una distribucin bivariable normal para cada par de
variables y las observaciones deben ser independientes entre ellas. En la prctica existe un uso generalizado del anlisis factorial en escalas de tipo Lickert,
y en forma exploratoria, de variables dicotomizadas (aprovechando las posibilidades de la correlacin tetracorica).
En sus aplicaciones concretas, es tambin un procedimiento multivariable para la construccin de ndices. Este procedimiento permite integrar en un
solo ndice a un conjunto de indicadores o variables, siendo esta una de sus
utilidades ms relevantes. El anlisis factorial representa una estrategia de
medicin amplia, til para la exploracin de conceptos tericos, incluyendo
el construir ndices. En estas pginas desarrollaremos tanto su utilidad como
herramienta para construir ndices, como sus otras potencialidades analticas.
108
109
110
111
112
de la explicacin del Indicador 1 anterior, las cinco dimensiones son denominadas factores comunes. De hecho, todos los indicadores (o variables) que
se consideran en el anlisis factorial pueden ser expresados como funciones
de todos los factores, con un peso mayor o menor de cada uno de ellos.
Indicador1 = a1 (Democracia) + b1 (Movilidad) + c1 (Inclusin) +
d1 (MAmbiente) + e1 (EconomaP) + Uind1
Indicador 2 = a2 (Democracia) + b2 (Movilidad) + c2 (Inclusin) +
d2 (MAmbiente) + e2 (EconomaP) + Uind2
Indicador 3 = a3 (Democracia) + b3 (Movilidad) + c3 (Inclusin) +
d3 (MAmbiente) + e3 (EconomaP) + Uind3
Y as hasta el indicador n, cuando en el anlisis se incluyen n indicadores (o
variables observadas)
Indicador n = an (Democracia) + bn (Movilidad) + cn (Inclusin) +
dn (MAmbiente) + en (EconomaP) + Uindn
La letra U en la ecuacin se denomina factor nico, y representa aquella
parte de la variabilidad que se observa en el Indicador (o variable) que no
puede ser explicada por los factores comunes. Con carcter general la ecuacin anterior puede expresarse de la siguiente forma.
Para una variable o indicador I
Ii = Ai1F1 + Ai2F2 + Ai3F3 .. + AikFk + Ui
Donde F son los factores comunes, la U es el factor nico y las A son los
coeficientes que combinan los k factores. Los factores nicos se asume que
no estn correlacionados entre s y que tampoco estn correlacionados con
los factores comunes.
Cuando consideramos el anlisis de componentes principales, observamos que la ecuacin anterior se gira. Si el anlisis factorial considera a los
indicadores o variables observadas como el resultado de una combinacin
lineal de los factores ms un error, el mtodo de componentes principales
considera los componentes como una combinacin lineal de los indicadores
o variables observadas.
Al igual que los indicadores (o variables) pueden expresarse como combinacin lineal de los factores, los componentes son estimados empricamente
desde estos mismos indicadores (o variables observadas). En ese sentido la estimacin de los componentes como combinacin lineal de una serie de variables
se notara de la siguiente forma. Tomando, por ejemplo, la dimensin poltica,
113
114
Cuadro Secuencia
de un anlisis
factorial
0DWUL]GHFRUUHODFLRQHVRULJLQDO0RGHORIDFWRULDO
([WUDFFLyQ
5HSURGXFFLyQ
&RPSDUDFLyQ
115
forman un grupo (factor) y las dems debera mostrar una correlacin baja.
En definitiva, se espera existan clsteres de variables altamente relacionadas
entre s, y muy poco con las dems. Por ello, el anlisis factorial se ocupa de
descomponer la matriz de covarianza. La covarianza y la correlacin son similares: la correlacin es, en esencia, una covariacin cuando las variables
estn normalizadas. Uno de los motivos para emplear la matriz de correlaciones y no la de covarianzas es para reducir el impacto de emplear variables
con escalas muy diferentes. La correlacin entre ingresos y edad es fcilmente comparable con la correlacin entre otras dos variables con rango de
1 a 10, por ejemplo. As, la matriz de correlaciones es til cuando las variables estn medidas en diferentes escalas, mientras que la matriz de covarianzas es preferible cuando el anlisis se va a aplicar en mltiples grupos con
diferentes varianzas en las variables consideradas.
Planteando un ejemplo, considerando lo anterior, una matriz de correlaciones como la siguiente, expresara la posibilidad de la existencia de cuatro
factores (o dimensiones) que seran los responsables de los grupos de variables
correlacionadas entre s. Esto es evidente en el caso de que las variables v1
a v12 representen una batera de variables o indicadores que intentan medir un
fenmeno o realidad social.
Matriz de correlaciones simulada
Var1
Var2
Var3
Var4
Var5
Var6
Var7
Var8
Var9
Var10
Var11
Var12
Var1 Var2
1
.9
1
.7
-.8
.9
-.7
.1
.1
.2
.2
.1
.1
-.3
.2
.2
.1
-.1
.2
.2
.1
-.2
.1
Var3
1
.9
.2
.1
.2
.1
.2
.1
.1
.2
1
.9
.7
.8
.2
.1
.3
.1
.2
1
.6
.7
.1
.2
.1
.1
.2
1
.9
.2
.1
.2
.1
.1
1
.6
.8
.7
.3
.2
1
.9
.8
.1
.1
1
.6
.2
.2
1
.7
.8
1
-.9
En este caso que empleamos para ilustrar la idea anterior hay dos aspectos
que deben advertirse. Primero, que las variables estn ordenadas en la matriz
segn su correlacin entre ellas, formando grupos. Esto no es habitual, y salvo
116
que el investigador decida construir la matriz con esa intencin (introduciendo en el anlisis las variables en un orden que forme grupos entre las variables
que cree estn relacionadas) lo ms frecuente es que las variables estn desordenadas de modo que los grupos que forman son ms difciles de apreciar.
Lo segundo, es que los coeficientes no acostumbran a ser tan diferenciados
en su magnitud entre altos y bajos. Con frecuencia, alguna de las variables
de un grupo est relacionada con un coeficiente de correlacin significativo
con alguna de las variables de otro grupo. Es decir, que parte de la variabilidad de una variable expresa un factor, y otra parte de su variabilidad expresa otro (u otros) factores.
En la investigacin social es bastante frecuente encontrarnos con la situacin donde una variable expresa varias dimensiones. Es en otras disciplinas,
como la psicometra, donde el nfasis se pone en que una variable o indicador
exprese un nico factor o dimensin.
Por ello, una de las primeras acciones al plantear hacer un anlisis factorial consiste en examinar la matriz de correlaciones entre las variables que
van a formar parte del anlisis.
Vamos seguidamente a considerar otro ejemplo donde los casos son los
individuos que responden a una encuesta de opinin pblica. Los datos proceden del barmetro del Centro de Investigaciones Sociolgicas, Estudio 3021
de abril de 2014. Las variables recogen las actividades de participacin no convencional que han desarrollado los entrevistados.
V1 'Comprar ciertos productos por razones polticas, ticas o para favorecer el medio ambiente'
V2 'Dejar de comprar o boicotear ciertos productos por razones polticas,
ticas o para favorecer el medio ambiente'
V3 'Participar en una huelga'
V4 'Asistir a una manifestacin'
V5 'Asistir a una reunin o mitin poltico'
V6 'Contactar o intentar contactar con un/a poltico/a para expresarle sus
opiniones'
V7 'Donar o recaudar fondos para una actividad social o poltica'
V8 'Contactar o comparecer ante los medios de comunicacin para expresar sus opiniones'
V9 'Participar en un blog, foro o grupo de discusin poltica en Internet'
V10 'Firmar una peticin/recogida de firmas'
La matriz de correlaciones siguiente expresa las relaciones entre las variables anteriores.
117
V2
V3
V4
V5
V6
V7
V8
V1
V2
0,754
V3
0,297 0,296
V4
V5
V6
0,47
V7
V8
V9
V10
0,48
0,31
V9
V10
1
0,33
1
1
1
1
1
118
asociada es baja podemos rechazar la hiptesis de que la matriz de correlacin sea una matriz identidad. En el caso de que el coeficiente Chi-cuadrado de la prueba de esfericidad sea excesivamente bajo, cabe plantearse abandonar la idea de efectuar un anlisis factorial de ese conjunto de variables.
KMO y prueba de Bartlett
Medida de adecuacin muestral de Kaiser-Meyer-Olkin.
Prueba de esfericidad de bartlett
Chi-cuadrado aproximado
gl
,819
8589,326
45
Sig.
,000
Tal y como se observa para el caso que nos ocupa, el test de bartlett ofrece
un coeficiente chi-cuadrado de 8589.326 y una significacin de 0.000. En
ese sentido podemos rechazar la hiptesis nula que afirma que la matriz de
correlacin anterior pueda ser en realidad una matriz identidad.
Otro indicador de la fuerza de relacin entre las variables es el coeficiente de correlacin parcial. Cuando todas las variables comparten factores comunes, la correlacin parcial entre pares de variables debera de ser baja cuanto se suprimen los efectos lineales de las dems variables. En definitiva, la
correlacin parcial es una estimacin de la correlacin entre los factores nicos. Estas correlaciones deberan de ser prximas a cero para poder cumplir
las presunciones que habamos planteado. Recordemos que se afirmaba que
no existe correlacin entre los factores nicos.
Una primera aproximacin para emplear la informacin que aporta la
correlacin parcial es comparar la matriz de correlaciones parciales con la
matriz de correlaciones observadas. Si la suma de los coeficientes de correlacin parcial al cuadrado (entre todos los pares de variables) es muy baja,
cuando se la compara con la suma de los coeficientes de correlacin observada al cuadrado, el coeficiente ser igual a 1. Es el denominado coeficiente Kaiser-Meyer-Olkin (KMO) de adecuacin muestral. El coeficiente KMO
expresa el sumatorio de correlaciones observadas al cuadrado, divididas por el
sumatorio de las correlaciones observadas al cuadrado ms el sumatorio de
correlaciones parciales al cuadrado.
KMO =
S S r2ij
ij
S S r ij + S S a2ij
ij
ij
119
CAM =
ij
S r2ij + S a2ij
ij
ij
120
V1
V2
V3
V4
V5
V6
V7
V8
V9
V10
V1
,736a
-0,682
-0,006
-0,026
0,006
-0,02
-0,094
-0,057
-0,023
-0,102
V2
,730a
-0,028
-0,031
-0,036
0,026
-0,06
-0,026
-0,051
-0,022
V3
V4
,775a
-0,603 ,777a
-0,029 -0,176
0,003 0,012
0,035 -0,068
-0,086 0,018
-0,052 -0,06
-0,08 -0,171
V5
,883a
-0,301
-0,068
-0,056
-0,004
-0,008
V6
V7
V8
V9
V10
,834a
-0,132
,909a
-0,318 -0,046
,860a
-0,147 -4,83E-05 -0,274 ,900a
-0,059 -0,237 -0,021 -0,087 ,914a
Podemos observar en la diagonal valores elevados de KMO para cada variable, oscilando entre .73 (aceptable) y .90 (meritorio). Por la magnitud de los
coeficientes de cada variable, no parece necesario retirar ninguna variable
del anlisis. Asimismo, el estudio de la matriz anti-imagen nos permite comprobar que los coeficientes son en general muy bajos, con alguno muy elevado, como entre V1 y V2, con un coeficiente de -0.6. De hecho la KMO de
V1 y V2 son las ms bajas de la diagonal. Es el momento de determinar la
lectura terica de las dos variables (comprar o no comprar productos), que
expresan un cruce entre sociedad de consumo y posicionamiento ideolgico
y social. De hecho, la tercera variable en correlacin con ellas se refiere al
hecho de donar (dinero) a formaciones de orientacin poltica. El analista debe
incorporar la lectura al resto del anlisis, sabiendo que el posible factor este
contaminado por aspectos diferentes a la participacin social, como es la orientacin hacia el consumo.
Otra referencia a considerar es el coeficiente de correlacin mltiple al
cuadrado entre una variable y todas las dems. Es un buen indicador de la
fuerza de la asociacin lineal entre variables. Esos valores se mostrarn bajo
la columna etiquetada Comunalidades. Si el mtodo de extraccin es el de
Componentes Principales, al inicio del anlisis a cada variable se le concede una comunalidad de 1. Es tras la extraccin que se determinar la comunalidad de cada variable en el contexto de la estructura factorial estimada. Aquellas variables con coeficientes de comunalidad bajos, (R2 mltiple) seran
buenas candidatas para ser eliminadas, en el proceso de optimizar la relacin
entre factores y variables.
121
En el caso que estamos considerando, es la variable que recoge la experiencia, o la intencin, de Donar dinero a una organizacin poltica la que
muestra una comunalidad menor (.38). Es decir, una menor relacin lineal
con las dems variables. No obstante, la cuanta de esta comunalidad no es
decisoria por s misma para excluir la variable del anlisis.
Comunalidades
Inicial Extraccin
Comprar ciertos productos por razones polticas, ticas o
para favorecer el medio ambiente
1,000
,840
1,000
,826
1,000
,797
1,000
,830
1,000
,468
1,000
,703
,389
1,000
,639
1,000
,485
1,000
,485
Todos estos procedimientos que hemos considerado estn orientados a determinar la consistencia entre la estructura de los datos y la estructura factorial
(estructura latente) que proponemos para ella. Como hemos podido comprobar, aportan informacin sustantiva que va ms all de la estadstica. Los
coeficientes deben orientarnos sobre las decisiones que deben tomarse acerca de la inclusin o exclusin de variables en el anlisis, e incluso sugerir
ideas sobre la posible contaminacin de otros significados en la varianza
recogida por las variables, diferentes a los que pretenda la intencin original
de medicin.
122
123
124
Son muchos los mtodos alternativos disponibles para explorar la estructura (clsteres) de variables y proponer una reduccin significativa (tanto tericamente como empricamente) de las variables o indicadores. No obstante,
adems de las referencias estadsticas, es esencial que el criterio fundamental
que dirija la interpretacin de la solucin factorial sea de carcter terico.
No obstante, adems de la vertiente estadstica y las diferentes concepciones de bondad de ajuste, un aspecto esencial es determinar cuntos factores
necesitamos para representar los datos. Para ayudar a tomar esa decisin podemos considerar varios aspectos de tipo estadstico y terico. Recordando siempre que el significado terico es el ms sustantivo, el estadstico es simplemente instrumental.
Desde el punto de vista estadstico, en el momento de decidir cules son
los factores, es frecuente examinar el porcentaje de la varianza total explicada por cada factor. La varianza total es la suma de la varianza de todas las
variables. Si en un anlisis tenemos 20 variables, la varianza total sera igual
a 20, dado que la varianza de cada una de las variables es 1. Para que sea ms
comprensible la lectura, tanto las variables como los factores se expresan de
forma estandarizada, con una media de cero y desviacin tpica de uno. El total
de la varianza explicada por cada factor aparece en la columna como autovalores. En ella se observa la varianza explicada que se le puede atribuir a cada
factor. La ltima columna, muestra el porcentaje acumulado de la varianza
explicada por cada factor, sumada con la varianza explicada de los que le
preceden en la tabla. Normalmente los factores aparecen ordenados segn la
cantidad de varianza que explican.
Varianza total explicada
Componente
Autovalores iniciales
Total
% de la
%
varianza acumulado
% de la
%
varianza acumulado
4,172
41,724
41,724
4,172
41,724
41,724
1,212
12,119
53,842
1,212
12,119
53,842
1,076
10,761
64,604
1,076
10,761
64,604
,804
8,035
72,639
,734
7,341
79,979
,536
5,361
85,340
,517
5,173
90,513
Componente
Autovalores iniciales
Total
% de la
%
varianza acumulado
,430
4,298
94,811
,275
2,752
97,563
10
,244
2,437
100,000
125
% de la
%
varianza acumulado
126
127
128
Matriz de componentesa
Componente
F1
F2
F3
de los factores. Esos coeficientes son llamados cargas factoriales, dado que
indican cuanto peso se le asigna a cada factor en su relacin con las variables.
Los factores con coeficientes ms elevados en valor absoluto expresan una
relacin ms intensa entre esa variable y el factor. Por ejemplo, la variable
asistir a una manifestacin tendra la siguiente expresin
Asistir a una manifestacin = .71 (F1) + .12 (F2) + (-.55) (F3)
El signo de la carga factorial (el coeficiente de cada factor para cada variable) en cada factor o componente es arbitrario. No lo es en la relacin entre signos, que debe conservarse, pero s su carcter positivo o negativo. En el caso
que un factor o componente contenga ms signos negativos que positivos, es
factible cambiar el signo negativo a positivo, cambiando los positivos existentes a negativos. Algunos programas, como SYSTAT, realizan ese cambio
de signos de forma automtica cuando en un factor o componente hay ms signos negativos que positivos. En ese caso, cambia los negativos a positivos y
129
viceversa. Este hecho hace que las soluciones factoriales que ofrece este programa puedan no coincidir en los signos de las cargas factoriales con las que
ofrecen otros programas.
Los factores pueden estar correlacionados entre ellos o ser independientes
entre ellos. En este segundo caso, cuando los factores estimados no estn
correlacionados entre ellos, se afirma que son ortogonales. Si los factores son
ortogonales, las cargas factoriales expresan tambin las correlaciones entre los
factores y las variables. La matriz de correlaciones entre las variables y los factores se denomina matriz de puntuacin factorial. Dependiendo del tipo de
rotacin que pidamos, obtendremos tras la rotacin una o dos matrices.
En el caso de rotacin oblicua (factores interdependientes) se obtienen
dos matrices, que se denominan matriz de estructura y matriz de configuracin. Cuando los factores son ortogonales, la matriz de estructura y la
matriz de configuracin son equivalentes y slo se produce una nica matriz
que se denomina matriz factorial.
Para efectuar una interpretacin de la matriz factorial, tanto cuando los
factores son ortogonales como cuando no lo son, podemos plantear que las
cargas factoriales son los coeficientes de regresin estandarizados en la ecuacin de regresin mltiple, donde la variable original es la dependiente y los
factores las variables independientes.
Si adems los factores no estn correlacionados, los valores de los coeficientes no dependen unos de otros. Representan la contribucin nica de cada
factor y definen la correlacin entre factor y variable.
Cuando la rotacin es oblicua, las cargas factoriales y las correlaciones
entre las variables y los factores ya no coinciden. Las cargas factoriales continan siendo los coeficientes de correlacin parcial, pero ya no coinciden con
la correlacin (entre variable y factor). Los coeficientes de correlacin se
muestran en una nueva matriz denominada matriz de estructura.
As, en la rotacin ortogonal se produce una sola matriz donde coinciden
regresin parcial y coeficientes de correlacin. En la rotacin oblicua se producen dos diferentes, la matriz de configuracin donde se recogen las cargas
factoriales y la matriz de estructura, donde se recoge la correlacin entre
factores y variables.
Para determinar cmo ajusta el modelo anterior de tres factores, y conocer cmo describe las variables originales, es posible calcular el porcentaje
de varianza de cada variable que es explicada por el modelo de tres factores.
Dado que en este ejemplo los factores no estn correlacionados, la proporcin total de varianza explicada es simplemente la suma de la proporcin de
varianza explicada por cada factor. Recordemos que la proporcin de varianza
explicada por los factores comunes determina la comunalidad de la variable.
130
Para calcular el porcentaje de varianza de una variable que viene explicada por
los factores, se eleva al cuadrado el coeficiente de correlacin entre factor y
la variable.
Varianza explicada de Participar en una huelga =
(.665)2 + (.147)2 + (-.577)2 = .44 + .02 + .33 = .79
Las comunalidades de las variables, aparecen en las estadsticas finales, tras
mantener en el anlisis el nmero deseado de factores. Las comunalidades
pueden oscilar entre cero y uno. Cero indicando que los factores comunes no
explican varianza alguna, y uno indicando que toda la varianza de la variable es explicada por los factores comunes. La varianza que no es explicada
por los factores comunes se atribuye a lo que se denomina factor nico o
tambin unicidad de la variable.
Otra estrategia para conocer en qu condiciones se est ajustando el modelo, es mediante la matriz de correlacin reproducida. Como sabemos una de
las presunciones bsicas del anlisis factorial es que la correlacin observada entre variables se debe a que comparten factores comunes. Por ello, la
correlacin calculada entre factores y las variables puede ser empleada para
estimar las correlaciones entre variables. Es decir, reproducir las correlaciones
sobre las que se ha construido el modelo.
4.5. DIAGNSTICO: LA MATRIZ DE CORRELACIONES ESTIMADAS (REPRODUCIDAS)
Como sabemos, una vez especificado y ajustado el modelo de factores, podemos reproducir las correlaciones o covarianzas entre variables. En otras palabras, si la solucin factorial ha logrado representar adecuadamente a la estructura de datos original (matriz de correlacin), la que se genere desde el modelo debera parecerse mucho a la original. Para calcular y estimar las correlaciones entre las variables a partir de los factores, tomemos por ejemplo las
variables A y b. Se multiplica el coeficiente (su carga) de la variable A por
el coeficiente (carga) de la variable b en el primer factor, a ese resultado se
le suma el producto de la carga de la variable A por la carga de la variable b
en el segundo factor, y se le suma el producto de la carga de la variable A
por la carga de la variable b en el tercer factor. La suma de productos es igual
a la correlacin estimada entre las dos variables. Es decir, desde el modelo
(que simplifica la matriz de correlaciones observadas) se recalculan y reproduce la matriz de correlaciones que le dio origen.
Es posible solicitar que los programas nos impriman la matriz reproducida de correlaciones. A partir de ese momento, comparando la matriz de correlaciones observadas con la matriz reproducida de correlaciones, podemos obtener un residual para cada correlacin comparada. Los residuales (es decir la
131
V1
V2
V3
V4
V5
V6
V7
V8
V9
V10
V1
,840a
0,832
0,267
0,317
0,202
0,244
0,488
0,308
0,304
0,461
V2
V3
V4
V5
V6
V7
V8
V9
V10
,826a
0,262
0,31
0,186
0,222
0,477
0,287
0,286
0,452
,797a
0,812
0,425
0,257
0,323
0,256
0,298
0,54
,830a
0,446
0,285
0,356
0,287
0,326
0,569
,468a
0,522
0,327
0,495
0,449
0,369
,703a
0,38
0,666
0,571
0,326
,389a
0,396
0,368
0,392
,639a
0,551 ,485a
0,342 0,346 ,485a
-0,03
-0,144
-0,165
-0,004
-0,093
-0,11
0,038
-0,075
-0,031 -0,019
Residualb
V1
V2
V3
V4
V5
V6
V7
V8
V9
V10
-0,078
0,029
0,016
0,044
0,024
-0,122
0,006
-0,01
-0,08
0,034
0,018
0,061
0,021
-0,135
0,007
0,003
-0,105
-0,097
-0,087 -0,039
0,021 0,018
-0,062 -0,029
0,067 0,025
0,024 0,009
-0,135 -0,107
-0,053
-0,028
-0,15
-0,168
-0,077
Debajo de la matriz aparece un mensaje indicando cuantos residuales son mayores de 0.05 en valor absoluto. As por ejemplo, hay un 46% de residuales que
132
133
Donar o recaudar fondos para una actividad social o poltica ,370 ,444 ,234
Asistir a una manifestacin
134
135
Autovalores iniciales
Total % de la
%
Total % de la
%
Total % de la
%
varianza acumulado
varianza acumulado
varianza acumulado
1
4,172
41,724
41,724
4,172
41,724
41,724
2,331
23,314
23,314
1,212
12,119
53,842
1,212
12,119
53,842
2,065
20,651
43,965
1,076
10,761
64,604
1,076
10,761
64,604
2,064
20,639
64,604
,804
8,035
72,639
,734
7,341
79,979
,536
5,361
85,340
,517
5,173
90,513
,430
4,298
94,811
,275
2,752
97,563
10
,244
2,437
100,000
Precisamente, una de las crticas a la rotacin es que diferentes rotaciones producen diferentes cargas factoriales de las variables en los factores y con ello
pueden producir diferentes significados para los factores en los que cargan.
Tenemos que considerar que las variables permiten identificar el significado
terico del factor (en el anlisis exploratorio especialmente), por lo que el
cambio de carga de las variables influye en la posible modificacin del significado del factor. No obstante, esta volatilidad potencial puede ser controlada,
al menos en su presencia e impacto, comparando los efectos de diferentes rotaciones y el modo en que puedan afectar el significado de los factores.
Veamos seguidamente un ejemplo del empleo de las rotaciones buscando
el significado terico de la estructura factorial. Las variables siguientes analizan la confianza en instituciones en Espaa, segn el barmetro del Centro
de Investigaciones Sociolgicas, de abril de 2014. En una escala de 0 a 10, se
valoran las siguientes instituciones y actores sociales, polticos y econmicos.
'La Monarqua'
'El Gobierno'
'El Parlamento'
'El Gobierno de su comunidad autnoma'
'El Parlamento de su comunidad autnoma'
'El Tribunal Constitucional'
136
,904
Chi-cuadrado aproximado
19553,401
gl
120
Sig.
,000
Parece que es una idea sensata buscar una estructura factorial tras la valoracin de la opinin pblica de las instituciones. El anlisis, tras la extraccin
mediante componentes principales, y valor de seleccin del autovalor igual o
superior a 1 da lo siguiente.
Varianza total explicada
Componente
Autovalores iniciales
Total
% de la
%
varianza acumulado
% de la
%
varianza acumulado
7,825
48,906
48,906
7,825
48,906
48,906
1,810
11,312
60,217
1,810
11,312
60,217
1,110
6,935
67,152
1,110
6,935
67,152
,864
5,402
72,554
Componente
5
6
Autovalores iniciales
,664
4,151
3,216
,461
2,881
87,419
,434
2,715
90,135
10
,402
2,510
92,644
11
,323
2,019
94,663
12
,269
1,679
96,342
13
,239
1,495
97,837
14
,181
1,134
98,971
15
,107
,670
99,641
,057
,359
% de la
%
varianza acumulado
81,322
,515
Total
Total % de la %
varianza
acumulado
,739
4,617
77,171
16
137
84,538
100,000
Considerando
el grfico
tambin sugiere que tres compo
de sedimentacin,
nentes (factores o dimensiones) pueden ser una solucin adecuada.
138
Sin embargo, desde el punto de vista terico, la identificacin del significado de los factores es confusa al adoptar una estructura factorial de tres
componentes.
Tras la rotacin, en la matriz factorial siguiente podemos apreciar las
cargas de cada variable en cada factor. Como sabemos, esto ayuda a facilitar la interpretacin del significado terico de los factores. Observando la
siguiente matriz factorial es posible proponer algunas posibilidades.
Matriz de componentes rotadosa
Componente
1
,865
,221
,856
,201
El Parlamento
El Gobierno
,751 ,432
El Tribunal Constitucional
La Guardia Civil
,893 ,149
La polica
La Monarqua
,491 ,587
La Iglesia catlica
Los sindicatos
,167
,835
139
cuarto factor, la dimensin "Autoridades" pasa a ser una de las dimensiones con
ms peso, segn la varianza total explicada. La dimensin Democracia aparece desdoblada en dos tipos diferentes. Por una parte la democracia representativa con los partidos polticos o los parlamentos y por otra, el poder judicial.
Matriz de componentes rotadosa
Componente
1
La Guardia Civil
,896
,162 ,137
La polica
La Monarqua
La Iglesia catlica
El Gobierno
El Parlamento
El Tribunal Constitucional
Los sindicatos
,318 ,181
,717
140
Una de las conclusiones es que la valoracin que la sociedad ha efectuado toma como criterio de referencia el poder. Otra conclusin, que la divisin de tres poderes que propusiera Montesquieu, desde el punto de vista de
la opinin pblica espaola, aparece estructurado en la prctica en cuatro, con
el poder legislativo y ejecutivo combinado en una dimensin de a) representacin, un poder referido a los responsables del b) orden (social y moral),
otro factor c) poder judicial y un cuarto con los b) poderes econmicos y
de los medios de comunicacin. En cierto sentido, implica el reconocimiento de los medios de comunicacin como actores econmicos, empresas que
buscan el beneficio econmico sobre la informacin.
La agrupacin de los actores sociales e instituciones, en este inters exploratorio, puede facilitar informacin especialmente relevante. Un ejemplo de
ello es la valoracin de la Iglesia Catlica en Chile y Argentina tras los periodos de dictadura militar en la segunda mitad del siglo XX (Alaminos, 1987;
1991). La Iglesia Catlica, en Chile, apareca agrupada con la dimensin
democrtica: universidades, partidos de la oposicin al general Pinochet, o medios de comunicacin democrticos; por el contrario, en Argentina, la opinin pblica ubicaba a la Iglesia Catlica junto a la dictadura: el ejrcito,
gobierno e instituciones antidemocrticas. Esta doble posicin de la Iglesia
Catlica segn el pas viene explicada por el diferente papel que ejerci durante la represin militar. Mientras que la jerarqua de la iglesia catlica chilena actu de forma ms protectora con los represaliados, la jerarqua argentina se aline claramente con la dictadura, dndole legitimidad y apoyo. En el
caso de Espaa, donde la Iglesia Catlica fue un factor esencial de legitimacin y apoyo a la dictadura del general Franco, an es percibida como un actor
conservador e institucional.
Como podemos apreciar, las rotaciones permiten evaluar la percepcin
social de los actores, los criterios latentes para efectuar dichas evaluaciones,
as como el modo en que forman agrupaciones con sentido terico.
Como se debati al inicio de este texto, una de las cuestiones centrales es
nombrar las realidades que puedan detectarse mediante la exploracin con el
anlisis factorial. Emplear un concepto u otro conduce a desarrollos argumentales muy diferentes, como puede apreciar el lector en los prrafos anteriores.
4.7. LAS PUNTUACIONES FACTORIALES
Como resultado del procedimiento es posible crear una nueva variable para
cada factor, donde se recojan las puntuaciones de cada caso en el factor. Recordemos que el procedimiento aspira a medir dimensiones que son expresadas de forma observable mediante indicadores y variables. El anlisis factorial es, entre otras utilidades, un procedimiento para reducir la multivaria-
141
142
Algunos programas facilitan una puntuacin factorial estimada mediante regresin. Sin embargo, estas no pueden considerarse en puridad estadstica una estimacin como tal. En el caso de SYSTAD, solamente permite crear
y guardar un factor con las puntuaciones cuando se utiliza el mtodo de componentes principales. No permite la opcin cuando se emplea cualquier otro
mtodo en el anlisis factorial.
Otros programas, como SPSS, ofrecen tres mtodos para estimar aproximadamente una puntuacin para cada caso en cada factor. Sin embargo, cuando se emplee el mtodo de componentes principales para la extraccin, siempre generar el valor para cada caso en el factor con este mtodo: factores
ortogonales y puntuaciones estimadas con propiedades estadsticas adecuadas. El programa impone el criterio del mtodo de componentes principales,
independientemente de que se solicite algn tipo de rotacin oblicua posterior o se seleccione otro procedimiento para calcular los valores en el factor.
En ese sentido, acta como SYSTAT cuando se emplean componentes principales.
Los mtodos de regresin pueden emplearse tambin para estimar aproximadamente los valores de cada caso en el factor. Existen muchos mtodos
alternativos (Tucker, 1971; Harman, 1967) que producen puntuaciones con
diferentes propiedades. En el caso de aplicar el mtodo de regresin en SPSS
(ajustando anteriormente con mtodos diferentes a componentes principales),
producen puntuaciones con una media de cero y varianza igual a la correlacin mltiple al cuadrado entre las puntuaciones estimadas en los factores y
los valores reales. Los factores pueden estar correlacionados incluso con una
rotacin ortogonal15. Otro mtodo que ofrece SPSS es bartlett (bartlett 1937,
1938), donde nuevamente las puntuaciones estimadas tienen una media de
cero. El procedimiento intenta minimizar la suma de cuadrados de los factores nicos. Por ltimo, la tercera opcin que permite el programa es AndersonRubin, que partiendo de una modificacin del mtodo anterior, estima puntuaciones con una media de cero, una desviacin tpica de 1 y los factores
son ortogonales. Una informacin ms detallada puede encontrarse en Harman
(1976) o Lawley and Maxwell (1971). En ocasiones, la media de cero no es
15. Aunque la correlacin entre dos factores se defina como cero (ortogonales) desde el plano
terico, el clculo matricial no siempre permite esa situacin. Equivale a cuando en una
regresin de una variable y sobre una variable x se exige que el error ey no est
correlacionado con la variable y, (y = a + bx + ey) (ecuacin a). Si ese criterio se respeta, ya no puede ser satisfecho y cumplido en la regresin de x sobre y, (x = a + by
+ ex) (ecuacin b). Las restricciones en una ecuacin (a) condiciona a la otra (b) y pone
en contradiccin la exigencia terica y la prctica.
143
144
PIb per
cpita
41 Chile
0,822
80
9,8
15,1
20804
44 Cuba
0,815
79,3
10,2
14,5
19844
49 Argentina
0,808
76,3
9,8
16,4
17297
50 Uruguay
0,79
77,2
8,5
15,5
18108
65 Panam
0,765
77,6
9,4
12,4
16379
67 Venezuela
0,764
74,6
8,6
14,2
17067
68 Costa Rica
0,763
79,9
8,4
13,5
13012
71 Mxico
0,756
77,5
8,5
12,8
15854
79 brasil
0,744
73,9
7,2
15,2
14275
82 Per
0,737
74,8
13,1
11280
98 Colombia
0,711
74
7,1
13,2
11527
98 Ecuador
0,711
76,5
7,6
12,3
9998
0,7
73,4
7,5
12,3
10844
111 Paraguay
0,676
72,3
7,7
11,9
7580
113 bolivia
0,667
67,3
9,2
13,2
5552
115 El Salvador
0,662
72,6
6,5
12,1
7240
125 Guatemala
0,628
72,1
5,6
10,7
6866
132 Nicaragua
0,614
74,8
5,8
10,5
4266
102 Repblica
Dominicana
Fuente: http://hdr.undp.org/es/data
145
Autovalores iniciales
Total
% de la
%
varianza acumulado
3,032
75,798
75,798
,498
12,448
88,245
,274
6,840
95,086
,197
4,914
100,000
Total
% de la
%
varianza acumulado
3,032
75,798
75,798
,892
,894
,911
,779
En ese sentido, el anlisis factorial ofrece una forma multivariante de simplificar los indicadores utilizados y la realidad que expresan. Es en el clculo del ndice donde podemos adoptar estrategias alternativas. En el clculo habitual del IDH, se emplean procedimientos aritmticos para integrar
todos los valores (de cada indicador) en el ndice final. El procedimiento
del anlisis factorial tambin produce una integracin de los indicadores
para producir un ndice final. Sin embargo, el procedimiento ser un poco
ms complejo y siguiendo una lgica de ajuste multivariable. En la tabla
siguiente podemos comparar las puntuaciones Z del factor (es decir, centradas con una media de cero) con el ndice del IDH calculado a partir de los
mismos valores.
146
Pas
41
Chile
0,822
0,79656
44
Cuba
0,815
0,73501
49
Argentina
0,808
0,76182
50
Uruguay
0,79
0,58271
65
Panam
0,765
0,3311
67
Venezuela
0,764
0,35384
68
Costa Rica
0,763
0,38072
71
Mxico
0,756
0,27599
79
brasil
0,744
0,26239
82
Per
0,737
0,20223
98
Colombia
0,711
0,00646
98
Ecuador
0,711
0,02155
0,7
-0,0796
102
Repblica
Dominicana
111
Paraguay
0,676
-0,1847
113
bolivia
0,667
-0,09759
115
El Salvador
0,662
-0,27395
125
Guatemala
0,628
-0,5305
132
Nicaragua
0,614
-0,4786
Este mtodo de estimacin puede dar resultados diferentes. En este caso, por
ejemplo, cambian de posicin pases como Panam (IDH 0,765), Venezuela
(IDH 0,764) y Costa Rica (IDH 0,763), y que determinando el ndice mediante anlisis factorial (estadstica multivariante) ofrece el orden inverso con Costa
Rica (0,38), Venezuela (0,35) y Panam (0,33). Muy posiblemente, en la medida que el peso de la "Educacin" es ms elevado en el ndice estimado mediante anlisis factorial. En el ndice calculado mediante el anlisis factorial, Ecuador aparece en una posicin media para el conjunto de los pases considerados. Su valor es de 0,02 cuando la media es cero. Evidentemente, puede normalizarse las puntuaciones factoriales por cualquiera de los procedimientos
considerados en el captulo 2.
147
La conclusin es evidente. El anlisis factorial (o de componentes principales) permite conocer el peso emprico de cada indicador en el ndice final.
En todo caso, facilita informacin sobre los pesos a utilizar en el caso de
desear mantener un ndice compuesto. Y, especialmente, confirma la posibilidad de medir una dimensin nica mediante esos cuatro indicadores. Es
decir, la potencia de la unidimensionalidad se impone sobre los rasgos particulares de cada dimensin.
Tambin puede que aparezcan dimensiones que dificultan la creacin de
un nico factor para todos los indicadores. Esta realidad habla de otras estructuras que contaminan la medicin, oscurecen la imagen que ofrece un ndice nico y que deben diagnosticarse. Especialmente, dado que tambin influiran en cualquier otra estrategia para combinar los indicadores. Por lo tanto,
como sabemos, la idea bsica tras el anlisis factorial es que pueden existir
dimensiones latentes no visibles, que dan cuenta del comportamiento de grupos de variables visibles u observables directamente. Por lo tanto la finalidad del anlisis factorial es identificar un conjunto de factores no observables que den cuenta de la correlacin entre un conjunto de variables observadas. En cierto sentido, una de las importancias y ventajas del anlisis factorial es que permite visualizar y revelar ruidos o sesgos que pueden quedar
ocultos en la elaboracin de ndices complejos mediante operaciones de suma,
resta, divisin, multiplicacin. Es el caso cuando para calcular el ndice se
emplean ndices que agrupan otras dimensiones.
Vamos a utilizar como ejemplo el ndice de Desarrollo Democrtico. El
concepto contempla cuatro dimensiones medidas por varios indicadores. Como
se recoge en su metodologa El IDD-Lat se construye a partir de la agregacin de varios indicadores que se ponderan, asignando puntajes tanto a las
dimensiones como a cada uno de los indicadores seleccionados. En este punto
importan dos cuestiones: a) la regla de agregacin que se va a utilizar, y b) los
pesos que se dan a las dimensiones que se agregaran y a sus componentes.
a) Regla de agregacin utilizada: Multiplicativa. Los componentes de cada
dimensin se ponderan entre 0 y 10, de tal forma que se cumpla que la
sumatoria sea igual a 10.
b) Pesos que se asignan a las dimensiones y sus componentes: Se utilizan
dos procedimientos para la asignacin de puntajes a los indicadores,
los que se distribuyen en una escala de 1 a 10. Es un programa de
investigacin muy importante y slido, que busca armonizar y establecer unos criterios objetivos de referencia para medir la calidad democrtica. En ese sentido, se utilizan sus datos para ejemplificar la dificultad de integracin de heterogeneidad dentro de un nico ndice,
tanto en la estrategia multivariante como agregativa.
148
Fuente: http://www.idd-lat.org/2014/
149
Autovalores iniciales
Total
% de la
%
varianza acumulado
2,337
58,417
58,417
,924
23,088
81,504
,483
12,079
93,584
,257
6,416
100,000
% de la
%
varianza acumulado
58,417
58,417
En trminos de mediciones, observamos que el emplear un solo ndice elaborado de forma multivariable refleja de forma especial el peso de las
dimensiones I y III. Las dimensiones II y IV aparecen menos representadas,
o con menos influencia en la construccin del ndice multivariable.
Matriz de componentes IDD-lat
Componente
1
DIM I
,834
DIM II
,588
DIM III
,863
DIM IV
,742
150
Autovalores iniciales
Total % de la
%
Total % de la
%
Total % de la
%
varianza acumulado
varianza acumulado
varianza acumulado
1
2,337
58,417
58,417
2,337
58,417
58,417
1,830
45,759
45,759
,924
23,088
81,504
,924
23,088
81,504
1,430
35,746
81,504
,483
12,079
93,584
,257
6,416
100,000
Cuando evaluamos la carga de cada dimensin del ndice IDD-lat sobre los dos
factores, reconocemos una estructura que nos es conocida. La dimensin III
y IV muestran una carga elevada en el factor 1, mientras que las dimensiones I y II tienen su carga ms elevada en el factor 2. La dimensin I tiene su
peso ms repartido entre los dos factores, con una carga de ,523 en el factor
I y de ,693 en el factor II. Esta solucin nos recuerda la ofrecida por el anlisis de clster efectuado anteriormente, en el captulo 2, con la que es plenamente consistente.
Matriz de componentes rotados IDD-lat con dos factores
Componentes
Factor 1
Factor 2
DIM I
,523
,693
DIM II
,036
,934
DIM III
,873
,273
DIM IV
,891
,048
Por eso, tal y como se recoga en el cuadro anterior, las siguientes dimensiones
caracterizan la calidad de la democracia, tal y como son definidas por IDD-lat:
Dimensin I: Democracia de los ciudadanos. Evala el respeto de los derechos polticos y las libertades civiles. Dimensin II: Democracia de las ins-
151
152
En la ventana principal se puede elegir las variables que formarn parte del
anlisis. En las situaciones en que se deseen filtrar los casos que van a considerase, la opcin variable de seleccin permite hacerlo. Es, por ejemplo, que
se desee efectuar el anlisis para una categora concreta en esa variable (por
ejemplo, en variable gnero solamente para mujeres o en encuestas internacionales, elegir un pas en concreto).
153
154
La opcin Rotacin permite elegir el mtodo de rotacin que se desee ejecutar, sea ortogonal o no. En el caso de SPSS las rotaciones disponibles son varimax, direct oblimin, quartimax, equamax, o promax. El grfico de componentes muestra mediante grficos bivariables, la relacin de las variables o
indicadores con los factores. Al igual que con la extraccin, es posible indicar
un nmero mximo de iteraciones para efectuar la rotacin.
Las puntuaciones factoriales se pueden guardar en variables mediante la opcin
guardar como variables. Como consecuencia de seleccionar dicha opcin
se crear tantas variables como factores se conserven en el anlisis, y en cada
una de ellas se guardar la puntuacin de cada caso en cada factor. Los mto-
155
dos utilizados son estimaciones mediante regresin, bartlett, y AndersonRubin. Recordar que cuando se emplea el mtodo de componentes principales,
los factores que se guarden sern ortogonales independientemente de que se
rote oblicuo o se pida otro mtodo para estimar las puntuaciones.
La matriz de coeficientes factoriales muestra los valores que relacionan
variables y factores, para estimar las puntuaciones. Equivalen a los coeficientes en la ecuacin de regresin mltiple que expresa a cada factor como una
combinacin lineal de variables o indicadores. Las variables se multiplican por
dichos coeficientes para estimar la puntuacin de cada caso en cada factor. As
mismo, tambin ofrece la matriz de correlacin entre los factores.
156
El programa SYSTAD muestra directamente la opcin para el anlisis factorial en el men Analizar. En conjunto, tiene un diseo ms compacto, donde
las diferentes elecciones que deben efectuarse se encuentran agrupadas en
pocas ventanas.
157
158
159
toriales con los valores que relacionan variables y factores, para estimar las
puntuaciones, los vectores eigen y las cargas factoriales. Otros programas ofrecen varias de estas posibilidades como parte de la informacin que se muestra con los resultados, mientras que este programa permite guardar los datos
en archivo.
Una opcin interesante es la de guardar las puntuaciones (no las cargas
factoriales y otros datos) como variables (junto a las del archivo original) en
un nuevo archivo tal y como vimos en el SPSS. Los factores se nombrarn
de forma sucesiva (Factor (1), Factor (2)), y aquellos casos con valores
perdidos en alguna de las variables empleadas para el anlisis factorial tambin tendr valor perdido en el factor. Si se emplea una matriz de correlaciones los factores estarn estandarizados con media cero y varianza 1. Cuando
se utiliza la matriz de covarianzas y no se efecta rotacin, las puntuaciones
no estarn estandarizadas.
La ltima opcin, muy presente en SYSTAT, es la posibilidad de testar, mediante muestreos de los datos, la fiabilidad del modelo que estamos empleando.
Es un procedimiento muy interesante que excede los objetivos de este texto.
BIBLIOGRAFA
Afifi, A. A., May, S., and Clark, V. (2004). Computer-aided multivariate analysis,
4th ed. New York: Chapman & Hall.
Akaike, H. 1987. Factor analysis and AIC. Psychometrika 52: 317332.
Alaminos, A.F. (1987) Cultura poltica y econmica en el cono sur: Argentina, Chile
y Uruguay. Madrid: CEDEAL.
Alaminos, A.F. (1991) Chile: transicin poltica y sociedad. Madrid: Siglo XXI-CIS.
Alaminos, A.F. (1998). Teora y prctica de la encuesta. Aplicacin a los pases en
vas de desarrollo. Alicante: Club Universitario.
Alaminos, A.F. (2004). Tendencias en ideologa poltica: estructura y contenidos,
en Tezanos, j.F. Tendencias en identidades, valores y creencias. Madrid: Sistema.
Alaminos, A.F. (2005). El anlisis de la realidad social. Modelos estructurales de
covarianzas. Alicante: ObETS.
Alaminos, A.F. (2005). Introduccin a la Sociologa Matemtica. Alicante: SPES.
Anderberg, M. R. 1973. Cluster Analysis for Applications. New York: Academic Press.
bacher, j. (1996). Clusteranalyse: Anwendungsorientierte Einfhrung. Mnchen:
Oldenbourg. 2., ergnzte Auflage.
bacher, j. (2000). A Probabilistic Clustering Model for Variables of Mixed Type.
Quality &Quantity, 34, 223235.
bacher, j. (2002). StatistischesMatching: Anwendungsmoglichkeiten, Verfahren
und ihre praktische Umsetzung in SPSS. ZA-Informationen, 51, 3866.
bartlett, M. S. 1937. The statistical conception of mental factors. British Journal of
Psychology 28: 97104.
bartlett, M. S. 1938. Methods of estimating mental factors. Nature, London 141:
609610.
bartlett, M. S. 1951. The effect of standardization on a 2 approximation in factor
analysis. Biometrika 38: 337344.
basilevsky, A. T. 1994. Statistical Factor Analysis and Related Methods: Theory and
Applications. New York: Wiley.
bender, S., brand, R., & bacher, j. (2001). Re-identifying register data by survey
data: An empirical study. Statistical Journal of the UN Economic Commission for
Europe, 18(4), 373381.
162
bezdek, j.C and Pal, N. R. (1998). Some new indexes of cluster validity. IEEE
Trans. Systems, Man and Cybernetics, Part B: Cybernetics, 28, 301-315.
blashfield, R. K., and M. S. Aldenderfer. 1978. The literature on cluster analysis.
Multivariate Behavioral Research 13: 271295.
bollen, K. A. 1989. Structural Equations with Latent Variables. New York: Wiley.
Calinski, T., and j. Harabasz. 1974. A dendrite method for cluster analysis. Communications in Statistics 3: 127.
Campbell, D. T. and Fiske, D. W. (1959). Convergent and discriminant validation by
the multitrait-multimethod matrix. Psychological Bulletin, 56, 81105.
Cattell, R. b. 1966. The scree test for the number of factors. Multivariate Behavioral
Research 1: 245276.
Chiu, T., Fang, D., Chen, j., Wang, Y., & jeris, C. (2001). A Robust and Scalable
Clustering Algorithm for Mixed Type Attributes in Large Database Environment.
In Proceedings of the 7th ACM SIGKDD International Conference on Knowledge
Discovery and Data Mining 2001 (pp. 263268).
Clarke, M. R. b. 1970. A rapidly convergent method for maximum-likelihood factor analysis. British Journal of Mathematical and Statistical Psychology 23:
4352.
Clarkson, D. b. and jennrich, R. I. (1988). quartic rotation criteria and algorithms.
Psychometrika, 53, 251259.
Day, W. H. E., and H. Edelsbrunner. 1984. Efficient algorithms for agglomerative
hierarchical clustering methods.journal of Classification 1: 724.
Davies, D.L. and bouldin, D.W. (1979). A cluster separation measure. IEEE Trans.
Pattern Anal. Machine Intell., 1, 4, 224-227.
Dixon, W. j. (1992). BMDP statistical software manual. berkeley: University of California Press.
Duda, R. O., P. E. Hart, and D. G. Stork. 2001. Pattern Classification. 2nd ed. New
York: Wiley.
Dunn, j.C. (1973). A fuzzy relative of the ISODATA process and its use in detecting
compact well-separated clusters, Journal of Cybernetics, 3, 32-57.
Ester, Martin; Kriegel, Hans-Peter; Sander, jrg; Xu, Xiaowei (1996). Simoudis,
Evangelos; Han, jiawei; Fayyad, Usama M., eds. A density-based algorithm for
discovering clusters in large spatial databases with noise. Proceedings of the
Second International Conference on Knowledge Discovery and Data Mining
(KDD-96). AAAI Press. pp.226231.
Harman, H. H. 1976. Modern Factor Analysis. 3rd ed. Chicago: University of Chicago
Press.
Horst, P. 1965. Factor Analysis of Data Matrices. New York: Holt, Rinehart & Winston.
Everitt, b. S. 1993.Cluster Analysis. 3rd ed. London: Arnold.
Everitt, b. S., S. Landau, M. Leese, and D. Stahl. 2011.Cluster Analysis. 5th ed.
Chichester, UK: Wiley.
Fisher, L. and Van Ness, j. W. (1971). Admissible clustering procedures. Biometrika,
58, 91104.
163
164
Kim, j. O., and C. W. Mueller. 1978. Introduction to factor analysis. What it is and
how to do it. In Sage University Paper Series on quantitative Applications the
Social Sciences, vol. 07013. Thousand Oaks, CA: Sage.
Kim, j. O., and C. W. Mueller. 1978. Factor analysis: Statistical methods and practical issues. In Sage University Paper Series on quantitative Applications the
Social Sciences, vol. 07014. Thousand Oaks, CA: Sage.
Lawley, D. N., and A. E. Maxwell. 1971. Factor Analysis as a Statistical Method.
2nd ed. London: butterworths.
Holm, K. (2004). ALMO Statistik-System, Version 7.1. http://www.almo-statistik.de/.
Huang, Z. (1998). Extensions to the k-means Algorithm for Clustering Large Data Sets
with Categorical Variables. Data Mining and Knowledge Discovery, 2, 283304.
Kaufman, L., and P. j. Rousseeuw. 1990.Finding Groups in Data: An Introduction
to Cluster Analysis. New York: Wiley.
Lance, G. N., and W. T. Williams. 1967. A general theory of classificatory sorting
strategies: 1. Hierarchical systems. Computer Journal 9: 373380.
Lawley, D. N., and A. E. Maxwell. 1971. Factor Analysis as a Statistical Method.
2nd ed. London: butterworths.
Ling, R. F. (1973). A computer generated aid for cluster analysis. Communications
of the ACM, 16, 355361.
Macqueen, j. (1967). Some methods for classification and analysis of multivariate
observations. 5th Berkeley symposium on mathematics, statistics, and probability, 1, 281298.
Mardia, K. V., Kent, j. T., and bibby, j. M. (1979). Multivariate analysis. London:
Academic Press.
Mcquitty, L. L. (1960). Hierarchical syndrome analysis. Educational and Psychological Measurement, 20, 293303.
Milan, L., and j. Whittaker. 1995. Application of the parametric bootstrap to models
that incorporate a singular value decomposition. Applied Statistics 44: 3149.
Milligan, G. W. (1980). An examination of the effects of six types of error perturbation on fifteen clustering algorithms. Psychometrika, 45, 325342.
Milligan, G. W., and M. C. Cooper. 1985. An examination of procedures for determining the number of clusters in a dataset. Psychometrika 50: 159179 12
Milligan, G.W. (1987), A study of beta-flexible clustering method, College of Administrative Science Working Paper Series, 87-61 Columbus, OH: The Ohio State
University.
Milligan, G. W., and M. C. Cooper. Introduction to cluster-analysis commands. 1988.
A study of standardization of variables in cluster analysis. Journal of Classification 5: 181204.
Morrison, D. F. (2004). Multivariate statistical methods, 5th ed. CA: Duxbury Press.
Mulaik, S. A. (1972). The foundations of factor analysis. New York: McGraw-Hill.
Penalva, C.; Alaminos, A.; Francs, F y Santacreu, O. (2015). La investigacin cualitativa: tcnicas de investigacin y anlisis con Atlas. Ti. Cuenca: PYDLOS
165
166
SPSS Inc. (2004). TwoStep Cluster Analysis. Technical report, Chicago. http://support.spss.com/tech/stat/Algorithms/12.0/twostep cluster.pdf
Steiger, j. H. (1979). Factor indeterminacy in the 1930s and 1970s: some interesting
parallels. Psychometrika, 44, 157167.
Tarlov, A. R., j. E. Ware jr., S. Greenfield, E. C. Nelson, E. Perrin, and M. Zubkoff.
1989. The medical outcomes study. An application of methods for monitoring
the results of medical care. Journal of the American Medical Association 262:
925930.
Thomson, G. H. 1951. The Factorial Analysis of Human Ability. London: University
of London Press.
van belle, G., L. D. Fisher, P. j. Heagerty, and T. S. Lumley. 2004. Biostatistics: A
Methodology for the Health Sciences. 2nd ed. New York: Wiley.
Vermunt, j. & Magidson, j. (2000). Latent GOLD 2.0. Users Guide. belmont.
Vizirgiannis, M., Haldiki, M. and Gunopulos, D. (2003). Uncertainity handling and
quality assessment in data mining. London: Springer-Varlag.
Wainer, H. and Schacht, S. (1978). Gappint. Psychometrika, 43, 203212.
Ward, j. H., jr. 1963. Hierarchical grouping to optimize an objective function. Journal
of the American Statistical Association 58: 236244.
Wilkinson, L. (1979). Permuting a matrix to a simple structure. Proceedings of the
American Statistical Association, 409412.
Winer b.j. (1971) Statistical Principles in Experimental Design. New York: McGrawHill
Wishart, D. (2003). k-Means Clustering with Outlier Detection, Mixed Variables
and Missing Values. In M. Schwaiger & O. Opitz (Eds.), Exploratory data analysis in empirical research. Proceedings of the 25th Annual Conference of the
Gesellschaft fur Klassifikation e.V., University of Munich, March 14-16, 2001,
Studies in Classification, Data Analysis, and Knowledge Organization (pp. 216
226). berlin: Springer.
Wong, M.A. and Lane, T. (1983), A kth nearest neighbor clustering procedure,
Journal of Royal Statistical Society, Series b, 45 362-368.