Libro Analisis Multivariante Repositorio

Anlisis multivariante para las Ciencias Sociales I.
ndices de distancia, conglomerados y anlisis factorial
Vicerrectorado de Relaciones Internacionales
Antonio Alaminos Chica

Francisco Jos Francs Garca
Clemente Penalva Verd
scar Antonio Santacreu Fernndez
Anlisis multivariante para

las Ciencias Sociales I
PYDLOS Ediciones
ANLISIS MULTIVARIANTE_Maquetacin 1 10/12/05 16:58 Pgina 2
ANLISIS MULTIVARIANTE PARA

LAS CIENCIAS SOCIALES I
ANTONIO ALAMINOS CHICA

FRANCISCO FRANCS GARCA
CLEMENTE PENALVA VERD
SCAR SANTACREU FERNNDEZ
ANLISIS MULTIVARIANTE PARA

LAS CIENCIAS SOCIALES I
NDICES DE DISTANCIA, CONGLOMERADOS
Y ANLISIS FACTORIAL
de la presente edicin: Universidad de Cuenca

ANLISIS MULTIVARIANTE PARA LAS CIENCIAS SOCIALES I.
Antonio Alaminos Chica
Francisco Jos Francs Garca
Clemente Penalva Garca
scar Antonio Santacreu Fernndez
ISBN: 978-9978-14-315-5
Derecho de autor: CUE-2347
Diseo Portada: scar Santacreu
Diagramacin: Patricia Barbero
Correccin de estilo: Mara Eugenia Estrella
Impresin: Editorial Don Bosco-Centro Grfico Salesiano - Telf.: 2831745
Tiraje: 300
Impreso en Ecuador - Printed in Ecuador
2015
Este libro ha sido debidamente examinado y valorado por evaluadores ajenos a PYDLOS EDICIONES,
con el fin de garantizar la calidad cientfica del mismo.
Edicin corregida, revisada y ampliada del texto El anlisis de la realidad social, para servir de referencia
durante el Curso de formacin de Posgrado: Investigacin Aplicada en Ciencias Sociales: Tcnicas de
produccin de datos y anlisis, actividad acadmica organizada por el Grupo de investigacin PYDLOS del
Departamento de Investigacin Espacio y Poblacin, en coordinacin con las Facultades de Ciencias
Econmicas y Administrativas, Jurisprudencia, Psicologa, Filosofa Letras y Ciencias de la Educacin,
y con aval de la DIUC de la Universidad de Cuenca.
NDICE
PRESENTACIN ....................................................................................... 9
1. LA INVESTIGACIN SOCIAL Y LA MEDICIN ........................... 11
2. LA SIMILITUD Y LA DIFERENCIA ................................................. 15
2.1. LOS DIFERENTES TIPOS DE NDICES Y SU MEDICIN ............................... 22
2.1.1. Datos expresando nivel de medicin de intervalo .......................... 23
2.1.2. Datos expresando nivel de medicin ordinal y rangos .................. 33
2.1.3. Datos expresando nivel de medicin recuentos .............................. 33
2.1.4. Datos expresando nivel de medicin binario ................................. 34
2.2. EjEMPLOS EN SPSS Y SYSTAT ........................................................... 43
3. EL ANLISIS DE CONGLOMERADOS ........................................... 49
3.1. MTODOS DE VINCULACIN, DISTRIbUCIONALES Y DE DENSIDAD .......... 51
3.2. MTODOS jERRqUICOS ....................................................................... 57
3.2.1. Procedimientos de validacin de los clsteres ............................... 63
3.2.1.1. Anlisis de la varianza de un factor ............................................. 64
3.2.1.2. ndices de validacin de clsteres ................................................ 68
3.2.2. La agrupacin de casos mediante mtodos jerrquicos ................ 72
3.2.3. Agrupacin de variables mediante mtodos jerrquicos ............... 79
3.2.4. La conglomeracin de variables y casos ........................................ 83
3.2.5. Ejemplos en SPSS y SYSTAT ........................................................... 84
3.3. MTODOS NO jERRqUICOS PARA LA FORMACIN DE
CONGLOMERADOS ................................................................................. 94
3.3.1. Conglomerados mediante k-medias y k-medianas ......................... 95
3.3.2. Ejemplos en SPSS y SYSTAT ......................................................... 101
4. EL ANLISIS FACTORIAL .............................................................. 107
4.1. EL MODELO MATEMTICO ................................................................... 111
4.2. DIAGNSTICOS DE PERTINENCIA DEL ANLISIS FACTORIAL .................. 113
Antonio Alaminos / Francisco Francs / Clemente Penalva / scar Santacreu
4.3. LA ESTRUCTURA FACTORIAL ............................................................... 122

4.4. LA CARGA FACTORIAL ........................................................................ 127
4.5. DIAGNSTICO DE LA SOLUCIN FACTORIAL ......................................... 130
4.6. LAS ROTACIONES ................................................................................ 132
4.7. LAS PUNTUACIONES FACTORIALES ...................................................... 140
4.8. EL ANLISIS FACTORIAL PARA LA CONSTRUCCIN DE NDICES ............. 143
4.9. EL ANLISIS FACTORIAL CON SPSS Y SYSTAD ................................. 152
5. bIbLIOGRAFA ................................................................................. 161
PRESENTACIN
Durante aos, el Programa Interdisciplinario de Poblacin y Desarrollo Local
Sustentable (PYDLOS) de la Universidad de Cuenca (Ecuador), y el grupo
de ObETS, del Instituto de Desarrollo Social y Paz de la Universidad de Alicante (Espaa) vienen manteniendo una estrecha colaboracin en docencia
e investigacin.
Esta alianza ha sido posible gracias a la intensa actividad desarrollada por
el director de PYDLOS, el profesor Dr. Alejandro Guilln, gracias a cuyo
apoyo se han plasmado diversas lneas de cooperacin.
En este marco, el presente texto es una prueba ms ello, formando parte
del conjunto de libros metodolgicos dentro del compromiso entre la Universidad de Alicante y la Universidad de Cuenca, en materia de formacin de
Postgrado, a travs del Grupo de Investigacin PYDLOS del Departamento de
Investigacin Espacio y Poblacin, en coordinacin con las Facultades de
Ciencias Econmicas y Administrativas, jurisprudencia, Psicologa, Filosofa
Letras y Ciencias de la Educacin, y con aval de la DIUC de la Universidad de
Cuenca.
Estamos convencidos de que estos textos constituyen un aporte significativo para la formacin de investigadores y docentes de nuestras universidades
y para el robustecimiento de los vnculos entre ambas.
LOS AUTORES
Sant Vicent del Raspeig (Alicante)
Octubre 2015
1. LA INVESTIGACIN SOCIAL Y LA MEDICIN

La investigacin cientfica de la realidad social siempre opera con algn nivel
de medicin. Desde el ms bsico, empleando la clasificacin, hasta los ms
sofisticados que intentan establecer algn tipo de magnitud asociada a los
fenmenos sociales. Una tarea tan simple como pueda ser crear categoras
(poner un nombre a algo, y emplearlo para identificar y diferenciar) es un acto
de medicin. La sociedad misma ejerce esa capacidad de forma espontnea:
crear tipos o categoras. Son recursos sociales para poder dar orientaciones y
criterios de comportamiento a los individuos. Por lo general, esas tipologas
sociales vienen caracterizadas por diferentes rasgos materiales (como posesiones), posiciones sociales (por ejemplo, segn su posicin en la cadena
productiva), e incluso jerarquas de valores (que se les atribuyen culturalmente). Medir, en su funcin ms bsica de diferenciacin, categorizacin,
comparacin y clasificacin, es un procedimiento esencial y cotidiano en las
sociedades. qu es ms igual? qu es ms diferente? Son operaciones bsicas de la vida cotidiana.
Desde el punto de vista cientfico, la medicin se efecta construyendo
sistemas de indicadores e ndices que representen aspectos sustantivos de la
realidad social. En esta labor, la estadstica ejerce un papel instrumental importante. En el caso de la construccin de ndices, la estadstica multivariante
facilita dos operaciones muy importantes. Primero, al ofrecer un sistema para
determinar un ndice que resuma la informacin que pueda contenerse en un
conjunto de indicadores. En segundo lugar, al permitir la medicin y establecimiento de ndices a partir de realidades subjetivas que son difciles observar
de forma objetiva.
Cuando los rasgos que sirven de base para categorizar la realidad son externos (color de la piel, forma de vestir, poseer una vivienda, etc.), es relativamente fcil establecer un sistema de reglas para establecer indicadores, medir
y calcular ndices. Sin embargo, cuando la realidad que se desea medir no se
percibe por los sentidos, es necesario establecer procedimientos diferentes.
Ya no basta con criterios simples de indicadores directos. En estos casos, la
12
categorizacin (es decir, decidir cules son las categoras realmente existentes y significativas) pasan a primer plano. Medir variables e ndices que
expresen estados subjetivos de los individuos presenta sus propios desafos.
Este tipo de variables son de carcter subjetivo, al igual que lo son sus unidades de medida o los valores que adoptan esas unidades de medida. Existen
en la mente de los individuos, pero no tienen una existencia objetiva, percibible directamente por los sentidos. Un ejemplo, en otro mbito de conocimiento, es la temperatura corporal. La percepcin que cada individuo tiene
de su temperatura corporal es subjetiva y personal. Para establecer una medicin comn y estndar para todos los individuos, debe construirse un instrumento externo como es el termmetro, que permite expresar de forma objetiva y comparable (mediante un instrumento o aparataje) esa temperatura
corporal. La existencia de un termmetro no elimina la experiencia personal
de cada individuo, las sensaciones subjetivas que le pueden producir la sensacin de calor o fro. Lo que permite es establecer un indicador que ofrece una
informacin externa y objetiva de la temperatura corporal. Y a partir de ello,
facilitar la comparacin intersubjetiva. En ambas situaciones, dnde la medicin es de caractersticas externas (observables directamente) o se refiere a
caractersticas internas (no observables directamente), las respuestas a cmo
construir ndices de medicin deben ser diferentes, si bien respetando principios metodolgicos semejantes.
Cuando hablamos de medir, en cualquiera de sus niveles, resulta evidente que existe un lenguaje apropiado, que no es el lenguaje natural. Las operaciones que se efectan sobre las mediciones, ya sea con la finalidad de descripcin o explicacin, requieren de un lenguaje formalizado creado para ello:
el lenguaje matemtico y estadstico. La estadstica y las matemticas en
general, son el lenguaje que opera con mediciones cuantitativas. Desde la ms
bsica de clasificar, hasta las explicaciones empricas ms sofisticadas.
En este texto presentamos tres estrategias de medicin multivariante, que
son tiles tanto para mediciones de caractersticas que se pueden percibir
direc-tamente, como de estados subjetivos. Nos centraremos en su empleo para
medir (por ejemplo, estados subjetivos de los individuos), permitiendo
construir, por ejemplo, un ndice. Resulta evidente, una vez que hemos logrado
asignar una cifra a cada individuo o caso (su valor en un ndice), ya es decisin
del investigador si las emplear para agrupar los casos en tipologas o usar su
magnitud para relacionarla con otras magnitudes medidas en otras variables.
Es importante que el investigador comprenda que la mayora de los procedimientos estadsticos estn interconectados entre s. Podemos llamarlos de
forma diferente por motivos varios. As es habitual que sea la finalidad inicial
para la que se establecieron la que los diferencia y les da nombre. Sin embar-

para
las
Ciencias
Sociales I
Anlisis multivariante

13
go, con un anlisis

(por
ejemplo),
una vez efectuado,
factorial

se pueden
atri
buir magnitudes
a
los
sujetos.
A
partir
de
ellas
se
les
puede
clasificar
o
efectuar

otras muchas operaciones. Una vez que hemos "medido" los sujetos respecto a
dems
operaciones

Por eso,
exis
algo, las
son derivadas
de esa labor esencial.

estadsticos)

que pueden

resten muchas vas
alternativas
(procedimientos
dar
puesta a una
misma
pregunta.
Como
hemos
dicho,
en
esta
ocasin
vamos

a
considerar la medicin tanto desde el punto de vista de los estados subjetivos

como objetivos. Al fin y al cabo, las valoraciones que efectan los individuos
referencia

sus escalas
personales

carcter subjetivo.
toman como
de
En este libro vamos a partir de los procedimientos para determinar dis

tancias o proximidades (similitud y disimilitud) entre casos o variables. Tras

distancias

y proximidades

(especialmen
ello, presentaremos
en trminos
de
te entre
no solamente),
(clste casos,
aunque

el anlisis de conglomerados

res), as como
la
utilidad
que
tiene
el
anlisis
de
varianza
en
la
definicin

del
nmero de clsteres. En lo que se refiere a la similitud o disimilitud entre

variables, mostramos
el procedimiento
estadstico
denominado
anlisis
fac

torial, junto a los procedimientos para determinar la fiabilidad de la medicin (alfa de Cronbach).

Cuadro 1. Ejemplos de modelos basados en

la determinacin

de distancias

'DWRV
)DFWRULDO
6LPLODULGDG\GLVLPLODULGDG

&O~VWHUHV

$QiOLVLVGH&RUUHVSRQGHQFLD
6HJPHQWDFLyQ
(VFDODPLHQWR0XOWLGLPHQVLRQDO
7LSRORJtDV
(VFDODPLHQWRySWLPR
'LVFULPLQDQWH
14
Dos de los procedimientos multivariantes principales en la construccin de

ndices son, por un lado el anlisis factorial, y por otro el escalamiento multidimensional. Tanto el anlisis factorial como el escalamiento multidimensional tienen su origen en la psicometra. El anlisis factorial, para efectuar
mediciones empleando mltiples tems (incrementando as la fiabilidad). El
escalamiento multidimensional, por otra parte, fue desarrollado para ayudar
a comprender las valoraciones que un conjunto de individuos efectuaban sobre
la similitud o disimilitud entre un grupo de objetos. En el primer caso se utilizan datos multivariantes para, mediante el coeficiente de correlacin, estimar las proximidades (similaridad) entre variables. En el segundo se utilizan
medidas de distancia entre objetos, basadas en la similaridad o la disimilaridad
que se aprecie entre ellos. El escalamiento multidimensional utiliza los datos
que expresan similaridad o disimilaridad entre los objetos como parte del procedimiento para construir escalas objetivas asociadas a atributos subjetivos.
Muchos procedimientos estadsticos, tales como el anlisis factorial, el
anlisis de conglomerados, o el escalamiento multidimensional tienen como
punto de partida la matriz que define las distancias1 o las proximidades entre
pares de casos o variables. A partir de dichas matrices de distancias, se procede a formar los conglomerados, se extraen los factores o se identifican las
estructuras y dimensiones presentes en los datos.
1. Las distancias son el punto de partida en el anlisis de Conglomerados (las distancias entre
casos o variables), en el escalamiento multidimensional (distancias entre casos o tambin
entre variables), en el anlisis factorial (la similitud entre variables define el factor). En los
tres mtodos, la similitud o la disimilitud son muy importantes dado que los casos son
agrupados en funcin a su proximidad.
2. LA SIMILITUD Y LA DIFERENCIA
Los conceptos de similitud y disimilitud son esenciales en la investigacin
social. El nivel ms bsico de medicin, el nominal, emplea la clasificacin
de objetos (cualidades o caractersticas de un objeto). El criterio de clasificacin es la similitud o la disimilitud. En este contexto, los conceptos de similitud y proximidad se consideran sinnimos, al igual que el de distancia y
disimilaridad. Ambos conceptos expresan una misma realidad desde dos puntos de vista opuestos. Mientras que el concepto de distancia expresa en qu
medida son diferentes dos objetos, el concepto de similaridad mide el grado
de proximidad entre ellos. En ese sentido, para dos casos que sean muy parecidos, la medida de distancia debera de ser pequea mientras que, por el
contrario la medida de similaridad debera de ser elevada. La idea de medir
la similitud o disimilitud (la proximidad o distancia) entre objetos (casos) o
variables es el punto de partida de muchas tcnicas estadsticas.
Vamos a plantear un ejemplo sencillo de cmo se calcula una distancia.
Se pueden emplear medidas muy diferentes para cuantificar la similaridad o
la disimilaridad. Una de las ms utilizadas para medir la distancia entre casos
(objetos) es la distancia euclidiana al cuadrado. En el caso de variables, el
coeficiente de correlacin es uno de los que se utiliza con ms frecuencia para
medir la similaridad entre dos variables. Cuando el valor de correlacin es
muy elevado indica que las dos variables son muy parecidas.
Vamos a considerar uno de los ndices de Desarrollo Democrtico en Latinoamrica. Estimaremos qu distancia existe entre dos casos (en este ejemplo pases). Para ello, operaremos con los valores que poseen en cuatro variables diferentes (realmente son dimensiones que sintetizan diferentes indicadores). La idea es combinar la informacin que facilitan las cuatro dimensiones para determinar en qu forma ambos casos (dos pases) se parecen o son
diferentes. Tomemos como ejemplo de ndice de disimilitud la distancia eucldea al cuadrado. Este ndice en definitiva lo que hace calcular las diferencias
que existen entre los valores que tienen los casos en las variables consideradas,
elevarlos al cuadrado y sumar los trminos.
16
Tabla 1. Las cuatro dimensiones2 del IDD-lat 2014

Pas
DIM I
DIM II
DIM III
DIM IV
9,5
0,7
1,3
Costa Rica
7,43
6,7
2,3
0,1
Chile
7,2
5,3
2,4
1,7
Argentina
6,5
3,1
2,6
0,7
2,3
-0,25
-1,5
Per
5,4
1,5
1,6
Nicaragua
5,3
-2,3
-0,8
Ecuador
5,3
2,9
0,4
0,3
brasil
5,1
2,4
0,9
-0,3
El Salvador
6,9
-0,7
-1,8
Paraguay
3,3
-1,3
-0,7
Panam
4,8
2,5
1,4
0,4
Rep. Dominicana
4,7
2,8
-3,1
-0,9
3,7
0,4
1,6
Venezuela
3,1
1,9
-0,7
0,3
Colombia
2,8
3,5
-1
0,9
Honduras
2,4
3,6
-1
-1,2
Guatemala
3,8
-2,3
-1,7
Uruguay
bolivia
Mxico
Fuente: Datos del IDD-Lat 2014

2. Dimensin I: Democracia de los ciudadanos. Evala el respeto de los derechos polticos
y las libertades civiles. Dimensin II: Democracia de las instituciones. Mide la calidad
institucional y la eficiencia del sistema poltico. Dimensin III. Democracia social y
humana. Analiza la capacidad del sistema democrtico para generar polticas que aseguren bienestar y desarrollo humano. Dimensin IV. Democracia econmica.
Anlisis multivariante para las Ciencias Sociales I
17
Para determinar la distancia eucldea al cuadrado entre Ecuador y bolivia,

por ejemplo, procederamos de la forma siguiente.
Pas
DIM I
DIM II
DIM III
DIM IV
bolivia
2,3
-0,25
-1,5
Ecuador
5,3
2,9
0,4
0,3
la distancia eucldea al cuadrado es simplemente la suma de las diferencias al

cuadrado.
Distancia eucldea al cuadrado =
(6 - 5,3)2 + (2,3 - 2,9)2 + (-0,25 - 0,4)2 + (-1,5 - 0,3)2 =
(0,7)2 + (-0,6)2 + (-0,65)2 + (-1,8)2 =
(0,49) + (0,36) + (0,42) + (3,24) = 4,51
Es decir, de acuerdo a esta medida de distancia, la disimilitud entre bolivia
y Ecuador en Desarrollo Democrtico es de 4,51. Si reiteramos este procedimiento para todos los pares que se pueden formar entre pases, es factible
calcular una matriz con la distancia entre todos los pases. Esta matriz de distancias es la base para efectuar anlisis multivariantes con diferentes intencionalidades. Es evidente que la eleccin de una medida de disimilaridad u
otra debe hacerse con una justificacin terica. No debemos olvidar que el
emplear una medida u otra puede tener consecuencias sobre los resultados. En
las pginas siguientes vamos a considerar qu elementos deben de considerarse para la eleccin de una mediada de distancia.
Existen al menos tres decisiones que se deben de tomar cuando se decide
trabajar con ndices de similaridad o disimilaridad. Nos detendremos con ms
detalle en ampliar el segundo y el tercero, donde, por lo general, cabe una
intervencin mayor del investigador.
a) La primera decisin se refiere al tipo de datos que estamos utilizando.
El nivel de medicin de los datos sugerir qu tipo de distancia debe tomarse en consideracin, y con ello el ndice que puede ser el ms adecuado. As
consideraremos tres tipos diferentes de datos:
- los datos expresan mediciones con nivel de intervalo,
- los datos expresan frecuencias,
- y los datos son de carcter binario (expresando la presencia o ausencia
de una caracterstica o cualidad).
18
b) La segunda decisin importante se refiere a la conveniencia o no, de

normalizar (o estandarizar) los datos. Es decir, los valores que adoptan los
casos. Por lo general, la estandarizacin y la normalizacin se aplican a los
datos expresados con nivel de medicin de intervalo, o como frecuencias. La
estandarizacin establece un valor para la media y la varianza de la variable (es decir, modifica la distribucin) mientras que la normalizacin modifica los valores para re-expresarlos dentro de un nuevo rango de variabilidad. Debemos recordar que la diferente unidad de medida en que se expresen los datos (euros, aos, etc.) hace que las variables con magnitudes que
pueden alcanzar valores elevados contribuyan en mayor grado al ndice de
disimilaridad.
Un procedimiento para evitar, o al menos atenuar, el impacto que las diferentes unidades de medicin de las variables pueden tener en la estimacin de la
distancia o similitud entre casos, es expresar todas las variables en la misma unidad. ste procedimiento se denomina normalizacin, y existen diferentes procedimientos para lograr este objetivo. La normalizacin se efecta mediante transformaciones y permite hacer comparables los valores de los datos antes de calcular proximidades. La normalizacin y la estandarizacin puede realizarse, a)
para todos los valores que adopte un caso en un conjunto de variables (es decir,
normalizamos los valores de un caso tomando como referencia los valores de
ese mismo caso en las distintas variables), o b) normalizando la variable tomando como referencia los valores de todos los casos en esa variable.
a) Estandarizacin de un caso mediante puntuacin Z tomando como
referencia un conjunto de seis variables:
Variable 1 Variable 2 Variable 3 Variable 4 Variable 5 Variable 6
Caso 1
15
33
105
22
11
(Vector fila)
Media: 31,3
Desviacin tpica: 37,5
Puntuacin Z = (x-media)/desviacin tpica
Z de la variable 1 para el caso 1 = (15 31,3) / 37,5 = -,43
Variable 1
Variable 2
Variable 3
Variable 4
Variable 5
Variable 6
Caso 1
15
33
105
22
11
Caso1(a) Z
-,43
-,78
,04
1,9
-,24
-,54
a. Expresado con puntuacin Z
19
b) Estandarizacin de un caso mediante puntuacin Z tomando como

referencia los valores de los siete casos en una variable:
Casos
Variable 1
Caso 1
13
Caso 2
25
Caso 3
32
Caso 4
12
Caso 5
56
Caso 6
43
Caso 7
15
(Vector columna)
Media: 28
Desviacin tpica: 16,7
Puntuacin Z del caso 1 en la variable 1 = (13 28) / 16,7 = -,89
Casos
Variable 1
Variable 1(a) Z
Caso 1
13
-,89536
Caso 2
25
-,17907
Caso 3
32
,23876
Caso 4
12
-,95505
Caso 5
56
1,67133
Caso 6
43
,89536
Caso 7
15
-,77598
a. Expresado con puntuacin Z
Entre las transformaciones de estandarizacin ms habituales se encuentran

las puntuaciones Z, que ya hemos visto, as como tomar de referencia una
media de 1, o una desviacin tpica de 1 (a diferencia de Z, que fija una
media de 0 y una desviacin tpica de 1). Por ejemplo, para estandarizar las
distribuciones de forma que tengan una media de 1, se dividen todos los valores por la media. De forma extensiva, de desear estandarizar las distribuciones para que todas tengan una desviacin tpica de 1, se dividen todos los
20
valores de la variable por la desviacin tpica. Es importante tener presente,

en este caso, que se producen transformaciones parciales de las distribuciones.
Procedimientos usuales de estandarizacin y normalizacin
(casos y variables)
Estandarizacin
(afecta a la distribucin)
Media de 0 y desviacin tpica de 1 Restar cada valor a la media y
dividir por la desviacin tpica
Media de 1
Dividir todos los valores por la media
Desviacin tpica de 1
Dividir todos los valores por la

desviacin tpica
Normalizacin
(no afecta a la distribucin)
Rango de -1 a 1
Dividir todos los valores por el rango

de la variable
Rango de 0 a 1
Restar a todos los valores el valor ms

pequeo y dividir por el rango de la
variable
Valor mximo de 1
Dividir todos los valores por el valor

mayor de la distribucin
Otra opcin es normalizar las variables, por ejemplo fijando un rango de

variabilidad entre 1 a 1, un rango 0 a 1, o establecer como magnitud mxima la de 1. En este caso, debemos recordar que las medias o las desviaciones
tpicas de las variables continan siendo diferentes. La normalizacin de la
variabilidad de una variable puede limitar sus valores entre -1 y 1. Para ello,
todos los valores que van a ser normalizados se dividen por el rango de la
variable. Otra opcin es establecer una variabilidad normalizada para todas
las variables entre 0 y 1. As, en el ejemplo anterior, normalizamos entre 0 y
1 de la forma siguiente. A cada caso se les resta el valor menor de la distribucin y se divide por el rango.
El rango vara entre 12 (el menor valor) y 56 (el mayor valor). As 56
12 = 44. A cada valor se le resta el menor. Por ejemplo, el caso 4 tiene el
menor valor, 12. Si a 12 se le resta 12= 0. Como es conocido 0/44 = 0. En el
otro extremo, tomemos el valor mayor, que en este ejemplo es el caso 5. El
valor del caso 5 es 56, le restamos el menor que es 12 = 44. Y si dividimos
21
Casos
Variable 1
Caso 1
13
Caso 2
25
Caso 3
32
Caso 4
12
Caso 5
56
Caso 6
43
Caso 7
15
44 entre el rango (44), tenemos 44/44 = 1. Cualquier otro valor quedar

transformado entre dichos extremos, y con ello normalizado en su cuanta.
Es decir, comparable con otras variables normalizadas de igual modo. El
caso 2, con un valor de 25, se normaliza en (25-12)/44 = 0,29.
Para establecer que el valor mximo de la distribucin sea 1 se debe dividir todos los valores en la variable original por el valor ms elevado que contenga (valor mximo). Todos estos procedimientos de estandarizacin y normalizacin pueden efectuarse tomando como referencia tanto la variable, como los
valores de un caso, en la forma que hemos considerado previamente.
La ventaja evidente de la normalizacin y la estandarizacin es que facilita la comparacin, de modo que los ndices de disimilitud o similitud se
ven menos influenciados por las unidades de medida de cada variable. Por
ello, lo habitual es efectuar las transformaciones previamente al clculo de los
ndices de disimilitud o de proximidad.
Sin embargo, es importante considerar que los efectos de los casos extremos se intensifican con las transformaciones de normalizacin. De esta forma,
los casos extremos provocan que se comprima el rango de variabilidad de los
valores que pueden considerarse ms usuales en esa medicin. Es una diferencia significativa entre normalizacin y estandarizacin: la normalizacin
establece lmites de variacin (-1 a 1, de 0 a 1, etctera) que reduce su variabilidad cuando se presentan casos extremos.
No siempre puede resultar interesante el normalizar o estandarizar las
variables. Lo importante es atender al significado de las variables, dado que
determinadas unidades de medida, y la variabilidad que implica, puede expresar elementos sustantivos en lo que se refiere a la naturaleza de los fenmenos que expresan dichas variables. Es decir, pueden darse ocasiones en que
deseamos que determinadas variables tengan un peso especial en la determinacin de la similitud o la disimilitud. En esa situacin, donde interesa con-
22
servar un peso especial en algunas variables, no es conveniente la normalizacin. Introduciremos ejemplos ms adelante.
c) Por ltimo, la tercera decisin se refiere a la necesidad que exista, o
no, de normalizar el ndice que expresa de forma resumida la diferencia o
similitud entre los casos (o las variables). La intencin es que los valores que
adopte el ndice sean ms comprensibles para el investigador. Estas transformaciones se efectan sobre el ndice que calcula la distancia final, es decir,
que la normalizacin se aplica despus de calcular la medida de distancia.
Algunas opciones habituales son: Valores absolutos, Cambiar el signo, y
Cambiar la escala al rango de 0 hasta 1.
En el caso de tomar el valor absoluto del ndice de disimilaridad o similaridad, estaremos indicando que el posible signo que adopte el coeficiente no
tiene significado relevante para el investigador. Es el caso del coeficiente de
correlacin, usado para expresar proximidad. En el caso que solamente interese su magnitud como referente de proximidad, el signo es perfectamente
prescindible. Recordemos que en este caso, el coeficiente de correlacin se
encuentra normalizado entre -1 y +1. Tomar su valor absoluto lo transforma
en un nuevo rango, entre 0 y 1. La opcin de cambiar de signo, esencialmente es un cambio de tipo de medida. Transforma las mediciones de disimilaridad en similaridad. Su consecuencia es que invierte el orden de las distancias entre los casos o las variables. Por ltimo, los ndices de disimilaridad
o similaridad pueden normalizarse entre 0 y 1. Para ello, tomados los valores de las mediciones de similaridad (o disimilaridad), se resta de todas ellas
el valor de la distancia menor, y se dividen por el rango de variabilidad (es
decir, el valor de la distancia mayor entre dos casos o variables, menos el
valor de la distancia menor entre dos casos o variables). Mediante este procedimiento, las distancias calculadas entre casos o variables se normalizan a
una variacin entre 0 y 1.
Es importante notar la diferencia entre las dos transformaciones mencionadas. La primera, (apartado b) se refiere a las transformaciones de los valores que presentan los casos, de forma que la unidad de medida tenga un
impacto menor en los coeficientes de disimilaridad o similaridad. La segunda (apartado c), modifica los resultados de la aplicacin de cualquiera de los
ndices de proximidad o distancia. Es decir, una matriz de distancias se vera
transformada de forma que todas las distancias oscilarn entre 0 y 1.
2.1. LOS DIFERENTES TIPOS DE NDICES Y SU MEDICIN
Como es evidente existen muchas definiciones operacionales diferentes, en
trminos matemticos y estadsticos, para medir los conceptos de distancia
23
y similaridad. Vamos seguidamente a presentar diferentes procedimientos

para calcular coeficientes alternativos en la medicin de distancias o proximidades. Para ello organizaremos la presentacin segn 1) el nivel de medicin en que estn expresados los datos, y 2) si est diseado para medir similaridad o disimilaridad (proximidad o distancia).
2.1.1. Datos expresando nivel de medicin de intervalo
a) Disimilaridad
Cuando los datos estn expresados en un nivel de medicin de intervalo o superior, y consideramos la estimacin de ndices basados en la disimilitud, distancia o diferencia pueden considerarse las siguientes opciones de medicin.
Distancia eucldea
Esta medicin fue presentada como ejemplo en lneas anteriores. La distancia entre dos objetos, X e Y, es la raz cuadrada de la suma de las diferencias al
cuadrado de los valores.
Distancia eucldea (x,y) = Si (xi yi)2
Para determinar la distancia eucldea entre Ecuador y bolivia, por ejemplo,
procederamos de la forma siguiente.
Pas
DIM I
DIM II
DIM III
DIM IV
bolivia
2,3
-0,25
-1,5
Ecuador
5,3
2,9
0,4
0,3
la distancia euclidea es simplemente la raz cuadrada de suma de las diferencias al cuadrado.

Distancia eucldea =
4,51 = 2,12
La distancia eucldea, presenta dos inconvenientes. En primer lugar, la distancia depende de las unidades que se empleen para expresar las variables o
indicadores. Esto significa que los cambios de escala en las variables implican
cambios en las distancias. Una forma de evitar este efecto es transformar y
normalizar las variables. Otra consecuencia es su sensibilidad a la posibilidad
de que las variables ofrezcan medidas redundantes (es decir, que estn altamente correlacionadas). En estas situaciones, la distancia eucldea sobreestima la disimilaridad o distancia entre los individuos. Una posible solucin a
esto es extraer componentes principales de las variables o indicadores (que
24
como sabemos estaran incorrelacionados) y utilizarlos para la estimacin de

disimilaridad, en lugar de las variables o indicadores originales. Otra alternativa es ponderar, con pesos inversamente proporcionales a la correlacin
entre dos variables, la distancia estimada para cada par de ellas.
Todos estos comentarios sugieren que esta medida de distancia es recomendable cuando las variables estn medidas en unidades semejantes. Es decir,
cuando la escala es homognea. La medicin de la distancia eucldea, cuando se aplica a la distancia entre varias dimensiones (o variables), define una
distancia geomtrica dentro de ese espacio multidimensional. Por lo general
se ve poco influenciada por la presencia de casos extremos, siendo muy sensible, como sabemos, a las diferencias en escala.
Distancia eucldea al cuadrado
Recordemos que consiste simplemente en la suma de las diferencias al cuadrado de los valores.
Distancia eucldea cuadrada (x,y) = Si (xi yi)2
La distancia eucldea al cuadrado tiene como desventaja que tambin depende de la unidad de medicin, es decir la magnitud en que se exprese la variable. Por ejemplo si la variable ingresos se encuentra medida en euros o dlares, la diferencia en esa variable para dos casos, ser siempre superior en
magnitud, a la diferencia que pudiese darse al comparar la variable edad. En
ese sentido, la magnitud con que se expresa la medicin, es decir los valores
que puede llegar a alcanzar, influye en la determinacin de la similitud o distancia entre diferentes casos para estimar determinadas "distancias". La medicin concede progresivamente un peso cada vez mayor a los objetos, cuanto
ms separados estn. En ese sentido, potencia las diferencias.
Bloque, Manhattan
Otra forma de medir las distancias entre dos objetos es utilizar los valores absolutos, que resultan de restar los valores de un caso (en una variable) con los
valores de otro caso (en esa misma variable), en lugar de emplear sus cuadrados. Es el caso de la denominada bloque, (tambin llamada distancia
Manhattan o Ciudad). Es simplemente la suma de las diferencias absolutas
de los valores, en las variables consideradas, para cada par de casos (objetos).
En la medida que las diferencias no se han elevado al cuadrado, las diferencias ms importantes no tendrn tanto peso como sucede cuando se elevan al
cuadrado.
Distancia (x,y) = Si xi yi
Pas
25
DIM I
DIM II
DIM III
DIM IV
bolivia
2,3
-0,25
-1,5
Ecuador
5,3
2,9
0,4
0,3
Distancia bloque =
6 - 5,3 + 2,3 - 2,9+ 0,25 - 0,4 + -1,5 - 0,3 =
0,7 + 0,6 + 0,65 + 1,8 = 3,75
La distancia entre bolivia y Ecuador en el ndice de democracia sera de 3,7
de utilizar esta medicin. En conjunto, la distancia viene a definir la distancia media entre dimensiones, con unos resultados bastante prximos a los de
la distancia eucldea, si bien el efecto de los casos extremos es menos fuerte
dado que no se elevan los valores al cuadrado.
Chebychev
La distancia Chebychev tambin emplea las diferencias expresadas en valores absolutos. Sin embargo, no utiliza todas las variables. Esta distancia se
define como la diferencia mayor en trminos absolutos entre dos casos, considerando todas las diferencias entre variables. En ese sentido, ignora gran
parte de la informacin disponible. Solamente la variable que muestra la
diferencia mxima entre los dos casos ser la utilizada.
Distancia (x,y) = MA Xi xi yi
Pas
DIM I
DIM II
DIM III
DIM IV
bolivia
2,3
-0,25
-1,5
Ecuador
5,3
2,9
0,4
0,3
Distancia Chebychev =
6 - 5,3 , 2,3 - 2,9 , 0,25 - 0,4 , -1,5 - 0,3 =
0,7 , 0,6 , 0,65 , 1,8 = 1,8
Aquellas observaciones que hacamos anteriormente respecto al peso en el
ndice que pueden llegar a tener las variables con una unidad de medida superior (por ejemplo renta cuando la utilizamos a la par que la variable edad)
son especialmente relevantes en esta ocasin. Dado que se utiliza solamente una variable como referencia de distancia, ser aquella que emplea magnitudes mayores la que defina finalmente el valor del ndice. Supongamos que
empleamos las variables Producto Interior bruto (en miles de millones),
26
Porcentaje de participacin en las elecciones generales y nmero de desempleados. La distancia que se calcule empleando este ndice tendr en cuenta
exclusivamente el PIb, dado que arrojar la diferencia de mayor magnitud.
Por ello, es conveniente efectuar previamente transformaciones en los datos,
o tener una razn significativa para utilizar este ndice. La lgica que rige
esta medicin de distancia es que lo importante es la diferencia, sin dar importancia a las dimensiones o variables que definen esas diferencias. En ese sentido, la diferencia es lo central, concediendo un peso o importancia equivalente a todas las dimensiones.
Son muchas las alternativas de medicin de disimilitud o distancia, y
cada una de ellas responde a una lgica diferente. Dado el carcter introductorio de este texto, donde se muestra la lgica de la estimacin de distancias,
no abundamos en ms ejemplos de disimilaridad en mediciones mtricas.
Como puede apreciarse en la tabla comparativa siguiente, los diferentes mtodos de estimar las distancias ofrecen magnitudes diferentes. Especialmente
el resultado de la distancia eucldea al cuadrado. Esto es cierto tanto en trminos absolutos (puede afectar a la representacin de los datos) como en trminos relativos, de distancia entre ellos. Elevar al cuadrado incrementa la
separacin entre casos. No obstante, la posicin ordinal de los pases con
respecto a Ecuador (tomado como referencia) no se ve alterada. Sin embargo,
con el empleo de la medida "bloque o Manhattan" se puede afectar tanto a
la posicin ordinal de algn pas (as como a su distancia) con Ecuador. As,
Nicaragua (3,9) estara a menor distancia de Ecuador que Argentina (4) o
Venezuela (4,3) si empleamos la distancia "bloque".
Tabla 2. Clculo de la disimilaridad de Ecuador con otros pases
segn diferentes coeficientes.
Distancia de Ecuador con varios pases en el IDD-lat 2014
Distancia
eucldea
Distancia
eucldea al
cuadrado
Distancia
Distancia
de Chebychev de bloques de
ciudad
brasil
0,949
0,9
0,6
1,8
Panam
1,192
1,42
Mxico
2,005
4,02
1,3
3,4
Per
2,03
4,12
1,3
3,6
Paraguay
2,035
4,14
1,7
3,4
bolivia
2,124
4,513
1,8
3,75
Argentina
2,546
6,48
2,2
27
Distancia
eucldea
Distancia
eucldea al
cuadrado
Distancia
Distancia
de Chebychev de bloques de
ciudad
Venezuela
2,655
7,05
2,2
4,3
Nicaragua
2,917
8,51
2,7
3,9
Colombia
2,988
8,93
2,5
5,1
Honduras
3,621
13,11
2,9
6,5
Rep. Dominicana
3,75
14,06
3,5
5,4
Chile
3,915
15,33
2,4
7,7
El Salvador
4,659
21,71
7,5
Costa Rica
4,757
22,627
3,8
8,03
Guatemala
5,531
30,59
4,3
9,9
Uruguay
7,207
51,94
6,6
10,6
Fuente: elaboracin propia
Hasta aqu hemos operado calculando las distancias entre casos (pases). El
mismo procedimiento puede aplicarse a las variables. Es decir, podemos
aplicar todos estos ndices de distancia para determinar la similitud entre las
variables.
Tabla 3. Las cuatro dimensiones3 del IDD-lat 2014
Pas
DIM I
DIM II
DIM III
DIM IV
9,5
0,7
1,3
Costa Rica
7,43
6,7
2,3
0,1
Chile
7,2
5,3
2,4
1,7
Argentina
6,5
3,1
2,6
0,7
2,3
-0,25
-1,5
5,4
1,5
1,6
Uruguay
bolivia
Per
3. Dimensin I: Democracia de los ciudadanos. Evala el respeto de los derechos polticos

y las libertades civiles. Dimensin II: Democracia de las instituciones. Mide la calidad
institucional y la eficiencia del sistema poltico. Dimensin III. Democracia social y humana. Analiza la capacidad del sistema democrtico para generar polticas que aseguren
bienestar y desarrollo humano. Dimensin IV. Democracia econmica.
28
Pas
DIM I
DIM II
DIM III
DIM IV
Nicaragua
5,3
-2,3
-0,8
Ecuador
5,3
2,9
0,4
0,3
brasil
5,1
2,4
0,9
-0,3
El Salvador
6,9
-0,7
-1,8
Paraguay
3,3
-1,3
-0,7
Panam
4,8
2,5
1,4
0,4
Rep. Dominicana
4,7
2,8
-3,1
-0,9
3,7
0,4
1,6
Venezuela
3,1
1,9
-0,7
0,3
Colombia
2,8
3,5
-1
0,9
Honduras
2,4
3,6
-1
-1,2
Guatemala
3,8
-2,3
-1,7
Mxico
Fuente: Datos del IDD-Lat 2014
As, como ejemplo, para calcular la disimilitud entre la DIM 1 y la DIM 2,

mediante distancia eucldea al cuadrado, calcularamos las diferencias entre
pares de valores de un caso en las dos variables.
Distancia Euclidea al cuadrado entre DIM 1 y DIM 2:
(8 - 9,5)2 + (7,43 6,7)2 + (7,2 5,3)2 + + (2,4 3,6)2 + (1 3,8)2 = 78,6
Distancia Euclidea entre DIM 1 y DIM 2 = 8,86
Distancia bloque entre DIM 1 y DIM 2 = 34
Distancia Chebychev entre DIM 1 y DIM 2 = 3,7
Nuevamente, si calculamos las distancias entre las cuatro variables (en
este caso dimensiones) tendremos una matriz de distancias entre las cuatro
variables. La tabla 4 muestra la distancia eucldea entre las cuatro variables.
Como hemos podido apreciar, la distancia se calcula a partir de los vectores de valores asociados a los casos (vectores fila en una matriz rectangular),
o a las variables en columnas (vectores columna en la matriz rectangular).
Las diferentes formas de estimar las distancias son factibles de aplicarse para
comparar casos o variables.
29
Tabla 4. Matriz de distancias

Distancia eucldea
DIM 1
DIM 2
DIM 3
DIM 1
,000
DIM 2
8,868
,000
DIM 3
21,918
19,131
,000
DIM 4
22,169
18,842
5,332
DIM 4
,000
Esta es una matriz de disimilaridades
Vamos a recordar las transformaciones para normalizar distancias. As, si

queremos normalizar la matriz anterior en un rango entre 0 y 1, le restaremos a todas las distancias el valor de la distancia menor, y posteriormente
las dividiremos por el rango. La distancia menor es 5,3. El rango es el resultado de restar a 22,1 (distancia mayor) la distancia 5,3 (distancia menor), lo
que es igual a 16,8. As, normalizar la distancia entre la DIM 1 y la DIM 2
implica tomar el valor 8,8 y restarle 5,3 = 3,5. Despus dividir por el rango:
3,5/16,8 = 0,20. La matriz normalizada en el rango 0 hasta 1 es la siguiente.
Tabla 5 Matriz de distancias normalizada 0-1
Distancia eucldea
DIM 1
DIM 2
DIM 3
DIM 1
,0
DIM 2
0,20
,0
DIM 3
0,98
0,82
,0
DIM 4
0,80
DIM 4
,0
Esta es una matriz de disimilaridades normalizada 0-1
Recordemos que, en este caso, hemos normalizado las distancias. Esta matriz
puede ser empleada posteriormente para mltiples anlisis multivariantes, basados en matrices de proximidad o distancia.
b) Similaridad
Cuando los datos estn expresados en un nivel de medicin de intervalo
o superior, y consideramos la estimacin de ndices basados en las medidas
30
de similitud, proximidad o semejanza, las opciones ms usuales son el coeficiente de correlacin de Pearson y el Coseno.
Correlacin de Pearson
El coeficiente de correlacin de Pearson puede ser considerado como una
medicin de similaridad entre variables o entre casos medidos en un nivel de
intervalo o superior. La proximidad o igualdad entre dos variables vendran
definidas por la correlacin entre los vectores definidos por los valores de cada
una de ellas. Como es bien conocido, el coeficiente de correlacin de Pearson
oscila entre -1 y +1 (es un coeficiente normalizado), dnde 0 expresa la ausencia de correlacin entre las variables. Cuanto ms prximo est el coeficiente
a -1 o +1, ms fuerte es la relacin entre las variables4. En otras palabras, cuanto ms elevada es la correlacin, tanto en positivo (directamente proporcional)
como en negativo (inversamente proporcional), ms fuerte es la relacin, y
expresa que las dos variables estn bastante prximas. Una relacin no significativa o muy baja indicara que las dos variables son muy diferentes.
Correlacin (x,y) = Si ZxiZyi / N - 1
Tngase presente que en este caso, la proximidad o similaridad se establece
tanto entre variables, como entre casos. Depende del vector (fila o columna)
que se emplee para estimar la correlacin. En el caso de los ndices de democracia considerados en el ejemplo, la correlacin (proximidad) entre dimensiones es la siguiente
Correlacin entre vectores de valores (Columna)
DIM 1
DIM 2
DIM 3
DIM 1
1,000
DIM 2
,497
1,000
DIM 3
,622
,265
1,000
DIM 4
,386
,193
,645
DIM 4
1,000
Matriz de similaridades
Puede observarse como la dimensin 3 (Democracia social y humana) y

la dimensin 4 (Democracia econmica) son las ms prximas, mientras
4. Considerando siempre que el coeficiente de correlacin sea significativo. Es decir, que dicha
relacin existe en la realidad segn exprese su significacin estadstica.
31
que las dimensiones 2 (Democracia de las instituciones) y la dimensin 4

(Democracia econmica) son las ms disimilares, en la medicin del Desarrollo Democrtico. En cierto modo, expresa en qu modo los ndices estn
ms o menos prximos en la medicin comn que aspiran a realizar. Este
tipo de anlisis es bastante semejante (con las diferencias correspondientes)
con el anlisis factorial.
Y, procediendo del mismo modo para los vectores fila con los valores de
cada caso, la matriz de correlaciones expresara la similitud entre casos (en
este ejemplo, pases).
Uruguay Costa Chile Argentina bolivia Per Nicaragua Ecuador
Rica
Uruguay
Costa Rica
0,92
Chile
0,88
0,96
Argentina
0,65
0,85 0,92
bolivia
0,79
0,92 0,98
0,97
Per
0,90
0,93 0,99
0,88
0,96
Nicaragua
0,90
0,89 0,95
0,81
0,92
0,98
Ecuador
0,84
0,91 0,98
0,92
0,98
0,99
0,97
Correlacin entre vectores de valores (fila)
Tomando como referencia las cuatro dimensiones consideradas, los dos pases (de los analizados) ms similares (prximos) son Per y Ecuador (0,99),
o Per y Chile (0,99). Los menos similares, en este caso, son Argentina y
Uruguay (0,65). Como puede apreciarse, el coeficiente de correlacin expresa
similaridad sobre la base de la asociacin.
Coseno
Esta es una medida de similaridad que utiliza los cosenos de los vectores definidos por los valores de cada variable (vector columna), o de cada caso en las
diferentes variables (vector fila). Desarrolla el planteamiento de expresar los
datos como vectores, si bien en esta ocasin empleados para calcular la similitud. La similitud entre dos vectores, evaluada por el coseno del ngulo, oscila entre los valores -1 y 1. El valor mximo de 1 resulta cuando el ngulo entre
los dos vectores es cero. En definitiva, que ambos vectores apuntan hacia la
32
misma posicin, siendo paralelos. Cualquier otro ngulo ofrecera un valor

inferior a 1. Cuando los vectores son ortogonales su coseno es cero y en el
caso de apuntar en sentido opuesto alcanzara un valor mximo de -1. La
medida es independiente (excepto el signo) de la longitud de los vectores.
Coseno de vectores de valores
DIM 1
DIM 2
DIM 3
DIM 1
1,000
DIM 2
,921
1,000
DIM 3
,207
,113
1,000
DIM 4
,129
,084
,645
DIM 4
1,000
Los ndices ms prximos son la Dimensin 1 (Democracia de los ciudadanos) y la Dimensin 2 (Democracia de las instituciones), con un coseno de ,92. Al igual que con el coeficiente de correlacin, las dimensiones 2
(Democracia de las instituciones) y la dimensin 4 (Democracia econmica) son las menos similares, con un coseno de ,084, en la medicin del
Desarrollo Democrtico.
Uruguay Costa Chile Argentina bolivia Per Nicaragua Ecuador
Rica
Uruguay
Costa Rica
0,97
Chile
0,95
0,98
Argentina
0,87
0,95 0,97
bolivia
0,82
0,87 0,84
0,87
Per
0,95
0,97 0,99
0,96
0,83
Nicaragua
0,83
0,80 0,76
0,73
0,93
0,77
Ecuador
0,93
0,96 0,96
0,95
0,94
0,96
0,896
Coseno de vectores de valores
Como podemos observar, se aprecian cambios en los coeficientes de similaridad cuando comparamos el coeficiente de correlacin y el coseno. Esto suce-
33
de debido a que el coeficiente de correlacin equivale al coseno del ngulo

entre los vectores cuando las variables se encuentran centradas. Por ello,
las diferencias que observamos entre el coseno y el coeficiente de correlacin
proceden del hecho que el coseno emplea los valores de los datos originales,
con desviacin expresada respecto al origen, mientras que el coeficiente de
correlacin emplea las variables normalizadas y con las desviaciones expresadas respecto a la media. Este hecho nos da alguna orientacin sobre cundo es preferible uno u otro coeficiente. Cuando los datos tienen un origen con
un significado claro (un cero como ausencia absoluta de alguna caracterstica, por ejemplo), de forma que los valores tienen sentido, el coseno es la
mejor opcin para determinar la proximidad. Por el contrario, si el origen
de los datos es arbitrario, y no tiene un significado concreto, expresarlos
respecto a la media puede ser lo ms conveniente, y por ello es recomendable emplear el coeficiente de correlacin.
Otras medidas empleadas son la covarianza y en general aquellas que
expresan asociacin.
2.1.2. Datos expresando nivel de medicin ordinal y rangos
Al igual que el coeficiente de correlacin es utilizado como indicador de
similitud, pueden emplearse las versiones de correlacin desarrolladas para
variables ordinales y de rango, como son Spearman o Gamma, por ejemplo.
Generalmente, las medidas de similitud basadas en la correlacin como son
Pearson, Mu2, Spearman, Gamma o Tau no se ven afectadas por las diferencias en las escalas de medicin que se empleen en las variables.
Gamma
Se aplica cuando las variables son de tipo ordinal o rangos. Se calcula restndole a 1 el coeficiente de correlacin gamma de Goodman-Kruskal. Su lgica es semejante a la del coeficiente de correlacin. Como podremos observar,
partiendo de la idea de emplear asociacin como distancia o similitud, todos
los coeficientes son susceptibles de ser empleados para tal fin. Es el caso de
Spearman, o tau-b y tau-c, si bien estas ltimas tienen dificultades para alcanzar los lmites -1 y +1 cuando no se trata de tablas cuadradas.
2.1.3. Datos expresando nivel de medicin recuentos
Cuando las variables expresan frecuencias tambin es factible determinar
una medida de distancia entre ellas, tomando todas las categoras en conjunto. Las dos medidas de distancia ms empleadas son el Chi-cuadrado y Phicuadrado.
34
a) Distancia
Medida de Chi-cuadrado
Un procedimiento frecuente para medir la disimilaridad cuando se emplean
frecuencias se basa en Chi-cuadrado. El test de Chi-cuadrado determina si
dos variables son o no independientes estadsticamente. Es decir, que no existe relacin entre ellas. En su empleo como medida de distancia o disimilaridad, simplemente se calcula el coeficiente chi-cuadrado de la tabla de contingencia y se extrae su raz cuadrada. En definitiva, esta medida de distancia consiste en la raz cuadrada de chi-cuadrado. Cuando consideramos muchas
variables, para cada par podemos estimar su distancia segn chi-cuadrado,
construyendo una matriz de disimilaridad entre las variables. Es importante
recordar que las tablas son del tipo 2 x n n x 2, es decir que la comparacin se contina haciendo por pares, sean definidos por las filas (2) o por las
columnas.
Dado que el valor que adquiera chi-cuadrado depende del tamao muestral, la magnitud que alcance este coeficiente de distancia depender del
nmero de casos considerados. Para intentar normalizar los coeficientes de
distancia en variables que adoptan valores de frecuencia, se utiliza como alternativa el coeficiente phi-cuadrado.
Medida de phi-cuadrado
Esta medida intenta corregir el efecto que tiene la muestra en el clculo
del Chi-cuadrado. Para ello, divide la medicin anterior, es decir, la medicin
de disimilaridad basada en chi-cuadrado, por la raz cuadrada de las frecuencias totales (el total de casos u observaciones contenidas en la tabla de contingencia). Con ello, el valor del ndice no se ve influido por las diferencias
de frecuencias de las variables que se comparan.
Otros ndices son la V de Cramer, el coeficiente de contingencia, Lambda
y varios ms.
2.1.4. Datos expresando nivel de medicin binario
En el caso de datos binarios existen numerosos coeficientes de similaridad.
Se consideran datos binarios los que se codifican con solamente dos valores.
Ejemplos de esto pueden ser poseer una casa o no, estar sano o enfermo, hombre o mujer, etc. Si las observaciones son pases, por ejemplo, las variables
binarias pueden considerar poseer o no un sistema de salud pblica, tener o
no tener libertad de prensa, realizarse o no elecciones libres, etc. Habi-
35
tualmente la presencia de la caracterstica o atributo se codifica con 1, y con

un 0 su ausencia. En principio las diferentes mediciones de disimilaridad
con datos binarios dependen de la importancia que le conceden a las diferentes celdas en la tabla de dos por dos que definen dos variables binarias.
Consideremos como ejemplo dos casos y sus valores binarios en 5 variables.
El cdigo 1 indica S y el cdigo 0 expresa No. La estructura de la
matriz de datos es rectangular, con los casos en filas y las variables en
columnas. Este tipo de matriz es caracterstica de las encuestas de opinin,
as como de datos secundarios.
Tabla. Ejemplo A distancia entre casos: datos binarios
Variable 1
(tiene mvil)
Variable 2
(tiene TV)
Variable 3
(tiene radio)
Variable 4
(lee prensa)
Variable 5
(debate con
amigos)
Caso 1
Caso 2
Si consideramos las caractersticas que poseen en comn y las que no, obtenemos una tabla de contingencia de 2 x 2. El caso 1 y el caso 2 coinciden
que s en la variable 2 (tener TV). Es decir, 1 coincidencia en que s-s.
Los dos casos coinciden que no en la variable 3 (tener radio). Es decir, 1
coincidencia en que no-no. El caso 1 dice s en dos ocasiones que el caso
2 dice no (variables 1 y 5). Es decir, 2 veces. Por ltimo, el caso 1 dice no
cuando el caso 2 dice s, en 1 sola ocasin, (variable 4).
Tabla. Ejemplo A distancia entre casos: cuadro resumen
Caso 1
Caso 2
No
No
En este ejemplo se compara las respuestas dadas por dos casos a las cinco
variables. Partiendo de esta tabla cruzada, es posible estimar varios ndices de
similitud y disimilitud.
Al igual que en la ocasin anterior, puede efectuarse la misma operacin
para comparar dos variables (considerando los valores 0 y 1 presentes en los
diferentes casos). Con ello construiremos una tabla comparando dos variables
36
dicotmicas. Por ejemplo, consideremos si las ciudades consideradas tienen

una emisora propia de radio o televisin. Para determinar la proximidad o
distancia en el equipamiento de los dos medios, construiramos una tabla de
siguiendo el mismo procedimiento anterior.
Tabla X. Ejemplo B distancia entre variables: datos binarios
TV
Radio
Ciudad A
Ciudad b
Ciudad C
Ciudad D
Ciudad F
Ciudad G
Ciudad H
Ciudad I
Resumida segn sus coincidencias y no coincidencias obtendramos la tabla

siguiente.
Tabla X. Ejemplo B distancia entre variables: cuadro resumen
Radio
TV
Total
si
no
Total
si
no
En cada una de las celdillas encontramos el nmero de ciudades que poseen

o no las caractersticas consideradas. El total de ciudades, se expresa en la
esquina inferior derecha.
La importancia que se le conceda a las diferentes casillas en la tabla depende de la naturaleza de las variables consideradas. Por ejemplo, consideremos
cuando dos casos responden "no" a la pregunta ha ganado alguna vez la
lotera? Ese "no" aporta poca informacin con respecto a la similaridad entre
los individuos. Lo ms habitual es no ser agraciado con un premio, por lo que
37
la similitud con otro caso en la opcin no aporta poca informacin. Por el

contrario una respuesta positiva a esa pregunta puede indicar un parecido
importante entre los dos casos. Los dos han sido premiados en un sorteo y
esa coincidencia es algo que puede considerarse destacable. Sin embargo
consideremos la caracterstica posee una emisora de televisin y posee
una emisora de radio. Para un pas desarrollado, las coincidencias o parecidos en la respuesta negativa (no tener televisin o una emisora de radio)
puede ser mucho ms significativa que las coincidencias en la positiva. Es
evidente que en cada situacin se desea dar una importancia diferente a las
coincidencias negativas o a las coincidencias positivas. En la primera queremos dar una mayor relevancia a las coincidencias de tipo "s" (a los dos les
ha tocado lotera), dada la rareza de la coincidencia. Es la misma situacin
que cuando los dos casos (ciudades) coinciden en la respuesta "no" (no poseen
televisin o emisora de radio). Esta coincidencia en no tener canal de televisin y emisora de radio puede ser significativa (en algunos pases) respecto a la similaridad entre los dos casos, y posiblemente ms interesante que
la coincidencia en "s" tenerla.
Como ya hemos dicho, las medidas de similaridad en el caso de variables
binarias se diferencian en el tratamiento que le dan a cada una de las casillas
en la tabla que se forma. Algunas peticiones simplemente excluyen las casillas que expresan la ausencia de valor, es decir negativas, "no". En otras
mediciones tendrn ms peso las coincidencias que las diferencias, mientras
que en otras se focalizan ms en las diferencias que en las coincidencias.
Evidentemente la seleccin de la medida apropiada debe depender de la naturaleza de las variables y de la informacin que facilitan al investigador. Es
el investigador el que decide que caractersticas son ms substantivas para los
objetivos de su investigacin.
La construccin de una tabla de doble entrada con dos variables binarias,
define otra tabla de 2x2, cuyas celdillas notaremos con letras, segn la combinacin de presencia o ausencia de la caracterstica. Estas letras van a ser usadas en la explicacin de las medidas de disimilitud con datos binarios.
Variable 1
Variable 2
1 (S)
0 (No)
Totales
1(S)
a+b
0 (No)
c+d
Totales
a+b
b+d
m= a+b+c+d
38
En la anterior tabla se tiene:

1. Donde a representa el nmero de individuos que toman el valor 1 en
las dos variables de forma simultnea.
2. Donde b indica el nmero de individuos de la muestra que toman el
valor 1 en la variable 2 y 0 en la variable 1.
3. Donde c es el nmero de individuos de la muestra que toman el valor
0 en la variable 2, y 1 en la variable 1.
4. Donde d representa el nmero de individuos que toman el valor 0 en
las dos variables, al mismo tiempo.
5. Donde a + c muestra el nmero de veces que la variable 1 toma el
valor 1, independientemente del valor tomado por la variable 2.
6. Donde b + d es el nmero de veces que la variable 1 toma el valor 0,
independientemente del valor tomado por la variable 2.
7. Donde a + b es el nmero de veces que la variable 2 toma el valor 1,
8. Donde c + d es el nmero de veces que la variable 2 toma el valor 0,
Tomando como referencia la notacin anterior, procedamos a la estimacin de distancias y similitudes.
a) disimilitud
Distancia eucldea
Distancia euclidiana binaria. Tiene un valor mnimo de cero y sin lmite superior.
Distancia (x,y) = (b+c)
Se calcula a partir de una tabla 2x2 como la raz cuadrada de (b+c), donde
b y c representan las casillas diagonales correspondientes a los casos presentes en un elemento pero ausentes en el otro.
Para el ejemplo A: ,2-1+2. = 1,73
Para el ejemplo b: ,2-2+2. = 2
Distancia eucldea al cuadrado
Tiene un valor mnimo de cero y sin lmite superior.
Distancia (x,y) = b+c
39
Nuevamente, se calcula a partir de una tabla 2x2 como la suma de (b+c),

donde b y c representan las casillas diagonales correspondientes a los casos
presentes en un elemento pero ausentes en el otro.
Para el ejemplo A: 1 + 2 = 3
Para el ejemplo b: 2 + 2 = 4
Diferencia de tamao
Se trata de un ndice de asimetra. Tiene un valor mnimo 0 y lmite superior
de 1. Se calcula mediante (b-c) / n. Siendo n el nmero total de casos.
Distancia (x,y) = (b - c)2 / (a+b+c+d)2
Para el ejemplo A: 1 / 25 = 0,04
Para el ejemplo b es cero dado que tanto b como c tienen el mismo valor.
Diferencia de configuracin
Nuevamente b y c representan las casillas diagonales correspondientes a los
casos presentes en un elemento pero ausentes en el otro, y a+b+c+d es el
nmero total de observaciones al cuadrado. Su valor oscila de forma normalizada en un rango de cero a uno.
Distancia (x,y) = bc / (a+b+c+d)2
Para el ejemplo A: 2/25 = 0,08
Para el ejemplo b: 4/64 = 0,063
Varianza
Se calcula a partir de una tabla 2x2 como (b+c)/4n, donde b y c representan
las casillas diagonales correspondientes a los casos presentes en un elemento pero ausentes en el otro, siendo n el nmero total de observaciones. Oscila
entre 0 y sin lmite superior.
Distancia (x,y) = b+c / 4(a+b+c+d)
Forma
Esta medida de disimilitud, no tiene lmite superior o inferior y penaliza la asimetra de las discordancias.
40
Distancia (x,y) = (a+b+c+d)(b+c) (b-c)2 / (a+b+c+d)2

Lance y Williams
Se calcula donde a representa la casilla correspondiente a los casos presentes en ambos elementos y donde b y c representan las casillas diagonales correspondientes a los casos presentes en un elemento pero ausentes en el otro.
Esta medida oscila entre 0 y 1. Tambin se conoce como coeficiente no mtrico de brayCurtis.
Distancia (x,y) = b+c / 2a+b+c
b) Similitud5 usando datos binarios
Como es habitual en las mediciones de asociacin, una forma de medir la
similaridad en variables dicotmicas es contar el nmero de veces que ambas
variables toman el mismo valor de forma simultnea. La idea de referencia
es que dos variables sern ms parecidas cuantas mayores coincidencias se
produzcan entre los valores de sus casos. Algo semejante a cuando empleamos el coeficiente de correlacin anteriormente. Esto no obvia la necesidad
de tomar varias decisiones importantes. Por ejemplo, qu hacer con las coincidencias 0-0, dado que si la dicotoma expresa la presencia o ausencia de
una caracterstica, la casilla d no tiene ningn significado real y cabria plantearse excluirla de la medida de similitud. La otra cuestin de inters es
como ponderar las diagonales (las coincidencias y las no coincidencias) de
la tabla de 2x2. Los ndices de similitud que vamos a considerar son diferentes decisiones con respecto a las dos cuestiones anteriores.
Russell y Rao
La medicin de similaridad de Russell y Rao se calcula dividiendo el nmero de coincidencias en la celdilla positivo-positivo, por el total de valores.
Este coeficiente mide la probabilidad de que un individuo elegido al azar
5. Existen una multitud de ndices de similitud para datos binarios como son: Rogers y
Tanimoto, Sokal y Sneath 1, Sokal y Sneath 2, Sokal y Sneath 3, Kulczynski 1, Kulczynski
2, Sokal y Sneath 4, Hamann, Lambda, D de Anderberg, Y de Yule, q de Yule, Ochiai,
Sokal y Sneath 5, correlacin Phi de 4 puntos, dispersin, etc.
41
tenga el valor 1 en ambas variables. Notemos que este coeficiente excluye la

pareja 0-0, al contar el nmero de coincidencias pero no lo hace as al contar el nmero de posibles parejas. Asimismo, esta medida proporciona igual
peso a las coincidencias y a las no coincidencias
Distancia (x,y) = a / a+b+c+d
Concordancia simple
La medicin de concordancia simple, se define como el nmero de coincidencias divididas por el nmero total de casos (o de variables). Este coeficiente
mide la probabilidad de que un individuo elegido al azar presente una coincidencia de cualquier tipo, pesando de igual forma las coincidencias y las no
coincidencias.
Distancia (x,y) = a+d / a+b+c+d
En este ejemplo b, tenemos cuatro coincidencias entre los dos casos considerando siete variables por lo que el coeficiente de coincidencias sera cuatro dividido entre siete, o 0.5.
Jaccard
La medicin jaccard, excluye la celda negativa-negativa tanto del numerador como del denominador. Esta medida mide la probabilidad condicionada
de que un individuo elegido al azar presente un 1 en ambas variables. Las coincidencias de tipo negativo-negativo (d) se excluyen al considerarse no significativas en este ndice.
Distancia (x,y) = a / a+b+c
Para el ejemplo b el valor sera de .429.
Dice
La medicin Dice excluye la valores coincidentes 0-0 tanto del numerador
como del denominador y le asigna un peso doble al valor de las coincidencias
del tipo 1-1. Se puede ver este coeficiente como una extensin de la medida
de jaccard, aunque su sentido probabilstico se pierde.
42
Distancia (x,y) = 2a / 2a+b+c

En el ejemplo b tendra un valor de .600
Rogers-Tanimoto
Este coeficiente puede interpretarse como una extensin de la medida de
concordancias simples, pesando con el doble valor las no coincidencias
(b+c).
Distancia (x,y) = a+d / (a+d+2(b+c)
En el ejemplo b tendra un valor de .333
Medida de Kulcynski
Esta medida es el cociente entre coincidencias y no coincidencias, excluyendo
los pares negativo-negativo.
Distancia (x,y) = a / b+c
Medida Phi
Al igual que se utiliza el coeficiente de correlacin de Pearson como medida de proximidad, en el caso de tablas de 2x2 es posible emplear el coeficiente de Correlacin Phi de 4 puntos. Este ndice su equivalente en binario, con
un rango de variacin entre -1 y +1.
En el ejemplo b tendra un valor de -.067
Vamos a continuacin a considerar algunas de las aplicaciones inmediatas de las matrices de distancias o proximidades. Una de ellas es, evidentemente, el anlisis de conglomerados. Siendo el concepto de proximidad y
distancia una nocin fundamental, en general, es una cuestin de interpretacin su empleo con un sentido terico u otro. As, la asociacin (como es el
caso de la correlacin) puede interpretarse como proximidad o distancia.
Como similitud o disimilitud. En un sentido metafrico, los anlisis de asociacin, en especial los basados en modelos lineales, simplemente expresan
la idea de que todas las variables son, hasta cierto punto y tras las modificaciones que producen las transformaciones de combinacin lineal, un sistema
de copias que reflejan con mayor o menor precisin las imgenes de unas en
las otras.
La investigacin social experiment una revolucin tras la implementacin de paquetes informticos que realizan tareas de anlisis estadstico. Y
cabe enfatizar, tareas de tratamiento de datos. Los programas no efectan
anlisis en el sentido de interpretacin. Es el investigador quien investiga y
analiza. Es el investigador quien busca sentido en los datos que representan
43
la realidad, con todas las limitaciones por todos conocidas. Los programas
son una herramienta. Una ayuda valiosa que permite afrontar tareas que seran
casi imposibles por su coste en tiempo para cualquier investigador. La
oferta de programas comerciales es muy elevada y cada vez son ms. Una
opcin interesante es utilizar programas liberados como son el programa R.
Sin embargo, su curva de aprendizaje es lenta y exige una documentacin
extensa de procedimientos para aquellos que no estn familiarizados con l.
La paradoja est servida. Aquellos que conocen el programa, dada su especializacin, posiblemente ya saben dnde encontrar estos anlisis (incluso
buscando en CRAN). Para los no competentes con R, obliga a escribir un
manual formativo que excede este texto. Hoy por hoy, los programas comerciales son ms intuitivos y fciles de usar. basta unas orientaciones bsicas
y la curva de aprendizaje es rpida. Obviamente, al ser un producto comercial que compite en un mercado en expansin, buscan la frmula de hacerlos ms acogedores. En esta ocasin los ejemplos se expondrn en dos programas bastante extendidos: SPSS y SYSTAT.
2.2. EjEMPLOS EN SPSS Y SYSTAT
En el programa SPSS las distancias y las similitudes se obtienen desde el men
Analizar, opcin Correlaciones y dentro de ella Distancias.
Una vez elegida la opcin Distancia, aparecen las dos ventanas, a la izquierda el listado de variables existente en la base de datos y a la derecha las variables que se eligen para calcular las distancias o similitudes.
44
Es posible elegir las distancias ente casos o variables, as como que medida
de distancia o similitud se desea calcular. Las medidas disponibles en SPSS
se muestran desplegando la opcin medidas. Estn organizadas segn mtrica de las variables en Intervales, Recuentos y binarias. Al elegir el tipo de
medida, se activa el desplegable de la derecha dando a elegir qu ndice se
desea emplear. Los ndices sern del tipo elegido en la ventana anterior: de
disimilaridad o de similaridad.
45
En la zona inferior izquierda de la ventana se muestran las opciones de transformar los valores, ya sea en fila (casos) o columnas (variables). A la derecha, la opcin de normalizar los ndices de similitud o disimilitud. Las transformaciones de casos o variables se utilizan para el clculo de los ndices de
similitud o disimilitud.
En el programa SYSTAD los mens son bastante semejantes. El clculo
de las matrices de disimilitud y similitud (proximidad y distancia) se encuentran en la opcin Analizar, y dentro del desplegable la opcin Correlacin
y nuevamente Simple. El procedimiento para estimar las distancias se
encuentra incorporado dentro del sistema de opciones de Correlacin.
En el SYSTAD cabe la posibilidad de producir matrices de distancias cuadradas o simtricas. En el caso de elegir un solo grupo, se produce una matriz
simtrica. Al elegir un grupo se desactiva la segunda ventana de seleccin de
variables.
Las diferentes distancias estn agrupadas segn una lgica ms detallada. En el rea inferior izquierda se puede elegir entre Intervalo, datos expresando Distancias, medicin ordinal y de rangos, datos categoriales o recuentos y binarios. Dentro de cada opcin se encuentran una importante diversidad
de indicadores de distancia.
46
Algunos ejemplos, las distancias para datos ordenados y las distancias para
datos no ordenados. Para datos ordenados, como son las variables ordinales o
los rankings.
Y para datos de tipo recuento, es posible emplear en SYSTAD los siguientes

ndices.
47
Las otras dos pestaas, Opciones y Remuestreo, se refieren a estrategias para

estimar la significacin. En el caso de las opciones solamente son utilizables
con variables de intervalo.
3. EL ANLISIS DE CONGLOMERADOS
diame por piedad, yo te lo pido
diame sin medida ni clemencia!
Ms vale el odio que la indiferencia.
El rencor hiere menos que el olvido.
Yo quedar, si me odias, convencido,
de que otra vez fue ma tu existencia.
Ms vale el odio a la indiferencia.
Nadie aborrece sin haber querido!
El ltimo ruego1 (1903)
FEDERICO bARRETO (1862-1929)
Como hemos comentado anteriormente, el clculo de una medida que estime la proximidad o distancia entre casos o variables, nos permite establecer
una serie de procedimientos de anlisis. En trminos intuitivos, posiblemente
el ms inmediato se refiere a la posibilidad de formar grupos de casos a partir de la proximidad que se haya establecido entre ellos. El inters es evidente, en la medida que agrupar los casos, por ejemplo pases, instituciones,
individuos, grupos, asociaciones, nos permite establecer posibles tipos diferenciados, en funcin a las caractersticas que les hacen estar prximos. El
procedimiento estadstico ms generalizado que considera la agrupacin de
objetos o casos en funcin a su similitud o disimilitud es el denominado anlisis de conglomerados.
De forma simple, el anlisis de clster consiste en identificar la existencia de grupos en los datos u observaciones. As, para Kaufman y Rousseeuw
6. barreto F. El ltimo ruego. No. 35de la revista Actualidades, n. 35, 21 de septiembre de
1903, pgina 576
50
(1990) el anlisis de clsteres es el arte de encontrar grupos en los datos. No

obstante, definir qu es el anlisis de clster es una tarea bastante complicada, tanto por la gran variedad de mtodos utilizados como por la presencia
de una importante diversidad conceptual. Everitt et al. (2011, 7) revisando
los conceptos de clster, grupo o clase proponen que intentar definir
de forma nica cada uno de esos conceptos, en el marco del anlisis de clsteres, puede ser algo que genera ms confusin que ayuda.
Uno de los rasgos de este tipo de anlisis es su carcter exploratorio, en
la medida que no es preciso conocer previamente ningn tipo de pertenencia o tipologa para investigar las agrupaciones que forman los casos. Esta
posibilidad de decidir cuntos son los grupos relevantes, es propia tanto de
los modelos jerrquicos como de los no jerrquicos. Tomados un conjunto
de casos, y a partir de ellos las matrices de distancias, es posible determinar
cules son ms similares entre s y cuales ms diferentes. Como ya sabemos,
se pueden medir las matrices de distancias entre casos o tambin entre variables. Como era previsible, los mtodos de conglomerados (clster) permiten
agrupar tanto casos (por ejemplo pases) como variables (por ejemplo, indicadores de desarrollo). La finalidad es la misma: agrupar lo semejante y diferenciarse de lo diferente. Ese carcter exploratorio se evidencia en que muchos
de los procedimientos de minera de datos se basan en el anlisis de clsteres. Son muchos los autores que enfatizan dicha dimensin exploratoria.
Everitt afirma como Muchas de las tcnicas de anlisis de clsteres han
ocupado un lugar junto a otras tcnicas de anlisis exploratorio de datos, entre
las herramientas que emplean los estadsticos. El trmino exploratorio es importante aqu porque explica la ausencia del coeficiente p-value, presente
en muchas otras reas de la estadstica. (/) los mtodos de clster estn
pensados ms para generar hiptesis que para testarlas. (1993, 10).
Existen otros mtodos que proponen determinar de forma automtica el
nmero de clsteres existentes en la matriz de datos. Sin embargo, cuando se
trata de investigacin, todos los procesos que actan alejando al investigador
del contacto con los datos son claramente perjudiciales. Todo anlisis consiste en una sucesin continuada de toma de decisiones sobre la pertinencia y significado terico de lo que se descubre en los datos. Operar sobre los datos,
evaluando y diagnosticando el significado de las diferentes soluciones de
nmero de clsteres permite un mejor conocimiento de sus significados y condiciones en que se estudia su estructura. En ese sentido, las facilidades de anlisis, en el sentido de ofrecer un nmero concreto de clsteres, esconden y lo
que es an peor, permiten, ofrecer resultados sin conocer las limitaciones.
51
Los procedimientos para definir un clster pueden permitir que estos se

solapen, por lo que un caso puede pertenecer a dos o ms clsteres simultneamente o permitir solamente la pertenencia a un clster. Este ltimo es el procedimiento ms generalizado. Como es habitual, los resultados que obtengamos dependern directamente de la informacin que hayamos utilizado para
efectuar el anlisis. Esto significa que tanto el nmero de conglomerados
como las diferencias que se establecen entre estos grupos, significarn una
cosa u otra en funcin a las variables que se hayan utilizado para determinar
las diferencias o similitudes. La consecuencia es evidente. Un grupo de objetos o casos, por ejemplo pases, formarn grupos o tipos diferentes en funcin
a las variables que se tomen en consideracin para definir la matriz de distancias o proximidad. Evaluar la pertinencia es fundamental para conocer el significado real de los grupos o tipos que se extraen. En todo caso, es importante insistir en que la seleccin de variables es esencial para los resultados que
se obtengan, especialmente el significado que se les puede atribuir.
Asimismo, adems del significado sustantivo en trminos tericos que
pueda tener el utilizar unas u otras variables de referencia, existen varias
decisiones de carcter tcnico que condicionarn los resultados que obtengamos. Por ejemplo, qu medida de distancia o proximidad se elija, o los criterios que decidirn la adscripcin de un caso a un conglomerado u otro (por
ejemplo, qu decidir cuando un caso se encuentre a una distancia similar de
dos grupos). Como ya sabemos, las dos medidas (de distancia o de proximidad)
son realmente dos formas de mirar un mismo fenmeno. Por ello, los mtodos
siguientes de agrupacin son aplicables en los dos tipos de medicin, simplemente aplicando la misma lgica de forma inversa. Es decir, tomar disimilitud por similitud.
Respecto a la cuestin sobre qu casos son ms similares o ms diferentes, la respuesta la encontramos recurriendo a las medidas de similitud o
disimilitud que hemos presentado en el captulo anterior. Todo aquello que
se coment respecto a las limitaciones en el uso de unas medidas u otras, se
aplica de forma directa a los procedimientos estadsticos que se apoyan sobre
ellas para poder operar. Los procedimientos de deteccin de clsteres ms
empleados son las tcnicas jerrquicas y las que operan sobre K-medias. Estos
parten de la ventaja de haber sido muy testados y sus limitaciones bien conocidas (bacher 2000: 223; Everitt et al. 2001: 94-96; Huang 1998: 288).
3.1. MTODOS DE VINCULACIN, DISTRIbUCIONALES Y DE DENSIDAD
De igual modo que existen muchas formas diferentes para calcular la distancia
entre casos u objetos, tambin existen varias alternativas para poder combi-
52
narlos en diferentes grupos. stas alternativas siguen diferentes lgicas, especialmente en las situaciones donde el nmero de casos que deben ser agrupados es muy elevado. Evidentemente, los procedimientos para agrupar un
nmero limitado de casos permiten unas herramientas analticas diferentes a
cuando son muchos casos. Vamos a considerar dos grandes procedimientos:
los mtodos de aglomeracin jerrquicos y los no jerrquicos.
En los mtodos jerrquicos, un clster contiene otros clsteres, quienes
a su vez contienen otros clsteres y as sucesivamente hasta finalizar en un
solo grupo agrupando todos los clsteres. Es un procedimiento que opera
tanto de forma inclusiva agregando clsteres como divisiva, separndolos
progresivamente. Por lo general, los mtodos jerrquicos son plenamente
exploratorios, de forma que decidir cuntos grupos existen es el resultado
del anlisis. Los mtodos jerrquicos utilizan sobre todo procedimientos de
vinculacin (linkage) entre casos o variables. En ese sentido, los mtodos
jerrquicos permiten establecer clsteres de variables, de casos o de ambos
simultneamente.
En los mtodos no jerrquicos, lo ms frecuente es ir decidiendo cuntos grupos al iniciar el anlisis (tal y como sucede con el anlisis discriminante). Con este enfoque, solamente se establecen grupos de casos, no de
variables. Los clsteres son el resultado de la particin en grupos de los casos
en estudio. En definitiva, en el primer caso los grupos se van agregando
incrementando la heterogeneidad del grupo resultante, mientras que en los
mtodos de particin, como son k-medias o k-medianas, se separan los casos
intentando optimizar las diferencias entre los grupos solicitados y buscando
la mayor homogeneidad interna.
Considerando estos dos tipos de procedimientos para buscar clsteres
(jerrquicos y k-clsteres), ya existe una gran diversidad de mtodos diferentes. La mayora de los mtodos permiten elegir qu medida de similitud
o disimilitud emplear para formar los grupos. De hecho, existe una inmensa
lista de opciones de medidas de similitud y disimilitud. Por ejemplo, si consideramos Minkowski, es muy elevado el nmero de medidas de distancia
que podemos definir. Para incrementar an ms la diversidad, aparece la
opcin, que ya hemos considerado, de transformar las variables (mediante
normalizacin o estandarizacin). Otra cuestin relevante son las reglas que
podemos establecer para decidir cuntos son los grupos existentes en los datos.
Estas reglas o criterios para dar por finalizada la exploracin son ms abundantes de lo que pudiese parecer, llegando Milligan y Cooper (1985) a identificar y analizar hasta 30 reglas o criterios diferentes. Si combinamos todas las
53
opciones anteriores (tipos de anlisis, mtodos de anlisis, medida de similaridad o disimilaridad elegida, trasformaciones y reglas de finalizacin), podemos apreciar la gran cantidad de tipos de anlisis existentes.
La confusin se agrava por el hecho de que diferentes disciplinas han
producido, para sus anlisis mtodos muy parecidos para el anlisis de clsteres, si bien les han denominado de formas diferentes. En el caso de los
mtodos jerrquicos, hierarchical clustering (Mcquitty, 1960; johnson,
1967); single linkage clustering (Sokal and Sneath, 1963), o joining
(Hartigan, 1975). En lo referido a los procedimientos para producir las agregaciones (o desagregaciones segn se elija) de los grupos, blashfield y
Aldenderfer (1978) facilitan una relacin de equivalencias entre los trminos empleados, que jain y Dubes (1988), y Day y Edelsbrunner (1984) completan incluyendo sinnimos y acrnimos. La relacin siguiente muestra
varias de esas equivalencias y sinnimos. Un investigador, segn su disciplina,
tender a emplear unos u otros trminos. No obstante, se referirn en la prctica al mismo procedimiento. En este texto mantenemos los nombres en su
versin inglesa, en un intento de reducir la confusin ya existente, y que se
incrementa an ms cuando median traducciones.
Sinnimos y equivalencias
Single linkage: Nearest-neighbor method, Minimum method, Hierarchical
analysis, Space-contracting method, Elementary linkage analysis, Connectedness method.
Weighted average linkage: Weighted pair-group method using arithmetic averages, WPGMA, Weighted group-average method.
Centroid linkage: Unweighted centroid method, Unweighted pairgroup centroid method, UPGMC, Nearest-centroid sorting
Complete linkage: Furthest-neighbor method, Maximum method,
Compact method, Space-distorting method, Space-dilating method, Rankorder typal analysis, Diameter analysis.
Median linkage: Gowers method, Weighted centroid method, Weighted
pair-group centroid method, WPGMC, Weighted pair method, Weighted
group method.
Average linkage: Arithmetic-average clustering, Unweighted pair-group
method using arithmetic averages, UPGMA, Unweighted clustering, Groupaverage method, Unweighted group mean, Unweighted pair-group method.
Wards method: Minimum-variance method, Error-sum-of-squares
method, Hierarchical grouping to minimize tr(W), HGROUP.
54
Los nombres en negrita sern los utilizados en este libro cuando nos refiramos y describamos los mtodos para establecer la vinculacin entre clsteres.
Como hemos observado anteriormente, el anlisis de clster es una
estrategia fundamental en las tareas de minera de datos y en lo que actualmente se denomina big data. Es decir, de la explotacin exploratoria de
grandes bases de datos que incorporan informacin de diverso tipo. Este
hecho hace que partiendo de los mtodos anteriores se hayan desarrollado
otros procedimientos alternativos. Es el caso de la bsqueda de clsteres
basndose en las distribuciones multivariables o los que se basan en el estudio de la densidad. Las estimaciones de densidad (Hartigan 1975; Wong and
Lane, 1983) pueden ser aplicadas al anlisis de clsteres, existiendo varios
mtodos para ello (Silverman, 1986).
El mtodo para detectar clsteres ms directamente conectados con la
estadstica es el basado en el anlisis conjunto de distribuciones. Para ello se
modifica levemente la definicin de clster de forma que incluya el concepto de distribucin. Un clster estar formado por aquellos casos que con mayor
probabilidad pertenezcan a una misma distribucin. Este tipo de modelado
presenta el problema del sobreajuste, de forma que el investigador debe establecer una serie de criterios y condiciones que limiten las soluciones posibles
de los modelos. Por definicin, cuanto ms complejo es un modelo mejor
ajustar sobre la diversidad de los datos, sin embargo la nocin misma de parsimonia ya sugiere que el modelo ms complejo no es necesariamente el mejor,
aun cuando sea el ms explicativo. En esta lgica distribucional de la exploracin de clsteres, los clsteres capturan y expresan la correlacin e interdependencia entre los atributos empleados para agrupar los casos. Entre los
mtodos ms empleados se encuentran los modelos gaussianos mixtos, dnde
los datos son modelados mediante un nmero fijo de distribuciones gaussianas, inicializadas mediante valores aleatorios, y que mediante un procedimiento de ajuste iterativo busca optimizar su ajuste a los datos. Los casos se
atribuyen a aquella distribucin gaussiana a la que es ms probable que pertenezcan. Como es habitual en este tipo de ajustes, el riesgo de un mnimo local
(con lo que el ajuste no sera ptimo considerando toda la funcin) siempre
est presente, por lo que se habita a efectuar varios intentos, en los que pueden encontrarse soluciones diferentes.
Los mtodos que emplean el enfoque del anlisis de la densidad, plantean
que los clsteres vienen definidos por reas donde los casos se concentran
densamente. Ests reas de concentracin de casos estaran rodeadas de zonas
de baja densidad, que delimitaran a los diferentes clsteres entre s. Los
casos presentes en esas zonas difusas son definidos como ruidos o casos
55
atpicos. Partiendo de esta idea, existen diferentes mtodos para darle una
forma operativa. Algunos de ellos an no estn incorporados en la mayora
de los programas comerciales ms extendidos, al surgir asociados a la minera de datos y el anlisis de big data. El mtodo DbSCAN propone un modelo de conglomerado basado en el alcance de densidad (density-reachability),
y consiste en conectar aquellos casos que se encuentran espacialmente dentro
de un intervalo. Para poder incluir los casos dentro del clster estos deben
cumplir unos criterios de densidad (como es un nmero mnimo de casos
dentro de un determinado radio), por lo que el clster consiste en todos los
casos que estn densamente conectados ms todos los casos que se encuentran dentro de un radio de influencia de ese grupo. En ese sentido, los clsteres pueden adoptar formas muy irregulares. Este mtodo emplea dos parametros: e (el rango de influencia que atrapa a los casos dentro del clster)
y el nmero mnimo de puntos (minPts) a partir del cual podemos concluir
que existe una regin especialmente densa y definitoria de un clster. Por lo
general, el procedimiento se inicia con un caso cualquiera y se determina si
el nmero de casos que captura el parmetro e es suficiente para definir un
clster. En caso afirmativo se identifican como un clster. Todos los casos
que forman parte de ese clster incorporarn, a su vez, al clster aquellos
otros casos que se encuentren dentro de su radio de influencia e. El proceso
contina hasta cerrar el clster dado que todos los dems casos estaran
fuera del rea de influencia. Entonces se reinicia nuevamente el proceso
comenzando con otro caso fuera del clster, en bsqueda de posibles nuevos
grupos. Cuando el caso de inicio no define un clster es etiquetado provisionalmente como ruido, aunque ms tarde pueda ser capturado dentro del
radio de influencia de otro clster y con ello ser incorporado a l. Otras
variantes de este mtodo son OPTICS (que elimina la necesidad del parmetro e mediante la generacin de clsteres jerrquicos) o DeLi-Clu (DensityLink-Clustering) que combina los mtodos de linkage simple con OPTICS.
Es evidente que estos mtodos tienen limitaciones, muchas de ellas equivalentes a todos los que se basan en el concepto de distancia. La calidad del resultado depende, como ya sabemos, de la distancia elegida. La ms habitual en
DbSCAN es la distancia euclidea, que siendo una medida de distancia eficaz, presenta serios problemas cuando existe una elevada dimensionalidad
en los datos. Esa hace muy dificultosa la tarea de decidir un valor apropiado para e. Recordemos, asimismo, el efecto de las mtricas que se empleen,
y que tambin afectar al radio de influencia. Otra limitacin es cuando los
clsteres muestran grados diferentes de compactacin. Si son muy desiguales
56
en su densidad, elegir un nmero mnimo necesario para definir un clster y

que sea vlido para todos ellos, se complica seriamente. Otro elemento de
dificultad es el tratamiento de las zonas difusas formadas por casos que no
pertenecen a ningn clster y que finalmente pueden incorporarse a unos u
otros segn el orden de ejecucin. As, un caso atpico puede incorporarse a
un clster, simplemente porque se defini primero, pudiendo sin embargo formar parte de cualquier otro clster construido posteriormente. Dimensionalidad en los datos, mtrica, heterogeneidad en la densidad de los clsteres o
tratamiento de los casos pertenecientes a las reas difusas en los bordes de
los clsteres son algunos de los problemas a gestionar en estos mtodos de
anlisis.
Otro de los mtodos para agrupar los casos segn la densidad emplea la
estimacin de densidad kernel. No nos extenderemos en detalle en el procedimiento por razones de espacio. La estimacin de densidad kernel es un
procedimiento no paramtrico para estimar la funcin de densidad de una
variable aleatoria. En definitiva, una estimacin de la probabilidad de que la
variable aleatoria adopte un valor dado. Un ejemplo de esta estrategia de
conglomeracin es desplazar los casos hacia las reas ms densas, basndose en la estimacin de densidad kernel. Los casos convergeran en un mximo local de densidad, y esos atractores de densidad actuaran como representacin de los clsteres. Otros dos mtodos de agrupacin basados en la
densidad son el Kernel uniforme y el kth vecino ms prximo (kth nearest
neighborhood). Los dos mtodos calculan una estimacin de valor para cada
caso basada en la funcin de densidad. Partiendo de esa nueva estimacin y
de la matriz de disimilaridad original se construye una nueva matriz de disimilaridad. Finalmente, se aplica el mtodo de linkage simple empleando la
nueva matriz de disimilaridad. En el procedimiento de kernel uniforme, se
facilita un valor para el radio r. La densidad de un caso x se calcula como la
proporcin de casos incluidos en la esfera de radio r y centrada en ese caso
x. En el procedimiento kth vecino ms prximo, se facilita un valor para k, y
a partir de l, se calcula la densidad del caso x como la proporcin de casos
incluidos en la esfera con centro en el caso x y con radio la distancia al caso
vecino ms prximo al valor k. En los dos mtodos, la estimacin de la nueva
medida de disimilaridad para dos casos se calcula como la media de los valores de densidad de los dos casos, siempre y cuando los dos casos se encuentren dentro de la misma esfera de referencia. El desarrollo de estrategias de
conglomeracin est en clara expansin dada su importancia en la investigacin de minera de datos y big Data.
57
3.2. MTODOS jERRqUICOS

Que vales ms que yo? Tonta, orgullosa!
Vales lo que tu carne blanca y dura.
Los dos, al fin, entre una humilde fosa
vestiremos la misma vestidura.
Y cuando yo descanse en el osario,
fatigado del mundo y del perverso,
papeles revolviendo un anticuario,
quiz encuentre mi nombre al pie de un verso.
Mientras t, que en la lid de la existencia
palma de vencedor has obtenido
despus de un de que indica pertenencia
llevars a lo sumo otro apellido.
A ***7
GUILLERMO VALENCIA CASTILLO (1873-1943)
Cuando el nmero de casos no es excesivo, una de las lgicas ms frecuentes es establecer un procedimiento jerrquico. Los mtodos jerrquicos son
generalmente de dos tipos, segn se parta de tantos grupos como casos, o
considerando todos los casos como un clster y posteriormente ir desagregando. El primer procedimiento se denomina por aglomeracin y el segundo por divisin.
Los mtodos por aglomeracin comienzan considerando cada caso como
un grupo separado. En definitiva, N grupos con un tamao de 1. Los dos grupos (casos) ms prximos se unen en un nico clster. En ese momento existirn N-1 grupos, con uno de ellos de tamao 2 y el resto de tamao 1. Este
procedimiento contina hasta que todos los casos pertenecen a un nico
grupo. As, partiendo de los casos individuales, los va agrupando sucesivamente de forma que finalmente en un ltimo paso definen un nico grupo. En
la ejecucin de este proceso, los casos forman grupos que a su vez son agregados en otros grupos en un proceso de simplificacin. Al inicio existen tantos grupos como individuos, en un segundo paso, dos casos forman un grupo.
En un tercer momento, o bien un nuevo caso es agregado a este grupo o dos
casos diferentes se unen formando un segundo grupo. Conforme el proceso
7. Dra. Mara Helena barrera Agarwal, quien el domingo 3 de julio del presente ao public
el artculo "Los orgenes de Odiame" en la revista Artes del diario ecuatoriano La Hora.
Dicho artculo se encuentra en la pgina 7 de la mencionada revista y puede ser ledo en la
siguiente direccin: http://issuu.com/la_hora/docs/artes030711
58
de agrupacin va avanzando, a) nuevos casos se incorporan a grupos ya existentes, b) definen ellos mismos un nuevo grupo, o c) se unen en un solo
grupo otros grupos ya preexistentes. Una caracterstica de los mtodos jerrquicos es que una vez asignado un caso a un grupo, ya no puede ser retirado de l, como tampoco pueden subdividirse grupos ya existentes. Como
puede apreciarse, los clsteres se van agrupando de forma jerrquica, donde
el superior engloba a otros ms pequeos.
Los mtodos de tipo divisivo comienzan con todos los casos formando un
nico grupo. Este grupo se divide segn el criterio que se decida para crear
dos grupos. Posteriormente uno de esos dos grupos se divide en otros dos, de
forma que se generan tres grupos. Nuevamente, uno de los tres grupos se subdivide para formar otros dos, produciendo un total de cuatro grupos. Se contina hasta que finalmente hay tantos grupos como casos. Si bien es un procedimiento alternativo a los procedimientos por conglomeracin jerrquica,
son bastante infrecuentes tanto en aplicaciones concretas como en opcin de
anlisis en la mayora de los programas de anlisis. Las dos estrategias para
generar los grupos son bastante exigentes desde el punto de vista estadstico
al implicar mltiples comparaciones. Como observan Kaufman y Rousseeuw
(1990), en el primer paso de cualquier procedimiento jerrquico aglomerativo se deben considerar N(N-1)/2 pares de observaciones o casos a efectos de
determinar cules son los ms similares. El nmero de pares crece exponencialmente conforme crece el valor de N (nmero de casos u observaciones).
En los procedimientos de formacin de clsteres mediante divisin, el primer
paso es elegir los dos subgrupos (no vacios) que menos se parecen (ms disimilares). Considerando todas las posibilidades, implica 2(N-1) 1 comparaciones. Al igual que en el procedimiento anterior, el nmero de comparaciones
crece de forma exponencial conforme crece N.
En todo caso, es el investigador quien decide qu criterio (similaridad o
disimilaridad) se va a emplear para fusionar los casos en un clster. Cuando
en un grupo hay ms de un caso, debe decidirse qu criterio se va a seguir
para determinar si los grupos son ms o menos prximos (similares). Estos
procedimientos para comparar grupos se denominan mtodos de vinculacin
(linkage methods). La definicin del trmino ms prximo es diferente
para cada mtodo de vinculacin (linkage). Por ello, dependiendo del mtodo empleado, la matriz de distancias (o disimilaridad) que se obtine despus
de cada fusin se calcula mediante frmulas diferentes. Al comenzar el proceso, se emplea la matriz de distancias original, pero esta vara conforme se
van produciendo las agregaciones de clsteres. Esa es la diferencia clave entre
mtodos: como se calcula la nueva matriz de distancias cada vez que se fusionan dos grupos.
59
Lance y Williams (1967) desarrollaron una frmula que permite considerar, como casos especiales, la mayor parte de los mtodos ms conocidos de
conglomeracin jerrquica. Esta propuesta ha sido debatida por mltiples
autores como Anderberg (1973); jain y Dubes (1988); Kaufman y Rousseeuw
(1990); Gordon (1999); Everitt et al. (2011); and Rencher and Christensen
(2012), mostrando como los diferentes mtodos de conglomeracin pueden
ser incluidos en ella. De acuerdo con la notacin de Everitt et al. (2011, 78),
la frmula de LanceWilliams puede expresarse de la forma siguiente
dk(ij) = i dki + j dkj + dij + dki dkj
donde dij es la distancia o disimilaridad entre el clster i y el clster j; dk(ij)
es la distancia entre el clster k y el nuevo clster formado al fusionar los
clsteres i y j; i , j, , son parmetros que varan segn el mtodo de vinculacin (linkage) que se elija en cada caso. Esta frmula recurrente permite que se pueda calcular la disimilaridad entre los nuevos grupos creados y
los grupos existentes en cada fase de la agrupacin jerrquica. Consideremos
un ejemplo concreto para presentar los diferentes coeficientes , , .
Pensemos que R, P y q son clsteres existentes y que se va a generar un
nuevo grupo resultado de la fusin entre P y q. Este nuevo grupo vendr
notado por P+q, y donde nP nota el nmero de objetos (casos) existentes en
el clster P, nR el nmero de casos en el clster R y nq los casos en el clster q. La distancia entre los clsteres R y el nuevo formado por P+q vendra planteada en la siguiente ecuacin
d(R,P+Q) = 1d(R,P) + 2d(R,Q) + d(P,Q) + d(R,P) d(R,Q)
donde los parmetros varan segn el mtodo que se aplique, como puede apreciarse en la tabla siguiente. Las distancias son diferentes para cada mtodo as,
Mtodo de
vinculacin
(linkage)
d(R,P+Q) =
Single
1/2
1/2
1/2
Complete
1/2
1/2
1/2
Average
nP / (nP + nq)
nq / (nP + nq)
Weighted
1/2
1/2
Centroid
Median
Ward
Flexibeta
0
2
nP / (nP + nq)
nq / (nP + nq)
(nPnq / (nP + nq)
1/2
1/2
1/4
(nR + nP) / (nR + nP + nq) (nR + nq) / (nR + nP + nq) nR / (nR + nP + nq)
(1 ) / 2
(1 ) / 2
0
0
0
0
60
Los mtodos anteriores empleados para producir los grupos pueden ser considerados de tres tipos. Los basados en la a) vinculacin entre grupos, b)
mtodos de varianza y los c) mtodos basados en los centroides. Adems,
recordemos la existencia de los mtodos de carcter distribucional y los basados en la densidad. Como hemos considerado, estos mtodos se diferencian
en la forma como determinan la distancia entre los grupos existentes conforme avanza el proceso de aglomeracin. Vamos seguidamente a describir las
caractersticas de los mtodos anteriores.
Single linkage o Vecino ms prximo (nearest neighbour). Uno de los
procedimientos ms bsicos es la agrupacin segn el vecino ms prximo.
Los primeros casos que se combinan son aquellos que tienen una distancia
menor (o una proximidad mayor) entre ellos. A partir de ah, las distancias
de los otros casos hasta ese grupo se determina a partir de la distancia con el
caso ms prximo que ya pertenece a ese grupo. La distancia entre los casos
que no han sido agrupados no vara, de forma que la distancia entre dos conglomerados o grupos es la distancia entre los dos casos ms prximos, perteneciendo cada uno de ellos un grupo distinto. Tal y como puede observarse, en el mtodo de vinculacin simple, la distancia entre dos clsteres es la
distancia mnima considerando todos los pares de casos entre los dos clsteres. Una vez estimada la distancia ms prxima, se fusionan los dos grupos.
El mtodo es poco robusto, por lo que pueden influir notablemente los casos
extremos. Tanto produciendo nuevos clsteres adicionales, como provocando que otros clsteres se fusionen. Es lo que se denomina como efecto de
encadenado (chaining). Dado que los casos ms prximos a cada uno de los
dos grupos son los que dirigen la fusin, los clsteres resultantes pueden ser
alargados y delgados. En el caso en que esta propiedad sea indeseable para
el investigador, es posible recurrir a otros mtodos como son complete linkage o average linkage.
Complete linkage o Vecino ms lejano (furthest neighbour), Tambin
es posible emplear criterios alternativos (siguiendo una lgica parecida) para
definir la distancia entre grupos, como es por ejemplo la tcnica conocida
como el vecino ms alejado. En este mtodo la distancia entre los grupos es
la que determine los dos casos ms diferentes o distantes, perteneciendo cada
caso un grupo diferente. Este procedimiento produce el efecto contrario sobre
los clsteres. Genera clsteres muy compactos espacialmente. Este efecto
puede ser inapropiado si el objetivo es detectar clsteres alargados y delgados. Estos dos efectos contrarios de los dos mtodos en la formacin de los
grupos son analizados en detalle por Kaufman y Rousseeuw (1990).
Average linkage. Otras tcnicas, como el mtodo de agrupacin segn la
media entre grupos (UPGMA), considera la distancia entre dos grupos como
61
la media de las distancias entre todos los pares de casos en los que cada uno
de ellos procede de un grupo (clster) diferente. Este procedimiento emplea
la informacin de todos los pares de distancias, y no solamente los de aquellos pares que se encuentran particularmente prximos o alejados. En ese
sentido, es un procedimiento que incorpora mucha ms informacin para ir
definiendo la pertenencia a grupos, por lo que acostumbra ser preferido respecto a las tcnicas que solamente tiene en cuenta los pares de casos ms
extremos, ya sea por su proximidad o lejana.
Al igual que el mtodo de agrupacin anterior considera las distancias
entre los pares definidos por los casos que pertenecen a grupos distintos, existe otra opcin alternativa por la cual se combinan los grupos de forma que las
distancias medias entre todos los pares de casos que perteneceran a ese nuevo
grupo se minimiza (Average linkage within groups method). Es decir, que la
distancia entre dos grupos es la media de todas las distancias entre los pares
de casos posibles que formaran el nuevo grupo. Kaufman y Rousseeuw
(1990), proponen que el mtodo de average linkage como uno de los ms
robustos y posiblemente el ms apropiado para la mayora de las ocasiones.
El mtodo Weighted average linkage es una variacin del average linkage. La idea bsica (al igual que suceder con median linkage) es responder a
cmo se deben tratar los grupos con un tamao desigual cuando se fusionan.
En average linkage, el nmero de casos en cada grupo se tiene en cuenta al
producir el grupo resultante de la fusin, por lo que los grupos ms grandes
tienen un peso mucho mayor. Este mtodo da un peso igual a cada caso, independientemente del clster al que pertenezca. Como su nombre indica, en
weighted average, los dos grupos reciben el mismo peso para definir el grupo
que resulta de la fusin, independientemente del nmero de casos de cada
grupo. Para ello, los casos que proceden de grupos ms pequeos reciben un
peso mayor que aquellos casos que forman los grupos ms grandes.
Centroid linkage o Agrupacin de centroides (centroid clustering). El
mtodo de centroides determina la distancia entre dos grupos como la distancia entre sus medias. Es decir, este mtodo fusiona aquellos grupos cuyas
medias estn ms prximas. Para ello, considera las medias como una especie
de centro de gravedad del grupo. Su diferencia con el mtodo de average linkage es que, como ya hemos considerado, este ltimo considera la distancia
media entre los casos que pertenecen a los dos grupos, mientras que el mtodo de centroide considera la distancia entre las medias de los dos grupos.
Una de las desventajas de este mtodo es que la distancia en la que cada
grupo se combina puede disminuir de un paso para el siguiente. Es decir, que
los grupos que se fusionan en una etapa ms avanzada son ms diferentes que
aquellos que fueron fusionados en etapas anteriores. Esto es una propiedad
62
indeseable en la medida que existen diferentes probabilidades de ser agrupados en funcin al momento en que se encuentra el proceso de agrupacin.
En este mtodo, el centroide de un nuevo grupo que es producto de la fusin
de otros grupos, se calcula como una combinacin ponderada de los centroides de los dos grupos que han sido fusionados, y donde los pesos son proporcionales al tamao de los grupos. En ese sentido, el tamao de los grupos
que son fusionados influye sensiblemente en el nuevo centroide que define
el nuevo grupo. Esto es consecuencia de que todos los casos tienen un peso
igual.
Median linkage. Es una variacin del mtodo de centroides. Este efecto
del tamao de los grupos en la formacin de los nuevos grupos, que se produce cuando se emplea el mtodo del centroide, puede corregirse mediante
la aplicacin del mtodo basado en la mediana. En este mtodo, los centroides de los dos grupos que son combinados, se ponderan con igual peso para
calcular el nuevo centroide, independientemente del tamao previo de cada
grupo fusionado. Esto permite que los grupos pequeos tengan una mayor
presencia (y peso) en el momento de caracterizar (es decir, determinar el
nuevo centroide) del nuevo grupo en el que se incorporan. Esta posibilidad
de caracterizar el grupo resultante de la fusin segn la heterogeneidad de
los grupos que se fusionan, y no segn el tamao de los grupos fusionados,
es un elemento importante que debe ser decido por el investigador de acuerdo con los objetivos de la investigacin.
Wards method. Otro mtodo usado con frecuencia es el propuesto por
Ward. Aplicando el Mtodo de Ward, para cada grupo se calcula la media de
todas las variables. Posteriormente, y para cada caso, se calcula la distancia
eucldea al cuadrado a la media del grupo. Esa distancia se suma para todos
los casos. En cada paso se agrupan los dos clster que producen un menor incremento en la suma total de cuadrados de las distancias en los conglomerados. En definitiva, fusiona los dos grupos que producen el incremento menor
en la suma de cuadrados del error. Su enfoque es fusionar aquellos grupos que
optimizan una funcin definida en trminos objetivos. Kaufman y Rousseeuw
(1990) afirman que este mtodo funciona correctamente cuando los grupos
son esfricos y multivariados normales, pero es problemtico si los grupos son
de diferentes tamaos o contiene un nmero desigual de casos.
Flexibeta. Flexible beta emplea una distancia media ponderada entre dos
casos incorporados en dos clsteres diferentes para decidir los alejados que
se encuentran. El investigador decide el valor de la ponderacin a utilizar, dentro de un rango de -1 a 1.
63
K-nbd. Es un mtodo de vinculacin mediante el empleo de la densidad.

La densidad estimada es proporcional al nmero de casos en la esfera de
menor tamao que contenga el vecino ms prximo al rango k. Partiendo de
la estimacin de densidad se construye una nueva matriz de disimilaridad. A
dicha matriz de disimilaridad se aplica el mtodo de linkage simple. El valor
de k lo facilita el investigador, oscilando entre 1 y el nmero total de casos.
Uniform Kernel. Como ya se coment, es un mtodo basado en la densidad. La densidad estimada es proporcional al nmero de casos incluidos en
una esfera de radio r. Partiendo de dicha estimacin de densidad se construye una nueva matriz de disimilaridad a la que se le aplica el mtodo de linkage simple.
No obstante, debemos recordar que todos los criterios empleados para
combinar los casos en un grupo se basan en la matriz de distancia o proximidad entre ellos. A partir de esas distancias o proximidades se establecen
las agrupaciones. Por ello, un mismo mtodo para agrupar puede producir
resultados diferentes dependiendo de la medida utilizada para estimar las
distancias o proximidades.
En el proceso de decidir el nmero de clsteres el investigador puede recurrir a diferentes indicadores y mediciones que le pueden ayudar en la determinacin de cuantos grupos pueden ser los ms adecuados. Vamos a presentar varias mediciones que aportan informacin sobre el procedimiento de
agrupado y las soluciones que va ofreciendo.
3.2.1. Procedimientos de validacin de los clsteres
diame por piedad yo te lo pido
diame sin medida ni clemencia
Odio quiero ms que indiferencia
Pues que el odio hiere menos que el olvido.
Yo quedar si me odias convencido
De que me amaste ayer con insistencia
Porque es cierto de que en la existencia
Tan solo se odia lo que se ha querido.
Qu vales t ms que yo hembra orgullosa?
Vales lo que tu carne blanca y dura
Pues al cabo, en el seno de la fosa,
Llevaremos la misma vestidura.
64
Yo que romp la lid de la victoria

Premio de vencedores obtenido
Despus de un de que indica pertenencia
A lo sumo llevars otro apellido.
El odio (1908)8
Existen muchos coeficientes que permiten evaluar la mayor o menor validez

de la solucin (nmero de grupos que observamos en el anlisis). Todos ellos
comparten el mismo objetivo: identificar conjuntos de clsteres que sean
compactos, con una varianza mnima entre los casos que forman el clster,
que estn bien separados entre ellos, por lo que sus medias deben de estar lo
suficientemente separadas (en comparacin con la varianza interna de los
clsteres). Tal y como describen Milligan y Cooper (1985), son varios los
ndices que nos informan de la validez que presentan las diferentes soluciones que ofrezca un anlisis de clsteres. En ese sentido, ayudan a determinar cul puede ser el nmero ptimo de grupos presentes en los datos.
Adems de estos ndices, es posible emplear un anlisis de varianza de un
factor que nos informe del estado de la heterogeneidad y la homogeneidad
de los casos que se agrupan. En ese sentido, una herramienta muy importante es el anlisis de varianza al que dedicaremos un apartado especfico, dada
la elevada relevancia de este procedimiento que aparece como complemento informativo en muchos otros anlisis. Veamos en primer lugar el anlisis
de varianza para posteriormente presentar varios ndices diseados para intentar validar el nmero de clsteres extrados.
3.2.1.1. Anlisis de la varianza de un factor
Para poder explicar la funcin y utilidad que el anlisis de la varianza tiene,
especialmente en el diagnstico de la validez de las soluciones de clsteres
que se van evaluando, debemos efectuar una breve introduccin.
En estadstica inferencial, la media de una muestra es una aproximacin
al valor que esa media pueda tener en la poblacin (). Es bastante improbable que la media de la poblacin coincida exactamente con la media que
estima la muestra, pero tampoco debera ser demasiado diferente. De hecho,
es posible establecer un rango de valores que, de acuerdo a una probabilidad
8. Fuente: Avils R., Carlos A. Coleccin de canciones antiguas, copiadas por Carlos A. Avils
R., comenzada en Balao en las vacaciones de 1945 y terminado en Pun el domingo 24 de
febrero de 1946 [manuscrito-fotocopia]. balao, Santa Elena, 1945-1946. en Fidel Pablo
Guerrero Transferencias musicales, http://soymusicaecuador.blogspot.com.es/2011/10/elodio-trasferencias-musicales.html
65
elegida, contenga entre ellos el valor de la media de la poblacin. Ese rango

de valores se denomina intervalo de confianza, y en esencia viene a afirmar
que si de una poblacin se extrajeran varias muestras en condiciones semejantes, y establecemos un nivel de confianza del 95%, el 95% de las muestras produciran un intervalo de confianza que incluira el valor de la media
en la poblacin. Dado que el parmetro () es desconocido, no es posible
determinar si un intervalo en concreto es el que lo contiene o no.
Planteemos ahora que en la poblacin existen grupos o clsteres para los
que pensamos que las medias pueden ser diferentes. Por ejemplo, comparando las medias de ingresos de hombres y mujeres, o comparando segn raza,
o comparando el gasto medio segn tipos de hogares o estilos de vida, etc.
En el caso que se aprecie que el valor de la media es diferente entre los grupos considerados, la cuestin es si dichas diferencias pueden haberse producido por casualidad o tenemos base emprica para plantearnos que puedan
ser realmente diferentes en la poblacin. El procedimiento estadstico ms
usual para testar si las medias de diferentes grupos son o no iguales es el anlisis de la varianza.
Como es habitual en los procedimientos estadsticos, se presupone que
las medias proceden de poblaciones (grupos) independientes, con variables
que muestran una distribucin normal y una varianza semejante en todos los
grupos. Son varios los test disponibles para examinar la homogeneidad de la
varianza (Cochrans C, bartlett-box F, etc.) al igual que la normalidad. En
todo caso, cuando los tamaos muestrales de los grupos son iguales o muy
parecidos, la mayora de los test son bastante robustos a la violacin de la
homogeneidad de la varianza. En el caso de no homogeneidad de la varianza
o no normalidad cabra plantearse la posibilidad de transformar las variables. Una segunda opcin es emplear un procedimiento no paramtrico para
testar la igualdad de las medias, como puede ser el anlisis de la varianza de
un factor de Kruskal-Wallis.
Otra cuestin relevante es la presuncin de que los grupos que comparamos son todos los grupos con inters para el investigador. Es decir, que los
grupos formados (ya sea por gnero, raza, tipos de hogares, etc.) contienen
todas las categoras que importan y no son realmente una muestra de los grupos existentes. Esta caracterstica (que todos los grupos de inters estn considerados en la comparacin) hace que se denomine modelo de efectos fijos
(fixed-effects model).
En el anlisis de la varianza (que ya sabemos tiene por finalidad testar la
igualdad de las medias) toda la variabilidad que se observa en la variable se
descompone en dos partes. Por un lado, la variabilidad interna dentro de cada
uno de los grupos (por ejemplo, la variabilidad de la variable ingresos alrede-
66
dor de la media en el grupo de hombres, y la variabilidad de la variable ingresos en torno a su media de ingresos en el grupos de mujeres). Esta variabilidad intragrupos se mide mediante la denominada suma de cuadrados intragrupos (within-groups sum of squares o SSW). La idea es determinar cuanta
variacin interna respecto a la media existe en los diferentes grupos. Siendo K
el nmero de grupos considerados.
SSW = S (Ni 1) Si2
Siendo Si2 la varianza del grupo i entorno a su media y Ni el nmero de casos
en el grupo i.
La otra variabilidad considerada es la variabilidad existente en las medias
de los diferentes grupos. Esta variabilidad se mide mediante la suma de cuadrados entre-grupos o (between-groups sun of squares o SSb).
SSb = SNi (i - )2
Siendo Ni el nmero de casos en el grupo i, i la media del grupo i y la
media para el conjunto de la muestra.
Otros coeficientes que se calculan son las medias cuadrticas, que se
obtienen dividiendo la suma de cuadrados por los grados de libertad. Los
grados de libertad en el caso de la suma de cuadrados entre-grupos es k 1
(siendo k el nmero de grupos). Por ello, la media cuadrtica entre-grupos es
igual a
Media cuadrtica entre-grupos = SSb / k - 1
Para la suma de cuadrados intra-grupo, sus grados de libertad son el nmero
de casos de la muestra menos el nmero de grupos k, es decir N - k.
Media cuadrtica intra-grupos = SSW / N - k
Todos estos datos se muestran habitualmente en los resultados de un anlisis de
varianza. Para testar la posible igualdad entre las medias de los grupos considerados se calcula el estadstico F. Este estadstico es simplemente la media
cuadrtica entre-grupos dividida por la media cuadrtica intra-grupos.
F = media cuadrtica entre-grupos / media cuadrtica intra-grupos
Para determinar si las diferencias entre medias son significativas se compara el valor F obtenido con la distribucin F, para k-1 y N-k grados de libertad. El nivel de significacin que se observa se refiere a la probabilidad de
obtener un valor F de ese valor cuando todas las medias sean iguales en la poblacin. Si la probabilidad es lo bastante pequea, la hiptesis que afirma
que todas las medias son iguales en la poblacin puede ser rechazada. Por lo
67
general, las probabilidades de referencia son las inferiores a 0.05 o 0.01

dependiendo de la significacin elegida. Cuando la significacin es inferior
a dichos valores, se puede rechazar la hiptesis de que las medias sean iguales en la poblacin de la que se ha extrado la muestra.
Una utilidad especial en el anlisis de clsteres es la posibilidad de efectuar mltiples comparaciones entre pares de grupos para concretar cules son
ms probablemente diferentes en sus medias. En el caso que un anlisis produzca varios clsteres, hay tres cuestiones importantes que podemos responder desde el anlisis de la varianza. Primero, hasta qu punto puede concluirse que estos son diferentes respecto a las variables que les han dado forma.
Es decir, que variables han tenido ms peso para definir los grupos. Segundo,
es interesante que los clsteres definidos sean diferentes respecto a otras variables relevantes y tercero, si entre ellos son los bastante heterogneos (e internamente homogneos). Las tres cuestiones que surgen del anlisis de clsteres encuentran respuesta en el anlisis de varianza de un factor. El factor, es
evidentemente, los clsteres definidos por el anlisis.
El test de comparacin de medias basado en la distribucin F nos indica
si las medias son diferentes o no en trminos estadsticos. Sin embargo, no
informa si las medias de todos los grupos son diferentes entre s, o solamente lo son las diferencias entre algunos grupos. Para esta tarea se desarrolla lo
que se denomina comparacin mltiple.
Una estrategia podra ser efectuar varios contrastes mediante la aplicacin
de mltiples t-test para cada par de medias comparadas. Esta estrategia sin
embargo, producira errores dado que al efectuar un nmero elevado de contrastes, alguno de ellos aparecera como significativo a consecuencia del elevado nmero de pruebas, incluso siendo iguales en la poblacin (Snedecor,
1967). Para corregir este sesgo, los procedimientos basados en comparaciones
mltiples son bastante ms exigentes para dar por vlida una diferencia entre
dos medias.
Las opciones para efectuar un anlisis de mltiples comparaciones es muy
elevado, correspondiendo con los diferentes enfoques utilizados para proteger contra el error de dar por significativa una diferencia que no lo es (Winer,
1971). En este caso, recomendamos el test de Scheff por dos motivos: es un
test especialmente conservador que exige diferencias muy importantes para
dar por desiguales a las medias comparadas, y la presentacin de los resultados en forma matricial, que permite una interpretacin rpida y comprensiva. En la matriz se agrupan las medias que no son significativamente diferentes y se indica con cuales otras s lo son. Algunos grupos pueden tener una
media muy diferente en relacin con otros grupos, o en algunos casos, tener
media diferente con unos grupos s y con otros no.
68
Esta presentacin matricial se muestra cuando la comparacin es entre

tres grupos o ms. En el caso de que solamente existan dos grupos, el anlisis de varianza (en definitiva un t- test), ya es bastante conclusivo por l
mismo. Tambin es frecuente que el resultado del anlisis muestre la frmula que expresa como de grande debe ser una diferencia entre medias para ser
aceptada como significativa en la comparacin mltiple.
Tanto el anlisis de varianza (paramtrico o no) como los test de comparacin mltiple son de gran utilidad para estudiar el significado y potencialidades de los grupos extrados de un anlisis de clsteres.
3.2.1.2. ndices de validacin de clsteres
En este texto vamos a considerar varios ndices. El primero es la RMSSTD
(Root-mean-square standard deviation). Este ndice es vlido cuando partimos de una matriz de datos rectangular. Cuando se utiliza directamente una
matriz de disimilaridad (recordemos que es triangular), este ndice solamente es vlido cuando se emplean los mtodos de centroide, average o Ward.
Este coeficiente se calcula a partir de una combinacin de las desviaciones
estndar de las variables que se emplean en la definicin del clster. De acuerdo a Sharma (1995), se calcula obteniendo la suma de cuadrados intra-grupo
(within-group sum of squares) de cada clster, y despus se normaliza multiplicndolo por el nmero de casos en el clster as como por el nmero de
variables.
RMSSTD = Wk / (v(nk -1))
Donde Wk nota la suma de cuadrados intra-grupo del clster k, nk es el nmero de casos en el clster k, siendo v el nmero de variables empleadas en el
anlisis de clsteres. Dado que el objetivo de un anlisis de clsteres es formar grupos homogneos, este coeficiente debera ser lo ms pequeo posible. Por ello, si conforme avanza el proceso de conglomeracin jerrquica el
valor de RMSSTD se incrementa, indica que la nueva solucin es peor que
la anterior.
El ndice de Dunn (1973) es otra alternativa para evaluar la validez del
nmero de clsteres. bezdek y Pal (1998) desarrollaran posteriormente una
generalizacin de este enfoque. Originalmente, la distancia entre dos grupos
se define como la distancia mnima entre dos casos pertenecientes a grupos
diferentes, mientras que el dimetro de un grupo o clster se define como la
distancia mxima entre dos casos pertenecientes al mismo clster. Dunn propone la siguiente medicin. Consideremos que en un momento determinado
la conglomeracin jerrquica propone un nmero k de clsteres. Para cual-
69
quier par de clsteres xi y xj sea (xi,xj) la distancia entre los dos clsteres.
Consideremos (xi) el dimetro del clster xi. El ndice de Dunn se define
como el valor mnimo de la razn entre la medida de disimilaridad de los dos
clsteres y el dimetro del clster. El mnimo se determina para todos los
clsteres presentes en los datos. Este planteamiento presenta un problema
especfico. En el caso que uno de los clsteres este bastante disperso, mientras que el otro sea muy compacto, dado que el denominador emplea el valor
mximo en lugar de algn promedio, puede producir que el valor del ndice
de Dunn para ese par de clsteres sea inusualmente bajo. Es algo a considerar durante el anlisis. Por lo general, cuanto mayor es el valor del ndice de
Dunn ms compacta y diferenciada es la solucin que ofrece el anlisis de
clsteres (nmero de clsteres). Cuando los datos contienen clsteres muy
compactos y bien separados entre ellos, la expectativa es que la distancia
entre los clsteres sea elevada y el dimetro de los clsteres muy reducido.
basndonos en esa definicin, valores elevados del ndice corresponden con
clsteres compactos y bien separados. Cuando se muestra en formato grfico la relacin entre el nmero de clsteres y el ndice de Dunn, la solucin
que muestre el mayor valor en el ndice debera ser la ms correcta. En este
caso, su empleo es adecuado tanto para matrices de datos rectangulares como
de disimilaridad.
Otra estrategia para medir la validez de la solucin que ofrece el nmero
de clsteres, es el ndice de Davies-bouldin (1979). Este ndice busca cuantificar la similaridad media entre un clster y aquellos otros clsteres que
puedan estar prximos a l. Sea k el nmero de grupos en un determinado
momento del anlisis jerrquico y donde Vxi indica el centro del clster Xi y
| Xi | el tamao del clster Xi.
Si la medicin de la dispersin del clster Xi la definimos como
Si = (1/ Xi Sd2 (x, Vxi))1/2
para todo x perteneciente a Xi , y la disimilaridad entre dos clsteres (Xi y Xj)
como
dij = d(Vxi, Vxj)
y sea Ri = Max j, j1 ( Si + Sj / dij)
Entonces el ndice de Davies y bouldin es igual a 1/k ( SRi)
De acuerdo a la formulacin del ndice Davies-bouldin, cuanto menor es
su valor mejor es la solucin. Es decir, el nmero de clsteres puede ser el ms
apropiado. Este ndice puede calcularse para matrices rectangulares de datos.
El ndice pseudo F (Calinski y Harabasz, 1974) muestra la razn entre la
varianza entre-grupos con la varianza intra-grupos. Siendo n el nmero de
70
casos y K el nmero de clsteres en cualquier fase de proceso jerrquico de

conglomeracin. Sea GSS la suma de cuadrados entre-grupos y WSS la suma
de cuadrados intra-grupo, entonces
Pseudo F = ((GSS)/ (K-1)) / ((WSS) / (N-K))
De acuerdo a este ndice, valores elevados de Pseudo F expresaran unos conglomerados compactos y bien diferenciados entre ellos. Los picos en los
valores de este ndice expresaran, especialmente, una gran separacin entre
grupos. Al igual que en el caso anterior, se acostumbra a graficar cada solucin (nmero de clsteres) con su valor de pseudo F, para poder evaluar que
nmero de clsteres puede ser el ms indicado.
Este ndice puede utilizarse con cualquier mtodo jerrquico cuando se
trata datos rectangulares. Cuando se utilizan matrices de disimilaridad, solamente puede emplearse este ndice cuando se emplean los mtodos de average, centroid y Ward.
Al igual que se emplea un pseudo F, es factible emplear un pseudo tcuadrado. El ndice basado en el pseudo t-cuadrado para evaluar el clster
resultado de una fusin de otros clsteres. Consideremos dos clsteres K y j
que son fusionados para formar un nuevo clster. El pseudo t-cuadrado vendra definido por
pseudo t-cuadrado = bKj / ((Wk + Wj) / (nk + nj 2))
siendo nk y nj el nmero de casos en el clster K y j, WK y Wj son las sumas
de cuadrados intra-grupos de los clsteres K y j. bKj nota la suma de cuadrados entre-grupos. Este ndice, como expresa su procedimiento de clculo,
mide la diferencia entre dos clsteres que han sido fusionados en un determinado momento del proceso de conglomeracin jerrquica. En ese sentido, si
la pseudo t-cuadrado cambia fuertemente en la fase t del procedimiento de
conglomeracin, significa que la solucin de clster en la fase t+1 es ptima.
El SPRSq (semiparcial R-cuadrado) es una medida empleada para medir
la homogeneidad resultante de fusionar dos clsteres. En ese sentido, expresa la prdida de homogeneidad que se produce al combinar dos clsteres.
Cuando los valores son bajos, indica que los grupos fusionados eran bastante homogneos entre s. Con la intencin de medir esa posible homogeneidad
de los grupos que se fusionan puede emplearse la distancia entre los centroides. Ya sabemos que la distancia entre los centroides es simplemente la distancia euclidiana entre los centroides de los dos grupos que se estudia fusionar. En tanto que medida de homogeneidad, esta distancia debera ser baja
cuando se desea que los grupos fusionados sean homogneos entre s.
71
Tambin es posible emplear el RSq (R cuadrado) para evaluar cmo son

de diferentes dos grupos entre s. En el caso de existir solamente un grupo,
el r cuadrado ser igual a cero. Por ello, valores elevados de r cuadrado expresan que dos grupos son bastante diferentes entre ellos.
ndices de validacin
Matriz distancias
Matriz
rectangular
Interpretacin
Solamente
centroide,
average, Ward
SI
este coeficiente debera ser lo

ms pequeo posible
Dunn
SI
SI
valores elevados del ndice

corresponden con clsteres
compactos y bien separados
Davies-bouldin (Db)
NO
SI
cuanto menor es su valor

mejor es la solucin
Solamente
centroide,
average, Ward
SI
valores elevados de Pseudo F

expresaran unos conglomerados compactos y bien
diferenciados entre ellos
RMSSTD
pseudo F (CHF)
pseudo t-cuadrado (PTS)
Si cambia fuertemente en la
fase t del procedimiento de
conglomeracin, significa
que la solucin de clster en
la fase t+1 es ptima.
SPRSq (semiparcial R-cuadrado)
Cuando los valores son

bajos, indica que los grupos
fusionados eran bastante
homogneos entre s
RSq (R cuadrado)
Valores elevados de r cuadrado expresan que dos

grupos son bastante diferentes
Silhouette coefficient
Los casos con un valor elevado se consideran que estn

bien compactados e integrados
en el clster
Silhouette coefficient. Compara la distancia media entre los elementos que

forman un clster con las distancias medias hasta los casos que forman otro
clster diferente. Los casos con un valor elevado se consideran que estn bien
compactados e integrados en el clster. Los casos con valores bajos en este
ndice pueden ser casos extremos. Este ndice funciona especialmente bien
72
con el mtodo de k-medias, y es empleado para determinar el nmero ptimo de grupos.

Todos estos ndices plantean la evaluacin de la validez de modo interno, empleando los mismos datos que han sido utilizados para estimar los
clsteres. Estos ndices, en tanto que evaluaciones internas, son especialmente tiles para determinar si un algoritmo es mejor que otro, pero no necesariamente que produzca resultados ms validos. Los procedimientos de evaluacin externa, que exigen controles exgenos a la matriz de datos, no se
consideran en este texto.
Una vez considerados varios de los criterios empleados ms habitualmente para la fusin de grupos, y con ello creando nuevos conglomerados, es el
momento de plantear algunos casos prcticos.
3.2.2. La agrupacin de casos mediante mtodos jerrquicos
I: /diame por piedad yo te lo pido
Odio quiero ms que indiferencia,
que el rencor hiere menos que el olvido/ (bis).
II: Yo quedar, si me odias, convencido
pues estoy cierto de que en la existencia
Tan solo se odia lo que se ha querido.
III: Qu vales ms que yo nia orgullosa?
pero al cabo, en el seno de la fosa,
Llevaremos la misma vestidura.
Ms si t en la lid de la victoria
Premio de vencedor has obtenido
Despus de un de que indica pertenencia
A lo sumo llevars dos apellidos.
El Odio9
RODOLFO MARTNEZ- ALFONSO DOUGARD
Veamos seguidamente un ejemplo de un proceso de aglomeracin de casos.

Para ello, como ya se ha considerado, partimos de la matriz de distancias que
9. Fuente: El Odio (pasillo) [disco de pizarra]/ Do Rodolfo Martnez- Alfonso Dougard.
Disco Victor 65726-A. Ecuatoriano Do con guitarra en Fidel Pablo Guerrero Transferencias musicales, http://soymusicaecuador.blogspot.com.es/2011/10/el-odio-trasferencias-musicales.html
73
hemos generado a partir de la matriz de datos original. Una diferencia

importante entre ambas es que la matriz de datos original es una matriz rectangular, mientras que en el caso de las matrices de distancias o proximidades la matriz es cuadrada y simtrica. En este ejemplo exponemos una parte
de la matriz de distancias, utilizando los datos presentados sobre calidad
democrtica en varios pases de Latinoamrica.
Tabla 1. Fragmento de la matriz de distancias eucldeas al cuadrado
Uruguay Costa
Rica
1: Uruguay
2: Costa Rica
Chile Argentina bolivia
Per Nicaragua Ecuador
0
12,165
3: Chile
21,33
4,583
4: Argentina
47,18
14,275
6,37
5: bolivia
64,583 30,467 27,703
6: Per
37,74
14,301
0
13,853
5,75
4,04
15,923
7: Nicaragua
62,95
40,197
37,24
27,71
5,673
21,21
8: Ecuador
51,94
22,627
15,33
6,48
4,513
4,12
8,51
9: brasil
61,42
26,039
19,07
6,34
3,583
6,62
10,89
0,9
10: El Salvador
27,33
18,555
29,26
33,83
22,453 24,97
18,86
21,71
11: Paraguay
55,44
31,065
28,29
19,46
3,743
13,78
1,19
4,14
12: Panam
60,54
25,457
16,29
4,78
7,813
4,06
15,63
1,42
13: Rep.
Dominicana
75,06
52,823
49,51
38,38
10,423 29,34
1,05
14,06
14: Mxico
49,82
26,625
16,81
12,26
15,993
3,26
15,23
4,02
15: Venezuela
84,73
50,829
39,94
24,05
12,013 16,23
9,82
7,05
16: Colombia
66,09
43,207
34,8
26,85
18,003 13,75
11,08
8,93
17: Honduras
75,31
47,491
45,9
33,63
15,303 23,25
10,62
13,11
18: Guatemala
99,49
74,155
74,34
60,51
31,493 44,73
19,94
30,59
Esta es una matriz de disimilaridades
Partiendo de esta matriz de distancias, se elige el mtodo de agrupacin que

se prefiera. En este ejemplo se ha elegido la vinculacin media entre grupos.
Como resultado de este sistema jerrquico para agrupar, se produce una paulatina formacin de clsteres. Existen varios procedimientos para que el investigador pueda evaluar cmo se van formando progresivamente los grupos,
74
tanto en forma numrica como grfica. Ciertamente las presentaciones grficas son dificultosas cuando parten de la agregacin desde el nivel de caso.
Este es uno de los motivos por lo que el empleo de mtodos jerrquicos de
conglomeracin son especialmente apropiados cuando el anlisis no excede
de unos 200 casos.
Recordemos que el anlisis de conglomerados es (en el caso de mtodos
jerrquicos) en gran parte exploratorio. Por ello, son varias las presentaciones grficas de la misma informacin de forma que ayude al investigador a
decidir el nmero de grupos, como por ejemplo representando la forma de un
rbol (Hartigan, 1975). En ese sentido, el dendrograma (Sokal and Sneath,
1963) es una expresin grfica de este proceso de agrupacin de casos y clsteres. En este ejemplo, veremos que en el lado izquierdo aparecen los pases, y se aprecia cmo van incorporndose nuevos casos a grupos existentes,
formando nuevos grupos o combinndose dos grupos en uno. As, brasil,
Panam y Ecuador forman un grupo rpidamente. Per y Mxico otro grupo
diferente, que se unen al formado por brasil, Ecuador y Panam, en un paso
posterior. Al grupo formado por los cinco pases anteriores se une Argentina
ms tardamente.
Recordemos que esta paulatina agrupacin y combinacin de pases se
produce sobre la base de la matriz distancias (segn la medida elegida y tras
decidir transformar o no los valores y los coeficientes), y del procedimiento
escogido para determinar el clculo de la distancia a la que se combinan los
casos y los grupos. Para llegar al dendrograma el investigador ha debido
tomar ya cuatro decisiones relevantes (qu variables, qu transformacin,
qu coeficiente de distancia, y qu mtodo de agregacin). En esta ltima decisin, el mtodo de agrupacin, se est decidiendo cunta diferencia integramos
en un mismo grupo10. En trminos paradjicos, cunta heterogeneidad se
admite dentro de un grupo que pretendemos homogneo. Al final, a la derecha del grfico, todos los pases han sido integrados en un solo grupo. Empleando la informacin del proceso de agregacin debe decidirse cuntos grupos consideramos significativamente diferentes (es decir, que los pases que
los forman estn prximos entre s y diferenciados de otros grupos).
Sobre la base del dendrograma siguiente, parece observarse al menos dos
soluciones diferentes. Una de estas soluciones ofrecera cuatro grupos de
pases, ms El Salvador y posiblemente Uruguay como casos atpicos. Un
10. En alguna ocasin, el dendrograma no puede producir una combinacin en la que las distancias se incrementan progresivamente. En esta situacin, es posible apreciar que algunas
ramas no llegan a conectarse unas con otras. En estos casos cabe plantearse optar por los
mtodos de vinculacin simple o vinculacin completa (Single o Complete linkage) segn
Fisher y Van Ness (1971).

75
grupo podra ser brasil, Panam, Ecuador, Per, Mxico, Argentina. Otro
grupo Nicaragua, Rep. Dominicana, Paraguay y bolivia. El tercer clster

puede definirse por Venezuela, Colombia, Honduras y Guatemala. El cuarto
clster, por Costa Rica y Chile.

Otra solucin es decidir que son relevantes tres grupos. El grupo 1 for por brasil, Panam, Ecuador, Per, Mxico, Argentina.

2 formado
El grupo
Rep.
Paraguay,
mado por
Nicaragua,

Dominicana,

bolivia,
Venezuela,

Colom
bia, Honduras y Guatemala. El tercer grupo por Costa Rica, Uruguay y Chile.
queda como pas ms atpico El Salvador.

Dendrograma que utiliza una vinculacin media (entre grupos)

Combinacin de conglomerados de distancia re-escalados
La decisin sobre cuntos grupos son significativos (en el sentido de que no

contienen una heterogeneidad excesiva) la decide siempre el investigador.
Evidentemente
con posterioridad

se pueden efectuar
otros
anlisis para
com
probar la significacin estadstica de la discriminacin entre grupos. En este
mtodo ms
adecuado
consiste en el anlisis de varianza,

caso, el
que consideraremos ms tarde.

76
Otra informacin frecuente en los modelos jerrquicos es el historial de

agrupacin (conglomeracin). En esta ocasin, los pases vienen expresados
por el cdigo que los identifica. Esta informacin se recoge en las columnas
conglomerado que se combina. Por ejemplo, el cdigo 9 es brasil y el 12
Panam.
Historial de conglomeracin
Etapa
Conglomerado que se combina
Coeficientes Etapa en la que el conglomerado

aparece por primera vez
Conglomerado 1 Conglomerado 2
1
Prxima
etapa
12
,840
13
1,050
1,160
11
2,405
10
15
16
3,100
12
14
3,260
17
18
3,940
12
4,583
14
5,017
11
10
6,613
13
11
6,780
15
12
15
17
9,165
13
13
15
13,556
10
12
15
14
16,747
17
15
17,647
11
13
16
16
10
24,331
15
17
17
41,874
14
16
En la primera columna aparece la etapa del procedimiento. As, en la etapa

1, se combinan los conglomerados 9 (brasil) y 12 (Panam). El coeficiente de
.84 se refiere a la disimilitud entre los dos pases. Si comprobamos en la matriz
de distancias, es exactamente la distancia eucldea cuadrada entre los dos
pases. En el paso 2 se agrupan los dos pases con menor distancia entre ellos,
el 7 (Nicaragua) y el 13 (Rep. Dominicana) con un 1,05. Y as sucesivamente. En dicho cuadro puede observarse en qu orden han ido agrupndose los
pases en funcin a la medida de distancia elegida. Esta misma informacin
se expresa en una presentacin grafica denominada Iceplot, dado que recuerdan los tmpanos de hielo.
77
En este grfico, en la parte superior aparecen los pases, y entre ellos, de

forma sombreada, cmo se agrupan. En la parte superior todos estn unidos
en un solo grupo, formando un clster. Es la etapa final del anlisis. Los
casos, en esta ocasin pases, se van agrupando desde la parte inferior. As
puede observarse como los dos pases que primero aparecen unidos por dicha
rea sombreada son brasil y Panam. Los dos pases que se agrupan a continuacin son Repblica Dominicana y Nicaragua.
En definitiva, la informacin se expresa de forma diferente para ayudar al investigador en la interpretacin lgica de la agrupacin. En todo caso, en la
medida que con posterioridad se puede evaluar la consistencia explicativa o
diagnstica de las agrupaciones, siempre puede retomarse el anlisis y comprobar agrupaciones alternativas que incorporen menos heterogeneidad dentro
del clster. Cabe recordar que son varias las decisiones importantes:
a) qu variables se emplean para determinar los grupos. Con ello decidimos el significado terico que estos grupos pueden tener.
b) qu medida de similitud o disimilitud se va a emplear
78
c) Si los datos van a ser transformados antes de calcular las similitudes

o disimilitudes
d) Si los coeficientes de las medidas de similitud o disimilitud van a ser
normalizados
e) qu procedimiento de los existentes vamos a elegir para que determine la distancia entre pases y grupos. Con ello decidimos como se
construyen los conglomerados y la heterogeneidad que contienen.
Todas estas opciones estn disponibles en la mayora de los programas de
anlisis que efectan estimacin de clsteres. La otra opcin que se plantea
desde el inicio es la posibilidad de establecer clsteres entre variables, mediante su matriz de distancias o proximidades. Recordemos que las medidas de
distancia pueden estimarse tanto para casos como para variables. La agrupacin de variables nos indicar cules estn ms prximas entre s, considerando los valores que los casos presentan en cada una de ellas.
Si tenemos en cuenta los ndices de validez, RMSSTD propone cuatro
clsteres, al ofrecer en esta solucin el coeficiente ms bajo. El ndice pseudo
F (CHF) seala en la misma direccin, al corresponder con cuatro clsteres su
coeficiente ms elevado. Pseudo t-cuadrado (PTS) cambia fuertemente del
clster dos al clster tres, sugiriendo como solucin cuatro clsteres.
79
Davies-bouldin (Db) muestra un valor tambin bajo y consistente con los

otros ndices en la solucin de cuatro clsteres. Dunn muestra la aproximacin de un coeficiente elevado con cuatro clsteres. En conjunto, la solucin
de cuatro clsteres parece ser la ms consistente con los datos. Vamos seguidamente a considerar el anlisis de clsteres de variables.
3.2.3. Agrupacin de variables mediante mtodos jerrquicos
I. diame por piedad yo te lo pido
Odio quiero ms que indiferencia
que el rencor hiere menos que el olvido.
II. /Yo quedar si me odias convencido
Porque es muy cierto de que en la existencia
Tan solo se odia lo que se ha querido./. (bis)
III. /Qu vales ms que yo nia orgullosa?
Pero al fin, en el seno de la fosa,
Llevaremos la misma vestidura./ (bis)
Bis II
IV. De amores y odios [, ilegible] solo te pido
Mi espantosa vida y compaera
Fue una pobre mujer, una cualquiera
Y a mi vida y amor parti conmigo.
V. Ahora que tengo m triunfo asegurado
Me aconsejan que te bote de mi lado
Y una mujer as deshonra y calla/pero el triunfo no autoriza entre canallas/
(bis).
Odio11
SEbASTIAN ROSADO
Cuando la intencin es producir una agrupacin de variables segn su similitud, una de las opciones es partir de su matriz de correlacin. De esta forma, las
variables con una correlacin mayor estaran ms prximas entre ellas que
aquellas otras variables cuyo coeficiente de correlacin sea menor o no signifi11. Fuente: Odio [disco de pizarra]) / Sebastin Rosado. Disco Favorite Record AKT-Ges.
Linden. Precioso Record 1-45052. Ecuador song en Fidel Pablo Guerrero Transferencias
musicales, http://soymusicaecuador.blogspot.com.es/2011/10/el-odio-trasferenciasmusicales.html
80
cativo. Dado que adoptamos la correlacin como medida de proximidad, en

muchas ocasiones el signo carece de inters. Por ello, para la matriz de similitud tomaremos el valor de las correlaciones en trminos absolutos. Es una decisin tomada para este anlisis en particular, pero sin embargo, en otras circunstancias puede ser ms interesante conservar la informacin que aporta el signo
de la correlacin. Pensemos el caso en que el investigador tenga inters en
agrupar aquellas variables que muestran una correlacin positiva y diferenciarlas de otras negativas. En estas circunstancias, es importante conservar el signo
dado que representa un elemento de inters terico para el investigador.
El procedimiento de agrupacin es el mismo para variables que para
casos. Comienza considerando tantos grupos como variables existen y a cada
paso sucesivo, las variables van formando grupos segn el criterio que se haya
adoptado para establecer la proximidad entre ellas.
Por lo general, los resultados de la agrupacin de variables que produce
el anlisis de conglomerados es semejante al que podramos obtener mediante el anlisis factorial, si bien con algunas diferencias. As, en el anlisis factorial existe un modelo terico que respalda la intencin de agrupar unas
variables y no otras. Se presupone que los factores (agrupacin de variables),
en trminos confirmatorios, expresan una medicin concreta. En el anlisis
de conglomerados, la agrupacin se produce de forma completamente exploratoria, en virtud de las proximidades que se aprecien entre las variables y sin
necesidad de ninguna teora previa. Una segunda diferencia importante es de
carcter tcnico. As, la agrupacin de variables que se produce mediante el
anlisis factorial, puede contener variables tanto con correlacin positiva
como negativa. En el caso del anlisis de conglomerados, la agrupacin se
efectuar solamente para variables con correlacin positiva. De utilizar las
variables con diferentes correlaciones entre ellas (positivas y negativas), se
agruparn por un lado las variables con correlacin negativa y por otro las
positivas. No aparecern grupos de variables que presenten entre ellas correlaciones negativas y positivas. Por eso, cuando el signo de la correlacin no
es significativo, es importante efectuar el anlisis de conglomerados de las
variables tomando el valor absoluto de las correlaciones, con lo que las variables se agruparn en funcin a la similitud que existe entre ellas segn determine la magnitud de su correlacin. De esta forma, mediante el valor absoluto de las correlaciones, se elimina el efecto del signo.
Cabe destacar, que la agrupacin de variables resultado de la administracin de un anlisis factorial no tiene por qu, necesariamente, coincidir con
el resultado de un anlisis de conglomerados. Siempre es interesante, cuando existe, una coincidencia en los resultados que generan ambos mtodos.
Sin embargo, esto no tiene por qu ser necesariamente as.
81
Matriz de distancias entre variables

(Calidad democrtica)
Variables
Variables
DIM 1
DIM 2
DIM 3
DIM 1
,000
DIM 2
78,643
,000
DIM 3
480,409
366,012
,000
DIM 4
22,169
18,842
5,332
DIM 4
,000
De acuerdo

a las
distancias
que
se determinan

entre las
variables,
observa
mos como las
dimensiones
DIM3
y
la
DIM4
se
agrupan
rpidamente
(son

muy prximas), mientras que la formacin de otro grupo por parte de las

dimensiones DIM1 y DIM2 se hace ms tardamente. Es decir, que las dimen DIM1
y DIM2 se encuentran

a mayor distancia

entre s
que
la DIM3

siones
La unificacin

de los
dos
grupos
(el formado
por lasdimensio
y la DIM4.
nes DIM3
y
DIM4,
y
el
formado
por
las
dimensiones
DIM1
y
DIM2)
se

hace

al final
del
proceso.
Con
ello
se
expresa
que
existe
una
heterogeneidad
muy

elevada, o dicho en otras palabras, una relacin dbil entre los dos grupos de

variables.
Dendrograma que utiliza una vinculacin media (entre grupos)
Combinacin de conglomerados de distancia re-escalados

82
En el historial de conglomeracin nuevamente podemos observar como las

dos dimensiones ms prximas (DIM3 y DIM4) se unen a una distancia de
28,43. Las dos dimensiones que se unen ms tarde (DIM1 y DIM2) lo hacen
a una distancia de 78,6. La fusin de los dos clster se realiza mucho ms tarde,
a una distancia de 423,2.
Historial de conglomeracin
Etapa
Conglomerado que se combina
Coeficientes Etapa en la que el conglomerado

aparece por primera vez
1
Prxima
etapa
28,433
78,643
423,230
Nuevamente, esa misma informacin viene expresada de forma grfica en el

denominado Iceplot o Tmpano.
83
En trminos de validez, considerando los ndices de RMSSTD, Db y la

pseudo F la conclusin es que puede afirmarse que muy probablemente existen tres grupos, es decir, tres dimensiones principales diferentes. El grfico
siguiente muestra el valor de los ndices mencionados al efectuar el clster
de variables.
Como hemos podido apreciar, los procedimientos de formacin de conglomerados o clster son aplicables tanto a los casos (sean individuos, pases, ciudades, asociaciones, etc.) como a las variables o indicadores que se empleen para
medir sus caractersticas. Este doble uso de la formacin de clsteres aproxima tcnicas como son el anlisis factorial y el anlisis de conglomerados.
3.2.4. La conglomeracin de variables y casos
Una posibilidad es efectuar un anlisis que combine la estimacin de grupos
de casos y de variables simultneamente. Como ya sabemos, el anlisis de
84
clster es un procedimiento diseado para detectar grupos de casos y de variables. Tambin es posible considerar simultneamente los casos y las variables. Es decir, la matriz de filas y columnas. Para agrupar filas y columnas
simultneamente, es preciso estandarizar primero las variables para darles a
todas ellas el mismo peso. De esta forma, todas tendrn una oportunidad
igual de expresar su influencia sobre los diferentes casos. Tras la estandarizacin, es adecuado emplear distancia eucldea con linkage simple.
Por lo general, el resultado del anlisis se puede expresar con un grfico
donde se muestra la matriz de datos, si bien permutando las filas y variables
para mostrar la agrupacin de casos y variables.
3.2.5. Ejemplos en SPSS y SYSTAT
La realizacin de estos anlisis requiere del apoyo de programas informticos. En ese sentido, son muchas las ofertas de programas tanto comerciales
como no comerciales. Vamos a considerar dos programas comerciales de uso
bastante extendido: SPSS y SYSTAT. Veamos seguidamente como se efecta un anlisis de conglomerados con SPSS. La opcin de este anlisis se
encuentra en la categora analizar, y despus la opcin clasificar. Esta ubicacin en el men del programa puede variar segn versiones, dado que este
programa ha reclasificado varias veces su sistema de mens.
85
En la pantalla tras elegir este anlisis, puede escogerse las variables que participarn en el anlisis, as como otras opciones analticas. En este momento,
la ms relevante es la decisin sobre si los conglomerados se van a efectuar
operando con las variables o con los casos.
86
Las opciones que tenemos disponibles en esta ventana se refieren al historial de aglomeracin, en el cual se recoge el paso en el que los grupos se van
combinando, as como a la distancia que lo hacen, tal y como mostrbamos en
el cuadro anterior. La opcin matriz de distancias visualiza las distancias
entre los objetos considerados. En el caso de ser variables mostrar una matriz
cuadrada con las variables. De haber seleccionado casos, la matriz de distancias cuadrada indicar la distancia entre casos. La distancia que se calcular
depende de la que haya sido seleccionada en la primera ventana.
Otra opcin interesante es indicar a qu grupo pertenecera cada caso segn
el nmero de clsteres elegidos. La opcin ninguna elimina de los resultados esta informacin. Al elegir una solucin nica (es decir, un nmero
determinado de clsteres), registrar la pertenencia de cada caso a cada uno
de los clsteres especificados. En este caso debe advertirse que se desea una
solucin con ms de un clster. Otra posibilidad es elegir un rango de soluciones. En este caso, se estimarn varios clsteres, indicando la pertenencia
a cada uno de ellos de cada caso. Los valores deben ser superiores a uno y el
nmero mnimo de conglomerados menor (obviamente) que el nmero mayor.
Si tomamos el ejemplo de calidad democrtica, podemos apreciar como bajo
la columna 2 conglomerados se indican cifras 1 y 2 mostrando la pertenencia de cada caso a cada uno de los dos conglomerados. En el otro extremo, en la columna 5 conglomerados, las cifras van desde 1 hasta 5, indicando a cul de los cinco conglomerados pertenece cada caso.
Conglomerado de pertenencia
Caso
5
4
3
2
conglomerados conglomerados conglomerados conglomerados
10
Caso
87
5
4
3
2
conglomerados conglomerados conglomerados conglomerados
11
12
13
14
15
16
17
18
En lo que se refiere a los resultados grficos, la opcin dendrograma muestra el grfico de agrupacin visto anteriormente. En el caso del grfico de
tmpanos es posible elegir cuntos clsteres se desea visualizar. As la opcin
todos los conglomerados indicar el proceso de agrupacin de todos los
clsteres. Es posible establecer un rango de conglomerados para ser mostrados, as como el ritmo de aglomeracin. Por ejemplo, indicando iniciar en 2
y terminar en 10, en saltos de 2, el grfico mostrar la solucin para 2, 4, 6,
8 y 10 clsteres. Tambin es posible eliminar el grfico de tmpanos, o decidir la orientacin vertical u horizontal.
Los grficos son una utilidad para poder visualizar el proceso de agrupacin y las distancias en las que se efectan. Debemos recordar que cuanta
ms distancia, ms heterogeneidad se incorpora al conglomerado.
88
En la opcin mtodo encontramos las operaciones ya tratadas anteriormente. As, podremos elegir el mtodo que se prefiera de conglomeracin, la distancia que se desea emplear (de intervalo, recuentos o binaria) y para cada
una de ellas las diferentes medidas de proximidad o distancia. As mismo,
encontramos las opciones de estandarizar y normalizar las variables o los
casos antes del anlisis. Transformar las medidas recordemos que consiste
en modificar los coeficientes de distancia o proximidad que han sido calculados para cada par de objetos.
Por ltimo, y solamente para la opcin de efectuar clsteres con los casos,
tenemos la opcin de crear una nueva variable donde se indique la pertenencia de cada caso a cada uno de los conglomerados estimados. Nuevamente,
la opcin es crear una variable (solucin nica), donde se indique la pertenencia de cada caso a los clsteres decididos, o crear un conjunto de variables, donde cada una de ellas muestra la pertenencia de cada caso segn el
nmero de clsteres en esa solucin (Rango de soluciones).
En el caso de utilizar el programa SYSTAT la organizacin de los mens
es bastante similar al programa anterior. La eleccin en el men de la opcin
Analizar nos ofrece la opcin anlisis de clsteres, y dentro de ella las
opciones de jerrquicos y no jerrquicos (K-clsteres).
Dentro de la opcin jerrquicos, la mayor parte de las opciones ya son
conocidas. Tanto las opciones para elegir el mtodo para estimar las distancias entre clsteres, como la eleccin de la distancia elegida, el efectuar el
clster de filas (rows), que indican por lo habitual los casos, o de columnas
(columns) expresando variables son semejantes en los dos programas.
89
90
Aparecen, sin embargo, dos opciones especialmente interesantes, que implican a la expresin grfica. El programa SYSTAT ofrece la oportunidad de mostrar la agrupacin mediante un grfico polar como el que se muestra seguidamente, para el ejemplo de la agrupacin de pases segn calidad democrtica. Es la opcin polar, que se encuentra encima de la opcin guardar
en una variable nueva el clster de pertenencia.
Cuando no se solicita la opcin polar, se muestra el dendograma clsico.
91
La otra opcin muy interesante es la que resulta de la eleccin de estimar los

grupos considerando tanto los casos como las variables. Es la opcin Matriz
(tras las opciones de por fila o columna). Este procedimiento permite graficar la formacin de los clsteres de variables y de casos simultneamente, tal
y como se aprecia en el grfico siguiente.
Como podemos apreciar, SYSTAT genera un grfico donde se muestra la

matriz original de datos, con las filas (casos) y columnas (variables) permutadas segn el algoritmo propuesto por Gruvaeus and Wainer (1972). Los
diferentes rasgos se expresan asociados a la magnitud de los valores en la
matriz (Ling, 1973). La leyenda muestra los rangos de valores expresados
mediante los diferentes sombreados, donde los puntos de corte entre rangos
se deciden de forma que optimicen el contraste. Para decidir esos puntos de
corte que optimizan, se ordenan los datos y se localizan los saltos ms elevados entre ellos. Solamente se consideran los puntos de corte que son significativos asintticamente al 0.05. Posteriormente se emplea el mtodo de
Tukey para determinar cuntos rangos y que caractersticas se les asocian,
(Wainer and Schacht, 1978).
92
El programa SYSTAT, ofrece varias opciones para estudiar ms en profundidad la formacin de los clsteres. Son las que se muestran en la pestaa de
opciones. En la columna izquierda aparecen las opciones para controlar la
profundidad y color del dendrograma, segn varios indicadores, como son
las distancias, pero tambin el nmero de casos en cada clster. En ese sentido, es ms flexible al incorporar la opcin del color como elemento sustantivo para reconocer el proceso de agrupacin.
En las pestaas de vinculacin (linkage) y distancia (distance) se puede
elegir entre varios mtodos de vinculacin y procedimientos de clculo de distancias. Los mtodos de vinculacin (Linkage) en SYSTAT, permiten elegir
entre Single, Complete, Average, Centroid, Median, Wards (Ward, 1963),
Weighted Average and Flexible beta.
SYSTAT ofrece dos mtodos para efectuar la agrupacin en base a la densidad. Uno de ellos es Uniform y el otro es K-nbd (vecino ms prximo).
En ambos mtodos se estima una probabilidad de densidad para los casos, y
se construye una nueva matriz de disimilaridad (combinando la estimacin
de probabilidad y la matriz de disimilaridad original). Ambos mtodos fueron explicados en pginas anteriores.
Una cuestin a tener en consideracin es que las distancias no aparecen

ordenadas segn la mtrica de las variables, como puede apreciarse en el desplegable del men.
93
Por ltimo, en lo que estamos considerando en este texto, la pestaa de

opciones permite controlar cmo se muestra el grfico de rbol, en el rea
izquierda. En el rea derecha aparecen diferentes ndices para medir la validez de las diferentes soluciones de clsteres.
Los ndices que calcula son RMSSTD, Pseudo F, Pseudo T-square, Db o

Davies-bouldin, y por ltimo Dunn. Por ejemplo, en la conglomeracin
jerrquica SYSTAT calcula el ndice RMSSTD a cada paso, facilitando una
94
medida de la homogeneidad de los clsteres que se han formado en ese paso.

Produce, asimismo, un grfico con el valor de RMSSTD a cada paso. Con ello
se puede explorar las diferentes soluciones analizando los saltos que se pueden observar en el ndice. Todos ellos han sido comentados anteriormente.
La ltima opcin es el nmero de clsteres, por el que se indica cuntos clsteres queremos que evale como mximo. Por ejemplo, de elegir cinco, los
ndices se calcularn para un mximo de cinco clsteres.
La ltima pestaa que comentamos es la Mahalanobis. En dicha pestaa, se puede especificar la matriz de covarianzas para poder calcular la distancia Mahalanobis. Consideremos a continuacin los mtodos no jerrquicos
para la formacin de clsteres. En este caso, el nmero de casos que pueden
entrar en el anlisis es elevado y por lo general no produce resultados grficos
semejantes a los del anlisis jerrquico.
3.3. MTODOS NO jERRqUICOS PARA LA FORMACIN DE CONGLOMERADOS
S t me odias, quedar yo convencido
de que me amaste -mujer- con insistencia;
pero ten presente, de acuerdo a la experiencia,
que tan slo se odia lo querido;
pero ten presente, de acuerdo a la experiencia,
que tan slo se odia lo querido.
diame
RAFAEL OTERO (1921-1997)
Los mtodos jerrquicos son operativos cuando el nmero de casos es relativamente pequeo. Cuando consideramos miles de casos deben buscarse estrategias que permitan formar los grupos o conglomerados mediante diferentes
algoritmos que definan lo que es un grupo, y los criterios de distancia o similitud para pertenecer a l. Como hemos advertido, los mtodos no jerrquicos son los adecuados cuando el nmero de casos es elevado. Vamos a considerar dos tipos diferentes de estimacin de conglomerados. Uno de ellos ms
tradicional, el mtodo de k-medias, en el que se debe indicar el nmero de clsteres a estimar y es aplicable exclusivamente a niveles de medicin de razn
o de intervalo. El segundo de los mtodos se basa en el empleo de las medianas para vertebrar la formacin de los clsteres12.
12. Existen otros mtodos como el anlisis de clster en dos pasos (two steps cluster analysis).
Este mtodo es aplicable a bases de datos con un gran nmero de casos, y no es imprescindible indicar un nmero previamente al anlisis. Es decir, los propone automticamente.
Existe una cierta controversia en la literatura especializada sobre las condiciones de apli-
95
3.3.1. Conglomerados mediante k-medias y k-medianas

El anlisis de clster mediante K-medias o k-medianas es una herramienta
diseada para clasificar los casos en un nmero de grupos. Las caractersticas de los casos que pertenecern a cada grupo no son conocidas previamente y se determinan a partir de las variables que se elijan. Es muy til cuando
el nmero de casos es elevado. Un buen anlisis de conglomerados debe ser
eficiente (determinando el menor nmero de clsteres posible) y eficaz, en
la medida que ayude a construir tipologas y segmentos tiles y significativos. A diferencia de los mtodos jerrquicos, los grupos que se construyen
son excluyentes entre s desde el inicio. El procedimiento intenta maximizar
las diferencias entre grupos, buscando la mxima homogeneidad interna dentro de ellos.
Consideremos en primer lugar el mtodo K-medias (K-Means cluster
analysis), para determinar los clsteres. En este mtodo, el nivel de medicin de los datos debe ser de razn o de intervalo. Una diferencia importante es que en este tipo de anlisis el investigador debe especificar cuntos grupos considera que existen previamente al inicio del anlisis. En ese sentido,
manteniendo su carcter exploratorio obliga al investigador a adoptar las decisiones que considere ms adecuadas para optimizar la solucin del nmero
de clsteres. Mediante el mtodo de k-medias, en primer lugar se selecciona un caso de referencia para cada clster, que estn lo ms separados posibles del centro de todos los casos. Posteriormente cada caso es asignado al
grupo de cuyo centro se encuentra ms prximo. A continuacin el proceso
intenta asignar cada caso a un clster de forma que se reduzca la suma de cuadrados intra-grupos. Este procedimiento contina hasta que la suma de cuadrados intra-grupos no puede ser reducida ms.
Es evidente que los valores iniciales de cada clster, sobre los que se van
agrupando los casos, son muy importantes. Dado que los procedimientos no
investigan todas las particiones posibles de los datos, siempre queda la posibilidad de otras particiones (grupos) que minimicen an ms la suma de cuadrados intra-grupos. Al operar sobre la base de minimizar la suma de cuadrados intra-grupos, los procedimientos basados en k-medias equivalen a un
cacin y los resultados de este enfoque. (johann bacher, Knut Wenzig, Melanie Vogler,
SPSS Twostep Cluster a first evaluation). El procedimiento permite el empleo de variables con diferentes niveles de medicin simultneamente. Las simulaciones sugieren que
las variables categoriales tienen un fuerte efecto en la formacin de clsteres, imponindose sobre las de tipo intervalo. Otra cuestin importante es la dificultad para identificar
las situaciones en las que no existen clsteres en los datos. Esta ltima es importante, dado
que el procedimiento ofrece de forma automtica un nmero de clsteres.
96
anlisis multivariante de la varianza, donde los grupos (es decir, los casos
que los conforman) no son conocidos previamente. Por esta razn, an cuando empleemos el anlisis de varianza para evaluar la validez de los grupos,
es importante recordar que el procedimiento se orienta a optimizar el valor
de F por lo que es fcil que produzca valores elevados.
Es importante considerar que con este mtodo partimos de un nmero
concreto de clsteres. El procedimiento por el cual se van construyendo los
clsteres vara dependiendo de si se conoce el valor del centro de los grupos,
o si por el contrario los centros deben de ser estimados de forma iterativa,
eso s, siempre partiendo de un nmero prefijado de clsteres.
Ciertamente no siempre es posible tener una idea clara de cuntos grupos
pueden definir las distancias. Por eso, dado que este procedimiento exige que
se le indique el nmero de grupos que debe calcular, una solucin es extraer
una muestra aleatoria del total de los datos y sobre esta muestra parcial efectuar un anlisis jerrquico. Tal y como hemos visto anteriormente. Tras efectuar esa aproximacin de forma exploratoria, se puede determinar aproximadamente cuntos grupos parecen estar presentes en la matriz de datos y, asimismo, mediante este anlisis exploratorio previo es posible estimar un valor
inicial para el centro de cada clster. Los valores que corresponden en el anlisis jerrquico con los grupos buscados seran los valores de partida para
construir los k-grupos. El valor inicial para formar los clsteres a partir de l
es un elemento importante que debe decidir el investigador.
Ya con estos datos preliminares, el nmero de grupos y el valor de sus
centros, es posible iniciar el ajuste de los casos a dichos grupos mediante el
anlisis de k-medias. Consideremos este caso en el que los centros de los grupos son conocidos. Para cada caso calcularemos su distancia al centro de cada
uno de los grupos. El caso ser agregado al grupo de cuyo centro se encuentre ms prximo. Lo ideal es que la solucin final de clsteres, muestre unos
grupos cuyos centros se encuentran muy separados entre s, y donde adems
los casos que pertenecen a cada grupo se encuentren muy prximos a su centro. Este es un dato importante para determinar la bondad de la solucin.
Otros mtodos alternativos para estimar el centro de los clsteres analizan los datos varias veces. Debemos partir de la idea de que una buena solucin de clsteres debe de separar los casos lo bastante bien. Para ello, una
estrategia posible es partir de los casos con una mayor distancia entre ellos
y tomarlos como una estimacin de los centros de los futuros clsteres. As,
se tomaran tantos casos como nmero de grupos se haya especificado inicialmente. Conforme se van incorporando ms casos, uno de ellos ocupar
97
el centro del conglomerado cuando su distancia ms corta a uno de los centros sea mayor que la distancia entre ese centro con todos los dems.
Otras alternativas son tomar los k primeros casos (siendo k el nmero de
clsteres) como centros iniciales para los grupos, o por el contrario, tomar
los ltimos k casos. Tambin se pueden decidir de forma aleatoria los centros, eligindolos al azar, o en otra estrategia, agrupar aleatoriamente los
casos en los k grupos, y calcular la media, o la mediana, segn se est procediendo, de los casos que forman cada grupo. Estas medias (o medianas
segn el caso), formaran los valores iniciales para ir formando los grupos.
Existe la posibilidad de efectuar un anlisis de componentes principales
y ordenar los casos segn su valor en el primer componente. Despus se
dividen los valores por k (n/k), y se toma el primer valor de la primera particin como centro del primer clster, el primer valor de la segunda particin
de n/k como centro del segundo clster, y as hasta tomar todos los primeros
valores de cada particin.
Veamos el siguiente ejemplo, considerando los datos de calidad democrtica, podemos observar como los valores iniciales son los ms extremos.
En una solucin de dos conglomerados, la DIM1 inicia el clster 1 con el
valor 8 (el mximo de esa variable) y el clster 2 con el valor 1 (el mnimo
de esa variable).
Centros iniciales de los conglomerados
Conglomerado
1
DIM1
8,00
1,00
DIM2
9,50
3,80
DIM3
,70
-2,30
DIM4
1,30
-1,70
Como sabemos el procedimiento contina de forma iterativa incorporando

cada unos de los casos segn su distancia. El historial de iteraciones nos
muestra como se producen cambios muy importantes en las dos primeras
fases, y despus el cambio es muy lento hasta alcanzar la convergencia.
98
Historial de iteracionesa
Iteracin
Cambio en los centros

de los conglomerados
1
3,433
3,544
,572
,253
,095
,018
,016
,001
,003
9,225E-5
,000
6,589E-6
7,359E-5
4,707E-7
1,226E-5
3,362E-8
2,044E-6
2,401E-9
10
3,407E-7
1,715E-10
11
5,678E-8
1,225E-11
12
9,463E-9
8,758E-13
13
1,577E-9
6,172E-14
14
2,629E-10
5,032E-15
15
4,381E-11
9,222E-16
16
7,302E-12
1,110E-16
17
1,217E-12
,000
18
2,033E-13
,000
19
3,390E-14
,000
20
5,626E-15
,000
21
9,155E-16
,000
22
,000
,000
El resultado de esta iteracin es una nueva estimacin del valor de cada variable respecto al centro de cada conglomerado. Este centro final se calcula como
la media para cada variable en el conglomerado final. En cierto modo, expresa
los valores caractersticos de un caso tpico en cada clster.
99
Centros de los conglomerados finales

Conglomerado
1
DIM1
6,91
4,19
DIM2
5,72
3,28
DIM3
1,90
-,73
DIM4
1,08
-,42
Al igual que suceder en el anlisis factorial, el perfil de las variables en

cada uno de los conglomerados permite describir el segmento. Es decir, qu
rasgos caracterizan a los que pertenecen a dicho grupo.
La tabla donde se muestra los centros de los grupos no facilita, sin
embargo, informacin alguna respecto a la consistencia interna de los grupos. Por eso puede resultar conveniente efectuar un anlisis de varianza, con
los grupos como factor y cada una de las variables empleadas en el anlisis
(para estimar las distancias) como dependiente.
La media cuadrada entre clsteres se etiqueta en la columna
Conglomerado media cuadrtica y la media cuadrada intra-grupo se etiqueta Error media cuadrtica. El ratio entre ambas es el que aparece en la
columna F. Un ratio F elevado y una significacin baja indican que las variables son muy diferentes en sus valores para los diferentes clsteres. En todo
caso, este test solamente es til a efectos descriptivos. No lo es para testar
la igualdad de las medias entre grupos, dado que el procedimiento empleado ha intentado optimizar ese efecto. Sin embargo es til para conocer que
variables tengan ms peso e influencia en la solucin. En el caso de la calidad democrtica, se ha pedido que genere dos clsteres.
ANOVA
Conglomerado
DIM1
DIM2
DIM3
DIM4
Error
Media
cuadrtica
gl
Media
cuadrtica
gl
24,272
34,614
19,433
3,240
1
1
1
1
1,960
1,912
1,821
1,248
16
16
16
16
Sig.
12,383
18,104
10,674
2,597
,003
,001
,005
,127
100
En el cuadro podemos apreciar como las diferencias de los valores de las

variables DIM1, DIM2 y DIM3 son significativas en los dos clsteres. La
significacin de DIM1 es de .003, la de DIM2 es .001 y la de DIM3 es de
.005, todas ellas por debajo de .05. Sin embargo en el caso de DIM4 la significacin es de .127 expresando que la variable no es probablemente diferente en los dos clsteres. La bondad de la solucin final se estima nuevamente segn la capacidad que tengan los grupos para discriminar entre los valores
de los casos en las variables consideradas.
Un dato importante es la distancia final entre clsteres. Cuanto ms distanciados, ms seguridad se tiene de que los segmentos o tipologas representan grupos con caractersticas diferentes.
Distancias entre los centros de los conglomerados finales
Conglomerado
4,744
4,744
Por ltimo, se ofrece informacin sobre cuntos casos existen en cada conglomerado (tipologa o segmento).
Nmero de casos en cada conglomerado
Conglomerado
Vlidos
Perdidos
5,000
13,000
18,000
,000
El anlisis de clster es una tcnica eminentemente exploratoria, y sern sucesivos diagnsticos los que ayudarn a perfilar y decidir los grupos ms significativos.
Tambin es posible aplicar el anlisis k-grupos empleando medianas en
lugar de medias. El procedimiento es esencialmente igual que para k-medias,
excepto que se emplea la mediana para reasignar cada caso a cada clster, y
que el criterio de referencia es minimizar la suma intra-grupos de las desviaciones absolutas.
Tanto los procedimientos jerrquicos como los basados en k-grupos son
los procedimientos ms utilizados en la deteccin y estimacin de clsteres
101
cuando consideramos la investigacin en Ciencias Sociales. Esta rea de

actividad, detectando grupos y clsteres, dado su elevado inters en los nuevos procedimientos de big data y minera de datos, experimenta en la
actualidad un desarrollo bastante intenso.
3.3.2. Ejemplos en SPSS y SYSTAT
En SPSS, tras seleccionar las variables o indicadores que se van a utilizar para
definir los clsteres, se indica el nmero de grupos que consideramos que existe en los datos. Tal y como se coment anteriormente, se puede proponer un
centro de grupo para comenzar el procedimiento de conglomeracin. Asimismo, se puede elegir entre dos formas de clasificar los casos entre los diferentes grupos: clasificando y recalculando los centros de los grupos conforme
avanza el proceso, o simplemente clasificando los casos. Como resultado del
anlisis, se puede guardar como nuevas variables el clster de pertenencia de
cada caso, su distancia al centro y el valor final del centro del clster.
Como informacin para validar el significado de la solucin, se puede
solicitar que se efectu un anlisis de la varianza. Ya se relativiz anteriormente el significado del valor F, dado que el procedimiento de estimacin de
clsteres est orientado a optimizar su valor, pero no obstante puede facilitar informacin importante en relacin al peso o influencia que tiene cada
variable en la separacin entre grupos. Recordemos que el significado de los
diferentes grupos (llammosles clsteres, tipos, segmentos, etc.) depende de
las variables que los definen.
102
Este programa permite, asimismo, indicar el nmero mximo de iteraciones

as como el criterio de convergencia. Lo habitual es mantener el criterio de
convergencia en su valor 0, y elevar el nmero de iteraciones en el caso que
no se alcance.
En la opcin guardar se indica que se produzca una nueva variable con el

grupo al que pertenece cada caso, as como la distancia a su centro de clster.
103
En opciones se solicita la informacin relativa a los centros que se emplean

para iniciar la conglomeracin (construccin de los grupos), el anlisis de
varianza y la informacin del conglomerado para cada caso. Esta ltima informacin producir, habitualmente, una informacin muy extensa, dependiendo
del nmero de casos.
Finalmente, permite dos criterios para excluir casos del anlisis segn sus
valores perdidos. Excluir los casos que tengan algn valor perdido en alguna variable (lista), o excluirlos parcialmente de aquellas parejas de variables
en las que presente un valor perdido. En esta situacin, los casos aparecen o
desaparecen segn su valor en cada pareja.
Clsteres con K-medias y K-medianas en SYSTAT
En SYSTAT se pueden realizar clsteres mediante K-medias y K-medianas.
Los dos procedimientos tienen el mismo objetivo, maximizar las diferencias
entre grupos y optimizar la homogeneidad intragrupos. En cierto sentido, equivale a efectuar un anlisis de varianza donde se desconocen los grupos y se
procede reclasificando de forma que el valor F se optimice.
En la ventana principal se eligen las variables, como es usual. Se debe
elegir qu procedimiento se desea utilizar para la formacin de clsteres, la
media o la mediana, mtodo ms robusto a los casos extremos. Seguidamente
se debe indicar el nmero de grupos que se quiere investigar. El nmero por
defecto es dos. Se puede decidir el nmero mximo de iteraciones, con un
valor por defecto de 20.
104
Debe decidirse qu distancia se va a utilizar para determinar las proximidades o las similitudes intra y entre clsteres.
Las distancias disponibles en SYSTAT para k-medias y k-medianas son Chicuadrado, Eucldea, Gamma, Minkowski, MW, Pearson, Phi-cuadrado,
R-cuadrado, Absoluta y Mahalanobis. Es posible guardar en una nueva variable el grupo de perteneca para cada caso as como los centros finales de cada
grupo.
105
Por ltimo, SYSTAT da nueve opciones para determinar cules van a ser los
centros desde los que iniciar la agrupacin de casos. None (ninguno) inicia
el procedimiento con un grupo, y calcula su centro (media o mediana). A partir de l construye dos, basndose en el valor ms alejado de ese centro, que
pasa a ser el centro de un segundo grupo. Con esos dos centros procede a clasificar los casos de forma ptima. Contina dividiendo grupos y reasignando
casos hasta alcanzar el nmero de k-clsteres especificado. First k (primeros k casos), tras tomar los primeros k casos (que presenten valores vlidos),
los adopta como centros de inicio para clasificar el resto de los casos. Last
k (ltimos k-valores) emplea el mismo sistema, solamente que tomando los
ltimos k valores. Random k (aleatoria) elige de forma aleatoria los k centros para iniciar la clasificacin. Random segmentation (segmentacin aleatoria) construye k grupos de forma aleatoria y calcula sus respectivas medias
o medianas. Posteriormente se adoptan dichas medias o medianas como valores iniciales para empezar a clasificar los casos. Principal component (componente principal) primero estima, y despus toma, el primer componente
principal como si fuese una variable. Tras ordenar todos los casos por su valor
en el componente, divide el nmero de casos por k (nmero de clsteres) y
construye los centros tomando el primer caso de cada grupo. Hierarchical
segmentation (segmentacin jerrquica), efecta el procedimiento de clster
jerrquico, con el criterio de vinculacin (linkage) que se especifique, y toma
los k grupos que resultan de ese anlisis como particin inicial que da origen
a la clasificacin. Partition variable (variable de particin) toma como cri-
106
terio para formar los k grupos (de los que extraer la media o mediana que inicia la clasificacin) de una variable que especifique el investigador. From
file, la opcin desde archivo indica que tenemos los centros de inicio de la clasificacin escritos en un archivo externo. Random seed pide que los valores iniciales que deben referenciar la clasificacin de los casos en los k grupos se estime de forma aleatoria.
4. EL ANLISIS FACTORIAL
Como se ha comentado anteriormente, los procedimientos estadsticos, en su
mayor parte, son aplicables a diferentes objetivos. Otro ejemplo de esto es
el denominado anlisis factorial. En esencia, determina qu variables o indicadores estn ms prximos entre s (forman clsteres) y partiendo de dichas
agrupaciones, procede a estimar una puntuacin para cada caso en ese grupo
de variables. Al igual que en el anlisis de clsteres, y como resultado de la
agrupacin de casos, se generaba una nueva variable donde se indicaba a qu
clster perteneca cada caso, en el anlisis factorial se emplean las variables
agrupadas para calcular una puntuacin para cada caso. La interpretacin
terica es ms amplia (los grupos de variables expresan un nico concepto terico, del que son expresin fragmentada), pero en la prctica, es una anlisis
de clsteres de variables que toma generalmente como unidad de proximidad
la correlacin o la covarianza.
Por ese motivo (empleo de la matriz de covarianzas o correlaciones), las
variables deben ser de tipo cuantitativo, con niveles de medicin de intervalo
o razn. Como principio general, las variables para las que se pueda calcular el coeficiente de correlacin de Pearson seran las ms adecuadas. La razn
bsica es que el modelo de anlisis factorial toma como presunciones que los
datos deben de mostrar una distribucin bivariable normal para cada par de
variables y las observaciones deben ser independientes entre ellas. En la prctica existe un uso generalizado del anlisis factorial en escalas de tipo Lickert,
y en forma exploratoria, de variables dicotomizadas (aprovechando las posibilidades de la correlacin tetracorica).
En sus aplicaciones concretas, es tambin un procedimiento multivariable para la construccin de ndices. Este procedimiento permite integrar en un
solo ndice a un conjunto de indicadores o variables, siendo esta una de sus
utilidades ms relevantes. El anlisis factorial representa una estrategia de
medicin amplia, til para la exploracin de conceptos tericos, incluyendo
el construir ndices. En estas pginas desarrollaremos tanto su utilidad como
herramienta para construir ndices, como sus otras potencialidades analticas.
108
Con frecuencia existen muchos conceptos en la investigacin social que

escapan a una observacin directa. Pensemos por ejemplo en conceptos como
alienacin, anoma, poder, autoritarismo, xenofobia, racismo, etnocentrismo, etc. Resulta evidente que estas variables latentes no pueden medirse de
una forma directa, tal y como puede medirse otras caractersticas como altura,
peso, ingresos, gnero, etc.
Podemos considerar que estos conceptos se expresan a travs de mltiples variables e indicadores. As, sera el concepto autoritarismo, el que
podra explicar determinados comportamientos, opiniones, expresiones y actitudes de los individuos. Algo semejante puede decirse de conceptos como
etnocentrismo, xenofobia o racismo. De hecho, el anlisis factorial entronca
en la labor de los psiclogos para determinar conceptos no medibles directamente, como puedan ser las formas diferentes de inteligencia o los estilos
cognitivos. El concepto anlisis factorial es propio de la terminologa psicolgica. En otras disciplinas se denominan tambin como variables latentes
o dimensiones.
En ese sentido, la respuesta que buscamos en los procedimientos estadsticos, es identificar qu grupos de variables estn estrechamente relacionadas
entre s, postulando que esa estrecha asociacin entre ellas responde a la existencia de un factor (dimensin o variable latente) que no es observable directamente. Para ello, es evidente que se debe descartar tericamente la posible
existencia de una secuencia explicativa entre las variables observadas. En
ese caso, la estrecha asociacin puede estar expresando una secuencia argumental (explicativa) y no un concepto. Por eso, las variables observadas (o
los indicadores) deben tericamente formar parte de una batera de preguntas o a un escalamiento de medicin. El riesgo de tomar dependencia por
medicin puede aparecer, por ejemplo, en el anlisis de datos secundarios
donde se desconoce la intencionalidad original del investigador.
Evidentemente, es fundamental que los factores sean significativos. Tengan
un significado terico claro. Especialmente, esta situacin se plantea cuando se efectan anlisis factoriales exploratorios, donde no se propone un
concepto terico que d cuenta de la variabilidad observada. Nos encontraramos en la ocasin de descubrir conceptos no conocidos, o no previstos. En
el caso que la estructura sea significativa emprica (tras ser testada con nuevos datos) y tericamente, se debe asignar un ncleo terico que le aporte un
significado sustantivo. El descubrimiento de un factor significativo, terica
y empricamente, equivale a descubrir un nuevo mundo analtico, dnde
pueden producirse nuevas ideas o planteamientos. No es estrictamente el caso
(no est definido como resultado de un anlisis factorial) pero un ejemplo
puede ser el de los conceptos materialismo o posmaterialismo de Inglehart,
109
el de incertidumbre en beck o el de reflexividad en Giddens, Ideologa

poltica (Alaminos, 2004), entre otros. En el caso que nos ocupa en Ecuador
y el proyecto de medicin del buen vivir, ya existe una reflexin terica
producto de un intenso debate acadmico e investigador, sobre los factores
que podran dar cuenta de esa realidad social.
El anlisis factorial es especialmente til en su funcin exploratoria,
donde se agrupan las variables con mayor correlacin entre ellas, para construir otras variables denominadas factores de tal modo que unas variables
tengan una correlacin mayor con unos factores, y prcticamente nula con
otros. El carcter exploratorio significa que lo habitual es efectuar varios
anlisis, cambiando criterios como pueden ser el mtodo de ajuste, el tipo de
rotacin, el criterio de seleccin de factores, hasta revelar la estructura que
pueda existir en los datos. El significado terico de los factores se obtiene
mediante el significado de las variables que le dan forma, mostrando una elevada correlacin con ellos.
En esa contigidad que se aprecia entre muchos de los procedimientos
estadsticos, debemos destacar como procedimiento gemelo al Anlisis
Factorial el Anlisis de Componentes Principales. Aunque ambos procedimientos se basan en modelos matemticos diferentes, se pueden utilizar con
el mismo tipo de datos, produciendo adems, por lo general, resultados muy
parecidos.
La realizacin de un anlisis factorial puede tener varios objetivos. Como
hemos comentado reiteradamente, un procedimiento estadstico (respetando
sus presunciones) puede ser aplicado con diferentes utilidades segn los
intereses del investigador. En esta ocasin, nos concentraremos en tres de
sus utilidades ms relevantes: la construccin de ndices, la determinacin de
la estructura dimensional que pueda estar presente en un conjunto de variables o indicadores, y la medicin de variables subjetivas.
a) La estimacin de un ndice, expresando de forma sinttica un conjunto
de indicadores. En esta situacin se opera, usualmente, en un plano confirmatorio. La medicin est establecida tericamente y el procedimiento estadstico se utiliza como frmula instrumental para construir
el ndice.
b) Tambin, por ejemplo, otro objetivo es representar de forma armoniosa y simplificada un conjunto de variables. Para ello, se aspira a sintetizar un mximo de correlaciones observadas entre variables, empleando el mnimo nmero de factores posibles. En ese sentido, un exceso
de factores implicara muy poca simplificacin. Cabe recordar aqu que
la aspiracin ltima es revelar una estructura latente con significado
110
terico sustantivo. En ningn caso es el objetivo reducir el nmero de

factores (simplificacin) sacrificando interpretacin terica.
c) El anlisis factorial de medicin corresponde, si lo consideramos
desde el punto de vista de la psicologa, con un test psicomtrico que
medira la presencia en los individuos de rasgos psicolgicos (por
ejemplo personalidad autoritaria), as como su intensidad. Siguiendo
esa lgica, este tipo de anlisis es aplicable a cualquier caso donde
intentemos proponer la presencia de un concepto no medible directamente, como una realidad que se expresa mediante una serie de indicadores observados. En ese sentido el anlisis factorial, como definicin multivariable, es una tcnica estadstica que se emplea para identificar y medir un grupo pequeo de factores que dan cuenta de la relacin que se aprecia entre un nmero ms elevado de variables. Karl
Pearson, quien desarroll la tcnica del anlisis de componentes principales en torno al 1901, defina un componente como la lnea que
mejor se ajusta a sistemas de puntos en el espacio. As, mientras que
la idea tras la recta de regresin es la prediccin, en el caso del anlisis de componentes principales la idea clave es la de asociacin.
Considerando la dimensionalidad de la solucin factorial (cuntos factores y su relacin con las variables o indicadores), es importante que se diferencie entre la identificacin de un nmero de factores que simplifica el volumen de variables observadas, de la posibilidad de que dichos factores puedan
o no estar correlacionados entre s. stos son dos conceptos diferentes, el de
simplificacin de las variables observadas por un lado, y el de la relacin
existente entre los factores por otro. En el caso del anlisis de componentes
principales los componentes (factores) siempre van a ser independientes entre
ellos (ortogonales). Por el contrario, en el anlisis factorial se puede especificar que los factores sean interdependientes entre ellos (oblicuos).
Debemos diferenciar entre factores (tambin denominados dimensiones
o variables latentes) de primer orden y factores (variables latentes o dimensiones) de segundo orden. La lgica es la misma. Los factores que se identifican
y miden mediante la asociacin entre variables observadas (o indicadores),
pueden, a su vez, estar asociados entre ellos, expresando la presencia de un
factor (variable latente o dimensin) de segundo orden. Es decir, la asociacin
entre variables observadas permite establecer la existencia de un factor, no
visible directamente, que causa su variabilidad. En ese sentido, tambin es factible que los factores de primer orden (gracias a su posible asociacin entre
ellos) expresen la existencia de un factor de segundo orden, ms profundo y
solamente observable mediante el comportamiento de los factores de primer
111
orden. En ese sentido, la parsimonia se aplica en primer lugar reduciendo el

nmero de variables gracias a los factores, y en algunos casos, reduciendo el
nmero de factores mediante su agrupacin en nuevos factores. Este proceso ayuda a simplificar la complejidad de la realidad que observamos y medimos directamente.
Un ejemplo de esto anterior es el concepto de buen Vivir. En el proceso para medirlo, y tras debatir lo que pueda significar el buen vivir, se
identifican factores (dimensiones, variables latentes) que puedan agrupar su
expresin en la sociedad. Con ello, el proceso para medir el buen vivir se
simplifica notablemente si es posible identificar una serie de factores que
expresan lo que significa. De hecho, el proceso de medicin y definicin
podra, con facilidad, llevar a una dinmica de simplificacin relacional que
determine el buen vivir como un factor, no ya de segundo orden, sino de tercer o cuarto orden. A la fecha de escribirse este manual, y de forma exploratoria, el debate identificaba cinco amplias dimensiones (factores) de referencia: Democracia y participacin, Movilidad, Inclusin social y derechos,
Medio Ambiente y Economa popular. No obstante, estos factores pueden perfectamente ser de segundo o tercer orden, dependiendo de su forma operativa final.
4.1. EL MODELO MATEMTICO
El modelo matemtico detrs de un anlisis factorial, con varios factores, es
bastante semejante a la ecuacin de regresin mltiple. Por ejemplo, para el
caso del indicador 1, este vendra expresado como el resultado de la combinacin lineal de los diferentes factores propuestos. Ciertamente, la previsin es
que las cargas sean ms elevadas en unos factores que en otros. Consideremos
el concepto buen vivir como multidimensional, con cinco dimensiones:
Democracia, Movilidad, Inclusin, Medioambiente y Economa.
Indicador1 = a1 (Democracia) + b1 (Movilidad) + c1 (Inclusin) +
d1 (MAmbiente) + e1 (EconomaP) + Uind1
A diferencia del modelo de regresin mltiple, en este caso la dimensin Democracia, dimensin Movilidad, dimensin Inclusin, dimensin MAmbiente
y dimensin EconomaP, no son variables, sino que son los nombres que
empleamos para referirnos al conjunto de variables que comparten ese concepto (y del que realmente son expresin). Esos grupos de variables son, como
ya sabemos, los que definen el factor (o ndice segn objetivo del investigador). En ocasiones los factores que van a representar grupos de variables, no
son conocidos, sino que deben de ser estimados empricamente. En el caso
112
de la explicacin del Indicador 1 anterior, las cinco dimensiones son denominadas factores comunes. De hecho, todos los indicadores (o variables) que
se consideran en el anlisis factorial pueden ser expresados como funciones
de todos los factores, con un peso mayor o menor de cada uno de ellos.
Indicador1 = a1 (Democracia) + b1 (Movilidad) + c1 (Inclusin) +
Indicador 2 = a2 (Democracia) + b2 (Movilidad) + c2 (Inclusin) +
Indicador 3 = a3 (Democracia) + b3 (Movilidad) + c3 (Inclusin) +
Y as hasta el indicador n, cuando en el anlisis se incluyen n indicadores (o
variables observadas)
Indicador n = an (Democracia) + bn (Movilidad) + cn (Inclusin) +
dn (MAmbiente) + en (EconomaP) + Uindn
La letra U en la ecuacin se denomina factor nico, y representa aquella
parte de la variabilidad que se observa en el Indicador (o variable) que no
puede ser explicada por los factores comunes. Con carcter general la ecuacin anterior puede expresarse de la siguiente forma.
Para una variable o indicador I
Ii = Ai1F1 + Ai2F2 + Ai3F3 .. + AikFk + Ui
Donde F son los factores comunes, la U es el factor nico y las A son los
coeficientes que combinan los k factores. Los factores nicos se asume que
no estn correlacionados entre s y que tampoco estn correlacionados con
los factores comunes.
Cuando consideramos el anlisis de componentes principales, observamos que la ecuacin anterior se gira. Si el anlisis factorial considera a los
indicadores o variables observadas como el resultado de una combinacin
lineal de los factores ms un error, el mtodo de componentes principales
considera los componentes como una combinacin lineal de los indicadores
o variables observadas.
Al igual que los indicadores (o variables) pueden expresarse como combinacin lineal de los factores, los componentes son estimados empricamente
desde estos mismos indicadores (o variables observadas). En ese sentido la estimacin de los componentes como combinacin lineal de una serie de variables
se notara de la siguiente forma. Tomando, por ejemplo, la dimensin poltica,
113
esta sera el resultado de la combinacin lineal entre las variables que se

incluyen en el anlisis.
Democracia = b1 (Indicador 1) + b2 (Indicador 2) + + bn (Indicador n)
donde las b son los coeficientes que relacionan los indicadores (variables) con
el factor. En principio, es posible que todas las variables contribuyan al componente poltico en un mayor o menor grado, sin embargo, por lo general se
espera que sea un conjunto de variables las que mayor impacto (b) tengan en
dicho componente. La notacin para estimar un componente j, (Fj),
Fj = Wj1I1 + Wj2I2 + .+ WjnIn
donde las W son llamadas puntuaciones factoriales, y n expresa el nmero de
variables o indicadores.
Tal y como podemos apreciar, los factores son el resultado de combinaciones lineales entre los indicadores (variables observadas), y viceversa, es factible explicar la varianza de los indicadores (variables) mediante combinaciones lineales de los componentes o factores.
4.2. DIAGNSTICOS DE PERTINENCIA DEL ANLISIS FACTORIAL
Previamente a la realizacin de un anlisis factorial, es importante evaluar
primero la pertinencia de este tipo de anlisis y, segundo, el grado de ajuste
de la solucin (nmero de factores y rotacin) que se adopte. El grfico
siguiente muestra la secuencia seguida durante el anlisis factorial. Desde la
exploracin de la matriz de correlacin o covarianzas hasta el testado de las
soluciones propuestas.
Las covarianzas se expresan normalmente en forma de matriz, por lo que
el proceso consiste en descomponer13 una matriz de covarianzas observadas
en dos matrices: una matriz de covarianzas propuesta por el modelo de factores (reproducida), y una segunda que contiene los errores (diferencias entre
covarianzas observadas y propuestas por el modelo). Sus diagonales son,
precisamente, la comunalidad (covarianzas reproducidas) y la unicidad (errores en las covarianzas). En ese sentido, la ecuacin bsica del anlisis factorial es
Covarianzas observadas = Covarianzas entre factores +
Error de las covarianzas
13. Tanto el mtodo de componentes principales, como el de mxima verosimilitud, al igual que
otros empleados en el anlisis factorial, son mtodos para descomponer una matriz de
correlacin o de covarianza, desde la presuncin de asociacin (sin dependencia).
114
Es decir, que la covariacin observada es consecuencia de la influencia

de los factores, ms un error aleatorio.
Cuadro Secuencia
de un anlisis
factorial

0DWUL]GHFRUUHODFLRQHVRULJLQDO0RGHORIDFWRULDO
([WUDFFLyQ
5HSURGXFFLyQ
&RPSDUDFLyQ

En la fase (1) se evala la magnitud y relacin entre los diferentes coeficien de

correlacin.

As
mismo,
se comprueba

que no es
una matriz
identidad.
tes
En la fase (2)
de cada
conse se comprueba

la comunalidad

variable,

como

cuencia de la solucin
factorial
elegida.
En
la
fase
(3)
se
reproduce
la
matriz

de correlacin
desde
el
modelo
factorial
elegido.
En
la
fase
(4),
tras
compa

rar la matriz original de correlaciones y la reproducida, obtenemos los resi

duales. Unos residuales elevados en algn par de correlaciones indicarn que

la solucin factorial puede no ser adecuada para ellos. As mismo, dar ori a estimar

coeficientes

KMO,
CAM o la matriz
y coefi

gen
de ajuste
como
AIC. Veamos

en
detalle
seguidamente.

cientes
este proceso
ms
Como sabemos, el concepto de factor implica que un conjunto de variables

son la expresin de una dimensin latente. Por ello, los presupuestos del mode

lo postulan
que las variables
que expresan un
factor deberan
de estar altamen

ellas.

Si la correlacin

es
excesi-
te correlacionadas
entre
entre las variables
baja, entonces

podramos

vamente
difcilmente
plantear
que son
la expresin

latente.

asimismo,

la relacin
entre
las variables

que
de una realidad
Pero

115
forman un grupo (factor) y las dems debera mostrar una correlacin baja.
En definitiva, se espera existan clsteres de variables altamente relacionadas
entre s, y muy poco con las dems. Por ello, el anlisis factorial se ocupa de
descomponer la matriz de covarianza. La covarianza y la correlacin son similares: la correlacin es, en esencia, una covariacin cuando las variables
estn normalizadas. Uno de los motivos para emplear la matriz de correlaciones y no la de covarianzas es para reducir el impacto de emplear variables
con escalas muy diferentes. La correlacin entre ingresos y edad es fcilmente comparable con la correlacin entre otras dos variables con rango de
1 a 10, por ejemplo. As, la matriz de correlaciones es til cuando las variables estn medidas en diferentes escalas, mientras que la matriz de covarianzas es preferible cuando el anlisis se va a aplicar en mltiples grupos con
diferentes varianzas en las variables consideradas.
Planteando un ejemplo, considerando lo anterior, una matriz de correlaciones como la siguiente, expresara la posibilidad de la existencia de cuatro
factores (o dimensiones) que seran los responsables de los grupos de variables
correlacionadas entre s. Esto es evidente en el caso de que las variables v1
a v12 representen una batera de variables o indicadores que intentan medir un
fenmeno o realidad social.
Matriz de correlaciones simulada
Var1
Var2
Var3
Var4
Var5
Var6
Var7
Var8
Var9
Var10
Var11
Var12
Var1 Var2
1
.9
1
.7
-.8
.9
-.7
.1
.1
.2
.2
.1
.1
-.3
.2
.2
.1
-.1
.2
.2
.1
-.2
.1
Var3
1
.9
.2
.1
.2
.1
.2
.1
.1
.2
Var4 Var5 Var6
1
.9
.7
.8
.2
.1
.3
.1
.2
1
.6
.7
.1
.2
.1
.1
.2
1
.9
.2
.1
.2
.1
.1
Var7 Var8 Var9 Var10 Var11 Var12
1
.6
.8
.7
.3
.2
1
.9
.8
.1
.1
1
.6
.2
.2
1
.7
.8
1
-.9
En este caso que empleamos para ilustrar la idea anterior hay dos aspectos
que deben advertirse. Primero, que las variables estn ordenadas en la matriz
segn su correlacin entre ellas, formando grupos. Esto no es habitual, y salvo
116
que el investigador decida construir la matriz con esa intencin (introduciendo en el anlisis las variables en un orden que forme grupos entre las variables
que cree estn relacionadas) lo ms frecuente es que las variables estn desordenadas de modo que los grupos que forman son ms difciles de apreciar.
Lo segundo, es que los coeficientes no acostumbran a ser tan diferenciados
en su magnitud entre altos y bajos. Con frecuencia, alguna de las variables
de un grupo est relacionada con un coeficiente de correlacin significativo
con alguna de las variables de otro grupo. Es decir, que parte de la variabilidad de una variable expresa un factor, y otra parte de su variabilidad expresa otro (u otros) factores.
En la investigacin social es bastante frecuente encontrarnos con la situacin donde una variable expresa varias dimensiones. Es en otras disciplinas,
como la psicometra, donde el nfasis se pone en que una variable o indicador
exprese un nico factor o dimensin.
Por ello, una de las primeras acciones al plantear hacer un anlisis factorial consiste en examinar la matriz de correlaciones entre las variables que
van a formar parte del anlisis.
Vamos seguidamente a considerar otro ejemplo donde los casos son los
individuos que responden a una encuesta de opinin pblica. Los datos proceden del barmetro del Centro de Investigaciones Sociolgicas, Estudio 3021
de abril de 2014. Las variables recogen las actividades de participacin no convencional que han desarrollado los entrevistados.
V1 'Comprar ciertos productos por razones polticas, ticas o para favorecer el medio ambiente'
V2 'Dejar de comprar o boicotear ciertos productos por razones polticas,
ticas o para favorecer el medio ambiente'
V3 'Participar en una huelga'
V4 'Asistir a una manifestacin'
V5 'Asistir a una reunin o mitin poltico'
V6 'Contactar o intentar contactar con un/a poltico/a para expresarle sus
opiniones'
V7 'Donar o recaudar fondos para una actividad social o poltica'
V8 'Contactar o comparecer ante los medios de comunicacin para expresar sus opiniones'
V9 'Participar en un blog, foro o grupo de discusin poltica en Internet'
V10 'Firmar una peticin/recogida de firmas'
La matriz de correlaciones siguiente expresa las relaciones entre las variables anteriores.
117
Matriz de correlaciones: variables de participacin social

V1
V2
V3
V4
V5
V6
V7
V8
V1
V2
0,754
V3
0,297 0,296
V4
0,333 0,328 0,715
V5
0,246 0,247 0,339 0,406
V6
0,268 0,243 0,279 0,304
0,47
V7
0,367 0,342 0,261 0,327 0,298 0,351
V8
0,315 0,294 0,324 0,312 0,345 0,521 0,302
V9
V10
0,293 0,288 0,322 0,335 0,281 0,406 0,258

0,381 0,347 0,405 0,462 0,292 0,322 0,429
0,48
0,31
V9
V10
1
0,33
1
1
1
1
1
Se observan tres agrupaciones de variables con coeficientes de correlacin

elevados (entre ellas) y con coeficientes de correlacin ms reducidos con
las dems variables. Como podemos apreciar, la magnitud de los coeficientes est lejos de ser tan elevados y tan homogneos como los expuestos anteriormente a modo de ejemplo. Con carcter general, debera de apreciarse
grupos de variables con una elevada correlacin entre ellas, y simultneamente estas variables deberan demostrar una correlacin dbil con las dems
variables. Las agrupaciones de variables mostraran una elevada correlacin
entre ellas (definiendo un factor), y muy baja con las variables que definen un
factor diferente.
En trminos estadsticos, podemos plantear una hiptesis nula segn la
cual la diagonal principal de la matriz de correlacin estara formada por unos,
mientras que el resto de los trminos fuera de la diagonal seran cero. En
definitiva, se trata de comprobar que no nos encontramos ante una matriz identidad, en la medida que este tipo de matriz excluira cualquier posibilidad de
plantear al existencia de factores. La prueba estadstica para comprobar que
no se trata de una matriz identidad exige como requisito que los datos formen
distribucin conjunta multivariada normal. El test de esfericidad (basado en
una transformacin chi-cuadrado del determinante de la matriz de correlacin) de bartlett nos ofrece poder comprobar la hiptesis nula que afirma
que la matriz de correlacin pueda ser una matriz identidad. Cuando el coeficiente Chi-cuadrado del test de esfericidad es elevado, y la significacin
118
asociada es baja podemos rechazar la hiptesis de que la matriz de correlacin sea una matriz identidad. En el caso de que el coeficiente Chi-cuadrado de la prueba de esfericidad sea excesivamente bajo, cabe plantearse abandonar la idea de efectuar un anlisis factorial de ese conjunto de variables.
KMO y prueba de Bartlett
Medida de adecuacin muestral de Kaiser-Meyer-Olkin.
Prueba de esfericidad de bartlett
Chi-cuadrado aproximado
gl
,819
8589,326
45
Sig.
,000
Tal y como se observa para el caso que nos ocupa, el test de bartlett ofrece
un coeficiente chi-cuadrado de 8589.326 y una significacin de 0.000. En
ese sentido podemos rechazar la hiptesis nula que afirma que la matriz de
correlacin anterior pueda ser en realidad una matriz identidad.
Otro indicador de la fuerza de relacin entre las variables es el coeficiente de correlacin parcial. Cuando todas las variables comparten factores comunes, la correlacin parcial entre pares de variables debera de ser baja cuanto se suprimen los efectos lineales de las dems variables. En definitiva, la
correlacin parcial es una estimacin de la correlacin entre los factores nicos. Estas correlaciones deberan de ser prximas a cero para poder cumplir
las presunciones que habamos planteado. Recordemos que se afirmaba que
no existe correlacin entre los factores nicos.
Una primera aproximacin para emplear la informacin que aporta la
correlacin parcial es comparar la matriz de correlaciones parciales con la
matriz de correlaciones observadas. Si la suma de los coeficientes de correlacin parcial al cuadrado (entre todos los pares de variables) es muy baja,
cuando se la compara con la suma de los coeficientes de correlacin observada al cuadrado, el coeficiente ser igual a 1. Es el denominado coeficiente Kaiser-Meyer-Olkin (KMO) de adecuacin muestral. El coeficiente KMO
expresa el sumatorio de correlaciones observadas al cuadrado, divididas por el
sumatorio de las correlaciones observadas al cuadrado ms el sumatorio de
correlaciones parciales al cuadrado.
KMO =
S S r2ij
ij
S S r ij + S S a2ij
ij
ij
119
Donde rij es el coeficiente de correlacin simple entre las variables i y j, y aij

es el coeficiente de correlacin parcial entre las variables i y j. Valores bajos
del coeficiente KMO indicaran que puede no ser una buena idea efectuar un
anlisis factorial, dado que la correlacin entre pares de variables no puede
ser bien explicada por las otras variables. Como orientacin de los valores
que alcanza el coeficiente KMO (Kaiser, 1974), se entiende que coeficientes entre 0.90 y 1.0 sera maravilloso, de 0.80 hasta 0.89 puede considerarse
meritorio, mientras que 0.70 hasta 0.79 puede considerarse aceptable y 0.60
a 0.69 mediocre. Un coeficiente de 0.50 hasta 0.59 podra considerarse insuficiente, y ya por debajo de 0.49 sera inaceptable.
En el caso de la participacin social que estamos considerando, el coeficiente de KMO es de .81, y podemos considerarlo como bastante bueno. En
ese sentido, podemos continuar planteando la idea de que exista una lgica
dimensional detrs de la disposicin a la participacin que muestran los
entrevistados.
Al igual que se calcula un coeficiente para todos los pares de variables,
es tambin posible calcular el coeficiente para cada variable individualmente.
Este coeficiente se denomina Coeficiente de Adecuacin Muestral (MSA por
sus siglas en ingls).
S r2ij
CAM =
ij
S r2ij + S a2ij
ij
ij
Para ello, en la suma de cuadrados solamente se incluyen los coeficientes de

correlacin que incorporan la variable en consideracin, como parte del par
de variables. Los coeficientes de adecuacin muestral se presentan en la diagonal de la matriz AIC. Nuevamente valores razonablemente elevados son convenientes para poder efectuar un anlisis factorial. Precisamente, en el caso
de variables con coeficiente excesivamente bajo, podra considerarse la idea
de suprimirlas del anlisis factorial.
As mismo, otra estrategia posible para usar la informacin que aporta el
examen de la correlacin parcial, es el negativo del coeficiente de correlacin parcial, que se denomina correlacin anti-imagen, o AIC. La matriz antiimagen es una buena indicacin para testar si es apropiado o no un anlisis
factorial. Si en la matriz (fuera de la diagonal) existe un nmero excesivo de
coeficientes elevados, habra nuevamente que abandonar la idea de efectuar un
anlisis factorial.
120
Matriz correlacin anti-imagen
V1
V2
V3
V4
V5
V6
V7
V8
V9
V10
V1
,736a
-0,682
-0,006
-0,026
0,006
-0,02
-0,094
-0,057
-0,023
-0,102
V2
,730a
-0,028
-0,031
-0,036
0,026
-0,06
-0,026
-0,051
-0,022
V3
V4
,775a
-0,603 ,777a
-0,029 -0,176
0,003 0,012
0,035 -0,068
-0,086 0,018
-0,052 -0,06
-0,08 -0,171
V5
,883a
-0,301
-0,068
-0,056
-0,004
-0,008
V6
V7
V8
V9
V10
,834a
-0,132
,909a
-0,318 -0,046
,860a
-0,147 -4,83E-05 -0,274 ,900a
-0,059 -0,237 -0,021 -0,087 ,914a
a. Medida de adecuacin muestral
Podemos observar en la diagonal valores elevados de KMO para cada variable, oscilando entre .73 (aceptable) y .90 (meritorio). Por la magnitud de los
coeficientes de cada variable, no parece necesario retirar ninguna variable
del anlisis. Asimismo, el estudio de la matriz anti-imagen nos permite comprobar que los coeficientes son en general muy bajos, con alguno muy elevado, como entre V1 y V2, con un coeficiente de -0.6. De hecho la KMO de
V1 y V2 son las ms bajas de la diagonal. Es el momento de determinar la
lectura terica de las dos variables (comprar o no comprar productos), que
expresan un cruce entre sociedad de consumo y posicionamiento ideolgico
y social. De hecho, la tercera variable en correlacin con ellas se refiere al
hecho de donar (dinero) a formaciones de orientacin poltica. El analista debe
incorporar la lectura al resto del anlisis, sabiendo que el posible factor este
contaminado por aspectos diferentes a la participacin social, como es la orientacin hacia el consumo.
Otra referencia a considerar es el coeficiente de correlacin mltiple al
cuadrado entre una variable y todas las dems. Es un buen indicador de la
fuerza de la asociacin lineal entre variables. Esos valores se mostrarn bajo
la columna etiquetada Comunalidades. Si el mtodo de extraccin es el de
Componentes Principales, al inicio del anlisis a cada variable se le concede una comunalidad de 1. Es tras la extraccin que se determinar la comunalidad de cada variable en el contexto de la estructura factorial estimada. Aquellas variables con coeficientes de comunalidad bajos, (R2 mltiple) seran
buenas candidatas para ser eliminadas, en el proceso de optimizar la relacin
entre factores y variables.
121
En el caso que estamos considerando, es la variable que recoge la experiencia, o la intencin, de Donar dinero a una organizacin poltica la que
muestra una comunalidad menor (.38). Es decir, una menor relacin lineal
con las dems variables. No obstante, la cuanta de esta comunalidad no es
decisoria por s misma para excluir la variable del anlisis.
Comunalidades
Inicial Extraccin
Comprar ciertos productos por razones polticas, ticas o
para favorecer el medio ambiente
1,000
,840
Dejar de comprar o boicotear ciertos productos por razones

polticas, ticas o para favorecer el medio ambiente
1,000
,826
Participar en una huelga
1,000
,797
Asistir a una manifestacin
1,000
,830
Asistir a una reunin o mitin poltico
1,000
,468
Contactar o intentar contactar con un/a poltico/a para

expresarle sus opiniones
1,000
,703
Donar o recaudar fondos para una actividad social o poltica 1,000
,389
Contactar o comparecer ante los medios de comunicacin

para expresar sus opiniones
1,000
,639
Participar en un blog, foro o grupo de discusin poltica

en Internet
1,000
,485
Firmar una peticin/recogida de firmas
1,000
,485
Mtodo de extraccin: Anlisis de Componentes principales.
Todos estos procedimientos que hemos considerado estn orientados a determinar la consistencia entre la estructura de los datos y la estructura factorial
(estructura latente) que proponemos para ella. Como hemos podido comprobar, aportan informacin sustantiva que va ms all de la estadstica. Los
coeficientes deben orientarnos sobre las decisiones que deben tomarse acerca de la inclusin o exclusin de variables en el anlisis, e incluso sugerir
ideas sobre la posible contaminacin de otros significados en la varianza
recogida por las variables, diferentes a los que pretenda la intencin original
de medicin.
122
4.3. LA ESTRUCTURA FACTORIAL

Una segunda labor importante es, partiendo de estos grupos de variables que
se encuentran altamente correlacionadas entre s, determinar la estructura de
factores que mejor se ajusta sobre ellas. En este caso, establecer de forma emprica qu estructura factorial, y qu relacin entre factores y variables, depende
de lo que se conoce como mtodos de extraccin de los factores.
Existen varios mtodos estadsticos y matemticos para extraer soluciones factoriales de una matriz de correlaciones. Estos mtodos se diferencian
sobre todo por el criterio que emplean para definir un buen ajuste, entre los
factores comunes y las variables correlacionadas. El mtodo que se emplea
por defecto en varios programas estadsticos, como el SPSS, (es decir, el
mtodo que se utiliza si no se indica nada al respecto), es el de Componentes
Principales. En el anlisis de componentes principales, se forman combinaciones lineales entre las variables observadas. El primer componente principal es la combinacin que da cuenta de la mayor cantidad de varianza total.
El segundo componente principal da cuenta de la segunda mayor cantidad de
varianza, y no est correlacionado con el primer componente estimado y as
sucesivamente se van estimado componentes que van explicando cada vez partes ms pequeas de la varianza total, y que adems no estn correlacionados
entre ellos.
Es posible computar tantos componentes principales como variables haya.
Si se utilizan todos los componentes principales, cada una de las variables
est exactamente representada por ellos. Sin embargo, no habramos producido ninguna simplificacin dado que tendramos tantos factores como variables observadas. Asimismo, cuando todos los componentes principales estn
incluidos, en la medida que ellos dan cuenta de toda la varianza, ya no habra
necesidad de lo que denominamos como factor nico, que en definitiva expresa la varianza no explicada de cada variable. Se explica esto anterior para
una mayor comprensin del funcionamiento de la lgica de componentes
principales. En este caso, lo habitual es conservar en el anlisis como solucin aquellos factores que cumplan una serie de requisitos (por ejemplo, un
porcentaje significativo de varianza total explicada). Como consecuencia quedar una parte de la varianza total (y de cada una de las variables) sin explicar,
dado que se efecta una seleccin de factores.
En el caso del mtodo de extraccin basado en Componentes Principales,
al iniciar el proceso la proporcin de varianza explicada por los factores comunes, (comunalidad de la variable), es 1 para todas las variables. En general, el
anlisis de Componentes Principales es una tcnica diferenciada del anlisis
factorial. Es decir, puede ser utilizada cuando se desea obtener combinaciones
123
lineales no correlacionadas, a partir de las variables observadas. Lo que hace

en definitiva es transformar un conjunto de variables correlacionadas en un
conjunto ms pequeo de nuevas variables no correlacionadas (componentes
principales). En el anlisis factorial, en la actualidad, el mtodo de extraccin ms frecuente es el de componentes principales. En este caso, integrado como mtodo de extraccin en el anlisis factorial, tiene un empleo especial en la determinacin de ndices mediante mtodos multivariantes.
No obstante, existen otras estrategias alternativas para estimar los factores. Como ya advertamos, su diferencia fundamental es lo que se considera
un buen ajuste. brevemente, el mtodo de Factorizacin de Ejes Principales,
procede de forma muy parecida al anlisis de Componentes Principales,
excepto que en la matriz de correlacin la diagonal es sustituida por estimados de las comunalidades. En un primer paso, se emplean los coeficientes de
correlacin mltiple al cuadrado, como estimacin inicial de las comunalidades. basndose en ello se extraen un nmero de factores. Se vuelven a
estimar las comunidades a partir de las cargas factoriales, y los factores son
extrados con la nueva estimacin de comunalidad sustituyendo a la anterior.
ste proceso contina hasta que dejan de producirse cambios significativos
en la comunalidades. El Mtodo de Mnimos Cuadrados No Ponderados
produce, para un nmero fijo de factores, una matriz factorial que minimiza
la suma de las diferencias al cuadrado entre las matrices de correlacin
observadas y la matriz de correlacin reproducida (ignorando la diagonal).
El Mtodo de Mnimos Cuadrados Generalizados minimiza la diferencia anterior, sin embargo, las correlaciones son ponderadas de forma inversa a la unicidad de cada variable. Esto es, las correlaciones que implican las variables
con una elevada unicidad reciben un peso menor que las correlaciones que
implican variables con baja unicidad. El mtodo de Mxima Verosimilitud
produce una estimacin de aquellos parmetros que muestran una mayor probabilidad de haber producido la matriz de correlacin observada, si la muestra procediese de una distribucin multivariada normal. Nuevamente las correlaciones son ponderadas por la inversa de la unicidad de las variables, mediante un algoritmo iterativo. El mtodo Alfa considera que las variables que
estamos empleando en el anlisis son realmente una muestra de las variables
potenciales. Mediante este procedimiento se intenta maximizar la fiabilidad
de los factores. Con este mtodo los autovalores ya no se pueden obtener como
las suma de las cargas factoriales al cuadrado, y las comunalidades de cada
variable no se determinan mediante la suma del cuadrado de las cargas factoriales en cada factor. Una exposicin ms extensa sobre los diferentes mtodos de extraccin puede encontrarse en Harman (1976); Mardia, Kent, y bibby
(1979) o Rencher (1998, 2002).
124
Son muchos los mtodos alternativos disponibles para explorar la estructura (clsteres) de variables y proponer una reduccin significativa (tanto tericamente como empricamente) de las variables o indicadores. No obstante,
adems de las referencias estadsticas, es esencial que el criterio fundamental
que dirija la interpretacin de la solucin factorial sea de carcter terico.
No obstante, adems de la vertiente estadstica y las diferentes concepciones de bondad de ajuste, un aspecto esencial es determinar cuntos factores
necesitamos para representar los datos. Para ayudar a tomar esa decisin podemos considerar varios aspectos de tipo estadstico y terico. Recordando siempre que el significado terico es el ms sustantivo, el estadstico es simplemente instrumental.
Desde el punto de vista estadstico, en el momento de decidir cules son
los factores, es frecuente examinar el porcentaje de la varianza total explicada por cada factor. La varianza total es la suma de la varianza de todas las
variables. Si en un anlisis tenemos 20 variables, la varianza total sera igual
a 20, dado que la varianza de cada una de las variables es 1. Para que sea ms
comprensible la lectura, tanto las variables como los factores se expresan de
forma estandarizada, con una media de cero y desviacin tpica de uno. El total
de la varianza explicada por cada factor aparece en la columna como autovalores. En ella se observa la varianza explicada que se le puede atribuir a cada
factor. La ltima columna, muestra el porcentaje acumulado de la varianza
explicada por cada factor, sumada con la varianza explicada de los que le
preceden en la tabla. Normalmente los factores aparecen ordenados segn la
cantidad de varianza que explican.
Varianza total explicada
Componente
Autovalores iniciales
Total
% de la
%
varianza acumulado
Sumas de las saturaciones

al cuadrado de la extraccin
Total
% de la
%
varianza acumulado
4,172
41,724
41,724
4,172
41,724
41,724
1,212
12,119
53,842
1,212
12,119
53,842
1,076
10,761
64,604
1,076
10,761
64,604
,804
8,035
72,639
,734
7,341
79,979
,536
5,361
85,340
,517
5,173
90,513
Componente
Total
% de la
%
varianza acumulado
,430
4,298
94,811
,275
2,752
97,563
10
,244
2,437
100,000
125

Total
% de la
%
varianza acumulado
En primer lugar aparece la varianza explicada (autovalores iniciales) por cada

factor tras la extraccin. Como podemos ver en el caso que nos ocupa de la
participacin, el primer factor da cuenta del 41,7% del total de la varianza,
el segundo factor del 12,1% y el tercero del 10,7%. En conjunto, los tres factores explican el 64,6% de la varianza total. Son datos que se repiten en las
columnas bajo la cabecera Sumas de las saturaciones al cuadrado de la
extraccin.
Hemos podido observar como el nmero de factores que permanecen en
el anlisis es objeto de una cierta controversia. En definitiva, desde el punto
de vista estadstico, la idea es dejar fuera de la estructura factorial el mnimo
posible de variacin aleatoria. No obstante se han propuesto algunas reglas
orientativas sobre cundo parar de extraer factores como las siguientes (Dunteman, 1989: 22-3) (box 6).
El criterio basado en Kaiser. Consiste en suprimir todos los factores con
un valor eigen inferior a 1. Como sabemos, la principal razn es que no tiene
sentido estadstico incluir un factor que explica menos que un indicador aislado. Partiendo de la varianza explicada, se han propuesto diferentes procedimientos para determinar el nmero de factores que deben ser empleados en
un modelo. Algunos criterios sugieren que solamente aquellos factores que
den cuenta de una varianza total mayor de 1 (autovalor > 1) deberan de ser
tenidos en cuenta. La razn estadstica es que aquellos factores con una varianza menor de 1 no son mejores que una simple variable, dado que cada variable tiene una varianza de 1. Pero esta es la lgica de la simplificacin. Es
evidente que esa varianza explicada por un factor, y que es menor de 1, tiene
un origen y una composicin diferente (la varianza total explicada) que la
propia de una variable. Como sistema por defecto, el programa SPSS conserva aquellos factores con una varianza explicada superior a uno. Sin embargo,
la solucin de la simplificacin no siempre es una buena opcin, al olvidar
el significado sustantivo que pueda reflejar un factor que explica poca varian-
126
za. En algunos casos, puede expresar la huella dbil (consecuencia de no ser

considerados originariamente en el diseo) de factores (variables latentes) no
previstos, pero tericamente significativos.
El uso del diagrama de sedimentacin. Este mtodo fue propuesto por
Cattell y la recomendacin es mantener los factores cuyos coeficientes caen
abruptamente y eliminar aquellos que permanecen en un nivel semejante. Para
ello se grafica de forma secuenciada la varianza explicada por cada factor
(autovalores). En este tipo de grfico se denomina de sedimentacin y por
lo general se aprecia algo parecido a una montaa, donde a partir de cierto
momento la diferencia (en la varianza total explicada) entre los factores sucesivos es cada vez menor, dando la imagen de una ladera. Se entiende que la
solucin correcta, es decir el nmero de factores a conservar, son aquellos que
muestran saltos importantes entre la varianza que explican y la explicada por
el siguiente factor. Cuando la varianza explicada por los factores siguientes es
poco significativa con respecto a los anteriores, se entiende que estos factores
no son relevantes estadsticamente.
Considerando el ejemplo de la participacin, podemos observar como el
primer factor (denominado como componente en el grfico), explica mucha
ms varianza que los dems, apareciendo muy distanciado. El segundo, an
con varianza total explicada superior a 1 est bastante ms abajo y algo prximo al tercer factor, que tambin explica por encima de 1. A partir del cuarto
factor podemos considerar que comienza la ladera con varianzas totales
explicadas muy prximas entre s.

127
El criterio de varianza explicada. En algunos casos, los investigadores

mantienen en el anlisis los factores que acumulan una varianza total explicada entre el 80% y el 90%.
El criterio de Joliffe. Consiste en eliminar los factores con un valor eigen
por debajo del 0.70. La aplicacin de esta regla puede hacer que se mantengan en el anlisis casi el doble de factores que aplicando el criterio de Kaiser.
En la medida que la simplificacin es relevante en la mayora de los casos
esta regla es usada menos frecuentemente.
El criterio de comprensibilidad. Desde el punto de vista terico y analtico, deberan retenerse aquellos factores que tienen un sentido terico evidente. Los criterios de significado terico y analtico se impondran sobre los
estrictamente estadsticos.
Sin embargo, las orientaciones estadsticas son tiles, pero no deben ni
pueden suprimir la responsabilidad que tiene el investigador de decidir.
Como sabemos, los dos objetivos principales del anlisis factorial son simplificar, y mostrar una estructura con sentido terico cuando la haya. La eleccin del autovalor o varianza explicada superior a 1, es un criterio estadstico,
que sigue la lgica estadstica. Sin embargo, debe primar ante todo el sentido
terico del investigador. Para ello, un aspecto muy importante es valorar la
relacin entre las variables y los factores.
4.4. LA CARGA FACTORIAL
La relacin emprica entre las variables y los factores se determina a travs
de la carga factorial. Esta se expresa en forma de matriz, donde en filas se
indican las variables y en columnas los factores. Dependiendo del mtodo de
extraccin utilizado, vara el nombre de la matriz. Si es el mtodo de ajuste es
por componentes principales, se denomina matriz de componentes. En los
otros casos, cuando se emplean mtodos diferentes, es llamada matriz factorial. Al ejecutar un anlisis factorial, se obtiene una primera solucin en la
que no se optimiza la relacin entre variables y factores. En esa solucin inicial, se expresa la relacin de cada variable con los factores que han sido elegidos (ya sea por la magnitud de su autovalor o por criterios tericos) para
permanecer en el modelo. La tabla de la pgina 126 recoge la relacin entre
variables y factores en el ejemplo que estamos desarrollando.
En esta ocasin puede ser til que recordemos la ecuacin inicial donde
se indicaba que se podan expresar cada indicador (o variables) como combinacin lineal de los factores. Es algo que se puede apreciar con claridad en
la matriz factorial. En la matriz factorial (o matriz de componentes) cada fila
contiene los coeficientes para expresar la variable estandarizada en funcin
128
Matriz de componentesa
Componente
F1
F2
F3
,711 ,122 -,556
,667 -,075 -,186
,665 ,147 -,577

,661 -,619 ,141

,648 ,280 ,375

,642 -,631 ,126

,640 ,377 ,388

en Internet
,613 ,220 ,246
Donar o recaudar fondos para una actividad social o poltica
,603 -,122 ,105
,601 ,324 ,039
Mtodo de extraccin: Anlisis de componentes principales.

a. 3 componentes extrados
de los factores. Esos coeficientes son llamados cargas factoriales, dado que
indican cuanto peso se le asigna a cada factor en su relacin con las variables.
Los factores con coeficientes ms elevados en valor absoluto expresan una
relacin ms intensa entre esa variable y el factor. Por ejemplo, la variable
asistir a una manifestacin tendra la siguiente expresin
Asistir a una manifestacin = .71 (F1) + .12 (F2) + (-.55) (F3)
El signo de la carga factorial (el coeficiente de cada factor para cada variable) en cada factor o componente es arbitrario. No lo es en la relacin entre signos, que debe conservarse, pero s su carcter positivo o negativo. En el caso
que un factor o componente contenga ms signos negativos que positivos, es
factible cambiar el signo negativo a positivo, cambiando los positivos existentes a negativos. Algunos programas, como SYSTAT, realizan ese cambio
de signos de forma automtica cuando en un factor o componente hay ms signos negativos que positivos. En ese caso, cambia los negativos a positivos y
129
viceversa. Este hecho hace que las soluciones factoriales que ofrece este programa puedan no coincidir en los signos de las cargas factoriales con las que
ofrecen otros programas.
Los factores pueden estar correlacionados entre ellos o ser independientes
entre ellos. En este segundo caso, cuando los factores estimados no estn
correlacionados entre ellos, se afirma que son ortogonales. Si los factores son
ortogonales, las cargas factoriales expresan tambin las correlaciones entre los
factores y las variables. La matriz de correlaciones entre las variables y los factores se denomina matriz de puntuacin factorial. Dependiendo del tipo de
rotacin que pidamos, obtendremos tras la rotacin una o dos matrices.
En el caso de rotacin oblicua (factores interdependientes) se obtienen
dos matrices, que se denominan matriz de estructura y matriz de configuracin. Cuando los factores son ortogonales, la matriz de estructura y la
matriz de configuracin son equivalentes y slo se produce una nica matriz
que se denomina matriz factorial.
Para efectuar una interpretacin de la matriz factorial, tanto cuando los
factores son ortogonales como cuando no lo son, podemos plantear que las
cargas factoriales son los coeficientes de regresin estandarizados en la ecuacin de regresin mltiple, donde la variable original es la dependiente y los
factores las variables independientes.
Si adems los factores no estn correlacionados, los valores de los coeficientes no dependen unos de otros. Representan la contribucin nica de cada
factor y definen la correlacin entre factor y variable.
Cuando la rotacin es oblicua, las cargas factoriales y las correlaciones
entre las variables y los factores ya no coinciden. Las cargas factoriales continan siendo los coeficientes de correlacin parcial, pero ya no coinciden con
la correlacin (entre variable y factor). Los coeficientes de correlacin se
muestran en una nueva matriz denominada matriz de estructura.
As, en la rotacin ortogonal se produce una sola matriz donde coinciden
regresin parcial y coeficientes de correlacin. En la rotacin oblicua se producen dos diferentes, la matriz de configuracin donde se recogen las cargas
factoriales y la matriz de estructura, donde se recoge la correlacin entre
factores y variables.
Para determinar cmo ajusta el modelo anterior de tres factores, y conocer cmo describe las variables originales, es posible calcular el porcentaje
de varianza de cada variable que es explicada por el modelo de tres factores.
Dado que en este ejemplo los factores no estn correlacionados, la proporcin total de varianza explicada es simplemente la suma de la proporcin de
varianza explicada por cada factor. Recordemos que la proporcin de varianza
explicada por los factores comunes determina la comunalidad de la variable.
130
Para calcular el porcentaje de varianza de una variable que viene explicada por
los factores, se eleva al cuadrado el coeficiente de correlacin entre factor y
la variable.
Varianza explicada de Participar en una huelga =
(.665)2 + (.147)2 + (-.577)2 = .44 + .02 + .33 = .79
Las comunalidades de las variables, aparecen en las estadsticas finales, tras
mantener en el anlisis el nmero deseado de factores. Las comunalidades
pueden oscilar entre cero y uno. Cero indicando que los factores comunes no
explican varianza alguna, y uno indicando que toda la varianza de la variable es explicada por los factores comunes. La varianza que no es explicada
por los factores comunes se atribuye a lo que se denomina factor nico o
tambin unicidad de la variable.
Otra estrategia para conocer en qu condiciones se est ajustando el modelo, es mediante la matriz de correlacin reproducida. Como sabemos una de
las presunciones bsicas del anlisis factorial es que la correlacin observada entre variables se debe a que comparten factores comunes. Por ello, la
correlacin calculada entre factores y las variables puede ser empleada para
estimar las correlaciones entre variables. Es decir, reproducir las correlaciones
sobre las que se ha construido el modelo.
4.5. DIAGNSTICO: LA MATRIZ DE CORRELACIONES ESTIMADAS (REPRODUCIDAS)
Como sabemos, una vez especificado y ajustado el modelo de factores, podemos reproducir las correlaciones o covarianzas entre variables. En otras palabras, si la solucin factorial ha logrado representar adecuadamente a la estructura de datos original (matriz de correlacin), la que se genere desde el modelo debera parecerse mucho a la original. Para calcular y estimar las correlaciones entre las variables a partir de los factores, tomemos por ejemplo las
variables A y b. Se multiplica el coeficiente (su carga) de la variable A por
el coeficiente (carga) de la variable b en el primer factor, a ese resultado se
le suma el producto de la carga de la variable A por la carga de la variable b
en el segundo factor, y se le suma el producto de la carga de la variable A
por la carga de la variable b en el tercer factor. La suma de productos es igual
a la correlacin estimada entre las dos variables. Es decir, desde el modelo
(que simplifica la matriz de correlaciones observadas) se recalculan y reproduce la matriz de correlaciones que le dio origen.
Es posible solicitar que los programas nos impriman la matriz reproducida de correlaciones. A partir de ese momento, comparando la matriz de correlaciones observadas con la matriz reproducida de correlaciones, podemos obtener un residual para cada correlacin comparada. Los residuales (es decir la
131
diferencia entre la correlacin original y la reproducida) se muestran en la

matriz de residuales, mientras que las correlaciones estimadas se expresan en
la matriz de correlaciones reproducidas. En la diagonal aparecen las comunalidades. Los datos siguientes corresponden con el barmetro de abril de
2014 del CIS, en sus preguntas sobre participacin.
Correlaciones reproducidas
V1
V2
V3
V4
V5
V6
V7
V8
V9
V10
V1
,840a
0,832
0,267
0,317
0,202
0,244
0,488
0,308
0,304
0,461
V2
V3
V4
V5
V6
V7
V8
V9
V10
,826a
0,262
0,31
0,186
0,222
0,477
0,287
0,286
0,452
,797a
0,812
0,425
0,257
0,323
0,256
0,298
0,54
,830a
0,446
0,285
0,356
0,287
0,326
0,569
,468a
0,522
0,327
0,495
0,449
0,369
,703a
0,38
0,666
0,571
0,326
,389a
0,396
0,368
0,392
,639a
0,551 ,485a
0,342 0,346 ,485a
-0,03
-0,144
-0,165
-0,004
-0,093
-0,11
0,038
-0,075
-0,031 -0,019
Residualb
V1
V2
V3
V4
V5
V6
V7
V8
V9
V10
-0,078
0,029
0,016
0,044
0,024
-0,122
0,006
-0,01
-0,08
0,034
0,018
0,061
0,021
-0,135
0,007
0,003
-0,105
-0,097
-0,087 -0,039
0,021 0,018
-0,062 -0,029
0,067 0,025
0,024 0,009
-0,135 -0,107
-0,053
-0,028
-0,15
-0,168
-0,077

a. Comunalidades reproducidas
b. Los residuos se calculan entre las correlaciones observadas y reproducidas. Hay 21
(46,0%) residuales no redundantes con valores absolutos mayores que 0,05.
Debajo de la matriz aparece un mensaje indicando cuantos residuales son mayores de 0.05 en valor absoluto. As por ejemplo, hay un 46% de residuales que
132
son mayores de 0.05. En ese sentido, tanto la cantidad de residuales mayores

de 0.05 como la magnitud de los residuales indican en qu grado el modelo
ajustado reproduce las correlaciones observadas. Si los residuales son grandes,
el modelo no ajusta suficientemente bien y posiblemente deba ser reconsiderado.
Especialmente, puede evaluarse la relacin por pares entre las variables
para identificar aquellas que muestran una relacin ms dbil. En definitiva,
todos estos procedimientos ayudan a conocer ms en profundidad el comportamiento de las variables e indicadores que se estn considerando en el
anlisis.
4.6. LAS ROTACIONES
Como hemos comentado anteriormente, ejecutar un anlisis factorial implica en primer lugar, calcular la matriz de correlaciones o covarianzas a partir
de la matriz de datos (casos x variables): Posteriormente, sobre dicha matriz
se efecta una primera estimacin de las cargas factoriales. Es una primera
extraccin que no tiene en consideracin la relacin terica entre variables
y factores. Es tras esta primera extraccin que el investigador puede solicitar que se optimicen determinados parmetros (imponiendo diferentes restricciones) de forma que facilite una mejor interpretacin del significado de
los factores o componentes. Por ejemplo, exigiendo que se optimicen las
cargas de cada variable en cada factor, de forma que estas sean mximas o
mnimas, pero no intermedias. Son varios los mtodos que imponen restricciones en la solucin factorial inicial que se extrae. Este proceso de imponer
nuevas restricciones que refinen el resultado para una mejor comprensin
terica se denominan rotaciones. Entre los criterios ms citados para la rotacin destaca los propuestos por Thurstone. As, para k variables y F factores
o componentes, a) cada factor debera tener al menos F variables (tantas como
factores) con cargas prximas a cero, y b) muy pocos factores deberan tener
cargas elevadas en las mismas variables.
Las rotaciones son especialmente tiles para interpretar el significado de
los factores. Como sabemos, las rotaciones no afectan a la varianza explicada ni a la comunalidad final. Continuando con el ejemplo se puede apreciar
que, tras la rotacin, la relacin entre variables y factores permite identificar
con mayor claridad el significado de los factores. El factor 1 (o componente) est claramente relacionado con la comunicacin, el segundo con la
actividad econmica y de consumo y el tercero con una protesta ms presencial y fsica.
133
Matriz de componentes rotadosa

Componente
1

,823 ,110 ,115

,768 ,192 ,113

en Internet
,641 ,197 ,186
,574 ,065 ,366

,157 ,891 ,147

,130 ,887 ,147
Donar o recaudar fondos para una actividad social o poltica ,370 ,444 ,234
,201 ,176 ,871
,174 ,126 ,866
,273 ,385 ,512

Mtodo de rotacin: Normalizacin Varimax con Kaiser.
a. La rotacin ha convergido en 5 iteraciones.
Las rotaciones las efectan la totalidad de programas de anlisis estadstico,

siendo los mtodos ms habituales los siguientes. La rotacin Varimax, es
una rotacin ortogonal que intenta minimizar el nmero de variables que tienen una carga elevada en cada factor. Su utilidad facilita la interpretacin terica del factor o componente. La rotacin quartimax enfoca la cuestin de un
modo diferente. Intenta minimizar el nmero de factores que se requieren para
explicar cada variable o indicador. Con ello simplifica la interpretacin de las
variables o los indicadores observados. El mtodo de rotacin Equamax es
una combinacin de los dos anteriores, y persigue obtener una solucin donde
se minimice el nmero de variables con cargas elevadas en los factores y se minimicen el nmero de factores necesarios para explicar la varianza de cada una
de las variables. Existe la posibilidad de controlar ese balance al que aspira
la rotacin Equamax mediante el mtodo Orthomax. El mtodo orthomax
controla la simplificacin de variables y factores mediante el coeficiente
134
gamma. Variando su valor modifica la optimizacin desde varimax a la

optimizacin mediante quartimax. Todos estos mtodos son ortogonales,
manteniendo la independencia entre factores.
El mtodo Oblimin produce rotaciones no ortogonales. Es decir, que los
factores no son independientes entre ellos. El grado de oblicuidad (correlacin)
entre los factores viene controlado por un coeficiente. Este coeficiente es diferente segn qu programas se utilicen. As, en SYSTAT el coeficiente gamma
expresa el grado de correlacin entre factores. Con un valor de cero se permiten correlaciones moderadas, cuando el valor positivo es ms elevado se permiten correlaciones ms fuertes. En el programa SPSS el coeficiente se denomina delta. Cuando delta vale 0 la solucin es la ms oblicua. Conforme el
valor va siendo ms negativo la relacin entre factores es menos oblicua. Otra
alternativa es Promax, que facilita una rotacin oblicua y cuya ventaja esencial sobre oblimin es la rapidez de clculo en grandes bases de datos.
Las rotaciones son herramientas para el investigador, muy tiles para conocer y explorar la consistencia de las soluciones. Forman parte de las decisiones y siempre deben estar indicadas en la solucin final que se adopte. Por
ello, tras la eleccin de cuntos factores retener en el anlisis, es habitual proceder a la rotacin de los factores para optimizar su significado, gracias a
simplificar la relacin de las variables con los factores. La suma de los valores eigen (autovalores) no se ve alterada tras la rotacin, sin embargo los cambios en los ejes pueden alterar el valor eigen (autovalor) de algunos factores
y modificar sus cargas factoriales.
As, considerando el ejemplo anterior que estudiaba la estructura de la participacin, podemos observar cambios tras la rotacin. En el cuadro, en primer
lugar aparece la varianza explicada (autovalores iniciales) por cada factor tras
la extraccin. Podemos ver en el caso que nos ocupa de la participacin, que
el primer factor da cuenta del 41,7% del total de la varianza, el segundo factor del 12,1% y el tercero del 10,7%. En conjunto, los tres factores explican el
64,6% de la varianza total. Son datos que se repiten en las columnas bajo la
cabecera Sumas de las saturaciones al cuadrado de la extraccin.
En la segunda parte de la tabla, Suma de las saturaciones al cuadrado
de la rotacin, podemos observar que la varianza total explicada es la misma,
un 64,6%. Esto es as dado que el nmero de factores que se retienen continan siendo tres. Sin embargo, la varianza total explicada atribuida a cada
factor es diferente. La varianza total explicada por cada factor se ha redistribuido entre ellos, como consecuencia de las modificaciones que experimentan su carga factorial. La relacin entre variables y factores se ha modificado
y con ello la varianza que explica cada factor. El primer factor da cuenta tras
la rotacin del 23,3% del total de la varianza, el segundo factor del 20,6% y el
tercero del 20,6%.
135

Componente

Suma de las saturaciones
al cuadrado de la extraccin al cuadrado de la rotacin
Total % de la
%
Total % de la
%
Total % de la
%
varianza acumulado
varianza acumulado
varianza acumulado
1
4,172
41,724
41,724
4,172
41,724
41,724
2,331
23,314
23,314
1,212
12,119
53,842
1,212
12,119
53,842
2,065
20,651
43,965
1,076
10,761
64,604
1,076
10,761
64,604
2,064
20,639
64,604
,804
8,035
72,639
,734
7,341
79,979
,536
5,361
85,340
,517
5,173
90,513
,430
4,298
94,811
,275
2,752
97,563
10
,244
2,437
100,000
Mtodo de extraccin: Anlisis de Componentes principales
Precisamente, una de las crticas a la rotacin es que diferentes rotaciones producen diferentes cargas factoriales de las variables en los factores y con ello
pueden producir diferentes significados para los factores en los que cargan.
Tenemos que considerar que las variables permiten identificar el significado
terico del factor (en el anlisis exploratorio especialmente), por lo que el
cambio de carga de las variables influye en la posible modificacin del significado del factor. No obstante, esta volatilidad potencial puede ser controlada,
al menos en su presencia e impacto, comparando los efectos de diferentes rotaciones y el modo en que puedan afectar el significado de los factores.
Veamos seguidamente un ejemplo del empleo de las rotaciones buscando
el significado terico de la estructura factorial. Las variables siguientes analizan la confianza en instituciones en Espaa, segn el barmetro del Centro
de Investigaciones Sociolgicas, de abril de 2014. En una escala de 0 a 10, se
valoran las siguientes instituciones y actores sociales, polticos y econmicos.
'La Monarqua'
'El Gobierno'
'El Parlamento'
'El Gobierno de su comunidad autnoma'
'El Parlamento de su comunidad autnoma'
'El Tribunal Constitucional'
136
'El Defensor del Pueblo'

'Las Fuerzas Armadas'
'La polica'
'La Guardia Civil'
'Los partidos polticos'
'Las organizaciones empresariales'
'Los sindicatos'
'Los medios de comunicacin'
'La Iglesia catlica'
'El Consejo General del Poder Judicial
El estudio de los coeficientes que hemos considerado indica que es factible buscar una estructura factorial en los datos. As, el KMO es de .90 (excelente) y el test de esfericidad de bartlett indica un Chi-cuadrado de 19553,401
para una significacin de .000.
KMO y prueba de Bartlett
Medida de adecuacin muestral de Kaiser-Meyer-Olkin.
Prueba de esfericidad de bartlett
,904
Chi-cuadrado aproximado
19553,401
gl
120
Sig.
,000
Parece que es una idea sensata buscar una estructura factorial tras la valoracin de la opinin pblica de las instituciones. El anlisis, tras la extraccin
mediante componentes principales, y valor de seleccin del autovalor igual o
superior a 1 da lo siguiente.
Componente
Total
% de la
%
varianza acumulado

Total
% de la
%
varianza acumulado
7,825
48,906
48,906
7,825
48,906
48,906
1,810
11,312
60,217
1,810
11,312
60,217
1,110
6,935
67,152
1,110
6,935
67,152
,864
5,402
72,554
Componente

5
6
,664
4,151
3,216

,461
2,881
87,419
,434
2,715
90,135
10
,402
2,510
92,644
11
,323
2,019
94,663
12
,269
1,679
96,342
13
,239
1,495
97,837
14
,181
1,134
98,971
15
,107
,670
99,641
,057

,359
% de la
%
varianza acumulado
81,322
,515


de la extraccin

al cuadrado
Total
Total % de la %
varianza

acumulado

,739
4,617
77,171
16
137

84,538

100,000

Considerando
el grfico
tambin sugiere que tres compo
de sedimentacin,

nentes (factores o dimensiones) pueden ser una solucin adecuada.
138
Sin embargo, desde el punto de vista terico, la identificacin del significado de los factores es confusa al adoptar una estructura factorial de tres
componentes.
Tras la rotacin, en la matriz factorial siguiente podemos apreciar las
cargas de cada variable en cada factor. Como sabemos, esto ayuda a facilitar la interpretacin del significado terico de los factores. Observando la
siguiente matriz factorial es posible proponer algunas posibilidades.
Componente
1
El Parlamento de su comunidad autnoma
,865
,221
El Gobierno de su comunidad autnoma
,856
,201
El Parlamento
,767 ,339 ,228
El Gobierno
,751 ,432
Los partidos polticos
,595 ,168 ,486
El Tribunal Constitucional
,520 ,442 ,368
El Defensor del Pueblo
,447 ,373 ,413
La Guardia Civil
,893 ,149
La polica
,131 ,870 ,192
Las Fuerzas Armadas
,174 ,855 ,132
La Monarqua
,491 ,587
La Iglesia catlica
,428 ,527 ,174
El Consejo General del Poder judicial
,415 ,477 ,455
Los sindicatos
,167
Los medios de comunicacin
,109 ,255 ,654
Las organizaciones empresariales
,429 ,304 ,561
,835

Mtodo de rotacin: Normalizacin Varimax con Kaiser.
a. La rotacin ha convergido en 4 iteraciones.
Los factores parecen ser Democracia, Autoridad y un tercero de carcter

Social-econmico. Sin embargo, explorando una solucin de cuatro dimensiones y tras la rotacin, se aprecia una estructura ms definida. Al permitir un
139
cuarto factor, la dimensin "Autoridades" pasa a ser una de las dimensiones con
ms peso, segn la varianza total explicada. La dimensin Democracia aparece desdoblada en dos tipos diferentes. Por una parte la democracia representativa con los partidos polticos o los parlamentos y por otra, el poder judicial.
Componente
1
La Guardia Civil
,896
,162 ,137
La polica
,869 ,116 ,187 ,175
Las Fuerzas Armadas
,825 ,119 ,281
La Monarqua
,538 ,411 ,365
La Iglesia catlica
,537 ,427 ,167 ,168
El Gobierno de su comunidad autnoma
,881 ,137 ,217
El Parlamento de su comunidad autnoma
,877 ,174 ,226
El Gobierno
,387 ,674 ,390
El Parlamento
,269 ,655 ,500 ,117
Los partidos polticos
,135 ,533 ,373 ,422
El Tribunal Constitucional
,281 ,289 ,795 ,145
El Defensor del Pueblo
,225 ,234 ,738 ,207
El Consejo General del Poder judicial
,359 ,241 ,651 ,286
Los sindicatos
,112 ,324 ,778
Los medios de comunicacin
,318 ,181
,717
Las organizaciones empresariales
,288 ,391 ,312 ,518

Mtodo de rotacin: Normalizacin Varimax con Kaiser. La rotacin ha convergido en 6 iteraciones.
De hecho, la solucin de cuatro factores revela cuatro mbitos diferentes segn

los actores valorados. Una dimensin de poder directo o autoridad (Fuerzas
de orden pblico, Fuerzas armadas, Monarqua, Iglesia catlica), otro factor
de poder judicial (Tribunales), la tercera de poder poltico en una democracia (gobierno, parlamentos y partidos) y el cuarto factor socioeconmico
incluyendo el cuarto poder (los medios de comunicacin).
140
Una de las conclusiones es que la valoracin que la sociedad ha efectuado toma como criterio de referencia el poder. Otra conclusin, que la divisin de tres poderes que propusiera Montesquieu, desde el punto de vista de
la opinin pblica espaola, aparece estructurado en la prctica en cuatro, con
el poder legislativo y ejecutivo combinado en una dimensin de a) representacin, un poder referido a los responsables del b) orden (social y moral),
otro factor c) poder judicial y un cuarto con los b) poderes econmicos y
de los medios de comunicacin. En cierto sentido, implica el reconocimiento de los medios de comunicacin como actores econmicos, empresas que
buscan el beneficio econmico sobre la informacin.
La agrupacin de los actores sociales e instituciones, en este inters exploratorio, puede facilitar informacin especialmente relevante. Un ejemplo de
ello es la valoracin de la Iglesia Catlica en Chile y Argentina tras los periodos de dictadura militar en la segunda mitad del siglo XX (Alaminos, 1987;
1991). La Iglesia Catlica, en Chile, apareca agrupada con la dimensin
democrtica: universidades, partidos de la oposicin al general Pinochet, o medios de comunicacin democrticos; por el contrario, en Argentina, la opinin pblica ubicaba a la Iglesia Catlica junto a la dictadura: el ejrcito,
gobierno e instituciones antidemocrticas. Esta doble posicin de la Iglesia
Catlica segn el pas viene explicada por el diferente papel que ejerci durante la represin militar. Mientras que la jerarqua de la iglesia catlica chilena actu de forma ms protectora con los represaliados, la jerarqua argentina se aline claramente con la dictadura, dndole legitimidad y apoyo. En el
caso de Espaa, donde la Iglesia Catlica fue un factor esencial de legitimacin y apoyo a la dictadura del general Franco, an es percibida como un actor
conservador e institucional.
Como podemos apreciar, las rotaciones permiten evaluar la percepcin
social de los actores, los criterios latentes para efectuar dichas evaluaciones,
as como el modo en que forman agrupaciones con sentido terico.
Como se debati al inicio de este texto, una de las cuestiones centrales es
nombrar las realidades que puedan detectarse mediante la exploracin con el
anlisis factorial. Emplear un concepto u otro conduce a desarrollos argumentales muy diferentes, como puede apreciar el lector en los prrafos anteriores.
4.7. LAS PUNTUACIONES FACTORIALES
Como resultado del procedimiento es posible crear una nueva variable para
cada factor, donde se recojan las puntuaciones de cada caso en el factor. Recordemos que el procedimiento aspira a medir dimensiones que son expresadas de forma observable mediante indicadores y variables. El anlisis factorial es, entre otras utilidades, un procedimiento para reducir la multivaria-
141
bilidad. En ese sentido, es interesante determinar la puntuacin de cada caso

en ese factor que est expresando y resumiendo un grupo de variables con significado terico.
Una de las formulaciones matemticas que hemos empleado expresa al
factor o componente como resultado de una combinacin lineal de las variables o indicadores empleados. Esa formulacin es la que nos permite calcular la puntuacin para cada caso en cada factor. La notacin para estimar un
componente o factor j, (Fj),
Fj = Wj1I1 + Wj2I2 + .+ WjnIn
donde las W son los coeficientes de puntuaciones factoriales, y n expresa el
nmero de variables o indicadores (I).
Existen varios mtodos para estimar la puntuacin (valor) que cada caso
muestra en cada factor. Estas puntuaciones, por lo general estandarizadas,
pueden usarse en anlisis posteriores como son regresin, anlisis de varianza, discriminante y cualquier procedimiento que admita variables continuas.
Sin embargo, existen varias observaciones respecto a los mtodos para
generar dichas puntuaciones. Especialmente importante es la distincin entre
el mtodo de Componentes Principales y los dems mtodos de extraccin
de factores empleados en el anlisis factorial. Aunque el primero puede considerarse uno de los mtodos disponibles para efectuar un anlisis factorial,
ya se coment anteriormente que ambos proceden de modelos matemticos
y tericos diferentes.
Los componentes principales son combinaciones lineales ponderadas de
las variables observadas, mientras que los factores son variables latentes o no
observadas, que se piensan son responsables de las correlaciones apreciadas
entre variables observadas. En la prctica, implica que las puntuaciones que
se generan mediante diferentes mtodos (incluyendo Mxima Verosimilitud)
al efectuar el anlisis factorial estn indeterminadas, mientras que en el modelo de componentes principales las puntuaciones son nicas.
En el caso del anlisis factorial, con cualquier mtodo de extraccin que
no sea componentes principales, no se dispone de suficiente informacin para
estimar de forma nica las puntuaciones. Independientemente del mtodo de
extraccin o la realizacin o no de rotaciones, debido a que existen ms
parmetros no observados que datos observados. Este problema de la indeterminacin de las puntuaciones en el anlisis factorial ha sido bien estudiado
y documentado14.
14. Steiger (1979), Rozeboom (1982), Harman (1976), Mulaik (1972), Gnanadesikan (1977),
Mardia, Kent, y bibby (1979), Afifi, May, y Clark (2004), Clarkson y jennrich (1988) o
Dixon (1992).
142
Algunos programas facilitan una puntuacin factorial estimada mediante regresin. Sin embargo, estas no pueden considerarse en puridad estadstica una estimacin como tal. En el caso de SYSTAD, solamente permite crear
y guardar un factor con las puntuaciones cuando se utiliza el mtodo de componentes principales. No permite la opcin cuando se emplea cualquier otro
mtodo en el anlisis factorial.
Otros programas, como SPSS, ofrecen tres mtodos para estimar aproximadamente una puntuacin para cada caso en cada factor. Sin embargo, cuando se emplee el mtodo de componentes principales para la extraccin, siempre generar el valor para cada caso en el factor con este mtodo: factores
ortogonales y puntuaciones estimadas con propiedades estadsticas adecuadas. El programa impone el criterio del mtodo de componentes principales,
independientemente de que se solicite algn tipo de rotacin oblicua posterior o se seleccione otro procedimiento para calcular los valores en el factor.
En ese sentido, acta como SYSTAT cuando se emplean componentes principales.
Los mtodos de regresin pueden emplearse tambin para estimar aproximadamente los valores de cada caso en el factor. Existen muchos mtodos
alternativos (Tucker, 1971; Harman, 1967) que producen puntuaciones con
diferentes propiedades. En el caso de aplicar el mtodo de regresin en SPSS
(ajustando anteriormente con mtodos diferentes a componentes principales),
producen puntuaciones con una media de cero y varianza igual a la correlacin mltiple al cuadrado entre las puntuaciones estimadas en los factores y
los valores reales. Los factores pueden estar correlacionados incluso con una
rotacin ortogonal15. Otro mtodo que ofrece SPSS es bartlett (bartlett 1937,
1938), donde nuevamente las puntuaciones estimadas tienen una media de
cero. El procedimiento intenta minimizar la suma de cuadrados de los factores nicos. Por ltimo, la tercera opcin que permite el programa es AndersonRubin, que partiendo de una modificacin del mtodo anterior, estima puntuaciones con una media de cero, una desviacin tpica de 1 y los factores
son ortogonales. Una informacin ms detallada puede encontrarse en Harman
(1976) o Lawley and Maxwell (1971). En ocasiones, la media de cero no es
15. Aunque la correlacin entre dos factores se defina como cero (ortogonales) desde el plano
terico, el clculo matricial no siempre permite esa situacin. Equivale a cuando en una
regresin de una variable y sobre una variable x se exige que el error ey no est
correlacionado con la variable y, (y = a + bx + ey) (ecuacin a). Si ese criterio se respeta, ya no puede ser satisfecho y cumplido en la regresin de x sobre y, (x = a + by
+ ex) (ecuacin b). Las restricciones en una ecuacin (a) condiciona a la otra (b) y pone
en contradiccin la exigencia terica y la prctica.
143
exacta debido sobre todo a las consecuencias acumuladas del redondeo. En

lo que se refiere a la desviacin tpica de 1, en ocasiones el mtodo de estimacin empleado no logra ajustar la desviacin tpica a dicho valor, excepto cuando el modelo factorial ajusta perfectamente16.
Por lo general, si consideramos la produccin investigadora internacional, lo ms habitual en un anlisis factorial es utilizar el mtodo de componentes principales y la rotacin ortogonal, lo que, hasta cierto punto, no deja
de ser una hibridacin entre modelos matemticos y su referencia terica.
El anlisis factorial es un mtodo muy interesante por su plasticidad y
las facilidades que otorga al investigador para conectar conceptos tericos
con mediciones empricas, ya sean variables o indicadores.
4.8. EL ANLISIS FACTORIAL PARA LA CONSTRUCCIN DE NDICES
Esa posibilidad, de establecer mediante las correlaciones entre indicadores
la existencia de un "factor", permite emplear los resultados como un ndice
que agrupe y combine, de forma multivariable, los diferentes indicadores. Por
ejemplo, en el caso de determinar un ndice que exprese el concepto democracia, este concepto podra se expresado por un factor que mantendra la siguiente relacin con los indicadores.
Indicador1 = a1 (Democracia) + Uind1
Indicador 2 = a2 (Democracia) + Uind2
Indicador 3 = a3 (Democracia) + Uind3
(...../.....)
Indicador n = an (Democracia) + Uindn
Como ejemplo, consideremos el ejemplo del ndice de Desarrollo Humano
(IDH). En la tabla se muestran varios pases de Amrica Latina y sus valores
en el IDH. En este ndice se consideran tres dimensiones: Educacin, Salud
y Estndar de vida. Estas tres dimensiones se miden con cuatro indicadores:
esperanza de vida al nacer, media de aos escolarizados, aos esperados
de escolarizacin y PIb per cpita. En los anlisis, se utilizarn los 187
pases con datos y los indicadores.
16. Es exactamente la misma situacin por la que cuando se efecta una regresin de la variable y sobre la variable x, (y = a + bx + ey) (ecuacin a). Si giramos la ecuacin y hacemos la regresin de x sobre y, (x = a + by +ex) (ecuacin b) no se logra los mismos
valores en la ecuacin (a) que en la (b), excepto cuando existe una colinealidad perfecta
(y por lo tanto sobrara el error e).
144
IDH 2013. Indicadores para varios pases

IDH 2013
Esperanza de Media de los

Aos
vida al nacer
aos
esperados de
escolarizados escolarizacin
PIb per
cpita
41 Chile
0,822
80
9,8
15,1
20804
44 Cuba
0,815
79,3
10,2
14,5
19844
49 Argentina
0,808
76,3
9,8
16,4
17297
50 Uruguay
0,79
77,2
8,5
15,5
18108
65 Panam
0,765
77,6
9,4
12,4
16379
67 Venezuela
0,764
74,6
8,6
14,2
17067
68 Costa Rica
0,763
79,9
8,4
13,5
13012
71 Mxico
0,756
77,5
8,5
12,8
15854
79 brasil
0,744
73,9
7,2
15,2
14275
82 Per
0,737
74,8
13,1
11280
98 Colombia
0,711
74
7,1
13,2
11527
98 Ecuador
0,711
76,5
7,6
12,3
9998
0,7
73,4
7,5
12,3
10844
111 Paraguay
0,676
72,3
7,7
11,9
7580
113 bolivia
0,667
67,3
9,2
13,2
5552
115 El Salvador
0,662
72,6
6,5
12,1
7240
125 Guatemala
0,628
72,1
5,6
10,7
6866
132 Nicaragua
0,614
74,8
5,8
10,5
4266
102 Repblica
Dominicana
Fuente: http://hdr.undp.org/es/data
Ms adelante profundizaremos y explicaremos en detalle el significado de los

resultados de un anlisis factorial. Ahora, a modo introductorio, podemos afirmar que respecto a los indicadores anteriores, el anlisis factorial muestra un
nico factor realmente significativo. Un factor que explica el 75% de la varianza de todos los indicadores.
145
Varianza total explicada de los indicadores de IDH

Componente
Total

% de la
%
varianza acumulado
3,032
75,798
75,798
,498
12,448
88,245
,274
6,840
95,086
,197
4,914
100,000
Total
% de la
%
varianza acumulado
3,032
75,798
75,798
Adems, todos los indicadores muestran una carga significativa en el ndice

estimado mediante la medicin del factor.
Matriz de componentes
Componente
1
Esperanza de vida al nacer
,892
Media de aos escolarizados
,894
Aos esperados de escolarizacin
,911
(PIb) per cpita
,779
Mtodo de extraccin: Anlisis de componentes principales
En ese sentido, el anlisis factorial ofrece una forma multivariante de simplificar los indicadores utilizados y la realidad que expresan. Es en el clculo del ndice donde podemos adoptar estrategias alternativas. En el clculo habitual del IDH, se emplean procedimientos aritmticos para integrar
todos los valores (de cada indicador) en el ndice final. El procedimiento
del anlisis factorial tambin produce una integracin de los indicadores
para producir un ndice final. Sin embargo, el procedimiento ser un poco
ms complejo y siguiendo una lgica de ajuste multivariable. En la tabla
siguiente podemos comparar las puntuaciones Z del factor (es decir, centradas con una media de cero) con el ndice del IDH calculado a partir de los
mismos valores.
146
Comparacin IDH con estimacin multivariable y

como ndice compuesto
Posicin
Pas
IDH 2013 ndice calculado como

puntuacin factorial
41
Chile
0,822
0,79656
44
Cuba
0,815
0,73501
49
Argentina
0,808
0,76182
50
Uruguay
0,79
0,58271
65
Panam
0,765
0,3311
67
Venezuela
0,764
0,35384
68
Costa Rica
0,763
0,38072
71
Mxico
0,756
0,27599
79
brasil
0,744
0,26239
82
Per
0,737
0,20223
98
Colombia
0,711
0,00646
98
Ecuador
0,711
0,02155
0,7
-0,0796
102
Repblica
Dominicana
111
Paraguay
0,676
-0,1847
113
bolivia
0,667
-0,09759
115
El Salvador
0,662
-0,27395
125
Guatemala
0,628
-0,5305
132
Nicaragua
0,614
-0,4786
Fuente: elaboracin propia sobre datos IDH
Este mtodo de estimacin puede dar resultados diferentes. En este caso, por
ejemplo, cambian de posicin pases como Panam (IDH 0,765), Venezuela
(IDH 0,764) y Costa Rica (IDH 0,763), y que determinando el ndice mediante anlisis factorial (estadstica multivariante) ofrece el orden inverso con Costa
Rica (0,38), Venezuela (0,35) y Panam (0,33). Muy posiblemente, en la medida que el peso de la "Educacin" es ms elevado en el ndice estimado mediante anlisis factorial. En el ndice calculado mediante el anlisis factorial, Ecuador aparece en una posicin media para el conjunto de los pases considerados. Su valor es de 0,02 cuando la media es cero. Evidentemente, puede normalizarse las puntuaciones factoriales por cualquiera de los procedimientos
considerados en el captulo 2.
147
La conclusin es evidente. El anlisis factorial (o de componentes principales) permite conocer el peso emprico de cada indicador en el ndice final.
En todo caso, facilita informacin sobre los pesos a utilizar en el caso de
desear mantener un ndice compuesto. Y, especialmente, confirma la posibilidad de medir una dimensin nica mediante esos cuatro indicadores. Es
decir, la potencia de la unidimensionalidad se impone sobre los rasgos particulares de cada dimensin.
Tambin puede que aparezcan dimensiones que dificultan la creacin de
un nico factor para todos los indicadores. Esta realidad habla de otras estructuras que contaminan la medicin, oscurecen la imagen que ofrece un ndice nico y que deben diagnosticarse. Especialmente, dado que tambin influiran en cualquier otra estrategia para combinar los indicadores. Por lo tanto,
como sabemos, la idea bsica tras el anlisis factorial es que pueden existir
dimensiones latentes no visibles, que dan cuenta del comportamiento de grupos de variables visibles u observables directamente. Por lo tanto la finalidad del anlisis factorial es identificar un conjunto de factores no observables que den cuenta de la correlacin entre un conjunto de variables observadas. En cierto sentido, una de las importancias y ventajas del anlisis factorial es que permite visualizar y revelar ruidos o sesgos que pueden quedar
ocultos en la elaboracin de ndices complejos mediante operaciones de suma,
resta, divisin, multiplicacin. Es el caso cuando para calcular el ndice se
emplean ndices que agrupan otras dimensiones.
Vamos a utilizar como ejemplo el ndice de Desarrollo Democrtico. El
concepto contempla cuatro dimensiones medidas por varios indicadores. Como
se recoge en su metodologa El IDD-Lat se construye a partir de la agregacin de varios indicadores que se ponderan, asignando puntajes tanto a las
dimensiones como a cada uno de los indicadores seleccionados. En este punto
importan dos cuestiones: a) la regla de agregacin que se va a utilizar, y b) los
pesos que se dan a las dimensiones que se agregaran y a sus componentes.
a) Regla de agregacin utilizada: Multiplicativa. Los componentes de cada
dimensin se ponderan entre 0 y 10, de tal forma que se cumpla que la
sumatoria sea igual a 10.
b) Pesos que se asignan a las dimensiones y sus componentes: Se utilizan
dos procedimientos para la asignacin de puntajes a los indicadores,
los que se distribuyen en una escala de 1 a 10. Es un programa de
investigacin muy importante y slido, que busca armonizar y establecer unos criterios objetivos de referencia para medir la calidad democrtica. En ese sentido, se utilizan sus datos para ejemplificar la dificultad de integracin de heterogeneidad dentro de un nico ndice,
tanto en la estrategia multivariante como agregativa.
148
Esquema 1. Estructura jerrquica de los conceptos.

Anlisis de la estructura lgica. Anlisis multinivel
Fuente: http://www.idd-lat.org/2014/
Las dimensiones y sus valores por pases fueron expuestas en la Tabla 1 en

captulos anteriores.

dimensiones

mediante

opera
Esas
son combinadas
ciones
para
aritmticas

calcular un ndice que
expresa la calidad de la

17
democracia IDD-lat . Vamos seguidamente a considerar en qu modo las

cuatro dimensiones definen con consistencia un solo ndice, mediante el
anlisis

factorial.

En el caso de
definir
dimensiones

diferenciadas,
su integracin
en un solo
ndice

se convierte en un proceso de integracin de

heterogeneidad.
El
mtodo
utilizado
en
el
anlisis
factorial
es
el
de
com

ponentes principales.
Si tomamos
como

el autovalor Eigen del primer componente
referencia
o factor, obtenemos un solo ndice estimado de forma multivariable que refle

jara un 58,4 de la varianza total. Podemos observar que an queda un por centaje

En trminos
de autovalor,

elevado
de varianza
total
por explicar.
una
nica
dimensin

resumira

la variabilidad

de forma
bastante limitada.

en

17. La metodologa en detalle
se puede consultar
http://www.idd-lat.org/2014/cuestiones_metodologicas/n/index.html

149

Componente
Total
% de la
%
varianza acumulado
2,337
58,417
58,417
,924
23,088
81,504
,483
12,079
93,584
,257
6,416
100,000

Total
2,337
% de la
%
varianza acumulado
58,417
58,417
En trminos de mediciones, observamos que el emplear un solo ndice elaborado de forma multivariable refleja de forma especial el peso de las
dimensiones I y III. Las dimensiones II y IV aparecen menos representadas,
o con menos influencia en la construccin del ndice multivariable.
Matriz de componentes IDD-lat
Componente
1
DIM I
,834
DIM II
,588
DIM III
,863
DIM IV
,742
Mtodo de extraccin: Anlisis de componentes principales
El segundo autovalor es de ,92 por lo que la solucin de dos factores es una

posibilidad muy plausible. Para dos factores, la varianza explicada es mxima, del 81,5%. Es decir, que la solucin de agrupar las cuatro dimensiones
en un solo ndice significa sacrificar una heterogeneidad interna importante.
La tabla siguiente muestra el resultado de mantener dos factores como solucin de la estructura que muestran los datos.
150
Varianza total explicada IDD-lat con dos factores

Componente

Suma de las saturaciones
al cuadrado de la extraccin al cuadrado de la rotacin
Total % de la
%
Total % de la
%
Total % de la
%
varianza acumulado
varianza acumulado
varianza acumulado
1
2,337
58,417
58,417
2,337
58,417
58,417
1,830
45,759
45,759
,924
23,088
81,504
,924
23,088
81,504
1,430
35,746
81,504
,483
12,079
93,584
,257
6,416
100,000
Cuando evaluamos la carga de cada dimensin del ndice IDD-lat sobre los dos
factores, reconocemos una estructura que nos es conocida. La dimensin III
y IV muestran una carga elevada en el factor 1, mientras que las dimensiones I y II tienen su carga ms elevada en el factor 2. La dimensin I tiene su
peso ms repartido entre los dos factores, con una carga de ,523 en el factor
I y de ,693 en el factor II. Esta solucin nos recuerda la ofrecida por el anlisis de clster efectuado anteriormente, en el captulo 2, con la que es plenamente consistente.
Matriz de componentes rotados IDD-lat con dos factores
Componentes
Factor 1
Factor 2
DIM I
,523
,693
DIM II
,036
,934
DIM III
,873
,273
DIM IV
,891
,048
Mtodo de extraccin: Anlisis de componentes

principales. Mtodo de rotacin: Normalizacin Varimax con Kaiser. La rotacin ha convergido en 3
iteraciones
Por eso, tal y como se recoga en el cuadro anterior, las siguientes dimensiones
caracterizan la calidad de la democracia, tal y como son definidas por IDD-lat:
Dimensin I: Democracia de los ciudadanos. Evala el respeto de los derechos polticos y las libertades civiles. Dimensin II: Democracia de las ins-
151
tituciones. Mide la calidad institucional y la eficiencia del sistema poltico.

Dimensin III. Democracia social y humana. Analiza la capacidad del sistema democrtico para generar polticas que aseguren bienestar y desarrollo
humano. Dimensin IV. Democracia econmica. Expresa la capacidad
para generar polticas que aseguren la eficiencia econmica.
basndonos en el anlisis estadstico parece que el ndice realmente contiene dos mediciones que deben ser armonizadas para poder considerarse un
ndice nico de democracia. Las dimensiones III y IV parecen poseer un profundo carcter econmico (polticas de bienestar y eficiencia econmica), la
dimensin II es de marcado acento poltico. La dimensin I se solapa lo
social entre lo econmico y lo poltico. En ese sentido, existen evidentes dificultades de integracin en un ndice nico (partiendo de los sistemas
de subdimensiones e indicadores empleados) de las dimensiones social,
poltica y econmica que caracterizan la democracia.
El grfico de componentes en el espacio rotado muestra como la dimensin II est muy prxima al eje del factor 1, y las dimensiones III y IV muy
prximas al eje del factor 2. La dimensin I se encuentra prxima a la bisectriz del primer cuadrante (entre los dos ejes), indicando con ello que su carga
est repartida entre los dos factores.

152
En ese sentido, una de las conclusiones del anlisis factorial es la dificultad de

sintetizar en un ndice aritmtico la variabilidad existente. De hecho, cuando
consideramos las puntuaciones de los diferentes pases en cada uno de los factores, observamos que son cuatro pases los que despliegan el peso especfico
del factor 2, es decir de las dimensiones III y IV: Uruguay, Costa Rica y Chile
(segundo cuadrante), y el Salvador (primer cuadrante). Cuando la relacin
entre los indicadores puede dar origen a varios factores, y no solamente a uno,
expresa que realmente son varios los conceptos, o dimensiones de un concepto, los que se miden con ese grupo de indicadores. En definitiva, incluso un
indicador puede ser polismico y expresar varios conceptos parcialmente.
4.9. EL ANLISIS FACTORIAL CON SPSS Y SYSTAD
Los conceptos y procedimientos anteriores son ejecutados mediante programas estadsticos. Con algunos matices, prcticamente todos efectan los
mismos pasos, desde la seleccin de variables, opciones de rotacin o mtodos
de extraccin, alternativas para crear las variables (factores) o coeficientes de
diagnstico.
En el programa SPSS, la opcin de anlisis factorial se encuentra en el
men principal de analizar y la opcin reduccin de dimensionalidad.
En la ventana principal se puede elegir las variables que formarn parte del
anlisis. En las situaciones en que se deseen filtrar los casos que van a considerase, la opcin variable de seleccin permite hacerlo. Es, por ejemplo, que
se desee efectuar el anlisis para una categora concreta en esa variable (por
ejemplo, en variable gnero solamente para mujeres o en encuestas internacionales, elegir un pas en concreto).
153
En la opcin Estadsticos el procedimiento nos ofrecer informacin sobre

la media, la desviacin estndar y el nmero de casos vlidos en cada una de
las variables que forman parte del anlisis. La opcin de mostrar solucin
inicial muestra la solucin antes de rotacin, incluyendo las comunalidades
iniciales, los autovalores y el porcentaje de varianza explicada. En la opcin
matriz de correlaciones puede solicitarse los coeficientes de correlacin, los
niveles de significacin, el determinante de la matriz, los coeficientes KMO
y el test de esfericidad de bartlett, as como las matrices inversa, reproducida
y la AIC.
154
La opcin Extraccin permite que se indique un mtodo de extraccin. El

programa dispone de varios mtodos como son componentes principales, mnimos cuadrados no ponderados, mnimos cuadrados generalizados, mxima
verosimilitud, etc.
Es posible, asimismo, determinar si se desea utilizar para el anlisis la
matriz de correlacin o la matriz de covarianzas. La matriz de correlaciones
es til cuando las variables estn medidas en diferentes escalas, mientras que
la matriz de covarianzas es preferible cuando el anlisis se va a aplicar en
mltiples grupos con diferentes varianzas en las variables consideradas.
Con la opcin de extraccin se decide si se retienen en el anlisis los factores con un valor eigen igual o superior a 1, o por el contrario se desea indicar
cuantos factores se desean mantener en el anlisis. Tambin se ofrece la posibilidad de mostrar la solucin factorial no rotada y el grfico de sedimentacin.
Finalmente, esta ventana ofrece la opcin de decidir el nmero mximo de
iteraciones que puede emplear el algoritmo para alcanzar una solucin.
La opcin Rotacin permite elegir el mtodo de rotacin que se desee ejecutar, sea ortogonal o no. En el caso de SPSS las rotaciones disponibles son varimax, direct oblimin, quartimax, equamax, o promax. El grfico de componentes muestra mediante grficos bivariables, la relacin de las variables o
indicadores con los factores. Al igual que con la extraccin, es posible indicar
un nmero mximo de iteraciones para efectuar la rotacin.
Las puntuaciones factoriales se pueden guardar en variables mediante la opcin
guardar como variables. Como consecuencia de seleccionar dicha opcin
se crear tantas variables como factores se conserven en el anlisis, y en cada
una de ellas se guardar la puntuacin de cada caso en cada factor. Los mto-
155
dos utilizados son estimaciones mediante regresin, bartlett, y AndersonRubin. Recordar que cuando se emplea el mtodo de componentes principales,
los factores que se guarden sern ortogonales independientemente de que se
rote oblicuo o se pida otro mtodo para estimar las puntuaciones.
La matriz de coeficientes factoriales muestra los valores que relacionan
variables y factores, para estimar las puntuaciones. Equivalen a los coeficientes en la ecuacin de regresin mltiple que expresa a cada factor como una
combinacin lineal de variables o indicadores. Las variables se multiplican por
dichos coeficientes para estimar la puntuacin de cada caso en cada factor. As
mismo, tambin ofrece la matriz de correlacin entre los factores.
156
Por ltimo, en las opciones puede decidirse el tratamiento que se dar a

los casos perdidos, con las opciones de excluir los casos por parejas, eliminar
los casos con algn valor perdido en cualquiera de las variables consideradas, o sustituir los valores perdidos por el valor medio de cada variable. En el
caso del borrado por pares cada coeficiente de correlacin en la matriz estar calculado sobre un tamao muestral diferente. El borrado por lista tiene
como consecuencia una reduccin importante del tamao muestral. La sustitucin por la media introduce una suavizacin en las distribuciones que
afectar a las cargas de variables en los factores. En todo caso, las consecuencias del tratamiento de los casos perdidos deben ser siempre valoradas, en la
medida que pueden condicionar las soluciones factoriales.
La ltima utilidad en opciones es la posibilidad de que las variables
aparezcan ordenadas segn su carga en cada factor en las matrices factoriales
(sean de estructura o configuracin). Esto facilita mucho la interpretacin de
los factores, dado que agrupa las variables que estn ms prximas entre
ellas. En ese proceso de facilitar la lectura e interpretacin de los resultados,
pueden suprimirse del resultado los coeficientes excesivamente bajos. En
ese caso, debe indicarse un valor de referencia para que no se muestre en el
resultado.
El programa SYSTAD muestra directamente la opcin para el anlisis factorial en el men Analizar. En conjunto, tiene un diseo ms compacto, donde
las diferentes elecciones que deben efectuarse se encuentran agrupadas en
pocas ventanas.
157
As, en la ventana modelos aparece la opcin de elegir las variables que se

analizarn. En mtodo de extraccin aparece en primer lugar la opcin ms
frecuente, de Componentes Principales. Otros dos mtodos disponibles son
Ejes Principales y Mxima Verosimilitud.
Se puede seleccionar para la extraccin la matriz de correlaciones (variables con diferentes escalas) o la matriz de covarianzas (comparacin de modelos entre diferentes poblaciones). junto a esas opciones aparece el tratamiento
de los casos perdidos, con la opcin de exclusin por pares.
Puede elegirse el criterio para decidir el nmero de factores, ya sea indicando el valor mnimo que debe alcanzar el autovalor (eigen) de un factor para
conservarse en la solucin. Por defecto ofrece el valor 1. La otra opcin es
decidir cuntos valores se desea conservar en el anlisis. bajo dichas opciones
se encuentra el nmero mximo de iteraciones para la extraccin y como
opcin, el valor de convergencia para la solucin. En esta pantalla se pueden
decidir los criterios para mejorar la interpretacin del resultado, por ejemplo
ordenando las variables segn la carga en cada factor.
En la pantalla de rotacin se elige el tipo de rotacin que se desea. Las
rotaciones disponibles en SYSTAT son varimax, oblimin, quartimax, equamax, u ortomax. En el caso de ser oblicua, se introduce un valor gamma que
controla el grado de asociacin que admitimos en los factores, tal y como se
explic anteriormente.
Este programa ofrece la posibilidad de guardar bastante informacin como
resultado del anlisis. No obstante, para el caso de las puntuaciones factoriales emplea exclusivamente el mtodo de componentes principales. Eso hace
158
que para los mtodos de mxima verosimilitud y ejes principales solamente

pueden guardarse las cargas factoriales, pero no se estima puntuacin alguna.
De hecho, las opciones se desactivan de elegir algn mtodo diferente a componentes principales.
Con el mtodo de extraccin de componentes principales es posible guardar las puntuaciones factoriales estandarizadas, los residuales para cada caso,
las puntuaciones sin estandarizar de los componentes principales (solamente
en extraccin de componentes principales y sin rotacin), los coeficientes fac-
159
toriales con los valores que relacionan variables y factores, para estimar las
puntuaciones, los vectores eigen y las cargas factoriales. Otros programas ofrecen varias de estas posibilidades como parte de la informacin que se muestra con los resultados, mientras que este programa permite guardar los datos
en archivo.
Una opcin interesante es la de guardar las puntuaciones (no las cargas
factoriales y otros datos) como variables (junto a las del archivo original) en
un nuevo archivo tal y como vimos en el SPSS. Los factores se nombrarn
de forma sucesiva (Factor (1), Factor (2)), y aquellos casos con valores
perdidos en alguna de las variables empleadas para el anlisis factorial tambin tendr valor perdido en el factor. Si se emplea una matriz de correlaciones los factores estarn estandarizados con media cero y varianza 1. Cuando
se utiliza la matriz de covarianzas y no se efecta rotacin, las puntuaciones
no estarn estandarizadas.
La ltima opcin, muy presente en SYSTAT, es la posibilidad de testar, mediante muestreos de los datos, la fiabilidad del modelo que estamos empleando.
Es un procedimiento muy interesante que excede los objetivos de este texto.
BIBLIOGRAFA
Afifi, A. A., May, S., and Clark, V. (2004). Computer-aided multivariate analysis,
4th ed. New York: Chapman & Hall.
Akaike, H. 1987. Factor analysis and AIC. Psychometrika 52: 317332.
Alaminos, A.F. (1987) Cultura poltica y econmica en el cono sur: Argentina, Chile
y Uruguay. Madrid: CEDEAL.
Alaminos, A.F. (1991) Chile: transicin poltica y sociedad. Madrid: Siglo XXI-CIS.
Alaminos, A.F. (1998). Teora y prctica de la encuesta. Aplicacin a los pases en
vas de desarrollo. Alicante: Club Universitario.
Alaminos, A.F. (2004). Tendencias en ideologa poltica: estructura y contenidos,
en Tezanos, j.F. Tendencias en identidades, valores y creencias. Madrid: Sistema.
Alaminos, A.F. (2005). El anlisis de la realidad social. Modelos estructurales de
covarianzas. Alicante: ObETS.
Alaminos, A.F. (2005). Introduccin a la Sociologa Matemtica. Alicante: SPES.
Anderberg, M. R. 1973. Cluster Analysis for Applications. New York: Academic Press.
bacher, j. (1996). Clusteranalyse: Anwendungsorientierte Einfhrung. Mnchen:
Oldenbourg. 2., ergnzte Auflage.
bacher, j. (2000). A Probabilistic Clustering Model for Variables of Mixed Type.
Quality &Quantity, 34, 223235.
bacher, j. (2002). StatistischesMatching: Anwendungsmoglichkeiten, Verfahren
und ihre praktische Umsetzung in SPSS. ZA-Informationen, 51, 3866.
bartlett, M. S. 1937. The statistical conception of mental factors. British Journal of
Psychology 28: 97104.
bartlett, M. S. 1938. Methods of estimating mental factors. Nature, London 141:
609610.
bartlett, M. S. 1951. The effect of standardization on a 2 approximation in factor
analysis. Biometrika 38: 337344.
basilevsky, A. T. 1994. Statistical Factor Analysis and Related Methods: Theory and
Applications. New York: Wiley.
bender, S., brand, R., & bacher, j. (2001). Re-identifying register data by survey
data: An empirical study. Statistical Journal of the UN Economic Commission for
Europe, 18(4), 373381.
162
bezdek, j.C and Pal, N. R. (1998). Some new indexes of cluster validity. IEEE
Trans. Systems, Man and Cybernetics, Part B: Cybernetics, 28, 301-315.
blashfield, R. K., and M. S. Aldenderfer. 1978. The literature on cluster analysis.
Multivariate Behavioral Research 13: 271295.
bollen, K. A. 1989. Structural Equations with Latent Variables. New York: Wiley.
Calinski, T., and j. Harabasz. 1974. A dendrite method for cluster analysis. Communications in Statistics 3: 127.
Campbell, D. T. and Fiske, D. W. (1959). Convergent and discriminant validation by
the multitrait-multimethod matrix. Psychological Bulletin, 56, 81105.
Cattell, R. b. 1966. The scree test for the number of factors. Multivariate Behavioral
Research 1: 245276.
Chiu, T., Fang, D., Chen, j., Wang, Y., & jeris, C. (2001). A Robust and Scalable
Clustering Algorithm for Mixed Type Attributes in Large Database Environment.
In Proceedings of the 7th ACM SIGKDD International Conference on Knowledge
Discovery and Data Mining 2001 (pp. 263268).
Clarke, M. R. b. 1970. A rapidly convergent method for maximum-likelihood factor analysis. British Journal of Mathematical and Statistical Psychology 23:
4352.
Clarkson, D. b. and jennrich, R. I. (1988). quartic rotation criteria and algorithms.
Psychometrika, 53, 251259.
Day, W. H. E., and H. Edelsbrunner. 1984. Efficient algorithms for agglomerative
hierarchical clustering methods.journal of Classification 1: 724.
Davies, D.L. and bouldin, D.W. (1979). A cluster separation measure. IEEE Trans.
Pattern Anal. Machine Intell., 1, 4, 224-227.
Dixon, W. j. (1992). BMDP statistical software manual. berkeley: University of California Press.
Duda, R. O., P. E. Hart, and D. G. Stork. 2001. Pattern Classification. 2nd ed. New
York: Wiley.
Dunn, j.C. (1973). A fuzzy relative of the ISODATA process and its use in detecting
compact well-separated clusters, Journal of Cybernetics, 3, 32-57.
Ester, Martin; Kriegel, Hans-Peter; Sander, jrg; Xu, Xiaowei (1996). Simoudis,
Evangelos; Han, jiawei; Fayyad, Usama M., eds. A density-based algorithm for
discovering clusters in large spatial databases with noise. Proceedings of the
Second International Conference on Knowledge Discovery and Data Mining
(KDD-96). AAAI Press. pp.226231.
Harman, H. H. 1976. Modern Factor Analysis. 3rd ed. Chicago: University of Chicago
Press.
Horst, P. 1965. Factor Analysis of Data Matrices. New York: Holt, Rinehart & Winston.
Everitt, b. S. 1993.Cluster Analysis. 3rd ed. London: Arnold.
Everitt, b. S., S. Landau, M. Leese, and D. Stahl. 2011.Cluster Analysis. 5th ed.
Chichester, UK: Wiley.
Fisher, L. and Van Ness, j. W. (1971). Admissible clustering procedures. Biometrika,
58, 91104.
163
Fox, j. (1982). Selectiv Aspects of measuring Resemblance for Taxonomy, (pp.

127151). jossey-bass: San Francisco, Washington, London.
Fraley, C. & Raftery, A. E. (1998). How many Clusters? Which Clustering Method?
Answers via Model-based Cluster Analysis. Computer Journal, 4, 578588.
Francs, F.; Alaminos, A.; Penalva, C. y Santacreu, O. (2014). El proceso de medicin de la realidad social: La investigacin a travs de encuestas. Cuenca:
PYDLOS.
Fuller, W. A. 1987. Measurement Error Models. New York: Wiley.
Gnanadesikan, R. (1977). Methods for statistical data analysis of multivariate
observations. 2nd ed. New York: john Wiley & Sons.
Gordon, A. D. 1999. Classification. 2nd ed. boca Raton, FL: Chapman & Hall/CRC.
Gorsuch, R. L. 1983. Factor Analysis. 2nd ed. Hillsdale, Nj: Lawrence Erlbaum.
Gower, j. C. (1967). A comparison of some methods of cluster analysis. Biometrics,
23, 623637.
Gruvaeus, G. and Wainer, H. (1972). Two additions to hierarchical cluster analysis.
The British Journal of Mathematical and Statistical Psychology, 25, 200206.
Guttman, L. (1944). A basis for scaling qualitative data. American Sociological
Review, 139150.
Hamilton, L. C. 2009. Statistics with Stata (Updated for Version 10). belmont, CA:
brooks/Cole.
Hartigan, j. A. (1975). Clustering algorithms. New York: john Wiley & Sons.
Hartigan, j.A. and Wong, M. A. (1979), A K-Means Clustering Algorithm. Applied
Statistics, 28, 100-108.
Harman, H. H. (1976). Modern factor analysis, 3rd ed. Chicago: University of Chicago
Press.
jackson, j. E. (2003). A users guide to principal components. New York: Wiley Interscience.
jain, A. K., and R. C. Dubes. 1988. Algorithms for Clustering Data. Englewood Cliffs,
Nj: Prentice Hall.
jennrich, R.I. and Robinson, S.M. (1969). A Newton-Raphson algorithm for maximum
likelihood factor analysis. Psychometrika, 34, 111-123.
johnson, S. C. (1967). Hierarchical clustering schemes. Psychometrika, 32, 241254.
jreskog, K. G., and D. Srbom. 1986. Lisrel VI: Analysis of linear structural relationships by the method of maximum likelihood. Mooresville, IN: Scientific Software.
jreskog, K. G., and D. Srbom. 1988. PRELIS: A program for multivariate data
screening and data summarization. A preprocessor for LISREL. 2nd ed. Mooresville, IN: Scientific Software.
Gower, j. C. (1971). A general coefficient of similarity and some of its properties.
Biometrics, 27, 857872.
Kaiser, H. F. 1958. The varimax criterion for analytic rotation in factor analysis.
Psychometrika 23: 187200.
Kaiser, H. F. 1974. An index of factor simplicity. Psychometrika 39: 3136.
164
Kim, j. O., and C. W. Mueller. 1978. Introduction to factor analysis. What it is and
how to do it. In Sage University Paper Series on quantitative Applications the
Social Sciences, vol. 07013. Thousand Oaks, CA: Sage.
Kim, j. O., and C. W. Mueller. 1978. Factor analysis: Statistical methods and practical issues. In Sage University Paper Series on quantitative Applications the
Social Sciences, vol. 07014. Thousand Oaks, CA: Sage.
Lawley, D. N., and A. E. Maxwell. 1971. Factor Analysis as a Statistical Method.
2nd ed. London: butterworths.
Holm, K. (2004). ALMO Statistik-System, Version 7.1. http://www.almo-statistik.de/.
Huang, Z. (1998). Extensions to the k-means Algorithm for Clustering Large Data Sets
with Categorical Variables. Data Mining and Knowledge Discovery, 2, 283304.
Kaufman, L., and P. j. Rousseeuw. 1990.Finding Groups in Data: An Introduction
to Cluster Analysis. New York: Wiley.
Lance, G. N., and W. T. Williams. 1967. A general theory of classificatory sorting
strategies: 1. Hierarchical systems. Computer Journal 9: 373380.
Lawley, D. N., and A. E. Maxwell. 1971. Factor Analysis as a Statistical Method.
2nd ed. London: butterworths.
Ling, R. F. (1973). A computer generated aid for cluster analysis. Communications
of the ACM, 16, 355361.
Macqueen, j. (1967). Some methods for classification and analysis of multivariate
observations. 5th Berkeley symposium on mathematics, statistics, and probability, 1, 281298.
Mardia, K. V., Kent, j. T., and bibby, j. M. (1979). Multivariate analysis. London:
Academic Press.
Mcquitty, L. L. (1960). Hierarchical syndrome analysis. Educational and Psychological Measurement, 20, 293303.
Milan, L., and j. Whittaker. 1995. Application of the parametric bootstrap to models
that incorporate a singular value decomposition. Applied Statistics 44: 3149.
Milligan, G. W. (1980). An examination of the effects of six types of error perturbation on fifteen clustering algorithms. Psychometrika, 45, 325342.
Milligan, G. W., and M. C. Cooper. 1985. An examination of procedures for determining the number of clusters in a dataset. Psychometrika 50: 159179 12
Milligan, G.W. (1987), A study of beta-flexible clustering method, College of Administrative Science Working Paper Series, 87-61 Columbus, OH: The Ohio State
University.
Milligan, G. W., and M. C. Cooper. Introduction to cluster-analysis commands. 1988.
A study of standardization of variables in cluster analysis. Journal of Classification 5: 181204.
Morrison, D. F. (2004). Multivariate statistical methods, 5th ed. CA: Duxbury Press.
Mulaik, S. A. (1972). The foundations of factor analysis. New York: McGraw-Hill.
Penalva, C.; Alaminos, A.; Francs, F y Santacreu, O. (2015). La investigacin cualitativa: tcnicas de investigacin y anlisis con Atlas. Ti. Cuenca: PYDLOS
165
Preparata, G. and Shamos, M. (1985). Computational geometry: An introduction.

New York: Springer-Verlag.
Raciborski, R. 2009. Graphical representation of multivariate data using Chernoff
faces. Stata Journal 9: 374387.
Rao, C. R. 1955. Estimation and tests of significance in factor analysis. Psychometrika
20: 93111.
Rencher, A. C. 1998. Multivariate Statistical Inference and Applications. New York:
Wiley.
Rencher, A. C., and W. F. Christensen. 2012. Methods of Multivariate Analysis. 3rd
ed. Hoboken, Nj: Wiley.
Rohlf, F. j. 1982. Single-link clustering algorithms. In Vol. 2 of Handbook of
Statistics, ed. P. R. Krishnaiah and L. N. Kanal, 267284. Amsterdam: NorthHolland.
Rost, j. (1985). A latent class model for rating data. Psychometrika, 50(1), 3749.
SAS Institute Inc. (2002). SAS OnlineDoc. Cary, NC. http://v9doc.sas.com/sasdoc/
Rothkopf, E. Z. (1957). A measure of stimulus similarity and errors in some paired
associate learning tasks. Journal of Experimental Psychology, 53, 94-101.
Rozeboom, W. W. (1982). The determinacy of common factors in large item domains.
Psychometrika, 47, 281295.
Sattath, S. and Tversky, A. (1977). Additive similarity trees. Psychometrika, 42,
319345.
Schaffer, C. M., and P. E. Green. 1996. An empirical comparison of variable standardization methods in cluster analysis. Multivariate Behavioral Research 31:
149167.
Sharma, S.C. (1995). Applied multivariate techniques. New York: john Wiley & Sons.
Schwarz, G. 1978. Estimating the dimension of a model. Annals of Statistics 6:
461464.
Sibson, R. 1973. SLINK: An optimally efficient algorithm for the single-link cluster method. Computer Journal 16: 3034.
Silverman, b.W. (1986), Density estimation, New York: Chapman & Hall.
Snedecor, G.W. y Cochran, W.G. (1967) Statistical methods. Ames, Iowa: Iowa State
University Press.
Sokal, R. R. and Michener, C. D. (1958). A statistical method for evaluating systematic relationships. University of Kansas Science Bulletin, 38, 14091438.
Sokal, R. R. and Sneath, P. H. A. (1963). Principles of numerical taxonomy. San
Francisco: W. H. Freeman and Company.
Spath, H. 1980. Cluster Analysis Algorithms for Data Reduction and Classification
of Objects. Chichester, UK: Ellis Horwood.
Spearman, C. 1904. The proof and measurement of association between two things.
American Journal of Psychology 15: 72101.
SPSS Inc. (2001). The SPSS TwoStep cluster component. A scalable component to segment your customers more effectively. White paper technical report, Chicago.
ftp://ftp.spss.com/pub/web/wp/TSCWP-0101.pdf
166
SPSS Inc. (2004). TwoStep Cluster Analysis. Technical report, Chicago. http://support.spss.com/tech/stat/Algorithms/12.0/twostep cluster.pdf
Steiger, j. H. (1979). Factor indeterminacy in the 1930s and 1970s: some interesting
parallels. Psychometrika, 44, 157167.
Tarlov, A. R., j. E. Ware jr., S. Greenfield, E. C. Nelson, E. Perrin, and M. Zubkoff.
1989. The medical outcomes study. An application of methods for monitoring
the results of medical care. Journal of the American Medical Association 262:
925930.
Thomson, G. H. 1951. The Factorial Analysis of Human Ability. London: University
of London Press.
van belle, G., L. D. Fisher, P. j. Heagerty, and T. S. Lumley. 2004. Biostatistics: A
Methodology for the Health Sciences. 2nd ed. New York: Wiley.
Vermunt, j. & Magidson, j. (2000). Latent GOLD 2.0. Users Guide. belmont.
Vizirgiannis, M., Haldiki, M. and Gunopulos, D. (2003). Uncertainity handling and
quality assessment in data mining. London: Springer-Varlag.
Wainer, H. and Schacht, S. (1978). Gappint. Psychometrika, 43, 203212.
Ward, j. H., jr. 1963. Hierarchical grouping to optimize an objective function. Journal
of the American Statistical Association 58: 236244.
Wilkinson, L. (1979). Permuting a matrix to a simple structure. Proceedings of the
American Statistical Association, 409412.
Winer b.j. (1971) Statistical Principles in Experimental Design. New York: McGrawHill
Wishart, D. (2003). k-Means Clustering with Outlier Detection, Mixed Variables
and Missing Values. In M. Schwaiger & O. Opitz (Eds.), Exploratory data analysis in empirical research. Proceedings of the 25th Annual Conference of the
Gesellschaft fur Klassifikation e.V., University of Munich, March 14-16, 2001,
Studies in Classification, Data Analysis, and Knowledge Organization (pp. 216
226). berlin: Springer.
Wong, M.A. and Lane, T. (1983), A kth nearest neighbor clustering procedure,
Journal of Royal Statistical Society, Series b, 45 362-368.

Libro Analisis Multivariante Repositorio

Cargado por

Copyright:

Formatos disponibles

Libro Analisis Multivariante Repositorio

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Libro Analisis Multivariante Repositorio

Cargado por

Copyright:

Formatos disponibles

Anlisis multivariante para las Ciencias Sociales I.

ndices de distancia, conglomerados y anlisis factorial

Vicerrectorado de Relaciones Internacionales

Antonio Alaminos Chica

Anlisis multivariante para

ndices de distancia, conglomerados y anlisis factorial

ANLISIS MULTIVARIANTE_Maquetacin 1 10/12/05 16:58 Pgina 2

ANLISIS MULTIVARIANTE_Maquetacin 1 10/12/05 16:58 Pgina 3

ANLISIS MULTIVARIANTE PARA

ANLISIS MULTIVARIANTE_Maquetacin 1 10/12/05 16:58 Pgina 4

ANLISIS MULTIVARIANTE_Maquetacin 1 10/12/05 16:58 Pgina 5

ANTONIO ALAMINOS CHICA

ANLISIS MULTIVARIANTE PARA

ANLISIS MULTIVARIANTE_Maquetacin 1 10/12/05 16:58 Pgina 6

de la presente edicin: Universidad de Cuenca

ANLISIS MULTIVARIANTE_Maquetacin 1 10/12/05 16:58 Pgina 7

ANLISIS MULTIVARIANTE_Maquetacin 1 10/12/05 16:58 Pgina 8

Antonio Alaminos / Francisco Francs / Clemente Penalva / scar Santacreu

4.3. LA ESTRUCTURA FACTORIAL ............................................................... 122

ANLISIS MULTIVARIANTE_Maquetacin 1 10/12/05 16:58 Pgina 9

ANLISIS MULTIVARIANTE_Maquetacin 1 10/12/05 16:58 Pgina 10

ANLISIS MULTIVARIANTE_Maquetacin 1 10/12/05 16:58 Pgina 11

1. LA INVESTIGACIN SOCIAL Y LA MEDICIN

ANLISIS MULTIVARIANTE_Maquetacin 1 10/12/05 16:58 Pgina 12

Antonio Alaminos / Francisco Francs / Clemente Penalva / scar Santacreu

ANLISIS MULTIVARIANTE_Maquetacin 1 10/12/05 16:58 Pgina 13

go, con un anlisis

Cuadro 1. Ejemplos de modelos basados en

ANLISIS MULTIVARIANTE_Maquetacin 1 10/12/05 16:58 Pgina 14

Antonio Alaminos / Francisco Francs / Clemente Penalva / scar Santacreu

Dos de los procedimientos multivariantes principales en la construccin de

ANLISIS MULTIVARIANTE_Maquetacin 1 10/12/05 16:58 Pgina 15

ANLISIS MULTIVARIANTE_Maquetacin 1 10/12/05 16:58 Pgina 16

Antonio Alaminos / Francisco Francs / Clemente Penalva / scar Santacreu

Tabla 1. Las cuatro dimensiones2 del IDD-lat 2014

Fuente: Datos del IDD-Lat 2014

ANLISIS MULTIVARIANTE_Maquetacin 1 10/12/05 16:58 Pgina 17

Anlisis multivariante para las Ciencias Sociales I

Para determinar la distancia eucldea al cuadrado entre Ecuador y bolivia,

la distancia eucldea al cuadrado es simplemente la suma de las diferencias al

ANLISIS MULTIVARIANTE_Maquetacin 1 10/12/05 16:58 Pgina 18

Antonio Alaminos / Francisco Francs / Clemente Penalva / scar Santacreu

b) La segunda decisin importante se refiere a la conveniencia o no, de

a. Expresado con puntuacin Z

ANLISIS MULTIVARIANTE_Maquetacin 1 10/12/05 16:58 Pgina 19

Anlisis multivariante para las Ciencias Sociales I

b) Estandarizacin de un caso mediante puntuacin Z tomando como

a. Expresado con puntuacin Z

Entre las transformaciones de estandarizacin ms habituales se encuentran

ANLISIS MULTIVARIANTE_Maquetacin 1 10/12/05 16:58 Pgina 20

Antonio Alaminos / Francisco Francs / Clemente Penalva / scar Santacreu

valores de la variable por la desviacin tpica. Es importante tener presente,

Dividir todos los valores por la media

Dividir todos los valores por la

Dividir todos los valores por el rango

Restar a todos los valores el valor ms

Dividir todos los valores por el valor

Otra opcin es normalizar las variables, por ejemplo fijando un rango de

ANLISIS MULTIVARIANTE_Maquetacin 1 10/12/05 16:58 Pgina 21

Anlisis multivariante para las Ciencias Sociales I