Mathematics">
Nothing Special   »   [go: up one dir, main page]

Psicometría - Tema 4 - 2016

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 13

Tema 4: La Fiabilidad de las Puntuaciones 2016

Ü El Problema del Error de Medida


Uno de los requisitos fundamentales en cualquier teoría de la medición es la fiabilidad y precisión de los
instrumentos utilizados para medir una determinada característica. La medición en Psicología no está exenta de
este requisito y debemos contar con instrumentos que sean fiables y libres, en la medida de lo posible, de errores de
medida. El concepto de error de medida es un concepto básico en Psicometría.
“Se define el error de medida como la diferencia entre la puntuación empírica obtenida por un sujeto en un test y su
puntuación verdadera, entendiendo por test cualquier instrumento de medición psicológica”
Si aplicáramos “n” veces un test a un mismo sujeto, es casi seguro que las puntuaciones obtenidas por ese sujeto
serían muy parecidas pero nunca iguales observándose que, en algunos casos, el valor de la puntuación empírica
estará por encima de la puntuación verdadera del sujeto, la que realmente indica la capacidad que tiene, y en otros
por debajo. Será responsabilidad del investigador construir pruebas que den lugar al mínimo error de medida posible.
Los errores de medida que son debidos a cambios que operan en el propio sujeto (de carácter aleatorio e
impredecibles), son los errores de los que se va a ocupar la fiabilidad.

Ü El modelo lineal de Spearman


Establece que la puntuación empírica obtenida por un sujeto en un test (X) puede considerarse como una
combinación lineal de 2 componentes: por una parte, la puntuación verdadera (V) y por otra, el error de medida (E).
X = V + E El modelo asume una serie de supuestos:
1) Primer supuesto: La puntuación verdadera (V) es la esperanza matemática (media) de la puntuación empírica
(X). Si a un sujeto se le pasara un nº infinito de veces un mismo test, y suponiendo que las aplicaciones fueran
independientes, la media de todas las puntuaciones observadas (X) sería la puntuación verdadera. V = E(X)
2) Segundo supuesto: La correlación entre las puntuaciones verdaderas de “n” sujetos en un test y los errores de
medida es igual a 0. No existe relación entre los errores de medida y las puntuaciones verdaderas. rve = 0
3) Tercer supuesto: La correlación entre los errores de medida (re1e2) que afectan a las puntuaciones de los sujetos
en dos tests diferentes es igual a cero. Si e1 representa los errores de medida en el test 1 y e2 representa los
errores de medida de los mismos sujetos en el test 2 el supuesto implica que no existe ninguna razón para
presuponer que los errores de medida cometidos en un test vayan a influir, positiva o negativamente, en el otro
test, siempre y cuando los tests se apliquen correctamente. re1e2 = 0
A partir de estos 3 supuestos del modelo se pueden hacer las siguientes deducciones:
a) El error de medida se define como la diferencia entre la puntuación empírica obtenida por un sujeto y su
puntuación verdadera. E = X - V
b) La esperanza matemática (media) de los errores de medida es cero. E(e) = 0
c) La media de las puntuaciones empíricas es igual a la media de las puntuaciones verdaderas. X = V
d) La covarianza entre las puntuaciones verdaderas y los errores es igual a cero. Cov (V,E) = 0
e) La varianza de las puntuaciones empíricas es igual a la suma de la varianza de las puntuaciones verdaderas
2 2 2
más la varianza de los errores. S x = S v + S e
f) La covarianza entre las puntuaciones empíricas y las verdaderas es igual a la varianza de las puntuaciones
2
verdaderas. Cov(X,V) = S v
g) La correlación entre las puntuaciones empíricas y los errores es igual al cociente entre la desviación típica de
los errores y la desviación típica de las puntuaciones empíricas. rxe = Se / Sx
h) La covarianza entre las puntuaciones empíricas de 2 tests es igual a la covarianza entre las puntuaciones
verdaderas. Cov (X1, X2) = Cov (V1, V2)

Ü Tests paralelos. Condiciones de paralelismo


Si a una misma muestra de sujetos se le aplican 2 tests, X y X', podemos considerar que son paralelos si, además de
cumplirse los supuestos anteriores, se cumplen las 2 condiciones siguientes:
1. Las puntuaciones verdaderas son iguales en ambos tests. Según el modelo lineal podemos establecer:
X = V+E X’ = V+E'
2 2
2. La varianza de los errores de medida es la misma en ambos tests: S e = S e’.
De las condiciones de paralelismo podemos sacar una serie de deducciones importantes dentro del modelo clásico.
a) La media de las puntuaciones empíricas obtenidas en 2 tests supuestamente paralelos es la misma. X = X’
Este documento no sustituye la Bibliografía Básica, es un complemento de
1 Psicometría - Ness Uned ayuda para el estudio. Prohibida su venta. Solo para uso particular.
Psicomet
Tema 4: La Fiabilidad de las Puntuaciones 2016
2 2
b) Las varianzas de las puntuaciones empíricas obtenidas en 2 tests paralelos son iguales. S x = S x’
c) La correlación entre las puntuaciones empíricas obtenidas en 2 tests paralelos (rxx’) es igual al cuadrado de la
2
correlación entre las puntuaciones empíricas y las puntuaciones verdaderas (r xv) o bien, al
cociente entre la varianza de las puntuaciones verdaderas y la varianza de las puntuaciones
empíricas.
d) Dados 2 o más tests paralelos, las intercorrelaciones entre cada 2 de ellos son iguales.

Ü Interpretación teórica del coeficiente de Fiabilidad


Definimos el coeficiente de fiabilidad de un test, como: ... la correlación entre las puntuaciones empíricas obtenidas
por una muestra de sujetos en dos formas paralelas del test.
2
Se puede expresar también como el cociente entre la varianza de las puntuaciones verdaderas (S v) y la
2 2 2
varianza de las puntuaciones empíricas (S x). rxx’ = S v / S x
La proporción de la varianza de las puntuaciones empíricas de los sujetos se debe a la varianza de las puntuaciones
verdaderas, o lo que es lo mismo, la proporción de varianza verdadera que hay en la varianza empírica.
A medida que dicha proporción aumenta, disminuye el error de medida. Si rxx’ = 1, el error de medida es cero lo que
implica una fiabilidad perfecta. Sin embargo, a medida que dicha proporción disminuye se produce un incremento en
el error de medida. En el caso de que rxx’ = 0, la varianza de los errores de medida sería igual a la varianza de las
puntuaciones empíricas.
Ejemplo: Calcular el coeficiente de fiabilidad de un test de razonamiento abstracto, sabiendo que la varianza
2 2 2 2
verdadera de dicho test es el 80% de su varianza empírica. rxx’ = S v / S x = 0,80 S x / S x = 0,80
Para pasar del “coeficiente” al “índice de fiabilidad” calculamos la raíz cuadrada.
El coeficiente de fiabilidad de un test se puede expresar también en función de la varianza de los errores:

Podemos decir que el coeficiente de fiabilidad y la correlación entre las puntuaciones obtenidas por una muestra
de sujetos en 2 tests paralelos, nos proporciona información para poder estimar la cuantía del error de medida.

Ü Tipos de errores de medida


a) Error de Medida. Es la diferencia entre la puntuación empírica de un sujeto y su puntuación verdadera. E = X – V

Error “Típico” de Medida -> desviación típica de los errores de medida.


Cuando se calcula el error de medida obtenemos una medida individual del error que se comete; es decir, una
medida individual de la precisión del test. Cuando calculamos el error típico de medida estamos llevando a
cabo una medida grupal del error puesto que se calcula para todos los sujetos de la muestra.
b) Error de Estimación de la Puntuación Verdadera -> diferencia entre la puntuación verdadera de un sujeto y la
puntuación verdadera pronosticada mediante el modelo de regresión. E = V – V’
El Error Típico de Estimación de la puntuación verdadera, como la
desviación típica de los errores de estimación y viene expresado como:
c) Error de Sustitución -> diferencia entre las puntuaciones obtenidas por un sujeto en un test y las obtenidas en
otro test paralelo. e = X1 - X2
El Error Típico de Sustitución, es la desviación típica de los errores de sustitución.

d) Error de Predicción -> diferencia entre las puntuaciones obtenidas por un sujeto en
un test (X1) y las puntuaciones pronosticadas en ese mismo test (X’1) a partir de una
forma paralela X2.
El Error Típico de Predicción, es la desviación típica de los errores de
predicción.

Ü Factores que afectan a la fiabilidad


1. Longitud del Test

Uno de los factores que influyen en la fiabilidad de un test es su longitud (nº de ítems que lo componen).
Este documento no sustituye la Bibliografía Básica, es un complemento de
2 Psicometría - Ness Uned ayuda para el estudio. Prohibida su venta. Solo para uso particular.
Psicomet
Tema 4: La Fiabilidad de las Puntuaciones 2016
La relación entre la fiabilidad de un test y su longitud, siempre y cuando los ítems a añadir sean paralelos a los que
ya tenía el test original, se puede evaluar mediante la ecuación de Spearman-Brown.
Rxx = coeficiente de fiabilidad del test alargado o acortado.
rxx = coeficiente de fiabilidad del test inicial.
n = nº de veces que se ha alargado o acortado el test.
n = EF / EI (Elementos Finales entre Iniciales)
Ejemplo: Se aplica un test de percepción visual de 50 ítems a una muestra de sujetos y se obtiene un coeficiente
de fiabilidad de 0,60 (rxx). Veamos lo que sucede al incrementar n veces la longitud del test:
n = 2 serían 100 ítems, n = 3 serían 150 ítems y así sucesivamente.

A medida que aumenta el nº de ítems paralelos aumenta el coeficiente de fiabilidad del test, aunque no de una
manera proporcional. A partir de un determinado valor de n no se producen incrementos significativos en la fiabilidad.
¿Cuánto habría que alargar o acortar un test para obtener un determinado coeficiente de fiabilidad? y, ¿hasta qué
punto es razonable?. A través de la ecuación de Spearman-Brown. Despejando:

Queremos aumentar la fiabilidad del test hasta obtener un valor de 0,93.


Aplicando la expresión tenemos:

Para conseguir ese coeficiente de fiabilidad sería necesario hacer, aproximadamente, 9 veces más largo el test
original de 50 ítems. Es decir, el nuevo test tendría una longitud de: (De 0,60 a 0,9).

En ocasiones puede que estemos interesados en saber si es posible reducir el


nº de ítems, por ejemplo: un test compuesto de 100 ítems y un coeficiente de
fiabilidad de 0,85 (rxx). Supongamos que para nuestros objetivos un
coeficiente de fiabilidad de 0,75 (Rxx) es admisible: (Se reduce de 100 a 48)

2. Variabilidad de la Muestra
La fiabilidad de un test también depende de las características de la muestra a la que se aplica. Un test puede
presentar tantos coeficientes de fiabilidad como muestras distintas en las que se calcule. El coeficiente de fiabilidad
puede variar en función de la mayor o menor homogeneidad del grupo, siendo menor cuanto más homogéneo sea;
es decir, cuanto más pequeña sea la desviación típica de las puntuaciones empíricas obtenidas por los sujetos.
Supongamos dos grupos de sujetos 1 y 2. Partiendo del supuesto de que el error típico de medida de un test se
mantiene constante, independientemente de la variabilidad del grupo, podemos establecer la siguiente igualdad:

Ejemplo: Se aplica un test a una muestra en la que la desviación típica de las puntuaciones empíricas obtenidas es
igual a 20 y la razón entre la desviación típica de los
errores y la desviación típica de las puntuaciones
empíricas es 0,40. Aplicado el test a otra muestra de
sujetos en la que la desviación típica de las
puntuaciones empíricas es igual a 10, ¿cuál sería el
valor del coeficiente de fiabilidad del test?
Este documento no sustituye la Bibliografía Básica, es un complemento de
3 Psicometría - Ness Uned ayuda para el estudio. Prohibida su venta. Solo para uso particular.
Psicomet
Tema 4: La Fiabilidad de las Puntuaciones 2016
Ü La fiabilidad como equivalencia y como estabilidad de las medidas
Un test debe cumplir 2 requisitos básicos. En primer lugar debe medir el rasgo que realmente pretende medir (es
decir, ser válido) y, en segundo lugar, las puntuaciones empíricas obtenidas deben ser estables y precisas. La
precisión hace referencia a la necesidad de que, en la medida de lo posible, las puntuaciones obtenidas estén libres
de errores. La estabilidad se refiere a que cuando se evalúa un rasgo con el mismo test en distintas ocasiones y
bajo condiciones lo más parecidas posibles, siempre y cuando el rasgo estudiado no haya cambiado, se deberán
obtener unos resultados similares. Este segundo requisito, referido a la reproductividad de unos resultados en
condiciones similares, es lo que definimos como la fiabilidad del test, entendida como estabilidad de las medidas.
Grado de acuerdo entre las puntuaciones obtenidas en distintas aplicaciones.
1. Método de las formas paralelas (Coeficiente de Equivalencia)

La forma de proceder, según este método, sería: primero, construir 2 formas paralelas de un test X y X'', en
segundo lugar, aplicar las dos formas del test a una muestra de sujetos lo suficientemente amplia como para que
sea representativa de la población a la que va dirigido el test y, en tercer lugar, calcular el coeficiente de correlación
de Pearson entre las puntuaciones de los sujetos en ambas formas.
X1 y X2 corresponden a las puntuaciones obtenidas por
los sujetos en cada una de las formas aplicadas. El
coeficiente de fiabilidad así obtenido recibe también
el nombre de coeficiente de equivalencia, haciendo
referencia al grado en que ambas formas son
equivalentes.
El método de las formas paralelas presenta la ventaja de que, si ambas formas son aplicadas en el mismo momento
se tiene un mayor control de las condiciones en que los sujetos realizan las pruebas. Este método presenta el
inconveniente de la dificultad que supone la construcción de 2 formas que sean paralelas.

2. Método test-retest (Coeficiente de Estabilidad)


Con este método se aplica el mismo test en 2 ocasiones diferentes a una misma muestra de sujetos. Calculamos
el coeficiente de fiabilidad mediante la correlación entre las puntuaciones obtenidas por los sujetos en ambas
aplicaciones.
X1 y X2 corresponden, en este caso, a las puntuaciones
obtenidas por los sujetos en cada una de las
aplicaciones del mismo test. Son iguales.
Este método presenta la ventaja de que no requieren dos ó más formas distintas del mismo test. Con el método test-
retest, es el mismo test el que aplicaremos en distintas ocasiones. En el caso de que se pretendan medir rasgos que
pueden cambiar en el tiempo hay que extremar las precauciones si tenemos la pretensión de emplear este método ya
que se pueden encontrar diferencias en las puntuaciones obtenidas en las dos aplicaciones y no significar falta de
estabilidad sino que si realmente los sujetos han variado en el rasgo que se está midiendo, las diferencias pongan de
manifiesto ese cambio.
Inconvenientes que hay que tener presentes. Posible influjo de la memorización de algunos ítems que puede
interferir en la segunda aplicación. Un sujeto puede recordar la respuesta que haya dado a ciertos ítems y esto puede
provocar un aumento o disminución irreal de su puntuación y, consiguientemente, del valor de la correlación. El
efecto de variables de estas características sobre la repetición de un test puede llegar a ser un factor determinante en
el valor del coeficiente de fiabilidad.
Un segundo inconveniente es el intervalo de tiempo transcurrido entre una aplicación y otra. Es deseable
incrementar el tiempo entre aplicaciones para minimizar el efecto de aprendizaje o de memoria pero, al mismo
tiempo, un incremento demasiado grande, hace que aumente la posibilidad de que el rasgo que estamos estudiando
haya variado debido a la influencia de factores sociales, afectivos o incluso evolutivos propios del sujeto y esto puede
incidir en una infraestimación del coeficiente de fiabilidad.
Una última cuestión es la propia actitud del sujeto. Un cambio en el grado de cooperación por parte de un sujeto
puede provocar, deliberadamente, una puntuación más baja o más alta, que daría como resultado un coeficiente de
fiabilidad más bajo o más alto.
Teniendo en cuenta estos aspectos, y si las condiciones de aplicación son lo más parecidas posibles, los resultados
obtenidos indicarán el grado de estabilidad en las puntuaciones obtenidas. Al coeficiente de fiabilidad así obtenido
se le denomina también coeficiente de estabilidad.

Este documento no sustituye la Bibliografía Básica, es un complemento de


4 Psicometría - Ness Uned ayuda para el estudio. Prohibida su venta. Solo para uso particular.
Psicomet
Tema 4: La Fiabilidad de las Puntuaciones 2016
Ü La fiabilidad como consistencia interna
Existen situaciones en las cuales solamente es posible llevar a cabo una única aplicación de un test; situaciones en
las que la aplicación de cualquiera de los 2 métodos que acabamos de describir no sea factible, o donde un análisis
de la estabilidad o la equivalencia de las medidas no constituya nuestro fin prioritario.
Métodos para estimar la fiabilidad de un test que sólo requieren una aplicación. Unos hacen referencia a la
división del test en dos mitades. Otros requieren un análisis de la varianza y covarianza de las respuestas de los
sujetos a los ítems. Las diferentes técnicas aportan un índice de la consistencia interna de las respuestas de los
sujetos a los ítems del test en una sola aplicación.
1. Métodos basados en la división del test en dos mitades (Consistencia Interna)
El método de las dos mitades presenta una ventaja sustancial respecto a los otros 2 métodos. Esta ventaja reside en
el hecho de que consideramos las puntuaciones obtenidas en una única aplicación de un test, con lo cuál, la
estimación de la fiabilidad no se ve afectada por factores como el intervalo de tiempo transcurrido y otra, la memoria,
el aprendizaje, etc., y supone un ahorro de tiempo y esfuerzo.
Básicamente se trataría de aplicar el test a una muestra de sujetos y, una vez obtenidas las puntuaciones dividir el
test en dos mitades, calculando, posteriormente, la correlación entre las puntuaciones obtenidas por los sujetos en
ambas partes y aplicar, a continuación, una fórmula de corrección.
La división del test en dos mitades no es siempre una labor tan sencilla. Las mitades del test deberán ser similares en
dificultad y contenido para que la correlación entre las puntuaciones se aproxime al valor máximo. Uno puede
cuestionarse si efectivamente las medias, varianzas y el contenido de los ítems son realmente similares o no, y, por
lo tanto, si este método es adecuado en todo tipo de situaciones.
El hecho de conseguir una igualdad de los valores de la media y la desviación típica es posible con este tipo de
agrupamiento, pero como establece Gulliksen (1987) corremos el peligro de agrupar ítems análogos en un solo lado,
con lo que pudiera ocurrir que las dos mitades no fueran iguales en cuanto a contenido. Formas de hacerlo:
1. Una primera forma consistiría en dividir el test por la mitad, es decir, considerar los primeros (n/2) ítems como
una mitad y los últimos (n/2) ítems como la segunda mitad. Esta forma de dividir el test puede presentar
inconvenientes, puesto que muchos tests están formados por ítems cuya dificultad se va incrementando y, por lo
tanto, las dos mitades no serían equivalentes; en el caso de tests con contenidos heterogéneos las dos mitades
no serían comparables, y en el caso de tests con un número elevado de ítems hay que tener en cuenta el efecto
del cansancio de los sujetos.
2. Una segunda aproximación al problema consistiría en definir una forma con todos los elementos pares y una
segunda forma con todos los elementos impares, con lo cual reducimos significativamente los problemas
planteados por la forma anterior.
3. Una tercera forma de abordar el problema puede ser ordenar los ítems en función de su grado de dificultad,
calculando para ello el índice de dificultad de cada ítem, y subdividirlos en pares e impares.
4. Una cuarta forma, aunque no recomendable, podría consistir en la asignación de los ítems al azar a cada mitad.
Normalmente, dado que cuando los ítems del test son de dificultad creciente aparecen ya ordenados a lo largo del
test, la forma más utilizada en la división del test en dos mitades, es asignar a una de las mitades los elementos
pares y a la otra los impares.
Cuando se utiliza el método de las dos mitades la fiabilidad se puede estimar aplicando cualquiera de las
siguientes fórmulas: Spearman-Brown, Rulon, Guttman-Flanagan.

Ø Spearman-Brown: constituye una de las formas más utilizadas para estimar la fiabilidad de un test por el
método de las dos mitades. Está basada en la relación existente entre la longitud de un test y el coeficiente de
fiabilidad. En primer lugar aplicamos el test a una muestra de sujetos. Una vez aplicado el test, dividimos éste
en dos mitades que han de ser paralelas. A continuación calculamos la correlación entre las puntuaciones
obtenidas por los sujetos en ambas partes. La correlación correspondería al coeficiente de fiabilidad de cada una
de las mitades del test, pero como lo que queremos es calcular la fiabilidad del test completo,
para ello aplicamos la ecuación de Spearman-Brown para el caso de longitud doble:

Ejemplo: 20 ítems a una muestra de 6 sujetos. Los resultados que se presentan a continuación corresponden a
las puntuaciones que dichos sujetos obtuvieron en los ítems pares (X1) e impares (X2). Calcular el coeficiente de
fiabilidad suponiendo que las dos mitades del test sean paralelas.
Rxx = 2rxx / 1 + rxx = 2 (0,342) / 1 + 0,342 = 0,51
Este documento no sustituye la Bibliografía Básica, es un complemento de
5 Psicometría - Ness Uned ayuda para el estudio. Prohibida su venta. Solo para uso particular.
Psicomet
Tema 4: La Fiabilidad de las Puntuaciones 2016
Para calcular la correlación usamos el modo de la calculadora donde se meten dos
columnas y luego obtenemos r (correlación). Nos da 0,3422.

El coeficiente de fiabilidad de cada una de las mitades es 0,35 aproximadamente,


pero el del test total es 0,51. Se trata de un coeficiente medio ya que el valor máximo
es la unidad. Hemos asumido que las 2 mitades son paralelas. Para aplicar este
procedimiento de forma estricta se debería haber hecho previamente la
comprobación analizando, la igualdad de las medias de ambas mitades y la igualdad
de los errores típicos.

Ø Rulon: La fórmula de Rulon para la estimación de la fiabilidad de un test según el método de dos mitades se
utiliza cuando, aún no siendo las dos mitades definidas estrictamente paralelas, podemos considerarlas τ-
equivalentes (tau-equivalentes) o esencialmente τ-equivalentes. Lord y Novick (1968) definen los tests τ
equivalentes como aquellos en los que las puntuaciones verdaderas de los sujetos de una muestra son iguales
en ambas formas, pero las varianzas de error no tienen porqué ser iguales, y definen los tests esencialmente
(τ) tau-equivalentes como aquellos en los que la puntuación verdadera de cada sujeto en uno de los tests es
igual a la del otro más una constante. Tanto en una situación como en otra se asume el cumplimiento del
supuesto de igualdad de las varianzas verdaderas de ambas mitades. Calculados los valores de las puntuaciones
en los ítems pares e impares, se calcula la diferencia entre ellas y, a continuación, su varianza (varianza de la
diferencia entre las puntuaciones).

d = diferencias entre las puntuaciones de los elementos pares e impares.


2 2
S d = S p-i = varianza de la diferencia entre las puntuaciones pares e impares.
2
S x = varianza de las puntuaciones empíricas de los sujetos.

Ejemplo: test de fluidez verbal compuesto 6 ítems a 6 sujetos. Puntuaciones empíricas obtenidas por los sujetos
en el test total, así como las obtenidas en los elementos pares
e impares. Calcular el coeficiente de fiabilidad.

X = 4+1+6+2+3+5 / 6 = 3,5 Xd = 2+1+0+0-1-1/6 = 0,17


2 2
S x = 2,92 S d = 1,14

rxx = 1 – 1,14 / 2,92 = 0,61 -> Coeficiente de Fiabilidad Medio

Ø Guttman-Flanagan: Flanagan y Guttman, de forma independiente llegaron a una fórmula equivalente


a la de Rulon, de mayor sencillez de aplicación.
Tanto la ecuación de Rulon como la de Guttman-Flanagan proporcionan el mismo valor de la
fiabilidad por ser expresiones equivalentes.

Ejemplo: Con los datos del ejercicio anterior, calcular el CF utilizando la fórmula de Guttman-Flanagan.

rxx = 2 (1- (0,81 + 1,22) / 2,92) = 0,61 -> Nos da el mismo resultado que para Rulon.

2. Métodos basados en la covariación entre los ítems


Al hablar de la fiabilidad como consistencia interna hemos hecho alusión a 2 formas de abordar el tema. Una forma
es la basada en la división del test en dos mitades. La segunda requiere un análisis de la varianza y covarianza
de las respuestas de los sujetos a los ítems. El coeficiente obtenido proporciona una estimación de la
consistencia interna de los ítems del test. Los métodos más frecuentes para estimar la fiabilidad de un test en estas
condiciones son: el coeficiente alpha de Cronbach, o los coeficientes KR20 y KR21 de Kuder-Richardson. Tanto
KR20 como KR21 pueden ser considerados como casos particulares del coeficiente de Cronbach, en el caso de que
los ítems sean dicotómicos.

Ø Coeficiente alfa (α) de Cronbach: constituye un indicador de la consistencia interna del test. Este coeficiente
expresa la fiabilidad del test en función del número de ítems y de la proporción de la varianza total del test debida
a la covariación entre los ítems. Cuanto más covaríen los ítems entre sí mayor será la fiabilidad del test.

n = número de elementos del test.


ΣSj = suma de las varianzas de los elementos del test.
ΣΣcov (jk) = suma de las covarianzas de los ítems.
2
S x = varianza de las puntuaciones en el test.
r1 = cociente entre la covarianza media de los ítems y su varianza media
Este documento no sustituye la Bibliografía Básica, es un complemento de
6 Psicometría - Ness Uned ayuda para el estudio. Prohibida su venta. Solo para uso particular.
Psicomet
Tema 4: La Fiabilidad de las Puntuaciones 2016
Ejemplo: Test de percepción visual a una muestra de 6 sujetos. Puntuaciones que los sujetos obtuvieron en cada
uno de los 5 ítems que forman el test. Se desea saber el valor del coeficiente de fiabilidad del test.

17
15
6 1,67+1,81+0,55+0,92+1,89 14
α = ---- ( 1- ------------------------------------- ) = 0,90 7
6
5 27,22 3

2
27,22 S = 1,67 1,81 0,55 0,92 1,89
Calculamos las varianzas y sustituimos.
Si los ítems son dicotómicos (0 y 1), coincide con el KR20.

Ejemplo-2: Siendo la covarianza media entre todos los elementos de un test igual a 0’25, averiguar el coeficiente de
fiabilidad del test, sabiendo que está compuesto por 10 ítems y que la varianza empírica es igual a 40 puntos.

Para resolver el problema hay que partir de que la varianza de una variable compuesta, suma de otras variables, es
igual a la suma de las varianzas de todas las variables más la de las covarianzas, o bien a la suma de las varianzas
más los n(n-1) términos de covarianza media:

⇒ Estimador insesgado de α: El estimador insesgado de alpha propuesto por


Feldt, Woodruff y Salih se expresa como:

A medida que aumenta el número de sujetos de la muestra, el valor del α encontrado y el


valor del estimador insesgado se aproximan, siendo iguales cuando N -> ∞. En la práctica,
a partir de 100 sujetos, se pueden considerar insignificantes las diferencias encontradas.
Es decir, que el estimador insesgado es igual al valor alpha de Cronbach cuando N tiende
al infinito.

Supongamos que en una muestra de 150 sujetos se les ha aplicado un test y se ha


obtenido un valor de alpha = 0,75.

Como se puede apreciar, a partir de 100 sujetos la diferencia encontrada entre ambos
estimadores es insignificante. Si por el contrario tuviéramos una muestra de 20 sujetos, las
diferencias serían mayores.

⇒ El coeficiente α como límite inferior del coeficiente de fiabilidad: El coeficiente a puede ser
considerado como una estimación del límite inferior del coeficiente de fiabilidad de un test, siendo su valor menor
o igual que el coeficiente de correlación rxx:
El coeficiente alpha es igual al coeficiente de fiabilidad, rxx, cuando los ítems del test sean paralelos.
Otro estimador del límite inferior del coeficiente de fiabilidad es el coeficiente δ
(delta) propuesto por Guttman:

⇒ Inferencias sobre α: Algunos problemas referidos a las inferencias acerca del


coeficiente alpha, dieron lugar, a principios de los años 60, al desarrollo de la teoría muestral para el coeficiente
alpha. Kristof y Feldt, de forma independiente, derivaron un estadístico de contraste del coeficiente alpha,
que se distribuye según una distribución F de Snedecor, a partir del cuál se puede determinar un intervalo
confidencial para el valor de α en la población.

a) Inferencias para un solo valor de Alpha: Cuando estamos interesados en saber si alpha
puede tomar un determinado valor en la población o, entre qué valores se encuentra alpha en la
población, podemos aplicar el estadístico propuesto por Kristof y Feldt. Una vez que hayamos
obtenido un determinado valor en una muestra de sujetos, podemos plantearnos la hipótesis de si
el valor obtenido es compatible con el hecho de que alpha tome un determinado valor en la población.

Este documento no sustituye la Bibliografía Básica, es un complemento de


7 Psicometría - Ness Uned ayuda para el estudio. Prohibida su venta. Solo para uso particular.
Psicomet
Tema 4: La Fiabilidad de las Puntuaciones 2016
Ejemplo: Supongamos que hemos aplicado un test de percepción espacial compuesto de 35 ítems a una
muestra de 60 alumnos de Bachillerato, y que hemos obtenido un a = 0,83. Deseamos saber, en primer lugar, si
dicho coeficiente es estadísticamente significativo y, en segundo lugar, entre qué valores se encontrará el
coeficiente alfa en la población (nivel de confianza del 95%).
La primera cuestión se refiere a si el valor del coeficiente Alpha obtenido es estadísticamente significativo o no.
La hipótesis nula que se plantea es H0: α = 0, y como hipótesis alternativa H1 ≠ 0. (Bilateral)

n = 35 (Ítems)
N = 60 (Sujetos) F = 1-0 / 1- 0,83 = 5,88
α = 0,83 (Muestra)

gl1 = (N-1) = 60-1 = 59


gl2 = (N-1) (n-1) = 59 * 34 = 2006 -> F0975 (59,2006) = 1,39 y 1/F (2006,59) = 1/1,48 = 0,68

Como el valor está fuera del intervalo establecido, se rechaza H0. Es significativo.

La segunda cuestión que nos planteamos es cómo determinar los valores entre los que se encontrará el
coeficiente a de la población. (Intervalo)

0,17 * 0,67 = 0,11 -> 1-0,11 = 0,89

b) Inferencias sobre alfa para muestras independientes:


b.1) Dos muestras Independientes: Para el caso de dos muestras independientes, Feldt propuso el estadístico de
contraste W que permite comprobar la Ho: α1 = α2

Ejemplo: Test de razonamiento, a una muestra de 121 sujetos, obteniendo un valor de alfa igual a 0,55. Se aplicó el
mismo test a otra muestra de 61 sujetos, obteniéndose un valor de alfa igual a 0,62. Queremos saber si existen
diferencias estadísticamente significativas entre los valores de ambos coeficientes (N.C. 95%).

α (gorro) = valores de Alpha para las muestras α1 = 0,55 y α2 = 0,62


W = se distribuye según F (N1-1) y (N2-1) N1 = 121 y N2 = 61
N1 y N2 = sujetos de las muestras

W = 1-0,55 / 1-0,62 = 1,18 -> Buscamos en F 0,975 (120,60) = 1,58 y F1/(60,120) = 1/ 1,53 = 0,65. Como 1,18 está
entre los valores, no se rechaza y no es significativa.

b.2) “K” Muestras Independientes: Woodruff y Feldt ampliaron el estudio de Feldt para el
caso de «K» coeficientes obtenidos en K muestras independientes. (No lo han puesto
nunca)

EJEMPLO: Se ha aplicado un test compuesto por 50


ítems a tres muestras independientes de 25, 40 y 50
sujetos. Para cada una de estas muestras se obtuvieron
los siguientes valores de alfa: α1 = 0,55, α2 = 0,70 y α3
= 0,75. Deseamos saber si existen diferencias
estadísticamente significativas para los valores de alfa
obtenidos (N.C. 95%).

Este documento no sustituye la Bibliografía Básica, es un complemento de


8 Psicometría - Ness Uned ayuda para el estudio. Prohibida su venta. Solo para uso particular.
Psicomet
Tema 4: La Fiabilidad de las Puntuaciones 2016

c) Inferencias sobre alfa para muestras Dependientes (Relacionadas): En algunos diseños experimentales es
posible administrar distintas pruebas a la misma muestra de sujetos. Woodruff y Feldt.

c.1) Dos muestras Dependientes: estadístico de contraste “t” para 2 valores de alpha obtenidos a partir de una
misma muestra de sujetos. Feldt recomienda el empleo de este estadístico cuando N • n ≤ 1.000, siendo N igual al
número de sujetos y n el número de ítems. Solo hay una N y nos dan la correlación. El estadístico se expresa como:

Ejemplo: 2 test de percepción visual a una muestra de 125 sujetos. Correlación 0,70. Valores Alpha = 0,75 y 0,84.
¿La diferencia entre ambos es significativa? N.C. 95% - Ho: α1 = α2 – La diferencia es significativa.

c.2) “K” muestras Dependientes: Para el caso de “K” muestras, Woodruff y Feldt presentaron una serie de
estadísticos de contraste entre los que cabe resaltar, por sencillez de aplicación y gran precisión, el estadístico UX2.
Igual que el de Independientes, no lo han puesto nunca.

Ø Casos particulares del coeficiente α:


Fiabilidad de un test en el caso de que los ítems que lo componen sean dicotómicos. Las ecuaciones de Kuder-
Richardson representan un caso particular del coeficiente “alpha” de Cronbach, en el supuesto de que los ítems sean
dicotómicos. Esta estimación es una función del número de ítems y sus intercorrelaciones. Cuanto mayor sea el
número de ítems, y cuanto mayor sea el valor de sus covarianzas, mayor será su consistencia interna, y
mayor será la fiabilidad. Dicotómico = 1 -> acierto, 0 -> fallo.
El coeficiente “alpha” puede expresarse:

Sabemos que la varianza de una variable dicotómica cualquiera, “h”, con proporción
de aciertos ph, y proporción de errores qh, siendo qh = 1 – ph, podemos expresarla: S2h = phqh

n = nº de elementos del test


ph = proporción de aciertos
qh = proporción de errores
phqh = varianza del elemento h
S2x = Varianza total del test

Este documento no sustituye la Bibliografía Básica, es un complemento de


9 Psicometría - Ness Uned ayuda para el estudio. Prohibida su venta. Solo para uso particular.
Psicomet
Tema 4: La Fiabilidad de las Puntuaciones 2016
Si los ítems que forman el test, además de ser dicotómicos, presentan la misma dificultad, podemos
calcular la fórmula KR21:

npq = suma de las varianzas de los elementos. Si son iguales las varianzas se
sustituye el signo sumatorio por “n” veces la misma varianza.

La expresión se puede simplificar usando la media:

Ejemplo: Supongamos un test (A) de fluidez verbal y otro test (B) de


comprensión lectora, cuyas puntuaciones aparecen en las siguientes matrices
de datos. El test de fluidez verbal sólo admite 2 posibles puntuaciones, 1 y 0.
Calcular el valor del coeficiente de fiabilidad de ambos tests.

20
17

18
9
8
4

Calculamos la Media de X = 3,17 para Test A S2 = 1,67 1,81 0,55 0,92 1,89 0,89 35,22
Y la Varianza de X = 4,45 de P = 1,58, I = 1,89 y d = 2,47

X Aciertos P-I
Pares Impares d
6 3 3 0
5 2 3 -1
4 1 3 -2
3 3 0 3
0 0 0 0
1 0 1 -1

p1= 4/6 = 0,67 q1 = 1 – 0,67 = 0,33 p1q1 = 0,67 * 0,33 = 0,22


p2= 3/6 = 0,50 q2 = 1 – 0,50 = 0,50 p2q2 = 0,50 * 0,50 = 0,25
p3= 3/6 = 0,50 q3 = 1 – 0,50 = 0,50 p3q3 = 0,50 * 0,50 = 0,25
p4= 2/6 = 0,33 q4 = 1 – 0,03 = 0,67 p4q4 = 0,33 * 0,67 = 0,22
P5= 3/6 = 0,50 q5 = 1 – 0,50 = 0,50 p5q5 = 0,50 * 0,50 = 0,25
p6= 4/6 = 0,67 q6 = 1 – 0,67 = 0,33 p6q6 = 0,67 * 0,33 = 0,22

3. Coeficientes basados en el análisis factorial de los ítems: Theta (θ) y Omega (Ω)
Los coeficientes Theta y Omega constituyen 2 indicadores de la consistencia interna de los ítems de un test y una
aproximación al coeficiente alpha. Se trata de dos coeficientes basados en el análisis factorial de los ítems.
El coeficiente Theta se puede expresar mediante la siguiente fórmula:
Es además un indicador de la unidimensionalidad de los ítems. Cuanto mayor sea la varianza
que explica el primer factor mayor será el valor de theta y, por consiguiente, la
intercorrelación entre los ítems, lo que implica que se distribuyan en torno a una sola dimensión.

Una forma sencilla de expresar el coeficiente Omega es en función de las correlaciones entre los
ítems:
Este documento no sustituye la Bibliografía Básica, es un complemento de
10 Psicometría - Ness Uned ayuda para el estudio. Prohibida su venta. Solo para uso particular.
Tema 4: La Fiabilidad de las Puntuaciones 2016
Ejemplo: En la siguiente tabla aparecen los valores de la varianza explicada por los 5 factores obtenidos tras
someter a un análisis factorial a 5 variables. La suma de las comunalidades es igual a 4.95 y la suma de las
correlaciones entre los ítems es igual a 5.1. Calcular el valor de los coeficientes Theta y Omega.

4. El coeficiente beta (β) de Raju

Cronbach introdujo el coeficiente alfa como una medida de la consistencia interna de un test. En el caso de que un
test se divida en varios subtests, con desigual número de ítems, y se quiera estimar la consistencia interna del test
total a partir de las puntuaciones totales de los sujetos en los subtests, el coeficiente alfa presenta el problema de que
proporciona un valor infraestimado de la fiabilidad.

El coeficiente β propuesto por Raju permite superar este problema y proporciona una estimación adecuada de la
fiabilidad de un test compuesto de varios subtests con distinto número de ítems. Se aplica este coeficiente cuando se
desconocen las puntuaciones de los sujetos en los ítems de los distintos subtests. En el caso de conocer los valores
de estas puntuaciones es mejor emplear el coeficiente α.

El coeficiente β viene dado por la expresión:

Ejemplo: Hemos aplicado un test de destreza manual, compuesto de 4 subtests, a una muestra de 200 empleados.
Los subtests están compuestos por A = 18, B = 30, C = 45 y D = 55 ítems respectivamente (148). La varianza total
2 2 2 2
del test es igual a 50 y las varianzas de los respectivos subtests iguales a S a = 5, S b= 7, S c = 9 y S d = 11.
Calcular el valor de los coeficientes α y β.

En el caso de que los distintos subtests contengan el mismo número


de ítems, entonces el coeficiente β es igual al coeficiente α.

Ü Estimación de la puntuación verdadera de los sujetos en el atributo de interés

Hacer estimaciones acerca del valor de la puntuación verdadera de un sujeto en un test y del error que afecta a las
puntuaciones empíricas obtenidas en el mismo. No podemos calcular el valor exacto de la puntuación verdadera de
un sujeto, pero sí establecer un intervalo confidencial dentro del cual se encontrará dicha puntuación con un
determinado nivel de confianza. 3 formas de llevar a cabo esta estimación:

1) La primera mediante la desigualdad de Chebychev.

Si no se hace ningún supuesto sobre la distribución de las puntuaciones empíricas o de los errores, se aplica la
desigualdad de Chebychev. Usando los datos del ejemplo para las 3 formas.

[X – K * Se ≤ V ≤ X + K * Se] -> 65 - 4,47 * 3,64 ≤ V ≤ 65 + 4,47 * 3,64 = 48,73 ≤ V ≤ 81,27


Se = Sx √1 – rxx’ = 7 (√1-0,73) = 3,64
2
1- 1/K -> Para saber K hay que despejar. Para un nc 95% = 1- 1/K2 = 0,95 -> 1/K2 = 1-0,95 -> K2 = 1/0,05 -> K2 = √20 = 4,47

Este documento no sustituye la Bibliografía Básica, es un complemento de


11 Psicometría - Ness Uned ayuda para el estudio. Prohibida su venta. Solo para uso particular.
Tema 4: La Fiabilidad de las Puntuaciones 2016
2) La segunda basada en la distribución normal de los errores. Este método asume una distribución normal de
los errores. Para la determinación del intervalo confidencial dentro del que se encontrará la puntuación verdadera
del sujeto seguiremos los siguientes pasos:
• Se fija un nivel de confianza y se determina el valor Zc correspondiente buscándolo en la tabla de distribución
normal. Por ejemplo, para un nivel de confianza del 95% tendremos un valor Zc igual a 1,96.
• Calcular el error típico de medida Se. Se = Sx √1 – rxx’ para puntuaciones directas o diferenciales Sze = √1 – rxx’
para puntuaciones típicas.
• Calcular el error de medida máximo que estamos dispuestos a admitir. Este error de medida se verá afectado
también por el nivel de confianza adoptado. Emáx = Zc * Se
• Calcular el intervalo confidencial en el que se encontrará la puntuación verdadera. IC = X ± Emáx

a) Intervalo en Directas: [X – Z * Se ≤ V ≤ X + Z * Se]


Se = Sx √1 – rxx’

b) Intervalo en Diferenciales: x (minúscula) que es igual x = X – X -> [x – Z * Se ≤ v ≤ x + Z * Se]

c) Intervalo en Típicas: [Zx – Z * Se ≤ Zv ≤ Zx + Z * Se] -> Zx = X – X / Sx -> Se = √1 – rxx’ (por la Sx que es 1)

Ejemplo: Habiendo administrado a una muestra de 200 sujetos (N), un test de razonamiento numérico, se obtuvieron
los siguientes resultados: Estimar la puntuación VERDADERA, de un sujeto que obtuvo una puntuación empírica X =
65; Media = 52; Sx = 7; rxx’ = 0,73 y con un NC = 0,95 -> 1,96 (en directas, diferenciales y típicas).

Directas: [X – Z * Se ≤ V ≤ X + Z * Se] -> 65 – 1,96 * (7 √1 – 0,73) ≤ V ≤ 65 + 1,96 * (7 √1 – 0,73) = 57,87 ≤ V ≤ 72,13


Diferenciales: [x – Z * Se ≤ v ≤ x + Z * Se] -> 13 – 1,96 * 3,64 ≤ v ≤ 13 + 1,96 * 3,64 = 5,87 ≤ V ≤ 20,13
Típicas: [Zx – Z * Se ≤ Zv ≤ Zx + Z * Se] -> 1,86 – 1,96 * 0,52 ≤ Zv ≤ 1,86 – 1,96 * 0,52 = 0,84 ≤ Zv ≤ 2,88

El intervalo en Diferenciales y Típicas puede ser positivo o negativo.

3) La tercera basada en el modelo de regresión lineal de mínimos cuadrados. Mediante el método de regresión
podemos hacer estimaciones puntuales de la puntuación verdadera (V) a partir de la puntuación empírica (X). A
posteriori se pueden establecer intervalos de confianza en torno a la puntuación verdadera pronosticada.

a) En puntuaciones Directas:

b) En puntuaciones Diferenciales:

En minúsculas. x = X – X -> [v’ – Z * Sxv ≤ v ≤ v’ + Z * Sxv]


v’ = rxx’ * x
Sxv = Sx √1 – rxx’ √rxx’ (Igual que en Directas). La media siempre es 0 y la varianza coindice con las directas

c) En puntuaciones Típicas:

Zv’ – Z * SzxSzv ≤ v ≤ Zv’ + Z * Szxzv


Zv’ = √rxx’ * Zx
Zx = X – X / Sx
SzxSzv = √1 – rxx’ √rxx’

Como en Diseños, dependiendo del nivel de confianza, Z valdrá = 1,64(90%) o 1,96(95%) o 2,33(99%)

Ejemplo: Habiendo administrado a una muestra de 200 sujetos (N), un test de razonamiento numérico, se obtuvieron
los siguientes resultados: Estimar la puntuación VERDADERA, de un sujeto que obtuvo una puntuación empírica X =
65; Media = 52; Sx = 7; rxx’ = 0,73 y con un NC = 0,95 -> 1,96 (en directas, diferenciales y típicas).

Ü Directas -> Intervalo = [V’ – Z * Sxv ≤ V ≤ V’ + Z * Sxv] -> La operación en negrita es el “Error Máximo”.

V’ = rxx’ (X-X)+ X = 0,73 (65 – 52) + 52 = 61,49


Svx = Sx √1 – rxx’ √rxx’ = 7 √1 – 0,73 √0,73 = 3,11 -> Error típico de estimación
La primera parte de Sxv también es Se, es decir, que es Sxv = Se √rxx’
Este documento no sustituye la Bibliografía Básica, es un complemento de
12 Psicometría - Ness Uned ayuda para el estudio. Prohibida su venta. Solo para uso particular.
Tema 4: La Fiabilidad de las Puntuaciones 2016

61,49 – 1,96 * 3,11 ≤ V ≤ 61,49 – 1,96 * 3,11


55,39 ≤ V ≤ 67,59 (Intervalo de Confianza o Confidencial en Puntuaciones Directas)

Ü Diferenciales -> Intervalo = [v’ – Z * Sxv ≤ v ≤ v’ + Z * Sxv] -> Solo cambia la v’ la Svx o Sxv es la misma

v’ = rxx’ * x = 0,73 * 13 = 9,49


x = X – X = 65 – 52 = 13

9,49 – 1,96 * 3,11 ≤ v ≤ 9,49 + 1,96 * 3,11


3,39 ≤ v ≤ 15,59

Si restamos la media a los valores de los intervalos de las puntuaciones directas, nos dará el intervalo diferencial

Ü Típicas -> Intervalo = [Zv’ – Z * Szxzv ≤ v ≤ Zv’ + Z * Szxzv]

Zv’ = √rxx’ * Zx = √0,73 * 1,86 = 1,59


Zx = X – X / Sx = 65 – 52 / 7 = 1,86
SzxSzv = √1 – rxx’ √rxx’ = √1 – 0,73 √0,73 = 0,44

[1,59 – 1,96 * 0,44 ≤ v ≤ 1,59 + 1,96 * 0,44]


0,73 ≤ v ≤ 2,45

Ü Fiabilidad de una batería de tests

Se trata de calcular la fiabilidad de la batería en función de los coeficientes de fiabilidad, varianzas y covarianzas de
los subtests que la van a conformar.

Este documento no sustituye la Bibliografía Básica, es un complemento de


13 Psicometría - Ness Uned ayuda para el estudio. Prohibida su venta. Solo para uso particular.

También podría gustarte