Psychology">
Ultimo Trabajo de Eduardo Milano Psicometria I (Realizado)
Ultimo Trabajo de Eduardo Milano Psicometria I (Realizado)
Ultimo Trabajo de Eduardo Milano Psicometria I (Realizado)
VICERECTORADO ACADÉMICO
FACULTAD DE CIENCIAS ADMINISTRATIVAS Y SOCIALES
MARACAY – VENEZUELA
CÁTEDRA: PSICOMETRÍA I
CÓDIGO: FEB–74S
Cálculo de la validez
La validez de constructo se determina mediante el procedimiento denominado
"análisis de factores". Su aplicación requiere de herramientas estadísticas o en
todo caso de programas de computadora que evalúen las variables según las
pruebas. En el proceso de estandarización se determinan las normas para su
aplicación e interpretación de resultados, es así que para la aplicación de una
prueba debe hacerse bajo ciertas condiciones, las cuales deben cumplir, tanto
quienes la aplican, como a quienes se les aplica.
Un ejemplo de test estandarizado es el WAIS (Escala Wechsler de Inteligencia
para Adultos), el cual fue desarrollado por primera vez en 1939 por David
Wechsler y fue llamada entonces el Wechsler-Bellevue Intelligence Test.
Las escalas de Wechsler introdujeron muchos conceptos novedosos e
innovaciones al movimiento de los tests de inteligencia. Primero, Wechsler se
deshizo de las puntuaciones de cociente de tests más viejos, (la C en "CI"). En
lugar de eso, asignó un valor arbitrario de cien a la inteligencia media y agregó o
sustrajo otros 15 puntos por cada desviación estándar arriba o abajo de a media
en la que se encontraba el sujeto. Rechazando un concepto de inteligencia global
(como el propuesto por Spearman), dividió el concepto de inteligencia en dos
áreas principales: área verbal y área de ejecución (no-verbal), cada una
subdividida y evaluada con diferentes subtests. Estas conceptualizaciones aún se
reflejan en las versiones más recientes de las escalas de Wechsler.
Índice de homogeneidad (H o IH). Consiste en calcular la correlación entre cada
ítem y la puntuación total en el cuestionario o test por tanto se suma de todos los
ítems.
Si el ítem analizado mide lo mismo que el resto de ítems, el índice de
homogeneidad será elevado, de manera que los sujetos que puntúan alto en el
ítem, también tenderán a puntuar alto en el cuestionario, y los sujetos que puntúan
bajo en el ítem, tenderán a puntuar bajo en el cuestionario.
Ahora bien, el índice de homogeneidad, llamado a veces índice de discriminación,
de un ítem/reactivo/pregunta (Hj), se define como la correlación de Pearson entre
las puntuaciones X en el total del test y las puntuaciones de los N sujetos en el
ítem j. Puede considerare a la sumatoria de las X como el constructo de referencia
contra el cual deben contrastarse las puntuaciones de cada ítem.
Si el ítem analizado mide lo mismo que el resto de ítems, el índice de
homogeneidad será elevado, de manera que los sujetos que puntúan alto en el
ítem, también tenderán a puntuar alto en el cuestionario, y los sujetos que puntúan
bajo en el ítem, tenderán a puntuar bajo en el cuestionario. Si el índice de
homogeneidad es bajo o cercano a cero, entonces el ítem analizado no mide lo
que mide el resto de ítems. Likert denominó a los ítems con un índice de
homogeneidad bajo como ítems indiferenciadores (Likert, 1932).
Los ítems indiferenciadores aportan escasa o ninguna información útil sobre la
actitud que se está midiendo, por ello no tiene sentido combinarlos con el resto de
ítems para obtener una puntuación total, según McIver y Carmines (1981).
Además, como demuestra la Teoría Clásica de los Tests, su uso puede perjudicar
a la fiabilidad y a la validez del test. Por todo ello, los ítems indiferenciadores
deben eliminarse.
Cuando un Hj es negativo y alto, debemos cuestionar el sistema de cuantificación
de las respuestas que se ha seguido en ese ítem. Si un ítem obtiene una
correlación negativa y alta con el total de la prueba, seguramente es debido a que
se ha cuantificado erróneamente el ítem (se ha tomado como directo siendo
inverso, o viceversa).
Algunas características de los índices de homogeneidad, pueden ser:
Refleja que un ítem está midiendo la variable o constructo que la prueba en
general quiere medir o evaluar
Es el grado en que dicho ítem está midiendo lo mismo (el constructo) que la
prueba globalmente
el grado de semejanza, de relación entre las respuestas de un ítem y el
resto de los ítems del test, que representan el constructo
permite identificar el grado en que el ítem mide la misma variable que los
demás ítems
grado o nivel en que un ítem contribuye a la homogeneidad o consistencia
interna del test
informa del grado en que dicho ítem está midiendo lo mismo que la
globalidad del test; es decir, del grado en que es consistente, homogéneo
con el total de la prueba
la correlación existente entre las puntuaciones obtenidas por los sujetos en
un determinado ítem y la puntuación total de esos mismos sujetos en el test
completo
Índice de homogeneidad corregido (Hc o IHc)
El cálculo del índice de homogeneidad como la correlación entre la puntuación en
el ítem y la puntuación en el test (en adelante, correlación ítem-test) tiene el
siguiente inconveniente: la puntuación total en el test incluye al ítem como
componente, es decir, el ítem analizado aparece en las dos variables que se
correlacionan, y esto aumentará artificialmente el coeficiente de correlación que se
obtenga.
Para evitar este efecto, lo que se hace es calcular la correlación entre el ítem y el
test una vez que se ha eliminado de este último la contribución del ítem. Esta
correlación recibe el nombre de índice de homogeneidad corregido (Hc o IHc), y
se indica mediante la expresión (rj,x-j) o ri(T-i).
Por lo general, al hacer la corrección, el valor de la correlación corregida o el
índice de homogeneidad corregido disminuye o es menor que el valor de la
correlación no corregida, ya que en el índice de homogeneidad sin corregir lo que
se correlaciona es la puntuación del ítem con la puntuación total, entonces dentro
de la puntuación total ya se encuentra incluida la propia puntuación del ítem, por lo
que, al correlacionar la puntuación del ítem con la puntuación total, ya de por sí
existirá una correlación, entonces esa correlación tiene un sesgo o error de
sobreestimación, incremento o repetición de datos que debe ser corregido. Una
vez hecha la corrección, lo que se obtiene es la correlación sin incluir la propia
puntuación del ítem en estudio.
Esta operación se realiza específicamente cuando un test tiene un número
pequeño de ítems.
Existen 2 métodos para realizar este cálculo. El primero consiste en correlacionar
las puntuaciones en un ítem con las puntuaciones en el total del test después de
restar de este total las puntuaciones del ítem cuyo índice queremos obtener.
Método 1 o de las diferencias test – ítem.
Ejemplo para visualizar en empleo del primer método de corrección del índice de
homogeneidad.
ƩX-Y
1 10 2 8 2 16 64 4
2 4 3 1 3 3 1 9
3 14 5 9 5 45 81 25
4 1 0 1 0 0 1 0
5 7 4 3 4 12 9 16
Ʃ 22 14 76 156 54
n= 5
5 ( 76 ) −(22∗14) 72
xry =
√¿ ¿ ¿
, xry =
√ 296∗74
= 0,4865
Dónde,
riT, es la correlación ítem-test.
Si es la desviación típica que muestran las puntuaciones en el ítem,
ST es la desviación típica que presentan las puntuaciones en test.
ITEM
SUJETOS ITEM 1 ITEM 2 ITEM 4 ƩX test
3
1 4 5 5 4 18
2 2 2 1 2 7
3 5 6 4 5 20
4 3 2 3 3 11
5 5 6 4 5 20
6 2 1 1 1 5
7 5 3 2 5 15
8 4 5 5 5 19
9 2 1 1 2 6
10 3 2 1 1 7
11 2 3 1 2 8
12 4 5 6 4 19
13 2 3 1 1 7
14 4 5 4 6 19
15 1 2 1 2 6
16 4 5 6 5 20
x2
Ʃ 12,125 15,125 11,875 13,8125 203,813
N
2 10,56 12,25 8,27 10,97 167,38
2 7 2 14 49 4
3 20 5 100 400 25
4 11 3 33 121 9
5 20 5 100 400 25
6 5 2 10 25 4
7 15 5 75 225 25
8 19 4 76 361 16
9 6 2 12 36 4
10 7 3 21 49 9
11 8 2 16 64 4
12 19 4 76 361 16
13 7 2 14 49 4
14 19 4 76 361 16
15 6 1 6 36 1
16 20 4 80 400 16
r it S t −S i
r i (t −i)=
2 2
√ ( S + S )−2 r
T i iT ST Si
0,89669∗6,036−1,25
r i (t −i)= 2
√ ( 6,036 ❑ +1,252❑ )−2∗0,89669∗6,036∗1,25
4,1625
r i (t −i)= =0,8416
4,9462
Dónde,
riT es la correlación ítem-test
Si es la desviación típica que muestran las puntuaciones en el ítem
ST es la desviación típica que presentan las puntuaciones en test.
El resultado obtenido indica que el ítem está muy relacionado con el resto de
ítems que componen el test, debido a que miden la misma actitud. Como cabía
esperar, el Hjc o IHjc de un ítem suele ser inferior a su Hj o HI sin corregir y la
diferencia es apreciable debido a la pequeña longitud del test o el escaso número
de ítems: tan sólo 4 ítems. En este caso un 25% del test (es decir, 1 ítem de 4) es
parte de las dos variables que correlacionamos cuando calculamos el IH. Este
porcentaje se reduce a medida que aumenta la longitud del test (cuando la
longitud del test es 5, el porcentaje es del 20%; cuando 6, el 17%; cuando 7, el
14%, ...). Por ello, cuanto mayor sea la longitud del test menor será la diferencia
entre el IH y el IHc. Cuando trabajamos con tests muy largos la diferencia es muy
pequeña.
Este tipo de datos (dicotómicos, tipo 0 error y 1 acierto) se obtiene de tablas donde
la columna izquierda son los sujetos/personas/participantes y la fila superior son
los ítems/preguntas, en cada casilla se colocan las respuestas sujeto/ítem y en la
columna de la derecha se coloca la sumatoria total de estas respuestas por
participante. A partir de los datos de esta columna se obtiene la varianza total ( S2X ).
De la columna correspondiente para cada ítem se obtiene: a) p que es la
proporción o fracción de las respuestas correctas o aciertos de cada ítem/reactivo
del test (# aciertos entre el # total de sujetos), b) q que es la proporción o fracción
de las respuestas incorrectas, fallidas, errores o no aciertos de cada ítem/reactivo
del test (# errores entre el # total de sujetos), de tal forma que p + q=1.
Posteriormente se multiplica p*q y se obtiene la sumatoria Σpiqi. El término
representa a la varianza total del test y se obtiene de la sumatoria total de las
respuestas de los sujetos entrevistados. Las fórmulas que puede emplear serían:
Ʃ ni=1 (x 1− x́)2 ∑ X2
2
σ =
x
n
σ 2x = ( N )
− X́ 2
Donde n es el tamaño total de la muestra o el número de sujetos que responden la
prueba o test.
Los valores de KR20 pueden variar desde 0 a 1 (a veces expresada como
porcentaje), con altos valores indicando que el examen es probable que se
correlacionen con formas alternas (una característica deseable). El KR-20 puede
verse afectada por la dificultad de la prueba, la propagación en las puntuaciones y
la longitud del examen.
Para emplear este coeficiente, es deseable que los ítems/reactivos tengan un
índice de dificultad homogéneo y no un índice de dificultad creciente.
Desde α de Cronbach fuera publicado en 1951, no ha habido ninguna ventaja
conocida a KR-20 sobre Cronbach. KR-20 es visto como un derivado de la fórmula
de Cronbach, con la ventaja de Cronbach que puede manejar tanto variables
dicotómicas como politómicas. No puede utilizarse la fórmula de KR-20 cuando
hay preguntas de opción múltiple, debe usarse solo para variables de respuesta
dicotómica.
Ejemplo: se está desarrollando un test psicométrico/rendimiento óptimo de 4 ítems
para selección de personal y se desea estudiar la confiabilidad de este test de
respuestas dicotómicas. Para ello se administra a un grupo de 6 sujetos. Los datos
se muestran a continuación:
Ítem o reactivo
Sujeto Ʃxi Ʃxi2
1 2 3 4
1 1 1 1 0 3 9
2 1 1 1 0 3 9
3 0 0 0 0 0 0
4 1 1 0 0 2 4
5 0 0 0 0 0 0
N=6 1 0 1 0 2 4
Ʃ 10 26
N 6
1,667
a
P( ¿ 0,6667 0,5 0,5 0
n
e
Q( ¿ 0,3333 0,5 0,5 1
n
P*q 0,2222 0,2500 0,2500 0 ƩP*q= 0,7222
∑ X2
σ 2x = ( N ) − X́ 2 = ( 266 )−( 1,667 ) = 1,554
2
K 4
r= ( K−1 )∗¿ = ( 4−1 )∗¿ = 0,714
Este es el valor de la confiabilidad o consistencia interna de los datos obtenidos
empíricamente. También pudiera decirse que el 71,4% de la varianza de las
puntuaciones empíricas se debe al grado de la covariación entre los
ítems/reactivos del test con respuestas dicotómicas. El restante se deba a los
errores de la medida ocurridos durante la realización del test.
α= ( KK−1 )∗¿
Dónde:
k es el número de preguntas o ítems
S2i es la varianza del ítem i
S2T es la varianza de los valores totales observados
Dónde:
k es el número de preguntas o ítems
S2i es la varianza del ítem i
S2T es la varianza de los valores totales observados
[ ] es el valor absoluto de la expresión matemática
Ʃ ni=1 (x 1− x́)2 ∑ X2
2
σ =
x
n
2
σ =
x ( N )
−( X́ )
2
np
α=
1+ p (n−1)
Dónde,
p es el promedio de las correlaciones lineales entre cada uno de los
ítems
n es el número de preguntas o ítems
Permite establecer el grado en que los diferentes ítems están midiendo una única
dimensión o rasgo, constructo, variable de tipo psicológico. Podemos observar en
la última expresión que α tendrá un valor alto (cercano a 1) cuando los ítems
covarían fuertemente entre sí; asumirá valores cercanos a cero si los ítems son
linealmente independientes (si covarían de forma escasa). Se puede interpretar
como una medida de unidimensionalidad.
Ejemplo: a una muestra de 6 sujetos de experimentación se les aplica, mediante
una prueba piloto, un instrumento de recolección de datos (test psicométrico de
rendimiento óptimo/máximo) compuesto por 4 ítems para medir un rasgo,
constructo o variable psicológica. En la siguiente tabla se presentan los datos
obtenidos:
1 2 3 4
1 0 0 0 1 1
2 1 0 0 0 1
3 1 0 0 0 1
4 1 1 1 1 4
5 1 1 0 1 3
6 1 1 0 0 2
A estos datos se les aplican los conceptos del cálculo de la varianza en cada uno
de los ítems y del cálculo de la varianza total del test, como se muestra a
continuación:
Ítems / Reactivo
Sujeto 1 2 3 4 ƩX ƩX - (ƩX -
)2
6 1 1 0 0 2 2 0 0
ƩX 5 3 1 3 12 Ʃ 8,00
n= 6 6 6 6 6 n= 6,00
ƩX2 5 3 1 3 32
2
ƩX /N 0,8333 0,5 0,1667 0,5 5,3333
2 0,69 0,25 0,03 0,25 4,00
2 2 2
(ƩX /N) - 0,139 0,250 0,139 0,250 1,333
S2i
Según el método del cálculo de la varianza de los ítems: para calcular la varianza
del ítem 1:
α 2x =
∑ X 2− X2
N
# correlaciones 6
np 4∗0,2379 0 , 95184
α= = = = 0,55
1+ p (n−1) 1+ 0,2379(4−1) 1,71388
Muy baja Baja Media o regular Aceptable o alta Muy alta o elevada
Entre 0 y 0,20 Entre 0,21 y 0,40 Entre 0,41 y 0,60 Entre 0,61 y 0,80 Entre 0,81 y 1,00
Medición con Medición con pocos Medición sin errores Medición sin errores Medición sin errores
error errores
Test fiable
Se sugiere repetir la validación del instrumento puesto que es recomendable que
el resultado sea mayor o igual a 0,61.
Distintos factores afectan el resultado de este método, entre otros: el signo de las
correlaciones entre los ítems siempre debieran deben ser positivas, por lo que
debe analizar si el test incluye ítems invertidos o negativos, de ser así, se debe
invertir su escala (por ejemplo, si es Likert, transformar el 1 en 5, el 2 en 4, el 4 en
2 y el 5 en 1, el 3 permanece como 3) y volver a realizar el cálculo.
En este caso, el coeficiente α obtenido en ambos métodos representa un valor
medio, que nos indica que no existe un elevado grado de covariación entre los
ítems. No podemos afirmar con rotundidad que este test mide un rasgo,
constructo, variable psicológica en forma unitaria.
Es importante mencionar que puede ocurrir que un instrumento tenga distintos alfa
de Cronbach. Por lo regular, esto significa que él está midiendo una variable
compleja, multidimensional y entonces se ha establecido un alfa para cada
dimensión. Por ende, el coeficiente α puede obtenerse también entre diferentes
grupos de ítems (subtests). En ese caso, k será el número de subtests y ΣS2j la
suma de las varianzas de los subtests. Un coeficiente α bajo indicará que los
diferentes subtests miden rasgo, constructo, variable psicológica o constructo
diferentes. No obstante, aún en estos casos, puede obtenerse un alfa único para
toda la variable. Para una información más detallada sobre el cálculo del
Cronbach, se puede consultar Hernández, Fernández y Baptista (2000).
CONCLUSIÓN
Para que los resultados de un instrumento puedan ser interpretables con lo cual se
pueda dar una respuesta y determinar un significado, o en todo caso algún valor
heurístico lo cual nos aportara determinado descubrimiento que ayudara en la
resolución de problemas, situaciones un hechos pasados, presentes o futuros, por
tanto es imprescindible y necesario que los mismos sean científicamente
confiables. No es posible determinar la relación entre dos o más variables si los
instrumentos utilizados para medirlas son poco confiables.
Los instrumentos tales como el coeficiente Kuder y Richardson 20 (KR20) y el
coeficiente de alfa de Cronbach, vienen a aportar una alta confiabilidad a los test y
cuestionarios aplicados.
Los coeficientes de confiabilidad proporcionan una indicación de la extensión, en
que una medida es consistente y reproducible. El KR20 es un indicador de la
fidelidad (consistencia interna). Los métodos basados (Rulon, Alfa de Cronbach,
Spearman, Brown) en la división en dos porciones (presumiblemente iguales) da
desventaja de ser relacionado con las opciones de la partición.
En psicometría, el Alfa de Cronbach es un coeficiente que sirve para medir
la fiabilidad de una escala de medida, y cuya denominación Alfa fue realizada
por Cronbach en 1951; aunque sus orígenes se encuentran en los trabajos de
Hoyt (1941) y de Guttman (1945).
El alfa de Cronbach no deja de ser una media ponderada de las correlaciones
entre las variables (o ítems) que forman parte de la escala. Puede calcularse de
dos formas: a partir de las varianzas (alpha de Cronbach) o de las correlaciones
de los ítems (Alpha de Cronbach estandarizado). Hay que advertir que ambas
fórmulas son versiones de la misma y que pueden deducirse la una de la otra. El
alpha de Cronbach y el alpha de Cronbach estandarizados, coinciden cuando se
estandarizan las variables originales (items).
BIBLIOGRAFÍA