Capitulo 9

CAPITULO 9
Medición y escalamiento: técnicas

no comparativas de escalamiento
Objetivos:
Describir las técnicas no comparativas de escalamiento, distinguir entre

escalas de clasificación continua o por ítem y explicar las escalas Likert,
de diferencial semántico y de Stapel .
Analizar las decisiones implicadas en la elaboración de una escala de

clasificación por ítem en relación con el número de categorías de la
escala, escalas balanceadas o no balanceadas, número par o non de
categorías, elección forzada o no forzada, grado de descripción verbal y
forma física de la escala.
Exponer los criterios usados para la evaluación de la
escala y explicar la forma de evaluar la confiabilidad,
validez y generalización.
Analizar las consideraciones implicadas en el uso de
escalas no comparativas en un contexto internacional.
Comprender los temas éticos implicados en el

desarrollo de escalas no comparativas.
TÉCNICAS NO COMPARATIVAS DE
ESCALAMIENTO
“El papel del investigador
de mercados debe incluir
habilidades de asesoría,
competencia técnica y
administración eficaz. Su
papel se enfoca
Mediante el uso de escalas de Likert, el sistema de transporte de la ciudad de Nueva York pudo
determinar la percepción de la gente sobre el sistema del metro y dar respuesta a sus temores,
lo que dio lugar a un incremento el número de usuarios
escala no comparativa Una de las dos técnicas de escalamiento, en donde cada objeto estímulo
se escala independientemente de los otros objetos del conjunto de estímulos. escala de
clasificación continua En una escala de clasificación continua, también conocida como escala de
clasificación gráfica, los encuestados clasifican los objetos poniendo una marca en la posición
apropiada sobre una línea que va de un extremo al otro de la variable criterio
Compañías como McDonald’s han usado el analizador de percepciones para medir las
reacciones de los consumidores a sus comerciales, videos de la empresa y otros materiales
audiovisuales.
escala de clasificación por ítem Escala de medición que asocia números y/o descripciones breves
con cada categoría. Las categorías están ordenadas en términos de la posición de la escala.
escala de Likert Escala de medición con cinco categorías de respuesta que van de “totalmente en
desacuerdo” a “totalmente de acuerdo”, lo cual requiere que los encuestados indiquen el grado
de acuerdo o desacuerdo con cada una de las afirmaciones relacionadas con los objetos
estímulo.
Una escala de diferencial semántico para
medir auto conceptos, conceptos de las
personas y conceptos de productos8
Conocimiento (de las prácticas de
privacidad)
diferencial semántico Escala de clasificación de 7
puntos cuyos extremos están asociados con etiquetas
bipolares que tienen carácter semántico.
ancladas en “totalmente en desacuerdo” y
“totalmente de acuerdo”. 1. Las compañías que
buscan información en línea deben revelar la manera
en que recaban, procesan y utilizan los datos. 2. Las
buenas políticas de privacidad para los consumidores
en línea deben mostrarse con claridad. 3. Para mí es
muy importante estar enterado y consciente de la
forma en que será usada mi información personal. ■
escala de Stapel
Escala para medir actitudes que consiste en un solo adjetivo en el centro de un rango de valores
de números pares, de 5 a 5, sin un punto neutral (cero).
La escala de Stapel, llamada así en honor de su creador, Jan Stapel, es una escala de clasifi
cación unipolar con 10 categorías numeradas del 5 a 5, sin un punto neutral (cero).11 Esta escala
por lo general se presenta de manera vertical. Se pide a los encuestados que indiquen qué tan
precisa o imprecisa es la descripción que hace cada término del objeto, seleccionando una
respuesta numérica apropiada para la categoría. Cuanto mayor sea el número, más precisa es la
descripción que hace el término del objeto, como se muestra en el proyecto de la tienda
departamental. En ese ejemplo, la evaluación indicó que Sears carecía de alta calidad y que su
servicio era algo defi ciente.
Instrucciones Por favor, evalúe la precisión con que
cada palabra o frase describe a cada una de las tiendas
departamentales. Seleccione un número positivo para
las frases que considere que describen con precisión a
la tienda. Cuanto más precisa crea que es la frase para
describir a la tienda, más grande debe ser el número
positivo que elija. Debe elegir un número negativo para
las frases que considere que no la describen con
precisión. Cuanto menos precisa crea que es la
descripción que hace la frase de la tienda, más grande
debe ser el número negativo que elija. Puede elegir
cualquier número, de 5 para las frases que piense que
son muy precisas a 5 para las frases que piense que son
muy inexactas
Figura 9.1 Escalas balanceadas y no balanceadas escala balanceada Escala con un número igual de
categorías favorables y desfavorables.
escalas de clasificación forzada Escala de clasificación que obliga a los encuestados a expresar una
opinión porque no ofrece la opción de “sin opinión” o “no sabe”.
Escalas balanceadas frente a no
balanceadas
En una escala balanceada, el número de categorías favorables y desfavorables es igual; en una
escala no balanceada es diferente.14 En la fi gura 9.1 se presentan ejemplos de una escala
balanceada y una no balanceada. En general, la escala debe ser balanceada para obtener datos
objetivos. Sin embargo, cuando es probable que exista un sesgo (positivo o negativo) en la
distribución de las respuestas, podría ser más conveniente usar una escala no balanceada con
más categorías en dirección al sesgo. Si se usa una escala no balanceada, en el análisis de los
datos debe tenerse en consideración la naturaleza y el grado de desequilibrio.
Número par o non de categorías
Con un número non de categorías el punto central de la escala por lo general se designa como
neutral o imparcial. La presencia, posición o etiquetamiento de una categoría neutral puede
tener una infl uencia signifi cativa en la respuesta. La escala de Likert es una escala de clasifi
cación balanceada con un número non de categorías y un punto neutral.15 La decisión de usar
un número par o non de categorías depende de si algunos de los encuestados pueden ser
neutrales respecto a la respuesta medida. Si hay la posibilidad de que al menos algunos
encuestados den una respuesta neutral o indiferente, debe usarse un número non de categorías.
Por otro lado, si el investigador desea forzar la respuesta o cree que no existe una respuesta
neutral o indiferente, debe usarse una escala de clasifi cación con un número par de categorías.
Un tema relacionado es si la escala debe ser forzada o no.
Escalas forzadas frente a las no forzadas
En las escalas de clasifi cación forzada, los encuestados son obligados a expresar una opinión
porque no se les da la opción de “sin opinión”. En tal caso, los encuestados que no tienen
opinión pueden marcar la posición central de la escala. Si una proporción sufi ciente de los
encuestados no tienen opinión sobre el tema, marcar la posición central podría distorsionar las
medidas de tendencia central y la varianza. En situaciones donde se espera que los encuestados
no tengan opinión, en vez de estar simplemente renuentes a revelarla, una escala no forzada
que incluya una categoría de “sin opinión” mejora la precisión de los datos
Naturaleza y grado de las descripciones
verbales
La naturaleza y el grado de la descripción verbal asociada con las categorías de la escala varían
considerablemente y tienen efecto en las respuestas. Las categorías de la escala pueden tener
descripciones verbales, numéricas y hasta pictóricas. Además, el investigador debe decidir si
etiqueta todas, algunas o sólo las categorías extremas de la escala. De manera sorprendente,
ofrecer descripciones verbales para cada categoría no siempre incrementa la precisión o confi
abilidad de los datos. Sin embargo, etiquetar todas o muchas de las categorías permite reducir la
ambigüedad de la escala. Las descripciones de las categorías deben localizarse tan cerca como
sea posible de las categorías de respuesta. La fuerza de los adjetivos usados para anclar la escala
infl uye en la distribución de las respuestas. Con anclas fuertes (1 completamente en
desacuerdo, 7 completamente de acuerdo), es menos probable que los encuestados usen las
categorías extremas de la escala. Esto da por resultado distribuciones de respuesta menos
variables y más pronunciadas. En contraste, las anclas
Forma física o configuración
Se dispone de diversas opciones con respecto a la forma o confi guración de la escala. Las
escalas se pueden presentar de manera horizontal o vertical. Las categorías pueden expresarse
en cajas, líneas discretas o unidades sobre un continuo, y pueden o no tener números asignados.
Si se usan valores numéricos, pueden ser positivos, negativos o ambos. En la fi gura 9.2 se
presentan varias confi guraciones posibles. La escala del termómetro y la de la cara sonriente
son dos confi guraciones únicas de las escalas de clasifi cación que se utilizan en la investigación
de mercados. En la escala del termómetro, cuanto más alta sea la temperatura, más favorable es
la evaluación. De igual forma, las caras felices indican evaluaciones más favorables. Estas escalas
son especialmente útiles con los niños.18 En la fi gura 9.3 se presentan ejemplos de estas
escalas. La tabla 9.2 resume las seis decisiones que deben tomarse al diseñar escalas de clasifi
cación. La tabla 9.3 presenta algunas escalas de uso común. Aunque las escalas mostradas
tienen cinco categorías, el número varía según el criterio del investigador
Actividades del proyecto
1. Desarrollar escalas de Likert, de
diferencial semántico y de Stapel
para medir la satisfacción del
cliente hacia Sears.
2. ilustrar las seis decisiones de la
escala de clasificación por ítem de
la tabla 9.2 en el contexto de la
medición de la satisfacción del
cliente hacia Sears.
ESCALAS DE REACTIVOS MÚLTIPLES
El desarrollo de las escalas de clasifi cación de reactivos múltiples requiere de considerable
experiencia técnica.19 La fi gura 9.4 es un paradigma para la elaboración de esas escalas. Suele
llamarse constructo a la característica que será medida. El desarrollo de la escala comienza con
una teoría subyacente del constructo que se quiere medir. La teoría es necesaria no sólo para la
elaboración de la escala, sino también para interpretar las puntuaciones resultantes. El siguiente
paso es generar un conjunto de reactivos para la escala. Por lo regular, esto se basa en la teoría,
el análisis de los datos secundarios y en la investigación cualitativa. A partir de este conjunto se
genera un conjunto reducido de reactivos potenciales de acuerdo con el criterio del investigador
y de otros expertos, quienes adoptan algunos criterios cualitativos para ayudarse en su juicio. El
grupo reducido de reactivos todavía es demasiado grande para constituir una escala, por lo que
se hace otra reducción de manera cuantitativa. Mediante un pretest aplicado a una muestra
grande de encuestados se obtienen los datos sobre el conjunto reducido de reactivos
potenciales. Los datos son analizados usando técnicas como correlaciones, análisis factorial,
análisis de conglomerados, análisis discriminante y otras prueba
estadísticas que se explicarán más
adelante en este libro. Como resultado de
estos análisis estadísticos, se eliminan
algunos otros reactivos, lo que da como
resultado una escala depurada. Para
evaluar la confi abilidad y validez de esta
escala depurada se recaban más datos de
una muestra diferente (véase el siguiente
apartado). Con base en estas
evaluaciones se selecciona un conjunto fi
nal de reactivos. Como se observa en la fi
gura 9.4, el proceso de desarrollo de la
escala es iterativo con varios ciclos de
retroalimentación.
Medición de la complejidad técnica con
una escala técnicamente refinada
Durante la clasifi cación se invierten los reactivos 1, 3, 6 y 7. Esta escala puede

usarse en marketing industrial para medir la complejidad técnica de la línea de
productos de un cliente y sugerir cambios para mejorar la calidad técnica
EVALUACIÓN DE LA ESCALA
Es necesario evaluar la exactitud y
aplicabilidad de una escala de reactivos
múltiples.22 Como se muestra en la fi gura
9.5, esto supone valorar la confi abilidad,
validez y capacidad de generalización de la
escala. Los métodos para evaluar la confi
abilidad incluyen la confi abilidad test-retest,
la confi abilidad de formas alternativas y la
confi abilidad de consistencia interna. La
validez se evalúa examinando la validez de
contenido, validez de criterio y validez del
constructo. Antes de examinar la confi
abilidad y la validez, es necesario entender la
exactitud de la medición, porque ello es
fundamental para la evaluación de la escala.
Exactitud de la medición
Como se mencionó en el
capítulo 8, una medición es
un número que refl eja
alguna característica de un
objeto. La medición no es el
valor real de la característica
de interés, sino una
observación de la misma.
Diversos factores pueden
provocar un error de
medición que haga que la
medición o puntuación
observada sea diferente de la
verdadera puntuación de la
característica que se mide
(véase la
El modelo de la clasifi cación verdadera ofrece
un marco para entender la exactitud de la
medición. De acuerdo con este modelo,
El error sistemático afecta la
medición de manera constante y
representa factores estables que
afectan la clasificación
observada de la misma manera
cada vez que se hace la
medición. error aleatorio
Error de medición que surge de
cambios aleatorios, diferencias
en los encuestados o situaciones
de medición.
confiabilidad
Grado en que la escala produce resultados
consistentes si se realizan mediciones repetidas de la
característica.
Confiabilidad La confi abilidad se refi ere al grado en
que la escala produce resultados consistentes si se
hacen mediciones repetidas.23 Las fuentes
sistemáticas de error no tienen un efecto adverso en
la confi abilidad, porque afectan la medición de una
manera constante y no producen inconsistencia. En
contraste, el error aleatorio genera inconsistencia, lo
que da lugar a una menor confiabilidad. La confi
abilidad se defi ne como el grado en el que la
medición está libre del error aleatorio, XA. Si XA 0, la
medición es perfectamente confiable
confiabilidad test-retest
Método para evaluar la confiabilidad en que se aplica a los
encuestados conjuntos idénticos de reactivos en dos
momentos diferentes en condiciones tan equivalentes
como sea posible.
En la confi abilidad test-retest, se aplican conjuntos
idénticos de reactivos a los encuestados en dos momentos
diferentes en condiciones tan equivalentes como sea
posible. El intervalo entre las pruebas o las aplicaciones
suele ser de dos a cuatro semanas. Para determinar el
grado de similitud entre las dos mediciones se calcula un
coefi ciente de correlación (véase el capítulo 17). Cuanto
más alto sea el coefi ciente de correlación, mayor será la
confi abilidad. Hay muchos problemas asociados con el
método de test-retest para determinar la confi abilidad.
Primero, es sensible al intervalo entre las pruebas.
confiabilidad de formas alternativas
Enfoque para evaluar la confiabilidad que
requiere que se construyan dos formas
equivalentes de la escala y que los mismos
encuestados sean medidos en dos momentos
diferentes
Este enfoque tiene dos problemas
importantes. Primero, elaborar una forma
equivalente de la escala consume tiempo y
dinero. Segundo, es difícil construir dos
formas equivalentes de una escala. Las dos
formas deben ser equivalentes con respecto al
contenido. En un sentido estricto, esto supone
que los conjuntos alternativos de los reactivos
de la escala deberían tener las mismas
medias, varianzas e intercorrelaciones.
Este enfoque tiene dos problemas
importantes.
Primero, elaborar una forma equivalente de la
escala consume tiempo y dinero. Segundo, es difícil
construir dos formas equivalentes de una escala.
Las dos formas deben ser equivalentes con respecto
al contenido. En un sentido estricto, esto supone
que los conjuntos alternativos de los reactivos de la
escala deberían tener las mismas medias, varianzas
e intercorrelaciones.
En una escala de este tipo, cada reactivo mide algún
aspecto del constructo medido por la escala
completa, y los reactivos deben ser consistentes en
lo que indican acerca de la característica. Esta
medida de confi abilidad se enfoca en la
consistencia interna del grupo de reactivos que
componen la escala
confiabilidad de división por mitades
Forma de confiabilidad de
consistencia interna en la cual los
reactivos que constituyen la escala se
dividen en dos mitades y se
correlacionan las puntuaciones
resultantes de cada mitad.
El problema es que los resultados
dependerán de cómo se dividan los
reactivos de la escala. Para solucionar
este problema suele emplearse el
coefi ciente alfa.
coeficiente alfa o alfa de Cronbach
Medida de confiabilidad de consistencia interna que es el promedio de todos los coeficientes
posibles de división por mitades que resultan de las diferentes divisiones de los reactivos de la
escala.
es el promedio de todos los coefi cientes posibles de división por mitades que resultan de las
diferentes maneras de dividir los reactivos de la escala. Este coefi ciente varía entre 0 y 1, y un
valor igual o menor a 0.6 por lo general indica una confi abilidad no satisfactoria de consistencia
interna. Una propiedad importante del coefi ciente alfa es que su valor tiende a aumentar con el
incremento del número de reactivos de la escala. Por lo tanto, el coefi ciente alfa puede resultar
infl ado artifi cial e inadecuadamente por la inclusión de varios reactivos redundantes en la
escala.26 Junto con el coefi ciente alfa puede emplearse el coefi ciente beta, que ayuda a
determinar si el proceso de obtención de promedios usado para calcular el coefi ciente alfa está
enmascarando algunos reactivos inconsistentes
La tecnología detrás del liderazgo de
opinión en tecnología
En un estudio de adopción de tecnología, se midió el
liderazgo de opinión mediante el uso de las siguientes
escalas tipo Likert de 7 puntos (1 totalmente de
acuerdo, 7 totalmente en desacuerdo). Liderazgo de
opinión 1. Parece que a las otras personas no les
interesa mi opinión sobre los productos de hardware o
software. 2. La gente pide mi consejo cuando decide
adoptar productos de hardware o software. 3. Es raro
que la gente se apoye en mis sugerencias para
seleccionar productos de hardware o software. 4. A
menudo convenzo a otros de que adopten productos
de hardware o software que me gustan. 5. Es raro que
la gente me pida consejo para elegir productos de
hardware o software. 6. A men
validez del contenido
Tipo de validez, llamado en ocasiones validez aparente, que consiste en una evaluación subjetiva
pero sistemática de la representatividad del contenido de una escala para la tarea de medición
actual.
validez
Grado en que las diferencias en las puntuaciones obtenidas en la escala reflejan diferencias
verdaderas entre los objetos en las características medidas más que errores sistemáticos o
aleatorios.

Capitulo 9

Cargado por

Copyright:

Formatos disponibles

Capitulo 9

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Capitulo 9

Cargado por

Copyright:

Formatos disponibles

CAPITULO 9

Medición y escalamiento: técnicas

Describir las técnicas no comparativas de escalamiento, distinguir entre

Analizar las decisiones implicadas en la elaboración de una escala de

Comprender los temas éticos implicados en el

Durante la clasifi cación se invierten los reactivos 1, 3, 6 y 7. Esta escala puede

También podría gustarte