10-6 Modelamiento
10-6 Modelamiento
10-6 Modelamiento
puede hacerse demostrando que para el caso de dos muestras, el estadstico de prue-
ba H es igual al cuadrado del estadstico de prueba z que se utiliza en la prueba de la
suma de rangos de Wilcoxon. Adems, note que con 1 grado de libertad, los valores
crticos de X 2 corresponden al cuadrado de la puntuacin crtica z.
Definicin
La prueba de correlacin de rangos (o prueba de correlacin de rangos
45Z1 de Spearman) es una prueba no paramtrica que utiliza rangos de datos
muestrales consistentes en datos apareados. Se utiliza para probar una asocia-
ncin entre dos variables, por lo que las hiptesis nula y alternativa son las
siguientes (donde ps denota el coeficiente de correlacin de rangos de la
poblacin completa):
H0: ps = O (No existe correlacin entre las dos variables).
H
1: p, O (Existe una correlacin entre las dos variables).
ualquiera
Calcule la diferencio' d poro cada
de las variables tiene o par de rangos. restando el rango
empates entre
menor del rango mayor.
sus rangos
Si
Calcule r, utilizando
Eleve al cuadrado cada diferencia
la frmula 10-1 con los rangos:
d y luego calcule la suma de estos
ni.xy (1,x) (1y) cuadrados para obtenerl(A.
n(Ix 2) (Ix) 2 V n(Iy2) (1y)2
Complete el clculo de
61d2 para
r, = 1
n(n2 1)
obtener el estadstico de prueba.
Si Ir51 excede al valor critico positivo, rechace Ho: ps = O y concluya que hay
una correlacin. Si el estadstico de prueba r5 es negativo y es menor que
el valor crtico negativo, existe una correlacin. Si el estadstico de prueba
rs est entre los valores crticos positivo y negativo, no hay correlacin.
Correlacin de rangos
Requisitos
Los datos muestrales apareados se seleccionaron aleatoriamente.
A diferencia de los mtodos paramtricos de la seccin 10-2, no existe el requi-
sito de que los datos muestrales apareados tengan una distribucin normal biva-
riada (como se describi en la seccin 10-2). No existe el requisito de una distri-
bucin normal para cualquier poblacin.
Notacin
rs = coeficiente de correlacin de rangos para datos muestrales apareados (r s es un
estadstico muestral)
ps = coeficiente de correlacin de rangos para todos los datos poblacionales (p., es
un parmetro poblacional)
n = nmero de pares de datos muestrales
d = diferencia entre los rangos de los dos valores dentro de un par
Estadstico de prueba
Sin empates: Despus de convertir los datos de Cada muestra a rangos, si no existen
empates entre los rangos para la primera variable y no existen empates entre los ran-
gos para la segunda variable, el valor exacto del estadstico de prueba puede calcu-
larse utilizando esta frmula:
rs =
nd 2
n(n2 1)
Empates: Despus de convertir los datos de cada muestra a rangos, si cualquier va-
riable tiene empates entre sus rangos, el valor exacto del estadstico de prueba rs
puede calcularse utilizando la frmula 10-1 con los rangos:
nlxy (5,x)(Iy)
rs =
Vn(lx 2) (14 2 Vn(I)'2) (1y)2
Valores crticos
1. Si n 30, los valores crticos se encuentran en la tabla A-9.
2: Si n > 30, los valores crticos de r, se calculan utilizando la frmula 13-1.
Z
Frmula 13-1 (valores crticos cuando n > 30)
n1
donde el valor de z corresponde al nivel de significancia. (Por ejemplo, si a = 0.05,
z = 1.96).
Harvard 1 o o
Yale 2 2 o o
Cal. Inst. of Tech. 3 5 2 4
M.I.T. 4 4 o o
Brown 5 7 2 4
Columbia 6 6
U. de Penn. 7 3 4 16 Vnculo directo
Notre Dame 8 8 entre el tabaquismo
Total: 24 y el cncer
Cuando encontramos una corre-
lacin estadstica entre dos va-
riables, debemos ser sumamente
SOLUCIN cuidadosos para evitar el error
REQUISITO 3 El nico requisito es que los datos muestrales apareados sean de concluir que existe un vncu-
elegidos al azar. Las universidades incluidas se eligieron al azar entre aquellas lo de causa y efecto. La indus-
que estaban disponibles, de manera que procedemos con la prueba. 3 tria tabacalera ha enfatizado una
El coeficiente de correlacin lineal r (seccin 10-2) no debe utilizarse Y otra vez que la correlacin no
puesto que requiere de distribuciones normales, y los datos consisten en rangos implica causalidad. Sin embar-
que no estn distribuidos normalmente. En vez de ello, utilizamos el coeficien-
go, el doctor David Sidransky,
te de correlacin de rangos para probar una relacin entre los rangos de los es-
de la John Hopkins Univer-
tudiantes y de la revista.
sity, asegura: "Tenemos pruebas
Las hiptesis nula y alternativa son las siguientes:
moleculares tan fuertes que
Ho: p., = O podemos estudiar un caso de cn-
H 1 : p., 0 cer individual y, potencialmen-
Siguiendo el procedimiento de la figura a 13-4, los datos estn en forma de te, con base en los patrones de
rangos y ninguna de las dos variables tiene empates entre los rangos, por lo que cambio gentico, determinar si
el valor exacto del estadstico de prueba puede calcularse como se indica aba- fumar cigarrillos fue la causa de
jo. Utilizamos n = 8 (para 8 pares de datos) y /d2 = 24 (como se indica en la ese cncer". A partir de sus ha-
tabla de 13-7) para obtener llazgos, tambin afirma que
"el fumador tuvo una incidencia
nd 2 6(24)
= 1 1 mucho ms alta de mutacin, lo
n(n 2 1) 8(82 1)
que se confirm con el patrn
144 tan claro de mutaciones... as que
= 0 714
1 504 prcticamente encontramos la
Ahora nos remitimos a la tabla de A-9 para determinar que los valores crti- pistola humeante- . Aunque los
cos son 0.738 (con a = 0.05 y n = 8). Puesto que el estadstico de prueba mtodos estadsticos no pueden
= 0.714 no excede al valor crtico de 0.738, no rechazamos la hiptesis probar que fumar causa cncer,
nula. No existe suficiente evidencia para sustentar una aseveracin de correla- con evidencia fsica como la que
cin entre la clasificacin de los estudiantes y la clasificacin de la revista. Pa- presenta el doctor Sidransky es
rece que en lo que se refiere a la clasificacin de universidades, los estudiantes posible establecer demostracio-
y la revista no coinciden. (Si coincidieran, habra una correlacin significativa, nes como sta.
pero no la hay).
712 Captulo 13 Estadstica no paramtrica
1.96
, -0.314
V40 1
Nmero
de juegos 9 (2) 13 (4) 21 (5) 6 (1) 52 (7) 78 (8) 33 (6) 11 (3) 120 (9)
Puntuacin 22 (2) 62 (4) 70 (6) 10 (1) 68 (5) 73 (8) 72 (7) 58 (3) 75 (9)
d 0 0 1 0 2 0 1 0 0
d2 0 0 1 0 4 0 1 0 0
13-6 Correlacin de rangos 713
los rangos del nmero de juegos realizados, ni hay empates entre los rangos de las
puntuaciones, de manera que procedemos a calcular las diferencias d y luego
las elevamos al cuadrado. La suma de los valores de d2 es 6. Ahora calculamos
6r,d 2 6(6)
=1 1 9(92 - 1)
n(n 2 1)
36
= 1 720 = 0.950
puntos no es un patrn de lnea recta. Este ltimo ejemplo ilustra una ventaja del L0
, ISZ
Geo.. Pi,n
mtodo no paramtrico sobre el mtodo paramtrico: con la correlacin de rangos,
algunas veces podemos detectar relaciones que no son lineales.
Uso de la tecnologa Ingrese los datos apareados nombre de la funcin CORREL, luego haga
en las columnas C1 y C2. Si los datos toda- clic en OK. En el cuadro de dilogo, ingrese
STATDISK Anote los datos muestrales va no son rangos, utilice las opciones Ma- el ran go de la celda de los valores para x, co-
en las columnas de la ventana de datos. nip y Rank de Minitab para convertir los mo A I :A10. Tambin ingrese el rango de la
Seleccione Analysis de la barra del men datos a rangos. despus seleccione Stat, se- celda de los valores para y, como B 1:B10.
principal. luego elija Rank Correlation. Se- guido por Basic Statistics, y luego Correla- Excel mostrar en la pantalla el valor exacto
leccione las dos columnas de datos que tion. Minitab mostrar en la pantalla el valor del coeficiente de correlacin de rango rs.
se incluirn y luego haga clic en Evaluate. exacto del estadstico de prueba rs . Aunque Tambin es posible emplear el complemento
Minitab identifica esto como el coeficiente DDXL al seleccionar Nonparametric Tests
Los resultados de STATDISK incluyen el va-
lor exacto del estadstico de prueba rs. el valor de correlacin de Pearson descrito en la sec- y luego Spearman Rank Test.
crtico y la conclusin. cin 10-2, en realidad se trata del coeficiente
de correlacin de Spearman descrito en esta
E=22:3 S utilizamos una calcu-
ladora TI-83/84 Plus o cualquier otra con es-
seccin (puesto que est basado en rangos). tadsticos para 2 variables, es posible calcular
EXCEL Excel no tiene una funcin que el valor exacto de r, como sigue: 1. reemplace
calcule el coeficiente de correlacin de ran- cada valor muestral por su rango correspon-
gos a partir de valores muestrales originales, diente, luego 2. calcule el valor del coefi-
pero el valor exacto del estadstico de prueba ciente de correlacin lineal r con los mismos
I- se puede calcular como sigue. Primero procedimientos utilizados en la seccin 10-2.
reemplace cada uno de los valores muestrales Ingrese los rangos apareados en las listas LI
originales por su rango correspondiente. y L2, despus oprima STAT y seleccione
Ingrese estos rangos en las columnas A y B. TESTS. El uso de la opcin LinRegTTest da-
Haga clic en el botn de funcin fx localiza- r corno resultado varios valores, incluyendo
do en la barra del men principal. Seleccione el valor exacto del coeficiente de correlacin
la categora de funcin Statistical y el de rangos r).
714 Captulo 13 Estadstica no paramtrica
1 2 3 4 5
Y 5 4 3 2 1
n = 75. a = 0.05
Prueba para correlacin de rangos. En los ejercicios 9 a 16, utilice el coeficiente de co-
rrelacin de rangos para probar una correlacin entre las dos variables. Utilice un nivel
de significancia de a = 0.05.
9. Bolsa de Valores y ventas de automviles. Para una serie reciente de 10 aos, se ob-
tuvieron los valores mximos anuales del Promedio Industrial Dow iones (DJIA) y
los nmeros de automviles (en miles) correspondientes que se vendieron en Estados
Unidos. La siguiente tabla lista los rangos de cada conjunto de valores. Pruebe una
correlacin entre el DJIA y el nmero de automviles vendidos.
DJIA mximo I 2 3 4 5 6 7 8 10 9
Ventas de 2 3 5 I() 7 6 4 1 8 9
automviles
13-6 Correlacin de rangos 715
11). Manchas solares y puntos del Sper Bowl. Para una serie reciente de 10 aos, se
obtuvieron el nmero de manchas solares y los puntos totales anotados en el Sper
Bowl. La siguiente tabla lista los rangos de cada conjunto de valores. Pruebe una co-
rrelacin entre el nmero de manchas solares y los puntos anotados en el Sper Bowl.
El resultado coincide con lo que se esperara?
Nmero de 10 8 5 4 2 1 3 6 7 9
manchas solares
Puntos del 8 9 3 10 4 7 6 5 1 2
Sper Bowl
I 1. Correlacin entre salario y estrs. La siguiente tabla lista rangos de salario y rangos
de estrs de empleos seleccionados al azar (segn (latos de The Johs Rated Ahnanac).
Parece que el salario se incrementa a medida que se incrementa el estrs?
Empleo Rango de salario Rango de estrs
Corredor de bolsa 2 2
Zologo 6 7
Ingeniero elctrico 3 6
Director de escuela 5 4
Gerente de hotel 7 5
Funcionario bancario 10 8
Inspector de seguridad laboral 9 9
Economista domstico 8 10
Psiclogo 4 3
Piloto de aerolnea 1 1
12. Correlacin entre salario y demanda fsica. El ejercicio 11 incluye rangos aparea-
dos de salario y nivel de estrs para 10 empleos seleccionados al azar. Las demandas
fsicas de los empleos tambin se ordenaron por rangos: los rangos de salario y de-
manda fsica se presentan abajo (segn datos de The Johs Rated Altnanac). Parece
existir una relacin entre el salario de un empleo y sus demandas fsicas?
Salario 2 6 3 5 7 10 9 8 4 I
Demanda fsica 5 2 3 8 10 9 1 7 6 4
13. Grillos y temperatura. Se estudi la relacin entre la temperatura y el nmero de ve-
ces que un grillo chirra en un minuto. Abajo se listan los nmeros de chirridos por
minuto y las temperaturas correspondientes en grados Fahrenheit (segn datos de The
Song of Insects, de George W. Pierce, Harvard University Press). Existe evidencia
suficiente para concluir que existe una relacin entre el nmero de chirridos por mi-
nuto y la temperatura?
Chirridos en 882 1188 1104 864 1200 1032 960 900
un mima()
Temperatura (en 'F) 69.7 93.3 84.3 76.3 88.6 82.6 71.6 79.6
Muertes por vehculos automotores y asesinatos. A continuacin se lista el nmero
de muertes en vehculos automotores (en cientos) y el nmero de asesinatos (en cien-
tos) en Estados Unidos para varios aos diferentes. Pruebe una correlacin entre esas
dos variables.
Muertes en vehculos 435 410 418 425 434 436 434 435 413 430
automotores
Asesinatos 247 238 245 233 216 197 182 170 155 156
Audiencia y ventas de canciones. En la siguiente tabla se lista el nmero de impresio-
nes de audiencia (en cientos de millones) de canciones y el nmero de lbumes vendi-
dos correspondientes (en cientos de miles). El nmero de impresiones de audiencia es
716 Captulo 13 Estadstica no paramtrica
un conteo del nmero de veces que la gente ha escuchado la cancin. La tabla se basa
en datos de USA Today. Parece que las ventas del lbum se ven muy afectadas por el
nmero de impresiones de audiencia?
Impresiones 28 13 14 24 20 18 14 24 17
de audiencia
lbumes vendidos 19 7 7 20 6 4 5 25 12
16. Presupuestos y ganancias netas de pelculas. A continuacin se listan los pre-
supuestos (en millones de dlares) y las ganancias brutas (en millones de dlares) de
pelculas seleccionadas al azar (segn datos de la Motion Picture Association of Ameri-
ca). Al parecer existe una correlacin significativa entre el dinero gastado para hacer
la pelcula y la cantidad que se recupera en las salas de cine? Adems de la cantidad
del presupuesto, identifique otro factor importante que tal vez afecte la cantidad que
gana una pelcula.
Presupuesto 62 90 50 35 2(X) 100 90
Ganancia bruta 65 64 48 57 601 146 47
Conjuntos de datos del apndice B: En los ejercicios 17 y 18, utilice los conjuntos de da-
tos del apndice B para hacer una prueba de correlacin de rango con un nivel de signi-
ficancia de 0.05.
Conjunto de datos del apndice B: Nocividad de los cigarrillos. Remtase al con-
junto de datos 3 del apndice B.
a. Utilice los datos apareados referentes a cantidades de alquitrn y nicotina. Con ba-
se en el resultado, parece existir una correlacin significativa entre el alquitrn y
la nicotina de los cigarrillos? Si es as, pueden los investigadores reducir sus gas-
tos de laboratorio midiendo slo una de estas dos variables?
1). Utilice los datos apareados referentes a monxido de carbono y nicotina. Con base
en el resultado, parece existir una correlacin significativa entre el monxido de
carbono y la nicotina de los cigarrillos? Si es as, pueden los investigadores redu-
cir sus gastos de laboratorio midiendo slo una de estas dos variables?
c. Suponga que los investigadores quieren desarrollar un mtodo para predecir la
cantidad de nicotina y slo quieren medir algn otro elemento. Entre alquitrn y
monxido de carbono, cul es la mejor opcin? Por qu?
Conjunto de datos del apndice B: Pronsticos del clima. Remtase al conjunto de
datos 8 del apndice B.
a. Utilice las temperaturas mximas pronosticadas para cinco das y las temperaturas
mximas reales. Existe una correlacin? Una correlacin significativa implica
que las temperaturas del pronstico de cinco das son exactas?
h. Utilice las temperaturas mximas pronosticadas para un da y las temperaturas m-
ximas reales. Existe una correlacin? Una correlacin significativa implica que
las temperaturas de pronstico para un da son exactas?
c. Cmo esperara usted obtener una correlacin ms alta con las temperaturas m-
ximas reales: con las temperaturas mximas del pronstico para cinco das o con
las temperaturas mximas del pronstico para un da? Los resultados de los inci-
sos a) y b) son como usted esperaba? Si existe una correlacin muy alta entre las
temperaturas de pronstico y las temperaturas reales, se deduce que las tempera-
turas pronosticadas son exactas?
Definiciones
W Una racha es una secuencia de datos que tienen la misma caracterstica; la se-
cuencia es precedida y seguida por datos con una caracterstica diferente o por
II
lb
ningn dato en absoluto.
La prueba de rachas utiliza el nmero de rachas en una secuencia de datos
muestrales para probar la aleatoriedad del orden de los datos.