Mathematics">
Texto Regresion y Correlacion
Texto Regresion y Correlacion
Texto Regresion y Correlacion
INSTITUTO DE INVESTIGACIÓN
TEXTO UNIVERSITARIO
HUACHO
2011
Trejo López Mirtha Sussan /Castañeda Carrión Yolanda Marianela /Valverde Flores Cosme Ulises 2
OBJETIVOS
Trejo López Mirtha Sussan /Castañeda Carrión Yolanda Marianela /Valverde Flores Cosme Ulises 3
JUSTIFICACIÓN
Trejo López Mirtha Sussan /Castañeda Carrión Yolanda Marianela /Valverde Flores Cosme Ulises 4
RESULTADOS
Trejo López Mirtha Sussan /Castañeda Carrión Yolanda Marianela /Valverde Flores Cosme Ulises 5
TEXTO UNIVERSITARIO
ÍNDICE GENERAL
Trejo López Mirtha Sussan /Castañeda Carrión Yolanda Marianela /Valverde Flores Cosme Ulises 6
1.4. Regresión Lineal 13
1.4.1. Variable Independiente 13
1.4.2. Variable Dependiente 13
1.4.3. Ajuste de una Función de Regresión 13
1.4.4. Método de Mínimos Cuadrados 14
1.5. Regresión Simple Lineal 14
1.5.1. Ecuación de Regresión 14
1.5.2. Línea Recta de Regresión 14
1.5.3. Interpretación de “b” 15
1.5.4. Gráfica de la Recta de Regresión 15
1.5.5. Error Estándar de Estimación 15
1.5.6. Interpretación del error estándar de estimación 15
1.5.7 Intervalos de Predicción 16
Ejercicios Resueltos 17
Ejercicios Propuestos 25
Resumen 26
Trejo López Mirtha Sussan /Castañeda Carrión Yolanda Marianela /Valverde Flores Cosme Ulises 7
Ejercicio Resuelto 42
3.3. La Función Exponencial 44
3.3.1. Deducción de las Ecuaciones Normales 45
Ejercicio Resuelto 46
3.4. La Hipérbola Equilátera 48
3.4.1. Deducción de las Ecuaciones Normales 49
Ejercicio Resuelto 49
Ejercicios Propuestos 51
Resumen 53
GLOSARIO 62
LISTADO DE ABREVIATURA 63
EPÍLOGO 64
APÉNDICE 65
BIBLIOGRAFIA 67
Trejo López Mirtha Sussan /Castañeda Carrión Yolanda Marianela /Valverde Flores Cosme Ulises 8
AGRADECIMIENTO
Trejo López Mirtha Sussan /Castañeda Carrión Yolanda Marianela /Valverde Flores Cosme Ulises 9
PROLOGO
Este texto de Análisis de Regresión y Correlación Lineal y No Lineal tiene la finalidad de proporcionar
temas que se imparten en el curso de Estadística Inferencial y está orientado a las aplicaciones de
nuestro contexto social.
Estamos comprometidos a ayudar a los estudiantes para que se acerquen sin angustia a la Estadística.
Esta orientación de la enseñanza – aprendizaje ha dado como resultado una gran cantidad de auxiliares
efectivos para el aprendizaje. En cada capítulo se presentan problemas planteados para dar a los
estudiantes la oportunidad de trabajar con problemas semejantes a los ejemplos desarrollados y que
sirvan para reforzar la comprensión del material elaborado.
Después del análisis de cada concepto hay al menos un ejemplo y su solución. Al final de cada capítulo
se incluye un breve resumen.
Al principio de cada capítulo se plantea un conjunto de objetivos, en ellos se indica lo que el estudiante
será capaz de hacer al concluir el capítulo.
Los Autores
Trejo López Mirtha Sussan /Castañeda Carrión Yolanda Marianela /Valverde Flores Cosme Ulises 10
CAPÍTULO I
REGRESIÓN LINEAL
OBJETIVOS:
Trejo López Mirtha Sussan /Castañeda Carrión Yolanda Marianela /Valverde Flores Cosme Ulises 11
La construcción del diagrama de esparcimiento constituye el primer paso para investigar la relación
existente entre dos variables, la posición y forma de esta nube proporciona la idea del tipo de
relación existente entre dos variables, de este modo se facilita la elección de la correspondiente
función matemática.
GRÁFICO Nº 1.1
DIAGRAMAS DE ESPARCIMIENTO
PARA DATOS BIDIMENSIONALES
Y Y
X X
0 0
A: RELACIÓN LINEAL POSITIVA B: RELACIÓN LINEAL NEGATIVA
Y Y
X X
0 0
C: RELACIÓN NO LINEAL D: SIN RELACION DEFINIDA
Ahora bien graficada y visualizada la forma del diagrama de esparcimiento, interesa analizar y
expresar el tipo de relación entre las variables. Para expresar esta relación se elige una función
matemática que mejor represente o se ajuste al diagrama de esparcimiento.
1.2. Regresión
Es el método estadístico que investiga y define la relación funcional entre dos o más variables.
Trejo López Mirtha Sussan /Castañeda Carrión Yolanda Marianela /Valverde Flores Cosme Ulises 12
1.3. Función o Modelo de Regresión
Ecuación matemática que representa el modelo estadístico correspondiente.
Trejo López Mirtha Sussan /Castañeda Carrión Yolanda Marianela /Valverde Flores Cosme Ulises 13
1.5.1. Ecuación de Regresión
Expresión matemática que define la relación entre dos variables. Se le denomina también
ecuación de estimación o ecuación de pronóstico
Y a bX
Donde:
a Y bX
n XY X Y
b ,
n X 2 X
2
Donde:
X es un valor de la variable independiente
Y es un valor de la variable dependiente
n es el número de elementos de la muestra
Trejo López Mirtha Sussan /Castañeda Carrión Yolanda Marianela /Valverde Flores Cosme Ulises 14
ii) Si b es negativo (b<O), se tiene una relación lineal negativa o inversa es decir, que
incrementos en la variable independiente origina decrementos o disminuciones en la
variable dependiente.
Y a bX
Para graficar una recta es suficiente definir dos puntos luego se grafican estos dos puntos
en el plano y por ellos se traza una recta.
Se SYX
Y 2
aY b XY
n2
Donde:
Y : valor real de Y
Y* : valor pronosticado de Y
n : número de elementos de la muestra
X : valores de la variable independiente
Y : valores de la variable dependiente
a : ordenada de origen
b : pendiente de la recta o coeficiente angular
un estimador perfecto de la variable dependiente. En este caso, todos los puntos de datos
caerían directamente sobre la Iínea de regresión no habrá puntos dispersos alrededor.
Trejo López Mirtha Sussan /Castañeda Carrión Yolanda Marianela /Valverde Flores Cosme Ulises 15
Los estadísticos aplican los intervalos de predicción basados en la distribución normal sólo
a grandes muestras (n≥30)
GRÁFICO Nº1.2
LIMITES ALREDEDOR DE LA LÍNEA DE REGRESIÓN
V
a
r Y a bX 3Se
i
a Y a bX 2Se
b
l
e Y a bX Se
d Y a bX
e
p Y a bX Se
e
n Y a bX 2Se
d
i
Y a bX 3Se
e
n
3Se
t 2Se
Se
e
Variable Independiente X
Cuando las muestras son pequeñas (n<30) utilizamos la distribución t-student, los intervalos
serán:
Y t(1 ,n 2)Se
EJERCICIOS RESUELTOS
Trejo López Mirtha Sussan /Castañeda Carrión Yolanda Marianela /Valverde Flores Cosme Ulises 16
1.- El administrador de EMAPA HUACHO S.A. desea establecer la relación entre el consumo mensual
domiciliario y el tamaño de la familia en la urbanización Los Jardines en octubre de 2011, se conocen
los datos siguientes:
Tamaño de familia Galones de agua utilizados
9 1050
2 650
7 850
9 1000
4 550
11 1050
6 900
3 650
3 600
2 600
2 700
3 500
5 550
10 1000
6 800
7 900
6 700
4 500
3 550
5 800
8 950
8 1100
6 750
7 800
5 750
4 600
7 950
11 1000
12 1050
9 1100
12 1000
12 1100
10 1050
9 800
Trejo López Mirtha Sussan /Castañeda Carrión Yolanda Marianela /Valverde Flores Cosme Ulises 17
SOLUCIÓN:
GRÁFICO Nº1.3
DIAGRAMA DE ESPARCIMIENTO Y RECTA ESTIMADA DE REGRESIÓN DEL CONSUMO DE AGUA
Y EL TAMAÑO DE FAMILIA. URBANIZACIÓN LOS JARDINES. OCTUBRE 2011. HUACHO
Y Y 450.12 55.46 X P2
1100
C
O
N 1000
S
U
M 900
O
800
D
E
700
A
G
U 600
A P1
500
1 2 3 4 9 10 12
X
5 6 7 8 11
TAMAÑO DE FAMILIA
b)
CUADRO Nº1.1
Trejo López Mirtha Sussan /Castañeda Carrión Yolanda Marianela /Valverde Flores Cosme Ulises 18
X Y XY X2 Y2
9 1050 9450 81 1102500
2 650 1300 4 422500
7 850 5950 49 722500
9 1000 9000 81 1000000
4 550 2200 16 302500
11 1050 11550 121 1102500
6 900 5400 36 810000
3 650 1950 9 422500
3 600 1800 9 360000
2 600 1200 4 360000
2 700 1400 4 490000
3 500 1500 9 250000
5 550 2750 25 302500
10 1000 10000 100 1000000
6 800 4800 36 640000
7 900 6300 49 810000
6 700 4200 36 490000
4 500 2000 16 250000
3 550 1650 9 302500
5 800 4000 25 640000
8 950 7600 64 902500
8 1100 8800 64 121000
6 750 4500 36 562500
7 800 5600 49 640000
5 750 3750 25 562500
4 600 2400 16 360000
7 950 6650 49 902500
11 1000 11000 121 1000000
12 1050 12600 144 1102500
9 1100 9900 81 1210000
12 1000 12000 144 1000000
12 1100 13200 144 1210000
10 1050 10500 100 1102500
9 800 7200 81 640000
227 27900 204100 1837 24185000
X Y XY X 2
Y 2
Y a bX
a Y bX
n XY X Y
b
n X 2 X
2
Trejo López Mirtha Sussan /Castañeda Carrión Yolanda Marianela /Valverde Flores Cosme Ulises 19
Reemplazando los valores del Cuadro Nº 1.1 en b se tiene:
34(204100) (227)(27900)
b
34(1837) 227
2
b 55.46
Encontramos el valor de a:
27900 227
a 55.46
34 34
a 450.12
La ecuación de regresión:
Y 450.12 55.46 X
Interpretación:
Y 450.12 55.46 X
Iniciando con un consumo base de 450, 12 galones de agua cada incremento unitario en el
tamaño de la familia está asociado con un aumento promedio de 55,46 galones de agua.
a = 450,12
Nos indica que es el consumo de agua cuando el tamaño de familia es cero.
b = 55,46
Nos indica en general que el consumo de agua (Y) aumenta a medida que se incremente el
tamaño de familia (X) esto es que existe una relación lineal directa entre el tamaño de familia
(X) y el consumo de agua (Y) de la urbanización los Jardines. Huacho.
c) Definimos dos puntos para graficar la recta de regresión y luego se grafican en el mismo
plano del diagrama de esparcimiento.
Trejo López Mirtha Sussan /Castañeda Carrión Yolanda Marianela /Valverde Flores Cosme Ulises 20
Se SYX
Y 2
aY b XY
n2
24185000 450.12(27900) 55.46(204100)
Se SYX
32
Se SYX 97.9901143
Se SYX 98
Interpretación:
Como el error estándar de estimación es pequeño, indica que las dos variables están
relacionadas muy cerca esto nos indica que el coeficiente de correlación tiende a ser grande
ya que los puntos de diagrama de dispersión parecen cercanos a la línea de regresión.
Y 2Se 95.5%
El intervalo de predicción propuesto es para X = 4 encontramos Y *
2.- Se desea analizar la relación entre edad y el tiempo efectivo de servicios, se considera una
muestra de 15 trabajadores de la Empresa Textil ¨La Alameda¨ S.A. Trujillo 2011, obteniéndose
los resultados siguientes:
Edad 48 40 30 39 46 42 27 36 34 46 32 42 40 32 27
Tiempo de servicio 24 18 9 14 22 22 4 13 10 20 12 18 16 8 6
a) Construir el diagrama de esparcimiento
b) Determinar la ecuación de regresión.
c) Graficar la línea de regresión
Trejo López Mirtha Sussan /Castañeda Carrión Yolanda Marianela /Valverde Flores Cosme Ulises 21
e) Establecer los intervalos que tienen 35 años de edad con un nivel de confianza del 99%
SOLUCIÓN:
a) Primeramente definimos cual será la variable dependiente (Y) y cual la variable
independiente (X) Luego:
Tiempo de servicio =f (edad)
Y = f (x)
GRÁFICO Nº1.4
DIAGRAMA DE ESPARCIMIENTO – RECTA ESTIMADA DE REGRESIÓN DE LA EDAD Y
22
20
T
I 18
E
M
16
P
O
14
D
E 13
12
S
E
R 10
V
9
I
C 8
I
O
6
X
0
26 30 34 38 42 46 50 EDAD
b)
Trejo López Mirtha Sussan /Castañeda Carrión Yolanda Marianela /Valverde Flores Cosme Ulises 22
CUADRO Nº 1.2
X Y XY X2 Y2
b 0.876
Encontramos el valor de a:
216 561
a 0.876
15 15
a 18.362
La ecuación de regresión.
Y 18.362 0.876 X
Trejo López Mirtha Sussan /Castañeda Carrión Yolanda Marianela /Valverde Flores Cosme Ulises 23
c) Para graficar la recta de regresión:
Y t(1 ,n 2)Se
L1 12.3 2.6501(1.66)
L1 8
Ls 12.3 t0.99;13 1.66
Ls 12.3 2,65011.66
Ls 17
El intervalo de predicción será:
Trejo López Mirtha Sussan /Castañeda Carrión Yolanda Marianela /Valverde Flores Cosme Ulises 24
EJERCICIOS PROPUESTOS
1.- Se desea investigar la estructura de los sueldos de los docentes y saber si existe relación con los
años de experiencia.
Años de 9 7 5 16 15 18 20 13 10 8 4 12
Experiencia
Sueldo 1.2 0.8 0.7 2.5 2.3 2.6 3.2 1.9 1.7 1.5 0.7 1.8
(miles)
a) Construir el diagrama de esparcimiento
b) Determinar e Interpretar la ecuación de regresión
c) Graficar la línea de regresión
d) Calcular e interpretar el error estándar de estimación.
e) Establecer e interpretar los intervalos de predicción.
2.- Un profesor desea establecer si existe la relación entre el tiempo (minutos) para hacer la tarea y el
tiempo gastado para aprender (en minutos) de 11 estudiantes.
Tiempo de 40 35 20 38 17 26 22 12 12 5 28
hacer la tarea
Tiempo
gastado en 30 30 40 40 50 50 60 60 70 70 60
aprender
a) Construir el diagrama de esparcimiento
b) Determinar e Interpretar la ecuación de regresión
c) Graficar la línea de regresión
d) Calcular e interpretar el error estándar de estimación.
e) Establecer e interpretar los intervalos de predicción.
3.- El gerente de un taller desea saber si existe relación entre las horas de trabajo y la producción
(unidades producidas).
Horas 80 79 83 84 78 60 82 85 79 84 80 62
Producción 300 302 315 330 300 250 300 340 315 330 310 240
Trejo López Mirtha Sussan /Castañeda Carrión Yolanda Marianela /Valverde Flores Cosme Ulises 25
4.- Una compañía de seguros considera que el número de vehículos que circulan por una determinada
autopista a más de 120 km/h puede ser en función del número de accidentes que ocurren en ella
durante 5 días se obtuvo:
Accidentes 5 7 2 1 9
Nº Vehículos 15 18 10 8 20
5.- Un centro comercial desea saber que en función de la distancia en km, a la que se encuentra un
núcleo de la población, acuden los clientes.
Nº de Clientes 8 7 6 4 2 1
Distancia 15 19 25 23 34 40
RESUMEN
Una investigación estadística con frecuencia implica el examen de la relación entre dos conjuntos de
variables. El análisis de regresión se ocupa en parte del desarrollo de una expresión matemática para tal
El error estándar de estimación S XY mide la exactitud del pronóstico. También se utiliza para desarrollar
un intervalo de coeficiente correspondiente.
Trejo López Mirtha Sussan /Castañeda Carrión Yolanda Marianela /Valverde Flores Cosme Ulises 26
CAPÍTULO II
CORRELACIÓN LINEAL
OBJETIVOS:
Trejo López Mirtha Sussan /Castañeda Carrión Yolanda Marianela /Valverde Flores Cosme Ulises 27
2.1. Correlación
Expresa el grado de asociación o afinidad entre las variables consideradas, también explica el
grado de la bondad del ajuste de las líneas de regresión
n XY X Y
r
n X 2 X 2 n Y 2 Y 2
GRÁFICO Nº 2.1
DIAGRAMAS DE DISPERSIÓN QUE MUESTRAN CORRELACIÓN
CERO, NEGATIVA Y POSITIVA
Correlación Cero, r=0 Correlación Negativa
(X y Y no están relacionadas (X y Y tienen relación lineal
linealmente) inversa)
Y Y
I C
n a
g n
r t
e i
s d
o a
d
M
e V
n e
s n
u d
a i
l d
X a X
0 Número de Hijos 0 Precio
Trejo López Mirtha Sussan /Castañeda Carrión Yolanda Marianela /Valverde Flores Cosme Ulises 28
Correlación Positiva
(X y Y tienen relación lineal
directa)
T Y
i
e
m
p
o
d
e
S
e
r
v
i
c
i
o
0 X
Edad
2.6 Propiedades de r
La propiedad fundamental del coeficiente de correlación “r” es:
1 r 1
a) Si r > 0 entonces existe correlación directa positiva
b) Si r < 0 se trata de una correlación inversa negativa
c) Si r= 1 los datos forman una Iínea recta, en el caso de la correlación rectilínea.
d) Si r = +1 hay una correlación perfecta positiva
e) Si r = -1 hay una correlación perfecta negativa
f) Si r = 0 los datos son incorrelacionados
EI signo de "r" es el mismo que el signo "b" coeficiente angular o pendiente de la recta de la
ecuación de regresión Y* = a + bX
Trejo López Mirtha Sussan /Castañeda Carrión Yolanda Marianela /Valverde Flores Cosme Ulises 29
2.7. Interpretación Clásica
a) 0 < r < ±0,20 existe correlación no significativa.
b) ±0,20 < r < ±0,40 existe una correlación baja.
c) ±0,40 ≤ r < ±0,70 existe una significativa correlación.
d) ±0,70 ≤ r < ±1,00 existe alto grado de asociación.
Los coeficientes de determinación y no determinación solo pueden ser positivos (porque al elevar al
cuadrado una r negativa da como resultado un número positivo). Los coeficientes pueden tomar
cualquier valor entre 0 y 1,00 inclusive.
Trejo López Mirtha Sussan /Castañeda Carrión Yolanda Marianela /Valverde Flores Cosme Ulises 30
EJERCICIOS RESUELTOS
1.- Una gasolinera desea saber si existe relación entre la recaudación (miles de soles) durante las
últimas 7 semanas, así como el número de clientes (en miles) que acudieron durante esos
periodos.
Recaudación 1,5 10 8 3 5 15 2
SOLUCIÓN:
a)
CUADRO Nº 2.1
COEFICIENTE DE CORRELACIÓN RECTILÍNEA, COEFICIENTE DE DETERMINACIÓN
Y NO DETERMINACIÓN DE LA RECAUDACIÓN Y EL NÚMERO DE CLIENTES
DE UNA GASOLINERA
X Y XY X2 Y2
X Y XY X 2
Y 2
n XY X Y
r
n X 2 X 2 n Y 2 Y 2
Trejo López Mirtha Sussan /Castañeda Carrión Yolanda Marianela /Valverde Flores Cosme Ulises 31
1829,8 1455,15
r
1207,43 1069,293004,75 1980,25
r 0.99
r 2 0.99 0.9801
2
r 2 0.98
Interpretación:
El 98% de la variación total de la recaudación semanal se explica por, o se debe a la
variación en el número de clientes.
1 r 2 1 0.98 0.02
Interpretación:
El 2% de la variación total de la recaudación semanal no se debe a la variación en el número
de clientes.
2.- El director de una institución educativa desea establecer si existe relación entre los pesos en
libras y las estaturas en pulgadas de una muestra de niños de cinco años de edad:
Estatura 38 39 40 41 42 43 44 45 46 47
Peso 34 35 36 38 39 41 44 46 47 49
SOLUCIÓN:
a) Coeficiente de correlación rectilínea del Cuadro Nº 2.2
10(17527) (409)(425)
r
10(16985) 409 2 10(18145) 425 2
r 0.99
Trejo López Mirtha Sussan /Castañeda Carrión Yolanda Marianela /Valverde Flores Cosme Ulises 32
CUADRO Nº 2.2
COEFICIENTE DE CORRELACIÓN RECTILÍNEA, COEFICIENTE DE DETERMINACIÓN
Y NO DETERMINACIÓN DE LOS PESOS Y ESTATURA DE NIÑOS DE CINCO AÑOS
DE EDAD DE UNA INSTITUCIÓN EDUCATIVA
X Y XY X2 Y2
X Y XY X 2
Y 2
r 2 0.99 0.9801
2
r 2 0.98
Interpretación:
El 98% de la variación total de la estatura de los niños se explica por, o se debe a la variación
en el peso.
1 r 2 1 0.98 0.02
Interpretación:
El 2% de la variación total de la estatura de los niños no se debe a la variación en el peso.
Trejo López Mirtha Sussan /Castañeda Carrión Yolanda Marianela /Valverde Flores Cosme Ulises 33
EJERCICIOS PROPUESTOS
1.- Se desea investigar la estructura de los sueldos de los docentes y saber si existe relación con los
años de experiencia.
Años de 9 7 5 16 15 18 20 13 10 8 4 12
Experiencia
Sueldo 1.2 0.8 0.7 2.5 2.3 2.6 3.2 1.9 1.7 1.5 0.7 1.8
(miles)
a) Hallar e interpretar el coeficiente de correlación.
b) Hallar e interpretar el coeficiente de determinación.
c) Hallar e interpretar el coeficiente de no determinación.
2.- Un gerente desea saber si existe relación entre las horas de trabajo en un taller y el número de
unidades producidas.
Horas 80 79 83 84 78 60 82 85 79 84 80 62
Producción 300 302 315 330 300 250 300 340 315 330 310 240
3.- Un profesor desea establecer si existe la relación entre el tiempo (minutos) para hacer la tarea y el
tiempo gastado para aprender (en minutos) de 11 estudiantes.
Tiempo de 40 35 20 38 17 26 22 12 12 5 28
hacer la tarea
Tiempo
gastado en 30 30 40 40 50 50 60 60 70 70 60
aprender
a) Hallar e interpretar el coeficiente de correlación.
b) Hallar e interpretar el coeficiente de determinación y no determinación.
4.- Una compañía de seguros considera que el número de vehículos que circulan por una determinada
autopista a más de 120 km/h puede ser en función del número de accidentes que ocurren en ella
durante 5 días se obtuvo:
Accidentes 5 7 2 1 9
Nº Vehículos 15 18 10 8 20
Trejo López Mirtha Sussan /Castañeda Carrión Yolanda Marianela /Valverde Flores Cosme Ulises 34
RESUMEN
El coeficiente de correlación r puede tomar cualquier valor entre -1.00 y +1.00 coeficiente cercanos a -1
y +1 indican que existe una correlación intensa entre las dos variables de interés. Un coeficiente cercano
a cero indica correlación débil, y uno de cero significa que no existe correlación. El signo negativo antes
de r indica que existe una relación inversa, lo cual significa que conforme X aumenta Y disminuye. Una
correlación positiva significa que si X aumenta Y se incrementa. El signo de r no tiene que ver con la
intensidad; r = - 0.31 y r = + 0.31 denotan igual intensidad pero ambos indican relaciones débiles.
Otra dos medidas de relación son el coeficiente de determinación y el coeficiente de no determinación el
primero se determina al elevar r al cuadrado y se define como la proporción de la variación en Y
explicada por medio de X. el coeficiente de no determinación se obtiene por medio de 1- r2 y es la
proporción de la variación en Y no explicada en X
Trejo López Mirtha Sussan /Castañeda Carrión Yolanda Marianela /Valverde Flores Cosme Ulises 35
CAPÍTULO III
REGRESIÓN NO LINEAL
OBJETIVOS:
Trejo López Mirtha Sussan /Castañeda Carrión Yolanda Marianela /Valverde Flores Cosme Ulises 36
3.1. Parábola de Segundo Grado
La curva o función de regresión parabólica se construye a partir la ecuación polinomial de segundo
grado:
Y a bX cX 2
Que tiene tres parámetros o coeficientes desconocidos a, b, c. Para determinar el valor de estos tres
parámetros se requiere de tres ecuaciones. Precisamente aplicando el Método de Mínimos
Cuadrados se obtiene las tres ecuaciones normales siguientes:
1) Y na b X c X 2
2) XY a X b X c X 2 3
3) X Y a X b X c X
2 2 3 4
Min Y Y
2
donde reemplazando
Y a bX cX 2 se tiene:
Min Y a bX cX 2
2
Y Y
2
Syx .
n
Trejo López Mirtha Sussan /Castañeda Carrión Yolanda Marianela /Valverde Flores Cosme Ulises 37
Donde se sustituye Y a bX cX 2 para obtener:
Syx
(Y a bX cX 2 2
)
n
Desarrollando el cuadrado, factorizando y simplificando términos resulta:
Syx
Y 2
aY b XY c X 2Y
n
Que finalmente es la formula para calcular el error estándar de estimación.
EJERCICIO RESUELTO
En las primeras columnas del cuadro Nº 3.1.están el volumen mensual de venta (Y) en millones de
soles y los años de experiencia en ventas (X) de 10 vendedores profesionales de una fabrica
productora de alimentos.
a) Construir el diagrama de esparcimiento.
b) Determinar la Curva de Regresión Parabólica.
c) Calcular el Error Estándar de Estimación.
d) Graficar la curva de regresión no lineal obtenida.
SOLUCIÓN:
a) El diagrama de esparcimiento de los puntos (X,Y) se muestra en el Grafico Nº 3.1.
Y a bX cX 2
Las ecuaciones normales son:
Y na b X c X 2
XY a X b X c X 2 3
X Y a X b X c X
2 2 3 4
Trejo López Mirtha Sussan /Castañeda Carrión Yolanda Marianela /Valverde Flores Cosme Ulises 38
Luego la ecuación de regresión parabólica es:
GRÁFICO Nº3.1
DIAGRAMA DE ESPARCIMIENTO Y CURVA
DE REGRESIÓN PARABÓLICA
V
E 12
N Y 3,5762 0,3824 X 0,1676 X 2
T
A 10
S
8
M
E
N
6
S
U 4
A
L
E 2
S
0
1 2 3 4 5 6 7 8 9
AÑOS DE EXPERIENCIA
Syx
Y 2
aY b XY c X 2Y
n
Trejo López Mirtha Sussan /Castañeda Carrión Yolanda Marianela /Valverde Flores Cosme Ulises 39
CUADRO Nº3.1
DETERMINACIÓN DE LA CURVA DE REGRESIÓN PARABÓLICA
DE LAS VENTAS MENSUALES (Y) Y EXPERIENCIA (X)
EN VENTAS DE 10 VENDEDORES PROFESIONALES
Y X XY X2 X3 X4 X2 Y Y2
5 4 20 16 64 256 80 25
6 5 30 25 125 625 150 36
4 2 8 4 8 16 16 16
5 5 25 25 125 625 125 25
7 6 42 36 216 1296 252 49
10 7 70 49 343 2401 490 100
3 1 3 1 1 1 3 9
11 8 88 64 512 4096 704 121
4 3 12 9 27 81 36 16
9 7 63 49 343 2401 441 81
64 48 361 278 1764 11798 2297 478
Y X XY X 2
X 3
X 4
X Y 2
Y 2
X 0 Y 3.6 P1 (0;3,6)
X 1 Y 3.4 P2 (1;3,4)
X 5 Y 5.8 P3 (5;5,8)
X 8 Y 11.2 P4 (8;11,2)
Estos 4 puntos se ubican en el plano y por ellos aproximadamente a mano alzada construimos la
parábola como se observa en el grafico Nº 3.1, la parábola pasa a lo largo del diagrama
de esparcimiento. Los valores observados Y están ubicados alrededor de la parábola, en tanto
que los valores teóricos o estimados Y están ubicados en el lugar geométrico de la parábola
Y 3,5762 0,3824 X 0,1676 X 2
Y bX a
Trejo López Mirtha Sussan /Castañeda Carrión Yolanda Marianela /Valverde Flores Cosme Ulises 40
que tiene dos parámetros desconocidos a,b. en este caso se trata de ajustar una curva potencial a
la nube de puntos (X,Y).
Recordemos que por una nube de puntos (X,Y) pueden pasar muchas funciones potenciales, de
esta familia de curvas se elige la que mejor se ajusta a los valores de (X,Y), es decir que las
diferencias o residuo (Y-Y*) sean mínimos. Tal como se ha establecido, el método de los mínimos
cuadrados permite determinar la mejor curva.
Como hay dos parámetros (a,b) se necesita dos ecuaciones normales.
Para facilitar la determinación de las dos ecuaciones normales conviene expresar la función original
en términos logarítmicos.
Y
Y bX a
X
0
Trejo López Mirtha Sussan /Castañeda Carrión Yolanda Marianela /Valverde Flores Cosme Ulises 41
EJERCICIO RESUELTO
El ingreso y consumo promedio mensual (en miles de soles) de una muestra de 12 familias de
distintos estratos sociales, fue el siguiente:
Ingreso : 13 15 17 18 20 21 22 24 24 26 28 30
Consumo: 12 14 16 15 18 18 17 19 21 20 21 22
a) Construir la nube de puntos o diagrama de esparcimiento.
b) Ajustar los datos a una curva de regresión potencial
c) Graficar la ecuación potencial.
d) Estimar el valor del consumo de una familia con un ingreso mensual de 25 000 soles.
SOLUCIÓN:
a) Los puntos (X,Y) se grafican en un plano rectangular y resulta el diagrama de esparcimiento o
nube de puntos del Grafico Nº3.2. como se observa la nube de puntos sugiere una curva.
GRAFICO Nº3.2
DIAGRAMA DE ESPARCIMIENTO Y CURVA POTENCIAL
DEL INGRESO (X) Y CONSUMO (Y) DE UNA
MUESTRA DE 12 FAMILIAS. 2010
22
Y 2.096 X 0.698
C
O 20
N
S
U 18
M
O
16
14
12
10
10 15 20 25 30
INGRESO
Trejo López Mirtha Sussan /Castañeda Carrión Yolanda Marianela /Valverde Flores Cosme Ulises 42
b) Trabajamos con la curva de regresión potencial en su forma logarítmica:
De donde
a 0.698 log b 0.3213 o b 2.096
Luego:
Y 2.096 X 0.698
Y 2.096 X 0.698
El método más sencillo es determinar algunos puntos aislados (X,Y) para el efecto se asigna
valores a X de donde resulta el valor de Y.
Si
Trejo López Mirtha Sussan /Castañeda Carrión Yolanda Marianela /Valverde Flores Cosme Ulises 43
d) Para un ingreso de 25 000 soles mensuales, significa reemplazar en la función potencial X = 25;
luego:
CUADRO Nº3.2
DETERMINACIÓN DE LA CURVA DE REGRESIÓN POTENCIAL DEL CONSUMO (Y) PROMEDIO
MENSUAL E INGRESO (X) DE UNA MUESTRA DE 12 FAMILIAS. 2010
Y ab X
Esta función se utiliza cuando interesa calcular tasas de incrementos considerando todos los puntos
observados durante el periodo, aquí se supone que existe un crecimiento no lineal de tipo
geométrico.
Trejo López Mirtha Sussan /Castañeda Carrión Yolanda Marianela /Valverde Flores Cosme Ulises 44
Y
Y ab X
X
0
De la misma manera que la función potencial, transformar la función exponencial original en forma
Sustituyendo logY se tiene:
Derivando parcialmente respecto a los parámetros log a, log b se obtienen las ecuaciones
normales para el caso exponencial.
2 (logY log a X log b)( 1) 0
(log a)
2 (logY log a X log b)( X ) 0
log b
Efectuando las operaciones indicadas en las derivadas, resultan las siguientes ecuaciones
normales:
Donde las incógnitas son (log a, log b), cuyos valores se obtienen remplazando las
sumatorias.
Trejo López Mirtha Sussan /Castañeda Carrión Yolanda Marianela /Valverde Flores Cosme Ulises 45
EJERCICIO RESUELTO
Para estimar la función de Costo Total (C medida en millones de soles) con respecto a la producción
total (Q medida en miles de unidades), un fabricante ha obtenido el siguiente conjunto de datos
muestrales:
Producción (Q): 10 20 30 40 50 60 70 80
Costo Total (C): 30 36 40 48 50 54 66 68
Con estos datos:
a) Construir el diagrama de esparcimiento.
b) Determinar la función de Costo Total, a través de una curva de regresión exponencial.
c) Graficar la curva de regresión o función de costo total.
d) Estimar el costo total, si se produce 42,000 unidades.
SOLUCIÓN:
En este caso es claro que: Costo Total = f (producción) o sea C= f (Q) donde los puntos bidimensionales
serian (Q,C), equivalente a (X,Y).
a) Los puntos (Q,C) constituyen el diagrama de esparcimiento o nube de puntos, que se representa
en el Gráfico Nº 3.3.
GRAFICO Nº3.3
DIAGRAMA DE ESPARCIMIENTO Y CURVA DE EXPONENCIAL
DE PRODUCCIÓN (Q) Y COSTO TOTAL (C)
90
80
C 26.516(1,0138)Q
C 70
O
S
T 60
O
50
40
30
20
10
0 PRODUCCIÓN
10 20 30 40 50 60 70 80 90
Trejo López Mirtha Sussan /Castañeda Carrión Yolanda Marianela /Valverde Flores Cosme Ulises 46
b) La curva de regresión exponencial (función costo total) es:
El cuadro de trabajo para obtener el valor de los parámetros log a, log b, es el siguiente:
CUADRO Nº3.3
FUNCIÓN DE REGRESIÓN EXPONENCIAL DE
LA PRODUCCIÓN Y COSTO TOTAL
Q i c i logC Q 2
Q logC logC
2
C 26.516 1.0138
Q
C 26.516 1.0138
Q
Trejo López Mirtha Sussan /Castañeda Carrión Yolanda Marianela /Valverde Flores Cosme Ulises 47
Se calcula algunos puntos aislados (Q, C) a partir de la ecuación dando valores a Q. donde:
Si:
Q 20 entonces C 34.9
Q 40 entonces C 45.9
Q 60 entonces C 60.3
Q 80 entonces C 79.4
Q 90 entonces C 91.0
Los cinco puntos se grafican en el mismo plano del diagrama de esparcimiento (Gráfico Nº 3.3),
y por estos puntos trazar a “mano alzada” la curva exponencial correspondiente. Como es de
esperar los datos observados (Q, C) están ubicados muy cerca al lugar geométrico de la curva
que reafirma el elevado valor de r = 0.9770.
d) El costo total, para una producción de 42000 unidades significa que Q=42, luego reemplazamos
en:
C 26.516 1.0138
42
47.151 millones de soles
C 47152000 soles
Y a X
X
0
Trejo López Mirtha Sussan /Castañeda Carrión Yolanda Marianela /Valverde Flores Cosme Ulises 48
3.4.1. Deducción de las Ecuaciones Normales
Como tiene un sólo parámetro será necesario disponer de una ecuación normal. Ahora la
expresión que minimiza es:
2
a
Min ( Y Y ) Y
2
X
Derivando respecto al parámetro “a” se tiene:
a 1
2 Y 0
a X X
Luego:
Y a
X X
2
Esta ecuación normal permite obtener el valor de “a”.
EJERCICIO RESUELTO
SOLUCIÓN:
a) El diagrama de esparcimiento se aprecia en el Grafico Nº 3.4. donde hay nueve puntos (X,Y).
X
Y a
X X
2
Reemplazando valores
143.88 0.1414 a
a 1017.5
Luego la ecuación es:
1017.5
Y
X
Trejo López Mirtha Sussan /Castañeda Carrión Yolanda Marianela /Valverde Flores Cosme Ulises 49
GRAFICO Nº3.4
DIAGRAMA DE ESPARCIMIENTO Y CURVA DE REGRESIÓN
HIPÉRBOLA EQUILÁTERA PARA PRECIOS (X) Y
CANTIDADES VENDIDAS (Y) DE UN ARTÍCULO
CANTIDAD
VENDIDA
300
250
200
150
100
50
0 3 6 9 12 15 18 21 24 27 30
PRECIOS
c) Nuevamente, para graficar la hipérbola equilátera será necesario determinar algunos puntos,
como:
Si:
X 4 Y 254
X 10 Y 102
X 16 Y 63
X 26 Y 39
Los puntos se grafican en el plano rectangular elegido y por ellos se traza a mano alzada la
curva exponencial correspondiente, resultando la curva del Gráfico Nº 3.4.
Trejo López Mirtha Sussan /Castañeda Carrión Yolanda Marianela /Valverde Flores Cosme Ulises 50
CUADRO Nº3.4
PRECIOS (X) Y CANTIDADES (Y) TRANSADAS EN
EL MERCADO DE UN ARTÍCULO EN 9 MESES
Y 1 1
X Y Y2
X X X2
4 240 60.00 0.250 0.0625 57600
5 200 40.00 0.200 0.0400 40000
8 150 18.75 0.125 0.0156 22500
10 100 10.00 0.100 0.0100 10000
14 80 5.71 0.071 0.0051 6400
18 70 3.89 0.056 0.0031 4900
21 60 2.86 0.048 0.0023 3600
25 40 1.60 0.040 0.0016 1600
28 30 1.07 0.036 0.0013 900
Y 1 1
X Y X X
2
X 2
Y 2
EJERCICIOS PROPUESTOS
1. Proyectar la demanda en función del ingreso, teniendo como demanda histórica lo siguiente:
Trejo López Mirtha Sussan /Castañeda Carrión Yolanda Marianela /Valverde Flores Cosme Ulises 51
2. Proyectar la Oferta de cierto producto tomando en cuenta los datos obtenidos en el estudio de
mercado:
3. Un analista de mercado revela la producción de cierto producto y el costo total del mismo en la
siguiente tabla:
3 42
6 58
9 62
12 75
15 82
20 93
25 109
Trejo López Mirtha Sussan /Castañeda Carrión Yolanda Marianela /Valverde Flores Cosme Ulises 52
4. La demanda de un producto sigue la siguiente ecuación:
Q e( ab / p )
Si se tiene los siguientes datos:
1990 10 1
1991 11 2
1992 13 3
1993 14 4
1994 17 5
RESUMEN
En este capitulo nos hemos ocupado del análisis de regresión no lineal, primeramente identificando la
variable dependiente y la variable independiente de un conjunto de n observaciones trazando el
diagrama de dispersión, con la facilidad de observar el comportamiento de la mejor función no lineal que
represente ese conjunto de datos y finalmente se ha determinado el error estándar de estimación
correspondiente.
Trejo López Mirtha Sussan /Castañeda Carrión Yolanda Marianela /Valverde Flores Cosme Ulises 53
CAPÍTULO IV
CORRELACIÓN NO LINEAL
OBJETIVOS:
Trejo López Mirtha Sussan /Castañeda Carrión Yolanda Marianela /Valverde Flores Cosme Ulises 54
4.1. Coeficiente de Correlación Parabólica
Para deducir la fórmula del coeficiente de correlación parabólica se considera la definición de
coeficiente de correlación, dado por:
SY2 SY2
r o´ r 2
SY2 SY2
De donde:
r 2
Y 2
nY 2
Y 2
nY 2
Sustituyendo Y se tiene:
a bX cX
2
2
nY
r 2
Y nY 2 2
aY b XY c X 2Y nY
r2
Y 2
nY 2
Cuya raíz cuadrada (r) constituye la formula del coeficiente de correlación parabólica.
También se puede aplicar la fórmula:
2
SYX
r 2 1
SY2
2 2
Donde SYX (varianza residual) y SY (varianza de Y) se pueden calcular fácilmente por las formulas
ya conocidas.
EJERCICIO RESUELTO
En las primeras columnas del cuadro Nº 3.1 están el volumen mensual de venta (Y) en millones de soles
y los años de experiencia en ventas (X) de 10 vendedores profesionales de una fábrica productora de
alimentos, calcular el coeficiente de Correlación Parabólica.
SOLUCION
Para calcular e interpretar el coeficiente de correlación parabólica podemos usar:
2
SYX
r 1 2
2
SY
Trejo López Mirtha Sussan /Castañeda Carrión Yolanda Marianela /Valverde Flores Cosme Ulises 55
0.2192
r 2 1
6.84
r 0.9680
2
r 0.9838
Sabiendo que:
Y Y
2
2
478 64
2
2
6.84
10 10
SY
n n
También se puede aplicar la fórmula:
aY b XY c X 2Y nY
2
r
2
Y
2
2
nY
Reemplazando los valores:
r 2 0.9679
r 0.9838
El valor de r = 0.9838, indicaría que la correlación es muy significativa, es decir que la curva parabólica
expresa adecuadamente la relación entre las variables consideradas.
r
Y 2
nY 2
Y 2
nY 2
Elevando al cuadrado y sustituyendo la función en términos de logaritmos, resulta
logY
2
2
n logY
r2
logY n logY
2 2
Donde logY
logY . Ahora reemplazamos logY resulta:
n
r2
logY n logY
2 2
Trejo López Mirtha Sussan /Castañeda Carrión Yolanda Marianela /Valverde Flores Cosme Ulises 56
Desarrollando el binomio log b a log X 2 , factorizando y simplificando se obtiene:
a log X logY log b logY n logY
2
r2
logY
2 2
n logY
Donde la raíz cuadrada (r) constituye la fórmula del coeficiente de correlación potencial, cuyo valor
debe satisfacer la propiedad fundamental: 1 r 1
EJERCICIO RESUELTO
El ingreso y consumo promedio mensual (en miles de soles) de una muestra de 12 familias de distintos
estratos sociales, fue el siguiente:
Ingreso : 13 15 17 18 20 21 22 24 24 26 28 30
Consumo: 12 14 16 15 18 18 17 19 21 20 21 22
Calcular el coeficiente de correlación potencial del Cuadro Nº4.2.
SOLUCIÒN:
El coeficiente de correlación potencial se obtiene sustituyendo valores en la fórmula:
r2
logY
2 2
n logY
r
2
18.6030 12 1.2427
2
r 2 0.9166
r 0.9574
El valor de r es bastante cercano a +1, lo cual indica que la curva potencial se ajuste muy bien a los
datos (X, Y) del ejemplo, y por tanto es un buen modelo para estimar el consumo familiar en función de
sus ingresos, en la cuidad de Libertad, siempre que no hayan cambiado sustantivamente los patrones de
consumo.
Trejo López Mirtha Sussan /Castañeda Carrión Yolanda Marianela /Valverde Flores Cosme Ulises 57
logY logY logY
2
2 2
n logY
r2
logY logY logY n logY
2 2 2
r2
logY n logY
2 2
r2
logY
2 2
n logY
De esta expresión, la raíz cuadrada (r) es el valor del coeficiente de correlación exponencial.
EJERCICIO RESUELTO
Para estimar la función de Costo Total (C medida en millones de soles) con respecto a la producción
total (Q medida en miles de unidades), un fabricante ha obtenido el siguiente conjunto de datos
muestrales:
Producción (Q): 10 20 30 40 50 60 70 80
Costo Total (C): 30 36 40 48 50 54 66 68
Con estos datos calcular el coeficiente de correlación exponencial del Cuadro Nº3.3.
SOLUCIÓN:
El coeficiente de correlación exponencial, de la función: C ab
Q
es:
r2
logC
2 2
n logC
Reemplazando valores
r
2
22.9760 22.8217
Luego: r 0.9770
El valor de (r) indica que existe una alta correlación o afinidad entre las variables C = costo total,
Q= producción.
Trejo López Mirtha Sussan /Castañeda Carrión Yolanda Marianela /Valverde Flores Cosme Ulises 58
4.4. Coeficiente de Correlación Hiperbólica
El coeficiente de correlación de la hipérbola equilátera se obtiene de la expresión:
r 2
Y 2
nY 2
Y 2
nY 2
2
a
X nY
2
r2
Y 2 nY 2
Y
a nY 2
r2 X
Y 2 nY 2
Donde la raíz cuadrada (r) constituye el valor del coeficiente de correlación hiperbólica
EJERCICIO RESUELTO
Considerar las cantidades vendidas (miles de unidades) de un artículo según la variación de su precio
(en soles), observados en un periodo de 9 meses, cuyos datos se indican en el cuadro Nº3.4.
Calcular el coeficiente de correlación de los datos.
SOLUCIÓN:
Y
a nY 2
1017.5 143.88 9 107.78
2
r
2 X
Y 2 nY 2 147.500 9 107.78
2
Trejo López Mirtha Sussan /Castañeda Carrión Yolanda Marianela /Valverde Flores Cosme Ulises 59
EJERCICIOS PROPUESTOS
1.- Proyectar la Oferta de cierto producto tomando en cuenta los datos obtenidos en el estudio de
mercado de los cuales calcular e interpretar el coeficiente de correlación parabólica.
( a b / p )
2.- La demanda de un producto sigue la siguiente ecuación: Q e si se tiene los siguientes
datos:
1990 10 1
1991 11 2
1992 13 3
1993 14 4
1994 17 5
3.- Proyectar la demanda en función del ingreso, teniendo como demanda histórica lo siguiente:
Trejo López Mirtha Sussan /Castañeda Carrión Yolanda Marianela /Valverde Flores Cosme Ulises 60
4.- Un analista de mercado revela la producción de cierto producto y el costo total del mismo en la
siguiente tabla adjunta, calcular e interpretar el coeficiente de correlación.
3 42
6 58
9 62
12 75
15 82
20 93
25 109
RESUMEN
Este capitulo trata de determinar a cada curva o función no lineal el coeficiente de correlación no lineal
teniendo en consideración la propiedad fundamental: 1 r 1
Debe tenerse cuidado al interpretar los resultados de una correlación. El coeficiente de correlación r mide
el grado de relación o afinidad entre variables, que ayuda a explicar el comportamiento de la variable
dependiente dado algunos valores para la variable independiente.
Cuando r está cercano a -1 y +1 nos indica que la correlación es intensa, es decir que la curva expresa
adecuadamente la relación entre las variables, lo cual es un buen modelo para realizar la estimación.
Trejo López Mirtha Sussan /Castañeda Carrión Yolanda Marianela /Valverde Flores Cosme Ulises 61
GLOSARIO
1. Estimación, conjunto de técnicas que permiten dar un valor aproximado de un parámetro de una
población a partir de los datos proporcionados por una muestra.
5. Limite superior del intervalo, es el valor máximo que tiene el intervalo de confianza o de
predicción.
6. Limite inferior del intervalo, es el valor mínimo que tiene le intervalo de confianza o de
predicción.
Trejo López Mirtha Sussan /Castañeda Carrión Yolanda Marianela /Valverde Flores Cosme Ulises 62
LISTA DE ABREVIATURAS
r : Coeficiente de Correlación.
r2 : Coeficiente de determinación.
1 r 2 : Coeficiente de no determinación.
t : Distribución t de student.
X : Media muestral de X
Y : Media muestral de Y
1 : Nivel de confianza.
: Nivel de significancia.
Trejo López Mirtha Sussan /Castañeda Carrión Yolanda Marianela /Valverde Flores Cosme Ulises 63
EPÍLOGO
El contenido ha sido sistematizado con el propósito que estudiantes y lectores logren una mayor
comprensión y aplicación de la Estadística, utilizando un vocabulario sencillo y preciso, reforzado
con ejemplos y problemas prácticos facilitando el proceso de enseñanza aprendizaje.
El trabajo esta estructurado en cuatro capítulos. El primer capitulo, trata del análisis de regresión
simple, el segundo capítulo se aborda el análisis de correlación simple, el tercer capítulo se refiere
al análisis de regresión no lineal y el cuarto capítulo al análisis de correlación no lineal.
Trejo López Mirtha Sussan /Castañeda Carrión Yolanda Marianela /Valverde Flores Cosme Ulises 64
APÉNDICE
Trejo López Mirtha Sussan /Castañeda Carrión Yolanda Marianela /Valverde Flores Cosme Ulises 65
Tabla A. Percentil de la distribución t de estudent.
Trejo López Mirtha Sussan /Castañeda Carrión Yolanda Marianela /Valverde Flores Cosme Ulises 66
BIBLIOGRAFÍA
5. LEVIN, RUBIN. Estadística para Administradores. México: Prentice Hall Hispanoamericana S.A.
3era Edición, 2007.
6. MASON LIND, MARCHAL. Estadística para Administración y Economía México: Alfa omega
Grupo Editor S.A. 1a Edición, 2007.
7. WEINER, Richard. Estadística. México: Compañía Editorial Continental S.A. 1ª Edición, 2007
Trejo López Mirtha Sussan /Castañeda Carrión Yolanda Marianela /Valverde Flores Cosme Ulises 67