Regresion Lineal

Unidad
5. Regresión Lineal Simple.
pEn la práctica a menudo se requiere resolver problemas que implican conjuntos de variables de
las cuales se sabe que tienen alguna relación inherente entre sí. Por ejemplo, en una situación
industrial quizá se sepa que el contenido de alquitrán en el flujo de salida de un proceso químico
está relacionado con la temperatura en la entrada.
El contenido es una variable dependiente natural o respuesta de la temperatura en la entrada,

variable independiente naturales o regresor.
Una forma razonable de relación entre la respuesta 𝑌 y el regresor 𝑥 es la relación lineal,
𝑌 = 𝛽₀ + 𝛽₁𝑥,
en la que, por supuesto, 𝛽₀ es la intersección y 𝛽₁ es la pendiente.y
sabias qué ...
Desempeño
sperado
Y
Alumno es de
capaz l
Identificar
s
si es deterministe
Si la relación es exacta y no contiene ningún componente aleatorio o probabilístico, entonces
-
se trata de una relación determinista entre dos variables (como se ve en cálculo). Sin embargo, la
--
mayoría de los fenómenos científicos y de ingeniería, la relación no es determinista, es decir, una 𝑥
dada no siempre produce el mismo valor de 𝑌. Como resultado, los problemas importantes en este
caso son de naturaleza probabilística, toda vez que la relación anterior no puede considerarse
exacta.
El concepto de análisis de regresión se refiere a encontrar la mejor relación entre 𝑥 y 𝑌

cuantificando esa relación, y empleando métodos que permitan predecir los valores de la respuesta
dados los valores del regresor o variable independiente 𝑥.
En la mayoría de las aplicaciones de la regresión, la ecuación lineal, digamos, 𝑌 = 𝛽₀ + 𝛽₁𝑥 es

una aproximación razonable dentro de un rango limitado de 𝑥. La mayoría de las veces los modelos
de naturaleza lineal. Estas estructuras lineales son sencillas y de naturaleza empírica, por lo que se
denominan modelos empíricos.
Un análisis de la relación entre 𝑥 y 𝑌 requiere el planteamiento de un modelo estadístico.
Con frecuencia un estadístico utiliza un modelo como representación de un ideal que, en esencia,
define cómo percibimos que el sistema en cuestión generó los datos. La respuesta 𝑌 se relaciona
con la variable independiente 𝑥 a través de la ecuación
𝑌 = 𝛽₀ + 𝛽₁𝑥 + 𝜀,
,
en la cual 𝛽₀ y 𝛽₁ son los parámetros desconocidos de la intersección con el eje 𝑦 y la pendiente de

la línea recta, respectivamente, y 𝜀 es el error aleatorio.
5.1. Método gráfico: Diagrama de dispersión
Un diagrama de dispersión consta los puntos ubicados en el plano de tal forma que cada punto
representa un valor de la variable independiente (medido a lo largo del eje horizontal), y un valor
asociado de la variable dependiente (medido a lo largo del eje vertical).
El diagrama de dispersión, también llamado nube de puntos, brinda dos tipos de información,
visualmente se pueden determinar los patrones que indican como las variables están relacionadas
(lineal o mediante una curva) y por otro lado si existe una relación entre ellas visualizando la clase
de línea o ecuación de estimación que describe a dicha relación.
En la siguiente figura se ilustran algunas relaciones en los diagramas de dispersión.
5.2. Método numérico: Coeficiente de correlación.
El coeficiente de correlación lineal entre X e Y medir la dependencia lineal que existe entre las dos
variables y viene dado por:
𝑆𝑋𝑌
𝑟=
𝑆𝑋 𝑆𝑌
Donde
𝑆𝑋𝑌 = ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅)/𝑛,
𝑆𝑋 , 𝑆𝑌 son las desviaciones estándar de 𝑥 y de 𝑦 y 𝑥̅ y 𝑦̅ son las medias muestrales de la variable

independiente y la variable de respuesta.
Su cuadrado se denomina coeficiente de determinación, 𝑟².
El coeficiente de correlación tiene las siguientes propiedades:
a) No tiene dimensión, y siempre toma valores en [−1,1].
b) Si las variables son independientes, entonces 𝑟 = 0, pero el inverso no tiene por qué ser cierto.
c) Si existe una relación lineal exacta entre 𝑋 e 𝑌, entonces 𝑟 valdría 1 (relación directa) ó -1
(relación inversa).
d) Si 𝑟 > 0, esto indica una relación directa entre las variables (es decir, que si aumentamos 𝑋,
también aumenta 𝑌).
e) Si 𝑟 < 0, la correlación entre las variables es inversa (si aumentamos una, la otra disminuye).
5.3. Método algebraico: Mínimos Cuadrados
Para hacer una estimación del modelo de regresión lineal simple, trataremos de buscar una
recta de la forma:
𝑌 = 𝛽 0 + 𝛽1 𝑥 + 𝜀,
de modo que se ajuste a la nube de puntos, es decir, que la distancia entre cada punto y la recta
estimada sea la menor posible como se muestra en la siguiente figura.
El método de mínimos cuadrados consiste en minimizar la suma de los cuadrados de los errores:
𝑛
∑ 𝜀𝑖2 = (𝑦𝑖 − 𝑦̂)²

𝑖
𝑖=1
Es decir, la suma de los cuadrados de las diferencias entre los valores reales observados 𝑦𝑖 y los
valores estimados 𝑦𝑖 sea mínima.
Dada la muestra {(𝑥𝑖 , 𝑦𝑖 )}; 𝑖 = 1,2, . . . , 𝑛}, los estimados 𝑏₀ y 𝑏₁ de los mínimos cuadrados
de los coeficientes de regresión 𝛽₀ y 𝛽₁ se calculan mediante las fórmulas

∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅)
𝑏₁ =
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝑏₀ = 𝑦̅ − 𝑏₁𝑥̅
Por lo tanto, la recta que aproxima mejor a la recta de regresión lineal está dada por
𝑌 = 𝑏₀ + 𝑏₁𝑥.
Ejemplo:
Se realizó un estudio sobre la cantidad de azúcar convertida en cierto proceso a distintas

temperaturas. Los datos se codificaron y registraron como sigue:
Temperatura 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0
Azúcar 8.1 7.8 8.5 9.8 9.5 8.9 8.6 10.2 9.3 9.2 10.5
El diagrama de dispersión está dado por la gráfica

Ahora, usando la aplicación calculamos las varianzas de 𝑥 y de 𝑦 y las usamos para calcular
el coeficiente de correlación:
𝑥̅ = 1.5,
𝑦̅ = 9.13,
𝑆𝑋2 = 0.11,
𝑆𝑌2 = 0.72,
𝑆𝑋 = 0.33,
𝑆𝑌 = 0.84.
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅)

𝑆𝑋𝑌 =
11
(1.0 − 1.5)(8.1 − 9.13) + (1.1 − 1.5)(7.8 − 9.13) + ⋯ + (2.0 − 1.5)(10.5 − 9.13)
=( )
11
(−0.5)(−1.03) + (−0.4)(−1.33) + (−0.3)(−0.63) + ⋯ + (0.5)(1.37)

=( )
11
0.515 + 0.532 + 0,189 + ⋯ + 0.685 1.99
= =
11 11
𝑆𝑋𝑌 = 0.1809
Entonces, el coeficiente de correlación es
𝑆𝑋𝑌 0.1809 0.1809
𝑟= = = = 0.6525
𝑆𝑋 𝑆𝑌 (0.33)(0.84) 0.2772
De esta manera, vemos que si existe una correlación positiva entre la cantidad de azúcar
convertida y la temperatura en este proceso químico, por lo cuál vamos ahora a buscar la línea recta
que mejor se ajuste a estos datos y así poder usarla para hacer predicciones sobre la variable
dependiente.
Ahora, calculamos los coeficientes 𝑏₀ y 𝑏₁:

∑𝑛 ̅)
𝑖=1(𝑥𝑖 −𝑥̅ )(𝑦𝑖 −𝑦
𝑏₁ = ∑𝑛 2
𝑖=1(𝑥𝑖 −𝑥̅ )
(1.0 − 1.5)(8.1 − 9.13) + (1.1 − 1.5)(7.8 − 9.13) + ⋯ + (2.0 − 1.5)(10.5 − 9.13)

=
(1.0 − 1.5)² + (1.1 − 1.5)² + ⋯ + (1.9 − 1.5)² + (2.0 − 1.5)²)
𝑏₁ = 1.8091
𝑏₀ = 𝑦 − 𝑏₁𝑥 = 9.13 − ( 1.8091)(1.5) = 6. 4164
Por lo tanto, la recta que aproxima mejor a la recta de regresión lineal está dada por
𝑌 = 𝑏₀ + 𝑏₁𝑥
𝑌 = 6. 4164 + 1.8091𝑥
Con esta función es posible hacer predicciones o estimaciones sobre la cantidad convertida para
una temperatura determinada que no aparezca en los datos proporcionados, por ejemplo podemos
estimar cuanta será la cantidad de azúcar convertida a una temperatura de 2.3
𝑌 = 6. 4164 + 1.8091𝑥
𝑌 = 6. 4164 + 1.8091(2.3)
𝑌 = 6. 4164 + 4.1609
𝑌 = 10.5773

Regresion Lineal

Cargado por

Copyright:

Formatos disponibles

Regresion Lineal

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Regresion Lineal

Cargado por

Copyright:

Formatos disponibles

Unidad

5. Regresión Lineal Simple.

El contenido es una variable dependiente natural o respuesta de la temperatura en la entrada,

Una forma razonable de relación entre la respuesta 𝑌 y el regresor 𝑥 es la relación lineal,

El concepto de análisis de regresión se refiere a encontrar la mejor relación entre 𝑥 y 𝑌

En la mayoría de las aplicaciones de la regresión, la ecuación lineal, digamos, 𝑌 = 𝛽₀ + 𝛽₁𝑥 es

Un análisis de la relación entre 𝑥 y 𝑌 requiere el planteamiento de un modelo estadístico.

en la cual 𝛽₀ y 𝛽₁ son los parámetros desconocidos de la intersección con el eje 𝑦 y la pendiente de

En la siguiente figura se ilustran algunas relaciones en los diagramas de dispersión.

5.2. Método numérico: Coeficiente de correlación.

𝑆𝑋𝑌 = ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅)/𝑛,

𝑆𝑋 , 𝑆𝑌 son las desviaciones estándar de 𝑥 y de 𝑦 y 𝑥̅ y 𝑦̅ son las medias muestrales de la variable

Su cuadrado se denomina coeficiente de determinación, 𝑟².

El coeficiente de correlación tiene las siguientes propiedades:

a) No tiene dimensión, y siempre toma valores en [−1,1].

5.3. Método algebraico: Mínimos Cuadrados

∑ 𝜀𝑖2 = (𝑦𝑖 − 𝑦̂)²

de los coeficientes de regresión 𝛽₀ y 𝛽₁ se calculan mediante las fórmulas

Se realizó un estudio sobre la cantidad de azúcar convertida en cierto proceso a distintas

El diagrama de dispersión está dado por la gráfica

∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅)

(−0.5)(−1.03) + (−0.4)(−1.33) + (−0.3)(−0.63) + ⋯ + (0.5)(1.37)

Ahora, calculamos los coeficientes 𝑏₀ y 𝑏₁:

(1.0 − 1.5)(8.1 − 9.13) + (1.1 − 1.5)(7.8 − 9.13) + ⋯ + (2.0 − 1.5)(10.5 − 9.13)

También podría gustarte