Nothing Special   »   [go: up one dir, main page]

Intervalos de Confianza y de Predicción. Regresion Multiple

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 23

Maestría en Ciencias en Ciencias Forestales

CF-600 Métodos Estadísticos I


Profesor: M. C. Alejandro Corona Ambriz

TEMA 9. INTERVALOS DE CONFIANZA PARA LOS VALORES


AJUSTADOS E INTERVALOS DE PREDICCIÓN. REGRESIÓN
MULTIPLE.

Presenta: José Luis Moreno Rodríguez


Correo Electrónico: morrod01@gmail.com

02/Mayo/2020
CONTENIDO

Intervalos de confianza en regresión múltiple ........................... 1


Intervalos de confianza de los coeficientes de regresión.................. 1
Intervalo de confianza de la respuesta media ......................... 2
Intervalos de confianza simultáneos................................ 3
Bonferroni .................................................. 3
Hotelling-Scheffé ................................................................................................. 4
Predicción de una observación ............................................................................... 4
Ejemplo ................................................................................................................... 5
Ejercicio propuesto ................................................................................................ 10
Literatura citada..................................................................................................... 17
Anexos .................................................................................................................. 18
Intervalos de confianza en regresión múltiple

Los intervalos de confianza de los coeficientes de regresión individuales, y los


intervalos de confianza de la respuesta media, para niveles específicos de los
regresores, juegan el mismo papel importante que en la regresión lineal simple.

Intervalos de confianza de los coeficientes de regresión.

Para construir intervalos de confianza de los coeficientes de regresión βj, se


continuará suponiendo que los errores ε𝑖 están distribuidos normal e
independientemente, con media cero y varianza σ2 . En consecuencia, las
observaciones y𝑖 están distribuidas en forma normal e independientemente, con
media β0 +∑𝑘𝑗=1 β𝑗 x𝑖𝑗 y varianza σ2 . Para realizar el ajuste del modelo se utilizan las
expresiones

β̂ = (𝑋 ′ 𝑋)−1 𝑋′𝑌

1
σ2 = 𝑛−(𝑝+1) (𝑦 − 𝑋β̂)′(𝑦 − 𝑋β̂).

Como el estimador β̂ por mínimos cuadrados es una combinación lineal de las


observaciones, también está distribuido normalmente, con media β y matriz de
covarianza σ2 (𝑋 ′ 𝑋)−1. Esto implica que la distribución marginal de cualquier
coeficiente de regresión β̂𝑖 es normal, con media βi y varianza σ2 β̂𝑖𝑖 , donde β̂𝑖𝑖 es el
j−ésimo elemento diagonal de la matriz (𝑋 ′ 𝑋)−1. Para contrastar las hipótesis
H0: β𝑖 = 𝑏 vs. β𝑖 ≠ 0 se utiliza el estadístico

β̂𝑖 − β
𝑡𝑖 = , 𝑖 = 0,1,2, … , 𝑘
√σ2 (β̂) 𝑖𝑖

1
Con distribución t-student y n−p grados de libertad, donde σ2 es el estimador de la
varianza. Por lo tanto, podemos definir un intervalo de confianza de 100(1-α) por
ciento para el coeficiente de regresión β𝑖 , 𝑖 = 0,1,2, … , 𝑘, de la siguiente manera:

̂2 𝐶𝑖𝑖 ≤ β𝑖 ≤ β̂𝑖 + 𝑡𝛼/2,𝑛−𝑝−1


β̂𝑖 − 𝑡𝛼/2,𝑛−𝑝−1 √σ

Donde 𝑡𝛼/2,𝑛−𝑝−1 es el cuantil superior α/2 de una distribución 𝑡 𝑛−𝑝−1 .

Por ejemplo, para calcular un intervalo de confianza del 95% para el parámetro β1.
̂1= 10,6239.
La estimación puntual de β1 es β

̂2 𝐶11 ≤ β1 ≤ β
β1 − 𝑡0,0.25;22 √σ ̂2 𝐶11
̂1 + 𝑡0,0.25;22 √σ

1.6159 − 2.075√(10.6239)(0.002743) ≤ β1 ≤ 1.6159 + 2.075√(10.6239)(0.002743)

1.6159 − (2.074)(0.17073) ≤ β1 ≤ 1.6159 + (2.074)(0.17073)

Entonces el intervalo de confianza del 95% para β1 es: 𝟏. 𝟐𝟔𝟏𝟖𝟏 ≤ 𝛃𝟏 ≤ 𝟏. 𝟗𝟕𝟎𝟎𝟏.

Intervalo de confianza de la respuesta media


Se puede establecer un intervalo de confianza para la respuesta media en
determinado punto, como x01 , x02 , x03 , … , x0𝑘 . Def ı́ nase el vector 𝐱 𝟎 como sigue:

𝟏
𝐱 𝟎𝟏
𝐱𝟎 = 𝐱 𝟎𝟐.
..

(𝐱 𝟎𝒌 )

El valor ajustado en este punto es:

𝑦̂0 = 𝑥′0 𝛽̂

2
Es un estimador insesgado de 𝐸(𝑦|x0 ), porque E(𝑦̂0 ) = 𝑥′0 𝛽̂ = 𝐸(𝑦|x0 ), la varianza
de 𝑦̂0 es:

𝑉𝑎𝑟(𝑦̂0 ) = σ2 𝑥 ′ 0 (𝑋′𝑋)−1 𝑥0

Por consiguiente, un intervalo de confianza de 100(1-α) por ciento de la respuesta


medio en el punto x01 , x02 , x03 , … , x0𝑘 es:

𝑦̂0 − 𝑡𝛼,𝑛−𝑝 √𝑉𝑎𝑟(𝑦̂0 ) ≤ 𝐸(𝑦|x0 ) ≤ 𝑦̂0 + 𝑡𝛼/2,𝑛−𝑝 √𝑉𝑎𝑟(𝑦̂0 )


2

Intervalos de confianza simultáneos


Se han descrito los procedimientos para establecer diversos tipos de intervalos de
confianza. Se ha hecho notar que ́estos son intervalos de uno por uno, esto es, son
los tipos usuales de intervalo de confianza, en donde el coeficiente de confianza
1−α indica la proporción de estimaciones correctas que resulta cuando se
seleccionan muestras aleatorias repetidas.

En algunos problemas se necesita construir varios intervalos de confianza o de


predicción con los mismos datos de la muestra. En esos casos, el analista suele
interesarse en la especificación de un coeficiente de confianza que se aplique en
forma simultánea, o al mismo tiempo, a todo el conjunto de estimaciones por
intervalo.

Un conjunto de intervalos de confianza o predicción que son todos ciertos en forma


simultánea, con 1−α de probabilidad, se llama conjunto de intervalos simultáneos.
Estos intervalos nos permiten hacer pruebas de hipótesis simultáneas para los
coeficientes del modelo, a diferencia de las pruebas t que son individuales. El
propósito también es comparar la longitud de los intervalos.

Bonferroni
El método de Bonferroni para intervalos secundarios se basa en el principio de
inclusión y exclusión, que se traduce en cambiar los cuantiles superiores α/2 por
α/2k, donde k es el número de intervalos que se quieren construir.

3
𝛼 𝛼
β̂𝑖 − 𝑡 𝑛−𝑝−1 ( ̂2 β̂𝑖𝑖 ≤ β𝑖 ≤ β̂𝑖 + 𝑡 𝑛−𝑝−1 ( ) √σ
) √σ ̂2 β̂𝑖𝑖
2𝑘 2𝑘

Hotelling-Scheffé
El método de Hotelling-Scheffé se basa en maximizar la forma cuadrática del
estadístico utilizado en los intervalos individuales. Esto se traduce en cambiar el
cuantil de la t por un múltiplo del cuantil de la F. La ventaja de este método es que
es válido para cualquier número de intervalos simultáneos.

β̂𝑖 − √𝐾𝑎 σ
̂2 β̂𝑖𝑖 ≤ β𝑖 ≤ β̂𝑖 + √𝐾𝑎 σ
̂2 β̂𝑖𝑖

con 𝐾𝑎 = (𝑝 + 𝟏)𝐹𝑝+1, 𝑛−𝑝−1 (𝛼).

Predicción de una observación


Cuando se desea predecir el valor de la respuesta Y del que se sabe que 𝑋⃑ = 𝑥⃑𝑡 ,
utilizando el ajuste de un modelo de regresión lineal de la variable Y respecto al
vector de las variables regresoras 𝑋⃑.

El predictor (𝑦̂𝑡 ) que minimiza el Error Cuadrático Medio de Predicción, E((𝑦̂𝑡 − 𝑦𝑡 )2 )


viene dado por 𝑦̂𝑡 = 𝑥⃑𝑡 𝛼̂. Por lo tanto, la predicción de 𝑌𝑡 = 𝑌/𝑋⃑ = 𝑥⃑𝑡 es el mismo
valor que se obtiene en la estimación de 𝜇𝑡 pero su varianza es mayor.

El predictor 𝑦𝑡 verifica las siguientes propiedades:

1. La predicción es centrada ya que, E(𝑦̂𝑡 )=E(𝑌𝑡 );


2. La varianza de la predicción es,

𝑉𝑎𝑟(𝑦̂𝑡 − 𝑦𝑡 ) = E((𝑦̂𝑡 − 𝑦𝑡 )2 ) = 𝑉𝑎𝑟(𝑦𝑡 ) + 𝑉𝑎𝑟(𝜇̂ 𝑡 )

𝑉𝑎𝑟(𝑦̂𝑡 − 𝑦𝑡 ) = σ2 + σ2 ℎ𝑡𝑡 = σ2 (1 + ℎ𝑡𝑡 )

4
Para calcular intervalos de predicción de 𝑦𝑡 se utiliza el estadístico:

𝑦̂𝑡 − 𝑦𝑡
~ 𝑡𝑛 − (𝑘 + 1)
𝑠̂𝑅 √(1 + ℎ𝑡𝑡 )

Un intervalo de predicción de 𝑦𝑡 con nivel de confianza α viene dado por:

𝛼
𝑠̂ 𝑅 √(1 + ℎ𝑡𝑡 )𝑡𝑛−(𝑘+1) (1 − )
2

Ejemplo
Considerar el conjunto de datos de fecundidad de la ONU, que contiene 193
observaciones de tres variables (Se adjuntan datos en la sección de anexos), cada
una corresponde a un país. Las variables son:

• logPPgdp: logaritmo base 2 del producto interno bruto per cápita.

• logFertility: logaritmo base 2 del promedio de hijos nacidos vivos de las


mujeres de 15 a 40 años.

• Purban: porcentaje de población en zonas urbanas.

El objetivo es construir:

• Intervalos de confianza para σ2 , Intervalos de confianza individuales y


simultáneos para las componentes de 𝛽̂ ;
• Regiones de confianza para 𝛽̂ y sus componentes por pares;
• Intervalos de confianza para la respuesta media dado un vector x;
• Intervalos de predicción para una nueva observación;

5
Cargando los datos en R:

Posteriormente se ajusta el modelo con las expresiones β̂ = (𝑋 ′ 𝑋)−1 𝑋′𝑌 y σ2 =


1
(𝑦 − 𝑋β̂)′(𝑦 − 𝑋β̂) y declaramos el vector respuesta y la matriz de diseño:
𝑛−(𝑝+1)

Estimamos β̂ y σ2 :

Estimamos la varianza de β̂:

Calculamos el intervalo de confianza para σ2 de 100(1 − 𝛼)%, para este caso será
del 95%.

6
Concluimos que 𝜎 2 está contenido en el intervalo (0.128, 0.192) con 95% de
confianza.

Para la prueba de hipótesis será H0: β𝑖 = 𝑏 vs. β𝑖 ≠ 0 y se utilizará el estadístico

β̂𝑖 − β
𝑡𝑖 = , 𝑖 = 0,1,2, … , 𝑘
√σ2 (β̂) 𝑖𝑖

La regla de decisión es rechazar si |𝑡𝑖 | > 𝑡𝑛−𝑝−1(α/2).

Calculando el intervalo de confianza 95% para 𝜷𝟎 tenemos que:

El intervalo de confianza 95% para 𝛽0 es (2.301, 2.885). Podemos estar interesados


en decir si el modelo debe o no incluir el intercepto 𝛽0, que se puede plantear como
un contraste de hipótesis con H0: 𝛽0=0.
Una forma rápida de hacerlo es notar que el 0 no está incluido en el intervalo de
confianza 95%, esto nos sirve para rechazar H0 con una significancia 0.05. También
podemos aplicar el procedimiento usual.

7
Como |𝑡0 | > 𝑡𝑛−𝑝−1 (α/0.025)., se rechaza la hipótesis nula con una significancia
α=0.05, es decir, la evidencia sostiene que el modelo incluya a 𝛽0.

Ahora procedemos a hacer el cálculo del intervalo para 𝜷𝟏 .

El intervalo de confianza 95% para 𝛽1 es (-0.163, -0.088). Podemos estar


interesados en decir si el modelo debe o no incluir el efecto del producto, que se
puede plantear como un contraste de hipótesis con H0: 𝛽1=0.

Nuevamente, una forma rápida de hacerlo es notar que el 0 no está incluido en el


intervalo de confianza 95%, esto nos sirve para rechazar H0 con una significancia
0.05. No sólo eso, podemos notar que el intervalo está conformado por valores
negativos, lo que nos lleva sostener que el efecto marginal del producto sobre la
fecundidad es negativo, con una significancia α=0.05.

También podemos aplicar el procedimiento usual.

8
Como |𝑡1 | > 𝑡𝑛−𝑝−1(α/0.025)., se rechaza la hipótesis nula con una significancia
α=0.05, es decir, la evidencia sostiene que el modelo incluya a 𝛽1.

Ahora para 𝜷𝟐

El intervalo de confianza 95% para 𝛽2 es (-0.00727, 2.210x10−4 ). Podemos estar


interesados en decir si el modelo debe o no incluir el efecto del porcentaje de
población en zonas urbanas, que se puede plantear como un contraste de hipótesis
con H0:𝛽2=0. En este caso podemos notar como el 0 está incluido en el intervalo de
confianza 95%, esto nos indica que H0 no se rechaza con una significancia 0.05.
Esto es evidencia para sostener que el porcentaje de población en zonas urbanas
no tiene efecto sobre la fecundidad, con una significancia α=0.05.

También podemos aplicar el procedimiento usual:

Como |𝑡2 | < 𝑡𝑛−𝑝−1 (α/0.025) no se rechaza la hipótesis nula con una significancia
α=0.05, es decir, la evidencia sostiene que el modelo no debería incluir a 𝛽2.

9
Ejercicio propuesto
Supóngase que el departamento de ventas de una empresa quiere estudiar la
influencia que tiene la publicidad a través de distintos canales sobre el número de
ventas de un producto. Se dispone de un conjunto de datos que contiene los
ingresos (en millones) conseguido por ventas en 200 regiones, así como la cantidad
de presupuesto, también en millones, destinado a anuncios por radio, TV y
periódicos en cada una de ellas.

tv<-c(230.1, 44.5, 17.2, 151.5, 180.8, 8.7, 57.5, 120.2, 8.6, 199.
8, 66.1, 214.7, 23.8, 97.5, 204.1, 195.4, 67.8, 281.4, 69.2, 147.3
, 218.4, 237.4, 13.2, 228.3, 62.3, 262.9, 142.9, 240.1, 248.8, 70.
6, 292.9, 112.9, 97.2, 265.6, 95.7, 290.7, 266.9, 74.7, 43.1, 228.
0, 202.5, 177.0, 293.6, 206.9, 25.1, 175.1, 89.7, 239.9, 227.2, 66
.9, 199.8, 100.4, 216.4, 182.6, 262.7, 198.9, 7.3, 136.2, 210.8, 2
10.7, 53.5, 261.3, 239.3, 102.7, 131.1, 69.0, 31.5, 139.3, 237.4,
216.8, 199.1, 109.8, 26.8, 129.4, 213.4, 16.9, 27.5, 120.5, 5.4, 1
16.0, 76.4, 239.8, 75.3, 68.4, 213.5, 193.2, 76.3, 110.7, 88.3, 10
9.8, 134.3, 28.6, 217.7, 250.9, 107.4, 163.3, 197.6, 184.9, 289.7,
135.2, 222.4, 296.4, 280.2, 187.9, 238.2, 137.9, 25.0, 90.4, 13.1,
255.4, 225.8, 241.7, 175.7, 209.6, 78.2, 75.1, 139.2, 76.4, 125.7,
19.4, 141.3, 18.8, 224.0, 123.1, 229.5, 87.2, 7.8, 80.2, 220.3, 59
.6, 0.7, 265.2, 8.4, 219.8, 36.9, 48.3, 25.6, 273.7, 43.0, 184.9,
73.4, 193.7, 220.5, 104.6, 96.2, 140.3, 240.1, 243.2, 38.0, 44.7,
280.7, 121.0, 197.6, 171.3, 187.8, 4.1, 93.9, 149.8, 11.7, 131.7,
172.5, 85.7, 188.4, 163.5, 117.2, 234.5, 17.9, 206.8, 215.4, 284.3
, 50.0, 164.5, 19.6, 168.4, 222.4, 276.9, 248.4, 170.2, 276.7, 165
.6, 156.6, 218.5, 56.2, 287.6, 253.8, 205.0, 139.5, 191.1, 286.0,
18.7, 39.5, 75.5, 17.2, 166.8, 149.7, 38.2, 94.2, 177.0, 283.6, 23
2.1)

radio <-c(37.8, 39.3, 45.9, 41.3, 10.8, 48.9, 32.8, 19.6, 2.1, 2.6
, 5.8, 24.0, 35.1, 7.6, 32.9, 47.7, 36.6, 39.6, 20.5, 23.9, 27.7,
5.1, 15.9, 16.9, 12.6, 3.5, 29.3, 16.7, 27.1, 16.0, 28.3, 17.4, 1.
5, 20.0, 1.4, 4.1, 43.8, 49.4, 26.7, 37.7, 22.3, 33.4, 27.7, 8.4,
25.7, 22.5, 9.9, 41.5, 15.8, 11.7, 3.1, 9.6, 41.7, 46.2, 28.8, 49.
4, 28.1, 19.2, 49.6, 29.5, 2.0, 42.7, 15.5, 29.6, 42.8, 9.3, 24.6,
14.5, 27.5, 43.9, 30.6, 14.3, 33.0, 5.7, 24.6, 43.7, 1.6, 28.5, 29
.9, 7.7, 26.7, 4.1, 20.3, 44.5, 43.0, 18.4, 27.5, 40.6, 25.5, 47.8
, 4.9, 1.5, 33.5, 36.5, 14.0, 31.6, 3.5, 21.0, 42.3, 41.7, 4.3, 36
.3, 10.1, 17.2, 34.3, 46.4, 11.0, 0.3, 0.4, 26.9, 8.2, 38.0, 15.4,
20.6, 46.8, 35.0, 14.3, 0.8, 36.9, 16.0, 26.8, 21.7, 2.4, 34.6, 32
.3, 11.8, 38.9, 0.0, 49.0, 12.0, 39.6, 2.9, 27.2, 33.5, 38.6, 47.0
10
, 39.0, 28.9, 25.9, 43.9, 17.0, 35.4, 33.2, 5.7, 14.8, 1.9, 7.3, 4
9.0, 40.3, 25.8, 13.9, 8.4, 23.3, 39.7, 21.1, 11.6, 43.5, 1.3, 36.
9, 18.4, 18.1, 35.8, 18.1, 36.8, 14.7, 3.4, 37.6, 5.2, 23.6, 10.6,
11.6, 20.9, 20.1, 7.1, 3.4, 48.9, 30.2, 7.8, 2.3, 10.0, 2.6, 5.4,
5.7, 43.0, 21.3, 45.1, 2.1, 28.7, 13.9, 12.1, 41.1, 10.8, 4.1, 42.
0, 35.6, 3.7, 4.9, 9.3, 42.0, 8.6)

periodico <- c(69.2, 45.1, 69.3, 58.5, 58.4, 75.0, 23.5, 11.6, 1.0
, 21.2, 24.2, 4.0, 65.9, 7.2, 46.0, 52.9, 114.0, 55.8, 18.3, 19.1,
53.4, 23.5, 49.6, 26.2, 18.3, 19.5, 12.6, 22.9, 22.9, 40.8, 43.2,
38.6, 30.0, 0.3, 7.4, 8.5, 5.0, 45.7, 35.1, 32.0, 31.6, 38.7, 1.8,
26.4, 43.3, 31.5, 35.7, 18.5, 49.9, 36.8, 34.6, 3.6, 39.6, 58.7, 1
5.9, 60.0, 41.4, 16.6, 37.7, 9.3, 21.4, 54.7, 27.3, 8.4, 28.9, 0.9
, 2.2, 10.2, 11.0, 27.2, 38.7, 31.7, 19.3, 31.3, 13.1, 89.4, 20.7,
14.2, 9.4, 23.1, 22.3, 36.9, 32.5, 35.6, 33.8, 65.7, 16.0, 63.2, 7
3.4, 51.4, 9.3, 33.0, 59.0, 72.3, 10.9, 52.9, 5.9, 22.0, 51.2, 45.
9, 49.8, 100.9, 21.4, 17.9, 5.3, 59.0, 29.7, 23.2, 25.6, 5.5, 56.5
, 23.2, 2.4, 10.7, 34.5, 52.7, 25.6, 14.8, 79.2, 22.3, 46.2, 50.4,
15.6, 12.4, 74.2, 25.9, 50.6, 9.2, 3.2, 43.1, 8.7, 43.0, 2.1, 45.1
, 65.6, 8.5, 9.3, 59.7, 20.5, 1.7, 12.9, 75.6, 37.9, 34.4, 38.9, 9
.0, 8.7, 44.3, 11.9, 20.6, 37.0, 48.7, 14.2, 37.7, 9.5, 5.7, 50.5,
24.3, 45.2, 34.6, 30.7, 49.3, 25.6, 7.4, 5.4, 84.8, 21.6, 19.4, 57
.6, 6.4, 18.4, 47.4, 17.0, 12.8, 13.1, 41.8, 20.3, 35.2, 23.7, 17.
6, 8.3, 27.4, 29.7, 71.8, 30.0, 19.6, 26.6, 18.2, 3.7, 23.4, 5.8,
6.0, 31.6, 3.6, 6.0, 13.8, 8.1, 6.4, 66.2, 8.7)

ventas <- c(22.1, 10.4, 9.3, 18.5, 12.9, 7.2, 11.8, 13.2, 4.8, 10.
6, 8.6, 17.4, 9.2, 9.7, 19.0, 22.4, 12.5, 24.4, 11.3, 14.6, 18.0,
12.5, 5.6, 15.5, 9.7, 12.0, 15.0, 15.9, 18.9, 10.5, 21.4, 11.9, 9.
6, 17.4, 9.5, 12.8, 25.4, 14.7, 10.1, 21.5, 16.6, 17.1, 20.7, 12.9
, 8.5, 14.9, 10.6, 23.2, 14.8, 9.7, 11.4, 10.7, 22.6, 21.2, 20.2,
23.7, 5.5, 13.2, 23.8, 18.4, 8.1, 24.2, 15.7, 14.0, 18.0, 9.3, 9.5
, 13.4, 18.9, 22.3, 18.3, 12.4, 8.8, 11.0, 17.0, 8.7, 6.9, 14.2, 5
.3, 11.0, 11.8, 12.3, 11.3, 13.6, 21.7, 15.2, 12.0, 16.0, 12.9, 16
.7, 11.2, 7.3, 19.4, 22.2, 11.5, 16.9, 11.7, 15.5, 25.4, 17.2, 11.
7, 23.8, 14.8, 14.7, 20.7, 19.2, 7.2, 8.7, 5.3, 19.8, 13.4, 21.8,
14.1, 15.9, 14.6, 12.6, 12.2, 9.4, 15.9, 6.6, 15.5, 7.0, 11.6, 15.
2, 19.7, 10.6, 6.6, 8.8, 24.7, 9.7, 1.6, 12.7, 5.7, 19.6, 10.8, 11
.6, 9.5, 20.8, 9.6, 20.7, 10.9, 19.2, 20.1, 10.4, 11.4, 10.3, 13.2
, 25.4, 10.9, 10.1, 16.1, 11.6, 16.6, 19.0, 15.6, 3.2, 15.3, 10.1,
7.3, 12.9, 14.4, 13.3, 14.9, 18.0, 11.9, 11.9, 8.0, 12.2, 17.1, 15
.0, 8.4, 14.5, 7.6, 11.7, 11.5, 27.0, 20.2, 11.7, 11.8, 12.6, 10.5
, 12.2, 8.7, 26.2, 17.6, 22.6, 10.3, 17.3, 15.9, 6.7, 10.8, 9.9, 5
.9, 19.6, 17.3, 7.6, 9.7, 12.8, 25.5, 13.4)
datos<-data.frame(tv, radio, periodico, ventas)
datos[1:10,]

11
## tv radio periodico ventas
## 1 230.1 37.8 69.2 22.1
## 2 44.5 39.3 45.1 10.4
## 3 17.2 45.9 69.3 9.3
## 4 151.5 41.3 58.5 18.5
## 5 180.8 10.8 58.4 12.9
## 6 8.7 48.9 75.0 7.2
## 7 57.5 32.8 23.5 11.8
## 8 120.2 19.6 11.6 13.2
## 9 8.6 2.1 1.0 4.8
## 10 199.8 2.6 21.2 10.6

El modelo lineal multiple es obtenido empleando las variables tv, radio y periodico
como los predictores de la variable ventas. Primero obtendremos los resultados de
una forma matricial, dada en la parte anterior y despues con programas de r para
corroborar la eficacia de lo que hicimos.

X<-as.matrix(datos[,1:3]) ##Matriz diseño


X<-cbind(1,X)
Y<-as.vector(datos[,4]) ##Vector de respuestas
X[1:10,]

## tv radio periodico
## [1,] 1 230.1 37.8 69.2
## [2,] 1 44.5 39.3 45.1
## [3,] 1 17.2 45.9 69.3
## [4,] 1 151.5 41.3 58.5
## [5,] 1 180.8 10.8 58.4
## [6,] 1 8.7 48.9 75.0
## [7,] 1 57.5 32.8 23.5
## [8,] 1 120.2 19.6 11.6
## [9,] 1 8.6 2.1 1.0
## [10,] 1 199.8 2.6 21.2

Y[1:10]

## [1] 22.1 10.4 9.3 18.5 12.9 7.2 11.8 13.2 4.8 10.6

12
La estimación del vector de regresores es la siguiente:

bh<-solve(t(X)%*%X)%*%t(X)%*%Y; round(bh, 5) ##vector de regresor


es

## [,1]
## 2.93889
## tv 0.04576
## radio 0.18853
## periodico -0.00104

Posteriormente procedemos a la estimación de la varianza y la varianza de los


regresores:

s2h<-t(Y-X%*%bh)%*%(Y-X%*%bh)/(length(Y)-4) ## sigma estimada


s2h<-as.numeric(s2h);round(s2h, 5)

## [1] 2.84095

vbh<-s2h*solve(t(X)%*%X); round(vbh,6) ##varianza de los regresor


es

## tv radio periodico
## 0.097287 -0.000266 -0.001115 -0.000591
## tv -0.000266 0.000002 0.000000 0.000000
## radio -0.001115 0.000000 0.000074 -0.000018
## periodico -0.000591 0.000000 -0.000018 0.000034

De aquí hacemos un intervalo de confianza para la varianza y para cada regresor


estimado:

chi1<-qchisq(0.025,length(Y)-4)
chi2<-qchisq(0.975,length(Y)-4)
s2_Li<-(length(Y)-4)*s2h/chi2
s2_Ls<-(length(Y)-4)*s2h/chi1

paste("la varianza estimada está entre ",round(s2_Li,5)," y ",roun


d(s2_Ls,5))

## [1] "la varianza estimada está entre 2.35281 y 3.49935"


b0_Li<-bh[1]-qt(0.975,length(Y)-4)*sqrt(vbh[1,1])
b0_Ls<-bh[1]+qt(0.975,length(Y)-4)*sqrt(vbh[1,1])
13
paste("El intercepto estimado está entre ",round(b0_Li,5)," y ",ro
und(b0_Ls,5))

## [1] "El intercepto estimado está entre 2.32376 y 3.55402"

b1_Li<-bh[2]-qt(0.975,length(Y)-4)*sqrt(vbh[2,2])
b1_Ls<-bh[2]+qt(0.975,length(Y)-4)*sqrt(vbh[2,2])

paste("El regresor tv está entre ",round(b1_Li,5)," y ",round(b1_L


s,5))

## [1] "El regresor tv está entre 0.04301 y 0.04852"

b2_Li<-bh[3]-qt(0.975,length(Y)-4)*sqrt(vbh[3,3])
b2_Ls<-bh[3]+qt(0.975,length(Y)-4)*sqrt(vbh[3,3])

paste("El regresor radio está entre ",round(b2_Li,5)," y ",round(b


2_Ls,5))

## [1] "El regresor radio está entre 0.17155 y 0.20551"

b3_Li<-bh[4]-qt(0.975,length(Y)-4)*sqrt(vbh[4,4])
b3_Ls<-bh[4]+qt(0.975,length(Y)-4)*sqrt(vbh[4,4])

paste("El regresor periodico está entre ",round(b3_Li,5)," y ",rou


nd(b3_Ls,5))

## [1] "El regresor periodico está entre -0.01262 y 0.01054"

Como podemos observar, en el intervalo de confianza del regresor “periodico” tiene


contenido el 0 nos dice que para la hipótesis en la que este regresor es igual a 0
con una significancia de 0.05 se acepta la hipótesis por lo que este regresor no
aporta al modelo y puede ser eliminado. Ahora, haremos lo mismo pero con
programas de r:

modelo1<-lm(formula = ventas~tv+radio+periodico,data = datos)


summary(modelo1)

##
## Call:
## lm(formula = ventas ~ tv + radio + periodico, data = datos)
##

14
## Residuals:
## Min 1Q Median 3Q Max
## -8.8277 -0.8908 0.2418 1.1893 2.8292
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 2.938889 0.311908 9.422 <2e-16 ***
## tv 0.045765 0.001395 32.809 <2e-16 ***
## radio 0.188530 0.008611 21.893 <2e-16 ***
## periodico -0.001037 0.005871 -0.177 0.86
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.686 on 196 degrees of freedom
## Multiple R-squared: 0.8972, Adjusted R-squared: 0.8956
## F-statistic: 570.3 on 3 and 196 DF, p-value: < 2.2e-16

confint(modelo1,data = datos,level = 0.95)

## 2.5 % 97.5 %
## (Intercept) 2.32376228 3.55401646
## tv 0.04301371 0.04851558
## radio 0.17154745 0.20551259
## periodico -0.01261595 0.01054097

Dada la tabla anterior, el P-valor que fue obtenido para cada regresor (Beta) parcial
de regresión, obtuvimos que la variable “periodico”" no contribuye de una forma
significativa al modelo. Por lo que podemos decir que las variables tv y radio están
asociadas a las ventas.

Entonces volvemos a ajustar el modelo, ahora sin la variable periodico, además


mostramos los valores ajustados así como sus limites de predicción:

modelo2<-lm(formula = ventas~tv+radio,data = datos)


summary(modelo2)

##
## Call:
## lm(formula = ventas ~ tv + radio, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -8.7977 -0.8752 0.2422 1.1708 2.8328

15
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 2.92110 0.29449 9.919 <2e-16 ***
## tv 0.04575 0.00139 32.909 <2e-16 ***
## radio 0.18799 0.00804 23.382 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.681 on 197 degrees of freedom
## Multiple R-squared: 0.8972, Adjusted R-squared: 0.8962
## F-statistic: 859.6 on 2 and 197 DF, p-value: < 2.2e-16

cbind(tv,radio,Y,predict(modelo2, interval = "prediction"))[1:10,]

## tv radio Y fit lwr upr


## 1 230.1 37.8 22.1 20.555465 17.2165165 23.894413
## 2 44.5 39.3 10.4 12.345362 8.9985906 15.692134
## 3 17.2 45.9 9.3 12.337018 8.9726588 15.701377
## 4 151.5 41.3 18.5 17.617116 14.2808170 20.953415
## 5 180.8 10.8 12.9 13.223908 9.8923960 16.555420
## 6 8.7 48.9 7.2 12.512084 9.1393483 15.884821
## 7 57.5 32.8 11.8 11.718212 8.3810648 15.055360
## 8 120.2 19.6 13.2 12.105516 8.7802081 15.430823
## 9 8.6 2.1 4.8 3.709379 0.3490103 7.069748
## 10 199.8 2.6 10.6 12.551697 9.2076256 15.895768

Finalmente, para el modelo ajustado con los regresores “tv” y “radio”, podemos ver
que el valor ajustado por ejemplo del primer renglon de la tabla anterior tenemos
que para un presupuesto de 230.1 millones destinado a anuncios de Tv y un
presupuesto de 37.8 millones destinado en auncios de radio obtenemos un ingreso
estimado de 20.55 millones, contenido entre 17.21 y 23.89 (millones) que en
comparación con el valor real que es 22.1 podemos decir que nuestro modelo
ajustado explica de forma adecuada el ingreso de ventas.

16
Literatura citada

• AMAT R., J. Introducción a la regresión lineal múltiple. RPubs by Rstudio.


https://rpubs.com/Joaquin_AR/226291. Consultado el 30/Abril/2020.

• HERNÁNDEZ B., F. y MAZO L., M. Análisis de regresión con R. Universidad


Nacional de Colombia. 2020.

• INFANTE, G., S y ZÁRATE DE L., G., P. 2013. Métodos Estadísticos. Un Enfoque


Interdisciplinario. 3ª. Ed. Colegio de Postgraduados. Montecillos, Edo. De México.
610 pag.

• MONTGOMERY, D., C., PECK E., A. y VINING G., G. 2006. Introducción al


Análisis de Regresión Lineal. 3a. Ed. Limusa Wiley, México D.F. 588 pag.

17
Anexos
Base de datos de fecundidad de la ONU del ejemplo:

logPPgdp logFertility Purban Locality


6.614710 1.91692261 22 "Afghanistan"
10.363040 0.82417544 43 "Albania"
10.800900 1.02961942 58 "Algeria"
9.529431 1.97408103 35 "Angola"
12.806348 0.89199804 88 "Argentina"
9.424166 0.13976194 67 "Armenia"
14.197524 0.53062825 91 "Australia"
14.505563 0.24686008 67 "Austria"
9.440869 0.74193734 52 "Azerbaijan"
13.858758 0.82855182 89 "Bahamas"
13.552189 0.97832612 93 "Bahrain"
8.430453 1.24126859 26 "Bangladesh"
13.176017 0.40546511 51 "Barbados"
10.249113 0.18232156 70 "Belarus"
14.448052 0.50681760 97 "Belgium"
11.608717 1.14740245 48 "Belize"
8.495855 1.73342389 43 "Benin"
15.444077 0.51282363 100 "Bermuda"
7.912889 1.61342993 7 "Bhutan"
9.868823 1.34025042 63 "Bolivia"
10.125413 0.26236426 43 "Bosnia-Herzegovina"
11.487840 1.30833282 49 "Botswana"
11.495855 0.79299252 82 "Brazil"
13.602119 0.90825856 73 "Brunei"
10.663558 0.09531018 67 "Bulgaria"
7.665336 1.89911799 17 "Burkina.Faso"
6.741467 1.91692261 9 "Burundi"
7.864186 1.56234630 18 "Cambodia"
9.121534 1.52822786 50 "Cameroon"
14.450245 0.39204209 79 "Canada"
10.298063 1.19392247 64 "Cape.Verde"
7.918863 1.59330853 42 "Central.African.Rep"
6.988685 1.89461685 24 "Chad"
11.962896 0.85441533 86 "Chile"
9.842350 0.60431597 37 "China"
14.520312 0.00000000 100 "Hong.Kong"
13.801809 0.09531018 99 "Macao"
10.891784 0.96317432 75 "Colombia"
8.118941 1.58923521 34 "Comoros"
9.605480 1.83896107 66 "Congo"
12.099348 1.25276297 59 "Cook.Islands"
12.018200 0.82417544 60 "Costa.Rica"
9.315150 1.55392520 44 "Cote.dIvoire"
12.154185 0.50077529 58 "Croatia"
11.313450 0.43825493 76 "Cuba"
13.482934 0.64185389 70 "Cyprus"
12.425478 0.14842001 75 "Czech.Rep"
7.108524 1.90210753 31 "Dem.Rep.Congo"
14.885363 0.57097955 85 "Denmark"
9.677720 1.74046617 84 "Djibouti"

18
11.287712 0.99694863 66 "Dominican.Rep"
10.476746 1.01523068 63 "Ecuador"
10.440869 1.19088756 43 "Egypt"
11.096056 1.05779029 62 "El.Salvador"
11.943980 1.77325600 49 "Equatorial.Guinea"
7.467606 1.69193913 19 "Eritrea"
11.969387 0.19885086 69 "Estonia"
6.491853 1.81482474 16 "Ethiopia"
10.998590 1.05779029 50 "Fiji"
14.517669 0.54812141 59 "Finland"
14.424560 0.63657683 76 "France"
12.917559 1.20297230 75 "Fr.Guiana"
13.761863 0.89199804 53 "Fr.Polynesia"
11.722381 1.38379123 82 "Gabon"
8.228819 1.54756251 31 "Gambia"
9.231221 0.33647224 57 "Georgia"
14.452370 0.30010459 88 "Germany"
8.049849 1.41342303 36 "Ghana"
13.388959 0.23901690 60 "Greece"
13.333575 0.74193734 100 "Guadeloupe"
10.745674 1.48387469 40 "Guatemala"
8.550747 1.76130026 28 "Guinea"
7.442943 1.96009478 32 "Guinea-Bissau"
9.870365 0.83724752 36 "Guyana"
8.751544 1.38128182 37 "Haiti"
9.906891 1.31372367 54 "Honduras"
12.346791 0.18232156 65 "Hungary"
14.735609 0.66782937 93 "Iceland"
8.867279 1.10194008 28 "India"
9.405141 0.85441533 42 "Indonesia"
12.462758 0.84586827 65 "Iran"
14.705902 0.64185389 59 "Ireland"
14.199672 0.99325177 92 "Israel"
14.208234 0.20701417 67 "Italy"
11.545930 0.85866162 57 "Jamaica"
14.989927 0.27763174 79 "Japan"
10.753217 1.27256560 79 "Jordan"
10.492855 0.66782937 56 "Kazakhstan"
8.519636 1.38629436 34 "Kenya"
8.870365 1.33500107 39 "Kiribati"
9.157347 0.34358970 61 "N.Korea"
13.128478 0.70309751 83 "S.Korea"
14.034627 0.97832612 96 "Kuwait"
8.257388 0.97077892 34 "Kyrgyzstan"
8.339850 1.56444055 20 "Laos"
11.649256 0.09531018 60 "Latvia"
12.312599 0.77932488 90 "Lebanon"
8.710806 1.34547237 29 "Lesotho"
8.000000 1.91692261 46 "Liberia"
12.315999 1.10525683 88 "Libya"
15.074476 0.49469624 22 "Liechtenstein"
11.749031 0.22314355 69 "Lithuania"
15.393424 0.54812141 92 "Luxembourg"
8.118941 1.74046617 30 "Madagascar"
7.011227 1.80828877 15 "Malawi"
11.871905 1.06471074 58 "Malaysia"
10.927037 1.67335124 28 "Maldives"

19
7.643856 1.94591015 31 "Mali"
13.174458 0.57097955 91 "Malta"
10.920353 1.30291275 66 "Marshall.Is"
13.388421 0.64185389 95 "Martinique"
8.463524 1.75613229 59 "Mauritania"
11.886840 0.66782937 42 "Mauritius"
12.586371 0.91629073 75 "Mexico"
11.113091 1.33500107 29 "Micronesia"
8.703904 0.88376754 57 "Mongolia"
10.161132 1.01160091 56 "Morocco"
7.614710 1.72810944 33 "Mozambique"
10.678600 1.51732262 31 "Namibia"
7.820179 1.44926916 12 "Nepal"
14.537764 0.54232429 90 "Netherlands"
13.568550 0.71783979 69 "Neth.Antilles"
13.943064 0.89608802 78 "New.Caledonia"
13.686610 0.69813472 86 "New.Zealand"
8.933691 1.32175584 57 "Nicaragua"
7.459432 2.07944154 21 "Niger"
8.764872 1.69009582 45 "Nigeria"
15.153433 0.58778666 75 "Norway"
12.857398 1.60140574 77 "Oman"
8.707359 1.62531126 33 "Pakistan"
12.593158 1.09861229 69 "Palau"
11.727495 0.99325177 57 "Panama"
9.090112 1.40854497 18 "Papua.New.Guinea"
10.328675 1.34547237 57 "Paraguay"
11.003518 1.05082162 73 "Peru"
9.851749 1.15688120 59 "Philippines"
12.185185 0.23111172 63 "Poland"
13.417853 0.37156356 66 "Portugal"
14.220000 0.63657683 76 "Puerto.Rico"
14.896190 1.16938136 93 "Qatar"
8.434628 0.33647224 41 "Moldova"
13.165535 0.83290912 72 "Reunion"
10.729621 0.27763174 55 "Romania"
11.062721 0.13102826 73 "Russia"
7.679480 1.74745921 6 "Rwanda"
13.040632 0.87962675 34 "Saint.Kitts.and.Nevis"
12.285980 0.81977983 38 "Saint.Lucia"
11.521600 0.80200159 56 "St.Vincent/Grenadines"
10.453271 1.41585316 22 "Samoa"
8.285402 1.38379123 48 "Sao.Tome.and.Principe"
12.915132 1.51072194 87 "Saudi.Arabia"
8.903882 1.60341984 48 "Senegal"
9.977280 0.50077529 52 "Serbia.and.Montenegro."
12.938477 0.69314718 65 "Seychelles"
7.357552 1.87180218 37 "Sierra.Leone"
14.341171 0.30748470 100 "Singapore"
11.879200 0.24686008 58 "Slovakia"
13.208082 0.13102826 49 "Slovenia"
9.569856 1.48613970 20 "Solomon.Islands"
6.781360 1.98100147 28 "Somalia"
11.316282 0.95935022 58 "South.Africa"
13.797054 0.13976194 78 "Spain"
9.691744 0.69813472 23 "Sri.Lanka"
8.554589 1.47932923 37 "Sudan"

20
10.940314 0.89608802 75 "Suriname"
10.233620 1.51292701 27 "Swaziland"
14.531381 0.49469624 83 "Sweden"
15.072174 0.34358970 67 "Switzerland"
12.280771 1.19996478 52 "Syria"
7.426265 1.11841492 28 "Tajikistan"
10.859535 0.65752000 20 "Thailand"
10.750707 0.64185389 59 "Macedonia"
8.774787 1.34807315 8 "Timor-Leste"
8.092757 1.67335124 34 "Togo"
10.326429 1.31103188 33 "Tonga"
12.734921 0.43825493 75 "Trinidad.and.Tobago"
11.020286 0.69813472 66 "Tunisia"
11.060696 0.88789126 66 "Turkey"
10.302639 0.99325177 45 "Turkmenistan"
7.900867 1.96009478 15 "Uganda"
9.575539 0.13976194 68 "Ukraine"
14.274378 1.03673688 87 "United.Arab.Emirates"
14.561885 0.47000363 90 "United.Kingdom"
8.038919 1.63119940 33 "Tanzania"
15.086302 0.74668795 77 "USA"
12.428884 0.83290912 92 "Uruguay"
8.707359 0.89199804 37 "Uzbekistan"
10.083479 1.41827741 22 "Vanuatu"
12.290307 1.00063188 87 "Venezuela"
8.700440 0.83290912 25 "Viet.Nam"
8.751544 1.94733770 25 "Yemen"
8.430453 1.72988407 40 "Zambia"
9.457381 1.36097655 36 "Zimbabwe"

21

También podría gustarte