Cours m1 Econometrie Appliquee Slide3

La régression multiple
Econométrie appliquée
Cours de M1 deuxième partie
Armand Taranco
Quand utiliser la régression
multiple
Pour estimer la relation entre une variable
dépendante (Y ) et plusieurs variables
indépendantes (X1, X2, …)
Exemples
 Expliquer les ventes d’un magasin par le
marché total, le prix, l’investissement, la
publicité,…
 Expliquer la consommation des véhicules par le
prix, la cylindrée, la puissance et le poids.
Le modèle général de régression
multiple
Equation de régression multiple
Cette équation précise la façon dont la variable
dépendante est reliée aux variables explicatives :
Y   0  1 X 1   2 X 2  ... p X p  
où 012psont les paramètres et  est un
bruit aléatoire représentant le terme d’erreur.
multiple
Les termes de l’équation
yi   0  1 x1i   2 x2i  ... p x pi   i
ième observation Terme constant Influence de

de Y la variable Xp
Influence de la
variable X1
Résidu de la ième
observation
multiple
Ecriture matricielle du modèle
 0 
 y1  1 x1,1  x1, p      1 
         1   
      
   
 yn  1 x1,n  xn , p     n 
  p 
y  X  
multiple
Les hypothèses du modèle
 Les hypothèses de nature probabiliste
Les variables Xi sont aléatoires
E(i)=0 pour tout i
V(i)=2 pour tout 1≤i≤p (homoscédasticité des
erreurs)
Cov(i , i )=0 pour tout i≠j
Le vecteur aléatoire  suit une loi normale à n
dimensions N(0, 2In)
 Les hypothèses structurelles
Det(XTX)≠0 (absence de colinéarité entre les
variables explicatives).
n>p+1
multiple
Interprétation géométrique
Le modèle général définit un hyperplan de dimension
p. Nous illustrons le cas p=2.
E(Yi|X1i, X2i) = 0+1X1i+2X2i
Yi : observation
Y
0
i
X2
(X1i, X2i)
X1
Le processus d’estimation
Modèle de régression multiple
Données:
Y = 0 + 1X1 + 2X2 +. . .+ pXp +  x1 x2 . . . xp y
Equation de régression multiple . . . .
E(Y|X1,…,Xp) = 0 + 1X1 + 2X2 +. . .+ pXp . . . .
Paramètres inconnus
 0,  1,  2, . . . ,  p
Equation estimée
ˆ0 , ˆ1 , ˆ2 ,..., ˆ p
Yˆ  ˆ0  ˆ1 X 1  ˆ2 X 2  ...  ˆ p X p
Estimateurs de
Estimateurs
 0 ,  1,  2, . . . ,  p
ˆ0 , ˆ1 , ˆ2 ,..., ˆ p
Interprétation géométrique
Illustration du cas p=2.
Y yi : observation
̂ 0
yˆ i  ˆ0  ˆ1 X 1i  ˆ2 X 2i
î  yi  yˆ i
X2
(X1i, X2i)
X1
Estimation des coefficients de régression
 La méthode : les moindres carrés ordinaires
Le principe de l’estimation des coefficients de
régression :
 0 , 1 ,  2 ,...,  p
consiste à minimiser la somme des carrés des
résidus :
n n
 i  i i
 2
i 1
 ( y  ˆ
y ) 2
i 1
 Le calcul numérique lui-même (calcul matriciel)

peut s’effectuer à l’aide de logiciels statistiques
(SAS, SPSS, S+, R, Gretl,…).
Estimation des coefficients du modèle
La méthode des moindres carrés donne pour
résultat :

ˆ  X T X 
1
X TY

̂ suit une loi N 0,   X X 
2 T 1

̂ est sans biais : E ( ˆ )  
Parmi les estimateurs de  linéaires par rapport à
X, sans biais, les éléments de ̂ ont la plus petite
variance.
Interprétation des coefficients de
régression estimés
 La pente ̂ k (k≠0)
L’estimée de Y varie d’un facteur égal à ̂ k
lorsque Xk augmente d’une unité, les autres
variables étant maintenues constantes.
 L’ordonnée à l’origine ̂ 0
C’est la valeur moyenne de Y lorsque toutes les
Xi sont nulles.
Estimation de la variance des résidus
n
 i
2
ˆ 2  i 1
n  p 1
Les données
 Taille de l’échantillon
Les données doivent être suffisamment
nombreuses : 15 à 20 par variable au moins.
 La nature des variables
Dans la pratique, Y est une variable
quantitative et les Xi peuvent être quantitatives
ou binaires.
La qualité de la régression
Décomposition de la somme des carrés totale
SCT : somme des carrés totale
SCR : somme des carrés du modèle de régression
SCE : somme des carrés résiduels
SCT = SSR + SCE
 y  Y    yˆ  Y    ( y  yˆ )
n n n
2 2 2
i i i i
i 1 i 1 i 1
Qualité de la régression
Les coefficients de détermination
 Le coefficient de détermination R2
R2 = SCR/SCT
Il exprime le pourcentage de la variance de Y

expliquée par le modèle. Il donne une idée
globale de l'ajustement du modèle.
 Le R2 ajusté se calcule en fonction du R2 :
n 1
Ra  1 
2
(1  R 2 )
n  p 1
Il traduit à la fois la qualité de l’ajustement
(liaison entre Y et les Xi) et la complexité du
Le test de Fisher
Il permet de répondre à la question : la liaison
globale entre Y et les Xi est-elle significative ?
 Hypothèses
H0: 1 = 2 = ... = p = 0
Y ne dépend pas des variables Xi .
H1: Au moins un coefficient est non nul

Y dépend d’au moins une variable Xi .
 Statistique utilisée
SCR
MSR p
F 
MSE SCE
n  p 1
 Règle de décision
Au risque , on rejette H0 si : F  F1-
où F1- est un fractile d’une loi de Fisher à p et
n-p-1 degrés de liberté.
R2 et test de Fisher
F bon, R² mauvais F bon, R² bon

Le test de Student
Il permet de répondre à la question suivante :
l’apport marginal d’une variable Xi est-il
significatif ?
 Hypothèses
H0 : j = 0 (j≠0)
On peut supprimer la variable Xj
H1 : j  0
Il faut conserver la variable Xj
 Statistique utilisée
î
ti  , sˆ : écart-type de î
sˆ i
i
 Règle de décision
Au risque , on rejette H0 si : |t| ≥ t1-
où t1- est un fractile d’une loi de Student
à n-p-1 degrés de liberté.
Analyse des résidus
Normalité
 QQ plot
 Tests de normalité
Homoscédasticité
 La variance des résidus n’est pas stable.
 Transformation des données
Indépendance des résidus
 Test de Durbin-Watson
Détection des valeurs atypiques
Les variables indicatrices
Variable indicatrice (dummy variable)
Variable prenant les valeurs 0 ou 1 pour indiquer
que l’observation présente une certaine
caractéristique, par exemple une périodicité
(trimestre, mois,…).
Exemple : la consommation de fuel trimestrielle
X t   0  1t   2 d1   3 d 2   4 d 4   t
di = 1 pour le iéme trimestre
di = 0 sinon

Cours m1 Econometrie Appliquee Slide3

Transféré par

Droits d'auteur :

Formats disponibles

Cours m1 Econometrie Appliquee Slide3

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours m1 Econometrie Appliquee Slide3

Transféré par

Droits d'auteur :

Formats disponibles

La régression multiple

yi   0  1 x1i   2 x2i  ... p x pi   i

ième observation Terme constant Influence de

 Le calcul numérique lui-même (calcul matriciel)

SCT = SSR + SCE

Il exprime le pourcentage de la variance de Y

H1: Au moins un coefficient est non nul

F bon, R² mauvais F bon, R² bon

Vous aimerez peut-être aussi