Cours m1 Econometrie Appliquee Slide3
Cours m1 Econometrie Appliquee Slide3
Cours m1 Econometrie Appliquee Slide3
Econométrie appliquée
Cours de M1 deuxième partie
Armand Taranco
Quand utiliser la régression
multiple
Pour estimer la relation entre une variable
dépendante (Y ) et plusieurs variables
indépendantes (X1, X2, …)
Exemples
Expliquer les ventes d’un magasin par le
marché total, le prix, l’investissement, la
publicité,…
Expliquer la consommation des véhicules par le
prix, la cylindrée, la puissance et le poids.
Le modèle général de régression
multiple
Equation de régression multiple
Cette équation précise la façon dont la variable
dépendante est reliée aux variables explicatives :
Y 0 1 X 1 2 X 2 ... p X p
où 012psont les paramètres et est un
bruit aléatoire représentant le terme d’erreur.
Le modèle général de régression
multiple
Les termes de l’équation
0
y1 1 x1,1 x1, p 1
1
yn 1 x1,n xn , p n
p
y X
Le modèle général de régression
multiple
Les hypothèses du modèle
Les hypothèses de nature probabiliste
Les variables Xi sont aléatoires
E(i)=0 pour tout i
V(i)=2 pour tout 1≤i≤p (homoscédasticité des
erreurs)
Cov(i , i )=0 pour tout i≠j
Le vecteur aléatoire suit une loi normale à n
dimensions N(0, 2In)
Les hypothèses structurelles
Det(XTX)≠0 (absence de colinéarité entre les
variables explicatives).
n>p+1
Le modèle général de régression
multiple
Interprétation géométrique
Le modèle général définit un hyperplan de dimension
p. Nous illustrons le cas p=2.
E(Yi|X1i, X2i) = 0+1X1i+2X2i
Yi : observation
Y
0
i
X2
(X1i, X2i)
X1
Le processus d’estimation
Modèle de régression multiple
Données:
Y = 0 + 1X1 + 2X2 +. . .+ pXp + x1 x2 . . . xp y
Equation de régression multiple . . . .
E(Y|X1,…,Xp) = 0 + 1X1 + 2X2 +. . .+ pXp . . . .
Paramètres inconnus
0, 1, 2, . . . , p
Equation estimée
ˆ0 , ˆ1 , ˆ2 ,..., ˆ p
Yˆ ˆ0 ˆ1 X 1 ˆ2 X 2 ... ˆ p X p
Estimateurs de
Estimateurs
0 , 1, 2, . . . , p
ˆ0 , ˆ1 , ˆ2 ,..., ˆ p
Le processus d’estimation
Interprétation géométrique
Illustration du cas p=2.
Y yi : observation
̂ 0
yˆ i ˆ0 ˆ1 X 1i ˆ2 X 2i
ˆi yi yˆ i
X2
(X1i, X2i)
X1
Le processus d’estimation
Estimation des coefficients de régression
La méthode : les moindres carrés ordinaires
Le principe de l’estimation des coefficients de
régression :
0 , 1 , 2 ,..., p
consiste à minimiser la somme des carrés des
résidus :
n n
i i i
2
i 1
( y ˆ
y ) 2
i 1
̂ suit une loi N 0, X X
2 T 1
̂ est sans biais : E ( ˆ )
Parmi les estimateurs de linéaires par rapport à
X, sans biais, les éléments de ̂ ont la plus petite
variance.
Le processus d’estimation
Interprétation des coefficients de
régression estimés
La pente ̂ k (k≠0)
L’estimée de Y varie d’un facteur égal à ̂ k
lorsque Xk augmente d’une unité, les autres
variables étant maintenues constantes.
L’ordonnée à l’origine ̂ 0
C’est la valeur moyenne de Y lorsque toutes les
Xi sont nulles.
Le processus d’estimation
Estimation de la variance des résidus
n
i
2
ˆ 2 i 1
n p 1
Le processus d’estimation
Les données
Taille de l’échantillon
Les données doivent être suffisamment
nombreuses : 15 à 20 par variable au moins.
La nature des variables
Dans la pratique, Y est une variable
quantitative et les Xi peuvent être quantitatives
ou binaires.
La qualité de la régression
Décomposition de la somme des carrés totale
SCT : somme des carrés totale
SCR : somme des carrés du modèle de régression
SCE : somme des carrés résiduels
y Y yˆ Y ( y yˆ )
n n n
2 2 2
i i i i
i 1 i 1 i 1
Qualité de la régression
Les coefficients de détermination
Le coefficient de détermination R2
R2 = SCR/SCT
Règle de décision
Au risque , on rejette H0 si : F F1-
où F1- est un fractile d’une loi de Fisher à p et
n-p-1 degrés de liberté.
Qualité de la régression
R2 et test de Fisher
H0 : j = 0 (j≠0)
On peut supprimer la variable Xj
H1 : j 0
Il faut conserver la variable Xj
Qualité de la régression
Statistique utilisée
ˆi
ti , sˆ : écart-type de ˆi
sˆ i
i
Règle de décision
Au risque , on rejette H0 si : |t| ≥ t1-
où t1- est un fractile d’une loi de Student
à n-p-1 degrés de liberté.
Analyse des résidus
Normalité
QQ plot
Tests de normalité
Homoscédasticité
La variance des résidus n’est pas stable.
Transformation des données
Indépendance des résidus
Test de Durbin-Watson
Détection des valeurs atypiques
Les variables indicatrices
Variable indicatrice (dummy variable)
Variable prenant les valeurs 0 ou 1 pour indiquer
que l’observation présente une certaine
caractéristique, par exemple une périodicité
(trimestre, mois,…).
Exemple : la consommation de fuel trimestrielle
X t 0 1t 2 d1 3 d 2 4 d 4 t
di = 1 pour le iéme trimestre
di = 0 sinon