Regression Linéaire Simple PDF
Regression Linéaire Simple PDF
Regression Linéaire Simple PDF
Introduction
Modle
On note Y la variable alatoire relle expliquer (variable endogne, dpendante ou rponse) et X la variable explicative ou effet fixe (exogne). Le
modle revient supposer, quen moyenne, E(Y ), est une fonction affine de
X. Lcriture du modle suppose implicitement une notion pralable de causalit dans le sens o Y dpend de X car le modle nest pas symtrique.
E(Y ) = f (X) = 0 + 1 X
ou
Y = 0 + 1 X +
i = 1, . . . , n
E(i ) = 0,
Var(i ) = 2 .
3
3.1
Estimation
Paramtres
1 X 2
e .
s =
n 2 i=1 i
Lestimation des paramtres 0 , 1 , 2 est obtenue en maximisant la vraisemblance, sous lhypothse que les erreurs sont gaussiennes, ou encore par
minimisation de la somme des carrs des carts entre observations et modle
(moindres carrs). Les deux approches conduisent aux mmes estimation tandis que le maximum de vraisemblance induit de meilleure proprits des estimateurs. Pour une squence dobservations {(xi , yi )i = 1 . . . , n}, le critre
des moindres carrs scrit :
n
X
(yi 0 1 xi )2 .
min
0 ,1
i=1
(1)
(2)
(3)
(4)
On pose :
n
x
=
1X
xi ,
n i=1
y =
s2x =
sxy =
1 X
(xi x
)2 ,
n 1 i=1
1
n1
1X
yi ,
n i=1
3.2
s2y =
n
X
(xi x
)(yi y),
r=
i=1
1 X
(yi y)2 ,
n 1 i=1
Coef
Er-T coef
0,01999(1)
0,01365(3)
0,0082897(2) 0,0002390(4)
T
1,46
34,68
P
0,160
0,000
b0
b1
c0 : sb
cart-type de
0
c
cart-type de 1 : sb1
Qualit dajustement
sxy
;
sx sy
= (n 1)s2y ,
SST
SSR = (n 1) sxy
2 ,
x
2
SSE = (n 2)s ,
s2
c0 et
c1 . On montre que ces estimaqui sont les ralisations des estimateurs
teurs sans biais et de variance minimum parmi les estimateurs fonctions linaires des yi (resp. parmi tous les estimateurs dans le cas gaussien). chaque
valeur de X correspond la valeur estime ou ajuste de Y :
R2 = r 2 =
s2xy
n 2 s2
SSR
=1
=
2
2
sx sy
n 1 s2y
SST
ybi = b0 + b1 xi ,
intervalles de confiance :
(1)
(2)
(3)
(4)
(5)
(6)
(7)
(8)
4
4.1
1/2
1
x
2
+
,
n (n 1)s2x
1/2
1
.
t/2;(n2) s
(n 1)s2x
SC
1,8108(2)
0,0271(3)
1,8379(4)
CM
1,8108(5)
0,0015(6)
R-carr = 98,5%(8)
F
1202,89
P
0,000
b0
b1
t/2;(n2) s
Attention : une infrence conjointe sur 0 et 1 ne peut tre obtenue en considrant sparment les intervalles de confiance. La rgion de confiance est en
effet une ellipse dquation :
n
X
xi + (b1 1 )2
i=1
n
X
i=1
qui est inclue dans le rectangle dfini par les intervalles. Un grande part des
valeurs du couple (0 , 1 ) est donc exclue de la rgion de confiance et ce
dautant plus que b0 et b1 sont corrls.
Infrence
(n 2)
R2
SSR
= (n 2)
2
1R
SSE
c0 et
c1 sont des variables alatoires relles de matrice de
Les estimateurs
suit une distribution de Fisher F1,(n2) . Cette statistique est le carr de la stacovariance :
"
#
1
x
2
x
(n1)s2
(n1)s2
x
4.2
qui est estime en remplaant par son estimation s2 . Sous lhypothse que
Connaissant une valeur x0 , on dfinit deux intervalles de confiance de prles rsidus sont gaussiens, on montre que
vision partir de la valeur prdite yb0 = b0 + b1 x0 . Le premier encadre E(Y )
sachant X = x0 ; le deuxime, qui encadre yb0 est plus grand car il tient compte
(n 2)S 2
2(n2)
de la variance totale : 2 + Var(yb0 ) :
2
1/2
(x0 x
)2
1
et donc que les statistiques
+
,
yb0 t/2;(n2) s
n (n 1)s2x
,
,
1/2
1/2
1/2
x
2
1
1
(x0 x
)2
c1 1 ) s
c0 0 ) s 1 +
et
(
(
y
b
t
s
1
+
+
.
2
2
0
/2;(n2)
n (n 1)sx
(n 1)sx
n (n 1)s2x
suivent des lois de Student (n 2) degrs de libert. Ceci permet de tesLes logiciels proposent galement une bande de confiance entre deux arcs
ter lhypothse de nullit dun de ces paramtres ainsi que de construire les dhyperboles pour la droite de rgression. chaque point (b0 , b1 ) de lellipse
1/2
q
1
(x x
)2
yb s F1,(n2)
+
.
n (n 1)s2x
Ceci signifie que cette bande recouvre la vraie ligne avec une probabilit
1 . Elle est plus grande que celle associe aux intervalles de confiance des
E(Y ).
Influence
Le critre des moindres carrs, comme la vraisemblance applique une distribution gaussienne douteuse, est trs sensible des observations atypiques,
Attention : la prvision par intervalle nest justifie que pour des observa- hors norme (outliers) cest--dire qui prsentent des valeurs trop singulires.
tions appartenant la population chantillonne et condition que les hypo- Ltude descriptive initiale permet sans doute dj den reprer mais cest inthses : linarit, erreurs i.i.d., (normalit), homoscdasticit, soient valides. suffisant. Un diagnostic doit tre tabli dans le cadre spcifique du modle
viter les extrapolations.
recherch afin didentifier les observations influentes cest--dire celles dont
une faible variation du couple (xi , yi ) induisent une modification importante
4.3 Tests dhypothse
des caractristiques du modle.
Les tests prcdents prennent une signification particulire avec un objectif
Ces observations repres, il ny a pas de remde universel : supprimer un
explicatif ; dsigne le niveau des tests, souvent = 5%. Comme pour valeur aberrante, corriger une erreur de mesure, construire une estimation rotous les tests usuels de comparaison dchantillon, les logiciels fournissent les buste (en norme L1 ), ne rien faire. . . , cela dpend du contexte et doit tre
probabilits critiques ou P -valeurs qui, en pratique, sont compares avec le ngoci avec le commanditaire de ltude.
seuil prdtermin.
5.1
Effet levier
)
j
j=1
j=1
est rejete si F > f1;n2;1/2 ou si la P -valeur associe est infrieure .
Plus prcisment, lhypothse H0 : 1 = 0 rpond aussi la question de en notant H la matrice (hat matrix) des hij ceci sexprime encore matriciellelinfluence de X sur Y . La rponse est ngative si H0 est accepte : la pente ment :
b = Hy.
y
de la droite de rgression est nulle, le nuage de point est rparti sans structure
linaire significative. La rponse est positive lorsque le test est significatif et Les lments diagonaux hii de cette matrice mesurent ainsi limpact ou limdonc lhypothse rejete. Ce paramtre suit une loi de Student et H0 rejete portance du rle que joue yi dans lestimation de ybi .
1|
lorsque t1 = |b
sb1 > tn2;1/2 ou si la P -valeur associe est infrieure . 5.2
Rsidus et PRESS
Ce test est strictement quivalent au test de Fisher prcdent, il conduit la
mme P -valeur.
Diffrents types de rsidus sont dfinis afin daffiner leurs proprits.
Rsidus : ei = yi ybi
ei
Rsidus(i) : e(i)i = yi yd
(i)i = 1hii
o yd
(i)i est la prvision de yi calcule sans la ime observation (xi , yi ).
Ce type de rsidu conduit la dfinition du PRESS (predicted residual
sum of squares) dit de Allen :
2
n
n
1X 2
1X
ei
PRESS =
e(i)i =
n i=1
n i=1 1 hii
Sous hypothse de normalit, on montre que ces rsidus suivent une loi
de Student (n 3) degrs de libert.
Il est ainsi possible de construire un test afin tester la prsence dune observation atypique ou de plusieurs en utilisant lingalit de Bonferroni. Plus
concrtement, en pratique, les rsidus studentiss sont compars aux bornes
2.
Cest une estimation sans biais de la qualit de prvision dun modle car
une mme observation nest pas utilise, la fois, pour estimer le modle et lerreur de prvision. Le PRESS est trs utile pour comparer les
qualits prdictives de plusieurs modles. Ce point important sera dvelopp dans le cas du modle linaire multiple : le coefficient R2 permet
de comparer les qualits dajustement mais la meilleure prvision nest
pas ncessairement fournie par un modle de R2 maximum. Le PRESS
encore appel leave one out cross validation (loo CV) est plus pertinent
pour atteindre cet objectif. Remarquer que dans le cas particulier du modle linaire, le PRESS est calcul directement partir des rsidus initiaux
et des termes diagonaux hii de la matrice H. Pour dautres modles, le
calcul du PRESS ncessite lestimation, ventuellement coteuse, de n
modles.
Rsidus standardiss : Mme si lhypothse dhomoscdasticit est vrifie,
ceux-ci nont pas la mme variance : E(ei ) = 0 et Var(ei ) = 2 (1 hii ).
Il est donc dusage den calculer des versions standardises afin de les
rendre comparables :
ei
ri =
.
s 1 hii
Rsidus studentiss : La standardisation (interne) dpend de ei dans le calcul de s estimation de Var(ei ). Une estimation non biaise de cette variance est base sur
e2i
s2(i) = (n 2)s2
/(n 3)
1 hii
Diagnostics
6.1
Distance de Cook
Les deux critres prcdents contribuent dceler des observations potentiellement influentes par leur loignement x
ou la taille des rsidus. Ces informations sont synthtises dans des critres valuant directement linfluence
dune observation sur certains paramtres : les prvisions ybi , les paramtres
b0 , b1 , le dterminant de la matrice de covariance des estimateurs. Tous ces
indicateurs proposent de comparer un paramtre estim sans la i-me observation et ce mme paramtre estim avec toutes les observations.
Le plus couramment utilis est la distance de Cook :
Pn
2
hii
(i)j ybj )
j=1 (yd
Di =
r2
pour i = 1, . . . , n
=
2s2
2(1 hii ) i
qui mesure donc linfluence dune observation sur lensemble des prvisions
en prenant en compte effet levier et importance des rsidus.
La stratgie de dtection consiste le plus souvent reprer les points atypiques en comparant les distances de Cook avec la valeur 1 puis expliquer
cette influence en considrant, pour ces observations, leur rsidu ainsi que leur
effet levier.
6.2
ti =
.
subjective, renseigne prcisment sur la validit des hypothses implicites
s(i) 1 hii
Coef
-4872
2350,7
S = 51240,8
SE Coef
10655
183,8
R-Sq = 78,4%
T
-0,46
12,79
P
0,650
0,000
R-Sq(adj) = 77,9%
Analysis of Variance
Source
Regression
Residual Error
Total
DF
1
45
46
SS
4,29512E+11
1,18153E+11
5,47665E+11
MS
4,29512E+11
2625616822
F
163,59
P
0,000
S = 0,663595
PRESS = 12,3132
Coef
6,8678
1,18863
S = 0,496742
SE Coef
0,3332
0,09593
R-Sq = 77,3%
T
20,61
12,39
P
0,000
0,000
R-Sq(adj) = 76,8%
Analysis of Variance
Source
Regression
Residual Error
Total
7.2
DF
1
45
46
SS
37,886
11,104
48,990
MS
37,886
0,247
F
153,54
P
0,000
Il sagit de tester le bon calibrage dun spectromtre dans le proche infra-rouge (SPIR) valuant le taux de
protines de varits de bl. La mesure de rfrence (TxProtRef) prend plusieurs heures et celle-ci est compare
avec une mesure par le spectromtre (TxprotIR) qui est quasi instantane. Lopration est rpte sur n = 26
chantillons.
Regression Analysis: TxprotIR versus TxProtRef
The regression equation is
TxprotIR = 0,16 + 0,981 TxProtRef
Predictor
Constant
TxProtRef
Coef
0,157
0,9808
SE Coef
1,174
0,1046
T
0,13
9,38
R-Sq = 78,6%
P
0,895
0,000
R-Sq(adj) = 77,7%
R-Sq(pred) = 75,02%