Regression Simple
Regression Simple
Regression Simple
Modèle ?
Représentation des phénomènes
en réalité en vue de comprendre
le fonctionnement,
Marketing direct en ligne:
construire un modèle pour identifier les
clients les plus susceptibles d’acheter des
produits de leur prochain catalogue
Modèles Modèles
déterministes probabilistes
Modèles mathématiques et
statistiques
Déterministes
Random Error
(aléatoires)
Modèles mathématiques et
statistiques
Exemple:
Ventes d’un produit = frais de
publicité + force de vente + prix +
,,,+ erreur de perturbation
Corrélation et régression linéaire simple
La corrélation
La régression linéaire
simple
Introduction
Dans l’échantillon:
n
1
cov(x, y) x i y i xy
n i1
Estimation pour la population: n
1
cov(x, y)
ˆ xy
n 1 i1
(x i x )(y i y )
n
1 n
cov( x, y)
n 1 i1
x y
i i
n 1
xy
La corrélation
Covariance et nuage de points
(xi x) 0
<0 (yi y) 0
Contribution > 0
y
>0
<0
x
La corrélation
2. Le coefficient de corrélation linéaire
« de Pearson »
sxy
rxy
sx2 s 2y
La corrélation
2. Le coefficient de corrélation linéaire
Indice de covariance absolu: -1 ≤ r ≤ 1
X2 X2 X2
X2 X2 X2
X1
La corrélation
3. Conditions d’utilisation
Homoscédasticité
Y
Homoscédasticité
La variance de Y est
indépendante de X et vice-
versa.
Hétéroscédasticité
X
La corrélation
3. Conditions d’utilisation
Linéarité
Y Y
Linéarité Non-linéarité
X X
La régression linéaire simple
1. Le modèle
On suppose: y = f(x) = a + bx
Modèle: Yi = a + bXi + ei
avec, pour X = xi, Yi : N(a+bxi, )
X = variable explicative
(« indépendante »), contrôlée
Y = variable expliquée
(dépendante ), aléatoire
La régression linéaire simple
2. L’estimation des paramètres
a? b?
Méthode d’estimation: les moindres carrés:
yi Mi
ei y = a+bx
yˆ i
M’i
ei = yi - (a + bxi)
Y
i
e 2
minimale
X xi
La régression linéaire simple
2. L’estimation des paramètres
n
On cherche le minimum de i E ( a , b)
2
( y ( a bxi ))
i 1
E n
n n n
(1) y i (a bxi ) na b x i
i1 i1 i1
ny na nbx
a y bx
La régression linéaire simple
2. L’estimation des paramètres
cov(x, y) bs 2 cov(x, y)
x b 2
sx
Si y = a+bx alors
ˆb cov(x, y) et aˆ y bx
sx2
On
peut alors prédire y pour x
compris dans l’intervalle des
valeurs de l’échantillon: yˆ i aˆ bˆxi
La régression linéaire simple
3. Qualité de l’ajustement
Normalité de l’erreur
Résidus
Valeurs prédites
Homoscédasticité
Résidus
Valeurs prédites
La régression linéaire simple
3. Qualité de l’ajustement
Structure de l’erreur?
Résidus
4. Coefficient de détermination
Décomposition de la variation
4. Coefficient de détermination
Décomposition de la variation
Y
= +
4. Coefficient de détermination
SCE reg.lin.
r
2
SCET
0 ≤ r2 ≤ 1
Relation avec r?
La régression linéaire simple
4. Coefficient de détermination
Relation entre r et r2
n n
SCE reg.lin. ( yˆ i y ) 2 ((a bxi ) (a bx ))2
i1 i1
n
b 2 (x i x ) 2 b 2 nsx2 b 2 SCE x
i1
2 2 2 2
b ns cov(x, y) s (cov(x, y))
Donc r
2
2
x
( 2
) 2
2 x
2 2
(r) 2
nsy sx sy sx sy
En particulier, r = 0 <=> r2 = 0
La régression linéaire simple
5. Tests
Test de la décomposition de la variation ou analyse de
variance (ANOVA): H0 : a=b = 0
reg.lin.
2
SCE reg.lin. /1
: F 1
Publicité
Paramètres Estimés
n
n
x i yi
n
i 1 i 1 15 10
x y
i i
n
37
ˆ1 i 1
5 .70
15
2 2
n
x i 55
n
5
i 1
xi
2
i 1 n
yˆ .1 .7 x
Résultats
Parameter Estimates
^1
yˆ .1 .7 x
Regression Line Fitted
(representation de Y estimée
ou ajustée)
Sales
4
3 yˆ .1 .7 x
2
1
0
0 1 2 3 4 5
Advertising
Exercice
3
S
t
9
2. Analyse de regression – relation exponentielle
a
t
i
s
t
i
La fonction exponentielle est très courante en sciences
q
u
e
y aebx
s
Par exemple la décroissance d’un bien ...
ln y devient linéaire en x
4
S
t
1
2. Analyse de regression – relation exponentielle
a
t
i
s
t Une population de bactéries décroît exponentiellement:
i
q
N N 0e t /
u
e
s
Temps ti Population Ni Zi = ln Ni
(jours)
0 153000 11.94
1 137000 11.83
2 128000 11.76
4
S
t
2
2. Analyse de regression – relation exponentielle
a
t
i
s
t
Opération bactéries Opération bactéries
i
q 155000
11.95
u
e y = -0.089x + 11.933
150000
s 11.9
145000
Population
11.85
Population
140000
11.8
135000
11.75
130000
125000 11.7
0 0.5 1 1.5 2 2.5
0 0.5 1 1.5 2 2.5
Temps (jours)
Temps (jours)
x
4
S
t
7
2. Analyse de regression – Et les résidus…?
a
t Le fuseau: La variance des résidus n’est pas indépendante des valeurs
i de x. Des corrections doivent être apportées (courbe log. log p.e.)
s
t
i
q
u ei
e
s
x
4
S
t
8
2. Analyse de regression – Et les résidus…?
a
t
i
s
t
i
ei
q
u
e
s
x
5
S
t
1
2. Analyse de regression – Le coefficient de détermination
a
t
i
s
y y yi yˆi ( yi y)
2 2
t
i i
ˆ 2
q
u
e
s Somme des carrés Somme des carrés Somme des carrés
totale (SCtot) des résidus (SCres) de la régression (SCreg)