CM Stat-Proba.
CM Stat-Proba.
CM Stat-Proba.
ET DE LA COMMUNICATION.
Cours
de
Statistique Descriptive
AUTEUR
Dr. DIABATE
1
Table des matières
2 Tableaux statistiques 10
2.1 Les variables qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.1.1 Tableaux de distribution de fréquence absolues, relatives et cumulées 10
2.2 Les variables quantitatives discrètes . . . . . . . . . . . . . . . . . . . . . . 11
2.2.1 Tableaux de distribution de fréquences . . . . . . . . . . . . . . . . 11
2.3 Les variables quantitatives continues . . . . . . . . . . . . . . . . . . . . . 12
2.3.1 Tableaux de distribution de fréquences-fréquences cumulées . . . . . 12
3 Représentations graphiques 15
3.1 Les variables qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.2 Les variables quantitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.2.1 Les variables quantitatives discrètes . . . . . . . . . . . . . . . . . . 16
3.2.2 Les variables quantitatives continues . . . . . . . . . . . . . . . . . 17
2
TABLE DES MATIÈRES 3
Introduction
Recueillir et analyser les données sont les deux objectifs fondamentaux de la Statis-
tique. Pour parvenir à cela, il faut suivre les étapes suivantes :
1. La collecte des données : définir l’objet étudié, les variables statistiques mises en
cause, le questionnaire et fabriquer l’échantillon représentatif (sondage, plan d’ex-
périences...)
2. Une fois les données collectées et corrigées, les visualiser sous forme de tableaux
ou graphes et les résumer grâce à des paramètres qui permettent de dégager les
caractéristiques essentielles du phénomène étudié (statistique descriptive, analyse
des données)
3. L’étape de la modélisation (statistique inférentielle) est de fournir des résultats re-
latifs à une population à partir de mesures statistiques réalisées sur des échantillons.
La statistique inférentielle fournit des éléments permettant de spécifier du mieux
possible, à partir de l’échantillon observé, le modèle probabiliste qui a engendré les
données. Nous entendrons le terme de modèle dans le sens d’une formalisation ma-
thématique supposée reproduire de manière approchée la réalité d’un phénomène
dans le but d’en reproduire le fonctionnement pour permettre de comprendre, de
prédire et/ou d’agir.
Les méthodes statistiques sont utilisées dans de nombreux domaines tels que l’ingé-
nierie (contrôle de qualité de fabrication...), la médecine (expérimentation de nouveaux
traitements...), les sciences économiques et sociales, l’économetrie, la démographie, et bien
d’autres.
CHAPITRE 1
Exemple 1. Un questionnaire est distribué à 150 personnes dans la cour d’un établissement
secondaire. Il comporte diverses questions. La population = l’ensemble des elèves de cet
établissement. L’échantillon = les étudiants ayant répondu au questionnaire. Un individu
est une personne interrogée. Les variables correspondent aux questions posées : l’âge, la
taille, la couleur des yeux, etc
7
CHAPITRE 1. LES DONNÉES STATISTIQUES 8
Une variable est dite qualitative lorsque les réponses possibles à la question posée,
ou les modalités, ne correspondent pas à une quantité mesurable par un nombre mais
appartiennent à un groupe de catégories.
on distingue :
- es variables qualitatives nominales : il n’y a pas d’hiérachie entre les differentes
modalités ; exemple : sexe, couleur des yeux.
- les varibles qualitatives ordinales : les differentes modalités peuvent être ordonnées
de manière naturelle ; exemple : la mention au baccalauréat, la frequence d’une
activité, niveau d’études scolaires : école primaire < 1er cycle < CAP < BEP <
Bac < BTS < DEUG < . . . . . .
Remarque 1.2.1. Certaines variables nominales peuvent être désignées par un code nu-
merique, qui n’a pas de valeur quantité. Exemple : le code postal, le sexe (1 = garçon, 2
= fille)
Les réponses correspondent à des quantités mesurables et sont données sous forme de
nombre. On distingue :
- Les variables quantitatives discrètes : elles prennent leurs valeurs dans un ensemble
discret, le plus souvent fini. Exemple : le nombre d’enfants, la pointure du pied.
- les variables quantitatives continues : elles peuvent prendre toutes les valeurs d’un
intervalle réel. Exemple : la taille des individus, une note à un examen.
Remarque 1.2.2. L’âge peut être vu et traité comme une variable quantitative discrète
ou continue suivant la précision que l’on choisit et le nombre de valeurs qu’il prend au
sein de la population. Il peut également exister des variables basées sur l’âge qui sont
qualitatives. Si dans un sondage on pose la question ”quelle est votre tranche d’âge parmi
les possibilités suivantes : - de 25 ans, entre 25 et 45, entre 40 et 60 et +60 ans”, on peut
voir la variable ”tranche d’âge” comme une variable qualitative ordinale
CHAPITRE 1. LES DONNÉES STATISTIQUES 9
CHAPITRE 2
Tableaux statistiques
Tableau-type : On choisit une notation pour la variable, par exemple : X.n désigne le
nombre d’individus dans l’échantillon. on note C1 , . . . , Ck les k modalités de la variable.
Pour 1 ≤ j ≤ k, on note
- nj l’effectif associé à la modalité Cj (le nombre d’individus pour lesquels la valeur
prise par la variable est Cj ),
- fj = nj /n la fréquence relative ou proportion associée à cette modalité,
- et si la variable est qualitative ordinale : Nj = n1 + n2 + · · · + nj la frequence
absolue (effectif) cumulée croissante resp. la frequence relative cumulée croissante
10
CHAPITRE 2. TABLEAUX STATISTIQUES 11
pour cette modalité (avec la convention : ϕ0 = 0). Elle n’a de sens que si la variable
est qualitative ordinale et si les modalités C1 , C2 , . . . , Ck sont ordonnées suivant
l’odre croissant naturel (ou hiérachique ascendant) qui règne parmi ces modalités.
Exemple : niveau d’études scolaires : école primaire < 1er cycle < CAP < BEP <
Bac < BTS < DEUG < . . . . . .
Le tableau suivant est un tableau-type qui permet de résumer les données.
Variable X C1 C2 ... Ck Totales
Fréquence absolue ou effectif n1 n2 ... nk n
Fréquence relative ou proportion f1 = n1 /n f2 = n2 /n ... fk = nk /n 1
Fréquence relative cumulée∗ ϕ1 = f1 ϕ2 = f1 + f2 ... ϕk = 1 pas de sens
∗
Attention : uniquement dans le cas de variables qualitatives ordinales.
39, 43, 38, 39, 39, 42, 44, 44, 48, 40, 44, 43, 41, 37, 39, 38, 45, 41, 44, 44.
P 37 38 39 40 41 42 43 44 45 46 47 48
Effectif
Proportion
Proportion cumulée
On note v1 , v2 , . . . , vk les k valeurs différentes que peut prendre la variable avec vi < vj
si i < j (on n’en rencontrera pas pas d’exemple dans ce cours, mais une variable discrète
peut prendre une infinité de valeurs). Pour 1 ≤ j ≤ n, on note nj l’effectif des individus
pour lesquels la variable prend la valeur vj . On note fj la fréquence relative ou proportion
pour la valeur vj et Φj = f1 + · · · + fj la j-ème fréquence relative cumulée (avec la
convention : Φ0 = 0). On résume habituelement les données comme dans le tableau-type
suivant :
Valeurs prises par la variable v1 v2 ... vk Total
Fréquence absolue n1 n2 ... nk n
Fréquence relative f1 = n1 /n f2 = n2 /n ... fk = nk /n 1
Fréquence relative cumulée↗ ϕ1 = f1 ϕ2 = f1 + f2 ... ϕk = 1 pas de sens
On définit de même pour la valeur vj la fréquence cumulée décroissante :
CHAPITRE 2. TABLEAUX STATISTIQUES 12
1
Gj = (nj + · · · + nk ) = fj + · · · + fk .
n
La quantité Njd = nj + · · · + nk est appelée effectif cumulé décroissant.
1, 72; 1, 87; 1, 66; 1, 73; 1, 64; 1, 77; 1, 80; 1, 81; 1, 60; 1, 78;
1, 83; 1, 75; 1, 70; 1, 58; 1, 68; 1, 66; 1, 93; 1, 75; 1, 80; 1, 85.
Les données brutes de la variable pour chaque individu sont notées x1 , . . . , xn . Elle
peuvent prendre n’importe quelle valeur dans un interval de R et il est très rare d’avoir
deux fois la même valeur pour deux individus différents. Il serait donc unitile de tracer
un diagramme en bâton comme dans le cas d’une variable discrète : il consisterait en un
amoncellemment illisible de bâton de hauteur 1/n. On choisir donc de faire un Regrou-
pement en classe.
- L’intervalle où la variable prend ses valeurs est divisé en k classes :
[b0 , b1 [, [b1 , b2 [, . . . , [bk−1 , bk [ (il est possible d’avoir des bornes infinies).
- Pour 1 ≤ j ≤ n, on note nj l’effectif associé à la classe [bj−1 , bj [, fj = nj /n la
fréquence relative associé à cette classe et Φj = f1 + · · · + fj la j-ème fréquence
cumulée (avec la convention Φ0 = 0)
- On note aj = bj − bj−1 l’amplitude de la classe [bj−1 , bj [.
- On note dj = fj /aj la densité de proportion pour la classe [bj−1 , bj [.
Exemple 8. de la taille
T [1, 50; 1, 65[ [1, 65; 1, 70[ [1, 70; 1, 75[ [1, 75; 1, 80[ [1, 80; 1, 85[ [1, 85; 2, 00[
Effectif
Proportion
Proportion cumulée
Amplitude
Densité de proportion
Remarque 2.3.1. - la densité de la proportion permet de comparer les effectifs dans
chaque classe en tenant compte de la taille de ces classes (cf. la notion de densité
de la population en géographie).
CHAPITRE 2. TABLEAUX STATISTIQUES 13
- Dans le cas de classes qui ont toutes les même longueur, il n’est pas nécessaire de
calculer la densité de proportion, il est suffisant d’étudier les fréquences relatives
ou absolues (qui sont directement proportionnelle a la densité de proportion).
Tableau-type
Variable X [b0 , b1 [ [b1 , b2 [ ... [bk−1 , bk [ Total
Fréq. relative f1 = n1 /n f2 = n2 /n ... fk = nk /n 1
Fréq. relative cumulée Φ1 = f 1 Φ2 = f1 + f2 ... Φk = 1
Amplitude a1 = b 1 − b 0 a2 = b 2 − b 1 ... ak = bk−1 − bk
Densité de proportion d1 = f1 /a1 d2 = f2 /a2 ... dk = fk /ak
Représentations graphiques
15
CHAPITRE 3. REPRÉSENTATIONS GRAPHIQUES 16
0 si x < v1
F (x) = Φj si vj ≤ x < vj+1
1 si vk ≤ x
- Diagramme différentiel : histogramme des densités. Sur l’axe des abscisses sont
placées les bornes des classes représentant les modalités en respectant une échelle.
Pour chaque classe, on élève un rectangle de hauteur (ordonnée) proportionnelle à
la densité de proportion ou d’effectif.
Exemple de taille T :
(bj − bj−1 ) × dj = fj .
Le mode rend compte de l’endroit où les données sont le plus concentrées. Le mode,
noté Mo, est la modalite la plus frequente ou dominante dans la population i.e. celle qui
admet la plus grande frequence : f (M0 ) = max (fi ).
i∈[1,k]
Il est parfaitement defini pour une variable qualitative ou une variable quantitative
discrète.
Pour une variable quantitative continue regroupée en classe, nous parlons de classe
modale : c’est la classe dont la densité de fréquence est maximum.
Si les classes ont même amplitude la densité est remplacée par l’effectif ou la fréquence
et nous retrouvons la définition précédente.
Nous définissons le mode, pour une variable quantitative continue, en tenant compte
des densités de fréquence des 2 classes adjacentes par la méthode suivante :
∆i
M0 = xm + a ×
∆i + ∆ s
avec
xm : limite inferieure de la classe d’effectif (par unité d’amplitude) maximal
a : l’amplitude de la classe modale
20
CHAPITRE 4. RÉSUMÉS NUMÉRIQUES D’UNE VARIABLE STATISTIQUE 21
∆i : Ecart d’effectif (par unité d’amplitude) entre la classe modale et la classe inferieure
la plus proche
∆s : Ecart d’effectif (par unité d’amplitude) entre la classe modale et la classe super-
ieure la plus proche
Remarque :
Lorsque les classes adjacentes à la classe modale ont des densités de fréquences égales,
le mode coı̈ncide avec le centre de la classe modale.
Le mode dépend beaucoup de la répartition en classes.
Une variable statistique peut présenter plusieurs modes locaux : on dit alors qu’elle
est plurimodale.
Cette situation est intéressante : elle met en évidence l’existence de plusieurs sous-
populations, donc l’hétérogénéité de la population étudiée.
4.1.2 La moyenne
n
x1 + x2 + · · · + xn 1X
x= = xi
n n i=1
Exemple 13. Pointure.
Cas d’une variable continue regroupée en classes : la variable X est regroupée dans
les classes [bj−1 , bj [ (1 ≤ j ≤ n), les fréquences relatives associées à ces classe sont notées
fj , 1 ≤ j ≤ n.
Lorsque les données brutes ne sont plus accessibles et qu’on ne dispose que des données
regroupées en classe, on calcule une moyenne approchée grâce à des représentant des
classes(leur centre) : cj = (bj + bj−1 )/2, par la formule :
k
X
xapp = f1 c1 + f2 c2 + · · · + fk ck = f j cj
i=1
y = ax + b
CHAPITRE 4. RÉSUMÉS NUMÉRIQUES D’UNE VARIABLE STATISTIQUE 22
4.1.3 La médiane
La médiane M e correspond au centre des valeurs observées classées par ordre croissant
ou à la valeur pour laquelle 50% des valeurs observées sont supérieures et 50% sont
inférieures.
a) Cas d’une variable discrète :
n+1
- si n est impair, la médiane est la -ième valeur observée : M e = x( n+1 ) .
2 2
n
- si n est pair, une médiane est une valeur quelconque entre la -ième valeur
2
n
observée : x( n ) et la + 1-ième valeur observée : x( n +1) . On parle donc d’in-
2 2 2
tervalle médian. On peut prendre comme médiane x( n ) ou x( n +1) . Mais il peut
2 2
x( n ) + x( n +1)
2 2
être commode de prendre le milieu : M e = .
2
La détermination de la médiane se fait donc à l’aide des effectifs cumulés, des
proportions cumulées ou de la fonction de répartition empirique (graphique-
ment).
Exemple 15. pointure
b) Cas d’une variable continue.
La médiane est définie comme la solution de l’équation :
F (M e) = 0, 5
où F est la fonction de répartion empirique de la variable. On sait que cette solution
existe parce que F est continue, et lim F (x), lim F (x) = 1. Si de plus F
x−→−∞ x−→+∞
est strictement croissante, la solution Me est unique. la méthode pratique est la
suivante :
1. S’il existe une borne de classe bj telle que la proportion cumulée sur la classe
[bj−1 , bj [ exatement 0,5, alors la médiane est ce bj .
2. Sinon, alors il existe une classe [bj−1 , bj [ telle que
F (M e) = Φj−1 + (M e − bj−1 ) × dj = 0, 5
d’où
CHAPITRE 4. RÉSUMÉS NUMÉRIQUES D’UNE VARIABLE STATISTIQUE 23
0, 5 − Φj−1
Me = + bj−1
dj
Ou encore, en terme de bj et de F :
0, 5 − F (bj−1 )
Me = × (bj − bj−1 ) + bj−1
F (bj ) − F (bj−1 )
Cette méthode peut se traduire graphiquement ent utilisant le graphe de la
fonction de répartition empirique et le théorème de Thalès.
4.2 Quantiles
a) cas d’une variable continue
Soit X une variable quantitative continue, de fonction de répartition empirique F .
On suppose qu’on dispose de la répartition en classe des observations.
Le Quantile d’ordre p de X est la solution notée qp de :
F (qp ) = p.
Cela signifie qu’une proportion d’environ p des observations est inferieur à qp et
qu’une proportion d’environCela signifie qu’une proportion d’environ p des obser-
vations est inferieur à qp et qu’une proportion d’environ 1 − p des données est
supérieure à qp .
Quantiles particuliers
- Quartiles : quantiles correspondant aux proportions multiples de 0,25 (un
quart). On note Q1 le premier quartile, qui correspond à q0,25 , Q3 le troisième
quartile, qui correspond à q0,75 . La médiane est le deuxième quartile Q2 = q0,5 .
- Déciles : quantiles correspondant aux proportions multiples de 0,1 : q0,1 (premier
décile), q0,2 (deuxième décile), etc.
- Percentiles ou centiles : quantiles correspondant aux proportions multiples de
0,01. Par exemple, le 65ème percentile est le quantile q0,65 .
Calcul du quantile qp : même méthode que pour le calcul de la médiane.
1. S’il existe une borne de classe bj telle que la proportion cumulée sur la classe
[bj−1 , bj [ est exatement p, autrement dit : F (bj ) = p, alors qp .
2. Sinon, alors il existe une classe [bj−1 , bj [ telle que
p − F (bj−1 )
qp = × (bj − bj−1 ) + bj−1
F (bj ) − F (bj−1 )
Ou encore, terme des bj et de F :
p − F (bj−1 )
qp = × (bj − bj−1 ) + bj−1
F (bj ) − F (bj−1 )
Exemple 17. troisième quartile de la variable ”taille”
b) cas d’une variable discrète
Comme pour la médiane, il existe diverses manières de définir les quantiles d’une
loi discrète :
comme la fonction de répartition empirique n’est pas continue mais a des paliers,
elle ne prend pas toutes les valeurs entre 0 et 1. Pour une proportion p fixée, on
cherche donc une valeur x telle que F (x) s’approche, en un certain sens, de p. Nous
choisissons la définition suivante :
v1 lorsque 0 < p ≤ Φ1 = f1
v2 lorsque Φ1 < p ≤ Φ2
...,
qp =
vj lorsque Φj−1 < p ≤ Φj
...,
vk
lorsque p = Φk = 1
ou qp = x(⌈np⌉) où ⌈np⌉ est le plus petit entier tel que np ≤ ⌈np⌉.
Exemple 18. troisième quartile de la variable ”pointure”.
Robustesse
La médiane est plus robuste que la moyenne : une ou plusieurs données erronnées ne
font pratiquement, voire pas du tout, changer la médiane, alors qu’elles peuvent affecter
considérablement la moyenne.
Assymétrie
La comparaison de la médiane et de la moyenne permet de détecter des assymétries de
données : Si la distribution des valeurs est symétrique, la valeur de la médiane est proche
de la valeur de la moyenne arithmétique. M e =≃ x.
De façon générale on a :
CHAPITRE 4. RÉSUMÉS NUMÉRIQUES D’UNE VARIABLE STATISTIQUE 25
- M0 = M e = x =⇒ distribution symétrique,
- M0 < M e < x =⇒ distribution dissymétrique à gauche,
- M0 > M e > x =⇒ distribution dissymétrique à droite.
4.3.1 L’étendue
Soit xmin la plus petite observation et xmax la plus grande. On définie l’étendue e =
xmax − xmin . Elle a la même unité que l’unité de la variable. Elle n’est pas très informative
car elle ne tient pas du tout compte de la répartition des données à l’intérieur de l’intervalle
[xmin , xmax ].
On appelle intervalle inter-quartile l’intervalle [Q1 , Q3 ], qui contient environ 50% des
observations. La distance inter-quartile Q3 − Q1 est une mésure de dispersion.
n
1X
V ar(X) = (xi − x)2
n i=1
n
!
1X
V ar(X) = x2 − (x)2
n i=1 i
k k
1X
nj (vj − x)2 = fj (vj − x)2
X
V ar(X) =
n j=1 j=1
k k
1X
nj vj2 − (x)2 = fj vj2 − (x)2
X
=
n j=1 j=1
Dans le cas le cas d’une variable continue pour laquelle on dispose seulement des
données regroupées en classes, on peut faire un calcule approché similaire à celui de la
moyenne approchée xapp On calcule une valeur approchée de la variance, notée V arapp (X).
Toutes les expressions qui suivent sont équivalentes.
k k
1X 2
fj (cj − xapp )2
X
V arapp (X) = nj (cj − xapp ) =
n j=1 j=1
k k
nj c2j − (xapp )2 = fj c2j − (xapp )2
X X
=
j=1 j=1
où cj est le centre de la j-ème classe, dotée de l’effectif nj (ou de la fréquence relative
fj ).
Propriétés de la variance
- La variance est toujour positive ou nullle. Elle est nulle si et seulement si toutes
les observation sonts identiques :
n
1X
(xi − x)2 ⇐⇒ ∀i, xi − x = 0
n i=1
- L’untité de la variance est l’untié de X au carré.
L’écart-type σX est défini par :
q
σX = V ar(X)
Le coefficient de variation
La comparaison des dispersions de deux séries statistiques peut se faire grâce aux
écart-types lorsque ses séries ont des moyennes du même ordre de grandeur et ne contient
CHAPITRE 4. RÉSUMÉS NUMÉRIQUES D’UNE VARIABLE STATISTIQUE 27
pas de valeurs aberrantes. Dans le cas contraire, on peut utiliser le coefficient de variation
défini par
σX
CV = .
x
Ce paramètre est une mesure relative de dispersion et permet une interprétation plus
appropriée. On l’exprime en général en pourcentage.
On considère une variable quantative X et on lui faire subir une application affine qui
la transforme en une variable Y . a et b sont des constantes réelles
Nouvelle variable Y Observations yi Moyenne de Y Variance de Y Ecart-type de Y
Y = aX yi = axi y = ax V ar(Y ) = a2 V ar(X) σY = |a|σX
Y =X +b yi = x i + b y =x+b V ar(Y ) = V ar(X) σY = σX
Y = aX + b yi = axi + b y = ax + b V ar(Y ) = a2 V ar(X) σY = |a|σX
q
On considére une variable X de moyenne x et de variance V ar(x), d’écart-type σX =
V ar(X).
On définit une nouvelle variable
X −x
Y =
σX
Elle est sans unité. Cette variable est appelée variable centrée réduite associée à X.
En effet, elle est :
x−x
- centrée : y = = 0.
σX
V ar(X)
- réduite : V ar(Y ) = = 1.
V ar(X)
Quand on transforme une variable en la variable centrée réduite associée, on retire
à cette variable toute l’information concernant son échelle ou unité, et sa localisation. Il
ne reste plus que des informations sur la forme de la distribution. Cette transformation
permet de comparer plusieurs variables sur le plan de la forme, même si ce sont des
variables exprimées dans des échelles différentes ou qui ont des moyennes complètement
différentes.
CHAPITRE 4. RÉSUMÉS NUMÉRIQUES D’UNE VARIABLE STATISTIQUE 28
Autre utilisation : Etant donné un individu i pour lequel la variable prend la valeur
xi , on peut situer cet individu dans l’ensemble des observations en calculant son écart à
la moyenne réduit :
xi − x
σX
Exemple 23. quel est l’écart à la moyenne, mesuré en écart-types, d’un individu mesurant
177 cm ?
minf = min{xi : xi ≥ m− }
msup = max{xi : xi ≤ m+ }
La moustache inférieure est le segment [minf , Q1 ]. La moustache supérieure, de la
même manière, est le segment [Q3 , msup ]
- des donnée extrêmes éventuelles : les observations qui sont en dehors de la boı̂te et
des moustaches, c’est à dire : supérieures à m+ ou inférieures à m+ ou inférieures
à m− . On place ces données une à une quand on en dispose.
Remarque :
CHAPITRE 4. RÉSUMÉS NUMÉRIQUES D’UNE VARIABLE STATISTIQUE 29
- Une boite et des moustaches courtes indiquent que la série est assez concentrée
autour de sa médiane.
Au contraire une boite et des moustaches longues indiquent que la série est assez
dispersée.
L’examen de la boite à moustaches permet d’avoir une idée de la symétrie de la
distribution selon que la boı̂te et les moustaches sont symétriques ou, au contraire,
de plus petite amplitude à gauche (asymétrie à gauche) ou à droite (asymétrie à
droite).
- La représentation peut aussi se faire vertcalement, d’où l’appelation de ”boite à
pattes”.
5.1 Généralités
On observe une série statistique {(x1 , y1 ), . . . , (xn , yn )} composée de n couples d’obser-
vations d’un couple de variables (X, Y ). On suppose que X a I modalités notées C1 , . . . , CI
et Y a J modalités et Y a J modalités notées D1 , . . . , DJ . Pour 1 ≤ i ≤ I et 1 ≤ j ≤ J,
on note nij l’effectif des couples d’observations égaux à (Ci , Dj ).
Y
D1 D2 ... Dj Total
X
C1 n11 n12 ... n1J n1
C2 n21 n22 ... n2J n2
... ... ... ... ... ...
CI nI1 nI2 ... nIJ nI
Total n.1 n.2 ... n.J n
Exemple 26. L’INSEE fournit les données suivantes relatives à la situation professionnelle
31
CHAPITRE 5. LIAISON ENTRE DEUX VARIABLES 32
a) Profils-lignes
La distribution conditionelle de Y sachant la modalité de Ci de X est la distribution
dont les proportions sont données dans le tableaux suivant :
Y|X=Ci D1 ... DI Total
Proportion ni1 /ni . . . niJ /ni 1
Une telle distribution est appelée profil-ligne. L’ensemble des profils-lignes peut
être présenté dans un tableau :
CHAPITRE 5. LIAISON ENTRE DEUX VARIABLES 33
YX
D1 D2 ... DJ Total
X
C1 n11 /n1 . n12 /n1. . . . n1J /n1 . 1
C1 n21 /n2 . n22 /n2. . . . n2J /n2 . 1
... ... ... ... ... ...
CI nI1 /nI . nI2 /nI. . . . nIJ /nI . 1
Exemple 28. Distribution conditionnelle de la variable ” Situation quant à l’im-
migration” sachant la modalité ” Actifs ayant un emploi” en France en 2006, ou :
situation quant à l’immigration des actifs ayant un emploi en France en 2006.
b) Profils-colones
De même, l’ensemble des distributions conditionnelles de X sachant les modalités
de Y est l’ensemble des profils-colonnes, que l’on peut présenter dans le tableau
suivant :
Y
D1 D2 ... DJ
X|Y
C1 n11 /n.1 n12 /n.2 . . . n1J /n.J
C1 n21 /n.1 n22 /n.2 . . . n2J /n.J
... ... ... ... ...
CI nI1 /n.1 nI2 /n.2 . . . nIJ /n.J
Total 1 1 ... 1
Exemple 29. Ensemble des profils-colonnes du couple de variables ”Situation pro-
fessionnelle” et ”Situation vis-à-vis de l’immigration”
q
X p
X q X
X q p
X q
X
ni. = nij ; n.j = nij ; nij = ni. = n.j = n
j=1 i=1 i=1 j=1 i=1 j=1
CHAPITRE 5. LIAISON ENTRE DEUX VARIABLES 34
p p
1X 1X
X:x= ni. xi ; s2 (X) = ni. (xi − x)2
n i=1 n i=1
q q
1X 1X
Y :y= n.j yj ; s2 (Y ) = n.j (yi − y)2
n j=1 n j=1
p p
1 X 1 X
X | Y=yj : xj = nij xi ; s2j (X) = ni. (xi − x)2 .
n.j i=1 n.j i=1
q q
1 X 1 X
Y | X=xj : yi = nij yj ; s2i (Y )= nij (yj − y i )2 .
n.i j=1 n.i j=1
5.2.3 Covariance
p X q
1X
Cov(X, Y ) = nij [(xi − x)(yj − y)].
n i=1 j=1
p X q
1X
Cov(X, Y ) = nij xi yj − xy.
n i=1 j=1
Cov(aX + b, cY + d) = acCov(X, Y ).
∥Cov(X, Y )∥ ≤ σX σY .
CHAPITRE 5. LIAISON ENTRE DEUX VARIABLES 35
≤0
Le polynôme du second degré en a étant de signe constant, son discriminant est négatif
ou nul :
2Cov(X, Y ) Cov(X, Y )
a=− =−
2V ar(Y ) V ar(Y )
σ
X
− si Cov(X, Y ) = +σX σY
σY
=
σX
si Cov(X, Y ) = −σX σY
σY
σX
Dans le premier cas, cela signifie que X − Y a une variance nulle, donc est une
σY
constante, d’où
σX
X= + constante.
σY
Ces deux cas sont les seuls cas d’égalité dans la proposition 5.2.2. Ils correspondent
au fait que les variables Y et Y s’obtiennent l’une à partir de l’autre par une application
affine.
Cov(X, Y )
r(X, Y ) = .
σX σY
C’est un coefficient sans unité. Sa valeur absolue est invariante par translation et
changement d’échelle des variables : pour toutes constantes réelles a ̸= 0, b, c ̸= 0, d,
ac
r(aX + b, cY + d) = r(X, Y ).
|ac|
Propriétés 5.2.2. il découle de la proposition 5.2.2 que
−1 ≤ rr(X, Y ) ≥ 1.
Lorque le nuage des points (xi , yi ) est exactement situé sur une droite (cas idéal), on
est dans la situation où r(X, y) = ±1. Lorsque r(X, Y ) est proche de ±1 (pour fixer les
idées : |r(X, Y )| ≥ 0, 8, alors il y’a une laison linéaire importante entre X et Y . Lorsqu’au
contraire r(X, Y ) est proche de 0, alors il n’existe pas de relation linéaire entre X et Y .
Attention, il peut y avoir quand même un autre type de laison entre X et Y .
On suppose à présent que les observations du couple de variable (X, Y ) satisfont une
relation de la forme suivante,
yi = axi + b + ϵi , i = 1, . . . , n, (5.2)
où a et b sont des coefficients réels. Le terme ϵi désigne un bruit, c’est à dire une
pertubation supposée petite. Dans ce cours, on ne cherchera pas à donner un sens précis a
la mesure de ce bruit. Disposant des observations (xi , yi )ni=1 du couple (X, y), on cherche à
trouver les coefficients a et b qui permettent le mieux d’ajuster les données à une relation
du type (5.2), au sens du critère des moindres carrés. On cherche
n
(yi − b − axi )2
X
min (5.3)
a,b
i=1
La solution, qui s’obtient en annulant les dérivées partielles de la fonction de (a, b) qui
est minimisée en (5.3), est
CHAPITRE 5. LIAISON ENTRE DEUX VARIABLES 37
Cov(X, Y )
â =
V ar(X)
b̂ = y − âx,
y0 = âx0 + b̂a
On suppose que les observations (xi , yi )ni=1 satisfont une rélation de type
yi = af (xi ) + b + ϵi ,
Pour une certaine fonction f donnée et de bruit ϵi . On peut estimer les coefficients de
la droite de régression de Y sur f (X) par la méthode décrite auparavant.
ni. n.j
nij = (5.4)
n
Preuve :
CHAPITRE 5. LIAISON ENTRE DEUX VARIABLES 38
2
ni. n.j
I X J nij −
n
X2 =
X
ni. n.j
i=1 j=1
n
Exemple 30. Distance du X 2 pour mesurer l’écart à l’indépendance entre les variables
”situation quant à l’immigration” et ”situation professionnelle” en France 2006.
X2
≤ min{I − 1, J − 1}.
n
Definición 5.3.2. On appelle contribution au X 2 du couple de modalités (Ci , Dj ) et (X, Y )
ni. n.j 2
nij −
la quantité n .
ni. n.j
n
Plus la contribution est forte, plus la laison entre les modalités Ci et Dj est importante.
ni. n.j
Definición 5.3.3. L’association entre les modalités Ci et Dj est dite positive si nij − >
n
ni. n.j
0. Elle est négative si nij − < 0.
n
Exemple 31. Liaison entre la modalité ”Elèves, étudiants, stagiaires” de la variable ”Si-
tuation professionnelle” et la modalité ”Immigrés” de la variable ”Situation quant à ’im-
migration”.
v
X2
u
u
C= t .
n. min{I − 1, J − 1}
Propriétés 5.3.2. - C = 0 lorsqu’il y a indépendance. De petites valeurs de C signient
que la liaison entre X et Y est trés faible. Des valeurs proches de 1 signifient qu’il
y a une forte liaison entre X et Y .
CHAPITRE 5. LIAISON ENTRE DEUX VARIABLES 39
Exemple 32. Calcul du C de Cramer pour mesurer l’écart à l’indépendance entre les
variables ”Situation quant à l’immigration” et ” Situation professionnelle” en France en
2006.
a) Distribution joint
Exemple 33. Diagramme en barres de la distribution jointe des variables ”Situation
quant à l’immigration” et ”Situation professionnelle”.
b) Distribution conditionnelle
Exemple 34. Diagramme en barres de la distribution de la variable ”Situation pro-
fessionnelle” sachant la variable ”Situation quant à l’immigration”.
(x11 , y11 ), (x12 , y12 ), . . . , (x1n1. , y1n1. ) = (C1 , y11 ), (C1 , y12 ), . . . , (C1 , y1n1. )
(x21 , y21 ), (x22 , y22 ), . . . , (x2n2. , y2n2. ) = (C2 , y21 ), (C2 , y22 ), . . . , (C2 , y2n2. )
...
(xI1 , yI1 ), (xI2 , yI2 ), . . . , (xInI. , yInI. ) = (CI , yI1 ), (CI , yI2 ), . . . , (CI , yInI. )