CM Stat-Proba.

ECOLE SUPERIEURE AFRICAINE DES TECHNOLOGIES DE L’INFORMATION
ET DE LA COMMUNICATION.
Cours
de
Statistique Descriptive
AUTEUR
Dr. DIABATE
1
Table des matières
1 Les données statistiques 7

1.1 Les variables statistiques-éléments de vocabulaire . . . . . . . . . . . . . . 7
1.2 Les types de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.1 Variables qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.2 Variables quantitatives . . . . . . . . . . . . . . . . . . . . . . . . . 8
2 Tableaux statistiques 10
2.1 Les variables qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.1.1 Tableaux de distribution de fréquence absolues, relatives et cumulées 10
2.2 Les variables quantitatives discrètes . . . . . . . . . . . . . . . . . . . . . . 11
2.2.1 Tableaux de distribution de fréquences . . . . . . . . . . . . . . . . 11
2.3 Les variables quantitatives continues . . . . . . . . . . . . . . . . . . . . . 12
2.3.1 Tableaux de distribution de fréquences-fréquences cumulées . . . . . 12
3 Représentations graphiques 15
3.1 Les variables qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.2 Les variables quantitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.2.1 Les variables quantitatives discrètes . . . . . . . . . . . . . . . . . . 16
3.2.2 Les variables quantitatives continues . . . . . . . . . . . . . . . . . 17
2
TABLE DES MATIÈRES 3
4 Résumés numériques d’une variable statistique 20

4.1 Paramètre de tendance centrale . . . . . . . . . . . . . . . . . . . . . . . . 20
4.1.1 Le mode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
4.1.2 La moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
4.1.3 La médiane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4.2 Quantiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.2.1 Utilisation des paramètres de tendance centrale . . . . . . . . . . . 24
4.3 Paramètres de dispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.3.1 L’étendue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.3.2 L’intervalle inter-quartile . . . . . . . . . . . . . . . . . . . . . . . . 25
4.3.3 La variance et l’écart-type . . . . . . . . . . . . . . . . . . . . . . . 25
4.4 Changement de variable linéaire ou affine - Variable centrée réduite . . . . 27
4.4.1 Changement de variable linéaire ou affine . . . . . . . . . . . . . . . 27
4.4.2 Variable centrée réduite . . . . . . . . . . . . . . . . . . . . . . . . 27
4.5 Boı̂tes à moustaches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
5 Liaison entre deux variables 31

5.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
5.1.1 Tableau de contingence . . . . . . . . . . . . . . . . . . . . . . . . . 31
5.1.2 Distribution marginale . . . . . . . . . . . . . . . . . . . . . . . . . 32
5.1.3 Distribution conditionlle . . . . . . . . . . . . . . . . . . . . . . . . 32
5.2 Laison linéaire entre deux variables quantitatives . . . . . . . . . . . . . . 33
5.2.1 Moyennes et variances marginales . . . . . . . . . . . . . . . . . . . 34
5.2.2 Moyennes et variances conditionnelles . . . . . . . . . . . . . . . . . 34
5.2.3 Covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
5.2.4 Coefficient de corrélation . . . . . . . . . . . . . . . . . . . . . . . . 35
5.2.5 Régression linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
5.2.6 Régression linéaire aprés transformation d’une variable . . . . . . . 37
5.3 Liaison entre deux variables qualitatives . . . . . . . . . . . . . . . . . . . 37
5.3.1 Mesure de la liaison entre deux variables qualitatives . . . . . . . . 37
5.3.2 Représentation graphique . . . . . . . . . . . . . . . . . . . . . . . 39
5.4 liaison entre variable qualitative et une variable quantitative . . . . . . . . 39

5.4.1 Classement des données et distributions marginales . . . . . . . . . 39
Partie I :
Statistique Descriptive
Introduction
Recueillir et analyser les données sont les deux objectifs fondamentaux de la Statis-
tique. Pour parvenir à cela, il faut suivre les étapes suivantes :
1. La collecte des données : définir l’objet étudié, les variables statistiques mises en
cause, le questionnaire et fabriquer l’échantillon représentatif (sondage, plan d’ex-
périences...)
2. Une fois les données collectées et corrigées, les visualiser sous forme de tableaux
ou graphes et les résumer grâce à des paramètres qui permettent de dégager les
caractéristiques essentielles du phénomène étudié (statistique descriptive, analyse
des données)
3. L’étape de la modélisation (statistique inférentielle) est de fournir des résultats re-
latifs à une population à partir de mesures statistiques réalisées sur des échantillons.
La statistique inférentielle fournit des éléments permettant de spécifier du mieux
possible, à partir de l’échantillon observé, le modèle probabiliste qui a engendré les
données. Nous entendrons le terme de modèle dans le sens d’une formalisation ma-
thématique supposée reproduire de manière approchée la réalité d’un phénomène
dans le but d’en reproduire le fonctionnement pour permettre de comprendre, de
prédire et/ou d’agir.
Les méthodes statistiques sont utilisées dans de nombreux domaines tels que l’ingé-
nierie (contrôle de qualité de fabrication...), la médecine (expérimentation de nouveaux
traitements...), les sciences économiques et sociales, l’économetrie, la démographie, et bien
d’autres.
CHAPITRE 1
Les données statistiques
1.1 Les variables statistiques-éléments de vocabulaire

On observe un échantillon composé de n individus appartenant à une même population
de taille N . Chaque individu de l’échantillon est observé à travers des caractéristiques,
caractères ou indicateurs appelés variables. Une série statistique (x1 ; x2 ; . . . ; xn ) est la suite
des valeurs prises par une ou plusieurs variables pour chacun des individus de l’échantillon.
Chaque valeur prise par une ou plusieurs variables est appelé une modalité.
Exemple 1. Un questionnaire est distribué à 150 personnes dans la cour d’un établissement
secondaire. Il comporte diverses questions. La population = l’ensemble des elèves de cet
établissement. L’échantillon = les étudiants ayant répondu au questionnaire. Un individu
est une personne interrogée. Les variables correspondent aux questions posées : l’âge, la
taille, la couleur des yeux, etc
En statistique descriptive la population c’est l’ensemble des individus effectivement

étudiés, sans chercher à étendre les constatations faites à une population plus vaste, ce
qui relève de la statistique inférentielle.
1.2 Les types de variables

Le type d’une variables dependent de la nature de ses modalités. On distingue plusieurs
types de variables :
7
CHAPITRE 1. LES DONNÉES STATISTIQUES 8
1.2.1 Variables qualitatives
Une variable est dite qualitative lorsque les réponses possibles à la question posée,
ou les modalités, ne correspondent pas à une quantité mesurable par un nombre mais
appartiennent à un groupe de catégories.
Exemple 2. le sexe, la couleur des yeux, la mention au baccalauréat, la fréquence d’une

activité (jamais, rarement, parfois, souvent, très souvent).
on distingue :
- es variables qualitatives nominales : il n’y a pas d’hiérachie entre les differentes
modalités ; exemple : sexe, couleur des yeux.
- les varibles qualitatives ordinales : les differentes modalités peuvent être ordonnées
de manière naturelle ; exemple : la mention au baccalauréat, la frequence d’une
activité, niveau d’études scolaires : école primaire < 1er cycle < CAP < BEP <
Bac < BTS < DEUG < . . . . . .
Remarque 1.2.1. Certaines variables nominales peuvent être désignées par un code nu-
merique, qui n’a pas de valeur quantité. Exemple : le code postal, le sexe (1 = garçon, 2
= fille)
1.2.2 Variables quantitatives
Les réponses correspondent à des quantités mesurables et sont données sous forme de
nombre. On distingue :
- Les variables quantitatives discrètes : elles prennent leurs valeurs dans un ensemble
discret, le plus souvent fini. Exemple : le nombre d’enfants, la pointure du pied.
- les variables quantitatives continues : elles peuvent prendre toutes les valeurs d’un
intervalle réel. Exemple : la taille des individus, une note à un examen.
Remarque 1.2.2. L’âge peut être vu et traité comme une variable quantitative discrète
ou continue suivant la précision que l’on choisit et le nombre de valeurs qu’il prend au
sein de la population. Il peut également exister des variables basées sur l’âge qui sont
qualitatives. Si dans un sondage on pose la question ”quelle est votre tranche d’âge parmi
les possibilités suivantes : - de 25 ans, entre 25 et 45, entre 40 et 60 et +60 ans”, on peut
voir la variable ”tranche d’âge” comme une variable qualitative ordinale
CHAPITRE 1. LES DONNÉES STATISTIQUES 9
CHAPITRE 2
Tableaux statistiques
2.1 Les variables qualitatives

Exemple 3. On s’intéresse à la variable ”couleur des yeux” sur un groupe de 20 personnes.
On code chaque modalité de la manière suivante : M = marron, V = vert, N = noir, B
= bleu. On obtient la série statistique suivante :
M, V, M, M, M, M, M, N, M, N, M, M, B, M, M, M, B, M, M, M
2.1.1 Tableaux de distribution de fréquence absolues, relatives et cumulées
Exemple 4. Pour l’exemple précédent, on remplit le tableau suivant :
Couleur des yeux M V N B Total

Effectif
Proposition
Tableau-type : On choisit une notation pour la variable, par exemple : X.n désigne le
nombre d’individus dans l’échantillon. on note C1 , . . . , Ck les k modalités de la variable.
Pour 1 ≤ j ≤ k, on note
- nj l’effectif associé à la modalité Cj (le nombre d’individus pour lesquels la valeur
prise par la variable est Cj ),
- fj = nj /n la fréquence relative ou proportion associée à cette modalité,
- et si la variable est qualitative ordinale : Nj = n1 + n2 + · · · + nj la frequence
absolue (effectif) cumulée croissante resp. la frequence relative cumulée croissante
10
CHAPITRE 2. TABLEAUX STATISTIQUES 11
pour cette modalité (avec la convention : ϕ0 = 0). Elle n’a de sens que si la variable
est qualitative ordinale et si les modalités C1 , C2 , . . . , Ck sont ordonnées suivant
l’odre croissant naturel (ou hiérachique ascendant) qui règne parmi ces modalités.
Exemple : niveau d’études scolaires : école primaire < 1er cycle < CAP < BEP <
Bac < BTS < DEUG < . . . . . .
Le tableau suivant est un tableau-type qui permet de résumer les données.
Variable X C1 C2 ... Ck Totales
Fréquence absolue ou effectif n1 n2 ... nk n
Fréquence relative ou proportion f1 = n1 /n f2 = n2 /n ... fk = nk /n 1
Fréquence relative cumulée∗ ϕ1 = f1 ϕ2 = f1 + f2 ... ϕk = 1 pas de sens
∗
Attention : uniquement dans le cas de variables qualitatives ordinales.
2.2 Les variables quantitatives discrètes

Exemple 5. On s’intéresse à la variable ”pointure” ( que l’on notera P ) sur un groupe de
20 personnes. On obtient la série statistique suivante :
39, 43, 38, 39, 39, 42, 44, 44, 48, 40, 44, 43, 41, 37, 39, 38, 45, 41, 44, 44.
2.2.1 Tableaux de distribution de fréquences
Exemple 6. Pour la variable P, on remplie le tableau suivant :
P 37 38 39 40 41 42 43 44 45 46 47 48
Effectif
Proportion
Proportion cumulée
On note v1 , v2 , . . . , vk les k valeurs différentes que peut prendre la variable avec vi < vj
si i < j (on n’en rencontrera pas pas d’exemple dans ce cours, mais une variable discrète
peut prendre une infinité de valeurs). Pour 1 ≤ j ≤ n, on note nj l’effectif des individus
pour lesquels la variable prend la valeur vj . On note fj la fréquence relative ou proportion
pour la valeur vj et Φj = f1 + · · · + fj la j-ème fréquence relative cumulée (avec la
convention : Φ0 = 0). On résume habituelement les données comme dans le tableau-type
suivant :
Valeurs prises par la variable v1 v2 ... vk Total
Fréquence absolue n1 n2 ... nk n
Fréquence relative f1 = n1 /n f2 = n2 /n ... fk = nk /n 1
Fréquence relative cumulée↗ ϕ1 = f1 ϕ2 = f1 + f2 ... ϕk = 1 pas de sens
On définit de même pour la valeur vj la fréquence cumulée décroissante :
1
Gj = (nj + · · · + nk ) = fj + · · · + fk .
n
La quantité Njd = nj + · · · + nk est appelée effectif cumulé décroissant.
2.3 Les variables quantitatives continues

Exemple 7. On s’intéresse à la taille, notée T et exprimée en mètre, de 20 individus. On
a obtenu la série statistique suivante :
1, 72; 1, 87; 1, 66; 1, 73; 1, 64; 1, 77; 1, 80; 1, 81; 1, 60; 1, 78;
1, 83; 1, 75; 1, 70; 1, 58; 1, 68; 1, 66; 1, 93; 1, 75; 1, 80; 1, 85.
2.3.1 Tableaux de distribution de fréquences-fréquences cumulées
Les données brutes de la variable pour chaque individu sont notées x1 , . . . , xn . Elle
peuvent prendre n’importe quelle valeur dans un interval de R et il est très rare d’avoir
deux fois la même valeur pour deux individus différents. Il serait donc unitile de tracer
un diagramme en bâton comme dans le cas d’une variable discrète : il consisterait en un
amoncellemment illisible de bâton de hauteur 1/n. On choisir donc de faire un Regrou-
pement en classe.
- L’intervalle où la variable prend ses valeurs est divisé en k classes :
[b0 , b1 [, [b1 , b2 [, . . . , [bk−1 , bk [ (il est possible d’avoir des bornes infinies).
- Pour 1 ≤ j ≤ n, on note nj l’effectif associé à la classe [bj−1 , bj [, fj = nj /n la
fréquence relative associé à cette classe et Φj = f1 + · · · + fj la j-ème fréquence
cumulée (avec la convention Φ0 = 0)
- On note aj = bj − bj−1 l’amplitude de la classe [bj−1 , bj [.
- On note dj = fj /aj la densité de proportion pour la classe [bj−1 , bj [.
Exemple 8. de la taille
T [1, 50; 1, 65[ [1, 65; 1, 70[ [1, 70; 1, 75[ [1, 75; 1, 80[ [1, 80; 1, 85[ [1, 85; 2, 00[
Effectif
Proportion
Proportion cumulée
Amplitude
Densité de proportion
Remarque 2.3.1. - la densité de la proportion permet de comparer les effectifs dans
chaque classe en tenant compte de la taille de ces classes (cf. la notion de densité
de la population en géographie).
- Dans le cas de classes qui ont toutes les même longueur, il n’est pas nécessaire de
calculer la densité de proportion, il est suffisant d’étudier les fréquences relatives
ou absolues (qui sont directement proportionnelle a la densité de proportion).
Tableau-type
Variable X [b0 , b1 [ [b1 , b2 [ ... [bk−1 , bk [ Total
Fréq. relative f1 = n1 /n f2 = n2 /n ... fk = nk /n 1
Fréq. relative cumulée Φ1 = f 1 Φ2 = f1 + f2 ... Φk = 1
Amplitude a1 = b 1 − b 0 a2 = b 2 − b 1 ... ak = bk−1 − bk
Densité de proportion d1 = f1 /a1 d2 = f2 /a2 ... dk = fk /ak
Remarque 2.3.2. Contrairement au cas d’une variable qualitative ou discrète, ce tableau

représente une perte d’information par rapport aux données brutes.
CHAPITRE 3
Représentations graphiques
3.1 Les variables qualitatives

Pour une variable ou caractère qualitatif, on utilise principalement trois types de re-
présentation graphique : le diagramme en bâtons, la représentation par tuyaux d’orgue et
la représentation par secteurs.
- Diagramme en bâtons : en abscisse sont disposées les différentes modalités, de
façon arbitraire aux quelles on associe des segments espacés entre eux dont les
longeurs ( en ordonnée ) sont proportionnelles à l’effectif ou à la fréquence relative
de chaque modalité. Preciser le nom des axes, le nom du graphique et la source des
informations.
Nous appelons polygone statistique, ou diagramme polygonal, la ligne obtenue en
joignant les sommets des bâtons.
Exemple :
Caractère : catégorie socio-professionnelle.
Ouvriers = O, Cadre moyen = CM, Cadre supérieur = CS.
caractère O CM CS
Effectifs 20 10 5
- Diagramme en tuyaux d’orgue : en abscisse sont disposées les différentes modali-
tés, de façon arbitraire aux quelles on associe des rectangles espacés entre eux, de
largeur constente, dont la hauteur ( en ordonnée ) sont proportionnelle à l’effectif
ou à la fréquence relative de chaque modalité. Preciser le nom des axes, le nom
du graphique et la source des informations. Dans le cas d’une variable qualitative
ordinale, on peut également construire le diagramme en tuyau d’orgue des effectifs
15
CHAPITRE 3. REPRÉSENTATIONS GRAPHIQUES 16
ou des proportions cumulés.
Exemple 9. - Diagrammes en secteurs : chaque modalité est représentée par un

secteur de disque dont l’angle est proportionnel à l’effectif ou à la fréquence de la
modalité (ou pourcentage).
Ces diagrammes conviennent très bien pour des données politiques ou socio-
économiques. Dans un diagramme circulaire (cercle complet), l’effetif total ou la
fréquence relative 1 (ou le pourcentage 100%) correspond à l’angle 360◦ .
Pour représenter les données sur un diagramme semi-circulaire (demi-cercle), il
suffira de calculer les mesures des secteurs angulaires par rapport à 180◦ .
3.2 Les variables quantitatives

Il existe deux types de représentation graphique d’une distribution statistique à ca-
ractère quantitatif :
- Le diagramme différentiel correspond à une représentation des effectifs ou des fré-
quences.
- Le diagramme intégral correspond à une représentation des effectifs cumulés, ou
des fréquences cumulées.
3.2.1 Les variables quantitatives discrètes
- Diagramme différentiel : diagramme en bâtons.

On trace un graphique avec
- sur l’axe des abscisses les différentes valeurs prises par la variable, placées en res-
pectant une échelle,
- en ordonné les fréquences relatives ou les fréquences absolues.
- Pour chaque valeur vj on construit un bâton vertical à l’abscisse vj , de hauteur
proportionnel a la fréquence de la valeur vj .
Exemple : pointure.
Nous appelons polygone statistique, ou diagramme polygonal, la ligne obtenue en
joignant les sommets des bâtons.
- Diagramme intégral : courbe en escaliers des effectifs cumulés ou des fréquences
cumulées.
Fonction de répartition empirique
La fonction de répartition empirique permet de décrire la série statistique de manière
complète.
Elle est définie sur R et prend ses valeurs dans [0, 1]. Pour x dans R, elle est définie
par




 0 si x < v1

F (x) = Φj si vj ≤ x < vj+1



1 si vk ≤ x


Exemple 10. Pointure
3.2.2 Les variables quantitatives continues
- Diagramme différentiel : histogramme des densités. Sur l’axe des abscisses sont
placées les bornes des classes représentant les modalités en respectant une échelle.
Pour chaque classe, on élève un rectangle de hauteur (ordonnée) proportionnelle à
la densité de proportion ou d’effectif.
Exemple de taille T :
Remarque 3.2.1. On représente la densité de proportion ou d’effectif et non pas les

fréquences relatives ou absolues.
Consequence 1. L’aire d’un rectangle est proportionnelle à la fréquence (absolues ou re-

latives) de la classe correspondante. En effet, pour le rectangle conrespondant à la classe
[bj−1 , bj [ l’aire est
(bj − bj−1 ) × dj = fj .
Dans la pratique, on utilise la règle de construction suivante :

Vérifier si les amplitudes des différentes classes sont identiques.
- Si les amplitudes sont identiques, on représente sur l’axe des abscisse les classes
par des segments de même longueur. On associe à chaque classe un rectangle dont
la hauteur est proportionnelle à l’effectif ou à la fréquence.
- Si les amplitudes sont non identiques, on choisit une unité d’amplitude U et on
construit l’histogramme de telle sorte que la hauteur du rectangle de la classe
ni
[bj−1 , bj [ soit proportionnelle à l’effectif par unité d’amplitude U associé.
ai
- Diagramme intégral : courbe cumulative des effectifs ou des fréquences.
La courbe cumulative des fréquences doit représenter la fonction de répartition de
la variable statistique.
Fonction de répartition empirique
Pour x une valeur dans l’intervalle [bj−1 , bj [, on approche la proportion d’individus
pour lesquels la variable est inférieure ou égale à x par l’aire de l’histogramme entre les
abscisses bj−1 et x notée F (x) :
F (x) = f1 + f2 + · · · + (x − bj−1 ) × dj = Φj−1 + (x − bj−1 ) × dj

Exemple 11. Fonction de répartition empirique de la variable T .

CHAPITRE 4
Résumés numériques d’une variable statistique
4.1 Paramètre de tendance centrale

4.1.1 Le mode
Le mode rend compte de l’endroit où les données sont le plus concentrées. Le mode,
noté Mo, est la modalite la plus frequente ou dominante dans la population i.e. celle qui
admet la plus grande frequence : f (M0 ) = max (fi ).
i∈[1,k]
Il est parfaitement defini pour une variable qualitative ou une variable quantitative
discrète.
Pour une variable quantitative continue regroupée en classe, nous parlons de classe
modale : c’est la classe dont la densité de fréquence est maximum.
Si les classes ont même amplitude la densité est remplacée par l’effectif ou la fréquence
et nous retrouvons la définition précédente.
Nous définissons le mode, pour une variable quantitative continue, en tenant compte
des densités de fréquence des 2 classes adjacentes par la méthode suivante :
∆i
M0 = xm + a ×
∆i + ∆ s
avec
xm : limite inferieure de la classe d’effectif (par unité d’amplitude) maximal
a : l’amplitude de la classe modale
20
CHAPITRE 4. RÉSUMÉS NUMÉRIQUES D’UNE VARIABLE STATISTIQUE 21
∆i : Ecart d’effectif (par unité d’amplitude) entre la classe modale et la classe inferieure
la plus proche
∆s : Ecart d’effectif (par unité d’amplitude) entre la classe modale et la classe super-
ieure la plus proche
Exemple 12. Pointure, taille.
Remarque :
Lorsque les classes adjacentes à la classe modale ont des densités de fréquences égales,
le mode coı̈ncide avec le centre de la classe modale.
Le mode dépend beaucoup de la répartition en classes.
Une variable statistique peut présenter plusieurs modes locaux : on dit alors qu’elle
est plurimodale.
Cette situation est intéressante : elle met en évidence l’existence de plusieurs sous-
populations, donc l’hétérogénéité de la population étudiée.
4.1.2 La moyenne
On note {x1 , x2 , . . . , xn } la série statistique. La moyenne est définie par :
n
x1 + x2 + · · · + xn 1X
x= = xi
n n i=1
Exemple 13. Pointure.
Cas d’une variable continue regroupée en classes : la variable X est regroupée dans
les classes [bj−1 , bj [ (1 ≤ j ≤ n), les fréquences relatives associées à ces classe sont notées
fj , 1 ≤ j ≤ n.
Lorsque les données brutes ne sont plus accessibles et qu’on ne dispose que des données
regroupées en classe, on calcule une moyenne approchée grâce à des représentant des
classes(leur centre) : cj = (bj + bj−1 )/2, par la formule :
k
X
xapp = f1 c1 + f2 c2 + · · · + fk ck = f j cj
i=1
Exemple : calcul d’une moyenne approchée de la variable ”taille” à partir du groupe-

ment en classes.
Propriétés de la moyenne : si on fait le changement de variable Y = aX +b (traduction
sur la série statistiques : yi = axi + b, 1 ≤ i ≤ n), alors
y = ax + b
Exemple 14. calcul de la taille moyenne en mètres.
4.1.3 La médiane
La médiane M e correspond au centre des valeurs observées classées par ordre croissant
x(1) ≤ x(2) ≤ · · · ≤ x(n) ,
ou à la valeur pour laquelle 50% des valeurs observées sont supérieures et 50% sont
inférieures.
a) Cas d’une variable discrète :
n+1
- si n est impair, la médiane est la -ième valeur observée : M e = x( n+1 ) .
2 2
n
- si n est pair, une médiane est une valeur quelconque entre la -ième valeur
2
n
observée : x( n ) et la + 1-ième valeur observée : x( n +1) . On parle donc d’in-
2 2 2
tervalle médian. On peut prendre comme médiane x( n ) ou x( n +1) . Mais il peut
2 2
x( n ) + x( n +1)
2 2
être commode de prendre le milieu : M e = .
2
La détermination de la médiane se fait donc à l’aide des effectifs cumulés, des
proportions cumulées ou de la fonction de répartition empirique (graphique-
ment).
Exemple 15. pointure
b) Cas d’une variable continue.
La médiane est définie comme la solution de l’équation :
F (M e) = 0, 5
où F est la fonction de répartion empirique de la variable. On sait que cette solution
existe parce que F est continue, et lim F (x), lim F (x) = 1. Si de plus F
x−→−∞ x−→+∞
est strictement croissante, la solution Me est unique. la méthode pratique est la
suivante :
1. S’il existe une borne de classe bj telle que la proportion cumulée sur la classe
[bj−1 , bj [ exatement 0,5, alors la médiane est ce bj .
2. Sinon, alors il existe une classe [bj−1 , bj [ telle que
F (bj−1 ) < 0, 5 < F (bj ).

Cette classe est la première sur laquelle la frequence cumulée dépasse 0,5. Pour
x ∈ [bj−1 , bj [, F (x) = Φj−1 + (x − bj−1 ) × dj . Mais en particulier :
F (M e) = Φj−1 + (M e − bj−1 ) × dj = 0, 5
d’où
0, 5 − Φj−1
Me = + bj−1
dj
Ou encore, en terme de bj et de F :
0, 5 − F (bj−1 )
Me = × (bj − bj−1 ) + bj−1
F (bj ) − F (bj−1 )
Cette méthode peut se traduire graphiquement ent utilisant le graphe de la
fonction de répartition empirique et le théorème de Thalès.
Exemple 16. médiane de la variable ”taille”, regroupée en classes.
Méthode graphique avec la fonction de répartition empirique
4.2 Quantiles
a) cas d’une variable continue
Soit X une variable quantitative continue, de fonction de répartition empirique F .
On suppose qu’on dispose de la répartition en classe des observations.
Le Quantile d’ordre p de X est la solution notée qp de :
F (qp ) = p.
Cela signifie qu’une proportion d’environ p des observations est inferieur à qp et
qu’une proportion d’environCela signifie qu’une proportion d’environ p des obser-
vations est inferieur à qp et qu’une proportion d’environ 1 − p des données est
supérieure à qp .
Quantiles particuliers
- Quartiles : quantiles correspondant aux proportions multiples de 0,25 (un
quart). On note Q1 le premier quartile, qui correspond à q0,25 , Q3 le troisième
quartile, qui correspond à q0,75 . La médiane est le deuxième quartile Q2 = q0,5 .
- Déciles : quantiles correspondant aux proportions multiples de 0,1 : q0,1 (premier
décile), q0,2 (deuxième décile), etc.
- Percentiles ou centiles : quantiles correspondant aux proportions multiples de
0,01. Par exemple, le 65ème percentile est le quantile q0,65 .
Calcul du quantile qp : même méthode que pour le calcul de la médiane.
1. S’il existe une borne de classe bj telle que la proportion cumulée sur la classe
[bj−1 , bj [ est exatement p, autrement dit : F (bj ) = p, alors qp .
2. Sinon, alors il existe une classe [bj−1 , bj [ telle que
F (bj−1 ) < p < F (bj ).

Cette classe est la première sur laquelle la fréquence cumulée dépasse p. Pour
x ∈ [bj−1 , bj [, F (x) = Φj−1 + (x − bj−1 ) × dj . Mais en particulier :
F (qp ) = Φj−1 + (qp − bj−1 ) × dj = p

D’où
p − F (bj−1 )
qp = × (bj − bj−1 ) + bj−1
F (bj ) − F (bj−1 )
Ou encore, terme des bj et de F :
p − F (bj−1 )
qp = × (bj − bj−1 ) + bj−1
F (bj ) − F (bj−1 )
Exemple 17. troisième quartile de la variable ”taille”
b) cas d’une variable discrète
Comme pour la médiane, il existe diverses manières de définir les quantiles d’une
loi discrète :
comme la fonction de répartition empirique n’est pas continue mais a des paliers,
elle ne prend pas toutes les valeurs entre 0 et 1. Pour une proportion p fixée, on
cherche donc une valeur x telle que F (x) s’approche, en un certain sens, de p. Nous
choisissons la définition suivante :




 v1 lorsque 0 < p ≤ Φ1 = f1






 v2 lorsque Φ1 < p ≤ Φ2



 ...,

qp =



 vj lorsque Φj−1 < p ≤ Φj






 ...,



 vk

lorsque p = Φk = 1
ou qp = x(⌈np⌉) où ⌈np⌉ est le plus petit entier tel que np ≤ ⌈np⌉.
Exemple 18. troisième quartile de la variable ”pointure”.
4.2.1 Utilisation des paramètres de tendance centrale
Robustesse
La médiane est plus robuste que la moyenne : une ou plusieurs données erronnées ne
font pratiquement, voire pas du tout, changer la médiane, alors qu’elles peuvent affecter
considérablement la moyenne.
Assymétrie
La comparaison de la médiane et de la moyenne permet de détecter des assymétries de
données : Si la distribution des valeurs est symétrique, la valeur de la médiane est proche
de la valeur de la moyenne arithmétique. M e =≃ x.
De façon générale on a :
- M0 = M e = x =⇒ distribution symétrique,
- M0 < M e < x =⇒ distribution dissymétrique à gauche,
- M0 > M e > x =⇒ distribution dissymétrique à droite.
4.3 Paramètres de dispersion

Il est possible que deux variables statistiques aient la même valeur centrale mais com-
plètement différentes du point de vue de la concentration ou dispersion des valeurs ob-
servées autour de cette valeur centrale. Il est donc nécessaire de trouver des mesures
permetant d’apprécier la dispersion d’une série statistique ou d’une distribution observée.
4.3.1 L’étendue
Soit xmin la plus petite observation et xmax la plus grande. On définie l’étendue e =
xmax − xmin . Elle a la même unité que l’unité de la variable. Elle n’est pas très informative
car elle ne tient pas du tout compte de la répartition des données à l’intérieur de l’intervalle
[xmin , xmax ].
Exemple 19. étendu de la variable ”taille”
4.3.2 L’intervalle inter-quartile
On appelle intervalle inter-quartile l’intervalle [Q1 , Q3 ], qui contient environ 50% des
observations. La distance inter-quartile Q3 − Q1 est une mésure de dispersion.
Exemple 20. intervalle inter-quartile de la variable ”taille”.
4.3.3 La variance et l’écart-type
La variance est définie par :
n
1X
V ar(X) = (xi − x)2
n i=1
L’expression suivante est la plus pratique pour le calcul de la variance :
n
!
1X
V ar(X) = x2 − (x)2
n i=1 i
Preuve : en développant le carré dans la définition de la variance.

Pour une variable quantitative discrète en prenant la valeur vj un nombre nj de fois
ou (ou avec la fréquence fj ), pour 1 ≤ j ≤ k :
k k
1X
nj (vj − x)2 = fj (vj − x)2
X
V ar(X) =
n j=1 j=1
   
k k
1X
nj vj2  − (x)2 =  fj vj2  − (x)2
X
=
n j=1 j=1
Dans le cas le cas d’une variable continue pour laquelle on dispose seulement des
données regroupées en classes, on peut faire un calcule approché similaire à celui de la
moyenne approchée xapp On calcule une valeur approchée de la variance, notée V arapp (X).
Toutes les expressions qui suivent sont équivalentes.
k k
1X 2
fj (cj − xapp )2
X
V arapp (X) = nj (cj − xapp ) =
n j=1 j=1
   
k k
nj c2j  − (xapp )2 =  fj c2j  − (xapp )2
X X
=
j=1 j=1
où cj est le centre de la j-ème classe, dotée de l’effectif nj (ou de la fréquence relative
fj ).
Propriétés de la variance
- La variance est toujour positive ou nullle. Elle est nulle si et seulement si toutes
les observation sonts identiques :
n
1X
(xi − x)2 ⇐⇒ ∀i, xi − x = 0
n i=1
- L’untité de la variance est l’untié de X au carré.
L’écart-type σX est défini par :
q
σX = V ar(X)
Propriété : l’unité de σX est l’unité de X.

Plus σX est grand, plus les modalités sont dispersées.
Exemple 21. variance et ecart-type de la variable ”pointure”, de la variable ”taille”.
Le coefficient de variation
La comparaison des dispersions de deux séries statistiques peut se faire grâce aux
écart-types lorsque ses séries ont des moyennes du même ordre de grandeur et ne contient
pas de valeurs aberrantes. Dans le cas contraire, on peut utiliser le coefficient de variation
défini par
σX
CV = .
x
Ce paramètre est une mesure relative de dispersion et permet une interprétation plus
appropriée. On l’exprime en général en pourcentage.
4.4 Changement de variable linéaire ou affine - Variable

centrée réduite
4.4.1 Changement de variable linéaire ou affine
On considère une variable quantative X et on lui faire subir une application affine qui
la transforme en une variable Y . a et b sont des constantes réelles
Nouvelle variable Y Observations yi Moyenne de Y Variance de Y Ecart-type de Y
Y = aX yi = axi y = ax V ar(Y ) = a2 V ar(X) σY = |a|σX
Y =X +b yi = x i + b y =x+b V ar(Y ) = V ar(X) σY = σX
Y = aX + b yi = axi + b y = ax + b V ar(Y ) = a2 V ar(X) σY = |a|σX
4.4.2 Variable centrée réduite
q
On considére une variable X de moyenne x et de variance V ar(x), d’écart-type σX =
V ar(X).
On définit une nouvelle variable
X −x
Y =
σX
Elle est sans unité. Cette variable est appelée variable centrée réduite associée à X.
En effet, elle est :
x−x
- centrée : y = = 0.
σX
V ar(X)
- réduite : V ar(Y ) = = 1.
V ar(X)
Quand on transforme une variable en la variable centrée réduite associée, on retire
à cette variable toute l’information concernant son échelle ou unité, et sa localisation. Il
ne reste plus que des informations sur la forme de la distribution. Cette transformation
permet de comparer plusieurs variables sur le plan de la forme, même si ce sont des
variables exprimées dans des échelles différentes ou qui ont des moyennes complètement
différentes.
Exemple 22. Variable centrée réduite associée à la variable ”pointure”, à la variable

”taille”.
Autre utilisation : Etant donné un individu i pour lequel la variable prend la valeur
xi , on peut situer cet individu dans l’ensemble des observations en calculant son écart à
la moyenne réduit :
xi − x
σX
Exemple 23. quel est l’écart à la moyenne, mesuré en écart-types, d’un individu mesurant
177 cm ?
4.5 Boı̂tes à moustaches

La boı̂te à moustaches est une représentation graphique qui permet de visualiser les
quartiles ainsi que la dispersion des données et de repérer les données extrêmes ou outliers.
Elle se fait couramment pour les variables quantitatives continues ou pour les variables
quantitatives discrètes prenant un grand nombre de valeurs différentes. En revanche, elle
n’a pas beaucoup d’intérêt pour une variable discrète prenant peu de valeurs différentes.
Elle est constituée :
- d’une boı̂te dont les bornes sont les premier et troisième quartile Q1 et Q3 . A
l’intérieur de la boı̂te figure la médiane Q2 .
- de moustaches. On définit tout d’abord deux bornes : m− = Q1 − 1, 5(Q3 − Q1 )
et m+ = Q3 + 1, 5(Q3 − Q1 ). On note minf la plus petite observation supérieure à
m− , et msup la plus grande observation inférieure à m+ . Soit :
minf = min{xi : xi ≥ m− }
msup = max{xi : xi ≤ m+ }
La moustache inférieure est le segment [minf , Q1 ]. La moustache supérieure, de la
même manière, est le segment [Q3 , msup ]
- des donnée extrêmes éventuelles : les observations qui sont en dehors de la boı̂te et
des moustaches, c’est à dire : supérieures à m+ ou inférieures à m+ ou inférieures
à m− . On place ces données une à une quand on en dispose.
Remarque :
- Une boite et des moustaches courtes indiquent que la série est assez concentrée
autour de sa médiane.
Au contraire une boite et des moustaches longues indiquent que la série est assez
dispersée.
L’examen de la boite à moustaches permet d’avoir une idée de la symétrie de la
distribution selon que la boı̂te et les moustaches sont symétriques ou, au contraire,
de plus petite amplitude à gauche (asymétrie à gauche) ou à droite (asymétrie à
droite).
- La représentation peut aussi se faire vertcalement, d’où l’appelation de ”boite à
pattes”.
Exemple 24. Boı̂te à moustache de la variable ”taille” à partir de la série statistique

de 20 observations.
Dans le cas où on ne dispose pas des données brutes mais seulement des données
regroupées en classes, on utilise les extrémités b0 et bk de la première et de la k-ème
classe.
- la limite inférieure minf de la moustache inférieure est max{m −, b0 } et la limite
supérieure msup de la moustache supérieure est min{m+ , bk }.
- On ne peut pas placer les données extrêmes, sauf si elles sont fournies en plus.
Exemple 25. Boı̂te à moustaches de la variable ”taille” à partir des données re-
groupées.
CHAPITRE 5
Liaison entre deux variables
5.1 Généralités
On observe une série statistique {(x1 , y1 ), . . . , (xn , yn )} composée de n couples d’obser-
vations d’un couple de variables (X, Y ). On suppose que X a I modalités notées C1 , . . . , CI
et Y a J modalités et Y a J modalités notées D1 , . . . , DJ . Pour 1 ≤ i ≤ I et 1 ≤ j ≤ J,
on note nij l’effectif des couples d’observations égaux à (Ci , Dj ).
5.1.1 Tableau de contingence
Dans le tableau de contingence, on regroupe les effectifs nij . On peut compléter le

tableau de contingence en ajoutant les totaux en lignes et en colones.
J
On note ni = ni1 + · · · + nIJ =
P
nij le total sur la ligne i de la table de contingence,
j=1
I
nj = ni1 + · · · + nIJ =
P
nij le total sur la colonne j de la table de contigence.
i=1
Y
D1 D2 ... Dj Total
X
C1 n11 n12 ... n1J n1
C2 n21 n22 ... n2J n2
... ... ... ... ... ...
CI nI1 nI2 ... nIJ nI
Total n.1 n.2 ... n.J n
Exemple 26. L’INSEE fournit les données suivantes relatives à la situation professionnelle
31
CHAPITRE 5. LIAISON ENTRE DEUX VARIABLES 32
des personnes habitant en France en 2006, immigrées ou non immigrées.

situation quant à l’immigration
Immigrés Non immigrés Ensemble
Situation professionnelle
Actif ayant un emploi 2223906 23895180 26119096
Chômeur 559201 2845339 3404540
Retraité ou préretraités 963333 11901857 12865190
Elèves, étudiants, stagiaire 321533 4999097 5320630
Femme ou homme au foyer 486427 1926779 2413206
Ensemble 5137416 58048681 63186098
Remarque 5.1.1. La définition d’un immigré selon le Haut conseil à l’immigration,utilisée

pour cette étude, est une personne née étrangère à l’étranger et résidant en France.
5.1.2 Distribution marginale
La distribution marginale de la variable X est la donnée des effectifs marginaux

n1 ., . . . , nI .. C’est la distribution de la variable X. On peut la présenter dans un tableau
et calculer les fréquences (fi. = ni. /n), qui sont les proportions associée à chaque modalité
de la variable X. On peut calculer de même la distribution marginale de la variable Y .
Distribution marginale de X :
X C1 ... CI Total
Effectif n1. ... nI. n
Proportion f1. = n.1 /n ... fI. = nI. /n 1
Distribution marginale de Y :
X D1 ... DI Total
Effectif n1. ... nI. n
Proportion f1. = n.1 /n ... fJ. = nJ. /n 1
Exemple 27. Situation professionnelle de la population en France en 2006
5.1.3 Distribution conditionlle
a) Profils-lignes
La distribution conditionelle de Y sachant la modalité de Ci de X est la distribution
dont les proportions sont données dans le tableaux suivant :
Y|X=Ci D1 ... DI Total
Proportion ni1 /ni . . . niJ /ni 1
Une telle distribution est appelée profil-ligne. L’ensemble des profils-lignes peut
être présenté dans un tableau :
YX
D1 D2 ... DJ Total
X
C1 n11 /n1 . n12 /n1. . . . n1J /n1 . 1
C1 n21 /n2 . n22 /n2. . . . n2J /n2 . 1
... ... ... ... ... ...
CI nI1 /nI . nI2 /nI. . . . nIJ /nI . 1
Exemple 28. Distribution conditionnelle de la variable ” Situation quant à l’im-
migration” sachant la modalité ” Actifs ayant un emploi” en France en 2006, ou :
situation quant à l’immigration des actifs ayant un emploi en France en 2006.
b) Profils-colones
De même, l’ensemble des distributions conditionnelles de X sachant les modalités
de Y est l’ensemble des profils-colonnes, que l’on peut présenter dans le tableau
suivant :
Y
D1 D2 ... DJ
X|Y
C1 n11 /n.1 n12 /n.2 . . . n1J /n.J
C1 n21 /n.1 n22 /n.2 . . . n2J /n.J
... ... ... ... ...
CI nI1 /n.1 nI2 /n.2 . . . nIJ /n.J
Total 1 1 ... 1
Exemple 29. Ensemble des profils-colonnes du couple de variables ”Situation pro-
fessionnelle” et ”Situation vis-à-vis de l’immigration”
5.2 Laison linéaire entre deux variables quantitatives

Les valeurs distintes de X et Y sont représentées respectivement par x1 , . . . , xp et
y1 , . . . , yq On désigne par nij l’effectif associé à l’observation (xi , yj ) et par fij la fréquence
associée :
y1 ... yj ... yq Total
x1 n11 ... n1j ... n1q n1.
.. .. .. .. .. ..
. . . . . .
xi ni1 ... nij ... niq ni.
.. .. .. .. .. ..
. . . . . .
xp np1 ... npj ... npq np.
Total n.1 ... n.j ... n.q n
Avec
q
X p
X q X
X q p
X q
X
ni. = nij ; n.j = nij ; nij = ni. = n.j = n
j=1 i=1 i=1 j=1 i=1 j=1
5.2.1 Moyennes et variances marginales
p p
1X 1X
X:x= ni. xi ; s2 (X) = ni. (xi − x)2
n i=1 n i=1
q q
1X 1X
Y :y= n.j yj ; s2 (Y ) = n.j (yi − y)2
n j=1 n j=1
5.2.2 Moyennes et variances conditionnelles
p p
1 X 1 X
X | Y=yj : xj = nij xi ; s2j (X) = ni. (xi − x)2 .
n.j i=1 n.j i=1
q q
1 X 1 X
Y | X=xj : yi = nij yj ; s2i (Y )= nij (yj − y i )2 .
n.i j=1 n.i j=1
5.2.3 Covariance
Definición 5.2.1. On définit la covariance de X et de Y par :
p X q
1X
Cov(X, Y ) = nij [(xi − x)(yj − y)].
n i=1 j=1
L’unité dans est exprimée la covariance est le produit des unités de X et de Y .
Remarque 5.2.1. Lien avec la variance : Cov(X, X) = V ar(X)
Remarque 5.2.2. Formule pratique :
 
p X q
1X
Cov(X, Y ) =  nij xi yj  − xy.
n i=1 j=1
Propriétés 5.2.1. Changement d’échelle : soient a, b, c, d des constantes réelles. On a
Cov(aX + b, cY + d) = acCov(X, Y ).
Proposition 5.2.1. Expression de la variance d’une somme de variables :
V ar(X + Y ) = V ar(X) + V ar(Y ) + 2Cov(X, Y ).
Proposition 5.2.2. Inégalité de Cauchy-Schwarz :
∥Cov(X, Y )∥ ≤ σX σY .
Preuve : Pour tout réelle a, on peut développer grâce à la proposition 1 la quantité

V ar(X + aY ) :
V ar(X + aY ) = V ar(X) + V ar(aY ) + 2Cov(X, aY )
= V ar(X) + a2 V ar(Y ) + 2aCov(X, Y ) par la propriété 5.2.1 (5.1)
≤0
Le polynôme du second degré en a étant de signe constant, son discriminant est négatif
ou nul :
4(Cov(X, Y ))2 − 4V ar(X)V ar(Y ) ≤ 0,
d’où l’égalité recherchée.

Remarquons au passage que le cas d’égalité se produit lorsque le discriminant de
l’équation 5.1 est nul. Dans ce cas, l’équation admet une racine double :
2Cov(X, Y ) Cov(X, Y )
a=− =−
2V ar(Y ) V ar(Y )
 σ
X

− si Cov(X, Y ) = +σX σY



 σY
=

 σX
si Cov(X, Y ) = −σX σY



σY
σX
Dans le premier cas, cela signifie que X − Y a une variance nulle, donc est une
σY
constante, d’où
σX
X= + constante.
σY
Ces deux cas sont les seuls cas d’égalité dans la proposition 5.2.2. Ils correspondent
au fait que les variables Y et Y s’obtiennent l’une à partir de l’autre par une application
affine.
5.2.4 Coefficient de corrélation
Definición 5.2.2. Le coefficient de corrélation r(X, Y ) est défini par :

Cov(X, Y )
r(X, Y ) = .
σX σY
C’est un coefficient sans unité. Sa valeur absolue est invariante par translation et
changement d’échelle des variables : pour toutes constantes réelles a ̸= 0, b, c ̸= 0, d,
ac
r(aX + b, cY + d) = r(X, Y ).
|ac|
Propriétés 5.2.2. il découle de la proposition 5.2.2 que
−1 ≤ rr(X, Y ) ≥ 1.
De plus, les cas de l’égalité sont les suivantes :

• r(X, Y ) = 1 si et seulement si les deux variables satisfont une relation affine du
type Y = aX + b avec a > 0.
• r(X, Y ) = −1 si et seulement si les deux variables satisfont une relation affine du
type Y = aX + b avec a < 0.
Lorque le nuage des points (xi , yi ) est exactement situé sur une droite (cas idéal), on
est dans la situation où r(X, y) = ±1. Lorsque r(X, Y ) est proche de ±1 (pour fixer les
idées : |r(X, Y )| ≥ 0, 8, alors il y’a une laison linéaire importante entre X et Y . Lorsqu’au
contraire r(X, Y ) est proche de 0, alors il n’existe pas de relation linéaire entre X et Y .
Attention, il peut y avoir quand même un autre type de laison entre X et Y .
5.2.5 Régression linéaire
On suppose à présent que les observations du couple de variable (X, Y ) satisfont une
relation de la forme suivante,
yi = axi + b + ϵi , i = 1, . . . , n, (5.2)
où a et b sont des coefficients réels. Le terme ϵi désigne un bruit, c’est à dire une
pertubation supposée petite. Dans ce cours, on ne cherchera pas à donner un sens précis a
la mesure de ce bruit. Disposant des observations (xi , yi )ni=1 du couple (X, y), on cherche à
trouver les coefficients a et b qui permettent le mieux d’ajuster les données à une relation
du type (5.2), au sens du critère des moindres carrés. On cherche
n
(yi − b − axi )2
X
min (5.3)
a,b
i=1
La solution, qui s’obtient en annulant les dérivées partielles de la fonction de (a, b) qui
est minimisée en (5.3), est
Cov(X, Y )
â =
V ar(X)
b̂ = y − âx,
où x et y désigne les moyennes respective de X et Y . La droite des moindres carrés

est la droite d’équation y = âx + b̂. On peut remarquer qu’elle passe toujours par le
barycentre (x, y) du nuage de points. Sa pente peut aussi s’écrire à l’aide du coefficient
σX
de corrélation : â = r(X, y) .
σY
Prediction
Pour une valeur x0 de la variable X qui ne fait pas partie des observations, on peut
faire une prédiction de la valeur correspondante de Y en calculant l’ordonnée du point
d’abscisse x0 sur la droite des moindres carrés :
y0 = âx0 + b̂a
5.2.6 Régression linéaire aprés transformation d’une variable
On suppose que les observations (xi , yi )ni=1 satisfont une rélation de type
yi = af (xi ) + b + ϵi ,
Pour une certaine fonction f donnée et de bruit ϵi . On peut estimer les coefficients de
la droite de régression de Y sur f (X) par la méthode décrite auparavant.
5.3 Liaison entre deux variables qualitatives

5.3.1 Mesure de la liaison entre deux variables qualitatives
Compairaison qualitative des profils-lignes ou des profils-colones

Il y’a indépendance stricte entre X et Y lorsque tous les profils-lignes sont identiques.
Il sont dans ce cas tous identiques à la distribution marginal de Y .
De la même manière, l’indépendance a lieu lorsque tous les profils-colonnes sont égaux
à la distribution marginale de X.
Ceci implique : pour tous i, j,
ni. n.j
nij = (5.4)
n
Preuve :
La distance du X 2 pour mesurer l’écart à l’indépendance

Dans la pratique, cette indépendance stricte ne s’observe jamais sur un échantillons.
On peut être plus ou moins éloigné de cette situation parfaite. La distance du X 2 d’écart
à l’indépendance permet de mesurer le degré de dépendance entre X et Y . Elle se base
ni. n.j
sur la comparaison entre nij et .
n
Definición 5.3.1. La distance du X 2 observée sur la série statistique {(x1 , y1 ), . . . , (xn , yn )}
est définie par
 2 
ni. n.j
I X J  nij −
n

X2 =
X  

 ni. n.j 

i=1 j=1
n
Exemple 30. Distance du X 2 pour mesurer l’écart à l’indépendance entre les variables
”situation quant à l’immigration” et ”situation professionnelle” en France 2006.
Propriétés 5.3.1. - la grandeur X 2 = 0 si il y a indépendance stricte entre X et Y .

- la grandeur X 2 est d’autant plus élevée que la laison est forte : il existe alors des
ni. n.j
cellules (i, j) avec une écart important nij − .
n
- l’inégalité suivante est toujours vérifiée :
X2
≤ min{I − 1, J − 1}.
n
Definición 5.3.2. On appelle contribution au X 2 du couple de modalités (Ci , Dj ) et (X, Y )
ni. n.j 2

nij −
la quantité n .
ni. n.j
n
Plus la contribution est forte, plus la laison entre les modalités Ci et Dj est importante.
ni. n.j
Definición 5.3.3. L’association entre les modalités Ci et Dj est dite positive si nij − >
n
ni. n.j
0. Elle est négative si nij − < 0.
n
Exemple 31. Liaison entre la modalité ”Elèves, étudiants, stagiaires” de la variable ”Si-
tuation professionnelle” et la modalité ”Immigrés” de la variable ”Situation quant à ’im-
migration”.
Definición 5.3.4. Le coefficient C de Cramer est défini par :
v
X2
u
u
C= t .
n. min{I − 1, J − 1}
Propriétés 5.3.2. - C = 0 lorsqu’il y a indépendance. De petites valeurs de C signient
que la liaison entre X et Y est trés faible. Des valeurs proches de 1 signifient qu’il
y a une forte liaison entre X et Y .
- Ce coefficient, qui varie entre 0 et 1, permet de comparer la laison entre plusieurs

couples de variables.
Exemple 32. Calcul du C de Cramer pour mesurer l’écart à l’indépendance entre les
variables ”Situation quant à l’immigration” et ” Situation professionnelle” en France en
2006.
5.3.2 Représentation graphique
a) Distribution joint
Exemple 33. Diagramme en barres de la distribution jointe des variables ”Situation
quant à l’immigration” et ”Situation professionnelle”.
b) Distribution conditionnelle
Exemple 34. Diagramme en barres de la distribution de la variable ”Situation pro-
fessionnelle” sachant la variable ”Situation quant à l’immigration”.
5.4 liaison entre variable qualitative et une variable quan-

titative
On observe des couples {(xi , yi ), 1 ≤ i ≤ n} d’observations du couple de variable
(X, Y ) avec :
- X qualitative à I modalités : C1 , . . . , CI
- Y quantitative, discrète ou continue,avec donnée brutes ou regroupées en classes.
5.4.1 Classement des données et distributions marginales
La distribution marginale de X est la distribution associée à la série statistique

(x1 , . . . , xn ) (varriable qualitative). La distribution marginale de Y est est la distribution
associée à la série statistique (y1 , . . . , yn ) variable quantitative). On note y la moyenne
marginale ne la variable Y et de σY2 sa variance marginale.
On note n1. , . . . , nI. . les effectifs marginaux de la variable X. C’est-à-dire : n1. est l’ef-
fectif des observations pour lesquelles X prend la modalité C1 , etc...on peut regrouper les
couples d’observations (xi , yi ) qui comportent la même modalité xi . Après regroupement,
on obtient la nouvelle énumération :
(x11 , y11 ), (x12 , y12 ), . . . , (x1n1. , y1n1. ) = (C1 , y11 ), (C1 , y12 ), . . . , (C1 , y1n1. )
(x21 , y21 ), (x22 , y22 ), . . . , (x2n2. , y2n2. ) = (C2 , y21 ), (C2 , y22 ), . . . , (C2 , y2n2. )
...
(xI1 , yI1 ), (xI2 , yI2 ), . . . , (xInI. , yInI. ) = (CI , yI1 ), (CI , yI2 ), . . . , (CI , yInI. )

CM Stat-Proba.

Transféré par

Droits d'auteur :

Formats disponibles

CM Stat-Proba.

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

CM Stat-Proba.

Transféré par

Droits d'auteur :

Formats disponibles

ECOLE SUPERIEURE AFRICAINE DES TECHNOLOGIES DE L’INFORMATION

1 Les données statistiques 7

4 Résumés numériques d’une variable statistique 20

5 Liaison entre deux variables 31

5.4 liaison entre variable qualitative et une variable quantitative . . . . . . . . 39

Les données statistiques

1.1 Les variables statistiques-éléments de vocabulaire

En statistique descriptive la population c’est l’ensemble des individus effectivement

1.2 Les types de variables

1.2.1 Variables qualitatives

Exemple 2. le sexe, la couleur des yeux, la mention au baccalauréat, la fréquence d’une

1.2.2 Variables quantitatives

2.1 Les variables qualitatives

2.1.1 Tableaux de distribution de fréquence absolues, relatives et cumulées

Exemple 4. Pour l’exemple précédent, on remplit le tableau suivant :

Couleur des yeux M V N B Total

2.2 Les variables quantitatives discrètes

2.2.1 Tableaux de distribution de fréquences

Exemple 6. Pour la variable P, on remplie le tableau suivant :

2.3 Les variables quantitatives continues

2.3.1 Tableaux de distribution de fréquences-fréquences cumulées

Remarque 2.3.2. Contrairement au cas d’une variable qualitative ou discrète, ce tableau

3.1 Les variables qualitatives

ou des proportions cumulés.

Exemple 9. - Diagrammes en secteurs : chaque modalité est représentée par un

3.2 Les variables quantitatives

3.2.1 Les variables quantitatives discrètes

- Diagramme différentiel : diagramme en bâtons.

Exemple 10. Pointure

3.2.2 Les variables quantitatives continues

Remarque 3.2.1. On représente la densité de proportion ou d’effectif et non pas les

Consequence 1. L’aire d’un rectangle est proportionnelle à la fréquence (absolues ou re-

Dans la pratique, on utilise la règle de construction suivante :

F (x) = f1 + f2 + · · · + (x − bj−1 ) × dj = Φj−1 + (x − bj−1 ) × dj

Exemple 11. Fonction de répartition empirique de la variable T .

Résumés numériques d’une variable statistique

4.1 Paramètre de tendance centrale

Exemple 12. Pointure, taille.

On note {x1 , x2 , . . . , xn } la série statistique. La moyenne est définie par :

Exemple : calcul d’une moyenne approchée de la variable ”taille” à partir du groupe-

Exemple 14. calcul de la taille moyenne en mètres.

x(1) ≤ x(2) ≤ · · · ≤ x(n) ,

F (bj−1 ) < 0, 5 < F (bj ).

Exemple 16. médiane de la variable ”taille”, regroupée en classes.

Méthode graphique avec la fonction de répartition empirique

F (bj−1 ) < p < F (bj ).

F (qp ) = Φj−1 + (qp − bj−1 ) × dj = p

4.2.1 Utilisation des paramètres de tendance centrale

4.3 Paramètres de dispersion

Exemple 19. étendu de la variable ”taille”

4.3.2 L’intervalle inter-quartile

Exemple 20. intervalle inter-quartile de la variable ”taille”.

4.3.3 La variance et l’écart-type

La variance est définie par :

L’expression suivante est la plus pratique pour le calcul de la variance :

Preuve : en développant le carré dans la définition de la variance.

Propriété : l’unité de σX est l’unité de X.

Exemple 21. variance et ecart-type de la variable ”pointure”, de la variable ”taille”.

4.4 Changement de variable linéaire ou affine - Variable