Nothing Special   »   [go: up one dir, main page]

CM Stat-Proba.

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 40

ECOLE SUPERIEURE AFRICAINE DES TECHNOLOGIES DE L’INFORMATION

ET DE LA COMMUNICATION.

Cours
de
Statistique Descriptive

AUTEUR
Dr. DIABATE
1
Table des matières

1 Les données statistiques 7


1.1 Les variables statistiques-éléments de vocabulaire . . . . . . . . . . . . . . 7
1.2 Les types de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.1 Variables qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.2 Variables quantitatives . . . . . . . . . . . . . . . . . . . . . . . . . 8

2 Tableaux statistiques 10
2.1 Les variables qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.1.1 Tableaux de distribution de fréquence absolues, relatives et cumulées 10
2.2 Les variables quantitatives discrètes . . . . . . . . . . . . . . . . . . . . . . 11
2.2.1 Tableaux de distribution de fréquences . . . . . . . . . . . . . . . . 11
2.3 Les variables quantitatives continues . . . . . . . . . . . . . . . . . . . . . 12
2.3.1 Tableaux de distribution de fréquences-fréquences cumulées . . . . . 12

3 Représentations graphiques 15
3.1 Les variables qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.2 Les variables quantitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.2.1 Les variables quantitatives discrètes . . . . . . . . . . . . . . . . . . 16
3.2.2 Les variables quantitatives continues . . . . . . . . . . . . . . . . . 17

2
TABLE DES MATIÈRES 3

4 Résumés numériques d’une variable statistique 20


4.1 Paramètre de tendance centrale . . . . . . . . . . . . . . . . . . . . . . . . 20
4.1.1 Le mode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
4.1.2 La moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
4.1.3 La médiane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4.2 Quantiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.2.1 Utilisation des paramètres de tendance centrale . . . . . . . . . . . 24
4.3 Paramètres de dispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.3.1 L’étendue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.3.2 L’intervalle inter-quartile . . . . . . . . . . . . . . . . . . . . . . . . 25
4.3.3 La variance et l’écart-type . . . . . . . . . . . . . . . . . . . . . . . 25
4.4 Changement de variable linéaire ou affine - Variable centrée réduite . . . . 27
4.4.1 Changement de variable linéaire ou affine . . . . . . . . . . . . . . . 27
4.4.2 Variable centrée réduite . . . . . . . . . . . . . . . . . . . . . . . . 27
4.5 Boı̂tes à moustaches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

5 Liaison entre deux variables 31


5.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
5.1.1 Tableau de contingence . . . . . . . . . . . . . . . . . . . . . . . . . 31
5.1.2 Distribution marginale . . . . . . . . . . . . . . . . . . . . . . . . . 32
5.1.3 Distribution conditionlle . . . . . . . . . . . . . . . . . . . . . . . . 32
5.2 Laison linéaire entre deux variables quantitatives . . . . . . . . . . . . . . 33
5.2.1 Moyennes et variances marginales . . . . . . . . . . . . . . . . . . . 34
5.2.2 Moyennes et variances conditionnelles . . . . . . . . . . . . . . . . . 34
5.2.3 Covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
5.2.4 Coefficient de corrélation . . . . . . . . . . . . . . . . . . . . . . . . 35
5.2.5 Régression linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
5.2.6 Régression linéaire aprés transformation d’une variable . . . . . . . 37
5.3 Liaison entre deux variables qualitatives . . . . . . . . . . . . . . . . . . . 37
5.3.1 Mesure de la liaison entre deux variables qualitatives . . . . . . . . 37
5.3.2 Représentation graphique . . . . . . . . . . . . . . . . . . . . . . . 39
TABLE DES MATIÈRES 4

5.4 liaison entre variable qualitative et une variable quantitative . . . . . . . . 39


5.4.1 Classement des données et distributions marginales . . . . . . . . . 39
TABLE DES MATIÈRES 5
Partie I :
Statistique Descriptive

Introduction
Recueillir et analyser les données sont les deux objectifs fondamentaux de la Statis-
tique. Pour parvenir à cela, il faut suivre les étapes suivantes :
1. La collecte des données : définir l’objet étudié, les variables statistiques mises en
cause, le questionnaire et fabriquer l’échantillon représentatif (sondage, plan d’ex-
périences...)
2. Une fois les données collectées et corrigées, les visualiser sous forme de tableaux
ou graphes et les résumer grâce à des paramètres qui permettent de dégager les
caractéristiques essentielles du phénomène étudié (statistique descriptive, analyse
des données)
3. L’étape de la modélisation (statistique inférentielle) est de fournir des résultats re-
latifs à une population à partir de mesures statistiques réalisées sur des échantillons.
La statistique inférentielle fournit des éléments permettant de spécifier du mieux
possible, à partir de l’échantillon observé, le modèle probabiliste qui a engendré les
données. Nous entendrons le terme de modèle dans le sens d’une formalisation ma-
thématique supposée reproduire de manière approchée la réalité d’un phénomène
dans le but d’en reproduire le fonctionnement pour permettre de comprendre, de
prédire et/ou d’agir.
Les méthodes statistiques sont utilisées dans de nombreux domaines tels que l’ingé-
nierie (contrôle de qualité de fabrication...), la médecine (expérimentation de nouveaux
traitements...), les sciences économiques et sociales, l’économetrie, la démographie, et bien
d’autres.
CHAPITRE 1

Les données statistiques

1.1 Les variables statistiques-éléments de vocabulaire


On observe un échantillon composé de n individus appartenant à une même population
de taille N . Chaque individu de l’échantillon est observé à travers des caractéristiques,
caractères ou indicateurs appelés variables. Une série statistique (x1 ; x2 ; . . . ; xn ) est la suite
des valeurs prises par une ou plusieurs variables pour chacun des individus de l’échantillon.
Chaque valeur prise par une ou plusieurs variables est appelé une modalité.

Exemple 1. Un questionnaire est distribué à 150 personnes dans la cour d’un établissement
secondaire. Il comporte diverses questions. La population = l’ensemble des elèves de cet
établissement. L’échantillon = les étudiants ayant répondu au questionnaire. Un individu
est une personne interrogée. Les variables correspondent aux questions posées : l’âge, la
taille, la couleur des yeux, etc

En statistique descriptive la population c’est l’ensemble des individus effectivement


étudiés, sans chercher à étendre les constatations faites à une population plus vaste, ce
qui relève de la statistique inférentielle.

1.2 Les types de variables


Le type d’une variables dependent de la nature de ses modalités. On distingue plusieurs
types de variables :

7
CHAPITRE 1. LES DONNÉES STATISTIQUES 8

1.2.1 Variables qualitatives

Une variable est dite qualitative lorsque les réponses possibles à la question posée,
ou les modalités, ne correspondent pas à une quantité mesurable par un nombre mais
appartiennent à un groupe de catégories.

Exemple 2. le sexe, la couleur des yeux, la mention au baccalauréat, la fréquence d’une


activité (jamais, rarement, parfois, souvent, très souvent).

on distingue :
- es variables qualitatives nominales : il n’y a pas d’hiérachie entre les differentes
modalités ; exemple : sexe, couleur des yeux.
- les varibles qualitatives ordinales : les differentes modalités peuvent être ordonnées
de manière naturelle ; exemple : la mention au baccalauréat, la frequence d’une
activité, niveau d’études scolaires : école primaire < 1er cycle < CAP < BEP <
Bac < BTS < DEUG < . . . . . .

Remarque 1.2.1. Certaines variables nominales peuvent être désignées par un code nu-
merique, qui n’a pas de valeur quantité. Exemple : le code postal, le sexe (1 = garçon, 2
= fille)

1.2.2 Variables quantitatives

Les réponses correspondent à des quantités mesurables et sont données sous forme de
nombre. On distingue :
- Les variables quantitatives discrètes : elles prennent leurs valeurs dans un ensemble
discret, le plus souvent fini. Exemple : le nombre d’enfants, la pointure du pied.
- les variables quantitatives continues : elles peuvent prendre toutes les valeurs d’un
intervalle réel. Exemple : la taille des individus, une note à un examen.

Remarque 1.2.2. L’âge peut être vu et traité comme une variable quantitative discrète
ou continue suivant la précision que l’on choisit et le nombre de valeurs qu’il prend au
sein de la population. Il peut également exister des variables basées sur l’âge qui sont
qualitatives. Si dans un sondage on pose la question ”quelle est votre tranche d’âge parmi
les possibilités suivantes : - de 25 ans, entre 25 et 45, entre 40 et 60 et +60 ans”, on peut
voir la variable ”tranche d’âge” comme une variable qualitative ordinale
CHAPITRE 1. LES DONNÉES STATISTIQUES 9
CHAPITRE 2

Tableaux statistiques

2.1 Les variables qualitatives


Exemple 3. On s’intéresse à la variable ”couleur des yeux” sur un groupe de 20 personnes.
On code chaque modalité de la manière suivante : M = marron, V = vert, N = noir, B
= bleu. On obtient la série statistique suivante :
M, V, M, M, M, M, M, N, M, N, M, M, B, M, M, M, B, M, M, M

2.1.1 Tableaux de distribution de fréquence absolues, relatives et cumulées

Exemple 4. Pour l’exemple précédent, on remplit le tableau suivant :

Couleur des yeux M V N B Total


Effectif
Proposition

Tableau-type : On choisit une notation pour la variable, par exemple : X.n désigne le
nombre d’individus dans l’échantillon. on note C1 , . . . , Ck les k modalités de la variable.
Pour 1 ≤ j ≤ k, on note
- nj l’effectif associé à la modalité Cj (le nombre d’individus pour lesquels la valeur
prise par la variable est Cj ),
- fj = nj /n la fréquence relative ou proportion associée à cette modalité,
- et si la variable est qualitative ordinale : Nj = n1 + n2 + · · · + nj la frequence
absolue (effectif) cumulée croissante resp. la frequence relative cumulée croissante

10
CHAPITRE 2. TABLEAUX STATISTIQUES 11

pour cette modalité (avec la convention : ϕ0 = 0). Elle n’a de sens que si la variable
est qualitative ordinale et si les modalités C1 , C2 , . . . , Ck sont ordonnées suivant
l’odre croissant naturel (ou hiérachique ascendant) qui règne parmi ces modalités.
Exemple : niveau d’études scolaires : école primaire < 1er cycle < CAP < BEP <
Bac < BTS < DEUG < . . . . . .
Le tableau suivant est un tableau-type qui permet de résumer les données.
Variable X C1 C2 ... Ck Totales
Fréquence absolue ou effectif n1 n2 ... nk n
Fréquence relative ou proportion f1 = n1 /n f2 = n2 /n ... fk = nk /n 1
Fréquence relative cumulée∗ ϕ1 = f1 ϕ2 = f1 + f2 ... ϕk = 1 pas de sens

Attention : uniquement dans le cas de variables qualitatives ordinales.

2.2 Les variables quantitatives discrètes


Exemple 5. On s’intéresse à la variable ”pointure” ( que l’on notera P ) sur un groupe de
20 personnes. On obtient la série statistique suivante :

39, 43, 38, 39, 39, 42, 44, 44, 48, 40, 44, 43, 41, 37, 39, 38, 45, 41, 44, 44.

2.2.1 Tableaux de distribution de fréquences

Exemple 6. Pour la variable P, on remplie le tableau suivant :

P 37 38 39 40 41 42 43 44 45 46 47 48
Effectif
Proportion
Proportion cumulée

On note v1 , v2 , . . . , vk les k valeurs différentes que peut prendre la variable avec vi < vj
si i < j (on n’en rencontrera pas pas d’exemple dans ce cours, mais une variable discrète
peut prendre une infinité de valeurs). Pour 1 ≤ j ≤ n, on note nj l’effectif des individus
pour lesquels la variable prend la valeur vj . On note fj la fréquence relative ou proportion
pour la valeur vj et Φj = f1 + · · · + fj la j-ème fréquence relative cumulée (avec la
convention : Φ0 = 0). On résume habituelement les données comme dans le tableau-type
suivant :
Valeurs prises par la variable v1 v2 ... vk Total
Fréquence absolue n1 n2 ... nk n
Fréquence relative f1 = n1 /n f2 = n2 /n ... fk = nk /n 1
Fréquence relative cumulée↗ ϕ1 = f1 ϕ2 = f1 + f2 ... ϕk = 1 pas de sens
On définit de même pour la valeur vj la fréquence cumulée décroissante :
CHAPITRE 2. TABLEAUX STATISTIQUES 12

1
Gj = (nj + · · · + nk ) = fj + · · · + fk .
n
La quantité Njd = nj + · · · + nk est appelée effectif cumulé décroissant.

2.3 Les variables quantitatives continues


Exemple 7. On s’intéresse à la taille, notée T et exprimée en mètre, de 20 individus. On
a obtenu la série statistique suivante :

1, 72; 1, 87; 1, 66; 1, 73; 1, 64; 1, 77; 1, 80; 1, 81; 1, 60; 1, 78;

1, 83; 1, 75; 1, 70; 1, 58; 1, 68; 1, 66; 1, 93; 1, 75; 1, 80; 1, 85.

2.3.1 Tableaux de distribution de fréquences-fréquences cumulées

Les données brutes de la variable pour chaque individu sont notées x1 , . . . , xn . Elle
peuvent prendre n’importe quelle valeur dans un interval de R et il est très rare d’avoir
deux fois la même valeur pour deux individus différents. Il serait donc unitile de tracer
un diagramme en bâton comme dans le cas d’une variable discrète : il consisterait en un
amoncellemment illisible de bâton de hauteur 1/n. On choisir donc de faire un Regrou-
pement en classe.
- L’intervalle où la variable prend ses valeurs est divisé en k classes :
[b0 , b1 [, [b1 , b2 [, . . . , [bk−1 , bk [ (il est possible d’avoir des bornes infinies).
- Pour 1 ≤ j ≤ n, on note nj l’effectif associé à la classe [bj−1 , bj [, fj = nj /n la
fréquence relative associé à cette classe et Φj = f1 + · · · + fj la j-ème fréquence
cumulée (avec la convention Φ0 = 0)
- On note aj = bj − bj−1 l’amplitude de la classe [bj−1 , bj [.
- On note dj = fj /aj la densité de proportion pour la classe [bj−1 , bj [.
Exemple 8. de la taille

T [1, 50; 1, 65[ [1, 65; 1, 70[ [1, 70; 1, 75[ [1, 75; 1, 80[ [1, 80; 1, 85[ [1, 85; 2, 00[
Effectif
Proportion
Proportion cumulée
Amplitude
Densité de proportion
Remarque 2.3.1. - la densité de la proportion permet de comparer les effectifs dans
chaque classe en tenant compte de la taille de ces classes (cf. la notion de densité
de la population en géographie).
CHAPITRE 2. TABLEAUX STATISTIQUES 13

- Dans le cas de classes qui ont toutes les même longueur, il n’est pas nécessaire de
calculer la densité de proportion, il est suffisant d’étudier les fréquences relatives
ou absolues (qui sont directement proportionnelle a la densité de proportion).

Tableau-type
Variable X [b0 , b1 [ [b1 , b2 [ ... [bk−1 , bk [ Total
Fréq. relative f1 = n1 /n f2 = n2 /n ... fk = nk /n 1
Fréq. relative cumulée Φ1 = f 1 Φ2 = f1 + f2 ... Φk = 1
Amplitude a1 = b 1 − b 0 a2 = b 2 − b 1 ... ak = bk−1 − bk
Densité de proportion d1 = f1 /a1 d2 = f2 /a2 ... dk = fk /ak

Remarque 2.3.2. Contrairement au cas d’une variable qualitative ou discrète, ce tableau


représente une perte d’information par rapport aux données brutes.
CHAPITRE 2. TABLEAUX STATISTIQUES 14
CHAPITRE 3

Représentations graphiques

3.1 Les variables qualitatives


Pour une variable ou caractère qualitatif, on utilise principalement trois types de re-
présentation graphique : le diagramme en bâtons, la représentation par tuyaux d’orgue et
la représentation par secteurs.
- Diagramme en bâtons : en abscisse sont disposées les différentes modalités, de
façon arbitraire aux quelles on associe des segments espacés entre eux dont les
longeurs ( en ordonnée ) sont proportionnelles à l’effectif ou à la fréquence relative
de chaque modalité. Preciser le nom des axes, le nom du graphique et la source des
informations.
Nous appelons polygone statistique, ou diagramme polygonal, la ligne obtenue en
joignant les sommets des bâtons.
Exemple :
Caractère : catégorie socio-professionnelle.
Ouvriers = O, Cadre moyen = CM, Cadre supérieur = CS.
caractère O CM CS
Effectifs 20 10 5
- Diagramme en tuyaux d’orgue : en abscisse sont disposées les différentes modali-
tés, de façon arbitraire aux quelles on associe des rectangles espacés entre eux, de
largeur constente, dont la hauteur ( en ordonnée ) sont proportionnelle à l’effectif
ou à la fréquence relative de chaque modalité. Preciser le nom des axes, le nom
du graphique et la source des informations. Dans le cas d’une variable qualitative
ordinale, on peut également construire le diagramme en tuyau d’orgue des effectifs

15
CHAPITRE 3. REPRÉSENTATIONS GRAPHIQUES 16

ou des proportions cumulés.

Exemple 9. - Diagrammes en secteurs : chaque modalité est représentée par un


secteur de disque dont l’angle est proportionnel à l’effectif ou à la fréquence de la
modalité (ou pourcentage).
Ces diagrammes conviennent très bien pour des données politiques ou socio-
économiques. Dans un diagramme circulaire (cercle complet), l’effetif total ou la
fréquence relative 1 (ou le pourcentage 100%) correspond à l’angle 360◦ .
Pour représenter les données sur un diagramme semi-circulaire (demi-cercle), il
suffira de calculer les mesures des secteurs angulaires par rapport à 180◦ .

3.2 Les variables quantitatives


Il existe deux types de représentation graphique d’une distribution statistique à ca-
ractère quantitatif :
- Le diagramme différentiel correspond à une représentation des effectifs ou des fré-
quences.
- Le diagramme intégral correspond à une représentation des effectifs cumulés, ou
des fréquences cumulées.

3.2.1 Les variables quantitatives discrètes

- Diagramme différentiel : diagramme en bâtons.


On trace un graphique avec
- sur l’axe des abscisses les différentes valeurs prises par la variable, placées en res-
pectant une échelle,
- en ordonné les fréquences relatives ou les fréquences absolues.
- Pour chaque valeur vj on construit un bâton vertical à l’abscisse vj , de hauteur
proportionnel a la fréquence de la valeur vj .
Exemple : pointure.
Nous appelons polygone statistique, ou diagramme polygonal, la ligne obtenue en
joignant les sommets des bâtons.
- Diagramme intégral : courbe en escaliers des effectifs cumulés ou des fréquences
cumulées.
Fonction de répartition empirique
La fonction de répartition empirique permet de décrire la série statistique de manière
complète.
Elle est définie sur R et prend ses valeurs dans [0, 1]. Pour x dans R, elle est définie
par
CHAPITRE 3. REPRÉSENTATIONS GRAPHIQUES 17





 0 si x < v1

F (x) = Φj si vj ≤ x < vj+1



1 si vk ≤ x

Exemple 10. Pointure

3.2.2 Les variables quantitatives continues

- Diagramme différentiel : histogramme des densités. Sur l’axe des abscisses sont
placées les bornes des classes représentant les modalités en respectant une échelle.
Pour chaque classe, on élève un rectangle de hauteur (ordonnée) proportionnelle à
la densité de proportion ou d’effectif.
Exemple de taille T :

Remarque 3.2.1. On représente la densité de proportion ou d’effectif et non pas les


fréquences relatives ou absolues.

Consequence 1. L’aire d’un rectangle est proportionnelle à la fréquence (absolues ou re-


latives) de la classe correspondante. En effet, pour le rectangle conrespondant à la classe
[bj−1 , bj [ l’aire est

(bj − bj−1 ) × dj = fj .

Dans la pratique, on utilise la règle de construction suivante :


Vérifier si les amplitudes des différentes classes sont identiques.
- Si les amplitudes sont identiques, on représente sur l’axe des abscisse les classes
par des segments de même longueur. On associe à chaque classe un rectangle dont
la hauteur est proportionnelle à l’effectif ou à la fréquence.
- Si les amplitudes sont non identiques, on choisit une unité d’amplitude U et on
construit l’histogramme de telle sorte que la hauteur du rectangle de la classe
ni
[bj−1 , bj [ soit proportionnelle à l’effectif par unité d’amplitude U associé.
ai
- Diagramme intégral : courbe cumulative des effectifs ou des fréquences.
La courbe cumulative des fréquences doit représenter la fonction de répartition de
la variable statistique.
Fonction de répartition empirique
Pour x une valeur dans l’intervalle [bj−1 , bj [, on approche la proportion d’individus
pour lesquels la variable est inférieure ou égale à x par l’aire de l’histogramme entre les
abscisses bj−1 et x notée F (x) :

F (x) = f1 + f2 + · · · + (x − bj−1 ) × dj = Φj−1 + (x − bj−1 ) × dj


CHAPITRE 3. REPRÉSENTATIONS GRAPHIQUES 18

Exemple 11. Fonction de répartition empirique de la variable T .


CHAPITRE 3. REPRÉSENTATIONS GRAPHIQUES 19
CHAPITRE 4

Résumés numériques d’une variable statistique

4.1 Paramètre de tendance centrale


4.1.1 Le mode

Le mode rend compte de l’endroit où les données sont le plus concentrées. Le mode,
noté Mo, est la modalite la plus frequente ou dominante dans la population i.e. celle qui
admet la plus grande frequence : f (M0 ) = max (fi ).
i∈[1,k]

Il est parfaitement defini pour une variable qualitative ou une variable quantitative
discrète.
Pour une variable quantitative continue regroupée en classe, nous parlons de classe
modale : c’est la classe dont la densité de fréquence est maximum.
Si les classes ont même amplitude la densité est remplacée par l’effectif ou la fréquence
et nous retrouvons la définition précédente.
Nous définissons le mode, pour une variable quantitative continue, en tenant compte
des densités de fréquence des 2 classes adjacentes par la méthode suivante :

∆i
M0 = xm + a ×
∆i + ∆ s
avec
xm : limite inferieure de la classe d’effectif (par unité d’amplitude) maximal
a : l’amplitude de la classe modale

20
CHAPITRE 4. RÉSUMÉS NUMÉRIQUES D’UNE VARIABLE STATISTIQUE 21

∆i : Ecart d’effectif (par unité d’amplitude) entre la classe modale et la classe inferieure
la plus proche
∆s : Ecart d’effectif (par unité d’amplitude) entre la classe modale et la classe super-
ieure la plus proche

Exemple 12. Pointure, taille.

Remarque :
Lorsque les classes adjacentes à la classe modale ont des densités de fréquences égales,
le mode coı̈ncide avec le centre de la classe modale.
Le mode dépend beaucoup de la répartition en classes.
Une variable statistique peut présenter plusieurs modes locaux : on dit alors qu’elle
est plurimodale.
Cette situation est intéressante : elle met en évidence l’existence de plusieurs sous-
populations, donc l’hétérogénéité de la population étudiée.

4.1.2 La moyenne

On note {x1 , x2 , . . . , xn } la série statistique. La moyenne est définie par :

n
x1 + x2 + · · · + xn 1X
x= = xi
n n i=1
Exemple 13. Pointure.

Cas d’une variable continue regroupée en classes : la variable X est regroupée dans
les classes [bj−1 , bj [ (1 ≤ j ≤ n), les fréquences relatives associées à ces classe sont notées
fj , 1 ≤ j ≤ n.
Lorsque les données brutes ne sont plus accessibles et qu’on ne dispose que des données
regroupées en classe, on calcule une moyenne approchée grâce à des représentant des
classes(leur centre) : cj = (bj + bj−1 )/2, par la formule :

k
X
xapp = f1 c1 + f2 c2 + · · · + fk ck = f j cj
i=1

Exemple : calcul d’une moyenne approchée de la variable ”taille” à partir du groupe-


ment en classes.
Propriétés de la moyenne : si on fait le changement de variable Y = aX +b (traduction
sur la série statistiques : yi = axi + b, 1 ≤ i ≤ n), alors

y = ax + b
CHAPITRE 4. RÉSUMÉS NUMÉRIQUES D’UNE VARIABLE STATISTIQUE 22

Exemple 14. calcul de la taille moyenne en mètres.

4.1.3 La médiane

La médiane M e correspond au centre des valeurs observées classées par ordre croissant

x(1) ≤ x(2) ≤ · · · ≤ x(n) ,

ou à la valeur pour laquelle 50% des valeurs observées sont supérieures et 50% sont
inférieures.
a) Cas d’une variable discrète :
n+1
- si n est impair, la médiane est la -ième valeur observée : M e = x( n+1 ) .
2 2
n
- si n est pair, une médiane est une valeur quelconque entre la -ième valeur
2
n
observée : x( n ) et la + 1-ième valeur observée : x( n +1) . On parle donc d’in-
2 2 2
tervalle médian. On peut prendre comme médiane x( n ) ou x( n +1) . Mais il peut
2 2
x( n ) + x( n +1)
2 2
être commode de prendre le milieu : M e = .
2
La détermination de la médiane se fait donc à l’aide des effectifs cumulés, des
proportions cumulées ou de la fonction de répartition empirique (graphique-
ment).
Exemple 15. pointure
b) Cas d’une variable continue.
La médiane est définie comme la solution de l’équation :

F (M e) = 0, 5
où F est la fonction de répartion empirique de la variable. On sait que cette solution
existe parce que F est continue, et lim F (x), lim F (x) = 1. Si de plus F
x−→−∞ x−→+∞
est strictement croissante, la solution Me est unique. la méthode pratique est la
suivante :
1. S’il existe une borne de classe bj telle que la proportion cumulée sur la classe
[bj−1 , bj [ exatement 0,5, alors la médiane est ce bj .
2. Sinon, alors il existe une classe [bj−1 , bj [ telle que

F (bj−1 ) < 0, 5 < F (bj ).


Cette classe est la première sur laquelle la frequence cumulée dépasse 0,5. Pour
x ∈ [bj−1 , bj [, F (x) = Φj−1 + (x − bj−1 ) × dj . Mais en particulier :

F (M e) = Φj−1 + (M e − bj−1 ) × dj = 0, 5
d’où
CHAPITRE 4. RÉSUMÉS NUMÉRIQUES D’UNE VARIABLE STATISTIQUE 23

0, 5 − Φj−1
Me = + bj−1
dj
Ou encore, en terme de bj et de F :

0, 5 − F (bj−1 )
Me = × (bj − bj−1 ) + bj−1
F (bj ) − F (bj−1 )
Cette méthode peut se traduire graphiquement ent utilisant le graphe de la
fonction de répartition empirique et le théorème de Thalès.

Exemple 16. médiane de la variable ”taille”, regroupée en classes.

Méthode graphique avec la fonction de répartition empirique

4.2 Quantiles
a) cas d’une variable continue
Soit X une variable quantitative continue, de fonction de répartition empirique F .
On suppose qu’on dispose de la répartition en classe des observations.
Le Quantile d’ordre p de X est la solution notée qp de :

F (qp ) = p.
Cela signifie qu’une proportion d’environ p des observations est inferieur à qp et
qu’une proportion d’environCela signifie qu’une proportion d’environ p des obser-
vations est inferieur à qp et qu’une proportion d’environ 1 − p des données est
supérieure à qp .
Quantiles particuliers
- Quartiles : quantiles correspondant aux proportions multiples de 0,25 (un
quart). On note Q1 le premier quartile, qui correspond à q0,25 , Q3 le troisième
quartile, qui correspond à q0,75 . La médiane est le deuxième quartile Q2 = q0,5 .
- Déciles : quantiles correspondant aux proportions multiples de 0,1 : q0,1 (premier
décile), q0,2 (deuxième décile), etc.
- Percentiles ou centiles : quantiles correspondant aux proportions multiples de
0,01. Par exemple, le 65ème percentile est le quantile q0,65 .
Calcul du quantile qp : même méthode que pour le calcul de la médiane.
1. S’il existe une borne de classe bj telle que la proportion cumulée sur la classe
[bj−1 , bj [ est exatement p, autrement dit : F (bj ) = p, alors qp .
2. Sinon, alors il existe une classe [bj−1 , bj [ telle que

F (bj−1 ) < p < F (bj ).


Cette classe est la première sur laquelle la fréquence cumulée dépasse p. Pour
x ∈ [bj−1 , bj [, F (x) = Φj−1 + (x − bj−1 ) × dj . Mais en particulier :
CHAPITRE 4. RÉSUMÉS NUMÉRIQUES D’UNE VARIABLE STATISTIQUE 24

F (qp ) = Φj−1 + (qp − bj−1 ) × dj = p


D’où

p − F (bj−1 )
qp = × (bj − bj−1 ) + bj−1
F (bj ) − F (bj−1 )
Ou encore, terme des bj et de F :

p − F (bj−1 )
qp = × (bj − bj−1 ) + bj−1
F (bj ) − F (bj−1 )
Exemple 17. troisième quartile de la variable ”taille”
b) cas d’une variable discrète
Comme pour la médiane, il existe diverses manières de définir les quantiles d’une
loi discrète :
comme la fonction de répartition empirique n’est pas continue mais a des paliers,
elle ne prend pas toutes les valeurs entre 0 et 1. Pour une proportion p fixée, on
cherche donc une valeur x telle que F (x) s’approche, en un certain sens, de p. Nous
choisissons la définition suivante :




 v1 lorsque 0 < p ≤ Φ1 = f1






 v2 lorsque Φ1 < p ≤ Φ2



 ...,

qp =



 vj lorsque Φj−1 < p ≤ Φj






 ...,



 vk

lorsque p = Φk = 1
ou qp = x(⌈np⌉) où ⌈np⌉ est le plus petit entier tel que np ≤ ⌈np⌉.
Exemple 18. troisième quartile de la variable ”pointure”.

4.2.1 Utilisation des paramètres de tendance centrale

Robustesse
La médiane est plus robuste que la moyenne : une ou plusieurs données erronnées ne
font pratiquement, voire pas du tout, changer la médiane, alors qu’elles peuvent affecter
considérablement la moyenne.
Assymétrie
La comparaison de la médiane et de la moyenne permet de détecter des assymétries de
données : Si la distribution des valeurs est symétrique, la valeur de la médiane est proche
de la valeur de la moyenne arithmétique. M e =≃ x.
De façon générale on a :
CHAPITRE 4. RÉSUMÉS NUMÉRIQUES D’UNE VARIABLE STATISTIQUE 25

- M0 = M e = x =⇒ distribution symétrique,
- M0 < M e < x =⇒ distribution dissymétrique à gauche,
- M0 > M e > x =⇒ distribution dissymétrique à droite.

4.3 Paramètres de dispersion


Il est possible que deux variables statistiques aient la même valeur centrale mais com-
plètement différentes du point de vue de la concentration ou dispersion des valeurs ob-
servées autour de cette valeur centrale. Il est donc nécessaire de trouver des mesures
permetant d’apprécier la dispersion d’une série statistique ou d’une distribution observée.

4.3.1 L’étendue

Soit xmin la plus petite observation et xmax la plus grande. On définie l’étendue e =
xmax − xmin . Elle a la même unité que l’unité de la variable. Elle n’est pas très informative
car elle ne tient pas du tout compte de la répartition des données à l’intérieur de l’intervalle
[xmin , xmax ].

Exemple 19. étendu de la variable ”taille”

4.3.2 L’intervalle inter-quartile

On appelle intervalle inter-quartile l’intervalle [Q1 , Q3 ], qui contient environ 50% des
observations. La distance inter-quartile Q3 − Q1 est une mésure de dispersion.

Exemple 20. intervalle inter-quartile de la variable ”taille”.

4.3.3 La variance et l’écart-type

La variance est définie par :

n
1X
V ar(X) = (xi − x)2
n i=1

L’expression suivante est la plus pratique pour le calcul de la variance :

n
!
1X
V ar(X) = x2 − (x)2
n i=1 i

Preuve : en développant le carré dans la définition de la variance.


Pour une variable quantitative discrète en prenant la valeur vj un nombre nj de fois
ou (ou avec la fréquence fj ), pour 1 ≤ j ≤ k :
CHAPITRE 4. RÉSUMÉS NUMÉRIQUES D’UNE VARIABLE STATISTIQUE 26

k k
1X
nj (vj − x)2 = fj (vj − x)2
X
V ar(X) =
n j=1 j=1

   
k k
1X
nj vj2  − (x)2 =  fj vj2  − (x)2
X
=
n j=1 j=1

Dans le cas le cas d’une variable continue pour laquelle on dispose seulement des
données regroupées en classes, on peut faire un calcule approché similaire à celui de la
moyenne approchée xapp On calcule une valeur approchée de la variance, notée V arapp (X).
Toutes les expressions qui suivent sont équivalentes.

k k
1X 2
fj (cj − xapp )2
X
V arapp (X) = nj (cj − xapp ) =
n j=1 j=1

   
k k
nj c2j  − (xapp )2 =  fj c2j  − (xapp )2
X X
=
j=1 j=1

où cj est le centre de la j-ème classe, dotée de l’effectif nj (ou de la fréquence relative
fj ).
Propriétés de la variance
- La variance est toujour positive ou nullle. Elle est nulle si et seulement si toutes
les observation sonts identiques :
n
1X
(xi − x)2 ⇐⇒ ∀i, xi − x = 0
n i=1
- L’untité de la variance est l’untié de X au carré.
L’écart-type σX est défini par :

q
σX = V ar(X)

Propriété : l’unité de σX est l’unité de X.


Plus σX est grand, plus les modalités sont dispersées.

Exemple 21. variance et ecart-type de la variable ”pointure”, de la variable ”taille”.

Le coefficient de variation
La comparaison des dispersions de deux séries statistiques peut se faire grâce aux
écart-types lorsque ses séries ont des moyennes du même ordre de grandeur et ne contient
CHAPITRE 4. RÉSUMÉS NUMÉRIQUES D’UNE VARIABLE STATISTIQUE 27

pas de valeurs aberrantes. Dans le cas contraire, on peut utiliser le coefficient de variation
défini par

σX
CV = .
x
Ce paramètre est une mesure relative de dispersion et permet une interprétation plus
appropriée. On l’exprime en général en pourcentage.

4.4 Changement de variable linéaire ou affine - Variable


centrée réduite
4.4.1 Changement de variable linéaire ou affine

On considère une variable quantative X et on lui faire subir une application affine qui
la transforme en une variable Y . a et b sont des constantes réelles
Nouvelle variable Y Observations yi Moyenne de Y Variance de Y Ecart-type de Y
Y = aX yi = axi y = ax V ar(Y ) = a2 V ar(X) σY = |a|σX
Y =X +b yi = x i + b y =x+b V ar(Y ) = V ar(X) σY = σX
Y = aX + b yi = axi + b y = ax + b V ar(Y ) = a2 V ar(X) σY = |a|σX

4.4.2 Variable centrée réduite

q
On considére une variable X de moyenne x et de variance V ar(x), d’écart-type σX =
V ar(X).
On définit une nouvelle variable

X −x
Y =
σX
Elle est sans unité. Cette variable est appelée variable centrée réduite associée à X.
En effet, elle est :
x−x
- centrée : y = = 0.
σX
V ar(X)
- réduite : V ar(Y ) = = 1.
V ar(X)
Quand on transforme une variable en la variable centrée réduite associée, on retire
à cette variable toute l’information concernant son échelle ou unité, et sa localisation. Il
ne reste plus que des informations sur la forme de la distribution. Cette transformation
permet de comparer plusieurs variables sur le plan de la forme, même si ce sont des
variables exprimées dans des échelles différentes ou qui ont des moyennes complètement
différentes.
CHAPITRE 4. RÉSUMÉS NUMÉRIQUES D’UNE VARIABLE STATISTIQUE 28

Exemple 22. Variable centrée réduite associée à la variable ”pointure”, à la variable


”taille”.

Autre utilisation : Etant donné un individu i pour lequel la variable prend la valeur
xi , on peut situer cet individu dans l’ensemble des observations en calculant son écart à
la moyenne réduit :

xi − x
σX
Exemple 23. quel est l’écart à la moyenne, mesuré en écart-types, d’un individu mesurant
177 cm ?

4.5 Boı̂tes à moustaches


La boı̂te à moustaches est une représentation graphique qui permet de visualiser les
quartiles ainsi que la dispersion des données et de repérer les données extrêmes ou outliers.
Elle se fait couramment pour les variables quantitatives continues ou pour les variables
quantitatives discrètes prenant un grand nombre de valeurs différentes. En revanche, elle
n’a pas beaucoup d’intérêt pour une variable discrète prenant peu de valeurs différentes.
Elle est constituée :
- d’une boı̂te dont les bornes sont les premier et troisième quartile Q1 et Q3 . A
l’intérieur de la boı̂te figure la médiane Q2 .
- de moustaches. On définit tout d’abord deux bornes : m− = Q1 − 1, 5(Q3 − Q1 )
et m+ = Q3 + 1, 5(Q3 − Q1 ). On note minf la plus petite observation supérieure à
m− , et msup la plus grande observation inférieure à m+ . Soit :

minf = min{xi : xi ≥ m− }

msup = max{xi : xi ≤ m+ }
La moustache inférieure est le segment [minf , Q1 ]. La moustache supérieure, de la
même manière, est le segment [Q3 , msup ]
- des donnée extrêmes éventuelles : les observations qui sont en dehors de la boı̂te et
des moustaches, c’est à dire : supérieures à m+ ou inférieures à m+ ou inférieures
à m− . On place ces données une à une quand on en dispose.

Remarque :
CHAPITRE 4. RÉSUMÉS NUMÉRIQUES D’UNE VARIABLE STATISTIQUE 29

- Une boite et des moustaches courtes indiquent que la série est assez concentrée
autour de sa médiane.
Au contraire une boite et des moustaches longues indiquent que la série est assez
dispersée.
L’examen de la boite à moustaches permet d’avoir une idée de la symétrie de la
distribution selon que la boı̂te et les moustaches sont symétriques ou, au contraire,
de plus petite amplitude à gauche (asymétrie à gauche) ou à droite (asymétrie à
droite).
- La représentation peut aussi se faire vertcalement, d’où l’appelation de ”boite à
pattes”.

Exemple 24. Boı̂te à moustache de la variable ”taille” à partir de la série statistique


de 20 observations.
Dans le cas où on ne dispose pas des données brutes mais seulement des données
regroupées en classes, on utilise les extrémités b0 et bk de la première et de la k-ème
classe.
- la limite inférieure minf de la moustache inférieure est max{m −, b0 } et la limite
supérieure msup de la moustache supérieure est min{m+ , bk }.
- On ne peut pas placer les données extrêmes, sauf si elles sont fournies en plus.
Exemple 25. Boı̂te à moustaches de la variable ”taille” à partir des données re-
groupées.
CHAPITRE 4. RÉSUMÉS NUMÉRIQUES D’UNE VARIABLE STATISTIQUE 30
CHAPITRE 5

Liaison entre deux variables

5.1 Généralités
On observe une série statistique {(x1 , y1 ), . . . , (xn , yn )} composée de n couples d’obser-
vations d’un couple de variables (X, Y ). On suppose que X a I modalités notées C1 , . . . , CI
et Y a J modalités et Y a J modalités notées D1 , . . . , DJ . Pour 1 ≤ i ≤ I et 1 ≤ j ≤ J,
on note nij l’effectif des couples d’observations égaux à (Ci , Dj ).

5.1.1 Tableau de contingence

Dans le tableau de contingence, on regroupe les effectifs nij . On peut compléter le


tableau de contingence en ajoutant les totaux en lignes et en colones.
J
On note ni = ni1 + · · · + nIJ =
P
nij le total sur la ligne i de la table de contingence,
j=1
I
nj = ni1 + · · · + nIJ =
P
nij le total sur la colonne j de la table de contigence.
i=1

Y
D1 D2 ... Dj Total
X
C1 n11 n12 ... n1J n1
C2 n21 n22 ... n2J n2
... ... ... ... ... ...
CI nI1 nI2 ... nIJ nI
Total n.1 n.2 ... n.J n

Exemple 26. L’INSEE fournit les données suivantes relatives à la situation professionnelle

31
CHAPITRE 5. LIAISON ENTRE DEUX VARIABLES 32

des personnes habitant en France en 2006, immigrées ou non immigrées.


situation quant à l’immigration
Immigrés Non immigrés Ensemble
Situation professionnelle
Actif ayant un emploi 2223906 23895180 26119096
Chômeur 559201 2845339 3404540
Retraité ou préretraités 963333 11901857 12865190
Elèves, étudiants, stagiaire 321533 4999097 5320630
Femme ou homme au foyer 486427 1926779 2413206
Ensemble 5137416 58048681 63186098

Remarque 5.1.1. La définition d’un immigré selon le Haut conseil à l’immigration,utilisée


pour cette étude, est une personne née étrangère à l’étranger et résidant en France.

5.1.2 Distribution marginale

La distribution marginale de la variable X est la donnée des effectifs marginaux


n1 ., . . . , nI .. C’est la distribution de la variable X. On peut la présenter dans un tableau
et calculer les fréquences (fi. = ni. /n), qui sont les proportions associée à chaque modalité
de la variable X. On peut calculer de même la distribution marginale de la variable Y .
Distribution marginale de X :
X C1 ... CI Total
Effectif n1. ... nI. n
Proportion f1. = n.1 /n ... fI. = nI. /n 1
Distribution marginale de Y :
X D1 ... DI Total
Effectif n1. ... nI. n
Proportion f1. = n.1 /n ... fJ. = nJ. /n 1

Exemple 27. Situation professionnelle de la population en France en 2006

5.1.3 Distribution conditionlle

a) Profils-lignes
La distribution conditionelle de Y sachant la modalité de Ci de X est la distribution
dont les proportions sont données dans le tableaux suivant :
Y|X=Ci D1 ... DI Total
Proportion ni1 /ni . . . niJ /ni 1
Une telle distribution est appelée profil-ligne. L’ensemble des profils-lignes peut
être présenté dans un tableau :
CHAPITRE 5. LIAISON ENTRE DEUX VARIABLES 33

YX
D1 D2 ... DJ Total
X
C1 n11 /n1 . n12 /n1. . . . n1J /n1 . 1
C1 n21 /n2 . n22 /n2. . . . n2J /n2 . 1
... ... ... ... ... ...
CI nI1 /nI . nI2 /nI. . . . nIJ /nI . 1
Exemple 28. Distribution conditionnelle de la variable ” Situation quant à l’im-
migration” sachant la modalité ” Actifs ayant un emploi” en France en 2006, ou :
situation quant à l’immigration des actifs ayant un emploi en France en 2006.
b) Profils-colones
De même, l’ensemble des distributions conditionnelles de X sachant les modalités
de Y est l’ensemble des profils-colonnes, que l’on peut présenter dans le tableau
suivant :
Y
D1 D2 ... DJ
X|Y
C1 n11 /n.1 n12 /n.2 . . . n1J /n.J
C1 n21 /n.1 n22 /n.2 . . . n2J /n.J
... ... ... ... ...
CI nI1 /n.1 nI2 /n.2 . . . nIJ /n.J
Total 1 1 ... 1
Exemple 29. Ensemble des profils-colonnes du couple de variables ”Situation pro-
fessionnelle” et ”Situation vis-à-vis de l’immigration”

5.2 Laison linéaire entre deux variables quantitatives


Les valeurs distintes de X et Y sont représentées respectivement par x1 , . . . , xp et
y1 , . . . , yq On désigne par nij l’effectif associé à l’observation (xi , yj ) et par fij la fréquence
associée :
y1 ... yj ... yq Total
x1 n11 ... n1j ... n1q n1.
.. .. .. .. .. ..
. . . . . .
xi ni1 ... nij ... niq ni.
.. .. .. .. .. ..
. . . . . .
xp np1 ... npj ... npq np.
Total n.1 ... n.j ... n.q n
Avec

q
X p
X q X
X q p
X q
X
ni. = nij ; n.j = nij ; nij = ni. = n.j = n
j=1 i=1 i=1 j=1 i=1 j=1
CHAPITRE 5. LIAISON ENTRE DEUX VARIABLES 34

5.2.1 Moyennes et variances marginales

p p
1X 1X
X:x= ni. xi ; s2 (X) = ni. (xi − x)2
n i=1 n i=1

q q
1X 1X
Y :y= n.j yj ; s2 (Y ) = n.j (yi − y)2
n j=1 n j=1

5.2.2 Moyennes et variances conditionnelles

p p
1 X 1 X
X | Y=yj : xj = nij xi ; s2j (X) = ni. (xi − x)2 .
n.j i=1 n.j i=1

q q
1 X 1 X
Y | X=xj : yi = nij yj ; s2i (Y )= nij (yj − y i )2 .
n.i j=1 n.i j=1

5.2.3 Covariance

Definición 5.2.1. On définit la covariance de X et de Y par :

p X q
1X
Cov(X, Y ) = nij [(xi − x)(yj − y)].
n i=1 j=1

L’unité dans est exprimée la covariance est le produit des unités de X et de Y .

Remarque 5.2.1. Lien avec la variance : Cov(X, X) = V ar(X)

Remarque 5.2.2. Formule pratique :

 
p X q
1X
Cov(X, Y ) =  nij xi yj  − xy.
n i=1 j=1

Propriétés 5.2.1. Changement d’échelle : soient a, b, c, d des constantes réelles. On a

Cov(aX + b, cY + d) = acCov(X, Y ).

Proposition 5.2.1. Expression de la variance d’une somme de variables :

V ar(X + Y ) = V ar(X) + V ar(Y ) + 2Cov(X, Y ).

Proposition 5.2.2. Inégalité de Cauchy-Schwarz :

∥Cov(X, Y )∥ ≤ σX σY .
CHAPITRE 5. LIAISON ENTRE DEUX VARIABLES 35

Preuve : Pour tout réelle a, on peut développer grâce à la proposition 1 la quantité


V ar(X + aY ) :

V ar(X + aY ) = V ar(X) + V ar(aY ) + 2Cov(X, aY )

= V ar(X) + a2 V ar(Y ) + 2aCov(X, Y ) par la propriété 5.2.1 (5.1)

≤0

Le polynôme du second degré en a étant de signe constant, son discriminant est négatif
ou nul :

4(Cov(X, Y ))2 − 4V ar(X)V ar(Y ) ≤ 0,

d’où l’égalité recherchée.


Remarquons au passage que le cas d’égalité se produit lorsque le discriminant de
l’équation 5.1 est nul. Dans ce cas, l’équation admet une racine double :

2Cov(X, Y ) Cov(X, Y )
a=− =−
2V ar(Y ) V ar(Y )

 σ
X

− si Cov(X, Y ) = +σX σY



 σY
=

 σX
si Cov(X, Y ) = −σX σY



σY
σX
Dans le premier cas, cela signifie que X − Y a une variance nulle, donc est une
σY
constante, d’où

σX
X= + constante.
σY
Ces deux cas sont les seuls cas d’égalité dans la proposition 5.2.2. Ils correspondent
au fait que les variables Y et Y s’obtiennent l’une à partir de l’autre par une application
affine.

5.2.4 Coefficient de corrélation

Definición 5.2.2. Le coefficient de corrélation r(X, Y ) est défini par :


CHAPITRE 5. LIAISON ENTRE DEUX VARIABLES 36

Cov(X, Y )
r(X, Y ) = .
σX σY
C’est un coefficient sans unité. Sa valeur absolue est invariante par translation et
changement d’échelle des variables : pour toutes constantes réelles a ̸= 0, b, c ̸= 0, d,

ac
r(aX + b, cY + d) = r(X, Y ).
|ac|
Propriétés 5.2.2. il découle de la proposition 5.2.2 que

−1 ≤ rr(X, Y ) ≥ 1.

De plus, les cas de l’égalité sont les suivantes :


• r(X, Y ) = 1 si et seulement si les deux variables satisfont une relation affine du
type Y = aX + b avec a > 0.
• r(X, Y ) = −1 si et seulement si les deux variables satisfont une relation affine du
type Y = aX + b avec a < 0.

Lorque le nuage des points (xi , yi ) est exactement situé sur une droite (cas idéal), on
est dans la situation où r(X, y) = ±1. Lorsque r(X, Y ) est proche de ±1 (pour fixer les
idées : |r(X, Y )| ≥ 0, 8, alors il y’a une laison linéaire importante entre X et Y . Lorsqu’au
contraire r(X, Y ) est proche de 0, alors il n’existe pas de relation linéaire entre X et Y .
Attention, il peut y avoir quand même un autre type de laison entre X et Y .

5.2.5 Régression linéaire

On suppose à présent que les observations du couple de variable (X, Y ) satisfont une
relation de la forme suivante,

yi = axi + b + ϵi , i = 1, . . . , n, (5.2)

où a et b sont des coefficients réels. Le terme ϵi désigne un bruit, c’est à dire une
pertubation supposée petite. Dans ce cours, on ne cherchera pas à donner un sens précis a
la mesure de ce bruit. Disposant des observations (xi , yi )ni=1 du couple (X, y), on cherche à
trouver les coefficients a et b qui permettent le mieux d’ajuster les données à une relation
du type (5.2), au sens du critère des moindres carrés. On cherche

n
(yi − b − axi )2
X
min (5.3)
a,b
i=1

La solution, qui s’obtient en annulant les dérivées partielles de la fonction de (a, b) qui
est minimisée en (5.3), est
CHAPITRE 5. LIAISON ENTRE DEUX VARIABLES 37

Cov(X, Y )
â =
V ar(X)

b̂ = y − âx,

où x et y désigne les moyennes respective de X et Y . La droite des moindres carrés


est la droite d’équation y = âx + b̂. On peut remarquer qu’elle passe toujours par le
barycentre (x, y) du nuage de points. Sa pente peut aussi s’écrire à l’aide du coefficient
σX
de corrélation : â = r(X, y) .
σY
Prediction
Pour une valeur x0 de la variable X qui ne fait pas partie des observations, on peut
faire une prédiction de la valeur correspondante de Y en calculant l’ordonnée du point
d’abscisse x0 sur la droite des moindres carrés :

y0 = âx0 + b̂a

5.2.6 Régression linéaire aprés transformation d’une variable

On suppose que les observations (xi , yi )ni=1 satisfont une rélation de type

yi = af (xi ) + b + ϵi ,

Pour une certaine fonction f donnée et de bruit ϵi . On peut estimer les coefficients de
la droite de régression de Y sur f (X) par la méthode décrite auparavant.

5.3 Liaison entre deux variables qualitatives


5.3.1 Mesure de la liaison entre deux variables qualitatives

Compairaison qualitative des profils-lignes ou des profils-colones


Il y’a indépendance stricte entre X et Y lorsque tous les profils-lignes sont identiques.
Il sont dans ce cas tous identiques à la distribution marginal de Y .
De la même manière, l’indépendance a lieu lorsque tous les profils-colonnes sont égaux
à la distribution marginale de X.
Ceci implique : pour tous i, j,

ni. n.j
nij = (5.4)
n
Preuve :
CHAPITRE 5. LIAISON ENTRE DEUX VARIABLES 38

La distance du X 2 pour mesurer l’écart à l’indépendance


Dans la pratique, cette indépendance stricte ne s’observe jamais sur un échantillons.
On peut être plus ou moins éloigné de cette situation parfaite. La distance du X 2 d’écart
à l’indépendance permet de mesurer le degré de dépendance entre X et Y . Elle se base
ni. n.j
sur la comparaison entre nij et .
n
Definición 5.3.1. La distance du X 2 observée sur la série statistique {(x1 , y1 ), . . . , (xn , yn )}
est définie par

 2 
ni. n.j
I X J  nij −
n

X2 =
X  

 ni. n.j 

i=1 j=1
n
Exemple 30. Distance du X 2 pour mesurer l’écart à l’indépendance entre les variables
”situation quant à l’immigration” et ”situation professionnelle” en France 2006.

Propriétés 5.3.1. - la grandeur X 2 = 0 si il y a indépendance stricte entre X et Y .


- la grandeur X 2 est d’autant plus élevée que la laison est forte : il existe alors des
ni. n.j
cellules (i, j) avec une écart important nij − .
n
- l’inégalité suivante est toujours vérifiée :

X2
≤ min{I − 1, J − 1}.
n
Definición 5.3.2. On appelle contribution au X 2 du couple de modalités (Ci , Dj ) et (X, Y )
ni. n.j 2
 
nij −
la quantité n .
ni. n.j
n
Plus la contribution est forte, plus la laison entre les modalités Ci et Dj est importante.
ni. n.j
Definición 5.3.3. L’association entre les modalités Ci et Dj est dite positive si nij − >
n
ni. n.j
0. Elle est négative si nij − < 0.
n
Exemple 31. Liaison entre la modalité ”Elèves, étudiants, stagiaires” de la variable ”Si-
tuation professionnelle” et la modalité ”Immigrés” de la variable ”Situation quant à ’im-
migration”.

Definición 5.3.4. Le coefficient C de Cramer est défini par :

v
X2
u
u
C= t .
n. min{I − 1, J − 1}
Propriétés 5.3.2. - C = 0 lorsqu’il y a indépendance. De petites valeurs de C signient
que la liaison entre X et Y est trés faible. Des valeurs proches de 1 signifient qu’il
y a une forte liaison entre X et Y .
CHAPITRE 5. LIAISON ENTRE DEUX VARIABLES 39

- Ce coefficient, qui varie entre 0 et 1, permet de comparer la laison entre plusieurs


couples de variables.

Exemple 32. Calcul du C de Cramer pour mesurer l’écart à l’indépendance entre les
variables ”Situation quant à l’immigration” et ” Situation professionnelle” en France en
2006.

5.3.2 Représentation graphique

a) Distribution joint
Exemple 33. Diagramme en barres de la distribution jointe des variables ”Situation
quant à l’immigration” et ”Situation professionnelle”.
b) Distribution conditionnelle
Exemple 34. Diagramme en barres de la distribution de la variable ”Situation pro-
fessionnelle” sachant la variable ”Situation quant à l’immigration”.

5.4 liaison entre variable qualitative et une variable quan-


titative
On observe des couples {(xi , yi ), 1 ≤ i ≤ n} d’observations du couple de variable
(X, Y ) avec :
- X qualitative à I modalités : C1 , . . . , CI
- Y quantitative, discrète ou continue,avec donnée brutes ou regroupées en classes.

5.4.1 Classement des données et distributions marginales

La distribution marginale de X est la distribution associée à la série statistique


(x1 , . . . , xn ) (varriable qualitative). La distribution marginale de Y est est la distribution
associée à la série statistique (y1 , . . . , yn ) variable quantitative). On note y la moyenne
marginale ne la variable Y et de σY2 sa variance marginale.
On note n1. , . . . , nI. . les effectifs marginaux de la variable X. C’est-à-dire : n1. est l’ef-
fectif des observations pour lesquelles X prend la modalité C1 , etc...on peut regrouper les
couples d’observations (xi , yi ) qui comportent la même modalité xi . Après regroupement,
on obtient la nouvelle énumération :

(x11 , y11 ), (x12 , y12 ), . . . , (x1n1. , y1n1. ) = (C1 , y11 ), (C1 , y12 ), . . . , (C1 , y1n1. )
(x21 , y21 ), (x22 , y22 ), . . . , (x2n2. , y2n2. ) = (C2 , y21 ), (C2 , y22 ), . . . , (C2 , y2n2. )
...
(xI1 , yI1 ), (xI2 , yI2 ), . . . , (xInI. , yInI. ) = (CI , yI1 ), (CI , yI2 ), . . . , (CI , yInI. )

Vous aimerez peut-être aussi