Cours Du Statistique
Cours Du Statistique
Cours Du Statistique
Introduction générale
1. Méthodes de présentation
a- Tableau statistique simple
b- Graphiques
2. Paramètres de position
a- Mode
b- Médiane
c- Moyenne arithmétique
3. Paramètres de dispersion
a- Variance - écart type
b- les quartiles
c- Coefficient de variation
4. Paramètres de concentration
a- Courbe de concentration
b- Indice de concentration
C- Médiale
Chapitre 2 : Distributions statistiques doubles
1. Tableau de contingence
2. Distributions marginales – caractéristiques marginales
a- Distributions marginales
b- Caractéristiques marginales
3. Distributions conditionnelles – caractéristiques conditionnelles
a- Distributions conditionnelles
b- Caractéristiques conditionnelles
1. Méthodes de présentation
2. La droite des moindres carrés
3. Le coefficient de corrélation linéaire
Généralités sur la statistique
Aussi loin que l'on remonte dans le temps et dans l'espace, les États ont toujours senti le
besoin de disposer d'informations sur leurs populations, sur les ressources dont ils disposent
ou sur les biens qu'ils produisent (les recensements de population et des ressources). La
statistique est restée purement descriptive jusqu'au 18ème siècle.
Au 20ème siècle et depuis les années soixante la statistique a connu un essor considérable,
applications multiples (la médecine, la physique, l’industrie…).
La statistique fait partie de ce qu’on appelle aujourd’hui la science des données (data science.
Elle a pour objectif l’étude des phénomènes à travers la collecte de données, leur traitement,
leur analyse, l’interprétation des résultats et leur présentation afin de rendre ces phénomènes
compréhensibles.
2- Notion de la statistique
La statistique descriptive est une méthode qui vise la description quantitative des ensembles
nombreux.
Une méthode : méthode qui décrit contrairement à la théorie qui essaie d’expliquer ; il
s’agit donc d’une simple observation des phénomènes ;
Remarque :
Il convient de distinguer entre la statistique, la science et les statistiques l’ensemble des données
numériques relatives à un phénomène particulier (les statistiques du commerce extérieur, du
chômage…).
3- Vocabulaire statistique
Population : l’ensemble que l'on observe et qui fera l’objet de l’analyse statistique
(champ de l’étude).
Exemple
Caractères X - la catégorie socio professionnelle
- le nombre d’enfants par ménage
- le salaire mensuel
Modalités Mi - la catégorie socio professionnelle : ouvriers, technicien supérieur, ingénieur…
- le nombre d’enfants par ménage : 0, 1, 2 …
- le salaire mensuel : [2500, 4000[, [4000, 6000[…[40000, 60000[
Différents types de variables statistiques :
variable qualitative dont les modalités ne sont pas mesurables (exemple: secteur
d’activité, opinions politiques, nationalité...). Elle peut être ordonnée ou non,
dichotomique ou non. Lorsque les modalités prises par la variable ne sont pas
ordonnables la variable est nominale. Une variable dont les modalités prises sont
ordonnables est ordinale.
Variable quantitative dont les modalités peuvent être exprimées numériquement
ou mesurables. Dans ce cas, elle peut être discontinue ou continue.
- Elle est discontinue (discret)si elle ne prend que des valeurs isolées les unes
des autres (en pratique, ces valeurs seront le plus souvent entières. Exemple:
nombre d'enfants par ménage, le nombre de salariés des entreprises…).
- Elle est dite continue lorsqu'elle peut prendre toutes les valeurs d'un intervalle
fini ou infini de IR (exemple : salaires, le chiffre d’affaires, la taille...).
On cherche dans ce chapitre à présenter sous forme de tableau, à visualiser la façon dont ces
données sont réparties et à résumer ces données au moyen des caractéristiques synthétiques.
N est le nombre des individus qui composent cette population appelé effectif total (ou taille) de
la population.
Soit X un caractère statistique supposé à k modalités désignées par : M1, M2 ,…, Mi,…,Mk
On étudie cette population suivant le caractère X. les données relatives à cette distribution peuvent
être groupées dans le tableau suivant :
Où
ni est l’effectif de la modalité xi qui donne le nombre d'individus ayant cette modalité.
ni N
i 1
fi est la fréquence de la modalité xi ,qui donne la proportion (le pourcentage ou la part) des
individus présentant cette modalité, donnée par :
n
fi Ni
∑ fi = 1
i=1
Dans ce cas les modalités du caractère sont des variantes non mesurables qu’on note M 1, M2…Mi,
…,M k
Exemple1:
Trois frères dirigent une entreprise de confection. L’effectif du personnel, y compris les trois
présidents directeurs, est de 120 personnes. La répartition du personnel par catégorie socio-
professionnelle est la suivante :
Ni-1 = n1 + n2 +…+ni-1
Ni = n1 + n2 +…+ni-1 +ni = Ni-1 + ni
Ni = Ni-1 + ni
Fi donne la proportion des individus ayant une valeur du caractère inférieure ou égale à x i
Fi = f1 + f2 +…+fi-1 + fi
Fi = Fi-1 + fi
Et on a Nk = N et Fk = 1 (ou 100%)
Exemple 2 :
Le tableau suivant correspond à la distribution de 350 selon le nombre d’enfants par ménage :
Pour un caractère quantitatif continu les modalités sont des classes de valeurs de la forme ]e 0,
e1], ]e1, e2],…]ei-1, ei] …]ek-1, ek]. X est à k modalités on aura donc k classes.
On note par :
ni : l’effectif de la ième modalité qui donne le nombre des individus ayant une valeur du caractère
située dans la classe ]ei-1, ei] ;
Ni : l’effectif cumulé jusqu’à la ième classe qui donne le nombre des individus qui ont une valeur du
caractère inférieure ou égale à ei ;
Exemple 3 :
Remarque:
Les individus sont considérés répartis uniformément entre les deux bornes.
Les représentations graphiques constituent une étape importante dans une étude statistique. Elles
permettent de communiquer des informations à l’aide des visualisations graphiques.
Les graphiques à utiliser varient suivant la nature du caractère étudié. Un graphique doit être
parfaitement renseigné : titre clair, légende, grandeurs représentées, échelle choisie…
Caractère qualitatif :
Dans ce cas deux représentations graphiques sont les plus fréquentes le diagramme sectoriel
(ou à secteurs circulaires), le diagramme en barres (ou en tuyaux d'orgue). Le principe est de
représenter des aires proportionnelles aux effectif (ou aux fréquences) des modalités du
caractère statistique.
- Diagramme en barres :
Les modalités sont représentées par des rectangles de même base et de hauteur proportionnelle à
leurs effectifs (ou fréquences).
80
70
60
50
40
30
20
10
0
ouvriers employés techniciens ingénieurs Présidents
- Diagramme sectoriel :
Chaque modalité est représentée par un secteur dont l’angle Oi est proportionnel à l’effectif (ou à la
fréquence) de la modalité concernée. L’angle Oi = 360° x fi = 360 x ni /N
Catégories socio professionnelles des 120
salariés
Ouvriers
Employés
Techniciens
Ingénieurs
Directeurs
- Diagramme en bâtons :
Le diagramme en bâtons est représenté dans un repère orthogonal. On porte en abscisses les
valeurs des modalités et en ordonnés les effectifs (ou bien les fréquences). Chaque modalité est
représentée par un bâton de hauteur proportionnelle à l’effectif ou à la fréquence de la modalité
considérée.
Exemple :
On considère les données de l’exemple 2 (l’étude des ménages suivant le nombre d’enfants) :
160
140
120
100
80
Effectifs
60
40
20
0
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
Nombre d'enfants
140
120
100
80
60
40
20
0
0 1 2 3 4
Remarques
1- On obtient le polygone des effectifs (ou des fréquences) en reliant les sommets des bâtons.
2- Dans le cas discret on se limite uniquement au diagramme en bâtons.
3-Le diagramme cumulatif est la représentation graphique d’une fonction F, appelée fonction de
répartition de la variable statistique.
Remarques :
1- Pour tracer l’histogramme dans le cas ou les amplitudes sont inégales, il faut passer par la
correction des effectifs (ou des fréquences).
Pour corriger les effectifs il faut :
a- Choisir une amplitude unitaire au (au est l’amplitude qui apparait le plus grand nombre de
fois possible) ;
b- Déterminer pour chaque classe le coefficient de correction :
COi = au / ai ;
c- Calculer la fréquence (ou l’effectif) corrigée :
f’i = COi . fi (n’i = ni . COi).
2- Pour des raisons de stabilité de l’histogramme, il est conseillé d’avoir des effectifs
suffisants dans chaque classe. On recommande souvent d’avoir des effectifs voisins. Les
limites de classes correspondent alors à des quantiles. Ce choix conduit souvent à des
classes d’amplitude différentes.
La courbe cumulative ( ou polygone des fréquences cumulées ) est obtenue en reliant les
points dont les abscisses représentent la borne supérieure de chaque classe et les ordonnées
les fréquences cumulées correspondantes (les points (ei , Fi) ou (ei , Ni)).
Exemple :
On considère l’exemple 3 :
Le tableau ci-dessous présente la répartition des salariés d’une entreprise suivant le salaire mensuel
exprimé en milliers de dirhams :
La courbe cumulative croissante, représentant la distribution des salaries des 250 salariés, se
présente comme suit :
200
150
100
50
0
4 8 12 16 20 24
La courbe cumulative croissante est continue qui croit de 0 à N ( ou de 0 à 100%) si elle est
représentée en terme des effectifs cumulés croissants (si elle est représentée en terme des
fréquences cumulées croissantes).
1- Le mode m
Exemples :
- Cas discret ( voir exemple 2) :
Le tableau suivant correspond à la distribution de 350 selon le nombre d’enfants par ménage :
L’effectif le plus élevé est n5 = 150 donc le mode m = 4 c.à.d. la plupart des ménages ont 4 enfants.
L’effectif le plus élevé est 150 qui correspond à la 3ème classe c.à.d. que le plus grand nombre de
salariés touchent entre 12 et 16 milliers DHS. 12-16 est la classe modale.
2-La médiane
La médiane, désignée par Me, est la valeur du caractère qui partage en deux groupes
de même effectif les individus d’une population supposée rangée par valeur croissante du
caractère.
50% des observations sont inferieures ou égales à la médiane ; et l’autre moitié est
supérieure à la médiane.
La médiane est la valeur du caractère telle que : F(Me) = 50% (ou bien N (Me) = N/2)
On sait par définition que F(Me) = 0.5 ,où F est la fonction cumulative croissante. On
détermine alors un intervalle médian (intervalle contenant la médiane), puis on procède à
l'intérieur de cette classe à une interpolation linéaire.
Exemples :
On calcule les effectifs cumulés croissants ( ou bien les fréquences cumulées croissantes)
On sait que N( Me) = N /2 = 350 /2 = 175
On remarque que : 105 ≤ N(Me) = 175 ≤ 200
Donc : dans ce il n’y a pas de point médian. On a un intervalle médian (2,3)
Cas continu (Voir l’exemple 3)
De la même manière que dans la cas discret on commence par le calcul des effectifs ( ou bien des
fréquences) cumulés croissant ;
On sait par définition que : N(Me) = N /2 = 250/2 = 125
On remarque que : 90 = N(12) ≤ N(Me) = 125 ≤ 184 = N(16)
12 ≤ Me ≤ 16
En appliquant la formule d’interpolation linéaire en termes des effectifs:
X = ∑ xi/N
Remarque: Dans le cas d’un caractère continu, on remplace les xj par les centres des classes ci.
Exemples :
Ajouter une nouvelle colonne au niveau du tableau statistique : ni xi et calculer le total de cette
colonne :
X = ∑ni xi/N = 1030/ 350 = 2, 92≅ 3 ; il s’agit des enfants, on arrondi à l’entier le plus proche : 3
Pour calculer la moyenne il faut calculer les centres des classes (ci ) et par la suite la colonne nici
Remarques:
1- les moyennes de deux variables statistiques en correspondance linéaire sont liées par la même
correspondance :
Soient X et X’ deux caractères statistiques tels que :
___ __
Si X’ = a X + b alors X ' = a X + b
__
Exemple
x A= ∑ xi /N = 11 et x B = 11
Le mode :
m A = 13 et m B = 13
La médiane :
Le rang de la médiane est (N + 1)/2 = 4 si N est impair ( si n est pair rang(Me) N/2)
Me A = 12 et Me B = 12
On remarque que les deux séries de notes ont les mêmes paramètres de position alors qu’elles sont
profondément différentes (les notes de B sont plus dispersées que celle de A).
Donc, les paramètres de position sont insuffisants pour décrire une distribution il faut les compléter
en déterminant les paramètres de dispersion.
1- L’étendue
La variance
C'est la caractéristique de dispersion la plus utilisée, donnée par la moyenne du carré des écarts des
observations par rapport à la moyenne :
k
V(X) = ∑ ¿¿ ¿ ¿ ¿
i=1
Remarques
1- Dans le cas d’une variable statistique continue, on remplace xi par ci le centre de la ième classe.
2- La variance est donc toujours positive ou nulle.
V(x) =
∑ xi2 - x 2
1=1
N
2ème cas: série d’observations groupées
k
V(x) =
∑ ¿ xi2 - x 2
1=1
N
= ∑fi xi2 - x 2
Ecart type
Par définition, l’écart type d’une série statistique est la racine carrée de la variance
appelé aussi écart quadratique moyen. On le note : x = √ V (X )
L'écart type est homogène à la variable statistique et s'exprime dans la même unité, à la
différence de la variance qui correspond à un carré. Il permet de mesurer la dispersion de la
distribution statistique autour de sa valeur moyenne.
3- Le coefficient de variation :
Le coefficient de variation d’un caractère X est défini par le rapport entre l’écart type et la moyenne :
σx
CV(X) =
x
C’est un indicateur sans dimension, son but est de comparer la dispersion des séries statistiques.
On appelle quartiles des valeurs du caractère qui partagent la population en quatre groupes de même
effectif. On définit :
Le quartile d'ordre 1/4 : C’est la valeur Q1 telle que F(Q1) = 0.25.
Le quartile d'ordre 2/4 : C’est la valeur Q2 telle que F(Q2) = 0.50 (Q2 = Me).
Q1 : 25% des individus ont une valeur du caractère ≤ Q1 càd F(Q1) =25%
Q2 : 50% des individus ont une valeur du caractère ≤ Q2 càd F(Q2) =50%
Donc Q2 = Me
Q3 : 75% des individus ont une valeur du caractère ≤ Q3 càd F(Q3) =75%
Le quartile d’ordre 4 : c’est la valeur Q4 telle que F(Q4) = 1 ; Q4 est toujours égale à xk (ou ek)
L'intervalle interquartile, noté EI, est la différence entre les deux quartiles Q3 et Q1 :
EI = Q3 - Q1
L’étendue interquartile relatif, noté EIR, est le rapport de l’intervalle interquartile par rapport à
l’étendue :
EIR = EI / E = (Q3 - Q1) / E
L’étendue interquartile relatif permet de juger la concentration des observations à l’intérieur et à
l’extérieur de l’intervalle interquartile.
Remarques :
1- Les quartiles se déterminent facilement à partir de la courbe cumulative croissante en cherchant
les abscisses des points de coordonnées N /4 pour Q1, N/2 pour Q2 = Me et 3N/4 pour Q3.
2- De la mê’me manière que pour les quartiles on peut déterminer les déciles qui partagent la
population en dix parties égales (d1, d2,…… , d9).
Applications:
On considère l’exemple 3 : l’étude des salariés suivant le salaire mensuel exprimé en millier
de Dhs :
L’étendue
E = e5 – e0
= 20 – 4 = 16 correspond à l’écart entre le salaire le plus bas et le salaire le plus
élevé.
Il donne la longueur de l’intervalle de variation du caractère X.
Variance – écart type
Pour calculer la variance, il faut calculer la colonne des valeurs ni ci2
__
On a : x = 12,4 MDhs
Calculons :
V(X) et x
V(x) =
∑ ¿ xi2 - x 2
1=1
N
= 40360/ 250 – (12,4)2
= 7, 68
x = √ 7 , 68 = 2,77 MDhs
Chaque salarié touche un salaire qui s’écarte du salaire moyen de plus ou moins 2 770Dhs.
σx
CV(X) = = 2,77/12,4 = 0,22 =22%
x
Quartiles
Pour déterminer les quartiles on aura besoin soit des effectifs cumulés croissants soit des
fréquences cumulées croissantes (voir le tableau).
- Calculons Q1
On sait que : N(Q1) = N/4= 250/4 = 62,5
8 < Q1 < 12
= 10,43MDhs
25% des salariés touchent moins de 10 430Dhs et 75% touchent plus de 10 430Dhs.
12 < Q3 < 16
Donc
= 14,6MDhs
75% des salariés touchent moins de 14 600Dhs et les 25% restant touchent pus de
14 600Dhs.
L’étendue interquartile et l’étendue interquartile relatif :
- L’étendue interquartile
EI = Q3 – Q1 = 14,6 – 10,43 = 4,17 MDhs
C’est la longueur de l’intervalle qui contient 50% des observations en laissant autant
d’observations à gauche qu’à droite (25%)
50% des observations sont situées sur 26% de l’étendue (forte concentration à l’intérieur de
l’intervalle interquartile) et l’autre moitié des observations sont situées sur 74% de
l’étendue (forte dispersion à l’extérieur de l’intervalle interquartile).
IV- les caractéristiques de concentration
1- la courbe de concentration
Soit X une variable statistique continue. Dont les valeurs sont positives et regroupées en
k classes ]e0 , e1], ] e1, e2] ,⋯]ei-1, ei]…, ]ek-1, ek]
d’effectifs respectifs n1, n2 ⋯ni,…,nk, et de centres respectifs c1, c2 ,…,ci,…,ck.
On note :
Remarque
( ou 100%)
On note : qi ou q(ei)
0 ≤ pi ; qi ≤ 1 ( ou 100%)
A partir de ces éléments on définit la courbe de concentration comme étant la courbe
représentative des qi en fonction des pi : qi = f(pi) ( ou bien des pi en fonction des qi).
C’est la courbe joignant les points de coordonnées (pi , qi)
q i(%)
100 B
La droite de répartition égalitaire
0 ,8
60 A i re d e
concentration
40 co ncentr atio n
C o ur b e d e
0 ,2 concentration
co n ce n tr ation
A
0
O 20 40 60 80 100p i(%)
40
Plus la courbe est proche de l’axe des abscisses la concentration est forte.
A une concentration faible correspond une répartition égalitaire et à une concentration forte
correspond une distribution inégalitaire.
Exemple
80
60
0
Series4
40 Series6
20
0
0 20 40 60 80 100
Dans le cas de l’exemple, la courbe est proche de la première bissectrice. Il s’agit donc d’une
faible concentration.
2- L’indice de concentration :
Application :
Pour calculer l’indice de concentration on aura besoin de (pi – pi-1), (qi + qi-1), (pi – pi-1)(qi + qi-1)
et de ∑ (pi – pi-1)(qi + qi-1).( voir tableau précédent)
= 1 – 8700,56/10 000