Nothing Special   »   [go: up one dir, main page]

Biostat 3

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 36

Mesures de fréquence et représentation

graphique des données


 Nous avons souligné que différentes variables contiennent différents niveaux
d'information. Lorsque l'on résume ou visualise une ou plusieurs variables, ce
sont ces informations qui déterminent les méthodes statistiques appropriées
à utiliser.
 De nombreuses techniques visuelles vous sont peut-être déjà familières :
tableaux de fréquence, feuilles de comptage, histogrammes, diagrammes
circulaires, diagrammes en bâtons, diagrammes de dispersion, etc. Nous
nous concentrerons ici sur quelques-unes de ces techniques qui sont les plus
utiles et les plus pertinentes pour les probabilités et les statistiques
inférentielles.
Fréquences absolues et relatives
 Données discrètes:

Supposons qu'il y ait k catégories désignées par a1, a2,..., a k avec n j ( j = 1, 2,..., k)
observations dans la catégorie a j . La fréquence absolue n j est définie comme le
nombre d'unités dans la jème catégorie a j . La fréquence absolue n j est définie
comme le nombre d'unités dans la jème catégorie a j . La somme des fréquences
absolues est égale au nombre total d'unités dans les données :

Les fréquences relatives

Les fréquences relatives se situent toujours entre 0 et 1 et


Fréquences absolues et relatives
 Données discrètes:
Exemple : Supposons qu’il y ait dix personnes dans une file d’attente au supermarché.
Chacun d’eux est codé comme « F » (si la personne est une femme) ou « M » (si la
personne est un homme). Les données collectées peuvent ressembler à:
M, F, M, F, M, M, M, F, M, M.
Il y a maintenant deux catégories dans les données : les hommes (M) et les femmes (F).
Nous utilisons a 1 pour faire référence à la catégorie des hommes et a 2 pour faire
référence à la catégorie des femmes. Comme il y a sept étudiants et trois étudiantes,
nous avons 7 valeurs dans la catégorie a1, notée n1 = 7, et 3 valeurs dans la catégorie
a2, notée n2 = 3. Le nombre d'observations dans une catégorie particulière est appelé
fréquence absolue. Il s'ensuit que n1 = 7 et n2 = 3 sont les fréquences absolues de a1 et
a 2 , respectivement. Notez que n 1 + n 2 = n = 10, ce qui correspond au nombre total
d'observations collectées. Nous pouvons également calculer les fréquences relatives
de a1 et a2 comme suit : f1 = f(a1) = n1/n = 7/10 = 0,7 = 70% et f2 = f(a2) = n2/n = 3/10 =
0,3 = 30%, respectivement. Cela nous donne des informations sur les proportions
d'hommes et de femmes dans la file d'attente.
Fréquences absolues et relatives
 Données continues groupées:

Supposons que les n observations puissent être classées en k intervalles de classe a1,
a2,..., ak, où aj (j = 1, 2,..., k) contient nj observations avec ��=1 �� = �

La fréquence relative de la jème classe est fj = nj /n et �
�=1 �
=1

Le tableau suivant montre la distribution de fréquence d’une variable discrète X


Fréquences absolues et relatives
 Données continues groupées:

Considérez les n = 20 résultats suivants de la partie écrite d’un examen du permis de


conduire (un maximum de 100 points pourrait être atteint) :
28, 35, 42, 90, 70, 56, 75, 66, 30, 89, 75, 64, 81, 69, 55, 83, 72, 68, 73, 16

Nous pouvons résumer les résultats en intervalles de classe tels que 0-20, 21-40, 41-60,
61-80 et 81-100, et les données peuvent être présentées comme suit :

Nous avons
Fonction empirique de distribution cumulée “FEDC”

Considérons n observations x1, x2,..., xn d’une variable X, qui sont disposées par
ordre croissant comme x(1) ≤ x(2) ≤· · · ≤ x(n) (et sont donc sur une échelle au moins
ordinale). La fonction empirique de distribution cumulée F(x) est définie comme
les fréquences relatives cumulées de toutes les valeurs aj , qui sont inférieures ou
égales à x :

Cette définition implique que F(x) est une fonction monotone non décroissante, 0
≤ F(x) ≤ 1.
Fonction empirique de distribution cumulée “FEDC”
Considérez les n = 20 résultats suivants de la partie écrite d’un examen du permis de
conduire (un maximum de 100 points pourrait être atteint) :
28, 35, 42, 90, 70, 56, 75, 66, 30, 89, 75, 64, 81, 69, 55, 83, 72, 68, 73, 16
Nous pouvons résumer les résultats en intervalles de classe tels que 0-20, 21-40, 41-60, 61-
80 et 81-100, et les données peuvent être présentées comme suit :

Si nous voulons connaître la fréquence relative des personnes ayant obtenu jusqu'à 60
points, nous devons additionner les fréquences relatives des personnes dans les
intervalles de classe 0-20, 21-40 et 41-60, ce qui correspond à n1 + n2 + n3 = 1 + 3 + 3 = 7
et est la fréquence cumulée.Si nous voulons connaître la fréquence relative des
personnes ayant obtenu jusqu'à 60 points, nous devons additionner les fréquences
relatives des personnes dans les intervalles de classe 0-20, 21-40 et 41-60, ce qui
correspond à f1 + f2 + f3 = 1 20 + 3 20 + 3 20 = 7 20 .
Fonction empirique de distribution cumulée “FEDC”
 FEDC pour les variables ordinales:
 Exemple : Prenons l'exemple d'une enquête de satisfaction menée auprès des
clients d'une société d'entretien automobile. Les 200 clients qui ont bénéficié d'un
service automobile au cours des 30 derniers jours ont été invités à indiquer leur
degré de satisfaction globale quant à la qualité du service automobile sur une
échelle de 1 à 5, en fonction des options suivantes : 1 = pas du tout satisfait, 2 =
insatisfait, 3 = satisfait, 4 = très satisfait et 5 = parfaitement satisfait. Sur la base de la
fréquence de chaque option, nous pouvons calculer les fréquences relatives, puis
tracer la fonction de distribution cumulative empirique.
Fonction empirique de distribution cumulée “FEDC”
 FEDC pour les variables continues:

Les valeurs nécessaires pour calculer l’ FEDC pour les données


groupées sur le délai de livraison des pizzas (il contient les
commandes reçues au cours d’une période d’un mois)
Représentation graphique d’une variable

 Les tableaux de fréquence et les fonctions empiriques de distribution


cumulative sont utiles pour fournir un résumé numérique d’une variable.
Les graphiques sont une autre façon de résumer l’information d’une
variable.
Dans de nombreuses situations, ils ont l’avantage de transmettre les
informations cachées dans les données de manière plus compacte.
Diagramme en baton (graphique en barres)

 Un graphique à barres peut être utilisé pour les variables nominales et


ordinales, tant que le nombre de catégories n’est pas très grand. Il se
compose d’une barre pour chaque catégorie.
La hauteur de chaque barre est déterminée par la fréquence absolue ou
la fréquence relative de la catégorie respective et est indiquée sur l’axe
des y.
Si la variable est mesurée à un niveau ordinal, il est recommandé
d’organiser les barres sur l’axe des x en fonction de leurs rangs ou de leurs
valeurs.
Si le nombre de catégories est important, le nombre de barres sera
également important et le graphique à barres, à son tour, peut ne pas
rester informatif.
Diagramme en baton (graphique en barres)
Diagramme en camembert (graphique à secteurs)

 Un graphique à secteurs est un cercle divisé en segments, où


chacun des segments représente une catégorie.
La taille de chaque segment dépend de la fréquence relative et
est déterminée par l’angle fj x 360°.
Pie Chart
Exemple : pour illustrer la construction d'un
diagramme circulaire, prenons l'exemple
de dix personnes dans la file d'attente d'un
supermarché, classées comme étant de
sexe masculin (M) ou féminin (F) : M, F, M, F,
M, M, M, F, M, M. Le diagramme circulaire
pour ces données aura deux segments : un
pour les hommes et un autre pour les
femmes. Les fréquences relatives sont
respectivement f 1 = 7/10 et f 2 = 3/10. La
taille du segment pour la première
catégorie (M) est f1 X 360° = (7/10) X 360° =
252°, et la taille du segment pour la
deuxième catégorie (F) est f2 X 360° = (3/10)
X 360° = 108°.
Histogramme

 Si une variable comporte un grand nombre de valeurs différentes, le


nombre de catégories utilisées pour construire les diagrammes en bâtons
sera également élevé.
 Un diagramme en bâtons peut donc ne pas donner un résumé clair
lorsqu'il est appliqué à une variable continue.
 L'histogramme est plus approprié pour représenter la distribution des
valeurs des variables continues.
 Il repose sur l'idée de classer les données en différents groupes et de tracer
les barres pour chaque catégorie.
Histogramme
 Construction de l’histogramme pour des données discrètes

 Déterminez d'abord la fréquence et la fréquence relative de chaque valeur


x. Marquez ensuite les valeurs x possibles sur une échelle horizontale. Au-
dessus de chaque valeur, dessinez un rectangle dont la hauteur correspond
à la fréquence relative (ou alternativement à la fréquence) de cette valeur.
Cette construction garantit que l'aire de chaque rectangle est
proportionnelle à la fréquence relative de la valeur. Ainsi, si les fréquences
relatives de x = 1 et x = 5 sont respectivement de 0,35 et 0,07, l'aire du
rectangle au-dessus de 1 est cinq fois plus grande que l'aire du rectangle
au-dessus de 5.
Histogramme
 Construction de l’histogramme pour des données discrètes
Exemple: dans quelle mesure une absence de frappe ou une frappe unique est-elle inhabituelle dans un
match de baseball de la ligue majeure, et à quelle fréquence une équipe obtient-elle plus de 10, 15 ou
même 20 frappes ? Le tableau suivant est une distribution de fréquences pour le nombre de frappes par
équipe et par match pour tous les matchs de neuf minutes qui ont été joués entre 1989 et 1993.
L'histogramme correspondant de la figure augmente de façon assez régulière jusqu'à un pic unique, puis
diminue. L'histogramme s'étend un peu plus à droite (vers les grandes valeurs) qu'à gauche - une légère
"asymétrie positive".
Histogramme
 Construction de l’histogramme pour des données continues:
largeurs de classe égales

Déterminez la fréquence et la fréquence relative pour chaque classe. Marquez les


limites de classe sur un axe de mesure horizontal. Au-dessus de chaque intervalle de
classe, dessinez un rectangle dont la hauteur est la fréquence relative
correspondante (ou fréquence).
Histogramme
 Construction de l’histogramme pour des données continues : largeurs de classe égales
Exemple : les compagnies d’électricité ont besoin d’informations sur l’utilisation des clients pour obtenir des
prévisions précises de la demande. Les enquêteurs ont déterminé la consommation d’énergie au cours
d’une période donnée pour un échantillon de 90 maisons chauffées au gaz. Une valeur de consommation
ajustée a été calculée comme suit :
consommation
Consommation ajustée =
(météo, en degrés−jours)(surface de la maison)
Histogramme
 Construction de l’histogramme pour les données continues : largeurs de classe inégales
Les classes de largeur égale peuvent ne pas être un choix judicieux si certaines régions de
l'échelle de mesure présentent une forte concentration de valeurs de données et d'autres
parties où les données sont assez rares. La figure ci-dessous montre un diagramme en
points d'un tel ensemble de données ; il y a une forte concentration au milieu et
relativement peu d'observations de part et d'autre. L'utilisation d'un petit nombre de
classes de largeur égale a pour effet que presque toutes les observations tombent dans
une ou deux classes seulement. Si l'on utilise un grand nombre de classes de largeur égale,
de nombreuses classes auront une fréquence nulle. Un choix judicieux consiste à utiliser
quelques intervalles plus larges à proximité des observations extrêmes et des intervalles plus
étroits dans la région de forte concentration.
Histogramme
 Construction de l’histogramme pour les données continues : largeurs de classe inégales

Après avoir déterminé les fréquences et les fréquences relatives, calculez la hauteur
de chaque rectangle à l’aide de la formule:
fréquence relative de la classe
hauteur du rectangle=
largeur de classe

Les hauteurs rectangulaires résultantes sont généralement appelées densités, et


l’échelle verticale est l’échelle de densité. Cette prescription fonctionnera
également lorsque les largeurs de classe sont égales.
Histograme
 Constructing a Histogram for Continuous Data: Unequal Class Widths
La corrosion de l'acier d'armature est un problème sérieux dans les structures en béton situées dans des
environnements soumis à des conditions météorologiques difficiles. C'est pourquoi les chercheurs ont
étudié l'utilisation de barres d'armature en matériaux composites. Une étude a été réalisée pour élaborer
des lignes directrices sur le collage des barres d'armature en plastique renforcé de fibres de verre sur le
béton. Examinez les 48 observations suivantes sur la force d'adhérence mesurée :
Formes d’histogramme

Les histogrammes se présentent sous différentes formes:


 Un histogramme unimodal est un histogramme qui s'élève jusqu'à un seul pic, puis
décline (a, c, d). Un histogramme bimodal présente deux pics différents (b).
 Un histogramme est symétrique si la moitié gauche est l'image miroir de la moitié
droite (a).
 Un histogramme unimodal est positivement asymétrique si la queue droite ou
supérieure est étirée par rapport à la queue gauche ou inférieure (c) et
négativement asymétrique si l'étirement se fait vers la gauche (d).
Boîte à moustache
Un graphique simple et puissant est le diagramme en boîte qui résume la distribution
d'une variable continue (ou parfois ordinale) en utilisant sa médiane, ses quartiles, son
minimum, son maximum et ses valeurs extrêmes.
La longueur verticale de la boîte est l'intervalle
interquartile dQ = � ̃0 ,75 - � ̃0 ,25, qui montre la
région qui contient 50 % des données. L'extrémité
inférieure de la boîte correspond au premier quartile
et l'extrémité supérieure au troisième quartile. La
ligne épaisse dans la boîte est la médiane. Il
apparaît immédiatement que la boîte indique la
symétrie des données : si la médiane se trouve au
milieu de la boîte, les données doivent être
symétriques, sinon elles sont asymétriques. Les
moustaches situées à l'extrémité du graphique
indiquent les valeurs minimales et maximales des
données. Les extrémités des moustaches sont
calculées en utilisant 1.5 fois l'espace interquartile (la
distance entre le 1er et le 3ème quartile)..
Boîte à moustache
Exemple: Supposons que les températures maximales de l'année dernière à Bangkok
pendant la journée (en degrés Celsius) pour la période du 1er au 31 décembre soient
les suivantes : 22, 24, 21, 22, 25, 26, 25, 24, 23, 25, 25, 26, 27, 25, 26, 25, 26, 27, 27, 28, 29,
29, 29, 28, 30, 29, 30, 31, 30, 28, 29.

La médiane (26 °C) et les quartiles (25, 29 °C). Les


valeurs minimales et maximales sont 21°C et 31°C.
Le diagramme en boîte pour ces données est
illustré dans la figure. On peut voir que la distribution
des températures est légèrement asymétrique,
avec une plus grande variabilité pour les
températures les plus basses. L'intervalle
interquartile est de 4, et par conséquent, toute
valeur >29 + 4 × 1,5 = 35 ou <25 - 4 × 1,5 = 19 serait
une valeur extrême. Cependant, il n'y a pas de
valeurs extrêmes dans les données.
TDexercice 1
Les capteurs de température d'un certain type sont expédiés par lots de 50. Un échantillon
de 60 lots a été sélectionné et le nombre de capteurs de chaque lot non conformes aux
spécifications de conception a été déterminé, ce qui a permis d'obtenir les données
suivantes :
212401320533132470230421311341232284513150232106421603
336123
a. Déterminer les fréquences et les fréquences relatives pour les valeurs observées de x =
nombre de capteurs non conformes dans un lot.
b. b. Quelle proportion des lots de l'échantillon a au plus cinq capteurs non conformes ?
Quelle est la proportion de lots ayant moins de cinq capteurs non conformes ? Quelle est
la proportion de lots comportant au moins cinq unités non conformes ?
c. c. Dessinez un histogramme des données en utilisant la fréquence relative sur l'échelle
verticale et commentez ses caractéristiques.
TDexercice 2
Dans le cadre d'une étude sur la productivité des auteurs ("Lotka's Test", Collection Mgmt., 1982 : 111-118), un
grand nombre d'auteurs ont été classés en fonction du nombre d'articles qu'ils avaient publiés au cours d'une
certaine période. Les résultats ont été présentés dans la distribution de fréquence ci-jointe :

a. Construisez un histogramme correspondant à cette distribution de fréquences. Quelle est la caractéristique la


plus intéressante de la forme de la distribution ?
b. Quelle proportion de ces auteurs a publié au moins cinq articles ? Au moins dix articles ? Plus de dix articles ?
c. Supposons que les cinq 15, les trois 16 et les trois 17 aient été regroupés en une seule catégorie affichée sous
la forme " ≥15 " .
Seriez-vous capable de dessiner un histogramme ? Expliquez pourquoi.
d. Supposons que les valeurs 15, 16 et 17 soient regroupées dans une catégorie 15-17 de fréquence 11 au lieu
d'être listées séparément. Pourriez-vous dessiner un histogramme ? Expliquez.
TDexercice 3
Le nombre de particules contaminantes sur une plaquette de silicium avant un certain processus de
rinçage a été déterminé pour chaque plaquette d'un échantillon de 100 plaquettes, ce qui a permis
d'obtenir les fréquences suivantes :

a. Quelle proportion des plaquettes échantillonnées contenait au moins une particule ? Au moins cinq
particules ?
b. Quelle proportion des plaquettes échantillonnées présentait entre cinq et dix particules incluses ?
Strictement entre cinq et dix particules ?
c. Dessinez un histogramme en utilisant la fréquence relative sur l'axe vertical. Comment décririez-vous la
forme de l'histogramme ?
TDexercice 4
La charge d'incendie (MJ/m2) est l'énergie thermique qui pourrait être libérée par mètre carré de surface
de plancher par la combustion du contenu et de la structure elle-même. L'article "Fire Loads in Office
Buildings" (J. of Structural Engr., 1997 : 365-368) donne les pourcentages cumulés suivants (tirés d'un
graphique) pour les charges d'incendie dans un échantillon de 388 pièces ::

a. Construisez un histogramme de fréquence relative et commentez les caractéristiques intéressantes.


b. Quelle est la proportion des charges d'incendie inférieures à 600 ? Au moins 1200 ?
c. Quelle proportion des charges se situe entre 600 et 1200 ?
TDexercice 5
Un échantillon de 20 bouteilles en verre d'un type particulier a été sélectionné et la résistance à la
pression interne de chaque bouteille a été déterminée. Examinez les informations partielles suivantes sur
l'échantillon :
médiane = 202,2
quart inférieur = 196,0
quart supérieur = 216,8
Trois observations les plus petites 125,8 188,1 193,7
Trois plus grandes observations 221.3 230.5 250.2

a. Y a-t-il des valeurs aberrantes dans l'échantillon ? Y a-t-il des valeurs aberrantes extrêmes ?
b. Construisez un diagramme en boîte qui montre les valeurs aberrantes et commentez toute
caractéristique intéressante.
TDexercice 6
La concentration de cocaïne dans le sang (mg/l) a été déterminée à la fois pour un échantillon de
personnes décédées d'un délire agité induit par la cocaïne et pour un échantillon de personnes
décédées d'une overdose de cocaïne sans délire agité ; le temps de survie pour les personnes des deux
groupes était au maximum de 6 heures. Les données ci-jointes ont été lues à partir d'un diagramme en
boîte comparatif dans l'article "Fatal Excited Delirium Following Cocaine Use" (J. of Forensic Sciences,
1997 : 25-31).

a. Déterminez les médianes, les quarts et les quarts d'écart pour les deux échantillons.
b. Y a-t-il des valeurs aberrantes dans l'un ou l'autre des échantillons ? Y a-t-il des valeurs aberrantes
extrêmes ?
c. Construisez un diagramme en boîte comparatif et utilisez-le comme base pour comparer et opposer
les échantillons ED et non ED.
TD Rexercice 1

Les données « Calcium » ont été collectées pour déterminer si l'augmentation de


l'apport en calcium réduit la tension artérielle. 21 personnes ont participé à cette
expérience. Dix d'entre elles ont pris un supplément de calcium pendant 12 semaines,
tandis que les 11 autres ont reçu un placebo. La pression artérielle de chaque sujet a
été mesurée avant et après la période de 12 semaines. Tracez l'histogramme des
variables Début et Fin. Comparez les deux histogrammes en termes de tendance
centrale et de forme de l'histogramme.
TD Rexercice 2
L'ensemble de données "Survival" est apparu dans Haberman (1976) et a
été obtenu à partir du UCI Machine Learning Repository. L'ensemble de
données contient des cas issus d'une étude menée entre 1958 et 1970 à
l'hôpital Billings de l'université de Chicago sur la survie des patientes
ayant subi une intervention chirurgicale pour un cancer du sein. Les
variables sont les suivantes :
-Âge : Âge du patient au moment de l'opération.
-Ganglions : Nombre de ganglions axillaires positifs détectés.
-Statut : Statut de survie.
q Tracez le diagramme en boîte pour l'âge et le diagramme à barres
pour le statut. Tracez les histogrammes pour Nœuds et √Nœuds.
Lequel est le plus asymétrique ?
q Montrez que la surface totale des rectangles dans un histogramme de
densité est égale à 1.
q Nous avons mesuré la taille (en pouces) et le poids (en livres) de cinq
nouveau-nés. Calculez manuellement la moyenne et l'écart-type de la
taille et du poids ; montrez toutes les étapes (tableau 2.5).
q En vous basant sur le diagramme en boîte de la Fig. 2.37, écrivez le
résumé des données en cinq nombres, l'étendue et l'IQR de la
TD Rexercice 3

Chargez le fichier "BodyTemperature"


q Trouvez le résumé des données en cinq chiffres pour toutes les variables numériques?
q Pour les variables numériques, fournissez les histogrammes et les diagrammes en boîte?
Commentez la tendance centrale et la forme des histogrammes. Y a-t-il des valeurs aberrantes
dans les données ?
q Pour la question précédente, trouvez le coefficient de variation pour les variables âge et
température. Montrez que le coefficient de variation reste le même si nous changeons les unités de
l'âge en mois (c'est-à-dire en multipliant par 12). Changez l'échelle de température corporelle en
Celsius et recalculez le coefficient de variation. Commentez vos résultats.
q Le coefficient de variation de la variable X est de 2. Si la moyenne de l'échantillon de cette variable
est de 3, quelle est la variance de l'échantillon ?
TD Rexercice 4

Chargez les données "AsthmaLOS" .


q A l'aide de RCommander, identifiez les erreurs de saisie pour la race et le type de propriétaire?
Supprimez les observations correspondantes (c'est-à-dire les lignes) de l'ensemble de données?
q Tracez l'histogramme de l'âge et commentez sa forme. Pour cette variable, trouvez la moyenne, la
variance, l'étendue et l'IQR.
TD Rexercice 5

Téléchargez les données Animals du paquet MASS. Cet ensemble de données


comprend les poids moyens du cerveau et du corps de 28 espèces d'animaux
terrestres. Tracez les histogrammes des deux variables numériques. Ensuite, utilisez
la transformation logarithmique pour les deux variables et tracez à nouveau les
histogrammes. Commentez les formes de ces nouveaux histogrammes.

Vous aimerez peut-être aussi