Biostat 3
Biostat 3
Biostat 3
Supposons qu'il y ait k catégories désignées par a1, a2,..., a k avec n j ( j = 1, 2,..., k)
observations dans la catégorie a j . La fréquence absolue n j est définie comme le
nombre d'unités dans la jème catégorie a j . La fréquence absolue n j est définie
comme le nombre d'unités dans la jème catégorie a j . La somme des fréquences
absolues est égale au nombre total d'unités dans les données :
Supposons que les n observations puissent être classées en k intervalles de classe a1,
a2,..., ak, où aj (j = 1, 2,..., k) contient nj observations avec ��=1 �� = �
�
La fréquence relative de la jème classe est fj = nj /n et �
�=1 �
=1
Nous pouvons résumer les résultats en intervalles de classe tels que 0-20, 21-40, 41-60,
61-80 et 81-100, et les données peuvent être présentées comme suit :
Nous avons
Fonction empirique de distribution cumulée “FEDC”
Considérons n observations x1, x2,..., xn d’une variable X, qui sont disposées par
ordre croissant comme x(1) ≤ x(2) ≤· · · ≤ x(n) (et sont donc sur une échelle au moins
ordinale). La fonction empirique de distribution cumulée F(x) est définie comme
les fréquences relatives cumulées de toutes les valeurs aj , qui sont inférieures ou
égales à x :
Cette définition implique que F(x) est une fonction monotone non décroissante, 0
≤ F(x) ≤ 1.
Fonction empirique de distribution cumulée “FEDC”
Considérez les n = 20 résultats suivants de la partie écrite d’un examen du permis de
conduire (un maximum de 100 points pourrait être atteint) :
28, 35, 42, 90, 70, 56, 75, 66, 30, 89, 75, 64, 81, 69, 55, 83, 72, 68, 73, 16
Nous pouvons résumer les résultats en intervalles de classe tels que 0-20, 21-40, 41-60, 61-
80 et 81-100, et les données peuvent être présentées comme suit :
Si nous voulons connaître la fréquence relative des personnes ayant obtenu jusqu'à 60
points, nous devons additionner les fréquences relatives des personnes dans les
intervalles de classe 0-20, 21-40 et 41-60, ce qui correspond à n1 + n2 + n3 = 1 + 3 + 3 = 7
et est la fréquence cumulée.Si nous voulons connaître la fréquence relative des
personnes ayant obtenu jusqu'à 60 points, nous devons additionner les fréquences
relatives des personnes dans les intervalles de classe 0-20, 21-40 et 41-60, ce qui
correspond à f1 + f2 + f3 = 1 20 + 3 20 + 3 20 = 7 20 .
Fonction empirique de distribution cumulée “FEDC”
FEDC pour les variables ordinales:
Exemple : Prenons l'exemple d'une enquête de satisfaction menée auprès des
clients d'une société d'entretien automobile. Les 200 clients qui ont bénéficié d'un
service automobile au cours des 30 derniers jours ont été invités à indiquer leur
degré de satisfaction globale quant à la qualité du service automobile sur une
échelle de 1 à 5, en fonction des options suivantes : 1 = pas du tout satisfait, 2 =
insatisfait, 3 = satisfait, 4 = très satisfait et 5 = parfaitement satisfait. Sur la base de la
fréquence de chaque option, nous pouvons calculer les fréquences relatives, puis
tracer la fonction de distribution cumulative empirique.
Fonction empirique de distribution cumulée “FEDC”
FEDC pour les variables continues:
Après avoir déterminé les fréquences et les fréquences relatives, calculez la hauteur
de chaque rectangle à l’aide de la formule:
fréquence relative de la classe
hauteur du rectangle=
largeur de classe
a. Quelle proportion des plaquettes échantillonnées contenait au moins une particule ? Au moins cinq
particules ?
b. Quelle proportion des plaquettes échantillonnées présentait entre cinq et dix particules incluses ?
Strictement entre cinq et dix particules ?
c. Dessinez un histogramme en utilisant la fréquence relative sur l'axe vertical. Comment décririez-vous la
forme de l'histogramme ?
TDexercice 4
La charge d'incendie (MJ/m2) est l'énergie thermique qui pourrait être libérée par mètre carré de surface
de plancher par la combustion du contenu et de la structure elle-même. L'article "Fire Loads in Office
Buildings" (J. of Structural Engr., 1997 : 365-368) donne les pourcentages cumulés suivants (tirés d'un
graphique) pour les charges d'incendie dans un échantillon de 388 pièces ::
a. Y a-t-il des valeurs aberrantes dans l'échantillon ? Y a-t-il des valeurs aberrantes extrêmes ?
b. Construisez un diagramme en boîte qui montre les valeurs aberrantes et commentez toute
caractéristique intéressante.
TDexercice 6
La concentration de cocaïne dans le sang (mg/l) a été déterminée à la fois pour un échantillon de
personnes décédées d'un délire agité induit par la cocaïne et pour un échantillon de personnes
décédées d'une overdose de cocaïne sans délire agité ; le temps de survie pour les personnes des deux
groupes était au maximum de 6 heures. Les données ci-jointes ont été lues à partir d'un diagramme en
boîte comparatif dans l'article "Fatal Excited Delirium Following Cocaine Use" (J. of Forensic Sciences,
1997 : 25-31).
a. Déterminez les médianes, les quarts et les quarts d'écart pour les deux échantillons.
b. Y a-t-il des valeurs aberrantes dans l'un ou l'autre des échantillons ? Y a-t-il des valeurs aberrantes
extrêmes ?
c. Construisez un diagramme en boîte comparatif et utilisez-le comme base pour comparer et opposer
les échantillons ED et non ED.
TD Rexercice 1