Nothing Special   »   [go: up one dir, main page]

Academia.eduAcademia.edu

IICT-BAS Statistique inférentielle

IICT – BAS еISSN: 2367-8666 Lecture Notes in Computer Science and Technologies Statistique inférentielle Vera Angelova eISBN: 978-619-7320-00-8 The series Lectures Notes in Computer Science and Technologies of the Institute of Information and Communication Technologies at the Bulgarian Academy of Sciences presents in an electronic format textbooks for undergraduate, graduate and PhD students studied various programs related to Informatics, Computational Mathematics, Mathematical Modeling, Communication Technologies, etc., as well as for all readers interested in these scientific disciplines. The Lecture Notes are based on courses taught by scientists of the Institute of Information and Communication Technologies - BAS in various Bulgarian universities and the Center for Doctoral Training in BAS. The published materials are with open access - they are freely available without any charge. Editorial board Gennady Agre (Editor-in-Chef), IICT-BAS е-mail: agre@iinf.bas.bg Vera Angelova, IICT-BAS е-mail: vangelova@iit.bas.bg Pencho Marinov, IICT-BAS е-mail: pencho@bas.bg eISSN: 2367-8666 The series is subject to copyright. All rights reserved in translation, printing, using illustrations, citations, distribution, reproduction on microfilm or in other ways, and storage in a database of all or part of the material in the present edition. The copy of the publication or part of the content is permitted only with the consent of the authors and / or editors © IICT - BAS 2016 http://parallel.bas.bg/lcst/ Avec la collaboration de madame Viviane Baligand et monsieur François Mimiague Professeur à l’Université de Bordeaux IV, qui ont posé les basses de l’enseignement en Statistique au programme français de la Faculté de gestion et d’économie à l’Université de Sofia. Table des matières 1 Echantillonnage - rappel 1 1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 Les problèmes de distribution d’échantillonnage . . . . . . . . . . . . . . . . . . 4 1.2.1 Distribution d’échantillonnage de la moyenne X̄ . . . . . . . . . . . . . . 4 1.2.2 ′2 . . . . . . . . . . . . . . . . 10 Distribution de la variance d’échantillon SX̄ 1.2.3 Distribution d’échantillonnage d’une proportion F . . . . . . . . . . . . . 11 1.3 Synthèse sur les distributions d’échantillonnage . . . . . . . . . . . . . . . . . . 14 2 Estimation 2.1 2.2 2.3 16 Estimation ponctuelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.1.1 Qualités d’un estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.1.2 Les estimateurs les plus utilisés . . . . . . . . . . . . . . . . . . . . . . . 18 Estimation par intervalle de confiance . . . . . . . . . . . . . . . . . . . . . . . 24 2.2.1 Intervalle de confiance de la moyenne d’une population : µ . . . . . . . . 26 2.2.2 Intervalle de confiance de la proportion d’une population : p . . . . . . . 30 2.2.3 Précision - Taille d’échantillon - Risque d’erreur . . . . . . . . . . . . . . 31 2.2.4 Intervalle de confiance de la variance de la population : σ 2 . . . . . . . . 32 Comparaisons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 2.3.1 Estimation ponctuelle de la différence de 2 moyennes . . . . . . . . . . . 34 2.3.2 Intervalle de confiance de la différence de 2 moyennes . . . . . . . . . . . 35 2.3.3 Différence de 2 proportions . . . . . . . . . . . . . . . . . . . . . . . . . . 42 2.3.4 Rapport de 2 variances ( comparaison de 2 variances ) . . . . . . . . . . 43 2.3.5 Synthèse sur l’estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 3 Les tests d’hypothèse 48 3.1 3.2 3.3 3.4 3.5 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 3.1.1 Principe d’un test d’hypothèses . . . . . . . . . . . . . . . . . . . . . . . 48 3.1.2 Définition des concepts utiles à l’élaboration des tests d’hypothèse . . . . 49 Tests permettant de déterminer si un échantillon appartient à une population donnée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 3.2.1 Test sur une moyenne : comparaison d’une moyenne expérimentale à une moyenne théorique dans le cas d’un caractère quantitatif . . . . . . . . . 52 3.2.2 Tests sur une proportion . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 Risques de première et de deuxième espèce . . . . . . . . . . . . . . . . . . . . . 55 3.3.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 3.3.2 Schématisation des deux risques d’erreur sur la distribution d’échantillonnage 57 3.3.3 Exemples d’application . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 Comparaisons. Tests permettant de déterminer si deux échantillons appartiennent à la même population . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 3.4.1 Comparaison de deux moyennes d’échantillon : “test T” . . . . . . . . . . 66 3.4.2 Comparaison de deux variances d’échantillon : “test F” . . . . . . . . . . 68 3.4.3 Comparaison de deux proportions d’échantillon . . . . . . . . . . . . . . 69 Tests non-paramétriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 3.5.1 Test d’ajustement de deux distributions : “test du khi-deux” . . . . . . . 73 3.5.2 Test d’indépendance du khi-deux . . . . . . . . . . . . . . . . . . . . . . 76 3.5.3 Test d’homogénéité de plusieurs populations . . . . . . . . . . . . . . . . 79 Bibliographie 82 Annexe 83 Schémas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 Synthèse sur les distributions d’échantillonnage . . . . . . . . . . . . . . . . . . 85 Synthèse sur les distributions d’échantillonnage . . . . . . . . . . . . . . . . . . 85 Estimation ponctuelle. Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 Intervalle de confiance. Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 Tables statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 Table de la loi Normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 Fractiles de la loi Normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 Fractiles de la loi du χ2ν . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 Table de la loi de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 Table de la loi de Fisher-Snedecor p = 0.05 . . . . . . . . . . . . . . . . . . . . . 96 Table de la loi de Fisher-Snedecor p = 0.025 . . . . . . . . . . . . . . . . . . . . 97 Table de la loi de Fisher-Snedecor p = 0.01 . . . . . . . . . . . . . . . . . . . . . 98 Feuilles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 Feuille 1 : Échantillonnage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 Feuille 2 : Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 Feuille 3 : Les tests d’hypothèse . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 Feuille 4 : Préparation pour les contrôles . . . . . . . . . . . . . . . . . . . . . . 116 Statistique inférentielle 1 Chapitre 1 Echantillonnage - rappel 1.1 Introduction L’échantillonnage représente l’ensemble des opérations qui ont pour objet de prélever un certain nombre d’individus dans une population donnée. Avantages de l’échantillonnage L’analyse d’un échantillon, par rapport à celle de la population, cout moindre, gain de temps et c’est la seule méthode qui donne des résultats dans le cas d’un test destructif. Figure 1.1 : Statistique descriptive Inconvénients de l’échantillonnage L’échantillonnage a pour but de fournir suffisamment d’informations pour pouvoir faire des déductions sur les caractéristiques de la population. Les résultats obtenus d’un échantillon à l’autre sont en général différents et différents également de la valeur de la caractéristique correspondante dans la population. Ces différences sont dues aux fluctuations d’échantillonnage. Pour pouvoir tirer des conclusions valables, il faut déterminer les lois de probabilités qui régissent ces fluctuations. Lecture Notes in Computer Science and Technologies No 5, 2016 2 Vera Angelova Pour que les résultats observés lors d’une étude soient généralisables à la population statistique, l’échantillon doit être représentatif de cette dernière, c’est à dire qu’il doit refléter fidèlement sa composition et sa complexité. Seul l’échantillonnage aléatoire assure la représentativité de l’échantillon. Un échantillon est qualifié d’aléatoire lorsque chaque individu de la population a une probabilité connue et non nulle d’appartenir à l’échantillon. Le cas particulier le plus connu est celui qui attribue à chaque individu la même probabilité d’appartenir à l’échantillon. Il y a 2 grandes catégories de méthodes d’échantillonnage : — l’échantillonnage non aléatoire : l’analyste utilise son expérience et son jugement pour constituer l’échantillon avec tous les risques de non représentativité de celui-ci. On identifie dans la population-mère, quelques critères de répartition significatifs puis on essaye de respecter cette répartition dans l’échantillon d’individus interrogés. La méthode d’échantillonnage non-probabiliste est utilisée lorsqu’il n’est pas possible de constituer une liste exhaustive de toutes les unités du sondage. — l’échantillonnage aléatoire ou probabiliste : il permet de calculer précisément l’erreur due à l’échantillonnage et par conséquent de juger de la valeur de l’information partielle obtenue (donc de la représentativité de l’échantillon). Par la suite, nous ne parlerons que de l’échantillon aléatoire simple : c’est un échantillon choisi de telle sorte que chaque unité de la population ait la même probabilité d’être sélectionnée dans l’échantillon et que chaque échantillon de même taille tiré de la population ait la même probabilité d’être choisi. On laisse dans ce cas le hasard choisir l’échantillon en utilisant par exemple une table de nombres au hasard. Un échantillon aléatoire simple peut être tiré avec ou sans remise. Dans l’échantillon aléatoire simple avec remise, chaque unité est remise dans la population après avoir été observée et avant qu’une autre unité soit choisie. Il y a donc indépendance entre les résultats d’un tirage à l’autre et chaque unité conserve la même probabilité d’être sélectionnée. Dans l’échantillon aléatoire simple sans remise (échantillonnage exhaustif), l’unité tirée n’est pas remise ce qui modifie, pour une unité particulière, la probabilité d’être choisie d’un tirage à l’autre (si l’échantillon est choisi dans une population finie de N unités, chaque unité a une probabilité N1 d’être choisie au 1er tirage, chaque unité restante une probabilité N 1−1 d’être choisie au 2e tirage, etc...). Dans ce cas, il n’y a pas d’indépendance d’un tirage à l’autre. Si l’on a affaire à une population infinie ou si n, taille de l’échantillon, est relativement petite par rapport à N, taille de la population mère, on peut supposer qu’il y a indépendance d’une épreuve à l’autre, même si les tirages sont effectués sans remise. Dans le cas contraire, lorsque la population est finie et lorsque n > 0, 05N , il faut tenir compte d’un facteur de correction ou d’exhaustivité (voir l’estimation de l’écart type). On distingue 2 catégories de problèmes : — les problèmes de distribution d’échantillonnage : lorsque on connaı̂t la valeur de certains paramètres de la population mère et on cherche à induire des renseignements sur les Lecture Notes in Computer Science and Technologies No 5, 2016 Statistique inférentielle 3 valeurs que peuvent prendre ces paramètres dans l’échantillon. — les problèmes d’estimation : on connaı̂t la valeur de certains paramètres dans l’échantillon et on cherche à induire des renseignements sur les valeurs que peuvent prendre ces paramètres dans la population mère. Dans la suite du cours on utilisera les notations les suivantes : — pour la population mère : taille : N , moyenne arithmétique de la variable étudiée : µ, variance : σ 2 , écart type : σ. — pour l’échantillon : taille : n, moyenne arithmétique mesurée sur l’échantillon : x̄, variance : s2 , écart-type : s. Définition Population Échantillon Ensemble des unités considérées par le statisticien Sous-ensemble de la population choisie pour étude Paramètres Statistiques N n Caractéristiques Taille Caractère quantitatif moyenne de la population µ= 1 N PN i=1 xi écart-type de la population σ= Caractère qualitatif q P N 1 N 2 i=1 (xi − µ) proportion dans la population p moyenne de l’échantillon x̄ = 1 n Pn i=1 xi écart-type de l’échantillon s= q P n 1 2 i=1 (xi − x̄) n p n s s′ = n−1 proportion dans l’échantillon f Lecture Notes in Computer Science and Technologies No 5, 2016 4 Vera Angelova 1.2 1.2.1 Les problèmes de distribution d’échantillonnage Distribution d’échantillonnage de la moyenne X̄  Dans une population mère de taille N , on peut tirer plusieurs échantillons de taille n : CNn = N! n!(N −n)! Pour chaque échantillon, on peut calculer une moyenne : n 1X x̄ = xi . n i=1 et une variance n s2 = 1X (xi − x̄)2 . n i=1 La valeur de l’espérance mathématique x̄ et de la variance s2 varient d’un échantillon à l’autre. C’est cette variation qui donne naissance à la distribution des variables aléatoires : • échantillonnage de la moyenne ou moyenne d’échantillon X̄, caractérisée par : E(X̄) : l’espérance mathématique des moyennes calculées sur tous les échantillons de taille n. sX̄ : l’écart type de la distribution d’échantillonnage, qui représente la dispersion de l’ensemble des moyennes d’échantillons de taille n autour de E(X̄) ′2 • variance d’échantillon SX̄ définie par n ′2 SX̄ n 1 X 2 = = (Xi − X̄)2 . SX̄ n−1 n − 1 i=1 ′2 ′2 ′2 L’espérance de SX̄ est la variance de la population et SX̄ /E(SX̄ ) = σ 2 / est un estimateur sans biais de σ 2 . I. Cas : moyenne µ et écart-type σ de la population connus : A) Si la population est infinie ou si l’échantillonnage est non exhaustif (tirage avec remise) : — l’espérance mathématique de X̄ est égale à la moyenne de la population : E(X̄) = µ Lecture Notes in Computer Science and Technologies No 5, 2016  . Statistique inférentielle 5 — la variance de X̄ est égale à la variance de la population divisée par la taille n de l’échantillon : s2X̄ = σ σ2 → sX̄ = √ . n n Soit E1 , E2 , . . ., Ep : p échantillons de taille n issues d’une même population mère de moyenne µ et de variance σ 2 . Soit x̄1 , x̄2 , . . ., x̄p : leurs moyennes respectives. Soit X̄ : la variable aléatoire qui prend pour valeur ces moyennes : X̄ = x̄1 , x̄2 , . . . , x̄p Alors lorsque n ≥ 30, X̄ ∼ N(µ, √σn ) en vertu du théorème central limite. Exemple 1.2.1 /Feuille 1/ Une machine effectue l’ensachage d’un produit. On sait que les sacs ont un poids moyen de 250g avec un écart-type de 25g. Quelles sont les caractéristiques de la moyenne des poids d’un échantillon de 100 sacs ? Solution. (P ) : µ = 250, σ = 2, 5; (E) : n = 100 > 30 X̄ suit la loi normale de paramètres µ = 250 et √σ n = 25 10 = 2, 5. Remarque 1 1. La moyenne de la distribution d’échantillonnage des moyennes est égale à la moyenne de la population. 2. On constate que plus n croı̂t, plus V ar(X̄) décroı̂t. La distribution des moyennes d’échantillon est moins dispersée que la distribution initiale. En effet, à mesure que la taille de l’échantillon augmente, nous avons accès à une plus grande quantité d’informations pour estimer la moyenne de la population. Par conséquent, la différence probable entre la vraie valeur de la moyenne de la population et la moyenne échantillonnage diminue. L’étendue des valeurs possibles de la moyenne échantillonnale diminue et le degré de dispersion de la distribution aussi. σX̄ = √σ n est aussi appelé l’erreur-type de la moyenne. B) Si l’échantillonnage est exhaustif (tirage sans remise) dans une population finie (avec n > 0.05N ) : on doit tenir compte d’un facteur d’exhaustivité pour déterminer sX̄ . q −n . Celui-ci devient : sX̄ = √σn N N −1 Lecture Notes in Computer Science and Technologies No 5, 2016 6 Vera Angelova Échantillonnage exhaustif (tirage sans remise) dans une population finie avec n > 0.05N ! r σ N −n X̄ ∼ N µ, √ n N −1 Exemple 1.2.2 /Feuille 1/ Dans une usine textile, on utilise une machine automatique pour couper des morceaux de tissu. Lorsque la machine est correctement ajustée, la longueur des morceaux de tissu est en moyenne de 90 cm avec un écart type de 0.60 cm. Pour contrôler la longueur des morceaux de tissu, on tire dans la production d’une journée un échantillon aléatoire de 200 morceaux. a) Si l’on suppose que la longueur X des morceaux de tissu suit une loi normale, calculer la probabilité que la moyenne de l’échantillon soit au plus égale à 89.90 cm, ceci dans 2 cas : — production de la journée : 10 000 morceaux — production de la journée : 2 000 morceaux. b) Déterminer la même probabilité sans faire l’hypothèse que X soit distribuée normalement. c) Si la moyenne observée sur cet échantillon est de 90.30 cm, celui-ci est-il représentatif de la population mère en prenant un risque de 5 % de se tromper ? (avec N = 10 000). Solution : a) Production journalière = N = 10 000 ; Taille de l’échantillon = n = 200 ; n N = 0.02 Même si l’échantillonnage est exhaustif, ce n’est pas la peine de tenir compte du coefficient d’exhaustivité. Dans ce cas E(X̄) = 90 cm et sX̄ = √σ n = √0.6 200 = 0.042. Comme X ∼ N(90, 0.6) → X̄ ∼ N(90, 0.042)   89.9 − 90 P (X̄ ≤ 89.9) = P T ≤ = P (T ≤ −2.38) = 1 − π(2.38) = 0.0087 → 0.87% 0.042 Production journalière = N = 2 000 → Nn = 0.1 → on doit tenir compte du coefficient d’exhaustivité r r N −n 2000 − 200 σ 0.6 sX̄ = √ =√ = 0.04 2000 − 1 n N −1 200 X̄ ∼ N(90, 0.04) P (X̄ ≤ 89.9) = P  89.9 − 90 T ≤ 0.04  = P (T − 2.5) = 1 − π(2.5) = 0.0062 → 0.62% Lecture Notes in Computer Science and Technologies No 5, 2016 Statistique inférentielle 7 b) Même si l’on ne fait plus l’hypothèse que X soit une variable normale, comme n = 200 > 30, le théorème central limite permet de dire quel X̄ ∼ N(90, 0.042) pour N = 10000. On trouvera donc la même probabilité P (X̄ ≤ 89.9) = 0.0087 → 0, 87%. c) L’échantillon est représentatif de la population mère avec un intervalle de confiance de 95 % lorsque : P (µ − t sX̄ ≤ x̄ ≤ µ + t sX̄ ) = 0.95 Lorsque la probabilité d’un intervalle symétrique est de 0.95, on a   1.95 t = 1.96 π(t) − π(−t) = 2π(t) − 1 = 0.95 → π(t) = = 0, 975 → t = 1, 96 . 2 P (90 − 1.96 × 0.042 ≤ x̄ ≤ 90 + 1.96 × 0.042) = 0.95 L’intervalle est donc [89.917; 90.082]. Comme x̄ = 90.3 cm, ne se situe pas dans cet intervalle de confiance, l’échantillon n’est pas jugé représentatif de la population mère (avec un risque de 5 % de se tromper). C) Distribution de X̄1 − X̄2 Il peut arriver en statistique que l’on désire comparer 2 populations relativement à une certaine caractéristique X. Population 1 : caractéristique X1 , moyenne : µ1 , variance σ12 , écart-type σ1 Population 2 : caractéristique X2 , moyenne : µ2 , variance σ22 , écart-type σ2 Pour comparer ces 2 populations, on tire indépendamment un échantillon aléatoire de taille n1 dans la 1re et un échantillon aléatoire de taille n2 dans la 2e et on considère la distribution de la différence (X̄1 − X̄2 ). D’après les propriétés de l’espérance mathématique et de la variance, on a : E(X̄1 − X̄2 ) = µ1 − µ2 2 = σX̄ 1 −X̄2 Si σ12 n1 + σ22 n2 → σX̄1 −X̄2 = s σ12 σ22 q 2 + = sX̄1 + s2X̄2 n1 n2   X1 ∼ N(µ1 , σ1 ), X2 ∼ N(µ2 , σ2 ) → X̄1 − X̄2 ∼ N µ1 − µ2 , s σ12 n1 +  σ22  n2 — Si n1 et n2 sont grands (supérieurs à 30), quelles que soient les distributions de X1 et X2 , (X̄1 − X̄2 ) suivra une loi normale de mêmes paramètres, en vertu du théorème central limite. — On utilisera le facteur d’exhaustivité dans les mêmes conditions (tirages sans remise, populations finies avec ni > 0.05Ni ). Lecture Notes in Computer Science and Technologies No 5, 2016 8 Vera Angelova Exemple 1.2.3 /Feuille 1/ Deux sociétés fabriquent des piles électriques d’un certain format. Les piles de la société 1 ont une durée d’utilisation moyenne de 230 heures avec un écart type de 30 heures. Les piles de la société 2 ont une durée d’utilisation moyenne de 210 heures avec un écart type de 20 heures. Quelle est la probabilité que la durée d’utilisation moyenne d’un échantillon aléatoire simple de 100 piles de la société 1 soit d’au moins 30 heures de plus que la durée d’utilisation moyenne d’un échantillon aléatoire simple de 125 piles de la société 2? Solution : Soit : X1 la durée d’utilisation des piles de la société 1, X2 la durée d’utilisation des piles de la société 2. On ne connaı̂t pas les distributions de X1 et X2 , mais comme les tailles n1 = 100 et n2 = 125 sont grandes (> 30), on peut dire que : ! r 302 202 (X̄1 − X̄2 ) ∼ N 230 − 210, + 100 125 (X̄1 − X̄2 ) ∼ N(20; 3.493)   30 − 20 = P (T > 2.86) P (X̄1 − X̄2 ≥ 30) = P T > 3.493 = 1 − π(2.86) = 0.0021 = 0.21% II. Cas : variance σ 2 de la population inconnue A. Un grand échantillon (n ≥ 30) permet de déduire une valeur fiable pour σ 2 en calculant la variance de l’échantillon s2 et en posant n 1 X n 2 s = (xi − x̄)2 . σ = n−1 n − 1 i=1 2 Les remarques précédentes restent valables : Un grand échantillon n ≥ 30 de variance s   s X̄ ∼ N µ, √ n−1 B. Cas des petits échantillons : n < 30 On considère exclusivement le cas où X suit une loi normale dans la population. Lorsque l’échantillonnage s’effectue à partir d’une population normale de variance inconnue et que la taille de l’échantillon est petite (n < 30), l’estimation de la variance effectuée par la Lecture Notes in Computer Science and Technologies No 5, 2016 Statistique inférentielle 9 variance de l’échantillon n’est plus fiable. Comme s2 varie trop d’échantillon en échantillon, on n s2 . L’écart-type de la distribution de X̄ √σn , approximé par ne peut plus écrire que σ 2 ≈ n−1 √σ ≈ √ s n’est plus une constante et sa valeur varie dans chaque échantillon. n n−1 1 n variable écart-type d’échantillon, notée S est une variable aléatoire, définie par S 2 = PLa n 2 i=1 (Xi − X̄) . √ √ = n−1(sX̄−µ) , dont le dénominateur n’est pas Considérons la variable aléatoire T = s/X̄−µ n−1 une constante. Alors, la variable T ne suit une loi normale. En divisant numérateur et dénominateur par σ, on écrit T sous la forme √ √ X̄−µ √ n − 1 σ/ n − 1(X̄ − µ) n =r T = 2 .  s Pn X −X̄ i=1 i σ dont le numérateur est composé par une variable aléatoire qui suit une loi N(0, 1), multipliée par √ un facteur n − 1, et le dénominateur est une somme de carrés de variables suivant aussi la loi N(0, 1). Le carré du dénominateur suit donc une loi du χ2 . Pour pouvoir utiliser correctement les tables du χ2 il faut déterminer le nombre de degrés de liberté. Le nombre de degrés de liberté est toujours associée à une somme de carrés et représente le nombre de carrés indépendants dans cette somme. On peut calculer le nombre de degrés de liberté d’après deux règles : - on effectue la différence entre le nombre total de carrés et le nombre de relations qui lient les différents éléments de la somme ; - on effectue la différence entre le nombre total de carrés et le nombre de paramètres que l’on doit estimer pour effectuer le calcul. P Pour déterminer les degrés de liberté de la somme ni=1 ( Xiσ−X̄ )2 , d’après P la première règle le nombre de carrés dans la somme est n. Il y a une relation entre les variables ni=1 (Xi − X̄) = 0. Le nombre de degrés de liberté est donc n − 1. la deuxième règle le nombre de carrés dans la somme est n. Lorsqu’on dit que Pn D’après Xi −X̄ 2 ) est une somme de carrés de variables normales centrées réduites, on remplace µ ( i=1 σ par X̄. On a estimé un paramètre. donc le nombre de degrés de liberté est n − 1. Si n < 30, et σ inconnu, la variable T = degrés de liberté, notée Tn−1 . X̄−µ √ s/ n−1 suit une loi de Student à n − 1 Exemple 1.2.4 /Feuille 1/ Le responsable d’une entreprise a accumulé depuis des années les résultats à un test d’aptitude à effectuer un certain travail. Il semble plausible de supposer que les résultats au test d’aptitude sont distribués suivant une loi normale de moyenne µ = 150 et de variance σ 2 = 100. On fait passer le test à 25 individus de l’entreprise. Quelle est la probabilité que la moyenne de l’échantillon soit entre 146 et 154 ? Solution : On considère la variable aléatoire X̄ moyenne d’échantillon pour les échantillons de taille n = 25. On cherche à déterminer P (146 < X̄ < 154). Lecture Notes in Computer Science and Technologies No 5, 2016 10 Vera Angelova Pour cela, il nous faut connaı̂tre la loi suivie par X̄. Examinons la situation. Nous sommes en présence d’un petit échantillon (n < 30) et heureusement dans le cas où la variable X (résultat au test d’aptitude) suit une loi normale. De plus, σ est connu. Donc X̄ suit N(µ, √σn ) = N(150, 10/5). On en déduit que Z = X̄−150 2 suit N(0, 1). La table donne   146 − 150 154 − 150 P (146 < X̄ < 154) = P <Z< = P (−2 < Z < 2) 2 2 = 2P (0 < Z < 2) = 2 × (P (Z < 2) − P (Z < 0)) = 2 × (0, 9772 − 0, 5) = 2 × 0.4772 = 0.9544. 1.2.2 ′2 Distribution de la variance d’échantillon SX̄ Supposons que X suit une loi normale. 2 nSX̄ 2 σ On considère la variable Y = = n 1 σ2 n Pn i=1 (Xi 2 − X̄) = Pn  Xi −X̄ 2 i=1 σ . Y est une somme d’écarts réduits relatifs à une variable normale, donc Y suit une loi du χ2 à n − 1 degrés de liberté (on perd un degré de liberté car on a estimé le paramètre µ par X̄). Y = Comme S ′2 = n S2 n−1 et d’ici S 2 = n−1 ′2 S n Y = 2 nSX̄ ∼ χ2n−1 . σ2 on pet écrire ′2 (n − 1)SX̄ ∼ χ2n−1 . σ2 Approximation de la distribution de S ′2 dans le cas des grands échantillons : n ≥ 30 √ Lorsque n est grand (n ≥ 30), on peut approcher la loi χ2ν par la loi N(ν, 2ν). Donc Y suit approximativement une loi normale, E(Y ) ≈ n − 1 = ν et V ar(Y ) ≈ 2(n − 1) = 2ν. Y = De Y = ′2 νSX̄ σ2 ∼ N(ν, √ ′2 ′2 √ νSX̄ (n − 1)SX̄ = ∼ χ2ν −→n≥30 N(ν, 2ν). 2 2 σ σ 2ν) et S ′2 = on a   σ2 σ2 = E(Y ) = ν = σ 2 =E ν ν  2 4 4 4 Yσ σ 2σ 2σ 4 σ ′2 V (SX̄ )=V = = 2 V (Y ) = 2 2ν = ν ν ν ν n−1 E(Y ) = ν; V (Y ) = 2ν; Y σ2 ν ′2 E(SX̄ ) Y σ2 ν Lecture Notes in Computer Science and Technologies No 5, 2016 Statistique inférentielle 11 ′2 , lorsque n ≥ 30 et d’ici on obtient la distribution de SX̄ Si n ≥ 30, ′2 SX̄ 2 ∼ N σ ,σ 2 r 2 n−1 ! en première approximation. ′2 est alors approximativement normale, son espérance vaut σ 2 et sa variance La loi de SX̄ approximativement V 1.2.3 ′2 ) ar(SX̄ = V ar  σ2 Y n−1  = 2σ 4 σ4 V ar(Y ) ≈ . (n − 1)2 n−1 Distribution d’échantillonnage d’une proportion F Dans certaines circonstances en gestion, on peut traiter les données sous forme de proportions (taux d’absentéisme, de rebuts, de réussite...). Notations : Population mère : p : proportion moyenne ; q = 1 − p = proportion complémentaire Echantillon : f : fréquence observée de l’échantillon de taille n. Soit F la fréquence d’apparition du caractère dans un échantillon de taille n. Donc F = X/n où X est le nombre de fois où le caractère apparaı̂t dans le n-échantillon. Par définition X suit B(n, p). Donc E(X) = np et V ar(X) = npq. A) Si la population est infinie ou si l’échantillonnage est non exhaustif (tirage avec remise), on montre que : E(F ) = p; s2F pq = ; n sF = r pq n Si n est grand (n ≥ 30) et np ≥ 15, nq ≥ 15, alors B(n, np ) → N(p, p F ∼ N(p, pq ) n p pq n ) et d’ici B) Si l’échantillonnage est exhaustif (tirage sans remise) dans une population finie (avec n > 0.05N ) : on doit tenir compte du facteur d’exhaustivité. F ∼ N p, r pq n r N −n N −1 ! Lecture Notes in Computer Science and Technologies No 5, 2016 12 Vera Angelova Échantillonnage exhaustif (tirage sans remise) dans une population finie (avec n > 0.05N ) ! r r pq N − n F ∼ N p, n N −1 Exemple 1.2.5 /Feuille 7/ [2] Le directeur financier d’une société sait par expérience que 12 % des factures émises ne sont pas réglées dans les 10 jours ouvrables suivant l’échéance. Il fait prélever un échantillon aléatoire de 500 factures. Quelle est la probabilité qu’au moins 70 factures ne sont pas réglées dans le délais, sachant que l’ensemble des factures pouvant être étudiées est de plusieurs dizaines de milliers. Solution :  70 Soit F = “proportion d’échantillon dans un échantillon de taille 500”. P F ≥ 500 =? - Distribution d’échantillonnage d’une proportion F ; échantillonnage exhaustif (tirage sans remise) dans une population finie, mais n < 0, 05N , donc il ne faut pas tenir compte du facteur d’exhaustivité. Ici p = 0.12, q = 1 − p = 1 − 0.12 = 0.88. Comme n = 500 > 30, np = 500 ∗ 0, 12 = 60 > 15, nq = 500 ∗ 0, 88 = 440 > 15 =⇒ approximation de la loi binomiale par la loi normale : ! r  r  pq 0, 12 ∗ 0, 88 = N 0, 12; = N(0, 12; 0, 015) F ∼ N p, n 500 P  70 F ≥ 500      69, 5 0, 139 − 0, 12 = P F > =P Z> 500 0, 015   0, 019 = 1−P Z < = 1 − P (Z < 1, 27) = 1 − π(1, 27) = 1 − 0, 8997 ≈ 0, 1 0, 015 ≈ 10% de chances pour que plus de 70 factures dans un 500 échantillon soient non réglées dans le délais. Exemple 1.2.6 Selon une étude sur le comportement du consommateur, 25% d’entre eux sont influencés par la marque, lors de l’achat d’un bien. Si on interroge 100 consommateurs pris au hasard, quelle est la probabilité pour qu’au moins 35 d’entre eux se déclarent influencés par la marque ? Solution : Soit F = “proportion d’échantillon dans un échantillon de taille 100”. P (F > 0, 35) =? =⇒ il faut déterminer la loi de F . n = 100 > 30 ; np = 100 × 0, 25 = 25> 15 et nq = 100 × 0, 75 = 75> 15  r  pq = N(0, 25, 0, 0433). =⇒ F ∼ N p, n Lecture Notes in Computer Science and Technologies No 5, 2016 Statistique inférentielle On utilise la variable Z = F −0,25 0,0433 13 qui suit la loi N(0, 1). P (F > 0, 35) = P (Z > 2, 31) = 0, 5 − P (0 < Z < 2, 31) = 0, 5 − 0, 4896 = 0, 0104. Conclusion :. Il y a environ une chance sur 100 pour que plus de 35 consommateurs dans un 100 - échantillon se disent influencés par la marque lorsque l’ensemble de la population contient 25% de tels consommateurs. C) Distribution de F1 − F2 Lorsque n1 et n2 sont grands, alors :  (F1 − F2 ) ∼ N p1 − p2 ; r p 1 q1 p 2 q2 + n1 n2  Lecture Notes in Computer Science and Technologies No 5, 2016 14 Vera Angelova 1.3 Synthèse sur les distributions d’échantillonnage Variable aléatoire Paramètres descriptifs Définition Loi F = X/n, F Proportion d’échantillon X ∼ B(n, p) E(X) = np V ar(X) npq E(F ) = p V ar(F ) = = pq n n ≥ 30, np > 15, nq > 15 p  B(n, np ) → N p, pq n tirage avec remise (sans remise et n < 0, 05N ) p  F ∼ N p, pq n tirage sans remise et n > 0, 05N  p q  pq N −n F ∼ N p, n N −1 F1 − F2 F1∼ q  N p1 , pn1 q11 F1 − F2 F2∼ q  p 2 q2 N p2 , n2 E(F1 − F2 ) = p1 − p2 V ar(F1 − F2 ) = q p 1 q1 + pn2 q22 n1 n1 ≥ 30 ; n2 ≥ 30 F1− F2 ∼ q N p1 − p2 , pn1 q11 + p 2 q2 n2 Table 1.1 : Synthèse sur les distributions d’échantillonnage Lecture Notes in Computer Science and Technologies No 5, 2016  Variable aléatoire X̄ = n1 (X1 + · · · + Xn ) P = n1 ni=1 Xi Loi E(X̄) = µ V ar(X̄) = σ2 n σ connu n ≥ 30 n < 30, X ∼ N(µ, σ) σ inconnu estimation fiable n s2 σ̂ 2 = n−1 σ connu T = tirage avec remise ; tirage sans remise et n < 0, 05N X̄ ∼ N(µ, √σn ) X1 : n1 , µ1 , σ 1 X2 : n2 , µ2 , σ 2 E(X̄1 − X̄2 ) = µ1 − µ2 ; V ar(X̄1 − X̄2 ) σ2 σ2 = n11 + n22 X̄1 − X̄2 σ inconnu estimation fiable n s2 σ̂ 2 = n−1 = X̄−µ √s n−1 X̄−µ T ∼ Tn−1 tirage sans q et n > 0, 05N  remise σ −n X̄ ∼ N µ, √n N N −1 n1 , n2 < 30 et X1 ∼ N(µ1 , σ1 ), n1 , n2 ≥ 30 ; ni < 0, 05N X2 ∼ N(µ2 , σ2 )   q 2 σ1 σ22 X̄1 − X̄2 ∼ N µ1 − µ2 , n1 + n2 ni > 0, 05N → facteur d’exhaustivité ′2 SX̄ Variance d’échantillon - estimation de σ 2 2 SX̄ = 1 n Pn i=1 (Xi − X̄)2 n ′2 SX̄ = n−1 S2 P n 1 2 = n−1 i=1 (Xi − X̄) 2 E(SX̄ )= ′2 ) E(SX̄ n−1 2 σ , n =σ 2 n ≥ 30 ′2 SX̄  2 ∼ N σ ,σ 2 q n < 30 2 (n−1)  Table 1.2 : Synthèse sur les distributions d’échantillonnage s′ √ n ′2 (n−1)SX̄ 2 σ ∼ χ2n−1 Statistique inférentielle Lecture Notes in Computer Science and Technologies No 5, 2016 X̄ Moyenne d’échantillon Paramètres descriptifs Définition 15 16 Vera Angelova Chapitre 2 Estimation L’estimation fait part de la Statistique inférentielle L’estimation répond au problème réciproque à celui de l’échantillonnage : obtenir de l’information sur la population à partir d’échantillons. Ce problème comporte des incertitudes. Il ne pourra être résolu que moyennant un certain ”risque d’erreur”. Figure 2.1 : [2] Statistiques inférentielle Dans les problèmes d’estimation, on cherche à se faire une idée de la valeur d’un paramètre inconnu de la population mère à partir de données observées dans un échantillon - induction du particulier au général. L’objectif est d’obtenir une bonne estimation de µ, p et σ à partir de x̄, f et s, compte tenu de l’existence d’une dispersion dans la distribution d’échantillonnage. Lecture Notes in Computer Science and Technologies No 5, 2016 Statistique inférentielle 17 Les méthodes d’estimation se divisent en 2 grandes catégories : — l’estimation ponctuelle : on estime la valeur du paramètre inconnu de la population mère par un seul nombre à partir de l’information fournie par l’échantillon. — l’estimation par intervalle de confiance : on estime un paramètre d’une population donnée par deux nombres qui forment un intervalle à l’intérieur duquel le paramètre de la population a de grandes chances de se trouver. Les estimations par intervalles indiquent la précision d’une estimation et sont donc préférables aux estimations ponctuelles. Exemple 2.0.1 Considérons la v.a. discrète X définie par la face obtenue en lançant le dé. En relançant le dé 100 fois puis 1000 fois, nous avons obtenu les répartitions suivantes : Les Faces Probabilités Proportions (100 valeurs) Proportions (1000 valeurs) 1 1/6 0.16 0.175 2 1/6 0.12 0.162 3 1/6 0.16 0.154 4 1/6 0.14 0.164 5 1/6 0.21 0.162 6 1/6 0.21 0.183 Table 2.1 : Résultats des lancers d’un dé équilibré à 6 faces moyennes sont donc : • Moyenne théorique : µ = p1 x1 + p2 x2 + p3 x3 + p4 x4 + p5 x5 + p6 x6 = (1/6) × 1 + (1/6) × 2 + (1/6) × 3 + (1/6) × 4 + (1/6) × 5 + (1/6) × 6 • Moyenne observée x̄ = f1 x1 + f2 x2 + f3 x3 + f4 x4 + f5 x5 + f6 x6 sur les 100 valeurs : x̄100 = 0.16 × 1 + 0.12 × 2 + 0.16 × 3 + 0.14 × 4 + 0.21 × 5 + 0.21 × 6 sur les 1000 valeurs : x̄1000 = 0.175 × 1 + 0.162 × 2 + 0.154 × 3 + 0.164 × 4 + 0.162 × 5 + 0.183 × 6 On trouve : µ = 3.5 x̄100 = 3.75 x̄1000 = 3.525 La proximité entre la moyenne théorique (3.5) et les moyennes observées (3.75 et 3.525) est due à la convergence des proportions observées fi vers les probabilités pi . Plus les effectifs sont importants, plus ces proportions sont proches des probabilités, et plus la moyenne observée est proche de la moyenne théorique (au sens de la convergence en probabilité). Le calcul détaillé pour la variance donne : • Variance théorique : σ 2 = p1 x21 + p2 x22 p3 x23 + p4 x24 + p5 x25 + p6 x26 − µ2 Lecture Notes in Computer Science and Technologies No 5, 2016 18 Vera Angelova • Variance observée : s2 = f1 x21 + f2 x22 + f3 x23 + f4 x24 + f5 x25 + f6 x26 − x̄2 On trouve, en notant s2100 et s21000 les variances des échantillons de taille 100 et 1000 : σ 2 = 2.917 s2100 = 3.0008 s21000 = 3.045. Les convergences des proportions fi vers les probabilités pi et de la moyenne empirique x̄ vers la moyenne théorique µ assurent celle de la variance empirique vers la variance théorique. Mais cette convergence en probabilité est soumise au hasard, et c’est pour cela que la variance empirique s2100 précédente est plus proche de la variance théorique σ 2 que s21000 . 2.1 2.1.1 Estimation ponctuelle Qualités d’un estimateur • estimateur sans biais : Comme un estimateur est une variable aléatoire (il y a autant d’estimateurs que d’échantillons de taille n), on dit que T est un estimateur sans biais d’un paramètre θ de la population si E(T ) = θ. • estimateur convergent : T est un estimateur convergent pour θ si à mesure que la taille de l’échantillon augmente, T tend à prendre une valeur de plus en plus rapprochée de θ. • estimateur efficace : T est l’estimateur le plus efficace de θ s’il est non biaisé et si sa variance est au moins aussi petite que celle de tout autre estimateur T ′ non biaisé : E(T ) = θ et V (T ) ≤ V (T ′ ). • estimateur exhaustif : T est un estimateur exhaustif de θ si T résume toute l’information, contenue dans l’échantillon, qui est pertinente à θ. Plus un estimateur possédera de ces qualités, meilleur il sera. 2.1.2 Les estimateurs les plus utilisés • Estimation ponctuelle de la moyenne de la population : µ b = x̄ Soit (X1 ; X2 ; . . . ; Xn ) indépendantes et identiquement distribuées (i.i.d.) n observations de X ∼ N(µ; σ) ou grand échantillon (n ≥ 30). ∀i = 1; n E(Xi ) = µ ; V (Xi ) = σ 2 . Pour estimer la moyenne µ de la population, on utilise le plus souvent la distribution d’échantillonnage de la moyenne dont l’estimateur est : n X̄ = 1X Xi . n i=1 Lecture Notes in Computer Science and Technologies No 5, 2016 Statistique inférentielle 19 1. Estimateur sans biais : n 1X Xi n i=1 E(X̄) = E ! n n 1X nµ 1X = µ. E(Xi ) = µ= = n i=1 n i=1 n 2. Estimateur convergent en probabilité : Cas : population infinie ou tirage non exhaustif : ! n n n 1 X 2 nσ 2 σ2 1 X 1X 2 Xi = 2 V (Xi ) = 2 σ = 2 = −−−→ 0 V (X̄) = sX̄ = V n i=1 n i=1 n i=1 n n n→∞ ⇒ V (X̄) = s2X̄ → 0 quand n → +∞. Cas : population finie et tirage exhaustif (sans remise) : Si la population échantillonnée a un nombre fini d’individus de taille N , on conçoit que la loi de la population change après chaque tirage et que les tirages ne soient pas indépendants. On −n doit apporter le facteur de correction : N ≈ 1 − Nn à la variance de l’estimateur, si le taux de N −1 sondage t = Nn > 5%. V (X̄) = s2X̄ σ2 = n  N −n N −1 2 , comme N −n −−−→ 1 ⇒ V (X̄) = s2X̄ → 0 quand n → +∞. N − 1 n→∞ Toutefois ce facteur de correction peut être ignoré (≈ 1) si le taux de sondage est inférieur à 5%. La distribution d’échantillonnage de la moyenne : n 1X X̄ = Xi . n i=1 est un excellent estimateur de µ. La moyenne x̄ observée sur l’échantillon est une estimation ponctuelle de la moyenne µ de la population : µ b = x̄. • Estimation ponctuelle de la proportion de la population : pb = f Soient A1 ; . . . ; Ai ; . . . ; An n événements indépendants de probabilité p. Pour estimer la proportion p de la population, on utilise la proportion F de réalisation des événements Ai dans l’échantillon : n 1X F = nA n i=1 i L’estimateur ainsi définit est : 1. Estimateur sans biais : Démonstration : Lecture Notes in Computer Science and Technologies No 5, 2016 20 Vera Angelova On est ramené au cas estimation de la moyenne d’une loi de Bernoulli. En effet,   Pn  (X1 ; . . . ; Xi ; . . . ; Xn ) i.i.d.  Y = i Xi ∼ B(n, p) Binomiale Xi ∼ B(p) Bernoulli E(Y ) = np ⇒   ∀i E(Xi ) = p et V (Xi ) = pq V (Y ) = npq avec q = 1 − p  Pn  F = Yn = n1 i Xi E(F ) = n1 E(Y ) = p  V (F ) = n12 V (Y ) = pq n  p pq ) F ∼ N(p,  n    E(F ) = p et V (F ) = ⇒ (n grand : N ≥ 30) si n > 0.05N  q    F ∼ N(p, pq N −n ) pq n n N −1 E(F ) = p. 2. Estimateur convergent en probabilité : Cas : population infinie ou tirage non exhaustif : V ar(F ) = pq → 0 quand n → +∞ n Cas : population finie /de taille N / et tirage exhaustif /taux de sondage t = 5%/ : pq N − n → 0 quand n → +∞. V ar(F ) = n N −1 n N > La proportion f observée sur l’échantillon est une estimation ponctuelle de la proportion p de la population ⇒ pb = f. Déterminer sF , lorsque la proportion p de la population mère n’est pas connue. p sF = pq ⇒ s2F = pq . Si on ne connaı̂t pas p et q, on les remplace par f et (1 − f ) en n n tenant compte de la correction : r f (1 − f ) f (1 − f ) n f (1 − f ) 2 = ⇒ sF = tirage avec remise. sF = n−1 n n−1 n−1 f (1 − f ) N − n s2F = tirage sans remise n > 0.05N. n−1 N −1 Exemple 2.1.1 /Feuille 2/ Supposons qu’une entreprise compte 200 employés et que l’échantillon de 50 employés a été prélevé au hasard parmi les deux cents. Cat. salariale/mois Moins de 2 M.Euros [2 − 4[ 4 M.Euros et plus Total Nombre de salariés 18 20 12 50 Lecture Notes in Computer Science and Technologies No 5, 2016 Statistique inférentielle 21 1. Donner une estimation de la proportion de l’ensemble des employés dont le salaire mensuel est de 2 M.Euros et plus. 2. Quel est le taux de sondage ? 3. Déterminer la probabilité qu’au moins 30 employés de cet échantillon possèdent un salaire mensuel de 2 M.Euros et plus lorsque la population échantillonnée en contient 64%. Solution : = 32 = 0.64 = 64%. 1.) p̂ = f = 20+12 50 50 50 n 2.) t = N = 200 = 0.25 > 0.05. 3.) Soit F la v.a. proportion d’échantillon dans le cas de taux de sondage q  p  supérieur à 0.05 et pq N −n proportion de la population p = 64% connue. On a F ∼ N p, n N −1 .  30 =? On cherche la probabilité P F ≥ 50       30/50 − p  30 30 = 1−P F ≤ = 1 − π p q P F ≥ pq 50 50 N −n n N −1    30/50 − 0.64 = 1 − π q q 0.64∗0.36 50 200−50 200−1 = 0.52 = 52%   = 1 − π(−0.06781) = 1 − 1 + π(0.06781) • Estimation ponctuelle de la variance et de l’écart-type de la population • Cas : µ connue Soient X1 ; X2 ; . . . ; Xn n observations indépendantes de même loi de moyenne µ et de variance σ 2 . Pour estimer σ 2 , si la moyenne µ est connue, on peut construire l’estimateur : n 1X S = (Xi − µ)2 n i=1 2 1. Estimateur sans biais : n 2 E(S ) = E 1X (Xi − µ)2 n i=1 ! n n  1X 1X E (Xi − µ)2 = V (Xi ) = σ 2 = n i=1 n i=1 /V (X) = E ((X − µ)2 ) ; V (Xi ) = σ 2 / 2. Estimateur convergent : n 2 V (S ) = V 1X (Xi − µ)2 n i=1 1 (µ4 − σ 4 ) → 0, n  avec µk = E (X − µ)k . = ! n 2    1 1 X = 2 E (X − µ)4 − E (X − µ)2 V (Xi − µ)2 = n i=1 n lorsque n → +∞, Lecture Notes in Computer Science and Technologies No 5, 2016 22 Vera Angelova P La variance s2 = n1 ni=1 (xi − µ)2 observée sur l’échantillon est une estimation ponctuelle de la variance σ 2 de la population échantillonnée lorsque la moyenne µ de la population est connue. • Cas : µ inconnue Lorsque la moyenne µ est inconnue (cas le plus fréquent), pour estimer σ 2 , on pourrait utiliser naturellement l’estimateur : n 1X 2 S = (Xi − X̄)2 n i=1 après avoir estimé µ. Cependant, l’estimateur S 2 est biaisé : E(S 2 ) = S ′2 = n−1 2 σ , n on préfère alors d’utiliser l’estimateur : n S2 n−1 appelé : carré de la déviation standard empirique. 1. Estimateur sans biais :    n n n n−1 2 ′2 2 E(S ) = E S = E S2 = σ = σ2 n−1 n−1 n−1 n 2. Estimateur convergent :  n X  1 n 2 V (Xi − X̄)2 S = V ar(S ) = V 2 n−1 (n − 1) i=1     1 2 2 4 = E (X − X̄) − E (X − X̄) n−1   1 µ4 − s4 −−−→ 0, avec µ4 = E (X − X̄)4 . = n→∞ n−1 ′2  La variance empirique n n 2 1 X (xi − x̄)2 = s, s = n − 1 i=1 n−1 ′2 basée sur la variance observée s2 sur l’échantillon est une estimation ponctuelle de la variance σ 2 de la population échantillonnée lorsque la moyenne µ de la population est inconnue. p n est un estimateur sans biais de σ. S ′ = S n−1 p n ′ s = s n−1 est une estimation ponctuelle de l’écart-type σ de la population. Dans l’estimation ponctuelle de la moyenne µ, lorsqu’on ne connaı̂t pas l’écart-type de la population mère, on détermine sX̄ : Lecture Notes in Computer Science and Technologies No 5, 2016 Statistique inférentielle sX̄ = √σ . n 23 Si on ne connaı̂t pas σ on le remplace par s′ et on a : s′ où sX̄ = √ n ′ s =s r n X n et s = (xi − x̄)2 , n−1 i=1 donc sX̄ = √ s n−1 Exemple 2.1.2 /Feuille 2/ [8] Les prix d’un article en 5 différents marchés d’une région donnée sont : i xi 1 75 2 82 3 83 4 78 5 80 Calculer les estimations ponctuelles de la moyenne et de l’écart-type. Solution L’effectif n = 5 de l’échantillon est inférieur à 30 et la moyenne µ et la variance σ 2 de la population sont inconnus.POn utilise les expressions d’estimation ponctuelle les suivantes : = 79.6 Moyenne : µ̂ = x̄ = 5i=1 xi = 398 q P5 q P5n 2 2 p n 2 2 i=1 xi −nx̄ i=1 xi −5x̄ Ecart-type : σ̂ = s n−1 = = n−1 4 On ajoute encore une ligne à la table : i xi x2i σ̂ = r n s= n−1 s 1 75 5625 P5 i=1 2 82 6724 3 83 6889 x2i − 5 ∗ x̄2 = 4 r 4 78 6084 5 80 6400 Total 398 31722 31722 − 5 ∗ 6336.16 = 3.209361 ≈ 3.21 4 Exemple 2.1.3 /Feuille 2/ [8] La table de distributions des salaires en e de 100 employés d’une entreprise est donnée ci-dessous : Classe 400 500 600 700 800 , , , , , 500 600 700 800 900 Centre de la classe x∗i 450 550 650 750 850 Effectif ni 11 30 39 18 2 Calculer les estimations ponctuelles de la moyenne et de l’écart-type. Solution Lecture Notes in Computer Science and Technologies No 5, 2016 24 Vera Angelova Comme les données sont groupées en classes, on utilise les expressions pour D.G.1. On ajoute encore deux colonnes et une ligne à la table : Classe 400 , 500 500 , 600 600 , 700 700 , 800 800 , 900 Totale Centre de la classe x∗i 450 550 650 750 850 Effectif ni 11 30 39 18 2 100 ni x∗i 4950 16500 25350 13500 1700 62000 ni x∗2 i 2227500 9075000 16477500 10125000 1445000 39350000 P P5 1 62000 ∗ Moyenne : µ̂ = x̄ = n1 ki=1 ni x∗i = 100 i=1 ni xi = 100 = 620 e. q Pk q ∗2 p n i=1 ni xi −nx̄ Ecart-type : σ̂ = s n−1 = = 39350000−38440000 = 95.87 n−1 99 2.2 Estimation par intervalle de confiance Définition d’une région de confiance Le staticien fix à l’avance un petit nombre α ∈ (0, 1) un un niveau de risque, le seuil des probabilités significatives ou simplement le seuil. Les valeurs usuelles de α sont 1%, 5% ou 10%. On cherche 2 statistiques Λ1 = f (X1 , . . . , Xn ) et Λ2 = f (X1 , . . . , Xn ) telles que l’on ait P (Λ1 ≤ θ ≤ Λ2 ) ≥ 1 − α =⇒ Il y a une probabilité forte (supérieure ou égale à 1 − α) pour que l’intervalle aléatoire [Λ1 , Λ2 ] contient le nombre inconnu θ. A la suite de prélèvement de l’échantillon Λ1 prend la valeur θb1 et Λ2 la valeur θb2 . L’intervalle I.C.1−α = [θb1 , θb2 ] est un intervalle (unilatère ou bilatère) de confiance pour θ de seuil α ou de niveau de confiance 1 − α Un intervalle de confiance de niveau de confiance 95% a une probabilité au moins égale à 0.95 de contenir la vraie valeur inconnue θ. Par passage au complémentaire, le niveau de risque α correspondant à une majoration de la probabilité que la vraie valeur du paramètre θ ne soit pas dans I.C.1−α . A niveau de confiance fixé, une région de confiance est d’autant meilleure qu’elle est de taille petite. Obtention d’un intervalle de confiance Soient Y = f (X1 , . . . , Xn ) et Z = g(X1 , . . . , Xn ) deux statistiques, telles que la v.a. T = obéisse à la loi normale centrée réduite ou à la loi de Studnet. Lecture Notes in Computer Science and Technologies No 5, 2016 Y −θ Z Statistique inférentielle 25 On cherche dans les tables un nombre t α2 tel que : P (|T | > t α2 ) ≤ α, c’est-à-dire encore P (|T | ≤ t α2 ) ≥ 1 − α On aura donc P ce qui est équivalent à  Y −θ ≤ t α2 Z  ≥1−α P (Y − t α2 Z ≤ θ ≤ Y + t α2 Z) ≥ 1 − α. L’intervalle I.C.1−α = [Y − t α2 Z, Y + t α2 Z] est, pour θ un intervalle de confiance de seuil α. Choix du fractile t α2 On choisie dans la table le fractile t α2 qui vérifie l’égalité :  • pour un intervalle bilatéral P |T | > t α2 = α, qui est équivalent aux P (T > t′α ) = 2 α α , et P (T < t′′α ) = ; 2 2 2 • pour un intervalle unilatéral à droite P (T > tα ) = α; • pour un intervalle unilatéral à gauche P (T < tα ) = α. Si on diminue α, c’est-à-dire augmente la confiance, on augmente t α2 et, par suite augmente l’intervalle de confiance (plus un intervalle est grand, plus on peut avoir confiance en lui) Lecture Notes in Computer Science and Technologies No 5, 2016 26 Vera Angelova 2.2.1 Intervalle de confiance de la moyenne d’une population : µ µ n’est pas connu mais on sait que la moyenne de l’échantillon, X̄, est un excellent estimateur de µ. • Cas : σ 2 connue et n ≥ 30 ou X ∼ N(µ, σ) Lorsque la variance de la population σ 2 est connue, la distribution d’échantillonnage de X̄ est 2 approximativement normale de moyenne E(X̄) = µ et de variance connue sX̄ = σn . La statistique de test : X̄−µ √ σ/ n  → N(0, 1) X̄−µ √ σ/ n  = 1 − α.  On détermine les fractiles t α2 de la loi N(0, 1) : P −t α2 ≤ On peut alors écrire : P −t α2 ≤ ≤ t α2 X̄−µ √ σ/ n ≤ t α2  = 1 − α [1] Valeurs des fractiles t α2 de la loi N(0, 1) pour certains niveaux de risque α : α 0,1 0,5 0,01 1−α 0,9 0,95 0,99 t α2 1,645 1,960 2,576 On en déduit l’intervalle de confiance de niveau (1 − α) de µ : σ σ x̄ − t α2 √ < µ < x̄ + t α2 √ n n Marge d’erreur dans l’estimation de µ : E = t α2 √σn . L’intervalle [x̄ − t α2 √σn ; x̄ + t α2 √σn ] est ”bilatéral symétrique” de niveau 1 − α de la moyenne µ centré en x̄. Lecture Notes in Computer Science and Technologies No 5, 2016 Statistique inférentielle 27 L’intervalle de confiance est l’intervalle de valeurs tel que l’on a une probabilité de (1 − α) (fixée à l’avance) d’avoir la moyenne µ comprise entre les 2 bornes x̄ − t α2 sx̄ et x̄ + t α2 sx̄ : P (x̄ − t α2 sx̄ < µ < x̄ + t α2 sx̄ ) = (1 − α) Ceci n’est strictement valable que si la population est distribuée normalement ou si n ≥ 30. • Cas : σ 2 inconnue Lorsque la population est distribuée normalement, que σ n’est pas connu et que l’échantillon est de faible taille (n < 30), on se réfère à la loi de Student Fisher, similaire à la loi normale mais qui donne des valeurs de t différentes pour tenir compte de l’aléa plus grand engendré par un échantillon réduit. La lecture de la table de Student (voir annexes) donne directement la valeur de t en fonction du nombre de degrés de liberté (n − 1) et du risque accepté α. Par exemple, si n = 16 et l’intervalle de confiance est à 1 − α = 95 : le t de Student le nombre de d.l. = 16 − 1 = 15 ⇒ = 2,131 le risque accepté α = 1 − 0.95 = 0.05 Lorsque la variance σ 2 est inconnue on doit d’abord estimer la moyenne µ pour estimer σ 2 : n 2 1 X Xi − X̄ Estimateur sans biais : S = n − 1 i=1 ′2 n Estimation : s′2 = 1 X (xi − x̄)2 n − 1 i=1 Dans ce cas, la distribution d’échantillonnage de X̄ a pour moyenne E(X̄) = µ et de variance ′2 estimée V ar(X̄) = sn . La statistique de test : X̄−µ √ S′/ n  → Tn−1 d.d.l. On peut alors écrire : P −tSt α2 ≤ X̄−µ √ s′ / n ≤ tSt α2  =1−α Les fractiles tSt α2 de la loi de Student à n d.d.l. (cf. table) :   P −tSt α2 ≤ Tn ≤ tSt α2 = P |Tn | ≤ tSt αn = 1 − α On en déduit l’intervalle de confiance de niveau (1 − α) de µ : s′ s′ x̄ − tSt α2 √ ≤ µ ≤ x̄ + tSt α2 √ n n ′ Marge d’erreur dans l’estimation de µ : E = tSt α2 √sn Lecture Notes in Computer Science and Technologies No 5, 2016 28 Vera Angelova Lorsque la population est distribuée normalement, que σ n’est pas connu et que l’échantillon est de faible taille (n < 30), on se réfère à la loi de Student Fisher. Approximation : si la taille de l’échantillon est grande (n ≥ 30) alors on peut remplacer la valeur du fractile tSt α2 de Student à (n − 1) d.d.l. par celle du fractile t α2 de la loi normale centrée-réduite N(0, 1). Exemple 2.2.1 [2] /Feuille 2/ 1. Soit X la v.a. ≪durée de vie du tube cathodique d’une marque de T.V.≫. On ne connaı̂t pas la moyenne des durées de vie des tubes bien que l’on sache qu’elles sont distribuées normalement. L’écart-type de la distribution des durées de vie σ = 450. Dans un échantillon de 55 tubes on a calculé que la durée de vie moyenne était de 9 500 heures. Déterminer l’intervalle de confiance à 90 % de la durée de vie moyenne de la population des tubes. Solution : Comme la population est distribuée normalement, que σ est connu et que n = 55 > 30, on peut utiliser la loi normale. Pour 1 − α = 90% on a P (−t < T < t) = 0.90 ⇒ π(t) − π(−t) = 0.90 ⇒ 2π(t) − 1 = 0.90 ⇒ π(t) = 1.90 2 = 0.95 ⇒ t = 1.645. Donc P (X̄ − 1.645 sX̄ < µ < X̄ + 1.645 sX̄ ) = 0.90 = 60.678 sX̄ = √σn = √450 55 L’intervalle de confiance à 90 % = [9500 − 1.645 × 60.678; 9500 + 1.645 × 60.678] = [9400.18; 9599.81] Remarque : Dans ce cas, même si la population n’était pas distribuée normalement, on aurait trouvé le même intervalle de confiance à 90 % en vertu du théorème central limite qui nous assure que, pour n ≥ 30 (ici n = 55), la distribution d’échantillonnage de la moyenne peut être supposée normale même si la population ne l’est pas. 2. Reprenons le même exemple, mais cette fois l’échantillon est de taille n = 25. Déterminons l’intervalle de confiance à 99 % de la durée de vie moyenne des tubes, sachant que x̄ = 9500 heures. Solution : X ∼ N(µ, 450); n = 25, X̄ = 9500, 1 − α = 99% On peut utiliser la loi normale car la population est normale et que σ est connu. Pour 1 − α = 99% ⇒ P (−t < T < t) = 0.99 ⇒ π(t) − π(−t) = 2π(t) − 1 = 0.99 Lecture Notes in Computer Science and Technologies No 5, 2016 Statistique inférentielle 1.99 = 0.995 2 450 √σ = √ = 90 n 25 ⇒ π(t) = sX̄ = 29 ⇒ t = 2.575. Donc P (9500 − 2.575 × 90 < µ < 9500 + 2.575 × 90) = 0.99 L’intervalle de confiance à 99% = [9 268.25 ; 9 731.75]. 3. Supposons que la population soit distribuée normalement, mais que σ ne soit pas connu. A partir d’un échantillon de taille n = 60, nous avons x̄ = 9450 et s = 446.234. Estimons à l’aide d’un intervalle de confiance à 95 % la moyenne de la population. Solution : Comme n = 60 > 30, on peut utiliser la loi normale. De plus, comme la population est distribuée normalement, ce n’est pas la peine de faire appel au théorème central limite. Pour 1 − α = 95% ⇒ P (−t < T < t) = 0.95 ⇒ 2π(t) − 1 = 0.95 ⇒ π(t) = t = 1.96. sX̄ = √σ . n sX̄ = s′ √ n 1.95 2 = 0.975 ⇒ Nous ne connaissons pas σ, il faut l’estimer. q p n = 446.234 60 = 450 s′ = s n−1 59 = 450 √ 60 = 58.094 Donc P (9450 − 1.96 × 58.094 < µ < 9450 + 1.96 × 58.094) = 0, 95 L’intervalle de confiance à 95 % = [9 336.13 ; 9 563.86] Remarque : Dans ce cas, même si la population n’était pas distribuée normalement, on aurait trouvé le même intervalle de confiance à 95 %, en vertu du théorème central limite (car n = 60 > 30). 4. Supposons que la distribution soit normale, que σ ne soit pas connu, et que l’écart type s d’un échantillon de taille n = 25 soit égal à 440,908, x̄ étant égal à 9 500. Déterminons l’intervalle de confiance à 99 % et comparons le à celui de l’exemple 2. Solution : Comme on suppose que la population est distribuée normalement, que σ est inconnu, que n = 25 < 30, on peut utiliser ici la loi de Student pour calculer les tSt α2 . nombre de d.l. = n − 1 = 25 − 1 = 24 ⇒ tSt α2 = 2.797 le risque accepté = α = 1 − 0.99 = 0.01 q p n = 440.908 25 = 450 σ n’est pas connu ⇒ s′ = s n−1 24 sX̄ = s′ √ n = 450 √ 25 = 90 Donc P (9500 − 2.797 × 90 < µ < 9500 + 2.797 × 90) = 0.99 L’intervalle de confiance = [9 248.27 ; 9 751.73]. Lecture Notes in Computer Science and Technologies No 5, 2016 30 Vera Angelova Cet intervalle de confiance est plus étendu que celui de l’exemple 2 (à conditions à peu près identiques, à l’utilisation de la loi de Student près), Ceci s’explique par l’aléa plus important dû à l’estimation de l’écart type de la population sur un échantillon de petite taille. 2.2.2 Intervalle de confiance de la proportion d’une population : p p n’est pas connue et on cherche à l’estimer à partir de l’échantillon. L’intervalle de confiance est l’intervalle de valeurs tel que l’on a une probabilité 1 − α % (fixée à l’avance) d’avoir la proportion p comprise entre les 2 bornes f − tsF et f + tsF Dans le cas de grande taille de l’échantillon prélevé (n ≥ 30), l’estimation par intervalle de confiance de p (inconnue) de la population se déduit de la distribution d’échantillonnage de la proportion : n 1X Xi F = n i (X1 ; . . . ; Xi ; . . . ; Xn ) i.i.d. Xi ∼ B(p) La distribution d’échantillonnage de F est approximativement normale de moyenne E(F ) = p ) et de variance en fonction de p (inconnue) V ar(F ) = pq estimée par son estimateur f (1−f ou n n−1 f (1−f ) en convergence par n . La statistique de test : qF −p On peut alors écrire : P f (1−f ) n  ∼ N(0; 1) −t α2 ≤ qF −p f (1−f ) n ≤ t α2  =1−α On en déduit l’intervalle de confiance de niveau (1 − α) de p : f − t α2 r f (1 − f ) ≤ p ≤ f + t α2 n r f (1 − f ) n L’intervalle asymptotique de confiance de niveau (1 − α) de p est : f − t α2 r f (1 − f ) ≤ p ≤ f + t α2 n Marge d’erreur dans l’estimation de p : E = t α2 q r f (1 − f ) n f (1−f ) . n Intervalle ”bilatéral symétrique” de niveau 1 − α de la proportion p centré en f . Lecture Notes in Computer Science and Technologies No 5, 2016 Statistique inférentielle 31 P (f − t α2 sF < p < f + t α2 sF ) = 1 − α% Cette approximation de la loi Binomiale par la loi Normale n’est valable que lorsque n > 30,√ np > 5, nq > 5. pq sF = n . Comme on ne connaı̂t pas p on estime sF par l’estimation en convergence q f (1−f ) . n Au seuil de probabilité de (1 − α)%, l’intervalle asymptotique de confiance pour p sera : # " r r f (1 − f ) f (1 − f ) ; f + t α2 f − t α2 n n Exemple 2.2.2 [2] /Feuille 2/ Les responsables d’une étude de marché ont choisi au hasard 500 femmes dans une grande ville et ont constaté que 35 % des femmes retenues dans l’échantillon préfèrent utiliser une marque de lessive A plutôt que les autres. Ils veulent déterminer l’intervalle de confiance à 95 % de la proportion des femmes de cette ville qui préfèrent la marque de lessive A. Solution : f = 0.35 ⇒ s = q 0.35×0.65 500 = 0.021331. P (0.35 − 1.96 × 0.02133 < p < 0.35 + 1.96 × 0.02133) = 0.95 L’intervalle de confiance est donc [0.3082 ; 0.3918]. Il y a donc entre 30.82 % et 39.18 % des femmes de cette ville qui préfèrent la marque de lessive A (avec un risque de 5 % de se tromper). 2.2.3 Précision - Taille d’échantillon - Risque d’erreur 1. La marge d’erreur ou niveau de précision recherché dans l’estimation par intervalle de confiance, lorsqu’on utilise l’estimation θ̄ de l’échantillon pour estimer la vraie valeur θ de la population, est l’écart (en valeur absolue), noté E = |θ̄ − θ|. 2 En pratique, on peut fixer la marge d’erreur qu’on ne veut pas excéder et déterminer la taille minimale de l’échantillon requise. 3 On peut déduire le risque d’erreur ou le niveau de confiance attribué à une estimation par intervalle. Lecture Notes in Computer Science and Technologies No 5, 2016 32 Vera Angelova Paramètre Moyenne µ (σ 2 connue) Marge d’erreur E = t α2 √σn Moyenne µ (σ 2 inconnue) E = tSt α2 √sn p E = t α2 pq n Proportion p ′ Taille d’échantillon 2 n = t α2 Eσ  s′ 2 n = tSt α2 E  t α 2 n = E2 f (1 − f ) Risque d’erreur √ t α2 = σn E √ tSt α2 = s′n E q n t α2 = f (1−f E ) Exemple 2.2.3 /Feuille 2/ Les responsables d’une étude de marché ont choisi au hasard 500 femmes dans une grande ville et ont constaté que 35 % des femmes retenues dans l’échantillon préfèrent utiliser une marque de lessive A plutôt que les autres. Supposons qu’avant de tirer l’échantillon, les responsables de l’étude aient décidé d’estimer la proportion p à ±2% près. Quelle devrait être dans ce cas la taille minimale de l’échantillon à tirer, en désirant toujours avoir un intervalle de confiance à 95 % et en considérant que f = 0.35. Solution : Pour avoir la proportion à 2 % près, il faut que : r 0.35 × 0.65 = 0.02 n 0.35 × 0.65 = (0.02)2 ⇒ (1.96)2 n (1.96)2 × 0.35 × 0.65 = 2184.91 = 2185. ⇒n= (0.02)2 1.96 2.2.4 Intervalle de confiance de la variance de la population : σ 2 • Cas : µ connue σ 2 n’est pas connu mais on sait que la variance s2 de l’échantillon, est un excellent estimateur de σ 2 , lorsque la moyenne µ de la population est connue. Lorsque la moyenne µ est connue, on peut montrer que : n X (Xi − µ)2 i=1 σ2 = 2 n  X Xi − µ i=1 σ = n X i=1 Ui2 ∼ χ2n d.d.l. avec Ui ∼ N(0; 1). (cf. définition d’une variable aléatoire du khi-deux comme somme de carrés de variables aléatoires normales centrées réduites indépendantes). 2 P 2 La statistique de test : ni=1 Xiσ−µ = n Sσ2 ∼ χ2n d.d.l. Lecture Notes in Computer Science and Technologies No 5, 2016 Statistique inférentielle 33 2 On peut alors écrire : P (k1 ≤ n Sσ2 ≤ k2 ) = 1 − α. où, k1 = χ2α et k2 = χ21− α sont les fractiles 2 2 de la loi khi-deux à n degrés de liberté (cf. table du khi-deux). c’est-à-dire : P (χ2n ≤ k1 ) = α2 et P (χ2n ≤ k2 ) = 1 − α2 . On en déduit l’intervalle de confiance de niveau (1 − α) de σ 2 : n s2 s2 ≤ σ2 ≤ n k2 k1 L’intervalle de confiance de la variance σ 2 est l’intervalle de valeurs tel que l’on a une probabilité de (1 − α) (fixée à l’avance) d’avoir la variance σ 2 comprise entre les 2 bornes 2 2 n ks2 et n ks1 : P  s2 s2 n ≤ σ2 ≤ n k2 k1  = (1 − α) Ceci n’est strictement valable que si la moyenne µ de la population est connue. • Cas : µ inconnue Lorsque la moyenne µ est inconnue, on estime σ 2 par l’estimateur n n S ′2 = S2 = n−1 n−1 n 1X (Xi − X̄)2 n i=1 ! = 1 SCE n−1 On peut également montrer que : 2 P  ′2 La statistique de test : ni=1 Xiσ−X̄ = (n − 1) Sσ2 ∼ χ2(n−1) d.d.l. ′2 On peut alors écrire : P (k1 ≤ (n − 1) Sσ2 ≤ k2 ) = 1 − α. où, k1 = χ2α et k2 = χ21− α sont 2 2 les fractiles de la loi khi-deux à n − 1 degrés de liberté (cf. table du khi-deux). c’est-à-dire : P (χ2(n−1) ≤ k1 ) = α2 et P (χ2(n−1) ≤ k2 ) = 1 − α2 . On en déduit l’intervalle de confiance de niveau (1 − α) de σ 2 : (n − 1) s′2 s′2 ≤ σ 2 ≤ (n − 1) k2 k1 Ou encore pour l’écart-type σ : s (n − 1) s′2 k2 ≤σ≤ s (n − 1) s′2 k1 Lecture Notes in Computer Science and Technologies No 5, 2016 34 Vera Angelova L’intervalle de confiance de la variance σ 2 , lorsque la moyenne µ de la population est inconnue, est l’intervalle de valeurs tel que l’on a une probabilité de (1 − α) (fixée à ′2 ′2 l’avance) d’avoir la variance σ 2 comprise entre les 2 bornes (n − 1) sk2 et (n − 1) sk1 : P  s′2 s′2 (n − 1) ≤ σ 2 ≤ (n − 1) k2 k1  = (1 − α) Exemple 2.2.4 /Feuille 2/ On suppose que le chiffre d’affaires mensuel d’une entreprise suit une loi normale de moyenne inconnue µ mais dont l’écart-type s a été estimé à 52 K.Euros. Sur les 16 derniers mois, la moyenne des chiffres d’affaires mensuels a été de 250 K.Euros. 1 Donner une estimation ponctuelle de l’écart-type σ du chiffre d’affaires mensuel de cette entreprise. 2 Établir un intervalle de confiance de niveau 95% de σ. 2.3 Comparaisons Il existe de nombreuses applications qui consistent, par exemple, à comparer deux groupes d’individus en regard d’un caractère particulier (poids, taille, rendement,...), ou comparer deux procédés de fabrication selon une caractéristique (résistance, diamètre, longueur,...), ou encore comparer les proportions d’apparition d’un caractère de deux populations (proportion de défectueux, proportion de gens favorisant un parti politique,...). Les distributions d’échantillonnage qui sont alors utilisées pour effectuer ces comparaisons ’Tests d’hypothèses’ ou ’calcul d’intervalles de confiance’ sont celles correspondant aux fluctuations d’échantillonnage de la différence de 2 moyennes, de 2 proportions ou encore le rapport de 2 variances observées. 2.3.1 Estimation ponctuelle de la différence de 2 moyennes On prélève des échantillons x1 ; x2 ; . . . xn et y1 ; y2 ; . . . ; yp dans deux populations distinctes. On considère que ces échantillons sont des réalisations de v.a.r. indépendantes X1 ; X2 ; . . . ; Xn et Y1 ; Y2 ; . . . ; Yp les premières de loi de probabilité Lx , les secondes de loi de probabilité Ly telles que : 2 Populations, 2 échantillons indépendants P  x1 ; x2 ; . . . ; xn ↔ X̄ = n1P ni=1 Xi y1 ; y2 ; . . . ; yp ↔ Ȳ = p1 pj=1 Yj On suppose normales les 2 populations, avec respectivement des moyennes µx et µy , et des variances σx2 et σy2 .   ∀j = 1; p ∀i = 1; n 2 E(Yj ) = µy et V (Y j) = σy2 E(Xi ) = µx et V (Xi ) = σx Lecture Notes in Computer Science and Technologies No 5, 2016 Statistique inférentielle 35 L’estimation de la différence (µx −µy ) s’effectue par la différence des distributions d’échantillonnages des moyennes : X̄ − Ȳ Estimateur sans biais : E(X̄ − Ȳ ) = E(X̄) − E(Ȳ ) = µx − µy . Estimateur convergent : V (X̄ − Ȳ ) = V (X̄) + V (Ȳ ) = σx2 n + σy2 . p La différence des moyennes (x̄ − ȳ) observée sur les échantillons est une estimation ponctuelle de la différence (µx − µy ) des moyennes des populations. Pour l’estimation ponctuelle de la différence de 2 proportions, la différence (fx − fy ) observée sur les échantillons est une estimation ponctuelle de la différence des proportions (px − py ) des populations. 2.3.2 Intervalle de confiance de la différence de 2 moyennes • Cas : les variances σx2 et σy2 sont connues On sait que : Moyennes : E(X̄) = µx et E(Ȳ ) = µy ) ⇒ E(X̄ − Ȳ ) = µx − µy . σy2 σ2 σ 2 σy2 Variances : V (X̄) = x et V (Ȳ ) = ⇒ V (X̄ − Ȳ ) = x + n p n p La distribution d’échantillonnage de la différence (X̄ − Ȳ ) :   s 2 2 σx σy  + (X̄ − Ȳ ) → N µx − µy ; n p La statistique de test : (X̄−Ȳ )−(µx −µy ) r 2 σ2 σx + py n → N(0; 1) Ce qui fournit aisément un intervalle de confiance de niveau (1−α) pour la différence (µx −µy ) : s s 2 2 σx σy σx2 σy2 (x̄ − ȳ) − t α2 + ≤ µx − µy ≤ (x̄ − ȳ) + t α2 + n p n p Marge d’erreur dans l’estimation de (µx − µy ) : s E = t α2 σx2 σy2 + n p Si l’intervalle de confiance à (1 − α)% pour une différence de deux moyennes ou de deux proportions (différence de risque) contient zéro, les deux moyennes ou les deux proportions ne sont pas différentes. Si l’intervalle de confiance à (1 − α)% ne contient pas zéro les différences sont significativement différentes. Lecture Notes in Computer Science and Technologies No 5, 2016 36 Vera Angelova Exemple 2.3.1 /Feuille 2/ Le temps mis par une machine pour fabriquer une pièce est supposé suivre une loi normale de paramètres µ et σ 2 . Dans un atelier, deux machines A et B fabriquent la même pièce. Pour un échantillon de 9 pièces fabriquées, on a obtenu les résultats suivants : Nombre de pièces fabriquées Temps moyen observé (mn) Variances des populations Machine A 9 50 25 Machine B 9 45 36 1. Déterminer un intervalle de confiance, de niveau (1 − α) = 95%, de la différence des temps moyens des deux machines µa − µb . 2. Question : La machine A est-elle aussi performante que la machine B ? Solution : • Remarques : Petits échantillons nA = nB = 9 pièces mais le temps de fabrication est supposé normalement distribué. Les variances σA2 = 25 et σB2 = 36 sont connues. • Statistique de test : (X̄A −rX̄B )−(µA −µB ) σ2 σ2 A+ B nA nB ∼ N(0, 1). • Les données : nA = nB = n = 9. Niveau de confiance : 1 − α = 95% ⇒ risque d’erreur : α = 5%. t α2 = t2.5% = ±1.96 cf. Table de la loi normale N(0, 1) q q 2 +σ 2 σA B α Marge d’erreur dans l’estimation de (µA − µB ) : E = t 2 = 1.96 25+36 = 5.10mn n 9 Estimation ponctuelle de la différence (µA − µB ) : x̄A − x̄B = 50 − 45 = 5mn. • Intervalle de confiance de niveau 95% de (µA − µB ) : 5 − 5.10 = −0.10 ≤ (µA − µB ) ≤ 5 + 5.10 = 10.10 (µA − µB ) ∈ [−0.10mn, 10.10mn] • Conclusion : 0 ∈ I.C.95% , donc la différence de 5 mn observée sur les échantillons n’est pas significative (avec un risque d’erreur de 5%), on peut donc considérer que ces deux machines ont des performances identiques. • Question : oui, la machine B est aussi performante que la machine A, l’écart observé de 5 mn n’est pas significatif, il est dû aux fluctuations d’échantillonnage. • Cas : les variances σx2 et σy2 sont inconnues - Grands échantillons : n ≥ 30 et p ≥ 30 Le cas précédant est évidemment peu courant en pratique ; voyons à présent, dans les mêmes conditions que ci-dessus, les cas les plus fréquents. Lecture Notes in Computer Science and Technologies No 5, 2016 Statistique inférentielle 37 Si les échantillons prélevés dans chaque population (quelconque, par forcément normale) sont de grandes tailles alors on peut remplacer les variances inconnues σx2 et σy2 par leur esti′2 mation respective s′2 x et sy . Dans ce cas : La distribution d’échantillonnage de la différence (X̄ − Ȳ ) est approximativement normale. La statistique de test : (X̄−Ȳ )−(µx −µy ) r ′2 s′2 x + sy n p → N(0; 1) Ce qui fournit aisément un intervalle de confiance de niveau (1−α) pour la différence (µx −µy ) : s s ′2 ′2 s s′2 sx s′2 y y x α α (x̄ − ȳ) − t 2 + ≤ µx − µy ≤ (x̄ − ȳ) + t 2 + n p n p Marge d’erreur dans l’estimation de (µx − µy ) : s E=t α 2 s′2 s′2 y x + n p Exemple 2.3.2 /Feuille 2/ On fait subir à des cadres intermédiaires de deux grandes entreprises (une œuvrant dans la fabrication d’équipement de transport et l’autre dans la fabrication de produits électriques) un test d’appréciation et d’évaluation. La compilation des résultats pour chaque groupe à l’issue de cette évaluation s’établit comme suit : Nombre de cadres Appréciation globale moyenne Somme des Carrés des Écarts /SCE/ 1 Équipement 34 184 15774 2 Produits Électriques 32 178 9858 1. Déterminer un intervalle de confiance qui a 95 chances sur 100 de contenir la valeur vraie de la différence des moyennes (µ1 − µ2 ) des deux groupes de cadres. 2. Question : Selon cet intervalle, que peut-on conclure quant à la performance des cadres de ces deux secteurs au test d’évaluation ? Est-ce qu’en moyenne, la performance est vraisemblablement identique ou semble-t-il une différence significative entre ces deux groupes ? Solution : • Remarques : Grands échantillons n1 = 34 et n2 = 32 indépendants. Les variances σ12 et σ22 sont inconnues. • Statistique de test : (X̄1 −rX̄2 )−(µ1 −µ2 ) ′2 s′2 1 + s2 n1 n2 ∼ N(0, 1). • Les données : n1 = 34 et n2 = 32. Lecture Notes in Computer Science and Technologies No 5, 2016 38 Vera Angelova Niveau de confiance : 1 − α = 95% ⇒ risque d’erreur : α = 5%. t α2 = t2.5% = ±1.96 cf. Table de la loi normale N(0, 1) SCE1 n1 −1 15774 33 = 478 et s′2 2 = q ′2 s Marge d’erreur dans l’estimation de (µ1 −µ2 ) : E = t α2 n11 + 15.6 Estimation des variances : s′2 1 = = SCE2 n2 −1 s′2 2 n2 = 9858 31 = 1.96 q = 318. 478 34 + 318 32 = Estimation ponctuelle de la différence (µ1 − µ2 ) : x̄1 − x̄2 = 184 − 178 = 6. • Intervalle de confiance de niveau 95% de (µ1 − µ2 ) : 6 − 9.6 = −3.6 ≤ (µ1 − µ2 ) ≤ 6 + 3.6 = 15.6 (µ1 − µ2 ) ∈ [−3.60, 15.60] • Conclusion : 0 ∈ I.C.95% , donc la différence de 6 points observée sur les appréciations moyennes n’est pas significative (avec un risque d’erreur de 5%), on peut donc considérer que deux groupes de cadres ont des appréciations globales identiques. • Question : oui, en moyenne, la performance est identique entre ces deux groupes de cadres. L’écart observé de 6 points est attribuable aux fluctuations d’échantillonnage. • Cas : les variances sont inconnues mais supposées égales σx2 = σy2 = σ 2 . Petits échantillons n (et/ou) p < 30 . Populations normales Dans le cas de petits échantillons issus de populations normales, on ne peut pas remplacer les ′2 variances inconnues σx2 et σy2 par leur estimation s′2 x et sy calculées sur chacun des échantillons (elles seront peu précises). Puisqu’on les suppose égales à une valeur inconnue σ 2 , on se servira de l’information des deux échantillons pour obtenir une estimation unique s′2 , de la variance σ 2 = σx2 = σy2 : On montre que : S ′2 = nSx2 +pSy2 n+p−2 est un bon estimateur de σ 2 . Moyennes : E(X̄ − Ȳ ) = µx − µy .   1 1 s′2 s′2 ′2 + =s + Variances : V (X̄ − Ȳ ) = n p n p La statistique de test : (X̄−Ȳ )−(µx −µy ) q 1 + p1 s′ n → T(n+p−2) d.d.l. D’où l’intervalle de confiance de niveau (1 − α) pour la différence (µx − µy ) : r r 1 1 1 1 + ≤ µx − µy ≤ (x̄ − ȳ) + tSt α2 s′ + (x̄ − ȳ) − tSt α2 s′ n p n p Cas particulier Si n = p (échantillons indépendants de même taille), on a plus simplement : S ′2 = Lecture Notes in Computer Science and Technologies No 5, 2016 n(Sx2 +Sy2 ) 2(n−1) = Statistique inférentielle 39 SCEx +SCEy 2(n−1) La statistique de test : (X̄−Ȳ )−(µx −µy ) S′ √2 n ∼ T2(n−1) d.d.l. Les limites de l’intervalle de confiance de (µx − µy ) : (x̄ − ȳ) ± tSt α2 s′ r 2 n Exemple 2.3.3 /Feuille 2/ Un laboratoire indépendant a effectué, pour le compte d’une revue sur la protection du consommateur, un essai de durée de vie sur un type d’ampoules électriques d’usage courant (60 Watts , 120 Volts) fabriquées par deux entreprises concurrentielles, dans le secteur de produits d’éclairage. Les essais effectués dans les mêmes conditions, sur un échantillon de 21 lampes provenant de chaque fabricant, donnent les résultats suivants : La durée de vie d’une ampoule est supposée normalement distribuée.(les variances des populations sont supposées égales). Nombre d’essais Durée de vie moyenne observée (h) Somme des Carrés des Écarts Fabricant 1 21 1025 2400 Fabricant 2 21 1070 2800 1. Déterminer un intervalle de confiance de niveau 95% de la différence des durées de vie moyennes des ampoules de ces deux fabricants. 2. Question : Est-ce que la revue peut affirmer, qu’en moyenne, les durées de vie des ampoules des deux fabricants sont identiques (ou différentes) ? En d’autres termes, est-ce que la différence observée lors des essais est significative ? Solution : • Remarques : petits échantillons n1 = n2 = n = 21 indépendants. Les variances σ12 et σ22 sont inconnues mais supposées égales σ12 = σ22 = σ 2 . • Statistique de test : )−(µ1 −µ2 ) (X̄1 −X̄2√ s′ 2 n ∼ T2(n−1)=40 d.d.l. . • Les données : n1 = n2 = n = 21. Niveau de confiance : 1 − α = 95% ⇒ risque d’erreur : α = 5%. tSt α2 = t2.5% = ±2.021 cf. Table de la loi de Student à 40 d.d.l. Estimation de la variance commune : nS 2 = SCE, s′2 = 11.402 . SCE1 +SCE2 2(n−1) Lecture Notes in Computer Science and Technologies No 5, 2016 = 2400+2800 40 = 40 Vera Angelova Marge d’erreur dans l’estimation de (µ1 −µ2 ) : E = t 7.11 h St α 2 s ′ q 2 n = 2.021×11.40 q 2 21 = Estimation ponctuelle de la différence (µ1 − µ2 ) : x̄1 − x̄2 = 1025 − 1070 = −45 h. • Intervalle de confiance de niveau 95% de (µ1 − µ2 ) : −45 − 7.11 = −52.11 ≤ (µ1 − µ2 ) ≤ −45 + 7.11 = −37.89 (µ1 − µ2 ) ∈ [−52.11, −37.89 h] • Conclusion : 0 n’appartient pas à I.C.95% , l’écart de - 45 h observé sur les durées de vie moyennes est significatif (avec un risque d’erreur de 5%). Cet écart n’est donc pas attribuable aux fluctuations d’échantillonnage. • Question : oui, la revue doit conclure, avec un risque d’erreur de 5%, que les durées de vie des ampoules de ces deux fabricants ne sont pas identiques. • Cas : Échantillons appariés Échantillons dépendants (Données associées par paires) Exemple 1 : On compare 2 méthodes de mesures en soumettant à ces méthodes les mêmes individus. Les 2 échantillons sont issus de deux lois différentes, mais ne sont pas indépendants (en général !). Exemple 2 : Lorsque nous avons, pour chaque élément de l’échantillon, deux valeurs obtenues à des périodes différentes (avant / après ) ou selon des traitements différents. Donc, dans ce cas, les deux séries de mesures ne sont pas indépendantes l’une de l’autre. Il serait alors (échantillons indépendants) incorrect de procéder à un test de comparaison de moyennes tel que décrit précédemment. On doit alors procéder comme suit avec la condition suivante : Z1 = (X1 − Y1 ); Z2 = 2 (X2 − Y2 ); . . . ; Zn = (Xn − Yn ) sont indépendantes de loi N(µz = µx − µy ; σz2 = σx−y ) : les différences de chaque paire d’observations suivent des lois normales. On revient ainsi à un seul échantillon différence (z1 ; z2 ; . . . ; zn ). σz2 étant généralement inconnue, on l’estime à partir : n X 2 SCE 1 S = Zi − Z̄ = (n − 1) i=1 n−1 ′2 On obtient, comme au paragraphe sur l’estimation par intervalle de confiance d’une moyenne µz lorsque la variance σz2 est inconnue : La statistique de test : Z̄−µ √z S′/ n ∼ Tn−1 d.d.l. On en déduit l’intervalle de confiance de niveau (1 − α) de µz = (µx − µy ) : s′ s′ z̄ − tSt α2 √ ≤ µz ≤ z̄ + tSt α2 √ n n Lecture Notes in Computer Science and Technologies No 5, 2016 Statistique inférentielle 41 Exemple 2.3.4 /Feuille 2/ On mesure 12 pièces avec des méthodes différentes. On a obtenu les résultats suivants : x̄ = 1; ȳ = 2, 08; SCEx /somme des carrés des écarts/ = sx = 106, 16; SCEy = sy = 118, 19 et SCEx−y = sx−y = 14, 58. Déterminer un intervalle de confiance de niveau 95% de la différence des deux méthodes de mesures. Solution : • Remarques : Échantillons appariés (dépendants). Conditions d’application : la mesure différence Z = X − Y est supposée normalement distribuée. • Statistique de test : z) (Z̄−µ √ S′/ n ∼ Tn−1=11 d.d.l. . • Les données : n = 12 ⇒ ν = n − 1 = 11 d.d.l. z̄12 = x̄12 − ȳ12 = 1 − 2.08 = −1.08 : moyenne calculée sur l’échantillon différence de taille n = 12 (estimation ponctuelle de µz ) s′2 12 = SCEz=x−y 14.58 = = 1.3254 = 1.1512 n−1 11 Seuil de signification : α = 5%. tSt α2 = t2.5% = ±2.201 cf. Table de la loi de Student à ν = n − 1 = 11 d.d.l. s′ √ • Marge d’erreur dans l’estimation de µ : E = tSt α2 √12n = 2.201 1.151 = 0.7315. 12 • Intervalle de confiance de niveau 95% de µ (variance σ 2 z inconnue) : −1.08 − 0.7311 = −1.811 ≤ (µz = µx − µy ) ≤ −1.08 + 0.7315 = −0.3485 µz = (µx − µy ) ∈ [−1.811, −0.3485] • Conclusion : 0 n’appartient pas à I.C.95% , l’écart de - 1.08 observé est significatif (avec un risque d’erreur de 5%). On peut donc conclure que µz = (µx − µy ) 6= 0 ⇔ µ)x 6= µy ; les deux méthodes de mesures sont différentes.. • Remarque importante : Si on fait l’erreur de considérer ces deux échantillons de mesures comme des échantillons indépendants, on trouve un intervalle de confiance de niveau 95% de (µx − µy ) ∈ [−9.72; 7.56]. Dans ce cas, 0 ∈ I.C.95% c’est-à-dire que µx ≈ µy ; les deux méthodes de mesures sont identiques. Lecture Notes in Computer Science and Technologies No 5, 2016 42 Vera Angelova 2.3.3 Différence de 2 proportions Cas : Grands échantillons : n1 ≥ 30 et n2 ≥ 30 Il y a de nombreuses applications où nous devons décider si l’écart observé entre deux proportions échantillonnales est significatif ou s’il est plutôt attribuable au hasard de l’échantillonnage. Comme dans le cas de la comparaison de deux moyennes, on doit connaı̂tre la distribution d’échantillonnage de la différence (P1 − P2 ) des deux proportions pour estimer, par intervalle de confiance, cette différence. On traite uniquement le cas où nous sommes en présence de grands échantillons prélevés au hasard et indépendamment de deux populations. Dans ce cas : La statistique de test : (F −F2 )−(p− p2 ) r 1 f1 (1−f1 ) f (1−f ) + 2 n 2 n 1 2 → N(0; 1) D’où l’intervalle de confiance de niveau (1 − α) de (p1 − p2 ) : s s f1 (1 − f1 ) f2 (1 − f2 ) f1 (1 − f1 ) f2 (1 − f2 ) + ≤ p1 − p2 ≤ (f1 − f2 ) + t α2 + (f1 − f2 ) − t α2 n1 n2 n1 n2 On peut également supposer l’hypothèse d’égalité des proportions inconnues p1 et p2 à une valeur commune p (p1 = p2 = p) que l’on estime par f en combinant les proportions observées dans chaque échantillon comme suit : f= n1 f1 + n2 f 2 n1 + n2 On peut donc aussi utiliser la statistique de test : (F − F2 ) − (p1 − p2 ) r1  → N (0; 1)  1 1 f (1 − f ) n1 + n2 D’où l’intervalle de confiance de niveau (1 − α) de (p1 − p2 ) : s s     1 1 1 1 ≤ p1 − p2 ≤ (f1 − f2 ) + t α2 f (1 − f ) + + (f1 − f2 ) − t α2 f (1 − f ) n1 n2 n1 n2 Exemple 2.3.5 /Feuille 2/ Dans deux municipalités avoisinantes, on a effectué un sondage pour connaı̂tre l’opinion des contribuables sur un projet d’aménagement d’un site. Les résultats de l’enquête se résument comme suit : Nombre de personnes interrogées En faveur du projet Municipalité 1 250 110 Municipalité 2 250 118 Lecture Notes in Computer Science and Technologies No 5, 2016 Statistique inférentielle 43 1. Quelle est l’estimation ponctuelle de la différence de proportions des contribuables de chaque municipalité favorisant l’aménagement du site ? 2. Déterminer l’intervalle de confiance de niveau (1 − α) = 95% de contenir la valeur vraie de la différence des proportions, (p1 − p2 ) ? 3. Question : Avec l’intervalle calculé en 2), est-ce que l’on rejetterait, au seuil de signification α = 5%, l’hypothèse selon laquelle les contribuables des deux municipalités favorisent dans la même proportion l’aménagement du site sur leur territoire ? 2.3.4 Rapport de 2 variances ( comparaison de 2 variances ) La comparaison de 2 populations normales peut porter non seulement sur leur valeur centrale ( moyenne ), mais également sur leur dispersion. La caractéristique de dispersion la plus utilisée est la variance. Rappelons qu’une des conditions d’application de la loi de Student dans le cas de comparaison de moyennes est que les échantillons proviennent de 2 populations normales de variances identiques : σ12 = σ22 . Cette hypothèse peut être maintenant vérifiée à l’aide de l’intervalle de confiance du rapport des 2 variances : Test d’égalité de 2 variances. On suppose que l’on a prélevé deux échantillons indépendants de tailles n1 et n2 de deux populations normales N(µ1 ; σ1 ) et N(µ2 ; σ2 ) de paramètres inconnus. On sait déjà que : n1 X (Xi − X̄1 )2 i=1 n2 X i=1 σ12 S1′2 = (n1 − 1) 2 → χ2(n1 −1) d.d.l. σ1 S2′2 (Xi − X̄2 )2 = (n − 1) → χ2(n2 −1) d.d.l. 2 σ22 σ22 On peut alors montrer que la statistique de test : σ22 S1′2 → F(n1 −1),(n2 −1) d.d.l. σ12 S2′2 On en déduit, au niveau (1 − α), un intervalle de confiance pour le rapport S2′2 sup S ′2 1 σ22 σ12 S ′2 : finf S2′2 ≤ 1 σ22 σ12 ≤ f où, finf = f1− α2 = P (F (n1 − 1, n2 − 1) > f1 ) = 1 − α2 et fsup = f α2 = P (F (n1 − 1, n2 − 1) > f2 ) = α2 sont les fractiles de la loi de Fisher-Snédécor à (n1 − 1) et (n2 − 1) degrés de liberté (cf. table). On recherche des limites Fsup et Finf dans les tableau du F à α/2 ( ie risque global de α %) : n1 −1 Fsup pour un échantillonne de n1 et de n2 est F n2 −1 . Finf = 1 n2 −1 . F n1 −1 Exemple 2.3.6 /Feuille 2/ Reprenons l’exemple de la durée de vie moyenne de 2 types d’ampoules électriques d’usage courant (60 Watts , 120 Volts) fabriquées par deux entreprises concurrentielles, dans le secteur de produits d’éclairage. Les essais effectués dans les mêmes conditions, Lecture Notes in Computer Science and Technologies No 5, 2016 44 Vera Angelova sur un échantillon de 21 lampes provenant de chaque fabricant, donnent les résultats suivants : La durée de vie d’une ampoule est supposée normalement distribuée. On ne dispose d’aucune information sur les variances des deux populations. Fabricant 1 21 1025 2400 Nombre d’essais Durée de vie moyenne observée (h) Somme des Carrés des Écarts Fabricant 2 21 1070 2800 1. Déterminer un intervalle de confiance de niveau 95% du rapport des variances des populations d’ampoules de ces deux fabricants. 2. Question : Peut-on considérer l’égalité des variances σ22 = σ12 ? Solution : • Remarques : petits échantillons n1 = n2 = n = 21 indépendants. • Statistique de test : σ22 S1′2 σ12 S2′2 ∼ F(n1 −1=20;n2 −1=20) d.d.l. . • Les données : n1 = n2 = n = 21. Niveau de confiance : 1 − α = 95% ⇒ risque d’erreur : α = 5%. f2 = f α2 = t2.5% = 2.464 et f1 = f97.5% = Fisher F(20;20) . Estimation des variances : s′2 1 = SCE1 (n−1) • Intervalle de confiance de niveau 95% de s′2 σ22 σ22 0.474 = 0.406 140 = f1 s′22 ≤ 120 1 σ22 σ12 = 1 f2 2400 20 = 1 2.464 = 0.406 cf. Table de la loi de = 120 et s′2 2 = SCE2 (n−1) = 2800 20 = 140. : σ22 σ12 s′2 ≤ f2 s′22 = 2.464 140 = 2.875 120 1 ∈ [0.474, 2.875] • Conclusion : 1 ∈ I.C.95% , il n’y a pas de différence significative (avec un risque d’erreur de 5%) entre les deux variances. On peut donc les supposer égales : σ12 ≈ σ22 . Lecture Notes in Computer Science and Technologies No 5, 2016 Statistique inférentielle 2.3.5 45 Synthèse sur l’estimation Estimation ponctuelle Population mère P taille N Echantillon taille E Estimations ponctuelles n Table 3 Paramètres du caractère observé moyenne proportion variance µ p σ2 Caractéristiques du caractère observé moyenne fréquence variance x̄ = 1 n x̄ = 1 n x̄ = 1 n Pn i=1 Pn i=1 Pn i=1 xi Série stat. ni xi D.O.1 f= nA n ni x∗i D.G.1 µ b = x̄ pb = f observée P:n 1 2 s = n i=1 (si − x̄)2 empirique : n s′2 = n−1 s2 µ connue - σ b 2 = s2 µ inconnue - σ b2 = s′2 Lecture Notes in Computer Science and Technologies No 5, 2016 46 Vera Angelova Estimation par intervalle de confiance Intervalle de confiance Paramètre estimé Conditions σ connue, p. 38, 39 σ inconnue n < 30 p. 40, 41 σ inconnue n > 30 p. 42 n ≥ 30 p. 53, 54 Moyenne µ Proportion p Table 4 I.C.(1−α) → N(0, 1) t α2 √σn x̄ ± t α2 √σn → Tn−1 d.d.l. tSt α2 √s n X̄−µ √ σ/ n X̄−µ √ S′/ n X̄−µ √ S′/ n f (1−f ) n n S2 σ2 ′ → N(0; 1) → χ2n d.d.l. ′ ′ t α 2 q x̄ ± t α2 √s n f (1−f ) n n d.d.l. k1 = χ2α (n − 1) S ′2 σ2 → χ2(n−1) d.d.l. 2 k2 = χ21− α n − 1 d.d.l. k1 = χ2α 2 k2 = χ21− α 2 µ inconnue n > 100 p. 63 n S ′2 σ2 → N(n, √ ′2 2n) t α2 s2n ′ t α2 √s2n f ±t Statistique de test X1 ∼ N(µ2 , σ2 ) X2 ∼ N(µ2 , σ2 ) p. 93 - 95 σ22 S1′2 σ12 S2′2 → F(n1 −1),(n2 −1) d.d.l. q f (1−f ) n 2 n ks2 ≤ σ 2 ≤ n ks1 q q 2 2 n ks2 ≤ σ ≤ n ks1 ′2 ′2 (n − 1) sk2 ≤ σ 2 ≤ (n − 1) sk1 q q ′2 ′2 (n − 1) sk2 ≤ σ ≤ (n − 1) sk1 ′2 s′2 ± t α2 s2n ′ s′ ± t α2 √s2n Intervalle de confiance du rapport de 2 variances Conditions α 2 2 2 µ inconnue X ∼ N(µ, σ) p. 62 ′ x̄ ± tSt α2 √s n t α2 √s n → N(0, 1) qF −p µ connue p. 61 Variance σ 2 écart-type σ Marge d’erreur E Statistique de test Marge d’erreur E finf = f1− α2 = P (F (n1 − 1, n2 − 1) > finf ) = 1 − α2 fsup = f α2 = P (F (n1 − 1, n2 − 1) > fsup ) = Table 5 I.C.(1−α) S ′2 finf S2′2 ≤ 1 σ22 σ12 S ′2 ≤ fsup S2′2 α 2 Conclusion : Si 1 ∈ I.C.(1−α)% , il n’y a pas de différence significative (avec un risque d’erreur de α%) entre les deux variances. On peut donc les supposer égales : σ12 ≈ σ22 . Lecture Notes in Computer Science and Technologies No 5, 2016 1 Statistique inférentielle Intervalle de confiance de la différence de 2 moyennes Conditions Statistique de test 2 σX , σY2 connues p. 68, 69 2 σX , σY2 inconnues n, p ≥ 30 p. 73, 74 t (X̄−Ȳ )−(µx −µy ) r → N(0; 1) t α2 (X̄−Ȳ )−(µx −µy ) q 1 s′ n + p1 S = (X̄−Ȳ )−(µx −µy ) S′ ′2 √2 n S = Echantillons appariés p. 84, 85 Z =X −Y Z ∼ N(µZ , σZ ) Z̄−µ √z S′/ n S ′2 = → T(n+p−2) d.d.l. nSx2 +pSy2 n+p−2 ′2 2 σX = σY2 = σ 2 inconnues n = p ≤ 30, p. 80 Marge d’erreur E → N(0; 1) ′2 S ′2 Sx + py n 2 σX = σY2 = σ 2 inconnues n, p ≤ 30 p. 78, 79 Table 6 (X̄−Ȳ )−(µx −µy ) r 2 σ2 σx + py n (n−1) i=1 q q t n(Sx2 +Sy2 ) 2(n−1) Zi − Z̄ α 2 I.C.(1−α) σx2 n + σy2 p Sx′2 n + Sy′2 p (X̄ − Ȳ ) ± E 1 p (X̄ − Ȳ ) ± E tSt α2 s′ → T2(n−1) d.d.l. → Tn−1 d.d.l. Pn 1 q St α 2 s ′ 1 n + q (X̄ − Ȳ ) ± E 2 n (X̄ − Ȳ ) ± E ′ tSt α2 √sn 2 Z̄ ± E Conclusion : Si 0 ∈ I.C(1−α) =⇒ les deux moyennes ne sont pas différentes ; Si 0 6∈ I.C(1−α) =⇒ les moyennes sont significativement différentes. Intervalle de confiance de la différence de 2 proportions Conditions n, p ≥ 30 p. 89 - 91 n1 , n2 ≥ 30 p1 = p2 = p p. 89 - 91 Statistique de test (F −F2 )−(p− p2 ) r 1 f1 (1−f1 ) f (1−f ) + 2 n 2 n 1 2 (F −F2 )−(p1 −p2 ) r1   f (1−f ) n1 + n1 1 f= n1 f1 +n2 f2 n1 +n2 2 → N(0; 1) → N (0; 1) Table 7 Marge d’erreur E t α2 q 47 f1 (1−f1 ) n1 + I.C.(1−α) f2 (1−f2 ) n2 r  t α2 f (1 − f ) n11 + 1 n2  (f1 − f2 ) ± E (f1 − f2 ) ± E Conclusion : Si 0 ∈ I.C(1−α) =⇒ les deux proportions ne sont pas différentes ; Si 0 6∈ I.C(1−α) =⇒ les proportions sont significativement différentes. Lecture Notes in Computer Science and Technologies No 5, 2016 48 Vera Angelova Chapitre 3 Les tests d’hypothèse 3.1 3.1.1 Généralités Principe d’un test d’hypothèses Les tests d’hypothèse constituent un autre aspect important de l’inférence statistique. Le principe général d’un test d’hypothèse peut s’énoncer comme suit : • On étudie une population dont les éléments possèdent un caractère (mesurable ou qualitatif) et dont la valeur du paramètre relative au caractère étudié est inconnue. • Une hypothèse est formulée sur la valeur du paramètre : cette formulation résulte de considérations théoriques, pratiques ou encore elle est simplement basée sur un pressentiment. • On veut porter un jugement sur la base des résultats d’un échantillon prélevé de cette population. On appelle tests d’hypothèses, tests de signification, ou règles de décision, les procédés qui permettent de décider si des hypothèses sont vraies ou fausses, ou de déterminer si des échantillons observés diffèrent significativement des résultats supposés. Il est bien évident que la statistique (c’est-à-dire la variable d’échantillonnage) servant d’estimateur au paramètre de la population ne prendra pas une valeur rigoureusement égale à la valeur théorique proposée dans l’hypothèse. Cette variable aléatoire comporte des fluctuations d’échantillonnage qui sont régies par des distributions connues. Pour décider si l’hypothèse formulée est supportée ou non par les observations, il faut une méthode qui permettra de conclure si l’écart observé entre la valeur de la statistique obtenue dans l’échantillon et celle du paramètre spécifiée dans l’hypothèse est trop important pour être uniquement imputable au hasard de l’échantillonnage. Lecture Notes in Computer Science and Technologies No 5, 2016 Statistique inférentielle 49 La construction d’un test d’hypothèse consiste en fait à déterminer entre quelles valeurs peut varier la variable aléatoire, en supposant l’hypothèse vraie, sur la seule considération du hasard de l’échantillonnage. Les distributions d’échantillonnage d’une moyenne, d’une variance et d’une proportion que nous avons traitées dans un chapitre précédent vont être particulièrement utiles dans l’élaboration des tests statistiques. 3.1.2 Définition des concepts utiles à l’élaboration des tests d’hypothèse Hypothèse statistique. Une hypothèse statistique est un énoncé (une affirmation) concernant les caractéristiques (valeurs des paramètres, forme de la distribution des observations) d’une population. Test d’hypothèse. Un test d’hypothèse (ou test statistique) est une démarche qui a pour but de fournir une règle de décision permettant, sur la base de résultats d’échantillon, de faire un choix entre deux hypothèses statistiques. Hypothèse nulle (H0 ) et hypothèse alternative (H1 ). L’hypothèse selon laquelle on fixe à priori un paramètre de la population à une valeur particulière s’appelle l’hypothèse nulle et est notée H0 . N’importe quelle autre hypothèse qui diffère de l’hypothèse H0 s’appelle l’hypothèse alternative (ou contre-hypothèse) et est notée H1 . C’est l’hypothèse nulle qui est soumise au test et toute la démarche du test s’effectue en considérant cette hypothèse comme vraie. Dans notre démarche, nous allons établir des règles de décision qui vont nous conduire à l’acceptation ou au rejet de l’hypothèse nulle H0 . Toutefois cette décision est fondée sur une information partielle, les résultats d’un échantillon. Il est donc statistiquement impossible de prendre la bonne décision à coup sûr. En pratique, on met en œuvre une démarche qui nous permettrait, à long terme de rejeter à tort une hypothèse nulle vraie dans une faible proportion de cas. La conclusion qui sera déduite des résultats de l’échantillon aura un caractère probabiliste : on ne pourra prendre une décision qu’en ayant conscience qu’il y a un certain Lecture Notes in Computer Science and Technologies No 5, 2016 50 Vera Angelova risque qu’elle soit erronée. Ce risque nous est donné par le seuil de signification du test. Seuil de signification du test Le risque, consenti à l’avance et que nous notons α, de rejeter à tort l’hypothèse nulle H0 alors qu’elle est vraie (favoriser alors l’hypothèse H1 ), s’appelle le seuil de signification du test et s’énonce en probabilité ainsi, α = P (rejeter H0 | H0 vraie) = P (choisir H1 | H0 vraie). A ce seuil de signification, on fait correspondre sur la distribution d’échantillonnage de la statistique une région de rejet de l’hypothèse nulle (appelée également région critique). L’aire de cette région correspond à la probabilité α. Si par exemple on choisit α = 0.05, cela signifie que l’on admet d’avance que la variable d’échantillonnage peut prendre, dans 5% des cas, une valeur se situant dans la zone de rejet de H0 , bien que H0 soit vraie et ceci uniquement d’après le hasard de l’échantillonnage. Sur la distribution d’échantillonnage correspondra aussi une région complémentaire, dite région d’acceptation de H0 (ou région de non-rejet) de probabilité 1 − α. Remarque 2 1. Les seuils de signification les plus utilisés sont α = 0.05 et α = 0.01, dépendant des conséquences de rejeter à tort l’hypothèse H0 . 2. La valeur observée de la statistique sous l’hypothèse H0 déduite des résultats de l’échantillon appartient, soit à la région de rejet de l’hypothèse nulle H0 (on favorisera alors l’hypothèse H1 ), soit à la région de non-rejet de H0 (on favorisera alors l’hypothèse H0 ). Exemple 3.1.1 Supposons que nous affirmions que la valeur d’un paramètre θ d’une population est égale à la valeur θ0 . On s’intéresse au changement possible du paramètre θ dans l’une ou l’autre direction (soit θ > θ0 , soit θ < θ0 ). On effectue un test bilatéral.   H0 θ = θ0 Les hypothèses H0 et H1 sont alors H1 θ 6= θ0 . On peut schématiser les régions de rejet et de non-rejet de H0 comme suit : Rejet de H Non!rejet de H 0 0 Rejet de H 0 1!! !/2 !/2 "c 1 "0 "c 2 Lecture Notes in Computer Science and Technologies No 5, 2016 Statistique inférentielle 51 Si, suite aux résultats de l’échantillon, la valeur de la statistique utilisée se situe dans l’intervalle [θc1 , θc2 ], on acceptera H0 au seuil de signification choisi. Si, au contraire, la valeur obtenue est supérieure à θc2 ou inférieure à θc1 , on rejette H0 et on accepte H1 . Remarque 3 Si on s’intéresse au changement du paramètre dans une seule direction, on opte pour un test unilatéral, en choisissant comme hypothèse H1 soit θ > θ0 , soit θ < θ0 . La région critique est alors localisée uniquement à droite ou uniquement à gauche de la région d’acceptation. Remarques importantes 1. Pour un test bilatéral, les 2 valeurs critiques (tables statistiques) sont des limites de la statistique qui conduisent au rejet de H0 , selon le seuil de signification α choisi. 2. Un test unilatéral ”risque à droite” ou ”risque à gauche” ne comporte qu’une seule valeur critique. 3. Quelle que soit le type de test, l’hypothèse nulle H0 comporte toujours le signe égal (=; ≥; ≤) et spécifie la valeur du paramètre. 4. L’hypothèse alternative H1 est formulée en choisissant l’une ou l’autre des trois formes (6=; <; >). On choisira la plus pertinente à la situation pratique analysée. 5. Dans la plupart des tests d’hypothèses, l’inégalité dans l’hypothèse H1 dénote dans quelle direction est localisée la région de rejet (critique) de l’hypothèse H0 . Démarche d’un test statistique Les principales étapes à suivre dans l’élaboration d’un test statistique sont : 1. Hypothèses statistiques, 2. Seuil de signification, 3. Condition d’application du test, 4. La statistique qui convient pour le test, 5. Règle de décision, 6. Calcul de la statistique sous H0 . 7. Décision et conclusion. Lecture Notes in Computer Science and Technologies No 5, 2016 52 Vera Angelova 3.2 3.2.1 Tests permettant de déterminer si un échantillon appartient à une population donnée Test sur une moyenne : comparaison d’une moyenne expérimentale à une moyenne théorique dans le cas d’un caractère quantitatif Nous voulons déterminer si l’échantillon de taille n dont nous disposons appartient à une population de moyenne µ0 au seuil de signification α. Nous allons dans tous les tests travailler de la même façon, en procédant en quatre étapes. 1ère étape : Formulation des hypothèses. L’échantillon dont nous disposons provient d’une population de moyenne  µ. Nous voulons H 0 µ = µ0 savoir si µ = µ0 . On va donc tester l’hypothèse H0 contre l’hypothèse H1 : . H1 µ 6= µ0 . 2ème étape : Détermination de la fonction discriminante du test et de sa distribution de probabilité. • On détermine la statistique qui convient pour ce test. Ici, l’estimateur de la moyenne µ, c’est-à-dire X̄, semble tout indiqué. • On détermine la loi de probabilité de X̄ en se plaçant sous l’hypothèse H0 . Deux cas peuvent se produire. Premier cas : L’échantillon est de grande taille (ou bien la population est normale de variance σ 2 connue). √σ , n X̄ suit alors une loi normale de moyenne µ0 (puisqu’on se place sous H0 ) et d’écart-type X̄ ⇀ N(µ0 , √σn ). On pose T = X̄ − µ0 √σ n . T mesure un écart réduit. T est aussi appelée fonction discriminante du test. T ⇀ N(0, 1). Deuxième cas : L’échantillon est de petite taille (prélevé au hasard d’une population normale de variance σ 2 inconnue). Dans ce cas la fonction discriminante du test sera T = X̄ − µ0 √S n−1 . Ici T ⇀ Tn−1 (loi de Student à n − 1 degrés de liberté). Lecture Notes in Computer Science and Technologies No 5, 2016 Statistique inférentielle 53 3ème étape : Détermination des valeurs critiques de T délimitant les zones d’acceptation et de rejet. On impose toujours à la zone d’acceptation de H0 concernant l’écart réduit d’être centrée autour de 0. Rejet de H Non!rejet de H 0 0 Rejet de H 0 1!! !/2 !/2 !t! /2 0 t! /2 Il nous faut donc déterminer dans la table la valeur maximale tα/2 de l’écart réduit imputable aux variations d’échantillonnage au seuil de signification α, c’est-à-dire vérifiant P (−tα/2 ≤ T ≤ tα/2 ) = 1 − α. 4ème étape : Calcul de la valeur de T prise dans l’échantillon et conclusion du test. On calcule la valeur t0 prise par T dans l’échantillon. • Si la valeur t0 se trouve dans la zone de rejet, on dira que l’écart-réduit observé est statistiquement significatif au seuil α. Cet écart est anormalement élevé et ne permet pas d’accepter H0 . On rejette H0 . • Si la valeur t0 se trouve dans la zone d’acceptation, on dira que l’écart-réduit observé n’est pas significatif au seuil α. Cet écart est imputable aux fluctuations d’échantillonnage. On accepte H0 . 3.2.2 Tests sur une proportion Nous nous proposons de tester si la proportion p d’éléments dans la population présentant un certain caractère qualitatif peut être ou non considérée comme égale à une valeur hypothétique p0 . Nous disposons pour ce faire de la proportion d’éléments possédant ce caractère dans un échantillon de taille n. Nous allons procéder comme au paragraphe précédent, en quatre étapes. 1ère étape : Formulation des hypothèses. L’échantillon dont nous disposons provient d’une population dont la proportion d’éléments présentant le caractère qualitatif est p.Nous voulons savoir si p = p0 . On va donc tester H0 p = p 0 l’hypothèse H0 contre l’hypothèse H1 : H1 p 6= p0 . 2ème étape : Détermination de la fonction discriminante du test et de sa distribution de probabilité. Lecture Notes in Computer Science and Technologies No 5, 2016 54 Vera Angelova On détermine la statistique qui convient pour ce test. Ici, l’estimateur de la proportion p, c’est-à-dire F , semble tout indiquée. On détermine la loi de probabilité de F en se plaçant sous l’hypothèse H0 . On suppose que l’on dispose d’un grand échantillon (et que “p n’est pas trop petit” (de manière que l’on ait np ≥ 15 et n(1 − p) ≥ 15). F suit alors  une loi normale  de moyenne p0 (puisqu’on se place q q 0) 0) . , F ⇀ N p0 , p0 (1−p sous H0 ) et d’écart-type p0 (1−p n n On pose F − p0 . T =q p0 (1−p0 ) n T mesure un écart réduit. T est aussi appelée fonction discriminante du test. T ⇀ N(0, 1). 3ème étape : Détermination des valeurs critiques de T délimitant les zones d’acceptation et de rejet. On impose toujours à la zone d’acceptation de H0 concernant l’écart réduit d’être centrée autour de 0. Rejet de H Non!rejet de H 0 0 Rejet de H 0 1!! !/2 !/2 !t! /2 0 t! /2 Il nous faut donc déterminer dans la table la valeur maximale tα/2 de l’écart réduit imputable aux variations d’échantillonnage au seuil de signification α, c’est-à-dire vérifiant P (−tα/2 ≤ T ≤ tα/2 ) = 1 − α. 4ème étape : Calcul de la valeur de T prise dans l’échantillon et conclusion du test. On calcule la valeur t0 prise par T dans l’échantillon. • Si la valeur t0 se trouve dans la zone de rejet, on dira que l’écart-réduit observé est statistiquement significatif au seuil α. Cet écart est anormalement élevé et ne permet pas d’accepter H0 . On rejette H0 . • Si la valeur t0 se trouve dans la zone d’acceptation, on dira que l’écart-réduit observé n’est pas significatif au seuil α. Cet écart est imputable aux fluctuations d’échantillonnage. On accepte H0 . Lecture Notes in Computer Science and Technologies No 5, 2016 Statistique inférentielle 3.3 3.3.1 55 Risques de première et de deuxième espèce Définitions Tous les règles de décision que nous avons déterminées acceptaient un risque α qui était le risque de rejeter à tort l’hypothèse H0 , c’est-à-dire le risque de rejeter l’hypothèse H0 , alors que H0 est vraie. Ce risque s’appelle aussi le risque de première espèce. La règle de décision du test comporte également un deuxième risque, à savoir de celui de ne pas rejeter l’hypothèse nulle H0 alors que c’est l’hypothèse H1 qui est vraie. C’est le risque de deuxième espèce. Les deux risques peuvent se définir ainsi : α = P (rejeter H0 | H0 vraie) = probabilité de commettre une erreur de première espèce. β = P (ne pas rejeter H0 | H1 vraie) = probabilité de commettre une erreur de deuxième espèce. Risque de première espèce α : c’est le seuil de signification α ; risque de rejeter à tort l’hypothèse nulle H0 lorsque celle-ci est vraie : α = P (rejet H0 |H0 vraie) Risque de deuxième espèce β : c’est le risque de ne pas rejeter l’hypothèse nulle H0 alors que l’hypothèse H1 vraie : β = P (non rejet H0 |H1 vraie). Le risque de première espèce α est choisi à priori. Toutefois le risque de deuxième espèce β dépend de l’hypothèse alternative H1 et on ne peut le calculer que si on spécifie des valeurs particulières du paramètre dans l’hypothèse H1 que l’on suppose vraie. Le graphique de β en fonction des diverses valeurs du paramètre posées en H1 s’appelle la courbe d’efficacité du test. Les risques liés aux tests d’hypothèses peuvent se résumer ainsi : Lecture Notes in Computer Science and Technologies No 5, 2016 56 Vera Angelova Conclusion du test H0 est vraie H0 est vraie Accepter H0 Rejeter H0 La décision est Bonne Fausse probabilité de prendre cette décision avant l’expérience 1−α α La décision est Fausse Bonne probabilité de prendre cette décision avant l’expérience β 1−β Remarque 4 La probabilité complémentaire (1 − β) du risque de deuxième espèce β définit la puissance du test à l’égard de la valeur du paramètre dans l’hypothèse alternative H1 . La puissance du test représente la probabilité de rejeter l’hypothèse nulle H0 lorsque l’hypothèse vraie est H1 . Plus β est petit, plus le test est puissant. 1 − β = P (rejet H0 |H1 vraie) Le graphique de (1 − β) en fonction des diverses valeurs du paramètre posées en H1 s’appelle la courbe de puissance du test. Exemple : En contrôle industriel, le risque de 1ère espèce α correspond au risque pris par le producteur (ou fournisseur) alors que le risque de 2ème espèce β correspond au risque pris par le consommateur (ou client). Les risques liés aux tests d’hypothèses peuvent se résumer comme suit : Lecture Notes in Computer Science and Technologies No 5, 2016 Statistique inférentielle Conclusion du test 3.3.2 Réalité : H0 vraie Réalité : H1 vraie Décision : Non-rejet H0 bonne : 1 − α mauvaise : β Décision : Rejet de H0 mauvaise : α bonne : 1 − β 57 Schématisation des deux risques d’erreur sur la distribution d’échantillonnage A titre d’exemple, regardons ce qu’il se passe à propos d’un test sur la moyenne. On peut visualiser sur la distribution d’échantillonnage de la moyenne comment sont reliés les deux risques d’erreur associés aux tests d’hypothèses. Les zones d’acceptation de H0 (µ = µ0 ) et de rejet de H0 se visualisent ainsi : Donnons diverses valeurs à µ (autres que µ0 ) que l’on suppose vraie et schématisons le risque de deuxième espèce β. Hypothèse vraie : µ = µ1 (µ1 < µ0 ) La distribution d’échantillonnage de X̄ en supposant vraie µ = µ1 est illustrée en pointillé et l’aire hachurée sur cette figure correspond à la région de non-rejet de H0 . Cette aire représente β par rapport à la valeur µ1 . Lecture Notes in Computer Science and Technologies No 5, 2016 58 Vera Angelova Hypothèse vraie : µ = µ2 (µ2 = µ0 ) Hypothèse vraie : µ = µ3 (µ3 > µ0 ) Cette schématisation permet d’énoncer quelques propriétés importantes concernant les deux risques d’erreur. 1. Pour un même risque α et une même taille d’échantillon, on constate que, si l’écart entre la valeur du paramètre posée en H0 et celle supposée dans l’hypothèse vraie H1 augmente, le risque β diminue. 2. Une réduction du risque de première espèce (de α = 0.05 à α = 0.01 par exemple) élargit la zone d’acceptation de H0 . Toutefois, le test est accompagné d’une augmentation du risque de deuxième espèce β. On ne peut donc diminuer l’un des risques qu’en consentant à augmenter l’autre. 3. Pour une valeur fixe de α et un σ déterminé, l’augmentation de la taille d’échantillon aura pour effet de donner une meilleure précision puisque σ(X̄) = √σn diminue. La zone d’acceptation de H0 sera alors plus restreinte, conduisant à une diminution du risque β. Le test est alors plus puissant. Exemple 3.3.1 Un procédé de remplissage est ajusté de telle sorte que les contenants pèsent en moyenne 400g. Le poids des contenants est supposé normalement distribué avec un écarttype de 8g. Pour vérifier si le procédé de remplissage se maintient à 400g, en moyenne, on opte Lecture Notes in Computer Science and Technologies No 5, 2016 Statistique inférentielle 59 pour la règle décision suivante sur un échantillon prélevé de 16 contenants : Le processus opère correctement si : 396.08 g ≤ X̄ ≤ 403.92 g Sinon arrêter le processus de remplissage. a) Quelles sont les hypothèses statistiques que l’on veut tester avec cette méthode de contrôle ? b) Déterminer la probabilité de commettre une erreur de première espèce. c) Lors d’un récent contrôle, on a obtenu, pour un échantillon de 16 contenants, un poids moyen de 395g. Doit-on poursuivre ou arrêter la production ? d) Quelle est la probabilité de commettre une erreur de deuxième espèce selon l’hypothèse alternative H1 : µ = 394g ? e) Avec ce plan de contrôle, quelle est la probabilité de rejeter l’hypothèse selon laquelle le procédé opère à 400g, alors qu’en réalité il opère à 394g ? f) Faire de même pour les valeurs suivantes sous H1 : µ = 395g, 396g, 397g, 398g, 399g et 400g. Tracer la courbe d’efficacité du test. Solution : a) Quelles sont les hypothèses statistiques que l’on veut tester avec cette méthode de contrôle ? Hypothèses statistiques :  H0 : x̄ = µ = 400 le processus est ajusté H1 : x̄ 6= µ = 400 le processus n’est pas ajusté Seuil de signification : α = 5%. Conditions d’application du test : petit échantillon n = 16 provenant d’une population normale de moyenne µ = 400 et écart-type σ = 8 connu. Test bilatéral du poids moyen à une moyenne connue µ = 400 et un écart-type connu σ = 8. Statistique du test : X̄−µ √σ n ∼ N(0, 1) b) Déterminer la probabilité de commettre une erreur de première espèce. Probabilité de commettre une erreur de première espèce α = 5%. c) Lors d’un récent contrôle, on a obtenu, pour un échantillon de 16 contenants, un poids moyen de 395g. Doit-on poursuivre ou arrêter la production ? n = 16, x̄ = 395 Comme 395 < 396.08 on doit arrêter la production. d) Quelle est la probabilité de commettre une erreur de deuxième espèce selon l’hypothèse alternative H1 : µ = 394g ? Lecture Notes in Computer Science and Technologies No 5, 2016 60 Vera Angelova µ1 = 394 < µ0 = 400    β = P x̄c1 ≤ X̄ ≤ x̄c2 |µ = µ1 = 394 = P X̄ ≤ x̄c2 − P X̄ ≤ x̄c1     x̄c2 − µ1 x̄c1 − µ1 = P Z≤ −P Z ≤ 8 8     396.8 − 394 403.92 − 394 −P Z ≤ = P Z≤ 8 8     9.92 2.08 = P Z≤ −P Z ≤ 8 8 = P (Z ≤ 1.24) − P (Z ≤ 0.26) = 0.89251 − 0.60257 = 0.28994 = 28.99% β = 28.99% e) Avec ce plan de contrôle, quelle est la probabilité de rejeter l’hypothèse selon laquelle le procédé opère à 400g, alors qu’en réalité il opère à 394g ? P (rejet H0 |H1 vraie) = 1 − β = 1 − 0.2899 = 0.7101 = 71% La puissance du test est 71% f) Faire de même pour les valeurs suivantes sous H1 : µ = 395g, 396g, 397g, 398g, 399g et 400g. Tracer la courbe d’efficacité du test. La courbe d’efficacité du texte = la courbe de puissance du test : (1 − β)/µ1 en H1 µ1 395 396 397 398 399 400 (x̄c1 − µ1 )/σ 0,135 0,010 -0,115 -0,240 -0,365 -0,490 (x̄c2 − µ1 )/σ 1,115 0,990 0,865 0,740 0,615 0,490 β = P (x̄c1 ≤ x̄ ≤ x̄c2 |µ = µ1 ) 0,313880650 0,334923560 0,352258139 0,365184901 0,373166937 0,375866103 Lecture Notes in Computer Science and Technologies No 5, 2016 Statistique inférentielle 61 Figure 3.1 : Courbe d’efficacité du test 3.3.3 Exemples d’application 1. Test bilatéral Lorsqu’on s’intéresse à l’égalité ou la différence spécifiée sous H1 par le signe ”6=”, on opte pour un test bilatéral. Règle de décision pour accepter H0 : −t α2 < t0 < t α2 Exemple 3.3.2 Une entreprise fournit à un client des tiges d’acier. Le client exige que les tiges aient en moyenne, une longueur de 29 mm. On admet que la longueur des tiges est normalement distribuée. On veut vérifier si le procédé de fabrication opère bien à 29 mm. Un échantillon aléatoire de 12 tiges provenant de la fabrication donne une longueur moyenne de 27.25 mm et un écart-type empirique de 2.97 mm. Doit-on conclure, au seuil α = 5%, que la machine est déréglée ? 1. Hypothèses statistiques : 2. Seuil de signification : 3. Statistique de test : 4. Calcul de la statistique de test sous l’hypothèse nulle H0 : 5. Règle de décision : Lecture Notes in Computer Science and Technologies No 5, 2016 62 Vera Angelova Solution 1. Hypothèses statistiques  H0 : µ = µ0 = 29 (la machine n’est pas déréglée) H1 : µ 6= µ0 = 29 (la machine est déréglée) 2. Seuil de signification : α = 5% 3. Conditions d’application du test : petit échantillon n = 12 provenant d’une population normale. Test bilatéral de la longueur moyenne des tiges (variance inconnue) à une moyenne donnée µ0 = 29. 4. Statistique de test : X̄−µ √ ′ / n Sn ∼ Tn−1=11 d.d.l. 5. Calcul de la statistique de test sous l’hypothèse nulle H0 : µ = µ0 = 29 x̄12 − µ 27.25 − 29 √ t0 = ′ √ = = −1.954 avec s′12 = s12 / 12 3.10/ 12 r 12 s12 = 11 r 12 2.97 = 3.10 11 6. Règle de décision : fractiles de la loi de Sudent T11 (cf. table) : t α2 = 2.5% = ±2.201 7. Décision et conclusion : t0 appartient à la zone de non-rejet de H0 (−2.201 < t0 = −1.954 < 2.201), on peut donc conclure, avec risque d’erreur α = 5% qu’il n’y a pas de différence significative. La machine semble bien réglée, il n’y a pas lieu d’intervenir. 2. Test unilatéral à droite Lorsqu’on s’intéresse au changement d’un paramètre dans une direction spécifiée sous H1 par le signe ” > ”, on opte pour un test unilatéral ”risque à droite”. Pour accepter l’hypothèse H0 il faut que tα > t0 . Lecture Notes in Computer Science and Technologies No 5, 2016 Statistique inférentielle 63 Exemple 3.3.3 Aux dernières élections, un parti politique a obtenu 42% des suffrages. Un récent sondage a révélé que, sur 1041 personnes interrogées en âge de voter, 458 accorderaient son appui à ce parti. Le secrétaire général du parti a déclaré que la popularité de son parti est en hausse. Que penser de cette affirmation au seuil de signification α = 5% ? 1. Hypothèses statistiques : 2. Seuil de signification : 3. Conditions d’application du test : 4. Statistique de test : 5. Calcul de la statistique de test sous l’hypothèse nulle H0 : 6. Règle de décision : 7. Décision et conclusion : Solution 1. Hypothèses statistiques  H0 : p = p0 = 0.42 (p ≤ p0 ) H1 : p > p0 = 0.42 (popularité en hausse) 2. Seuil de signification : α = 5% 3. Conditions d’application du test : grand échantillon (n = 1041) Test unilatéral ”risque à droite” sur une proportion donnée p0 = 42% au premier sondage. Lecture Notes in Computer Science and Technologies No 5, 2016 64 Vera Angelova Sachant que pour le second sondage, la proportion estimée est : f = p̂ = 458 1041 = 44% f −p 4. Statistique de test : √ pq ∼ N(0, 1) n 5. Calcul de la statistique de test sous l’hypothèse nulle H0 : p = p0 = 0.42 f − p0 0.44 − 0.42 t0 = q = q = 1.307 p0 −q0 n 0.42 0.58 1041 6. Règle de décision : fractile de la loi N(0, 1) (cf. table) : t5% = 1.645 7. Décision et conclusion : t0 appartient à la zone de non-rejet de H0 (t5% = 1.645 < t0 = 1.307), on peut donc conclure, avec risque d’erreur α = 5% que la proportion du second sondage n’est pas significativement supérieure à celle du premier sondage. L’écart observé de 2% entre les deux sondages est dû aux fluctuations d’échantillonnage. L’affirmation du chef n’est pas justifiée statistiquement. 3. Test unilatéral à gauche Lorsqu’on s’intéresse au changement d’un paramètre dans une direction spécifiée sous H1 par le signe ” < ”, on opte pour un test unilatéral ”risque à gauche”. Pour accepter l’hypothèse H0 il faut que tα < t0 . Exemple 3.3.4 Le responsable de la production suggère au client des tiges d’acier avec un nouvel alliage. Il semble que ceci permettrait d’obtenir une résistance à la rupture plus élevée. Les résultats d’un test de résistance à la rupture de 50 tiges avec et sans le nouvel alliage se résument comme suit. Lecture Notes in Computer Science and Technologies No 5, 2016 Statistique inférentielle Nombre de tiges Résistance moyenne Variance empirique Sans le nouvel alliage 50 600.50 148.50 65 Avec le nouvel alliage 50 605.00 137.61 Au seuil de signification α = 5%, est-ce que l’hypothèse selon laquelle la résistance moyenne à la rupture sans l’alliage est moins élevée que celle avec l’alliage est confirmée ? 1. Hypothèses statistiques : 2. Seuil de signification : 3. Conditions d’application du test : 4. Statistique de test : 5. Calcul de la statistique de test sous l’hypothèse nulle H0 : 6. Règle de décision : 7. Décision et conclusion : Solution 1. Hypothèses statistiques  H0 : µs = µa (µs ≥ µa ) H1 : µs < µa 2. Seuil de signification : α = 5% 3. Conditions d’application du test : grands échantillons (ns > 30 et na > 30) (variances inconnues). Test unilatéral ”risque à gauche”. 4. Statistique de test : (X̄n −rȲp )−(µs −µa ) ′2 s′2 s + sa ns na ∼ N(0, 1) 5. Calcul de la statistique de test sous l’hypothèse nulle H0 : µs − µa = 0 (600.5 − 605) − 0 t0 = q = −1.864 148.5 137.61 + 49 49 sachant que s′2 s2 = n n−1 6. Règle de décision : fractile de la loi N(0, 1) (cf. table) : t5% = −1.645 7. Décision et conclusion : t0 appartient à la zone de rejet de H0 (t0 = −1.864 < t5% = 1.645), on peut donc conclure, avec risque d’erreur α = 5% qu’il y a une différence significative. La résistance moyenne à la rupture sans alliage est significativement plus petite que celle avec alliage. Lecture Notes in Computer Science and Technologies No 5, 2016 66 Vera Angelova 3.4 Comparaisons. Tests permettant de déterminer si deux échantillons appartiennent à la même population Introduction Il existe de nombreuses applications qui consistent, par exemple, à comparer deux groupes d’individus en regard d’un caractère quantitatif particulier (poids, taille, rendement scolaire, quotient intellectuel,....) ou à comparer deux procédés de fabrication selon une caractéristique quantitative particulière (résistance à la rupture, poids, diamètre, longueur,...) ou encore de comparer les proportions d’apparition d’un caractère qualitatif de deux populations (proportion de défectueux, proportion de gens favorisant un parti politique,...). Les variables aléatoires qui sont alors utilisées pour effectuer des tests d’hypothèses (ou aussi calculer des intervalles de confiance) sont la différence des moyennes d’échantillon, le quotient des variances d’échantillon ou la différence des proportions d’échantillon. 3.4.1 Comparaison de deux moyennes d’échantillon : “test T” Nous nous proposons de tester si la moyenne de la première population (µ1 ) peut être ou non considérée comme égale à la moyenne de la deuxième population (µ2 ). Nous allons alors comparer les deux moyennes d’échantillon x̄1 et x̄2 . Il est évident que si x̄1 et x̄2 diffèrent beaucoup, les deux échantillons n’appartiennent pas la même population. Mais si x̄1 et x̄2 diffèrent peu, il se pose la question de savoir si l’écart d = x̄1 − x̄2 peut être attribué aux hasards de l’échantillonnage. Afin de donner une réponse rigoureuse à cette question, nous procéderons encore en quatre étapes. 1ère étape : Formulation des hypothèses. Le premier échantillon dont nous disposons provient d’une population dont la moyenne est µ1 . Le deuxième échantillon dont nous disposons provient d’une population dont la moyenne est µ2 . Nous voulons savoir si il s’agit de la même population en ce qui concerne les  moyennes, c’estH 0 µ1 = µ2 à-dire si µ1 = µ2 . On va donc tester l’hypothèse H0 contre l’hypothèse H1 : H1 µ1 6= µ2 . 2ème étape : Détermination de la fonction discriminante du test et de sa distribution de probabilité. On détermine la statistique qui convient pour ce test. Ici, la différence D = X̄1 − X̄2 des deux moyennes d’échantillon, semble tout indiquée. On détermine la loi de probabilité de D en se plaçant sous l’hypothèse H0 . On suppose que l’on dispose de grands échantillons (n1 ≥ 30 et n2 ≥ 30). X̄1 suit alors une loi normale de moyenne µ1 et d’écart-type √σn11 que l’on peut sans problème estimer par √ns11−1 (car n1 ≥ 30). Lecture Notes in Computer Science and Technologies No 5, 2016 Statistique inférentielle I.e. X̄1 ⇀ N(µ1 , √ns11−1 ). De même X̄2 suit alors une loi normale de moyenne µ2 et d’écart-type sans problème estimer par √ns22−1 (car n2 ≥ 30). I.e. X̄2 ⇀ N(µ2 , √ns22−1 ). √σ2 n2 67 que l’on peut On en déduit, puisque X̄1 et X̄2 sont indépendantes que D suit également une loi normale. E(D) = E(X̄1 ) − E(X̄2 ) = µ1 − µ2 = 0 puisqu’on se place sous H0 . E(D) = V (X̄1 ) + V (X̄2 ) = On pose s21 s22 + puisque les variables sont indépendantes. n1 − 1 n2 − 1 T =q X̄1 − X̄2 s21 n1 −1 + s22 n2 −1 . T mesure un écart réduit. T est la fonction discriminante du test T ⇀ N(0, 1). 3ème étape : Détermination des valeurs critiques de T délimitant les zones d’acceptation et de rejet. On impose toujours à la zone d’acceptation de H0 concernant l’écart réduit d’être centrée autour de 0. Rejet de H Non!rejet de H 0 0 Rejet de H 0 1!! !/2 !/2 !t! /2 0 t! /2 Il nous faut donc déterminer dans la table la valeur maximale tα/2 de l’écart réduit imputable aux variations d’échantillonnage au seuil de signification α, c’est-à-dire vérifiant P (−tα/2 ≤ T ≤ tα/2 ) = 1 − α. 4ème étape : Calcul de la valeur de T prise dans l’échantillon et conclusion du test. On calcule la valeur t0 prise par T dans l’échantillon. • Si la valeur t0 se trouve dans la zone de rejet, on dira que l’écart-réduit observé est statistiquement significatif au seuil α. Cet écart est anormalement élevé et ne permet pas d’accepter H0 . On rejette H0 . • Si la valeur t0 se trouve dans la zone d’acceptation, on dira que l’écart-réduit observé n’est pas significatif au seuil α. Cet écart est imputable aux fluctuations d’échantillonnage. On accepte H0 . Remarque 5 Si on travaille sur de petits échantillons, si la loi suivie par la grandeur est une loi normale et si on ignore les écarts-type des populations, on doit utiliser la loi de Student. Lecture Notes in Computer Science and Technologies No 5, 2016 68 Vera Angelova 3.4.2 Comparaison de deux variances d’échantillon : “test F” 1ère étape : Formulation des hypothèses. Le premier échantillon dont nous disposons provient d’une population dont l’écart-type est σ1 . Le deuxième échantillon dont nous disposons provient d’une population dont l’écarttype est σ2 . Nous voulons savoir si il s’agit de la même population en ce qui concerne les écarts-type, c’est-à-dire si σ1 = σ2 . On va donc tester l’hypothèse H0 contre l’hypothèse H1 :  H0 σ 1 = σ 2 H1 σ1 6= σ2 . 2ème étape : Détermination de la fonction discriminante du test et de sa distribution de probabilité. On détermine la statistique qui convient pour ce test. Ici, la variable aléatoire dont on S12 connaı̂t la loi est le rapport F = 2 où S12 et S22 sont les variables aléatoires variances S2 d’échantillon. On détermine la loi de probabilité de F en se plaçant sous l’hypothèse H0 . On suppose ici que les deux populations dont nous avons tiré les échantillons sont normales. Il en découle que • (n1 − 1)S12 suit la loi du khi-deux à n1 − 1 degrés de liberté. σ12 • De même, (n2 − 1)S22 suit la loi du khi-deux à n2 − 1 degrés de liberté. σ22 On considère alors le quotient F0 = S12 σ12 S22 σ22 qui est distribué suivant la loi de Fisher avec ν1 = n1 − 1 et ν2 = n2 − 1 degrés de liberté. S12 Lorsqu’on se place sous l’hypothèse H0 , c’est le rapport F0 = 2 qui suit la loi de Fisher avec S2 ν1 et ν2 degrés de liberté puisque σ1 = σ2 . Ici la fonction discriminante du test est F0 . 3ème étape : Détermination des valeurs critiques de F0 délimitant les zones d’acceptation et de rejet. On impose maintenant à la zone d’acceptation de H0 concernant le quotient des deux variances d’échantillon d’être centrée autour de 1. Lecture Notes in Computer Science and Technologies No 5, 2016 Statistique inférentielle P(F0< F"/2 ,! ,! )= 1 2 P(F0 > F 1!"/2 ,! "/2 F"/2 ,! ,! 1 2 F 1!"/2 ,! ,! )= 1 2 69 "/2 ,! 1 2 On détermine dans les tables les deux valeurs Fα/2,ν1 ,ν2 et F1−α/2,ν1 ,ν2 telles que P (Fα/2,ν1 ,ν2 < F0 < F1−α/2,ν1 ,ν2 = 1 − α. On rejettera H0 si la valeur f0 prise par F0 dans l’échantillon se trouve à l’extérieur de l’intervalle [Fα/2,ν1 ,ν2 , F1−α/2,ν1 ,ν2 ]. Remarque 6 On notera que pour obtenir la valeur critique inférieure de F0 , on doit utiliser la relation 1 . F1−α/2,ν1 ,ν2 = Fα/2,ν2 ,ν1 4ème étape : Calcul de la valeur de F0 prise dans l’échantillon et conclusion du test. On calcule la valeur f0 prise par F0 dans l’échantillon. • Si la valeur F0 se trouve dans la zone de rejet, on dira que la valeur observée pour F est statistiquement significative au seuil α. Ce quotient est éloigné de 1 et ne permet pas d’accepter H0 . On rejette H0 . • Si la valeur F0 se trouve dans la zone d’acceptation, on dira que la valeur observée pour F n’est pas significative au seuil α. L’écart constaté par rapport à la valeur 1 attendue est imputable aux fluctuations d’échantillonnage. On accepte H0 . 3.4.3 Comparaison de deux proportions d’échantillon Il y a de nombreuses applications (échéances électorales, expérimentations médicales...) où nous devons décider si l’écart observé entre deux proportions échantillonnales est significatif où s’il est attribuable au hasard de l’échantillonnage. Pour répondre à cette question, nous procéderons comme d’habitude en quatre étapes. 1ère étape : Formulation des hypothèses. Le premier échantillon dont nous disposons provient d’une population 1 dont les éléments possèdent un caractère qualitatif dans une proportion inconnue p1 . Le deuxième échantillon dont nous disposons provient d’une population 2 dont les éléments possèdent le même caractère qualitatif dans une proportion inconnue p2 . Nous voulons savoir si il s’agit de la même population en ce qui concerneles proportions, H0 p 1 = p 2 c’est-à-dire si p1 = p2 . On va donc tester l’hypothèse H0 contre l’hypothèse H1 : H1 p1 6= p2 . Lecture Notes in Computer Science and Technologies No 5, 2016 70 Vera Angelova 2ème étape : Détermination de la fonction discriminante du test et de sa distribution de probabilité. Nous traiterons uniquement le cas où nous sommes en présence de grands échantillons. On détermine la statistique qui convient pour ce test. Ici, la différence D = F1 − F2 des deux proportions d’échantillon, semble tout indiquée, puisque F1 est un estimateur sans biais de p1 et F2 un estimateur sans biais de p2 . On détermine la loi de probabilité de D en se q plaçant sous l’hypothèse H0 . F1 suit alors 1) . une loi normale de moyenne p1 et d’écart-type p1 (1−p n1 q 2) De même, F2 suit alors une loi normale de moyenne p2 et d’écart-type p2 (1−p . n2 On en déduit, puisque F1 et F2 sont indépendantes que D suit également une loi normale. E(D) = E(F1 ) − E(F2 ) = p1 − p2 = 0 puisqu’on se place sous H0 . V (D) = V (F1 ) + V (F2 ) = p(1−p) + p(1−p) puisque les variables sont indépendantes. Ici, on n1 n2 a posé p1 = p2 = p puisque l’on se place sous H0 . Mais comment trouver p puisque c’est justement sur p que porte le test ? Puisque nous raisonnons en supposant l’hypothèse H0 vraie, on peut considérer que les valeurs de F1 et F2 obtenues sur nos échantillons sont des approximations de p. De plus, plus la taille de l’échantillon est grande, meilleure est l’approximation (revoir le chapitre sur les intervalles de confiance). Nous allons donc pondérer les valeurs observées dans nos échantillons par la taille respective 2 f2 de ces échantillons. On approchera p dans notre calcul par p̂ = n1nf11 +n . +n2 On pose T =q D p̂(1 − p̂)( n11 + 1 ) n2 . T mesure un écart réduit. T est la fonction discriminante du test. T ⇀ N(0, 1). 3ème étape : Détermination des valeurs critiques de T délimitant les zones d’acceptation et de rejet On impose toujours à la zone d’acceptation de H0 concernant l’écart réduit d’être centrée autour de 0. Rejet de H Non!rejet de H 0 0 Rejet de H 0 1!! !/2 !/2 !t! /2 0 t! /2 Il nous faut donc déterminer dans la table la valeur maximale tα/2 de l’écart réduit imputable aux variations d’échantillonnage au seuil de signification α, c’est-à-dire vérifiant P (−tα/2 ≤ T ≤ tα/2 ) = 1 − α. Lecture Notes in Computer Science and Technologies No 5, 2016 Statistique inférentielle 71 4ème étape : Calcul de la valeur de T prise dans l’échantillon et conclusion du test On calcule la valeur t0 prise par T dans l’échantillon. • Si la valeur t0 se trouve dans la zone de rejet, on dira que l’écart-réduit observé est statistiquement significatif au seuil α. Cet écart est anormalement élevé et ne permet pas d’accepter H0 . On rejette H0 . • Si la valeur t0 se trouve dans la zone d’acceptation −t α2 < t0 < t α2 , on dira que l’écart-réduit observé n’est pas significatif au seuil α. Cet écart est imputable aux fluctuations d’échantillonnage. On accepte H0 . Exemple 3.4.1 Pour sa fabrication, un industriel utilise des pièces de deux constructeurs différents. Après six mois d’utilisation, il constate que sur les 80 pièces du constructeur 1, 50 ne sont jamais tombées en panne, alors que pour le constructeur 2 la proportion est de 40 sur 60. Au seuil de signification α = 5%, peut-on considérer que les proportions de pièces de ces deux constructeurs sont équivalentes ? 1. Hypothèses statistiques : 2. Seuil de signification : 3. Conditions d’application du test : 4. Statistique de test : 5. Calcul de la statistique de test sous l’hypothèse nulle H0 : 6. Règle de décision : 7. Décision et conclusion : Solution 1. Hypothèses statistiques  H0 : p1 = p2 (équivalentes) H1 : p1 6= p2 (différentes) 2. Seuil de signification : α = 5% 3. Conditions d’application du test : grands échantillons (n1 > 30 et n2 > 30). Test bilatéral symétrique. 4. Statistique de test : (F −F2 )−(p1 −p2 ) r1   f (1−f ) n1 + n1 1 2 ∼ N(0, 1) avec f1 = 62.50% ; f2 = 66.67% ; f = n1 f1 +n2 f2 n1 +n2 = 64.28% et (1 − f ) = 35.71%. 5. Calcul de la statistique de test sous l’hypothèse nulle H0 : p1 − p2 = 0 (0.6250 − 0.6667) − 0 t0 = q  = −0.513 1 1 0.6428 × 0.3571 80 + 60 Lecture Notes in Computer Science and Technologies No 5, 2016 72 Vera Angelova 6. Règle de décision : fractile de la loi N(0, 1) (cf. table) : t2.5% = ±1.96 7. Décision et conclusion : t0 appartient à la zone de non-rejet de H0 (−1.96 < t0 = −0.513 < −1.96), on peut conclure, avec risque d’erreur α = 5%, qu’il n’y a pas de différence significative entre ces deux proportions. On peut donc les considérer comme équivalentes. 3.5 Tests non-paramétriques On qualifie de non-paramétriques ”distribution free” les tests statistiques qui sont construits à partir d’une fonction des observations sur un échantillon aléatoire, fonction dont la loi de probabilité ne dépend pas de la connaissance de la distribution de la population-mère. La validité des tests non-paramétriques dépend seulement d’un nombre très restreint de conditions d’application (échantillons considérés doivent être aléatoires et simples) beaucoup moins contraignantes que celles requises pour la mise en œuvre des tests paramétriques (distribution normale de la population-mère ou échantillon de grande taille). Un test non-paramétrique présente quelques avantages : 1. son application est relativement facile et rapide, 2. s’applique à des échantillons de petites tailles, 3. s’applique à des caractères qualitatifs, à des grandeurs de mesure, à des ratios, à des rangs de classement, etc. On distinguera principalement les deux familles suivantes : 1. Test du Khi-deux de Pearson : (a) Test d’ajustement ou d’adéquation entre deux distributions. (b) Test d’indépendance dans un tableau de contingence. (c) Test d’homogénéité de plusieurs populations. 2. Tests appliqués aux rangs et aux signes (a) Test de la somme des rangs (Wilcoxon et Mann-Withney) (b) Test de signes (c) Test de la somme des rangs des différences positives (Wilcoxon) (d) Test d’indépendance de rangs de Spearman Lecture Notes in Computer Science and Technologies No 5, 2016 Statistique inférentielle 73 Une caractéristique essentielle des méthodes non-paramétriques est leur relative simplicité et rapidité des calculs. Remplacer les valeurs observées par des indicateurs ou des rangs provoque évidemment une certaine perte d’information. De ce fait, les tests non-paramétriques sont généralement moins puissants que les tests paramétriques, beaucoup plus robustes. 3.5.1 Test d’ajustement de deux distributions : “test du khi-deux” Introduction Le test de Pearson, appelé aussi le test du khi-deux est un outil statistique qui permet de vérifier la concordance entre une distribution expérimentale et une distribution théorique. On cherche donc à déterminer si un modèle théorique est susceptible de représenter adéquatement le comportement probabiliste de la variable observée, comportement fondé sur les fréquences des résultats obtenus sur l’échantillon. Comment procéder ? Répartitions expérimentales On répartit les observations suivant k classes (si le caractère est continu) ou k valeurs (si le caractère est discret). On dispose alors des effectifs des k classes : n1 , n2 , . . . , nk . On a bien sûr la relation k X ni = N, i=1 où N est le nombre total d’observations effectuées. Répartitions théoriques En admettant comme plausible une distribution théorique particulière, on peut construire une répartition idéale des observations de l’échantillon de taille N en ayant recours aux probabilités tablées (ou calculées) du modèle théorique : p1 , p2 , . . . , pk . On obtient alors les effectifs k X théoriques nt,i en écrivant nt,i = N pi . On dispose automatiquement de la relation nt,i = N . i=1 Remarque 7 Dans la pratique, on se placera dans le cas où N ≥ 50 et où chaque nt,i est supérieur ou égal à 5. Si cette condition n’est pas satisfaite, il y a lieu de regrouper deux ou plusieurs classes adjacentes. Il arrive fréquemment que ce regroupement s’effectue sur les classes aux extrémités de la distribution. k représente donc le nombre de classes après regroupement. Lecture Notes in Computer Science and Technologies No 5, 2016 74 Vera Angelova Définition de l’écart entre les deux distributions Pour évaluer l’écart entre les effectifs observés ni et les effectifs théoriques nt,i , on utilise la somme des écarts normalisés entre les deux distributions, à savoir χ2 = (n1 − nt,1 )2 (n2 − nt,2 )2 (nk − nt,k )2 + + ··· + . nt,1 nt,2 nt,k Plus le nombre χ2 ainsi calculé est grand, plus la distribution étudiée différer de la distribution théorique. Quelques considérations théoriques à propos de cet écart Le nombre d’observations ni parmi l’échantillon de taille N susceptible d’appartenir à la classe i est la réalisation d’une variable binomiale Ni de paramètres N et pi (chacune des N observations appartient ou n’appartient pas à la classe i avec une probabilité pi ). Si N est suffisamment grand (on se place dans le cas d’échantillons de taille 50 minimum) et pi pas trop petit (on a effectué des regroupements de classes pour qu’il en soit p ainsi), on peut approcher la loi binomiale par la loi normale, c’est-à-dire B(N, pi ) par N(N pi , N pi (1 − pi )). Pour simplifier, pi suit la loi N(0, 1). Lorsqu’on élève au carré on approxime N pi (1 − pi ) par N pi . Donc NiN−N pi toutes ces quantités et qu’on en fait la somme, on obtient une somme de k lois normales centrées réduites (presque) indépendantes. Nous avons vu au chapitre 3 que cette somme suivait une loi du khi-deux. Mais quel est le nombre de degrés de liberté de cette variable du khi-deux ? Il y a k carrés, donc à priori k degrés de liberté. Mais on perd toujours un degré de liberté car on a fixé l’effectif total de l’échantillon, k X Ni = N. i=1 On peut perdre d’autres degrés de liberté si certains paramètres de la loi théorique doivent être estimés à partir de l’échantillon. 1. Si la distribution théorique est entièrement spécifiée, c’est-à-dire si on cherche à déterminer si la distribution observée suit une loi dont les paramètres sont connus avant même de choisir l’échantillon, on a k −1 degrés de liberté (k carrés indépendants moins une relation entre les variables). 2. S’il faut d’abord estimer r paramètres de la loi à partir des observations de l’échantillon (par exemple on cherche si la distribution est normale mais on ne connaı̂t d’avance ni sa moyenne ni son écart-type), il n’y a plus que k − 1 − r degrés de liberté. Dans le cas général, on dira que la loi du khi-deux suivie par l’écart entre les deux distributions a k − 1 − r degrés de liberté lorsqu’on a estimé r paramètres de la loi théorique à partir des observations de l’échantillon (avec la possibilité pour r de valoir 0). Lecture Notes in Computer Science and Technologies No 5, 2016 Statistique inférentielle 75 EXCEL : CHIT EST (yobservés ; yestimés ) = p Si p > α on accepte l’hypothèse H0 . Le test d’ajustement de Pearson Il nous faut maintenant décider, à l’aide de cet indicateur qu’est le χ2 , si les écarts entre les effectifs théoriques et ceux qui résultent des observations sont significatifs d’une différence de distribution ou si ils sont dus aux fluctuations d’échantillonnage. Nous procéderons comme d’habitude en quatre étapes. 1ère étape : Formulation des hypothèses. On va donc tester l’hypothèse H0 contre l’hypothèse H1 :  H0 Les observations suivent la distribution théorique spécifiée, H1 Les observations ne suivent pas la distribution théorique spécifiée. 2ème étape : Détermination de la fonction discriminante du test et de sa distribution de probabilité. On utilise la variable aléatoire χ2 = (nk − nt,k )2 (n1 − nt,1 )2 (n2 − nt,2 )2 + + ··· + . nt,1 nt,2 nt,k 3ème étape : Détermination des valeurs critiques de χ2 délimitant les zones d’acceptation et de rejet. On impose à la zone d’acceptation de H0 concernant la valeur du χ2 d’être un intervalle dont 0 est la borne inférieure (car un χ2 est toujours positif). P(# 2 > # 2!,")= ! 1!! # 2!," Il nous faut donc déterminer dans la table la valeur maximale χ2α,ν de l’écart entre les deux distributions imputable aux variations d’échantillonnage au seuil de signification α, c’est-àdire vérifiant P (χ2 > χ2α,ν ) = α. χ2α,ν représente donc la valeur critique pour un test sur la concordance entre deux distributions et le test sera toujours unilatéral à droite. Lecture Notes in Computer Science and Technologies No 5, 2016 76 Vera Angelova 4ème étape : Calcul de la valeur de χ2 prise dans l’échantillon et conclusion du test. On calcule la valeur χ20 prise par χ2 dans l’échantillon. • Si la valeur χ20 se trouve dans la zone de rejet, on dira que l’écart observé entre les deux distributions est statistiquement significatif au seuil α. Cet écart est anormalement élevé et ne permet pas d’accepter H0 . On rejette H0 . • Si la valeur χ20 se trouve dans la zone d’acceptation, on dira que l’écart-réduit observé n’est pas significatif au seuil α. Cet écart est imputable aux fluctuations d’échantillonnage. On accepte H0 . EXCEL : CHIT EST (yobservés ; yestimés ) = p Si p > α on accepte l’hypothèse H0 . 3.5.2 Test d’indépendance du khi-deux Le test de khi-deux est fréquemment utilisé pour tester si deux caractères, qualitatifs ou quantitatifs (répartis en classes), observés dans une population sont indépendants ou si, au contraire, ils sont dépendants : présentent un certain degré d’association (liaison). • Principe général du test : 1. Un échantillon aléatoire de taille n est prélevé d’une population et est observé selon deux caractères X à p modalités et Y à q modalités. 2. La répartition des n observations suivant les modalités croisées des deux caractères se présente sous la forme d’un tableau à double entrée appelé tableau de contingence. 3. Il s’agit par la suite de tester, à l’aide du khi-deux de Pearson, si les deux caractères sont indépendants ou non. • Tableau de contingence. Tableau des effectifs observés : x1 .. . y1 n11 .. . ... ... .. . yj n1j .. . ... ... .. . yl n1l .. . xi .. . ni1 .. . ... .. . nij .. . ... .. . nil .. . xk Total colonne nP k1 n.1 = i nij ... ... nkj n.j ... ... nkl n.l TotalP ligne n1. = j n1j .. . ni. .. . nk. P P n = n.. = i j nij Lecture Notes in Computer Science and Technologies No 5, 2016 Statistique inférentielle 77 • Les hypothèses statistiques peuvent s’énoncer ainsi : H0 : les caractères X et Y sont indépendants H1 : les caractères X et Y sont dépendants • Sous l’hypothèse nulle H0 : indépendance des deux caractères, on a, pij = pi. p.j ∀(i = 1, k et j = 1, l) (probabilités conjointes pij = nij ). n • l’estimation des effectifs théoriques s’obtient en répartissant la taille de l’échantillon n dans les proportions obtenues selon les estimations des probabilités conjointes (indépendance en probabilité) : fij = n̂ij ni. n.j = n n n d’où, n̂ij = ni. n.j n • Pour comparer les répartitions théorique et observée, on calcule, sous l’hypothèse nulle H0 la quantité : l k X X (nij − n̂ij )2 χ2calculé = n̂ij i j laquelle sous H0 est distribuée selon la loi du khi-deux χ2(k−1)(l−1) d’erreur α choisi. d.d.l. : noté χ2table pour le risque • Décision et conclusion du test statistique : L’hypothèse nulle H0 d’indépendance est rejetée, au niveau α, si χ2calculé ≥ χ2table (le test statistique est toujours unilatéral). EXCEL : CHIT EST (yobservés ; yestimés ) = p Si p > α =⇒ on accepte l’hypothèse H0 . Exemple 3.5.1 Test d’indépendance : taux de guérison et coût du médicament. Pour comparer l’efficacité de 2 médicaments comparables, mais de prix très différents, la Sécurité sociale a effectué une enquête sur les guérisons obtenues avec ces deux traitements. Les résultats sont présentés dans le tableau suivant : Original Générique Total Guérisons 156 44 200 Non-guérisons 44 6 50 Total 200 50 250 Tableau aux effectifs observés nij Au seuil de signification α = 5%, peut-on conclure que ces deux médicaments ont la même efficacité ? 1. Hypothèses statistiques : 2. Seuil de signification : Lecture Notes in Computer Science and Technologies No 5, 2016 78 Vera Angelova 3. 4. 5. 6. 7. Conditions d’application du test : Degré de liberté : Statistique de test : Calcul de la statistique du χ2calculé sous l’hypothèse nulle H0 : Règle de décision et conclusion : Solution 1. Hypothèses statistiques  H0 : indépendance du taux de guérison et du coût du médicament H1 : dépendance 2. Seuil de signification : α = 5% 3. Conditions d’application du test : Un échantillon aléatoire de taille n = 250 observé selon deux caractères qualitatifs à k = 2 et l = 2 modalités. 4. Degré de liberté : (k − 1)(l − 1) = 1 d.d.l. 5. Statistique de test : Pk=2 Pl=2 i=1 j=1 (nij −n̂ij )2 n̂ij ∼ χ21 d.d.l. 6. Calcul de la statistique du χ2calculé sous l’hypothèse nulle H0 : Indépendance Original Guérisons Non-guérisons 200×200 250 50×200 250 Générique Total = 160 200×50 250 = 40 200 = 16 50×50 250 = 10 50 Total 200 50 Tableau aux effectifs théoriques n̂ij = 250 ni. n.j n l=2 k=2 X X (nij − n̂ij )2 χcalculé = = 2.5 n̂ij i=1 j=1 2 7. Décision et conclusion : fractile de la loi du χ21 (cf. table) : χ21;α=5% = 3.84. La valeur du χ2calculé appartient à la zone de non-rejet de H0 . En effet, χ2calculé = 2.5 < χ21;5% = 3.84. Il n’y a pas de dépendance significative entre les deux caractères : le taux de guérison et le coût du médicament sont indépendants. Au seuil de signification α = 5%, on peut conclure que ces deux médicaments ont la même efficacité Lecture Notes in Computer Science and Technologies No 5, 2016 Statistique inférentielle 3.5.3 79 Test d’homogénéité de plusieurs populations Introduction On prélève au hasard k échantillons de tailles n1 , n2 , . . . , nk de k populations. Les résultats du caractère observé dans chaque population sont ensuite classés selon r modalités. Dans ce cas, les totaux marginaux (les ni ) associés aux k échantillons sont fixés et ne dépendent pas du sondage. Il s’agit de savoir comparer les k populations entre elles et de savoir si elles ont un comportement semblable en regard du caractère étudié (qualitatif ou quantitatif). On rassemble les données dans un tableau à double entrée appelé tableau de contingence. Caractère observé selon r modalités i=1 i=2 ... i ... i=r j=1 n11 n21 Populations échantillonnées j=2 ... j n12 n1j n22 n2j ... j=k n1k n2k ni1 ni2 nij nik nr1 r X n1 = ni1 nr2 r X n2 = ni2 nrj r X nj = nij nrk r X nk = nik i=1 i=1 i=1 i=1 Test d’homogénéité Il s’agit de comparer les effectifs observés pour chaque modalité du caractère avec les effectifs théoriques sous l’hypothèse d’une répartition équivalente entre les k populations et ceci pour chaque modalité du caractère. Si nous notons pij la probabilité théorique pour qu’une unité statistique choisie au hasard dans la population j présente la modalité i du caractère étudié, on peut alors préciser les hypothèses de la façon suivante : 1ère étape : Formulation des hypothèses. H0 : pi1 = pi2 = · · · = pik pour i = 1, 2, . . . , r. Soit encore : les proportions d’individus présentant chaque modalité du caractère sont les mêmes dans les k populations. H1 : Les proportions des populations ne sont pas toutes égales. 2ème étape : Détermination de la fonction discriminante du test et de sa distribution de probabilité. Sous l’hypothèse d’homogénéité des populations, on doit comparer les effectifs observés aux effectifs théoriques. Pour calculer les effectifs théoriques, il nous faut déterminer pi , la proportion d’individus associée à la modalité i et que l’on suppose identique dans les k populations. On obtiendra une estimation de cette proportion en utilisant l’ensemble des données collectées. On Lecture Notes in Computer Science and Technologies No 5, 2016 80 Vera Angelova choisit donc Pk j=1 nij j=1 nj pi = Pk . On en déduit les effectifs théoriques de chaque classe grâce à la relation nt,ij = pi nj . Pour comparer les écarts entre ce qu’on observe et ce qui se passe sous l’hypothèse H0 , on considère la somme des écarts réduits de chaque classe, à savoir la quantité k r X X (Nij − nt,ij )2 . χ = n t,ij i=1 j=1 2 Cette variable aléatoire suit une loi du khi-deux (voir paragraphe précédent), mais quel est donc son nombre de degrés de liberté ? Calcul du nombre de degrés de liberté du khi-deux. • A priori, on a kr cases dans notre tableau donc kr degrés de liberté. Mais il faut retirer à cette valeur, le nombre de paramètres estimés ainsi que le nombre de relations entre les différents éléments des cases. • On a estimé r probabilités théoriques à l’aide des valeurs du tableau(p P1 , p2 , . . . , pr ), mais seulement r − 1 sont indépendantes, puisqu’on impose la restriction ri=1 pi = 1. Par ces estimations, on a donc supprimé r − 1 degrés de liberté. P • Les effectifs de chaque colonne sont toujours liés par les relations ri=1 Nij = nj (puisque les nj sont imposés par l’expérience) et ces relations sont au nombre de k. • Finalement, le nombre de degrés de liberté du khi-deux est kr −(r −1)−k = (k −1)(r −1). 3ème étape : Détermination des valeurs critiques de délimitant les zones d’acceptation et de rejet. On impose à la zone d’acceptation de H0 concernant la valeur du χ2 d’être un intervalle dont 0 est la borne inférieure (car un χ2 est toujours positif). P(# 2 > # 2!,")= ! 1!! # 2!," Lecture Notes in Computer Science and Technologies No 5, 2016 Statistique inférentielle 81 Il nous faut donc déterminer dans la table la valeur maximale χ2α,ν de l’écart entre les deux distributions imputable aux variations d’échantillonnage au seuil de signification α, c’est-à-dire vérifiant P (χ2 > χ2α,ν ) = α. 4ème étape : Calcul de la valeur de χ2 prise dans l’échantillon et conclusion du test. On calcule la valeur χ20 prise par χ2 dans l’échantillon. • Si la valeur χ20 se trouve dans la zone de rejet, on dira que l’écart observé entre les deux distributions est statistiquement significatif au seuil α. Cet écart est anormalement élevé et ne permet pas d’accepter H0 . On rejette H0 . • Si la valeur χ20 se trouve dans la zone d’acceptation, on dira que l’écart-réduit observé n’est pas significatif au seuil α. Cet écart est imputable aux fluctuations d’échantillonnage. On accepte H0 . Lecture Notes in Computer Science and Technologies No 5, 2016 82 Vera Angelova Bibliographie [1] Belletante, B., B. Romier. Mathématiques et Gestion. Les outils fondamentaux. Enseignement Supérieur Tertiaire, Ellipses, 1991 [2] Dumoulin, D. Mathématiques de gestion. Cours et applications Collection D.E.C.S. dirigée par Th. Lamolette, Economica, Paris, 1987 [3] Jaffard, P. Initiation aux méthodes de la statistique et du calcul des probabilités Masson, Paris, 1990 [4] Rakotomalala, R. Ouvrages http://eric.univ-lyon2.fr/ ricco/cours/ouvrages.html [5] Ramousse, R., Le Berre, M., Le Guelte, L. Introduction aux statistiques, chapitres 1 à 5, 1996 http://www.cons-dev.org/elearning/stat/index.html [6] Ramousse, R., Le Berre, M., Le Guelte, L. Une approche pragmatique de l’Analyse des données http://www.cons-dev.org/elearning/ando/index.html [7] Spiegel, M. Théorie et application de la statistique Serie Schaum, Ediscience, Paris, France, 1972 [8] Damgaliev, D., Tellalyan, . Statistiques sur les entreprises, NBU, Sofia, 2006 (en bulgare) Lecture Notes in Computer Science and Technologies No 5, 2016 Statistique inférentielle Annexe Schémas Synthèse sur les distributions d’échantillonnage Table 1 Table 2 Estimation ponctuelle. Synthèse Table 3 Intervalle de confiance. Synthèse Table Table Table Table 4 5 6 7 Tables statistiques Table de Loi Normale Fractiles de la Loi Normale Fractiles de la loi du χ2ν Table de la loi de Student Table de la loi de Fisher-Snedecor p = 0.05 Table de la loi de Fisher-Snedecor p = 0.025 Table de la loi de Fisher-Snedecor p = 0.01 Feuilles Feuille 1 : Échantillonnage Feuille 2 : Estimation Feuille 3 : Les tests d’hypothèse Feuille 4 : Préparation pour les contrôles Lecture Notes in Computer Science and Technologies No 5, 2016 83 84 Vera Angelova Schémas Synthèse sur les distributions d’échantillonnage Table 1 Table 2 Estimation ponctuelle. Synthèse Table 3 Intervalle de confiance. Synthèse Table 4 Table 5 Table 6 Table 7 Lecture Notes in Computer Science and Technologies No 5, 2016 Variable aléatoire X̄ = n1 (X1 + · · · + Xn ) P = n1 ni=1 Xi E(X̄) = µ V ar(X̄) = σ2 n n ≥ 30 σ connu σ inconnu estimation fiable n σ̂ 2 = n−1 s2 Table 1 Loi n < 30, X ∼ N(µ, σ) σ connu T = tirage avec remise ; tirage sans remise et n < 0, 05N X̄ ∼ N(µ, √σn ) X 1 : n1 , µ1 , σ 1 X 2 : n2 , µ2 , σ 2 E(X̄1 − X̄2 ) = µ1 − µ2 ; V ar(X̄1 − X̄2 ) σ2 σ2 = n11 + n22 X̄1 − X̄2 σ inconnu estimation fiable n s2 σ̂ 2 = n−1 = X̄−µ √s n−1 X̄−µ T ∼ Tn−1 tirage  sans remise q et n > 0, 05N σ N −n X̄ ∼ N µ, √n N −1 n1 , n2 < 30 et X1 ∼ N(µ1 , σ1 ), n1 , n2 ≥ 30 ; ni < 0, 05N X2 ∼ N(µ2 , σ2 )   q 2 σ1 σ22 X̄1 − X̄2 ∼ N µ1 − µ2 , n1 + n2 ni > 0, 05Ni → facteur d’exhaustivité ′2 Variance SX̄ d’échantillon - estimation de σ 2 2 = SX̄ 1 n Pn i=1 (Xi − X̄)2 n−1 2 σ , n ′2 ) = σ2 E(SX̄ n ≥ 30   q 2 ′2 ∼ N σ 2 , σ 2 (n−1) SX̄ n < 30 ′2 (n−1)SX̄ 2 σ ∼ χ2n−1 85 n ′2 S2 = n−1 SX̄ P n 1 2 = n−1 i=1 (Xi − X̄) 2 )= E(SX̄ s′ √ n Statistique inférentielle Lecture Notes in Computer Science and Technologies No 5, 2016 X̄ Moyenne d’échantillon Synthèse sur les distributions d’échantillonnage Paramètres Définition descriptifs 86 Vera Angelova Table 2 Variable aléatoire Paramètres descriptifs Définition Loi n ≥ 30, np > 15, nq > 15 p  B(n, np ) → N p, pq n tirage avec remise ; sans remise et n < 0, 05N p  F ∼ N p, pq n F = X/n, E(F ) = p X ∼ B(n, p) F Proportion d’échantillon V ar(F ) = E(X) = np pq n V ar(X) = npq F1 − F2  F 1 ∼ N p1 ,  F 2 ∼ N p2 , q q p 1 q1 n1 p 2 q2 n2  E(F1 − F2 ) = p1 − p2 F1 − F2  tirage sans remise n > 0, 05N   p q N −n F ∼ N p, pq n N −1 n1 ≥ 30 ; n2 ≥ 30 V ar(F1 − F2 ) = q p 1 q1 + pn2 q22 n1 F1− F2 ∼ q N p1 − p2 , pn1 q11 + Estimation ponctuelle. Synthèse Population mère P taille N Echantillon taille E Estimations ponctuelles n et p 2 q2 n2  Table 3 Paramètres du caractère observé moyenne proportion variance µ p σ2 Caractéristiques du caractère observé moyenne fréquence variance x̄ = 1 n x̄ = 1 n x̄ = 1 n Pn i=1 Pn i=1 Pn i=1 xi Série stat. ni xi D.O.1 f= nA n ni x∗i D.G.1 µ b = x̄ pb = f observée P: s2 = n1 ni=1 (si − x̄)2 empirique : n s′2 = n−1 s2 µ connue - σ b 2 = s2 µ inconnue - σ b2 = s′2 Lecture Notes in Computer Science and Technologies No 5, 2016 Statistique inférentielle 87 Intervalle de confiance. Synthèse Population P : taille N ; Échantillon 1 N moyenne µ = 1 n Paramètre estimé moyenne x̄ = Conditions Statistique de test σ connue, p. 38, 39 σ inconnue n < 30 p. 40, 41 σ inconnue n ≥ 30 p. 42 n ≥ 30 p. 53, 54 Moyenne µ Proportion p → N(0, 1) t α2 √σn x̄ ± t α2 √σn → Tn−1 d.d.l. tSt α2 √s n f (1−f ) n S2 σ2 ′ → N(0; 1) → χ2n d.d.l. ′ x̄ ± tSt α2 √s n ′ ′ t α2 √s n → N(0, 1) qF −p n n 1X 2 x − x̄2 x ; variance s = i i=1 n i=1 i n 2 s variance empirique s′2 = n−1 2 I.C.(1−α) X̄−µ √ S′/ n µ connue p. 61 Variance σ 2 écart-type σ xi N 1 X 2 x − µ2 variance σ = N i=1 i 2 Marge d’erreur E X̄−µ √ σ/ n X̄−µ √ S′/ n i=1 Pn E : taille n; Table 4 PN t α 2 q x̄ ± t α2 √s n f (1−f ) n f ±t n d.d.l. k1 = χ2α 2 (n − 1) S ′2 σ2 2 k2 = χ21− α → χ2(n−1) d.d.l. n − 1 d.d.l. k1 = χ2α 2 k2 = χ21− α 2 µ inconnue n > 100 p. 63 n S ′2 σ2 → N(n, √ 2 Statistique de test X1 ∼ N(µ1 , σ1 ) X2 ∼ N(µ2 , σ2 ) p. 93 - 95 σ22 S1′2 σ12 S2′2 → F(n1 −1),(n2 −1) d.d.l. ′2 ′2 ′2 ′ t α2 √s2n ′2 s′2 ± t α2 s2n ′ s′ ± t α2 √s2n Intervalle de confiance du rapport de 2 variances Conditions f (1−f ) n (n − 1) sk2 ≤ σ 2 ≤ (n − 1) sk1 q q ′2 ′2 (n − 1) sk2 ≤ σ ≤ (n − 1) sk1 t α2 s2n 2n) q n ks2 ≤ σ 2 ≤ n ks1 q q 2 2 n ks2 ≤ σ ≤ n ks1 2 µ inconnue X ∼ N(µ, σ) p. 62 α 2 Table 5 Marge d’erreur E f1 = f1− α2 = F1− α2 ,n1 −1,n2 −1 = 1/F α2 ,n2 −1,n1 −1 = P (F (n1 − 1, n2 − 1) > f1 ) = 1 − α2 f2 = f α2 = F α2 ,n1 −1,n2 −1 P (F (n1 − 1, n2 − 1) > f2 ) = α2 ; I.C.(1−α) S ′2 f1 S2′2 ≤ 1 Conclusion : Si 1 ∈ I.C.(1−α)% , il n’y a pas de différence significative (avec un risque d’erreur de α%) entre les deux variances. On peut donc les supposer égales : σ12 ≈ σ22 . Lecture Notes in Computer Science and Technologies No 5, 2016 σ22 σ12 S ′2 ≤ f2 S2′2 1 88 Vera Angelova Intervalle de confiance de la différence de 2 moyennes Conditions Statistique de test 2 , σ 2 connues σX Y p. 68, 69 2 σX σY2 = = n = p ≤ 30, p. 80 σ2 → N(0; 1) t (X̄−Ȳ )−(µx −µy ) r → N(0; 1) t α2 ′2 S ′2 Sx + py n (X̄−Ȳ )−(µx −µy ) q 1 + p1 s′ n 2 = σ 2 = σ 2 inconnues σX Y n, p ≤ 30 p. 78, 79 S ′2 = S ′2 Echantillons appariés p. 84, 85 Z =X −Y Z ∼ N(µZ , σZ ) = Z̄−µ √z S′/ n S ′2 = → T(n+p−2) d.d.l. nSx2 +pSy2 α 2 q q σx2 n + σy2 p Sx′2 n + Sy′2 p tSt α2 s′ n+p−2 (X̄−Ȳ )−(µx −µy ) q 2 S′ n inconnues Marge d’erreur E (X̄−Ȳ )−(µx −µy ) r 2 σ2 σx + py n 2 , σ 2 inconnues σX Y n, p ≥ 30 p. 73, 74 Table 6 → T2(n−1) d.d.l. tSt α2 s′ n(Sx2 +Sy2 ) 2(n−1) → Tn−1 d.d.l. Pn 1 (n−1) i=1 Zi − Z̄ q 1 n + q (X̄ − Ȳ ) ± E (X̄ − Ȳ ) ± E 1 p (X̄ − Ȳ ) ± E 2 n (X̄ − Ȳ ) ± E ′ tSt α2 √s n 2 I.C.(1−α) Z̄ ± E Conclusion : Si 0 ∈ I.C(1−α) =⇒ les deux moyennes ne sont pas différentes ; Si 0 6∈ I.C(1−α) =⇒ les moyennes sont significativement différentes. Intervalle de confiance de la différence de 2 proportions Conditions n, p ≥ 30 p. 89 - 91 Statistique de test (F −F2 )−(p− p2 ) r 1 f1 (1−f1 ) f (1−f ) + 2 n 2 n 1 n1 , n2 ≥ 30 p1 = p2 = p p. 89 - 91 1 f= Marge d’erreur E → N(0; 1) t α2 2 (F −F2 )−(p1 −p2 ) r1   f (1−f ) n1 + n1 n1 f1 +n2 f2 n1 +n2 2 → N (0; 1) Table 7 t α 2 q r f1 (1−f1 ) n1 f (1 − f ) +  I.C.(1−α) f2 (1−f2 ) n2 1 n1 + 1 n2  (f1 − f2 ) ± E (f1 − f2 ) ± E Conclusion : Si 0 ∈ I.C(1−α) =⇒ les deux proportions ne sont pas différentes ; Si 0 6∈ I.C(1−α) =⇒ les proportions sont significativement différentes. Lecture Notes in Computer Science and Technologies No 5, 2016 Statistique inférentielle Tables statistiques Table de Loi Normale Fractiles de la Loi Normale Fractiles de la loi du χ2ν Table de la loi de Student Table de la loi de Fisher-Snedecor p = 0.05 Table de la loi de Fisher-Snedecor p = 0.025 Table de la loi de Fisher-Snedecor p = 0.01 Lecture Notes in Computer Science and Technologies No 5, 2016 89 90 Vera Angelova Table de la loi Normale Fonction de répartition Π de la loi normale centrée réduite : U → N(0, 1) Probabilité de trouver une valeur inférieure à u Π(u) = P (U ≤ u); Π(−u) = P (U ≤ −u) = 1 − Π(u) Exemple : Π(1.26) = P (U ≤ 1.26) = 0.89617 = 89.62% Lecture Notes in Computer Science and Technologies No 5, 2016 Statistique inférentielle Fractiles de la loi normale U → N(0, 1) Pour P < 0.5 (colonne de gauche et ligne supérieure). Les fractiles sont négatifs. Pour P > 0.5 (colonne de droite et ligne inférieure). Les fractiles sont positifs. Exemple : Π(u) = P (U ≤ u) = P = 0.6340 ⇒ u = 0.3425 ; Π(u) = P (U ≤ u) = P = 0.4020 ⇒ u = −0.2482 Lecture Notes in Computer Science and Technologies No 5, 2016 91 92 Vera Angelova Fractiles de la loi du χ2ν Pour S ∼ χ2ν à ν degrés de liberté le fractile χ2p d’ordre P est tel que : P (X ≤ χ2p ) = p La table donne les fractiles χ2p , en fonction de ν, pour certaines valeurs de P . Pour les valeurs de ν ne figurant pas dans la table, on pourra procéder par interpolation. Par exemple, pour ν = 10 et P = 0, 975, on lit χ2p = 20, 5 et pour P = 0, 025, on lit χ2p = 3, 25. Pour ν = 75 et P = 0, 975, on lit χ2p = 21 (95, 0 + 106, 6) = 100, 8. Lecture Notes in Computer Science and Technologies No 5, 2016 Statistique inférentielle Fractiles de la loi de χ2 Cette table donne les fractiles FP de la loi de khi-deux à ν degrés de liberté : P = P (χ2ν ≤ FP ) Exemple : ν = 10d.d.l. P = P (χ210 ≤ F√ ⇒ FP =√18.307 P ) = 0.95p 2 Approximation : Pour ν > 100d.l.l. χ (ν) ≈ N(ν; 2ν) ou 2χ2 − 2ν − 1 ≈ N(0, 1) Lecture Notes in Computer Science and Technologies No 5, 2016 93 94 Vera Angelova Table de la loi de Student Soit une v.a. T ayant une densité de Student à ν degrés de liberté. Le fractile tp d’ordre P est tel que : P (T ≤ tp ) = Z tp f (t)f (t)dt = P −∞ Pour les valeurs de P ≤ 0, 40 on a tp = −t1−p . Pour les valeurs de ν ne figurant pas dans la table, on pourra : - procéder par interpolation - utiliser l’approximation par la loi normale réduite (ν > 100). Par exemple, pour ν = 9 et P = 0, 975, on lit tp = 2, 262 et pour P = 0, 025, on déduit tp = −2, 262. Pour ν = 75 et P = 0, 975, on lit tp = 12 (1, 994 + 1, 990) = 1, 992. Lecture Notes in Computer Science and Technologies No 5, 2016 Statistique inférentielle Table de la loi de Student Cette table donne les fractiles de la loi de Student à ν degrés de liberté : valeur t ayant la probabilité α d’être dépassée en valeur absolue : P (|Tν | ≤ t) = P (−t ≤ Tν ≤ t) = 1 − α P (|Tν | > t) = 1 − P (|Tν | ≤ t) = α Exemple : ν = 10d.d.l. P = P (|T10 | ≤ t) = 0.95 ⇒ t = ±2.2281 P = P (T10 ≤ t) = 0.95 ⇒ t = +1.8125 Lecture Notes in Computer Science and Technologies No 5, 2016 95 96 Vera Angelova Table de la loi de Fisher-Snedecor Valeur f de la variable de Fisher-Snedecor F (ν1 ; ν2 ) ayant la probabilité 0.05 d’être dépassée ν1 : degrés de liberté du numérateur ν2 : degrés de liberté du dénominateur Exemple : ν1 = 5 d.d.l. et ν2 = 10 d.d.l. P = P (F5.10 ≤ f ) = 0.95 ⇒ f = 3.33 Lecture Notes in Computer Science and Technologies No 5, 2016 Statistique inférentielle Table de la loi de Fisher-Snedecor Valeur f de la variable de Fisher-Snedecor F (ν1 ; ν2 ) ayant la probabilité 0.025 d’être dépassée ν1 : degrés de liberté du numérateur ν2 : degrés de liberté du dénominateur Exemples : ν1 = 5 d.d.l. et ν2 = 10 d.d.l. P = P (F97,5%;5.10 ≤ f ′ ) = 0.025 P (F97.5%;10.5 ≤ f ) = 0.975 ⇒ f = 6.62 ⇒ f ′ = 1/f = 1/6.62 = 0.151 Lecture Notes in Computer Science and Technologies No 5, 2016 97 98 Vera Angelova Table de la loi de Fisher-Snedecor Valeur f de la variable de Fisher-Snedecor F (ν1 ; ν2 ) ayant la probabilité 0.01 d’être dépassée ν1 : degrés de liberté du numérateur ν2 : degrés de liberté du dénominateur Exemple : ν1 = 5 d.d.l. et ν2 = 10 d.d.l. P = P (F5.10 ≤ f ) = 0.95 ⇒ f = 2.64 Lecture Notes in Computer Science and Technologies No 5, 2016 Statistique inférentielle Feuilles Feuille 1 : Échantillonnage Feuille 2 : Estimation Feuille 3 : Les tests d’hypothèse Feuille 4 : Préparation pour les contrôles Lecture Notes in Computer Science and Technologies No 5, 2016 99 100 Vera Angelova Feuille 1 : Échantillonnage Exercices 1. [7] On suppose que les poids de 3000 étudiants d’une université suivent une loi normale de moyenne 68,0 kilogrammes et d’écart-type 3,0 kilogrammes. Si l’on extrait un échantillon de 25 étudiants, quelle est la moyenne et l’écart-type théoriques de la distribution d’échantillonnage des moyennes pour a) un échantillonnage non exhaustif, b) un échantillonnage exhaustif, c) un échantillonnage exhaustif, dont la taille de l’échantillon est n = 300 ? 2. Le magazine Barron’s a rapporté que le nombre moyen de semaines passées au chômage par un individu est égale à 17,5. Supposez que pour la population de tous les chômeurs, la durée moyenne de chômage de la population soit de 17,5 semaines et que l’écart-type de la population soit de 4 semaines. Supposez que vous vouliez sélectionner un échantillon aléatoire de 50 chômeurs pour effectuer une étude. a) Représenter la distribution d’échantillonnage de x̄, la moyenne d’échantillon pour un échantillon de 50 chômeurs. b) Quelle est la probabilité qu’un échantillon aléatoire simple de 50 chômeurs fournisse une moyenne d’échantillon qui s’écarte au plus de ±1 semaine de la moyenne de la population ? c) Quelle est la probabilité qu’un échantillon aléatoire simple de 50 chômeurs fournisse une moyenne d’échantillon qui s’écarte de ±1/2 semaine de la moyenne de la population ? 3. Pour estimer l’age moyen d’une population de 4000 employés, un échantillon aléatoire simple de 40 employés est sélectionné. a) Utilisez-vous le facteur de correction pour population finie pour calculer l’écart-type de la moyenne de l’échantillon ? Expliquer. b) Si l’écart-type de la population est σ = 8, 2 ans, calculer l’écart-type de la moyenne de l’échantillon avec et sans le facteur de correction pour population finie. Quel est le raisonnement pour expliquer l’abandon du facteur de correction pour population finie lorsque n/N ≤ 0, 05 ? c) Quelle est la probabilité que l’age moyen des employés de l’échantillon s’écarte au plus de ±2 ans de l’age moyen de la population ? 4. Les producteurs de biens d’épicerie américains ont indiqué que 76% des consommateurs lisent les étiquettes indiquant la composition des produits. Supposez que la proportion de la population soit p = 0, 76 est qu’un échantillon de 400 consommateurs soit issu de cette population. a) Déterminer la distribution d’échantillonnage de la proportion d’échantillon f correspondant à la proportion des consommateurs de l’échantillon qui lisent l’étiquette de composition des produits. b) Quelle est la probabilité que la proportion d’échantillon s’écarte d’au plus ±0, 03 de proportion de la population ? c) Répondre à la question (b) pour un échantillon de 750 clients. 5. [7] Cinq cents pignons ont un poids moyen de 502 grammes et un écart-type de 0,3 grammes. Trouver la probabilité pour qu’un échantillon de 100 pignons choisis au hasard ait un poids total a) compris entre 469 et 500 grammes b) plus grand que 510 grammes. Lecture Notes in Computer Science and Technologies No 5, 2016 Statistique inférentielle 101 6. [7] A et B jouent tous deux à pile ou face en jetant chacun 50 pièces de monnaie. A gagne au jeu s’il réussit à avoir 5 faces ou davantage de plus que B, sinon c’est B qui gagne. Déterminer la probabilité pour que A ne gagne pas lors d’un jeu particulier. 7. [7] Les ampoules électriques d’un fabricant A ont une durée de vie moyenne de 1400 heures avec un écart-type de 200 heures, et celle d’un fabricant B ont une durée de vie moyenne de 1200 heures avec un écart-type de 100 heures. Si l’on teste des échantillons de 125 ampoules pour chaque marque, quelle est la probabilité pour que la marque d’ampoules A ait une durée de vie moyenne qui soit au moins supérieure de a) 16 heures b) 250 heures à celle de la marque d’ampoules B ? Lecture Notes in Computer Science and Technologies No 5, 2016 102 Vera Angelova Feuille 2 : Estimation Exemple 2.1.1 Supposons qu’une entreprise compte 200 employés et que l’échantillon de 50 employés a été prélevé au hasard parmi les deux cents. Cat. salariale/mois Moins de 2 M.Euros [2 − 4[ 4 M.Euros et plus Total Nombre de salariés 18 20 12 50 1. Donner une estimation de la proportion de l’ensemble des employés dont le salaire mensuel est de 2 M.Euros et plus. 2. Quel est le taux de sondage ? 3. Déterminer la probabilité qu’au moins 30 employés de cet échantillon possèdent un salaire mensuel de 2 M.Euros et plus lorsque la population échantillonnée en contient 64%. Exemple 2.1.2 [8] Les prix d’un article en 5 différents marchés d’une région donnée sont : i xi 1 75 2 82 3 83 4 78 5 80 Calculer les estimations ponctuelles de la moyenne et de l’écart-type. Exemple 2.1.3 La table de distributions des salaires en e de 100 employés d’une entreprise est donnée ci-dessous : Classe 400 500 600 700 800 , , , , , 500 600 700 800 900 Centre de la classe x∗i 450 550 650 750 850 Effectif ni 11 30 39 18 2 Calculer les estimations ponctuelles de la moyenne et de l’écart-type. Exemple 2.2.1 [2] 1. Soit X la v.a. ≪durée de vie du tube cathodique d’une marque de T.V.≫. On ne connaı̂t pas la moyenne des durées de vie des tubes bien que l’on sache qu’elles sont distribuées normalement. L’écart-type de la distribution des durées de vie σ = 450. Dans un échantillon de 55 tubes on a calculé que la durée de vie moyenne était de 9 500 heures. Déterminer l’intervalle de confiance à 90 % de la durée de vie moyenne de la population des tubes. 2. Reprenons le même exemple, mais cette fois l’échantillon est de taille n = 25. Déterminons l’intervalle de confiance à 99 % de la durée de vie moyenne des tubes, sachant que x̄ = 9500 heures. 3. Supposons que la population soit distribuée normalement, mais que σ ne soit pas connu. A partir d’un échantillon de taille n = 60, nous avons x̄ = 9450 et s = 446.234. Estimons à l’aide d’un intervalle de confiance à 95 % la moyenne de la population. 4. Supposons que la distribution soit normale, que σ ne soit pas connu, et que l’écart type s d’un échantillon de taille n = 25 soit égal à 440,908, x̄ étant égal à 9 500. Déterminons l’intervalle de confiance à 99 % et comparons le à celui de l’exemple 2. Lecture Notes in Computer Science and Technologies No 5, 2016 Statistique inférentielle 103 Exemple 2.2.2 [2] Les responsables d’une étude de marché ont choisi au hasard 500 femmes dans une grande ville et ont constaté que 35 % des femmes retenues dans l’échantillon préfèrent utiliser une marque de lessive A plutôt que les autres. Ils veulent déterminer l’intervalle de confiance à 95 % de la proportion des femmes de cette ville qui préfèrent la marque de lessive A. Exemple 2.2.3 Les responsables d’une étude de marché ont choisi au hasard 500 femmes dans une grande ville et ont constaté que 35 % des femmes retenues dans l’échantillon préfèrent utiliser une marque de lessive A plutôt que les autres. Supposons qu’avant de tirer l’échantillon, les responsables de l’étude aient décidé d’estimer la proportion p à ±2% près. Quelle devrait être dans ce cas la taille minimale de l’échantillon à tirer, en désirant toujours avoir un intervalle de confiance à 95 % et en considérant que f = 0.35. Exemple 2.2.4 On suppose que le chiffre d’affaires mensuel d’une entreprise suit une loi normale de moyenne inconnue µ mais dont l’écart-type s a été estimé à 52 K.Euros. Sur les 16 derniers mois, la moyenne des chiffres d’affaires mensuels a été de 250 K.Euros. 1 Donner une estimation ponctuelle de l’écart-type σ du chiffre d’affaires mensuel cette entreprise. 2 Établir un intervalle de confiance de niveau 95% de σ. Exemple 2.3.1 Le temps mis par une machine pour fabriquer une pièce est supposé suivre une loi normale de paramètres µ et σ 2 . Dans un atelier, deux machines A et B fabriquent la même pièce. Pour un échantillon de 9 pièces fabriquées, on a obtenu les résultats suivants : Nombre de pièces fabriquées Temps moyen observé (mn) Variances des populations Machine A 9 50 25 Machine B 9 45 36 1. Déterminer un intervalle de confiance, de niveau (1 − α) = 95%, de la différence des temps moyens des deux machines µa − µb . 2. Question : La machine A est-elle aussi performante que la machine B ? Exemple 2.3.2 On fait subir à des cadres intermédiaires de deux grandes entreprises (une œuvrant dans la fabrication d’équipement de transport et l’autre dans la fabrication de produits électriques) un test d’appréciation et d’évaluation. La compilation des résultats pour chaque groupe à l’issue de cette évaluation s’établit comme suit : Nombre de cadres Appréciation globale moyenne Somme des Carrés des Écarts /SCDE/ 1 Équipement 34 184 15774 2 Produits Électriques 32 178 9858 1. Déterminer un intervalle de confiance qui a 95 chances sur 100 de contenir la valeur vraie de la différence des moyennes (µ1 − µ2 ) des deux groupes de cadres. 2. Question : Selon cet intervalle, que peut-on conclure quant à la performance des cadres de ces deux secteurs au test d’évaluation ? Est-ce qu’en moyenne, la performance est vraisemblablement identique ou semble-t-il une différence significative entre ces deux groupes ? Exemple 2.3.3 Un laboratoire indépendant a effectué, pour le compte d’une revue sur la protection du consommateur, un essai de durée de vie sur un type d’ampoules électriques d’usage courant (60 Watts , 120 Volts) fabriquées par deux entreprises concurrentielles, dans le secteur Lecture Notes in Computer Science and Technologies No 5, 2016 104 Vera Angelova de produits d’éclairage. Les essais effectués dans les mêmes conditions, sur un échantillon de 21 lampes provenant de chaque fabricant, donnent les résultats suivants : La durée de vie d’une ampoule est supposée normalement distribuée.(les variances des populations sont supposées égales). Nombre d’essais Durée de vie moyenne observée (h) Somme des Carrés des Écarts Fabricant 1 21 1025 2400 Fabricant 2 21 1070 2800 1. Déterminer un intervalle de confiance de niveau 95% de la différence des durées de vie moyennes des ampoules de ces deux fabricants. 2. Question : Est-ce que la revue peut affirmer, qu’en moyenne, les durées de vie des ampoules des deux fabricants sont identiques (ou différentes) ? En d’autres termes, est-ce que la différence observée lors des essais est significative ? Exemple 2.3.4 On mesure 12 pièces avec des méthodes différentes. On a obtenu les résultats suivants : x̄ = 1; ȳ = 2 : 08; SCEx = 106.16; SCEy = 118.19 et SCEx−y = 14.58. Déterminer un intervalle de confiance de niveau 95% de la différence des deux méthodes de mesures. Exemple 2.3.5 Dans deux municipalités avoisinantes, on a effectué un sondage pour connaı̂tre l’opinion des contribuables sur un projet d’aménagement d’un site. Les résultats de l’enquête se résument comme suit : Nombre de personnes interrogées En faveur du projet Municipalité 1 250 110 Municipalité 2 250 118 1. Quelle est l’estimation ponctuelle de la différence de proportions des contribuables de chaque municipalité favorisant l’aménagement du site ? 2. Déterminer l’intervalle de confiance de niveau (1 − α) = 95% de contenir la valeur vraie de la différence des proportions, (p1 − p2 ) ? 3. Question : Avec l’intervalle calculé en 2), est-ce que l’on rejetterait, au seuil de signification α = 5%, l’hypothèse selon laquelle les contribuables des deux municipalités favorisent dans la même proportion l’aménagement du site sur leur territoire ? Exemple 2.3.6 Reprenons l’exemple de la durée de vie moyenne de 2 types d’ampoules électriques d’usage courant (60 Watts , 120 Volts) fabriquées par deux entreprises concurrentielles, dans le secteur de produits d’éclairage. Les essais effectués dans les mêmes conditions, sur un échantillon de 21 lampes provenant de chaque fabricant, donnent les résultats suivants : La durée de vie d’une ampoule est supposée normalement distribuée. On ne dispose d’aucune information sur les variances des deux populations. Nombre d’essais Durée de vie moyenne observée (h) Somme des Carrés des Écarts Fabricant 1 21 1025 2400 Fabricant 2 21 1070 2800 1. Déterminer un intervalle de confiance de niveau 95% du rapport des variances des populations d’ampoules de ces deux fabricants. Lecture Notes in Computer Science and Technologies No 5, 2016 Statistique inférentielle 105 2. Question : Peut-on considérer l’égalité des variances σ22 = σ12 ? Estimation ponctuelle Exercices 8. [1] Dans une ville comportant 20 000 salariés, un institut fait un sondage portant sur 100 salariés et trouve comme moyenne des salaires mensuels 7 100 e avec un écart-type de 700 e. Cet institut désire estimer la moyenne et l’écart-type de l’ensemble des salariés. 9. [1] Pour connaitre le nombre de garages qu’il fallait construire dans un immeuble en 1968 afin que les locataires puissent y garer leurs voitures, une enquête avait été faite : sur 100 ménages consultés, 40 avaient une voiture (on suppose, pour simplifier, une seule voiture par ménage). a) Estimer la proportion p de manages qui avaient une voiture. On donnera une estimation ponctuelle puis une estimation par intervalle de confiance (à 95 %). b) On prévoyait que 10 ans plus tard, le nombre de voitures par ménage serait de 0,6. Un ensemble de 600 appartements devrait être édifié. Quel nombre minimum de garages fallait-il construire pour être assuré avec une probabilité de 0,95 que tous les locataires puissent y ranger leurs voitures. 10. [7] On a effectué cinq mesures du diamètre d’une sphère qui ont respectivement donné 6,33 ; 6,37 ; 6,36 ; 6,32 et 6,37 cm. Déterminer des estimateurs sans biais et efficaces a) de la moyenne vraie, b) de la variance vraie. Rep. µ̂ = 6.35 cm ; σ̂ 2 = 0.00055 cm2 11. [7] Supposons que les poids de 100 étudiants de l’université X représentent un échantillon aléatoire des poids des étudiants de cette université de moyenne x̄ = 67.45 kg et variance s2 = 8.5275. Déterminer des estimateurs non biaisés et efficaces a) de la moyenne vraie, b) de la variance vraie. Rep. µ̂ = 67.45 kg ; σ̂ 2 = 8.6136 12. [7] Donner un estimateur sans biais et inefficace de la moyenne du diamètre de la sphère de l’exercice 10. Rep. µ̂ = me = 6.36 Intervalle de confiance de la moyenne d’une population 13. [7] Déterminer un intervalle de confiance a) à 95 %, b) à 99 % pour estimer le poids moyen des étudiants de l’université X de l’exercice 11. Rep. I.C.0.95 = [66.88, 68.02], I.C.0.99 = [66, 69, 68, 21] 14. [3] Une firme a 2342 employés. Pour faire une évaluation rapide du nombre total a des enfants de tous ces employés, on fait un sondage au cours duquel on interroge 150 employés et on obtient les résultats suivants, en notant ni le nombre des employés interrogés ayant xi = i, i = 0, 1, 2, . . . enfants : xi 0 1 2 3 ni 78 48 19 5 a) Donner un estimation de a. b) Donner pour a un intervalle de confiance de seuil 0,05. Rep. a ≈ 1577 ; I.C.95% (a) = [1267 : 1884] Lecture Notes in Computer Science and Technologies No 5, 2016 106 Vera Angelova 15. [3] Une ville a 15 020 logements. Un sondage effectué sur 40 logements choisis au hasard a donné les nombres suivants d’habitants par logement : 4-3-3-3-2-3-3-6-5-4-4-5-3-4-7-2-3-4-2-3 4-2-4-3-4-2-1-3-3-4-3-3-6-2-5-4-3-2-1-4 Estimer le nombre total des habitant de la ville et donner un intervalle de confiance de seuil 0,05. Rep. ≈ 54159 habitants ; I.C.95% (nmbr habitants) = [47603 : 60690] 16. [7] Les mesures des diamètres de 200 roues dentées issues d’un échantillon aléatoire, fabriquées pendant une journée par une certaine machine, ont montré que la moyenne du diamètre était 0,854 cm et l’écart-type 0,042 cm. Déterminer les limites de confiance a) à 95 % b) à 99 % du diamètre moyen de toutes les roues dentées. 17. [7] En mesurant un temps de réaction, un psychologue estime que l’écart-type est de 0,05 seconde. Quelle doit être la taille de son échantillon de mesures pour que l’erreur de son estimation n’excède pas 0,01 seconde a) à 95 % b) à 99 % ? Intervalle de confiance de la fréquence d’une population 18. [7] Un échantillon de 100 votants choisis au hasard parmi tous les votants d’une circonscription donnée a montré que 55 % d’entre eux étaient favorables à un certain candidat. Déterminer les limites de confiance a) à 95% b) à 99% c)à 99.73 % de la proportion de tous les votants favorables à ce candidat. 19. [7] De quelle taille doit être l’échantillon de votants de l’exercice 18 si l’on veut être sur a) à 95% b) à 99.73 % que le candidat sera élu ? 20. [7] En jetant 40 fois une pièce, on obtient 24 fois face. Déterminer les limites de confiance a) à 95% b) à 99,73 % de la fréquence des faces que l’on aurait obtenue pour un nombre de jets illimité. 21. [2] Le directeur financier d’une société sait par expérience que 12 % des factures émises ne sont pas réglées dans les 10 jours ouvrables suivant l’échéance. Le chiffre d’affaires s’étant accru sensiblement, il veut vérifier si la situation a évolué. Il fait prélever un échantillon aléatoire de 500 factures à partir duquel il constate que 14 % des factures ne sont pas réglées dans les délais. Déterminer l’intervalle de confiance à 95 % et commenter ce résultat sachant que l’ensemble des factures pouvant être étudiées est de plusieurs dizaines de milliers. Intervalle de confiance d’un écart-type 22. [7] On a calculé que l’écart-type des durées de vie d’un échantillon de 200 ampoules électriques valait 100 heures. a) Déterminer les limites de confiance à 95 % de l’écart-type de l’ensemble des ampoules de ce type. Lecture Notes in Computer Science and Technologies No 5, 2016 Statistique inférentielle 107 b) Déterminer les limites de confiance à 95 % de l’écart-type de l’ensemble des ampoules de ce type à la base d’un échantillon de 25 ampoules dont l’écart-type vaut 110 heures. 23. [7] L’écart-type de la résistance de rupture de 100 câbles testés par une usine est de 180 kg. Calculer les limites de confiance à 99 % de l’écart-type de tous les câbles fabriqués par l’usine. Intervalle de confiance de différence 24. [7] Un échantillon de 150 lampes de qualité A a donné une durée de vie moyenne de 1400 heures et un écart-type de 120 heures. Un échantillon de 200 lampes de qualité B a donné une durée de vie moyenne de 1200 heures et un écart-type de 80 heures. Déterminer les limites de confiance a) à 95 % b) à 99 % de la différence des durées de vie moyenne des variétés A et B. c) Est-ce-que les deux variétés possèdent les mêmes performances ? 25. [7] Sur un échantillon de 400 adultes et de 600 adolescents ayant regardé un certain programme de télévision, 100 adultes et 300 adolescents l’ont apprécié. Calculer les limites de confiance à 95 % de la différence des fréquences des adultes et des adolescents qui ont regardé et apprécié le programme. 26. [7] Un échantillon de 200 pièces fabriquées par une machine a donné 15 pièces défectueuses tandis qu’un échantillon de 100 autres pièces prélevé dans la production d’une autre machine a donné 12 pièces défectueuses. a) Calculer les limites de confiance à 95 % de la différence des fréquences des pièces défectueuses sur les deux machines. b) Les deux machines sont-elles de performances égales ? 27. [7] On administre des somnifères sous forme de piles à deux groupes de malades, A et B, comprenant respectivement 50 et 100 individus. On a donné au groupe A des piles d’un type nouveau et au groupe B des piles classiques. Les patients du groupe A ont dormi 7,82 heures en moyenne, ceux du groupe B 6,75 heures. a) L’écart-type étant pour le groupe A 0,24 heures, pour le groupe B 0,30 heures, calculer les limites de confiance à 95 % pour la différence des moyennes d’heures de sommeil provoquées par les deux types de somnifères. b) L’écart-type étant estimé pour le groupe A 0,20 heures, pour le groupe B 0,28 heures, calculer les limites de confiance à 99 % pour la différence des moyennes d’heures de sommeil provoquées par les deux types de somnifères. c) Soit le groupe A composé de 10 individus et le groupe B de 15 individus, dont le sommeil moyen des individus du groupe A fut 7,55 heures, celui du groupe B fut 6,65 heures avec un écart-type observé de 0,22 heures et 0,28 heures respectivement. Calculer l’intervalle de confiance de la différence à 90 % des moyennes d’heures de sommeil. d) On dispose seulement d’un groupe de 51 individus pour le test de l’efficacité des deux types de somnifères. On a donné une semaine des piles du type nouveau et les patients ont dormi x̄ = 7.55 heures en moyenne. Après deux semaines de repos, on a administré les piles du type classique et cette fois-ci les patients ont dormi ȳ = 6, 28 heures en moyenne. La somme des carrés des écarts est SCEx−y = 12.25 heurs. Déterminer un intervalle de confiance à 99 % de la différence des moyennes de sommeil en résultats des deux somnifères. Indications et résultats : Lecture Notes in Computer Science and Technologies No 5, 2016 108 Vera Angelova a) A : nA = 50; x̄A = 7, , 82 h. ; σA = 0, 24 h. B : nB = 100; x̄B = 6, 75 h. ; σB = 0, 30 h. σA2 , σB2 connues I.C.95% (µA − µB ) =? Statistique de test : Marge d’erreur : Table 6 (X̄A − X̄B ) − (µA − µB ) q 2 → N(0, 1) 2 σA σB + nB n s A σ2 σA2 E = t α2 + B ; α = 0, 05; 1 − α = 0, 95; t α2 = 1, 96 nA nB r 0, 242 0, 32 + = 0, 0088786 50 100 µ̂A − µ̂B = x̄A − x̄B = 7, 82 − 6, 75 = 1, 07 h. I.C.0.95 (µA − µB ) = (x̄A − x̄B ) ± E = 1, 07 ± 0, 09 I.C.0.95 (µA − µB ) = [0, 98 1, 16] E = 1, 96 Comme 0 6∈ I.C.0.95 (µA − µB ) = [0, 98 1, 16] =⇒ les heures moyennes de sommeil sont significativement différentes. Les deux types de somnifères influencent de façons différentes les patients. b) A : nA = 50; x̄A = 7, 82; sA = 0, 20 h. B : nB = 100; x̄B = 6, 75; sB = 0, 28 h. σA , σB inconnus ; I.C.0,99 (µA − µB ) =?, nA , nB > 30 Statistique de test : Fractile t α2 : Marge d’erreur : Table 6 (X̄A − X̄B ) − (µA − µB ) q ′ → N(0, 1) ′ sB2 sA2 + nB nA α = 0, 005; 1 − α/2 = 0, 995; t α2 = 2, 576 α = 0, 01; 2 s s E = t α2 s2 sA2 + B = t α2 nA nB ′ ′ s2B s2A + nA − 1 nB − 1 r 0, 202 0, 282 + = 0, 103 49 99 µ̂A − µ̂B = x̄A − x̄B = 7, 82 − 6, 75 = 1, 07 h. I.C.0,99 (µA − µB ) = (x̄A − x̄B ) ± E = 1, 07 ± 0, 103 I.C.0,99 (µA − µB ) = [0, 967 1, 173] E = 2, 576 Comme 0 6∈ I.C.0,99 (µA − µB ) = [0, 967 1, 173] =⇒ les heures moyennes de sommeil sont significativement différentes. Les deux types de somnifères influencent de façons différentes les patients. c) A : nA = 10; x̄A = 7, 55 h. ; sA = 0, 22 h. B : nB = 15; x̄B = 6, 65 h. ; sB = 0, 28 h. σA2 , σB2 inconnues nA < 30, nB < 30 I.C.95% (µA − µB ) =? Table 6 Lecture Notes in Computer Science and Technologies No 5, 2016 Statistique inférentielle 109 σA = σB = σ? Table 5 ′ σB2 sA2 → F(nA −1),(nB −1) d.d.l. ′ σA2 sB2 Statistique de test : nA −1 Fractiles : 9 fSup = F nB −1 = F 14 = 2, 65 Table de la loi de Fisher-Snedecor p = 0.05 (risque global de 0,1) 1 1 = 0, 33 fInf = 14 = 3, 03 F9 ′ s2 Marges d’erreur : fSup B = ′ sA2 ′ sB2 fInf ′ 2 = sA  2 σA I.C.0.90 = σB2  2 σ Comme 1 ∈ I.C.0.90 σA2 = [0.515 0, 282 × 15 × 9 = 2, 65 × 1, 56 = 4, 14 0, 222 × 14 × 10 0, 282 × 15 × 9 = 0, 33 × 1, 56 = 0, 515 0, 33 0, 222 × 14 × 10 2, 65 [0.515 4, 14] B 4, 14] =⇒ σA ≈ σB σA2 , σB2 inconnues et supposée égales σA = σB nA < 30, nB < 30 I.C.95% (µ1 − µ2 ) =? (Table 6, p. 76) Statistique de test : (X̄A − X̄B ) − (µA − µB ) q → T(nA +nB −2)d.d.l. s′ 2 n1A + n1B 10 × 0, 222 + 15 × 0, 282 nA s2A + nB s2B = = 0, 072 na + nB − 2 10 + 15 − 2 t0,1;(10+15−2) = t0,1; (23) = 1, 7139 Fractile tSt α2 : r r 1 1 1 1 ′ Marge d’erreur : E = tSt α2 s + = 1, 7139 × 0, 072 + = 1, 74 na nB 10 15 I.C.0,90 (µA − µB ) = (x̄A − x̄B ) ± E = 0, 9 ± 1, 74 I.C.0,90 (µA − µB ) = [−0, 84 2, 64] ′ s2 = Comme 0 ∈ I.C.0,90 (µA − µB ) = [−0, 84 2, 64] =⇒ µA ≈ µB d) échantillons appariés n = 51 ; x̄A = 7, 55 ; x̄B = 6, 28 ; SCEXA −XB = 12, 25 6 I.C.99% (µA − µB ) =? Table Z = XA − XB ; Z̄ = X̄A − X̄B = 7, 55 − 6, 28 = 1, 27h. r r SCE 12, 25 p = = 0, 24 = 0, 49h. S′ = n 51 Statistique de test : Feractile tSt α2 : Marge d’erreur : (Z̄ − µZ ) √ → T(n−1)d.d.l. s′ n tSt α2 = t[0,01;50] = 2, 6778 r s′ SCE E = tSt α2 √ = 2, 6778 n n r 12, 25 = 2, 6778 = 2, 6778 × 0, 49 = 1, 31 51 Lecture Notes in Computer Science and Technologies No 5, 2016 110 Vera Angelova I.C.0,99 (µA − µB ) = z̄ ± E = 0, 9 ± 1, 74 I.C.0,99 (µA − µB ) = [1, 27 − 1, 31 1, 27 + 1, 31] = [−0, 04 2, 58] Comme 0 ∈ I.C.0,99 (µA − µB ) = [−0, 04 2, 58] =⇒ µA ≈ µB . La différence des deux moyennes n’est pas significative. Elle est due aux fluctuations d’échantillonnage. Lecture Notes in Computer Science and Technologies No 5, 2016 Statistique inférentielle 111 Feuille 3 : Les tests d’hypothèse Exemple 3.3.1 Un procédé de remplissage est ajusté de telle sorte que les contenants pèsent en moyenne 400g. Le poids des contenants est supposé normalement distribué avec un écarttype de 8g. Pour vérifier si le procédé de remplissage se maintient à 400g, en moyenne, on opte pour la règle décision suivante sur un échantillon prélevé de 16 contenants : Le processus opère correctement si : 396.08 g ≤ X̄ ≤ 403.92 g Sinon arrêter le processus de remplissage. a) Quelles sont les hypothèses statistiques que l’on veut tester avec cette méthode de contrôle ? b) Déterminer la probabilité de commettre une erreur de première espèce. c) Lors d’un récent contrôle, on a obtenu, pour un échantillon de 16 contenants, un poids moyen de 395g. Doit-on poursuivre ou arrêter la production ? d) Quelle est la probabilité de commettre une erreur de deuxième espèce selon l’hypothèse alternative H1 : µ = 394g ? e) Avec ce plan de contrôle, quelle est la probabilité de rejeter l’hypothèse selon laquelle le procédé opère à 400g, alors qu’en réalité il opère à 394g ? f) Faire de même pour les valeurs suivantes sous H1 : µ = 395g, 396g, 397g, 398g, 399g et 400g. Tracer la courbe d’efficacité du test. Exemple 3.3.2 Une entreprise fournit à un client des tiges d’acier. Le client exige que les tiges aient en moyenne, une longueur de 29 mm. On admet que la longueur des tiges est normalement distribuée. On veut vérifier si le procédé de fabrication opère bien à 29 mm. Un échantillon aléatoire de 12 tiges provenant de la fabrication donne une longueur moyenne de 27.25 mm et un écart-type empirique de 2.97 mm. Doit-on conclure, au seuil α = 5%, que la machine est déréglée ? 1. Hypothèses statistiques : 2. Seuil de signification : 3. Statistique de test : 4. Calcul de la statistique de test sous l’hypothèse nulle H0 : 5. Règle de décision : Exemple 3.3.3 Aux dernières élections, un parti politique a obtenu 42% des suffrages. Un récent sondage a révélé que, sur 1041 personnes interrogées en âge de voter, 458 accorderaient son appui à ce parti. Le secrétaire général du parti a déclaré que la popularité de son parti est en hausse. Que penser de cette affirmation au seuil de signification α = 5% ? 1. Hypothèses statistiques : 2. Seuil de signification : 3. Conditions d’application du test : 4. Statistique de test : 5. Calcul de la statistique de test sous l’hypothèse nulle H0 : 6. Règle de décision : 7. Décision et conclusion : Exemple 3.3.4 Le responsable de la production suggère au client des tiges d’acier avec un nouvel alliage. Il semble que ceci permettrait d’obtenir une résistance à la rupture plus élevée. Les résultats d’un test de résistance à la rupture de 50 tiges avec et sans le nouvel alliage se résument comme suit. Nombre de tiges Résistance moyenne Variance empirique Sans le nouvel alliage 50 600.50 148.50 Avec le nouvel alliage 50 605.00 137.61 Au seuil de signification α = 5%, est-ce que l’hypothèse selon laquelle la résistance moyenne à Lecture Notes in Computer Science and Technologies No 5, 2016 112 Vera Angelova la 1. 2. 3. 4. 5. 6. 7. rupture sans l’alliage est moins élevée que celle avec l’alliage est confirmée ? Hypothèses statistiques : Seuil de signification : Conditions d’application du test : Statistique de test : Calcul de la statistique de test sous l’hypothèse nulle H0 : Règle de décision : Décision et conclusion : Exemple 3.4.1 Pour sa fabrication, un industriel utilise des pièces de deux constructeurs différents. Après six mois d’utilisation, il constate que sur les 80 pièces du constructeur 1, 50 ne sont jamais tombées en panne, alors que pour le constructeur 2 la proportion est de 40 sur 60. Au seuil de signification α = 5%, peut-on considérer que les proportions de pièces de ces deux constructeurs sont équivalentes ? 1. Hypothèses statistiques : 2. Seuil de signification : 3. Conditions d’application du test : 4. Statistique de test : 5. Calcul de la statistique de test sous l’hypothèse nulle H0 : 6. Règle de décision : 7. Décision et conclusion : Exemple 3.5.1 Test d’indépendance : taux de guérison et coût du médicament. Pour comparer l’efficacité de 2 médicaments comparables, mais de prix très différents, la Sécurité sociale a effectué une enquête sur les guérisons obtenues avec ces deux traitements. Les résultats sont présentés dans le tableau suivant : Original Générique Total Guérisons 156 44 200 Non-guérisons 44 6 50 Total 200 50 250 Tableau aux effectifs observés nij Au seuil de signification α = 5%, peut-on conclure que ces deux médicaments ont la même efficacité ? 1. Hypothèses statistiques : 2. Seuil de signification : 3. Conditions d’application du test : 4. Degré de liberté : 5. Statistique de test : 6. Calcul de la statistique du χ2calculé sous l’hypothèse nulle H0 : 7. Règle de décision et conclusion : Tests paramétriques Exercices 28. [7] Le fabricant d’un médicament breveté affirmait qu’il était efficace à 90 % pour guérir une allergie en 8 heures. Dans un échantillon de 200 personnes atteintes par cette allergie, on en a gueri 160 par le médicament. Déterminer si l’affirmation du fabricant est légitime. 29. [7] La durée de vie moyenne d’un échantillon de 100 ampoules fluorescentes fabriquées par une usine est estimee à 1750 heures avec un écart-type de 120 heures. Si µ est la durée Lecture Notes in Computer Science and Technologies No 5, 2016 Statistique inférentielle 113 de vie moyenne de toutes les ampoules produites par l’usine, a) tester l’hypothèse µ = 1600 heures avec l’hypothèse µ 6= 1600 heures en choisissant un niveau de signification de 0.05. b) tester l’hypothèse µ = 1600 heures avec l’hypothèse µ 6= 1600 heures en choisissant un niveau de signification de 0.01 si l’échantillon est composé de 20 ampoules c) tester l’hypothèse H0 : µ = 1600 heures contre l’hypothèse H1 : µ < 1600 heures, en choisissant un seuil de signification de 0.05 et si l’échantillon est composé de 100 ampoules d) tester l’hypothèse H0 : µ = 1600 heures contre l’hypothèse H1 : µ > 1600 heures, en choisissant un seuil de signification de 0.01 et si l’échantillon est composé de 20 ampoules 30. [7] Une machine a produit dans le passé des rondelles ayant une épaisseur de 0.05 cm. Pour déterminer si la machine est encore en état de marche, on choisit un échantillon de 10 rondelles dont les épaisseurs ont une moyenne de 0.053 cm et un écart-type de 0.003 cm. Tester l’hypothèse qui affirme que la machine est en état de marche au seuil de signification de a) 0.05 b) 0.01 31. [7] L’écart-type de la charge d’une balance correspondant à des colis de 40.0 kilogrammes a été dans le passé de 0.25 kg. Un échantillon de 20 colis tiré au hasard indique un écarttype de 0.32 kg. L’accroissement apparent de la variabilité est-il significatif aux seuils de signification a) de 0.05 b) de 0.01 ? Test unilatéral à gauche 32. Un ciment est fabriqué pour présenter une résistance de 30 MPa (valeur de design). On √ suppose que la distribution de la résistance du ciment est X ∼ N(30, 20). Un échantillon de 5 éprouvettes a fourni les valeurs suivantes : 30.1, 29.5, 29.6, 28.4, 28.9. a) Peu-t-on rejeter l’hypothèse avec α = 0, 05 que le ciment dans son ensemble a une résistance de 30 MPa sur la seule foi de ces 5 échantillons ? b) La même question si l’échantillon contenait 20 observations au lieu de 5, toujours présentant la même moyenne. b) Peu-t-on rejeter l’hypothèse que le ciment dans son ensemble a une résistance de 30 MPa sur le 5-échantillon avec α = 0.05 en supposant que la variance de la résistance du ciment est inconnue : X ∼ N(30, σ) ? Test unilatéral à droite 33. Nous étudions le tableau donnant la répartition de 200 étudiants suivant le sexe et la couleur des cheveux, en supposant qu’ils ont été tirés au hasard dans l’ensemble des étudiants de l’université. Le tableau est le suivant : Masculin ( i = 1) Féminin ( i = 2) Effectifs marginaux Cheveux blonds (j = 1) 25 62 n.1 = 87 Cheveux bruns (j = 2) 51 31 n.2 =82 Autre couleur (j = 3) 17 14 n.3 = 31 Effectifs marginaux n1. = 93 n2. = 107 200 Peut-on considérer comme vraisemblable, avec un risque d’erreur de 5%, l’hypothèse selon laquelle le sexe et la couleur des cheveux sont indépendants ? Tests non-paramétriques Lecture Notes in Computer Science and Technologies No 5, 2016 114 Vera Angelova Test de khi-deux d’ajustement ou d’adéquation 34. A un age donné, on a pu déterminer que : 50 % des bébés normaux marchent, 12 % ont une ébauche de marche, 38 % ne marchent pas. Population étudiée : Les bébés prématurés. Observations : On a observe 80 prématurés à l’age donné : 35 de ces bébés marchent, 4 ont une ébauche de marche, 41 ne marchent pas Les bébés prématurés développent-ils la marche de la même manière que les bébés normaux ? Test de khi-deux d’ajustement de conformité 35. Équiprobabilité des sexes à la naissance L’étude de 320 familles ayant 5 enfants s’est traduite par la distribution suivante : Classe Nombre de garçons Nombre de filles Nombre de familles A 5 0 18 B 4 1 56 C 3 2 110 D 2 3 88 E 1 4 40 F Total 0 5 8 320 On veut comparer cette distribution à la distribution théorique qui correspond à l’équiprobabilité de la naissance d’un garçon et de la naissance d’une fille. a) Quelle est la loi de probabilité du nombre de garçons dans une famille de cinq enfants, dans l’hypothèse d’équiprobabilité des naissances des garçons et des filles. b) La comparaison de la distribution observée à la distribution théorique s’effectue par un test Khi deux. Que peut-on en conclure ? 36. Influence de la place de départ dans une course Au départ d’une course de chevaux, il y a habituellement huit positions de départ et la position numéro 1 est la plus proche de la palissade. On soupçonne qu’un cheval a plus de chances de gagner quand il porte un numéro faible, c’est-à-dire qu’il est plus proche de la palissade intérieure. Voici les données de 144 courses : Numéro de départ Nombre de victoires d’un cheval ayant ce numéro 1 2 3 4 5 6 7 8 Total 8 29 19 18 25 17 10 15 11 144 a) Poser les hypothèses à tester (hypothèse nulle et hypothèse alternative). b) Calculer le khi deux observé et la probabilité critique. Conclure. Test de khi-deux d’indépendance 37. Pour l’étude de la relation entre le niveau d’étude et le fait de subir ou non un chômage de longue durée, on a fait des observations sur un échantillon de 100 individus. Pour chaque individu, on a relevé le niveau d’étude : ≪ secondaire ≫ ou ≪ supérieur ≫ et s’il a subi un chômage de longue durée : ≪ oui ≫ ou ≪ non ≫. On observe que : 40 ont un niveau d’étude secondaire et ont subi un chômage long ; 26 ont un niveau d’étude secondaire et n’ont pas subi un chômage long ; 12 ont un niveau d’étude supérieur et ont subi un chômage long ; 22 ont un niveau d’étude supérieur et n’ont pas subi un chômage long. a) Représenter la répartition des 100 sujets selon le niveau d’étude et le fait de subir ou non un chômage long par un tableau de contingence. b) Peut-on en conclure qu’il existe un lien entre le niveau d’étude et le fait de subir ou non un chômage long ? Lecture Notes in Computer Science and Technologies No 5, 2016 Statistique inférentielle 115 38. On désire tester l’effet d’une antibiothérapie systématique sur l’apparition d’une infection post-opératoire. Une expérience randomisée est conduite. Un premier groupe de patients reçoit une antibiothérapie. Un deuxième groupe reçoit un placebo. Les résultats sont les suivants : Infection postopératoire Pas d’infection post-opératoire Sujets ayant reçu une antibiothérapie 10 75 Sujets ayant reçu un placebo 29 27 L’antibiothérapie est-elle efficace dans la prévention des complications infectieuses ? Tests de khi-deux d’homogénéité 39. Dans un échantillon de 400 femmes et un échantillon de 300 hommes, on observe que 25 femmes et 25 hommes développent une certaine forme de maladie mentale. Peut-on dire que cette forme de maladie n’atteint pas les femmes et les hommes de la même façon ? 40. Les observations d’une variable qualitative sur k échantillons permettent-elles de conclure que les échantillons proviennent de la même population Existe t-il un lien entre le nombre de grossesse et le décès des bébés ? Fréquences observées : Age du décès Inférieur à 3 mois Supérieur à 3 mois Nombre de grossesses inférieur à 3 18 17 Nombre de grossesses supérieur à 3 6 19 Lecture Notes in Computer Science and Technologies No 5, 2016 116 Vera Angelova Feuille 4 : Préparation pour les contrôles Exercices Contrôle 1. 41. [2] La SGM souhaite mieux connaitre la répartition des impayés dans son portefeuille de clients. Sur l’ensemble des 20000 dossiers traités annuellement au service contentieux, un échantillon aléatoire de 30 dossiers a été prélevé aux fins d’étude, qui a permis d’obtenir un montants moyen observé d’impayés de 2660,50 Ke et un écart-type observé des impayés de 279,66 Ke. a) Quelle serait la probabilité pour que, sur l’ensemble des dossiers, le montant moyen d’impayés soit inférieur à 2300 Ke ? b) Quel serait l’intervalle de confiance à 95% de cette moyenne et quelle en serait l’interprétation ? c) Quel serait l’intervalle de confiance à 95% de l’écart-type des impayés et quelle en serait l’interprétation ? d) Quel est le risque d’erreur que l’on attribue à l’intervalle de confiance, bilatéral symétrique du montant moyen d’impayés : [2539,5 - 2781,497] obtenu àn pratir de cette série de 30 dossiers. e) Quel serait l’intervalle de confiance à 95% de la moyenne de la population, obtenu à la base des observations d’un échantillon de 25 dossiers, dont la moyenne observée d’impayés est de 2600 Ke et l’écart-type observé est de 277 Ke. f) Quel serait l’intervalle de confiance à 99% de l’écart-type des dossiers impayés de la population, obtenu à la base des observations d’un échantillon de 200 dossiers, dont la moyenne observée d’impayés est de 2650 Ke et l’écart-type observé est de 280 Ke. 42. [2] 96% des ménages français possèdent un réfrigérateur. a) Quelle est la probabilité pour que, dans un échantillon de 1 200 ménages, la fréquence relative soit comprise entre 0,95 et 0,97. Que pourrait-on dire si la fréquence relative de l’échantillon était de 0,99 ? b) Quelle doit être la taille de l’échantillon pour que la probabilité de trouver une fréquence relative de l’échantillon comprise entre 0,95 et 0,97 soit de 99%. Contrôle 2. 43. Une société de gérance de projets a demandé à une firme d’expertises en contrôle de matériaux, d’évaluer la qualité d’un mélange bitumineux provenant de deux usines. Il a été convenu d’effectuer une vérification en évaluant la résistance à la compression, à l’âge de 3 jours, sur des cylindres de béton. La résistance à la compression est supposée normalement distribuée. Les résultats pour les deux usines se résument comme suit : Nombre de cylindres Résistance moyenne (kg/cm2 ) Somme des Carrés des Écarts à la moyenne Usine 1 n1 = 16 x̄1 = 90, 6 SCE1 = 1200 Usine 2 n2 = 12 x̄2 = 96, 1 SCE2 = 1068 a) Peut-on considérer comme vraisemblable, avec un risque d’erreur de 5%, l’hypothèse selon laquelle les variances des résistances à la compression des cylindres de ces deux usines sont identiques ? b) Est-ce que la firme d’expertises peut affirmer, au risque de 5%, que le mélange bitumineux de l’usine 1 est moins résistant à la compression que celui de l’usine 2 ? Lecture Notes in Computer Science and Technologies No 5, 2016 Statistique inférentielle 117 44. Euro-pratique : Avant le passage à l’euro, un sondage a montré que 50% des achats sont effectués avec une carte bancaire. Depuis le passage à l’euro, un récent sondage effectué sur un échantillon de 500 personnes choisies au hasard a révélé que 270 personnes utilisent leur carte bancaire. a) Peut-on conclure, avec un risque d’erreur α = 5%, que la proportion d’utilisateurs de cartes bancaires est restée stable depuis le passage à l’euro ? 45. On a compté le nombre de fruits portés par des arbres choisis au hasard dans deux parcelles. On suppose que le nombre de fruits par arbre est une variable aléatoire approximativement normale. Les résultats pour les deux parcelles se résument comme suit. Nombre d’arbres Récolte moyenne par arbre observée Somme des Carrés des Écarts à la moyenne Parcelle I n1 = 12 x̄1 = 109, 5 SCE1 = 35721 Parcelle II n2 = 16 x̄2 = 77 SCE2 = 20979 a) Tester, avec un risque d’erreur de 5%, l’hypothèse selon laquelle les deux parcelles ont même variance ? b) Tester, avec un risque d’erreur de 5%, l’hypothèse d’égalité des récoltes moyennes par arbre ? c) Peut-on affirmer, avec un risque d’erreur de 5%, que la récolte sera plus importante dans la parcelle I que dans la parcelle II ? Lecture Notes in Computer Science and Technologies No 5, 2016 Le manuel "Statistique inférentielle" fait connaissance aux notions et les méthodes, lies a la quatrième phase de la méthode statistique l’Interprétation. Le manuel offre le matériel théorique et pratique, nécessaire à apprendre d’après le programme en “Statistique appliquée» des spécialités Gestion et Economie de la filière de gestion à l’Université de Sofia « Sv. Kliment Ohridski ». On y considère les notions de base et les deux groupes de méthodes de l’Interprétation - l'estimation des paramètres de la population et des tests d'hypothèses. Après un court rappel du thème de la statistique descriptive - Echantillonnage, Distribution de la moyenne, de la dispersion et de la fréquence échantillonnalles, on présente les thèmes d’Estimation – estimation ponctuelles e t intervalles et de Tests d’hypothèses – test paramétriques et non-paramétriques. Le manuel a pour but de donner des connaissances théoriques et de développer des compétences pratiques pour le choix de modèles convenables pour tester d’hypothèses et prendre de décisions.