Mathematics">
Nothing Special   »   [go: up one dir, main page]

Cours Calcul Numérique

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 95

UNIVERSITÉ OFFICIELLE DE BUKAVU

Introduction au Calcul Numérique


Notes de Cours Destinées aux Étudiants de Préparatoire de l’École des Mines

AMBO AMANDURE Jean-Médard, Chef de Travaux


et
Agisha Ntwali Albert, Msc.

 On ne peut plus expliquer le monde, faire ressentir sa beauté à ceux qui n’ont aucune connaissance
profonde des mathématiques  (Richard Feynman)

Année académique 2021-2022


DESCRIPTION DE L’UNITE D’ENSEIGNEMENT (Année Académique 2021-2022)
Unité de
rattachement de ECOLE DES MINES (Université Officielle de Bukavu)
l’UE (Faculté)
Code de l’UE
Titre de l’UE Calcul Numérique
Nombre de crédits 3 30h (Théorie)+ 15h (Pratique)
Enseignant AMBO AMANDURE Jean-Médard (Chef de Travaux)
Semestre S2
Prérequis Mathématiques générales (analyse, algèbre, ...)
Cette UE permet à l’étudiant de s’approprier des méthodes et
Objectif(s) du cours
techniques numériques en vue de la résolution de certains problèmes.
1. Notions d’erreurs
2. Systèmes de numération
3. Résolution numérique des équations linéaires et non linéaires
Contenu 4. Éléments de statistiques descriptives et calcul des
probabilités
5. Notions de programmation linéaire, établissements de
modèle mathématique et visite d’un centre de calcul
1. Résoudre des problèmes (MA1)
2. Modéliser des situations (MA2)
Compétences 3. Calculer dans des contextes divers (MA3)
professionnelles et
disciplinaires 4. Communiquer à l’aide du langage mathématique (MA4)
visées 5. Raisonner (MA5)
6. Autres compétences: CP1, CP2, CP3 (voir annuaires
descripteurs des UE).

Cours magistraux interactifs, Utilisation pédagogique des TIC


Approches
pédagogiques (logiciels de présentation, tableurs, logiciels de simulation, etc.), TP
et TD.
Contrôle continu (exercices de synthèse, de démonstration, de calcul,
Modalités
de raisonnement, problèmes, exposés individuels ou en équipe), TP,
d’évaluation
TD, Interrogations, Examen écrit.
Première partie

Erreurs et Numération

2
Chapitre 1

GENERALITES

1.1 Fondements du Calcul Numérique et Algébrique


Les nombres apparaissent très tôt dans l’histoire de l’humanité. Pour mémoire, le calcul a été inventé
avant l’écriture (il y a 20 000 ans mais certains disent 35 000 et d’autres plus). Il s’agissait de compter avec
des cailloux (calculus en latin) afin d’évaluer des quantités entières.

C’est vers le XV I eme siècle, avec le calcul algébrique que l’on voit apparaı̂tre les mathématiques mo-
dernes.
Dans les temps passés, il n’était, donc pratique que le Calcul Numérique. Le Calcul Algébrique combine les
lettres, les nombres et des opérations.

La grande différence entre calcul numérique et calcul algébrique est que le premier(numérique) a pour
but de donner que les résultats alors que le second(algébrique) bien qu’incluant le premier permet de prouver
une théorie, de démontrer ou des définir les lois de manières plus générales.
N.B. : Juste à noter que en utilisant des lettres pour désigner des variables telles que a, b, x, y, etc. la
multiplication standard se note ”·” ou sans signe lorsque le contexte le permet. On pourra noter 3 · 6 pour
3 multiplier par 6. De même x fois y par x · y = xy.
Bien que non exact, le calcul numérique possède plusieurs avantages : il est plus rapide, souvent suffisant
pour les applications pratiques et peut aussi être plus lisible.

Ex1 : Quelle est la limite de la suite definie par reccurence :



u0 = 1 un+1 = 1 + un n ≥ 0 ?

Si on calcul formellement les premiers termes en trouve :


r s r
q q q
√ √ √ √
u0 = 1 u1 = 2 u2 = 1 + 2 u3 = 1+ 1+ 2 u4 = 1+ 1+ 1+ 2

Cela n’éclaire pas vraiment sur le comportement de la suite.


Par contre au vue des approximations :

u0 = 1
u1 = 1.4142 · · ·
u2 = 1.5537 · · ·
u3 = 1.5980 · · ·
u4 = 1.6118 · · ·
u5 = 1.6161 · · ·

3
on peut émettre plusieurs conjectures : la suite est croissante, elle est majorée par 2 et converge. En
poussant les calculs, une approximation de la limite est 1.618033 · · ·
Notons que, le calcul formel ne résout malheureusement pas tous les problèmes de mathématique. Par
exemple, Pouvez-vous calculer les solutions réelles de xk − x − 1 = 0 pour les entiers k ≥ 2 ? la limitation
est propre au mathématiques : On ne peut pas trouver une écriture explicite des solutions de toutes les
équations. √ √
Par exemple, pour x2 − x − 1 = 0, on trouve bien les deux racines 1+2 5 et 1−2 5 . Pour ce qui est de
√ √ √
x5 −x−1, il est mathematiquement pas possible d’exprimer la solution réelle à l’aide des racines( , 3 , 4 , . . . ).

1.2 Formules et Identités Remarquables


Certaines identités algébriques sont qualifiées de remarquables de remarquable dans les enseignements
secondaires. Elles facilitent le calcul ou la factorisation des expressions polynomiales.

1.2.1 Développer et reduire une expression


Développer une expression c’est l’écrire sous la forme d’une somme de termes la plus simple possible.
On développe les produits, on supprime les parenthèses et on regroupe les termes identiques.

Distributivité de la multiplication par rapport à l’addition et à la soustraction


Règles : a, b, c, d, k ∈ R

k · (a + b) = ka + kb
k · (a − b) = ka − kb
(a + b)(c + d) = ac + ad + bc + bd

Exemples
1. A = 5(x + 3) = 5x + 15
2. B = (2x − 1)(5x − 6) = 10x2 − 12x − 5x + 6 = 10x2 − 17x + 6

1.2.2 Factoriser une somme de termes


Factoriser une somme de termes c’est la transformer en un produit de facteurs.
Méthode 1 : On recherche un facteur commun aux différents termes de la somme

Exemples :
1. A = 4x + 12 = 4 · x + 4 · 3 = 4 · (x + 3)
2. B = 12x5 + 4x2 − 2x = 2x(6x4 + 2x − 1)
3. C = (5x − 1)(3x − 7) − (5x − 1)(5x − 3) = (5x − 1)(−2x − 4)
Méthode 2 : On factorise en reconnaissant une identité remarquable

1.2.3 Identités remarquables


1. Le carré d’une somme
(a + b)2 = a2 + 2ab + b2

2. Le carré d’une différence


(a − b)2 = a2 − 2ab + b2

4
3. La somme de deux carrés
a2 + b2 n’est pas factorisable dans R)
4. La différence de deux carrés
a2 − b2 = (a − b)(a + b)
5. Le cube d’une somme
(a + b)3 = a3 + 3a2 b + 3ab2 + b3
6. Le cube d’une différence

(a − b)3 = a3 − 3a2 b + 3ab2 − b3


7. La somme de deux cubes
a3 + b3 = (a + b)(a2 − ab + b2 )
8. La différence de deux cubes
a3 − b3 = (a − b)(a2 + ab + b2 )
9. Somme de trois termes au carré
(a + b + c)2 = a2 + b2 + c2 + 2ab + 2ac + 2bc
10. Généralisation de la puissance d’une somme
Les identités 1,2, 5 et 6 peuvent se généraliser par une formule délicate à écrire, ”Formule du binôme
de Newton”, mais facile à appliquer.
Observons par exemple le développement de (a + b)3 = a3 + 3a2 b + 3ab2 + b3 .

En fait l’écriture complète est plutot (a + b)3 = a3 b0 + 3a2 b1 + 3a1 b2 + b3 . Mais comme tout nombre
exposant 0 égal 1, alors on écrit pas tous les termes à exposant 0.
Ainsi on peut écrire le developpement de (a + b)4 , cela donne la structure suivante :
(a + b)4 = a4 b0 + · · · a3 b1 + · · · a2 b2 + · · · a1 b3 + a0 b4
Habituellement, l’on écrira
(a + b)4 = a4 + · · · a3 b + · · · a2 b2 + · · · ab3 + b4
Pour trouver les bons coefficients (remplir les pointillés), il faut se baser sur le triangle suivant, appelé
triangle de Pascal.

5
Chaque nombre est toujours égal à la somme des deux nombres situés au dessus de lui.
En considérant la première ligne comme de l’indice 0, à l’exposant 4 on a par exemple, les coefficients
repris à la ligne 5 ou indice 4.
En effet,
(a + b)4 = a4 + 4a3 b + 6a2 b2 + 4ab3 + b4
(a + b)5 = a5 + 5a4 b + 10a3 b2 + 10a2 b3 + 5ab4 + b5

11. Généralisation de la puissaance d’une différence


Considérons par exemple (a − b)5 . Pas de souci ! il suffit d’alterner les signes dès le premier écrit.
En effet,
(a − b)5 = a5 − 5a4 b + 10a3 b2 − 10a2 b3 + 5ab4 − b5

N.B. La formule dite du binôme de Newton s’écrit comme suit :


n  
X  
n n n−k k n n!
(x + y) = x y avec = .
k k k!(n − k)!
k=0

6
Chapitre 2

INSTRUMENTS ET OUTILS A
CALCULER

2.1 Règle de Calcul : Priorité des opérations


Les règles de priorités précisent l’ordre dans lequel les calculs doivent être effectués dans une expression
complexe.
Les règles de priorités sont :
1. Les parenthèses sont prioritaires sur les calculs situés en dehors. Viennent ensuite ;
2. Les crochets. Notons que la barre horizontale de fraction et une racine joue le rôle d’une parenthèse
dans certaines expressions.
Une fois le problème des parenthèses des parenthèse et crochets reglé. On s’intéresse aux différentes
opérations.
3. L’exponentiation(les puissances) est prioritaire sur la multiplication, la division, l’addition et la sous-
traction ;
4. La multiplication et la division sont prioritaires sur sur l’addition et la soustraction ;
5. Dans les parenthèses, on effectue la multiplication de gauche à droite. Même chose ensuite pour les
additions et soustractions.
Exemples :
Ex1 :
7 + 2 × 6 6= (7 + 2) × 6
Ex2 :

50 × 2 − [3 + 4 × (11 − 6 + 3) − 1]
A =50 × 2?[3 + 4 × 8?1] (priorité aux calculs entre parenthèses 11 − 6 + 3)
A =100 − [3 + 4 × 8 − 1] (priorité à la multiplication 50 × 2 sur la soustraction précédant les crochets)
A = 100 − [3 + 32 − 1] (priorité à la multiplication au4 × 8ausein des crochets)A = 100 − 34
A = 66
3 √
Ex3 : Soit à évaluer l’ordre d’opération dans 5a 2 + 4(a − a2 + 1)

7
N.B : Une calculatrice scientifique prend en compte cet ordre des opérations mais effectuera les additions et
soustractions mêlées ainsi que les produits et divisions mêlées dans l’ordre d’apparition des opérandes.

2.2 Identités Remarquables


Parmi les outils de calculs nous comptons aussi les identité remarquables cfr. (Chap. 1)

2.3 Calculateurs électroniques et Ordinateurs


Un calculateur est une machine effectuant des calculs arithmétiques, algébriques ou logiques.

Exemple : Une calculatrice, un ordinateur, un calculateur analogique, etc.


1. Une calculatrice (calculette) est une machine conçu pour simplifier et fiabiliser des opérations de cal-
cul. Ayant été mécanique, puis électromécanique, la machine à calculer est actuellement électronique.
Notons que la calculatrice électronique ne descend pas des calculatrices mécaniques, mais des pre-
miers ordinateurs. Les calculs y sont donc effectuer en binaire.

Ex. calculatrice scientifique Sanyo, Montre casio avec calculette intégrée...


2. Un ordinateur est un système de traitement de l’information programmable(def. de Alan Turing) et
qui fonctionne par lecture séquentielle d’un ensemble d’instructions, organisées en programmes, qui
lui font executer des opérations logiques et arithmériques.

2.4 Méthodes et Procédés de Calcul


2.4.1 Abaque et Fondement du Calcul Mental
Abaques et tables numériques
Le mot abaque vient de l’Arabe : abq signifiant poussière ou sable fin.
Le boulier, ou abaque est un outil de calcul pratique inventé par les Chinois à l ?époque de la dynastie
des Song du Nord (960-1127). Construit sous la forme d ?un cadre en bois avec des perles glissant sur des
tiges parallèles, il peut aujourd’hui encore se révéler utile pour les calculs de base, comme l’addition, la
soustraction, la multiplication et les racines carrées. Autrefois, avant l’ère de l’informatique, on calculait les
formules compliquées et complexes en utilisant les abaques et les tables numériques.

Une table numérique est un tableau permettant de mettre en relation deux quantités. Elle se présente en
général sous forme d’un tableau à deux colonnes(voire plus).Dans le première colonne apparait la quantité
de référence, la variable, variant selon un pas fréquemment fixe. La seconde colonne est destinée à donner les
valeurs correspondantes de la seconde quantité liée à la première. Une troisième colonne est souvent présente

8
donnant la table des différences entre deux valeurs successives de la seconde quantité.

Exemple : extrait d’une table de sinus où l’angle est exprimé en degré, le pas est de 10 minutes, la
précision de 10−6 .

x sin x
30◦ 0,500 000
30◦ 100 0,502 517
30◦ 200 0,505 030
30◦ 300 0,507 538
···

Autres tables : Table logarithmique, table de multiplication, tables trigonométriques, Abaque, · · ·


Bref, les abaques et tables numériques sont des diagrammes, graphiques et/ou table qui donnent par
simple lecture la solution.
Exemples :
En thermodynamique les abaques et tables numériques sont utilisées pour déterminer les états thermody-
namique le long d’un cycle.

En hydrolique, les abaques sont utilisées pour déterminer les coefficients de pertes de charges linéaires.

Les abaques en thermodynamiques sont utilisées lorsque un fluide n’est pas un gaz parfait(vapeur, fluide
frigorigène, etc.)
Les abaques sont aussi utilisées en construction pour le calcul des bêtons.

Exercices

1. Utilisation de la table Numérique(Enthalpie, Enthropie, ...)


2. Utilisation de la table de la fonction sinus (exercice en cours)

Utilisation de quelques abaques dans le domaine de la numération et du calcul : Algorithme


de multiplication
1. La multiplication chinoise
Il s’agit d’une méthode qui permet de multiplier en utilisant des baguettes. Elle est parfois appelée
méthode japonaise.
Domaine d’application et intérêt : c’est une technique graphique dérivée des mathématiques
indiennes qui permet de multiplier en dessinant des traits.
Algorithme : il est basé sur le tracé de traits matérialisant les différents chiffres et du dénombrement
de leurs points d’intersection.
(a) On trace verticalement de gauche à droite plusieurs séries de traits correspondant aux chiffres du
premier nombre et horizontalement de haut en bas plusieurs séries de lignes correspondant aux
chiffres du second nombre ;
(b) on matérialise le nombre de points d’intersection entre les lignes horizontales et verticales ;
(c) on additionne ces points sur chacune des ” diagonales” en commençant par la diagonale la plus à
droite. Les retenues éventuelles sont reportées sur la diagonale suivante. Le résultat de la multi-
plication se lit de gauche à droite.

Exemple : 123 × 21 = 2 583

9
2. Multiplication per gelosia
Il s’agit d’une méthode utilisant un tableau venant de la civilisation indienne au XIIe siècle, puis
introduite en Europe par Fibonacci, très utilisée jusquau XVe siècle. Le nom per gelosia provient des
fenêtres jalousies, sorte de volets à travers lesquelles la lumière passe en diagonale et qui permettent
de voir sans être vu.
Algorithme
soient x et y deux nombres à multiplier et n et m leurs nombres de chiffres respectifs.
(a) On commence par dessiner un tableau rectangulaire de n×m cases carrées ainsi que les diagonales
montantes des cases de ce tableau ;
(b) on inscrit les deux facteurs à l’extérieur du tableau. Si le facteur horizontal est écrit de la gauche
vers la droite, alors le facteur vertical est écrit de haut en bas. Si le facteur horizontal est écrit de
la droite vers la gauche, alors le facteur vertical est écrit de bas en haut ;
(c) on inscrit tous les produits dans les cases correspondantes, le chiffre des dizaines étant écrit dans
le triangle du haut et le chiffre des unités dans celui du bas ;
(d) on calcule les sommes à l’intérieur de chaque bande diagonale puis on lit le résultat dans le même
sens qu’a été écrit le facteur horizonta.
Exemple : 735 × 42

La multiplication par gelosia, bien que très intéressante, présente tout de même quelques défauts :
elle est compliquée à ” imprimer ”, elle demande la compréhension du système des retenues, et enfin,
la connaissance des tables de multiplication est indispensable.

10
Chapitre 3

ERREURS ET PRECISION DANS LES


CALCULS NUMERIQUES

Le calcul numérique, en général, et celui sur ordinateur a pris au cours des dernières décennies une place
extrèmement importante dans le domaine scientifique et a permis des avancées technologiques spectacu-
laires. Les prévisions météorologiques, le développement aéronautique, l’imagerie médicale sont autant de
domaines où le calcul sur ordinateur est devenu indispensable.

Malgré tous les avantages qu’il procure, un inconvénient majeur du calcul numérique est que les calculs
sont faits sur un nombre fini de bits (32 ou 64 généralement), impliquant par là-même une erreur qualifiée
d’erreur d’arrondi. Même si chaque erreur est faible ( 10−7 pour 32 bits par exemple), du fait des milliards
d’opérations réalisées l’erreur finale peut être importante. Il est par conséquent absolument nécessaire de
comprendre et de contrôler le devenir de ces erreurs pour pouvoir justifier la validité et la précision des
résultats obtenus.

Le mot ”erreur” se réfère à quelque chose de ”vrai” ou de ”juste”.


On parle d’erreur sur une mesure physique lorsqu’on peut la comparer à une valeur de référence considérée
comme ”vrai”.

Exemple : Mesure de la vitesse de la lumière,· · ·

Généralement, pour les mesures effectuées au laboratoire, on ne possède pas des valeurs de référence et
on ne connaı̂t pas la valeur exactement mesurée (ex. vitesse d’un projectile) ; on parle d’incertitude.
Lorsque, le résultat y d’une mesure dépend de plusieurs valeurs mesurées x1 , x2 x3 , · · · ; alors on parle
d’une grandeur composée. Chaque grandeur ayant une incertitude ∆x1 , ∆x2 , ∆x3 , · · · , ces dernières vont
se combiner pour produire l’incertitude totale ∆y sur le résultat y

La façon dont chaque paramètre individuel contribue à l’incertitude totale est décrite par la propaga-
tion des incertitudes.
La Propagation des incertitudes est donc le terme correct pour l’expression improprement mais cou-
ramment utilisée de ”propagation d’erreur”.

3.1 Nombre approché


— Un nombre approché x̂ est un nombre légèrement différent du nombre exact x et qui dans le calcul
remplace ce dernier.
— Si l’on sait que x̂ < x, x̂ est dit valeur approchée du nombre x par defaut ;
x̂ est une valeur approchée par excès.
— si x̂ > x, √
— Soit x = 2. Le nombre x̂ = 1, 41 est une valeur approcheé par défaut, alors que le nombre x̂ = 1, 42

11
est une valeur approchée par excès.
— Si x̂ est une valeur approchée de x on note x̂ ≈ x.

3.2 Sources d’erreurs en Calcul Numérique


3.2.1 Erreurs relatives aux données d’entrée
1. Erreur de mesure : générée par la différence entre la valeur exacte x et la valeur mesurée x̃. Elle
vaut

∆x = |x − x̃|.

2. Erreur d’arrondi générée par la différence entre la valeur exacte x et la valeur arrondie f l(x) = x̂.
Elle vaut
∆x = |x − x̂|.

Exemple : Soit un objet qui vaut 100 Ff, notant que 1 euro = 6,55957 Ff, son vrai prix en euro est de

100
x= ≈ 15, 24490172374 euros
6, 55957
mais on trouvera l’objet au prix de x̂ = 15, 24 euros
L’erreur commise est donc de ∆x = 4, 901723741038 × 10−3 euros

3.2.2 Erreurs résultantes d’un calcul


1. Erreurs de troncature ou d’approximation : ces sont les erreurs associées aux processus infinis
en analyse mathématique (par exemple les séries numériques).
1 1 1
e=1+ + + + ···
1! 2! 3!

2. Erreurs d’arrondi dans les étapes d’un calcul (algorithme, programme) : ce sont les erreurs
associées au système de numeration. Elles sont dues au fait qu’un ordinateur ne peut prendre en
considération qu’un nombre fini de chiffres.
3. Erreurs de propagation et génération : ces sont les erreurs qui apparaissent dans le resultat
d’une opération comme conséquence des erreurs des opérandes.

3.3 Types d’erreurs : Erreur absolue et relative


Soit z un résultat exact et z̃ un resultat approché. On définit alors
1. Erreur absolue
∆z = |z − z̃|

2. Erreur relative

|z − z̃|
δz =
|z|

3.4 Propagation d’erreurs

12
3) Les incertitudes de mesure
On distingue différentes sortes d'erreurs dont toute mesure peut être affectée: les erreurs
systématiques, les erreurs accidentelles et la dispersion statistique.
i) Les erreurs systématiques se produisent par exemple lorsqu'on emploie des unités mal
étalonnées (échelle fausse, chronomètre mal ajusté) ou lorsqu'on néglige certains
facteurs qui ont une influence sur la marche de l'expérience (par ex. l'influence du
champ magnétique terrestre dans une mesure magnétique). Cela mène à un décalage
(biais) du résultat si l‘erreur commise est toujours la même. Les erreurs systématiques
influencent l’exactitude (ou justesse) de la mesure (voir Fig. 1.c).
Dans la plupart des cas, les erreurs systématiques, pour autant qu'on connaisse leur
cause, peuvent être prises en considération par une correction correspondante
apportée au résultat de la mesure. Pour les mesures effectuées dans le cadre de travaux
pratiques de physique, elles n'ont en général qu'une signification de second plan.

ii) Les erreurs accidentelles par contre ne peuvent en principe pas être évitées. Leur cause
se trouve dans l'expérimentateur lui‐même. La sûreté avec laquelle la main manie un
instrument (par ex. l’arrêt d'un chronomètre), l'exactitude avec laquelle l'œil observe
(par ex. la position d'une aiguille sur une échelle) ou l'acuité différentielle de l'oreille
(par ex. pour la détermination d'un minimum d'intensité sonore) sont limitées. C'est la
tâche de tout observateur d'être conscient des erreurs accidentelles de mesure, de les
maintenir aussi faibles que possible et d'estimer ou calculer leur influence sur le résultat
obtenu.
Les erreurs accidentelles affectent la précision (ou fidélité) de la mesure (Fig. 1.b).

Fig. 1: Exactitude et précision: (a) Exact et précis; (b) Exact, pas précis; (c) Pas exact, mais précis.

iii) La dispersion statistique apparaît lorsqu’on fait des


mesures répétées de la même grandeur. Si l’on
mesure plusieurs fois le même phénomène avec un
appareil de mesure suffisamment précis, on
obtiendra à chaque fois un résultat différent xi. Ceci
est dû à des phénomènes perturbateurs (par ex.
bruit de fond électronique, sensibilité d’un
instrument aux variations de température) ou, pour
des mesures extrêmement précises, à la nature
aléatoire du phénomène (chaos, incertitude Fig. 2: Distribution de Gauss.
quantique).
Pour un grand nombre de mesures et phénomènes physiques, on peut généralement
postuler que la distribution des valeurs obtenues suit une distribution de Gauss
(distribution normale). Notons que cette distribution n'est pas toujours valable comme
le montre l'exemple des phénomènes de désintégration (distribution de Poisson).
La distribution de Gauss est caractérisée par deux paramètres (voir Fig. 2): sa valeur
moyenne xo et sa variance σ2 (ou déviation standard ). Dans la distribution de Gauss,
68% des mesures sont comprises entre xo‐ et xo+95% entre xo‐2 et xo+2et 99.7%
entre xo‐3 et xo+3
La dispersion statistique affecte la précision de la mesure (Fig. 1b). Le but de répéter un
grand nombre de fois (N fois) la mesure du même paramètre est d'obtenir une estimation
aussi précise que possible de la vraie valeur cherchée xo. On constate que cette estimation
sera d'autant plus précise que la distribution de Gauss est étroite, c’est‐à‐dire que σ est
petit. La méthode de mesure, les appareils utilisés ainsi que l'habileté de l'expérimentateur
contribuent chacun à la grandeur de σ (par ex : un chronomètre électronique est plus précis
qu'un chronomètre mécanique, un faisceau lumineux associé à une cellule photoélectrique
sera plus précis que l'œil et la main de l'expérimentateur pour détecter le passage d’un
projectile en un point).
Le meilleur estimateur de la vraie valeur xo est la moyenne arithmétique x des N résultats
individuels xi: 1 N
x   xi (1)
N i 1
De même, le meilleur estimateur de la variance de la distribution de x est donné par
1 N
 x2   (xi  x )2
N  1 i 1
(2)

Finalement, la précision avec laquelle on détermine xo est donnée par la variance de la


moyenne x qu’on note  x 2 :

1
 x 2   x2 
N
1  1 N

 1  N
  
 (xi  x )2   N   (N  1) x 2  x 2  .
N  (N  1) i 1
(3)

Cette valeur varie inversement avec le nombre de mesures N. Ainsi, si on veut diminuer la
déviation standard de la moyenne  x d’un résultat d'un facteur 2 (c’est‐à‐dire réduire
l’incertitude de moitié), il faut quadrupler le nombre de mesures (ou alors améliorer la
méthode et/ou les appareils, sans parler de l'expérimentateur!).
Le résultat de la mesure est finalement donné sous la forme : x   x
A côté de l'erreur absolue  x d'un résultat de mesure, il est souvent commode d'indiquer
l'erreur relative  x x . L'erreur absolue a toujours la même dimension (même unité) que le
résultat de la mesure lui‐même. L'erreur relative n'a pas de dimension et s’exprime en % ou
en ‰.
Chiffres significatifs: Le nombre de chiffres significatifs à indiquer dans un résultat est
également fixé par le calcul des incertitudes. En donner trop est tout aussi faux que d'en
donner trop peu! La convention admise est la suivante: tout résultat doit comporter un
nombre de chiffres significatifs tel que le dernier soit affecté de l'erreur fixée par le calcul
des erreurs; l'avant‐dernier par contre est certain. Ainsi une masse M pesée à ±2 mg et
trouvée égale par exemple à 25.3873 g sera donnée par: M  (25.387  0.002) g .
4) Incertitudes sur une mesure composée; loi de propagation
Les mesures effectuées en physique sont le plus souvent indirectes, c'est‐à‐dire que le
résultat final d'une expérience ne consiste pas en la mesure (répétée ou non) d'un seul
paramètre, mais de plusieurs grandeurs qui, liées par une loi physique, conduisent au
résultat cherché. Chacune de ces grandeurs a une certaine incertitude; le résultat de
l’expérience en comportera aussi une qui dépend des incertitudes individuelles. On veut
déterminer de quelle manière chacune de ces incertitudes se répercute sur la grandeur
finale.

4.1) Propagation des incertitudes


Illustrons cela par un exemple simple (Fig. 3). Si on veut déterminer la surface d’une pièce,
on mesure sa longueur l et sa largeur d et la surface est donnée par la fonction S = ld. Les
distances mesurées comportent une incertitude l sur la longueur et d sur la largeur.
Comment déduire l’incertitude S sur la surface calculée?
Envisageons le cas le plus défavorable et considérons que les incertitudes augmentent
chaque fois les grandeurs mesurées. L’incertitude S sur la surface correspond alors à
l’accroissement total de la surface (voir Fig. 3a) :
S  (l  l )  (d  d )  ld  d l  l d  l d . (4)
Le dernier terme peut être négligé lorsque les incertitudes sur les grandeurs mesurées sont
petites par rapport aux grandeurs elles‐mêmes (x << x), ce qui permet de simplifier le calcul
d’erreur en considérant la différentielle (variation) de la fonction par rapport aux différentes
variables (Fig. 3b):
S S
S  d l  l d  l  d (5)
l d

Fig. 3: Accroissement total (a) et différentielle (b) de la surface d’un rectangle de


longueur l et de largeur d comportant des incertitudes. La différence entre ces
deux grandeurs est le petit rectangle rouge dont la surface peut être négligée.

Plus généralement, on aura pour une fonction de plusieurs variables f(x1, x2, x3,…) :

f f f
f  x1  x2  x3  ... (6)
x1 x2 x3
Fig. 4: L’incertitude f sur une grandeur f résultant de l’incertitude x sur une variable x
dépend de la pente locale de la courbe f(x), donnée par la dérivée partielle f x .

Le principe consiste donc à calculer la dérivée partielle (notée f x i ) de la fonction f par


rapport à chaque variable xi, qui représente l’accroissement de la fonction f pour une petite
variation de la variable xi (voir Fig. 4).
Rappel : la dérivée partielle d’une fonction par rapport à une variable xi consiste à dériver la
fonction par rapport à xi en considérant toutes les autres variables comme des constantes.

Quelques cas simples :


L’application de la propagation des incertitudes décrite par la formule générale (6) devient
particulièrement simple dans les cas particuliers suivants, souvent rencontrés en pratique :
Somme/différence: lorsque la grandeur composée n’est constituée que de sommes ou de
différences:
y  x1  x2  x3  ... , alors y  x1  x2  x3  ... (7)
Dans une somme (différence), les erreurs absolues s’additionnent.

Produit/quotient: lorsque la grandeur composée n’est constituée que de produits ou de


quotients:
y x1 x2 x3
y  x1  x2 / x3  ... , alors     ... (8)
y x1 x2 x3
Dans un produit (quotient), les erreurs relatives s’additionnent.

Produit de puissances: lorsque la grandeur composée n’est constituée que d’un produit de
puissances
y x x2 x3
y  x1  x2   x3  ... …, alors  1   ... (9)
y x1 x2 x3

Dans tous les autres cas (par ex. en présence de relations trigonométriques, de logarithmes,
de racines, etc…), la formule générale (6) doit être utilisée en calculant toutes les dérivées
partielles.
Exemple : la période d’oscillation T d’un pendule simple dépend de la longueur l du pendule:
T  2 l g . En mesurant la longueur du pendule et sa période (donc ici deux mesures), on
obtient de façon simple l'accélération de la pesanteur g: g  4 2l T 2 . L’incertitude sur g est
obtenue à partir des incertitudes sur l et T par:

g g 2 1 2l 
g  l  T  4  2 l  3 T  (10)
l T  T T 
l
Méthode simplifiée: selon (8), g  4 2 (quotient → erreurs relatives s’ajoutent)
T T

g l T T  l 2T  2 l  l 2T  2  l 2l T 
     g     g  4 2     4  T 2  T 3 
g l T T  l T  T  l T   

4.2) Propagation de la dispersion statistique


Si les valeurs des différentes grandeurs xi ont été obtenues par une moyenne statistique sur
un nombre de mesures répétées, l’incertitude sur chaque paramètre est donnée par la
dispersion statistique ou déviation standard  x (voir §3.iii). Si les différentes variables sont
indépendantes, les incertitudes se combinent aléatoirement de sorte que la variance sur la
grandeur combinée est donné par:
2 2 2
 f  2  f  2  f  2
f 2
   x1     x2     x3  ... et  f   f
2
(11)

 1
x 
 2
x 
 3
x

5) Loi physique à vérifier expérimentalement; régression linéaire


Dans de nombreuses expériences effectuées en physique, la détermination d'une grandeur
se réalise en vérifiant une loi faisant intervenir la grandeur en question. La vérification
expérimentale d'une loi théorique reliant plusieurs grandeurs physiques peut se faire
simplement en s'efforçant de mettre la loi sous une forme linéaire par un changement de
variable approprié.
Rappel: la forme analytique d'une droite est y = px+h; p = pente, h = ordonnée à l'origine.
Exemple: dans le pendule simple, la période d’oscillation dépend de la longueur du pendule
de la manière suivante : T  2 l g . On peut décrire ce phénomène par une relation
linéaire en représentant T2 en fonction de l: T 2   4 2 g  l .

Les points de mesures (xi, yi) sont alors reportés avec leurs barres d’incertitudes sur un
système d'axes orthogonaux, ce qui permet de reconnaître immédiatement si la loi est
vérifiée en examinant l'alignement des points expérimentaux (voir Fig. 5). Les barres
d’erreur consistent en des segments horizontaux et verticaux de longueur xi et yi portés
de part et d’autre de chaque point (xi, yi). On voit qu'il est de première importance de
reporter les points de mesures avec leur domaine d'erreur préalablement à toute discussion
concernant la validité de la loi à vérifier.
Chapitre 4

SYSTEMES DE NUMERATION

18
CHAPITRE I : Les systèmes de numération et de codage

I. Introduction
L’ensemble des outils informatiques sont basés sur les mêmes principes de calcul (loi de tout
ou rien). Les calculs habituels sont effectués dans le système de numération décimal, par
contre le calculateur électronique ne peut pas utiliser ce système car le circuit électronique ne
permet pas de distinguer 10 états. Le système de numération binaire ne comportera que 2 états
0 et 1.

II. Numération
La numération permet de représenter un mot(ou nombre) par la juxtaposition ordonnée de
variable (ou symboles) pris parmi un ensemble. Connaitre la numération revient à connaitre le
mécanisme qui permet de passer d’un mot à un autre (comptage, opération).

1. Les systèmes de numération


a. Représentation d’un nombre

Dans un système de numérotation en base B, un nombre noté 𝑁(𝐵) égal à :


𝑛−1

𝑁(𝐵) = ∑ 𝑎𝑘 . 𝐵 𝑘 = 𝑎𝑛−1 𝑎𝑛−2 … 𝑎2 𝑎1 𝑎0 (𝐵)


𝑘=0
Avec :
B : base ou nombre de chiffres différents qu’utilise le système de numérotation.
𝑎𝑘 : Chiffre de rang k
𝐵 𝑘 : Pondération associée à 𝑎𝑘

b. Système décimale : (Base10)

Ce système de numération, usuel dans la vie quotidienne, dispose de dix symboles (en
l’occurrence des chiffres) qui sont:{0, 1, 2, 3, 4, 5, 6, 7, 8,9}
On parle que l’on travaille en base 10.
Exemple :
7239 = (7.103 + 2.102 + 3.101 + 9.100 ) 10

c. Système binaire : (Base2)

La numération binaire (ou base 2) utilise deux symboles appelés BIT (Binary digIT) : 0 et 1

Ouerghemmi N & Tarhouni W 1


Cette base est très commode pour distinguer les 2 états logiques fondamentaux.
On écrit :

( an 1 , an  2 ,..., a1 , a0 ) 2  an 1 2 n 1  an  2 2 n  2  ...  a1 21  a0 20
Exemple :
(4)10 = 1.22 + 0.21 + 0.20 = (100)2
11110010(2) = 1. 27 + 1. 26 + 1. 25 + 1. 24 + 0. 23 + 0. 22 + 1. 21 + 0. 20 = 242(10)
Un code à n chiffres en base 2 distingue 2n états ou combinaisons.
Les puissances successives de 2 (1, 2, 4, 8, 16, 32, …) sont appelées poids binaires.

d. Système octal : Base(8)


Ce système de numération est très peu utilisé de nos jours. Anciennement, il servait au codage
des nombres dans les ordinateurs de première génération. Il utilise 8 symboles : 0, 1, 2, 3, 4, 5,
6, 7.
( N )8  an 1 8n 1  an  2 8n  2  ...  a1 81  a0 80

Exemple:
(572)8 = (5.82 + 7.81 + 2.80)10 = (378)10

e. Système hexadécimal : Base(16)


Ce système de numération est très utilisé dans les systèmes ordinateurs et micro ordinateurs
ainsi que dans le domaine des transmissions de données. Il comporte 16 symboles les chiffres
de 0 à 9 et les lettres {𝐴, 𝐵, 𝐶, 𝐷, 𝐸, 𝐹}

( N )16  an 116n 1  an  216n  2  ...  a1161  a0160


Exemple:
(D62C)16 = ( 13.163 + 6.162 + 2.161 + 12.160 )10 = (54828)10
F7(16) = F. 161 + 7. 160 = 247(10)

Note bien:
Table de correspondance entre nombre décimaux, binaires, octaux et hexadécimaux :

𝑵(𝟏𝟎) 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

𝑵(𝟏𝟔) 0 1 2 3 4 5 6 7 8 9 A B C D E F

𝑵(𝟐) 000 000 001 001 010 010 011 011 100 100 101 101 110 110 111 111
0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1

Ouerghemmi N & Tarhouni W 2


𝑵(𝟖) 0 1 2 3 4 5 6 7 - - - - - - - -

2. Conversions
a. Conversion du système Décimal vers une base quelconque
Pour convertir un nombre de la base 10 vers une base B quelconques, il faut faire des
divisions successives par B et retenir à chaque fois le reste jusqu'à l’obtention à un quotient
inférieur à la base B, dans ce cas le nombre s’écrit de la gauche vers la droite en commençant
par le dernier quotient allant jusqu’au premier reste.
 Conversion du système Décimal vers le Binaire par division successive
Pour transférer de la base décimale vers une base𝐵, on applique la méthode de division
successive. On divise le nombre 𝑁(𝐵) que l’on désire convertir par 2, puis on réitère
l’opération avec le dividende obtenu jusqu’à son annulation. Le nombre cherché s’écrit en
plaçant les restes des divisions successives dans l’ordre inverse de leur obtention (sens de
lecture de bas vers le haut).

Exemple :
(230)10 à convertir en base 2

230 2
0 115 2
1 57 2
1 28 2
0 14 2
Sens de 0 7 2
Lecture 1 3 2
1 1 2
1 0
Le résultat est donc : (230)10 => (11100110)2

 Conversion du système Décimal vers le Binaire par soustraction


Cette méthode consiste à retrancher du nombre la plus grande puissance de 2 possibles, et
ainsi de suite dans l‘ordre décroissant des puissances. Si on peut retirer la puissance de 2
concernée, on note (1) sinon on note (0) et on contenue de la même manière jusqu'à la plus
petite puissance de 2 possible (20 pour les entiers).
Exemple :

(230)10 à convertir en base 2


lecture
de

De 230 On peut retirer 128 reste 102 1


Sens

De 102 On peut retirer 64 reste 38 1


De 38 On peut retirer 32 reste 6 1

Ouerghemmi N & Tarhouni W 3


De 6 On ne peut pas retirer 16 reste 6 0
De 6 On ne peut pas retirer 8 reste 6 0
De 6 On peut retirer 4 reste 2 1
De 2 On peut retirer 2 reste 0 1
De 0 On ne peut pas retirer 1 reste 0 0

Le résultat est donc : (230)10 => (11100110)2

b. Conversion du système Binaire vers l'hexadécimal


Pour convertir du binaire vers l’hexadécimal, on divise le nombre binaire en tranches de 4, en
partant de la droite pour la partie entière et en partant de la gauche pour la partie fractionnaire.
Chacun des paquets est ensuite converti en hexadécimal.
Exemple :
(110101110001)2 = (1101 0111 0001)2 = (D71)16

c. Conversion du système Hexadécimal vers le Binaire


C’est le processus directement inverse, on écrit chaque quartet sur 4 bits en complétant
éventuellement avec des zéros.
Exemple :
(𝐹𝐴3)16 = (1111 1010 0111)2
d. Conversion du système Binaire vers l'Octal et inversement
On reprend les mêmes principes de la conversion Binaire-Hexadécimal et Hexadécimal-
Binaire mais cette fois ci en groupant les données en tranches de 3.
Exemple:
(101010)2 = [101]2 [010]2 = (52)8
NB: pour la conversion Octal-Hexadécimal et Hexadécimal-Octal, la plus simple méthode et
de passer par le système Binaire,
Exemple:
(34.61)8 = (011100,110001)2 = (1C.C4)16 .

3. Représentation des nombres comportant une partie fractionnaire


a. Conversion de la base 10 vers une Base quelconque
Principe de conversion
 Partie entière :
Divisions entières successives par la base (condition d’arrêt : quotient nul).
Lecture du reste
 Partie fractionnaire :
Multiplications successives par la base (condition d’arrêt : partie fractionnaire nulle).
Lecture de la partie entière
Exemple:

Ouerghemmi N & Tarhouni W 4


Soit à convertir le nombre (462 ,625)10 vers une base quelconque .Pour résoudre ce problème
il faut procéder comme suit :
Convertir la partie entière (462)
Convertir la partie fractionnaire en faisant des multiplications successives par la base et
en conservant à chaque fois le chiffre devenant entier.
(462,625)10= ()8 , (462,625)10= ()2 , (462,625)10= ()16

Partie entière
462 8
6 57 8
1 7

(462)10 => (716)8

Partie fractionnaire
0,625*8=5 ,00
Le résultat est donc : (462, 625)10 =(716,5)8
(462)10 =(716)8=(111001110)2
0,625*2=1,25
0, 25*2= 0,5
0, 5*2= 1,0
Le résultat est donc : (462, 625)10 =(111001110,101)2

(462)10 =(111001110)2= (1CE) 16

0,625*16=10 ,00

Le résultat est donc : (462, 625)10 = (1CE, A) 16

Remarque :

Parfois en multipliant la partie décimal par la Base B, on n’arrive pas à convertir toute la
partie entière .ceci est du essentiellement au fait que le nombre à convertir n’a pas un
équivalent exact dans la Base B et sa partie décimale est cyclique.

Exemple
0,1 5*2= 0,3
0 ,3*2=0,6
0 ,6*2=1,2
0 ,2*2=0,4
0 ,4*2=0,8

Ouerghemmi N & Tarhouni W 5


0 ,8*2=1,6
0 ,6*2=1,2

Le résultat est donc : (0, 15)10 = (0, 0010011001…) 2


On dit (0,15)10 est cyclique dans la Base 2 de période 1001

b. Conversion d’une Base quelconque vers la Base 10


Pour ce type de conversion, il suffit de représenter le nombre par une combinaison linéaire
des puissances successives de la Base et faire la somme, le résultat ainsi trouvé s’écrit
directement dans la BASE 10.

Exemple
(0,001011)2 =0*2-1+0*2-2+1*2-3 +0*2-4+1*2-5+1*2-6= (0,171875)10
(0,32)8 =3*8-1+2*8-2= (0,40625)10
(𝐴𝐹, 19)16 = 10 ∗ 161 + 15 ∗ 160 + 1 ∗ 16−1 + 9 ∗ 16−2 = (175,09765625

4. Représentation des nombres signés


La plupart des dispositifs numériques traitent également les nombres négatifs. Le signe (+ )
ou (-) est identifié par un bit, dit le bit de signe et le nombre ainsi formé est dit signé . On peut
identifier trois principales façons de représenter les nombres négatifs:
1. Représentation en valeur absolue et signe (VAS).
2. Représentation par le complément restreint appelé complément à 1.
3. Représentation par le complément vrai appelé complément à 2.

 La représentation en valeur absolue et signe


Il s'agit ici d'utiliser un bit pour représenter le signe de la valeur à représenter. Selon que le
nombre est positif ou négatif, le bit d'extrême gauche prendra par convention la valeur 0 ou la
valeur 1 (0 : positif, 1 : négatif). Par exemple, sur 4 bits, 1 bit sera réservé au signe et trois bits
seront utilisés pour représenter les nombres en valeur absolue:
Sur n bits:
– Signe : bit de poids fort (0 : positif, 1 : négatif)
– Valeur absolue : n − 1 bits
– Intervalle de valeurs représentées : [−2n−1 + 1,2n−1 − 1]

Exemple :

Ouerghemmi N & Tarhouni W 6


Sur 3 bits, l’intervalle de valeurs représentées : [−3, + 3]

Signe Valeur

0 0 0 0
0 0 1 1
0 1 0 2
0 1 1 3
1 0 0 -0
1 0 1 -1
1 1 0 -2
1 1 1 -3

Inconvénients: Cette méthode impose que le signe soit traité indépendamment de la valeur. Il
faut donc des circuits différents pour l'addition et la soustraction. De plus, on obtient deux
représentations différentes pour 0, soit +0 et -0.
 La notation en complément à 1
On pourrait définir le complément à 1 comme ce qu'il faut ajouter à une valeur pour obtenir la
valeur maximale représentable sur le nombre de bits disponibles. On appel complément à un
d’un nombre N un autre nombre N’ tel que :
N+N’=2n-1
n : est le nombre de bits de la représentation du nombre N.
Exemple :
Soit N=1010 sur 4 bits donc son complément à un de N :
N’= (24 - 1)-N
N’= (16-1)-(1010)2= (15 ) - (1010)2 = (1111)2 – (1010)2 = 0101
On constate que le complément à 1 d'un nombre binaire se trouve simplement en remplaçant
les 0 par des 1 et les 1 par des 0.
Notons que l'utilisation du complément à 1 pour représenter les nombres négatifs nous donne
encore une double représentation pour le 0.

Exemple :

Valeur Complément à 1
000 111
001 110

Ouerghemmi N & Tarhouni W 7


010 101
011 100

Exemple :
On va déterminer la valeur décimale représentée par la valeur 101011 en complément à 1 sur
6 bits :
Le bit poids fort indique qu'il s'agit d'un nombre négatif. Le complément à 1 de la valeur
(101011)
-CA1 (101011) = - (010100)2= - ( 24)10

 La notation en complément à 2
La représentation en complément à deux (complément à vrai) est la représentation la plus
utilisée pour la représentation des nombres négatifs dans la machine.
Le complément à 2 d'une valeur binaire est ce qu'il faut ajouter à cette valeur pour qu'elle
atteigne une unité de plus que la valeur maximale qu'on peut représenter sur n bits. C'est donc
le (complément à 1) + 1.
Cette technique élimine le problème de la double représentation du 0 (+0 et -0) comme c'est le
cas dans la représentation "signe et valeur absolue" ou celle du complément à 1.Cela
s'explique parce que

le complément à 2 permet d'éliminer la double représentation de 0 tout en gardant la facilité


de reconnaître le signe par le bit d'extrême gauche. Notons que le complément à 2 du
complément à 2 d'un nombre redonne le nombre.
Ainsi, sur 4 bits, avec le signe représenté sur le bit le plus significatif et 3 bits qui permettent
de représenter les valeurs, on peut représenter les entiers de -8 à 7, soit un entier négatif de
plus qu'un complément à 1.
Sur n bits:
- Complément à 1 : + 1. |x| + (− |x|) = 2n
- Intervalle de valeurs représentées : [−2n−1,2n−1 − 1]

Exemple :

Valeur Complément à 2
001 111
010 110
011 101

Ouerghemmi N & Tarhouni W 8


5. Opérations arithmétiques
a. L'addition
Il suffit de savoir que :
0+0=0
0+1=1
1+0=1
1+1=10
Et d’effectuer éventuellement une retenue comme dans le cas d’une addition décimal
Exemples:

1 0 1 1 0 1 1 1 1 1 1
+ 1 0 0 1 0 1 1 0 1 1
1 1 1 1 1 1 + 1 1 0 1
1 0 1 0 0 0
Remarque: L’addition s'effectue de la même manière dans les autres bases.
Exercice:
Effectuer les opérations suivantes:
(37)8 + (65)8 + (116)8 = (242)8
(D5E)16 + (2F36)16 = (3C94)16

b. La soustraction
On peut opérer comme dans la soustraction décimale. Voilà ci dessous la table de soustraction binaire:
0-0=0
0-1=1 avec un retenue de 1
1-0=1
1-1=0
Exemple:

1 1 1
1 0 1 0 0 1 1
- 1 0 1 1 0 1
0 1 0 0 1 1 0

Remarque: la soustraction s'effectue de la même manière dans les autres bases.

Ouerghemmi N & Tarhouni W 9


Exercice:
Effectuer les opérations suivantes:
(137)8 - (63)8 = (54)8
(F23)16 - (2A6)16 = (C7D)16
(FD28)16 - (E5E)16 - (2F36)16 = (FD28)16 - [ (E5E)16 + (2F36)16 ] = (FD28)16 - (3D94)16 =
(BF94)16

c. La multiplication
La multiplication en binaire est très simple, voilà la table de multiplication:
0×0= 0
0×1= 0
1×0= 0
1×1= 1

Remarque: On doit bien tenir compte des décalages.


Exemple:

1 0 1 1
1 1 0 1
× 1 0 1 1
1 0 1 1
+ 1 0 1 1
1 0 0 0 1 1 1 1

Exercice:
Effectuer les opérations suivantes:
(237)8 * (63)8 = (17655)8

2 3 7
× 6 3
+ 7 3 5
1 6 7 2
= 1 7 6 5 5

(F3)16 * (206)16 = (1EBB2)16

d. La division
La division entre deux nombres binaires est identique à la division euclidienne.

Ouerghemmi N & Tarhouni W 10


Deuxième partie

Résolution des équations non linéaires

29
Exo7

12 Zéros des fonctions

1 La dichotomie
2 La méthode de la sécante
3 La méthode de Newton

Vidéo ■ partie 1. La dichotomie


Vidéo ■ partie 2. La méthode de la sécante
Vidéo ■ partie 3. La méthode de Newton

Dans ce chapitre nous allons appliquer toutes les notions précédentes sur les suites et les fonctions,
à la recherche des zéros des fonctions. Plus précisément, nous allons voir trois méthodes afin de
trouver des approximations des solutions d’une équation du type ( f (x) = 0).

1. La dichotomie
1.1. Principe de la dichotomie
Le principe de dichotomie repose sur la version suivante du théorème des valeurs intermé-
diaires :

Théorème 31

Soit f : [a, b] → R une fonction continue sur un segment.

Si f (a) · f (b) É 0, alors il existe ` ∈ [a, b] tel que f (`) = 0.

La condition f (a) · f (b) É 0 signifie que f (a) et f (b) sont de signes opposés (ou que l’un des deux est
nul). L’hypothèse de continuité est essentielle !
y y

f (b) > 0

f (a) > 0

a ` b b
x a ` x

f (a) < 0

f (b) < 0

Ce théorème affirme qu’il existe au moins une solution de l’équation ( f (x) = 0) dans l’intervalle
[a, b]. Pour le rendre effectif, et trouver une solution (approchée) de l’équation ( f (x) = 0), il s’agit
maintenant de l’appliquer sur un intervalle suffisamment petit. On va voir que cela permet d’obte-
nir un ` solution de l’équation ( f (x) = 0) comme la limite d’une suite.
204 Zéros des fonctions

Voici comment construire une suite d’intervalles emboîtés, dont la longueur tend vers 0, et conte-
nant chacun une solution de l’équation ( f (x) = 0).
On part d’une fonction f : [a, b] → R continue, avec a < b, et f (a) · f (b) É 0.
Voici la première étape de la construction : on regarde le signe de la valeur de la fonction f
appliquée au point milieu a+2 b .
– Si f (a) · f ( a+2 b ) É 0, alors il existe c ∈ [a, a+2 b ] tel que f (c) = 0.
– Si f (a) · f ( a+2 b ) > 0, cela implique que f ( a+2 b ) · f (b) É 0, et alors il existe c ∈ [ a+2 b , b] tel que
f (c) = 0.
y
y

a+b
a 2
b x
f ( a+ b
2 )>0 f ( a+ b
2 )<0
a
a+b b x
2

Nous avons obtenu un intervalle de longueur moitié dans lequel l’équation ( f (x) = 0) admet une
solution. On itère alors le procédé pour diviser de nouveau l’intervalle en deux.
Voici le processus complet :
– Au rang 0 :
On pose a 0 = a, b 0 = b. Il existe une solution x0 de l’équation ( f (x) = 0) dans l’intervalle
[a 0 , b 0 ].
– Au rang 1 :
– Si f (a 0 ) · f ( a0 +2 b0 ) É 0, alors on pose a 1 = a 0 et b 1 = a0 +2 b0 ,
– sinon on pose a 1 = a0 +2 b0 et b 1 = b.
– Dans les deux cas, il existe une solution x1 de l’équation ( f (x) = 0) dans l’intervalle [a 1 , b 1 ].
– ...
– Au rang n : supposons construit un intervalle [a n , b n ], de longueur b2−na , et contenant une
solution xn de l’équation ( f (x) = 0). Alors :
– Si f (a n ) · f ( a n +2 b n ) É 0, alors on pose a n+1 = a n et b n+1 = a n +2 b n ,
– sinon on pose a n+1 = a n +2 b n et b n+1 = b n .
– Dans les deux cas, il existe une solution xn+1 de l’équation ( f (x) = 0) dans l’intervalle
[a n+1 , b n+1 ].
À chaque étape on a
a n É xn É b n .
On arrête le processus dès que b n − a n = b2−na est inférieur à la précision souhaitée.
Comme (a n ) est par construction une suite croissante, (b n ) une suite décroissante, et (b n − a n ) → 0
lorsque n → +∞, les suites (a n ) et (b n ) sont adjacentes et donc elles admettent une même limite.
D’après le théorème des gendarmes, c’est aussi la limite disons ` de la suite (xn ). La continuité de
f montre que f (`) = limn→+∞ f (xn ) = limn→+∞ 0 = 0. Donc les suites (a n ) et (b n ) tendent toutes les
deux vers `, qui est une solution de l’équation ( f (x) = 0).

p
1.2. Résultats numériques pour 10
p
Nous allons calculer une approximation de 10. Soit la fonction f définie par f (x) = x2 − 10, c’est
p p
une fonction continue sur R qui s’annule en ± 10. De plus 10 est l’unique solution positive de
Zéros des fonctions 205

l’équation ( f (x) = 0). Nous pouvons restreindre la fonction f à l’intervalle [3, 4] : en effet 32 = 9 É 10
p p
donc 3 É 10 et 42 = 16 Ê 10 donc 4 Ê 10. En d’autre termes f (3) É 0 et f (4) Ê 0, donc l’équation
( f (x) = 0) admet une solution dans l’intervalle [3, 4] d’après le théorème des valeurs intermédiaires,
p p
et par unicité c’est 10, donc 10 ∈ [3, 4].
p p
Notez que l’on ne choisit pas pour f la fonction x 7→ x − 10 car on ne connaît pas la valeur de 10.
C’est ce que l’on cherche à calculer !

3 4
x
3.125

3.25

Voici les toutes premières étapes : 3.5

1. On pose a 0 = 3 et b 0 = 4, on a bien f (a 0 ) É 0 et f (b 0 ) Ê 0. On calcule a0 +2 b0 = 3, 5 puis f ( a0 +2 b0 ) :


p
f (3, 5) = 3, 52 − 10 = 2, 25 Ê 0. Donc 10 est dans l’intervalle [3; 3, 5] et on pose a 1 = a 0 = 3 et
b 1 = a0 +2 b0 = 3, 5.

2. On sait donc que f (a 1 ) É 0 et f (b 1 ) Ê 0. On calcule f ( a1 +2 b1 ) = f (3, 25) = 0, 5625 Ê 0, on pose


a 2 = 3 et b 2 = 3, 25.

3. On calcule f ( a2 +2 b2 ) = f (3, 125) = −0, 23 . . . É 0. Comme f (b 2 ) Ê 0 alors cette fois f s’annule sur
le second intervalle [ a2 +2 b2 , b 2 ] et on pose a 3 = a2 +2 b2 = 3, 125 et b 3 = b 2 = 3, 25.
p
À ce stade, on a prouvé : 3, 125 É 10 É 3, 25.
Voici la suite des étapes :
a0 = 3 b0 = 4
a1 = 3 b 1 = 3, 5
a2 = 3 b 2 = 3, 25
a 3 = 3, 125 b 3 = 3, 25
a 4 = 3, 125 b 4 = 3, 1875
a 5 = 3, 15625 b 5 = 3, 1875
a 6 = 3, 15625 b 6 = 3, 171875
a 7 = 3, 15625 b 7 = 3, 164062 . . .
a 8 = 3, 16015 . . . b 8 = 3, 164062 . . .

Donc en 8 étapes on obtient l’encadrement :

p
3, 160 É 10 É 3, 165

p
En particulier, on vient d’obtenir les deux premières décimales : 10 = 3, 16 . . .

1.3. Résultats numériques pour (1, 10)1/12

Nous cherchons maintenant une approximation de (1, 10)1/12 . Soit f (x) = x12 − 1, 10. On pose a 0 = 1
et b 0 = 1, 1. Alors f (a 0 ) = −0, 10 É 0 et f (b 0 ) = 2, 038 . . . Ê 0.
206 Zéros des fonctions

a0 = 1 b 0 = 1, 10
a1 = 1 b 1 = 1, 05
a2 = 1 b 2 = 1, 025
a3 = 1 b 3 = 1, 0125
a 4 = 1, 00625 b 4 = 1, 0125
a 5 = 1, 00625 b 5 = 1, 00937 . . .
a 6 = 1, 00781 . . . b 6 = 1, 00937 . . .
a 7 = 1, 00781 . . . b 7 = 1, 00859 . . .
a 8 = 1, 00781 . . . b 8 = 1, 00820 . . .

Donc en 8 étapes on obtient l’encadrement :

1, 00781 É (1, 10)1/12 É 1, 00821

1.4. Calcul de l’erreur


La méthode de dichotomie a l’énorme avantage de fournir un encadrement d’une solution ` de
l’équation ( f (x) = 0). Il est donc facile d’avoir une majoration de l’erreur. En effet, à chaque étape,
la taille l’intervalle contenant ` est divisée par 2. Au départ, on sait que ` ∈ [a, b] (de longueur
b − a) ; puis ` ∈ [a 1 , b 1 ] (de longueur b−2 a ) ; puis ` ∈ [a 2 , b 2 ] (de longueur b−4 a ) ; ... ; [a n , b n ] étant de
longueur b2−na .
Si, par exemple, on souhaite obtenir une approximation de ` à 10− N près, comme on sait que
a n É ` É b n , on obtient |` − a n | É | b n − a n | = b2−na . Donc pour avoir |` − a n | É 10− N , il suffit de choisir
n tel que b2−na É 10− N .
Nous allons utiliser le logarithme décimal :

b−a
É 10− N ⇐⇒ (b − a)10 N É 2n
2n
⇐⇒ log(b − a) + log(10 N ) É log(2n )
⇐⇒ log(b − a) + N É n log 2
N + log(b − a)
⇐⇒ n Ê
log 2

Sachant log 2 = 0, 301 . . ., si par exemple b − a É 1, voici le nombre d’itérations suffisantes pour avoir
une précision de 10− N (ce qui correspond, à peu près, à N chiffres exacts après la virgule).

10−10 (∼ 10 décimales) 34 itérations


10−100 (∼ 100 décimales) 333 itérations
10−1000 (∼ 1000 décimales) 3322 itérations

Il faut entre 3 et 4 itérations supplémentaires pour obtenir une nouvelle décimale.

Remarque

En toute rigueur il ne faut pas confondre précision et nombre de décimales exactes, par
exemple 0, 999 est une approximation de 1, 000 à 10−3 près, mais aucune décimale après la
virgule n’est exacte. En pratique, c’est la précision qui est la plus importante, mais il est plus
frappant de parler du nombre de décimales exactes.
Zéros des fonctions 207

1.5. Algorithmes
Voici comment implémenter la dichotomie dans le langage Python. Tout d’abord on définit une
fonction f (ici par exemple f (x) = x2 − 10) :
Algorithme . dichotomie.py (1)

def f(x):
return x*x - 10

Puis la dichotomie proprement dite : en entrée de la fonction, on a pour variables a, b et n le


nombre d’étapes voulues.
Algorithme . dichotomie.py (2)

def dicho(a,b,n):
for i in range(n):
c = (a+b)/2
if f(a)*f(c) <= 0:
b = c
else:
a = c
return a,b

Même algorithme, mais avec cette fois en entrée la précision souhaitée :


Algorithme . dichotomie.py (3)

def dichobis(a,b,prec):
while b-a>prec:
c = (a+b)/2
if f(a)*f(c) <= 0:
b = c
else:
a = c
return a,b

Enfin, voici la version récursive de l’algorithme de dichotomie.


Algorithme . dichotomie.py (4)

def dichotomie(a,b,prec):
if b-a<=prec:
return a,b
else:
c = (a+b)/2
if f(a)*f(c) <= 0:
return dichotomie(a,c,prec)
else:
208 Zéros des fonctions

return dichotomie(c,b,prec)

Mini-exercices
p p
3
1. À la main, calculer un encadrement à 0, 1 près de 3. Idem avec 2.
2. Calculer une approximation des solutions de l’équation x3 + 1 = 3x.
3. Est-il plus efficace de diviser l’intervalle en 4 au lieu d’en 2 ? (À chaque itération, la
dichotomie classique nécessite l’évaluation de f en une nouvelle valeur a+2 b pour une
précision améliorée d’un facteur 2.)
4. Écrire un algorithme pour calculer plusieurs solutions de ( f (x) = 0).
5. On se donne un tableau trié de taille N, rempli de nombres appartenant à {1, . . . , n}.
Écrire un algorithme qui teste si une valeur k apparaît dans le tableau et en quelle
position.

2. La méthode de la sécante

2.1. Principe de la sécante


L’idée de la méthode de la sécante est très simple : pour une fonction f continue sur un intervalle
[a, b], et vérifiant f (a) É 0, f (b) > 0, on trace le segment [AB] où A = (a, f (a)) et B = (b, f (b)). Si le
segment reste au-dessus du graphe de f alors la fonction s’annule sur l’intervalle [a0 , b] où (a0 , 0)
est le point d’intersection de la droite (AB) avec l’axe des abscisses. La droite (AB) s’appelle la
sécante. On recommence en partant maintenant de l’intervalle [a0 , b] pour obtenir une valeur a00 .

a a0 a00 b
x
A 00
A0
A
Zéros des fonctions 209

Proposition 82

Soit f : [a, b] → R une fonction continue, strictement croissante et convexe telle que f (a) É 0,
f (b) > 0. Alors la suite définie par

b − an
a0 = a et a n+1 = a n − f (a n )
f (b) − f (a n )

est croissante et converge vers la solution ` de ( f (x) = 0).

L’hypothèse f convexe signifie exactement que pour tout x, x0 dans [a, b] la sécante (ou corde)
entre (x, f (x)) et (x0 , f (x0 )) est au-dessus du graphe de f .

(x0 , f (x0 ))
x
x0 x

(x, f (x))

Démonstration

1. Justifions d’abord la construction de la suite récurrente.


L’équation de la droite passant par les deux points (a, f (a)) et ( b, f ( b)) est

f ( b ) − f ( a)
y = ( x − a) + f ( a)
b−a
f ( b )− f ( a )
Cette droite intersecte l’axe des abscisses en (a0 , 0) qui vérifie donc 0 = (a0 − a) b−a + f (a),
donc a0 = a − f (bb)−
−a
f (a) f (a).
2. Croissance de (a n ).
Montrons par récurrence que f (a n ) É 0. C’est vrai au rang 0 car f (a 0 ) = f (a) É 0 par hypothèse.
Supposons vraie l’hypothèse au rang n. Si a n+1 < a n (un cas qui s’avérera a posteriori jamais réa-
lisé), alors comme f est strictement croissante, on a f (a n+1 ) < f (a n ), et en particulier f (a n+1 ) É 0.
Sinon a n+1 Ê a n . Comme f est convexe : la sécante entre (a n , f (a n )) et ( b, f ( b)) est au-dessus
du graphe de f . En particulier le point (a n+1 , 0) (qui est sur cette sécante par définition a n+1 )
est au-dessus du point (a n+1 , f (a n+1 )), et donc f (a n+1 ) É 0 aussi dans ce cas, ce qui conclut la
récurrence.
b−a n
Comme f (a n ) É 0 et f est croissante, alors par la formule a n+1 = a n − f ( b )− f ( a n ) f (a n ), on obtient
que a n+1 Ê a n .
3. Convergence de (a n ).
La suite (a n ) est croissante et majorée par b, donc elle converge. Notons ` sa limite. Par
continuité f (a n ) → f (`). Comme pour tout n, f (a n ) É 0, on en déduit que f (`) É 0. En parti-
culier, comme on suppose f ( b) > 0, on a ` < b. Comme a n → `, a n+1 → `, f (a n ) → f (`), l’égalité
a n+1 = a n − f (bb)−
−a n b−`
f (a n ) f (a n ) devient à la limite (lorsque n → +∞) : ` = ` − f ( b)− f (`) f (`), ce qui
implique f (`) = 0.
Conclusion : (a n ) converge vers la solution de ( f ( x) = 0).
210 Zéros des fonctions

p
2.2. Résultats numériques pour 10

Pour a = 3, b = 4, f (x) = x2 − 10 voici les résultats numériques, est aussi indiquée une majoration
p
de l’erreur εn = 10 − a n (voir ci-après).

a0 = 3 ε0 É 0, 1666 . . .
a 1 = 3, 14285714285 . . . ε1 É 0, 02040 . . .
a 2 = 3, 16000000000 . . . ε2 É 0, 00239 . . .
a 3 = 3, 16201117318 . . . ε3 É 0, 00028 . . .
a 4 = 3, 16224648985 . . . ε4 É 3, 28 . . . · 10−5
a 5 = 3, 16227401437 . . . ε5 É 3, 84 . . . · 10−6
a 6 = 3, 16227723374 . . . ε6 É 4, 49 . . . · 10−7
a 7 = 3, 16227761029 . . . ε7 É 5, 25 . . . · 10−8
a 8 = 3, 16227765433 . . . ε8 É 6, 14 . . . · 10−9

2.3. Résultats numériques pour (1, 10)1/12


Voici les résultats numériques avec une majoration de l’erreur εn = (1, 10)1/12 − a n , avec f (x) =
x12 − 1, 10, a = 1 et b = 1, 1

a0 = 1 ε0 É 0, 0083 . . .
a 1 = 1, 00467633 . . . ε1 É 0, 0035 . . .
a 2 = 1, 00661950 . . . ε2 É 0, 0014 . . .
a 3 = 1, 00741927 . . . ε3 É 0, 00060 . . .
a 4 = 1, 00774712 . . . ε4 É 0, 00024 . . .
a 5 = 1, 00788130 . . . ε5 É 0, 00010 . . .
a 6 = 1, 00793618 . . . ε6 É 4, 14 . . . · 10−5
a 7 = 1, 00795862 . . . ε7 É 1, 69 . . . · 10−5
a 8 = 1, 00796779 . . . ε8 É 6, 92 . . . · 10−6

2.4. Calcul de l’erreur


La méthode de la sécante fournit l’encadrement a n É l É b. Mais comme b est fixe cela ne donne
pas d’information exploitable pour | l − a n |. Voici une façon générale d’estimer l’erreur, à l’aide du
théorème des accroissements finis.

Proposition 83

Soit f : I → R une fonction dérivable et ` tel que f (`) = 0. S’il existe une constante m > 0 telle
que pour tout x ∈ I, | f 0 (x)| Ê m alors

| f (x)|
| x − `| É pour tout x ∈ I.
m

Démonstration

Par l’inégalité des accroissement finis entre x et ` : | f ( x) − f (`)| Ê m| x − `| mais f (`) = 0, d’où la
majoration.
Zéros des fonctions 211

p
Exemple 112. Erreur pour 10

Soit f (x) = x2 − 10 et l’intervalle I = [3, 4]. Alors f 0 (x) = 2x donc | f 0 (x)| Ê 6 sur I. On pose donc
p
m = 6, ` = 10, x = a n . On obtient l’estimation de l’erreur :

| f (a n )| |a2n − 10|
εn = |` − a n | É =
m 6
p |3,172 −10|
Par exemple on a trouvé a 2 = 3, 16... É 3, 17 donc 10 − a 2 É 6 = 0, 489.
p |a28 −10|
Pour a 8 on a trouvé a 8 = 3, 1622776543347473 . . . donc 10 − a 8 É 6 = 6, 14 . . . · 10−9 . On a
en fait 7 décimales exactes après la virgule.

Dans la pratique, voici le nombre d’itérations suffisantes pour avoir une précision de 10−n pour
cet exemple. Grosso-modo, une itération de plus donne une décimale supplémentaire.
10−10 (∼ 10 décimales) 10 itérations
10−100 (∼ 100 décimales) 107 itérations
10−1000 (∼ 1000 décimales) 1073 itérations

Exemple 113. Erreur pour (1, 10)1/12

On pose f (x) = x12 − 1, 10, I = [1; 1, 10] et ` = (1, 10)1/12 . Comme f 0 (x) = 12x11 , si on pose de plus
m = 12, on a | f 0 (x)| Ê m pour x ∈ I. On obtient

|a12
n − 1, 10|
εn = |` − a n | É .
12
Par exemple a 8 = 1.0079677973185432 . . . donc

|a12
8 − 1, 10|
|(1, 10)1/12 − a 8 | É = 6, 92 . . . · 10−6 .
12

2.5. Algorithme
Voici l’algorithme : c’est tout simplement la mise en œuvre de la suite récurrente (a n ).
Algorithme . secante.py

def secante(a,b,n):
for i in range(n):
a = a-f(a)*(b-a)/(f(b)-f(a))
return a

Mini-exercices
p p
3
1. À la main, calculer un encadrement à 0, 1 près de 3. Idem avec 2.
2. Calculer une approximation des solutions de l’équation x3 + 1 = 3x.
3. Calculer une approximation de la solution de l’équation (cos x = 0) sur [0, π]. Idem avec
(cos x = 2 sin x).
212 Zéros des fonctions

4. Étudier l’équation (exp(− x) = − ln(x)). Donner une approximation de la (ou des) solu-
tion(s) et une majoration de l’erreur correspondante.

3. La méthode de Newton

3.1. Méthode de Newton


La méthode de Newton consiste à remplacer la sécante de la méthode précédente par la tangente.
Elle est d’une redoutable efficacité.
Partons d’une fonction dérivable f : [a, b] → R et d’un point u 0 ∈ [a, b]. On appelle (u 1 , 0) l’inter-
section de la tangente au graphe de f en (u 0 , f (u 0 )) avec l’axe des abscisses. Si u 1 ∈ [a, b] alors
on recommence l’opération avec la tangente au point d’abscisse u 1 . Ce processus conduit à la
définition d’une suite récurrente :

f (u n )
u 0 ∈ [a, b] et u n+1 = u n − .
f 0 (u n )

Démonstration

En effet la tangente au point d’abscisse u n a pour équation : y = f 0 ( u n )( x− u n )+ f ( u n ). Donc le point ( x, 0)


f (u )
appartenant à la tangente (et à l’axe des abscisses) vérifie 0 = f 0 ( u n )( x − u n ) + f ( u n ). D’où x = u n − f 0 (un ) .
n

f (u n )

un
u n+1

p
3.2. Résultats pour 10
p
Pour calculer a, on pose f (x) = x2 − a, avec f 0 (x) = 2x. La suite issue de la méthode de Newton
u2 −a
est déterminée par u 0 > 0 et la relation de récurrence u n+1 = u n − 2nu n . Suite qui pour cet exemple
s’appelle suite de Héron et que l’on récrit souvent

1 a
µ ¶
u0 > 0 et u n+1 = un + .
2 un
Zéros des fonctions 213

Proposition 84
p
Cette suite (u n ) converge vers a.

p
Pour le calcul de 10, on pose par exemple u 0 = 4, et on peut même commencer les calculs à la
main :

u0 = 4 ³ ´
1
u 0 + 10 1 10
¢ 13
u1 = u 0 = 2 Ã4 + 4 = = 3, 25
¡
2 ! 4
³ ´
u 2 = 21 u 1 + 10 1 13 10 329
u 1 = 2 4 + 13 = 104 = 3, 1634 . . .
³ ´ 4
u 3 = 21 u 2 + 10
u2 = 216 401
68 432 = 3, 16227788 . . .
u 4 = 3, 162277660168387 . . .
p
Pour u 4 on obtient 10 = 3, 1622776601683 . . . avec déjà 13 décimales exactes !
p
Voici la preuve de la convergence de la suite (u n ) vers a.
Démonstration

1 a
µ ¶
u0 > 0 et u n+1 = un + .
2 un
p
1. Montrons que u n Ê a pour n Ê 1.
Tout d’abord
¶2
1 u2n + a 1 1 ( u2n − a)2
µ
u2n+1 − a = −a= 2
( u4n − 2au2n + a2 ) =
4 un 4u n 4 u2n

Donc u2n+1 − a Ê 0. Comme il est clair que pour tout n Ê 0, u n Ê 0, on en déduit que pour tout
p
n Ê 0, u n+1 Ê a. (Notez que u 0 lui est quelconque.)
2. Montrons que ( u n³)nÊ1 est
´ une suite décroissante qui converge.
Comme uun+n 1 = 12 1 + a2 , et que pour n Ê 1 on vient de voir que u2n Ê a (donc a
É 1), alors
un u2n
u n+1
un É 1, pour tout n É 1.
Conséquence : la suite ( u n )nÊ1 est décroissante et minorée par 0 donc elle converge.
p
3. ( u n ) converge vers a.
Notons ` la
´ limite de ( u n ). Alors u n → ` et u n+1 → `. Lorsque n → +∞ dans la relation u n+1 =
1
³
a 1 a
u , on obtient ` ` . Ce qui conduit à la relation `2 = a et par positivité de la
¡ ¢
2 n + un = 2 + `
p
suite, ` = a.

3.3. Résultats numériques pour (1, 10)1/12


Pour calculer (1, 10)1/12 , on pose f (x) = x12 − a avec a = 1, 10. On a f 0 (x) = 12x11 . On obtient u n+1 =
u12 −a
u n − 12n u11 . Ce que l’on reformule ainsi :
n

1 a
µ ¶
u 0 > 0 et u n+1 = 11u n + 11 .
12 un
Voici les résultats numériques pour (1, 10)1/12 en partant de u 0 = 1.
u0 = 1
u 1 = 1, 0083333333333333 . . .
u 2 = 1, 0079748433368980 . . .
u 3 = 1, 0079741404315996 . . .
u 4 = 1, 0079741404289038 . . .
214 Zéros des fonctions

Toutes les décimales affichées pour u 4 sont exactes : (1, 10)1/12 = 1, 0079741404289038 . . .

p
3.4. Calcul de l’erreur pour 10

Proposition 85
p
1. Soit k tel que u 1 − a É k. Alors pour tout n Ê 1 :
¶2n−1
p p k
µ
un − a É 2 a p
2 a

2. Pour a = 10, u 0 = 4, on a :
µ ¶2n−1
p 1
u n − 10 É 8
24

Admirez la puissance de la méthode de Newton : 11 itérations donnent déjà 1000 décimales exactes
après la virgule. Cette rapidité de convergence se justifie grâce au calcul de l’erreur : la précision
est multipliée par 2 à chaque étape, donc à chaque itération le nombre de décimales exactes double !

10−10 (∼ 10 décimales) 4 itérations


10−100 (∼ 100 décimales) 8 itérations
10−1000 (∼ 1000 décimales) 11 itérations

Démonstration

1. Dans la preuve de la proposition 84, nous avons vu l’égalité :


p p
( u2n − a)2 p p ( u n − a)2 ( u n + a)2
u2n+1 − a = donc ( u n+1 − a)( u n+1 + a) =
4 u2n 4 u2n
p
Ainsi comme u n Ê a pour n Ê 1 :
p ¶2
p p 1 1 a p 1 1 1 p
µ
u n+1 − a = ( u n − a)2 × p × 1+ É ( u n − a)2 × p × · (1 + 1)2 = p ( u n − a)2
u n+1 + a 4 un 2 a 4 2 a
p
Si k vérifie u 1 − a É k, nous allons en déduire par récurrence, pour tout n Ê 1, la formule
¶2n−1
p p k
µ
un − a É 2 a p
2 a

C’est vrai pour n = 1. Supposons la formule vraie au rang n, alors :


õ ¶2n−1 !2 ¶2n
p 1 p 1 p k p k
µ
u n+1 − a É p ( u n − a)2 = p (2 a)2 p =2 a p
2 a 2 a 2 a 2 a

La formule est donc vrai au rang suivant.


p p
2. Pour a = 10 avec u 0 = 4 on a u 1 = 3, 25. Comme 3 É 10 É 4 alors u 1 − 10 É u 1 − 3 É 14 . On fixe
p
donc k = 41 . Toujours par l’encadrement 3 É 10 É 4, la formule obtenue précédemment devient

à 1
!2n−1 ¶2n−1
p 1
µ
4
un − a É 2 · 4 =8 .
2·3 24
Zéros des fonctions 215

3.5. Algorithme
p
Voici l’algorithme pour le calcul de a. On précise en entrée le réel a Ê 0 dont on veut calculer la
racine et le nombre n d’itérations.
Algorithme . newton.py

def racine_carree(a,n):
u=4 # N'importe qu'elle valeur > 0
for i in range(n):
u = 0.5*(u+a/u)
return u

p
En utilisant le module decimal le calcul de u n pour n = 11 donne 1000 décimales de 10 :

3,
16227766016837933199889354443271853371955513932521
68268575048527925944386392382213442481083793002951
87347284152840055148548856030453880014690519596700
15390334492165717925994065915015347411333948412408
53169295770904715764610443692578790620378086099418
28371711548406328552999118596824564203326961604691
31433612894979189026652954361267617878135006138818
62785804636831349524780311437693346719738195131856
78403231241795402218308045872844614600253577579702
82864402902440797789603454398916334922265261206779
26516760310484366977937569261557205003698949094694
21850007358348844643882731109289109042348054235653
40390727401978654372593964172600130699000095578446
31096267906944183361301813028945417033158077316263
86395193793704654765220632063686587197822049312426
05345411160935697982813245229700079888352375958532
85792513629646865114976752171234595592380393756251
25369855194955325099947038843990336466165470647234
99979613234340302185705218783667634578951073298287
51579452157716521396263244383990184845609357626020

Mini-exercices
p
1. À la calculette, calculer les trois premières étapes pour une approximation de 3, sous
p3
forme de nombres rationnels. Idem avec 2.
2. Implémenter la méthode de Newton, étant données une fonction f et sa dérivée f 0 .
3. Calculer une approximation des solutions de l’équation x3 + 1 = 3x.
4. Soit a > 0. Comment calculer a1 par une méthode de Newton ?
p ³ ´
5. Calculer n de sorte que u n − 10 É 10−` (avec u 0 = 4, u n+1 = 12 u n + uan , a = 10).
Troisième partie

Éléments des Statistiques descriptives et


Calcul de Probabilités

43
Chapitre 1

Variables, données
statistiques, tableaux,
effectifs

1.1 Définitions fondamentales


1.1.1 La science statistique
– Méthode scientifique du traitement des données quantitatives.
– Etymologiquement : science de l’état.
– La statistique s’applique à la plupart des disciplines : agronomie, biologie,
démographie, économie, sociologie, linguistique, psychologie, . . .

1.1.2 Mesure et variable


– On s’intéresse à des unités statistiques ou unités d’observation : par exemple
des individus, des entreprises, des ménages. En sciences humaines, on
s’intéresse dans la plupart des cas à un nombre fini d’unités.
– Sur ces unités, on mesure un caractère ou une variable, le chiffre d’affaires
de l’entreprise, le revenu du ménage, l’âge de la personne, la catégorie so-
cioprofessionnelle d’une personne. On suppose que la variable prend tou-
jours une seule valeur sur chaque unité. Les variables sont désignées par
simplicité par une lettre (X, Y, Z).
– Les valeurs possibles de la variable, sont appelées modalités.
– L’ensemble des valeurs possibles ou des modalités est appelé le domaine
de la variable.

1.1.3 Typologie des variables


– Variable qualitative : La variable est dite qualitative quand les modalités

9
10CHAPITRE 1. VARIABLES, DONNÉES STATISTIQUES, TABLEAUX, EFFECTIFS

sont des catégories.


– Variable qualitative nominale : La variable est dite qualitative nominale
quand les modalités ne peuvent pas être ordonnées.
– Variable qualitative ordinale : La variable est dite qualitative ordinale
quand les modalités peuvent être ordonnées. Le fait de pouvoir ou non
ordonner les modalités est parfois discutable. Par exemple : dans les
catégories socioprofessionnelles, on admet d’ordonner les modalités :
‘ouvriers’, ‘employés’, ‘cadres’. Si on ajoute les modalités ‘sans profes-
sion’, ‘enseignant’, ‘artisan’, l’ordre devient beaucoup plus discutable.
– Variable quantitative : Une variable est dite quantitative si toute ses va-
leurs possibles sont numériques.
– Variable quantitative discrète : Une variable est dite discrète, si l’en-
semble des valeurs possibles est dénombrable.
– Variable quantitative continue : Une variable est dite continue, si l’en-
semble des valeurs possibles est continu.

Remarque 1.1 Ces définitions sont à relativiser, l’âge est théoriquement


une variable quantitative continue, mais en pratique, l’âge est mesuré dans le
meilleur des cas au jour près. Toute mesure est limitée en précision !

Exemple 1.1 Les modalités de la variable sexe sont masculin (codé M) et


féminin (codé F). Le domaine de la variable est {M, F }.

Exemple 1.2 Les modalités de la variable nombre d’enfants par famille sont
0,1,2,3,4,5,. . .C’est une variable quantitative discrète.

1.1.4 Série statistique


On appelle série statistique la suite des valeurs prises par une variable X sur
les unités d’observation.
Le nombre d’unités d’observation est noté n.
Les valeurs de la variable X sont notées

x1 , . . . , xi , . . . , xn .

Exemple 1.3 On s’intéresse à la variable ‘état-civil’ notée X et à la série sta-


tistique des valeurs prises par X sur 20 personnes. La codification est

C: célibataire,
M: marié(e),
V: veuf(ve),
D: divorcée.
1.2. VARIABLE QUALITATIVE NOMINALE 11

Le domaine de la variable X est {C, M, V, D}. Considérons la série statistique


suivante :
M M D C C M C C C M
C M V M V D C C C M

Ici, n = 20,

x1 = M, x2 = M, x3 = D, x4 = C, x5 = C, . . . ., x20 = M.

1.2 Variable qualitative nominale


1.2.1 Effectifs, fréquences et tableau statistique
Une variable qualitative nominale a des valeurs distinctes qui ne peuvent
pas être ordonnées. On note J le nombre de valeurs distinctes ou modalités.
Les valeurs distinctes sont notées x1 , . . . , xj , . . . , xJ . On appelle effectif d’une
modalité ou d’une valeur distincte, le nombre de fois que cette modalité (ou
valeur distincte) apparaı̂t. On note nj l’effectif de la modalité xj . La fréquence
d’une modalité est l’effectif divisé par le nombre d’unités d’observation.
nj
fj = , j = 1, . . . , J.
n
Exemple 1.4 Avec la série de l’exemple précédent, on obtient le tableau sta-

tistique :
xj nj fj
C 9 0.45
M 7 0.35
V 2 0.10
D 2 0.10
n = 20 1
12CHAPITRE 1. VARIABLES, DONNÉES STATISTIQUES, TABLEAUX, EFFECTIFS

En langage R

>X=c(’Marié(e)’,’Marié(e)’,’Divorcé(e)’,’Célibataire’,’Célibataire’,’Marié(e)’,’Célibatai
’Célibataire’,’Célibataire’,’Marié(e)’,’Célibataire’,’Marié(e)’,’Veuf(ve)’,’Marié(e)
’Veuf(ve)’,’Divorcé(e)’,’Célibataire’,’Célibataire’,’Célibataire’,’Marié(e)’)
> T1=table(X)
> V1=c(T1)
> data.frame(Eff=V1,Freq=V1/sum(V1))
Eff Freq
Célibataire 9 0.45
Divorcé(e) 2 0.10
Marié(e) 7 0.35
Veuf(ve) 2 0.10

1.2.2 Diagramme en secteurs et diagramme en barres


Le tableau statistique d’une variable qualitative nominale peut être représenté
par deux types de graphique. Les effectifs sont représentés par un diagramme
en barres et les fréquences par un diagramme en secteurs (ou camembert ou
piechart en anglais) (voir Figures 1.1 et 1.2).

Célibataire

Divorcé(e)

Veuf(ve)

Marié(e)

Figure 1.1 – Diagramme en secteurs des fréquences

En langage R

> pie(T1,radius=1.0)
1.3. VARIABLE QUALITATIVE ORDINALE 13

10
8
6
4
2
0

Célibataire Divorcé(e) Marié(e) Veuf(ve)

Figure 1.2 – Diagramme en barres des effectifs

En langage R
>m=max(V1)
>barplot(T1, ylim=c(0,m+1))

1.3 Variable qualitative ordinale


1.3.1 Le tableau statistique
Les valeurs distinctes d’une variable ordinale peuvent être ordonnées, ce
qu’on écrit
x1 ≺ x2 ≺ · · · ≺ xj−1 ≺ xj ≺ · · · ≺ xJ−1 ≺ xJ .
La notation x1 ≺ x2 se lit x1 précède x2 .
Si la variable est ordinale, on peut calculer les effectifs cumulés :
j

Nj = nk , j = 1, . . . , J.
k=1

On a N1 = n1 et NJ = n. On peut également calculer les fréquences cumulées

∑ j
Nj
Fj = = fk , j = 1, . . . , J.
n
k=1

Exemple 1.5 On interroge 50 personnes sur leur dernier diplôme obtenu (va-
riable Y ). La codification a été faite selon le Tableau 1.1. On a obtenu la série
14CHAPITRE 1. VARIABLES, DONNÉES STATISTIQUES, TABLEAUX, EFFECTIFS

Table 1.1 – Codification de la variable Y

Dernier diplôme obtenu xj


Sans diplôme Sd
Primaire P
Secondaire Se
Supérieur non-universitaire Su
Universitaire U

Table 1.2 – Série statistique de la variable Y

Sd Sd Sd Sd P P P P P P P P P P P Se Se
Se Se Se Se Se Se Se Se Se Se Se Se Su Su Su Su Su
Su Su Su Su U U U U U U U U U U U U

Table 1.3 – Tableau statistique complet

xj nj Nj fj Fj
Sd 4 4 0.08 0.08
P 11 15 0.22 0.30
Se 14 29 0.28 0.58
Su 9 38 0.18 0.76
U 12 50 0.24 1.00
50 1.00

statistique présentée dans le tableau 1.2. Finalement, on obtient le tableau sta-


tistique complet présenté dans le Tableau 1.3.

En langage R

> YY=c("Sd","Sd","Sd","Sd","P","P","P","P","P","P","P","P","P","P","P",
"Se","Se","Se","Se","Se","Se","Se","Se","Se","Se","Se","Se","Se","Se",
"Su","Su","Su","Su","Su","Su","Su","Su","Su",
"U","U","U","U","U","U","U","U","U","U","U","U")
YF=factor(YY,levels=c("Sd","P","Se","Su","U"))
T2=table(YF)
V2=c(T2)
> data.frame(Eff=V2,EffCum=cumsum(V2),Freq=V2/sum(V2),FreqCum=cumsum(V2/sum(V2)))
Eff EffCum Freq FreqCum
Sd 4 4 0.08 0.08
1.3. VARIABLE QUALITATIVE ORDINALE 15

P 11 15 0.22 0.30
Se 14 29 0.28 0.58
Su 9 38 0.18 0.76
U 12 50 0.24 1.00

1.3.2 Diagramme en secteurs


Les fréquences d’une variable qualitative ordinale sont représentées au moyen
d’un diagramme en secteurs (voir Figure 1.3).

Se
Sd

U
Su

Figure 1.3 – Diagramme en secteurs des fréquences

En langage R
> pie(T2,radius=1)

1.3.3 Diagramme en barres des effectifs


Les effectifs d’une variable qualitative ordinale sont représentés au moyen
d’un diagramme en barres (voir Figure 1.4).

En langage R
> barplot(T2)
16CHAPITRE 1. VARIABLES, DONNÉES STATISTIQUES, TABLEAUX, EFFECTIFS

14
12
10
8
6
4
2
0

Sd P Se Su U

Figure 1.4 – Diagramme en barres des effectifs

1.3.4 Diagramme en barres des effectifs cumulés


Les effectifs cumulés d’une variable qualitative ordinale sont représentés au
moyen d’un diagramme en barres (voir Figure 1.5).
50
40
30
20
10
0

Sd P Se Su U

Figure 1.5 – Diagramme en barres des effectifs cumulés


1.4. VARIABLE QUANTITATIVE DISCRÈTE 17

En langage R

> T3=cumsum(T2)
> barplot(T3)

1.4 Variable quantitative discrète


1.4.1 Le tableau statistique
Une variable discrète a un domaine dénombrable.

Exemple 1.6 Un quartier est composé de 50 ménages, et la variable Z représente


le nombre de personnes par ménage. Les valeurs de la variable sont

1 1 1 1 1 2 2 2 2 2
2 2 2 2 3 3 3 3 3 3
3 3 3 3 3 3 3 3 3 4
4 4 4 4 4 4 4 4 4 5
5 5 5 5 5 6 6 6 8 8

Comme pour les variables qualitatives ordinales, on peut calculer les effectifs,
les effectifs cumulés, les fréquences, les fréquences cumulées. À nouveau, on peut
construire le tableau statistique :

xj nj Nj fj Fj
1 5 5 0.10 0.10
2 9 14 0.18 0.28
3 15 29 0.30 0.58
4 10 39 0.20 0.78
5 6 45 0.12 0.90
6 3 48 0.06 0.96
8 2 50 0.04 1.00
50 1.0

En langage R

> Z=c(1,1,1,1,1,2,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,4,
+ 4,4,4,4,4,4,4,4,4,5,5,5,5,5,5,6,6,6,8,8)
> T4=table(Z)
> T4c=c(T4)
> data.frame(Eff=T4c,EffCum=cumsum(T4c),Freq=T4c/sum(T4c),FreqCum=cumsum(T4c/sum(T4c)))
Eff EffCum Freq FreqCum
18CHAPITRE 1. VARIABLES, DONNÉES STATISTIQUES, TABLEAUX, EFFECTIFS

1 5 5 0.10 0.10
2 9 14 0.18 0.28
3 15 29 0.30 0.58
4 10 39 0.20 0.78
5 6 45 0.12 0.90
6 3 48 0.06 0.96
8 2 50 0.04 1.00

1.4.2 Diagramme en bâtonnets des effectifs


Quand la variable est discrète, les effectifs sont représentés par des bâtonnets
(voir Figure 1.6).
15
10
5
0

1 2 3 4 5 6 8

Figure 1.6 – Diagramme en bâtonnets des effectifs pour une variable quanti-
tative discrète

En langage R

> plot(T4,type="h",xlab="",ylab="",main="",frame=0,lwd=3)
1.5. VARIABLE QUANTITATIVE CONTINUE 19

1.4.3 Fonction de répartition


Les fréquences cumulées sont représentées au moyen de la fonction de répartition.
Cette fonction, présentée en Figure 1.7,est définie de R dans [0, 1] et vaut :

 0 x < x1
F (x) = Fj xj ≤ x < xj+1

1 xJ ≤ x.
1.0
0.8
0.6
0.4
0.2
0.0

0 2 4 6 8

Figure 1.7 – Fonction de répartition d’une variable quantitative discrète

En langage R
> plot(ecdf(Z),xlab="",ylab="",main="",frame=0)

1.5 Variable quantitative continue


1.5.1 Le tableau statistique
Une variable quantitative continue peut prendre une infinité de valeurs pos-
sibles. Le domaine de la variable est alors R ou un intervalle de R. En pratique,
une mesure est limitée en précision. La taille peut être mesurée en centimètres,
voire en millimètres. On peut alors traiter les variables continues comme des
variables discrètes. Cependant, pour faire des représentations graphiques et
20CHAPITRE 1. VARIABLES, DONNÉES STATISTIQUES, TABLEAUX, EFFECTIFS

construire le tableau statistique, il faut procéder à des regroupements en classes.


Le tableau regroupé en classe est souvent appelé distribution groupée. Si [c− +
j ; cj [
designe la classe j, on note, de manière générale :

– c−
j la borne inférieure de la classe j,
– c+
j la borne supérieure de la classe j,

– cj = (c+j + cj )/2 le centre de la classe j,
+ −
– aj = cj − cj l’amplitude de la classe j,
– nj l’effectif de la classe j,
– Nj l’effectif cumulé de la classe j,
– fj la fréquence de la classe j,
– Fj la fréquence cumulée de la classe j.

La répartition en classes des données nécessite de définir a priori le nombre


de classes J et donc l’amplitude de chaque classe. En règle générale, on choisit
au moins cinq classes de même amplitude. Cependant, il existent des formules
qui nous permettent d’établir le nombre de classes et l’intervalle de classe (l’am-
plitude) pour une série statistique de n observations.
– La règle de Sturge : J = 1√ + (3.3 log10 (n)).
– La règle de Yule : J = 2.5 4 n.

L’intervalle de classe est obtenue ensuite de la manière suivante : longueur


de l’intervalle = (xmax − xmin )/J, où xmax (resp. xmin ) désigne la plus grande
(resp. la plus petite) valeur observée.

Remarque 1.2 Il faut arrondir le nombre de classe J à l’entier le plus proche.


Par commodité, on peut aussi arrondir la valeur obtenue de l’intervalle de classe.

A partir de la plus petite valeur observée, on obtient les bornes de classes


en additionnant successivement l’intervalle de classe (l’amplitude).

Exemple 1.7 On mesure la taille en centimetres de 50 élèves d’une classe :

152 152 152 153 153


154 154 154 155 155
156 156 156 156 156
157 157 157 158 158
159 159 160 160 160
161 160 160 161 162
162 162 163 164 164
164 164 165 166 167
168 168 168 169 169
170 171 171 171 171
1.5. VARIABLE QUANTITATIVE CONTINUE 21

On a les classes de tailles définies préablement comme il suit :

[151, 5; 155, 5[
[155, 5; 159, 5[
[159, 5; 163, 5[
[163, 5; 167, 5[
[167, 5; 171, 5[

On construit le tableau statistique.

[c− +
j , cj ] nj Nj fj Fj
[151, 5; 155, 5[ 10 10 0.20 0.20
[155, 5; 159, 5[ 12 22 0.24 0.44
[159, 5; 163, 5[ 11 33 0.22 0.66
[163, 5; 167, 5[ 7 40 0.14 0.80
[167, 5; 171, 5[ 10 50 0.20 1.00
50 1.00

En langage R

> S=c(152,152,152,153,153,154,154,154,155,155,156,156,156,156,156,
+ 157,157,157,158,158,159,159,160,160,160,161,160,160,161,162, +
162,162,163,164,164,164,164,165,166,167,168,168,168,169,169, +
170,171,171,171,171)
> T5=table(cut(S, breaks=c(151,155,159,163,167,171)))
> T5c=c(T5)
> data.frame(Eff=T5c,EffCum=cumsum(T5c),Freq=T5c/sum(T5c),FreqCum=cumsum(T5c/sum(T5c)))
Eff EffCum Freq FreqCum
(151,155] 10 10 0.20 0.20 (155,159] 12 22 0.24 0.44
(159,163] 11 33 0.22 0.66 (163,167] 7 40 0.14 0.80
(167,171] 10 50 0.20 1.00

1.5.2 Histogramme
L’histogramme consiste à représenter les effectifs (resp. les fréquences) des
classes par des rectangles contigus dont la surface (et non la hauteur) représente
l’effectif (resp. la fréquence). Pour un histogramme des effectifs, la hauteur du
rectangle correspondant à la classe j est donc donnée par :
nj
hj =
aj

– On appelle hj la densité d’effectif.


22CHAPITRE 1. VARIABLES, DONNÉES STATISTIQUES, TABLEAUX, EFFECTIFS

– L’aire de l’histogramme est égale à l’effectif total n, puisque l’aire de


chaque rectangle est égale à l’effectif de la classe j : aj × hj = nj .
Pour un histogramme des fréquences on a

fj
dj =
aj

– On appelle dj la densité de fréquence.


– L’aire de l’histogramme est égale à 1, puisque l’aire de chaque rectangle
est égale à la fréquence de la classe j : aj × dj = fj .
Figure 1.8 représente l’histogramme des fréquences de l’exemple précedent :
0.06
0.04
0.02
0.00

151.5 155.5 159.5 163.5 167.5 171.5

Figure 1.8 – Histogramme des fréquences

En langage R

> hist(S,breaks=c(151.5,155.5,159.5,163.5,167.5,171.5), freq=FALSE,


xlab="",ylab="",main="",xaxt = "n")
> axis(1, c(151.5,155.5,159.5,163.5,167.5,171.5))

Si les deux dernières classes sont agrégées, comme dans la Figure 1.9, la
surface du dernier rectangle est égale à la surface des deux derniers rectangles
de l’histogramme de la Figure 1.8.

En langage R

> hist(S,breaks=c(151.5,155.5,159.5,163.5,171.5),
xlab="",ylab="",main="",xaxt = "n")
> axis(1, c(151.5,155.5,159.5,163.5,171.5))
1.5. VARIABLE QUANTITATIVE CONTINUE 23

0.06
0.04
0.02
0.00

151.5 155.5 159.5 163.5 171.5

Figure 1.9 – Histogramme des fréquences avec les deux dernières classes
agrégées

Remarque 1.3 Dans le cas de classes de même amplitude certains auteurs


et logiciels représentent l’histogramme avec les effectifs (resp. les fréquences)
reportés en ordonnée, l’aire de chaque rectangle étant proportionnelle à l’effectif
(resp. la fréquence) de la classe.

1.5.3 La fonction de répartition


La fonction de répartition F (x) est une fonction de R dans [0, 1], qui est
définie par

 0
 x < c−
1
fj
F (x) = Fj−1 + c+ −c− (x − c− − +
j ) cj ≤ x < cj

 j j
+
1 cJ ≤ x
24CHAPITRE 1. VARIABLES, DONNÉES STATISTIQUES, TABLEAUX, EFFECTIFS

Figure 1.10 – Fonction de répartition d’une distribution groupée


0.0 0.2 0.4 0.6 0.8 1.0

151.5 155.5 159.5 163.5 167.5 171.5


Chapitre 2

Statistique descriptive
univariée

2.1 Paramètres de position


2.1.1 Le mode
Le mode est la valeur distincte correspondant à l’effectif le plus élevé ; il est
noté xM .
Si on reprend la variable ‘Etat civil’ , dont le tableau statistique est le sui-
vant :
xj nj fj
C 9 0.45
M 7 0.35
V 2 0.10
D 2 0.10
n = 20 1

le mode est C : célibataire.

Remarque 2.1
– Le mode peut être calculé pour tous les types de variable, quantitative et
qualitative.
– Le mode n’est pas nécessairement unique.
– Quand une variable continue est découpée en classes, on peut définir une
classe modale (classe correspondant à l’effectif le plus élevé).

2.1.2 La moyenne
La moyenne ne peut être définie que sur une variable quantitative.

27
28 CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIÉE

La moyenne est la somme des valeurs observées divisée par leur nombre, elle
est notée x̄ :
n
x1 + x2 + · · · + xi + · · · + xn 1∑
x̄ = = xi .
n n i=1

La moyenne peut être calculée à partir des valeurs distinctes et des effectifs
J
1∑
x̄ = n j xj .
n j=1

Exemple 2.1 Les nombres d’enfants de 8 familles sont les suivants 0, 0, 1, 1, 1, 2, 3, 4.


La moyenne est
0+0+1+1+1+2+3+4 12
x̄ = = = 1.5.
8 8
On peut aussi faire les calculs avec les valeurs distinctes et les effectifs. On
considère le tableau :
xj nj
0 2
1 3
2 1
3 1
4 1
8

2×0+3×1+1×2+1×3+1×4
x̄ =
8
3+2+3+4
=
8
= 1.5.

Remarque 2.2 La moyenne n’est pas nécessairement une valeur possible.


En langage R

E=c(0,0,1,1,1,2,3,4)
n=length(E)
xb=sum(E)/n
xb
xb=mean(E)
xb
2.1. PARAMÈTRES DE POSITION 29

2.1.3 Remarques sur le signe de sommation
Définition 2.1
n

xi = x1 + x2 + · · · + xn .
i=1

1. En statistique les xi sont souvent les valeurs observées.


∑ n ∑n
2. L’indice est muet : xi = xj .
i=1 j=1

3. Quand il n’y a pas de confusion possible, on peut écrire i xi .

Exemple 2.2
4

1. xi = x1 + x2 + x3 + x4 .
i=1
5

2. xi2 = x32 + x42 + x52 .
i=3
3

3. i = 1 + 2 + 3 = 6.
i=1
4. On peut utiliser plusieurs sommations emboı̂tées, mais il faut bien distin-
guer les indices :
3 ∑
∑ 2
xij = x11 + x12 (i = 1)
i=1 j=1
+ x21 + x22 (i = 2)
+ x31 + x32 (i = 3)

5. On peut exclure une valeur de l’indice.


5

xi = x1 + x2 + x4 + x5 .
i=1
i̸=3

Propriété 2.1

1. Somme d’une constante


n

a = a + a + · · · + a = na (a constante).
| {z }
i=1
n fois
30 CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIÉE

Exemple
5

3 = 3 + 3 + 3 + 3 + 3 = 5 × 3 = 15.
i=1

2. Mise en évidence
n
∑ n

axi = a xi (a constante).
i=1 i=1

Exemple
3

2 × i = 2(1 + 2 + 3) = 2 × 6 = 12.
i=1

3. Somme des n premiers entiers


n
∑ n(n + 1)
i = 1 + 2 + 3 + ··· + n = .
i=1
2

4. Distribution
n
∑ n
∑ n

(xi + yi ) = xi + yi .
i=1 i=1 i=1

5. Distribution
n
∑ n
∑ n

(xi − yi ) = xi − yi .
i=1 i=1 i=1

n
1∑
Exemple (avec x̄ = xi )
n i=1

n
∑ n
∑ n
∑ n
1∑
(xi − x̄) = xi − x̄ = n xi − nx̄ = nx̄ − nx̄ = 0.
i=1 i=1 i=1
n i=1

6. Somme de carrés
n
∑ n
∑ n
∑ n
∑ n

(xi − yi )2 = (x2i − 2xi yi + yi2 ) = x2i − 2 xi y i + yi2 .
i=1 i=1 i=1 i=1 i=1

C’est une application de la formule

(a − b)2 = a2 − 2ab + b2 .
2.1. PARAMÈTRES DE POSITION 31

2.1.4 Moyenne géométrique


Si xi ≥ 0, on appelle moyenne géométrique la quantité
( n )1/n
∏ 1/n
G= xi = (x1 × x2 × · · · × xn ) .
i=1

On peut écrire la moyenne géométrique comme l’exponentielle de la moyenne


arithmétique des logarithmes des valeurs observées
( n )1/n n n
∏ 1 ∏ 1∑
G = exp log G = exp log xi = exp log xi = exp log xi .
i=1
n i=1
n i=1

La moyenne géométrique s’utilise, par exemple, quand on veut calculer la moyenne


de taux d’intérêt.

Exemple 2.3 Supposons que les taux d’intérêt pour 4 années consécutives
soient respectivement de 5, 10, 15, et 10%. Que va-t-on obtenir après 4 ans si je
place 100 francs ?
– Après 1 an on a, 100 × 1.05 = 105 Fr.
– Après 2 ans on a, 100 × 1.05 × 1.1 = 115.5 Fr.
– Après 3 ans on a, 100 × 1.05 × 1.1 × 1.15 = 132.825 Fr.
– Après 4 ans on a, 100 × 1.05 × 1.1 × 1.15 × 1.1 = 146.1075 Fr.
Si on calcule la moyenne arithmétique des taux on obtient
1.05 + 1.10 + 1.15 + 1.10
x̄ = = 1.10.
4
Si on calcule la moyenne géométrique des taux, on obtient
1/4
G = (1.05 × 1.10 × 1.15 × 1.10) = 1.099431377.
Le bon taux moyen est bien G et non x̄, car si on applique 4 fois le taux moyen
G aux 100 francs, on obtient
100 Fr × G4 = 100 × 1.0994313774 = 146.1075 Fr.

2.1.5 Moyenne harmonique


Si xi ≥ 0, on appelle moyenne harmonique la quantité
n
H = ∑n .
i=1 1/xi

Il est judicieux d’appliquer la moyenne harmonique sur des vitesses.

Exemple 2.4 Un cycliste parcourt 4 étapes de 100km. Les vitesses respectives


pour ces étapes sont de 10 km/h, 30 km/h, 40 km/h, 20 km/h. Quelle a été sa
vitesse moyenne ?
32 CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIÉE

– Un raisonnement simple nous dit qu’il a parcouru la première étape en


10h, la deuxième en 3h20 la troisième en 2h30 et la quatrième en 5h. Il a
donc parcouru le total des 400km en

10 + 3h20 + 2h30 + 5h = 20h50 = 20.8333h,

sa vitesse moyenne est donc


400
Moy = = 19.2 km/h.
20.8333
– Si on calcule la moyenne arithmétique des vitesses, on obtient
10 + 30 + 40 + 20
x̄ = = 25 km/h.
4
– Si on calcule la moyenne harmonique des vitesses, on obtient
4
H= 1 1 1 1 = 19.2 km/h.
10 + 30 + 40 + 20

La moyenne harmonique est donc la manière appropriée de calculer la


vitesse moyenne.

Remarque 2.3 Il est possible de montrer que la moyenne harmonique est tou-
jours inférieure ou égale à la moyenne géométrique qui est toujours inférieure
ou égale à la moyenne arithmétique

H ≤ G ≤ x̄.

2.1.6 Moyenne pondérée


Dans certains cas, on n’accorde pas le même poids à toutes les observations.
Par exemple, si on calcule la moyenne des notes pour un programme d’étude, on
peut pondérer les notes de l’étudiant par le nombre de crédits ou par le nombre
d’heures de chaque cours. Si wi > 0, i = 1, . . . , n sont les poids associés à chaque
observation, alors la moyenne pondérée par wi est définie par :
∑n
w i xi
x̄w = ∑i=1
n .
i=1 wi

Exemple 2.5 Supposons que les notes soient pondérées par le nombre de
crédits, et que les notes de l’étudiant soient les suivantes :
2.1. PARAMÈTRES DE POSITION 33

Note 5 4 3 6 5
Crédits 6 3 4 3 4

La moyenne pondérée des notes par les crédits est alors


6×5+3×4+4×3+3×6+4×5 30 + 12 + 12 + 18 + 20 92
x̄w = = = = 4.6.
6+3+4+3+4 20 20

2.1.7 La médiane
La médiane, notée x1/2 , est une valeur centrale de la série statistique obtenue
de la manière suivante :
– On trie la série statistique par ordre croissant des valeurs observées. Avec
la série observée :
3 2 1 0 0 1 2,
on obtient :
0 0 1 1 2 2 3.
– La médiane x1/2 est la valeur qui se trouve au milieu de la série ordonnée :

0 0 1 1 2 2 3.

On note alors x1/2 = 1.


Nous allons examiner une manière simple de calculer la médiane. Deux cas
doivent être distingués.
– Si n est impair, il n’y a pas de problème (ici avec n = 7), alors x1/2 = 1 :

0 0 1 1 2 2 3.

La Figure 2.1 montre la fonction de répartition de la série. La médiane


peut être définie comme l’inverse de la fonction de répartition pour la
valeur 1/2 :
x1/2 = F −1 (0.5).

En langage R
x=c(0 , 0 , 1 , 1 , 2 , 2 , 3)
median(x)
plot(ecdf(x),xlab="",ylab="",main="",frame=FALSE,yaxt = "n")
axis(2, c(0.0,0.25,0.50,0.75,1.00))
arrows(-1,0.5,1,0.50,length=0.14,col="blue")
arrows(1,0.50,1,0,length=0.14,col="blue")
34 CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIÉE

Figure 2.1 – Médiane quand n est impair

1.00
0.50
0.00 −1 0 1 2 3 4

– Si n est pair, deux valeurs se trouvent au milieu de la série (ici avec n = 8)

0 0 1 1 2 2 3 4
↑ ↑

La médiane est alors la moyenne de ces deux valeurs :


1+2
x1/2 = = 1.5.
2
La Figure 2.2 montre la fonction de répartition de la série de taille paire.
La médiane peut toujours être définie comme l’inverse de la fonction de
répartition pour la valeur 1/2 :

x1/2 = F −1 (0.5).

Cependant, la fonction de répartition est discontinue par ‘palier’. L’inverse


de la répartition correspond exactement à un ‘palier’.

Figure 2.2 – Médiane quand n est pair


1.00
0.50
0.00

−1 0 1 2 3 4 5

En langage R
2.1. PARAMÈTRES DE POSITION 35

x=c(0 , 0 , 1 , 1 , 2 , 2 , 3 , 4)
median(x)
plot(ecdf(x),xlab="",ylab="",main="",frame=FALSE,yaxt = "n")
axis(2, c(0.0,0.25,0.50,0.75,1.00))
arrows(-1,0.5,1,0.50,length=0.14,col="blue")
arrows(1.5,0.50,1.5,0,,length=0.14,col="blue")

En général on note
x(1) , . . . , x(i) , . . . , x(n)
la série ordonnée par ordre croissant. On appelle cette série ordonnée la statis-
tique d’ordre. Cette notation, très usuelle en statistique, permet de définir la
médiane de manière très synthétique.
– Si n est impair
x1/2 = x( n+1 )
2

– Si n est pair
1{ }
x1/2 = x( n ) + x( n +1) .
2 2 2

Remarque 2.4 La médiane peut être calculée sur des variables quantitatives
et sur des variables qualitatives ordinales.

2.1.8 Quantiles
La notion de quantile d’ordre p (où 0 < p < 1) généralise la médiane.
Formellement un quantile est donné par l’inverse de la fonction de répartition :

xp = F −1 (p).

Si la fonction de répartition était continue et strictement croissante, la définition


du quantile serait sans équivoque. La fonction de répartition est cependant dis-
continue et “par palier”. Quand la fonction de répartition est par palier, il existe
au moins 9 manières différentes de définir les quantiles selon que l’on fasse ou
non une interpolation de la fonction de répartition. Nous présentons une de ces
méthodes, mais il ne faut pas s’étonner de voir les valeurs des quantiles différer
légèrement d’un logiciel statistique à l’autre.
– Si np est un nombre entier, alors
1{ }
xp = x(np) + x(np+1) .
2
– Si np n’est pas un nombre entier, alors

xp = x(⌈np⌉) ,

où ⌈np⌉ représente le plus petit nombre entier supérieur ou égal à np.
36 CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIÉE

Remarque 2.5
– La médiane est le quantile d’ordre p = 1/2.
– On utilise souvent
x1/4 le premier quartile,
x3/4 le troisième quartile,
x1/10 le premier décile ,
x1/5 le premier quintile,
x4/5 le quatrième quintile,
x9/10 le neuvième décile,
x0.05 le cinquième percentile ,
x0.95 le nonante-cinquième percentile.
– Si F (x) est la fonction de répartition, alors F (xp ) ≥ p.

Exemple 2.6 Soit la série statistique 12, 13, 15, 16, 18, 19, 22, 24, 25, 27, 28,
34 contenant 12 observations (n = 12).
– Le premier quartile : Comme np = 0.25 × 12 = 3 est un nombre entier, on
a
x(3) + x(4) 15 + 16
x1/4 = = = 15.5.
2 2
– La médiane : Comme np = 0.5 × 12 = 6 est un nombre entier, on a

1{ }
x1/2 = x(6) + x(7) = (19 + 22)/2 = 20.5.
2
– Le troisième quartile : Comme np = 0.75 × 12 = 9 est un nombre entier,
on a
x(9) + x(10) 25 + 27
x3/4 = = = 26.
2 2

En langage R

x=c(12,13,15,16,18,19,22,24,25,27,28,34)
quantile(x,type=2)

Exemple 2.7 Soit la série statistique 12, 13, 15, 16, 18, 19, 22, 24, 25, 27
contenant 10 observations (n = 10).
– Le premier quartile : Comme np = 0.25 × 10 = 2.5 n’est pas un nombre
entier, on a
x1/4 = x(⌈2.5⌉) = x(3) = 15.
2.2. PARAMÈTRES DE DISPERSION 37

– La médiane : Comme np = 0.5 × 10 = 5 est un nombre entier, on a

1{ }
x1/2 = x(5) + x(6) = (18 + 19)/2 = 18.5.
2
– Le troisième quartile : Comme np = 0.75 × 10 = 7.5 n’est pas un nombre
entier, on a
x3/4 = x(⌈7.5⌉) = x(8) = 24.

En langage R

x=c(12,13,15,16,18,19,22,24,25,27)
quantile(x,type=2)

2.2 Paramètres de dispersion


2.2.1 L’étendue
L’étendue est simplement la différence entre la plus grande et la plus petite
valeur observée.
E = x(n) − x(1) .

2.2.2 La distance interquartile


La distance interquartile est la différence entre le troisième et le premier
quartile :
IQ = x3/4 − x1/4 .

2.2.3 La variance
La variance est la somme des carrés des écarts à la moyenne divisée par le
nombre d’observations :
n
1∑
s2x = (xi − x̄)2 .
n i=1

Théorème 2.1 La variance peut aussi s’écrire


n
1∑ 2
s2x = x − x̄2 . (2.1)
n i=1 i
38 CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIÉE

Démonstration
n n
1∑ 1∑ 2
s2x = (xi − x̄)2 = (x − 2xi x̄ + x̄2 )
n i=1 n i=1 i
n n n n n
1∑ 2 1∑ 1∑ 2 1∑ 2 1∑
= x −2 xi x̄ + x̄ = x − 2x̄ xi + x̄2
n i=1 i n i=1 n i=1 n i=1 i n i=1
n n
1∑ 2 1∑ 2
= xi − 2x̄x̄ + x̄2 = x − x̄2 .
n i=1 n i=1 i

2
La variance peut également être définie à partir des effectifs et des valeurs
distinctes :
J
1∑
s2x = nj (xj − x̄)2 .
n j=1

La variance peut aussi s’écrire


J
1∑
s2x = nj x2j − x̄2 .
n j=1

Quand on veut estimer une variance d’une variable X à partir d’un échantillon
(une partie de la population sélectionnée au hasard) de taille n, on utilise la va-
riance “corrigée” divisée par n − 1.
n
1 ∑ n
Sx2 = (xi − x̄)2 = s2x .
n − 1 i=1 n−1

La plupart des logiciels statistiques calculent Sx2 et non s2x .

2.2.4 L’écart-type
L’écart-type est la racine carrée de la variance :

sx = s2x .

Quand on veut estimer l’écart-type d’une variable X partir d’un échantillon


de taille n, utilise la variance “corrigée” pour définir l’écart type

√ n
Sx = Sx2 = sx .
n−1
La plupart des logiciels statistiques calculent Sx et non sx .

Exemple 2.8 Soit la série statistique 2, 3, 4, 4, 5, 6, 7, 9 de taille 8. On a


2+3+4+4+5+6+7+9
x̄ = = 5,
8
2.2. PARAMÈTRES DE DISPERSION 39

n
1∑
s2x = (xi − x̄)2
n i=1
1[ ]
= (2 − 5)2 + (3 − 5)2 + (4 − 5)2 + (4 − 5)2 + (5 − 5)2 + (6 − 5)2 + (7 − 5)2 + (9 − 5)2
8
1
= [9 + 4 + 1 + 1 + 0 + 1 + 4 + 16]
8
36
=
8
= 4.5.

On peut également utiliser la formule (2.1) de la variance, ce qui nécessite moins


de calcul (surtout quand la moyenne n’est pas un nombre entier).
n
1∑ 2
s2x = x − x̄2
n i=1 i
1 2
= (2 + 32 + 42 + 42 + 52 + 62 + 72 + 92 ) − 52
8
1
= (4 + 9 + 16 + 16 + 25 + 36 + 49 + 81) − 25
8
236
= − 25
8
= 29.5 − 25 = 4.5.

En langage R
> x=c(2,3,4,4,5,6,7,9)
> n=length(x)
> s2=sum((x-mean(x))^2)/n
> s2
[1] 4.5
> S2=s2*n/(n-1)
> S2
[1] 5.142857
> S2=var(x)
> S2
[1] 5.142857
> s=sqrt(s2)
> s
[1] 2.121320
> S=sqrt(S2)
> S
[1] 2.267787
> S=sd(x)
40 CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIÉE

> S
[1] 2.267787
> E=max(x)-min(x)
> E
[1] 7

2.2.5 L’écart moyen absolu


L’écart moyen absolu est la somme des valeurs absolues des écarts à la
moyenne divisée par le nombre d’observations :
n
1∑
emoy = |xi − x̄| .
n i=1

2.2.6 L’écart médian absolu


L’écart médian absolu est la somme des valeurs absolues des écarts à la
médiane divisée par le nombre d’observations :
n
1∑
emed = xi − x1/2 .
n i=1

2.3 Moments
Définition 2.2 On appelle moment à l’origine d’ordre r ∈ N le paramètre
n
1∑ r
m′r = x .
n i=1 i

Définition 2.3 On appelle moment centré d’ordre r ∈ N le paramètre


n
1∑
mr = (xi − x̄)r .
n i=1

Les moments généralisent la plupart des paramètres. On a en particulier


– m′1 = x̄,
– m1 = 0,
1∑ 2
– m′2 = x = s2x + x̄2 ,
n i i
– m2 = s2x .
Nous verrons plus loin que des moments d’ordres supérieurs (r=3,4) sont utilisés
pour mesurer la symétrie et l’aplatissement.
Chapitre 3

Statistique descriptive
bivariée

3.1 Série statistique bivariée


On s’intéresse à deux variables x et y. Ces deux variables sont mesurées sur
les n unités d’observation. Pour chaque unité, on obtient donc deux mesures. La
série statistique est alors une suite de n couples des valeurs prises par les deux
variables sur chaque individu :

(x1 , y1 ), . . . , (xi , yi ), . . . , (xn , yn ).

Chacune des deux variables peut être, soit quantitative, soit qualitative. On
examine deux cas.
– Les deux variables sont quantitatives.
– Les deux variables sont qualitatives.

3.2 Deux variables quantitatives

3.2.1 Représentation graphique de deux variables

Dans ce cas, chaque couple est composé de deux valeurs numériques. Un


couple de nombres (entiers ou réels) peut toujours être représenté comme un
point dans un plan

(x1 , y1 ), . . . , (xi , yi ), . . . , (xn , yn ).

53
54 CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIÉE

Exemple 3.1 On mesure le poids Y et la taille X de 20 individus.

yi xi yi xi
60 155 75 180
61 162 76 175
64 157 78 173
67 170 80 175
68 164 85 179
69 162 90 175
70 169 96 180
70 170 96 185
72 178 98 189
73 173 101 187
100
90
poids

80
70
60

155 160 165 170 175 180 185 190

taille

Figure 3.1 – Le nuage de points

En langage R

# nuage de points
poids=c(60,61,64,67,68,69,70,70,72,73,75,76,78,80,85,90,96,96,98,101)
taille=c(155,162,157,170,164,162,169,170,178,173,180,175,173,175,179,175,180,185,189,187)
plot(taille,poids)
3.2. DEUX VARIABLES QUANTITATIVES 55

3.2.2 Analyse des variables


Les variables x et y peuvent être analysées séparément. On peut calculer
tous les paramètres dont les moyennes et les variances :
n n
1∑ 1∑
x̄ = xi , s2x = (xi − x̄)2 ,
n i=1 n i=1
n n
1∑ 1∑
ȳ = yi , s2y = (yi − ȳ)2 .
n i=1 n i=1
Ces paramètres sont appelés paramètres marginaux : variances marginales, moyennes
marginales, écarts-types marginaux, quantiles marginaux, etc.. . .

3.2.3 Covariance
La covariance est définie
n
1∑
sxy = (xi − x̄)(yi − ȳ).
n i=1

Remarque 3.1
– La covariance peut prendre des valeurs positives, négatives ou nulles.
– Quand xi = yi , pour tout i = 1, . . . , n, la covariance est égale à la va-
riance.

Théorème 3.1 La covariance peut également s’écrire :


n
1∑
xi yi − x̄ȳ.
n i=1

Démonstration
n
1∑
sxy = (xi − x̄)(yi − ȳ)
n i=1
n
1∑
= (xi yi − yi x̄ − ȳxi + x̄ȳ)
n i=1
n n n n
1∑ 1∑ 1∑ 1∑
= xi yi − yi x̄ − ȳxi + x̄ȳ
n i=1 n i=1 n i=1 n i=1
n
1∑
= xi yi − x̄ȳ − x̄ȳ + x̄ȳ
n i=1
n
1∑
= xi yi − x̄ȳ.
n i=1
56 CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIÉE

3.2.4 Corrélation
Le coefficient de corrélation est la covariance divisée par les deux écart-types
marginaux :
sxy
rxy = .
sx sy
Le coefficient de détermination est le carré du coefficient de corrélation :

2
s2xy
rxy = .
s2x s2y

Remarque 3.2

– Le coefficient de corrélation mesure la dépendance linéaire entre deux va-


riables :
– −1 ≤ rxy ≤ 1,
2
– 0 ≤ rxy ≤ 1.
– Si le coefficient de corrélation est positif, les points sont alignés le long
d’une droite croissante.
– Si le coefficient de corrélation est négatif, les points sont alignés le long
d’une droite décroissante.
– Si le coefficient de corrélation est nul ou proche de zéro, il n’y a pas de
dépendance linéaire. On peut cependant avoir une dépendance non-linéaire
avec un coefficient de corrélation nul.

r=1 r=−1 r=0

r>0 r<0 r=0

Figure 3.2 – Exemples de nuages de points et coefficients de corrélation


3.2. DEUX VARIABLES QUANTITATIVES 57

3.2.5 Droite de régression


La droite de régression est la droite qui ajuste au mieux un nuage de points
au sens des moindres carrés.
On considère que la variable X est explicative et que la variable Y est
dépendante. L’équation d’une droite est

y = a + bx.

Le problème consiste à identifier une droite qui ajuste bien le nuage de points.
Si les coefficients a et b étaient connus, on pourrait calculer les résidus de la
régression définis par :
ei = yi − a − bxi .
Le résidu ei est l’erreur que l’on commet (voir Figure 3.3) en utilisant la droite
de régression pour prédire yi à partir de xi . Les résidus peuvent être positifs ou
négatifs.
100

yi
90

ei
y *i
poids

80
70
60

155 160 165 170 175 180 185 190

taille

Figure 3.3 – Le nuage de points, le résidu


58 CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIÉE

En langage R
# Graphique avec le résidus
plot(taille,poids)
segments(158,a+b*158,190,a+b*190)
segments(180,a+b*180,180,96,col="red")
#
text(178,90,expression(e))
text(178.7,89.5,"i")
#
arrows(180,a+b*180,156,a+b*180,col="blue",length=0.14)
arrows(180,60,180,a+b*180,col="blue",length=0.14)
arrows(180,96,156,96,col="blue",length=0.14)
#
text(154.8,86,expression(y))
text(155.5,85.5,"i")
#
text(154.8,97,expression(y))
text(155.5,97.8,"*")
text(155.5,96.5,"i")

Pour déterminer la valeur des coefficients a et b on utilise le principe des


moindres carrés qui consiste à chercher la droite qui minimise la somme des
carrés des résidus :
n
∑ n
∑ 2
M (a, b) = e2i = (yi − a − bxi ) .
i=1 i=1

Théorème 3.2 Les coefficients a et b qui minimisent le critère des moindres


carrés sont donnés par :
sxy
b= 2 et a = ȳ − bx̄.
sx
Démonstration Le minimum M (a, b) en (a, b) s’obtient en annulant les dérivées
partielles par rapport à a et b.
 ∑n
 ∂M (a, b) = −

 2 (yi − a − bxi ) = 0
 ∂a i=1
∑n

 ∂M (a, b)

 =− 2 (yi − a − bxi ) xi = 0
∂b i=1

On obtient un système de deux équations à deux inconnues. En divisant les


deux équations par −2n, on obtient :
 n

 1∑

 n (yi − a − bxi ) = 0
i=1
n

 1∑

 (yi − a − bxi ) xi = 0,
n i=1
3.2. DEUX VARIABLES QUANTITATIVES 59

ou encore  n n n

 1∑ 1∑ 1∑

 n yi − a − b xi = 0
i=1
n i=1 n i=1
n n n

 1∑ 1∑ 1∑ 2

 yi xi − axi − bx = 0,
n i=1 n i=1 n i=1 i
ce qui s’écrit aussi

 ȳ =na + bx̄

n
1∑ 1∑ 2

 n y x
i i − ax̄ − bx = 0.
i=1
n i=1 i
La première équation montre que la droite passe par le point (x̄, ȳ). On obtient
a = ȳ − bx̄.
En remplaçant a par ȳ − bx̄ dans la seconde équation, on a
n n
1∑ 1∑ 2
xi yi − (ȳ − bx̄)x̄ − b x
n i=1 n i=1 i
n
( n )
1∑ 1∑ 2 2
= xi yi − x̄ȳ − b x − x̄
n i=1 n i=1 i
= sxy − bs2x
= 0,
ce qui donne
sxy − bs2x = 0.
Donc
sxy
b= .
s2x
On a donc identifié les deux paramètres
 sxy

 b = 2 (la pente)
sx
 sxy
 a = ȳ − bx̄ = ȳ − 2 x̄ (la constante).
sx
On devrait en outre vérifier qu’il s’agit bien d’un minimum en montrant que la
matrice des dérivées secondes est définie positive. 2
La droite de régression est donc
sxy sxy
y = a + bx = ȳ − 2 x̄ + 2 x,
sx sx
ce qui peut s’écrire aussi
sxy
y − ȳ = (x − x̄).
s2x

Remarque 3.3 La droite de régression de y en x n’est pas la même que la


droite de régression de x en y.
60 CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIÉE

Figure 3.4 – La droite de régression

100
90
poids

80
70
60

155 160 165 170 175 180 185 190

taille

3.2.6 Résidus et valeurs ajustées


Les valeurs ajustées sont obtenues au moyen de la droite de régression :

yi∗ = a + bxi .

Les valeurs ajustées sont les ‘prédictions’ des yi réalisées au moyen de la variable
x et de la droite de régression de y en x.

Remarque 3.4 La moyenne des valeurs ajustées est égale à la moyenne des
valeurs observées ȳ. En effet,
n n n
1∑ ∗ 1∑ 1∑
yi = (a + bxi ) = a + b xi = a + bx̄.
n i=1 n i=1 n i=1

Or, ȳ = a + bx̄, car le point (x̄, ȳ) appartient à la droite de régression.

Les résidus sont les différences entre les valeurs observées et les valeurs
ajustées de la variable dépendante.

ei = yi − yi∗ .

Les résidus représentent la partie inexpliquée des yi par la droite de régression.

Remarque 3.5
Probabilités et variables aléatoires

Fiabilité On considère un système formé par plusieurs composants. On s’in-


Probabilités et variables aléatoires téresse à la fiabilité du système : on va chercher à calculer la probabilité que
le système fonctionne encore à un instant donné. Il faut pour cela connaître la
probabilité que chacun des composants fonctionne à cet instant et tenir compte
Résumé du fait que les composants ne fonctionnent peut-être pas indépendamment les
uns des autres.

Ce chapitre introduit les concepts essentielles des modèles proba-


bilistes afin d’aborder l’inférence statistique : définition d’un évé- Fatigue des matériaux Les données de fatigue des matériaux sont très dis-
nement aléatoire, des probabilités discrètes ou continues, des pro- persées. On fait alors appel à des modélisations probabilistes et à des méthodes
babilités conditionnelles et de la notion d’indépendance en proba- statistiques afin, par exemple, de construire des intervalles de confiance pour
bilités. Après avoir défini la notion de variable aléatoire, celles de le nombre moyen de cycles jusqu’à la rupture.
lois les plus utilisées sont décrites : discrètes de Bernoulli ; bino-
miales, géométrique, de Poisson ; continues uniforme, exponentielle, Télécommunications En télécommunications, on doit souvent tenir compte
Gamma, normale, du chi-deux, de Student et de Fisher. Espérance et du “bruit” dans les systèmes. Par exemple, supposons qu’un système émet soit
variance d’une variable aléatoires sont définies, avant de signaler un 0, soit un 1, et qu’il y a un risque p que le chiffre émis soit mal reçu. Il est
les deux théorèmes importants : loi des grands nombre et théorème alors intéressant de calculer la probabilité qu’un 0 ait été émis, sachant qu’un
de central limite. 0 a été reçu, ou encore la probabilité qu’il y ait une erreur de transmission.

Retour au plan du cours. 2 Notion de probabilité

1 Introduction 2.1 événement


D ÉFINITION 1. — On appelle univers associé à une expérience aléatoire l’en-
Dans des domaines très différents comme les domaines scientifique, socio- semble Ω de tous les résultats possibles de cette expérience.
logique ou médical, on s’intéresse à de nombreux phénomènes dans lesquels
apparaît l’effet du hasard. Ces phénomènes sont caractérisés par le fait que les
Le choix de l’ensemble Ω comporte une part d’arbitraire. Il dépend de l’idée
résultats des observations varient d’une expérience à l’autre.
que l’on a, a priori, sur les résultats de l’expérience aléatoire. Donnons
Une expérience est appelée “aléatoire" s’il est impossible de prévoir à quelques exemples :
l’avance son résultat et si, répétée dans des conditions identiques, elle peut
1. On lance une pièce de monnaie. Pour l’ensemble Ω, on peut choisir soit
donner des résultats différents :
Ω = { pile, face }, soit Ω = { pile, face, tranche }.
– succession d’appels à un standard téléphonique non surchargé ;
– observation de la durée de vie d’un individu anonyme dans une popula- 2. On s’intéresse à l’état de fonctionnement d’un système. Dans ce cas Ω =
tion ; {0, 1} avec la convention 0 si le système est en panne et 1 s’il fonctionne.
– observation de la durée de fonctionnement sans panne d’appareil ; 3. Le résultat de l’expérience aléatoire est le nombre de tirages nécessaires
– jeu de pile ou face. dans un jeu de pile ou face jusqu’à l’obtention du premier “pile". Dans ce
Voici d’autres exemples de domaines d’applications des probabilités. cas, Ω = {1, 2, 3, · · · } = N∗ .

1
Probabilités et variables aléatoires

4. On considère la succession des appels à un standard téléphonique non D ÉFINITION 3. — On appelle événement contraire de A, noté AC , le complé-
surchargé et l’on étudie la répartition des instants où le standard reçoit mentaire de A dans Ω :
un appel, à partir d’un instant choisi comme origine (on admet que deux
appels ne peuvent se produire rigoureusement au même instant et que le / A}.
AC = {ω ∈ Ω : ω ∈
phénomène est limité dans le temps). Une réalisation de cet événement
est une suite croissante de nombres réels positifs ti où ti désigne l’instant L’événement contraire AC est réalisé si et seulement si A n’est pas réalisé.
d’enregistrement du i-ème appel : Ω = {0 < t1 < t2 < · · · < tn < Exemple : Si A est l’événement “la durée de vie du composant est supérieure
N
tn+1 < · · · }. L’univers Ω est donc une partie de (R+ ) . ou égale à 1000 heures” : A = [1000, +∞[, l’événement contraire est l’événe-
ment “la durée de vie du composant est strictement inférieure à 1000 heures” :
5. On considère l’expérience aléatoire “durée de vie d’un individu". L’en-
AC = [0, 1000[.
semble Ω est soit l’ensemble N, soit R+ selon le procédé discontinu ou
continu de cette mesure. D ÉFINITION 4. — Soient A et B deux événements d’un univers Ω.
Nous constatons que Ω peut être fini (exemples 1 et 2), dénombrable (exemples – L’événement “A et B" est celui qui est réalisé si A et B sont réalisés.
3 et 5) ou non dénombrable (exemples 4 et 5). Lorsque Ω est fini ou dénom- C’est l’intersection
brable, on parle d’univers discret. Sinon on parle d’univers continu.
A ∩ B = {ω ∈ Ω : ω ∈ A et ω ∈ B}.
D ÉFINITION 2. — Etant donnée une expérience aléatoire, un événement aléa- – L’événement “A ou B" est celui qui est réalisé si l’un des deux est réalisé
toire est une partie de l’ensemble des résultats possibles de l’expérience, c’est ou si les deux sont réalisés. C’est l’union
donc un sous-ensemble A de l’univers Ω. On dit que l’événement A est réalisé
si le résultat ω de l’expérience appartient à A. A ∪ B = {ω ∈ Ω : ω ∈ A ou ω ∈ B}.

On sait que l’événement A est réalisé seulement une fois l’expérience aléatoire – L’inclusion A ⊂ B signifie que l’événement A ne peut être réalisé sans
réalisée. que B le soit.
Exemples : D ÉFINITION 5. — Deux événements A et B sont dits incompatibles si la réa-
– Si l’on s’intéresse à l’événement suivant : “on a obtenu un chiffre pair lisation de l’un implique la non-réalisation de l’autre.
lors d’un lancer d’un dé à 6 faces”, on introduit A = {2, 4, 6}, qui est un
sous-ensemble de Ω = {1, 2, 3, 4, 5, 6}. Dans l’espace Ω, deux événements incompatibles sont représentés par deux
– Si l’on s’intéresse à l’événement suivant : “la durée de vie du composant parties disjointes. Si A ∩ B = ∅, alors A et B sont incompatibles. Il est clair,
est supérieure ou égale à 1000 heures”, A = [1000, +∞[ est un sous- par exemple que A et AC sont incompatibles.
ensemble de Ω = R+ .
L’ensemble ∅ est appelé l’événement impossible et Ω est appelé l’événement 2.3 Probabilité
certain.
Définition
2.2 Opérations sur les événements
D ÉFINITION 6. — Soit Ω un univers associé à une expérience aléatoire et soit
Les événements aléatoires étant des ensembles, introduisons les opérations A l’ensemble des parties de Ω. Une probabilité P sur l’espace (Ω, A) est une
ensemblistes classiques de la théorie des ensembles. application de A dans [0, 1] telle que

2
Probabilités et variables aléatoires

1. P(Ω) = 1. Dans le cas du lancer de dé à 6 faces, pour tout ω ∈ {1, 2, . . . , 6}, P({ω}) =
2. Si (An )n≥1 est une famille d’événements de A 2 à 2 incompatibles, 1/6.
Si on note l’événement “on a obtenu un chiffre pair” par A = {2, 4, 6}, alors

+∞
P = P(An ). P(A) = 3/6 = 1/2.
n=1
∪ An
n=1
  X

Remarques : Pour un problème donné, il y a souvent plusieurs modélisations


Le triplet (Ω, A, P) est appelé espace de probabilité. possibles, c’est-à-dire que le choix de l’espace de probabilité n’est pas unique.
Remarque : Choisir un élément au hasard signifie que les divers choix pos-
On peut déduire de la définition précédente un certain nombre de propriétés. sibles sont équiprobables, donc que l’ensemble Ω est muni de la probabilité
uniforme. Dans ce cas, tous les calculs sont simples et se ramènent souvent à
P ROPOSITION 7. — Soient A et B deux événements aléatoires. des calculs d’analyse combinatoire.
1. P(∅) = 0.
2.4 Probabilités conditionnelles
N N
P(An ). Dans le chapitre précédent, on a parlé de la probabilité d’un événement
n=1
2. P ∪ An ≤
n=1
 

sans tenir compte de la réalisation d’autres événements. En pratique, on peut


P

3. Si A1 , . . . , AN sont deux-à-deux incompatibles, considérer plusieurs événements, certains pouvant avoir une influence sur la
N réalisation d’autres événements.
N
P = P(An ).
n=1
∪ An
n=1
 

Exemple : On lance deux dés. Soient les événements A = { la somme est ≥


X

11} et B = { le lancer du 1er dé donne 6}. Il est clair que la réalisation de B


4. P(AC ) = 1 − P(A). influe sur la réalisation de A.
5. Si A ⊂ B, P(A) ≤ P(B).
Supposons que l’on s’intéresse à la réalisation d’un événement A , tout
6. P(A ∪ B) = P(A) + P(B) − P(A ∩ B). en sachant qu’un événement B est réalisé. Si A et B sont incompatibles, alors
7. Si Ω est fini ou dénombrable, alors pour tout événement A, la question est réglée : A ne se réalise pas. Mais si A ∩ B 6= ∅, il est possible
que A se réalise. Cependant, l’espace des événements possibles n’est plus Ω
P(A) = P({ω}). tout entier, mais il est restreint à B. En fait, seule nous intéresse la réalisation
ω∈A
X

de A à l’intérieur de B, c’est-à-dire A ∩ B par rapport à B. Ceci justifie la


définition suivante.
Exemple : Probabilité uniforme
D ÉFINITION 8. — Soit (Ω, A, P) un espace de probabilité. Soient A et B deux
Soit Ω un ensemble fini : Ω = {ω1 , . . . , ωN }. Pour tout i ∈ {1, 2, . . . , N }, on événements aléatoires tels que P(B) 6= 0. On appelle probabilité condition-
pose P({ωi }) = N1 . Alors, pour toute partie A de Ω, on a nelle de A sachant B la quantité
Card(A) Card(A)
.
P(A ∩ B)
P(A) = P({ω}) = = . P(A|B) =
N Card(Ω) P(B)
ω∈A
X

3
Probabilités et variables aléatoires

Remarque : On a les égalités suivantes : – AC et B sont également indépendants ;


– A et B C sont également indépendants ;
Si P(B) > 0, P(A ∩ B) = P(A|B) × P(B). – AC et B C sont également indépendants.
Si P(A) > 0, P(A ∩ B) = P(B|A) × P(A).
Nous allons maintenant définir l’indépendance de plus de 2 événements aléa-
P ROPOSITION 9. — (formule des probabilités totales) Soit (Ai )i∈I une fa- toires.
mille d’événements aléatoires formant une partition de Ω, c’est-à-dire tels
que : D ÉFINITION 13. — Soit (Ω, A, P) un espace de probabilité. Pour n ≥ 2,
– ∪i∈I Ai = Ω ; soient A1 , A2 , . . . An , des événements aléatoires.
– Ai ∩ Aj = ∅ pour tout i 6= j. – Ces événements sont deux à deux indépendants si pour tout couple (i, j)
On suppose de plus que P(Ai ) 6= 0 pour tout i ∈ I. Alors avec i 6= j on a
P(Ai ∩ Aj ) = P(Ai )P(Aj ).
P(A) = P(A|Ai )P(Ai ).
i∈I
– Ces événements sont indépendants (dans leur ensemble) si pour tout k ∈
X

{2, 3, . . . , n} et tout choix d’indices distincts i1 , . . . , ik , on a


P ROPOSITION 10. — (formule de Bayes) Sous les mêmes hypothèses que la P(Ai1 ∩ Ai2 ∩ . . . ∩ Aik ) = P(Ai1 )P(Ai2 ) . . . P (Aik ).
proposition précédente, on a :
P(A|Ai )P(Ai )
.
3 Notion de variable aléatoire
i∈I P(A|Ai )P(Ai )
3.1 Introduction
P(Ai |A) = P

La formule de Bayes (publiée après sa mort en 1763) présente un grand intérêt Dans de nombreuses expériences aléatoires, on n’est pas intéressé direc-
car elle permet de modifier notre connaissance des probabilités en fonction tement par le résultat de l’expérience, mais par une certaine fonction de ce
d’informations nouvelles. Cette formule joue donc un rôle très important dans résultat. Considérons par exemple l’expérience qui consiste à observer, pour
la statistique bayésienne. chacune des n pièces produites par une machine, si la pièce est défectueuse
2.5 Indépendance ou non. Nous attribuerons la valeur 1 à une pièce défectueuse et la valeur 0 à
une pièce en bon état. L’univers associé à cette expérience est Ω = {0, 1}n .
D ÉFINITION 11. — Soit (Ω, A, P) un espace de probabilité, et soient A et B Ce qui intéresse le fabricant est la proportion de pièces défectueuses pro-
deux événements aléatoires. On dit que A et B sont indépendants si duites par la machine. Introduisons donc une fonction de Ω dans R qui à tout
ω = (ω1 , ω2 , . . . , ωn ) de Ω associe le nombre
n
P(A ∩ B) = P(A)P(B).
ωi
Remarque : A et B sont indépendants si et seulement si P(A|B) = P(A). X(ω) = ,
i=1
n
Cette condition signifie que la probabilité de réalisation de l’événement A n’est
X

pas modifiée par une information concernant la réalisation de l’événement B. qui correspond à la proportion de pièces défectueuses associée à l’observation
de ω. Une telle fonction X définie sur Ω et à valeurs dans R s’appelle une
P ROPOSITION 12. — Si A et B sont deux événements indépendants alors : variable aléatoire réelle.

4
Probabilités et variables aléatoires

3.2 Définitions Remarque : On montre facilement que FX est continue si et seulement si


P(X = x) = 0 pour tout x ∈ R. On parle alors de loi diffuse ou de v.a.r.
Variable aléatoire réelle continue (voir définition 21).
D ÉFINITION 14. — Etant donné un univers Ω, une variable aléatoire réelle
(v.a.r.) est une application de Ω dans R : D ÉFINITION 19. — Soit X une v.a.r. de fonction de répartition FX supposée
strictement croissante de I ⊂ R dans ]0, 1[. Le quantile d’ordre α ∈]0, 1[ de
X : ω ∈ Ω 7→ X(ω) ∈ R. X est le nombre xα ∈ I tel que FX (xα ) = α, ce qui signifie que

Loi de probabilité P(X ≤ xα ) = α.

D ÉFINITION 15. — Soit Ω un univers muni d’une probabilité P, et soit X une Remarques :
v.a.r. On appelle loi de probabilité de X, notée PX , l’application qui à toute – x1/2 est appelé médiane de X. La médiane vérifie les deux égalités
partie A de R associe
P (X ≤ x1/2 ) = 1/2 = P (X > x1/2 ).
PX (A) = P ({ω ∈ Ω : X(ω) ∈ A}) .
– Dans le cas où FX n’est pas strictement croissante mais simplement crois-
Remarque : Dans la suite du cours, on utilisera la notation abrégée : sante, on définit le quantile d’ordre α par
P ({ω ∈ Ω : X(ω) ∈ A}) = P(X ∈ A). De même, on notera P(X = x)
xα = inf{x ∈ R : FX (x) ≥ α}.
la probabilité P({ω ∈ Ω : X(ω) = x}).
3.3 Variables aléatoires réelles discrètes
P ROPOSITION 16. — L’application PX définit une probabilité sur R.
Définition
Fonction de répartition
D ÉFINITION 20. — Une v.a.r. X à valeurs dans un ensemble X fini ou dé-
D ÉFINITION 17. — La fonction de répartition de la v.a.r. X est définie par nombrable est appelée v.a.r. discrète. Dans ce cas, la loi de X est déterminée
par l’ensemble des probabilités :
FX (x) = P(X ≤ x), x ∈ R.
PX (x) = P(X = x), x ∈ X.
Propriétés de la fonction de répartition :
1. 0 ≤ FX ≤ 1. Ainsi, pour toute partie A de X , on a alors :
2. FX tend vers 0 en −∞ et vers 1 en +∞. PX (A) = P(X ∈ A) = P(X = x) et PX (X ) = P(X = x) = 1.
3. FX est croissante. x∈A x∈X
X X

4. FX est continue à droite. Exemple : Supposons que l’on observe la durée de vie T d’une ampoule élec-
trique et que cette durée de vie T , exprimée en heures, satisfait pour tout
P ROPOSITION 18. — On a l’identité 0 < a < b,
P(a < X ≤ b) = FX (b) − FX (a), ∀a < b. P(a < T ≤ b) = exp(−a/100) − exp(−b/100).

5
Probabilités et variables aléatoires

On note X le nombre de périodes complètes de 100 heures que dure l’am- Loi binomiale
poule. Les valeurs possibles de X etant entières, la v.a.r. X est donc discrète.
Calculons la fonction de répartition de X. Comme X est positive, on a On dit qu’une v.a.r. X à valeurs dans {0, 1, . . . , n} suit une loi binomiale de
paramètres (n, p), notée B(n, p), si
FX (x) = P(X ≤ x) = 0, ∀x < 0.
P(X = k) = Cnk pk (1 − p)n−k , 0 ≤ k ≤ n.
De plus, pour tout n ∈ N,
Cette loi intervient par exemple pour modéliser le nombre de pièces défec-
P(X = n) = P(100n ≤ T < 100(n + 1)) = exp(−n) − exp (−(n + 1)) . tueuses dans un lot de n pièces, qui ont chacune une probabilité p d’être dé-
fectueuse, indépendamment les unes des autres.
Ainsi, on a donc pour tout x ≥ 0 :
Loi géométrique
[x]
P(X ≤ x) = P(X = n) On dit qu’une v.a.r. X à valeurs dans N∗ suit une loi géométrique de para-
n=0
X

mètre p ∈]0, 1[, notée G(p), si


= 1 − exp (−([x] + 1)) .
P(X = k) = p(1 − p)k−1 , k ∈ N∗ .
On notera que la fonction FX est une fonction en escalier.
Cette loi permet de modéliser le nombre de réalisations indépendantes d’une
Exemples de variables discrètes
expérience à 2 issues (succès-échec), jusqu’à l’obtention du premier succès, si
Soit X une v.a.r. discrète prenant ses valeurs dans un ensemble à chaque réalisation la probabilité de succès est p.
Loi de Poisson
{x1 , x2 , . . . , xn }, éventuellement infini. Alors la loi de X est caractérisée par
l’ensemble des probabilités P(X = xi ), c’est-à-dire les nombres réels positifs
pi tels que On dit qu’une v.a.r. X à valeurs dans N suit une loi de Poisson de paramètre
n λ > 0, notée P(λ), si
pi = 1.
λk
P(X = xi ) = pi avec 0 ≤ pi ≤ 1 et
i=1 P(X = k) = e−λ
X

k!
k ∈ N.
Loi de Bernoulli
Cette loi intervient comme comportement limite de la loi binomiale lorsque
On dit qu’une v.a.r. X à valeurs dans {0, 1} suit une loi de Bernoulli de n → +∞ et np → λ.
paramètre p ∈]0, 1[, notée B(p), si Elle intervient également pour modéliser des “événements rares”. Soit N la
variable aléatoire comptant le nombre d’occurrences d’un événement pendant
une période donnée T . On suppose qu’un seul événement arrive à la fois, que
P(X = 1) = 1 − P(X = 0) = p.

Par exemple, cette loi intervient lorsque l’on modélise l’état de fonctionnement le nombre d’événement se produisant pendant T ne dépend que de la durée de
d’un système. La probabilité que le système fonctionne vaut p et la probabilité cette période et que les événements sont indépendants.
que le système ne fonctionne pas vaut 1 − p. Cette loi s’applique aussi aux jeux Si le nombre moyen d’événements (i.e. accidents) par unité de temps (i.e.
de hasard de type binaire comme pile ou face . . . semaine) est c, alors on démontre que la probabilité d’obtenir n événements

6
Probabilités et variables aléatoires

pendant un temps T est : Une densité de probabilité est donc une fonction positive ou nulle, d’intégrale
(cT )n
1, et qui caractérise la loi d’une v.a.r. continue. De plus, en tout point x0 ∈ R
P(N = n) = exp(−cT ) . où FX est dérivable, on a fX (x0 ) = FX 0
(x0 ).
n!
Exemple : Dans l’exemple de la durée de vie T d’une ampoule électrique, T
3.4 Variables aléatoires réelles continues a pour densité de probabilité
Définition
f (x) =
exp(−x/100)/100 pour tout x ≥ 0
D ÉFINITION 21. — Soit X une v.a.r. qui prend un nombre infini non dénom- 0 pour tout x < 0.


brable de valeurs. Si FX est une fonction continue, on dit que X est une v.a.r.
continue. Dans ce cas, la loi de X est déterminée par l’ensemble des probabi- Enfin, établir que deux v.a.r. (discrètes ou continues) X et Y ont même loi,
lités P(a < X < b), pour tout a < b. c’est démontrer que l’on a l’égalité suivante :

Remarque : Notons que l’on peut mettre < ou ≤ dans ce qui précède car la P(a < X ≤ b) = P(a < Y ≤ b), a, b ∈ R.
variable étant continue, on a P(X = x) = 0 pour tout x ∈ R. Exemple : Soit
λ > 0. Une v.a.r. X de fonction de répartition Ainsi, en faisant tendre a vers −∞, on obtient le résultat suivant :

FX (x) =
1 − exp(−λx) si x ≥ 0 T HÉORÈME 23. — Deux v.a.r. à valeurs dans le même ensemble d’arrivée ont
0 si x < 0 la même loi si et seulement si leurs fonctions de répartition sont égales.


est continue.
Exemples de variables continues
D ÉFINITION 22. — Si l’on peut écrire la fonction de répartition d’une va-
riable continue sous la forme Soit X une v.a.r. continue. Alors la loi de X est caractérisée par l’ensemble
des probabilités
FX (t) = fX (x)dx, P(a < X < b) = fX (x)dx,
−∞ a
Z t Z b

où fX est une fonction de R dans R, alors on dit que fX est la densité de où f est la densité de probabilité de X et a et b sont deux nombres réels,
X
probabilité de la v.a.r. X. éventuellement infinis. Comme nous l’avons vu plus haut, il suffit de connaître
cette densité pour connaître la loi de X.
Ceci implique que l’on a pour tout a < b :
Loi uniforme
P(a < X < b) = FX (b) − FX (a) = fX (x)dx.
a La loi uniforme sur un intervalle est la loi des "tirages au hasard" dans cet
Z b

intervalle. Si a < b sont deux réels, la loi uniforme sur l’intervalle [a, b] est
Cee intégrale étant positive pour tout a < b, il en résulte que fX ≥ 0. De plus,
puisque limt→+∞ FX (t) = 1, on a
notée U(a, b). Elle a pour densité :

1
fX (x)dx = 1. 1[a,b] (x) .
−∞
b−a
Z +∞

7
Probabilités et variables aléatoires

Loi exponentielle

0.3
On dit que X suit une loi exponentielle de paramètre λ > 0, notée E(λ), si
la loi de X a pour densité

0.2
fX (x) =
λ exp(−λx) si x ≥ 0,

dgamma(x, 2)
0 si x < 0.

0.1


La loi exponentielle est utilisée en fiabilité. Le paramètre λ représente le taux

0.0
moyen de défaillance alors que son inverse θ = 1/λ est “le temps moyen
0 2 4 6

x
de bon fonctionnement". La loi exponentielle s’applique bien aux matériels
électroniques ou aux matériels subissant des défaillances brutales.
Loi Gamma F IGURE 1 – Graphe de la densité de la loi Gamma de paramètre de forme
a = 2, 3, 4.
La loi exponentielle est un cas particulier de la famille des lois Gamma.
Soient a > 0 et λ > 0. On dit que X suit une loi Gamma de paramètres (a, λ),
notée γ(a, λ), si la loi de X a pour densité la densité de la loi normale présente un axe de symétrie vertical pour x = µ ;
il n’existe pas d’expression analytique de la fonction de répartition de X qui
Γ(a) x exp(−λx) si x ≥ 0, est approchée par le calcul numérique de l’intégrale de la densité. La loi nor-
fX (x) =
0 si x < 0, male s’applique à de nombreux phénomènes, en physique, en économie (er-
 λa a−1

reurs de mesure), biologie ; c’est une conséquence du théorème central limite


où pour tout a > 0, la fonction gamma est donnée par Γ(a) = vue dans la section 5.3, elle est la forme limite de nombreuses lois discrètes.
0
x exp(−x)dx. Le paramètre a est un paramètre de forme alors que le Ainsi, toute grandeur résultat d’un ensemble ou d’une “somme” de plusieurs
paramètre λ est un paramètre d’échelle. Pour n entier, a = n/2 et λ = 1/2, variables indépendantes et de même loi se distribue approximativement suivant
R +∞ a−1

la loi G(n/2, 1/2) est appelée loi du chi-deux à n degrés de liberté, et no- une loi normale. Il faut cependant remarquer que les variables utilisées dans les
tée X 2 (n). Elle joue un rôle important en statistique, c’est la loi de la somme domaines technologique, économique, biologique sont bien souvent positives.
des carrés de n variables aléatoires indépendantes de loi N (0, 1). On l’utilise Pour que la loi normale puisse être représentative d’un tel phénomène, il faut
pour les variances empiriques d’échantillons gaussiens. La loi G(1, λ) est la que la probabilité théorique d’obtenir des valeurs négatives de la variable soit
loi exponentielle E(λ). très faible. Il faut en particulier éviter d’utiliser cette modélisation pour les
Loi normale de paramètres (µ, σ 2 ) queues des distributions.
2
Soient µ ∈ R et σ > 0. On dit que X suit une loi normale de paramètres Lois du χ , de Student et de Fisher
(µ, σ 2 ), notée N (µ, σ 2 ), si la loi de X a pour densité Par définition, la variable aléatoire, somme des carrés de ν variables indé-
pendantes
1
N (0, 1) suit une loi du χ2 à ν degrés de liberté. Deux autres lois
fX (x) = √
(x − µ)2 jouent des rôles important en statistique.
2σ 2
exp − , x ∈ R.
σ 2π
 

berté, T (n) est la loi du rapport X/( Y /n), où les variables aléatoires X et
p La loi de Student à n degrés de li-

Y sont indépendantes , X de loi N (0, 1), Y de loi X 2 (n). Elle a pour densité :

8
Probabilités et variables aléatoires

la quantité
E(h(X)) = h(x)P(X = x),
x∈X

0.3
X

pourvu que cette série converge (dans le cas où X est infini).

0.2
- Si X est continue et admettant une densité fX , l’espérance de h(X) est la

Density
quantité

0.1
+∞
E(h(X)) = h(x)fX (x)dx,

0.0
−∞
Z

−4 −3 −2 −1 0 1 2 3 à condition que cette intégrale soit convergente.


x

Notons que si h(x) = x, on obtient E(X) appelée espérance mathématique


F IGURE 2 – Densité théorique et histogramme de la simulation de la loi nor- (ou moyenne) de la v.a.r. X. Par ailleurs, si l’on définit la v.a.r. suivante :
male. 1 si X ∈ A (A ⊂ R)
1{X∈A} =
0 sinon


qui est appelée fonction caractéristique de l’événement {X ∈ A}, alors l’es-


n+1 n+1 pérance de cette v.a.r. est :
Γ 2
1 + .
n

nπΓ n2 E(1{X∈A} ) = P(X ∈ A) = PX (A),
 
x2 − 2

d’où le lien étroit entre probabilité et espérance.




Elle décrit la distribution de la moyenne empirique d’un échantillon gaussien.


La loi de Fisher de paramètres n et m (entiers positifs), est la loi du rapport Propriétés
(X/n)/(Y /m), où X et Y sont deux variables aléatoires indépendantes, de 1. L’espérance est linéaire : pour tout α, β ∈ R, et pour toutes v.a.r. X et Y
lois respectives χ2 (n) et χ2 (m). Elle caractérise la distribution de rapports de
variances est et très présente en théorie des tests (analyse de variance et modèle E(αX + βY ) = αE(X) + βE(Y ).
linéaire). L’expression de sa densité est définie par un rapports de fonctions 2. Si X est une v.a.r. constante égale à a ∈ R, c’est-à-dire pour tout ω ∈ Ω,
Γ(x). X(ω) = a, alors P(X = a) = 1 et E(X) = a.
3. L’espérance d’une v.a.r. positive est positive. En particulier, si X ≥ Y (ce
4 Caractéristiques des variables aléatoires qui signifie que pour tout ω ∈ Ω, X(ω) ≥ Y (ω)), alors E(X − Y ) ≥ 0
donc E(X) ≥ E(Y ).
4.1 Espérance
L’espérance d’une v.a.r. X est un indicateur de “localisation" de sa loi :
Définition
E(X) ' “valeur moyenne de X".
D ÉFINITION 24. — Soit X une v.a.r. et h une application de R dans R. Donc Néanmoins, la connaissance de l’espérance mathématique donne peu de ren-
h(X) est elle aussi une v.a.r. seignements sur cette v.a.r. Ainsi, il faut étudier “l’étalement" de sa loi, c’est-
- Si X est discrète à valeurs dans un ensemble X , l’espérance de h(X) est à-dire la dispersion de la v.a.r. X autour de sa moyenne E(X).

9
Probabilités et variables aléatoires

4.2 Variance et écart-type – Loi de Bernoulli B(p) : E(X) = p et Var(X) = p (1 − p).


– Loi binomiale B(n, p) : E(X) = np et Var(X) = np(1 − p).
Définitions – Loi géométrique G(p) : E(X) = p1 et Var(X) = 1−pp2 .
Pour rendre positifs les écarts entre X et son espérance E(X), un autre outil – Loi de Poisson P(λ) : E(X) = Var(X) = λ.
plus facile à manipuler que la valeur absolue, est à notre disposition : la mise – Loi normale N (µ, σ 2 ) : E(X) = µ et Var(X) = σ 2 .
au carré. On ne va donc pas calculer la moyenne des écarts mais la moyenne – Loi exponentielle E(λ) : E(X) = λ1 et Var(X) = λ12 .
des écarts au carré. C’est ce qu’on appelle la variance.
4.3 Inégalité de Chebychev
D ÉFINITION 25. — La variance de la v.a.r. X est la quantité : T HÉORÈME 27. — (inégalité de Chebychev)
2 Soit  > 0 et soit X une v.a.r. admettant une variance. Alors on a :
Var(X) = E[(X − E(X)) ].
Var(X)
.
2
P (|X − E(X)| ≥ ) ≤
Propriétés :
– Var(X) = E(X 2 ) − (E(X))2 . Cette inégalité permet de comprendre la signification de l’écart-type σX =
– Var(aX+b) = a2 Var(X) pour tout a, b ∈ R. En particulier, Var(X+b) = Var(X), au sens où il caractérise la dispersion de la v.a.r. autour de son
Var(X). espérance mathématique :
p

Afin d’être en mesure de comparer, en termes d’ordre de grandeur, variance et 1


espérance, il faut prendre la racine carrée de la variance. C’est ce qu’on appelle
2
P (|X − E(X)| ≥ σX ) ≤
l’écart-type. 1

P (|X − E(X)| < σX ) ≥ 1 − 2 .
D ÉFINITION 26. — La racine carrée de Var(X), notée σX , est appelée écart-
type de X. Supposons que  = 10. Alors l’événement {|X − E(X)| ≥ 10σX } a peu de
chances de se réaliser car on a
Remarques : 1
.
100
P (|X − E(X)| ≥ 10σX ) ≤
– Si X est une v.a.r. telle que E(X) = µ et Var(X) = σ 2 , alors la variable
Y = (X − µ)/σ est d’espérance nulle et de variance 1. On dit que Y est Supposons maintenant que σX = 0. Alors nous obtenons pour tout  > 0
centrée (d’espérance nulle) et réduite (de variance 1).
– Le moment d’ordre k est défini par P (|X − E(X)| ≥ ) ≤ 0.
Par conséquent
k
mk = (x − µ) f (x)dx. P (|X − E(X)| > 0) = 0,
−∞
Z ∞

et donc X est presque sûrement égale à E(X).


m3
– γ1 = σ3 est le coefficient d’asymétrie (Skewness).
m4
– γ2 = σ4 − 3 est le coefficient d’aplatissement (Kurtosis). On doit cependant remarquer que, malgré son intérêt théorique certain, l’in-
égalité de Chebychev présente peu d’intérêt en pratique, car ne faisant pas
Exemples :
intervenir la loi de probabilité suivie par la v.a.r. considérée, elle donne une
a+b (b−a)2
– Loi uniforme U[a, b] : E(X) = 2 et Var(X) = 12 . majoration de la probabilité beaucoup trop grande.

10
Probabilités et variables aléatoires

4.4 Indépendance de variables aléatoires  > 0,


X1 + . . . + Xn
D ÉFINITION 28. — Deux v.a.r. X et Y sont dites indépendantes si et seulement P a
n n→∞
− µ >  −→ 0.
 

si
n
P(X ∈ A, Y ∈ B) = P(X ∈ A)P(X ∈ B), ∀A, B ⊂ R. Dans ce cas, on dit que la moyenne arithmétique X1 +...+X
n converge en pro-
babilité vers l’espérance mathématique µ lorsque n tend vers +∞.
On peut montrer que l’indépendance est équivalente à
5.3 Théorème central limite
2
P(X ≤ a, Y ≤ b) = P(X ≤ a)P(Y ≤ b), ∀(a, b) ∈ R , On a vu que deux v.a.r. ont la même loi si et seulement si leur fonctions
de répartition sont égales. Ainsi, la fonction de répartition est souvent utilisée
ou encore en termes de fonctions de répartition :
en pratique afin de démontrer l’égalité en loi. On est donc amené à définir la
FX,Y (a, b) = FX (a)FY (b), ∀(a, b) ∈ R2 . convergence en loi comme la convergence des fonctions de répartition asso-
ciées.
T HÉORÈME 29. — Soient X et Y deux v.a.r. D ÉFINITION 31. — Soit (Yn )n∈N une suite de v.a.r. et soit Y une v.a.r. On dit
– Cas discret : X et Y sont indépendantes si et seulement si pour tout que (Y )
n n∈N converge en loi vers Y si pour tout x0 point de continuité de la
couple (x, y) ∈ X × X , on a pX,Y (x, y) = pX (x)pY (y). fonction de répartition FY de Y ,
– Cas continu : X et Y sont indépendantes si et seulement si pour tout
n→+∞
couple (s, t) ∈ R2 , on a fX,Y (s, t) = fX (s)fY (t). FYn (x0 ) = P(Yn ≤ x0 ) −→ FY (x0 ) = P(Y ≤ x0 ).

L
On note la convergence en loi Yn → Y.
5 Théorèmes limites
La convergence en loi est réalisée aux points de continuité de FY . C’est la
5.1 Introduction convergence simple de la suite de fonctions de répartition FYn .
Deux théorèmes mathématiques ont une place particulière en théorie des
probabilités et en statistiques : la loi des grands nombres et le théorème central Propriété d’additivité de la loi normale : si X1 , . . . , Xn sont des v.a.r. indé-
limite. Ils interviennent dans l’étude de phénomènes aléatoires comportant un n suit la loi
n
pendantes et de même loi N (µ, σ 2 ), alors la v.a.r. X1 + . . . +
grand nombre de v.a.r. indépendantes de même loi. Par exemple, pour le pre- N (nµ, nσ 2 ). Ce résultat implique que la v.a.r. centrée réduite i=1 Xσi√−µ n
suit
mier cité, il apparaît lorsque l’on étudie la proportion de “pile" dans un jeu de
PX

la loi normale N (0, 1). Que se passe-t-il dans le cas général où les v.a.r. Xi ne
pile ou face, ou encore la moyenne de lancers de dé successifs. Quant au se- sont pas nécessairement normales ? Le résultat ci-dessus se transforme alors
cond, il nous donne de façon informelle une estimation précise de l’erreur que en un résultat de convergence en loi.
l’on commet en approchant l’espérance mathématique par la moyenne arith-
métique. T HÉORÈME 32. — (TCL) Soient X1 , . . . , Xn des v.a.r. indépendantes, de
même loi, et admettant une variance. On note µ = E(X1 ) et σ 2 = Var(X1 ).
5.2 Loi (faible) des grands nombres Alors
T HÉORÈME 30. — (LGN) Soient X1 , . . . , Xn des v.a.r. indépendantes, de X1 + . . . + Xn − nµ L

σ n
−→ N (0, 1) lorsque n → +∞.
même loi, et admettant une variance. On note µ = E(X1 ). Alors, pour tout

11
Probabilités et variables aléatoires

5.4 Approximation d’une loi binomiale

0.12
On contrôle n pièces et on introduit les v.a.r. X1 , . . . , Xn définies par Xi =

0.10
1 si la i-ème pièce contrôlée est défectueuse, et 0 sinon. On note Y = X1 +

0.08
. . . Xn le nombre total de pièces défectueuses dans le lot. Alors la v.a.r. Y suit

Densité
une loi binomiale de paramètres (n, p) où p est la probabilité qu’une pièce soit

0.06
défectueuse.

0.04
0.02
Approximation par une loi normale

0.00
Puisque les v.a.r. Xi sont indépendantes, de même loi, et de variance finie : 0 5 10 15 20

P(Xi = 1) = p, P(Xi = 0) = 1−p, E(Xi ) = p et Var(Xi ) = p(1−p),


F IGURE 3 – Approximation d’une loi B(100, 0.1) par une loi N (10, 9).
on peut appliquer le TCL :

X1 + . . . + Xn − np L
−→ Z ∼ N (0, 1) lorsque n → +∞. P ROPOSITION 33. — Soit Yn une v.a.r. binomiale de paramètres (n, p). On
np(1 − p) suppose que n → +∞ et p = λ/n, où λ > 0. Alors, pour tout k ∈ N,
p

λk
On peut donc approcher la loi de la v.a.r. (Y − np)/ np(1 − p) par une loi lim P (Yn = k) = exp(−λ) .
n→+∞ k!
p

normale N (0, 1). Ceci revient à approcher la loi de Y par une loi N (np, np(1−
p)). En pratique, on utilise cette approximation si

inf(np, n(1 − p)) ≥ 5.

Ainsi, si p = 1/2, l’approximation est correcte pour n ≥ 10, par contre si


p = 1/100, il faut n ≥ 500 pour pouvoir l’utiliser.
Attention, une v.a.r. binomiale est une variable discrète à valeurs dans
{1, . . . , n}, alors qu’une v.a.r. normale est continue et à valeurs dans R. Par
ailleurs, dans le cas d’une loi binomiale, un point a une probabilité non nulle
alors que dans le cas d’une loi normale, un point est un ensemble de probabilité
nulle. Pour ces deux raisons, il faut faire une “correction de continuité" quand
on utilise l’approximation d’une loi binomiale par une loi normale.
ou encore
Approximation par une loi de Poisson
Lorsque p est très petit, on utilise plutôt l’approximation de la loi binomiale
par une loi de Poisson, qui est satisfaisante pour p < 0, 1 et n > 50.

12
Probabilités et variables aléatoires

* *

0.15
* *

0.10
*

Densité
*
*

0.05
* *

0.00
* * *
*
0 2 4 6 8 10 12

F IGURE 4 – Approximation d’une loi B(50, 0.1) (bleue) par une loi de Pois-
son(5) (rouge) et une loi N (5, 4.5) (verte).

n=1 n=4

0.4

Density
Density

0.0 0.6
0.0
0.0 0.2 0.4 0.6 0.8 1.0 0 1 2 3 4

x x

n=8 n=12

0.3

Density
Density

0.0
0.0 0.2 0.4
1 2 3 4 5 6 7 3 4 5 6 7 8 9

x x

F IGURE 5 – Simulation d’une v.a.r gaussienne par la somme de n v.a.r. uni-


formes.

13

Vous aimerez peut-être aussi