المذكرة النهائية لنيل شهادة الماستر 2
المذكرة النهائية لنيل شهادة الماستر 2
المذكرة النهائية لنيل شهادة الماستر 2
ET DE LA RECHERCHE SCIENTIFIQUE
UNIVERSITE ABBES LAGHROUR KHENCHELA
FACULTE DES SCIENCES ET DE LA TECHNOLOGIE
N° de série :……
THEME
Une approche de prédiction médicale basée sur les
données cliniques utilisant des algorithmes
d’apprentissage automatique
Réalisés par : Dirigé par :
Souad BOUTEARI Dr. Hichem RAHAB
Alla Eddine RICHE
Membre de jury:
Dr. Dalal BARDOU Président
In this work, we have designed four models to predict diabetes in order to reduce the
risk and the occurrence of complications of this disease on the health of the patient. To design
these models, we used four machine learning algorithms, i.e. K nearest neighbors KNN,
Decision trees DT, Support Vector Machine SVM, and Logistic Regression LR. The
performance of the obtained models was tested according to the accuracy of each model. The
highest accuracy rates were obtained in the decision tree model in both the split method
(Train / Test Split) and k_fold cross validation splitting model.
Keywords: machine Learning, K nearest neighbors, Decision trees, Support vector machine,
Logistic Regression, diabetes prediction, medical prediction.
Résumé
Dans ce mémoire, nous avons conçu quatre modèles pour prédire le diabète afin de
réduire le risque et la survenue de complications de cette maladie sur la santé du patient. Pour
concevoir ces modèles, nous avons utilisé des algorithmes d'apprentissage automatique, à
savoir ; K voisins les plus proches, les Arbres de décision, Les séparateurs à Vaste Marge
SVM, et la régression logistique. La comparaison des modèles a été faite selon le taux de
classification (Accuracy). Les taux de classification les plus élevés ont été obtenus dans le
modèle d'arbre de décision dans les deux méthodes de division ; Train/Test Split et la
validation croisée k_fold.
Mots clés : apprentissage automatique, K voisins les plus proches, Arbres de décision, Les
séparateurs à Vaste Marge, la régression logistique, prédiction de diabète, prédiction
médicale.
ملخص
ورىل ىرقيٍو ٍخاطش وٍضاعفاخ هزا اىَشض عيى صحح،فً هزه اىَزمشج قَنا ترصٌٍَ أستع نَارج ىيرنثؤ تَشض اىسنشي
اىَقسَاخ، أشجاس اىقشاس،اىجاس األقشب- ك:ً ىرصٌٍَ اىنَارج قَنا تاسرعَاه خىاسصٍٍاخ اىرعيٌ اَىً واىَرَثيح ف.اىَشٌط
ٌ أعيى نسثح أداء ذ.)Accuracy ( ذَد ٍقاسنح اىنَارج حسة نسثح األداء.ًراخ اىهاٍش األمثش واإلنحذاس اىيىجسر
. اىرذسٌة|االخرثاس واىَصادقح اىَرذاخيح:ٌٍاىرحصو عيٍها تاسرخذاً نَىرج أشجاس اىقشاس ورىل تاعرَاد طشٌقرٍن ىيرقس
،ًاإلنحذاس اىيىجسر، اىَقسَاخ راخ اىهاٍش األمثش، أشجاس اىقشاس،اىجاس األقشب- ك،ً اىرعيٌ اَى:الكلمات المفتاحية
.ً ىيرنثؤ اىطث،اىرنثؤ تَشض اىسنشي
Remerciements
A ma mère,
A mon père,
A toute ma famille,
BOUTEARI Souad
Dédicace
Je dédie ce mémoire,
A mes très chers parents
Qui veillent sans cesse sur moi avec leurs prières et leurs
recommandations. Que Dieu le tout puissant les protège et leur
réserve une longue et meilleure vie.
A mes très chers frères et sœurs.
A toute ma famille
A mes chères amies
Table de matière
CHAPITRE 1 : 13
Généralités sur le diabète 13
1.1 Introduction 14
1.2 Définition de diabète 14
1.3 Définition L'insuline 15
1.3.1 Les différents types d’insuline : 15
1.4 Diabètes et complications 16
1.4.1 Complications métaboliques : 16
1.4.2 Complications chroniques : 17
1.4.3 Complications infectieuses: 17
1.5 Diagnostic du diabète 17
1.5.1 Qui est concerné par le dépistage du diabète ? 18
1.5.2 Comment savoir si l'on est diabétique ? 18
1.5.3 Décoder et comprendre les résultats de la glycémie 20
1.5.4 À quelle fréquence dois-je contrôler ma glycémie ? 20
1.6 Classification du diabète 20
1.6.1 Diabète de type 1 (5-10% des patients) 21
1.6.2 Symptômes majeurs du diabète de type 1 21
1.6.3 Diabète de type 2 (90-95% des patients) 22
1.7 Les symptômes du diabète de type 2 22
1.7.1 Diabète gestationnel (14% des femmes enceintes) 22
1.8 Symptômes du diabète gestationnel durant la grossesse 23
1.8.1 Le traitement du diabète gestationnel 23
1.9 Prévention des complications du diabète 24
1.10 Conclusion 24
CHAPITRE 2 : 25
L'apprentissage automatique 25
2 Chapitre 2 : L'apprentissage automatique 26
2.1 Introduction 26
2.2 Définition de l’intelligence artificielle 26
2.3 Apprentissage automatique 26
2.4 Les types d’apprentissage automatique 27
2.4.1 Apprentissage Supervisé 27
2.4.2 Apprentissage non Supervisé 29
2.4.3 L’apprentissage par renforcement 30
2.4.4 Apprentissage semi supervisé 30
2.5 Les algorithmes de l'apprentissage automatique utilisés 31
2.5.1 K plus proche voisins(KNN) 31
2.5.2 Arbre de décision 32
2.5.3 Machine à Vecteurs Support (SVM) 32
2.5.4 Naïves Bayes 33
2.5.5 Réseaux de neurones 33
2.5.6 Régression 34
2.5.6.1 Régression linéaire 34
2.5.6.2 Régression logistique 34
2.5.7 Les méthodes par ensemble 35
2.5.7.1 Méthodes d’ensemble parallèles (Bagging) 35
2.5.7.2 Méthodes d'ensemble séquentielles (Boosting) 35
2.6 Apprentissage non supervisé 35
2.6.1 K-Means : 36
2.6.2 T-distributed stochastic neighbor embedding (T-SNE): 36
2.7 Conclusion 36
3 Chapitre 3 : prédiction du diabète par algorithmes d’apprentissage automatique 39
3.1 Introduction 39
3.2 Définition de Dataset utilisée 39
3.2.1 Description du dataset 40
3.3 Définition des outils utilisés 41
3.3.1 Googlecolab (Colaboratoire Google) 41
3.3.2 Python 42
3.4 visualisations de données 43
3.4.1 Charger et affiche le fichier dataset.CSV 43
3.4.2 Statistiques descriptives 44
3.4.3 Histogrammes 44
3.4.4 Diagrammes de densité 45
3.5 Algorithme utilise 46
3.6 Implémentation 47
3.6.1 Train/Test Split 47
3.6.2 Matrice de confusion 47
3.6.3 La prédiction 49
3.7 Arbre de décision 49
3.7.1 Méthode 01 : Train/Test Split 49
3.7.2 Méthode 02 : Validation crois (k_folde) 50
3.8 Machine à Vectors Support (svm) 52
3.8.1 Méthode 01 : Train/Test Split 52
3.8.2 Méthode 02 : Validation crois (k_folde) 53
3.9 Régression logistique 54
3.9.1 Méthode 01 : Train/Test Split 54
3.9.2 Méthode 02 : Validation crois (k_fold) 55
3.10 K plus proche voisins (kNN) 57
3.10.1 Méthode 01 : Train/Test Split 57
3.10.2 Méthode 02 : Validation crois (k_folde) 57
3.11 Comparaison enter les algorithmes 58
3.12 Conclusion 59
Table de figures
Table de figures
Figure 1:Insulinorésistance et insulinopénie[3] .................................................................................... 15
Figure 2: Diabètes et complications à long terme [4] ........................................................................... 16
Figure 3:test-hémoglobine glyquée (HbA1c) [8] ................................................................................... 19
Figure 4: Glucomètre [9] ....................................................................................................................... 19
Figure 5:l’apprentissage automatique *17+ ........................................................................................... 27
Figure 6: Les grandes classes d’apprentissage automatique *18+ ......................................................... 27
Figure 7: Workflow d'un apprentissage supervisé [3]........................................................................... 28
Figure 8: Exemple d’apprentissage non supervisé *18+ ........................................................................ 29
Figure 9: L’apprentissage par renforcement *20+ ................................................................................. 30
Figure 10:L’apprentissage par renforcement [20] ................................................................................. 33
Figure 11:Algorithme pour charger et affiche dataset (capture d'écran) ............................................. 43
Figure 13:Algorithme Statistiques descriptives pour dataset ............................................................... 44
Figure 14: statistiques descriptives du Dataset ...................................................................................... 44
Figure 15:Algorithme Histogrammes pour Dataset .............................................................................. 45
Figure 16: Résultats d’Algorithme Histogrammes................................................................................. 45
Figure 17:Code de Diagrammes de densité .......................................................................................... 46
Figure 18:Résulta d’Algorithme Diagrammes de densité...................................................................... 46
Figure 19:Algorithme Arbre de décision Train/Test Split ...................................................................... 50
Figure 20:Algorithme Arbre de décision k_fold .................................................................................... 50
Figure 21:Algorithme Matrice de confusion ......................................................................................... 51
Figure 22: Matrice de confusion Arbres de décision............................................................................. 51
Figure 23:Algorithme Arbre de décision La prédiction ......................................................................... 51
Figure 24:Algorithme séparateurs à vaste marge Train/Test Split....................................................... 52
Figure 25:Algorithme séparateurs à Vaste Marge k_folde ................................................................... 53
Figure 26:Résultats de matrice de confusion d’algorithme (svm) ........................................................ 54
Figure 27:Algorithme régression logistique Train/Test Split ................................................................. 55
Figure 28:Algorithme Régression logistique k_folde ............................................................................ 55
Figure 29: Matrice de confusion d’Algorithme logistique Régression .................................................. 56
Figure 30 : Algorithme K plus proche voisins Train/Test Split ............................................................... 57
Figure 31:Algorithme K plus proche voisins k_folde ............................................................................. 57
Figure 32:Matrice de confusion d’Algorithme KNN .............................................................................. 58
Table de tableaux
Table de tableaux
Tableau 1:Valeurs de référence lors d’une analyse à jeun Situation normale / Diabète ..................... 18
Tableau 2:Description des variables d'ensemble dataset ..................................................................... 40
Tableau 3:Matrice de confusion............................................................................................................ 48
Tableau 4: comparaison de performance enter les quatre algorithmes .............................................. 58
Tableau 5 : Validation croisée (k_plis ou fold) ...................................................................................... 59
Introduction générale
Introduction générale
Depuis la découverte des ordinateurs, de nombreuses activités de la vie quotidienne
ont été simplifiées. Aujourd'hui, les gens peuvent facilement traiter l'information à l'aide de
logiciels et de réseaux informatiques. Compte tenu de son évolution, Internet contribue à faire
de ce monde un meilleur endroit où on peut vivre avec une plate-forme unique d'innovation,
de créativité et d'opportunités économiques. Cette technologie est importante car elle
contribue à améliorer la qualité de vie des personnes du monde entier.
L'intelligence artificielle est la capacité d'une machine d'agir par lui-même et non
explicitement programmé pour reproduire de la parole ou des tâches qui sont généralement
des activités humaines. Aujourd'hui, on trouve l'intelligence artificielle et l'informatique dans
les réseaux sociaux, les transports, et notamment dans le secteur médical. L'application de
l'intelligence artificielle en médecine permet aux machines d'analyser des données et fournir
des estimations dans le but de prédire de nombreuses maladies pour que les médecins puissent
intervenir le plus rapidement possible pour réduire les risques de complications des maladies
sur la santé du patient et lutter contre la propagation des maladies.
Pour résoudre cette problématique nous avons définit le diagnostic médical comme un
processus de classification. Cette formulation nous a permet l’utilisation des ordinateurs avec
des capacités de calculs importantes pour effectuer cette tâche de prédiction. Cependant, la
décision du médecin reste le facteur le plus important dans le diagnostic. Les systèmes de
classement sont très utiles, ils réduisent les erreurs dues à la fatigue et au temps de diagnostic.
La méthode utilisée dans ce travail consiste à appliquer différents algorithmes
d’apprentissage supervisé, à savoir ; K voisins les plus proches, les arbres de décision, la
régression logistique, et les Séparateurs à vaste Marge SVM (Support Vector Machine), avec
des données extraites de l'hôpital qui sont des données cliniques des patients. L’algorithme
qui a abouti à la meilleure classification des patients en termes de taux de classification et de
sensibilité du modèle est l’arbre de décision dans notre expérimentation.
Dans le deuxième chapitre, nous avons essayé de démarrer une étude théorique sur
l'apprentissage automatique et les algorithmes utilisés. Nous nous sommes également
intéressés par les algorithmes d'apprentissage supervisé afin de les utiliser dans le dernier
chapitre pour prédire le diabète.
Le dernier chapitre présente d'abord une étude technique dans laquelle nous
détaillerons la base de données utilisée et l'environnement logiciel adopté pour construire
notre modèle de prédiction. Ensuite, on va présenter les différentes techniques utilisées et la
partie d’implémentation (test/split, k_folde, matrice de confusion prédiction) et les captures
d'écran des algorithmes utilisés et la comparaison enter ces différents algorithmes.
Enfin, ce travail se termine par une conclusion générale qui résume les principales idées que
nous avons apportées et les perspectives pour des futurs travaux.
12
Chapitre 1 Généralités sur le diabète
CHAPITRE 1 :
Dans le premier chapitre, nous présentons quelques concepts préliminaires liés au diabète, qui
est une partie essentielle de sa prédiction dans les chapitres suivants.
Chapiter1 : Généralités sur le diabète
1.1 Introduction
Le diabète est l'une des maladies les plus courantes dans le monde. Actuellement, on
estime que 150 millions de personnes dans le monde souffrent de diabète. Malgré des
décennies d'efforts de recherche et l'espoir de traitements radicaux voire préventifs, cette
maladie continue de ne bénéficier que d'alternatives aux restrictions quotidiennes, faisant
participer activement le patient à son travail de traitement. Dans ce chapitre, nous fournissons
d'abord une introduction au diabète et à l'insuline et à ses types, puis nous donnons les deux
complications ainsi que la façon de diagnostiquer le diabète et les différents types de diabète
et comment prévenir ces complications ou maladies.
Le diabète sucre, plus simplement appelé diabète connue aussi sous le nom d’une
maladie silencieuse. L'organisation mondiale de la santé (OMS) définit le diabète comme une
maladie grave, à long terme (ou chronique), qui survient lorsque le taux de glycémie d’une
personne est élevée parce que son organisme ne peut pas produire assez d’insuline, qu’il n’en
produit pas ou qu’il ne peut pas utiliser efficacement l’insuline qu’il produit [1][2].
Lorsque nous mangeons, les aliments sont dégradés en glucose (sucre). Ce glucose fournit de
l'énergie au corps afin qu'il puisse fonctionner correctement en puisant dans ses ressources.
Pendant la digestion, le sang transporte le glucose dans tout le corps et vient alimenter les
cellules. Cependant, pour que le sucre présent dans le sang puisse ensuite être transmis aux
cellules, le corps a besoin d'insuline, une hormone sécrétée par le pancréas. L’insuline agit
donc comme une clé permettant au glucose de passer du sang aux cellules de notre corps. Si le
glucose reste dans le sang, la glycémie augmente. À long terme, cela peut entraîner le
dysfonctionnement et la détérioration de nombreux organes comme les yeux et les reins [3].
14
Chapiter1 : Généralités sur le diabète
L'insuline est une hormone polypeptidique qui a un effet régulateur sur le métabolisme
du glucose. Une insuline insuffisante conduit au diabète. L'insuline est fabriquée à partir de
cellules bêta du pancréas, dans les îlots de Langerhans et transportée dans le sang. L'insuline
permet au corps d'utiliser le glucose comme énergie [15].
Tous les types d'insuline produisent le même effet. Ils imitent les augmentations et les
diminutions naturelles des niveaux d'insuline dans le corps pendant la journée. La
composition des différents types d'insuline affecte la rapidité et la durée de leur action:[15]
15
Chapiter1 : Généralités sur le diabète
Quel qu'en soit le type de diabète, ce dernier peut entraîner des complications à court terme
(hypoglycémie, malaise...), et des complications à long terme (L'hyperglycémie) en cas de
mauvais contrôle de la glycémie [3].
16
Chapiter1 : Généralités sur le diabète
Cette maladie silencieuse et indolore est détectée le plus souvent lorsque les
complications à long terme s'expriment. Cette découverte peut notamment être brutale dans le
cas de diabète de type 1 (pas de sécrétion d'insuline), allant jusqu'au coma diabétique.
Il est clair qu'il n'est pas toujours facile de savoir par soi-même si l'on est diabétique ou non, si
vous constatez des symptômes multiples et/ou aigus, de vous adresser à un professionnel de la
santé. En effet, c'est le taux de glucose dans le sang qui constitue le signe le plus manifeste de
diabète. Le test sanguin sera effectué deux fois. Si le taux de glycémie est trop élevé dans les
deux mesures, vous souffrez de diabète. Mais quand parle-t-on d'un taux de glycémie trop
17
Chapiter1 : Généralités sur le diabète
élevé ? Le tableau ci-dessous donne un aperçu des valeurs de référence générales dans une
situation normale avant et après un repas, ainsi que des valeurs pouvant indiquer une
hypoglycémie ou une hyperglycémie. Ces valeurs ne fournissent qu’une indication générale ;
elles peuvent varier d'une personne à l'autre et dépendent de la situation [7].
Tableau 1:Valeurs de référence lors d’une analyse à jeun Situation normale / Diabète
Plus le taux de glucose dans le sang est élevé et plus cette augmentation dure longtemps,
plus les symptômes seront nombreux et plus le risque de problèmes de santé graves sera
élevé.
Toute personne ayant des membres de sa famille atteints de diabète de type 2 doit se
faire dépister régulièrement car un risque héréditaire existe (si l'un des deux parents est
diabétique de type 2, le risque héréditaire est de 40 % ; si les deux parents sont atteints, le
risque monte à 70%). Pour le diabète de type 1, le risque de transmission aux enfants est de 6
% si le père est diabétique, 2 ou 3 % si la mère l'est, et 30 % si les deux parents sont atteints
de diabète. Les personnes en surpoids ou souffrant de troubles de la glycémie doivent
également se plier au dépistage.
Il en va de même pour les femmes ayant développé du diabète pendant leur grossesse (diabète
gestationnel) ou ayant mis au monde un bébé de faible poids. Le dépistage est également
recommandé aux personnes de plus de 65 ans [6].
La diagnostique du diabète se fait par un test de prise du sang mesurant la glycémie ou le taux
de sucre sanguin, qui varie selon les apports alimentaires .il existe deux méthode de test : [3]
18
Chapiter1 : Généralités sur le diabète
2. Auto- teste: un lecteur de glycémie pour contrôler plusieurs fois par jour sur une
goutte de sang à des moments précis, c'est ce qu'on appelle l’auto-surveillance. Le
glucomètre permet à une personne de connaître le niveau de glycémie,
généralement de petite taille, il s’agit d’un appareil de mesure transportable que
le patient peut utiliser lui-même à domicile, au travail, etc. Même si son
fonctionnement est assez simple, quelques précautions sont à prendre avant,
durant, et après usage du lecteur de glycémie. [9]
19
Chapiter1 : Généralités sur le diabète
Avant toute vérification, il est nécessaire de connaître vos objectifs glycémiques : à jeun
et 2 heures après les repas (post- prandial). Votre médecin déterminera avec vous ces objectifs
ainsi que la fréquence de mesure. Il n’existe pas de règle universelle. Toutefois, la Haute
autorité de santé (HAS) recommande :
Pour le diabète de type 1 : au moins quatre tests par jour. Les objectifs glycémiques
sont fixés entre 70 et 120 mg/dl avant le repas et < 160 mg/dl en post-prandial.
Pour le diabète de type 2 : dans tous les cas, les objectifs glycémiques sont fixés
entre 70 et 120 mg/dl avant les repas et 180mg/dl en post-prandial. Selon le type de
traitement, la fréquence est variable.
Pour le diabète gestationnel : les objectifs sont stricts : à jeun < 0,95 g/l et < 1,20 g/l
en postprandial. [10]
Diabète de type 1
Diabète de type 2
Diabète gestationnel
20
Chapiter1 : Généralités sur le diabète
Ce type de diabète apparaît en général chez le sujet jeune mais peut se développer à
tout âge. L’étiologie exacte reste inconnue mais une pathologie auto-immune détruisant les
cellules béta du pancréas est souvent évoquée, ainsi que des facteurs environnementaux et
certains virus ou bactéries. Le pancréas ne produit plus du tout ou pas assez d’insuline ce qui
provoque les symptômes classiques d’hyperglycémie [21].
Les principaux symptômes révélateurs, également appelés les signes cardinaux du diabète,
sont présents dès le début de la maladie :
Les signes majeurs du diabète de type 1 se manifestent souvent à l'occasion d'un épisode
fébrile ou d'une infection virale, parfois lors d'un stress aigu [12].
21
Chapiter1 : Généralités sur le diabète
Il peut apparaître à tout âge mais se développe en général chez les adultes d’âge moyen
ou les personnes âgées pouvant déjà souffrir d’un syndrome métabolique (surpoids, obésité,
dyslipidémie, hypertension...). L’étiologie est inconnue mais il apparaît plus fréquemment
chez certaines ethnies ou après un diabète gestationnel. Le pancréas est en général encore
fonctionnel (au moins au début) mais une production insuffisante d’insuline est observée ainsi
qu’une résistance des cellules à l’action de celle-ci [21].
Soif importante
Envie d'uriner très fréquente (c'est le syndrome polyuro-polydipsique)
Fatigue (asthénie) majeure
Amaigrissement. [11]
Ce diabète apparaît lors d’une grossesse. Il se développe une intolérance au glucose due
à une sécrétion insuffisante d’insuline dans le cadre d’une résistance à l’action de celle-ci
augmentée durant la grossesse. Ce diabète est en général asymptomatique d’où l’importance
du dépistage chez la femme enceinte [21].
22
Chapiter1 : Généralités sur le diabète
- Parfois prendre de l'insuline (en petite injection dans le ventre, la cuisse ou le bras)
sous contrôle médical (et sous prescription médicale),
Les femmes concernées sont généralement prises en charge par une équipe de soignants :
médecin, infirmière, sage femme, diététicienne.[14]
23
Chapiter1 : Généralités sur le diabète
1.10 Conclusion
24
Chapitre 2 : L'apprentissage automatique
CHAPITRE 2 :
L'apprentissage automatique
Dans ce deuxième chapitre, nous avons essayé de démarrer une étude théorique sur
l'apprentissage automatique et les algorithmes utilisés. Nous nous sommes également
concentrés sur les algorithmes d'apprentissage supervisé afin de les utiliser dans le dernier
chapitre pour prédire le diabète.
Chapitre 2 : L'apprentissage automatique
2.1 Introduction
L'intelligence artificielle (IA) est le nouveau terme que nous entendons à chaque fois
ces dernières années. L'intelligence artificielle détermine généralement la capacité d'une
machine d'agir en soi et non explicitement programmé pour reproduire des activités et tâches
qui sont généralement liées au comportement humain. L’apprentissage automatique est une
discipline de l'intelligence artificielle qui s'efforce de trouver un moyen de créer des
programmes informatiques qui s'améliorent automatiquement avec l’expérience [3].
26
Chapitre 2 : L'apprentissage automatique
Apprentissage Automatique
27
Chapitre 2 : L'apprentissage automatique
i : indice de donnée
x : donnée et y : classe ou étiquète de donnée.
Dtest ∈ Ddonnée
28
Chapitre 2 : L'apprentissage automatique
29
Chapitre 2 : L'apprentissage automatique
Il s’agit d’un mixe entre l’apprentissage supervisé et non supervisé en utilisant des
données. L’avantage d’utiliser cette approche réside dans le fait que l'étiquetage de données
peut être couteux et prend souvent beaucoup de temps. En plus, il pourra entrainer un biais
humain dans les données étiquetées. Dans ce cas, l'apprentissage semi-supervisé, qui ne
nécessite que quelques étiquettes, est très pratique. Et le fait d’inclure un grand nombre de
données non étiquetées au cours du processus d’entrainement a tendance à améliorer la
performance du modèle final tout en réduisant le temps et les coûts consacrés à la
construction de données étiquetées et non-étiquetées pour le même ensemble de données [18].
30
Chapitre 2 : L'apprentissage automatique
KNN est un algorithme qui ne fait aucune hypothèse sur la structure des données et de
la distribution, ce qui signifie qu'il s'agit d'un algorithme non paramétrique. Il est également
appelé algorithme de l'apprenant paresseux, car il n'apprend pas immédiatement de l'ensemble
d'apprentissage, mais stocke l'ensemble de données et au moment de la classification, il
exécute une action sur l'ensemble de données. KNN fonctionne par classifiassions ou
prédiction sur la base d'un nombre fixe (K) de points de données les plus proches de point
d'entrée. Cela signifie que pour une valeur choisie de K, un point d'entrée serait classée ou
devrait appartenir a la même classe que la classe la plus proche des nombre des points K
voisins [3].
31
Chapitre 2 : L'apprentissage automatique
C’est la distance entre deux point données par la différence maximale entre leur
cordonnées. Maintenant, on considère deux points 𝐴 et 𝐵, de cordonnées respectives
𝑋1 , 𝑋2 , … , 𝑋𝑛 et (𝑌1 , 𝑌2 , … , 𝑌𝑛 ), la distance de Tchebychev est définie par :
𝐷𝑖𝑠𝑡𝐴𝐵= max𝑖∈ [0,](|𝑋𝑖−𝑌𝑖|)
Les Séparateurs à Vaste Marge (SVM) souvent traduit par l’appellation de Séparateur
à Vaste Marge sont une classe d’algorithmes d’apprentissage initialement définis pour la
discrimination ; c’est-à-dire la prévision d’une variable qualitative initialement binaire. Ils ont
32
Chapitre 2 : L'apprentissage automatique
Naïve bayes fait partie des algorithmes d'apprentissage automatique supervise qui sont
principalement utilisés pour la classification. C’est un classificateur probabiliste simple basé
sur l'application de théorème de bayes et qui aide à construire des modèles d'apprentissage
automatique rapides qui peuvent faire des prédictions rapides. Naïve bayes, dans l'algorithme,
se réfère à l'hypothèse naïve que l'algorithme fait, qui est que chaque fonctionnalité est
indépendante des autres fonctionnalités [3].
33
Chapitre 2 : L'apprentissage automatique
𝑦 = 𝐹( 𝑤𝑖 . 𝑥𝑖 + 𝑏)
𝑖=0
− 𝑏 représente le biais.
2.5.6 Régression
Les méthodes de régression s’appliquent lorsque le résultat que l'on cherche à estimer
est une valeur continue. En machine learning ML, la régression est un outil important de
l’apprentissage supervisé pour la modélisation et l’analyse des données. Elle est notamment
utilisée en statistique et en économie [22].
34
Chapitre 2 : L'apprentissage automatique
Ces techniques sont des méta-algorithmes qui consistent à combiner plusieurs modèles
uniques de base, comme les arbres de décision, dans un même modèle prédictif. L’objectif est
d’améliorer la généralisation et la robustesse de nos modèles. En effet, statistiquement
parlant, la moyenne d’un ensemble d’échantillons est plus fiable que celle d’un seul
échantillon. Les méthodes d’ensemble peuvent être divisées en deux catégories : les méthodes
d’ensemble parallèles et les méthodes d'ensemble séquentielles [22].
Dans l'apprentissage non supervisé il n'y a pas de valeurs de sortie, il s'agit de trouver
des structures cachées à partir d'un ensemble de données qui doivent être regroupé d'où le
terme «clustering ». Le but de ce type d’apprentissage est de séparer les données en groupes
ou en catégories [22].
35
Chapitre 2 : L'apprentissage automatique
Le clustering est une technique d’apprentissage automatique non supervisé, utilisé pour
le regroupement des données non étiquetées dans de nombreux domaines. Si on dispose d’un
nombre fini de points de données et on cherche à les classer dans des groupe de sorte que
chaque groupe contient des points de données ayant des propriétés et/ou caractéristiques
similaires. Le problème principal qui se pose dans ces algorithmes c’est le choix des
propriétés à prendre en compte au cours du regroupement. L’un des algorithmes de clustering
les plus utilisés est le « K-Means ».[22]
2.6.1 K-Means :
C’est l’algorithme de classification le plus connu. Son principe est simple, facile à
comprendre et à implémenter dans un code. Tout d’abord, on sélectionne un certain nombre
de groupes puis, aléatoirement, on initialise le centre associée à chaque groupe. Il est
préférable de commencer par analyser globalement les données présentes et essayer
d’identifier des groupes distincts afin de mieux déterminer le nombre de classes à utiliser
[22].
C’est une technique linéaire non supervisée, développée par Laurens Van der Martens
et Geoffrey Hinton en 2008. T-SNE est une méthode de réduction de dimension, elle
transforme la représentation de données multidimensionnelles en deux ou trois dimensions et
donne, par conséquent, une idée sur la façon dont les données sont disposées dans un espace
de grande dimension. T-SNE trouve des modèles à partir des données en identifiant des
groupes (clusters) contenant les données qui partagent des caractéristiques similaires [22].
2.7 Conclusion
36
Chapitre 2 : L'apprentissage automatique
plus proches, les arbres de décision, les Séparateurs à Vaste Marge, et la régression logistique
pour la classification et la prédiction de diabète.
37
Chapitre 3 : Prédiction du diabète par Algorithmes l'apprentissage
automatique
CHAPITRE 3
Prédiction du diabète
par Algorithmes
l'apprentissage
automatique
Dans ce dernier chapitre de notre mémoire nous présentons notre contribution dans la
prédiction médicale sur le cas du diabète. Nous présentons d'abord une étude de l'origine des
données utilisées, le Dataset Pima, et nous décrivons ses caractéristiques. On va également
présenter et identifié tous les outils et packages utilisés dans l’implémentation des
algorithmes. Quatre algorithmes d’apprentissage automatique ont été appliqués. Nous avons
également choisi le meilleur algorithme parmi les algorithmes appliqués. Une prédiction est
faite avec les modèles entraînés avec des données entrées pour lesquelles les classes sont
connues à l'avance. Il est nécessaire de savoir comment relier les entrées aux sorties afin que
les sorties puissent être prédites à l'avenir pour toute nouvelle entrée.
39
Chapitre 3 : Prédiction du diabète par Algorithmes l'apprentissage automatique
Type de variable
Variable Description de variable
40
Chapitre 3 : Prédiction du diabète par Algorithmes l'apprentissage automatique
caractéristique cible
Outcome 0 = négative (non diabétique) Int64
1= positive (diabétique)
41
Chapitre 3 : Prédiction du diabète par Algorithmes l'apprentissage automatique
3.3.2 Python
Numpy
Pandas
Pandas est aussi une bibliothèque Python fournissant des structures de données
rapides, flexibles et expressives conçues pour rendre le travail avec des données structurées
(tabulaires, multidimensionnelles, potentiellement hétérogènes) possède une fonctionnalité
importante nettoyage des données dans un projet d'apprentissage automatique car de
nombreux ensembles de données disponibles contiennent des champs vides ou nuls, ce qui
peut avoir un impact négatif énorme sur notre modèle [25].
Matplotlib
Matplotlib peut être utilisé pour créer des graphiques. La bibliothèque est généralement
utilisée comme suit :
42
Chapitre 3 : Prédiction du diabète par Algorithmes l'apprentissage automatique
1. Appelez une fonction de traçage avec des données (par exemple .plot()).
2. Appelez de nombreuses fonctions pour configurer les propriétés du tracé (par
exemple, les étiquettes et les couleurs).
3. Rendre l'intrigue visible (par exemple .show()).[3]
Scikit-learn
43
Chapitre 3 : Prédiction du diabète par Algorithmes l'apprentissage automatique
Les statistiques descriptives constituent une bonne idée de ce à quoi ressemble chaque
attribut. Fonction describe () sur l’objet pandas répertorie 8 propriétés statistiques pour
chaque attribut. Ce sont :Compter, moyenne, écart-type, valeur minimum, 25e centile, 50e
centile (médiane), 75e centile, valeur maximum.
Résultats :
3.4.3 Histogrammes
Les Histogrammes sont un moyen rapide d'avoir une idée de la distribution de chaque
attribut dans le Dataset. La fonction hist () nous permet d’avoir faire une idée rapide sur
les attributs, si un attribut est gaussien et asymétrique, ou même une a une distribution
exponentielle.
44
Chapitre 3 : Prédiction du diabète par Algorithmes l'apprentissage automatique
Résultats :
Nous pouvons voir que peut-être les attributs Grossesses, âge et Insuline
peuvent avoir un effet exponentiel Distribution. Nous pouvons également voir que les
attributs Glucose, et BMI et Pression artérielle peuvent avoir un Distribution gaussienne ou
presque gaussienne. Ceciest intéressant car de nombreux apprentissages automatiques les
techniques supposent une distribution univariée gaussienne sur les variables d'entrée.
Les tracés de densité sont un autre moyen d'avoir une idée rapide de la
distribution de chaque attribut. Les tracés ressemblent à un histogramme abstrait avec
une courbe lisse tracée en haut de chaque casier,
Résultats d’Algorithme Diagrammes de densité :
45
Chapitre 3 : Prédiction du diabète par Algorithmes l'apprentissage automatique
Résultats :
Nous pouvons voir que la distribution pour chaque attribut est plus claire que les
histogrammes.
Dans cette étude, nous avons utilisé quatre algorithmes d'apprentissage supervisé, ces
algorithmes sont:
46
Chapitre 3 : Prédiction du diabète par Algorithmes l'apprentissage automatique
3.6 Implémentation
Nous présenterons dans cette section les algorithmes d'apprentissage supervisé utilisés dans la
prédiction du diabète. Nous adoptons le taux de classification (Accuracy) comme un facteur
de comparaison entre les algorithmes d'apprentissage supervisé.
Dans la première étape, nous avons divisé les données comme suit : Utilisez 90 % des
données pour apprentissage et 10% pour les tests.
Dans la deuxième étape, nous avons réparti les données comme suit : 80 % des données
utilisées pour apprentissage et 20% pour les tests.
Dons cette partie, nous avons divisé l'ensemble de données en k-parties (étape 1 k = 10,
étape 2 k = 5, et étape 3 k=15). Chaque division des données est appelée un fold. Toutes les
données aient une chance d'entrainement et de test. Par ce que le processus est répété de sorte
que chaque pli (fold) de l'ensemble de données ait une chance d'appartenir à l'ensemble de test
retenu. Le résultat de précision de chaque étape des algorithmes selon chaque méthode sont
calculés.
Dans cette partie, la matrice de confusion est utilisée. C'est une matrice bien connue
dans le domaine de l'apprentissage automatique, utilisée pour tester les performances des
algorithmes. Ce tableau contient des informations et des détails sur les évaluations réelles
(évaluées par des humains) et les évaluations prédictives attendues par le classificateur.
47
Chapitre 3 : Prédiction du diabète par Algorithmes l'apprentissage automatique
positive négative
Positive TP FP
True Positive False Positive
négatif FN TN
False négatif True Négative
Pour vous donner une idée rapide de la précision du modèle on utilise un certain nombre de
mesures.
Précision : capacité du modèle de classification à ne renvoyer que des cas Lié, défini
comme le nombre de vrais positifs divisé par le nombre de vrais positifs Positif plus le
nombre de faux positifs.
𝐓𝐏
𝑝𝑟é𝑐𝑖𝑠𝑖𝑜𝑛 =
𝐓𝐏+𝐅𝐏
Rappel : (recall) est la capacité du modèle de classification identifier tous les cas
pertinents, définis comme le nombre de vrais positifs Divisé par le nombre de vrais
positifs plus le nombre de faux négatifs.
48
Chapitre 3 : Prédiction du diabète par Algorithmes l'apprentissage automatique
𝐓𝐏
recall = 𝐓𝐏+𝐅𝐍
Score F1 : une échelle unique qui combine rappel et précision avec La moyenne
harmonique, en tenant compte des deux échelles dans l'équation suivante.
𝐏𝐫é𝐜𝐢𝐬𝐢𝐨𝐧∗recall
𝐅𝟏= 2 ∗ 𝐏𝐫é𝐜𝐢𝐬𝐢𝐨𝐧+recall
3.6.3 La prédiction
Dans cette partie, la prédiction se fait en saisissant les données du patient, ces donnée
comporte : Pregnancies, Glucose, BloodPressure, SkinThickness, Insulin, BMI,
DiabetesPedigreeFunction, Age.
Et puis il apparaît que le patient souffre de diabète ou non, de sorte que les sorties sont un
message négatif, signifiant que le patient ne souffre pas de diabète, ou positif, lorsque le
patient souffre du diabète
49
Chapitre 3 : Prédiction du diabète par Algorithmes l'apprentissage automatique
Résultat 1 :
Résultats de cet algorithme (les arbres de décision) : nous avons divisé les données comme
suit : 90 % des données pour l’entraînement et 10% pour le test.
Résultat 2 :
Résultats de cet algorithme (arbre de décision) : nous avons réparti les données comme suit :
80 % des données utilisées pour entraînement et 20% pour les tests.
Donc la meilleure division des données est : 90 % des données pour entraînement et 10%
pour les tests.
Résultat : k-fold
K=10
K=5
K=15
50
Chapitre 3 : Prédiction du diabète par Algorithmes l'apprentissage automatique
Matrice de confusion
Résultat :
positive négative
Positive 125 0
négative 0 75
La prédiction
Résultats de prédiction
51
Chapitre 3 : Prédiction du diabète par Algorithmes l'apprentissage automatique
Pour exécution de cet algorithme, on demande les données d’un patient. Les données du
patient ont été saisies afin de savoir si ce patient souffre diabète.
Résultats de l’algorithme séparateurs à vaste marge (SVM) : nous avons divisé les données
comme suit : 90 % des données pour entraînement et 10% pour les tests.
52
Chapitre 3 : Prédiction du diabète par Algorithmes l'apprentissage automatique
Résultat 2 :
Résultat de cet algorithme séparateurs à vaste marge(SVM) nous avons réparti les données
comme suit : 80 % des données utilisées pour entraînement et 20% pour test.
Résultat : k_folde
K=10
K=5
K=15
positive négative
positive 100 29
négative 55 16
53
Chapitre 3 : Prédiction du diabète par Algorithmes l'apprentissage automatique
Pour exécution de cet algorithme, on demande les données de cet patient. Les données du
patient ont été saisies afin que ce patient soit testé :
Le résultat de cet algorithme est incorrect, en fait la personne a le diabète, mais le résultat de
algorithme est que la personne n' a pas de diabète.
54
Chapitre 3 : Prédiction du diabète par Algorithmes l'apprentissage automatique
Résultat 1 :
Résultats de l’algorithme régression logistique: nous avons divisé les données comme
suit : 90 % des données pour entraînement et 10% pour les tests.
Résultat 2 :
Résultat de cet algorithme régression logistique nous avons réparti les données comme suit :
80 % des données utilisées pour entraînement et 20% pour les tests.
Résultat : k_fold
K=10
K=5
55
Chapitre 3 : Prédiction du diabète par Algorithmes l'apprentissage automatique
K=15
positive négative
positive 205 64
négative 95 36
56
Chapitre 3 : Prédiction du diabète par Algorithmes l'apprentissage automatique
Résultats 1 :
Résultats de l’algorithme K plus proche voisins (kNN) : nous avons divisé les données
comme suit : 90 % des données pour entraînement et 10% pour les tests.
Résultats 2 :
Résultats de l’algorithme K plus proche voisins (kNN) nous avons réparti les données comme
suit : 80 % des données utilisées pour entraînement et 20% pour les tests.
Résultats
57
Chapitre 3 : Prédiction du diabète par Algorithmes l'apprentissage automatique
K=10
K=5
K=15
Matrice de confusion(KNN)
positive négative
positive 104 14
négative 27 55
20%-80%
10%-90%
Précision Rappel Accuracy Précision Rappel Accuracy
DT 1.0 1.0 1.0 0.99 0.99 0.972
SVM 0.65 0.78 0.775 0.79 0.88 0.747
LR 0.68 0.76 0.77 0.80 0.88 0.8
KNN 0.80 0.88 0.79 0.83 0.88 0.8
58
Chapitre 3 : Prédiction du diabète par Algorithmes l'apprentissage automatique
Dans cette étude, les quatre algorithmes sont utilisés dans l'étude de la prédiction du
diabète et leurs performances sont comparées. Deux méthodes ont été utilisées, la division
(Train/Test Split) et k_fold, et à partir du tableau ci-dessus, le modèle d'arbre de décision a
obtenu la meilleure taux de classification (Accuracy) dans les deux méthodes.
Nous sélectionnons le modèle d'arbre de décision comme le modèle le plus optimal et qui
fonctionne mieux pour notre ensemble de données en raison de son importante précision,
rappel et taux de classification.
3.12 Conclusion
Dans ce chapitre, nous avons présenté et expliqué les données sur le diabète (définition
et visualisations de données) et définir tous les logiciels et bibliothèques utilisées. Nous
avons également appliqué des algorithmes d'apprentissage à savoir ; K voisins les plus
proches(KNN), les Arbres de décision séparateurs à Vaste Marge (SVM), et la régression
logistique afin de classifier et de prédire le diabète. Le taux de classification chacun des
algorithmes utilisés a été calculé afin de choisir le meilleur algorithme. D’après notre étude
comparative, nous avons trouvé que le meilleur modèle est l'arbre de décision.
59
Conclusion générale
Conclusion générale
Le diabète reste l'une des maladies que nous rencontrons fréquemment et qui provoque
une augmentation de la glycémie. En fait, il est primordial de consacrer un effort pour mieux
comprendre et reconnaître son mécanisme et ses causes. La prédiction du diabète fait partie
des applications et problématiques rencontrées fréquemment dans le domaine médical. Mais
une approche d'apprentissage automatique peut aider à résoudre ce problème. Le but de cette
étude est de construire un modèle prédictif pour un problème critique, à savoir, le diagnostic
automatique de diabète en utilisant des algorithmes d'apprentissage automatique.
Dans ce mémoire nous avons étudie la prédiction médicale par apprentissage automatique.
Nous avons-nous concentrés sur l’étude le cas de diabète.
En premier chapitre, nous avons présenté la maladie du diabète, ses différent types, les
symptômes ainsi que le diagnostic et le traitement de la maladie et à la fin nous avons cité
quelques préventions pour se protéger contre cette maladie.
Perspectives
Bibliographie
[3]. Sidahmed Amel, Rabhi Karima,La prédiction du diabète en utilisant les algorithmes
de machine learning, Université AMO de Bouira, année2019/2020,136p
62