Rapport ML (1) COLETTE
Rapport ML (1) COLETTE
Rapport ML (1) COLETTE
REDIGE PAR
ATEBETE COLETTE CARINE ORNELA
1
DEVOIR N1
Importation des données
Nous allons premièrement importer les bibliothèques nécessaires pour la
régression linéaire
Nous allons aussi imprimer les étiquettes des variables de notre dataset
2
Puis nous pouvons demander la taille du dataset (lignes ; colonnes)
Nous pouvons aussi demander une vérification des lignes du dataset : dans ce
cas, on verifiera de la premiere à la 5e ligne
3
Je ne comprends pas cette partie
Apres nous allons importer la fonction train test split qui divise le jeu de
données
Et apres nous diviserons le dataset en deux donc 70% sera utilisé comme test
4
Ce module SVM nous permettra d’importer un classificateur SVM de type
linéaire et l’entraine sur les données d’entrainement
• Precision
5
• Recall
6
DEVOIR N 2
Importation des biblioteques nécessaires pour l’entrainement du modele
Importation du dataset
7
Créer une variable y ou l’on mettra l’etiquette du modele
Ensuite divisons le data set en deux dont la taille du test était de 0,25
8
Importation de la biblioteque seaborn permettant les visualisations statistiques
9
Décrivons les différentes variables du dataset
10
➢ Machines à vecteurs de support
Les machines à vecteurs de support ou séparateurs à vaste
marge sont un ensemble de techniques d’apprentissage
supervisé destinées à résoudre des problèmes de
discrimination et de régression. Ce sont aussi une
généralisation des classifieurs linéaires.
Cependant, LES SVM offrent une très grande précision par
rapport à d’autres classificateurs tels que la régression
logistique et les arbres de décision. Il est connu pour son
astuce de noyau pour gérer les espaces d’entrée non linéaires.
Il est utilisé dans une variété d’applications telles que la
détection de visages, la détection d’intrusion, la classification
d’e-mails, d’articles de presse et de pages Web, la
classification des gènes et la reconnaissance de l’écriture
manuscrite.
11
est une forme plus généralisée du noyau linéaire. Le noyau
polynomial peut distinguer l’espace d’entrée incurvé ou non
linéaire.
K(x,xi) = 1 + sum(x * xi)^d
12
PARTIE 1 .CREATION D’UN MODELE
a) IMPORTATION DES BIBLIOTHEQUES
13
d'opérations de manipulation de tableaux, ce qui en fait un
outil incontournable en Machine Learning.
• seaborn : est une bibliothèque de visualisation de données
basée sur matplotlib. Elle offre une interface de haut niveau
pour créer des graphiques statistiques attrayants et informatifs.
seaborn facilite la création de graphiques tels que des
diagrammes de dispersion, des histogrammes, des diagrammes
en boîte, des graphiques à barres et bien d'autres. Elle fournit
également des fonctionnalités avancées pour la visualisation de
modèles de données complexes, tels que les matrices de
corrélation et les graphiques de régression. seaborn permet
d'ajouter des palettes de couleurs esthétiques et de
personnaliser facilement l'apparence des graphiques, ce qui en
fait un outil précieux pour communiquer et interpréter les
résultats des modèles de Machine Learning. En conclusion, les
bibliothèques pandas, NumPy et seaborn jouent des rôles
complémentaires dans le processus de Machine Learning.
pandas facilite la manipulation et la préparation des données,
NumPy offre des fonctionnalités de calcul numérique efficaces,
tandis que seaborn permet la création de visualisations riches
et informatives.
14
• from sklearn.model selection import train_test_split :
importation la fonction train_test_split du module
model_selection de scikit-learn. La fonction train_test_split est
utilisée pour diviser un ensemble de données en deux sous-
ensembles : un ensemble d'entraînement et un ensemble de
test. Cette division est couramment utilisée pour évaluer les
performances d'un modèle de Machine Learning.
c) IMPORTATION DU DATASET
15
d) DESCRIPTION DES DONNEES
16
e) La fonction sns .lineplot()
17
- Pour chaque variable numérique dans le DataFrame, un
histogramme est tracé sur la diagonale de la matrice. Cela
permet de visualiser la distribution des données pour chaque
variable individuellement.
18
Les mesures de performances sont calculées à l’aide des
étiquettes réelles et les étiquettes prédites
19