Nothing Special   »   [go: up one dir, main page]

Rapport ML (1) COLETTE

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 19

DEVOIR DE MACHINE LEARNING

REDIGE PAR
ATEBETE COLETTE CARINE ORNELA

1
DEVOIR N1
Importation des données
Nous allons premièrement importer les bibliothèques nécessaires pour la
régression linéaire

Ensuite nous allons importer le dataset nécessaire pour la régression linéaire :


celui-ci parle du cancer du sein

Ensuite nous allons afficher les 13 fonctionnalités du système

Nous allons aussi imprimer les étiquettes des variables de notre dataset

2
Puis nous pouvons demander la taille du dataset (lignes ; colonnes)

Nous pouvons aussi demander une vérification des lignes du dataset : dans ce
cas, on verifiera de la premiere à la 5e ligne

3
Je ne comprends pas cette partie

Apres nous allons importer la fonction train test split qui divise le jeu de
données

Et apres nous diviserons le dataset en deux donc 70% sera utilisé comme test

Apres nous allons importer le module SVM

4
Ce module SVM nous permettra d’importer un classificateur SVM de type
linéaire et l’entraine sur les données d’entrainement

Puis, nous opterons pour une prediction du résultat du dataset

Importation du module scikit-learn metrics qui fournit de nombreuses


fonctions

A savoir bien sur la classification du modele par les fonctions


• Accuracy

• Precision

5
• Recall

6
DEVOIR N 2
Importation des biblioteques nécessaires pour l’entrainement du modele

Importation du dataset

Lecture des 10 premieres lignes du dataset

Créer une variable x ou l’on y mettra les caractéristiques du modèle

7
Créer une variable y ou l’on mettra l’etiquette du modele

Ensuite divisons le data set en deux dont la taille du test était de 0,25

Testons ensuite la variable test

Evaluons la précision grace à la fonction accuracy

8
Importation de la biblioteque seaborn permettant les visualisations statistiques

Creons un nuage de points avec une regression lineaire de l’age en donction du


glucose

Créons un histogramme de l’age en fonction du taux de glucose

9
Décrivons les différentes variables du dataset

10
➢ Machines à vecteurs de support
Les machines à vecteurs de support ou séparateurs à vaste
marge sont un ensemble de techniques d’apprentissage
supervisé destinées à résoudre des problèmes de
discrimination et de régression. Ce sont aussi une
généralisation des classifieurs linéaires.
Cependant, LES SVM offrent une très grande précision par
rapport à d’autres classificateurs tels que la régression
logistique et les arbres de décision. Il est connu pour son
astuce de noyau pour gérer les espaces d’entrée non linéaires.
Il est utilisé dans une variété d’applications telles que la
détection de visages, la détection d’intrusion, la classification
d’e-mails, d’articles de presse et de pages Web, la
classification des gènes et la reconnaissance de l’écriture
manuscrite.

DEFINITIONS DES TERMES


• Noyaux Un noyau transforme un espace de données d’entrée
en la forme requise.de plus il convertit un problème non
séparable en problèmes séparables en y ajoutant plus de
dimension . il existe 3 types de noyaux
• Noyau linéaire
Un noyau linéaire peut être utilisé comme produit scalaire
normal pour deux observations données. Le produit entre deux
vecteurs est la somme de la multiplication de chaque paire de
valeurs d’entrée.
K(x, xi) = sum(x * xi)
• Un noyau polynomial

11
est une forme plus généralisée du noyau linéaire. Le noyau
polynomial peut distinguer l’espace d’entrée incurvé ou non
linéaire.
K(x,xi) = 1 + sum(x * xi)^d

• Noyau de fonction de base radiale

Le noyau de fonction de base radiale est une fonction de


noyau populaire couramment utilisée dans la classification
des machines à vecteurs de support. RBF peut mapper un
espace d’entrée dans un espace de dimension infinie.

K(x,xi) = exp(-gamma * sum((x – xi^2))

L’OBJECTIF PRINCIPAL DES SVM

L’objectif principal est de séparer l’ensemble de données de la


meilleure façon possible. Tout en
1. Générer des hyperplans qui séparent les classes de la
meilleure façon. Figure de gauche montrant trois hyperplans
noirs, bleus et oranges. Ici, le bleu et l’orange ont une erreur de
classification plus élevée, mais le noir sépare correctement les
deux classes.

2. Sélectionnez l’hyperplan de droite avec la ségrégation


maximale à partir de l’un ou l’autre des points de données
les plus proches, comme indiqué dans la figure de droite.

12
PARTIE 1 .CREATION D’UN MODELE
a) IMPORTATION DES BIBLIOTHEQUES

. Les bibliothèques pandas, NumPy et seaborn sont des outils


essentiels en Data Science et en Machine Learning. Elles offrent
des fonctionnalités puissantes pour la manipulation et l'analyse
de données, ainsi que pour la visualisation.
• pandas :La bibliothèque pandas est largement utilisée pour la
manipulation et l'analyse de données. Elle fournit des
structures de données flexibles et efficaces, notamment les
objets Séries et Data Frame, qui permettent de gérer, nettoyer
et transformer facilement les données. pandas offre également
des fonctionnalités pour l'indexation, le filtrage, l'agrégation et
le regroupement des données, ainsi que pour l'importation et
l'exportation de différents formats de fichiers. En somme,
pandas facilite l'exploration et la préparation des données avant
de les utiliser dans des modèles d'apprentissage automatique.
• NumPy : est une bibliothèque fondamentale pour le calcul
scientifique en Python. Elle fournit des structures de données
de base, telles que les tableaux multidimensionnels, qui sont
essentielles pour effectuer des calculs numériques efficaces.
NumPy offre une vaste gamme de fonctions mathématiques et

13
d'opérations de manipulation de tableaux, ce qui en fait un
outil incontournable en Machine Learning.
• seaborn : est une bibliothèque de visualisation de données
basée sur matplotlib. Elle offre une interface de haut niveau
pour créer des graphiques statistiques attrayants et informatifs.
seaborn facilite la création de graphiques tels que des
diagrammes de dispersion, des histogrammes, des diagrammes
en boîte, des graphiques à barres et bien d'autres. Elle fournit
également des fonctionnalités avancées pour la visualisation de
modèles de données complexes, tels que les matrices de
corrélation et les graphiques de régression. seaborn permet
d'ajouter des palettes de couleurs esthétiques et de
personnaliser facilement l'apparence des graphiques, ce qui en
fait un outil précieux pour communiquer et interpréter les
résultats des modèles de Machine Learning. En conclusion, les
bibliothèques pandas, NumPy et seaborn jouent des rôles
complémentaires dans le processus de Machine Learning.
pandas facilite la manipulation et la préparation des données,
NumPy offre des fonctionnalités de calcul numérique efficaces,
tandis que seaborn permet la création de visualisations riches
et informatives.

b) IMPORTATION DES FONCTIONS

14
• from sklearn.model selection import train_test_split :
importation la fonction train_test_split du module
model_selection de scikit-learn. La fonction train_test_split est
utilisée pour diviser un ensemble de données en deux sous-
ensembles : un ensemble d'entraînement et un ensemble de
test. Cette division est couramment utilisée pour évaluer les
performances d'un modèle de Machine Learning.

• from sklearn.ensemble import RandomForestRegressor :


importation la classe RandomForestRegressor du module
ensemble de scikit-learn. RandomForestRegressor est un
algorithme d'apprentissage supervisé qui utilise un ensemble
d'arbres de décision pour effectuer une régression. Il est
souvent utilisé pour des tâches de prédiction de valeurs
continues, telles que la prédiction de prix.

• from sklearn.linear_model import LinearRegression :


importation la classe LinearRegression du module linear_model
de scikit-learn. LinearRegression est un modèle de régression
linéaire qui cherche à établir une relation linéaire entre les
variables explicatives et la variable cible.

• from sklearn.metrics import mean_squared_error :


importation la fonction mean_squared_error du module
metrics de scikit-learn. mean_squared_error est une métrique
d'évaluation qui mesure l'erreur quadratique moyenne entre
les valeurs prédites et les valeurs réelles. Elle est couramment
utilisée pour évaluer les performances des modèles de
régression.

c) IMPORTATION DU DATASET

15
d) DESCRIPTION DES DONNEES

Recherche est une fonction du dataset car toute les


valeurs de research vont rentrer dans y

16
e) La fonction sns .lineplot()

La fonction sns.lineplot(df) utilise la bibliothèque seaborn


(importée sous le nom sns) pour créer une matrice de
diagrammes de dispersion et d'histogrammes pour chaque
paire de variables dans le DataFrame df. :

17
- Pour chaque variable numérique dans le DataFrame, un
histogramme est tracé sur la diagonale de la matrice. Cela
permet de visualiser la distribution des données pour chaque
variable individuellement.

- Pour chaque ligne, un diagramme de dispersion est tracé sur


la partie triangulaire supérieure et inférieure de la matrice. Cela
permet de visualiser la relation entre les variables et d'identifier
d'éventuelles tendances ou schémas.

La fonction sns.lineplot(df) est utile pour obtenir rapidement


un aperçu visuel des relations entre les variables dans un
DataFrame. Elle peut aider à détecter des corrélations, des
tendances linéaires ou non linéaires, des valeurs aberrantes
potentielles, et à explorer les distributions des variables. Cela
peut être particulièrement utile dans les analyses exploratoires
de données et pour identifier des relations potentielles avant
de construire des modèles prédictifs ou de réaliser une analyse
plus approfondie.

18
Les mesures de performances sont calculées à l’aide des
étiquettes réelles et les étiquettes prédites

19

Vous aimerez peut-être aussi