Cognition">
Nothing Special   »   [go: up one dir, main page]

S09 - Section 3.1

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 47



APPRENTISSAGE MACHINE
Intelligence
artificielle
Apprentissage L'apprentissage
machine
automatique (ou machine)
fait référence au
développement de
Apprentissage
Semi
Apprentissage
programmes informatiques
supervisé qui, par l’exploitation d’une
supervisé non supervisé
expérience (jeu de
données), peuvent
Apprentissage
profond améliorer
automatiquement leurs
performances relativement
Apprentissage
à une tâche définie.
par renforcement
APPRENTISSAGE MACHINE

Artificial Intelligence. SAS. https://www.sas.com/en_ca/insights/analytics/what-is-artificial-intelligence.html


APPRENTISSAGE SUPERVISÉ
Intelligence
artificielle
Apprentissage L'apprentissage supervisé vise à
machine prédire la valeur d’une variable
(ou de plusieurs) dite
« dépendante » en produisant
automatiquement des règles la
Semi liant à une ou à plusieurs variables
Apprentissage Apprentissage « indépendantes » à partir d'une
supervisé
supervisé non supervisé
base de données
d’entraînement/d’apprentissage
Apprentissage contenant des
profond « exemples ».

Apprentissage
par renforcement
APPRENTISSAGE SUPERVISÉ

Besoin : déterminer quels courriels sont des spams.

Sivalingam, A. (2019, 23 novembre). What is machine learning. Medium. https://medium.com/swlh/what-is-machine-learning-


9b569ff7858a
APPRENTISSAGE SUPERVISÉ

Les techniques de prédiction sont principalement


utilisées sous ce type d’apprentissage.
• Y continue : régression
• Y binaire ou quelques catégories : classification
PROBLÉMATIQUES ET VARIABLES CIBLES
RÉGRESSION (QUANTITATIVE) OU CLASSIFICATION (QUALITATIVE) ?

1. Est-ce qu’une entreprise présente des risques de faillite à


moyen terme ?
2. À quel montant devrions-nous assuré une propriété, en ne
connaissant pas la nature des biens du propriétaire ?
3. Un organisme de crédit doit-il accorder un prêt à l’un de ses
clients ?
4. Combien un client consommera de Go internet le mois
prochain, en sachant son historique de consommation
cellulaire ?
5. Prédire le succès d’un traitement de chimiothérapie chez
des patients atteints d’un type de cancer donné ?
ANALYSE DE SENTIMENTS

Mise en contexte

Les équipes qui s’occupent des médias sociaux d’une entreprise ont
parfois une quantité importante de messages et/ou commentaires à
traiter. Que ce soit sur la page principale de l’entreprise ou sur des
pages satellites, ils doivent intervenir s’il y a une problématique qui
ressort fréquemment ou prendre les rétroactions de leurs clients pour
améliorer leurs produits.

Image tiré du site (2020-11-19) : https://www.bang-marketing.com/publications/ebang/bien-repondre-aux-commentaires-negatifs-sur-les-reseaux-sociaux/


ANALYSE DE SENTIMENTS

Problématique

L’entreprise aimerait ainsi détecter automatique les commentaires qui


sont négatifs sur leur page Facebook, cette page est la plus active des
différents médias sociaux de l’entreprise.

Image tiré du site (2020-11-19) : https://www.bang-marketing.com/publications/ebang/bien-repondre-aux-commentaires-negatifs-sur-les-reseaux-sociaux/


ANALYSE DE SENTIMENTS

Données

Commentaires en caractère d’imprimerie extraits des médias


sociaux de l’entreprise (page Facebook de l’entreprise) à l’aide de
l’API de la plateforme, selon la journée et sous quelle post il a été
commenté.
ANALYSE DE SENTIMENTS

Solution

1. Nettoyage du texte extrait, par identifiant

Normalisation du texte : Retrait genre, nombre, prefix, suffix

https://www.ekino.com/articles/introduction-au-nlp-partie-ii
ANALYSE DE SENTIMENTS

Solution

2. Création de vecteurs de groupes de mots (bag-of-words) :

Devient un point dans une haute dimensionnalité


(imaginez une dimension (axe) par mot de la phrase)
Feature Engineering for Machine Learning
Principles and Techniques for Data Scientists
By Alice Zheng, Amanda Casari
ANALYSE DE SENTIMENTS

Solution

3. Étiquetage des données :


– Positif
– Négatif
– Neutre
4. Ensemble d’arbres, gradient boosting, pour prédire la classe du
commentaire.
5. Matrice de confusion pour connaitre les vrais positifs / vrais
négatifs.
6. Déploiement sur une infrastructure infonuagique AWS.
ANALYSE DE SENTIMENTS

Défis et enjeux

• Texte difficile à nettoyer (abréviation peut commune, erreurs


d’orthographe, changements de langues, etc.)
• Aucune réponse détenue initialement, étiquetage semi manuel
CLASSIFICATION ET EXTRACTION
DOCUMENTS EN IMAGES
Mise en contexte
Une entreprise de construction reçoit et traite une grande quantité de
documents numérisés sous forme de « pdf image ».

Ces documents peuvent être des factures, des devis, des formulaires,
… Ces documents très variés (jusqu’à 15 types différents) sont traités
individuellement pour déterminer leur type et en extraire manuellement
certaines informations… une tâche fastidieuse et très consommatrice
de temps.
L’entreprise souhaite réduire le nombre
d’intervenants dans le traitement des
documents et le temps consacré à la tâche.
CLASSIFICATION ET EXTRACTION
DOCUMENTS EN IMAGES
Problématique
L’entreprise souhaite automatiser ses processus en automatisant les
traitements suivants :
1. classification automatique des documents reçus, selon leur type
2. extraction automatique d’informations spécifiques, propres au type
de document, sous forme de texte
CLASSIFICATION ET EXTRACTION
DOCUMENTS EN IMAGES
Données
Documents numérisés en image, de tous types, collectés dans le cadre
des activités de l’entreprise.

Pour chaque document :


• Le type réel du document
• Les informations retranscrites par les employés dans la base de
données de l’entreprise pour chaque document (ex : Nom de
l’entreprise, adresse, etc.)
CLASSIFICATION ET EXTRACTION
DOCUMENTS EN IMAGES
Solution
Développer et déployer sous forme d’API sur l’infrastructure
technologique de l’entreprise, infonuagique sur AWS, deux algorithmes:

1. La classification automatique des documents est première étape de


la solution. Le client dépose un document sur son portail et le
document est automatiquement classé selon son type.

2. L’extraction automatique d’informations selon le type de documents


vient par la suite. Une fois que le client clique sur « envoyé » le
document déposé et classifié, les informations propres au type de
document sont automatiquement extraites.
CLASSIFICATION ET EXTRACTION
DOCUMENTS EN IMAGES
Solution
1. classification automatique des documents :

• Extraction du texte sur le document, travail non négligeable sur le


document pour que l’OCR soit en mesure d’extraire le maximum.

Squelette : https://ieeexplore.ieee.org/document/982884

https://software.intel.com/en-us/ipp-dev-reference-morphological-operations
CLASSIFICATION ET EXTRACTION
DOCUMENTS EN IMAGES
Solution
1. classification automatique des documents :

• Nettoyage du texte extrait


• Ingénierie des caractéristiques
• Bag-of-words
• Régression multinomiale (multi-classes)
• Matrice de confusion pour la performance : Type document réel X
type document prédit
CLASSIFICATION ET EXTRACTION
DOCUMENTS EN IMAGES
Solution
2. extraction automatique d’informations selon le type de documents :
• Identification des réponses sur les documents
• Problème ! Entrées manuellement.. Pas fiable.. Reconstruction
intensive des réponses
• Extraction de la localisation des réponses dans le texte et la page
• Modèle de reconnaissance d’entités nommées pour trouver les
informations recherchées dans le texte
• Mesure de performance manuelle, % de réponses bien retrouvées
(car trop de mauvaises réponses dans les données brutes).
CLASSIFICATION ET EXTRACTION
DOCUMENTS EN IMAGES
Les défis et enjeux

• Un document de même type peut prendre différentes


apparences.
• Certaines réponses utilisées pour l’entrainement de la
détection des champs comprennent des erreurs. Certaines
difficultés sont donc rencontrées à l’entrainement.
• Le déploiement sous forme d’API de solutions complexes
d’IA de ce type est un grand défi!
• Faire adhérer à la labellisation pour poursuivre
l’apprentissage
• Taille des modèles à charger en mémoire (une fois
déployé, jusqu’à 4Go). Conserve en mémoire.
CLASSIFICATION ET EXTRACTION
DOCUMENTS EN IMAGES
Résultats

Une fois déployé, l’algorithme permet d’identifier automatiquement


le type de document en environ 10 secondes avec une fiabilité de
97%. Le processus d’extraction d’informations s’enchaîne
automatiquement pour extraire les informations pertinentes selon le
type de document.

La rapidité du traitement permettra de ne pas engager des


ressources additionnelles pour effectuer cette tâche dans le futur.

Une des retombées non anticipée du projet est que l’algorithme


permet de corriger une quantité significative de données historiques
incorrectes et de valoriser les données internes de l’entreprise pour
des projets subséquents.
APPRENTISSAGE NON SUPERVISÉ
Intelligence
artificielle
Apprentissage
machine L'apprentissage non supervisé
vise à faire émerger, et
éventuellement à exploiter, la
structure sous-jacente des
données étudiées à partir d'une
Semi
Apprentissage Apprentissage base de données
supervisé
supervisé non supervisé d’entraînement/d’apprentissage
contenant des
« exemples ».
Apprentissage
profond

Apprentissage
par renforcement
APPRENTISSAGE NON SUPERVISÉ

Segmentation de la clientèle d’un magasin

AngossSoftware. (2016, 17 février). Customer segmentation. Youtube. https://www.youtube.com/watch?v=zPJtDohab-g


APPRENTISSAGE NON SUPERVISÉ

Approche exploratoire. Interprétabilité avant tout.

Peut être utilisé en amont de l’apprentissage supervisé


pour réduire le nombre de variables ou comme une
finalité en soi.
PROBLÉMATIQUES
REGROUPEMENT (DES OBSERVATIONS) OU RÉDUCTION DIMENSIONNALITÉ (DES VARIABLES) ?

1. Une entreprise d’assurance possède une quantité


importante d’informations sur l’assuré. La modélisation
explicable réalisée dans le cadre d’un projet peut inclure au
maximum 10 variables. Comment s’y prendre ?
2. Nous aimerions trouver les différents profils qui fréquentes
le site web de notre entreprise, en tenant compte des
moments de fréquentation et de leurs actions.
3. Nous aimerions rassembler les images semblables entre
elles afin de les entreposer par la suite par groupe
4. Nous aimerions extraire les caractéristiques des photos de
visages pour ensuite mesurer la similarité de deux photos
selon les caractéristiques ressorties.
COMMENTAIRE EXPÉRIENCE EMPLOYÉS

Mise en contexte

Le VP ressources humaines d’une société de quelques milliers


d’employés est soucieux de la qualité de l’expérience de ses
employés au sein de la société.

Il a ainsi mis en place il y a un an un système de mesure en


continue de l’expérience des employés au sein du groupe. Chaque
employé, toutes les 2 semaines, a donc l’opportunité de répondre à
quelques questions ainsi qu’à y mettre des commentaires ou à y
poser des questions, de façon anonyme ou non.

Toutefois, le flow de commentaires dépasse rapidement la capacité


de traitement de l’équipe de ressource humaine.
COMMENTAIRE EXPÉRIENCE EMPLOYÉS

Problématique

Afin d’être en mesure de comprendre et partager au comité de direction


de la société, comment se sentent et ce que pensent les employés, le
VP aimerait que l’information lui soit condenser automatiquement afin
de conserver uniquement ce qui dépeint le mieux la situation.
COMMENTAIRE EXPÉRIENCE EMPLOYÉS

Données

Textes des commentaires des employés, selon différentes questions


sur la gestion et l’ambiance de travail, aux deux semaines.
COMMENTAIRE EXPÉRIENCE EMPLOYÉS

Solution

Développement d’une solution appuyée sur l’analyse du langage


naturel (NLP) afin de :
1. Regroupement automatique des mots et expressions similaires,
sous forme de thèmes abstraits. (Topic Modeling)
2. Identifier les x commentaires les plus représentatifs de ce que
l’ensemble des employés écrivent (Résumé automatique)
COMMENTAIRE EXPÉRIENCE EMPLOYÉS

Défis et enjeux

• Présence de commentaires en français et en anglais. L’algorithme


doit donc détecter le langage avant de faire l’analyse du
commentaire.
• Nombreuses fautes d’orthographe, de syntaxe, phrases
incomplètes, ironie, …
COMMENTAIRE EXPÉRIENCE EMPLOYÉS

Résultats

• Amélioration de la satisfaction des employés par la mise en place


de mesures pour contenir les perceptions négatives
• Légère diminution de l’attrition des employés
• Détection des problématiques opérationnelles mentionnées par les
employées et amélioration de l’efficacité
SUPERVISÉ VS NON SUPERVISÉ

Zhou, L. (2018, 3 mai). Simplify Machine Learning Pipeline Analysis with Object Storage. Western Digital
Blog. https://blog.westerndigital.com/machine-learning-pipeline-object-storage/
APPRENTISSAGE SEMI SUPERVISÉ

L'apprentissage semi supervisé


hybride entre l’apprentissage
supervisé et non supervisé
APPRENTISSAGE SEMI SUPERVISÉ

Principalement utilisé lorsqu’il est seulement possible


d’obtenir une faible proportion de réponses (Y) parmi un
échantillon volumineux d’observations.

Les observations sont regroupées entre elles, à l’aide


d’une approche non supervisée, et les réponses connues
(Y) parmi les groupes créés déterminent la réponse globale
attribuée au groupe.

L’apprentissage supervisé peut ensuite être réalisé sur


l’ensemble de l’échantillon avec cette réponse déduite par
groupe similaire.
APPRENTISSAGE SEMI STRUCTURÉ

Bon exemple sur des


données non structurées,
Google photo.

https://blog.en.uptodown.com/google-photos-face-detection/
APPRENTISSAGE PROFOND
Intelligence
artificielle
Apprentissage
…des relations complexes (non
machine
linéaires) peuvent exister entre
les variables d’intérêt. Dans un
contexte de données non
structurées (texte, image, son),
Semi
Apprentissage Apprentissage c’est d’ailleurs généralement la
supervisé
supervisé non supervisé règle.

Apprentissage
profond

Apprentissage
par renforcement
APPRENTISSAGE PROFOND

• Réseau de neurones
Beaucoup évolué grâce à l’évolution de l’environnement
technologique.
APPRENTISSAGE PROFOND

Google developpers. (2016, 15 novembre). A.I. Experiments: A.I. Duet.


Youtube. https://www.youtube.com/watch?time_continue=121&v=0ZE1bfPtvZo&feature=emb_logo
APPRENTISSAGE PAR
RENFORCEMENT
Intelligence
artificielle
Apprentissage
machine L'apprentissage par
renforcement consiste à
entraîner un programme
(nommé « agent »), par le
biais d’interactions avec son
Semi
Apprentissage Apprentissage environnement et de
supervisé
supervisé non supervisé récompenses, à se
comporter optimalement
relativement à un objectif
Apprentissage prédéfini.
profond

Apprentissage
par renforcement
APPRENTISSAGE PAR
RENFORCEMENT

Swamynathan M. (2017) Step 6 – Deep and Reinforcement Learning. In: Mastering Machine Learning with Python in Six Steps.
Apress, Berkeley, CA
APPRENTISSAGE PAR RENFORCEMENT

• L’apprentissage se fait par essai et erreur, basé sur un


système de récompenses, et le but de l’algorithme est
de maximiser les récompenses à long terme.

• Très dépendant de son environnement. Le système


est également séquentiel, le temps est important.
APPRENTISSAGE PAR RENFORCEMENT

• Comme l’apprentissage non supervisé,


l’apprentissage par renforcement n’a pas de réponse
(de vérité connue). La seule information connue est le
pointage pour une action.

• Ce pointage peut être positif (ou négatif) à court


terme, mais entraîner une chaîne d’action qui rendra
le pointage négatif (ou positif) à long terme.
APPRENTISSAGE PAR RENFORCEMENT

Two minute papers. (2019, 22 octobre). Open Ai joue à cache-cache.. et casse le jeu ! .
Youtube. https://www.youtube.com/watch?v=Lu56xVlZ40M

Vous aimerez peut-être aussi