S09 - Section 3.1

•
•
–
–
APPRENTISSAGE MACHINE
Intelligence
artificielle
Apprentissage L'apprentissage
machine
automatique (ou machine)
fait référence au
développement de
Apprentissage
Semi
Apprentissage
programmes informatiques
supervisé qui, par l’exploitation d’une
supervisé non supervisé
expérience (jeu de
données), peuvent
Apprentissage
profond améliorer
automatiquement leurs
performances relativement
Apprentissage
à une tâche définie.
par renforcement
APPRENTISSAGE MACHINE
Artificial Intelligence. SAS. https://www.sas.com/en_ca/insights/analytics/what-is-artificial-intelligence.html

APPRENTISSAGE SUPERVISÉ
Intelligence
artificielle
Apprentissage L'apprentissage supervisé vise à
machine prédire la valeur d’une variable
(ou de plusieurs) dite
« dépendante » en produisant
automatiquement des règles la
Semi liant à une ou à plusieurs variables
Apprentissage Apprentissage « indépendantes » à partir d'une
supervisé
supervisé non supervisé
base de données
d’entraînement/d’apprentissage
Apprentissage contenant des
profond « exemples ».
Apprentissage
par renforcement
Besoin : déterminer quels courriels sont des spams.
Sivalingam, A. (2019, 23 novembre). What is machine learning. Medium. https://medium.com/swlh/what-is-machine-learning-

9b569ff7858a
Les techniques de prédiction sont principalement

utilisées sous ce type d’apprentissage.
• Y continue : régression
• Y binaire ou quelques catégories : classification
PROBLÉMATIQUES ET VARIABLES CIBLES
RÉGRESSION (QUANTITATIVE) OU CLASSIFICATION (QUALITATIVE) ?
1. Est-ce qu’une entreprise présente des risques de faillite à

moyen terme ?
2. À quel montant devrions-nous assuré une propriété, en ne
connaissant pas la nature des biens du propriétaire ?
3. Un organisme de crédit doit-il accorder un prêt à l’un de ses
clients ?
4. Combien un client consommera de Go internet le mois
prochain, en sachant son historique de consommation
cellulaire ?
5. Prédire le succès d’un traitement de chimiothérapie chez
des patients atteints d’un type de cancer donné ?
ANALYSE DE SENTIMENTS
Mise en contexte
Les équipes qui s’occupent des médias sociaux d’une entreprise ont
parfois une quantité importante de messages et/ou commentaires à
traiter. Que ce soit sur la page principale de l’entreprise ou sur des
pages satellites, ils doivent intervenir s’il y a une problématique qui
ressort fréquemment ou prendre les rétroactions de leurs clients pour
améliorer leurs produits.
Image tiré du site (2020-11-19) : https://www.bang-marketing.com/publications/ebang/bien-repondre-aux-commentaires-negatifs-sur-les-reseaux-sociaux/

Problématique
L’entreprise aimerait ainsi détecter automatique les commentaires qui

sont négatifs sur leur page Facebook, cette page est la plus active des
différents médias sociaux de l’entreprise.
Image tiré du site (2020-11-19) : https://www.bang-marketing.com/publications/ebang/bien-repondre-aux-commentaires-negatifs-sur-les-reseaux-sociaux/

Données
Commentaires en caractère d’imprimerie extraits des médias

sociaux de l’entreprise (page Facebook de l’entreprise) à l’aide de
l’API de la plateforme, selon la journée et sous quelle post il a été
commenté.
Solution
1. Nettoyage du texte extrait, par identifiant
Normalisation du texte : Retrait genre, nombre, prefix, suffix
https://www.ekino.com/articles/introduction-au-nlp-partie-ii
Solution
2. Création de vecteurs de groupes de mots (bag-of-words) :
Devient un point dans une haute dimensionnalité

(imaginez une dimension (axe) par mot de la phrase)
Feature Engineering for Machine Learning
Principles and Techniques for Data Scientists
By Alice Zheng, Amanda Casari
Solution
3. Étiquetage des données :

– Positif
– Négatif
– Neutre
4. Ensemble d’arbres, gradient boosting, pour prédire la classe du
commentaire.
5. Matrice de confusion pour connaitre les vrais positifs / vrais
négatifs.
6. Déploiement sur une infrastructure infonuagique AWS.
Défis et enjeux
• Texte difficile à nettoyer (abréviation peut commune, erreurs

d’orthographe, changements de langues, etc.)
• Aucune réponse détenue initialement, étiquetage semi manuel
CLASSIFICATION ET EXTRACTION
DOCUMENTS EN IMAGES
Mise en contexte
Une entreprise de construction reçoit et traite une grande quantité de
documents numérisés sous forme de « pdf image ».
Ces documents peuvent être des factures, des devis, des formulaires,
… Ces documents très variés (jusqu’à 15 types différents) sont traités
individuellement pour déterminer leur type et en extraire manuellement
certaines informations… une tâche fastidieuse et très consommatrice
de temps.
L’entreprise souhaite réduire le nombre
d’intervenants dans le traitement des
documents et le temps consacré à la tâche.
DOCUMENTS EN IMAGES
Problématique
L’entreprise souhaite automatiser ses processus en automatisant les
traitements suivants :
1. classification automatique des documents reçus, selon leur type
2. extraction automatique d’informations spécifiques, propres au type
de document, sous forme de texte
DOCUMENTS EN IMAGES
Données
Documents numérisés en image, de tous types, collectés dans le cadre
des activités de l’entreprise.
Pour chaque document :

• Le type réel du document
• Les informations retranscrites par les employés dans la base de
données de l’entreprise pour chaque document (ex : Nom de
l’entreprise, adresse, etc.)
DOCUMENTS EN IMAGES
Solution
Développer et déployer sous forme d’API sur l’infrastructure
technologique de l’entreprise, infonuagique sur AWS, deux algorithmes:
1. La classification automatique des documents est première étape de

la solution. Le client dépose un document sur son portail et le
document est automatiquement classé selon son type.
2. L’extraction automatique d’informations selon le type de documents

vient par la suite. Une fois que le client clique sur « envoyé » le
document déposé et classifié, les informations propres au type de
document sont automatiquement extraites.
DOCUMENTS EN IMAGES
Solution
1. classification automatique des documents :
• Extraction du texte sur le document, travail non négligeable sur le

document pour que l’OCR soit en mesure d’extraire le maximum.
Squelette : https://ieeexplore.ieee.org/document/982884
https://software.intel.com/en-us/ipp-dev-reference-morphological-operations
DOCUMENTS EN IMAGES
Solution
1. classification automatique des documents :
• Nettoyage du texte extrait

• Ingénierie des caractéristiques
• Bag-of-words
• Régression multinomiale (multi-classes)
• Matrice de confusion pour la performance : Type document réel X
type document prédit
DOCUMENTS EN IMAGES
Solution
2. extraction automatique d’informations selon le type de documents :
• Identification des réponses sur les documents
• Problème ! Entrées manuellement.. Pas fiable.. Reconstruction
intensive des réponses
• Extraction de la localisation des réponses dans le texte et la page
• Modèle de reconnaissance d’entités nommées pour trouver les
informations recherchées dans le texte
• Mesure de performance manuelle, % de réponses bien retrouvées
(car trop de mauvaises réponses dans les données brutes).
DOCUMENTS EN IMAGES
Les défis et enjeux
• Un document de même type peut prendre différentes

apparences.
• Certaines réponses utilisées pour l’entrainement de la
détection des champs comprennent des erreurs. Certaines
difficultés sont donc rencontrées à l’entrainement.
• Le déploiement sous forme d’API de solutions complexes
d’IA de ce type est un grand défi!
• Faire adhérer à la labellisation pour poursuivre
l’apprentissage
• Taille des modèles à charger en mémoire (une fois
déployé, jusqu’à 4Go). Conserve en mémoire.
DOCUMENTS EN IMAGES
Résultats
Une fois déployé, l’algorithme permet d’identifier automatiquement

le type de document en environ 10 secondes avec une fiabilité de
97%. Le processus d’extraction d’informations s’enchaîne
automatiquement pour extraire les informations pertinentes selon le
type de document.
La rapidité du traitement permettra de ne pas engager des

ressources additionnelles pour effectuer cette tâche dans le futur.
Une des retombées non anticipée du projet est que l’algorithme

permet de corriger une quantité significative de données historiques
incorrectes et de valoriser les données internes de l’entreprise pour
des projets subséquents.
APPRENTISSAGE NON SUPERVISÉ
Intelligence
artificielle
Apprentissage
machine L'apprentissage non supervisé
vise à faire émerger, et
éventuellement à exploiter, la
structure sous-jacente des
données étudiées à partir d'une
Semi
Apprentissage Apprentissage base de données
supervisé
supervisé non supervisé d’entraînement/d’apprentissage
contenant des
« exemples ».
Apprentissage
profond
Apprentissage
par renforcement
Segmentation de la clientèle d’un magasin
AngossSoftware. (2016, 17 février). Customer segmentation. Youtube. https://www.youtube.com/watch?v=zPJtDohab-g

Approche exploratoire. Interprétabilité avant tout.
Peut être utilisé en amont de l’apprentissage supervisé

pour réduire le nombre de variables ou comme une
finalité en soi.
PROBLÉMATIQUES
REGROUPEMENT (DES OBSERVATIONS) OU RÉDUCTION DIMENSIONNALITÉ (DES VARIABLES) ?
1. Une entreprise d’assurance possède une quantité

importante d’informations sur l’assuré. La modélisation
explicable réalisée dans le cadre d’un projet peut inclure au
maximum 10 variables. Comment s’y prendre ?
2. Nous aimerions trouver les différents profils qui fréquentes
le site web de notre entreprise, en tenant compte des
moments de fréquentation et de leurs actions.
3. Nous aimerions rassembler les images semblables entre
elles afin de les entreposer par la suite par groupe
4. Nous aimerions extraire les caractéristiques des photos de
visages pour ensuite mesurer la similarité de deux photos
selon les caractéristiques ressorties.
COMMENTAIRE EXPÉRIENCE EMPLOYÉS
Mise en contexte
Le VP ressources humaines d’une société de quelques milliers

d’employés est soucieux de la qualité de l’expérience de ses
employés au sein de la société.
Il a ainsi mis en place il y a un an un système de mesure en

continue de l’expérience des employés au sein du groupe. Chaque
employé, toutes les 2 semaines, a donc l’opportunité de répondre à
quelques questions ainsi qu’à y mettre des commentaires ou à y
poser des questions, de façon anonyme ou non.
Toutefois, le flow de commentaires dépasse rapidement la capacité

de traitement de l’équipe de ressource humaine.
Problématique
Afin d’être en mesure de comprendre et partager au comité de direction

de la société, comment se sentent et ce que pensent les employés, le
VP aimerait que l’information lui soit condenser automatiquement afin
de conserver uniquement ce qui dépeint le mieux la situation.
Données
Textes des commentaires des employés, selon différentes questions

sur la gestion et l’ambiance de travail, aux deux semaines.
Solution
Développement d’une solution appuyée sur l’analyse du langage

naturel (NLP) afin de :
1. Regroupement automatique des mots et expressions similaires,
sous forme de thèmes abstraits. (Topic Modeling)
2. Identifier les x commentaires les plus représentatifs de ce que
l’ensemble des employés écrivent (Résumé automatique)
Défis et enjeux
• Présence de commentaires en français et en anglais. L’algorithme

doit donc détecter le langage avant de faire l’analyse du
commentaire.
• Nombreuses fautes d’orthographe, de syntaxe, phrases
incomplètes, ironie, …
Résultats
• Amélioration de la satisfaction des employés par la mise en place

de mesures pour contenir les perceptions négatives
• Légère diminution de l’attrition des employés
• Détection des problématiques opérationnelles mentionnées par les
employées et amélioration de l’efficacité
SUPERVISÉ VS NON SUPERVISÉ
Zhou, L. (2018, 3 mai). Simplify Machine Learning Pipeline Analysis with Object Storage. Western Digital
Blog. https://blog.westerndigital.com/machine-learning-pipeline-object-storage/
APPRENTISSAGE SEMI SUPERVISÉ
L'apprentissage semi supervisé

hybride entre l’apprentissage
supervisé et non supervisé
APPRENTISSAGE SEMI SUPERVISÉ
Principalement utilisé lorsqu’il est seulement possible

d’obtenir une faible proportion de réponses (Y) parmi un
échantillon volumineux d’observations.
Les observations sont regroupées entre elles, à l’aide

d’une approche non supervisée, et les réponses connues
(Y) parmi les groupes créés déterminent la réponse globale
attribuée au groupe.
L’apprentissage supervisé peut ensuite être réalisé sur

l’ensemble de l’échantillon avec cette réponse déduite par
groupe similaire.
APPRENTISSAGE SEMI STRUCTURÉ
Bon exemple sur des

données non structurées,
Google photo.
https://blog.en.uptodown.com/google-photos-face-detection/
APPRENTISSAGE PROFOND
Intelligence
artificielle
Apprentissage
…des relations complexes (non
machine
linéaires) peuvent exister entre
les variables d’intérêt. Dans un
contexte de données non
structurées (texte, image, son),
Semi
Apprentissage Apprentissage c’est d’ailleurs généralement la
supervisé
supervisé non supervisé règle.
Apprentissage
profond
Apprentissage
par renforcement
• Réseau de neurones
Beaucoup évolué grâce à l’évolution de l’environnement
technologique.
Google developpers. (2016, 15 novembre). A.I. Experiments: A.I. Duet.

Youtube. https://www.youtube.com/watch?time_continue=121&v=0ZE1bfPtvZo&feature=emb_logo
APPRENTISSAGE PAR
RENFORCEMENT
Intelligence
artificielle
Apprentissage
machine L'apprentissage par
renforcement consiste à
entraîner un programme
(nommé « agent »), par le
biais d’interactions avec son
Semi
Apprentissage Apprentissage environnement et de
supervisé
supervisé non supervisé récompenses, à se
comporter optimalement
relativement à un objectif
Apprentissage prédéfini.
profond
Apprentissage
par renforcement
APPRENTISSAGE PAR
RENFORCEMENT
Swamynathan M. (2017) Step 6 – Deep and Reinforcement Learning. In: Mastering Machine Learning with Python in Six Steps.
Apress, Berkeley, CA
APPRENTISSAGE PAR RENFORCEMENT
• L’apprentissage se fait par essai et erreur, basé sur un

système de récompenses, et le but de l’algorithme est
de maximiser les récompenses à long terme.
• Très dépendant de son environnement. Le système

est également séquentiel, le temps est important.
• Comme l’apprentissage non supervisé,

l’apprentissage par renforcement n’a pas de réponse
(de vérité connue). La seule information connue est le
pointage pour une action.
• Ce pointage peut être positif (ou négatif) à court

terme, mais entraîner une chaîne d’action qui rendra
le pointage négatif (ou positif) à long terme.
Two minute papers. (2019, 22 octobre). Open Ai joue à cache-cache.. et casse le jeu ! .
Youtube. https://www.youtube.com/watch?v=Lu56xVlZ40M

S09 - Section 3.1

Transféré par

Droits d'auteur :

Formats disponibles

S09 - Section 3.1

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

S09 - Section 3.1

Transféré par

Droits d'auteur :

Formats disponibles

•

Artificial Intelligence. SAS. https://www.sas.com/en_ca/insights/analytics/what-is-artificial-intelligence.html

Besoin : déterminer quels courriels sont des spams.

Sivalingam, A. (2019, 23 novembre). What is machine learning. Medium. https://medium.com/swlh/what-is-machine-learning-

Les techniques de prédiction sont principalement

1. Est-ce qu’une entreprise présente des risques de faillite à

Image tiré du site (2020-11-19) : https://www.bang-marketing.com/publications/ebang/bien-repondre-aux-commentaires-negatifs-sur-les-reseaux-sociaux/

L’entreprise aimerait ainsi détecter automatique les commentaires qui

Image tiré du site (2020-11-19) : https://www.bang-marketing.com/publications/ebang/bien-repondre-aux-commentaires-negatifs-sur-les-reseaux-sociaux/

Commentaires en caractère d’imprimerie extraits des médias

1. Nettoyage du texte extrait, par identifiant

Normalisation du texte : Retrait genre, nombre, prefix, suffix

2. Création de vecteurs de groupes de mots (bag-of-words) :

Devient un point dans une haute dimensionnalité

3. Étiquetage des données :

• Texte difficile à nettoyer (abréviation peut commune, erreurs

Pour chaque document :

1. La classification automatique des documents est première étape de

2. L’extraction automatique d’informations selon le type de documents

• Extraction du texte sur le document, travail non négligeable sur le

• Nettoyage du texte extrait

• Un document de même type peut prendre différentes

Une fois déployé, l’algorithme permet d’identifier automatiquement

La rapidité du traitement permettra de ne pas engager des

Une des retombées non anticipée du projet est que l’algorithme

Segmentation de la clientèle d’un magasin

AngossSoftware. (2016, 17 février). Customer segmentation. Youtube. https://www.youtube.com/watch?v=zPJtDohab-g

Approche exploratoire. Interprétabilité avant tout.

Peut être utilisé en amont de l’apprentissage supervisé

1. Une entreprise d’assurance possède une quantité

Le VP ressources humaines d’une société de quelques milliers

Il a ainsi mis en place il y a un an un système de mesure en

Toutefois, le flow de commentaires dépasse rapidement la capacité

Afin d’être en mesure de comprendre et partager au comité de direction

Textes des commentaires des employés, selon différentes questions

Développement d’une solution appuyée sur l’analyse du langage

• Présence de commentaires en français et en anglais. L’algorithme

• Amélioration de la satisfaction des employés par la mise en place

L'apprentissage semi supervisé

Principalement utilisé lorsqu’il est seulement possible

Les observations sont regroupées entre elles, à l’aide

L’apprentissage supervisé peut ensuite être réalisé sur

Bon exemple sur des

Google developpers. (2016, 15 novembre). A.I. Experiments: A.I. Duet.

• L’apprentissage se fait par essai et erreur, basé sur un

• Très dépendant de son environnement. Le système

• Comme l’apprentissage non supervisé,

• Ce pointage peut être positif (ou négatif) à court

Vous aimerez peut-être aussi