Introduction Datamining

Université de Tunis
Ecole Supérieure des Sciences Economiques et

Commerciales
Introduction à la fouille de données
1
Exemple introductif: demande de
crédit bancaire
• divorcé
• 5 enfants à charge
• chômeur
• compte à découvert
2
Expérience de l’entreprise:
ses clients et leur comportement
• couteuse en stockage
• inexploitée
Comment et à quelles fins utiliser cette expérience accumulée ?
Fouille de données
3
Définition de la fouille de données
La fouille de données ou l’extraction des connaissances à partir des données (ECD)

respectivement en anglais data mining (DM) ou knowledge discovery in databases (KDD)
C’est l’ensemble des méthodes et techniques destinées
➢ à l’exploration et l’analyse
➢ de (grandes) bases de données de façon automatique ou semi automatique

➢ en vue de détecter dans ces données des règles, des associations, des tendances
inconnues ou cachées, des structures particulières restituant l’essentiel de l’information
utile
➢ pour aider à la prise de décisions
Le DM est l’art d’extraire des informations ou même des connaissances à partir4 des
données
Définition de la fouille de données (suite)
Les règles à trouver sont du genre:
• Les clients ayant tel profil achètent tel type de produit
• Les clients ayant tel profil arrivent plus souvent au contentieux
• Les acheteurs de couches pour bébés dans un supermarché le samedi après 18 heures sont
souvent aussi acheteurs de bières
• Les clients ayant acquis le produit A et le produit B acquièrent plus souvent le produit C,
en même temps ou n mois plus tard
• Les clients ayant tels comportement, qui n’ont pas acheté tels produits dans tel intervalle
de temps, risquent de nous quitter pour la concurrence
On voit dans les deux derniers exemples : il nous faut un historique des données relatives à
chaque client.
5
Le DM est un élément clé de la gestion de la relation client et du marketing one-to-one
Domaines d’application du DM
6
Domaines d’application du DM (1)
Activité commerciales : grandes distribution, vente par correspondance, banque, assurance
• Segmentation de la clientèle
• Détermination du profil du consommateur (pour mieux le servir, pour augmenter sa
satisfaction, pour augmenter sa fidélité) car il est plus coûteux d’acquérir un client que
le conserver
• Analyse du panier de la ménagère
• Mise au point de stratégies de rétention de la clientèle
• Prédiction des ventes
• Détection des fraudes au niveau des banques et des assurances
• Identification des clients à risque
• Connaissance du client est encore plus utile dans le secteur tertiaire:
les produits se ressemblent entre établissements et le prix n’est pas toujours déterminant
7
ce sont surtout le service et la relation avec le client qui font la différence
Domaines d’application du DM (2)
• Activités Scientifiques :
• Diagnostic médical
• Santé publique
• Etude du génome
• Exploitation de données astronomiques
• Activités Industrielles :
• détection et diagnostic des pannes et des défauts
•Analyse des flux dans les réseaux de distribution
8
Quelques types de score
Score d’appétence → prédire l’achat d’un produit ou service
Score de (comportement) risque → prédire les impayés ou la fraude
Score d’octroi → prédire en temps réel les impayés
Score d’attrition → prédire le départ du client vers un concurrent
Remarques:
1. L'appétence exprime le désir d'usage ou d'achat ressenti par l'individu pour un produit ou une
marque ou sa probabilité d'achat.
2. L’attrition est le phénomène de perte de clientèle ou d’abonnés.

Le phénomène d’attrition est généralement mesuré par le taux d’attrition.
9
Exemples commerciaux
Vente Par Correspondance
➢ utilise depuis longtemps des scores d’appétence pour optimiser ses ciblages et en
réduire les coûts des centaines de millions de documents envoyés par an,
e-commerce
➢ personnalisation des pages du site web de l’entreprise, en fonction du profil de

chaque internaute,
➢ optimisation de la navigation sur un site web,
10
Data Mining vs informatique décisionnelle
11
Data Mining vs informatique
décisionnelle (suite)
L’informatique décisionnelle (… BI pour Business Intelligence) :
• moyens, outils et méthodes permettant de collecter, consolider, modéliser et restituer les données d'une
entreprise
• en vue d'offrir une aide à la décision et de permettre aux responsables de la stratégie d'une entreprise
d’avoir une vue d’ensemble de l’activité traitée.
La BI permet de :
• Sélectionner les données (par rapport à un sujet et/ou une période)
• Trier, regrouper ou répartir ces données selon certains critères
• Élaborer des calculs récapitulatifs « simples » (totaux, moyennes
conditionnelles, etc.)
• Présenter les résultats de manière synthétique (graphique et/ou tableaux de
bord) REPORTING
Le Data Mining est proche de ce cadre, mais il introduit une dimension supplémentaire qui est la modélisation
« exploratoire » (détection des liens de
cause à effet, validation de leur reproductibilité)
12
Processus de fouille de données
13
Processus de fouille de données (suite)
→ Définition des objectifs
choix ou définition
• du sujet à étudier (exemple : quel est le profil des clients ayant acheté un
produit donné)
• de la population cible (les prospects et les clients ou les clients uniquement,
tous les malades ou seulement les malades curables par traitement testé…)
• définir l’entité statistique étudiée ( la personne, le foyer réduit aux conjoints, le
foyer)
• de certains critères essentiels et en particulier le phénomène à prédire, planifier
le projet et spécifier les résultats attendus
14
→ Sélection des données
• Obtention des données en accord avec les objectifs que l'on s'impose.
• Ces données proviennent
• d'entrepôts de données
• bases de données relationnelles
• fichiers plats
• etc.
15
→ Préparation des données
Il s’agit en fait de nettoyer les données. Une fois le projet bien défini et précis, les
données doivent être les plus adaptées possibles. Il faut :
• enlever les erreurs et les doublons,
• contrôler le domaine des valeurs,
• compléter les informations manquantes
- ignorer l’observation,
- utiliser une valeur moyenne,
- utiliser la valeur moyenne pour les exemples d’une même classe,
- utiliser la régression
• coder et normaliser les données.
- agrégation (somme, moyenne)
- discrétisation (rendre discrète une variable continue)
- uniformisation d’échelle ou standardisation 16
-Construction de nouvelles variables

→Data mining
La fouille de données est le cœur du processus car elle permet d'extraire de l'information
des données. C'est une étape difficile à mettre en œuvre, coûteuse et dont les résultats
doivent être interprétés et relativisés. Une approche traditionnelle pour découvrir ou
expliquer un phénomène est de
1. regarder, explorer,
2. établir un modèle ou une hypothèse,
3. essayer de le contredire ou le vérifier comme en 1 ; recommencer le point 2
jusqu'à obtenir une réponse de qualité satisfaisante
17
→Data mining (suite)
la qualité du modèle obtenu se mesure selon les critères suivants :

•Rapide à créer ;
•rapide à utiliser ;
•compréhensible pour l'utilisateur ;
•les performances sont bonnes ; Le modèle est fiable ;
•les performances ne se dégradent pas dans le temps ;
•Il évolue facilement.
18
→interprétation et validation
Interpréter un modèle revient à lui trouver une explication. Les méthodes de validation
vont déprendre de la nature de la tâche et du problème considéré. Nous distinguerons deux
modes de validation : statistique et/ou par expertise.
ensemble d’apprentissage
Validation statistique par le test
ensemble de test
Construction d’un modèle sur l’ensemble d’apprentissage et test du modèle sur le jeu de
test pour lequel les résultats sont connus
19
Les classes des techniques de DM
Il existe sept classes de techniques de DM. Chaque classe est composée d’un
ensemble d’algorithmes permettant d’extraire à partir d’un grand volume de données
des relations pertinentes. Ces classes sont :
La classification
Le clustering
L’association
Les modèles séquentiels
La régression
La prévision
D’autres techniques 20
20
(suite)
La classification
permet de définir les caractéristiques de certains groupes (tels que les clients qu’a
perdu une entreprise). Ces méthodes permettent de prédire l’appartenance d’une
instance de données à des classes déjà connues. On veut par exemple savoir si la
journée de demain sera « pluvieuse » ou « ensoleillée ». Parmi les techniques de
classification on trouve les arbres de décision et les réseaux de neurones artificiels.
21
(suite)
Exemple de techniques de classification
22
(suite)
Le clustering ou la segmentation
permet l’identification de groupes d’éléments partageant certaines caractéristiques

(dans ce cas les classes ne sont pas prédéfinies). Les approches de clustering
peuvent résoudre les problèmes de segmentation. Les algorithmes de clustering
peuvent être utilisés pour l’identification des classes de clients ayant de besoins
donné.
23
(suite)
Exemple de techniques de segmentation
Algorithme des k-means
24
(suite)
Les règles d’association

identifie des relations entre les évènements qui surviennent en même temps. Les approches
d’association s’attaquent à des classes de problèmes tels que l’analyse du panier de la
ménagère. Dans ce cas on essaye de répondre à la question suivante « Quels sont les produits
qui sont achetés ensembles » quel est le degré de fiabilité de ces réponses. Dans ce cas, il y a
utilisation des méthodes statistiques.
Exemple de règle: si pizza alors coca
Les modèles séquentiels

similaire à l’association sauf que les relations ont lieu sur une période de temps (par exemple
les visites répétée au supermarché, …) 25
(suite)
La régression
utilisée pour effectuer des prédictions. La régression utilise les données pour générer une
prévision. Les techniques utilisées peuvent être linéaires ou non linéaires. L’objectif
consiste à trouver, dans un premier temps, des variables explicatives dont dépend un
phénomène donné appelé variable expliquée et ensuite à calculer les coefficients de
dépendance.
26
(suite)
observation
Droite de régression
Y= aX+b
27
(suite)
La prévision
Il s’agit là de prévoir les valeurs futures d’un phénomène sur la base de ses
valeurs antérieures (on parle de prévision de la demande). Il s’agit là d’une
autre forme d’estimation où on utilise les méthodes statistiques des séries
temporelles.
D’autres modèles
ils sont essentiellement basées sur des méthodes avancées d’intelligence
artificielle. Elles incluent le raisonnement à base de cas, la logique floue, les
algorithmes génétiques.
28
(suite)
29
Xt+1= a Xt+ b
Apprentissage supervisé vs techniques
Apprentissage non supervisé
Apprentissage non supervisé ou apprentissage automatique

La segmentation, les règles d’association sont des tâches non supervisées où la
fouille de données n’a pas un objectif à priori.
→ DM explicatif ou descriptif (on cherche plus à expliquer les relations entre les
variables sans disposer d’une variable dépendante)
Apprentissage supervisé
La classification, la prévision sont des tâches supervisées.
→ DM Prédictif (on dispose d’une variable dépendante à prédire ou à estimer )
30

Introduction Datamining

Transféré par

Droits d'auteur :

Formats disponibles

Introduction Datamining

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Introduction Datamining

Transféré par

Droits d'auteur :

Formats disponibles

Université de Tunis

Ecole Supérieure des Sciences Economiques et

Introduction à la fouille de données

Comment et à quelles fins utiliser cette expérience accumulée ?

La fouille de données ou l’extraction des connaissances à partir des données (ECD)

C’est l’ensemble des méthodes et techniques destinées

➢ de (grandes) bases de données de façon automatique ou semi automatique

• Les clients ayant tel profil achètent tel type de produit

• Les clients ayant tel profil arrivent plus souvent au contentieux

Score d’appétence → prédire l’achat d’un produit ou service

Score de (comportement) risque → prédire les impayés ou la fraude

Score d’octroi → prédire en temps réel les impayés

Score d’attrition → prédire le départ du client vers un concurrent

2. L’attrition est le phénomène de perte de clientèle ou d’abonnés.

Vente Par Correspondance

➢ personnalisation des pages du site web de l’entreprise, en fonction du profil de

→ Définition des objectifs

→ Sélection des données

-Construction de nouvelles variables

→Data mining (suite)

la qualité du modèle obtenu se mesure selon les critères suivants :

Les modèles séquentiels

permet l’identification de groupes d’éléments partageant certaines caractéristiques

Algorithme des k-means

Les règles d’association

Les modèles séquentiels

Apprentissage non supervisé ou apprentissage automatique

Vous aimerez peut-être aussi