Introduction Datamining
Introduction Datamining
Introduction Datamining
1
Exemple introductif: demande de
crédit bancaire
• divorcé
• 5 enfants à charge
• chômeur
• compte à découvert
2
Expérience de l’entreprise:
ses clients et leur comportement
• couteuse en stockage
• inexploitée
Fouille de données
3
Définition de la fouille de données
➢ à l’exploration et l’analyse
Le DM est l’art d’extraire des informations ou même des connaissances à partir4 des
données
Définition de la fouille de données (suite)
Les règles à trouver sont du genre:
• Les acheteurs de couches pour bébés dans un supermarché le samedi après 18 heures sont
souvent aussi acheteurs de bières
• Les clients ayant acquis le produit A et le produit B acquièrent plus souvent le produit C,
en même temps ou n mois plus tard
• Les clients ayant tels comportement, qui n’ont pas acheté tels produits dans tel intervalle
de temps, risquent de nous quitter pour la concurrence
On voit dans les deux derniers exemples : il nous faut un historique des données relatives à
chaque client.
5
Le DM est un élément clé de la gestion de la relation client et du marketing one-to-one
Domaines d’application du DM
6
Domaines d’application du DM (1)
Activité commerciales : grandes distribution, vente par correspondance, banque, assurance
• Segmentation de la clientèle
• Détermination du profil du consommateur (pour mieux le servir, pour augmenter sa
satisfaction, pour augmenter sa fidélité) car il est plus coûteux d’acquérir un client que
le conserver
• Analyse du panier de la ménagère
• Mise au point de stratégies de rétention de la clientèle
• Prédiction des ventes
• Détection des fraudes au niveau des banques et des assurances
• Identification des clients à risque
• Connaissance du client est encore plus utile dans le secteur tertiaire:
les produits se ressemblent entre établissements et le prix n’est pas toujours déterminant
7
ce sont surtout le service et la relation avec le client qui font la différence
Domaines d’application du DM (2)
• Activités Scientifiques :
• Diagnostic médical
• Santé publique
• Etude du génome
• Exploitation de données astronomiques
• Activités Industrielles :
• détection et diagnostic des pannes et des défauts
•Analyse des flux dans les réseaux de distribution
8
Quelques types de score
Remarques:
1. L'appétence exprime le désir d'usage ou d'achat ressenti par l'individu pour un produit ou une
marque ou sa probabilité d'achat.
9
Exemples commerciaux
➢ utilise depuis longtemps des scores d’appétence pour optimiser ses ciblages et en
réduire les coûts des centaines de millions de documents envoyés par an,
e-commerce
10
Data Mining vs informatique décisionnelle
11
Data Mining vs informatique
décisionnelle (suite)
L’informatique décisionnelle (… BI pour Business Intelligence) :
• moyens, outils et méthodes permettant de collecter, consolider, modéliser et restituer les données d'une
entreprise
• en vue d'offrir une aide à la décision et de permettre aux responsables de la stratégie d'une entreprise
d’avoir une vue d’ensemble de l’activité traitée.
La BI permet de :
• Sélectionner les données (par rapport à un sujet et/ou une période)
• Trier, regrouper ou répartir ces données selon certains critères
• Élaborer des calculs récapitulatifs « simples » (totaux, moyennes
conditionnelles, etc.)
• Présenter les résultats de manière synthétique (graphique et/ou tableaux de
bord) REPORTING
Le Data Mining est proche de ce cadre, mais il introduit une dimension supplémentaire qui est la modélisation
« exploratoire » (détection des liens de
cause à effet, validation de leur reproductibilité)
12
Processus de fouille de données
13
Processus de fouille de données (suite)
choix ou définition
• du sujet à étudier (exemple : quel est le profil des clients ayant acheté un
produit donné)
• de la population cible (les prospects et les clients ou les clients uniquement,
tous les malades ou seulement les malades curables par traitement testé…)
• définir l’entité statistique étudiée ( la personne, le foyer réduit aux conjoints, le
foyer)
• de certains critères essentiels et en particulier le phénomène à prédire, planifier
le projet et spécifier les résultats attendus
14
Processus de fouille de données (suite)
• Obtention des données en accord avec les objectifs que l'on s'impose.
• Ces données proviennent
• d'entrepôts de données
• bases de données relationnelles
• fichiers plats
• etc.
15
Processus de fouille de données (suite)
→ Préparation des données
Il s’agit en fait de nettoyer les données. Une fois le projet bien défini et précis, les
données doivent être les plus adaptées possibles. Il faut :
• enlever les erreurs et les doublons,
• contrôler le domaine des valeurs,
• compléter les informations manquantes
- ignorer l’observation,
- utiliser une valeur moyenne,
- utiliser la valeur moyenne pour les exemples d’une même classe,
- utiliser la régression
• coder et normaliser les données.
- agrégation (somme, moyenne)
- discrétisation (rendre discrète une variable continue)
- uniformisation d’échelle ou standardisation 16
17
Processus de fouille de données (suite)
18
Processus de fouille de données (suite)
→interprétation et validation
Interpréter un modèle revient à lui trouver une explication. Les méthodes de validation
vont déprendre de la nature de la tâche et du problème considéré. Nous distinguerons deux
modes de validation : statistique et/ou par expertise.
ensemble d’apprentissage
Validation statistique par le test
ensemble de test
Construction d’un modèle sur l’ensemble d’apprentissage et test du modèle sur le jeu de
test pour lequel les résultats sont connus
19
Les classes des techniques de DM
Il existe sept classes de techniques de DM. Chaque classe est composée d’un
ensemble d’algorithmes permettant d’extraire à partir d’un grand volume de données
des relations pertinentes. Ces classes sont :
La classification
Le clustering
L’association
La régression
La prévision
D’autres techniques 20
20
Les classes des techniques de DM
(suite)
La classification
permet de définir les caractéristiques de certains groupes (tels que les clients qu’a
perdu une entreprise). Ces méthodes permettent de prédire l’appartenance d’une
instance de données à des classes déjà connues. On veut par exemple savoir si la
journée de demain sera « pluvieuse » ou « ensoleillée ». Parmi les techniques de
classification on trouve les arbres de décision et les réseaux de neurones artificiels.
21
Les classes des techniques de DM
(suite)
Exemple de techniques de classification
22
Les classes des techniques de DM
(suite)
Le clustering ou la segmentation
23
Les classes des techniques de DM
(suite)
Exemple de techniques de segmentation
24
Les classes des techniques de DM
(suite)
La régression
utilisée pour effectuer des prédictions. La régression utilise les données pour générer une
prévision. Les techniques utilisées peuvent être linéaires ou non linéaires. L’objectif
consiste à trouver, dans un premier temps, des variables explicatives dont dépend un
phénomène donné appelé variable expliquée et ensuite à calculer les coefficients de
dépendance.
26
Les classes des techniques de DM
(suite)
observation
Droite de régression
Y= aX+b
27
Les classes des techniques de DM
(suite)
La prévision
Il s’agit là de prévoir les valeurs futures d’un phénomène sur la base de ses
valeurs antérieures (on parle de prévision de la demande). Il s’agit là d’une
autre forme d’estimation où on utilise les méthodes statistiques des séries
temporelles.
D’autres modèles
ils sont essentiellement basées sur des méthodes avancées d’intelligence
artificielle. Elles incluent le raisonnement à base de cas, la logique floue, les
algorithmes génétiques.
28
Les classes des techniques de DM
(suite)
29
Xt+1= a Xt+ b
Apprentissage supervisé vs techniques
Apprentissage non supervisé
Apprentissage supervisé
La classification, la prévision sont des tâches supervisées.
→ DM Prédictif (on dispose d’une variable dépendante à prédire ou à estimer )
30