Publications de
l’Institut de Mathématiques
de Toulouse
Statistique Descriptive Multidimensionnelle
(pour les nuls)
(version de mai 2010)
Alain Baccini
Institut de Mathématiques de Toulouse — UMR CNRS 5219
Université Paul Sabatier — 31062 – Toulouse cedex 9.
2
Table des matières
1 Analyse en Composantes Principales
1.1 La statistique descriptive multidimensionnelle
1.2 Exemple illustratif pour l’A.C.P. . . . . . . .
1.2.1 Présentation . . . . . . . . . . . . . .
1.2.2 Résultats préliminaires . . . . . . . . .
1.2.3 Résultats généraux . . . . . . . . . . .
1.2.4 Résultats sur les variables . . . . . . .
1.2.5 Résultats sur les individus . . . . . . .
1.3 Présentation générale de la méthode . . . . .
1.3.1 Les principes . . . . . . . . . . . . . .
1.3.2 Les résultats . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5
5
6
6
7
7
8
9
11
11
13
2 Analyse Factorielle des Correspondances
2.1 Principe général de l’A.F.C. . . . . . . . . . . . . .
2.1.1 Les données . . . . . . . . . . . . . . . . . .
2.1.2 Le problème . . . . . . . . . . . . . . . . . .
2.1.3 La méthode . . . . . . . . . . . . . . . . . .
2.2 Exemple illustratif . . . . . . . . . . . . . . . . . .
2.2.1 Les données . . . . . . . . . . . . . . . . . .
2.2.2 L’A.F.C. des données de l’exemple 1 avec le
2.2.3 Interprétation des résultats . . . . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
logiciel SAS
. . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
15
15
15
16
16
17
17
17
24
3 Analyse des Correspondances Multiple
3.1 Rappels sur le tableau de Burt . . . . .
3.1.1 Les données considérées . . . . .
3.1.2 Définition du tableau de Burt . .
3.1.3 Illustration . . . . . . . . . . . .
3.2 Principes de l’A.C.M. . . . . . . . . . .
3.2.1 Le problème . . . . . . . . . . . .
3.2.2 La méthode . . . . . . . . . . . .
3.3 Un exemple illustratif . . . . . . . . . .
3.3.1 Les données . . . . . . . . . . . .
3.3.2 L’A.C.M. des données . . . . . .
3.3.3 Interprétation . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
27
27
27
28
28
28
28
28
29
29
29
32
3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4
TABLE DES MATIÈRES
Avant-propos
Ce document est consacré aux trois méthodes les plus courantes de la statitique descriptive
multidimensionnelle : l’Analyse en Composantes Principales (chapitre 1), l’Analyse Factorielle des
Correspondances (chapitre 2) et l’Analyse des Correspondances Multiples (chapitre 3).
Il a été conçu pour des personnes souhaitant avoir quelques connaissances sur ces méthodes
sans avoir la moindre culture scientifique (d’où son sous-titre...). Les connaissances exposées ici
sont donc, nécessairement, superficielles mais, nous l’espérons, suffisantes pour comprendre les
grandes lignes de ces techniques.
La statistique multidimensionnelle (et principalement l’Analyse des Correspondances Multiples)
est aujourd’hui couramment utilisée pour analyser des résultats d’enquêtes, y compris par des personnes n’ayant pas de formation mathématique ou statistique. Ce document leur est donc particulièrement destiné et fait suite au document intitulé “Statistique Descriptive Élémentaire”, disponible sur le même site et désigné sous l’appellation “cours SDE” par la suite.
D’autre part, un autre cours sur la statistique multidimensionnelle, plus complet et destiné à
des étudiants des filières universitaires de mathématiques appliquées, est également disponible sur
ce site sous le titre “Exploration Statistique”.
Chapitre 1
Analyse en Composantes
Principales
Ce chapitre est consacré à l’Analyse en Composantes Principales (ou A.C.P.), méthode fondamentale en statistique descriptive multidimensionnelle. Cette méthode permet de traiter simultanément un nombre quelconque de variables, toutes quantitatives.
Dans un premier paragraphe, nous donnerons tout d’abord quelques indications sur ce que sont
les méthodes de la statistique descriptive multidimensionnelle. Ensuite, nous présenterons en détail
un exemple très simple (un exemple d’école, artificiel), pour bien comprendre comment fonctionne
une A.C.P., à quoi ça sert, comment on l’interprète... Enfin, dans un dernier paragraphe, nous
donnerons quelques indications générales sur cette méthode.
1.1
La statistique descriptive multidimensionnelle
On désigne par statistique descriptive multidimensionnelle l’ensemble des méthodes de la statistique descriptive (ou exploratoire) permettant de traiter simultanément un nombre quelconque de variables (il s’agit d’aller au-delà de l’étude d’une seule ou de deux variables). Ces
méthodes sont purement descriptives, c’est-à-dire qu’elles ne supposent, a priori, aucun modèle
sous-jacent, de type probabiliste. (Ainsi, lorsqu’on considère un ensemble de variables quantitatives sur lesquelles on souhaite réaliser une A.C.P., il n’est pas nécessaire de supposer que ces
variables sont distribuées selon des lois normales.)
Dans chaque méthode que nous allons développer, les variables considérées seront de même nature : toutes quantitatives (Analyse en Composantes Principales) ou toutes qualitatives (Analyses des Correspondances).
Les méthodes les plus classiques de la statistique descriptive multidimensionnelle sont les
méthodes factorielles. Elles consistent à rechercher des facteurs (cette notion sera précisée ultérieurement) en nombre restreint et résumant le mieux possible les données considérées.
Elles aboutissent à des représentations graphiques des données (des individus comme des variables) par rapport à ces facteurs, représentés comme des axes. Ces représentations graphiques
sont du type nuage de points (ou diagramme de dispersion).
Nous allons développer 3 méthodes, chacune correspondant à un chapitre : l’Analyse en Composantes Principales (A.C.P.), dans ce chapitre 1, l’Analyse Factorielle des Correspondances (A.F.C.),
dans le chapitre 2 et l’Analyse des Correspondances Multiples (A.C.M.), dans le chapitre 3.
Nous laisserons de côté l’Analyse Factorielle Discriminante et l’Analyse Canonique (méthodes
factorielles plus particulières), ainsi que les méthodes non factorielles (principalement la classification).
La logique des trois chapitres consacrés à la statistique descriptive multidimensionnelle est
la suivante : l’objectif, pour les étudiants, est de maı̂triser, au moins partiellement, l’Analyse
des Correspondances Multiples, méthode souvent utilisée dans les dépouillements d’enquêtes,
lorsqu’on souhaite aller au-delà des simples tris à plat (analyses unidimensionnelles) ou tris
croisés (analyses bidimensionnelles). On commence donc par introduire l’A.C.P., méthode centrale,
indispensable pour bien comprendre le fonctionnement de toute technique factorielle. On développe
5
6
CHAPITRE 1. ANALYSE EN COMPOSANTES PRINCIPALES
ensuite l’A.F.C., cas particulier de l’A.C.M. lorsqu’on ne considère que deux variables qualitatives.
On généralise enfin à l’A.C.M.
1.2
Exemple illustratif pour l’A.C.P.
Lorsqu’on étudie simultanément un nombre important de variables quantitatives (ne serait-ce
que 4 !), comment en faire un graphique global ? La difficulté vient de ce que les individus étudiés ne
sont plus représentés dans un plan, espace de dimension 2, mais dans un espace de dimension plus
importante (par exemple 4). L’objectif de l’Analyse en Composantes Principales est de revenir à
un espace de dimension réduite (par exemple 2) en déformant le moins possible la réalité. Il s’agit
donc d’obtenir le résumé le plus pertinent possible des données initiales.
C’est la matrice des variances-covariances (ou celle des corrélations) qui va permettre de
réaliser ce résumé pertinent, parce qu’on analyse essentiellement la dispersion des données considérées. De cette matrice, on va extraire, par un procédé mathématique approprié, les facteurs que l’on
recherche, en petit nombre. Ils vont permettre de réaliser les graphiques désirés dans cet espace de
petite dimension (le nombre de facteurs retenus), en déformant le moins possible la configuration
globale des individus telle qu’elle est définie par l’ensemble des variables initiales (ainsi remplacées
par les facteurs).
C’est l’interprétation de ces graphiques qui permettra de comprendre la structure des données
analysées. Cette interprétation sera guidée par un certain nombre d’indicateurs numériques, appelés
aides à l’interprétation, qui sont là pour aider l’utilisateur à faire l’interprétation la plus juste et
la plus objective possible.
Sur le plan théorique, l’Analyse en Composantes Principales est une méthode relativement
complexe, dans la mesure où elle fait appel à des notions mathématiques non élémentaires : celles
de matrices, d’éléments propres... Fort heureusement, il n’est pas nécessaire de connaı̂tre ces notions
pour comprendre le mécanisme d’une A.C.P. et donc pour l’utiliser correctement. Pour faciliter la
tâche du lecteur, nous avons choisi de présenter l’A.C.P. à travers son déroulement sur un exemple
fictif, très simple, et qui parlera à tout le monde : les notes obtenues par des élèves dans diverses
disciplines.
1.2.1
Présentation
Considérons les notes (de 0 à 20) obtenues par 9 élèves dans 4 disciplines (mathématiques,
physique, français, anglais) :
jean
alan
anni
moni
didi
andr
pier
brig
evel
MATH
6.00
8.00
6.00
14.50
14.00
11.00
5.50
13.00
9.00
PHYS
6.00
8.00
7.00
14.50
14.00
10.00
7.00
12.50
9.50
FRAN
5.00
8.00
11.00
15.50
12.00
5.50
14.00
8.50
12.50
ANGL
5.50
8.00
9.50
15.00
12.50
7.00
11.50
9.50
12.00
On sait comment analyser séparément chacune de ces 4 variables, soit en faisant un graphique,
soit en calculant des résumés numériques. Nous savons également qu’on peut regarder les liaisons entre 2 variables (par exemple mathématiques et français), soit en faisant un graphique
du type nuage de points, soit en calculant leur coefficient de corrélation linéaire, voire en
réalisant la régression de l’une sur l’autre (pour tout cela, se reporter au cours SDE).
Mais, comment faire une étude simultanée des 4 variables, ne serait-ce qu’en réalisant un graphique ? La difficulté vient de ce que les individus (les élèves) ne sont plus représentés dans un
7
1.2. EXEMPLE ILLUSTRATIF POUR L’A.C.P.
plan, espace de dimension 2, mais dans un espace de dimension 4 (chaque élève étant caractérisé
par les 4 notes qu’il a obtenues). L’objectif de l’Analyse en Composantes Principales est de revenir
à un espace de dimension réduite (par exemple, ici, 2) en déformant le moins possible la réalité. Il
s’agit donc d’obtenir le résumé le plus pertinent des données initiales.
Par analogie, on peut penser au photographe qui cherche le meilleur angle de vue pour transcrire
en dimension 2 (le plan de sa photo) une scène située en dimension 3 (notre espace ambiant). La
méthode mathématique va se charger de trouver l’“angle de vue” optimal, se substituant ainsi au
coup d’œil du photographe...
Nous présentons ci-dessous quelques résultats de l’A.C.P. réalisée, avec le logiciel SAS, sur ces
données. Cela va permettre de se rendre compte des possibilités de la méthode. On notera que
l’on s’est limité à 2 décimales dans les résultats, bien que les logiciels en fournissent, en général,
beaucoup plus (mais elles sont rarement utiles).
1.2.2
Résultats préliminaires
Le logiciel fournit tout d’abord la moyenne (mean), l’écart-type (standard deviation), le minimum et le maximum de chaque variable. Il s’agit donc, pour l’instant, d’études univariées.
Statistiques élémentaires
Variable
Moyenne
Ecart-type
Minimum
Maximum
MATH
PHYS
FRAN
ANGL
9.67
9.83
10.22
10.06
3.37
2.99
3.47
2.81
5.50
6.00
5.00
5.50
14.50
14.50
15.50
15.00
Notons au passage la grande homogénéité des 4 variables considérées : même ordre de grandeur
pour les moyennes, les écarts-types, les minima et les maxima.
Le tableau suivant est la matrice des corrélations. Elle donne les coefficients de corrélation
linéaire des variables prises deux à deux. C’est une succession d’analyses bivariées, constituant
un premier pas vers l’analyse multivariée.
Coefficients de corrélation
MATH
PHYS
FRAN
ANGL
MATH
PHYS
FRAN
ANGL
1.00
0.98
0.23
0.51
0.98
1.00
0.40
0.65
0.23
0.40
1.00
0.95
0.51
0.65
0.95
1.00
Remarquons que toutes les corrélations linéaires sont positives (ce qui signifie que toutes les
variables varient, en moyenne, dans le même sens), certaines étant très fortes (0.98 et 0.95), d’autres
moyennes (0.65 et 0.51), d’autres enfin plutôt faibles (0.40 et 0.23).
1.2.3
Résultats généraux
Continuons l’examen des sorties de cette analyse par l’étude de la matrice des variancescovariances, matrice de même nature que celle des corrélations, bien que moins “parlante” (nous
verrons néanmoins plus loin comment elle est utilisée concrètement). La diagonale de cette matrice fournit les variances des 4 variables considérées (on notera qu’au niveau des calculs, il est
plus commode de manipuler la variance que l’écart-type ; pour cette raison, dans de nombreuses
méthodes statistiques, comme l’A.C.P., on utilise la variance pour prendre en compte la dispersion
d’une variable quantitative).
Matrice des variances-covariances
8
CHAPITRE 1. ANALYSE EN COMPOSANTES PRINCIPALES
MATH
PHYS
FRAN
ANGL
MATH
PHYS
FRAN
ANGL
11.39
9.92
2.66
4.82
9.92
8.94
4.12
5.48
2.66
4.12
12.06
9.29
4.82
5.48
9.29
7.91
Les valeurs propres (éléments mathématiques dont la signification peut être laissée de côté
pour l’instant) données ci-dessous sont celles de la matrice des variances-covariances.
Valeurs propres ; variances expliquées
FACTEUR
VAL. PR.
1
2
3
4
PCT. VAR.
28.23
12.03
0.03
0.01
----40.30
PCT. CUM.
0.70
0.30
0.00
0.00
---1.00
0.70
1.00
1.00
1.00
Interprétation
Chaque ligne du tableau ci-dessus correspond à une variable virtuelle (voilà les facteurs !) dont
la colonne val. pr. (valeur propre) fournit la variance (en fait, chaque valeur propre représente la
variance du facteur correspondant). La colonne pct. var, ou pourcentage de variance, correspond
au pourcentage de variance de chaque ligne par rapport au total. La colonne pct. cum., ou
pourcentage cumulé, représente le cumul de ces pourcentages.
Additionnons maintenant les variances des 4 variables initiales (diagonale de la matrice des
variances-covariances) : 11.39 + 8.94 + 12.06 + 7.91 = 40.30. La dispersion totale des individus
considérés, en dimension 4, est ainsi égale à 40.30.
Additionnons par ailleurs les 4 valeurs propres obtenues : 28.23 + 12.03 + 0.03 + 0.01 = 40.30. Le
nuage de points en dimension 4 est toujours le même et sa dispersion globale n’a pas changé. C’est
la répartition de cette dispersion, selon les nouvelles variables que sont les facteurs, ou composantes
principales, qui se trouve modifiée : les 2 premiers facteurs restituent à eux seuls la quasi-totalité
de la dispersion du nuage, ce qui permet de négliger les 2 autres.
Par conséquent, les graphiques en dimension 2 présentés ci-dessous résument presque parfaitement la configuration réelle des données qui se trouvent en dimension 4 : l’objectif (résumé
pertinent des données en petite dimension) est donc atteint.
1.2.4
Résultats sur les variables
Le résultat fondamental concernant les variables est le tableau des corrélations variablesfacteurs. Il s’agit des coefficients de corrélation linéaire entre les variables initiales et les facteurs.
Ce sont ces corrélations qui vont permettre de donner un sens aux facteurs (de les interpréter).
Corrélations
FACTEURS
MATH
PHYS
FRAN
ANGL
-->
variables-facteurs
F1
F2
F3
F4
0.81
0.90
0.75
0.91
-0.58
-0.43
0.66
0.40
0.01
-0.03
-0.02
0.05
-0.02
0.02
-0.01
0.01
Les deux premières colonnes de ce tableau permettent, tout d’abord, de réaliser le graphique
des variables donné par la Fig. 1.1.
Mais, ces deux colonnes permettent également de donner une signification aux facteurs (donc
aux axes des graphiques).
9
1.2. EXEMPLE ILLUSTRATIF POUR L’A.C.P.
1.0
0.5
A
x
e
0.0
2
-0.5
-1.0
-1.0 -0.5 0.0
0.5
1.0
Axe 1
Fig. 1.1 – Représentation des variables
On notera que les deux dernières colonnes ne seront pas utilisées puisqu’on ne retient que deux
dimensions pour interpréter l’analyse.
Interprétation
Ainsi, on voit que le premier facteur est correlé positivement, et assez fortement, avec chacune
des 4 variables initiales : plus un élève obtient de bonnes notes dans chacune des 4 disciplines,
plus il a un score élevé sur l’axe 1 ; réciproquement, plus ses notes sont mauvaises, plus son score
est négatif ; l’axe 1 représente donc, en quelques sortes, le résultat global (dans l’ensemble des 4
disciplines considérées) des élèves. En ce qui concerne l’axe 2, il oppose, d’une part, le français
et l’anglais (corrélations positives), d’autre part, les mathématiques et la physique (corrélations
négatives). Il s’agit donc d’un axe d’opposition entre disciplines littéraires et disciplines scientifiques, surtout marqué par l’opposition entre le français et les mathématiques. Cette interprétation,
qui est déjà assez claire, peut être précisée avec graphiques et tableaux relatifs aux individus. Nous
les présentons maintenant.
1.2.5
Résultats sur les individus
Le tableau donné ci-dessous contient tous les résultats importants de l’A.C.P. sur les individus.
Coordonnées des individus ; contributions ; cosinus carrés
jean
alan
anni
moni
didi
andr
pier
brig
evel
POIDS
FACT1
FACT2
CONTG
CONT1
CONT2
COSCA1
COSCA2
0.11
0.11
0.11
0.11
0.11
0.11
0.11
0.11
0.11
-8.61
-3.88
-3.21
9.85
6.41
-3.03
-1.03
1.95
1.55
-1.41
-0.50
3.47
0.60
-2.05
-4.92
6.38
-4.20
2.63
20.99
4.22
6.17
26.86
12.48
9.22
11.51
5.93
2.63
29.19
5.92
4.06
38.19
16.15
3.62
0.41
1.50
0.95
1.83
0.23
11.11
0.33
3.87
22.37
37.56
16.29
6.41
0.97
0.98
0.46
1.00
0.91
0.28
0.03
0.18
0.25
0.03
0.02
0.54
0.00
0.09
0.72
0.97
0.82
0.73
On notera que chaque individu représente 1 élément sur 9, d’où un poids (une pondération) de
1/9 = 0.11, ce qui est fourni par la première colonne du tableau.
Les 2 colonnes suivantes fournissent les coordonnées des individus (les élèves) sur les deux
premiers axes (les facteurs) et ont donc permis de réaliser le graphique des individus. Ce
dernier (Fig. 1.2) permet de préciser la signification des axes, donc des facteurs.
10
CHAPITRE 1. ANALYSE EN COMPOSANTES PRINCIPALES
7
6
5
4
3
A
x
e
2
2
1
0
-1
-2
-3
-4
-5
-10 -8 -6 -4 -2
0
2
4
6
8
10
Axe 1
Fig. 1.2 – Représentation des individus
La signification et l’utilisation des dernières colonnes du tableau seront explicitées un peu plus
loin.
Interprétation
On confirme ainsi que l’axe 1 représente le résultat d’ensemble des élèves : si on prend leur
score – ou coordonnée – sur l’axe 1, on obtient le même classement que si on prend leur moyenne
générale. Par ailleurs, l’élève “le plus haut” sur le graphique, celui qui a la coordonnée la plus élevée
sur l’axe 2, est Pierre dont les résultats sont les plus contrastés en faveur des disciplines littéraires
(14 et 11.5 contre 7 et 5.5). C’est exactement le contraire pour André qui obtient la moyenne dans
les disciplines scientifiques (11 et 10) mais des résultats très faibles dans les disciplines littéraires (7
et 5.5). On notera que Monique et Alain ont un score voisin de 0 sur l’axe 2 car ils ont des résultats
très homogènes dans les 4 disciplines (mais à des niveaux très distincts, ce qu’a déjà révélé l’axe
1). L’axe 2 oppose bien les “littéraires” (en haut) aux “scientifiques” (en bas).
Les 3 colonnes suivantes du tableau fournissent des contributions des individus à diverses
dispersions : cont1 et cont2 donnent les contributions (en pourcentages) des individus à la
variance selon les axes 1 et 2 (rappelons que l’on utilise ici la variance pour mesurer la dispersion) ;
contg donne les contributions générales, c’est-à-dire à la dispersion en dimension 4 (il s’agit de
ce que l’on appelle l’inertie du nuage des élèves ; la notion d’inertie généralise celle de variance en
dimension quelconque, la variance étant toujours relative à une seule variable). Ces contributions
sont fournies en pourcentages (chaque colonne somme à 100) et permettent de repérer les individus
les plus importants au niveau de chaque axe (ou du nuage en dimension 4). Elles servent en général
à affiner l’interprétation des résultats de l’analyse.
Ainsi, par exemple, la variance de l’axe 1 vaut 28.23 (première valeur propre). On peut la
retrouver en utilisant la formule de définition de la variance :
1X 1 2
(c )
V ar(C ) =
9 i=1 i
9
1
(il faut noter que, dans une A.C.P., les variables étant centrées, il en va de même pour les facteurs ;
ainsi, la moyenne de C 1 est nulle et n’apparaı̂t pas dans la formule de la variance). La coordonnée
de Jean (le premier individu du fichier) sur l’axe 1 vaut c11 = −8.61 ; sa contribution est donc :
1
2
9 (−8.61)
28.23
× 100 = 29.19 %.
À lui seul, cet individu représente près de 30 % de la variance : il est prépondérant (au même titre
que Monique) dans la définition de l’axe 1 ; cela provient du fait qu’il a le résultat le plus faible,
Monique ayant, à l’opposé, le résultat le meilleur.
Enfin, les 2 dernières colonnes du tableau sont des cosinus carrés qui fournissent la qualité de
la représentation de chaque individu sur chaque axe. Ces quantités s’additionnent axe par axe, de
1.3. PRÉSENTATION GÉNÉRALE DE LA MÉTHODE
11
sorte que, en dimension 2, Évelyne est représentée à 98 % (0.25 + 0.73), tandis que les 8 autres
individus le sont à 100 %.
Précisons un peu cette notion. Lorsqu’on considère les données initiales, chaque individu (chaque
élève) est représenté par un vecteur dans un espace de dimension 4 (les éléments – ou coordonnées
– de ce vecteur sont les notes obtenues dans les 4 disciplines). Lorsqu’on résume les données en
dimension 2, et donc qu’on les représente dans un plan, chaque individu est alors représenté par
la projection du vecteur initial sur le plan en question. Le cosinus carré relativement aux deux
premières dimensions (par exemple, pour Évelyne, 0.98 ou 98 %) est celui de l’angle formé par
le vecteur initial et sa projection dans le plan. Plus le vecteur initial est proche du plan, plus
l’angle en question est petit et plus le cosinus, et son carré, sont proches de 1 (ou de 100 %) :
la représentation est alors très bonne. Au contraire, plus le vecteur initial est loin du plan, plus
l’angle en question est grand (proche de 90 degrés) et plus le cosinus, et son carré, sont proches
de 0 (ou de 0 %) : la représentation est alors très mauvaise. On utilise les carrés des cosinus parce
qu’ils s’additionnent suivant les différentes dimensions, contrairement à leurs racines.
1.3
Présentation générale de la méthode
Dans ce paragraphe, on expose de façon plus générale ce qu’est l’Analyse en Composantes
Principales. Nous sommes donc amenés à faire quelques développements techniques rendant ce
paragraphe plus délicat à suivre que le précédent. Une parfaite assimilation de son contenu n’est pas
indispensable pour le lecteur, surtout s’il n’est que peu familiarisé avec les aspects mathématiques
abordés dans le point 1.3.1. Toutefois, une bonne compréhension des idées directrices de la méthode
nous semble nécessaire.
Le principe général de l’A.C.P. est de réduire la dimension des données initiales (qui est p
si l’on considère p variables quantitatives), en remplaçant les p variables initiales par q facteurs
appropriés (q < p).
Les données, toujours centrées, doivent en plus être réduites lorsque les variables sont hétérogènes. Les q facteurs cherchés sont des moyennes pondérées des variables initiales. Leur choix
se fait en maximisant la dispersion des individus selon ces facteurs (autrement dit, les facteurs
retenus doivent être de variance maximum). Des techniques mathématiques appropiées permettent
de réaliser tout cela de façon automatique et optimale.
Lorqu’on a obtenu les résultats d’une A.C.P., il faut être capable de les interpréter. Pour cela,
on dispose de graphiques, à la fois pour les variables et pour les individus, ainsi que d’indicateurs
numériques, appelés aides à l’interprétation. Ces indicateurs permettent, en association avec les
graphiques, de comprendre les éléments clés de la structure des données initiales, et donc d’en faire
une interprétation correcte.
Le premier point ci-desous est consacré aux aspects techniques, mathématiques, de l’A.C.P.
Autrement dit, on essaye d’y expliquer ce que contient la “boı̂te noire” qu’est cette méthode. Le
second point décrit les résultats obtenus, autrement dit les sorties de la “boı̂te noire”, et les lignes
directrices que l’on doit suivre pour les interpréter correctement.
1.3.1
Les principes
Les données à analyser
On considère p variables quantitatives, notées X 1 , . . . , X j , . . . , X p , observées sur n individus,
notés 1, . . . , i, . . . , n. L’observation de la variable X j sur l’individu i, X j (i), sera plus simplement
notée xji . Les données se présentent ainsi sous la forme d’un tableau du type suivant :
12
CHAPITRE 1. ANALYSE EN COMPOSANTES PRINCIPALES
X1
1
..
.
i
..
.
n
x11
..
.
x1i
..
.
x1n
···
Xj
···
···
xj1
···
···
..
.
xji
..
.
xjn
···
···
···
Xp
xp1
..
.
xpi
..
.
xpn
Noter que le nombre p de variables d’une A.C.P. vaut au moins 2 ; le plus souvent, p est de
l’ordre de 10 (ou de quelques dizaines). De son côté, le nombre n d’individus est au moins égal à
p ; le plus souvent, il vaut plusieurs dizaines (voire plusieurs centaines).
Le problème à traiter
On cherche à extraire l’information pertinente contenue dans le tableau des données. Pour cela,
on va le résumer en extrayant l’essentiel de sa structure en vue de faire des représentations
graphiques à la fois fidèles aux données initiales et commodes à interpréter. Ces représentations
devront se faire en dimension réduite : le nuage initial, situé dans un espace de dimension p (puisqu’on dispose, au départ, de p variables quantitatives), sera résumé (réduit, projeté) en dimension
q (grâce à l’obtention de q facteurs : voir la définition de ce terme plus bas). Le nombre q de
facteurs retenus sera compris entre 1 et p ; le plus souvent, il vaudra 2 ou 3.
Le critère utilisé
Les q facteurs que l’on va définir, pour résumer l’information contenue dans le tableau initial,
doivent maximiser la dispersion du nuage des observations. Rappelons que la dispersion d’une
variable quantitative se mesure, en général, par sa variance (ou par son écart-type, racine carrée
positive de la variance). Plus généralement, lorsqu’on dispose d’un nuage d’observations en plusieurs dimensions, on parle d’inertie (somme des variances des variables considérées). Le principe
de l’A.C.P. consiste donc à rechercher, pour une dimension q restreinte (2 ou 3), les q facteurs
maximisant l’inertie du nuage lorsqu’on le projette (le résume) dans le sous-espace de dimension q
engendré par ces facteurs : en passant de la dimension initiale p à la dimension réduite q, on perd,
obligatoirement, de la dispersion, de l’inertie. L’idée est d’en perdre le moins possible en choisissant
convenablement les facteurs.
La méthode
On cherche des combinaisons linéaires des variables initiales, appelées facteurs, ou encore
composantes principales, s’écrivant sous la forme suivante (penser à la moyenne pondérée des
notes d’un groupe d’élèves à l’issue du bac ; c’est la même chose, en plus général) :
C 1 = a11 X 1 + a21 X 2 + · · · + ap1 X p
C 2 = a12 X 1 + a22 X 2 + · · · + ap2 X p
...
telles que :
C 1 doit contenir un maximum d’“information”, c’est-à-dire disperser le plus possible les individus.
L’idée est la suivante : si on dispose d’un nuage de points dans le plan (autrement dit, en
dimension p = 2) et qu’on souhaite le projeter sur une droite (donc en dimension q = 1), la
droite la plus “fidèle” à la configuration initiale est celle qui rend maximum la dispersion –
la variance – du nuage après sa projection (essayer de faire un dessin).
Le critère choisi est, de façon
var(C 1 ) maximum. Pour des raisons techniques, on
Ppnaturelle,
j 2
doit rajouter la contrainte j=1 (a1 ) = 1.
On fait la même chose pour C 2 , en imposant, en plus, que C 1 et C 2 soient non correlées (pour
que l’information apportée par C 2 soit complètement nouvelle par rapport à l’information
contenue dans C 1 ).
1.3. PRÉSENTATION GÉNÉRALE DE LA MÉTHODE
13
Et ainsi de suite . . .
On pourra ainsi se contenter d’un petit nombre de facteurs (2 ou 3) pour réaliser des graphiques
faciles à lire et à interpréter.
Centrage ou réduction des données ?
Tout d’abord, il faut noter que le centrage des variables d’un tableau soumis à une A.C.P.
(on retranche à chaque observation la moyenne de la variable correspondante) ne modifie en rien
les résultats de l’A.C.P. En effet, on utilise comme critère la maximisation de la dispersion (de
l’inertie) et la dispersion d’une variable n’est pas modifiée par son centrage. Comme il est plus
commode de travailler avec des données centrées (les expressions manipulées sont plus simples à
écrire), les A.C.P. sont systématiquement réalisées après centrage de chaque variable.
Dans la pratique, on peut ainsi faire soit une A.C.P. centrée (les variables X j considérées
sont seulement centrées), soit une A.C.P. réduite (les variables sont centrées et réduites : on
divise chaque donnée centrée par l’écart-type de la variable correspondante).
On recommande l’A.C.P. seulement centrée lorsque les variables sont homogènes : même
signification, même unité de mesure, même ordre de grandeur... C’est le cas de l’exemple traité
au paragraphe précédent. Au contraire, on recommande l’A.C.P. réduite lorsque les variables sont
hétérogènes, c’est-à-dire dans les autres cas.
Les outils mathématiques (pour lecteur averti !)
Il s’agit des outils de l’algèbre linéaire, essentiellement les notions de vecteurs propres et de
valeurs propres. Notons S la matrice p × p des variances-covariances des variables X j et R la
matrice p × p de leurs corrélations linéaires. Dans une A.C.P. seulement centrée, C 1 est le vecteur
propre normé de S associé à la plus grande valeur propre (SC 1 = λ1 C 1 et kC 1 k = 1), C 2 est le
vecteur propre normé de S associé à la seconde plus grande valeur propre, et ainsi de suite. De plus,
les différents vecteurs C k sont orthogonaux (à la non corrélation des variables centrées correspond
l’orthogonalité des vecteurs qui les représentent). Dans une A.C.P. réduite, les C k sont les vecteurs
propres orthonormés de la matrice R.
Commentaires
On notera que les différents calculs permettant d’obtenir les résultats d’une A.C.P. (définition
des facteurs, calcul de leur variance – les valeurs propres –, détermination des corrélations variablesfacteurs, des coordonnées des individus...) ne sont en général pas réalisables “à la main” (pas plus
qu’avec une calculette d’ailleurs). Seul l’usage d’un ordinateur et d’un logiciel spécialisé, utilisant
un algorithme approprié, peut permettre d’obtenir ces résultats.
1.3.2
Les résultats
Résultats généraux
Avant d’analyser les résultats proprement dits d’une A.C.P., il est bon d’en regarder les
résultats préliminaires. Tout d’abord, pour chaque variable considérée, son minimum, son maximum, sa moyenne et son écart-type. Cela permet d’avoir une première connaissance des données
étudiées et, le cas échéant, de décider si l’A.C.P. doit être réduite on non.
Il est également intéressant d’étudier la matrice des corrélations entre variables initiales,
dans la mesure où elle permet d’avoir une première idée de la structure de corrélation entre ces
variables.
Ensuite, le premier tableau de résultats à regarder est le tableau des pourcentages d’inertie
correspondants aux différentes valeurs propres, contenant aussi les pourcentages cumulés associés :
ce tableau va permettre de choisir la dimension q retenue pour interpréter l’A.C.P.
Résultats sur les variables
La technique de l’A.C.P. permet de calculer les corrélations variables-facteurs, autrement
dit les coefficients de corrélation linéaire entre chaque variable initiale et chaque facteur retenu.
14
CHAPITRE 1. ANALYSE EN COMPOSANTES PRINCIPALES
Dans un premier temps, ces quantités permettent un début d’interprétation des facteurs, dans
la mesure où elles indiquent comment ils sont liés aux variables initiales. À ce stade, il est recommandé d’utiliser aussi la matrice des corrélations entre variables initiales, pour compléter cette
interprétation.
Dans un second temps, les corrélations variables-facteurs permettent de réaliser les graphiques
des variables dont l’étude détaillée conduit à préciser la signification des axes, c’est-à-dire des
facteurs. On doit considérer uniquement le graphique selon les axes 1 et 2 si l’on a choisi q = 2 ;
on doit au contraire considérer les 3 graphiques selon les axes 1 et 2, 1 et 3, 2 et 3, si l’on a choisi
q = 3.
Résultats sur les individus
Là encore, la technique de l’A.C.P. permet de calculer les coordonnées des individus sur les
axes, leurs contributions à la dispersion selon chacun de ces axes (ainsi que leurs contributions
à la dispersion globale, selon les p dimensions) et les cosinus carrés.
Les coordonnées permettent de réaliser les graphiques des individus (1 ou 3 graphiques,
selon que l’on a choisi q = 2 ou q = 3). Concernant ces graphiques, il faut tout d’abord noter que
leurs axes s’interprètent de la même manière que les axes des graphiques des variables : les uns
comme les autres sont associés aux facteurs.
En associant à ces graphiques les contributions des individus aux axes, on peut affiner l’interprétation de ces axes : chacun d’entre eux est surtout déterminé par les quelques individus
présentant les plus fortes contributions ; ce sont en général ceux situés en position extrême sur
l’axe, c’est-à-dire y ayant les plus fortes coordonnées, soit positives soit négatives. Bien sûr, avant
d’utiliser un tel individu pour affiner l’interprétation d’un axe, il faut s’assurer que cet individu est
bien représenté sur cet axe, autrement dit que le cosinus carré correspondant est grand (proche de
1).
Chapitre 2
Analyse Factorielle des
Correspondances
L’Analyse Factorielle des Correspondances (A.F.C.) est une méthode factorielle de Statistique
Descriptive Multidimensionnelle (voir la première section du chapitre 1).
Son objectif est d’analyser la liaison existant entre deux variables qualitatives (si on dispose
de plus de deux variables qualitatives, on aura recours à l’Analyse des Correspondances Multiples,
méthode exposée dans le chapitre 3). Ainsi, avant de mettre en œuvre une A.F.C., il faut s’assurer
que cette liaison existe bien. Pour cela, il existe des graphiques (diagrammes en barres de profils) et
des caractéristiques numériques (indice khi-deux et ses dérivés) permettant de mettre en évidence
une telle liaison lorsqu’elle existe (voir le cours de statistique descriptive élémentaire, ici noté
SDE). On notera qu’on dispose aussi d’un test statistique, le test du khi-deux d’indépendance, basé
sur l’indice khi-deux, permettant de tester s’il existe ou non une liaison significative entre deux
variables qualitatives. Ce test est très simple à mettre en œuvre mais ne relève pas de la statistique
descriptive.
L’A.F.C. est, en fait, une Analyse en Composantes Principales (A.C.P. ; voir le chapitre 1)
particulière, réalisée sur les profils associés à la table de contingence croisant les deux variables
considérées. Plus précisemment, l’A.F.C. consiste à réaliser une A.C.P. sur les profils-lignes et une
autre sur les profils-colonnes. Les résultats graphiques de ces deux analyses sont ensuite superposés
pour produire un graphique (éventuellement plusieurs) de type nuage de points, dans lequel sont
réunies les modalités des deux variables considérées, ce qui permet d’étudier les correspondances
entre ces modalités, autrement dit la liaison entre les deux variables.
2.1
Principe général de l’A.F.C.
L’A.F.C. étant une A.C.P. particulière, nous ne donnons pas trop de détails techniques sur cette
méthode. On en donne juste les grandes lignes dans ce paragraphe. Ensuite, dans le paragraphe 2,
on illustre en détails la méthode sur un exemple.
2.1.1
Les données
On considère deux variables qualitatives : X à r modalités notées x1 , . . . , xℓ , . . . , xr ; Y à c
modalités notées y1 , . . . , yh , . . . , yc ; on les observe simultanément sur n individus (ayant ici obliga1
toirement tous le même poids ). On sait que ces données peuvent être présentées sous la forme
n
d’une table de contingence, ou tableau à double entrée :
15
16
CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES
x1
..
.
xℓ
..
.
xr
sommes
y1
n11
..
.
nℓ1
..
.
nr1
n+1
···
···
···
···
···
yh
n1h
..
.
nℓh
..
.
nrh
n+h
···
···
···
···
···
yc
n1c
..
.
nℓc
..
.
nrc
n+c
sommes
n1+
..
.
nℓ+
..
.
nr+
n
Des précisions sur une telle table de contingence se trouvent dans le chapitre 3 du cours SDE.
En particulier, on y trouve les définitions des effectifs conjoints (les nℓh ) et des effectifs marginaux
(les nℓ+ et les n+h ).
2.1.2
Le problème
On suppose qu’il existe une liaison entre X et Y , et on cherche à décrire, à expliciter, cette
liaison.
Pour cela, on se base sur l’étude des profils-lignes et des profils-colonnes. Rappelons la définition
du ℓième profil-ligne
nℓh
nℓc
nℓ1
{
,...,
,...,
},
nℓ+
nℓ+
nℓ+
et celle du hième profil-colonne
{
nℓh
nrh
n1h
,...,
,...,
}.
n+h
n+h
n+h
Rappelons encore que la liaison entre les deux variables est d’autant plus grande que les profils
(lignes ou colonnes) sont différents. C’est donc par l’étude des ressemblances et des différences
entre profils-lignes et entre profils-colonnes que l’on peut analyser la liaison entre les deux variables.
Cette analyse va se faire au moyen de deux Analyses en Composantes Principales (A.C.P.) un peu
particulières.
2.1.3
La méthode
On réalise l’A.C.P. du tableau des profils-lignes (les individus de cette A.C.P. sont les lignes
de la table de contingence, c’est-à-dire les modalités de X) et l’on fait la représentation graphique
des individus, donc des modalités de X (dans cette A.C.P. particulière, on ne s’intéresse pas au
graphique des variables). On a un seul graphique si on ne conserve que deux dimensions, plusieurs
dans le cas contraire.
On réalise d’autre part l’A.C.P. du tableau des profils-colonnes (les individus de cette A.C.P.
sont maintenant les colonnes de la table de contingence, c’est-à-dire les modalités de Y ) et l’on fait
la représentation graphique des individus, donc des modalités de Y .
On montre que ces deux A.C.P. se correspondent (ce qui est normal, puisque leurs données
sont extraites de la même table de contingence) et qu’il est donc légitime de superposer les deux
représentations graphiques. On obtient ainsi un graphique de type nuage de points (ou un ensemble
de graphiques si on conserve plus de deux dimensions), représentant à la fois les modalités de X
et celles de Y .
C’est l’interprétation de ce(s) graphique(s), pour laquelle on dispose d’un certain nombre d’indicateurs, qui permet d’expliciter la liaison entre les deux variables considérées. En particulier, on
s’attache à étudier les correspondances entre les modalités de X et celles de Y , d’où le nom de la
méthode.
Signalons que la distance entre profils (lignes ou colonnes), utilisée pour réaliser chaque A.C.P.,
est un peu particulière : ce n’est pas la distance usuelle, mais la distance dite “du khi-deux”. Elle
est expliquée dans le point 2.2.2, avec la notion d’inertie.
17
2.2. EXEMPLE ILLUSTRATIF
2.2
Exemple illustratif
L’exemple considéré dans ce paragraphe est relatif aux exploitations agricoles de la région MidiPyrénées. Les données proviennent des “Tableaux Économiques de Midi-Pyrénées”, publiés par la
Direction Régionale de Toulouse de l’INSEE, en 1996 (données relatives à l’année 1993 ; chiffres
arrondis à la dizaine près).
2.2.1
Les données
Elles sont reproduites ci-dessous.
Exemple 1 Répartition des exploitations agricoles de la région Midi-Pyrénées selon le département et la S.A.U. (en 1993).
ARIE
AVER
H.G.
GERS
LOT
H.P.
TARN
T.G.
INF05
870
820
2290
1650
1940
2110
1770
1740
S0510
330
1260
1070
890
1130
1170
820
920
S1020
730
2460
1420
1350
1750
1640
1260
1560
S2035
680
3330
1830
2540
1660
1500
2010
2210
S3550
470
2170
1260
2090
770
550
1680
990
SUP50
890
2960
2330
3230
1140
430
2090
1240
Les 73 000 exploitations agricoles de la région Midi-Pyrénées ont été ventilées dans cette table
de contingence selon le département (en lignes, 8 modalités) et la S.A.U. (Surface Agricole Utilisée,
en colonnes, 6 classes).
Codes des départements : ARIE = Ariège ; AVER = Aveyron ; H.G. = Haute-Garonne ; GERS
= Gers ; LOT = Lot ; H.P. = Hautes-Pyrénées ; TARN = Tarn ; T.G. = Tarn-et-Garonne.
Codes des classes de S.A.U. : INF05 = moins de 5 hectares ; S0510 = entre 5 et 10 hectares... ;
SUP50 = plus de 50 hectares.
On notera que la deuxième variable n’est pas qualitative, mais quantitative continue. En fait, la
méthode la considère comme qualitative, ce qui signifie que l’ordre naturel sur les classes n’est pas
du tout pris en compte. On pourra toujours essayer de retrouver cet ordre lorsqu’on interprètera
le graphique, mais ce sera un complément par rapport à l’A.F.C. proprement dite.
Remarque 1 En statistique, on parle en général de variable catégorielle pour désigner soit une
variable qualitative (nominale ou ordinale), soit une variable quantitative (discrète ou continue),
lorsque les modalités, valeurs ou classes sont considérées comme des catégories, sans aucune structure (structure d’ordre entre les modalités ou les classes, structure numérique – celle de l’ensemble des nombres réels – entre les valeurs). Toute variable prise en compte dans une A.F.C.
est systématiquement considérée comme catégorielle. C’est à l’utilisateur de regarder ensuite, sur
le(s) graphique(s) obtenu(s), si la structure initiale, lorqu’elle existe, peut être, d’une façon ou
d’une autre, retrouvée.
2.2.2
L’A.F.C. des données de l’exemple 1 avec le logiciel SAS
Nous présentons et commentons ci-après les principaux résultats de l’A.F.C. des données de
l’exemple 1 mise en œuvre avec le logiciel SAS. On notera que ces résultats sont comparables à
ceux fournis par la plupart des logiciels de statistique (en particulier SPSS, S-plus ou R).
Le tableau initial
Le premier résultat fourni par le logiciel est la table initiale, avec ses marges.
18
CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES
Contingency Table
| INF05
S0510
S1020
S2035
S3550
SUP50
|
Sum
---------------------------------------------------------------------------ARIE
|
870
330
730
680
470
890
|
3970
AVER
|
820
1260
2460
3330
2170
2960
| 13000
H.G.
|
2290
1070
1420
1830
1260
2330
| 10200
GERS
|
1650
890
1350
2540
2090
3230
| 11750
LOT
|
1940
1130
1750
1660
770
1140
|
8390
H.P.
|
2110
1170
1640
1500
550
430
|
7400
TARN
|
1770
820
1260
2010
1680
2090
|
9630
T.G.
|
1740
920
1560
2210
990
1240
|
8660
---------------------------------------------------------------------------Sum
| 13190
7590
12170
15760
9980
14310
| 73000
Les contributions au khi-deux
Le second résultat est la valeur de l’indice khi-deux (5375.49) qu’on obtient en faisant la somme,
sur l’ensemble des cellules – des cases – de la table de contingence, des quantités
nℓ+ n+h 2
(nℓh −
)
n
nℓ+ n+h
n
(voir le chapitre 3 du cours SDE).
En fait, le tableau des contributions au khi-deux fournit les quantités ci-dessus dans chaque cellule, ce qui permet de déceler facilement les cellules (autrement dit les croisements d’un département
et d’une surface) contribuant le plus au khi-deux, donc à la définition de la liaison.
Contributions to the Total Chi-Square Statistic
|
INF05
S0510
S1020
S2035
S3550
SUP50
|
Sum
-----------------------------------------------------------------------------ARIE |
32.50
16.60
7.02
36.59
9.75
16.05
|
118.51
AVER | 995.17
6.21
39.54
97.62
86.79
66.49
| 1291.82
H.G. | 108.42
0.08
46.26
62.87
12.97
54.64
|
285.24
GERS | 105.40
90.05
189.25
0.00
145.61
372.82
|
903.14
LOT
| 118.62
76.11
88.22
12.64
123.92
154.86
|
574.38
H.P. | 446.82
208.58
133.83
5.96
210.68
718.07
| 1723.94
TARN |
0.52
32.81
74.33
2.29
100.34
21.67
|
231.96
T.G. |
19.63
0.43
9.36
61.97
31.77
123.35
|
246.51
-----------------------------------------------------------------------------Sum
| 1827.07
430.88
587.82
279.95
721.82
1527.95
| 5375.49
Considérons, par exemple, la cellule (1,1), soit ARIE x INF05 ; on obtient :
[870 − (3970 × 13190)/73000]2
≃ 32.50.
(3970 × 13190)/73000
Cette valeur est relativement faible (par rapport aux autres valeurs du tableau), ce qui signifie que
les très petites exploitations (moins de 5 hectares) n’ont rien de très particulier en Ariège.
Considérons maintenant la cellule (2,1), soit AVER x INF05 ; on obtient :
[820 − (13000 × 13190)/73000]2
≃ 995.17.
(13000 × 13190)/73000
Cette valeur est la plus grande du tableau des contributions, ce qui signifie qu’en Aveyron, les très
petites exploitations présentent une particularité très marquée : elles sont soit très nombreuses,
soit très peu nombreuses (le carré intervenant dans l’expression du khi-deux supprime le signe et ne
permet pas de dire quelle est celle des deux situations qui se présente). C’est le tableau des profilslignes, ci-dessous, qui va permettre de lever cette ambiguı̈té : alors que ce type d’exploitations
représente entre 14 % et 29 % de l’ensemble des exploitations dans les autres départements, elles
ne sont que 6,3 % en Aveyron, autrement dit très peu nombreuses. Ce phénomène est un élément
constitutif très important de la liaison existant entre les départements et les surfaces.
2.2. EXEMPLE ILLUSTRATIF
19
Les tableaux de profils
Il s’agit des deux tableaux donnant les profils-lignes pour le premier et les profils-colonnes pour
le second. Le logiciel SAS ne les exprime pas en pourcentages, mais en fréquences, de sorte que les
sommes (en lignes pour le premier et en colonnes pour le second) valent 1.
Row Profiles
|
INF05
S0510
S1020
S2035
S3550
SUP50
-----------------------------------------------------------------------------ARIE | 0.219144
0.083123
0.183879
0.171285
0.118388
0.224181 --> 1
AVER | 0.063077
0.096923
0.189231
0.256154
0.166923
0.227692 --> 1
H.G. | 0.224510
0.104902
0.139216
0.179412
0.123529
0.228431 --> 1
GERS | 0.140426
0.075745
0.114894
0.216170
0.177872
0.274894 --> 1
LOT | 0.231228
0.134684
0.208582
0.197855
0.091776
0.135876 --> 1
H.P. | 0.285135
0.158108
0.221622
0.202703
0.074324
0.058108 --> 1
TARN | 0.183801
0.085151
0.130841
0.208723
0.174455
0.217030 --> 1
T.G. | 0.200924
0.106236
0.180139
0.255196
0.114319
0.143187 --> 1
On a déjà signalé plus haut l’intérêt des profils dans l’analyse de la table de contingence. Il
est clair que ce sont les variations de profils, d’une ligne à l’autre ou d’une colonne à l’autre, qui
définissent la liaison entre les deux variables considérées. Elles doivent donc nécessairement être
prises en compte dans l’analyse de cette liaison.
Column Profiles
|
INF05
S0510
S1020
S2035
S3550
SUP50
-----------------------------------------------------------------------ARIE | 0.065959
0.043478
0.059984
0.043147
0.047094
0.062194
AVER | 0.062168
0.166008
0.202136
0.211294
0.217435
0.206848
H.G. | 0.173616
0.140975
0.116680
0.116117
0.126253
0.162823
GERS | 0.125095
0.117260
0.110929
0.161168
0.209419
0.225716
LOT
| 0.147081
0.148880
0.143796
0.105330
0.077154
0.079665
H.P. | 0.159970
0.154150
0.134758
0.095178
0.055110
0.030049
TARN | 0.134193
0.108037
0.103533
0.127538
0.168337
0.146052
T.G. | 0.131918
0.121212
0.128184
0.140228
0.099198
0.086653
-----------------------------------------------------------------------TOTAL | 1
1
1
1
1
1
La notion d’inertie en A.F.C.
Le tableau qui suit dans les sorties du logiciel SAS est relatif à la notion d’inertie. Avant de le
détailler, nous allons essayer de préciser cette notion dans le contexte particulier de l’A.F.C.
Rappelons tout d’abord que la notion d’inertie, ou de dispersion, est fondamentale en statistique. Elle se ramène à la notion de variance dans le cas unidimensionnel (voir le chapitre 2 du cours
SDE) et a déjà joué un rôle central en A.C.P. (voir le chapitre 1). C’est encore le cas en A.F.C. où
son expression a une signification particulière (elle représente l’indicateur phi-deux, c’est-à-dire le
khi-deux divisé par n, le nombre total d’observations).
Tout ceci est expliqué ci-dessous, le plus simplement possible... Malheureusement pour les lecteurs non mathématiciens, ces explications ne peuvent contourner une certaine technicité mathématique.
Que les lecteurs rebutés par ce qui suit ne s’inquiètent pas et retiennent essentiellement le
dernier alinéa.
Un profil-ligne est un élément comportant c termes (c est le nombre de colonnes de la table
analysée) dont la somme vaut 1. D’un point de vue mathématique, on peut donc représenter chaque
profil-ligne par un vecteur dans un espace vectoriel de dimension c (en pratique, on considère IR c
muni de la base canonique). Les coordonnées de ce vecteur sont les termes du profil-ligne correspondant. On obtient ainsi, dans l’espace considéré, un nuage de r vecteurs (r est le nombre de lignes
de la table analysée) dont on peut déterminer le barycentre, c’est-à-dire le point moyen (chacune
des coordonnées du barycentre est la moyenne pondérée des coordonnées correspondantes de l’ensemble des profils-lignes ; les pondérations sont les effectifs marginaux des lignes). Le barycentre
20
CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES
est le vecteur représentant le profil-ligne moyen, autrement dit, dans notre exemple, la répartition
des exploitations agricoles selon les classes de S.A.U. dans l’ensemble de la région Midi-Pyrénées,
tous départements confondus.
On peut faire le même raisonnement sur les profils-colonnes. L’espace considéré est alors de
dimension r, on obtient dans cet espace un nuage de c points dont on peut déterminer le barycentre, représentant le profil-colonne moyen, autrement dit, dans notre exemple, la répartition des
exploitations agricoles selon les départements de la région Midi-Pyrénées, indépendamment de la
S.A.U.
Dans chacun des espaces vectoriels considérés ci-dessus, on peut déterminer l’inertie du nuage
de points par rapport à son barycentre. C’est la somme pondérée des carrés des distances des
profils à leur barycentre (formule analogue à celle définissant la variance). Les pondérations prises
en compte sont encore les effectifs marginaux (des lignes ou des colonnes selon le cas). Quant aux
distances, ce sont les distances définies dans chacun des deux espaces vectoriels considérés (qui
sont donc, d’un point de vue mathématique, des espaces euclidiens). En fait, il ne s’agit pas de la
distance usuelle, mais d’une distance spécifique à l’A.F.C., appelée distance, ou encore métrique,
du khi-deux. Elle est construite à partir des inverses des fréquences des colonnes (dans IR c ) et de
celles des lignes (dans IRr ).
On peut alors vérifier que l’inertie du nuage des profils-lignes, dans l’espace de dimension c, et
celle du nuage des profils-colonnes, dans l’espace de dimension r, sont égales et ont pour expression
la valeur de l’indicateur phi-deux calculé sur la table de contingence considérée.
Les pourcentages d’inertie des différentes dimensions
Comme en A.C.P., le tableau donnant la part d’inertie restituée par chaque dimension (chaque
axe) permet de connaı̂tre la qualité globale des résultats (en particulier des graphiques) lorqu’on
conserve seulement deux ou trois dimensions.
Sur l’exemple des exploitations agricoles, ce tableau est donné ci-dessous.
Inertia and Chi-Square Decomposition
Singular
Values
Principal
Inertias
ChiSquares
0.23455
0.12210
0.04894
0.02792
0.02328
0.05501
0.01491
0.00239
0.00078
0.00054
------0.07364
4015.91
1088.29
174.83
56.90
39.55
------5375.49
Percents
74.71
20.25
3.25
1.06
0.74
15
30
45
60
75
----+----+----+----+----+--*************************
*******
*
Les inerties totales des deux nuages (celui des profils-lignes et celui des profils-colonnes) sont
identiques et se décomposent de la même manière selon les différents axes factoriels (ou axes
principaux, ou axes principaux d’inertie) obtenus dans l’analyse.
Il n’y a donc qu’un seul tableau de résultats qui, dans la colonne “Principal Inertias” (inerties
principales, c’est-à-dire selon les axes principaux), donne les valeurs de l’inertie restituée par chaque
axe (c’est l’inertie du nuage, celui des profils-lignes ou celui des profils-colonnes, projeté sur cet
axe). La somme de ces inerties est égale au phi-deux (ici 0.07364).
Comme en A.C.P., le premier axe est celui qui restitue la plus grande quantité d’inertie ; le
second est celui qui, tout en étant orthogonal au premier (au sens de la métrique du khi-deux), en
restitue aussi le maximum ; et ainsi de suite.
Les valeurs singulières (“Singular Values”), racines carrées positives des inerties principales,
n’ont pas d’intérêt pratique et ne sont pas utilisées.
Les quantités figurant dans la colonne “Chi-Squares” (khi-deux) sont égales aux inerties principales multipliées par l’effectif de la table de contingence. C’est la raison pour laquelle leur somme
est égale au khi-deux (on rappelle que χ2 = n × Φ2 ). On peut encore considérer que chaque axe de
l’analyse restitue une part du khi-deux, donc de la liaison entre les deux variables initiales, la plus
importante pour l’axe 1 et ainsi de suite.
2.2. EXEMPLE ILLUSTRATIF
21
Les pourcentages (“Percents”) représentent les pourcentages du khi-deux restitués par chaque
axe. Comme en A.C.P., on se sert des pourcentages cumulés pour choisir la dimension à retenir.
Dans notre exemple, les deux premières dimensions représentent quasiment 95 % de l’inertie totale.
On ne retiendra donc que deux dimensions, ce qui permettra de ne réaliser qu’un seul graphique.
Remarque 2 Lorqu’on réalise l’A.F.C. d’une table de contingence comportant r lignes et c colonnes, avec par exemple r ≥ c, la dimension de l’espace dans lequel se trouve l’ensemble des
résultats est c − 1 (si l’on a r ≤ c, cette dimension est r − 1 ; de façon générale, elle vaut
inf(r − 1, c − 1)). Ainsi, dans l’exemple considéré, on a r = 8 et c = 6, ce qui explique que le
tableau ci-dessus fournisse seulement 5 dimensions. La diminution de un par rapport à la plus petite des deux dimensions provient du fait que la méthode opère sur des pourcentages dont le dernier
peut toujours se déduire des précédents.
Les coordonnées des lignes et des colonnes
Ce sont ces coordonnées qui permettent de réaliser le graphique représentant simultanément,
selon les dimensions 1 et 2, les départements et les S.A.U. Leur détermination se fait selon le même
principe qu’en A.C.P.
Nous donnons ci-dessous ces coordonnées. Le graphique correspondant est donné par la Figure
1.
Row Coordinates
|
Dim1
Dim2
------------------------------ARIE |
0.037168
-.109849
AVER |
-.236684
0.206059
H.G. |
0.023759
-.157132
GERS |
-.261525
-.089482
LOT
|
0.255187
0.032261
H.P. |
0.478228
0.052226
TARN |
-.102814
-.087061
T.G. |
0.123568
0.068447
Column Coordinates
|
Dim1
Dim2
-------------------------------INF05 |
0.322690
-.183979
S0510 |
0.215688
0.069874
S1020 |
0.147020
0.149383
S2035 |
-.047693
0.106435
S3550 |
-.257888
-.011834
SUP50 |
-.304488
-.103492
L’interprétation du graphique est donnée plus bas.
Les contributions à l’inertie selon chaque axe
On a vu que les inerties de chaque nuage (celui des profils-lignes et celui des profils-colonnes)
se décomposaient, de la même façon, selon les différents axes. Ici, puisqu’on ne conserve que deux
dimensions, on ne s’intéresse qu’aux inerties selon les deux premiers axes.
Pour chacun des deux axes retenus, les tableaux ci-dessous donnent les parts d’inertie dues
d’abord à chaque ligne (ou département), ensuite à chaque colonne (ou classe de S.A.U.). Ces part
sont exprimées en fréquences et somment donc à 1.
22
CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES
Dim. 2
0.25
AVER
0.15
s1020
s2035
T . G .s 0 5 1 0
LOT
0.05
H.P.
s3550
-0.05
s u pG5E0R S
TARN
-0.15
ARIE
H.G.
inf05
-0.25
-0.5 -0.4 -0.3 -0.2 -0.1 0.0
0.1
0.2
0.3
0.4
0.5
Dim. 1
Fig. 2.1 – Résultats de l’A.F.C. sur les exploitations agricoles de Midi-Pyrénées
Partial Contributions to Inertia for the Row Points
|
Dim1
Dim2
------------------------------ARIE |
0.001366
0.044019
AVER |
0.181341
0.507201
H.G. |
0.001434
0.231410
GERS |
0.200115
0.086450
LOT
|
0.136049
0.008024
H.P. |
0.421421
0.018546
TARN |
0.025348
0.067070
T.G. |
0.032927
0.037281
------------------------------|
1
1
Partial Contributions to Inertia for the Column Points
|
Dim1
Dim2
-------------------------------INF05 |
0.342003
0.410237
S0510 |
0.087925
0.034051
S1020 |
0.065503
0.249544
S2035 |
0.008926
0.164051
S3550 |
0.165276
0.001284
SUP50 |
0.330367
0.140833
-------------------------------|
1
1
Comment détermine-t-on ces contributions ? Si on désigne par ckℓ la coordonnée du département
numéro ℓ (ℓ = 1, . . . , 8) sur l’axe k (k = 1, 2), l’inertie selon l’axe k vaut :
Ik =
r
X
nℓ+
ℓ=1
La part du département ℓ vaut donc :
n
(ckℓ )2 .
nℓ+ k 2
(c )
n ℓ .
Ik
Prenons l’exemple de l’Aveyron (ℓ = 2) sur l’axe 1 (k = 1). Le tableau des inerties fournit :
I1 = 0.05501. Celui des coordonnées fournit : c12 = −0.236684. Enfin, la table de contingence
13
n2+
=
. On en déduit que la contribution de l’Aveyron à l’inertie du
initiale permet d’écrire :
n
73
23
2.2. EXEMPLE ILLUSTRATIF
nuage des départements selon l’axe 1 vaut :
13
× (0.236684)2
73
≃ 0.1813,
0.05501
valeur donnée dans le tableau ci-dessus.
Les contributions aux inerties servent à la fois à sélectionner les lignes et les colonnes les
plus importantes dans l’analyse (c’est-à-dire dans la définition de la liaison) et, le cas échéant, à
interpréter les axes des graphiques.
Signalons néanmoins, qu’en A.F.C., l’interprétation concrète des axes n’est pas aussi fondamentale qu’en A.C.P. On ne fait cette interprétation que si elle est simple à faire et si elle facilite
la compréhension des résultats. Pour la faire, on utilise bien sûr le graphique, mais aussi les contributions des lignes et celles des colonnes à l’inertie de leur nuage. Dans l’exemple considéré nous
pouvons sans difficulté interpréter les axes (en particulier le premier).
On voit ainsi que les départements les plus importants dans la définition de l’axe 1 (ceux qui
contribuent le plus à son inertie) sont les Hautes-Pyrénées, le Gers et l’Aveyron. Du point de vue
des tailles de S.A.U., il s’agit des très petites exploitations (INF05), des très grandes (SUP50) et
des assez grandes (S3550).
L’axe 2, concernant les départements, est surtout déterminé par l’Aveyron et la Haute-Garonne ;
pour la S.A.U., il s’agit surtout des très petites exploitations et de celles de surface comprise entre
10 et 20 hectares, puis, dans une moindre mesure, des surfaces S2035 et SUP50. Nous verrons dans
le point 2.3 comment ces éléments interviennent dans l’interprétation des résultats.
Les cosinus carrés
Ces quantités indiquent, comme en A.C.P., la qualité de la représentation sur chaque axe
(autrement dit sur chaque dimension) de chaque modalité (ligne ou colonne).
Dans chacun des deux espaces de représentation des modalités (celui des lignes et celui des
colonnes, chacun de dimension inf(r − 1, c − 1)), les angles dont on considère le cosinus sont les
angles entre chaque vecteur représentant une modalité et l’axe considéré. Plus cet angle est petit,
plus son cosinus (donc son carré) est proche de 1, et plus la qualité de la représentation de la
modalité sur cet axe est bonne. Plus cet angle est grand (proche d’un angle droit), plus son cosinus
(donc son carré) est proche de 0, et plus la qualité de la représentation de la modalité sur cet axe
est mauvaise.
On utilise les carrés des cosinus car on peut les additionner selon les différentes dimensions
(propriété géométrique classique).
Squared Cosines for the Row Points
|
Dim1
Dim2
------------------------------ARIE
| 0.046279
0.404245
AVER
| 0.563739
0.427291
H.G.
| 0.020186
0.882916
GERS
| 0.889835
0.104173
LOT
| 0.951223
0.015203
H.P.
| 0.981701
0.011708
TARN
| 0.438847
0.314675
T.G.
| 0.536412
0.164587
Squared Cosines for the Column Points
|
Dim1
Dim2
-------------------------------INF05
| 0.751725
0.244357
S0510
| 0.819488
0.086004
S1020
| 0.447511
0.462010
S2035
| 0.128051
0.637744
S3550
| 0.919524
0.001936
SUP50
| 0.868303
0.100310
24
CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES
%
100
90
80
70
60
50
40
30
20
10
0
ARIE AVER GERS H.G. H.P.
LOT
T.G. TARN
Departements
SAU
inf05
s2035
s0510
s3550
s1020
sup50
Fig. 2.2 – Profils-lignes des départements
Prenons deux exemples.
Le cosinus carré de l’angle entre le vecteur représentant l’Aveyron et le plan du graphique
vaut : 0.5637 + 0.4273 = 0.9910 ; l’angle correspondant est de 5.4 degrés, autrement dit, très petit.
L’Aveyron est donc très bien représenté dans le plan. Ce n’est pas le cas de l’Ariège dont le cosinus
carré avec le même plan vaut 0.0463 + 0.4042 = 0.4505, ce qui correspond à un angle de 47.8
degrés (plus de la moitié d’un angle droit).
On pourra donc interpréter sans réserve la proximité, dans le plan, de l’Aveyron avec tout autre
département ou toute autre surface bien représentée. Il faudra par contre être très prudent en ce
qui concerne l’Ariège.
2.2.3
Interprétation des résultats
Précisons tout d’abord que cette interprétation se basera uniquement sur les résultats en dimension 2, puisque 95 % de l’information utile (celle exprimée par la dispersion, c’est-à-dire l’inertie)
est contenue dans ces deux seules dimensions. On va d’ailleurs voir que les phénomènes les plus
marquants sont ceux révélés par la dimension 1.
La figure 2.2 fournit le diagramme en barres des profils-lignes (les départements) qui permet
de mieux comprendre les explications qui vont suivre (on notera que le diagramme en barres des
profils-colonnes contient la même information statistique, mais que celui des profils-lignes nous
paraı̂t plus commode, dans cet exemple, pour aider l’interprétation).
Puisque les surfaces de S.A.U. sont naturellement ordonnées, commençons par étudier leurs
positions dans le plan. La première chose remarquable est que leur ordre (rappelons le, non pris en
compte dans l’analyse) est strictement respecté sur l’axe 1 qui est donc très structurant : il ordonne,
de la droite vers la gauche, les surfaces, des plus petites aux plus grandes. Par conséquent, plus un
département se trouve situé à droite, plus il comporte de petites exploitations et réciproquement.
Ainsi, les Hautes-Pyrénées se caractérisent par la présence de nombreuses petites exploitations
et la relative rareté des grandes exploitations : près de 45 % des exploitations y ont moins de
10 hectares (le Lot, qui vient juste derrière, en a moins de 37 %) ; seulement un peu plus de 13
% y ont plus de 35 hectares (là encore le Lot, juste derrière, en a déjà près de 23 %). Ce profil
traduit le fait qu’il s’agit du département le plus “montagnard” de la région, comme son nom
l’indique d’ailleurs. À l’opposé, l’Aveyron et le Gers se caractérisent par la présence de grandes
exploitations et la rareté des petites : les exploitations de plus de 35 hectares représentent près
de 40 % en Aveyron et plus de 45 % dans le Gers ; celles de moins de 10 hectares représentent
seulement 16 % en Aveyron et 21.6 % dans le Gers. Les raisons géographiques en sont différentes :
région de plateaux, de causses, pour l’Aveyron et de plaines et de collines pour le Gers ; dans les
deux cas, la géographie favorise la présence de grandes exploitations.
2.2. EXEMPLE ILLUSTRATIF
25
On notera que la qualité de représentation en dimension 2 des départements cités est excellente
(plus de 0.99 pour l’Aveyron, le Gers et les Hautes-Pyrénées ; 0.97 pour le Lot) ; il en va de même
pour les surfaces citées (0.99 pour INF05 ; 0.91 pour S0510 ; 0.92 pour S3550 ; 0.97 pour SUP50).
En ce qui concerne les contributions des départements à l’axe 1, les quatre départements cités
sont les seuls à avoir des contributions supérieures à 10 %, et ce de façon très nette. Même chose
pour les surfaces INF05, S3550 et SUP50 (S0510 est un peu en dessous de 10 %).
Pour ce qui est des contributions au khi-deux, on pourra vérifier que les phénomènes déjà
signalés correspondent à la presque totalité des fortes contributions (supérieures à 100).
La question qui se pose ensuite est de savoir ce que l’on peut dire de plus. En particulier, que
représente l’axe 2 ? Ce n’est pas vraiment très clair, et c’est un phénomène courant que l’essentiel
ayant été dit sur l’axe 1, le reste ne soit pas simple à interpréter. Essayons néanmoins. Pour les
départements, les seules contributions un peu importantes sont celles de la Haute-Garonne et de
l’Aveyron, qui s’opposent nettement sur l’axe 2. Pour ce qui est des surfaces, les contributions
importantes sont celles de INF05 et S1020 et, dans une moindre mesure, S2035 et SUP50. Le très
petit nombre, en Aveyron, d’exploitations de surface inférieure à 5 hectares a déjà été signalé (très
forte contribution au khi-deux). D’un autre côté, il faut également signaler, dans ce département, le
grand nombre d’exploitations moyennes, de S.A.U. comprise entre 20 et 35 hectares. Ceci permet
donc d’affiner le profil, assez particulier, de l’Aveyron : beaucoup de très grandes exploitations
(SUP50) et de moyennes (S2035) ; une proportion proche de la moyenne de la région pour les
surfaces S1020 et S3550 ; très peu de petites exploitations de moins de 10 hectares. Qu’en est-il
pour la Haute-Garonne ? C’est le seul département (avec l’Ariège, mal représenté dans le plan du
graphique) à avoir plus de 20 % d’exploitations de moins de 5 hectares et, en même temps, plus de
20 % d’exploitations de plus de 50 hectares. C’est aussi un département où il y a relativement peu
d’exploitations moyennes. L’ensemble de ces particularités provient de sa situation géographique,
étirée selon l’axe nord-sud, avec, au sud, une zone de montagne (le Comminges) et, au nord, une
zone de plaines et de collines (la plaine de la Garonne et le Lauragais).
Pour conclure, précisons que nous avons fait ici, à dessein, une interprétation très détaillée de
cette A.F.C. Il n’est pas toujours nécessaire d’entrer autant dans le détail. On retiendra essentiellement que l’interprétation s’appuie sur le (ou les) graphique(s), nécessite le recours à différents
indicateurs (contributions aux axes, contributions au khi-deux, cosinus carrés) et qu’il ne faut jamais oublier qu’on analyse les profils (lignes et colonnes) et que c’est donc eux qu’il faut regarder
avant d’avancer tout élément d’interprétation. Enfin signalons que, lorsque certains effectifs de la
table de contingence initiale sont très faibles (ce qui n’est pas du tout le cas ici), il faut éviter de
tirer des conclusions hâtives concernant les modalités correspondantes.
26
CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES
Chapitre 3
Analyse des Correspondances
Multiple
Le chapitre 3 était consacré à l’Analyse Factorielle des Correspondances (A.F.C.), méthode
factorielle de Statistique Descriptive Multidimensionnelle qui permet d’analyser la liaison entre
deux variables qualitatives (éventuellement catégorielles). Dans la mesure où elle ne peut prendre
en compte que deux variables, l’A.F.C. est naturellement limitée (elle est d’ailleurs parfois appelée
Analyse des Correspondances Binaire, ou encore Analyse des Correspondances Simple).
Dans la pratique, en particulier dans le domaine du traitement d’enquêtes (ou de questionnaires), il est rare qu’on se limite à deux variables (deux questions). Le problème statistique que
pose alors ce type de données est l’analyse de la liaison pouvant exister entre un nombre quelconque de variables qualitatives. L’Analyse des Correspondances Multiple (A.C.M.) est la méthode
factorielle de Statistique Descriptive Multidimensionnelle qui permet de traiter ce problème.
Dans son principe, l’A.C.M. est une A.F.C. particulière. Ce qui change est le tableau des
données sur lequel on applique la méthode. Le problème fondamental est en effet de savoir quel
tableau statistique, croisant un nombre quelconque de variables qualitatives, peut généraliser la
table de contingence. En fait, la réponse a déjà été donnée dans le cours SDE : c’est le tableau
de Burt. Ainsi, l’A.C.M. est une A.F.C. réalisée sur un tableau de Burt relatif à au moins trois
variables qualitatives.
La façon d’interpréter les résultats d’une A.C.M. sera donc analogue à la façon d’interpréter
ceux d’une A.F.C. Malheureusement, certains indicateurs d’aide à l’interprétation utilisés en A.F.C
ne sont plus valables dans le contexte de l’A.C.M. De plus, la présence d’un nombre plus important
de variables rend l’interprétation plus délicate. Une bonne maı̂trise de l’A.C.M. nécessite donc une
grande pratique de cette méthode (plus que de vastes connaissances mathématiques).
Dans le cadre de ce cours, notre ambition se limitera à présenter rapidement la méthode et à
en exposer le mécanisme d’interprétation sur un exemple réel relativement simple.
3.1
Rappels sur le tableau de Burt
Nous reprenons, dans ce paragraphe, des notions déjà introduites dans le paragraphe 3 du chapitre 3 du cours SDE.
3.1.1
Les données considérées
Les données avec lesquelles on est amené à construire un tableau de Burt sont précisemment
celles considérées dans une Analyse des Correspondances Multiple (A.C.M.).
Soit donc un nombre quelconque (noté p, p ≥ 3) de variables qualitatives, observées sur un
1
ensemble de n individus (l’échantillon considéré), chacun affecté du même poids . Les variables
n
1
p
j
seront
Ppnotées X , . . . , X , le nombre de modalités de X sera noté cj (j = 1, . . . , p), et on posera
c = j=1 cj (nombre total de modalités considérées, toutes variables confondues).
27
28
CHAPITRE 3. ANALYSE DES CORRESPONDANCES MULTIPLE
Remarque 3 Comme en A.F.C., on peut utiliser en A.C.M. des variables catégorielles (variables
qualitatives, à modalités ordonnées ou non, ou variables quantitatives, discrètes ou continues). On
parle alors de catégories pour désigner soit les modalités, soit les valeurs, soit les classes, étant
entendu que la structure de ces catégories (structure d’ordre ou structure numérique) n’est pas
prise en compte par l’analyse. Cela rend très souple l’utilisation de l’A.C.M. car c’est une méthode
susceptible de traiter n’importe quelle nature de variable.
3.1.2
Définition du tableau de Burt
Nous redonnons ici la définition du tableau de Burt (sa compréhension est facilitée par l’exemple
donné plus bas). Rappelons qu’un tableau de Burt est une généralisation particulière de la table
de contingence pour un nombre quelconque p de variables qualitatives.
Le tableau de Burt est en fait une matrice carrée (un tableau carré) c × c, constituée de p 2
sous-matrices. Chacune des p sous-matrices diagonales est relative à l’une des p variables ; la j ième
d’entre elles est carrée d’ordre cj , diagonale, et comporte sur la diagonale les effectifs marginaux
de X j . La sous-matrice figurant dans le bloc d’indice (j, j ′ ), j 6= j ′ , est la table de contingence
′
construite en mettant X j en lignes et X j en colonnes. Le tableau de Burt est donc symétrique.
3.1.3
Illustration
Reprenons le même exemple que dans le cours SDE : on a considéré un échantillon de 797
étudiants de l’Université Paul Sabatier (Toulouse III) ayant obtenu soit le DEUG A soit le DEUG
B (diplômes scientifiques de premier cycle, en deux ans), et uniquement ce diplôme, durant la
période 1971–1983. Trois variables ont été prises en compte : la série de bac, à 2 modalités (C, D) ;
l’âge d’obtention du bac, à 4 modalités (moins de 18 ans, 18 ans, 19 ans, plus de 19 ans) ; la durée
d’obtention du DEUG, à 3 modalités (2 ans, 3 ans, 4 ans).
Dans cet exemple, on a : n = 797 ; p = 3 ; c1 = 2, c2 = 4, c3 = 3 ; c = 9. Le tableau de Burt
correspondant est donné ci-dessous.
bacC
bacD
< 18
18ans
19ans
> 19
2ans
3ans
4ans
3.2
3.2.1
bacC
583
0
108
323
114
38
324
192
67
bacD
0
214
25
97
68
24
76
82
56
< 18
108
25
133
0
0
0
84
35
14
18ans
323
97
0
420
0
0
224
137
59
19ans
114
68
0
0
182
0
73
75
34
> 19
38
24
0
0
0
62
19
27
16
2ans
324
76
84
224
73
19
400
0
0
3ans
192
82
35
137
75
27
0
274
0
4ans
67
56
14
59
34
16
0
0
123
Principes de l’A.C.M.
Le problème
Il s’agit d’étudier les liaisons pouvant exister entre les p variables considérées. En fait, dans la
mesure où les données se présentent sous forme d’un tableau de Burt, juxtaposition de tables de
contingence, seules les liaisons entre variables prises deux à deux sont considérées (il s’agit de ce
que l’on appelle en statistique les interactions d’ordre deux). Pour étudier ces liaisons, la démarche
sera de même nature qu’en A.F.C.
3.2.2
La méthode
L’A.C.M. consiste simplement à réaliser l’A.F.C. du tableau de Burt considéré. On peut en
effet montrer d’une part que cela a un sens, d’autre part que, dans le cas où l’on fait l’A.F.C. du
tableau de Burt relatif à deux variables qualitatives (cas où p = 2), on obtient sensiblement les
mêmes résultats qu’en partant de la table de contingence relative à ces deux variables : l’A.C.M.
est donc bien une généralisation de l’A.F.C.
29
3.3. UN EXEMPLE ILLUSTRATIF
L’interprétation d’une A.C.M. sera donc, dans ses grandes lignes, analogue à celle d’une A.F.C.
Le problème est que certains indicateurs d’aide à l’interprétation utilisés en A.F.C ne sont plus
valables en A.C.M., ce qui rend plus délicate son interprétation. De plus, la présence d’un nombre
plus important de variables complique encore les choses. Une bonne maı̂trise de l’A.C.M. nécessite
donc une grande pratique de cette méthode.
3.3
Un exemple illustratif
Cet exemple concerne des étudiants inscrits pour la première fois à l’Université des Sciences
Sociales de Toulouse (Toulouse I) à l’automne 1990, en première année de DEUG de droit, et
suivis jusqu’en 1996.
3.3.1
Les données
Il y a 1635 étudiants pris en compte (n = 1635) et 5 variables qualitatives (p = 5). Les variables
sont les suivantes :
– le sexe, à 2 modalités : fille, gars ;
– la série de bac, à 5 modalités : bacA, bacB, bacCouD, bacG, autbac ;
– l’âge d’obtention du bac, à 3 modalités : .18., .19., .20. ;
– la Catégorie Socio-Professionnelle (C.S.P.) des parents, à 6 modalités : art+com (artisans
et commerçants), empl (employés), inter (professions intermédiaires), ouvr (ouvriers), prolib
(professions libérales), autcsp (autres C.S.P.) ;
– la réussite, au moins au DEUG, à 2 modalités : OUI, NON.
Les données se présentent sous la forme d’un fichier à 1635 lignes et 5 colonnes dont on donne
ci-dessous les trois premières et les trois dernières lignes.
1432
1432
2131
...
1332
1535
1222
2
2
1
2
2
2
Remarque 4 Il faut noter ici une particularité qui est, dans la pratique, presque systématique avec
ce type de données (nombreuses variables qualitatives) : les modalités de chacune des variables ont
été codées 1,2... C’est, bien entendu, nettement plus commode pour l’enregistrement des données
sur support informatique. Mais, cela nécessite un recodage pour faire apparaı̂tre explicitement les
modalités initiales dans un tableau ou sur un graphique. En effet, si l’on arrive à comprendre,
dans le fichier ci-dessus, que le “2” figurant ligne 3 et colonne 1 représente une fille, tandis que le
“2” figurant ligne 1 et colonne 4 représente un fils d’employé, cela ne sera plus possible lorsqu’on
rencontrera un “2” dans un graphique. Une phase de recodage des données est donc en général
nécessaire avant de mettre en œuvre une A.C.M.
3.3.2
L’A.C.M. des données
Comme dans les chapitres précédents, ces données ont été traitées avec le logiciel SAS.
Le tableau de Burt
Le premier résultat fourni est le tableau de Burt, toujours appelé “Contingency Table” dans
SAS. Bien entendu, il est plus compliqué à lire qu’une table de contingence ordinaire croisant
seulement deux variables.
Lorsqu’on interprète une liaison entre deux variables (parmi toutes celles considérées), il est
en général conseillé de consulter le tableau de Burt pour y lire les effectifs correspondants (il faut
toujours s’assurer qu’on ne raisonne pas sur un effectif trop faible). On notera que les effectifs
marginaux (ce sont les mêmes en lignes et en colonnes puisqu’un tableau de Burt est symétrique)
30
CHAPITRE 3. ANALYSE DES CORRESPONDANCES MULTIPLE
ne s’interprètent pas facilement ici : chacun est égal à l’effectif de la modalité correspondante
multiplié par le nombre p de variables considérées (ici 5). Enfin, l’effectif total est égal au nombre
d’observations n (ici 1635) multiplié par p2 (ici 25), soit 40875.
Contingency Table
fille
gars
autbac
bacA
bacB
bacCouD
bacG
fille
1014
0
32
366
339
92
185
gars
0
621
19
126
258
94
124
autbac
32
19
51
0
0
0
0
bacA
366
126
0
492
0
0
0
bacB
339
258
0
0
597
0
0
bacCouD
92
94
0
0
0
186
0
bacG
185
124
0
0
0
0
309
.18.
508
221
6
255
314
117
37
.19.
321
210
9
167
190
54
111
.20.
185
190
36
70
93
15
161
art+com
106
61
2
56
62
15
32
autcsp
232
119
20
107
91
24
109
empl
99
54
4
47
69
6
27
inter
156
98
6
70
120
21
37
ouvr
143
74
10
57
78
9
63
prolib
278
215
9
155
177
111
41
NON
550
390
45
287
265
70
273
OUI
464
231
6
205
332
116
36
----------------------------------------------------------------------------Sum
5070
3105
255
2460
2985
930
1545
.18.
.19.
.20.
art+com
autcsp
empl
inter
fille
508
321
185
106
232
99
156
gars
221
210
190
61
119
54
98
autbac
6
9
36
2
20
4
6
bacA
255
167
70
56
107
47
70
bacB
314
190
93
62
91
69
120
bacCouD
117
54
15
15
24
6
21
bacG
37
111
161
32
109
27
37
.18.
729
0
0
63
125
61
132
.19.
0
531
0
65
115
63
74
.20.
0
0
375
39
111
29
48
art+com
63
65
39
167
0
0
0
autcsp
125
115
111
0
351
0
0
empl
61
63
29
0
0
153
0
inter
132
74
48
0
0
0
254
ouvr
90
62
65
0
0
0
0
prolib
258
152
83
0
0
0
0
NON
311
326
303
97
233
87
143
OUI
418
205
72
70
118
66
111
----------------------------------------------------------------------------Sum
3645
2655
1875
835
1755
765
1270
fille
gars
autbac
bacA
bacB
bacCouD
bacG
.18.
ouvr
prolib
NON
OUI
!
Sum
143
74
10
57
78
9
63
90
278
215
9
155
177
111
41
258
550
390
45
287
265
70
273
311
464
231
6
205
332
116
36
418
!
!
!
!
!
!
!
!
5070
3105
255
2460
2985
930
1545
3645
31
3.3. UN EXEMPLE ILLUSTRATIF
.19.
62
152
326
205
!
2655
.20.
65
83
303
72
!
1875
art+com
0
0
97
70
!
835
autcsp
0
0
233
118
!
1755
empl
0
0
87
66
!
765
inter
0
0
143
111
!
1270
ouvr
217
0
143
74
!
1085
prolib
0
493
237
256
!
2465
NON
143
237
940
0
!
4700
OUI
74
256
0
695
!
3475
---------------------------------------------------------Sum
1085
2465
4700
3475
! 40875
Les pourcentages d’inertie des différentes dimensions
Le tableau suivant donne les valeurs propres, ou inerties selon les axes (Principal Inertias), la
décomposition du khi-deux sur les axes et les pourcentages d’inertie restitués par chaque axe.
Inertia and Chi-Square Decomposition
Singular
Values
Principal ChiInertias Squares Percents
0.61285
0.50322
0.48110
0.47320
0.45086
0.44737
0.44171
0.43237
0.42231
0.40973
0.38679
0.36548
0.31771
0.37558
0.25323
0.23145
0.22392
0.20328
0.20014
0.19510
0.18694
0.17835
0.16788
0.14961
0.13358
0.10094
------2.60000
3387.43
2283.88
2087.51
2019.58
1833.36
1805.07
1759.67
1686.07
1608.55
1514.11
1349.33
1204.76
910.39
------23449.71
14.45%
9.74%
8.90%
8.61%
7.82%
7.70%
7.50%
7.19%
6.86%
6.46%
5.75%
5.14%
3.88%
3
6
9
12
15
----+----+----+----+----+--************************
****************
***************
**************
*************
*************
*************
************
***********
***********
**********
*********
******
Le problème est que ce tableau ne peut pas s’interpréter comme les tableaux analogues rencontrés en A.C.P. et en A.F.C. En effet, le tableau de Burt contient beaucoup d’informations
redondantes (en particulier, il est symétrique et tous les effectifs sont répétés deux fois). Les pourcentages ci-dessus étant relatifs à la totalité de l’information contenue dans le tableau, il sont donc
largement sous-estimés. Ainsi, les deux premiers axes de cette analyse ne représentent pas 24.19
% de la dispersion totale (14.45 + 9.74), mais davantage. Malheureusement, on ne peut pas savoir
quel est le pourcentage réel. Ces pourcentages sont donc à prendre uniquement à titre indicatif.
Les coordonnées des modalités et leurs contributions à l’inertie
Seulement deux ensembles de résultats sont pris en compte ici : les coordonnées des colonnes
sur les axes, permettant de réaliser le (ou les) graphique(s), selon le nombre d’axes retenus (deux ou
plus) ; les contributions des colonnes à l’inertie (la dispersion) selon chaque axe, qui s’interprettent
exactement comme en A.F.C. Les autres quantités utilisées en A.F.C. (les contributions au khideux, les profils et les cosinus carrés) n’ont plus d’interprétation directe en A.C.M. et ne sont en
général pas utilisées.
Remarque 5 Le tableau de Burt étant symétrique, ses lignes et ses colonnes sont identiques. Les
éléments de l’A.C.M. relatifs aux lignes sont donc identiques à ceux relatifs aux colonnes et, par
conséquent, ne sont pas fournis.
32
CHAPITRE 3. ANALYSE DES CORRESPONDANCES MULTIPLE
Nous donnons ci-après les coordonnées de l’ensemble des modalités sur les deux premiers axes
(par soucis de simplicité, nous n’utiliserons ici que les deux premiers axes), puis leurs contributions
à l’inertie de chacun de ces axes.
Column Coordinates
fille
gars
autbac
bacA
bacB
bacCouD
bacG
.18.
.19.
.20.
art+com
autcsp
empl
inter
ouvr
prolib
NON
OUI
Dim1
Dim2
-0.11125
0.18165
1.62701
-0.21630
-0.40520
-0.91295
1.40826
-0.68841
0.09059
1.21001
0.05265
0.65135
-0.02064
-0.22781
0.51077
-0.58262
0.57376
-0.77603
-0.53743
0.87754
0.56575
-0.81059
0.09334
1.55368
0.08171
-0.11547
-0.16661
0.46039
-0.36354
-0.25675
-0.68415
-0.14436
-0.29683
0.72329
-0.00691
0.00935
Partial Contributions to Inertia for the Column Points
fille
gars
autbac
bacA
bacB
bacCouD
bacG
.18.
.19.
.20.
art+com
autcsp
empl
inter
ouvr
prolib
NON
OUI
Dim1
Dim2
0.004087
0.006674
0.043970
0.007497
0.031923
0.050491
0.199587
0.112521
0.001419
0.178820
0.000151
0.048500
0.000021
0.004293
0.018438
0.054504
0.100786
0.136315
0.141475
0.231007
0.007885
0.156160
0.002513
0.216889
0.000997
0.004695
0.007120
0.038396
0.010661
0.011177
0.034593
0.002557
0.009236
0.124588
0.000022
0.000029
Le graphique
Le graphique de l’ensemble des modalités selon les deux premières dimensions est donné par la
figure 1.
3.3.3
Interprétation
Nous interprèterons seulement les deux premières dimensions : c’est suffisant ici et, de plus,
l’interpétation de toute autre dimension se fait selon le même principe. Le principe général est
de repérer les modalités ayant des contributions importantes aux axes et de regarder ensuite leur
positionnement sur le graphique.
33
3.3. UN EXEMPLE ILLUSTRATIF
Dimension 2
2
bacCouD
1
gars
prolib
.20.
bacB
OUI
. 1 8 . i n t e r. 1 9 .
0
autbac
bacG
NON
autcsp
art+com ouvr
fille
empl
bacA
-1
-1
0
1
2
Dimension 1
Fig. 3.1 – Représentation graphique selon les deux premières dimensions
Sur l’axe 1, ces contributions sont celles du bac G (pratiquement 20 %), des bacheliers de 20
ans ou plus (près de 18 %), de ceux de 18 ans ou moins (un peu plus de 11 %) et de la réussite
ou de l’échec (13.6 % et 10 % respectivement). En observant le graphique, on voit que l’axe 1
discrimine la réussite, à gauche, et l’échec, à droite. On peut donc l’interpréter essentiellement
comme l’axe d’opposition entre la réussite et l’échec au DEUG de Droit. Les modalités repérées
ci-dessus (fortes contributions à l’axe 1) et proches de l’échec sont le bac G et l’obtention tardive
du bac ; la modalité proche de la réussite est l’obtention du bac jeune. On voit donc que le facteur
prépondérant de la réussite à ce DEUG est l’âge d’obtention du bac (autrement dit, la qualité de
la scolarité secondaire). De plus, le bac G semble mal adapté aux études de droit.
Sur l’axe 2, les contributions les plus importantes sont celles des garçons (un peu plus de
23 %) et des filles (un peu plus de 14 %), des bacs C ou D (21.7 %), du bac A (15.6 %) et des
professions libérales (environ 12.5 %). On remarque encore une nette discrimination, selon l’axe 2,
entre les garçons, en haut, et les filles, en bas. Les garçons sont le plus souvent titulaires d’un bac
C ou D et ont souvent des parents appartenant aux professions libérales, tandis que les filles sont
plus souvent titulaires d’un bac A, sans que cela soit clairement lié à la réussite ou à l’échec. Il
s’agit d’un phénomène bien marqué dans l’enseignement secondaire et que l’on retrouve ici comme
sous-produit de notre analyse.
Remarque 6 Pour terminer, on notera la particularité suivante : dans une A.C.M., toutes les
variables prises en compte jouent, a priori, le même rôle : l’analyse ne peut en privilégier aucune.
Néanmoins, dans la pratique, il est fréquent qu’une variable joue un rôle spécifique, en ce sens que
c’est elle que l’on cherche à expliquer à partir des autres : c’est exactement le cas de la variable
“réussite” dans l’exemple ci-dessus. Ce rôle spécifique n’apparaı̂t, éventuellement, qu’au niveau
de l’interprétation, autrement dit a posteriori. Lorsque c’est le cas, cela signifie, d’une certaine
manière, que l’A.C.M. a bien fonctionné, autrement dit que les variables expliquant le phénomène
(ici la variable “réussite”) ont bien été prises en compte et ont été mises en évidence par l’analyse.