OUTILS

Méthodes et outils informatiques
pour l’analyse des discours

Collection « Didact Méthodes »
Jacques C et Martine C,

Le traitement des données en histoire et sciences sociales. Méthodes et outils, 2012, 554 p.
Didier D, Claire B, Patrick T et Karl  M (dir.),
Analyses textuelles en sociologie. Logiciels, méthodes, usages, 2006, 224 p.
Gisèle T,
Pratiques de recherche en sciences de l’éducation. Les outils du chercheur débutant, 1993, 156 p.
Sous la direction de
Émilie NÉE
Méthodes
et outils informatiques
pour l’analyse des discours
Collection « Didact Méthodes »
Presses universitaires de Rennes

Cet ouvrage est le fruit de réflexions et de rédactions collectives qui ont débuté
en octobre 2014 et se sont réparties sur deux années consécutives. Le partage du
travail ne correspondant pas tout à fait aux standards rencontrés dans les ouvrages
collectifs (un chapitre = un auteur, par exemple), nous avons choisi de le présenter
sur le modèle des « génériques » de films.
Structuration de l’ouvrage et sélection du contenu : Christine Barats,

Serge Fleury, Jean-Marc Leblanc, Émilie Née, Frédérique Sitri, Marie Veniard.
Conception du paratexte : Christine Barats, Émilie Née.

Rédaction :
Introduction : Frédérique Sitri, Christine Barats.
Chapitre 1 : Serge Fleury, Émilie Née, Christine Barats.
Chapitre 2 : Frédérique Sitri, Christine Barats.
Chapitre 3 : Émilie Née, Serge Fleury.
Chapitre 4 : Émilie Née, Jean-Marc Leblanc, Serge Fleury.
Chapitre 5 : Jean-Marc Leblanc, Serge Fleury, Émilie Née.
Chapitre 6 : Marie Veniard, Frédérique Sitri.
Fiches pratiques : Serge Fleury.
Fiche d’approfondissement « En savoir plus sur l’Analyse Factorielle des
Correspondances » : Jean-Marc Leblanc.
Réécriture finale (homogénéisation) : Serge Fleury, Émilie Née, Marie
Veniard.
Relecture finale : Frédérique Sitri, Christine Barats.
Relecteurs externes : Loïse Bilat, Chantal Claudel, Marcel Cori, Chloé
Gaboriaux, Pierre Fiala, Lucie Gournay, Dominique Labrouillère, Sophie Moirand,
Agnès Tutin.
Relecture des épreuves : La Langagière (Françoise Dufour).
Direction éditoriale : Émilie Née.
© PRESSES UNIVERSITAIRES DE RENNES

Université Rennes 2
2 rue Gaston Berger
35043 Rennes Cedex
www.pur-editions.fr
ISBN 978-2-7535-5499-3
ISSN 1251-5205
Dépôt légal : 2e trimestre 2017
REMERCIEMENTS
Nous remercions chaleureusement Marie-Anne Paveau et Christian

Le Bart pour leurs encouragements et leur soutien dans ce projet d’ouvrage.
Un grand merci à nos amis, collègues, proches qui, par leurs relectures
minutieuses, leurs remarques et leurs conseils éclairés, nous ont apporté une
aide précieuse dans la conception et la rédaction de cet ouvrage. En particulier
à Loïse Bilat, Chantal Claudel, Marcel Cori, Chloé Gaboriaux, Pierre Fiala,
Lucie Gournay, Dominique Labrouillère, Sophie Moirand, Agnès Tutin.
Cet ouvrage doit beaucoup aux espaces de recherche auxquels nous
avons pu participer, en particulier la communauté JADT, le groupe de
travail Exploration de corpus (consortium Corpus écrits) et la revue Mots : les
échanges et discussions que nous avons pu avoir dans ces différents espaces
ont permis de préciser les contours et les objectifs d’un projet resté longtemps
en germe.
Cet ouvrage doit enfin beaucoup à Pierre Fiala et André Salem : nous les
remercions pour le temps qu’ils nous ont généreusement accordé, les passion-
nants témoignages qu’ils ont bien voulu nous donner, les archives qu’ils nous
ont montrées. Leur récit et les différents éclairages qu’ils nous ont apportés,
sur les outils, les méthodes, l’histoire et les épistémologies de l’analyse du
discours et de la lexicométrie, nous ont guidés et nous ont accompagnés tout
au long de notre réflexion.
7
INTRODUCTION
POUR COMPRENDRE CE QUI VA SUIVRE…
« Un texte ne saurait être assimilé à une masse

de connaissances directement exploitable par la
machine. Il faut dans un premier temps prévoir des
traitements complexes pour identifier l’information
pertinente, la normaliser, la catégoriser et éventuel-
lement la mettre en contexte. Alors seulement l’ordi-
nateur ou l’expert sera capable d’en tirer parti pour
mener à bien ses analyses. Mais comment procéder
pour extraire l’information pertinente de la masse
de données textuelles ? Quels outils utiliser ? Pour
quelle pertinence ? […] Plusieurs études ont pointé
la frustration des chercheurs en sciences sociales
face à ce problème : les textes sont effectivement
là, présents et disponibles sur la Toile, mais leur
exploitation reste difficile. Elle exige la collabo-
ration de spécialistes de différents horizons,
capables de traiter les données, de fournir les
outils pour extraire l’information pertinente et
d’ajuster de manière collaborative les traite-
ments (nous soulignons). »
Thierry Poibeau, « Le traitement automatique
des langues pour les sciences sociales : quelques
éléments de réflexion à partir d’expériences
récentes », Méthodes digitales – Réseaux,
n° 188, vol. 32, La Découverte, 2014.
Comme le souligne Thierry Poibeau, les chercheurs en Sciences humaines

et sociales (SHS) disposent aujourd’hui d’une masse de données textuelles
immédiatement disponibles via l’internet, et le traitement de ces données les
confronte à des questions nouvelles : quels outils statistiques et informatiques
utiliser, quelles méthodes mettre en œuvre (comment organiser ces données
en corpus par exemple), mais aussi, dans quel cadre théorique ?
C’est à ces questions que cet ouvrage voudrait répondre, en les abordant
sous un angle particulier, qui est celui de l’analyse du discours (AD). En
9
Méthodes et outils informatiques pour l’analyse des discours
effet de nombreux chercheurs ont recours aujourd’hui à des outils de traite-

ment automatique pour « analyser des discours » – que ces discours soient
collectés parmi des ressources disponibles ou qu’ils soient suscités, dans des
entretiens par exemple. C’est là une pratique de recherche courante dans
des disciplines comme les sciences de l’information et de la communication,
l’histoire, la science politique, la sociologie, les sciences de gestion… D’un
autre côté, si l’on trouve beaucoup d’analyses exclusivement « qualitatives »
en AD, le recours à l’informatique et à la statistique fait aussi partie de la
discipline, depuis ses débuts. Or l’analyse du discours, comme domaine de
recherche ancré dans les sciences du langage, repose sur un certain nombre
de postulats – sur la langue, le discours, le sens – et ces postulats théoriques
ont des répercussions sur les choix méthodologiques et pratiques : définition
des questions de recherche, constitution du corpus, choix des outils informa-
tiques. Ces postulats, nous les rappelons rapidement dans cette introduction,
car ils vont guider notre démarche.
Analyser des données textuelles

Les travaux qui analysent les textes et les discours avec l’aide d’outils
informatiques ne se situent pas tous ou pas exclusivement en analyse du
discours. Il peut être utile de permettre au lecteur de s’orienter parmi toutes
les disciplines du texte qui ont recours à l’outillage informatique, en dressant
à grands traits la cartographie d’un paysage mouvant aux frontières souvent
floues, dont les différentes régions se distinguent tantôt clairement par leurs
objectifs et leurs méthodes, et tantôt plutôt par leur histoire ou celle de leur
fondateur…
On peut d’abord citer les recherches en statistique linguistique et
lexicale, auxquelles sont associés les noms de Pierre Guiraud, Charles
Muller, Étienne Brunet… L’objet de la statistique lexicale, au départ, ce sont
les textes littéraires : elle s’intéresse surtout à la structure du vocabulaire de
tel ou tel ensemble de textes (voir les travaux de P. Guiraud et de C. Muller).
Elle fait intervenir différentes lois concernant les fréquences des mots dans un
texte (loi Estoup-Zipf par exemple, chap. 5) ainsi que des tests probabilistes.
L’analyse du discours entre surtout en dialogue avec la lexico-
métrie, née à la fin des années 1960 autour de Maurice Tournier. Proche
de la statistique lexicale, la lexicométrie s’en différencie par le fait qu’elle
s’intéresse non pas aux particularités du style d’un auteur mais aux régularités
d’un discours, en les mettant en relation avec des déterminations idéologiques
ou des positionnements sociaux : c’est ainsi que le Laboratoire de lexicologie
politique de l’ENS de Saint-Cloud (ci-après Laboratoire de Saint-Cloud)
étudie les tracts de Mai 68 ou les résolutions des congrès syndicaux. La lexico-
métrie est ainsi très proche de l’AD, mais les deux disciplines se distinguent
par le choix des observables : à ses débuts la lexicométrie s’intéresse avant tout
10
Introduction
au lexique tandis que l’AD, sans pour autant négliger l’unité lexicale, faisait de
la syntaxe (les relatives, les nominalisations) son objet d’observation privilégié.
À l’heure actuelle, les logiciels de lexicométrie évoluent de plus en plus vers la
prise en compte du texte et l’on parle alors plus volontiers de textométrie.
De nombreux travaux se situent également à l’intersection de l’AD et de
la sémantique interprétative, développée par François Rastier, qui vise à
rendre compte du sens des textes. Dans ce cadre, l’interprétation se fait de
façon différentielle, par un jeu d’oppositions, comme en sémantique struc-
turale (on se rappelle peut-être comment Bernard Pottier définit le terme
« chaise » par une combinaison de traits qui le distinguent de « fauteuil » ou
de « tabouret »…). Mais pour F. Rastier, le sens d’un mot ne peut être dissocié
du texte dans lequel il apparaît, du genre dont relève ce texte et du discours
(de la pratique sociale) dont ce genre émane. Sans entrer dans le détail, on
peut dire que la sémantique interprétative se distingue voire s’oppose à l’AD
sur des points de clivage théorique, en particulier la part de la dimension
historique et des contraintes de langue dans la production du sens. Mais étant
donné que la sémantique interprétative d’une part travaille sur des corpus
représentant des genres de discours et d’autre part a recours à l’outillage et en
particulier aux logiciels de textométrie, il arrive fréquemment que des travaux
se situent à l’intersection de la sémantique interprétative et de l’analyse du
discours (voir aussi « Zoom », p. 49-50 et chap. 6).
La plupart des courants/disciplines listés ci-dessus se retrouvent globa-
lement dans l’Analyse de Données Textuelles (ADT), dénomination
englobante et consensuelle qui regroupe une communauté de chercheurs se
retrouvant régulièrement dans le cadre des « Journées d’Analyse de Données
Textuelles » (JADT). Les chercheurs en ADT analysent des corpus constitués
de textes entiers considérés comme représentatifs (d’un genre, d’une pratique,
d’une sphère sociale, d’un locuteur, voir chap. 2), dans une visée herméneu-
tique (en relation avec le sens des textes), et ont recours à l’informatique
comme outil et comme méthode. Sur tous ces points l’ADT se distingue ainsi
du Traitement automatique des langues (TAL), qui vise généralement à
produire des outils informatiques permettant de traiter automatiquement des
données langagières, dans une visée le plus souvent applicative (industrielle).
L’ADT comme l’AD se distingue aussi de la linguistique de corpus, qui,
dans la tradition de la linguistique empirique britannique, vise à décrire les
usages de la langue à travers l’étude de « très grands corpus ». Même si les
outils mis en place par la linguistique de corpus, ainsi que l’attention prêtée
au contexte dans l’interprétation du sens, peuvent concerner des chercheurs
en AD, on voit que l’objectif est ici différent : il s’agit de décrire la langue dont
le corpus représente un échantillon.
Par rapport à ces différents domaines de recherche, essayons maintenant
de voir quelle peut être la spécificité d’un positionnement en AD.
11
Un positionnement en analyse du discours

Il existe différentes façons de concevoir le discours et l’analyse du discours :
citons entre autres l’analyse interactionnelle, l’ethnométhodologie, ou encore
l’analyse critique des discours (Critical Discourse Analysis, CDA). Le point
commun entre toutes ces approches, c’est d’envisager les messages ou les
textes, qu’ils soient oraux ou écrits, non pas en eux-mêmes mais en
relation avec ce qui les entoure. Certains chercheurs focalisent leur atten-
tion sur la situation précise dans laquelle est produit le discours et l’influence
que les locuteurs exercent les uns sur les autres ; d’autres plutôt sur la sphère
sociale dont émanent les discours, en les reliant à des pratiques sociales ;
d’autres encore sur le contexte historique ou politique.
Cet ouvrage se situe globalement dans le courant d’analyse du
discours qui s’est développé en France à partir des travaux de Jean
Dubois, avec l’accent mis sur l’ancrage social et politique du mot et
sur le retour, dans un discours, de séquences posées comme équiva-
lentes, et à partir des théorisations élaborées par Michel Pêcheux et,
dans une certaine mesure, par Michel Foucault. Si on en rappelle ici
les principales options théoriques, c’est parce que ces travaux sous-tendent la
démarche d’ensemble et les choix méthodologiques et pratiques exposés dans
les différents chapitres de l’ouvrage.
Pour l’AD, la situation, le contexte, l’environnement du discours ne sont
pas ou pas seulement conçus comme matériels : ces extérieurs au discours,
ce sont aussi des discours, qui le conditionnent en partie (notion d’« inter-
discours »), avec lesquels il « dialogue » (notion de « dialogisme », forgée par
Mikhaïl Bakhtine/Valentin Volochinov), ou entre en relation d’une façon ou
d’une autre. Par exemple, pour analyser des rapports éducatifs écrits par des
travailleurs sociaux, on prendra en compte 1) les discours produits dans ou
sur le secteur éducatif et si possible l’institution dans laquelle les rédacteurs
travaillent (textes institutionnels, produits en formation, ou entretiens) ; 2) les
discours que les médias, l’administration ou les politiques tiennent sur la
maltraitance ou l’enfance en danger (articles de presse, rapports officiels) ;
3) les discours juridiques sur ces questions (textes de lois, arrêtés et décrets ;
livres écrits par des juges. Voir Cislaru et Sitri, 2012). On va ainsi tenter de
saisir ce qui circule d’un discours à un autre, ce qui est repris, reformulé, ce
qui répond à un autre discours ou bien anticipe une réponse, une objection.
On s’intéresse aux « résonances » (terme employé par André Salem) d’un
discours à un autre – et donc d’un corpus à un autre (cf. chap. 6).
De fait, ce qui constitue l’objet de l’AD, c’est la façon dont cet « extérieur »
discursif se manifeste dans le discours que l’on étudie et dont il le détermine.
Ainsi on ne peut pas comprendre l’emploi de l’expression « être en danger »
dans les rapports éducatifs si l’on ne rapproche pas ces rapports du texte de
loi qui encadre la protection de l’enfance, où la notion de « danger » ou de
12
Introduction
« risque de danger » est le motif qui conditionne l’intervention de l’État, ainsi

que la levée du secret professionnel pour les professions qui y sont tenues. Ou
encore, on peut difficilement interpréter la fréquence d’une formulation figée
telle que « X est dans le déni/demande/conflit… » si on ne met pas en relation
le discours des éducateurs avec le discours des psychologues ou des psycha-
nalystes dont c’est le lexique professionnel. On peut ainsi rendre compte de la
présence/absence/fréquence d’une forme ou encore du choix de cette forme
plutôt qu’une autre, ce qui nous conduit au point suivant.
L’AD est une discipline interprétative : elle vise à rendre compte de
la façon dont se construit le sens dans le discours étudié. Or, pour l’AD,
le sens ne se construit pas « en dehors » de la langue, mais dans l’interac-
tion entre les formes (mots, constructions syntaxiques, ponctuation…) et les
déterminations extérieures dont on vient de parler. Par exemple, M. Pêcheux
montre avec plusieurs exemples comment l’interprétation d’une relative met
en jeu le contexte socio-historique et les discours par lesquels il se manifeste :
contexte politique et idéologique dans « c’est le devoir du parti et des commu-
nistes d’apporter leur soutien au développement des luttes qui montrent
la volonté des salariés de contrecarrer les attaques antisociales et
antidémocratiques du gouvernement et du patronat » (déclaration
du bureau politique du PCF, juin 1978), phrase dont l’interprétation est
constitutivement ambiguë, selon que l’on considère que « le PCF soutient
toutes les luttes car ces luttes montrent... » ou bien que « le PCF soutient les
luttes, à condition qu’elles montrent… » (Pêcheux, 1979, in Maldidier 1990,
p. 273-280). On citera aussi un exemple analysé par André Salem (repris dans
le chap. 6) : il montre comment, dans les résolutions des congrès de la CFDT,
la forme travailleurs disparaît au profit de la forme salariés, sans que pour
autant on puisse parler de simple substitution. C’est une vision différente du
monde du travail (plus sociale d’un côté, plus juridique de l’autre) que chacun
des mots engage, et ce sont aussi des contextes linguistiques différents (on
ne parle pas de « salariés immigrés »). Pour résumer, ce qui caractérise l’AD,
c’est la place centrale accordée aux formes langagières, le postulat que l’on
ne dit pas la même chose en le disant autrement, et que l’on n’accède
pas « directement » au sens d’un discours, que le discours n’est pas le simple
« reflet » d’une pensée ou d’une idéologie. De ce point de vue, l’analyse du
discours ne doit pas être confondue avec ce qu’on appelle « l’analyse
de contenu », qui se propose d’« accéder au sens d’un segment de texte, en
traversant sa structure linguistique » (Pêcheux, 1969, p. 4).
Analyse du discours et informatique

Si l’outillage informatique de l’AD s’inscrit dans un mouvement général lié
au développement des humanités numériques et des approches quantitatives
en SHS, on aurait tort de croire qu’il s’agit là d’une alliance contre nature.
13
Pour M. Pêcheux, l’informatique est une sorte de garant méthodologique :

elle « exige des analystes de discours une construction explicite de leurs procé-
dures de description, ce qui est la pierre de touche de leur consistance d’objets
théoriques » (Pêcheux et Marandin [1984] cité par Jacqueline Authier-Revuz,
à paraître, chap. 10).
M. Tournier, de son côté, parlait de « refroidir le corpus » (entretien avec
Pierre Fiala du 6 avril 2016) pour expliquer comment l’outil informatique
permettait de garantir une lecture objective du texte. C’était aussi un moyen
de hisser les sciences humaines au même rang que les sciences exactes.
L’automatisation des analyses s’est imposée en raison de la complexité des
calculs et du volume toujours plus important des données à traiter. On imagine
mal par exemple des concordanciers ou des décomptes effectués à la main
sur plusieurs milliers de textes. Le perfectionnement technologique a rendu
possible cette automatisation.
De fait, un des objectifs de l’AD, dès le début, est d’échapper à une
pratique de lecture allant directement au sens pour, au contraire, privilégier
des méthodes qui, comme le dit M. Pêcheux, relèvent d’« un parti-pris pour
l’imbécillité », c’est-à-dire qui suspendent la compréhension immédiate d’un
texte.
C’est ainsi que l’AD s’intéresse à ce qui se répète dans un texte, aux
séquences qui reviennent plus ou moins à l’identique dans différents endroits
du corpus. Or la mise en série, qui est au cœur de la lexicométrie, entraîne
de fait la délinéarisation du texte : on ne l’étudie plus phrase après phrase,
paragraphe après paragraphe, mais on utilise des outils qui parcourent
l’ensemble du corpus pour produire, le plus souvent, des résultats sous formes
de listes. De tels procédés font voir des récurrences ou des rapprochements
souvent impossibles à détecter à l’œil nu, à plus forte raison sur de grandes
masses de documents. L’observation de l’enchaînement linéaire – ce qu’on
appelle le « fil du discours » –, via des formes comme les reprises anapho-
riques, le discours rapporté…, constitue cependant toujours un objet pour
l’AD. Cette dimension linéaire du texte trouve aujourd’hui des débouchés
techniques, car les logiciels de traitement des données développent de plus en
plus des fonctionnalités qui permettent, au cours de la recherche, de revenir
au texte ou de visualiser une portion de texte.
Si la démarche globale présentée dans cet ouvrage relève de l’AD, il est clair
que, au sein des disciplines qui explorent les textes avec des outils informati-
ques et statistiques, se nouent des dialogues, des échanges et des collabora-
tions qui rendent parfois difficile « l’étiquetage » disciplinaire de telle ou telle
recherche. Le développement même des outils et de fonctionnalités nouvelles,
qui se fait sur un mode largement empirique souvent en relation avec tel ou
tel projet, tel ou tel laboratoire, tel ou tel corpus, n’est pas sans influer sur les
méthodes, et provoque des « bougés » dans un cadre théorique. Ainsi, à l’heure
actuelle, les débats sur l’annotation (cf. chap. 3) semblent largement dépassés
14
Introduction
et il est admis que l’annotation constitue une ressource qui, à un moment de

la recherche, peut se révéler pertinente et produire des résultats intéressants.
Plus profondément, on voit que la contradiction entre des observables qui, du
côté de la lexicométrie, sont de l’ordre du « mot » (la forme graphique) et, du
côté de l’AD, plutôt de l’ordre de la syntaxe, n’est pas sans conséquence sur
l’orientation actuelle des recherches en AD outillées par l’informatique.
Pourquoi un ouvrage sur les méthodes automatisées

en sciences humaines et sociales ?
S’il existe aujourd’hui plusieurs ouvrages de référence sur la statistique
textuelle, la linguistique de corpus ou encore la linguistique « instrumentée »
(Lebart et Salem, 1994, Habert et al., 1997, Habert, 2005, Poudat et Landragin,
2017, par exemple) – souvent écrits par des statisticiens et des informaticiens
eux-mêmes, la spécificité du présent ouvrage est de questionner ces outils
et leurs méthodes en les articulant directement à des problématiques
d’analyse du discours.
Alors que les données numériques sont innombrables et que les ressources
et les outils sont immédiatement disponibles, la tentation est grande pour
les chercheurs ou pour les étudiants de s’en « remettre » à la machine ou au
logiciel. Or, comme on le verra tout au long de cet ouvrage, l’instrumentation
informatique nécessite de prendre des précautions avant (préparation des
données), pendant (analyse des données) et après le recours à l’outillage
(interprétation des résultats). La machine ne dispense pas le chercheur,
bien au contraire, d’un questionnement sur la validité de sa démarche et
sur la pertinence de ses données. Les premiers programmes signifiaient
au chercheur ses limites – certains se rappelleront ce contrariant message
envoyé par la machine : « syntax error » – ce qui l’invitait à s’interroger sur son
cheminement, le choix et la préparation de ses données. Les outils contem-
porains ne favorisent pas d’emblée un tel questionnement dans la mesure où
ils fournissent immédiatement des résultats au chercheur. Mais comment ces
résultats sont-ils produits ? Que veulent-ils dire ? Que nous apprennent-ils
sur le discours que l’on veut analyser ? Il n’est pas toujours aisé de répondre
à ces questions. Par ailleurs, la multiplication des logiciels et la diversité des
méthodes proposées exigent un minimum de connaissances sur leurs principes
et leurs fonctionnalités. C’est à cette condition que l’on peut s’orienter libre-
ment vers l’outil le plus adapté à la problématique posée et aux données collec-
tées. Il s’agit également de ne pas mésestimer la dimension heuristique de ces
instruments, dont l’usage enrichit généralement les questions de recherche, en
conduisant parfois vers de nouvelles pistes et des hypothèses que le volume
des corpus ou une analyse « à la main » ne permettait pas d’envisager.
Cet ouvrage a aussi pour ambition de rendre ces méthodes abordables
et applicables pour des étudiants et des chercheurs en sciences humaines
15
et sociales qui s’intéressent au discours. Les auteurs de cet ouvrage, venant

de différentes disciplines, utilisateurs voire concepteurs d’outils informati-
ques et statistiques, ont en effet constaté, dans leurs pratiques de recherche
et d’enseignement, un véritable manque tant au niveau épistémologique
(pourquoi compter les mots ?) que méthodologique (qu’est-ce qu’on
compte et qu’est-ce qui compte ?) ainsi qu’un besoin de vulgarisation et
d’explicitation.
Il s’agit donc de répondre à différentes attentes dans un contexte où le
traitement informatique des textes se généralise avec la numérisation d’un
plus grand nombre de documents et la production abondante de données
numériques, et où compter les mots, mesurer les discours semble aujourd’hui
devenu une étape incontournable pour de nombreuses recherches en sciences
humaines et sociales. Dans ce contexte, l’AD, dans sa dimension interdiscipli-
naire, dans sa visée interprétative et dans son dialogue continu avec les autres
approches de l’ADT, est une démarche parmi d’autres (stylistique, linguistique
de corpus, sémantique…), qui peut tantôt guider tantôt informer une analyse
informatisée de données textuelles, de la constitution du corpus à l’interpré-
tation des phénomènes jugés pertinents, en passant par le choix des outils et
des fonctionnalités.
Frédérique Sitri, Christine Barats.
16
GUIDE DE LECTURE
COMMENT LIRE CE LIVRE…
Le chapitre 1 définit des prérequis de base liés à l’utilisation des outils

informatiques. Les deux chapitres suivants explorent les modalités de
constitution du corpus, dans ses principes (chapitre 2) et dans sa mise en
œuvre pratique (chapitre 3). La notion de corpus est en effet au cœur de la
démarche de l’analyse du discours et l’outil informatique contribue à renou-
veler des questionnements anciens sur les principes et les méthodes de consti-
tution de corpus.
Les trois chapitres suivants donnent des clés pour l’analyse des discours
avec l’outil informatique. Le chapitre 4 présente les unités de décompte en
analyse de données textuelles (ADT), le chapitre 5 les principaux outils et
fonctionnalités. Le chapitre 6 articule méthodes et outils de l’ADT à diffé-
rentes problématiques de recherche en analyse du discours.
À l’intérieur de chaque chapitre, plusieurs types d’encadrés ponctuent
la lecture par des éclairages bibliographiques ( Pour aller plus loin),
documentaires ou notionnels ( ZOOM) ou par des exemples de recherche
plus développés (
Une recherche).
Les notions et termes techniques sont repris dans un index en fin
d’ouvrage.
Enfin, une section Fiches pratiques et approfondissements, en fin
d’ouvrage, propose des éclairages méthodologiques plus détaillés ou encore
des « pas à pas », liés à la constitution du corpus ou à l’utilisation de la
méthode statistique de l’analyse factorielle des correspondances.
Plusieurs parcours de lecture sont possibles. Les chapitres 1, 3, 4 et 5
s’adressent au profane qui veut s’initier aux méthodes textométriques. Les
experts du domaine liront plus volontiers les chapitres 2 et 6. Enfin, si
certaines pages d’apparence un peu technique pourront sembler de prime
abord rebutantes, nous avons toujours eu le souci d’être accessibles à tous.
17
Note au lecteur sur la terminologie employée

Nous employons les termes textométrie et lexicométrie de manière indif-
férenciée. Lorsque nous référons aux travaux de Saint-Cloud, nous avons
cependant préféré le terme de lexicométrie, qui était alors celui utilisé par
les chercheurs. De plus, nous n’avons pas effectué de modification dans les
citations.
Liste des abréviations utilisées

AD Analyse du Discours.
ADT Analyse de Données Textuelles.
ADJ adjectif.
ADV adverbe.
AFC analyse factorielle des correspondances.
ART article (déterminant).
Chap. chapitre.
CQL Corpus Query Language.
DET déterminant.
Freq, Frq fréquence.
INF infinitif/infinitive.
Nb nombre.
Occ. occurrence.
PP pronom personnel.
PREP préposition.
PRO pronom.
Prop. proposition.
SHS sciences humaines et sociales.
SP syntagme prépositionnel.
SR segment(s) répété(s).
TAL Traitement automatique des langues.
TGen type généralisé.
TLE tableau lexical entier.
18
CHAPITRE I
COMPTER LES MOTS ? PAS SI SIMPLE…
« Maintenant il faut se lancer sur vos propres données ! » C’est souvent ce

que nous conseillons aux étudiants dans nos formations. Se lancer, oui, mais
pas n’importe comment.
C’est pourquoi nous souhaitons commencer par soumettre au lecteur
quelques problèmes concrets et questions simples, qui concernent directe-
ment l’usage de l’outil informatique dans le traitement de données textuelles.
Nous poserons ici les prérequis indispensables à une analyse du discours
outillée par l’informatique. Dans les chapitres suivants, nous serons amenés
à développer plus longuement les différents principes esquissés dans ces
pages.
Nous passons d’abord en revue plusieurs idées reçues sur l’outil infor-
matique. Ces idées reçues, nous y sommes souvent confrontés, en tant que
formateurs ou utilisateurs. Qui n’a jamais rêvé, par exemple, de disposer d’un
outil délivrant en un simple clic des résultats pertinents sans aucune inter-
vention de sa part ?
Au détour d’une expérience ludique sur un poème bien connu de Charles
Baudelaire, nous montrons que l’on ne compte pas forcément la même chose
selon les outils que l’on utilise (surtout si on ne s’assure pas que ces outils sont
réellement destinés à la tâche qu’on leur délègue) et que, de manière générale,
une réflexion sur ce que l’on compte et une connaissance du fonctionnement
des outils sont indispensables.
Un coup de projecteur sur des outils grands publics tels que les « nuages
de mots » ou Google NGram Viewer permettra enfin de mettre au jour un
questionnement fondamental sur le rapport aux données et leur traitement
automatique.
19
Quelques idées reçues…

« Pour analyser un texte, il suffit de compter les mots », « l’outil infor-
matique va me fournir des preuves », « compter les mots est une affaire de
linguistes ou de matheux », « faire de la statistique textuelle, c’est simple :
l’ordinateur va me fournir une analyse et des résultats », « l’outil informa-
tique va me permettre de mettre au jour un sens caché du discours »… Voilà
autant d’idées reçues qu’étudiants et chercheurs peuvent projeter sur les outils
informatiques en sciences humaines et plus particulièrement en analyse du
discours. Ces idées reçues, que nous allons réfuter tout au long de cet ouvrage,
appellent trois questions :
– qu’est-ce qu’on compte ?
– comment compter dans les textes ?
– pour quoi faire ?
Essayer de répondre à ces questions, c’est déjà quitter le champ des
croyances. À première vue, on ne voit rien dans une masse de textes.
A contrario, il peut paraître plus simple pour une machine d’y déceler des
informations pertinentes, ce qui peut commencer par l’opération de compter
les unités dans les textes. Cependant, compter présuppose que l’on sache
identifier ce qu’il est possible de compter. S’il apparaît nécessaire de compter
des mots (ou d’autres unités) dans un texte, il est important de s’assurer que
l’outil utilisé soit capable de les identifier correctement, et éventuellement
de connaître les processus mis en œuvre pour réaliser cette identification.
Une des premières questions à se poser préalablement n’est peut-être pas
« qu’est-ce qu’on compte dans les textes ? » mais, finalement, « qu’est-ce qui
compte dans les textes ? ».
Savoir ce que l’on compte : un cas pratique

De nombreux outils, y compris les outils de traitement de texte (Microsoft
Word ou Notepad++, par exemple) proposent des outils de comptage. Mais
si nous prenons un texte et lui appliquons différents outils élémentaires de
comptage, les résultats diffèrent !
En voici une illustration instructive. Considérons le poème « La mort
des amants » de Charles Baudelaire. Pour amorcer ce qui pourrait être une
première approche d’analyse purement quantitative sur un texte, nous allons
essayer de résoudre le problème suivant : quels sont les mots utilisés dans ce
poème et quelle est leur fréquence ?
Voici le texte du poème :
La mort des amants
« Nous aurons des lits pleins d’odeurs légères,

Des divans profonds comme des tombeaux,
20
Compter les mots ? Pas si simple…
Et d’étranges fleurs sur des étagères,

Écloses pour nous sous des cieux plus beaux.
Usant à l’envie leurs chaleurs dernières,

Nos deux cœurs seront deux vastes flambeaux,
Qui réfléchiront leurs doubles lumières
Dans nos deux esprits, ces miroirs jumeaux.
Un soir fait de rose et de bleu mystique,

Nous échangerons un éclair unique,
Comme un long sanglot, tout chargé d’adieux ;
Et plus tard un Ange, entr’ouvrant les portes,

Viendra ranimer, fidèle et joyeux,
Les miroirs ternis et les flammes mortes. »
Charles Baudelaire.
On peut lire les lignes du poème et noter, sur un support papier par
exemple, la fréquence d’apparition de chaque mot repéré à la lecture de ce
texte. On peut aussi construire (ou récupérer) un fichier électronique conte-
nant ce même texte et l’éditer dans un éditeur tel que Microsoft Word.
Fig. 1. – « La mort des amants » dans Microsoft Word.
21
On dispose alors de la fonctionnalité « statistiques » permettant d’obtenir

le résultat visible dans la figure suivante.
Fig. 2. – Fonctionnalité « statistiques » dans Microsoft Word.
Comment lire les statistiques proposées par ce logiciel ? Que disent-elles

exactement ? Certaines informations sont directement identifiables. On
compte bien 22 lignes (les lignes vides sont considérées comme des lignes par
un programme informatique). En revanche, comment obtient-on le décompte
de 100 mots ? L’éditeur de texte Microsoft Word ne nous permet pas de le
savoir. Or, si on réalise la même opération dans un autre éditeur, Notepad++
en l’occurrence, on obtient un autre résultat (cf. figure 3).
De toute évidence, ces deux éditeurs n’utilisent pas les mêmes stratégies
pour identifier les mots. Ainsi, si compter dans les textes semble être un jeu
d’enfant, nous ne savons en fait pas très bien ici ce que nous comptons, ni
comment on le compte. Cet exemple fait toucher du doigt la difficulté à
identifier des unités (quelles unités ? Les mots ? Les formes graphiques ?, etc.)
ainsi que les différences de logiques propres à chaque outil.
Le décompte des unités d’un texte, facilement accessible via de nombreux
outils disponibles dans des environnements informatiques traditionnels, est
également une fonctionnalité offerte par certains utilitaires disponibles dans
une fenêtre de commandes présente sur tous les systèmes d’exploitation de
type Unix (et aussi avec Windows 10 (version 1607) depuis août 2016). Ces
outils restent parfois méconnus ou peu utilisés (malgré leur robustesse et
leur très grande efficacité) en raison de la « rusticité » de leur mise en œuvre
ou de l’investissement qu’ils induisent pour leur prise en main. L’ouvrage de
Benoît Habert et al. (1998) en fournit une présentation détaillée.
On travaille maintenant avec un fichier qui se nomme amants-utf8.txt.
Ce fichier contient le poème « La mort des amants » ; son contenu est
affiché comme dans la figure 4 dans une fenêtre de commandes via la
commande cat (voir aussi Fiches pratiques, p. 206-216). Une fenêtre de
22
Fig. 3. – « La mort des amants » dans l’éditeur Notepad++.
commande est un programme informatique permettant de lancer, à l’aide du

clavier, des commandes pour traiter les ressources disponibles en machine :
un fichier par exemple.
La figure 5 (p. 25) donne à voir l’exécution d’une suite de quatre commandes
(première ligne), connectées les unes aux autres par un mécanisme dit de
« redirection de flux de sortie d’une commande », et le résultat (les lignes
suivantes) ; ce mécanisme d’enchaînement de commandes, matérialisé ici par
le caractère | (pipe) inséré entre différentes commandes (dans la figure, ce
caractère est affiché sous la forme d’un trait vertical coupé en deux en son
milieu), déclenche la transmission des résultats de la commande la plus à
23
Fig. 4. – Fenêtre de commande Unix : la commande CAT.
gauche vers la suivante et ainsi de suite. Cet empilement de commandes

permet ici de construire la liste des mots d’un fichier avec leur fréquence
respective, les mots étant finalement classés par fréquence décroissante – ce
type de liste est aussi appelé index hiérarchique (voir chap. 5, p. 135-139,
pour la description de cette fonctionnalité).
À la différence des statistiques produites par Word, les unités comptées
sont ici rendues « visibles », chacune d’elle étant associée à sa fréquence
d’apparition dans le texte visé. Une autre remarque importante peut être faite à
l’issue des résultats produits par cette commande : on remarque que le décou-
page en mots peut poser problème ; par exemple, la séquence « entr’ouvrant »
donnera lieu à 2 formes graphiques disjointes (même chose si le texte conte-
nait la séquence « aujourd’hui » ou la séquence « carte bleue »).
La somme des fréquences de tous les mots obtenus via cette nouvelle
commande donne la valeur 104. Les différentes solutions mises en œuvre
par Word, Notepad++ et la ligne de commande Unix ne comptent donc pas
visiblement les mêmes unités. Dans le cas de Word, il est difficile a priori
de comprendre ce qui est compté ; dans la ligne de commandes Unix,
l’identification des mots est faite en amont de la commande par
l’écriture d’une « expression régulière » c’est-à-dire par la construc-
tion d’une représentation formelle de ce que l’on pense pouvoir utiliser pour
représenter un mot – en gros une suite de caractères – modélisée par le motif
\w+ dans la commande précédente : \w désigne un caractère de mot, le +
indique qu’on peut en avoir plusieurs consécutivement (cf. Fiche pratique 1,
p. 203).
Une mise au jour des mots dans Notepad++, adoptant une identification
des mots similaire à la précédente, est visible dans la figure 6, p. 26.
24
Fig. 5. – Index des formes graphiques de « La mort des amants » via

une suite de commandes Unix.
L’identification des mots se fait là encore grâce à l’expression régulière

\w+, qui demande au logiciel de chercher une séquence de caractères (de mot)
consécutifs et de montrer toutes les occurrences de ces séquences. Dans le
résultat affiché, le titre du poème, par exemple, contient 4 séquences corres-
pondant au motif donné : « La », « mort », « des », « amants » sont bien des
séquences contenant des caractères de mot consécutifs (ces 4 séquences étant
séparées par un caractère, l’espace, qui n’est pas un caractère de mot). Au
25
Fig. 6. – Identification des formes graphiques de « La mort des amants »

dans Notepad++.
final, le motif utilisé et la matérialisation globale de ses réalisations permettent

de mettre au jour une segmentation du texte qui s’approche d’une segmenta-
tion en mots.
On retrouve cette fois un résultat similaire à la liste précédente, produite
dans la fenêtre de commandes Unix. Pour retrouver un résultat cohérent
avec le résultat fourni initialement par Word, il faut visiblement procéder
différemment. Dans la figure suivante, la recherche réalisée avec Notepad++
pour identifier les « mots » utilise un modèle les définissant comme pouvant
être constitués soit par des caractères alphabétiques soit par le caractère’, via
l’expression régulière (\w|’)+ qu’on peut lire littéralement comme « une suite
(au moins un) de caractères de mot ou le caractère’ » (cf. figure 7).
Cette requête permet de retenir comme une seule unité l’envie (au lieu de
l’ et envie), entr’ouvrant (au lieu de entr’ et ouvrant), d’odeurs (au lieu de d’ et
odeurs). Cette fois-ci le comptage réalisé est proche de celui réalisé par Word
mais le compte n’y est pas ! Où est le mot manquant ? Une des hypothèses
26
Fig. 7. – Recherche de mots dans Notepad++ via l’expression régulière

(\w|’)+.
que l’on peut faire, c’est que Word compte les espaces et non les mots… Il
suffit pour s’en convaincre de supprimer à la ligne 15 l’espace entre adieux et
le point-virgule final et Word retrouvera le « bon compte ».
Cette expérience illustre une première difficulté et permet de tirer un
premier enseignement. Compter les mots (ou d’autres types d’unités)
« ne va pas de soi ». C’est souvent faire des choix, cela implique de bien
définir ce que l’on veut compter et de s’assurer que les décomptes obtenus
correspondent bien aux choix de départ.
C’est d’autant plus important que le problème envisagé ci-dessus ne
consiste qu’à compter globalement les mots d’un texte. Or les problémati-
ques développées en AD nécessitent de résoudre des difficultés bien plus
complexes : dans notre exemple, cela pourrait conduire à ne compter que les
pronoms personnels, ou les verbes, ou à contraster le vocabulaire entre les
parties du texte (entre les différentes strophes du poème par exemple).
La comparaison entre les stratégies mises en œuvre par différents outils
pour compter les mots dans un même texte révèle aussi une réelle diver-
gence d’approche dans les dispositifs informatiques disponibles.
Le bouton « statistiques » directement accessible dans Word peut laisser
27
croire à l’utilisateur qu’il suffit de cliquer sur une icône pour produire une
information pertinente : le résultat est produit sans explication, fourni « tel
quel » à l’utilisateur qui a priori doit s’en satisfaire. A contrario, on a vu que
la suite de commandes Unix permet le contrôle et la maîtrise du résultat et
nécessite pour cela des savoirs de différentes natures pour élaborer la mise en
œuvre de cette solution – ici, la maîtrise d’un certain nombre de commandes
Unix, de leur articulation et la connaissance des expressions régulières. Les
résultats obtenus peuvent cependant être insatisfaisants pour certaines
tâches.
On peut tirer un deuxième enseignement de cette courte démonstration :
lorsqu’on fait appel à un outil informatique pour analyser des données
textuelles, il faut comprendre a minima comment cet outil travaille
sur les données qu’on lui soumet et comment il les utilise dans ses
calculs. Cette sélection du « bon outil » ne peut en général se faire que si
l’on dispose déjà d’un minimum d’informations sur les fonctionnalités et les
contraintes de format des données propres à tel ou tel outil.
Quelles données ? Quels outils ? Pour quoi faire ?
L’analyse du discours, même lorsqu’elle convoque l’outil informatique,

s’inscrit en sciences humaines et sociales dans une démarche scientifique :
les données sont construites en fonction d’une problématique de recherche,
elles servent à valider ou infirmer des hypothèses de recherche. Une fois une
problématique de recherche posée et des données sélectionnées au regard
de cette problématique, on circonscrit des catégories d’analyse et des obser-
vables (cf. chap. 2, 3 et 6). On est ensuite généralement amené à mettre en
œuvre des processus de traitement construits pour répondre aux questions
qui découlent de la problématique. Comme dans de nombreuses démarches
scientifiques, cela passe par l’explicitation des objectifs à atteindre. Enfin, la
mise en œuvre de processus de traitement va faire surgir tout au long de la
démarche des problèmes qu’il faudra résoudre.
Considérons la question suivante :
Je me demande quels thèmes abordait le candidat Nicolas Sarkozy lors de la
campagne présidentielle 2007.
Pour répondre à cette question, il faut résoudre le problème suivant :

Mettre au jour les thèmes abordés dans les discours du candidat à la Présidence
de la République, c’est au préalable construire un corpus regroupant l’ensemble
de ses discours. Est-ce possible ? Comment faire ? Combien de données faut-il
récolter ? Quels types de données ? Comment les récupérer ? Où ? Comment
les archiver, les organiser etc. ? Comment les mettre en forme au mieux dans
le contexte des outils envisagés ? (voir aussi chap. 3, p. 97-100).
28
En effet, avant de se lancer dans une phase d’analyse automatique de

données, une première étape consiste à définir la manière de récolter, de struc-
turer, d’organiser les données à traiter (cf. chap. 2 et 3). Un corpus des discours
des candidats à la Présidence de la République 2007 étant disponible (corpus
Discours2007, voir infra), comment identifier les thèmes abordés ?
• Suffit-il de compter les mots ? Un comptage des mots donne-t-il réelle-
ment une image précise des thèmes abordés ? Et en outre, comment faire
pour compter les mots du corpus ? Ces questions seront développées
dans les chapitres 5 et 6 de cet ouvrage.
• Faut-il déjà connaître le contenu de son corpus pour l’analyser avec
des outils ? Comment mettre en place des parcours d’exploration des
données pour en savoir plus sur ses données ? Comment définir des
points d’entrée dans le corpus ? Par la sélection de certains mots ?
Analyser un corpus avec des outils informatiques, cela ne consiste jamais à
faire entrer les données du corpus dans un outil magique capable d’en extraire
du sens. Si un outil se présente avec ce type de promesse, mieux vaut s’en
méfier. Une fois les objectifs d’analyse clairement identifiés et formulés, il faut
répondre aux questions suivantes :
• Quelle méthode mobiliser (aucun outil ne permet d’accéder directement
aux « thèmes » d’un texte) et quel outil semble le plus approprié ?
• L’outil choisi est-il cohérent avec ces objectifs ?
Ces questions vont innerver la recherche, et parfois conduire à une
démarche itérative. Cette liste de questions n’est pas exhaustive et dans des
contextes d’analyse différents, d’autres questions préliminaires pourraient se
poser. Elles seront reprises plus loin dans ce manuel.
Compter avec des nuages de mots ?
Parmi tous les outils disponibles et facilement accessibles, l’un d’eux

fascine au point de s’inviter sur bon nombre de sites web ou dans les émissions
politiques : le nuage de mots (voir aussi Leblanc, 2015). Qu’en est-il exacte-
ment ? Comment fonctionne-t-il ? Cet outil va-t-il permettre de répondre à
la question posée ci-dessus : « je me demande quels thèmes abordaient le
candidat Nicolas Sarkozy lors de la campagne présidentielle 2007 » ?
On peut partir de la ressource suivante :
Discours2007 : « Les discours des présidentiables »,
disponible en ligne [http://sites.univ-provence.fr/veronis/Discours2007/]
(consulté le 01/06/16).
Le site donne accès à toutes les allocutions des candidats à la présidentielle
de 2007 telles qu’elles ont été éditées par les partis, candidats ou bureaux de
campagne. On y trouve en particulier toutes les allocutions de N. Sarkozy, que
nous décidons de sélectionner pour constituer un corpus global.
29
Fig. 8. – Liste des discours de Nicolas

Sarkozy, corpus Discours2007.
Disposer comme ici de données directement accessibles et apparemment

adaptées à la question posée relève tout de même d’une situation exception-
nelle. Classiquement, en amont de la phase d’analyse, il est en effet souvent
nécessaire de mettre en place une succession de traitements informatisés
pour construire un corpus de travail ; ce dispositif peut conduire à réaliser
différentes tâches successives, répétitives, voire de les réitérer plusieurs fois,
afin de modeler les données (cf. chap. 3). Dans l’exemple traité ici, rien de
tout cela ! Profitons-en, c’est rarement le cas.
On peut faire appel à l’outil Wordle, qui permet de réaliser des « nuages
de mots » (cf. figure 9).
Les nuages de mots permettent de construire une représentation
graphique des mots d’un texte dans laquelle ceux-ci s’affichent dans des
polices de caractères d’autant plus grandes qu’ils sont fréquents dans le texte.
Wordle produit donc la liste de tous les mots du contenu textuel visé puis affiche
ces mots en tenant compte de leur fréquence d’apparition (cf. figure 10).
30
Fig. 9. – Wordle.
Fig. 10. – Index des mots dans Wordle.
 Pour aller plus loin :

22 outils gratuits en ligne pour créer des nuages de mots-clés [http://
www.netpublic.fr/2013/12/22-outils-gratuits-nuages-de-mots-cles/]
31
On commence par copier un des textes du « corpus global » (Nicolas

Sarkozy, Discours au soir du premier tour [22/04/07]) dans la zone de texte
permettant de générer le nuage de mots (il est aussi possible de mentionner
l’adresse de cette ressource).
Fig. 11. – Préparation du nuage de mots dans Wordle : insertion du texte.
La génération du nuage de mots produit le résultat suivant.
Fig. 12. – Nuage de mots dans Wordle (discours de N. Sarkozy du 22/04/07).
À première vue, le mot plus semble jouer un « rôle important » dans ce

texte. Est-ce lié à la présence massive du slogan « travailler plus pour gagner
plus », qui était l’une des promesses les plus marquantes du candidat Sarkozy
en 2007 ? Wordle nous laisse sans réponse…
32
Or, si l’on regarde de plus près, on constate que le mot plus ne correspond
pas du tout dans ce texte au slogan de campagne du candidat ! Un retour au
contexte (au « texte » ici) le montre.
Fig. 13. – Contexte du mot plus dans le discours de campagne de N. Sarkozy du 22/04/07.
Le mot plus renvoie en effet dans ce texte soit au superlatif de supériorité

le plus + adjectif, soit à la locution adverbiale de plus en plus, soit à un adverbe
de négation (ne… plus). Cette expérience invite donc à interpréter les repré-
sentations visuelles de type « nuage de mots » avec prudence.
Ce retour en contexte n’est pas effectué via le nuage de mots – Wordle ne
le permet pas – mais simplement par l’édition du texte analysé dans un éditeur
classique (ici le logiciel Notepad++). La seule chose que nous permet Wordle
est en fait l’accès à la liste des mots du texte rangés par ordre de fréquences
(ou index hiérarchique).
Fig. 14. – Index hiérarchique dans Wordle.
Si l’index des mots d’un texte ne permet pas de « comprendre » ce texte, il

constitue déjà un point d’entrée privilégié dans le texte, à condition d’y avoir
accès : la présence massive d’un mot peut dès lors permettre d’aller voir de
33
plus près les contextes de ce mot, ainsi que nous venons de le faire par un
retour au texte. Mais comme l’expérience précédente nous le montre, on ne
peut se contenter de simples comptages « graphiques » ni d’un simple index
tel que ceux produits par Wordle.
Un autre détail attire notre attention. Il « manque » des mots dans ce
nuage. En y regardant de plus près, il apparaît assez clairement que ce premier
nuage ne nous montre pas tous les mots du texte. Wordle ne les compterait-il
donc pas tous ? Pour le vérifier, on reprend le poème précédent, « La mort
des amants » de Charles Baudelaire, et l’on demande à Wordle de générer un
nouveau nuage de mots.
Fig. 15. – Nuage de mots effectué sur « La mort des amants » via Wordle.
Il apparaît plus facilement ici que les mots retenus par défaut n’intègrent
pas les mots grammaticaux qu’on appelle aussi mots-outils (de, ces, nous,
nos, etc.).
La fenêtre de la figure 16 indique qu’il est possible de modifier le paramé-
trage permettant d’inhiber la différence de casse des caractères – il s’agit alors
de compter les mots en convertissant tous les caractères en minuscule – et
également d’intégrer dans les calculs « les mots communs » : ces manipula-
tions modifient alors le nuage. La figure 17 représente un nuage généré à partir
d’un texte correspondant au discours tenu par Nicolas Sarkozy au premier tour
des élections présidentielles 2007.
On peut se sentir franchement désemparé face à une telle mosaïque de
mots… Que nous dit-elle du sens du texte ? D’aucuns pourront certes se
34
Fig. 16. – Paramétrage du nuage de mots dans Wordle.
rassurer quelques instants en accrochant leur regard aux unités saillantes que
ce nuage fait ressortir. Parmi elles, on remarque un pronom, je, qui s’avère tout
à fait pertinent pour l’analyse du discours politique. Certes, ce mot ne corres-
pond pas à un « thème », mais sa fréquence semble suffisamment importante
pour qu’il puisse être intégré à l’analyse et être observé en parallèle à une
analyse thématique. On peut saisir à cette occasion la dimension heuristique
des outils informatiques dont nous traitons dans cet ouvrage. En revanche, où
Fig. 17. – Nuage de mots effectué via Wordle sur le discours de cam-
pagne du 22/04/07 de N. Sarkozy, intégrant les « mots communs ».
35
sont passés les thèmes ? Que dire à partir d’une telle représentation du texte ?
Comment la faire parler ? Peut-on même en dire quelque chose ?
Cette deuxième expérience pointe aussi l’importance de l’accès
aux données lorsqu’on se lance dans une analyse de données textuelles,
de surcroît dans une analyse du discours outillée par l’informatique.
C’est ce sur quoi nous allons maintenant insister, à partir d’une dernière
expérience.

Damgé Mathilde, « De la prudence en matière d’utilisation des statis-
tiques », 21 juillet 2015, article en ligne sur LeMonde.fr [http://data.
blog.lemonde.fr/2015/07/21/de-la-prudence-en-matiere-dutilisation-
des-statistiques/] (consulté le 01/06/16).
Marchand Pascal, Ratinaud Pierre, non daté, « Faut-il faire des nuages
de mots », en ligne [http://iramuteq.org/Members/pmarchand/faut-il-
faire-des-nuages-de-mots] (consulté le 01/06/16).
Marchand Pascal, 2016, « Les bases d’une démarche explicative
possible en Sciences humaines et sociales à propos de “radicalisa-
tion” », 27 janvier 2016, article en ligne sur The Conversation [https://
theconversation.com/expliquer-la-radicalisation-individus-interac-
tions-identites-et-croyances-53520] (consulté le 01/06/16).
D’autres lectures ici : [http://www.iramuteq.org/etudes] (consulté le
01/06/16).
Mais où sont passés les mots ? Le cas de Google Ngram Viewer
Considérons maintenant la question suivante :

Peut-on retracer l’évolution de l’usage du mot immigration ?
L’outil informatique peut-il nous aider ? Pour répondre à cette question,

on peut se tourner vers Google Ngram Viewer ([https://books.google.com/
ngrams], consulté le 01/06/16), outil en ligne développé par Google qui permet
d’interroger la base de livres numérisés par Google Books et d’analyser dans
le temps la fréquence de mots ou de suites de mots. À première vue, on est
impressionné par la quantité de données, et leur association avec les outils
permettant de les interroger.
La figure 18 illustre le type de résultat produit. Cette figure semble proposer
une représentation visuelle de l’évolution du mot immigration depuis 1800
dans le volet français des ressources mises à disposition par Google Ngram
Viewer. Mais une des principales difficultés posées par cet outil réside dans
36
Fig. 18. – Immigration dans Google Ngram Viewer.
le fait que les ressources analysées sont inaccessibles. Ainsi, le corpus

utilisé est une boîte noire ! Et c’est un problème de taille…
Il est en effet tout à fait hasardeux d’interpréter des résultats statistiques si
l’on n’a pas soi-même accès aux données utilisées pour produire ces résultats ;
au mieux il est toujours préférable de recueillir soi-même ses données, et de
les préparer soi-même. La constitution d’un corpus est la première étape de
la recherche (chap. 2 et 3). Ce travail du recueil des données induit in fine
une connaissance utile à l’interprétation des résultats construits par les outils
mis en œuvre.
Dans le cadre de l’AD, même si l’on a recours à des outils informatiques,
ne pas « avoir la main » sur les données de l’analyse est en soi un non-sens :
l’accès aux données est une nécessité. En tout état de cause, Google Ngram
Viewer pose plus de questions qu’il n’en résout : interpréter les résultats de
ce type d’outil s’avère extrêmement périlleux.

Michel Jean-Baptiste, Shen Yuan Kui, Aiden Aviva Presser, Veres
Adrian, Gray Matthew K., Brockman William, The Google Books
Team, Pickett Joseph P., Hoiberg Dale, Clancy Dan, Norvig Peter,
Orwant Jon, Pinker Steven, Nowak Martin A., and Erez Lieberman
Aiden, 2010, « Quantitative Analysis of Culture Using Millions of
Digitized Books ». Science, 331, Issue 6014, p. 176-182 (Published
online ahead of print : 12/16/2010) [http://m.friendfeed-media.
com/1a16bbec91aa496e75daa119c4d8f19d31fb1fd9] (consulté le
01/06/16).
37
Véronis Jean †, 2010, « Google : Le plus grand corpus linguistique

de tous les temps », 16 décembre 2010, en ligne [http://blog.
veronis.fr/2010/12/google-le-plus-grand-corpus.html] (consulté le
01/06/16).
Brunet Étienne, 2012, « Au fond du GOOFRE, un gisement de
44 milliards de mots », JADT 2012, p. 7-21, en ligne [http://lexicome-
trica.univ-paris3.fr/jadt/jadt2012/Conferenciers-invites/Brunet,%20
Etienne%20-%20Au%20fond%20du%20GOOFRE.pdf] (consulté le
01/06/16).
Brunet Étienne, Vanni Laurent, 2014, « GOOFRE version 2 », JADT
2014, Juin 2014, p. 105-119 [http://lexicometrica.univ-paris3.fr/jadt/
jadt2014/01-ACTES/09-JADT2014.pdf] (consulté le 01/06/16).
Ertzscheid Olivier, 2010, « Culturonomics : juste une question de
corpus ? », Blog Affordance, billet du 16 décembre 2010, en ligne
[http://affordance.typepad.com/mon_weblog/2010/12/culturonomics-
juste-une-question-de-corpus-.html] (consulté le 01/06/16).
Mathis Rémi, 2010, « Google Ngram viewer : un extraordinaire corpus
mais… », sur le weblog À la toison d’or, billet du 20 décembre 2010,
en ligne [http://alatoisondor.wordpress.com/2010/12/20/google-ngram-
viewer-un-extraordinaire-corpus-mais/] (consulté le 01/06/16).
Chateauraynaud Francis, Debaz Josquin, 2010, « Prodiges et vertiges
de la lexicométrie », Carnet de recherche Socio-informatique et
argumentation, Hypotheses.org, billet du 23 décembre 2010, en ligne
[http://socioargu.hypotheses.org/1963] (consulté le 01/06/16).
Sussan Rémi, 2015, « Ngram, un bon outil pour les Sciences
Humaines ? », internetactu.net, article du 19 octobre 2015, en ligne
[http://www.internetactu.net/2015/10/19/ngram-un-bon-outil-pour-
les-sciences-humaines/] (consulté le 01/06/16).
Ce qu’il faut retenir au terme de ce chapitre…

– L’outil informatique n’identifie et ne trie que des chaînes de carac-
tères i. e. des formes graphiques qui ne correspondent pas à la notion
commune de mot.
– Le recours à des outils informatiques invite le chercheur à interroger
ses attentes ainsi que les outils qu’il souhaite mobiliser. Or, l’apparente
simplicité de certains outils et leur prise en main rapide masque un
certain nombre de questions pourtant utiles voire incontournables dans
ce type de démarche.
– L’utilisation de l’outillage informatique nécessite certains prérequis. Il
faut en amont :
38
• s’assurer que les données collectées et constituées en corpus répondent

aux questions et objectifs d’analyses découlant de la problématique de
recherche (cf. chap. 2 et 3) ;
• identifier les unités à traiter (mot, séquence de mots, phrase,
paragraphe, etc.) (cf. chap. 4) ;
• vérifier enfin que les outils permettent d’atteindre les objectifs visés
(cf. chap. 5 et 6).
Les prochains chapitres proposent des scénarios et exemples afin d’aider

le lecteur à s’approprier les méthodes d’analyse de données textuelles (ADT)
et à les adapter à des projets de recherche en analyse du discours.
Serge Fleury, Émilie Née, Christine Barats.
39
CHAPITRE II
CONSTITUER UN CORPUS EN ANALYSE DU DISCOURS,

UN MOMENT CRUCIAL
L’analyse outillée par un logiciel s’applique à des données organisées en

corpus. La constitution du corpus, étape centrale en AD, est dans ce cas
d’autant plus importante que l’outillage informatique impose des contraintes
en termes de format, de clôture, etc. Cette étape est aussi le résultat d’un
certain nombre de décisions et de choix qui doivent pouvoir être explicités : il
existe différentes façons de construire un corpus, en fonction des questions
que l’on se pose et de ce que l’on veut observer. Nous présentons dans ce
chapitre les principes généraux qui ont cours en AD. Nous donnons ensuite
des exemples concrets de structuration de corpus avant d’aborder le cas parti-
culier des corpus recueillis sur le web.
Le corpus en analyse du discours

Toute la réflexion sur le corpus qui accompagne les évolutions de l’AD
permet de dégager quelques principes qui, sans être normatifs, peuvent guider
le chercheur.
Principes de base
Le corpus est construit
Contrairement à ce que l’on pourrait penser parfois de façon un peu

naïve – et que pourrait laisser croire l’énorme quantité de données mises à
disposition par le web –, le corpus n’est pas un simple recueil de textes qui
seraient à disposition et qu’il suffirait de compiler. Il est construit en fonction
des questions et des hypothèses de recherche, voire même en fonction de la
conception que l’on a de l’analyse du discours, ou encore des outils ou des
catégories que l’on utilise. Il n’y a pas un modèle de corpus mais des corpus
41
construits et réfléchis en fonction d’hypothèses de travail, du type de données

étudiées. Le corpus est déjà « un point de vue sur des données discursives »
(Beacco, in Charaudeau et Maingueneau, 2002, p. 150 et Charaudeau, 2009),
un « dispositif d’observation » (Mazière, 2005) ou un « objet heuristique »
(Mayaffre, 2002) :
« [La “mise en corpus”] est la construction d’un dispositif d’observation propre
à révéler, à appréhender l’objet discours qu’elle se donne pour tâche d’inter-
préter » (Mazière, 2005, p. 11-12).
« Le corpus est un objet heuristique. C’est une construction arbitraire, une
composition relative qui n’a de sens, de valeur et de pertinence qu’au regard
des questions qu’on va lui poser, des réponses que l’on cherche, des résultats
que l’on va trouver » (Mayaffre, 2002, p. 4).
Le corpus est contextualisé
Le deuxième point important est que le corpus est nécessairement contex-

tualisé : comme on l’a dit en introduction (p. 12-13), ce qui intéresse l’AD, c’est
la façon dont le sens se produit en discours, dans l’interaction entre la dimen-
sion langagière et les contraintes extra-langagières qui pèsent sur les discours.
Prendre conscience de ces contraintes suppose nécessairement de s’informer
sur les conditions dans lesquelles sont produits les textes analysés : par qui,
pour qui, dans quelle visée, dans quelle institution, selon quels modèles, avec
quelles normes… L’interdisciplinarité trouve ici une de ses applications, car
la collaboration avec d’autres sciences humaines telles que l’histoire, la socio-
logie, les sciences de l’information et de la communication peut fournir à l’AD
des outils intellectuels pour construire des parcours interprétatifs.
Cette contextualisation des données à partir desquelles sont construits les
corpus peut également passer par une relation particulière avec les locuteurs
qui « produisent » ces données (encadré ci-contre).
 ZOOM – Corpus et terrain :

Quand les données qui constituent le corpus sont recueillies au plus
près de la situation où elles sont produites et des locuteurs d’où elles
émanent, la notion de corpus rejoint alors celle de terrain ; cette notion,
davantage utilisée dans des disciplines comme la sociolinguistique,
l’ethnographie, l’anthropologie linguistique, la sociologie (c’est-à-dire de
nombreuses disciplines des SHS) « désigne les situations ou les lieux
empiriques où le chercheur va collecter des données, construire des
corpus » (Boutet, in Charaudeau et Maingueneau 2002, p. 568-570).
Du point de vue de l’AD, le terrain fournit des éléments permettant de
42
Constituer un corpus en analyse du discours, un moment crucial
contextualiser les données qui constituent le corpus, d’en comprendre

les enjeux, les implicites. Mais cette notion implique aussi, dans les
disciplines où elle est employée, un certain rapport du chercheur aux
locuteurs (parfois appelés « informateurs ») auprès de qui il mène sa
recherche, rapport marqué par une dimension relationnelle forte. Pour
Christian Rivera et al., c’est quand le chercheur en AD est sollicité
pour répondre à une demande sociale que la notion de terrain doit être
intégrée à sa démarche : de simple source de données, le terrain devient
alors « lieu potentiel de production de connaissances entre chercheurs
et locuteurs-informateurs » (Rivera et al., 2008, p. 152), via par exemple
l’élaboration des questions de recherche en collaboration avec les
acteurs, ou « la mise en place de restitutions de la recherche ».
Indications bibliographiques
Rivera Christian, Brunner Pascale, Chaves Aline, Pordeus Michèle,

2008, « La notion de terrain de recherche : une perspective renouvelée
pour l’analyse du discours », in Pugnière-Saavedra F., Sitri F. et
Veniard M. (dir.), L’analyse du discours dans la société. Engagement
du chercheur et demande sociale, Paris, Champion.
Les informations relatives à la contextualisation des données participent de

ce qu’on appelle les métadonnées (littéralement, les données « sur » les
données). L’usage est de les rendre disponibles en même temps que le corpus,
parfois sous forme de notices détaillées. Le choix des catégories d’informations
renseignées au titre des métadonnées doit être mûrement réfléchi, surtout
quand le corpus est mis à la disposition de la communauté scientifique (Habert
2005, p. 126-135) sur le modèle, par exemple, des métadonnées généralement
associées aux corpus numériques oraux (comme ici [http://cocoon.huma-num.
fr/exist/crdo/collections.xql], consulté le 01/04/2016).
Le corpus est contrastif/comparatif
La plupart du temps, les corpus sont construits de façon à pouvoir

contraster ou du moins comparer les éléments qui le constituent. La dimen-
sion contrastive/comparative, même si elle ne revêt pas un caractère obliga-
toire en AD, permet, comme le souligne Patrick Charaudeau, de faire ressortir
les spécificités de l’objet étudié :
« Suivant l’hypothèse saussurienne qui dit que le sens naît de la différence,
le sens de discours ne peut être saisi que dans ce qui fait contraste, du fait de
43
la mise en regard de diverses séquences discursives. Ainsi les corpus doivent-

ils être construits selon certaines variables permettant de les comparer, des
variables externes ou internes » (2009, p. 53).
Quand on se situe du côté d’une AD outillée par l’informatique, et plus

particulièrement des méthodes héritées de la lexicométrie, la perspective
contrastive est inhérente à l’outil lui-même et aux méthodes qu’il intègre,
puisque les calculs visent à faire ressortir les caractéristiques des différentes
« parties » qui composent le corpus (les spécificités, cf. chap. 5) : la compa-
raison est à la base des calculs probabilistes. Peuvent alors se poser des
contraintes de taille, liées aux règles statistiques de base. Ces questions seront
développées aux chapitres 4 et 5.
Comme nous le verrons un peu plus bas en présentant quelques exemples
concrets, on peut constituer des corpus comparatifs en faisant jouer différents
types de variables : temps, espace, locuteurs, genre…
Le corpus en AD : de la clôture à l’ouverture,

de l’homogénéité à l’hétérogénéité
Alors que, dans ses premiers travaux, l’AD prônait la constitution de corpus
clos, déterminés par des « conditions de production stables et homogènes »
(Pêcheux, 1983, in Maldidier 1990, p. 295-302), elle en vient rapidement à
réfuter cette clôture du corpus en prenant en compte le caractère constituti-
vement interdiscursif et dialogique du discours (cf. p. 12). Cette nécessaire
ouverture est en particulier prônée par les historiens qui travaillent en AD,
comme Jacques Guilhaumou qui explique que « “le tournant interprétatif” de
l’analyse de discours révoque le corpus clos, remet en cause la confrontation
entre le corpus et le hors-corpus » (Guilhaumou, 2002, p. 1). Cette position
est partagée par Damon Mayaffre pour qui le recours au « hors corpus » est
nécessaire à l’interprétation du corpus :
« La linguistique de corpus ou la sémantique du discours ont définitivement
démontré que pas plus qu’on ne pouvait comprendre un mot sans la phrase
et la phrase sans le discours, on ne pouvait comprendre le discours sans
l’interdiscours, le texte sans le co-texte (sans même parler ici du hors-
texte), c’est-à-dire aussi et de manière plus générale, le corpus sans le
hors corpus » (Mayaffre, 2002, p. 5. Le gras est de l’auteur).
Pourtant l’analyse outillée et les calculs qu’elle suppose nécessitent un

« état de corpus » stable :
« [Le corpus d’étude] est fermé, au moins le temps d’une expérience, car
on ne peut compter que sur des ensembles stabilisés » (M. Tournier, article
« Lexicométrie », in Charaudeau et Maingueneau, 2002, p. 343).
44
Comment concilier cette stabilisation avec la primauté donnée en AD

à l’« ouverture » du corpus ? Plusieurs propositions peuvent être évoquées,
émanant de chercheurs en AD utilisant la textométrie.
La notion de « moments de corpus » chez les historiens du discours
Le « moment de corpus » est en quelque sorte, comme l’explique

J. Guilhaumou, un « sous-corpus » extrait d’une archive historique. Ce « sous-
corpus », fermé, est alors susceptible d’un traitement lexicométrique (ou texto-
métrique) dont les résultats peuvent ensuite être mis en relation avec des
énoncés hors corpus. Travaillant sur la Révolution française, c’est ainsi que
procède l’historien en analysant, en collaboration avec André Salem, chercheur
spécialiste de lexicométrie, un corpus chronologique constitué du journal du
Père Duchesne, écrit par le révolutionnaire Hébert :
« L’historien du discours s’intéresse d’abord aux ressources interprétatives des
textes sur la base d’une lecture d’archives dominée par la saisie de sources
hétérogènes. Il opère ainsi un travail configurationnel complexe, reconstitue
une intrigue, décrit un trajet discursif autour d’un événement, d’une notion-
concept, d’un itinéraire individuel (J. Guilhaumou, 1993).
Cependant, la solution d’un problème historique nécessite souvent la prise
en compte d’un “corpus restreint” au sein d’un trajet discursif, ce que nous
appelons un “moment de corpus” (J. Guilhaumou, D. Maldidier et R. Robin,
1994). Il convient alors d’en décrire les fonctionnements discursifs de manière
précise. La lexicométrie peut y contribuer à sa façon. […] L’étude de la répar-
tition et de la variation de ces formes, d’une partie du corpus à l’autre, en
particulier sur l’axe chronologique, peut permettre de repérer des indices de
fonctionnement discursif d’un grand intérêt pour la description locale de confi-
gurations textuelles (J. Guilhaumou, 1986) » (Guilhaumou, 1997, en ligne).
Comme on le voit, la méthode décrite par J. Guilhaumou, avec le va-et-vient

entre corpus et archive, analyse lexicométrique et interprétation d’énoncés,
correspond aussi à une démarche interdisciplinaire.
 ZOOM – Corpus et archive :

La notion d’archive occupe une place centrale dans le courant de
l’analyse du discours qui s’est constitué autour de Michel Pêcheux.
Cette notion, bien connue des historiens, est également développée par
Michel Foucault dans son ouvrage fondateur pour l’AD, l’Archéologie
du savoir (1969).
Dans son sens le plus courant, l’archive désigne l’ensemble des
énoncés attestés à partir desquels sont découpés des corpus. En analyse
45
du discours, on distingue ainsi les corpus obtenus par voie expérimen-

tale et les corpus obtenus par voie archivistique.
Dans un retour critique sur la notion, Jacques Guilhaumou, Denise
Maldidier et Régine Robin insistent sur la « complexité du fait archi-
vistique », dont le fonctionnement est « opaque » et qui ne peut être
pris comme une évidence (1994, p. 92-93). Ainsi l’archive est multiple
et hétérogène et ne se confond pas avec un discours institutionnel et
doctrinaire. C’est dans la multiplicité des sources disponibles que
J. Guilhaumou et D. Maldidier identifient l’émergence de la séquence
« du pain et X » dont la réalisation « du pain et la liberté » fait événement
en 1789 en liant la question des subsistances et le langage de la liberté.
Pour Michel Foucault, l’archive ne coïncide pas avec les énoncés attestés :
« c’est le système général de la formation et de la transformation des
énoncés » (1969, p. 171). Enfin, de son côté, « Dominique Maingueneau
introduit la notion d’archive pour rassembler des énoncés relevant d’un
même positionnement » (Charaudeau et Maingueneau, 2002, p. 62).
Le concept de « moment de corpus » est particulièrement opératoire

lorsqu’on veut suivre sur une longue période le trajet d’une notion ou d’un
énoncé. Les banques de données aujourd’hui disponibles pour les chercheurs
– comme la base Frantext – peuvent alors offrir des ressources intéressantes
(lire encadré ci-dessous).


Une recherche – « L’insécurité », de la sphère politique

à la sphère médiatique :
Dans sa thèse, située en AD et plus particulièrement en lexicomé-
trie et lexicologie politique, Émilie Née propose d’étudier l’usage du
mot insécurité dans les médias pendant la campagne pour les élections
présidentielles 2001-2002. Elle réunit dans un premier temps un grand
corpus de travail à partir des archives numériques et papier du journal
Le Monde. Le caractère notionnel du mot insécurité, ses liens avec la
notion politique de sécurité, son épaisseur dialogique et la mémoire
des discours que ce mot transporte avec lui, l’amènent à reconstituer
sur une très longue période le trajet sémantique et discursif du triplet
sûreté-sécurité-insécurité et à mettre en série et en dialogue des énoncés
appartenant à des périodes, à des sphères et à des genres divers.
En particulier, le corpus de travail du Monde – qui peut lui-même
être envisagé comme un « moment de corpus » – est mis en regard
46
avec deux moments de corpus correspondant à des périodes-clés de la

politisation de ces notions :
– les énoncés de la base Frantext (voir infra) contenant le mot
sécurité sur la période du xviiie siècle, complétés des textes de
l’homme politique Emmanuel Sieyès ainsi que des différentes
versions de la Déclaration des Droits de l’Homme (1788-1789) ;
– les énoncés de la base Frantext contenant le mot insécurité au
xxe siècle, complétés d’un corpus de discours experts, composé
à la fois d’ouvrages sociopolitiques fondateurs de la catégorie
sociopolitique d’insécurité et d’ouvrages sociologiques critiques
de cette même catégorie.
Nota bene : Conçue en même temps que le Trésor de la langue
française (Inalf-Atilf), dans les années 1960, la base Frantext (www.
frantext.fr) est une banque de textes écrits échelonnés du xxe au
xxie siècle. Cette base offre la possibilité de travailler sur les usages
d’un mot, d’une expression, d’un concept, sur le vocabulaire d’un auteur
ou d’un genre, à partir d’un corpus de travail délimité par le chercheur.
En septembre 2016, cette base contient 4 746 références (œuvres),
285 923 119 mots, du xxe au xxie siècle (lire aussi [http://www.cnrs.fr/
cw/fr/pres/compress/atilf/tlf.htm]).
Indication bibliographique
Née Émilie, 2010, Sûreté, sécurité, insécurité. D’une description

lexicologique à une étude du discours de presse : la campagne électorale
2001-2002 dans le quotidien Le Monde, thèse de doctorat, université
Sorbonne Nouvelle, Paris.
La notion de « corpus réflexif »
Historien du discours comme J. Guilhaumou, D. Mayaffre considère que

l’analyse doit pouvoir contrôler le recours au « hors-corpus » au moment de
l’interprétation et propose pour cela d’intégrer en quelque sorte le hors-corpus
au corpus. Cela passe par la constitution de « grands » voire de « très grands »
corpus. Le corpus ainsi constitué est dit « réflexif », c’est-à-dire qu’il contient
lui-même les ressources permettant son interprétation. De la sorte, la distinc-
tion entre « corpus » et « archive » se trouve effacée ; le corpus intègre même
sa propre bibliographie :
« Par la constitution de macro-corpus réflexifs, corpus et archive pourront se
confondre en grande partie. L’objet d’étude (tel discours politique par exemple)
et les sources (les archives éclairant ce discours, constituées d’autres discours,
47
d’autres prises de parole, et en Histoire toujours, par définition même de

l’archive, d’autres productions textuelles) seront rassemblés et reliés dans le
corpus, traités d’un même mouvement, par une même méthode. L’historien
là encore n’aura pas ou moins à sortir de son corpus et de son traitement
scientifique pour l’éclairer par un travail spécifique d’archive. Et le travail
même d’archive sera partie intégrante du travail de saisie et de constitution du
corpus » (Mayaffre, 2002, p. 6).
Une telle démarche – outre ses difficultés techniques – suppose malgré

tout que l’analyste élabore des hypothèses précises sur la nature du « hors-
corpus » qui lui permettra d’interpréter le corpus…
Les « corpus à géométrie variable »
Dans une perspective différente, celle de la sémantique interprétative de

François Rastier (lire encadré infra, p. 49), Bénédicte Pincemin, spécialiste
de textométrie, propose de construire des « corpus à géométrie variable » en
faisant porter l’analyse tantôt sur l’ensemble du corpus, tantôt sur les diffé-
rentes parties ou « sous-corpus » qui le constituent – et qui peuvent repré-
senter par exemple des genres différents :
« Pour épouser tour à tour les différentes dimensions de variation du
corpus, le parcours d’analyse textométrique peut en particulier prendre la forme
d’une alternance entre étude du corpus partitionné et étude de sous-corpus :
après une vue d’ensemble dressant une forme de typologie des différentes
parties du corpus selon un critère donné, chaque partie peut ensuite être
analysée pour elle-même et à son tour être étudiée dans ses variations
internes.
Face à un corpus mêlant plusieurs genres, on peut donc, dans un premier
temps, confirmer les contrastes dominants entre ces genres par une étude sur
le corpus entier. Puis, dans un second temps, chaque genre, pris comme sous-
corpus, peut faire l’objet d’une nouvelle recherche de contraste interne, où
observer plus finement les fidélités et les ruptures au genre, voire les anomalies
d’attribution générique » (Pincemin, 2012, p. 21).
Cette proposition s’inscrit dans le fil de la distinction opérée par F. Rastier

et B. Pincemin (1999) – et que reprend aussi Sophie Moirand (2004) – entre
différents niveaux de corpus : le corpus exhaustif, le corpus de référence, le
corpus de travail et le corpus d’élection :
(I) Un corpus existant, correspondant aux textes accessibles dont [l’analyste]
peut disposer, (II) un corpus de référence, constituant le contexte global de
l’analyse, ayant le statut de référentiel représentatif, et par rapport auquel se
calcule la valeur de paramètres (pondérations…) et se construit l’ensemble
des résultats, (III) un corpus de travail, ensemble des textes pour lesquels on
48
veut obtenir une caractérisation, et le cas échéant, (IV) un corpus d’élection,

sous-corpus du corpus de travail (Rastier et Pincemin, 1999, p. 85).
Ce type de démarche est particulièrement bien illustré par le travail de

thèse de Marion Bendinelli (2012), situé à l’intersection entre AD et ADT,
dans le courant de la « logométrie » initiée par D. Mayaffre. M. Bendinelli se
propose d’étudier les stratégies de pouvoir des candidats aux élections prési-
dentielles américaines (1960-2012), à travers l’analyse de l’usage des auxiliaires
modaux et semi-modaux (have to, will, must, need, ought to…) dans les débats
les opposant. Le corpus est construit en référence aux distinctions établies par
F. Rastier et B. Pincemin de la façon suivante :
– corpus existant = ensemble des productions relevant du discours
politique ;
– corpus de référence = ensemble des textes produits dans le cadre du
genre « débat politique médiatisé » ;
– corpus d’étude = débats entre deux candidats ;
– corpus de travail = séquences contenant des auxiliaires modaux ou
semi-modaux.
Construit sur une base générique, le corpus d’étude est découpé (ou
« partitionné », cf. chap. 4) selon différentes variables intégrées à deux bases
de données. La première base de données correspond à la variable locuteur
et à la variable diachronie ; la seconde base de données est élaborée de façon
à rendre compte de la variable sous-thématique. Ces différentes partitions
permettent de mettre en relation les résultats obtenus avec les variables identi-
fiées. L’emploi des auxiliaires modaux dans le corpus analysé est également
mis en relation avec leur emploi dans le corpus de référence.
 ZOOM – Sémantique interprétative :

La sémantique interprétative est un cadre théorique développé
par F. Rastier, dans le sillage de la sémantique structurale (Algirdas
Julien Greimas, Louis Hjemselv, Eugen Coseriu ou Bernard Pottier).
L’interprétation du sens se fait de façon différentielle (par opposi-
tion) et met en jeu différents niveaux de déterminations, du plus
local au plus global, du texte au discours (défini comme pratique
sociale) en passant par le genre. Dans ce cadre, le « discours »
est défini comme pratique sociale, ou domaine d’activité, et les
genres sont caractérisés par des faisceaux de traits morpho-syntaxi-
ques. La sémantique interprétative se distingue donc de l’AD
dans la façon dont elle conçoit le discours et dont elle conçoit le sens
(en particulier en relation avec l’histoire), ainsi que par la façon dont
elle appréhende les genres. Comme on l’a dit en introduction de cet
49
ouvrage, par le souci de la contextualisation des données, la réflexion

sur la constitution du corpus et le recours à l’outillage, en particu-
lier textométrique (cf. Pincemin, 2011), des points de rencontre
existent cependant et un certain nombre de travaux se situent à
l’intersection de la sémantique interprétative et de l’AD ou peuvent
intéresser l’AD. On citera entre autres les recherches de Céline Poudat
sur le genre de l’article scientifique en linguistique (voir en particulier
Poudat, 2006, 2014), de Mathieu Valette sur l’identification automatique
des textes racistes sur le web (voir par exemple Valette, 2014) ou les
propositions récentes de F. Rastier pour une « sémantique de corpus ».
Rastier François, 2011, La mesure et le grain. Sémantique de corpus,

Paris, Champion.
Pincemin Béatrice, 2011, « Sémantique interprétative et textométrie
– Version abrégée », Corpus, n° 10, consulté le 01/04/2016 [http://
corpus.revues.org/2121].
Poudat Céline, 2006, Étude contrastive de l’article scientifique de revue
linguistique dans une perspective d’analyse des genres, thèse pour le
doctorat en Sciences du Langage, université d’Orléans.
– 2014, « Du corpus au genre : l’exemple de linguistique », in Ablali
Driss, Badir Sémir, Ducard Dominique, Documents, textes, œuvres.
Perspectives sémiotiques, p. 193-208.
Valette Mathieu, Eensoo Egle, 2014, « Approche textuelle pour le
traitement automatique du discours évaluatif », Langue française,
n° 184, p. 109-124.
Globalement, on le voit, la clôture du corpus requise par les analyses

outillées n’est pas en soi un obstacle à « l’ouverture » : on peut stabiliser provi-
soirement un corpus dans un ensemble plus vaste, ou construire des corpus
comprenant différentes parties de niveaux différents, que l’on va éventuelle-
ment interroger à des moments différents de la recherche ou de façon diffé-
rente. Le corpus « ouvert » est aussi hétérogène, puisqu’il peut être constitué
d’ensembles de nature, de longueur ou de provenances différentes, que l’on
pourra soumettre à des traitements eux aussi différents. Par exemple, dans une
étude portant sur des rapports éducatifs produits par des travailleurs sociaux
dans le cadre de l’enfance en danger (Cislaru, Sitri, Pugnière-Saavedra [dir.],
2008), deux corpus ont été constitués :
– le corpus de travail, qui comprend les rapports éducatifs à proprement
parler, objet de l’analyse ;
50
– un corpus de contextualisation, qui comprend des articles de presse, des

rapports administratifs et des textes de loi portant sur le signalement
d’enfants en danger et la maltraitance. Ce corpus permet en particulier
de suivre le traitement différentiel de lexèmes comme « signalement »,
« maltraitance », « en danger », etc. et d’observer les phénomènes de
reprise d’un élément du corpus à l’autre (Cislaru et Sitri, 2012).
Un récent numéro de la revue Langages traite spécifiquement de cette
question de l’hétérogénéité des données, en adoptant le point de vue plus
vaste de l’analyse de corpus, et en donne différents exemples (Longhi et
Garric, 2012).
Il est donc important de bien comprendre que le corpus non seulement
n’est pas « donné » naturellement mais aussi qu’il n’est pas figé une fois
pour toutes : il peut se trouver reconfiguré au fil des interprétations et des
hypothèses nouvelles qui surgissent.
Ainsi l’interaction entre la formulation des questions de recherche et l’ana-
lyse des données peut-elle conduire à restructurer ou redéfinir le corpus, ce
que nous allons maintenant voir de façon plus concrète, en présentant diffé-
rents modes de structuration de corpus.
Quelques exemples de structuration du corpus

La diversité des objets et des problématiques possibles en AD s’accom-
pagne, ce qui n’est pas étonnant, d’une diversité parallèle dans les modes
de constitution des corpus, dont les synthèses de P. Charaudeau (2009) et
D. Maingueneau (2012) donnent un aperçu. D. Maingueneau (2009) propose
de distinguer deux façons d’aborder le discours et de constituer des corpus,
selon que l’on étudie des unités « en quelque sorte prédécoupées par les
pratiques verbales », qu’il appelle des unités « topiques » ou des unités qui
« traversent les frontières des textes et des genres de discours », qu’il appelle
« unités non topiques ». Les unités topiques peuvent être plus ou moins larges,
allant de la sphère d’activité au locuteur, mais pour D. Maingueneau elles
s’organisent nécessairement autour de la notion de genre de discours. L’étude
d’unités non topiques suppose que le chercheur rassemble des matériaux lui
permettant de saisir le parcours d’une « formule » (voir par exemple le travail
d’Alice Krieg-Planque sur la formule « purification ethnique », lire aussi
chap. 6, p. 190) ou d’analyser les manifestations discursives de questions de
société (« le discours colonial », la « responsabilité sociale et environnementale
de l’entreprise » [Krieg-Planque, 2007, p. 58]).
La structuration en genres de discours
La notion de genre a pris une place centrale en AD car elle permet de

rendre compte de l’articulation entre la matérialité langagière et les détermi-
51
nations, en partie extra-linguistiques, qui pèsent sur elle. Dans l’ensemble des
disciplines de l’ADT et même de la linguistique de corpus, les corpus sont
fréquemment constitués sur une base générique.
Une telle démarche semble d’autant plus « évidente » qu’il est facile à
première vue d’identifier les genres : les locuteurs regroupent naturellement
leurs productions dans des classes auxquelles ils donnent des noms. Cette
facilité est cependant souvent trompeuse, et l’évidence qu’il peut y avoir à
saisir des genres par des « noms de genre » et à regrouper des textes sur cette
base peut poser problème, car il n’y a pas nécessairement coïncidence entre
le nom, la fonction sociale des textes et leurs caractéristiques langagières
(Branca-Rosoff, 1999). Prenons l’exemple de l’éditorial. Il s’agit d’une rubrique
en général bien identifiable dans la presse écrite parce qu’elle occupe une
place fixe dans le journal et qu’elle est souvent accompagnée dans le paratexte
de la mention « éditorial ». En faisant varier les supports (presse quotidienne,
presse hebdomadaire, presse en ligne, presse spécialisée…), on observe cepen-
dant des différences importantes dans la taille, les thématiques abordées, la
prise en charge énonciative. Si l’on cherche à préciser les caractéristiques
linguistiques de l’éditorial en relation avec la fonction qu’il occupe dans les
médias, on sera alors amené à opérer des distinctions plus fines du type quoti-
dien/magazine, presse d’information/presse spécialisée, presse papier/presse
web… La réflexion sur la façon de définir et de circonscrire le genre apparaît
ainsi comme une étape incontournable de la démarche en AD outillée.
La plupart des recherches en AD outillée et même en ADT intègrent à
l’heure actuelle le genre comme paramètre de constitution du corpus et un
certain nombre d’entre elles font même de la caractérisation du genre le centre
de la recherche, comme les travaux de Céline Poudat ou de Fanny Rinck sur
le genre de l’article scientifique (Poudat, 2006) ou les recherches actuelles de
Virginie Lethier sur le genre de l’éditorial dans la presse quotidienne française
(Lethier et Montrichard, 2016). Nous y revenons au chapitre 6.
Structuration selon les sources énonciatives
Analyser le discours d’un locuteur constitue une question de recherche

banale, en particulier dans le domaine de l’analyse du discours politique : on
peut ainsi chercher à caractériser le discours de Nicolas Sarkozy, de Ségolène
Royal, de Marine Le Pen… Il convient cependant de préciser ce qu’on entend
par « discours » de S. Royal : il s’agit bien évidemment des productions de
cette femme politique en tant qu’elle est une femme politique, c’est-à-dire des
productions qui revêtent un caractère public. On est alors amené à réfléchir
aux différentes situations qui constituent cette parole publique, c’est-à-dire
aux différents genres qui correspondent à ces situations : discours officiels,
entretiens dans la presse, conférences de presse, communiqués voire même
textes publiés sur un blog ou une page Facebook ou tweets… La question
52
dès lors se pose de savoir quelle stratégie permet le mieux de caractériser le

discours d’un homme ou d’une femme politique : prendre en compte la plus
grande diversité possible de genres, ou au contraire se centrer sur un seul
genre ?
Un certain nombre de travaux à l’intersection de l’AD et de l’ADT visent à
caractériser le discours d’un locuteur par son vocabulaire, dimension qui sera
détaillée dans le chapitre 6. On citera par exemple l’étude de Jean-Claude
Deroubaix et Corinne Gobin (2000) sur le vocabulaire des discours prononcés
par le roi Baudoin (1961-1993). Les auteurs constituent un corpus sur une
base générique, en rassemblant l’ensemble des discours prononcés par le roi,
en se focalisant sur les discours à la radio ou à la télévision. Leur étude, qui
s’intéresse autant au vocabulaire répété d’un discours à l’autre qu’aux « innova-
tions », permet de mieux saisir le statut et la fonction occupée par la personne
royale dans les institutions politiques belges.
On peut également s’intéresser non pas à un locuteur singulier mais au
discours d’un parti politique ou plus largement d’une instance. Dans ce cas,
on constituera plutôt un corpus de textes d’appareil (programmes, résolutions).
Ainsi, de nombreux travaux du laboratoire de lexicométrie de Saint-Cloud
portent sur les résolutions de congrès des centrales syndicales. Voici comment
les chercheurs présentent les principes de constitution d’un corpus qui, au
bout de quinze années de recueil, regroupe l’ensemble complet de toutes les
résolutions confédérales françaises sur la période 1971-1990 :
« Pièce maîtresse de notre apport à la connaissance du discours confédé-
ral français, son homogénéité est garantie par les constantes d’énonciation
suivantes :
– temps : la période 1971-1990, année après année ;
– émetteurs : les quatre centrales interprofessionnelles et inter-catégorielles
considérées par l’État comme « représentatives » : la CGT, la CFDT, FO et
la CFTC ;
– origine : textes confédéraux, de niveau national ;
– genre : résolutions votées à la majorité requise dans les statuts ;
– lieu : congrès confédéraux nationaux ;
– source : la publication écrite la plus officielle fournie par chaque centrale »
(Hetzel et al., 1993, p. 4).
Structuration selon les espaces ou les sphères d’activité
On peut également s’intéresser à ce que M. Bakhtine appelle des « sphères

d’activité humaine » comme la sphère médiatique, la sphère juridique, la
sphère politique… ; on parle alors fréquemment de « discours » médiatique
ou de « discours » politique. La question qui se pose ici est de savoir comment
constituer un échantillon de textes représentatifs de la sphère en question.
53
U


ne recherche – La médiatisation du « classement
de Shanghaï » :
Dans le cadre d’une recherche sur la médiatisation, en France,
du classement académique de l’université Jiao Tong de Shanghai, la
constitution d’un corpus médiatique a nécessité d’interroger plusieurs
bases de données (Factiva et Europresse) archivant la presse française,
papier et en ligne, afin de collecter tous les articles qui avaient abordé
ce classement de 2003 à 2014. La collecte a été effectuée en plusieurs
étapes afin d’affiner les mots-clefs retenus et de vérifier l’exhaustivité
des bases de données. L’objectif de cette recherche était de consti-
tuer un corpus représentatif de la presse généraliste (par opposition à
une presse dite spécialisée) sur la moyenne durée afin d’observer les
modalités d’émergence et de circulation de ce classement.
Un premier corpus exploratoire a été constitué afin de vérifier la
pertinence des critères de collecte et la représentativité de la sphère
médiatique :
« À partir de la base de données Factiva, nous avons collecté tous
les documents abordant “classement mondial”, “classement interna-
tional” et “classement de Shanghai” de juin 2003 à décembre 2010,
soit 456 documents (articles, brèves, interviews, tribunes…) et environ
300 000 occurrences. Ils ont été publiés dans la presse nationale et régio-
nale française et francophone (quotidiens, hebdomadaires, mensuels,
journaux en ligne et dépêches d’agence hors AEF, soit 62 sources diffé-
rentes au total) » (Barats et Leblanc, 2013, p. 69).
Une deuxième étape de la recherche a porté sur un corpus plus

étendu, de 2003 à 2014, et a conduit à l’identification de 118 sources
différentes, attestant de la diffusion et de la circulation de ce classe-
ment. Le corpus final analysé (2003 à 2014) comporte plus d’un million
d’occurrences.
Barats Christine, Leblanc Jean-Marc, 2013, « Généalogie de la

co-construction médiatique du “classement de Shanghai” en France.
Corpus de presse et usages sociodiscursifs », Mots, n° 102, p. 68-69.
Structuration selon les moments discursifs
Un certain nombre de travaux qui portent sur le discours des médias

constituent un corpus autour d’un « moment discursif », notion développée
en particulier par Sophie Moirand, pour qui cette expression désigne
54
« le surgissement dans les médias d’une production discursive intense et diver-

sifiée à propos d’un même fait, par exemple les attentats du 11 septembre
2001, la “surprise” lors du premier tour de l’élection présidentielle en France
le 21 avril 2002, le déclenchement de la guerre en Irak en 2003, la canicule
de l’été 2003 » (Moirand, 2004, p. 73).
Le choix d’un tel principe de structuration des corpus n’est pas sans
conséquences :
« Les corpus ainsi constitués se caractérisent par une hétérogénéité multi-
forme : sémiotique (pour la presse écrite, dans l’aire de la page de journal),
textuelle (différents genres contribuent à l’événement) et énonciative (textes
présentant des formes variées de discours autres : citations, allusions). Il s’agit
d’étudier non pas directement des événements mais, dans le contexte de
moments discursifs émergeant à l’occasion d’événements, les conséquences
produites sur les formes de discours mobilisées et leur rapport avec la consti-
tution du sens social de l’événement » (ibid.).
Le nécessaire croisement des critères
Dans la réalité, il est impossible de constituer un corpus à partir

d’un seul de ces critères, même s’il est dominant.
Le critère du genre est souvent croisé avec d’autres critères : chronologie,
locuteurs, voire thèmes. Pour étudier le genre de l’article scientifique par
exemple, on devra sélectionner certaines disciplines, et se fixer des bornes
chronologiques. C’est bien souvent de façon contrastive que l’on fait apparaître
les caractéristiques d’un genre. Par ailleurs, au sein d’un même genre, on
peut affiner la description en faisant jouer d’autres variables : on pourra
contraster des locuteurs différents ou bien mettre en évidence des évolutions
diachroniques.
Dans leur travail sur le genre de l’article scientifique, C. Poudat et F. Rinck
(2006) testent l’hypothèse de la permanence du genre au-delà des variations
individuelles. Pour cela elles mobilisent deux corpus : un corpus « genre »
constitué de 224 articles extraits de 32 numéros de revues (soit 11 revues)
francophones de sciences du langage, dans lequel la variation stylistique est
neutralisée (226 auteurs y sont représentés) et un corpus « Auteurs », qui
rassemble 130 articles de 15 linguistes français reconnus dans le champ. Les
deux corpus sont étiquetés du point de vue morpho-syntaxique (cf. chap. 3
et 4 pour la notion d’étiquetage) et des calculs statistiques sont menés sur
ces descripteurs. Leur analyse permet ainsi de faire apparaître à la fois des
« lieux de stabilité dans la variabilité de l’article », ce qu’elles appellent aussi
un « noyau générique », et « la visibilité des styles d’auteur » dans le genre
(voir également chap. 6, « Comparer et caractériser des discours : la catégorie
du genre », p. 193-195).
55
U


ne recherche – Les professions de foi aux élections légis-
latives (1958-2007) :
Magali Guaresi analyse d’un point de vue historique et politique
un corpus diachronique de professions de foi électorales en faisant
intervenir une variable « sexe (des candidats) » :
« Le corpus de travail rassemble la quasi-exhaustivité des professions
de foi des candidates élues aux élections législatives […]. Un échan-
tillon raisonné de textes d’hommes sélectionné selon une logique chrono-
logique, politique et géographique a été constitué pour la comparaison :
pour un texte de femme élue a été retenu un texte d’homme élu à la
même date, du même bord politique et de la même zone géographique.
L’ensemble compte 719 textes pour 463 236 occurrences » (Guaresi, 2015,
p. 16).
Le corpus, homogène sur le plan générique, est ainsi divisé en sous-
ensembles en fonction du sexe des candidats, de l’année et des partis
politiques. Cela permet de faire apparaître les thématiques développées
par les femmes candidates et leur évolution au cours du temps.
Guaresi Magali, 2014, « Les mots des politiques du genre dans les
professions de foi aux élections législatives françaises (1958-2007) »,
Synergies Italie, n° 10, p. 33-48.
– 2015, « Les thèmes dans le discours électoral de candidature à la
députation », Mots, n° 108, p. 15-37.
La combinaison des critères devient nécessaire quand on travaille

sur des unités « non topiques », c’est-à-dire qui ne correspondent
pas à des découpages préétablis (locuteurs, genres…) (cf. p. 51), en
particulier dans la presse.
Un certain nombre d’études portent sur la circulation d’un mot, d’un
syntagme, d’une expression ou d’une formule dans le discours médiatique
(voir aussi chap. 3 et 6). Dans un corpus de presse écrite, facilement acces-
sible et « traitable » par une analyse outillée, on sélectionne les articles qui
contiennent la forme objet de l’analyse au sein d’un vaste ensemble qui peut
être constitué de différentes façons :
– à partir d’un seul support de presse : (le journal Le Monde par exemple,
voir Née, 2009, 2012 et encadré supra, p. 46-47) ;
– à partir de supports contrastés (les journaux Le Figaro et Libération, par
exemple, voir le travail de Melani Schröter et Marie Veniard, 2016 et
encadré infra) ;
56
– dans une base de données, en constituant un corpus hétérogène mais

représentatif de la « presse généraliste » (Barats et Leblanc, 2013, lire
encadré supra, p. 54).
Quelles que soient les questions que le chercheur se pose, il n’y a pas de
corpus « clé en main » mais un corpus cohérent par rapport à des hypothèses
et une problématique : la définition des critères de collecte devra tenir compte
du lieu d’énonciation et de son contexte.
Une recherche – Un corpus contrastif sur l’immigration :



Dans le cadre d’une recherche sur les discours médiatiques sur
l’immigration (à partir de mots-clés tels que intégration, multiculturel,
communauté, diversité…), Melani Schröter, Marie Veniard, Charlotte
Taylor et Andreas Blätte ont constitué un corpus contrastif en quatre
langues, le français, l’anglais, l’allemand et l’italien (Schröter et Veniard,
2016, Taylor, 2014). Un corpus contrastif présente des exigences
élevées en terme de comparabilité des données : on ne peut comparer
que ce qui est comparable. L’équipe a donc fait le choix de recueillir,
pour chacun des pays, les articles concernant l’immigration dans deux
quotidiens, l’un à la droite de l’échiquier politique (Le Figaro pour la
France, The Times pour la Grande-Bretagne, par exemple) et l’autre à
la gauche (Libération et The Guardian pour ces deux mêmes pays). On
peut ainsi comparer au niveau national selon un axe politique droite-
gauche, ou au niveau des différents pays, pour une même orientation
politique, avec ce que cela suppose de caractéristiques politiques natio-
nales. Le détail de la constitution de la version française du corpus, et
notamment la question du choix des mots-clés de recueil des corpus,
est développé dans le chapitre 3 (scénario 2).
Schröter Melani, Veniard Marie, 2016, « Contrastive Analysis

of Keywords in Discourses. Intégration and Integration in French
and German discourses about migration », International Journal of
Language and Culture, vol. 3, n° 1, p. 1-33.
Taylor Charlotte, 2014, « Investigating the representation of migrants
in the UK and Italian press : A cross-linguistic corpus-assisted
discourse analysis », International Journal of Corpus Linguistics,
vol. 19 (3), p. 368-400.
57
Pour aller plus loin sur l’approche contrastive en AD
Claudel Chantal, Pordeus Ribeiro Michele, Pugnière-Saavedra

Fréderic, Tréguer-Felten Geneviève et von Münchow Patricia,
2013, Cultures, discours, langues. Nouveaux abordages, Lambert
Lucas, Limoges.
Le cas des corpus recueillis sur le web

Dans le cas des données issues du web (comme dans le cas de tweets,
commentaires en ligne, etc.), le chercheur est confronté à des données extrê-
mement hétérogènes : texte alphanumérique mais aussi horodatage, nombre
de followers dans le cas de Twitter. De plus, la structure même des données,
qui n’est pas stabilisée, peut poser des problèmes pour une analyse systéma-
tique. En particulier, la prise en compte ou non de la structuration endogène
des données textuelles (c’est-à-dire produite par les usagers, ceux qui produi-
sent les textes analysés) se pose de façon plus aiguë pour les corpus issus du
web en raison de leur instabilité (les contenus évoluent et peuvent dispa-
raître), de leur hétérogénéité (supports, locuteurs) et aussi de l’émergence de
nouveaux types de productions verbales (lire encadré ci-dessous sur le cas des
pétitions en ligne).
Une recherche – Les pétitions en ligne :



Dans le cadre d’une recherche sur le pétitionnement en ligne (projet
ANR APPEL), les chercheurs ont vite été confrontés à l’hétérogénéité
des données. Ce sont, par exemple, les commentaires qui accom-
pagnent les signatures des pétitions en ligne, la ponctuation, ou les
graphies, lesquelles font l’objet d’usages variés, marqués notamment par
la répétition d’un même caractère : « STOOOOOOOOP ! ! ! ! », « VRRR
RRRUUUUMMMMMMMmmmmm, BZZZZZZZZZzzzzzzzrrrrrruuum
mm, GRRRRRRRRRUUUUMMMMmmmmmmmm… assez ! ! ! », par
exemple. Ces phénomènes d’étirements ainsi que l’emploi de majus-
cules, typiques des formats et pratiques d’écriture observables dans les
forums ou échanges en ligne, visent ici à signifier l’emphase. Les parti-
cularités des corpus issus du web et le volume des données recueillies
vont ainsi obliger à définir des règles de non-homogénéisation ou bien
d’homogénéisation partielle ou totale des graphies, en mesurant les
incidences de ces transformations sur le type de résultats produits. La
transformation des données brutes n’est pas un acte anodin.
58
La plateforme de pétitionnement en ligne étudiée par les chercheurs

propose neuf catégories de rubriques aux porteurs de pétition : Art
et culture ; Droits de l’Homme ; Environnement, Nature et écologie ;
Humour/Insolite ; Loisirs ; Politique ; Protection animalière ; Social ;
Autres. Or cette structuration endogène s’est révélée source de diffi-
cultés, car ces catégories peuvent faire l’objet d’interprétations et
d’usages variés. Les chercheurs ont donc été conduits à interroger à
la fois les usages des locuteurs et l’organisation même induite par le
dispositif. Ils ont ainsi pu observer que la catégorie « Autres » recueille
le plus grand nombre de pétitions, ce qui constitue un indice des diffi-
cultés liées à la catégorisation proposée par le dispositif et des stratégies
adoptées par les usagers pour la contourner. De plus, une pétition sur
le même thème peut entrer dans différentes catégories.
Barats Christine, Dister Anne, Gambette Philippe, Leblanc Jean-

Marc, Leblanc-Peres Marie, 2016, « Analyser des pétitions en
ligne : potentialités et limites d’un dispositif d’étude pluridiscipli-
naire », JADT’2016, Nice, juin 2016 [https://jadt2016.sciencesconf.
org/83043/document] (consulté le 20/06/16).
Les corpus recueillis sur le web sont ainsi sources de nouveaux questionne-
ments pour les chercheurs, et posent en des termes renouvelés des questions
anciennes : outre que la question des « genres » du web est complexe – sans
doute n’a-t-on pas intérêt à confondre support médiatique et genre – les
« textes » recueillis sont souvent de longueur très différente, et présentent
une sémiotique hétérogène, difficile à prendre en compte dans une analyse
automatisée (voir par exemple les travaux de Pierre Halté sur les émoticônes,
Halté, 2013). L’hétérogénéité textuelle est constitutive du support : les pages
se renouvellent constamment, des liens hypertexte renvoient à d’autres
textes, le lecteur peut laisser des commentaires, les fils de discussion sont
hiérarchisés…
Toutefois, de nombreuses initiatives sont en cours pour constituer des
corpus raisonnés d’écrits numériques. L’un des objectifs du projet Coméré,
mené dans le cadre du consortium Corpus Écrits, est de mettre à la disposi-
tion de la communauté des linguistes des corpus issus de la communication
médiée par ordinateur (CMC) : corpus de tweets, de SMS, de mails, de pages
de Wikipédia, de blogs, de forums de discussion [https://hdl.handle.net/11403/
comere] (consulté le 01/04/16). Pour une étude de ce type de corpus, on peut
consulter, entre autres, le travail de Céline Poudat, Laurent Vanni et Natalia
59
Grabar (2016), sur les pages de discussion accompagnant l’élaboration des

définitions de l’encyclopédie libre Wikipédia.
Enfin, à la suite de Marie-Anne Paveau (2012, 2013a et b, 2014), plusieurs
chercheurs insistent sur la dimension « technolangagière » de ce type d’énoncé
(Longhi, 2013, par exemple, dans le cadre d’une analyse sur le tweet politique),
dont « la technique est un composant structurel » et non « un simple support »
(Paveau, 2013a : 3) – le hashtag ou mot-dièse, segment langagier précédé du
caractère # qui permet d’organiser l’information sur Twitter, est une forme
technolangagière. Une analyse écologique « qui porte sur l’ensemble du dispo-
sitif de production verbale et non sur un seul de ses éléments » (Paveau,
2013b) est alors nécessaire.
!
Pour terminer ce chapitre et en récapituler les principaux éléments,
le lecteur pourra s’entraîner avec les études de cas ci-dessous…
– Je me demande quels thèmes aborde le Président de la République dans

ses discours officiels, tout au long de son quinquennat.
 Qu’appelle-t-on « discours officiels » : sont-ils définis à partir d’un
lieu, d’une occasion ? S’agit-il des discours disponibles sur le site de
l’Élysée ?
 Quel empan chronologique ? Cinq ans ? Plus ?
 Quelle structuration du corpus ? Par année ? Par « occasion » ?
 Faut-il contraster les discours officiels avec des prises de parole moins
officielles ?
– Je me demande si le positionnement politique du Front National a évolué

au fil des années.
 Quelles productions me permettront de caractériser le positionnement
politique d’un parti ? Des textes doctrinaires ? Des discours officiels ?
Des entretiens ? Des discours produits par le chef du parti ?
 Quel empan chronologique choisir ?
– Je voudrais étudier la représentation de la femme dans la presse

généraliste.
 Comment constituer un corpus de presse généraliste ? Qu’appelle-
t-on « presse généraliste » ?
 Comment sélectionner un sous-corpus me permettant de traiter mon
objet d’étude ? À partir des titres des articles ?
 Comment sélectionner ensuite les énoncés pertinents ? À partir de
l’occurrence de la forme femme ou de ses dérivés ? À partir de noms
propres ?
60
 Comment les variables « genre » et « rubriques » interviennent-elles

pour affiner le questionnement : par exemple, observe-t-on des varia-
tions au sein d’un même support de presse en fonction du genre ou
de la rubrique ?
– Je m’interroge sur les spécificités du discours politique (en quoi relève-

t-il de la « langue de bois » par exemple).
 Comment définir le discours politique ?
 Avec quel autre discours le contraster ?
– Je me demande si les journalistes rédigent de la même manière un article

d’information et un éditorial.
 Comment définir le genre de l’article d’information et de l’éditorial ?
 L’éditorial est-il rédigé de la même façon dans la presse quotidienne
et la presse magazine ? Il semble que non. Alors tenir compte de ces
distinctions en constituant le corpus.
– Je veux analyser l’usage de Twitter par les femmes politiques, par où

commencer ?
 Quelles sont mes hypothèses sous-jacentes ? L’existence d’usages
différenciés entre les hommes et les femmes, entre les femmes de
différents partis ?
 Comment construire un corpus contrastif en fonction de ces
hypothèses ?
 La perspective est-elle synchronique (étudier ces usages à un
instant T) ou diachronique (prendre en compte l’évolution des
usages) ?
!
La constitution du corpus est le résultat d’un certain nombre de décisions
entraînant des choix qui doivent être mûrement réfléchis et justifiés
théoriquement.
Même si l’analyse outillée nécessite pour les analyses ponctuelles de
clôturer et de stabiliser le corpus selon des critères clairement explicités, le
corpus n’est pas pour autant figé, il peut évoluer et être recomposé au fil de la
recherche, qui va de la construction du corpus à l’interprétation et fait retour
vers la construction du corpus.
La démarche de recherche est ainsi itérative et implique un va-et-vient
constant entre l’approche quantitative et le retour au texte pour des analyses
qualitatives et en contexte.
61
La constitution d’un corpus analysable automatiquement entraîne néces-

sairement la perte des informations de nature sémiotique (gestes et mimiques
à l’oral, images à l’écrit), dont l’étude suppose une approche de nature diffé-
rente (voir aussi chap. 6).
Frédérique Sitri, Christine Barats.
62
CHAPITRE III
CONSTITUER UN CORPUS EN TROIS SCÉNARIOS
Le chapitre précédent a été l’occasion de passer en revue les principes

qui guident la constitution d’un corpus en analyse du discours. Nous allons
maintenant traiter des implications pratiques liées à l’informatisation des
données et à l’automatisation des analyses :
1. la délimitation d’un corpus ;
2. le recueil ou la collecte de données brutes ;
3. le format des données brutes et leur formatage pour une exploitation par
des outils logiciels (on parle aussi d’encodage des données et d’import
dans les outils logiciels) ;
4. la structuration, le partitionnement puis le balisage des données, c’est-
à-dire l’insertion de balises qui vont marquer et indiquer les structures
du texte ainsi qu’un certain nombre d’informations et de variables perti-
nentes pour l’analyse ;
5. l’enrichissement des données par des annotations de différents niveaux
pour l’analyse.
Ces questions techniques et pratiques liées au traitement informatique
de corpus et à la manipulation de documents numériques sont aujourd’hui
abordées dans plusieurs ouvrages (lire par exemple Habert et al., 1998, Habert,
2005). C’est pourquoi, plutôt que de traiter ce sujet de manière exhaustive (un
seul chapitre n’y suffirait pas !), nous présentons trois scénarios de constitution
et de préparation de corpus, qui répondent tous à une problématique d’analyse
du discours (voir aussi chap. 2 et 6) :
– Scénario 1 – Un corpus médiatique autour d’une expression, d’un énoncé,
d’une construction ou d’un mot-notion (c’est-à-dire autour d’une forme
langagière) (p. 64-93) ;
– Scénario 2 – Un corpus sociopolitique autour d’un thème (p. 94-97) ;
– Scénario 3 – Un corpus politique de discours de campagne électorale
(autrement dit un genre) (p. 97-100).
63
Inspirés de travaux réalisés avec des étudiants de master (scénario 1), de

travaux existants ou de recherches en cours (scénarios 2 et 3), ces scéna-
rios à la fois correspondent à différents modes de constitution de corpus
présentés dans le chapitre précédent et en même temps illustrent différents
protocoles à mettre en œuvre lorsqu’on se lance dans une analyse informa-
tisée. Ils permettent également de pointer plusieurs problèmes que l’on peut
rencontrer. Chacun de ces scénarios sera l’occasion de mettre l’accent sur
un certain nombre de principes à respecter et de proposer au lecteur des
éclairages documentaires (histoire d’une notion, d’une pratique, d’un corpus
ou actualité d’un débat dans le champ de l’ADT) et des fiches pratiques (à la
fin de cet ouvrage).
Scénario 1 – Un corpus médiatique autour d’une expression,

d’un énoncé, d’une construction ou d’un mot-notion
Nous avons vu dans le chapitre précédent qu’un certain nombre d’études

portaient sur la circulation dans le discours médiatique d’un mot, d’un
syntagme, d’une expression ou d’une formule (chap. 2, « Le nécessaire croise-
ment des critères », p. 55). Le scénario qui suit est une illustration de ce mode
de constitution de corpus.
Nous partons de l’exemple suivant :
« Je souhaite travailler sur la diffusion et le sens construit dans les médias de
l’énoncé Je suis X (Je suis Charlie, Je suis…) depuis les attentats contre Charlie
Hebdo de janvier 2015. »
Étape 1 – Quel est mon objet d’étude, quel est mon corpus ?
Choix des observables
Un énoncé (J/je suis Charlie) et ses variantes J/je suis X vont faire l’objet de
l’analyse et donner lieu à la constitution d’un corpus dans la sphère média-
tique. Les objectifs de recherche formulés supra (diffusion et sens construit
de l’énoncé Je suis X) conduisent le chercheur à « construire le parcours »
(Maingueneau, 2012, p. 9) d’un énoncé constitué d’un matériau linguistique
mêlant lexique et syntaxe (J/je suis + Nom Propre ou DET Nom commun),
dans une unité topique, c’est-à-dire une unité prédécoupée par les pratiques
verbales (cf. chap. 2, p. 51).
L’énoncé Je suis X est-il un slogan ou une formule (Krieg-Planque, 2009) ?
C’est une des interrogations préliminaires à laquelle cette recherche tente de
répondre. De plus, avant même de constituer un corpus, on pourra s’interroger
sur le statut et l’histoire récente d’un tel énoncé, dont la structure reprend
un énoncé prononcé en 1963 par John Kennedy à Berlin-Ouest (Ich bin ein
64
Constituer un corpus en trois scénarios
Berliner) et se rapproche de celle d’un slogan de Mai 1968 (Nous sommes tous
des Juifs allemands).
Délimitation du corpus : de la sphère médiatique au corpus de presse
Comme nous avons pu le voir au chapitre précédent, on trouve dans la

sphère médiatique des supports diversifiés et un ensemble de données vaste
et hétérogène. Quel support sélectionner ? La télévision ? La presse d’informa-
tion papier ? La presse en ligne (dont les pureplayers, ces médias qui existent
exclusivement en ligne) ? La presse magazine ? Un choix doit être fait, qui sera
motivé scientifiquement et qui va nécessairement avoir des conséquences sur
la construction de la problématique de recherche, sur le type de données à
traiter, sur les analyses ainsi que sur l’interprétation des résultats.
Le piège à éviter consiste à regrouper des textes uniquement en fonction
de leur disponibilité ou de leur facilité d’accès. On aboutit alors non pas à un
corpus constitué de manière raisonnée mais à un « regroupement opportu-
niste » de documents dont la « mise en relation n’a pas été réellement pensée »
(Habert et al., 1998, p. 35, lire aussi « Zoom » infra).
 ZOOM – Quelques précisions terminologiques avant de se

lancer :
Regroupement opportuniste vs regroupement raisonné :
Benoît Habert et al. (1998) opposent deux démarches de rassem-
blement de données correspondant à des textes et des discours. La
première, qu’ils qualifient de « regroupement opportuniste », consiste
à réunir des textes dans un même ensemble en tenant uniquement
compte de leur facilité d’accès. Dans la deuxième démarche, qualifiée
de « regroupement raisonné », la réunion de textes est guidée par une
hypothèse de recherche explicite. C’est cette démarche qui préside à
la constitution d’un corpus.
Collection de textes : terme emprunté à B. Habert et al. (1998).
Une collection de textes désigne un ensemble de textes réunis dans
un même lieu et renvoyant à un ensemble exhaustif. Les bases Factiva
et Europresse (voir infra), qui archivent tous les numéros d’un certain
nombre de journaux et revues depuis sur plusieurs décennies, sont des
exemples de collections.
Réservoir de corpus : terme repris à Gabriel Illouz, Benoît Habert
et al. (1999). On désigne ainsi un corpus évolutif et « ouvert », obéis-
sant à un regroupement raisonné de données, contenant des données
65
souvent hétérogènes mais échantillonnées, structurées et documentées,

représentatives d’un ensemble plus grand. Un tel corpus peut donner
lieu à la constitution de corpus plus restreints et spécifiques répondant
à des questions de recherche particulières.
L’ensemble des textes réunis dans la base Frantext (Inalf-CNRS
[http://www.frantext.fr/], consulté le 01/06/2016), le corpus Scientext
(Lidilem-Grenoble [http://scientext.msh-alpes.fr/scientext-site/spip.
php ?article1], consulté le 01/06/2016), les grands corpus oraux (Corpus
de Référence du Français Parlé (CRFP, DELIC), Corpus de Français
Parlé Parisien (CFPP2000 [http://cfpp2000.univ-paris3.fr], consulté le
01/06/2016), la base du projet ORFEO ([http://www.projet-orfeo.fr/],
consulté le 01/06/2016), le corpus ESLO ([http://eslo.huma-num.fr/],
consulté le 01/06/2016) peuvent être considérés comme autant de
réservoirs de corpus. Notons néanmoins que la plupart de ces corpus
sont plutôt constitués dans un objectif de linguistique de corpus
– représenter la langue par ses usages – et ont une visée patrimoniale.
Parallèlement aux réservoirs de corpus, un mouvement général de
partage de corpus a lieu ces dernières années. Par exemple, dans le
champ de l’analyse du discours politique, on relève pour la France
plusieurs corpus en ligne ou projets de partage de corpus :
– le corpus en ligne Discours2007 (J. Véronis† [http://sites.univ-
provence.fr/veronis/Discours2007/], consulté le 01/06/2016) ;
– la base Webhyperbase (Nice-BCL [http://hyperbase.unice.fr/],
consulté le 01/06/2016) ;
– la base Textopol (UPEC [http://textopol.u-pec.fr/], consulté le
01/06/2016).
Ces derniers corpus sont interrogeables, peuvent servir de corpus
de comparaison et dans certains cas donner lieu à la constitution de
nouveaux corpus, mais il faut tenir compte du fait qu’ils ont été façonnés
en fonction de l’objectif de recherche qui a guidé leur constitution.
Quel corpus concevoir pour étudier l’énoncé Je suis Charlie ? Dans le

cas présent, nous choisissons de délimiter notre champ d’observation à la
presse d’information généraliste (dite aussi presse d’opinion) pour les raisons
suivantes :


c’est un espace contraint par des pratiques professionnelles et des
logiques de presse (charte éditoriale, périodicité, positionnement,
support de diffusion, charte graphique…), où les informations sont
co-construites par une diversité d’acteurs (journalistes, sources d’infor-
mation, communicants…) ;
66


c’est un espace de production et de circulation de discours, un lieu où
se rencontrent les dires de différentes communautés discursives (journa-
listes, experts, citoyens, politiques, représentants d’associations, etc.) ;


c’est une « plateforme de lancement » des formules et le lieu privilégié
de leur intensification (Krieg-Planque, 2003, 2009), et par conséquent
un observatoire de prédilection pour qui s’intéresse à la circulation des
mots et des discours et aux rapports de force qui s’exercent dans et par
les discours (Foucault, 1971) ;


c’est un discours de référence en ce sens qu’il va être très souvent
repris dans d’autres médias. Par exemple, les journaux télévisés vont
souvent reprendre des informations parues dans Le Monde, Médiapart,
Libération, etc. ;


la presse offre une diversité de genres de discours (Moirand, 2007,
p. 5) : brèves, articles d’information, tribunes, éditoriaux, portraits,
interviews, critiques, etc. sont autant de regards différents sur un fait
d’actualité ou une question de société ;


c’est enfin un espace privilégié d’observation pour de nombreuses disci-
plines (sciences de l’information et de la communication, sciences du
langage, sciences politiques, sociologie politique, par exemple).
Ne soyons pas naïfs. Le choix de la presse par rapport aux médias audios
et audiovisuels est aussi motivé par deux facilités techniques : d’une part nous
avons aujourd’hui très facilement accès à des archives numérisées échelon-
nées sur de très longues périodes, et d’autre part ces données posent moins
de problèmes de diffusion pour le monde de l’édition que les données orales
(Moirand, 2007, p. 5). Notons cependant qu’en France le dépôt légal a été
étendu en 1992 aux émissions de radio et de télévision : c’est le dépôt légal
média. L’INA avec l’Inathèque [http://www.institut-national-audiovisuel.fr/
offres-services/ina-theque.html] (consulté le 01/06/2016) et la BnF proposent
ainsi des archives consultables, sous condition, mais qu’il faudra retranscrire
pour constituer des corpus.
Néanmoins, à l’heure où la presse papier est en pleine évolution et où
(l’accès à) l’information passe par de nombreux autres canaux et supports
(web, réseaux sociaux notamment), la question de la pertinence et de la repré-
sentativité de ce type de données, en particulier les plus récentes, se pose de
manière aiguë. Le chercheur peut d’ailleurs être amené selon sa probléma-
tique à articuler les données issues des médias à d’autres types de données
(cf. chap. 2).
Une fois qu’on a défini les observables et délimité le corpus, vient l’étape
du recueil des données.
67
Étape 2 – Recueil du corpus
Où recueillir les données ?
Désormais, les données textuelles électroniques semblent à portée de main.

Ainsi, de nombreuses ressources textuelles existent sur le web. Cependant, il
est rare que l’on puisse les traiter directement.
Le recueil d’un corpus de presse peut passer par la consultation de collec-
tions de textes existantes. Il s’agit souvent des bases de données payantes
auxquelles sont abonnées les bibliothèques universitaires.
Pour la constitution de corpus de presse numérisés correspondant à une
période contemporaine, les chercheurs en analyse du discours ont ainsi souvent
recours à des bases d’archives de presse telles que Factiva ou Europresse. Ces
bases payantes ne sont initialement pas destinées à la recherche scientifique,
ce qui explique leur très grande instabilité. Il s’agit d’outils de veille marketing
et stratégique conçus pour les entreprises dans un objectif d’aide à la décision.
C’est bien souvent faute de mieux que le chercheur convoque de tels outils.
Fig. 1. – Moteur de recherche Europresse (2016).
Ces deux bases présentent néanmoins de nombreux intérêts :

– elles agrègent les archives de presse et les dépêches en temps réel ;
– elles donnent accès à des archives de presse nationales, régionales et
spécialisées de nombreux pays sur de longues périodes (remontant
aux années 1980 pour certaines sources) ;
– elles contiennent chacune un mode de recherche « avancée » qui
utilise des opérateurs spéciaux (voir par exemple ici [http://global.
factiva.com/help/fr/text/ft_exmpl.html], consulté le 01/06/2016) ;
– elles autorisent l’export d’ensembles de données au format *.pdf pour
Europresse *.pdf *.rtf, *.xml pour Factiva ;
68
– elles livrent des informations statistiques qui peuvent être intéres-

santes à exploiter : distribution des articles sur les périodes ou sur les
sources interrogées (voir figures 2 et 3 ci-dessous).
Fig. 2. – Distribution du nombre d’articles contenant l’énoncé Je suis Charlie par source
dans la base Europresse (2016) (période : janvier 2015-janvier 2016 ; filtre de recherche :
« presse généraliste nationale »).
Fig. 3. – Distribution du nombre d’articles contenant l’énoncé Je suis Charlie par mois dans
la base Europresse (2016) (période janvier 2015-janvier 2016 ; filtre de recherche : « presse
généraliste nationale »).
Enfin, la base Europresse donne accès à l’édition *pdf correspondant à

l’édition papier pour les collections les plus récentes de certains journaux,
ce qui permet de ne pas perdre la plurisémioticité des archives de presse
69
et d’effectuer un aller-retour entre analyse quantitative et analyse « à la

main ».
Le recours à ces deux bases n’est cependant pas sans inconvénients :
– elles sont payantes, ce qui en limite l’accès aux chercheurs et institu-
tions qui peuvent souscrire un abonnement. Ainsi, les universités et
bibliothèques de recherche européennes ne sont pas toutes abonnées
aux deux bases ;
– les collections sont instables, parce que tributaires des accords entre
les entreprises qui les ont mises au point et les médias dont elles
diffusent les archives ;
– l’accès « facile » aux données ne s’accompagne pas d’un « libre accès »
au sens juridique du terme, les données sont protégées par des droits
d’auteur : si elles sont exploitables moyennant des opérations de
formatage, elles ne sont en principe pas reproductibles et diffusables
sans l’autorisation des organes de presse ; on observe néanmoins une
certaine tolérance à l’égard des publications scientifiques ;
– la structuration des données n’est pas transparente : le rubriquage en
particulier nécessite d’être vérifié ;
– la recherche de données par rubrique (interview, éditorial, reportage,
etc.) est difficile à mettre en œuvre à l’heure actuelle.
On peut aussi accéder aux contenus de la presse en ligne via les flux
RSS mis à disposition par ces mêmes journaux (cf. les flux RSS du journal
Le Monde [http://www.lemonde.fr/rss/], consulté le 01/06/2016).
Dans le meilleur des cas, la récupération des données associées à ces flux
continus d’information donne accès à l’ensemble des articles publiés en ligne
par les journaux concernés. Pour une illustration de ce type de méthodologie,
nous donnons ici le lien vers un projet mené par des étudiants en traitement
automatique des langues : Traitement des fils RSS du Monde [http://www.
tal.univ-paris3.fr/cours/masterproj.htm#projet21] (consulté le 01/06/2016).
Récupérer ces données nécessite cependant de mettre en œuvre un
dispositif technique « un peu sophistiqué » (cf. [http://www.tal.univ-
paris3.fr/sfleury/veille.htm], consulté le 01/06/2016 et lien précédent).
L’exemple de scénario présenté p. 64 (énoncé Je suis Charlie et ses variantes)
porte sur une période récente, postérieure à janvier 2015 : les fils RSS, les bases
en ligne du type Factiva ou Europresse sont donc suffisants pour la constitu-
tion d’un premier état de corpus. Si l’objet du scénario portait sur des périodes
plus anciennes, c’est une tout autre démarche qu’il faudrait mettre en œuvre.
Nous proposons ici de quitter ce scénario un court instant – nous y reviendrons
p. 73. – pour voir quelques illustrations de ce second type de démarche.
Les requêtes sur des archives de presse plus anciennes et plus locales (région,
département, ville) nécessitent un véritable travail de saisie ou de numérisation
qui va faire partie intégrante du travail de recherche. C’est ce type d’entreprise
qui a été menée dans les années 1980 au Laboratoire de Saint-Cloud sur le
70
journal révolutionnaire Le Père Duchesne pour constituer un corpus analysable

avec les outils lexicométriques (Corpus Duch96 ou corpus Hébert, voir encadré
infra) : on peut dire qu’il s’agit du premier « corpus de presse lexicométrique » et
numérique français. Une illustration de ce type de travail nous est aussi donnée
plus récemment par le projet coordonné en 2005-2010 par l’équipe ELLIADD
autour du journal Le Petit Comtois (voir encadré p. 72).


Une recherche – Les langages révolutionnaires et le corpus
DUCH96 (ou corpus Hébert) :
Un des chantiers du Laboratoire de lexicologie politique de Saint-
Cloud portait sur les langages de la Révolution française. Une équipe
a alors mis au point une banque de données numérisées constituée de
textes révolutionnaires (corpus « Révolution française »). Cette texto-
thèque a fourni « de nombreux éléments lexicaux pour des études quanti-
tatives et qualitatives [qui] ont nourri la publication de monographies
lexicales dont les huit volumes du Dictionnaire des usages socio-politiques
(1770-1815) » (Guilhaumou, 2010, p. 137). C’est dans ce cadre scien-
tifique que Jacques Guilhaumou a réuni le corpus DUCH96, lequel
devait « servir de base à un travail sur les configurations discursives
du discours jacobin » (Salem, 1986, p. 10). Ce corpus est constitué de
96 numéros du journal d’Hébert (substitut du procureur de la Commune
de Paris), aussi intitulé le Père Duchesne. Il s’agit d’un pamphlet de huit
pages, qui paraît trois fois par semaine, puis quatre fois par décade après
l’adoption du calendrier révolutionnaire. Le journal a eu une réception
importante à partir de 1793 (80 000 exemplaires à l’été 1793). « Qualifié
par les journalistes de “thermomètre de l’événement” et d’“alphabet de
la révolution”, [il] constitue la mémoire de l’événement dans sa version
jacobine » (Guilhaumou, 1986, p. 30).
Le corpus Duch96 (150 000 occurrences) a été découpé par les
chercheurs en mois et en quinzaines, de manière à pouvoir saisir l’évo-
lution chronologique du vocabulaire révolutionnaire (en l’occurrence,
les mots d’ordre et le vocabulaire de la Terreur). D’un point de vue
lexicométrique, ce corpus constitue ainsi une « série textuelle chrono-
logique » (notion définie infra, p. 90).
Pour aller plus loin
Guilhaumou Jacques, 1986, « L’historien du discours et la lexicométrie.

Étude d’une série chronologique : le “Père Duchesne” d’Hébert (juillet
1793-mars 1794) », Histoire & Mesure, vol. I, n° 3/4, p. 27-46.
71
Salem André, 1986, « Segments répétés et analyse statistique des

données textuelles. Étude quantitative à propos du Père Duchesne
de Hébert », Histoire & Mesure, vol. I, n° 2, p. 5-28.


Une recherche – La base du Petit Comtois
Plusieurs structures de recherche de la région Franche-Comté se
lancent en 2005 dans un important programme de numérisation du
Petit Comtois sur une période allant de la création du journal en 1883
à l’arrêt de sa publication en 1944 (année d’interdiction du journal
par les autorités allemandes). Ce programme scientifique à dimension
patrimoniale inclut la création d’une base plein texte interrogeable à
partir d’un moteur de recherche [http://adcost-elliadd.univ-fcomte.fr/
petit-comtois/autres_scripts/recherche.php] (consulté le 01/06/2016)
et d’où peuvent être extraits des corpus textuels. Cette base a aussi pour
ambition de donner lieu à des explorations textométriques.
Fig. 4. – Requête suis dans le moteur de recherche du Petit Comtois.
Équipe scientifique du projet : Virginie Lethier, Philippe Schepens, Jean-Marie

Viprey. Site du projet [http://adcost-elliadd.univ-fcomte.fr/petit-comtois/], consulté
le 01/06/2016.
Notice bibliographique [http://culture.besancon.fr/ark :/48565/a0112986186328
MEpcL], consulté le 01/06/2016.
Ressources complémentaires sur la presse au xixe siècle :
Il existe aujourd’hui d’autres projets de numérisations et d’autres ressources, mais
nous ne pouvons encore parler de base textométrique ou plein texte au même titre
que la base du Petit Comtois.
Portail Gallica/BnF [http://gallica.bnf.fr/html/und/presse-et-revues/presse-et-
revues], consulté le 01/06/2016.
Portail consacré à l’étude de la culture médiatique au xixe siècle [http://
www.medias19.org/index.php ?id=10615] (ANR-FQRSC, Département des litté-
ratures de l’université Laval-Québec et RIRRA 21 de l’université Montpellier 3),
consulté le 01/06/2016.
72
Comment recueillir les données ? Requêtes et mots-clés
Dans le cadre de la recherche prise comme exemple – la diffusion et le

sens de l’énoncé J/je suis Charlie et ses variantes (J/je suis X) dans la sphère
médiatique – nous allons recourir aux deux bases citées ci-dessus, Europresse
et Factiva.
Suivre le trajet de l’énoncé Je suis Charlie et ses variantes se révèle plus
complexe qu’il n’y paraît. Si l’on s’en tient à la séquence Je suis Charlie et à sa
négation Je ne suis pas Charlie, on risque de laisser de côté des textes conte-
nant des variantes de l’énoncé. On pourrait penser à rechercher les séquences
du type J/je suis. Mais un essai de requête sur Factiva indique que ce segment
agit comme un filtre trop large (figure 5).
Fig. 5. – Requête je suis dans Factiva (période : janvier 2015-avril 2016).
Faire appel à des requêtes complexes avec des combinaisons de mots

et d’autres éléments s’avère donc plus efficace pour collecter un corpus répondant
à la problématique de recherche formulée. Nous allons voir comment formuler
des requêtes permettant de recueillir les énoncés qui nous intéressent.
Factiva : une manière de collecter des données qui correspondent le plus

à la question de départ est de faire intervenir la requête suivante :
« je suis Charlie » or « je ne suis pas Charlie » or « je suis » SAME Charlie 
recherche les articles contenant « je suis Charlie », ou « je ne suis pas Charlie »
ou encore « je suis » et « Charlie » dans le même paragraphe.
73
On fait alors le pari que les variantes de l’énoncé Je suis Charlie font inter-
venir au moins une fois une glose contenant « Charlie » dans les paragraphes
où elles sont employées. C’est alors notre connaissance du fonctionne-
ment du discours médiatique et de l’écrit journalistique qui nous
guide dans la constitution du corpus. Ce premier filtrage effectué, sur
la période allant de janvier 2015 à avril 2016, on collecte 2 083 articles et on
recueille un bon nombre de variantes. En voici quelques exemples :
« Charlie Juif Flic : je suis la République » (Sud Ouest, 11 janvier 2015).
« Je suis Charlie, je suis Mohammed, mais je ne suis pas terroriste » (Sud Ouest,
11 janvier 2015).
« Je suis policier, Je suis Ahmed, Franck, Clarissa, Nous sommes Charlie »
(Sud Ouest, 11 janvier 2015).
« Maxime Boutet a eu l’idée de détourner le fameux “Je suis Charlie” avec son
“Je suis Submarine” sur fond noir » (Ouest France, 8 avril 2016).
« Des dizaines de milliers de personnes lui ont rendu hommage sur les réseaux
sociaux par le biais du hashtag “Je suis un chien”, inspiré de “Je suis Charlie” »
(Sud Ouest, 12 mars 2016).
Le refrain : « Je suis Paris, je suis le Mali, je suis les États-Unis, je suis la
Libye, je suis Charlie… ». Et : « Je suis le Burkina, je suis le Kenya, je suis le
Nigeria… » (La Croix, 15 février 2016).
« Le 21 novembre, nous avons découvert avec effroi des graffitis dans les
parties communes : Je suis terroriste, pour Daech, non Charlie », dénonce une
dame (Le Parisien, 24 janvier 2016).
À partir de ce premier filtrage, on peut dresser une liste des variantes de

l’expression visée (« je suis Charlie ») ou expression-pôle, lesquelles peuvent
ensuite servir de mots-clés pour affiner et compléter la recherche.
Europresse : la même requête sur la base Europresse s’écrira de la
manière suivante :
TEXT = «je suis Charlie»|«je ne suis pas Charlie»|«je suis» @ Charlie.
Dans cette requête, le caractère pipe | désigne « ou » et le caractère @

correspond à « et » (ces deux caractères agissent comme des opérateurs
permettant de construire des requêtes complexes). Le résultat de la requête
sur la catégorie « Presse quotidienne nationale » et sur la période allant de
janvier 2015 à avril 2016 est le suivant : 900 articles (mais 8 780 articles sur
l’ensemble de la presse française prise en compte par Europresse !).
Comme on le voit à travers ces différentes requêtes, la recherche de
documents pour la constitution de corpus implique une réflexion sur les mots-
clés à retenir ainsi que la mise en place d’une stratégie de recherche.
Nota bene :
– l’opérateur équivalent à « ou » n’est pas exclusif, on peut collecter des
articles contenant plusieurs des mots-clés ;
74
– les moteurs de recherche de Factiva et d’Europresse ne sont pas

sensibles à la majuscule ni au tiret ;
– le filtre « presse généraliste » désigne les titres suivants :
• Factiva : Challenges, Dimanche Ouest France, Les Échos, Intelligence
& Stratégie, L’Entreprise, La Charente Libre, La Croix, La Tribune,
Le Figaro, Le Parisien-Aujourd’hui en France, Le Point, Le Progrès,
L’Équipe, Les Échos, Les Échos Week-End, Les Échos.fr (France,
Français), Les Suppléments de Sud-Ouest, L’Expansion, L’Express,
L’Obs, Sud-Ouest, Ouest-France (Quotidien et Dimanche).
• Europresse : Le Monde, Le Figaro, Libération, Le Parisien-
Aujourd’hui en France, L’Express, Le Point, Marianne, l’Humanité,
La Croix, Valeurs Actuelles.
Étape 3 – Formatage et nettoyage des données
Comme c’est souvent le cas, les données recueillies ne se présentent pas

sous le format attendu pour une exploitation informatique par des logiciels
de textométrie. C’est le cas des articles que nous récoltons sur les bases
Europresse et Factiva. Une première chose à faire, avant même de réunir ces
textes en un seul fichier, est de s’informer sur les formats pris en compte par
le ou les logiciels utilisés.
Extensions des fichiers prises en compte par le logiciel
Les données recueillies sur les bases de données Europresse et Factiva

peuvent se présenter sous différents formats : RTF (Rich Text Format, [https://
fr.wikipedia.org/wiki/Rich_Text_Format], consulté le 01/06/16), PDF (Portable
Document Format [https://fr.wikipedia.org/wiki/Portable_Document_Format],
consulté le 01/06/16), et XML (Extensible Markup Language [https://
fr.wikipedia.org/wiki/Extensible_Markup_Language], consulté le 01/06/16)
dans le meilleur des cas (Factiva). Les formats RTF et PDF ne sont généra-
lement pas pris en charge par les logiciels d’ADT. Il faut donc procéder à une
conversion des fichiers ou à une extraction du contenu textuel (voir aussi
Fiche pratique 1 : « extraire le contenu textuel d’un fichier PDF »).
Dans notre scénario, on va donc convertir l’ensemble des fichiers recueillis
à partir des bases Europresse et Factiva du format RTF au format « texte brut ».
Pour cela, on passera simplement par l’éditeur Microsoft Word, en respectant
néanmoins le codage des caractères pris en compte par le logiciel.
Codage des caractères
Par « format », on entend en second lieu le codage des caractères du

fichier contenant les données à analyser (UTF-8, ANSI, etc.). Ce codage
75
doit pouvoir être pris en charge par le logiciel choisi pour l’analyse. Certains
logiciels invitent l’utilisateur à sélectionner le codage idoine (Le Trameur),
d’autres se chargent de le reconnaître (Lexico 5) et d’autres encore ne suppor-
tent qu’un nombre restreint de codages (Lexico 3). L’extension d’un fichier
ne suffit pas en général pour déterminer le type d’un fichier et en aucun cas
le codage des caractères qu’il contient. En outre, on ne peut se contenter de
convertir les données en format « texte seul » pour pouvoir les utiliser avec tel
ou tel logiciel. Il est important de connaître le type de codage des caractères
utilisé pour créer le fichier sauvegardé. L’éditeur Microsoft Word propose par
exemple à l’utilisateur de spécifier ce codage quand un fichier est sauvegardé
au format « texte brut » :
Fig. 6. – Conversion de fichier avec Word.
La figure 7 représente un exemple d’import « raté » de corpus (corpus

Duch96, lire encadré supra) avec le logiciel Lexico 3.
Que s’est-il passé ? Comment expliquer qu’à la place de certaines lettres
(les caractères accentués notamment), on voie apparaître un certain nombre
de signes « inattendus » ? C’est que le fichier importé dans le logiciel utilisait
un codage de caractères en UTF-8 (« Universal Character Set Transformation
Format, 8 bits ») qui correspond à l’une des normes internationales pour
transmettre des fichiers. Or, le logiciel Lexico 3, dans la version utilisée ici
(3.6), ne prend pas en charge le codage UTF-8. Il va donc être nécessaire
de transformer ou de convertir le fichier, en codage ANSI en l’occurrence,
pour que le texte de départ puisse être correctement « lu » par le logiciel. Il
existe heureusement aujourd’hui un certain nombre d’outils qui permettent
aisément de convertir les textes « en un seul clic ». C’est le cas de l’éditeur
Notepad++ [https://notepad-plus-plus.org/fr/] (consulté le 01/06/2016) qui
76
Fig. 7. – Import de fichier en UTF-8 dans le logiciel Lexico 3.
permet de travailler sur des fichiers en texte brut (et donc aussi sur des fichiers
au format XML ou encore HTML).
Fig. 8. – Conversion de fichier avec Notepad++.
On privilégie aujourd’hui le codage UTF-8 pour les fichiers constituant

un corpus d’analyse. La plupart des logiciels acceptent désormais ce format
(c’est le cas notamment des dernières versions de la suite Lexico). Cela peut
d’ailleurs constituer un critère de sélection de l’outil.
77
Nettoyage des scories
La conversion effectuée, on peut avoir à nettoyer les fichiers d’un certain

nombre de « scories » qui peuvent parasiter leur analyse informatisée. Ces
« scories » sont, par exemple, pour Factiva, des informations qui servent au
référencement des données dans la base et qui se trouvent à la fin de chaque
article :
NS
gcombt : Combat Sports | gboxi : Boxing | gterr : Terrorism | gcat : Political/
General News | gcns : National Security | gcrim : Crime/Courts | gspo : Sports/
Recreation | ncat : Content Types | nfact : Factiva Filters | nfce : C&E Exclusion
Filter | nfcpex : C&E Executive News Filter | nrgn : Routine General News
RE
fra : France | ilefra : Ile-de-France | eecz : European Union Countries | eurz :
Europe | medz : Mediterranean | weurz : Western Europe
IPD
Essonne
PUB
SNC Le Parisien
AN
Document PARIN00020151210ebc90003r
On pourra avoir recours à des éditeurs comme Notepad++ et Emacs. Les

plus experts pourront utiliser un « script », c’est-à-dire un petit programme
qui nettoiera automatiquement les fichiers.
Notons au passage que certaines informations présentes sur les fichiers
des deux bases peuvent faciliter la structuration et le balisage des données
en vue d’une exploitation informatique. Reprenons l’exemple ci-dessus. Le
début de l’article une fois importé de Factiva et transformé en format texte
se présente ainsi :
Grigny : le rêve français de Patrice Quarteron, le boxeur engagé
SE
Essonne
HD
Grigny : le rêve français de Patrice Quarteron, le boxeur engagé
BY
Florian Loisy
WC
1,102 mots
PD
9 décembre 2015
SN
leParisien.fr
78
SC
PARIN
LA
Français
CY
Copyright 2015 leParisien.fr All Rights Reserved
LP Sa grande gueule lui a longtemps joué des tours. Aujourd’hui, elle fait de
lui un boxeur à part, dont l’aura va bien au-delà des rings et qui lui permet de
remplir à lui seul une salle de 5 000 personnes (lire ci-dessous) dans un événe-
ment qu’il a entièrement organisé. Toujours prêt à afficher son patriotisme,
Patrice Quarteron, 36 ans, combat aussi le communautarisme et les préjugés.
En porte-drapeau du positivisme en banlieue, ce colosse (1,98 m pour 118 kg)
de Grigny avait déjà crié haut et fort « je suis Charlie » après les attentats de
janvier, ce qui lui a valu de nombreux messages d’insultes.
Plusieurs éléments peuvent être intéressants à prendre en compte et

sont automatiquement repérables grâce à la structure et à l’organisation des
données de la base : la source (marquée « SN », Le Parisien), l’auteur (marqué
« BY »), la date (marquée « PD »), le titre (marqué « HD »), etc.
Enfin, le passage par un outil tel que Notepad++ permet de préserver
la structure du texte (paragraphes, sauts de ligne) et, là encore, de repérer
automatiquement cette structure, par l’emploi d’un mode de recherche dit
« étendu », la séquence \n désignant le retour à la ligne.
Fig. 9. – Insertion d’un délimiteur de paragraphes avec l’éditeur Notepad++.
79
Étape 4 – Quelques choix à effectuer dans la préparation des données
Dois-je conserver les majuscules ? Est-il intéressant d’annoter mon corpus ?

Est-il pertinent de le lemmatiser ? Au moment où l’on « formate » les fichiers
pour une exploitation logicielle, un certain nombre de questions peuvent égale-
ment se poser, qui concernent à la fois la préparation des données du corpus
et ce que l’on va prendre ensuite en compte pour l’exploration des données
ainsi collectées. Ces questions font revenir immédiatement les interrogations
initiales introduites dans le chapitre 1, qu’est-ce qu’on compte et qu’est-ce qui
compte ? Comme on va le voir ci-dessous et dans les deux scénarios suivants,
les réponses apportées dépendent à la fois de la problématique de recherche
et des contraintes liées à l’outil informatique.
Que faire des majuscules ?
Les logiciels distinguent a priori la casse des caractères si bien que je et Je

(dans Je suis Charlie, par exemple) compteront pour deux formes différentes.
Il peut être intéressant (ou pas) de mettre en place un codage qui marque la
majuscule mais permette aussi de compter dans un même groupe les formes
avec et sans majuscule : *je pour Je et je pour je sans majuscule par exemple,
où * est un caractère non-délimiteur que les logiciels pourront prendre en
compte selon les besoins de la recherche. On peut aussi transcoder toutes
les données en minuscules (via un éditeur comme Notepad++, par exemple)
si la distinction de casse n’est pas pertinente dans l’analyse à mener.
Que faire des mots composés ?
Reprenons l’article ci-dessus extrait du recueil de corpus que nous sommes

en train d’effectuer. Cet article commence par le paragraphe suivant :
« Sa grande gueule lui a longtemps joué des tours. Aujourd’hui, elle fait de
lui un boxeur à part, dont l’aura va bien au-delà des rings et qui lui permet de
remplir à lui seul une salle de 5 000 personnes (lire ci-dessous) dans un événe-
ment qu’il a entièrement organisé. Toujours prêt à afficher son patriotisme,
Patrice Quarteron, 36 ans, combat aussi le communautarisme et les préjugés.
En porte-drapeau du positivisme en banlieue, ce colosse (1,98 m pour 118 kg)
de Grigny avait déjà crié haut et fort “je suis Charlie” après les attentats de
janvier, ce qui lui a valu de nombreux messages d’insultes. »
Dans ce paragraphe, apparaissent deux mots composés, au-delà et porte-

drapeau. Lorsque nous soumettrons notre corpus à une segmentation automa-
tique, ces mots perdront leur identité et seront le plus souvent segmentés en
deux unités, au et delà, d’une part, porte et drapeau d’autre part (lire aussi
chap. 4, p. 105). On touche là à une des difficultés posées par le forma-
lisme des méthodes d’analyses de données textuelles : de telles démarches
80
« comblent » rarement le linguiste (voir aussi chap. 4, p. 106). Pour que les
logiciels tiennent compte de la structure de ces unités, il faut les transformer.
On pourra par exemple remplacer dans les données initiales porte-drapeau
par porte_drapeau et paramétrer ensuite la segmentation en unités de telle
sorte que le caractère tiret-bas ne soit pas considéré comme un délimiteur de
mots – on parlera alors de caractère non-délimiteur.
Fig. 10. – Choix des caractères délimiteurs avec le logiciel Lexico 5.
Si une telle opération est effectuée sur l’ensemble des mots composés
– appelés aussi en linguistique unités polylexicales ou lexies – il faudra tout de
même tenir compte des propriétés statistiques du corpus obtenu. Le repérage de
telles unités, manuel ou semi-automatique, peut aussi s’avérer fastidieux et tout
aussi imparfait que leur non prise en compte dans la segmentation du texte.
Lemmatiser ou ne pas lemmatiser mon corpus ?
C’est une question à laquelle on n’échappe pas lorsqu’on prépare un corpus

en vue de l’analyser avec des logiciels d’ADT. La lemmatisation revient à
transformer un texte en groupant sous une forme canonique :
– les substantifs (noms communs) au masculin singulier ;
– les adjectifs au masculin singulier ;
– les formes verbales à l’infinitif ;
– les formes élidées à la forme sans élision.
Cette opération a pour effet de réduire le nombre des unités du corpus.
Plutôt que de référencer les occurrences de suis, sommes, serons, est… la
lemmatisation permet par exemple de décompter l’ensemble des occurrences
du lemme « être ».
La lemmatisation s’effectue au moyen d’un outil, qu’on appelle un lemma-
tiseur. Les outils les plus couramment utilisés dans la communauté franco-
phones sont TreeTagger, Cordial et Winbrill. Plusieurs logiciels de textométrie
les intègrent même, de sorte que l’utilisateur obtient un corpus étiqueté et
lemmatisé au moment où il effectue l’import de son corpus dans le logiciel.
81
Fig. 11. – Index de formes (à gauche) et de lemmes (à droite) dans

Le Trameur, corpus Discours2007 (lemmatiseur intégré : TreeTagger).
Fig. 12. – Index de formes lemmatisées et retour au contexte via un concordancier dans
Iramuteq, corpus Vœux (cf. chap. 4 et 5).
La lemmatisation n’est pas une opération anodine car elle transforme les
observables en neutralisant par exemple les variations morpho-syntaxiques. Un
exemple fameux que donne le Laboratoire de Saint-Cloud pour plaider contre
la lemmatisation systématique des textes est l’usage distinctif du singulier et
du pluriel pour certains concepts politiques : quand la gauche parle de liberté
(au singulier), la droite, elle, thématise sur les libertés (au pluriel). De fait, les
avis ont longtemps été partagés sur la question de savoir s’il fallait travailler en
surface (sur la forme graphique), lemmatiser ou catégoriser. Ce débat semble
aujourd’hui appartenir au passé (lire encadré ci-après). Le choix dépend en
réalité des hypothèses du chercheur et des moyens disponibles pour
ce traitement. Pour reprendre une formule d’Étienne Brunet, « les outils
82
ne sont mauvais que dans la main des mauvais ouvriers » (2000, p. 19). Les
chapitres suivants livreront quelques illustrations de méthodes et de problé-
matiques faisant intervenir la lemmatisation.
Dans le cas qui nous occupe, la diffusion et la construction du sens de
l’énoncé J/je suis X, la lemmatisation paraît de prime abord peu pertinente,
voire décalée, dans la mesure où l’on va justement s’intéresser à des varia-
tions formelles. En fait, il peut être intéressant de travailler sur deux états de
corpus, un corpus non lemmatisé et un corpus lemmatisé, ce dernier permet-
tant d’évaluer statistiquement la diffusion de cet énoncé (ou « patron », voir
chap. 4). Le corpus lemmatisé, on peut aussi imaginer que la séquence ETRE X
(Charlie, etc.) « attrape » ou regroupe des variantes du type nous sommes/serons
Charlie, X, etc., auxquelles nous n’avions pas nécessairement pensé au moment
de la délimitation de l’objet d’étude et du recueil des données. Nous pouvons
ainsi être amenés à intégrer dans nos observables ce type de variante voire à
élargir notre corpus. Comme on le voit, une question comme celle de la lemma-
tisation peut conduire à une démarche itérative dans la construction de l’objet
d’étude et du corpus à étudier. L’outil informatique a aussi quelques vertus…
 ZOOM – Forme ou lemme ? Un débat vif

dans les années 1980-1990 :
Au début des analyses de données textuelles, un débat a agité la
communauté, portant sur la nature de ce qui est compté. S’opposaient
alors les partisans des « formes » ou de « l’item formel » et les partisans
des « lemmes ». Voici quelques-unes des positions défendues.
Les tenants de la lexicométrie choisissent comme entrée dans les
textes, comme observable et comme unité de comptage, non pas l’entrée
lexicographique (le lemme) mais l’item formel tel qu’il se présente
au chercheur dans le discours qu’il étudie, ce qu’on appelle encore
aujourd’hui en textométrie « la forme graphique », i. e. un ensemble
de caractères séparés par deux blancs (voir aussi chap. 4, p. 104). Le
choix de cette unité avait pour objectif de « libérer » le discours du
savoir du chercheur sur la langue, d’un savoir et d’une norme lexico-
graphiques (cf. Muller, 1968). L’item formel est ainsi une manière de
garder « intact » le matériau discursif et de mieux saisir ainsi l’ordre
du discours. Maurice Tournier et Simone Bonnafous, par exemple,
justifient cette position en argumentant de l’importance théorique à
distinguer l’observation de l’analyse :
« Le sens en contexte est réfractaire à toute systématicité. On ne peut,
au départ d’une étude lexicométrique, que cumuler, confronter, réunir ou
opposer des occurrences de formes textuelles. Les questions de sens sont
83
à poser ultérieurement, par un travail sur le dépouillement ou les résultats,

qui sera spécifique mais dont la statistique ne garantira plus forcément
la valeur. Il faut en effet que les comptages se pratiquent sur des unités
absolument invariables. L’invariance du contenu étant un mythe, seule
demeure celle de la graphie. Voilà pourquoi le laboratoire de Saint-Cloud
a choisi de travailler d’abord sur la surface textuelle et non sur les signi-
fiés ou les référents. Il y a là une option textualiste, à la fois arbitraire et
pragmatique » (Bonnafous, Tournier, 1995, p. 69).
Charles Muller, l’un des pères de la statistique linguistique, défen-

dait au contraire les mérites de la lemmatisation contre un « forma-
lisme » qu’il considérait comme étant « linguistiquement, une aventu-
reuse hérésie, et statistiquement une regrettable impasse » (préface
de C. Muller à l’ouvrage de Pierre Lafon [Lafon, 1984]). Chez les
défenseurs de la lemmatisation, c’est surtout un argument statistique
qui prime : la lemmatisation, qui neutralise l’émiettement des formes
graphiques, rend par exemple plus nettes les associations lexicales et
« donne ainsi à la statistique une assise plus solide » (Brunet, 2000,
p. 18). C’est d’ailleurs pour cette raison qu’un logiciel comme Alceste
applique des calculs sur un corpus lemmatisé (et racinisé, voir chap. 5,
p. 126) : « les formes simples sont réduites à un moindre nombre afin
d’enrichir le plus possible les liaisons statistiques impliquées par les
cooccurrences de formes » (Reinert, 1990, p. 23).
Une expérience menée par Étienne Brunet sur deux mêmes corpus
lemmatisés et non lemmatisés montre cependant que des méthodes
comme l’AFC (cf. chap. 5, p. 152) ou les calculs de distance entre
textes résistent bien à « l’entropie » qui peut menacer un corpus de
formes graphiques (homographie, ambiguïté sémantique) : ce sont les
mêmes résultats que l’on obtient sur le corpus lemmatisé et sur le
même corpus non lemmatisé.
Qu’en est-il de ce débat aujourd’hui ? Il semble s’être apaisé, et les
chercheurs travaillent de plus en plus sur différents états de corpus.
C’est le constat que faisait déjà E. Brunet en 2000 :
« Faut-il donc lemmatiser ? La décision, conclut André Salem, est
d’ordre économique. Il est dans l’absolu toujours préférable de disposer
d’un double réseau de décomptes (en formes graphiques et en lemmes).
Une lemmatisation complète, sur un corpus important, reste une opération
coûteuse. Indispensable dans un travail de recherche, elle est beaucoup
moins justifiée s’il s’agit d’obtenir rapidement des visualisations et des
typologies […]. On voit que la querelle ancienne a beaucoup perdu de son
alacrité » (2000, p. 19).
84
Brunet Étienne, 2000, « Qui lemmatise dilemme attise »,

Lexicometrica, n° 1, 19 p., en ligne [http://lexicometrica.univ-paris3.
fr/article/numero2/brunet2000.PDF] (consulté le 01/06/2016).
Bonnafous Simone, Tournier Maurice, 1995, « Analyse du discours,
lexicométrie, communication et politique », Langages, n° 117, vol. 29,
p. 67-81.
Muller Charles, 1968, Principes et méthodes de statistique lexicale,
Paris, Larousse.
– 1984, « De la lemmatisation », préface de Lafon, P. (1984),
Dépouillements et statistiques en lexicométrie, Paris : Slatkine-Champion,
p. I-XII.
Reinert Max, 1990, « ALCESTE, une méthodologie d’analyse des
données textuelles et une application : Aurélia de Gérard de Nerval »,
Bulletin de Méthodologie Sociol., n° 26, p. 24-54.
Que peut m’apporter une annotation de mon corpus ?
Au-delà du choix de travailler sur les formes ou sur les lemmes, c’est la
question de l’annotation du corpus qui peut se poser. Cette question est
pertinente aujourd’hui pour l’analyse du discours, en raison d’une part de
l’activité interprétative qu’engage toute description des formes langagières et
linguistiques en AD et d’autre part de l’évolution des corpus, des outils, des
pratiques et par ricochet, des orientations épistémologiques dans le champ de
l’ADT et de la linguistique de corpus.
Qu’est-ce que l’annotation ? Il s’agit d’ajouter de l’information (linguistique
ou non) aux unités qui constituent un corpus. De cette manière, ces unités
sont regroupées en « types » correspondant à des unités syntaxiques, séman-
tiques, textuelles, etc. Cette étape dans la préparation du corpus implique
une activité interprétative du chercheur. L’annotation s’apparente ainsi à
ce que fait le linguiste tous les jours : analyser, décrire, classer le matériau
langagier. Elle peut aussi rappeler le travail de codage de corpus et d’intégra-
tion de métadonnées que l’on observe dans d’autres disciplines des SHS
(sociologie, psychologie sociale, par exemple). L’annotation peut porter sur
différents niveaux de description linguistique et sur différents types de phéno-
mènes. Voici la classification que proposait Jean Veronis † en 2000 (p. 4)
(cf. figure 13).
Dans cet ouvrage, on distinguera surtout l’annotation morphosyn-
taxique (on parle aussi d’annotation grammaticale ou d’étiquetage), qui
porte sur la catégorie grammaticale (préposition, nom, verbe…) et qui peut
85
Fig. 13. – Les différentes formes d’annotation (Veronis, 2000, p. 4).
indiquer des informations comme le temps et le mode des verbes, de l’anno-

tation sémantique (ou pragmatique), qui indique le sens du mot (dans
les cas de polysémie), un concept auquel on peut le rattacher, une catégorie
sémantique auquel il appartient (nom d’émotion, par exemple), ou encore des
phénomènes de relations entre les mots dans la chaîne du discours (relation
de co-référence en particulier).
Pour ce qui concerne l’annotation morphosyntaxique, il existe des outils
qui procèdent à une annotation automatique paramétrable par l’utilisateur : les
étiqueteurs (Cordial et Treetagger pour les plus connus et les plus utilisés).
Il convient cependant de ne pas les considérer comme des solutions libérant
l’utilisateur de toutes les tâches de vérification, correction, ajustement, etc.
En particulier, les étiqueteurs n’ont pas tous les mêmes performances et il est
souvent nécessaire de vérifier l’étiquetage produit automatiquement. Annoter
est rarement une activité complètement automatique. Cela peut nécessiter de
longues heures de mise au point. Plusieurs logiciels de textométrie intègrent
aussi des processus d’annotation des données. Un logiciel comme Le Trameur
permet par exemple d’ajouter des annotations « à la volée » (sémantiques,
pragmatiques, prosodiques, etc.) correspondant aux besoins du chercheur
(Fleury, 2007 ; Zimina, Fleury, 2014).
Fig. 14. – Exemple d’annotation « à la volée » avec Le Trameur sur un

corpus de rapports éducatifs (ANR Écriture).
86
Du point de vue de la linguistique de corpus, il semble aujourd’hui aller de

soi qu’un corpus annoté est plus intéressant qu’un corpus brut, l’un des objec-
tifs étant une description fine du langage ou de la langue. L’expression
« annotation de haut niveau », employée depuis quelques années dans certains
réseaux francophones, regroupe ainsi aujourd’hui une grande diversité de types
et de pratiques d’annotations, qui répondent à presque autant d’objectifs et
de besoins qu’il peut y avoir de problématiques de recherche (cf. Todirascu
et Tutin, 2012).
Pour des travaux à l’intersection de l’AD et de l’ADT, les étiquettes morpho-
syntaxiques peuvent constituer un observable intéressant pour caractériser le
discours d’un locuteur ou d’un ensemble de locuteurs (Mayaffre, 2004a) ou
pour mettre au jour les spécificités d’un genre (Lethier et Montrichard, 2016).
Comme l’illustre le travail récent du groupe « Routines » (cf. Née, Sitri, Fleury,
2014), l’annotation sémantique va aussi permettre de mettre en évidence des
régularités intéressantes pour l’AD, auxquelles il serait difficile d’accéder par
une analyse non outillée.
Ces nouvelles pratiques modifient la perspective initiale de la lexicométrie,
selon laquelle l’intervention du chercheur sur le matériau langagier devait être
minimale avant l’entrée du corpus en machine. Une partie d’entre elles, en
restituant la complexité du matériau linguistique et en se donnant la possibi-
lité de faire des calculs au-delà du mot, répondent néanmoins à ce besoin de
pallier l’apparente rusticité des résultats produits initialement en lexicométrie
(généralement de longues listes de mots).
A priori, il n’existe donc pas de réponse toute faite à la question posée au
début de cette section : que peut m’apporter une annotation du corpus ? Ce
sont les objectifs de l’analyse qui induiront éventuellement des besoins d’enri-
chissement des données textuelles. La mise en œuvre de ce travail d’enrichis-
sement du corpus conduira souvent à résoudre certaines difficultés :
– à quelles annotations recourir ?
– comment annoter les données ?
– quels sont les outils permettant d’annoter suivant les besoins
exprimés ?
– comment articuler les processus d’annotation et les outils d’analyse
statistique ?
Dans le cadre du scénario exposé en début de chapitre (p. 64), une
annotation morphosyntaxique ne paraît pas d’emblée pertinente. En revanche,
pour répondre à la question « quel est l’usage de l’énoncé Je suis X »,
il peut être intéressant d’étiqueter Je suis X, de traiter ainsi cet énoncé
comme une seule unité (et non trois formes, je, suis, X) et d’effectuer par
la suite des opérations et des calculs sur cette nouvelle unité (calculs de
cooccurrences, par exemple, voir chap. 4 pour l’explicitation de cette fonction-
nalité). Les expérimentations menées par le groupe Routines sur un corpus
de rapports éducatifs (lire en particulier Née, Sitri, Fleury, 2014 ; Née,
87
Sitri, Veniard, Fleury, 2017) fournissent plusieurs illustrations de ce type de

démarche.
Plusieurs questions importantes (majuscules, lemmatisation, annotation)
viennent d’être traitées. Il faut maintenant organiser et préparer les données
recueillies de manière à obtenir un corpus qui puisse correspondre aux objec-
tifs fixés au début de la recherche et qui soit exploitable avec des logiciels
d’ADT.
Étape 5 – Concaténation des fichiers, structuration des données,

balisage
Il est important à cette étape de distinguer deux opérations : le rassemble-

ment des textes en un seul fichier, qu’on appelle aussi concaténation, et la
structuration des données en corpus.
Concaténation
La concaténation de fichiers est une étape de la constitution du corpus qui

est imposée par de nombreux logiciels d’ADT. Ce rassemblement peut s’effec-
tuer automatiquement (cf. Fiche pratique 3, p. 213) et de différentes manières
selon le logiciel utilisé. Néanmoins, au-delà de ces considérations techniques,
l’ordre dans lequel on va rassembler les données aura des conséquences sur les
analyses opérées par l’outil informatique et donc sur les résultats obtenus en
sortie. Dans ce premier scénario, on peut rassembler les données suivant un
ordre chronologique ou suivant la source (journal) : il peut même être utile de
mettre en œuvre les deux stratégies si l’analyse envisagée le nécessite.
Structuration
Quant à la structuration des données recueillies, elle s’effectue en amont

et en aval de leur concaténation et dépend d’abord de la problématique et
des hypothèses de départ. Elle sera déterminante pour l’analyse des données
recueillies. Quand nous parlons de structuration des données dans un corpus
pour son analyse, deux cas sont envisagés :
– soit nous utilisons des données disponibles dans une ressource partagée
avec d’autres ; dans ce cas, il peut être nécessaire d’en extraire une partie
ou l’ensemble et de les ajuster ou de les (re)modeler suivant des besoins
particuliers. Il est dès lors utile de bien identifier les opérations réalisées
et de les mémoriser.
– soit nous travaillons avec des données que nous avons recueillies par
nous-mêmes dans une démarche qu’il conviendra là aussi de décrire au
mieux. Il sera toujours possible ensuite d’envisager une phase de norma-
lisation de ces données afin de les partager avec d’autres.
88
Le scénario que nous proposons correspond au second cas.

À partir des deux questions initialement posées – « quels sont la diffusion
et le sens construit dans les médias de l’énoncé Je suis X (Je suis Charlie,
Je suis…) depuis les attentats de Charlie Hebdo de janvier 2015 ? » – il est
intéressant d’articuler deux directions de travail complémentaires. D’un côté
on peut observer la diffusion et les variations de l’énoncé « Je suis Charlie »
dans le temps, de l’autre on peut étudier ces deux aspects dans différents
lieux de publication.
Pour permettre une comparaison de l’usage de l’énoncé d’une période à
l’autre puis d’un journal à l’autre – comparaison en termes de fréquences,
d’associations de mots (ou cooccurrences), de thèmes abordés, par exemple –
il faudra, une fois les textes réunis en corpus, diviser ce corpus en parties
correspondant aux différentes variables choisies (temps, lieu de publication).
On parle ainsi en textométrie de partitionnement d’un corpus.
La prise en compte du paramètre temporel impose de réunir les données
en respectant une chronologie éditoriale (date ou mois de parution des
articles). On pourra ainsi constituer une série textuelle chronologique
(voir encadré ci-après). À ce stade, plusieurs difficultés apparaissent. D’abord,
pour permettre des comparaisons pertinentes et l’application de certaines
méthodes statistiques, un corpus doit en théorie être homogène. On pourra
se limiter à une source (un journal, voir par exemple Née, 2012) ou encore
constituer plusieurs corpus correspondant chacun à une source énonciative
(cf. Veniard et Fleury, 2016, par exemple). Néanmoins, ce choix ne permet
pas d’observer la diffusion et la circulation de l’énoncé d’une source à une
autre. On pourra donc aussi considérer l’ensemble des sources correspondant
à la presse généraliste en veillant bien à prendre en compte la dimension
hétérogène du corpus pour certains calculs statistiques (cf. chap. 4 et 5). C’est
la solution qu’adoptent Christine Barats et Jean-Marc Leblanc (2013) pour
saisir la circulation dans la presse généraliste de la formule « classement de
Shanghai » (lire aussi encadré chap. 2, page 54).
Une seconde difficulté est liée au fait de partir d’un énoncé : l’énoncé
choisi et ses variantes peuvent connaître de fortes variations de fréquence
selon les périodes de publication (jours, mois, années), si bien que, une fois
les données réunies en corpus, les parties du corpus délimitées seront de
tailles inégales. Si ce problème importe peu ici pour observer des distributions
de fréquences, il faudra tenir compte de cette différence de longueurs entre
les parties pour la mise en œuvre d’un certain nombre de méthodes statisti-
ques (cf. chap. 5 : fréquences relatives, AFC, calculs des spécificités). Pour
comparer des parties de tailles comparables, une solution provisoire consiste
à choisir un partitionnement qui atténue ou neutralise ces différences de
longueur entre parties du corpus : une partie = deux ou trois mois de publi-
cation par exemple.
89
 ZOOM – Les séries textuelles chronologiques :

Cette notion a été introduite par André Salem au laboratoire de
lexicologie politique de Saint-Cloud pour caractériser les corpus dont
les textes se suivent selon une chronologie. Les séries textuelles chrono-
logiques sont définies comme « des corpus homogènes constitués
par des textes produits dans des situations d’énonciation similaires,
si possible par un même locuteur (individuel ou collectif) et présen-
tant des caractéristiques lexicométriques comparables » (Salem, 1988,
p. 107).
Ce type d’échantillonnage est courant dans les recherches à carac-
tère historique (histoire d’un concept, d’un mot, évolution d’un genre
de discours, politique, syndical, etc.), dans les analyses du discours
politique ou médiatique, et a pour objectif la mise en évidence de varia-
tions au cours du temps – des exemples de problématiques et d’analyses
sont présentés dans le chapitre 6.
Salem André, 1988, « Approches du temps lexical. Statistique textuelle

et séries chronologiques », Mots, n° 17, p. 105-143.
On pourra par la suite prendre en compte pour ce type de corpus les

rubriques des journaux, le genre des articles… et introduire ainsi de nouveaux
partitionnements permettant de complexifier et d’affiner la description du
phénomène observé.
Balisage
Le partitionnement d’un corpus nécessite la mise en place en amont, dans

le corpus, de jalons textuels (des marqueurs ayant un statut particulier) que
le logiciel pourra ensuite reconnaître au moment de la lecture du corpus ;
les éléments ainsi identifiés sont ensuite utilisés pour structurer les données
chargées dans le logiciel.
L’insertion de jalons textuels (i. e. le marquage structurel du corpus)
consiste à formater les données du corpus pour tenir compte des éléments
structurels à mettre en avant dans ces données. Le format des données
supporté par un logiciel dépend en grande partie de ce type de marquage.
Le formatage initial du texte en parties peut en effet être réalisé de diffé-
rentes manières. Et tous les logiciels ne procèdent pas de la même manière
pour marquer/formater ce découpage d’un texte en parties.
90
On parle dans certains cas de balisage, le travail de marquage des parties

consistant dans ce cas à introduire des balises pour marquer ces parties. Le
balisage d’un corpus conduit à l’insertion de marqueurs au fil du texte : ce
balisage peut prendre appui sur des cadres formels fortement contraints (balisage
XML : langage de balisage extensible) ou plus souples (balisage à la Lexico par
exemple, cf. infra). Pour le dire vite, dans le premier cas, le balisage conduit
à introduire une balise d’ouverture et une balise de fermeture pour délimiter
chaque partie visée, dans le second, seule la balise d’ouverture est marquée
explicitement (celle de fermeture est induite par la balise d’ouverture suivante).
La présentation du langage XML déborde largement les objectifs de cet ouvrage.
De nombreuses ressources disponibles sur le Web permettront aux lecteurs
intéressés d’en savoir plus (voir par exemple l’article suivant [https://fr.wikipedia.
org/wiki/Extensible_Markup_Language], consulté le 01/06/2016).
Le formatage peut aussi être réalisé par l’insertion de jalons constitués de
caractères spéciaux (cf. infra marquage dans Alceste).
Voici deux illustrations de corpus balisés, le corpus Immigration1998-2012
et le corpus Vœux (lire infra, scénario 2, p. 95 et chap. 5, p. 123 pour la
présentation de ces deux corpus) :
Balises et délimiteurs du corpus Immigration1998-2012 pour les logiciels

Lexico 3 et Le Trameur (éditeur : Notepad++)
Type de corpus : presse quotidienne, plusieurs sources représentées

(journaux Libération et le Figaro)
Jeu de balises et de jalons textuels (extraits) :
– <annee=…> pour les années
Exemple : <annee=«1998»> pour séparer les articles de l’année 1998 des autres
articles
– <mois=…> pour les mois de parution
Exemple : <mois=«199812»> pour les articles parus en décembre 1998
– <jour=…> pour les jours de parution
Exemple : <jour=«199812299»> pour les articles parus au 29 décembre 1998
– <section=…> pour la partie de texte représentée
Exemple : <section=«article»> pour les sections de texte correspondant au corps de
l’article
[…]
– le séparateur de section ¿ où une section équivaut à un article ;
– le séparateur de sections § où une section équivaut à un paragraphe.
91
Balises et délimiteurs du corpus Vœux pour le logiciel Alceste (compatible

avec Iramuteq, (éditeur : Notepad++)
Type de corpus : discours politiques, plusieurs locuteurs représentés

Jeu de balises et de jalons textuels (extraits) :
**** : séparateur de textes
*loc_… pour les locuteurs
Exemple : *loc_dg (dg= de Gaulle)
*année_ pour les années
Exemple : *année_1959
[…]
Le formatage présenté ci-dessus sur le corpus Immigration1998-2012

correspond au format de données supporté par le logiciel Lexico (et aussi
par Le Trameur) ; celui présenté sur le corpus Vœux correspond à celui mis
en œuvre pour le logiciel Alceste. Dans les deux cas, les balises contiennent
les noms de variables choisies. Pour d’autres logiciels, d’autres formats sont
possibles (Le Trameur, par exemple, supporte aussi un format de données
structuré en XML).
Il est nécessaire en général (c’est même indispensable) de lire la
documentation du logiciel visé pour y apprendre à bien formater son
corpus au regard des recommandations proposées ou imposées par
ce logiciel.
Pour introduire ces balises, on pourra mobiliser à nouveau un éditeur
comme Notepad++ et utiliser des expressions régulières (cf. Fiche
pratique 1, p. 203-205). Notepad++ s’adapte à différents usagers : il offre un
menu de recherche à la fois simple à utiliser, avec des fonctionnalités comme
« rechercher-remplacer », et très puissant pour l’utilisateur plus avancé, avec la
possibilité d’effectuer des requêtes complexes à l’aide d’expressions régulières
(cf. figure 15).
L’opération de balisage n’est alors qu’un jeu d’enfant, même pour les
débutants en informatique et en manipulation de données textuelles.
Comme on le voit avec ce premier scénario, la structuration des données
est souvent guidée par les objectifs à atteindre par l’analyse, et par les
contraintes de formatage propres à chaque logiciel ; il n’existe donc pas de
méthode unique pour préparer un corpus.
92
Fig. 15. – Menu de recherche et requête complexe dans Notepad++.
Chaque problème visé conduit par exemple à déterminer en amont les

éventuelles partitions à mettre au jour dans le corpus de données à exploiter,
puis à les rendre opérationnelles par les outils d’analyse. Dans certains cas,
cela oblige à baliser les textes avec des jalons textuels marquant et structurant
les différentes parties d’un corpus de textes. L’identification des parties dans
un texte nécessite alors un savoir sur ces parties. Analyser automatiquement
des données, c’est déjà les connaître un peu au préalable. C’est en particulier
connaître leur éventuelle organisation en parties, leurs articulations, leurs
enchaînements, etc.
Ce travail peut parfois être intégralement automatisé (cela passe par
exemple par l’écriture de scripts dédiés à cette tâche ou par l’utilisation de
macros dans certains éditeurs de texte comme emacs). Une telle automatisa-
tion n’est cependant pas forcément accessible immédiatement, à moins d’y
consacrer le temps nécessaire pour apprendre à les maîtriser.

 Fiche pratique 2 : commandes Unix pour manipuler des données
(p. 206-212).
 Fiche pratique 3 : la commande CAT et la redirection de flux
(p. 213-216).
93
Scénario 2 – Un corpus autour d’un thème

En AD, on peut être amené à constituer un corpus en partant d’un thème
(cf. chap. 2 et 6), afin d’en analyser la formulation et le traitement suivant une
chronologie, des sources différentes ou encore des locuteurs. Pour illustrer ce
type de démarche, dont la difficulté est de circonscrire la thématique, ainsi
que les lieux de production du discours, nous prenons l’exemple suivant :
« je souhaite analyser le traitement sociopolitique du thème de l’immigration »,
qui s’inspire de plusieurs travaux qui ont examiné les modalités de traitement
du thème de l’immigration dans la sphère médiatique et/ou politique.
Voici trois exemples de questions, d’objectifs de recherche et de corpus

possibles.
Exemple 1
Simone Bonnafous (1991) s’est fixé comme objectif de recherche

d’« observer et analyser d’un point de vue socio-politique, sur la moyenne
durée, l’évolution des discours sur l’immigration ». Pour cela, elle a étudié
le discours sur les immigrés et l’immigration de 1974 à 1984 dans la presse
politique nationale à partir de dix publications : Militant, Le National
(qui deviendra National Hebdo), Minute, Le Quotidien de Paris, Le Figaro,
Le Nouvel Observateur, L’Unité, Libération, L’Humanité/Dimanche et Lutte
Ouvrière. Ce corpus, qui associe des quotidiens, des hebdomadaires et des
mensuels, peut paraître hétéroclite. La recherche menée avait néanmoins
pour but de confronter ces différents espaces afin d’en analyser les spécifi-
cités. La sur-représentation de l’extrême droite est liée à la place qu’a occupée
ce mouvement dans la politisation de l’immigration, objet de slogans et de
campagnes.
Exemple 2
Christine Barats (1994a et b, 1999) a examiné le traitement politique

de la thématique de l’immigration et, avec elle, celle de l’intégration, dans
le discours politique présidentiel. Il s’agissait en l’occurrence d’analyser les
variations du discours sur la moyenne durée, en France et à l’étranger. C’est
le discours présidentiel de François Mitterrand sur la période 1981-1991 qui
a été choisi. Son corpus était un corpus politique constitué de l’ensemble des
interventions de F. Mitterrand traitant de la question de l’immigration.
94
Exemple 3
Plus récemment, Melani Schröter et Marie Veniard (2016) ont analysé le

discours de presse sur l’immigration et l’intégration sur une longue période,
1998-2012, dans une perspective comparative, en France et en Allemagne.
Elles ont pris pour point de départ deux quotidiens d’orientation politique
différente, que l’on classe généralement sur un axe gauche-droite en terme
d’affiliation partisane : Tageszeitung (gauche) et Die Welt (droite), pour
l’Allemagne et Libération (gauche) et Le Figaro (droite), pour la France (le
corpus complet comporte également un sous-corpus italien et un sous-corpus
britannique, voir encadré chap. 2, p. 57). Leur problématique vise de manière
générale à examiner la façon dont ces journaux traitent de la thématique
de l’immigration dans différentes langues/cultures européennes. Une des
questions de recherche qui en découle, à l’intersection de l’AD et de la texto-
métrie, est la caractérisation du phénomène de saillance lexicale, né d’un
fait social, les questions de société autour de l’immigration (cf. Veniard et
Fleury, 2016). La saillance lexicale est définie par M. Veniard comme « l’appa-
rition notable d’une forme lexicale (ou de plusieurs) dans une période de
temps donnée » (ibid. : 1), ce qui se traduit par des phénomènes discursifs
quantitatifs (augmentation du nombre de cooccurrents) ou qualitatifs (appari-
tion de défigements, de néologismes prenant pour base la forme lexicale en
question).
Le point de départ de ce scénario (« je souhaite analyser le traitement

sociopolitique du thème de l’immigration »), relativement simple en apparence,
amène le chercheur à définir un ensemble de mots-clés afin de constituer un
corpus en lien avec ses questions/objectifs de recherche et sa problématique.
De ce point de vue, avoir recours d’emblée à la racine « migr* » dans une
requête en texte plein peut conduire à un recueil de données qui dépasse la
problématique posée : on recueillerait ainsi par exemple les textes avec le mot
migrateur (comme dans oiseau migrateur), mot qui n’est pas privilégié lorsque
le thème de l’immigration est abordé. C’est pourquoi il est important de
tester et de définir des mots-clés avant de collecter les corpus.
Exemple 1 (Bonnafous, 1991)
Effectuée à une période où les bases de données numérisées de la presse

n’étaient pas disponibles, la constitution du corpus de S. Bonnafous a nécessité
la lecture de tous les titres sélectionnés. Tous les articles traitant de l’immi-
gration, définie comme « l’acte de déplacement » ainsi que comme « désigna-
tion de cet acte », ont été retenus. Les articles abordant cette question en
95
dehors de la France et les articles traitant de l’histoire et de la théorie du

racisme ont été exclus. Par contre, ont été retenus à cette étape les articles
décrivant des faits ou pratiques racistes à l’égard des immigrés. L’approche
thématique implique ainsi de préciser les contours du thème afin d’en définir
les mots-clés. Une étape préalable peut s’avérer nécessaire. Celle-ci consiste
à construire un corpus exploratoire à partir d’une première série de mots-clés.
On vérifie ainsi leur pertinence et, le cas échéant, on complète ou on amende
la série des termes choisis.
Exemple 2 (Barats, 1994a)
Pour recueillir son corpus, C. Barats s’est adressée à trois services : le service
de Presse de l’Élysée, la BIPA (Banque d’Information Politique et d’Actualité
de la Documentation Française) et l’ADRI (Agence pour le Développement
des Relations Interculturelles). Elle est partie des mots-clés étranger.s,
immigré.s, droits de l’homme, racisme. Les termes émigré(s) et émigration ont
été retenus pour tenir compte des interventions présidentielles prononcées
à l’étranger.
Exemple 3 (Schröter et Veniard, 2016)
Dans le cadre de la recherche menée par M. Schröter et M. Veniard, les

articles pour le corpus en français ont été sélectionnés sur Factiva à partir
d’une série de mots-clés thématiques : immigration, immigrant.s, immigré.s.
Néanmoins, au lieu de rechercher en plusieurs fois immigration, immigrant(s)
et immigré(s), M. Schröter et M. Veniard ont recherché directement des textes
qui contiennent l’un et/ou l’autre de ces mots-clés :
immigration or immigrant* or immigré*  recherche les articles contenant
les mots-clés immigration ou immigrant.s ou immigré.s ; ici l’opérateur*
permet dans Factiva de désigner une suite de caractères de longueur quel-
conque.
Sur la période sélectionnée (1998-2012), cette requête a permis de

recueillir 10 797 articles pour Libération, 11 827 articles pour Le Figaro.
Deux séries textuelles chronologiques ont alors été construites correspondant
aux deux lieux de publication (cf. tableaux 1 et 2).
Notons que dans Le Figaro, les parties de 1998, 1999 et 2000 sont peu
fournies, ce qui peut être imputé soit à un défaut de Factiva, soit à un traite-
ment moins important du sujet de l’immigration par le journal. Cette incerti-
tude pointe la limite du recours à ce type de base.
La réunion de ces deux séries textuelles chronologiques a donné lieu à un
nouvel état de corpus, le corpus Immigration1998-2012, dont on a vu plus
haut un extrait (scénario 1, étape 5).
96
Tableau 1. – Corpus Immigration/Libération, caractéristiques quantitatives.
Tableau 2. – Corpus Immigration/Le Figaro, caractéristiques quantitatives.
Étapes 3 et 5 : ces étapes étant très proches du scénario 1, le lecteur se

reportera aux conseils énoncés dans les pages précédentes.
Étape 4 : Comme dans le scénario précédent, et dans une conception

heuristique de l’usage de l’outillage informatique, il sera intéressant de
travailler sur plusieurs états de corpus : un corpus lemmatisé, et un corpus
non lemmatisé, ainsi qu’un corpus catégorisé et un corpus non catégorisé.
Scénario 3 – Un corpus de discours politiques

Comme on l’a vu dans le chapitre 2, la comparaison est un des principes
de constitution de corpus en analyse du discours. C’est ce type de démarche
que ce troisième scénario souhaite illustrer.
Exemple : « Je souhaite comparer les discours des candidats à la campagne
présidentielle française ».
Choix des observables et délimitation du corpus : ainsi énoncé, ce

scénario met en jeu plusieurs critères de constitution du corpus (voir chap. 2,
« Le nécessaire croisement des critères ») : la source énonciative, la période
(campagne présidentielle), le type de discours (« discours de campagne ») et
le pays (la France). Pour illustrer ce scénario, nous allons prendre appui sur
97
un corpus existant, que nous avons déjà cité dans cet ouvrage (cf. chap. 1), le
corpus Discours2007, « Le discours des présidentiables » (J. Veronis †).
La délimitation du corpus est d’abord temporelle : elle est imposée par
l’entrée officielle des candidats en campagne et par la durée d’une campagne
présidentielle qui se termine l’avant-veille au soir du vote du second tour. Elle
est ensuite limitée par le nombre de candidats à la campagne présidentielle.
On devra cependant tenir compte des variations quantitatives dans le volume
de discours.
Où recueillir les données ?
Dans ce scénario, le recueil du corpus peut d’abord s’apparenter à une

recherche tous-azimuts. Une fois les candidats identifiés, il faut en effet
repérer les lieux où l’on peut trouver les discours de campagne. Si la recherche
ne s’annonce pas très compliquée pour les candidats appartenant aux partis
importants (PS, UMP [devenu Les Républicains]…), elle peut être plus
malaisée pour les « petits » candidats. Voici l’appel qu’avait lancé J. Veronis †
sur la page d’accueil du corpus Discours2007 :
Appel : nous avons beaucoup de mal à trouver les discours des « petits »
candidats. La plupart du temps, ils ne sont pas sur leur site, ou pas de façon
systématique. Mes requêtes auprès des équipes de campagne sont restées sans
réponses. Si vous êtes en relation avec elles, demandez-leur les discours de leurs
candidats. La pluralité ne peut se faire qu’en l’aidant un peu… [http://sites.
univ-provence.fr/veronis/Discours2007/] (consulté le 01/06/2016).
On pourra commencer par une recherche sur les sites web des partis et
des candidats, où figurent généralement des agendas de campagne, ainsi
que la version écrite des discours prononcés. Une question surgit assez vite :
travaille-t-on sur les discours de campagne « publiés », donc écrits, ou sur
les discours prononcés ? Un choix doit être fait qui aura des conséquences
sur la recherche menée et sur le type de résultat obtenu. Si l’on privilégie les
discours prononcés, un travail de transcription sera à prévoir. C’est ce type
de travail qui a été entrepris par Marion Sandré dans ses recherches sur les
débats politiques. On se reportera à son ouvrage Analyser les discours oraux
(Sandré, 2013), qui propose un certain nombre d’éclairages méthodologiques
précieux à tous ceux qui souhaitent analyser des discours oraux.
Dans le cas où l’on privilégie les discours publiés, il peut être intéres-
sant de comparer les discours disponibles en ligne et ceux qui ont été
prononcés (via les vidéos disponibles en ligne et auprès des équipes de
campagne). Ce type de démarche a généralement été mené par ceux qui
se sont intéressés à un moment donné aux discours de locuteurs politiques
98
particuliers (lire par exemple Leblanc, 2005 ; Mayaffre, 2004a ; 2012, Alduy
et Wahnich, 2015).
Comment recueillir les données ?
Pour les données qui se trouvent sur le web et qui sont des données
écrites, on peut recourir à des solutions logicielles permettant de récupérer
automatiquement des masses de données. Un logiciel comme Gromoteur par
exemple est capable, à partir d’une liste d’adresses, de récupérer l’ensemble
des contenus textuels contenus dans les pages visées par ces adresses. Un
paramétrage avancé de ce logiciel (en amont du recueil) permet d’affiner le
processus de récupération des données. Les contenus finalement archivés
peuvent in fine être utilisés pour des traitements statistiques intégrés dans ce
logiciel ou être exportés pour des traitements externes par d’autres outils (voir
Fiche pratique 4 – « Construire un corpus avec Gromoteur », p. 217). Pour
tout autre type de données, on devra recourir à une numérisation complétée
par une saisie manuelle.
Au moment du recueil des données, il sera important de retenir toutes
sortes d’informations documentaires qui peuvent s’avérer précieuses pour
l’analyse (voir aussi chap. 2, « Le corpus est contextualisé ») : lieux, dates, et
types de discours (discours, allocutions, conférences de presse). Le discours
des candidats évolue dans le temps. Comme le montre l’étude récente de
Cécile Alduy et Stéphane Wahnich sur les discours du Front national (ibid.),
le discours d’une personnalité politique est aussi contraint par un genre
(cf. Introduction et chap. 2) et peut aussi s’ajuster en fonction du public
auquel il s’adresse : les mêmes mots ne seront pas forcément utilisés selon
qu’on s’adresse aux militants, aux journalistes ou à l’ensemble des électeurs.
 Pour aller plus loin :  Fiche pratique 4 – Construire un

corpus avec Gromoteur
Étape 3 – Formatage et nettoyage des données
 Voir scénario 1, étape 3, p. 75-79.
Étape 4 – Des choix à effectuer
Dans ce type de scénario, où il s’agit de caractériser des productions

discursives par comparaison, un travail sur un corpus lemmatisé et catégorisé
morpho-syntaxiquement pourra donner des résultats tout à fait intéressants.
On pourra par exemple faire porter la comparaison sur la proportion de noms,
99
d’adverbes, d’adjectifs, de verbes au futur, passés, etc., utilisés par les candi-
dats. C’est ce type d’exploration qu’a mené Damon Mayaffre sur les discours
des présidents de la Ve République (Mayaffre, 2004a). L’annotation morpho-
syntaxique du corpus peut aussi permettre de travailler sur la phraséologie d’un
candidat ou du discours présidentiel, par l’extraction de motifs complexes
(cf. infra, chap. 4). Là encore, nous renvoyons directement le lecteur aux
chapitres suivants qui abordent plus en détail la problématique de la phraséo-
logie, en partant des unités et des fonctionnalités permettant d’accéder et de
décrire précisément ce type de phénomène.
Étape 5 – Structuration du corpus
Une partie des opérations à effectuer sont identiques à celles décrites dans
le scénario 1. Néanmoins, la structuration du corpus est différente dans le
cas présent. Dans la mesure où l’on souhaite comparer les discours de candi-
dats, on va privilégier ici une structuration par locuteurs, tout en respectant
la chronologie des discours tenus. On utilisera donc deux jeux de balises, un
premier jeu renvoyant aux locuteurs, un deuxième jeu qui puisse rassembler
les discours tenus à la même date, le même mois ou la même année.
Fig. 16. – Balisage du corpus Discours2007.
On pourra faire intervenir dans un second temps une structuration par

genre de discours, sachant que dans le cas présent, domine pour chaque
candidat le discours tenu face aux militants.
100

La préparation des données est une étape cruciale en amont de leur
analyse automatique. Préparer des données à leur analyse c’est aussi très
souvent prendre en main des outils spécifiques qui ne sont pas intégrés aux
outils d’analyse proprement dits.
La construction d’un corpus en vue d’une analyse outillée par l’informa-
tique nécessite alors de mettre en place une succession de traitements infor-
matisés – on parle en TAL de chaîne de traitements semi-automatiques ;
un tel dispositif peut conduire à réaliser différentes tâches successives, répéti-
tives, voire de les réitérer plusieurs fois, afin de modeler les données. C’est
l’introduction de balises pour segmenter un texte, la conversion de fichiers
dans un format qui pourra être pris en compte par le logiciel utilisé, etc.
Cette phase de préparation du corpus entraîne nécessairement un « façon-
nage », un « lissage », une transformation des données sur lesquelles on
travaille.
Analyser automatiquement des données peut passer par l’élaboration de
différents états de corpus pour mener à bien différents parcours explora-
toires réalisés en parallèle ou de manière successive.
Ces étapes indispensables vont enfin permettre au chercheur de connaître
son corpus. Préparer des données à leur analyse conduit de fait à mettre en
œuvre une succession d’opérations assimilable à une méta-observation de
ces données ; cette phase préliminaire permet à la fois de les organiser comme
un objet compatible avec les outils de traitements mais aussi de les appré-
hender plus finement et éventuellement de les ajuster ou de les remodeler.
Cette phase de préparation du corpus revient en fait, pour reprendre une
formule de François Rastier, à « aimer son corpus ». Pour clore ce chapitre,
nous soumettons au lecteur cette judicieuse observation du chercheur en 2011 :
« Un corpus doit “être aimé” : s’il ne correspond pas à un besoin voire un désir
intellectuel ou scientifique, il se périme et devient obsolète » (2011, p. 34).
Émilie Née, Serge Fleury.
101
CHAPITRE IV
COMPTER DANS LES TEXTES, QUELLES UNITÉS ?
Les deux précédents chapitres ont permis de voir comment circons-

crire et collecter un corpus – étape clé de l’AD. Après avoir passé en revue
les principes qui sous-tendent la constitution d’un corpus (chap. 2), nous
avons détaillé pas à pas les étapes de trois cas particuliers (chap. 3). Il est
maintenant important de préciser ce que l’on compte dans un corpus de
textes.
Classiquement, en lexicométrie ou textométrie (et plus largement en
ADT), pour permettre des mesures sur les textes, il faut définir les unités
qui composent ces textes et dont on va tenir compte pour les mesures. Ces
unités ne seront pas les mêmes pour tous : elles vont varier en fonction des
points de vue que l’on adopte sur le texte (et le discours, cf. Introduction),
les orientations de recherche et les postulats théoriques. L’expérience menée
dans le chapitre 1 sur le poème « La mort des amants » de Charles Baudelaire
(chapitre 1, « Savoir ce que l’on compte : un cas pratique », p. 20) et les diffé-
rents scénarios du chapitre 3 ont souligné combien il est important de définir
clairement ce que l’on souhaite compter et, de ce fait, la façon dont on va
segmenter les données.
Avant de se lancer dans tout comptage, on va donc poser ce qu’on appelle
traditionnellement une norme de dépouillement. Il s’agit là, pour reprendre
Charles Muller, « 1) [d’] une définition aussi rigoureuse que possible du carac-
tère étudié, et 2) des principes pour l’arbitrage des cas douteux » (Muller, 1992
[1973] : 9) et donc d’une « standardisation provisoire des textes contenus dans
un corpus » (Habert et al., 1997, p. 187).
La question des unités de décompte (Lebart et Salem, 1998) amène
enfin le chercheur à dépasser les catégories classiques de description des
langues (grammaticale, sémantique, morphologique).
Pour illustrer le propos de ce chapitre, nous nous appuierons sur deux
exemples, le texte La mort des amants que nous avons vu dans le chapitre 1
103
et le corpus Vœux, qui réunit tous les discours de vœux des présidents de la
Ve République, de 1959 à 2015 (voir aussi chapitre 5).
Autour du mot : formes graphiques, lemmes, catégories

morphosyntaxiques
Nous abordons dans cette section les différentes unités qui ont pour
« base » le mot.
La forme graphique
L’unité la plus « visible », celle dont on part traditionnellement en lexico-

métrie, est la forme graphique (voir aussi chap. 1, « Savoir ce que l’on
compte : un cas pratique », p. 20 et chap. 3, p. 83) – terme que nous utilise-
rons à la place de « mot », plus difficile à définir linguistiquement. On entend
par forme graphique toute suite de caractères non-délimiteurs bornée à
ses deux extrémités par deux caractères délimiteurs (ou sous-ensemble de
caractères choisis pour délimiter des unités, cf. chap. 3, scénario 1, étape 4),
que l’on relèvera une ou plusieurs fois dans le texte.
Reprenons tel quel le poème La mort des amants (cf. chap. 1) :
La mort des amants
« Nous aurons des lits pleins d’odeurs légères,

Des divans profonds comme des tombeaux,
Et d’étranges fleurs sur des étagères,
Écloses pour nous sous des cieux plus beaux.
Usant à l’envie leurs chaleurs dernières,

Nos deux cœurs seront deux vastes flambeaux,
Qui réfléchiront leurs doubles lumières
Dans nos deux esprits, ces miroirs jumeaux.
Un soir fait de rose et de bleu mystique,

Nous échangerons un éclair unique,
Comme un long sanglot, tout chargé d’adieux ;
Et plus tard un Ange, entr’ouvrant les portes,

Viendra ranimer, fidèle et joyeux,
Les miroirs ternis et les flammes mortes. »
Charles Baudelaire.
Si l’on désigne comme caractères délimiteurs de formes graphiques les espaces,

les apostrophes, les signes de ponctuation (la virgule, le point, le point-
virgule et les deux points en l’occurrence), alors on obtient le résultat suivant :
104
Compter dans les textes, quelles unités ?
– Nos est une forme distincte de la forme deux qui est une forme distincte
de cœurs, etc. ;
– Nos avec majuscule (premier vers) est une forme distincte de nos avec
minuscule. On notera là l’importance qu’il y a à accorder du temps à la
préparation de son corpus : la suppression des majuscules dans le texte
permettrait ici de ne relever qu’une forme nos (cf. chap. 3, p. 80) ;
– d(’) et odeurs constituent deux formes différentes, mais aussi entr(’) et
ouvrant !
Ce premier exemple souligne combien il est important de bien choisir
les caractères délimiteurs pour segmenter un texte en formes graphiques. La
plupart des logiciels de lexicométrie désignent des caractères délimiteurs par
défaut que l’utilisateur peut modifier. En voici une illustration.
Fig. 1. – Ouverture (ou « import ») d’un corpus avec Lexico 3 (version 3.6.).
Or la segmentation du texte en formes graphique ainsi définies peut assez

vite poser des problèmes (Habert, 2005). Par définition, la forme graphique
n’est pas purement équivalente au mot. Nous avons abordé dans le chapitre
précédent le cas des mots composés (scénario 1, étape 4, « Que faire des mots
composés »). Dans l’exemple ci-dessus, l’apostrophe sépare l(’) et envie mais
aussi entr’ et ouvrant ainsi considéré de manière contre-intuitive comme deux
formes graphiques. Comme pour les mots composés, si l’on souhaite recueillir
une seule et même forme graphique pour entr’ouvrant (participe présent du
verbe entr’ouvrir), on peut en amont supprimer l’apostrophe dans cette réalisa-
tion ou ajouter un caractère non-délimiteur supplémentaire, le tiret bas « _ »,
par exemple : entr_ouvrant. Des choix peuvent donc être effectués avant toute
segmentation, à condition qu’ils soient explicités, constants (c’est-à-dire qu’un
choix s’applique pour tous les textes du corpus) et pris en compte dans les
décomptes. Rappelons aussi que « les cas douteux » peuvent être nombreux
au point qu’on ne sache plus où s’arrêter : que faire par exemple dans un
corpus sociopolitique d’une expression comme sécurité sociale ? On pourrait
considérer cette expression comme une seule unité. On peut aussi – et c’est
105
sans doute préférable – s’en tenir, pour le repérage des unités constituées de
plusieurs formes (unités polylexicales, mots composés, lexies…), aux unités
de décompte qui tiennent compte de la séquentialité des unités (voir infra,
p. 110), le segment répété par exemple. Il y a toujours une part d’arbitraire dans
une norme de dépouillement. « Une norme de dépouillement est rarement
satisfaisante pour le linguiste », prévenait Charles Muller (op. cit., p. 10).
On dira que travailler sur la forme graphique est un travail en surface,
par opposition aux analyses qui peuvent porter sur d’autres dimensions du
texte. L’analyse du discours, en raison de ses orientations théoriques et de ses
postulats (cf. Introduction), s’accommode fort bien de cette unité de comptage
qui part, au moins partiellement, de la matérialité linguistique.
Le décompte des formes graphiques permet de caractériser le vocabulaire
de l’ensemble du corpus ou d’une sous-partie du même corpus. Cette analyse
s’effectue le plus souvent par le contraste, c’est-à-dire par la comparaison entre
les différentes parties d’un corpus (voir aussi chap. 5, « Principales méthodes et
fonctionnalités… », p. 135). Prenons l’exemple d’un corpus dont chaque partie
correspond aux textes de locuteurs différents : la comparaison du vocabulaire
de chaque partie permettra de caractériser le vocabulaire de chaque locuteur.
L’examen en diachronie, c’est-à-dire la distribution d’une forme sur une période
donnée, peut également apporter une information intéressante sur un corpus.
Nous en verrons quelques illustrations dans le chapitre 6 (p. 172).
Le lemme
Comme nous l’avons indiqué dans le chapitre précédent, la lemmatisa-

tion revient à transformer un texte en groupant sous une forme canonique
(telle qu’on la trouve dans les dictionnaires) tous les substantifs, les adjectifs,
les verbes ainsi que les formes élidées (j’, t’, l’, etc.). Cette opération qui,
rappelons-le, s’effectue au moyen d’un outil, catégoriseur ou lemmatiseur
(TreeTagger, Winbrill, Cordial et d’autres), a pour effet de réduire le nombre
de types d’unités pris en compte dans les calculs. Prenons l’exemple d’un
corpus de français parlé (corpus Rhapsodie) : ce corpus contient 38 423 occur-
rences, 4 569 formes et 3 536 lemmes (source : Projet Rhapsodie [http://projet-
rhapsodie.fr/], consulté le 01/06/2016).
Nous ne revenons pas ici sur l’intérêt de cette unité de comptage, déjà
présentée dans le chapitre 3 (Scénario 1, étape 4). En revanche, il est impor-
tant de souligner de nouveau que la lemmatisation (comme toute forme
d’annotation) est réalisée à partir d’une segmentation initiale en mots ; or
« segmenter automatiquement, tâche apparemment simple pour le lecteur, est
en fait complexe à automatiser » (Habert, 2005, p. 13). Lemmatiser nécessite
souvent de faire des choix et impose à l’utilisateur une attention particulière
aux résultats que les outils utilisés produisent.
106
Les parties du discours
La catégorisation grammaticale ou morphosyntaxique permet de

caractériser plus finement encore un corpus. Il s’agit ici, toujours en recourant
à un étiqueteur ou un catégoriseur (cf. chap. 3, ibid.), de projeter sur chaque
forme graphique une catégorie morphosyntaxique (NOM, VERBE, etc.). Cette
catégorie sera plus ou moins fine selon les outils utilisés. Ainsi les formes je,
nous, vous seront reconnues comme des pronoms personnels (PP) ou comme
des pronoms personnels de la première ou deuxième personne du singulier ou
du pluriel. L’ensemble des parties du discours sera ainsi identifié et codé.
Néanmoins l’étiqueteur peut se tromper ; là encore, il faudra être très attentif
aux résultats produits et se préparer à corriger certaines étiquettes. Voici par
exemple deux résultats d’étiquetage de La mort des amants (figure 2 et 3).
À chaque forme graphique (première colonne) correspondent une étiquette
morphosyntaxique (troisième colonne dans la figure 2 et deuxième colonne
dans la figure 3) et un lemme (respectivement, deuxième colonne et dernière
colonne). On remarque que le déterminant composé plein de pose problème
aux deux étiqueteurs. On relève aussi plusieurs erreurs d’étiquetage. Par
exemple, Des et d’étranges sont étiquetés par Treetagger comme des verbes,
comme est étiqueté par Cordial comme une conjonction de subordination. Il
Fig. 2. – La mort des amants, étiquetage Cordial (extrait).
107
Fig. 3. – La mort des amants, étiquetage Treetagger (extrait).
existe néanmoins aujourd’hui des outils d’ADT permettant de corriger manuel-

lement ces étiquetages (logiciel Le Trameur, par exemple).
Ce type de catégorisation offre un certain nombre de possibilités. Tout
d’abord, dans le cadre d’une analyse textométrique et donc d’un corpus muni
de partitions (chap. 3 et 5), on pourra faire porter la comparaison entre parties
du corpus non seulement sur le vocabulaire mais aussi sur des catégories
morphosyntaxiques : les adverbes, les verbes, les verbes au présent de l’indi-
catif, les adjectifs… Cette unité de comptage est en particulier utile pour
la caractérisation des genres de texte ou de discours (chap. 6, « Quand le
discours se fige : phraséologie, routines discursives, sloganisation », p. 188).
L’étiquetage morphosyntaxique autorise également la réalisation d’opéra-
tions complexes telles que l’extraction de séquences du type DET+ADV+ADJ
(on parle aussi de patron) permettant de rechercher des syntagmes comme « le
plus grand », « le plus beau », mais aussi « un très grand », « un très beau »,
de comparer la fréquence de ce type de séquences entre les différentes parties
du corpus, d’examiner sa distribution sur une période donnée. Cette méthode
permet également d’extraire des patrons lexico-syntaxiques, c’est-à-dire des
suites relativement figées d’éléments, ou encore des suites d’items à la combi-
natoire restreinte, contenant des items lexicaux et des items correspondant
à des catégories syntaxiques. Par exemple, le patron lexico-syntaxique le plus
ADJ limitera la recherche aux séquences contenant un adjectif précédé de le
plus : « le plus grand », « le plus beau », etc. Avec certains logiciels, on pourra
mêler dans une même requête formes, lemmes et catégories morphosyntaxi-
ques et extraire ainsi des empans textuels correspondant à des motifs (infra,
108
p. 118). Nous aborderons ce type de fonctionnalité dans le chapitre suivant

(chap. 5, « Concordances », p. 142).
Aller en deçà du mot ?
Certains logiciels d’ADT prennent en compte des unités inférieures au

mot, ce qui permet de systématiser la comparaison entre des textes.
Les N-grammes
Il s’agit de séquences de n éléments consécutifs (caractères, mots,

etc.) extraites dans un texte, et qui peuvent donc correspondre à une unité
inférieure au mot. Les séquences lib, ber, rté, forment par exemple chacune
des tri-grammes (séquence de 3 caractères) ; un tel découpage permet, par
exemple, de déterminer de façon automatique la langue d’un texte. Les
n-grammes sont actuellement surtout utilisés dans le domaine du traitement
automatique des langues (TAL).
Les racines
Méthode plus radicale que la lemmatisation, la racinisation ramène sous la

même forme présiden+, les formes président, présidents, présidente, présidentiel,
présidentielle, présidentiels, présidentielles… Cette méthode est par exemple
utilisée lorsqu’il s’agit d’effectuer des regroupements entre différents énoncés
d’un corpus, de rapprocher ces énoncés sur la base de cooccurrences multiples
(voir infra), c’est-à-dire de constituer des classes d’énoncés en fonction de leur
ressemblance, basée sur la distribution du vocabulaire qui les compose (voir
chap. 5, « Les outils proposant une approche structurante », p. 125). Deux
énoncés appartiennent à la même classe s’ils partagent un grand nombre de
formes de vocabulaire. Travailler sur la base de formes racinisées augmente
les probabilités d’obtenir des classes. De la même façon, comparer deux textes
ou deux parties d’un même corpus sur la base d’unités racinisées augmente les
rapprochements par rapport au même calcul effectué sur les lemmes et plus
encore, à partir des formes graphiques.
Au-delà des mots : des unités séquentielles

Il est utile de compléter les résultats obtenus à partir des décomptes de
formes graphiques par des comptages portant sur des unités plus larges,
composées de suites de formes. L’analyste peut alors faire intervenir une
nouvelle unité de comptage, le segment répété.
109
Les segments répétés (SR)
Le segment répété ou SR (Salem, 1987) est une suite de formes non

séparées par une ponctuation dont la fréquence est égale ou supérieure à
deux dans un corpus. Pour mieux comprendre ce que dénomme le segment
répété, partons du corpus Vœux. Voici plusieurs énoncés extraits des vœux
présidentiels prononcés par différents locuteurs à différentes époques (le texte
est en minuscules) :
1. Françaises, Français, au nom du pays, je souhaite une bonne année à ses filles
et à ses fils, c’est-à-dire à chacune et à chacun de vous (de Gaulle, 1961).
2. C’est en toute sérénité que je souhaite à chacune et à chacun de vous une
bonne et heureuse année 1964 (de Gaulle, 1964).
3. À chacune et à chacun d’entre vous, je souhaite que 1971 apporte dans sa vie
personnelle, professionnelle, familiale, plus de satisfaction, plus de bonheur
(Pompidou, 1970).
4. Mes chers compatriotes de métropole, d’outre-mer, de l’étranger, à la veille
de l’année 2007, qui sera particulièrement importante pour l’avenir de notre
pays, j’adresse, du fond du cœur, à chacune et à chacun d’entre vous mes vœux
les plus chaleureux (Chirac, 2006).
5. Mes chers compatriotes, fidèle à une belle tradition, je présente à chacune
et à chacun d’entre vous mes vœux les plus chaleureux pour la nouvelle année
(Hollande, 2012).
La séquence à chacune et à chacun, qui est répétée plusieurs fois dans le

corpus et que l’on retrouve chez différents locuteurs à différentes époques, est
un segment répété. C’est bien une suite de formes graphiques non séparées
par une ponctuation, dont la fréquence est supérieure à deux.
De nombreux logiciels de lexicométrie et de textométrie inventorient ce
type d’unité, les classent par longueur, par fréquence ou encore par ordre
alphabétique. Le tableau 1 (p. 111) représente un extrait de la liste des
segments répétés du corpus Vœux, classés par ordre alphabétique et accom-
pagnés d’un indice de longueur et de fréquence d’apparition.
Comment lire ce tableau ? On voit que le segment à ceux est un segment
de longueur 2 qui apparaît 41 fois dans le corpus (qui a 41 occurrences),
que le segment à tous ceux est un segment de longueur 3 qui apparaît 11 fois
(11 occurrences), que le segment à chacune et à chacun est un segment de
longueur 5 qui apparaît 22 fois (22 occurrences). De plus, on observe que le
segment à ceux (41 occurrences) contient le segment à ceux qui (27 occur-
rences), que le segment à tous (46 occurrences) contient les segments à tous
ceux (11 occurrences) et à tous les (10 occurrences), etc.
Ainsi, le recours au décompte des segments répétés permet d’identifier des
figements remarquables, de repérer dans un corpus des segments de textes
redondants, qui circulent d’un texte à l’autre, d’un locuteur à l’autre (voir aussi
110
Longueur Segment Fréquence
2 à ce 13
2 à ceux 41
3 à ceux qui 27
3 à chacun d 15
2 à chacun 39
6 à chacune et à chacun d 14
5 à chacune et à chacun 22
2 à chacune 25
2 à faire 14
2 àl 166
3 à la fois 10
3 à la france 28
2 à la 194
2 à leur 12
2 à nos 27
2 à notre 23
2 à nous 17
2 à se 11
2 à ses 12
2 à son 10
3 à tous ceux 11
3 à tous les 10
2 à tous 46
2 à toutes 16
2 à un 13
2 à une 23
2 à votre 11
2 à vous 38
Tableau 1. – Liste des segments répétés (classement alphabé-

tique), corpus Vœux, via Lexico 3.
chap. 6, « Quand le discours se fige : phraséologie, routines discursives, sloga-

nisation », p. 188). Il est par exemple intéressant d’observer que le segment
à chacune et à chacun relevé dans le corpus Vœux se retrouve surtout dans
les énoncés des présidents de Gaulle (4 occ.), Pompidou (3 occ.) et Chirac
(12 occ.), mais qu’il est singulièrement absent des discours des présidents
Mitterrand et Sarkozy. Le chapitre 6 abordera plusieurs utilisations possibles
des segments répétés dans la perspective de l’AD.
 ZOOM – Genèse du segment répété en lexicométrie et

en AD :
Les phénomènes de répétition et les indices de répétitivité ont
orienté l’analyse du discours vers des problématiques de figement, de
phraséologie, de sloganisation et ont renouvelé les méthodes et unités
de comptage en lexicométrie. Les chercheurs ont fait intervenir l’unité
111
de décompte du segment répété parce qu’ils ont voulu, à un moment

donné, saisir la répétitivité des corpus politiques qu’ils étudiaient. Dans
une perspective interdiscursive et dialogique (cf. Introduction), il s’agit
aussi de saisir la circulation de séquences figées, d’un texte à l’autre,
d’une formation discursive à l’autre voire d’une époque à l’autre :
« Quelles sont les unités qui circulent d’un texte à l’autre dans un
corpus de textes politiques ? Sous quelle forme et avec quels contextes
les formes du vocabulaire transitent-elles d’une formation discursive à
une autre ? Peut-on objectiver par des comptages cette sensation que le
discours politique est un genre où les répétitions sont très abondantes, que
certaines séquences reviennent souvent, martelées au détriment du sens
de chacune des formes qui les composent, allant même jusqu’à produire
cette impression, souvent décrite de manière polémique, que le discours
est produit par une langue de bois ? Pour trouver des réponses satisfaisantes
à toutes ces questions, il est indispensable de dépasser l’étude des formes
atomisées, isolées de leur contexte immédiat ; il est nécessaire d’accéder à
l’étude comparative des associations syntagmatiques réalisées à partir de
ces formes, dans des textes émanant de formations discursives différentes,
que l’on aura réunis en corpus » (Salem 1987, p. 22).
La méthode des segments répétés n’est néanmoins pas réservée à
l’étude du discours politique. Le type d’interrogation auquel elle essaie
de répondre peut être transposé à tout discours contraint ainsi qu’aux
discours médiatiques qui sont traversés de multiples discours, qui font
circuler des discours politiques, des expressions issues du politique et qui
fonctionnent sur la reprise, la citation, l’allusion à des discours autres.
On doit à André Salem la catégorie des SR ainsi que l’algorithme qui
permet de segmenter un corpus en segments répétés et de produire des
listes qui les inventorient par ordre de fréquence, par ordre de longueur
ou encore par ordre alphabétique.
Fiala Pierre, 1987, « Pour une approche discursive de la phraséologie.

Remarques en vrac sur la locutionnalité et quelques points de vue qui
s’y rapportent, sans doute », Langage & Société, n° 42, p. 28-48.
Fiala Pierre, Habert Benoît, Lafon Pierre, Pineira Carmen, 1987,
« Des mots aux syntagmes, figements et variations dans la Résolution
générale du congrès de la CGT de 1978 », Mots, n° 14, p. 45-87.
Salem André, 1986, « Segments répétés et analyse statistique des données
textuelles », Histoire & Mesure, 1986, vol. 1, n° 2. Varia, p. 5-28.
– 1987, Pratique des segments répétés. Essai de statistique textuelle, Paris,
Klincksieck.
112
Les associations de mots ou cooccurrences
Pour jouer en même temps sur la séquentialité et sur la répétitivité du

discours sans se limiter à une successivité stricte des formes (ABCAD, par
exemple, pour reprendre formellement le segment à chacune et à chacun),
l’analyse peut faire intervenir une unité plus lâche que le segment répété (SR).
Il s’agit de la cooccurrence.
Reprenons les énoncés présentés supra (p. 110) :
1. Françaises, Français, au nom du pays, je souhaite une bonne année à ses filles
et à ses fils, c’est-à-dire à chacune et à chacun de vous (de Gaulle, 1961).
2. C’est en toute sérénité que je souhaite à chacune et à chacun de vous une
bonne et heureuse année 1964 (de Gaulle, 1964).
3. À chacune et à chacun d’entre vous, je souhaite que 1971 apporte dans sa
vie personnelle, professionnelle, familiale, plus de satisfaction, plus de bonheur
(Pompidou, 1970).
4. Mes chers compatriotes de métropole, d’outre-mer, de l’étranger, a la veille
de l’année 2007, qui sera particulièrement importante pour l’avenir de notre
pays, j’adresse, du fond du cœur, à chacune et à chacun d’entre vous mes vœux
les plus chaleureux (Chirac, 2006).
5. Mes chers compatriotes, fidèle à une belle tradition, je présente à chacune
et à chacun d’entre vous mes vœux les plus chaleureux pour la nouvelle année
(Hollande, 2012).
Dans ces différentes séquences, apparaissent, autour des formes consti-

tuant le segment à chacune et à chacun, les formes je et vous – et si le corpus
était lemmatisé, nous aurions même pu « attraper » la forme élidée j’, sous
le lemme JE. Or il est difficile de rendre compte de cette « co-occurrence »
avec les segments répétés, dans la mesure où les formes répétées ne se suivent
pas et ne sont même pas toujours aux mêmes endroits dans la séquence. Par
exemple, dans le troisième énoncé, vous précède je, et les deux formes sont
d’ailleurs séparées par une virgule.
Principe
Avec la notion de cooccurrence, il s’agit de déterminer dans un corpus

donné les mots, les groupes de mots, les lemmes, les catégories qui s’atti-
rent, c’est-à-dire qui ont tendance à apparaître ensemble dans un même
environnement (phrases, paragraphes, chapitres, ou tout autre fenêtre
contextuelle déterminée par le chercheur) ou qui se repoussent (qui
apparaissent plutôt ailleurs qu’au voisinage de la forme choisie comme pôle).
Ce type de calcul peut ouvrir des perspectives interprétatives. Ainsi, dans
un corpus constitué de discours de meetings politiques du premier tour des
élections présidentielles de 2012 (cf. Haddad, 2017), on observe que la forme
113
jeunes peut avoir comme cooccurrents les formes emploi, formation chez un
responsable politique et violence, délinquance, chômage chez un autre.
Le calcul de cooccurrence peut concrètement se faire de différentes façons
et se traduire par des visualisations variées (cf. Poudat et Landragin, 2017).
Les calculs les plus couramment utilisés en lexicométrie sont basés sur le
modèle hypergéométrique (Lafon 1984, voir infra, « La cooccurrence contex-
tuelle spécifique »). Mais on trouve d’autres modèles de calculs selon les
domaines scientifiques (en linguistique de corpus, en particulier) ou les zones
géographiques. Pour une présentation détaillée des différents types de calculs
et des types de recherches qui leur sont associés, nous renvoyons à la thèse
de Stephan Evert (2005) ainsi qu’à l’ouvrage de Céline Poudat et Frédéric
Landragin (op. cit.).
Enfin, plusieurs logiciels intègrent la cooccurrence comme unité de
décompte. C’est le cas, par exemple, du logiciel Hyperbase (fonctionnalité
Hypoccur) qui permet d’établir une typologie des textes non plus à partir des
occurrences des mots individuels mais sur les cooccurrences. L’outil établit
ainsi la liste des cooccurrences d’un corpus donné. Pour chaque texte ou
partition (cf. chap. 3 et 5, pour le terme de partition), on constitue un tableau
qui comporte en colonne la partie considérée et en lignes les occurrences non
plus des formes mais de couples de formes (lire aussi Brunet, 2012). Les diffé-
rents programmes d’analyse factorielle (cf. chap. 5) proposés par Hyperbase
permettent ainsi de cartographier les corpus analysés non plus en se basant
sur un tableau des occurrences mais sur ce tableau de couples cooccurrents.
Ce type de calcul répond à une hypothèse formulée par la sémantique inter-
prétative : le sens des mots se construit en contexte et non dans le dictionnaire
(lire aussi chap. 6, p. 181-185).
La cooccurrence contextuelle spécifique
L’analyse de l’attraction lexicale (ou cooccurrence lexicale) est originelle-

ment au cœur des études lexicométriques (Mayaffre, 2014b). La lexicomé-
trie s’intéresse à l’attraction lexicale au sens large, abstraction faite de toute
contrainte linguistique ; une collocation, au contraire, est un type de cooccur-
rence privilégiée, contraint par une relation fonctionnelle entre les cooccur-
rents visés : par exemple, les expressions vert de rage ou être en difficulté
associent de manière privilégiée des éléments qui sont en relation syntaxique
et sémantique (Mel’cuk, 1998 ; Tutin, 2013).
Sur la base des unités lexicales et contextuelles identifiées dans le corpus,
la méthode de cooccurrence contextuelle spécifique opère une comparaison
entre la totalité du corpus et l’ensemble des contextes contenant le pôle étudié
afin de dégager les mots qui y sont sur-employés ou, à l’inverse, sous-employés.
La délimitation contextuelle peut prendre appui sur les unités naturelles des
textes (phrases et paragraphes) ou sur des unités fixes (x mots avant et après le
114
pôle). Dans l’illustration ci-dessous, les contextes sont définis par un caractère
particulier (§).
Fig. 4. – Mise au jour de cooccurrents.
Une fois ces contextes mis en évidence (partie gauche de la figure), il est
possible de contraster ceux qui contiennent le pôle et les autres puis d’identifier
les cooccurrents de ce pôle (à droite de la figure). La mise au jour des cooccur-
rents d’un pôle donné peut être réalisée par le biais d’un indice de spécificité
(via le Modèle Hypergéométrique, par exemple) ; les cooccurrents les plus carac-
téristiques du pôle sont déterminés suivant qu’ils apparaissent, dans les mêmes
contextes, plus ou moins souvent que prévu par la loi de la probabilité.
Le Modèle Hypergéométrique est fondé sur la distribution en probabilité
du nombre de rencontres de toutes les permutations possibles des formes
étudiées dans l’hypothèse d’équiprobabilité. Il détermine la valeur la plus
probable d’après les paramètres suivants :
T : le nombre d’occurrences dans le corpus ;
t : le nombre d’occurrences dans les contextes du pôle ;
F : la fréquence du cooccurrent dans le corpus ;
f : la fréquence du cooccurrent dans les contextes du pôle.
À partir de cette valeur probable, on calcule un diagnostic de spécificité
signalant l’écart par rapport à la valeur attendue – un écart qui peut être
positif, négatif ou nul. Si la fréquence réelle est supérieure à la fréquence
attendue, alors la forme est spécifique positive et on l’indique en général par le
code +x. Si la fréquence réelle est inférieure à la fréquence attendue, la forme
est spécifique négative et on l’indique par le code -x. Enfin, si la fréquence
réelle est égale à la fréquence attendue, alors la forme est banale.
Les deux figures suivantes illustrent un calcul de cooccurrent spécifique
effectué sur la forme nous (figure 5) puis le lemme nous (figure 6).
La comparaison des deux résultats produits permet ici de mettre au jour
les prédicats (verbes) les plus spécifiques du pronom nous : être, construire et
laisser. La figure 6 laisse penser que les prédicats devoir, aller, pouvoir, vivre,
115
Fig. 5. – Calcul de cooccurrents spécifiques via Le Trameur (Corpus Vœux, pôle : nous,
seuil de spécificité choisi : 7, freq. cofreq. 5 ; contexte : phrase) et représentation graphi-
que ; la couleur des flèches varie en fonction de l’indice de spécificité (rouge = indice de
spécificité > 50), l’épaisseur en fonction du nombre de contextes concernés.
Fig. 6. – Calcul de cooccurrents spécifiques via Le Trameur sur un corpus lemmatisé (Corpus
Vœux, pôle : nous, seuil de spécificité choisi : 5, freq. cofreq. 5 ; contexte : phrase).
116
faire, vouloir, ne sont pas spécifiques du pronom nous. Il faudra cependant

retourner au contexte pour vérifier ces résultats (voir chap. 5, « Du nécessaire
retour au texte : concordances et cartes topographiques », p. 142).
Cette méthode peut être étendue pour donner lieu, via un calcul récursif
de cooccurrence, à la mise au jour d’un réseau de cooccurrences (voir les
polycooccurrents mis en œuvre par William Martinez, 2012).

Lafon Pierre, 1984, Dépouillements et statistiques en lexicométrie,
Genève, Slatkine-Champion.
Martinez William, 2012, « Au-delà de la cooccurrence binaire…
Poly-cooccurrences et trames de cooccurrence », Corpus,
n° 11, p. 191-216 [http://corpus.revues.org/2262] (consulté le
01/06/2016).
Mayaffre Damon, Viprey Jean-Marie (coord.), 2012, « La Cooccurrence.
Du fait statistique au fait textuel », Corpus, n° 12 [https://corpus.
revues.org/2183] (consulté le 01/06/2016).
Mayaffre Damon, 2014, « Plaidoyer en faveur de l’Analyse de Données
co(n)Textuelles. Parcours cooccurrentiels dans le discours présiden-
tiel français (1958-2014) », in Actes JADT’2014, Paris, Lexicometrica
[http://lexicometrica.univ-paris3.fr/jadt/jadt2014/] (consulté le
01/06/2016).
La cooccurrence généralisée
On distinguera les cooccurrences associées à une forme choisie comme

pôle (les cooccurrents de la forme jeune, par exemple) et les cooccurrences
généralisées. La méthode des cooccurrences généralisées consiste à repérer
les rencontres fréquentes ou peu attendues d’une liste de formes, le plus
souvent avec elles-mêmes. En d’autres termes, le calcul des cooccurrences
généralisées revient à extraire d’un corpus les « items » les plus fréquents ou
les mieux répartis (forme graphique ou données lemmatisées en fonction du
paramétrage choisi) et de repérer les cooccurrents les plus fréquents de chacune
de ces formes. On établit ainsi une matrice de cooccurrences qui prend la
forme d’un tableau à double entrée croisant ces termes et leurs cooccurrents.
Cette méthode, développée par Jean-Marie Viprey, est implémentée dans le
logiciel Astartex, mais on la retrouve également dans certaines versions de l’outil
Hyperbase sous la fonctionnalité corrélats. Lorsque l’on soumet cette matrice à
une analyse factorielle des correspondances (voir chap. 5, « L’analyse factorielle
des correspondances (principes généraux) », p. 152), la configuration obtenue
117
permet de mettre en évidence les relations ou les réseaux associatifs qui se

construisent entre les différentes formes. Des zones sont alors identifiables, qui
peuvent s’interpréter comme autant de champs sémantiques construits à partir
de formes cooccurrentes (Viprey, 2006 ; Lethier, 2009 ; Kastberg, 2006). Pour
d’autres exemples portant sur la cooccurrence, le lecteur pourra se reporter au
n° 12 de la revue Corpus (cf. Mayaffre et Viprey, 2012).
De nouvelles unités séquentielles à définir : les motifs et les routines
Plus récemment, et dans une perspective phraséologique, les chercheurs

en ADT, en linguistique de corpus et en AD se sont intéressés à des unités
encore plus lâches qui font intervenir plusieurs niveaux d’analyse : les motifs
et les routines. Ces unités ne correspondent pas encore à des fonctionnalités
lexicométriques stables. Elles font néanmoins intervenir un type d’unité (et
de fonctionnalité) que l’on trouve dans le domaine du TAL, le patron (voir
aussi supra, p. 108).
Introduit par Sylvie Mellet et Dominique Longrée dans le cadre d’une
analyse textométrique d’un corpus de prosateurs latins et convoqué aujourd’hui
dans plusieurs travaux sur la phraséologie (cf. Legallois et Tutin, 2013 ; Sitri et
Tutin, 2016), le motif se présente comme une nouvelle unité textuelle récur-
rente (ABC, par exemple) composée d’unités A, B, C de différents niveaux
(formes graphiques, lemmes, catégories grammaticales, patrons syntaxiques
et, éventuellement, schèmes métriques ou prosodiques). La première parti-
cularité du motif, en comparaison avec le segment répété ou la cooccurrence,
est sa multidimensionnalité :
« La notion de motif est conçue comme un moyen de conceptualiser la multi-
dimensionnalité (ou le caractère multi-niveau) de certaines formes récurrentes
qui sollicitent à la fois le lexique, les catégories grammaticales et la syntaxe,
éventuellement la prosodie, la métrique » (Longrée et Mellet, 2013, p. 66).
De plus, un motif admet des variations :

« Sa micro-structure combine à la fois des éléments de stabilité assurant sa
mémorisation et sa reconnaissance, et des éléments de transformation assurant
le jeu inhérent aux divers usages en discours » (ibid.).
Néanmoins, le motif « peut fournir une base solide à des traitements

automatiques… (Evert, 2008) » (ibid.).
Le motif se définit enfin par ses différentes fonctions. Il participe à la
structuration du texte en étant le support de fonctions cohésive, résomptive,
de structuration temporelle de la narration, de progression de l’intrigue, etc. ;
il permet la caractérisation des textes de genres divers, « voire [la détection]
au sein d’un même texte, des passages de registres différents » (Longrée et
Mellet, 2013, p. 66).
118
On trouve un bon exemple de l’articulation entre motif et genre de textes

dans le travail de Dominique Legallois, Thierry Charnois et Thierry Poibeau
(2016). Ces derniers ont comparé le degré de figement observé dans diffé-
rents types de romans (sérieux, sentimental et policier) grâce à un calcul
des segments répétés. C’est le roman sentimental qui comporte le plus de
séquences figées, mais les auteurs montrent que le figement ne s’exprime pas
seulement à travers des répétitions à l’identique mais aussi par la récurrence
de séquences associant une structure syntaxique à une combinatoire lexicale
relativement libre (un motif). Ainsi, sous le motif « il/elle le V-PS de un
NC ADJ » (dans lequel toutes les formes graphiques sont des lemmes, et où
V-PS désigne un Verbe au Passé Simple, NC désigne un Nom Commun et
ADJ un ADJectif), on lit Elle le gratifia d’une œillade sévère ; Elle l’enveloppa
d’un regard furieux, accusateur ; Elle l’écouta d’une oreille distraite. Ces énoncés
rendent compte de la relation entre les deux actants, quand celle-ci est de
nature perceptuelle.
Dans la perspective de l’AD, Émilie Née, Frédérique Sitri et Marie Veniard
(2014, 2016) convoquent les termes de patron et de routines. Les patrons
sont définis comme
« des moules syntaxiques ou séquentiels avec une combinatoire lexicale plus ou
moins restreinte […]. Ils peuvent être de l’ordre du syntagme ou de la propo-
sition (patron syntaxique), voire avoir un empan inter-propositionnel (patron
séquentiel). Ils peuvent comporter des places qui ne sont pas toujours toutes
actualisées » (2014, p. 2 116).
Les auteures posent ainsi « l’existence d’un continuum entre des séquences
très figées et d’autres qui le sont moins, le moindre degré de figement [étant]
représenté par des associations notionnelles » (ibid). Une routine « consiste
en la mise en relation de séquences linguistiques récurrentes, partiellement
figées (i. e. les patrons) avec des déterminations discursives et des fonctions
textuelles propres à un genre ou une sphère d’activité » (ibid. : 2119). Le
lecteur trouvera dans le chapitre 6 une illustration commentée du recours à
ce type d’unité en AD (« Les segments semi-figés », p. 191).
Des unités « paradigmatiques » : les groupes de formes

Le Groupes de formes ou Type Généralisé (TGen), proposé pour la
première fois par Cédric Lamalle et André Salem (2002), est un « ensemble
d’occurrences sélectionnées [par le chercheur] parmi les occurrences du
texte […], définition très large [qui] permet de généraliser le concept de type
(ou de forme) habituellement utilisé dans le domaine lexicométrique » (Lamalle
et Salem 2002, p. 404). À cette unité est associée une fonctionnalité logicielle,
appelée « Groupe de formes » (dans la suite Lexico) ou SELECTION (dans
Le Trameur). Le TGen dépend des requêtes du chercheur : rien n’empêche en
119
effet de construire un TGen correspondant à une famille de formes bâtie sur

une base sémantique (père/mère/enfant, par exemple) ou d’isoler des regroupe-
ments formels, comme la variation en nombre, en laissant de côté la variation
en genre. Voici deux exemples de TGen sur le corpus Vœux : les formes santé,
bonheur, vœux, présentes dans le corpus permettent, une fois regroupées,
d’examiner ce que l’on considérerait comme relevant de la partie rituelle des
vœux ou de la thématique des vœux. On peut aussi constituer un TGen sur
une base morphologique en regroupant toutes les formes se terminant par le
suffixe –ISME pour effectuer ensuite des calculs sur ce groupe (illustration
ci-contre).
Fig. 7. – TGen ISME, Corpus Vœux, via Lexico 5 ;

les termes sont classés par ordre de fréquence.
120

Le tableau ci-dessous regroupe les unités de décompte présentées dans
ce chapitre.
Forme graphique : gouvernement, gouvernements.

Lemme : veux, veut, voulons… deviennent « vouloir ».
Racines : président, présidents, présidentiels deviennent présiden+.
Catégorie morphosyntaxique : ADV (regroupe : toujours, jamais, bientôt,
aujourd’hui…).
Catégories étiquettes sémantiques : fille, fils, femme, mari deviennent
« famille ».
N-gramme : lib, ber, rté.
Segment répété : à chacune et à chacun (occurrences > 2).
Cooccurrence : Europe + monde (même phrases, même paragraphes, même
fenêtre contextuelle).
Patron : DET – NOM – ADJ (regroupe : la volonté républicaine, le choix
républicain).
Motif : DET – volonté – ADJ (regroupe : la volonté républicaine, une volonté
républicaine, cette grande volonté).
TGen : thématique Vœux (regroupe les formes choisies par le chercheur : santé,
bonheur, vœux, etc.).
Délinéariser un corpus de données textuelles, recourir à des traitements

automatiques et statistiques, c’est amorcer un « geste de lecture » et un regard
particulier sur les données, complémentaire d’une analyse « à la main » – à
condition bien sûr de ne pas céder à une conception réductrice et simplifi-
catrice du discours. Quelles sont les fonctionnalités des logiciels que l’on
utilise couramment en ADT ? C’est ce à quoi le chapitre suivant va tenter de
répondre.
Émilie Née, Jean-Marc Leblanc, Serge Fleury.
121
CHAPITRE V
QUELS OUTILS LOGICIELS ET POUR QUOI FAIRE ?
Ce chapitre présente les principaux outils utilisés en ADT, les appro-

ches qui leur sont associés et leurs principales fonctionnalités. Tout d’abord,
nous verrons comment les différents types d’outils logiciels procèdent pour
manipuler les unités mises au jour en amont (cf. chap. 4). Nous aborde-
rons ensuite quelques fonctionnalités et méthodes couramment utilisées en
ADT, en insistant sur les points qu’il est nécessaire de prendre en compte
pour interpréter les résultats produits. Nous réserverons une place à part à
l’analyse factorielle des correspondances (AFC), une méthode inductive qui
nécessite un certain nombre de précautions méthodologiques. Pour terminer,
nous proposons un parcours d’exploration méthodique d’un corpus avec les
méthodes d’ADT.
Au fil de ces pages, nous prendrons surtout appui sur trois corpus
spécifiques :
– le corpus Vœux : rappelons que ce corpus réunit l’ensemble des
allocutions du 31 décembre (vœux aux Français) des présidents de la
Cinquième République, de 1959 à 2015. Il contient 58 257 occurrences
pour 6 426 formes. Ce corpus est accessible en ligne sur la page suivante
[https://sourceforge.net/projects/txm/files/corpora/voeux/] (consulté le
01/06/16).
– le corpus Corpex : ce corpus expérimental et construit à des fins didacti-
ques rassemble des tragédies classiques (Andromaque de Racine, Le Cid
de Corneille), un roman du xixe siècle (Madame Bovary de Flaubert),
des discours médiatiques (éditos de presse magazine féminine recueillis
sur les bases Lexis Nexis et Factiva) et des discours politiques (vœux
présidentiels en France depuis 1959). Ce corpus, délibérément éclec-
tique, ne répond pas à une problématique spécifique : il a vocation à
exagérer les contrastes dans un but strictement didactique. Il contient
215 238 occurrences pour 20 919 formes.
123
– le corpus Obama : ce corpus est constitué d’un discours (en anglais)

de Barak Obama et de quatre traductions en français de ce discours. Il
contient 13 746 occurrences pour 2 691 formes. Ce corpus disponible est
en ligne sur cette page [http://www.tal.univ-paris3.fr/trameur] (consulté
le 01/06/16).
Repères historiques et épistémologiques

Les outils logiciels pour l’ADT ont été développés pour répondre à des
questions de recherche au sein de champs disciplinaires différents et sont avant
tout le résultat de postulats méthodologiques propres à ces recherches.
Des chercheurs comme Étienne Brunet ou Charles Muller s’intéressaient
plus particulièrement aux corpus littéraires dans l’idée qu’on pouvait étudier, à
travers le vocabulaire des œuvres d’un écrivain, sa manière d’utiliser la langue.
Ils ont ainsi élaboré des méthodes et des logiciels qui rendaient possibles ce
type d’étude (le logiciel Hyperbase, par exemple), en privilégiant des mesures
telles que la richesse ou l’accroissement du vocabulaire et en accordant une
certaine importance à la catégorisation et à la lemmatisation des données, là
ou d’autres approches, en sociopolitique par exemple, préféraient s’en tenir à
la forme graphique.
D’autres chercheurs, travaillant dans les années 1968 sur des corpus
politiques, ont cherché à explorer la notion d’intertextualité, en considérant
que les discours étaient surtout produits en résonance avec d’autres discours
(cf. p. 12). On s’est alors occupé de décrire la circulation de séquences parfois
plus longues que les simples formes graphiques. Ces postulats méthodologi-
ques ont donné naissance à des logiciels qui s’occupaient plutôt de segments
et de cooccurrences (suite logicielle Lexico, par exemple).
De son côté, un chercheur comme Max Reinert, travaillant plutôt dans
le domaine de la psychanalyse, avait en tête le fait que deux mots arrivent
ensemble dans les mêmes phrases (cooccurrences). Il cherchait donc avant
tout à dégager les structures signifiantes saillantes d’un texte. C’est ainsi que
le logiciel Alceste dont il est le créateur permet d’identifier des « mondes
lexicaux », c’est-à-dire les thématiques dominantes d’un texte. Cet outil
segmente pour cela le texte en énoncés classés selon leur ressemblance, c’est-
à-dire selon la distribution du vocabulaire qui les compose.
Ces quelques exemples montrent que les préoccupations et les traditions,
différentes d’une discipline à l’autre, dictent l’élaboration des logiciels et
le choix des fonctionnalités. L’élagage des mots-outils ou la lemmatisation,
le choix de tel ou tel tableau à soumettre à une analyse factorielle en sont
autant d’exemples. La tendance aujourd’hui est néanmoins à l’assemblage de
fonctionnalités indépendamment d’un ancrage disciplinaire fort.
124
Quels outils logiciels et pour quoi faire ?
Typologie logicielle
La typologie proposée dans ces pages repose sur les principales fonction-
nalités des outils logiciels.
Les outils essentiellement contrastifs et longitudinaux
Les outils les plus « classiques » sont contrastifs – on compare (contraste)

des parties du corpus entre elles – et longitudinaux – le corpus est alors
découpé de façon chronologique. Ces outils fonctionnent donc à partir d’un
corpus partitionné, c’est-à-dire d’un corpus divisé en sous-parties en fonction
de variables définies par le chercheur (chap. 3, scénario 1, étape 5). Sur ces
partitions vont porter des analyses contrastives et des mesures de
ventilation du stock lexical dans les sous-parties du corpus. Les fonctions
documentaires (concordances, contextes), statistiques (spécificités) et les
analyses multidimensionnelles (analyse factorielle des correspondances,
analyses arborées) constituent les fonctionnalités essentielles de ces outils.
Nous reviendrons plus en détail sur ces méthodes infra.
Exemples : Lexico, Hyperbase, TXM, Le Trameur, Textobserver.
Les outils proposant une approche structurante
Tandis que les mesures contrastives ou longitudinales comparent la compo-

sition lexicale de plusieurs parties d’un même corpus, une approche structu-
rante consiste à faire émerger les structures saillantes d’un texte ou d’une
partie du texte.
La méthodologie Alceste (« méthode Alceste », désormais), implémentée
dans le logiciel du même nom ainsi que dans le logiciel libre Iramuteq (Pascal
Marchand et Pierre Ratinaud), est sans doute la plus représentative de ce
type d’approche. Arrêtons-nous quelques instants sur cette méthode qui peut
avoir sa place dans une analyse du discours outillée par l’informatique (voir
aussi Leblanc 2005, 2016a et b). Son algorithme (la classification hiérar-
chique descendante ou CHD) ne repose pas sur une segmentation pré-établie,
mais constitue de manière itérative des classes d’énoncés indépendam-
ment des grandes divisions du corpus créés par le chercheur (à ces grandes
divisions, correspondent dans Alceste et Iramuteq des variables : locuteurs,
années, etc.).
Alors que la procédure lexicométrique standard consiste à segmenter
le texte en unités minimales (cf. chap. 4), à produire un tableau lexical et
à croiser les unités minimales et les parties du corpus, la méthode Alceste
construit un tableau qui croise les énoncés et les vocables qui les composent
en termes de présence-absence.
125
Énoncés vocable A vocable B vocable C vocable D vocable E
Énoncé 1 1 0 1 0 0
Énoncé 2 0 0 1 0 1
Énoncé 3 1 0 1 1 0
Etc. … … … … …
Le corpus soumis au logiciel Alceste est donc segmenté ou découpé en

énoncés qui correspondent de fait à des segments de phrases. Ces énoncés,
appelés « unités de contexte élémentaires (UCE) », sont ensuite classés
en fonction de la distribution de leur vocabulaire, en d’autres termes en
fonction des mots qu’ils ont en commun. Cette démarche de nature induc-
tive est fondée sur une analyse statistique distributionnelle de type harrissien
(voir « Zoom » infra, p. 129).
La CHD suppose que l’on commence par isoler les énoncés les plus
discriminants. Elle opère de la façon suivante : sur l’ensemble des énoncés
constituant le corpus on cherche une partition en deux, c’est-à-dire à identi-
fier une première classe d’énoncés, présentant les similitudes les plus fortes
(par exemple, la classe 5, dans l’illustration qui suit p. 127). La classifica-
tion se poursuit sur les énoncés suivants jusqu’à épuisement de toutes les
itérations possibles. Il reste toujours un résidu, constitué d’énoncés qui
ne présentent pas suffisamment de similitudes pour constituer une
classe. Cette démarche met ainsi en évidence les grandes articulations du
corpus, ses « mondes lexicaux » (Reinert 1993, 1999).
L’autre grande différence de la méthode Alceste avec les méthodes mises
en œuvre par les outils contrastifs est que l’analyse passe nécessairement par
la réduction des formes graphiques du corpus en racines et lemmes (voir aussi
chapitre 4, p. 109). Cette réduction est effectuée par le logiciel lui-même,
de manière plus brutale qu’une lemmatisation classique (voir illustration
ci-après). La figure 1 infra représente un exemple de sortie logiciel (et de
résultat) que l’on obtient en mettant en œuvre la méthode Alceste.
Cette classification a été effectuée sur le corpus Vœux. Les classes
apparaissent sous la forme d’un dendogramme ou d’un arbre inversé. Il est
alors important d’examiner les caractéristiques suivantes :
– la proportion des énoncés classés : comme nous l’avons vu dans les
lignes qui précèdent, la classification hiérarchique descendante implique
que l’analyse ne porte jamais sur la totalité du corpus (voir aussi chap. 6).
La proportion des énoncés classés est donc un élément important de
l’analyse ;
– le nombre de classes identifiées et leur ordre d’émergence : l’ordre
d’émergence des classes est un élément important pour l’interprétation
puisque la première classe à émerger de l’analyse est celle qui est la plus
discriminante.
126
Fig. 1. – Classification hiérarchique descendante sur le corpus Vœux, sortie Alceste.
Il convient ensuite d’identifier le critère de regroupement de chaque classe

(un thème, un registre de langue, une source, un locuteur, un genre) puis de
situer les variables qui se rattachent plus particulièrement à un monde lexical.
La nomination de ces classes est le fait du chercheur et est avant tout inter-
prétative. Notons aussi que les classes obtenues, présentées sous la forme de
listes de mots (ici de formes réduites), ne sont que la synthèse du classement
des énoncés auquel le chercheur peut avoir accès à tout moment, ce qui facilite
l’identification des thématiques et constitue une façon de revenir au texte.
Dans notre exemple, la classe la plus discriminante est la classe 5, car c’est
la première à émerger dans le dendogramme. Attention, il ne faut pas se fier
ici au chiffre attribué à la classe – « 5 », ici – mais bien observer le « chemin »
par lequel on arrive à cette classe.
Cette classe, que nous reproduisons dans l’illustration ci-après, fait émerger
la thématique du rituel et des vœux : vœu+, cher+, compatriote+, bonne+,
annee+, je, etc. De plus, à cette classe est fortement associée la variable
locuteur giscard (*loc_giscard, 12e ligne du tableau). Nous n’irons pas plus
loin ici dans l’interprétation (voir Leblanc, 2016a et b).
Comme nous le verrons dans le chapitre 6, cette méthode est tout à fait
intéressante en analyse du discours pour la mise au jour de thèmes mais aussi
d’éléments structurants tels que le style ou le registre, ou encore de tout autre
élément caractérisant ou spécifiant un groupe d’énoncés.
127
Fig. 2. – Classe la plus discriminante, corpus Vœux, sortie Alceste.
Parmi les autres outils qui proposent une approche structurante, on peut
citer les fonctionnalités reposant sur des méthodes de cooccurrences dites
généralisées (cf. chap. 4 et 6) car elles permettent d’identifier dans un corpus
des zones qui peuvent s’interpréter comme autant de champs sémantiques
construits à partir de formes cooccurrentes (voir « La cooccurrence généra-
lisée », p. 117 où nous présentons cette méthode).
Pour terminer, voici quelques exemples de logiciels proposant des approches
structurantes : Alceste, Astartex, Iramuteq, Hyperbase, Webhyperbase.
 Pour aller plus loin
Jenny Jacques, 1999, « Pour engager un débat avec Max Reinert, à

propos des fondements théoriques et des présupposés des logiciels
d’analyse textuelle », Langage & société, n° 90, p. 73-85.
128
Leblanc Jean-Marc, 2016a, Analyses lexicométriques des vœux prési-

dentiels, Londres, Iste Éditions.
– 2016b, « Phraséologie et formules rituelles dans le discours politique,
l’expérimentation en lexicométrie », Lidil, n° 53, p. 43-69.
– 2005, Les vœux présidentiels sous la Cinquième République (1959-
2001). Recherches et expérimentations lexicométriques à propos de
l’ethos dans un genre discursif rituel. Thèse de doctorat en sciences
du langage, université Paris 12, Val-de-Marne, chapitre 4, Quelles
typologie des messages des vœux, p. 396-434. En ligne [http://leblanc.
jeanmarc.free.fr/] (consulté le 01/06/2016).
Reinert Max, (non daté), Alceste. Un logiciel d’aide pour l’analyse de
discours. Notice simplifiée. En ligne sur le site du CRIPFE, Canada
[http://tic-recherche.crifpe.ca/docs/guides/fr/Alceste_guide.pdf]
– 1999, « Quelques interrogations à propos de l’“objet” d’une analyse
de discours de type statistique et de la réponse “Alceste” ». Langage
& société, n° 90, p. 57-70.
– 1993, « Les “mondes lexicaux” et leur logique », Langage & société,
n° 66, p. 5-39.
Ressources en ligne
IMAGE [http://www.image-zafar.com/], site officiel sur logiciel Alceste.

On y trouve des références à Max Reinert ainsi que le manuel du
logiciel (consulté le 01/06/2016).
Iramuteq [www.iramuteq.org] (crédits : P. Ratinaud), site officiel du
logiciel libre Iramuteq. Le site propose des téléchargements, une
documentation fournie et des exemples d’analyse avec la méthode
Alceste (consulté le 01/06/2016).
 ZOOM – L’héritage de Zellig S. Harris en AD et en ADT

Zellig S. Harris est un linguiste américain de la deuxième moitié
du xxe siècle dont les propositions ont très tôt séduit les chercheurs en
analyse du discours. On lui doit notamment l’expression même d’ana-
lyse du discours (traduite de l’anglais discourse analysis) en même temps
que la méthode d’analyse distributionnelle. Cette méthode consiste
à regrouper dans des classes dites d’équivalences des parties de la
chaîne verbale qui ont des distributions semblables, et à segmenter
129
cette chaîne verbale en unités discrètes. L’objectif initial est de décrire

une langue par sa structure distributionnelle et sans avoir recours au
sens :
« On peut décrire toute langue par une structure distributionnelle,
c’est-à-dire par l’occurrence des parties (et, en dernière analyse, des sons),
relativement les unes aux autres, et cette description n’exige pas qu’on
fasse appel à d’autres caractéristiques, telles que l’histoire ou le sens […]
La distribution d’un élément sera définie comme la somme de tous les
environnements de cet élément. L’environnement d’un élément A est la
disposition effective de ses co-occurrents, c’est-à-dire des autres éléments,
chacun dans une position déterminée, avec lesquels il figure pour produire
un énoncé » (Harris, 1954, cité par Maingueneau, 1976, p. 65).
Appliquée au discours, cette méthode « asémantique » (nous repre-

nons ce terme à D. Maingueneau, 1976), permet des regroupements
d’énoncés propres à tel ou tel discours ou à différents discours. Elle peut
mettre au jour « des corrélations avec la personne ou la situation qui est
à l’origine du texte » (Harris, 1969 [1952]). Elle permet également de
réduire le discours à quelques énoncés types par la mise en équivalence
de séquences comportant le même item ou la même expression. Cette
méthode a été employée par Denise Maldidier dans sa thèse qui portait
sur une analyse du discours politique de la guerre d’Algérie à travers
six journaux quotidiens (Maldidier, 1969, thèse dirigée par J. Dubois).
Deux énoncés types sont mis au jour, (l’)Algérie est la France et
(l’)Algérie dépend de la France, qui « sous-tendent le discours politique
de la guerre d’Algérie » et qui servent d’étalon, de « modèle de compé-
tence du discours, commun à l’ensemble des locuteurs dans l’espace,
mais aussi dans le temps » (2014 [1969] : 65) pour caractériser le
discours de ces quotidiens.
On retrouve l’empreinte de Z. S. Harris dans les travaux de Michel
Pêcheux, du statisticien Jean-Pierre Benzecri, « dont les techniques
statistiques ont été utilisées dès l’origine pour l’analyse de discours »
(Reinert, 1999, p. 59), puis chez Max Reinert, concepteur du logiciel
Alceste, et dans les analyses de Pierre Fiala. Ces analyses ont contribué
à créer la fonctionnalité inventaire distributionnel dans le logiciel Lexico,
fonctionnalité qui permet de donner une représentation ordonnée des
segments répétés suivant la distribution des items qui les composent.
Benzécri Jean-Pierre et al., 1981, Pratique de l’Analyse des Données :

linguistique et lexicologie. Paris, Dunod.
130
Harris Zellig-S., 1952, « Discourse analysis », Language, n° 28,

p. 1-30, trad. française par F. Dubois-Charlier, 1969, Langages, n° 13,
p. 8-45.
– 1954, « Distributional structure », Word, 10 (23), p. 146-162, trad.
française de F. Dubois-Charlier, 1970, Langages, n° 20, p. 14-34.
Léon Jacqueline, 2015, Histoire de l’automatisation des sciences du
langage, Lyon, ENS Éditions.
Maldidier Denise, 1969, Analyse linguistique du vocabulaire politique
de la guerre d’Algérie d’après six quotidiens parisiens, thèse de 3e cycle,
université Paris X-Nanterre, édition numérique réalisée par Françoise
Dufour, UQAC, 2014, En ligne [http://classiques.uqac.ca/contem-
porains/maldidier_denise/analyse_linguistique/analyse_linguistique_
presentation_these.html] (consulté le 01/06/2016).
Maingueneau Dominique, 1976, Initiation aux méthodes de l’analyse
du discours, Paris, Hachette Université.
Pêcheux Michel, 1969, Analyse automatique du discours, Paris, Dunod.
Pêcheux Michel, Léon Jacqueline, Bonnafous Simone, Marandin
Jean-Marie, 1982, « Présentation de l’analyse automatique du
discours (AAD69) : théories, procédures, résultats, perspectives »,
Mots, n° 4, p. 95-123.
Reinert Max, 1999, « Quelques interrogations à propos de l’“objet”
d’une analyse de discours de type statistique et de la réponse
“Alceste” », Langage & société, n° 90, p. 57-70.
Les outils reposant sur des ontologies ou des dictionnaires
Plusieurs logiciels partent de catégories préexistantes, constituées à partir de

listes lexico-sémantiques que l’on appelle parfois « ontologies » ou « ontolo-
gies sémantiques ». C’est notamment le cas du logiciel Tropes, qui projette un
dictionnaire sur le corpus, dictionnaire se présentant comme une grille séman-
tique. Les mots fille, père, mère… pourront alors être classés par l’outil utilisé
comme constituant l’univers sémantique de la famille. Les catégories sémanti-
ques projetées sur le texte correspondent aux grands thèmes du texte analysé.
C’est aussi le cas du logiciel Cordial, qui met au jour les « concepts
fondamentaux » du texte en faisant intervenir des taxinomies sémantiques.
Les thèmes saillants du texte analysé sont dotés d’un coefficient produit à
partir d’une comparaison avec un corpus de référence, interne au logiciel, et
composé d’ouvrages classés par genres : littéraire, journalistique, technique,
juridique, commercial.
L’objectif de ce type de logiciel peut être de restituer le « sens » d’un texte
sous la forme de cartographies de champs sémantiques (cf. figure 3).
131
Fig. 3. – Analyse sémantique avec Cordial, corpus Vœux.
Ce type d’outil relève davantage d’une logique d’analyse de contenu : on

« traverse » les formes pour accéder directement au contenu. C’est d’ailleurs
sous ce jour que se présente le logiciel Tropes :
« Chaque texte, qu’il s’agisse d’un article, d’un ouvrage, d’un discours, etc.
contient quelques phrases clés correspondant aux idées qui constituent son
ossature, son squelette. Le problème dès lors est – hors de toute interprétation
préalable – d’atteindre ce.s noyau.x du texte qui contiennent l’essen-
tiel du sens (nous soulignons) » (Manuel d’utilisation [http://www.tropes.fr/
ManuelDeTropesV840.pdf], p. 5, consulté le 01/06/2016).
En ce sens, et même si le chercheur peut intervenir sur les ontologies

proposées, une telle démarche repose sur une conception du discours diffé-
rente de l’AD, laquelle postule, on l’a vu, la « non-transparence » du discours
(cf. Introduction). Les résultats de ce type de logiciels doivent être aussi
pris avec précaution. Par exemple, dans l’analyse sémantique produite sur le
corpus Vœux (figure 3), le domaine « géométrie », désigné comme domaine
prédominant, ne paraît pas directement pertinent avec le genre de discours
soumis à l’analyse.

Tropes [https://fr.wikipedia.org/wiki/Tropes_(logiciel)] (consulté le
01/06/2016).
Cordial [https://fr.wikipedia.org/wiki/Synapse_Développement]
132
Synthèse
La figure qui suit synthétise le classement proposé dans ces pages.
Fig. 4. – Typologie logicielle (synthèse).
Le classement proposé ci-dessus doit cependant être relativisé. En effet,

la généralisation de certains calculs (le principe de la cooccurrence généra-
lisée, par exemple) ou le partage de certaines fonctionnalités rendent en fait
de plus en plus complexe une classification logicielle raisonnée. À la suite de
Bénédicte Pincemin et al. (2010), on peut envisager les fonctionnalités des
outils disponibles en fonction des questions que le chercheur se pose. C’est
ce type de structuration qu’a adopté récemment le consortium Corpus Écrits
dans la constitution d’une table des usages (Poudat et al., voir références dans
l’encadré infra). Les deux tableaux récapitulatifs à la fin de ce chapitre et du
chapitre suivant sont basés sur ce principe de classement.
Pour une présentation exhaustive des fonctionnalités des logiciels en ADT
et leurs usages possibles dans différentes disciplines des SHS et différents
domaines de recherche, nous conseillons au lecteur les ressources en ligne,
articles et ouvrages listés dans l’encadré ci-contre.
133

Concerne toutes les SHS
Brugidou Mathieu et al., 2000, « Les facteurs de choix et d’utilisation

de logiciels d’Analyse de Données Textuelles », in Actes JADT’2000,
Lausanne, Lexicometrica, en ligne [http://lexicometrica.univ-paris3.
fr/jadt/jadt2000/pdf/04/04.pdf] (consulté le 01/06/2016).
Labbé Cyril, Labbé Dominique, 2013, « Lexicométrie : quels outils
pour les sciences humaines et sociales ? Usages de la lexicométrie
en sociologie », juin 2013, Guyancourt, France. En ligne sur HAL
[https://hal.archives-ouvertes.fr/hal-00834039/document] (consulté
le 01/06/2016).
Lebart Ludovic, Salem André, 1998, Statistique textuelle, Paris,
Dunod. Disponible en ligne sur la page suivante [http://lexicometrica.
univ-paris3.fr/livre/st94/st94-tdm.html] (consulté le 01/06/2016).
Pincemin Bénédicte, Heiden Serge, Lay Marie-Hélène, Leblanc
Jean-Marc, Viprey Jean-Marie, 2010, « Fonctionnalités textométri-
ques : proposition de typologie selon un point de vue utilisateur », in
Actes JADT’2010, Rome, Lexicometrica, en ligne [http://lexicometrica.
univ-paris3.fr/jadt/jadt2010/allegati/JADT-2010-0341-0354_023-
Pincemin.pdf] (consulté le 01/06/2016).
Du côté des sciences du langage
Gries Stephan Th., 2013, Statistics for linguistics with R : a practical

introduction, Berlin, Walter de Gruyter.
Habert Benoît, Nazarenko Adeline, Salem André, 1997, Les linguis-
tiques de corpus, Paris, Armand Colin.
Poudat Céline, Landragin Frédéric, 2017, Explorer un corpus textuel.
Méthodes, pratiques, outils, Bruxelles, De Boeck.
Du côté des sciences historiques
Lemercier Claire, Zalc Claire, 2008, Méthodes statistiques pour l’his-

torien, Paris, La Découverte-Repères.
Du côté de la psychologie sociale
Marchand Pascal, 1998, L’Analyse du Discours Assistée par Ordinateur,

Paris, Armand Colin.
134
Ressources en ligne
Table des usages Exploration de corpus (coord. C. Poudat et al.,

Consortium Corpus Écrits) [http://explorationdecorpus.corpusecrits.
huma-num.fr/] (consulté le 01/06/2016).
Textopol, Leblanc J.-M., Fiala P., Peres M. (coord.), Base textuelle
et outils informatisés [http://textopol.u-pec.fr.] (consulté le
01/06/2016).
Et surtout…
Tous les manuels des logiciels, que l’on trouve généralement en

ligne sur les sites internet des logiciels.
Principales méthodes et fonctionnalités

(outils contrastifs et longitudinaux)
Nous allons maintenant présenter plusieurs fonctionnalités et méthodes
proposées par les outils contrastifs et longitudinaux, et couramment utilisées en
ADT. Nous mettrons à présent l’accent sur « ce qui compte » et sur les caracté-
ristiques quantitatives d’un texte. Nous avons vu combien la question des unités
de décompte était importante (cf. chap. 4). Mais il est aussi important de prêter
attention aux régularités indépendantes de l’outil utilisé, qui tiennent à des lois
statistiques. La connaissance de ces lois est nécessaire pour l’interprétation des
résultats. Nous insisterons sur ce point dans notre présentation.
Nota bene : plusieurs figures, tableaux ou graphiques présentés dans les
pages qui suivent correspondent à des sorties logiciels, d’autres ont été refaits
par nos soins dans un souci de lisibilité. Nous avons indiqué le cas échéant
les logiciels concernés.
Index hiérarchique et tableau lexical
Classiquement, en statistique textuelle, le texte est d’abord segmenté en

unités minimales, ce qui permet d’opérer un certain nombre de mesures. Après
cette phase de segmentation – nous nous en tiendrons dans cette section à la
segmentation en formes graphiques – les unités sont réorganisées pour créer
des index et ce que l’on appelle en lexicométrie, un tableau lexical. L’index
établit le dictionnaire du corpus et recense l’ensemble des formes attestées
de ce corpus. Le plus souvent, les formes sont classées par ordre décroissant
de fréquence et on parle alors d’index hiérarchique (cf. chap. 1, où un index
de ce type a été construit avec des commandes Unix).
135
Si cet index livre un certain nombre d’informations sur le corpus, il est

important de connaître quelques règles statistiques élémentaires afin de ne
pas sur-interpréter les phénomènes fréquentiels observés. La figure 5 infra
représente un extrait de l’index construit à partir du corpus Vœux. Cet index
non élagué (toutes les formes sont conservées) recense l’ensemble des formes
du corpus (6 436 formes). En français écrit, le mot le plus fréquent est la
préposition de (à titre de comparaison, ce sera the en anglais écrit). Dans cet
exemple, on dira que la forme de est une forme de rang 1. La forme nous, de
fréquence moindre (904 occurrences), est une forme de rang 8.
Parmi les très hautes fréquences, on trouve en général les mots gramma-
ticaux (prépositions, connecteurs, déterminants, conjonctions de subordi-
nation). Parmi les hautes fréquences, les pronoms personnels et quelques
Fig. 5. – Index hiérarchique (extrait : 57 premières formes),

Corpus Vœux (1959-2015), sortie Lexico.
136
formes très redondantes. Ces hautes fréquences apportent le plus souvent une
information sur le corpus (son genre, sa thématique…). Dans notre exemple,
les formes nous, vous, je, france (pour France), monde apparaissent parmi les
hautes fréquences : leur présence est à la fois liée au genre (les discours de
vœux) et au discours présidentiel. À la seule lecture de cet index, on peut
déduire que le corpus est constitué de discours politiques français. La richesse
des index a une dimension heuristique.
Selon la loi de G. K. Zipf [https://fr.wikipedia.org/wiki/Loi_de_Zipf],
(consulté le 01/06/2016), le rapport entre rang et fréquence est constant dans
tout index hiérarchique. Ainsi, si une forme de rang 10 est d’une fréquence
de 830 occurrences, une forme de rang 100 dans le même corpus devrait
apparaître environ 10 fois moins (83 occurrences). Un index qui ne présen-
terait pas ces caractéristiques devra conduire le chercheur à s’interroger sur
son corpus. De même si, dans un corpus de français écrit, la forme la plus
fréquente n’est pas la préposition de, on devra prendre un certain nombre de
précautions interprétatives : il est possible en effet que le matériau soumis à
l’analyse soit quantitativement insuffisant.
Le rapport rang-fréquence donne aussi lieu à une synthèse sous la forme
d’un diagramme dit de Pareto :
« Le diagramme de Pareto fournit une représentation très synthétique des
renseignements contenus dans la gamme des fréquences. Ce diagramme est
constitué par un ensemble de points tracés dans un repère cartésien. Sur l’axe
vertical, gradué selon une échelle logarithmique, on porte la fréquence de
répétition F, qui varie donc de 1 à Fmax, la fréquence maximale du corpus.
Sur l’axe horizontal, gradué selon la même échelle logarithmique, on porte,
pour chacune des valeurs de la fréquence F comprises entre 1 et Fmax, le
nombre N (F) des formes répétées au moins F fois dans le corpus. La courbe
obtenue est donc une courbe cumulée.
De nombreuses expériences faites dans le domaine lexicométrique montrent
que, quel que soit le corpus de textes considéré, quelle que soit la norme de
dépouillement retenue, les points ainsi tracés s’alignent approximativement le
long d’une ligne droite » (Lebart et Salem, 1994, p. 16).
La figure 6 infra représente le diagramme de Pareto obtenu à partir de

l’index du corpus Vœux.
Ce diagramme exprime une loi selon laquelle, quel que soit le corpus,
les formes occupant les premiers rangs (donc les plus répétés) sont peu
nombreuses, tandis que les formes occupant les derniers rangs (les moins
répétés) sont plus nombreuses. Autrement dit, plus on s’approche des premiers
rangs (fréquences hautes), moins les formes sont nombreuses et, à l’inverse,
les formes les plus nombreuses sont les moins répétées…
Les derniers rangs de l’index hiérarchique sont composés de formes à
occurrences uniques ou hapax, c’est-à-dire de formes qui ne sont présentes
137
Fig. 6. – Diagramme de Pareto sur le corpus Vœux, sortie Lexico.
dans le corpus qu’une seule fois. Là aussi, il est important de connaître une
règle statistique qui dit que, pour tout corpus, les hapax représentent toujours
approximativement la moitié de l’index hiérarchique en nombre de formes.
La prise en compte de cette caractéristique évitera au chercheur l’écueil
d’une surinterprétation qui consisterait à envisager qu’un auteur utilisant de
nombreux hapax utiliserait un vocabulaire riche ou original.
En statistique textuelle contrastive ou longitudinale, la phase de segmenta-
tion permet également de construire le tableau lexical du corpus. On parle de
tableau lexical entier (TLE) lorsqu’on considère la totalité des formes du
corpus (jusqu’à la fréquence 1). Il s’agit pour chaque forme rencontrée dans le
corpus d’en établir la distribution, en nombre d’occurrences (ou fréquences
absolues, voir infra) dans chaque partition.
L’exemple ci-dessous (cf. figure 7) est un extrait du tableau lexical du
corpus expérimental Corpex. La partition de ce corpus correspond aux cinq
sources mentionnées en introduction de ce chapitre, les différentes parties
étant notées : Andromaque, Lecid, Bovary, Editos, Vœux.
On imagine aisément la taille d’un tel tableau comprenant autant de lignes
que de formes contenues dans le corpus (ici 20 230) et autant de colonnes que
de parties du corpus. Ce tableau, au cœur de toute démarche textométrique,
permet de calculer la répartition d’une forme graphique dans chacune des
parties du corpus. La forme nous, par exemple, est attestée pour 44 occur-
rences dans la partie Andromaque, apparaît 116 fois dans le roman Madame
Bovary, 26 fois dans les éditos, 32 fois dans le Cid et 688 fois dans les vœux. Il
s’agit ici de fréquences absolues, c’est-à-dire que ces fréquences ne tiennent
pas compte de la longueur des différents textes constituant le corpus, ni de
la taille des différentes parties. Ainsi, la forme nous apparaît 688 fois sur
les 48 598 occurrences de la partie Vœux et 44 fois sur les 15 365 occur-
138
Fig. 7. – Tableau lexical entier (TLE), extrait, corpus Corpex.
rences de la partie Andromaque. Pour considérer la distribution d’une forme

dans les différentes parties d’un corpus, il est préférable d’avoir recours aux
fréquences relatives de ces formes : le nombre d’occurrences de la forme
considérée est divisé par la taille de la partie du corpus. La fréquence relative
de nous, par exemple, est de 44/15 365, soit 0.00286.
Distributions (ou ventilations) de fréquences
C’est à partir du tableau lexical que sont calculées les courbes (ou histo-
grammes) de fréquences absolues ou relatives, mais aussi que sont effectués
les calculs permettant de juger du sur-emploi ou du sous-emploi d’une forme
dans une partie du corpus par rapport aux autres parties et à l’ensemble du
corpus (calcul de spécificités, cf. infra). Les figures qui suivent illustrent
ces mesures.
Une première courbe présente la distribution de la forme nous dans le
corpus Corpex en fréquences absolues.
139
Fig. 8. – Ventilation des fréquences absolues de

la forme nous, corpus Corpex.
Parties Andromaque Bovary Editos Lecid Vœux
nous 44 116 26 32 688
Tableau 1. – Fréquences absolues de la forme nous, corpus Corpex.
Une deuxième présente cette distribution en termes de fréquences

relatives :
Fig. 9. – Ventilation des fréquences relatives de

la forme nous, corpus Corpex.
Comme nous l’avons dit plus haut, le nombre des occurrences de la forme
est ramené à la taille de chaque partie du corpus :
Parties Andromaque Bovary Editos Lecid Vœux
nous (freq. absolue) 44 116 26 32 688
taille partie 15365 120341 13595 17343 48598

(en nbre d’occurrences)
nous (freq. relative 28,64 9,64 19,12 18,45 141,57

[*10 000])
Tableau 2. – Fréquences relatives de la forme nous, corpus Corpex (valeurs arrondies au

centième).
140
La valeur obtenue est généralement multipliée par 10 000 pour une

meilleure visualisation. Aujourd’hui, la plupart des logiciels de textométrie
proposent ce type de visualisation.
Calcul des spécificités
Le graphique suivant présente l’histogramme de la distribution de la forme

nous en termes de spécificités.
Fig. 10. – Spécificités de la forme nous, corpus Corpex.
Cette représentation fournit des données plus tranchées que la simple

distribution des fréquences, car elle traduit cette distribution en termes de
sous-emploi ou de suremploi. En effet, la méthode des spécificités
permet de porter un jugement (un diagnostic de spécificité) sur la réparti-
tion des formes dans les parties d’un corpus. Selon le modèle hypergéomé-
trique (cf. chap. 4, « La cooccurrence contextuelle spécifique », p. 114), une
forme est notée spécifiquement positive si sa fréquence dans une partie est
supérieure à la fréquence théorique attendue, et spécifiquement négative
si cette fréquence est inférieure au seuil retenu. Ces fréquences probabilisées
s’appuient sur la comparaison de quatre données : le nombre des occurrences
du corpus, le nombre des occurrences dans la partie, la fréquence de chaque
forme dans le corpus, et la fréquence de chaque forme dans la partie. Les
indices indiquent le degré de spécificité de chaque forme et représentent la
valeur absolue de l’exposant de probabilité. Un exposant de valeur 2 exprime
une probabilité de l’ordre du centième, 3 du millième, etc. L’absence d’expo-
sant indique que l’usage ne présente pas de caractéristique remarquable. On
dira que la forme est banale pour la partie considérée. Dans l’exemple qui
précède, la forme nous est surutilisée dans les vœux et sous-utilisée dans le
roman Madame Bovary ainsi que, dans une moindre mesure, dans Le Cid.
L’emploi est banal pour les parties Andromaque et Editos, c’est-à-dire que la
fréquence n’est ni supérieure ni inférieure à la fréquence théorique.
Notons que si le calcul de spécificité est bien établi sur le modèle de la loi
hypergéométrique, l’affichage est parfois différent selon les outils, en raison
de l’échelle choisie pour la représentation.
141
Du nécessaire retour au texte : concordances et cartes topographiques
Les données quantitatives sont des indices de fonctionnement ou de carac-

téristiques qui doivent être mis au jour en pratiquant une analyse des formes
du texte. L’examen des fréquences, absolues, relatives, des spécificités et des
configurations factorielles (voir infra, p. 152) nous livre de précieuses informa-
tions préalables sur les grands phénomènes à l’œuvre dans notre corpus. Mais
il s’agit d’une première entrée dans le corpus qui nécessite un travail d’interpré-
tation, contrôlé et guidé par la méthode empirique permise par l’ADT à l’aide
d’outils de retour au texte, comme la concordance. De tels outils permettent
de replacer chaque occurrence en contexte et de repérer d’éventuelles
régularités. Lorsqu’on travaille en discours, il n’est pas envisageable de se
contenter du commentaire de listes, de graphiques et de tableaux.
Concordances
L’exemple de retour au contexte le plus courant est la concordance, qui

permet de situer chaque emploi dans son environnement immédiat. Voici un
extrait de la concordance de la forme nous dans le corpus Vœux.
Fig. 11. – Concordance de la forme nous (extrait), corpus Vœux, sortie TXM.
142
La concordance constitue une fonctionnalité courante des outils logiciels

utilisés en ADT et découle directement des méthodes distributionnalistes en
linguistique. Le principe en est d’ailleurs fort ancien et ne doit rien à l’analyse
statistique des données textuelles, qui n’a fait que « l’implémenter ». Dès le
xiie siècle, saint Chef effectuait des concordances de la Bible et on ne s’éton-
nera pas que les premières concordances aient concerné les textes religieux
puisqu’il s’agissait de déterminer le sens d’un mot, voire tous les sens d’un
mot, en le replongeant dans toutes ses réalisations et en le replaçant dans son
contexte immédiat.
Ces concordances produisent une représentation particulière du texte.
Par la focalisation sur la distribution d’une forme prise comme pôle, on ne
considère qu’une infime partie de ce texte, restitué partiellement sous la forme
d’extraits. Le texte ainsi réagencé, le chercheur est à même de mettre en
évidence des régularités. C’est d’autant plus vrai lorsque des tris sont effec-
tués sur le concordancier. Repartons de l’exemple ci-dessus. Voici un extrait de
la même concordance, dans laquelle les contextes ont été triés automatique-
ment en fonction de la forme qui suit directement la forme nous (ou « contexte
droit ») et par ordre alphabétique.
Fig. 12. – Concordance de la forme nous (extrait), corpus Vœux, tri contexte droit,
sortie TXM.
143
Cette réorganisation permet de relever une forme modale intéressante

(aller + VERBE INF), correspondant au futur proche, ainsi qu’un patron, nous
allons (ADV/SP) Prop. INF.
Certains outils logiciels proposent aujourd’hui des concordanciers sophisti-
qués qui multiplient les angles d’observation et les potentialités de recherche.
C’est notamment le cas des logiciels Antconc, TXM ou encore des logiciels
TextObserver et Le Trameur. On a évoqué dans le chapitre précédent l’extrac-
tion, grâce à une catégorisation morphosyntaxique, d’empans textuels corres-
pondant à des patrons lexico-syntaxiques ou à des motifs (cf. chap. 4, « De
nouvelles unités séquentielles à définir : les motifs et les routines », p. 118 et
« Des unités paradigmatiques : les groupes de formes », p. 119). Ces logiciels
permettent de telles requêtes par des fonctionnalités adaptées (fonction-
nalités PATRON et MOTIF du Trameur), par des expressions régulières,
voire par un langage formel adapté à la recherche de patrons (Corpus Query
Language (CQL), par exemple, disponible notamment dans les logiciels TXM
et TextObserver). Nous reproduisons ici un extrait du traitement morphosyn-
taxique réalisé sur le corpus Vœux par Treetagger (cf. ibid.).
Fig. 13. – Corpus Vœux, liste des formes, étiquettes

morphosyntaxiques et lemmes (extrait).
144
Il est aujourd’hui possible d’interroger le corpus sur la base de la première

colonne, de la deuxième, de la troisième, ou des trois à la fois (ou d’autres
annotations quand elles sont disponibles). Par exemple, l’expression CQL
[frpos=«PRO : PER»] permet d’extraire avec les logiciels TXM et TextObserver
les concordances suivantes :
Fig. 14. – Concordance de l’étiquette morphosyntaxique [frpos=«PRO : PER»], corpus

Vœux, sortie TXM.
L’expression CQL [pos=«DET : ART»][pos=«ADV»][pos=«ADJ»] donne

les concordances suivantes (cf. figure 15).
La concordance peut s’effectuer au moyen de requêtes complexes
(intégrant les expressions régulières) qui permettent d’extraire des empans
textuels (fonctionnalité disponible dans les logiciels TXM, TextObserver et
Le Trameur, par exemple). Dans l’exemple suivant, on exprime une requête
au niveau de la forme graphique :
« nous|Nous » « avons » []{1,20} « espérer|espoir|confiance|raison|raisons ».
Cette suite signifie que nous recherchons le pronom personnel nous

avec ou sans majuscule suivi de la forme avons, suivie de 1 à 20 occurrences
145
Fig. 15. – Concordance du patron [pos=«DET : ART»][pos=«ADV»][pos=«ADJ»], corpus

Vœux, sortie TextObserver.
d’une forme quelconque suivies des formes espérer ou espoir, ou confiance ou

raison(s). La concordance obtenue cette fois-ci sur le corpus Corpex est la
suivante.
Fig. 16. – Concordances de l’expression régulière « nous|Nous » « avons » []{1,20} « espérer|

espoir|confiance|raison|raisons », corpus Corpex, sortie TextObserver.
Topographie/Topologie textuelle et carte des sections
La notion de topographie textuelle ou celle de topologie textuelle

(Mellet et Salem, 2009, cf. encadré, p. 152) vise à modéliser le texte non pas
seulement comme une suite linéaire d’unités mais aussi comme une suite
de regroupements de ces unités au sein de sections du texte. Ces sections
peuvent correspondre à la phrase, au paragraphe, au chapitre, à la rubrique,
ou encore au vers, à la strophe, etc. Cette modélisation a conduit à la mise en
œuvre de fonctionnalités logicielles permettant d’explorer les textes du point
de vue de la structure ainsi mise au jour.
L’outil carte des sections (voir aussi chap. 6, « La densité fréquentielle »,
p. 197), développé dans la suite logicielle Lexico (et repris dans Le Trameur),
permet ainsi de construire une représentation topographique d’un corpus
découpé en sections (i. e. en phrases, en paragraphes, en chapitres, en rubri-
146
ques…). Ce découpage est en général rendu accessible par un pré-codage du

corpus qui consiste à insérer un ou plusieurs caractères permettant de définir
ces sections.
Fig. 17. – « Le dormeur du val » – Insertion du délimiteur § pour un

découpage en sections.
Dans l’exemple ci-contre, le caractère § délimite des zones textuelles

(des sections) : le titre, les différentes strophes et l’auteur du poème. La
carte des sections permet ensuite une visualisation du corpus découpé
en sections par la promotion d’un (ou de plusieurs) caractère particulier
(paragraphes, point, etc.) au statut de délimiteur de section ; dans l’exemple
qui suit (via Le Trameur), le caractère § est utilisé pour construire la carte
des sections induite par ce caractère, i. e. le titre, les strophes et l’auteur du
poème.
Fig. 18. – Représentation topographique du poème « Le dormeur du val »

(titre, strophes, auteur).
Chaque carré correspond à la section initialement codée avec le caractère

choisi. Dans cet exemple, le premier carré représente le titre, le deuxième
carré la première strophe, le troisième carré, la deuxième strophe, etc. Le
147
contenu de chaque section est accessible en lecture, généralement en cliquant

sur le carré.
Cette représentation graphique introduit un point de vue particulier sur
les corpus. La figure suivante (figure 19) illustre la granularité progressive
mise en œuvre dans la représentation d’un texte. Le codage de différentes
zones de texte permet en effet de disposer de points de vue variés et graduels
sur le texte : le texte vu comme une simple suite linéaire d’unités (en haut
de la figure), le texte comme regroupement d’unités dans des sections (au
centre de la figure, avec matérialisation d’une représentation topographique du
texte en sections), le texte partitionné et découpé en sections (au bas de
la figure, représentation topographique du texte en sections intégrant le
marquage des parties intégrant ces sections) : on opère ainsi un « zoom
inversé » sur le texte tout en conservant un accès sur des zones parfaitement
identifiables.
Fig. 19. – La topographie textuelle : des points de vue multiples sur le texte.
La construction d’une telle représentation du texte peut s’appuyer sur un

caractère délimiteur pré-codé en amont (cf. supra). On peut aussi la mettre
en œuvre sur un corpus partitionné et codé en amont avec des balises XML.
Voici une représentation du « Dormeur du val » au format XML (figure 20).
Dans cet exemple, aucun caractère n’est explicitement pré-codé pour mettre
au jour de manière systématique des sections. Cependant, certains éléments
148
Fig. 20. – Représentation XML du « Dormeur du val ».
permettent de délimiter des sections particulières. Une partie d’un texte est
aussi une section du texte :
– l’élément <l>…</l> permet de mettre au jour les vers (un à un) ; dans
ce cas, cet élément peut définir une section correspondant à un vers ;
– l’élément <lg>…</lg> permet de mettre au jour les strophes (une à
une) : dans ce cas, cet élément peut définir une section correspondant
à une strophe.
Un logiciel comme Le Trameur, par exemple, permet de s’appuyer sur la
structuration du corpus au format XML pour définir des sections correspon-
dant à des parties du texte.
Fig. 21. – Représentation topographique du poème « Le Dormeur du

Val » (strophes, vers).
149
Dans la figure 21, la case à cocher « Partie » permet de spécifier que la

construction de la carte des sections utilise le nom d’une partie (i. e. le nom
d’une balise). On indique dans cet exemple la balise « l », délimitant des
vers. La partie lg est utilisée quant à elle pour marquer « en plus » certaines
parties dans la carte construite, des strophes ici. Au final, les carrés de la
carte (à droite de la figure) représentent donc chacun des vers (les parties
associées aux balises <l>…</l> dans le poème encodé en XML) et les parties
lg mentionnent la structuration des groupes de vers. Notons qu’à la différence
de la carte précédente (figure 18), qui utilise un caractère délimiteur donnant
à voir tout le texte découpé en sections, la carte des sections ainsi définie offre
ainsi une vue partielle du texte traité, celle induite par la partie sélectionnée
(les vers, dans cet exemple).
Une utilisation « remarquable » de la carte des sections est celle qui
consiste à voir un corpus aligné ; dans ce cas, la carte des sections « se généra-
lise » pour mettre au jour la résonance textuelle (Salem, 2004) induite par
exemple par des sections alignées.
Voici un exemple de carte de sections produite à partir du corpus Obama,
qui regroupe un discours du président Barak Obama et quatre traductions
de ce discours. La carte des sections produite via le caractère délimiteur §
pré-codé en amont (et visible dans chacune des sections) permet d’une part
de visualiser l’alignement des différents volets du corpus et d’autre part de
visualiser simultanément les sections alignées.
Fig. 22. – Corpus Obama, alignement de quatre sections.
À quoi peut servir une carte des sections ? Nous mentionnons ici quatre
usages possibles :
– La ventilation topographique d’unités et le retour au contexte visé.
150
La figure suivante illustre une fonctionnalité permettant de localiser des

unités dans le texte par le prisme des sections mises au jour dans ce type de
représentation. Le seuillage en couleur des sections contenant l’unité visée
(matérialisée aussi par une croix) permet de mesurer graphiquement la densité
de présence de cette unité dans la section marquée.
Fig. 23. – Ventilation de la forme europe dans le corpus Vœux.
Elle permet aussi d’affiner la présentation de la distribution d’une unité

visée dans les textes étudiés. Nous verrons une exploitation de cette fonction-
nalité en AD dans le chapitre 6 (« La densité fréquentielle », p. 197).
– Le calcul des mots spécifiques d’une section ou d’une sélection de
sections.
Les sections peuvent être le support de calculs statistiques, comme celui
du calcul des mots spécifiques des sections sélectionnées. Cette technique
a donné lieu à de nombreux travaux notamment en traductologie (Fleury,
Zimina, 2007).
– Plus généralement, l’analyse de la résonance textuelle.
La carte des sections est plus généralement le résultat d’une réflexion sur la
notion de résonance textuelle (Lamalle, Salem, 2002 ; Salem, 2004 ; Zimina,
Fleury, 2014), qui consiste à mettre en parallèle, dans des corpus de textes ayant
151
des rapports étroits (traductions, tours de paroles, etc.), des unités textuelles
que l’on fait ainsi « résonner » dans les différents volets du corpus. La figure 22
supra, qui donne à voir simultanément sur le corpus Obama quatre sections
alignées, est une illustration très concrète de la notion de résonance.

Lamalle Cédric, Salem André, 2002, « Types généralisés et topogra-

phie textuelle dans l’analyse quantitative des corpus textuels », in
Actes JADT’2002, Saint-Malo, Lexicometrica [http://lexicometrica.
univ-paris3.fr/jadt/jadt2002/PDF-2002/lamalle_salem.pdf] (consulté
le 01/06/2016).
Mellet Sylvie, Salem André (dir.), 2009, Topographie et topologie
textuelles, numéro spécial, Lexicometrica [http://lexicometrica.univ-
paris3.fr/numspeciaux/special9.htm] (consulté le 01/06/2016).
Salem André, 2004, « Introduction à la résonance textuelle », in Actes
JADT’2004, Louvain, Lexicometrica [http://lexicometrica.univ-paris3.
fr/jadt/jadt2004/pdf/JADT_096.pdf] (consulté le 01/06/2016).
Zimina Maria, 2004, « Alignement textométrique des unités lexicales
à correspondances multiples dans les corpus parallèles », in Actes
JADT’2004, Louvain, Lexicometrica [http://lexicometrica.univ-paris3.
fr/jadt/jadt2004/pdf/JADT_118.pdf] (consulté le 01/06/2016).
Zimina Maria, Fleury Serge, 2014, « Approche systémique de la
résonance textuelle multilingue », in Actes JADT’2014, Paris,
Lexicometrica http://lexicometrica.univ-paris3.fr/jadt/jadt2014/01-
ACTES/59-JADT2014.pdf] (consulté le 01/06/2016).
L’analyse factorielle des correspondances (principes généraux)
L’analyse factorielle des correspondances (ou AFC), qui fait partie des
méthodes dites de statistique descriptive, a été développée par J.-P. Benzécri,
précisément pour analyser des données textuelles. Cette méthode traite
des tableaux de nombres difficiles à saisir dans leur globalité, tableaux que
l’on rend perceptibles en proposant une représentation graphique qui en est une
approximation, soit dans une perspective exploratoire soit dans une perspec-
tive confirmatoire, lorsqu’il s’agit de tester des hypothèses de recherche. On
utilise traditionnellement cette méthode en lexicométrie pour identifier les faits
saillants d’un corpus en termes de distribution du stock lexical. Il s’agit alors de
réduire un grand nombre de variables à quelques facteurs structurants.
152
L’AFC sert à extraire les faits saillants du tableau lexical en produisant

une représentation graphique des profils lignes et colonnes de ce tableau. Il
s’agit par exemple, sur le corpus Corpex, d’examiner et de mettre au jour les
(éventuelles) proximités du lexique entre les différentes parties du corpus.
On comprend aisément, sur la base de la distribution d’une forme unique,
que le profil de la ligne vous tend à rapprocher les textes de vœux et Madame
Bovary, ou que le profil de la ligne nous oppose Andromaque, les éditos et
Le Cid aux Vœux et à Madame Bovary.
Fig. 24. – Extrait du tableau lexical sur Corpex ; distribution des

formes vous et nous.
On conçoit également relativement facilement que les deux lignes Emma

et Charles opposent la partie Bovary à l’ensemble du corpus.
Fig. 25. – Extrait du tableau lexical sur Corpex ; distribution des formes
Emma et Charles.
S’agissant des 20 230 lignes du tableau, cette estimation n’est évidemment

pas possible. Ainsi, l’analyse factorielle des correspondances permet-elle d’exa-
miner de façon globale, sur l’ensemble des lignes du tableau, les faits saillants
du corpus, en termes d’emploi du « stock lexical ».
Dans le résultat de l’AFC sur Corpex reproduit ci-dessous, on observe que
le roman Madame Bovary s’oppose, sur un premier axe (représenté par l’axe
des abscisses), à l’ensemble du corpus.
Fig. 26. – AFC sur le corpus Corpex, axes 1 et 2.
153
Les vœux et les éditos présentent manifestement quelques similarités,

de même que les pièces classiques Andromaque et Le Cid. La partie Bovary
s’opposant sur le plan factoriel à l’ensemble du corpus, il peut être intéressant
d’en examiner le vocabulaire spécifique (via un calcul des spécificités, voir
supra, « Calcul des spécificités », p. 141).
Fig. 27. – Partie Bovary, spécificités positives et spécificités négatives.
Dans le tableau lexical qui précède figurent les premières formes spécifi-
quement positives (sur-employées dans la partie Bovary par rapport aux autres
Fig. 28. – AFC sur le corpus Corpex.
154
et à l’ensemble) ainsi que les formes spécifiquement négatives (sous-employées

dans cette même partie, par rapport aux autres parties et à l’ensemble). Dans
le cadre d’une démarche textométrique, c’est la norme endogène qui
s’applique : la comparaison est interne au corpus.
L’analyse factorielle peut porter sur l’ensemble de la table lexicale. En voici
une illustration (figure 28) avec la projection, sur les deux premiers axes de
l’AFC, des pronoms personnels et des adjectifs possessifs.
Elle peut aussi porter sur un sous-ensemble de cette table.
Fig. 29. – AFC sur le corpus Corpex, pronoms

personnels et adjectifs possessifs.
Cette seconde AFC, produite sur les seuls pronoms personnels et adjectifs
possessifs, permet ainsi de juger de la proximité des emplois des marques de
l’énonciation entre les différentes parties du corpus. Nous aurons l’occasion
de voir d’autres illustrations au chapitre 6.
La lecture et l’interprétation de ces graphiques n’ont rien de très intuitif.
Pour comprendre ce qu’il y a derrière ces figures, nous proposons au lecteur
de se rendre en fin d’ouvrage et de lire la fiche « En savoir plus sur l’AFC »
(p. 218-228).
Synthèse : exploration méthodique d’un corpus

Le protocole d’observation, dans le cadre d’une analyse textométrique
menée au moyen d’un outil de type longitudinal ou contrastif sur la seule
forme graphique, pourrait être le suivant. Nous reprenons le corpus Vœux
(cf. p. 123).
Étape 1 – Conditions de recueil et de constitution du corpus
Les textes, recueillis sur le site officiel de l’Élysée, ont été confrontés à la
version audiovisuelle et modifiés lorsqu’il y avait lieu. Le corpus se compose
155
ainsi de 57 textes pour 7 locuteurs (sept présidents de la République, du

général de Gaulle à François Hollande). Deux partitions ont été constituées :
une partition par année qui divise le corpus en 57 parties et une partition par
locuteur qui permet de confronter les sept présidents de la République. Le
corpus a été transcodé en minuscules.
Étape 2 – Caractéristiques quantitatives
Une fois segmenté, le corpus compte 58 257 occurrences pour 6 426 formes.
Rappelons ici qu’une forme est une suite de caractères non-délimiteurs bornée
à ses extrémités par deux caractères délimiteurs. Quantitativement, on peut
considérer qu’il s’agit d’un « petit » corpus. À titre d’exemple, l’œuvre complète
de Balzac représente 4 millions d’occurrences, les données numérisées par
Google, plus de 44 milliards. Cependant, le corpus Vœux est un corpus très
homogène en termes de genre, et exhaustif.
Partie Nombre Nombre Nombre Frq. Max Forme

occurrences formes hapax
a.degaulle 11 498 2 407 1 440 531 de

b.pompidou 2 850 890 577 118 de
c.giscard 6 066 1 360 833 262 de
d.mitterrand 11 991 2 521 1 490 546 de
e.chirac 14 217 2401 1 293 696 de

f.sarkozy 5 983 1 575 988 265 de
g.hollande 5 652 1 520 967 241 de
Tableau. 3. – Principales caractéristiques de la partition Locuteurs, corpus Vœux.
Idéalement, on examinera les caractéristiques quantitatives de chaque

partition :
– Le tableau 3 ci-dessus présente les caractéristiques quantitatives du
corpus Vœux sur une partition en locuteurs. Il faut alors s’assurer que la
forme la plus fréquente pour chaque partie (dernière colonne à droite
du tableau) est bien conforme à ce qui est attendu (préposition de). Le
nombre d’occurrences de chaque partie (deuxième colonne du tableau)
est une information à laquelle il convient d’être attentif pour la suite de
l’analyse. Le déséquilibre entre les parties du corpus doit en effet être
pris en compte.
– Sur la partition par locuteur, le tableau indique ainsi la taille ou la
longueur de chaque texte. Ce tableau livre déjà des informations essen-
tielles. Le matériau discursif est plus important pour la partie degaulle
que pour la partie pompidou, par exemple. Le président de Gaulle a
gouverné pendant dix ans, le président Pompidou pendant cinq ans.
156
– Une partition par année permettrait d’identifier la longueur des messages

et de constater notamment que les discours du président Pompidou
(500 occurrences en moyenne) sont les plus courts de la Ve République.
Étape 3 – Examen de l’index hiérarchique
Dans un second mouvement, on peut s’intéresser à l’index hiérarchique et

examiner ainsi les formes lexicales les plus fréquentes du corpus (voir supra
« Index hiérarchique et tableau lexical », figure 5). Les formes présentes
dans l’index pourront dès cette phase de l’exploration être étudiées dans leur
contexte immédiat (concordance) et examinées en termes de distribution
(fréquences relatives, spécificités).
Étape 4 – Affinités et contradictions lexicales :

analyse factorielle des correspondances
La phase suivante peut consister en l’observation des oppositions saillantes

du corpus, que ce soit sur la partition en locuteurs ou par année. L’exemple qui
suit présente L’AFC du corpus Vœux pratiquée sur la partition en locuteurs
(cf. figure 30).
Fig. 30. – AFC sur Vœux, partition Locuteurs, axes 1 et 2, via Le Trameur.
Selon les outils, l’interprétation de la configuration factorielle peut

être guidée par l’affichage des points les plus contributifs (les mots à l’ori-
gine de la construction des axes, les mots spécifiques de chaque partie, etc.)
(cf. figure 31).
À partir de la figure 30, plusieurs oppositions peuvent être évoquées :
la partie degaulle s’oppose nettement aux parties sarkozy et hollande sur
l’axe 1 ; la partie giscard s’oppose aux parties degaulle, chirac et hollande sur
157
Fig. 31. – AFC sur Vœux, partition Locuteurs, axes 1 et 2, projection

colonnes + lignes, via Le Trameur.
l’axe 2, etc. Ce qui oppose la partie giscard aux parties degaulle, chirac et
hollande (axe 2) n’est cependant pas de la même nature que ce qui oppose la
partie degaulle aux parties sarkozy et hollande. De plus, la position centrale
de la partie mitterrand laisse envisager qu’elle partage un grand nombre de
formes lexicales avec les autres parties du corpus. Cette analyse factorielle ne
constitue pas un résultat en soi et mérite un approfondissement de l’analyse.
Nous reviendrons sur l’interprétation de ce graphique dans le chapitre suivant
(« Le mot comme témoin de prises de position », p. 174).
Étape 5 – Spécificités
Partant de l’analyse factorielle ou plus tôt dans l’analyse, il est toujours

pertinent d’examiner, dans une démarche de type contrastif, le vocabulaire
Fig. 32. – AFC sur le corpus Vœux, partition Locuteurs, axes 1 et 2,

mots spécifiques sur 1 partie, via Le Trameur.
158
spécifique des différentes parties du corpus. L’examen du vocabulaire spéci-

fique peut n’expliquer qu’en partie la configuration factorielle, mais il constitue
toujours un élément important de l’interprétation. Dans l’exemple qui suit, on
s’intéressera au vocabulaire spécifique de la partie mitterrand et plus particu-
lièrement aux formes qui sont en sur-emploi. Ci-dessus, le résultat de l’AFC
permet d’accéder directement au vocabulaire spécifique de chacune des
parties affichées (via Le Trameur).
La forme graphique dont l’indice de spécificité est le plus important est
le pronom indéfini on. Cette forme apparaît pour 121 occurrences dans
l’ensemble du corpus et 65 fois dans la seule partie mitterrand. Compte tenu
de la taille totale du corpus, de la taille de la partie mitterrand, du nombre
d’occurrences de cette forme dans chaque partie, cette forme est en sur-emploi
chez F. Mitterrand.
Forme Frq. Tot. Fréq. dans partie mitterrand Coeff.
on 121 65 16
Tableau 4. – La forme on dans la partie mitterrand.
Le retour au texte et les concordances de la forme on chez Mitterrand et

pour l’ensemble du corpus permettront d’expliquer cette fréquence remar-
quable. Nous y reviendrons dans le chapitre suivant.
Autres explorations…
Une fois identifiées les caractéristiques de chaque partie du corpus, nous

pourrons, selon les problématiques et les objectifs de l’analyse, travailler sur
des groupes de formes, des segments répétés, des calculs de cooccurrents
(cooccurrents de marques énonciatives comme, par exemple, les formes on,
nous, vous).

Leblanc Jean-Marc, 2015, « Proposition de protocole pour l’analyse
des données textuelles : pour une démarche expérimentale en lexico-
métrie », Nouvelles Perspectives en Sciences Sociales (NPSS), vol. 11,
n° 1, p. 25-64.
159

En guise de conclusion, nous proposons des exemples de questions
méthodologiques, formulées ici en termes textométriques, en y associant des
fonctionnalités ainsi que des outils logiciels (entre parenthèses). Le chapitre
qui suit mettra en perspective ces questions et ces fonctionnalités avec des
problématiques discursives.
Nota bene : figurent après la mention « Voir aussi » certaines méthodes que
nous n’avons pas ici la place d’exposer ; le lecteur se reportera aux références
bibliographiques indiquées dans l’encadré « Pour aller plus loin », p. 134 de
ce chapitre.
Questions méthodologiques Exemples de fonctionnalités et d’outils
Je veux identifier des thématiques Au moyen de méthodes statistiques reposant

sur les cooccurrences (cooccurences entre
énoncés, méthodes de cooccurrences
généralisées) ou s’appuyant sur des ontolo-
gies (Alceste, Astartex, Iramuteq, Tropes).
Je veux dresser des typologies Caractériser des distances intertextuelles

(AFC, classifications hiérarchiques) (DTM-
VIC, Hyperbase, TXM, Textobserver, Lexico,
Le Trameur).
Voir aussi  arborées (Hyperbase).
Je veux identifier des ruptures Carte des sections (Lexico, Le Trameur), et

thématiques, stylistiques, spécificités chronologiques (Lexico).
lexicales, sémantiques Voir aussi : corrélation chronologique
(Hyperbase), accroissement lexical (Hyperbase,
Lexico), accroissements spécifiques (Lexico),
épisodes et rafales (Tropes).
Je veux repérer des cooccurrences Cooccurrents spécifiques (Lexico, Le Trameur),

cooccurrences généralisées (Hyperbase,
Astartex).
Voir aussi : Cooccurrences multiples,
cooccurrences entre énoncés, cooccurrences
d’univers de référence (Tropes), environne-
ment thématiques, cooccurrences récursives,
analyses en tri croisé, thème (Hyperbase),
analyses factorielles de cooccurrents, et
corrélats (Hyperbase, Astartex).
Je veux extraire des patrons, Au moyen par exemple d’expressions

des empans textuels régulières ou de fonctionnalités dédiées
(TXM, TextObserver, Le Trameur).
160
Questions méthodologiques Exemples de fonctionnalités et d’outils
Je veux caractériser un texte D’un point de vue stylistique : richesse

lexicale, hapax, originalité du vocabulaire,
lexique commun, lexique original…
(Hyperbase, Sphinx).
Sur la base de la longueur des phrases, de
la proportion de substantifs, d’adjectifs,
d’adverbes, de la proportion du vocabulaire
de base, de mots rares ou très rares, de mots
ambigus (Cordial).
Jean-Marc Leblanc, Serge Fleury, Émilie Née.
161
CHAPITRE VI
PROBLÉMATIQUES D’ANALYSE DU DISCOURS

ET MÉTHODES
Le chapitre précédent a proposé une présentation des différentes fonction-

nalités des logiciels. Nous envisageons maintenant plusieurs problémati-
ques courantes en analyse du discours, en montrant comment un question-
nement sur le discours peut être articulé à des traitements par des outils
informatiques.
Les outils détaillés dans le chapitre précédent, qu’il s’agisse des outils
d’exploration du texte ou des outils statistiques (voir la typologie p. 125), ne
sont pas en tant que tels des voies ouvrant un accès direct à l’interprétation
discursive. Entre ces deux pôles, les outils et l’interprétation, s’impose une
réflexion méthodologique axée sur les catégories d’analyse. Comment articuler
une problématique discursive, des catégories descriptives et des fonctionna-
lités textométriques ? Nous mettrons l’accent, de nouveau, sur les précautions
à prendre dans le processus interprétatif : les logiciels d’ADT « manipulent »
(généralement) des mots – et, nous l’avons vu précédemment, même les
compter n’est pas une opération simple – mais ne fournissent pas d’interpré-
tation des résultats qu’ils produisent. L’interprétation implique de passer des
formes graphiques au sens (Rastier, éd., 1995), risque qui doit être calculé,
pour ne pas tomber dans le piège de la transparence des discours.
Au fil de ce chapitre, nous aborderons successivement les questions
suivantes : comment identifier les thèmes d’un corpus ? comment saisir
l’évolution du sens de certains vocables en parallèle à, ou accompagnant des
changements socio-historiques ? comment observer le figement et la routi-
nisation ? comment décrire et caractériser les genres discursifs ? ou encore
comment étudier la construction discursive d’un événement et la circulation
des discours ?
Tout au long de ce cheminement, on soulignera les difficultés concrètes
que l’utilisateur est susceptible de rencontrer : le mirage de la « transparence
du discours », la polysémie, l’ambiguïté notamment, mais aussi des problèmes
163
davantage méthodologiques liés au caractère soit déductif, soit inductif de la

démarche.
On l’a vu au chapitre 5, les méthodes textométriques sollicitant les statisti-
ques reposent sur des calculs basés sur la comparaison entre différentes parties
du corpus, quelle que soit la base sur laquelle la partition s’est effectuée (par
locuteurs, par période chronologique, par situation de communication, etc.).
Nous n’avons pas consacré de section particulière à la comparaison puisque
ce principe méthodologique est constitutif de toute démarche impliquant la
textométrie (cf. chap. 2 et 5).
La forme graphique est une entrée possible, qui permet de rendre compte
d’évolutions lexicales par exemple, mais qui peut également être un point de
départ pour décrire des régularités discursives plus larges, grâce aux diffé-
rentes unités vues dans le chapitre 4, telles que les segments répétés ou les
cooccurrents. Des avancées récentes permettent même de prendre en compte
des informations syntaxiques.
Thèmes, événements, faits sociaux :

de quoi parle le corpus et comment ?
Dans les premières étapes d’une exploration lexicométrique, on peut être
submergé par la masse de données pourtant précieusement récoltées. Les
outils quantitatifs offrent plusieurs méthodes pour aborder le corpus dans
sa globalité et commencer à comprendre la manière dont il est structuré. Au
cours de cette phase, qui n’a rien d’obligatoire, on peut chercher, par exemple,
à caractériser le corpus du point de vue du contenu en calculant des classes
de vocables qui peuvent correspondre, pour certaines, à des thèmes. On peut
aussi mettre au jour les grandes oppositions qui « organisent » les données.
C’est le moment de la première rencontre avec le corpus, le premier rendez-
vous en quelque sorte.
Rechercher les « thèmes », c’est-à-dire ce dont parle explicitement le texte,
n’est pas propre à l’analyse du discours (ce n’est d’ailleurs pas une méthode
centrale en analyse du discours). On retrouve cette démarche dans toute disci-
pline s’intéressant à des données textuelles. Précisons ici qu’il peut s’agir tout
aussi bien de rechercher les différents thèmes présents dans le corpus que de
mettre en évidence la manière dont un thème y est traité. Dans une perspec-
tive d’analyse du discours, le repérage de thèmes propres à un discours s’effec-
tuera de manière inductive et non à partir de grandes catégories pré-établies
comme c’est le cas en analyse de contenu.
On peut ainsi mettre en évidence que, dans le discours récent du parti
d’extrême droite le Front National, le fait social de l’immigration est présenté
sous un angle économique, au détriment d’autres « angles » possibles, l’angle
social par exemple, ou de l’angle identitaire qui a été privilégié pendant
longtemps (Alduy et Wahnich, 2015). On touche là à des questions portant
164
Problématiques d’analyse du discours et méthodes
sur le traitement médiatique des événements et des objets sociaux au sens

large, questions centrales dans les travaux sur les discours médiatiques.
Approches déductives et inductives des thèmes
Au niveau méthodologique, le thème peut être utilisé pour constituer le

corpus, comme nous l’avons vu dans le chapitre 3. Rappelons ici que le choix
des mots-clés de recherche doit être sérieusement réfléchi. Une variation dans
ce choix va influer sur la liste des textes récoltés et donc sur la perception que
le chercheur peut avoir du thème et de la manière dont il est traité. Une fois
qu’il a constitué le corpus, le chercheur a le choix entre deux approches pour
savoir « de quoi parle son corpus ». La première, plutôt déductive, fait parler
le chercheur, qui exploite le dictionnaire des formes ou les grilles ontologiques
(comme dans Tropes, voir chap. 5). La seconde, inductive, repose sur un
calcul statistique : ce sont les données qui parlent.
La première approche a pour elle l’avantage de la simplicité : le diction-
naire des formes est disponible sur tous les logiciels et peut donner un aperçu
global du corpus. Cependant, repérer des thèmes ou des classes de vocables
à partir d’une très longue liste de formes n’est pas si simple. D’une manière
générale, la difficulté du repérage des thèmes dans des corpus discursifs tient
à ce que : « le thème a un besoin sine qua non de mots mais ne s’y réduit
pas […] : tous les lexèmes ne sont évidemment pas des thèmes, et chaque
thème pourra être lexicalisé de manière variée, plurielle, ad hoc » (Ben Hamed
et Mayaffre [eds.], 2015, p. 7). Tout d’abord, un thème n’est pas nécessai-
rement lexicalisé par un seul mot : si immigration peut apparaître comme
l’actualisation la plus évidente du thème en question, ce n’est pas la seule.
Ainsi, quand on parle d’intégration, on parle également d’immigration. Quand
on parle de délinquance, il arrive qu’on parle également d’immigration. Parfois,
à l’inverse, le mot qui semblerait a priori la meilleure lexicalisation du thème
n’apparaît pas ou peu. Le thème de l’ennui, par exemple, est central dans
Madame Bovary, et pourtant le mot lui-même est peu fréquent (Rastier, éd.,
1995). Mais d’autres mots peuvent lexicaliser ce thème, tels que monotone
ou, pourquoi pas, dimanche.
Les formes composées constituent une autre difficulté dans le repérage des
thèmes, puisqu’elles sont séparées dans la phase de segmentation (cf. chap. 3,
p. 80). Or, si les groupes nominaux complexes, de type sécurité sociale, pouvoir
d’achat, juge pour enfants sont porteurs de sens, les formes graphiques qui les
représentent sont éparpillées à travers l’index lexical. On peut être amené à
penser que le corpus parle de « pouvoir » alors qu’il parle de consommation
(pouvoir d’achat). Ainsi, quand on lit une liste de fréquences, on projette le
plus souvent un sens sur les formes de la liste, le sens qui nous vient à l’esprit
en premier ou celui qui corrobore nos hypothèses. Ces attentes sont parfois
déçues au moment du retour au texte (voir infra, « Le cotexte et la construc-
165
tion du sens ») et ce type de déception, déjà évoqué au fil de cet ouvrage (voir
le cas de la forme plus dans le chapitre 1, p. 32) fait partie de la démarche
lexicométrique, mais peut être en partie évité par l’examen de la liste des
segments répétés.
Que faut-il conclure de ces remarques sur une approche déductive des
thèmes ? Qu’une bonne connaissance des données est nécessaire pour identi-
fier les mots candidats à l’identification de thèmes et que le choix doit être
soigneusement justifié. Pour contourner cette difficulté, le chercheur peut
adopter une démarche inductive de repérage des thèmes, démarche rendue
possible par certains calculs tels que la classification descendante ou la
cooccurrence généralisée.
Approche inductive par la classification descendante
La méthode de la classification descendante, proposée par Alceste ou

Iramuteq, est couramment utilisée pour l’analyse inductive des thématiques
dans un texte. Rappelons que, par défaut, le corpus est segmenté en fragment
d’énoncés, appelés unités de contexte élémentaires. Après lemmatisation, les
unités de contexte sont triées et regroupées en fonction de la distribution de
leur vocabulaire, formant ainsi des « mondes lexicaux », ou classes théma-
tico-sémantiques (voir chap. 5 pour l’explicitation détaillée de la « méthode
Alceste »).
Ces classes, que l’on peut interpréter sur des bases thématiques, stylisti-
ques ou encore génériques (c’est-à-dire liées au genre de texte, voir p. 193),
proposent une vision structurante du corpus. Elles peuvent être rattachées à
des variables telles que l’auteur ou l’année, en fonction des partitions décidées
par le chercheur.
Une recherche – L’analyse d’une controverse sur Twitter :



Citons pour illustrer la méthode Alceste une recherche menée en
sciences de l’information et de la communication sur l’analyse d’une
controverse sur Twitter. Maxime Cervulle et Fred Pailler ont étudié la
controverse qui a accompagné, en 2012 et en 2013, le projet de réforme
du Code civil français visant l’ouverture du mariage aux couples de
personnes de même sexe. S’intéressant aux processus de médiatisa-
tion de cette controverse, ils ont collecté durant le printemps 2013 un
corpus de tweets et l’ont analysé à l’aide du logiciel Iramuteq (méthode
Alceste). Ils ont examiné les univers lexicaux de la controverse qui
renvoient au lexique de l’action et de la contestation, ainsi qu’à celui
des événements.
166
Ces univers attestent des rapports de force en présence et rendent

compte du travail de commentaire des débats parlementaires qu’ef-
fectuent en temps réel les usagers. Certains hashtags, comme #manif-
pourtous, #mariagepourtous indiquent un fort « rendement conversa-
tionnel », c’est-à-dire qu’ils suscitent plus de commentaires.
« Une première classe représentant près de 22 % du corpus regroupe
des contenus marqués par le lexique de l’action de rue et de la révolte. […]
Une deuxième classe, représentant la même proportion du corpus, assemble
pour sa part des termes relevant du commentaire des événements et du
débat en cours. […] Une troisième classe, qui représente près de 20 % du
corpus, se concentre sur l’information politique suivant les standards de la
presse et des journaux télévisés. Apparaissent ainsi les acteurs principaux
de l’arène politique nationale […]. Une quatrième classe, qui représente
environ 12 % du corpus, recouvre le lexique propre à la délibération parle-
mentaire (“texte”, “vote” “Sénat”, “assemblée”, “loi”, “lecture”, “solennel”).
Elle reflète ainsi l’important travail de suivi en temps réel ou de commen-
taires différés des débats parlementaires qu’ont effectué les usagers.
Enfin, une cinquième classe, représentant autour de 5 % du corpus,
apparaît plus hybride, même si on peut identifier en son sein la présence
importante de Frigide Barjot et Christine Boutin, les références à ces deux
actrices centrales du débat se voyant exclues de fait du champ discursif
de l’actualité politique (classe 3) et de la mobilisation de rue (classe 1) »
(en ligne).
Les auteurs constatent par ailleurs une articulation forte de chacune
de ces classes lexicales avec certains des hashtags à moyen et fort rende-
ment conversationnel. Par exemple, la première classe est fortement
articulée au hashtag #manifpourtous, tandis que la deuxième classe se
voit associée au hashtag #mariagepourtous.
Cervulle Maxime, Pailler Fred, 2014, « #mariagepourtous : Twitter

et la politique affective des hashtags », Revue française des sciences
de l’information et de la communication, n° 4, 2014, en ligne [http://
rfsic.revues.org/717] (consulté le 01/06/16).
Au niveau méthodologique, la mise au jour de classes thématiques par

un algorithme de classification descendante peut être affinée en adoptant
une démarche récursive, c’est-à-dire en réitérant cette fonctionnalité sur les
résultats obtenus.
Dans son étude sur les vœux présidentiels au cours de la Ve République,
Jean-Marc Leblanc (2008, 2016) utilise cette fonctionnalité pour mettre
au jour les différentes thématiques présentes dans ces discours rituels : le
167
rituel et les vœux, la politique internationale, les valeurs démocratiques et

républicaines, la politique intérieure, économique et sociale et les bilans. Le
chercheur adopte ensuite une méthode récursive, c’est-à-dire qu’il va appli-
quer le même calcul à une des classes de premier rang, afin de l’explorer plus
en détail. Ainsi, dans la classe du « rituel », qui regroupe des formes telles
que nouvelle, année ou souhaite, on identifie la sous-classe de la souffrance,
particulièrement présente dans les vœux de F. Mitterrand à travers des formes
telles que frapper, malade, maladie ou chômage.
Un retour au texte permet de vérifier que l’actualisation syntagmatique des
formes correspond bien à ce que la liste pouvait laisser penser. La méthode
facilite le retour au texte en extrayant les énoncés les plus contributifs à la
classe. Attention, si elle est trans-thématique, une forme peut figurer dans
plusieurs classes. Par ailleurs, dans cette méthode, il faut garder à l’esprit que
tous les énoncés ne sont pas classés par Alceste. L’étude est donc, struc-
turellement, toujours partielle (voir chap. 5, « Les outils proposant une
approche structurante », p. 125).
Approche inductive par la cooccurrence généralisée
Autre méthode inductive pour identifier des thèmes, la cooccurrence

généralisée (décrite dans le chapitre 4) est plus exploratoire, dans la mesure
où le chercheur est moins guidé (ou plus libre) dans ses interprétations.
Celui-ci sélectionne d’abord le vocabulaire le plus fréquent du corpus, consi-
déré comme le plus significatif. Il s’agit le plus souvent des 200 ou 300 mots
Fig. 1. – AFC de cooccurrences (Source : Mayaffre, Damon, 2012, de Gaulle. Mesure et

démesure du discours (1958-1969), Paris, Presses de Sciences Po, p. 38-39).
168
Fig. 2. – AFC de cooccurrences (Source : Mayaffre, Damon, 2012, Nicolas Sarkozy. Mesure
et démesure du discours (2007-2012), Paris, Presses de Sciences Po, p. 38-39).
lexicaux les plus fréquents. Une fois l’AFC obtenue, on peut alors proposer
des regroupements sur des bases thématiques.
C’est cette méthode que met en œuvre Damon Mayaffre dans l’étude
du discours d’un président de la République contemporain, N. Sarkozy. La
comparaison qu’il propose illustre bien la différence thématique qui existe
entre les discours de ce président et les discours du premier président de la
Ve République, le général de Gaulle. Les deux hommes se distinguent très
nettement par la place accordée à l’économie, qui constitue un ensemble à
part chez N. Sarkozy, alors que les vocabulaires sociaux (emploi…) et écono-
mique sont mêlés chez de Gaulle. Ce dernier, en revanche, accorde une place
plus importante à l’international, ce qui fait écho à la période de la guerre
froide.


Une recherche – La naissance des rubriques dans la presse

écrite :
Le travail mené par Virginie Lethier (2009) est une bonne illustration
de la manière dont l’analyse thématique permet d’éclairer les pratiques
journalistiques. Dans le cadre d’un projet sur l’évolution des pratiques
journalistiques s’appuyant sur la numérisation d’un journal régional de
Franche-Comté au xixe siècle, Le Petit Comtois (voir présentation de la
base de données dans le chapitre 3), V. Lethier pose la question de la
naissance des rubriques dans la presse écrite. Cette étude s’intègre à
169
une réflexion plus large sur l’évolution et la stabilisation des pratiques

des journalistes de la presse écrite à une époque de forte croissance
des journaux. Le rubriquage assure une fonction de classement et de
hiérarchisation de l’information mais aussi un découpage sémantique,
à travers lequel les journalistes ordonnent le monde. Au xixe siècle,
le rubriquage est récent et les rubriques reposent sur des critères de
constitution hétérogènes : localisation géographique (Chronique régio-
nale), temporalité (Dernière heure, Dépêches de nuit), thématique
(Agriculture, Courrier de la mode) ou encore généricité (Fait divers,
Chronique).
L’auteure cherche à savoir, sur les bases d’une analyse du vocabu-
laire des rubriques, si celles-ci consacrent un véritable regroupement
de nouvelles similaires ou si elles sont thématiquement hétérogènes.
Les 1 000 formes les plus fréquentes dans la rubrique sont colorées en
fonction de leur indice de spécificité, les formes les plus sur-représen-
tées constituant le cœur lexico-thématique de la rubrique. Le calcul est
effectué par une AFC et son interprétation repose sur l’hypothèse que
plus les formes très spécifiques d’une rubrique sont regroupées sur une
zone de l’AFC, plus la rubrique possède un vocabulaire propre et plus
celle-ci est considérée comme constituant une unité. Si les formes très
spécifiques de la rubrique Dernière heure sont très dispersées, celles de
la rubrique Fait divers (cadavre, mort, frère, veuve, coups, victime, blessé,
incendie, maison) sont au contraire très regroupées, ce qui laisse penser
que cette rubrique rassemble, déjà à l’époque, des faits similaires, à
savoir des crimes et des accidents. Des faits qui, finalement, ne sont
pas si « divers ».
Lethier Virginie, 2008, « Formes et fonctions du rubriquage d’un quoti-

dien régional du xixe siècle : Le Petit Comtois (1883-1903) », Semen,
n° 25 [http://semen.revues.org/8267] (consulté le 01/06/16).
Une fois le thème établi et les mots qui l’actualisent repérés, on peut
s’interroger sur le développement chronologique du thème, par une ventilation
(cf. chap. 5), par exemple. Le thème peut connaître des moments de densifi-
cation et des passages à vide.
Par ailleurs, la prudence s’impose dans l’interprétation de listes de mots
hors cotexte. Il faut vérifier, le cas échéant, si l’occurrence du mot relève bien
de la catégorie grammaticale que l’on cherche : un nom si on cherche un nom,
un adjectif si on cherche un adjectif. Un changement de catégorie signifiera
toujours un changement de sens, plus ou moins marqué. Prenons l’exemple
170
de jeune, forme qui peut être soit un adjectif soit un nom, alors que le plus
souvent, le chercheur ne s’intéresse qu’à l’une des deux formes. La vérifica-
tion peut se faire très facilement grâce à une concordance dont les lignes de
cotexte sont triées en fonction de la forme qui précède la forme-cible. Le
chercheur vérifie que des déterminants (les, des) précèdent la forme-cible.
Ensuite, deux solutions sont possibles : soit le chercheur procède à un étique-
tage morpho-syntaxique qui permettra de discriminer les deux homonymes ;
soit, plus simplement, et seulement si le corpus n’est pas trop volumineux, il
change l’orthographe d’une des deux formes de façon à pouvoir les distinguer.
Par exemple, il code « jeuneN » pour le nom jeune.
Pour approfondir l’étude de la mise en mot du thème, on peut classer
les cooccurrents des mots-cibles en catégories thématico-sémantiques. Cette
pratique permet d’avoir accès à ce qui est dit à propos du thème, à la manière
dont celui-ci est envisagé. Un traitement complet et cohérent des listes de
cooccurrents est nécessaire pour éviter « l’interprétation à la volée ». L’analyse
et l’interprétation lexicométriques comportent toujours un va-et-vient entre
délinéarisation et relinéarisation. Ainsi, la forme politique est-elle ambiguë et
peut-elle actualiser le nom ou l’adjectif, ce qui peut éventuellement faire varier
son rattachement aux catégories thématiques. Une forme peut également
être tout à fait ininterprétable en dehors de son cotexte linguistique. Ainsi de
l’adjectif nouveaux, qui, dans un corpus de presse concernant l’immigration
(cf. chap. 3, scénario 2), présente un fort indice cooccurrentiel avec intégra-
tion. Le retour au texte montre qu’il apparaît dans la séquence intégration des
nouveaux arrivants. Seule cette indication permet de classer la forme nouveaux
dans les catégories des « personnes qui s’intègrent ».

Marty Emmanuel, 2015, « Les élections municipales au miroir de la
presse quotidienne régionale. Des cadres médiatiques aux thémati-
ques politiques », Mots, n° 108, p. 39-55.
Ratinaud Pierre, Smyrnaios Nikos, 2015, « Une méthode pour
articuler analyse des réseaux et des discours sur Twitter La websphère
de #CharlieHebdo », Communication au congrès AFSP 2015-ST7,
Aix-en-Provence, 22 juin 2015. Disponible en version grand public
sur le site de l’INA [http://www.inaglobal.fr/sciences-sociales/article/
twitter-ce-que-les-graphes-nous-disent-de-charliehebdo-8099]
171
Le mot comme témoin. Les analyses du discours

à entrée lexicale
Le vocabulaire est un indice particulièrement sensible des transforma-
tions sociales, ce que V. Volochinov (dont les travaux ont été connus dans un
premier temps sous le nom de Bakhtine) soulignait en ces termes :
« Il est donc clair que le mot sera toujours l’indicateur le plus sensible de toutes
les transformations sociales, même là où elles ne font encore que poindre,
où elles n’ont pas encore pris forme, là où elles n’ont pas encore ouvert la
voie à des systèmes idéologiques structurés et bien formés. Le mot consti-
tue le milieu dans lequel se produisent de lentes accumulations quantitatives
de changements qui n’ont pas encore eu le temps d’acquérir une nouvelle
qualité idéologique, qui n’ont pas encore eu le temps d’engendrer une forme
idéologique nouvelle et achevée. Le mot est capable d’enregistrer les phases
transitoires les plus infimes, les plus éphémères, des changements sociaux »
(Volochinov, 1929 [2010], p. 50).
À travers des néologismes formels, des changements de sens ou des

changements dans la manière de renvoyer à un fait social, le mot accom-
pagne et traduit des évolutions idéologiques, participant à leur émergence et
à leur stabilisation. Nous explorons dans cette section les questions liées à la
saillance et à l’évolution du vocabulaire, ainsi que les méthodes qui permettent
de les saisir. Ce type d’analyse, à l’interface entre l’analyse du discours, l’énon-
ciation et la pragmatique, vise à développer une sémantique discursive, une
sémantique des usages, appuyée sur des matériaux langagiers mis en perspec-
tive avec des données socio-historiques. Maurice Tournier, un des fondateurs
de la lexicométrie politique (cf. p. 10), parlait d’« étymologie sociale ».
Nous présenterons successivement deux pistes de travail exploitant la
dimension sociale du mot : le mot comme témoin d’évolutions socio-histori-
ques et le mot comme témoin de prises de position.
Le mot comme témoin d’évolutions socio-historiques
Articulée aux événements sociaux et historiques, aux pratiques et aux

besoins des locuteurs, une langue est en perpétuelle évolution. Les phéno-
mènes qui découlent de cette caractéristique, tels que la néologie – qu’il
s’agisse de l’apparition de nouveaux mots ou du changements de sens de mots
existants – peuvent être saisis grâce à des corpus construits sur des principes
diachroniques, tels que les séries textuelles chronologiques (cf. chap. 3,
encadré page 90), c’est-à-dire constituées de textes rédigés et publiés les uns
après les autres et provenant de la même source. Sur ce type de corpus,
on peut utiliser la fonctionnalité des « spécificités chronologiques » (Salem,
1988) dans la suite logicielle Lexico (Lexico 3 et Lexico 5). Celle-ci permet de
172
caractériser chaque période en fonction de son vocabulaire, en tenant compte

des parties qui précèdent (et non de l’ensemble des parties du corpus) et
d’attirer l’attention du chercheur sur l’apparition ou la disparition d’unités ou
de sous-ensembles de vocabulaire au cours d’une période donnée.
Pour illustrer ce type d’étude, nous reviendrons sur un travail mentionné
en introduction (p. 13), celui d’André Salem (1993) sur un corpus de motions
votées lors de congrès de différentes centrales syndicales, entre les années
1970 et 1980. L’ensemble des motions de chaque syndicat constitue une série
textuelle chronologique. Le calcul des spécificités chronologiques révèle un
changement important dans l’emploi de deux formes, travailleurs et salariés, en
particulier à la CFDT (Confédération Française Démocratique du Travail). La
forme travailleurs est nettement suremployée entre 1973 et 1985, tandis que
salariés l’est dans la période suivante, entre 1985 et 1988. A. Salem fait l’hypo-
thèse du remplacement de l’une par l’autre, en s’appuyant sur le graphique de
ventilation de fréquences relatives, qui montre que les courbes sont inverses
(voir graphique infra), mais aussi sur l’analyse des expansions, qui présentent
un certain degré de similarité (voir ci-dessous).
Terme F Terme F
tous les travailleurs 22 tous les salariés 6

tous les travailleurs 13 tous les salariés 8
intérêts des travailleurs 6 intérêts des salariés 3
aspirations des travailleurs 6 aspirations des salariés 3
ensemble des travailleurs 19 ensemble des salariés 4
catégories de travailleurs 6 catégories de salariés 6
expression des travailleurs 2 expression des salariés 3
permettre aux travailleurs 6 permettre aux salariés 2
Tableau 1. CFDT. Les expansions gauches les plus fréquentes pour les formes salariés et
travailleurs.
Fig. 3. – CFDT 1973-1988 : Évolutions chronologiques.
Ce « remplacement » n’est toutefois pas possible dans tous les cas : on

relève bien « travailleuses, travailleurs » mais pas « salariées et salariés », sans
173
doute parce que, dans le second syntagme, on n’entend pas la différence de

genre ; par ailleurs, si on relève des « travailleurs immigrés », on ne repère pas
de « salariés immigrés ». D’une manière générale, le remplacement est possible
dans le cotexte gauche, c’est-à-dire à gauche de la forme-cible, mais pas dans
le cotexte droit : il n’est donc que partiel, les deux mots ne sont pas « équiva-
lents ». Le mouvement observé dans les congrès de la CFDT existe aussi dans
le discours des autres centrales syndicales : il s’agit là d’une tendance générale,
corrélée à l’évolution de la société et des intérêts des syndicats, qui passent
d’une perspective sociale sur le monde du travail à une perspective juridique.
L’évolution du vocabulaire sur une longue période est indissociable
d’un changement de point de vue sur le monde.
Le mot comme témoin de prises de position
À côté des évolutions historiques, on observe des changements de points

de vue, les unes se superposant parfois aux autres. Cette voie est particuliè-
rement porteuse pour étudier certains types de corpus, comme le discours
politique, puisque les locuteurs, des professionnels de la communication, sont
parfois (très) conscients du « poids des mots » et de leur force argumentative
(Le Bart, 1998). Les changements politiques profonds s’accompagnent d’un
renouvellement du vocabulaire pour nommer une réalité que l’on souhaite
toute nouvelle. De ce point de vue, la sphère politique est particulièrement
intéressante à étudier : « l’action politique peut être définie comme
une lutte pour l’appropriation de signes-pouvoir » (Bonnafous, Tournier,
1995, p. 68). Dans ce type d’approche, « faire de la politique, pour le parleur
(homme et/ou institution), c’est entrer en lutte pour l’appropriation des
symboles, manier l’art du discours en vue de la prise de possession par soi (et
de la dépossession des concurrents) de la parole, de la langue et, plus profon-
dément, du langage » (Tournier, 2002, p. 14).
Une recherche sur l’articulation entre le vocabulaire et le point de vue
s’appuie sur l’hypothèse double que (1) le mot reflète les prises de position
idéologiques, (2) parce qu’il participe à la configuration de la réalité sociale.
Comme nous l’avons vu en introduction de cet ouvrage, grâce à la lexicomé-
trie, le chercheur peut espérer mettre en relation des usages du lexique et
des déterminations plus générales telles que le locuteur, le groupe social, le
genre, les pratiques discursives, des rapports de force (pragmatique) ou l’his-
toire. L’index des formes donne déjà une idée du sociolecte d’un groupe ou
de l’idiolecte d’un locuteur, c’est-à-dire de leur vocabulaire spécifique. Mais
le caractère comparatif des procédures lexicométriques permet d’explorer le
rapport, au sens de la distance ou de la proximité, qui existe entre le vocabu-
laire de plusieurs instances énonciatives.
Deux possibilités s’offrent au chercheur : soit prendre en compte tous
les mots du corpus, ou un sous-ensemble des mots les plus fréquents afin
174
d’étudier leur distribution en fonction du paramètre envisagé (partition par

locuteur, par année…) ; soit sélectionner un ou plusieurs mots et comparer
leur usage en fonction de ce même paramètre.
La première voie exploite la fonctionnalité de l’analyse factorielle des corres-
pondances (AFC, voir chap. 5 et p. 218-228). Nous repartirons du graphique
figurant dans le dernier chapitre (p. 158) et que nous reproduisons ici.
Fig. 4. – AFC sur le corpus Vœux, partition Locuteurs, axes 1 et 2, projection colonnes +
lignes, via Le Trameur.
Les points contributifs projetés sur le plan factoriel permettent d’affiner

l’analyse. On ne projette ici que les points contributifs de l’axe 1, c’est-à-dire
qui sont responsables de la construction de l’axe horizontal (et, pour certains,
aussi de l’axe vertical) et construisent en partie l’opposition gauche droite.
On aurait pu faire le choix de projeter des formes en suivant une hypothèse
particulière (par exemple les mots du rituel, afin de les situer par rapport
aux points colonne). L’inconvénient de cette seconde proposition est que les
points projetés ne se sont pas nécessairement fortement contributifs de la
construction des axes et fournissent donc une information peu fiable.
La prise en compte des points lignes, à partir du moment où ils contribuent
fortement à la construction des axes factoriels, permet d’orienter l’interpré-
tation mais ne dispense évidemment nullement d’un retour au texte et d’un
examen des spécificités. On note que crise et urgence se placent plutôt du
côté des derniers présidents, c’est-à-dire F. Hollande, N. Sarkozy et J. Chirac,
sur la droite de l’axe horizontal. La forme crise semble caractéristique des
discours de N. Sarkozy, ce que confirment les spécificités et le retour au
texte. La forme urgence, elle, est également clairement du côté de N. Sarkozy,
175
tandis que le présentatif c’est est sans doute plutôt employé par F. Hollande.
Cette sur-représentation de c’est peut être révélatrice d’une manière de dire
le politique et d’argumenter. Il peut s’agir d’une manière de se rapprocher
de l’interlocuteur, par l’utilisation de tournures plus familières et dire mon
premier devoir, c’est… plutôt que mon premier devoir consiste en… On aurait
difficilement lu ou entendu cela chez de Gaulle.
Sur la gauche, la forme Algérie contribue à « tirer » la partie de Gaulle
sur la gauche du plan factoriel et fait donc partie des formes qui le distin-
guent nettement des autres locuteurs. Le rituel des vœux de bonne année
ne fait pas pour autant disparaître le contexte politique et les événements
en cours. L’indéfini on proche de F. Mitterrand doit engager le chercheur à
examiner cette forme en termes de spécificités. Celui-ci découvrira que les
contextes de l’indéfini on chez F. Mitterrand révèlent deux types d’emplois qui
peuvent relever de la construction de l’ethos présidentiel ou bien de l’argu-
mentation (Leblanc, 2005). Dans un premier cas de figure, F. Mitterrand use
de tournures familières, le plus souvent d’ailleurs pour dresser un parallèle
entre la France et les Français et peut-être construire un ethos du père : « Un
pays c’est comme une famille. On n’a pas les mêmes goûts, on n’a pas les
mêmes idées, mais on a la même patrie… » Le deuxième emploi consiste en
un effacement énonciatif qui a pour effet une certaine déresponsabilisation
du locuteur. Le référent du on étant indéterminé, cela laisse place à toutes
les interprétations : « La décrue du chômage qu’on nous annonce », « Ce que
l’on appelle la politique de rigueur n’est qu’une épreuve de vérité », « Il aura
fallu plus de quatre ans pour qu’on commence à se rendre compte que nous
sommes sur le bon chemin », « On a dit que nos réformes sociales avaient
coûté trop cher »…
Sur l’axe vertical (axe 2), la deuxième personne du pluriel (vous), mais aussi
les formes lexicales relevant de l’expression des vœux (bonheur, santé) contri-
buent à placer V. Giscard d’Estaing (VGE, désormais) plus bas sur l’axe 2, mais
sont sans doute également présentes chez G. Pompidou. Ces deux présidents
prononceraient-ils des discours plus rituels que les autres ? L’analyse des spéci-
ficités montre que c’est surtout chez VGE que ces formes sont en sur-emploi.
Si G. Pompidou use finalement assez peu du lexique relevant des vœux, il
rejoint VGE sur une caractéristique importante : comme VGE, il présente ses
vœux aux Français, dans leur vie personnelle et professionnelle, comme VGE,
il ne se présente pas uniquement comme les chefs de l’État mais comme un
Français parmi les Français. Tous deux créent donc un rapprochement, une
certaine connivence avec les Français.
Pour approfondir certaines de ces pistes, et pour faire apparaître des prises
de position s’exprimant par le lexique, on peut également chercher à mettre
au jour le vocabulaire spécifique de certaines parties du corpus. Le chercheur
peut obtenir ce résultat en lançant le calcul des spécificités dans les parties
qui l’intéressent. Ce calcul, expliqué dans le chapitre 5, permet de porter un
176
jugement sur la répartition des formes dans les parties d’un corpus, jugement
qui s’exprime en termes de suremploi (spécificité positive) et de sous-emploi
(spécificité négative). Par exemple, on peut chercher à connaître le vocabulaire
spécifique des discours de deux candidats lors des élections présidentielles, à
partir du corpus Discours2007 (corpus mis à disposition de la communauté
par Jean Véronis †, présenté dans le chapitre 3).
Fig. 5. – Spécificités lexicales (Lexico 3) des discours de deux candidats à l’élection

présidentielle de 2007 en France (corpus Discours2007) : la candidate communiste
(M.-G. Buffet, à gauche) et le candidat conservateur (N. Sarkozy, à droite).
Les discours de campagne électorale sont des textes très réfléchis, rédigés
en grande partie par des conseillers en communication (voir, dans le champ de
l’analyse du discours politique, Bacot et al. [dir.], 2016). Le vocabulaire utilisé,
177
pensé dans le cadre d’une campagne de communication plus large, reprend les
grands mots d’ordre et l’éthos que le candidat veut construire ou qu’il véhicule.
Ainsi, les verbes de volonté apparaissent comme très spécifiques du discours
du candidat Sarkozy, de même que le pronom de la première personne. Le
discours de la candidate communiste au contraire est plus centré sur des noms
relevant des thèmes de campagne et de l’identité du parti (femmes, hommes,
luttes, militantes et militants). Et, si elle parle de « sport », c’est parce qu’elle
a occupé la fonction de « Ministre de la Jeunesse et des Sports ». Ce type
d’analyse peut ouvrir sur une réflexion sur l’éthos des candidats à la prési-
dentielle, et, pourquoi pas, sur des questions de genre (au sens de gender,
voir par exemple le travail mené par Magali Guaresi sur les professions de foi
politiques et chap. 2, p. 56).
La seconde voie pour repérer des prises de positions inscrites dans les
mots consiste à sélectionner certains mots, qu’on suppose discriminants, pour
comparer leur fréquence et/ou leur spécificité dans des partitions du corpus.
La première question à laquelle le chercheur est dès lors confronté est
celle du choix des mots étudiés. Heureusement, plusieurs réponses peuvent
être suggérées, induites par le corpus ou issues d’hypothèses formulées par
le chercheur en fonction de ses connaissances a priori : dans le premier cas
de figure, le mot peut être très fréquent (dictionnaire des fréquences) ou très
saillant (indice de spécificité) dans le corpus, conduisant l’analyste à s’inté-
resser à des formes qu’il n’avait pas a priori repérées comme centrales (par
exemple nous, difficultés dans un corpus de rapports rédigés par des éducateurs
spécialisés dans la protection de l’enfance) ; dans le second cas, la centralité
du mot/des mots est connue de l’analyste, parce qu’elle est fortement liée au
thème par exemple. Ainsi, on peut travailler sur des mots-notions politiques ou
sociaux (classe sociale, immigration) ou sur les différentes manières de nommer
un même référent (un immigrant, un immigré, un migrant, un réfugié) ; la
centralité du mot peut apparaître via des commentaires métalinguistiques
récurrents à son sujet ; le mot peut également être le thème de la recherche,
(par exemple, Shanghaï et ses différentes graphies dans une recherche sur
le classement du même nom, cf. Barats et Leblanc, 2013). Dans ce cas, on
fait l’hypothèse que le sens du nom en discours dépasse sa simple relation de
référence et que l’analyse du nom ouvrira des pistes sur la manière dont se
constitue le débat public sur ce thème.
Nous donnerons l’exemple de l’étude réalisée par Damon Mayaffre (2008)
sur travail dans les discours des candidats à l’élection présidentielle française
en 2007 (corpus Discours2007). L’analyste mobilise son savoir sur la campagne
et se pose la question de l’emploi du mot travail. Il sait que ce mot a été parti-
culièrement présent, notamment dans les discours de N. Sarkozy, qui a promu
le slogan « Travailler plus pour gagner plus » dont nous avons déjà parlé dans
le chapitre 1 au sujet de « plus ». Regardons maintenant travail, à partir d’un
calcul des spécificités (cf. figure 6).
178
Fig. 6. – Distribution de travail dans la campagne électorale 2007 (source : D. Mayaffre,

JADT 2008).
L’hypothèse est en partie confirmée, puisque le mot est bien spécifique-

ment positif chez N. Sarkozy. Mais il l’est également chez A. Laguiller. Un
tel résultat n’est pas vraiment inattendu : le parti que représente A. Laguiller,
Lutte Ouvrière, inscrit en premier point de son programme la défense des
travailleurs. Il est frustrant de se limiter à ce simple constat d’une sur-utilisa-
tion de ce mot chez ces deux candidats, par rapport aux autres. Pour appro-
fondir l’analyse de l’usage, on peut chercher à savoir si le mot travail est
conceptualisé de la même manière par les deux candidats, celui du parti de la
droite conventionnelle et celui d’extrême gauche – ce qui serait surprenant.
De fait, un calcul de cooccurrents va montrer qu’aucun cooccurrent n’est
commun entre les deux candidats.
Fig. 7. – Cooccurrents de travail chez Sarkozy et Laguiller (source :

D. Mayaffre, JADT 2008).
179
On constate que les environnements sont très différents. Dans le discours

de la candidate de Lutte Ouvrière, le mot travail est associé, notamment, à
l’idée de l’escroquerie des travailleurs par les patrons (dupe, criminel, avec une
métaphore issue du monde du théâtre : marionnettes, ficelle, scène, comédie).
On ne retrouve pas ces cooccurrents chez N. Sarkozy, qui associe travail et
valeur. Le thème du travail comme valeur est par ailleurs lexicalisé par d’autres
mots, tels que dignité, décemment, récompense-récompensé ou encore mérite.
Pour compléter cette recherche, une AFC du vocabulaire de chacun des
locuteurs montre qu’A. Laguiller, candidate du parti d’extrême-gauche Lutte
Ouvrière, se singularise fortement sur l’axe qui apporte le plus d’information,
le premier (cf. chap. 5 et Fiche approfondissement sur l’AFC, p. 218).
Fig. 8. – AFC du vocabulaire, Le Trameur, corpus Discours2007.
Ce résultat est à mettre en perspective avec la stratégie de communica-

tion d’A. Laguiller, qui prononce, de ville en ville, des discours relativement
proches. Cette répétition suscite nécessairement un vocabulaire très carac-
téristique. Afin de comparer précisément les autres candidats entre eux, il
conviendrait de laisser de côté la partition laguiller, très excentrée et qui n’est
sans doute pas statistiquement comparable aux autres parties.
Le développement du travail comme valeur est propre au candidat Sarkozy.
D. Mayaffre (2012, p. 64) le montre en comparant l’emploi de la forme travail
dans le discours de N. Sarkozy et dans le discours du général de Gaulle. Pour
ce dernier, la forme travail est associée à technique, rendement, production,
capital, formes qui renvoient à une conception plus économique et collective
de la production des richesses.
180
Les précautions à prendre avec ce genre d’analyse relèvent de l’interpré-

tation des mots délinéarisés par le calcul. Le sens ne se construit qu’en
cotexte et il peut donc être hasardeux d’attribuer un sens à un mot sans
un retour au texte. Par ailleurs, le chercheur doit être attentif aux variations
morphologiques, notamment la variation singulier-pluriel, cette dernière étant
susceptible d’être porteuse de sens. Ainsi, le travail et les travaux ne partagent
pas d’univers référentiels ou discursifs.
Ce type de résultats met en évidence le fait que le sens n’est pas figé dans
la langue, mais qu’il est malléable et perméable au discours. En lexicométrie,
cela a donné lieu, chez certains chercheurs, à des positions farouchement
opposées à la lemmatisation du corpus, dans la mesure où cette opération
fait disparaître une partie du sens discursif (cf. chap. 3, « Zoom » p. 83).
Toutefois, comme nous l’avons déjà indiqué dans les chapitres précédents, la
lemmatisation permet de mettre au jour d’autres phénomènes sémantiques,
comme les patrons grammaticaux par exemple.
La corrélation du lexique et d’un groupe de locuteurs d’un côté et la
description du sens d’un mot de l’autre sont interdépendants : quand un
locuteur s’approprie un mot, il s’approprie généralement son sens, comme
nous le verrons plus bas, dans la section consacrée à la construction du sens.
Dans ce type de recherche, avant de conclure au remplacement d’un mot par
l’autre ou à la synonymie ponctuelle de deux mots dans un discours particulier,
il est important de vérifier le cotexte de chacun d’entre eux. C’est seulement à
travers la mise au jour d’un environnement similaire, par les concordances ou
par un calcul de cooccurrents, qu’on peut statuer sur la proximité sémantique.
Ainsi, deux mots peuvent avoir un sens proche (travailleur et salarié dans le
discours syndical, comme nous l’avons vu plus haut) sans pour autant être
substituables l’un à l’autre : la synonymie est toujours partielle. La question,
délicate, de la construction du sens par le contexte fait l’objet de la section
suivante, qui vise à donner au chercheur non spécialiste de linguistique
quelques repères très généraux en sémantique discursive afin qu’il puisse
interpréter ses résultats en relation avec ce type de problématiques.
Le cotexte et la construction du sens
Le chercheur qui utilise des méthodes lexicométriques travaille sur des

données textuelles, et même, ou surtout, s’il n’est pas linguiste, il est impor-
tant qu’il connaisse les postulats théoriques sur lesquels il va pouvoir appuyer
ses interprétations (voir Rémi-Giraud, 2010 sur les conditions d’une interac-
tion entre sémantique et sciences politiques ; Née et Veniard, 2012 pour une
perspective historique sur cette question). Cette étape nous semble indis-
pensable pour pouvoir tirer le meilleur parti des données et des résultats
textométriques. Des recherches en sciences politiques ou en démographie
peuvent rencontrer des problématiques sémantiques, à travers des travaux
181
sur des mots-notions comme inégalité, inéquité par exemple… Cette section
a été pensée de telle sorte à fournir à ces chercheurs les moyens d’inter-
préter les résultats textométriques sous un angle sémantique. Les chercheurs
formés en linguistique pourront y trouver la présentation d’une approche du
sens qui complétera celles qu’ils connaissent déjà. La lexicométrie a élaboré
une conception du sens appuyée sur des observations du texte délinéarisé.
Disons-le d’emblée, cela n’est pas la seule manière de concevoir le sens, et
cela ne recouvre pas tous les présupposés de l’analyse du discours tels qu’ils
ont été énoncés en introduction.
Les linguistes opposent généralement un sens stabilisé et partagé (dit
« en langue ») à un sens plus variable, moins pérenne (dit « en discours »).
On peut trouver une représentation du premier dans les dictionnaires, sans
que ces derniers constituent pour autant la référence absolue en la matière.
Le sens « en discours » est plus évanescent, parce que plus connecté à des
mouvements socio-historiques, des enjeux idéologiques ou des représentations
culturelles. De ce fait, il constitue une donnée très riche pour des travaux
qui articulent le langage au social, ou qui portent directement sur le social,
envisagé à travers ses réalisations langagières.
La sémantique est un domaine complexe, dans lequel différentes perspec-
tives cohabitent, en fonction des présupposés théoriques et des unités analy-
sées. Disons simplement que différentes approches se rejoignent (sans pour
autant s’appuyer sur des présupposés théoriques communs) pour considérer
que le cotexte est constitutif du sens dans la mesure où celui-ci actualise le
sens du mot, ou, tout du moins, en est un révélateur.
En sémantique discursive, domaine de l’étude du sens « en discours », la
méthodologie consiste, pour le chercheur, à corréler des différences cotex-
tuelles à des différences d’emploi, et, précisément, les outils quantitatifs
offrent une méthode raisonnée pour cette entreprise. Cette méthode, si elle
ne permet pas de décrire avec exhaustivité le sens d’un mot, permet au moins
d’en décrire une partie, qu’il s’agisse du sens « en langue » ou « en discours ».
Toutefois, dans un corpus, le sens d’un mot sera nécessairement restreint,
il est donc illusoire de penser qu’on pourra décrire l’intégralité du sens d’un
mot à partir d’un seul corpus. C’est là la difficulté à laquelle est confrontée la
linguistique de corpus.
Le lexique est particulièrement sensible aux variations idéologiques.
Cette hypothèse est formulée par Claudine Haroche, Paul Henry et Michel
Pêcheux : « les mots changent de sens selon les positions tenues par ceux qui
les emploient » (1971, p. 102). Le cas de travail développé plus haut illustre
cette position théorique. Ce fonctionnement sémantique trouve sa source,
en partie, dans le dialogisme (cf. Valentin Volochinov, Paul Siblot, Sophie
Moirand…), dont il a été question en introduction, à savoir le fait que les
mots sont « marqués » par leurs emplois antérieurs et, de ce fait, déclencheurs
d’une mémoire chez les locuteurs. Dans cette perspective, les mots sont à la
182
fois les catalyseurs et les véhicules du dialogisme. Si ce dernier n’est pas direc-
tement accessible en tant que tel grâce à des outils textométriques, le sens
que donne un certain locuteur ou groupes de locuteurs à un mot est révélé et
configuré par les associations que ce mot a tissées avec d’autres au sein d’un
corpus particulier. Ainsi, pour M. Tournier (1996, p. 76), « un mot n’existe
pas par lui-même ; il est lu et entendu à travers les mots qui ont l’habitude de
coexister avec lui dans le discours ». Cette position ouvre la voie à l’étude de
l’idéologie qui naît des associations entre les mots. Au-delà de la syntaxe, les
associations « colorent » les mots et leur font porter des représentations, une
vision du monde qui se situe en deçà du sens explicite. « Le sens est associatif
avant d’être grammatical », nous disent M. Tournier et S. Bonnafous (1995,
p. 75), dans une prise de position assez provocatrice.
Le chercheur peut se trouver très désemparé devant une liste de cooccur-
rents et se demander comment il va pouvoir l’interpréter. En effet, les associa-
tions lexicales, que l’on peut voir émerger par la cooccurrence par exemple,
sont de nature très diverse et peuvent être rapportées à des phénomènes de
nature très différente. La taille du cotexte est un facteur de variation impor-
tant (sur cette question, voir Fiala, 1987) : un cotexte très proche (5 mots
avant, 5 après par exemple) va révéler principalement des associations figées,
soit grammaticales (prépositions, mais aussi pronoms ou modaux), soit des
syntagmes figés propres à un discours spécialisé (le pouvoir d’achat, les condi-
tions de travail dans le discours syndical), des dénominations de discours
(noms de ministères, d’institutions, de programmes politiques) ou des slogans
politiques ou formules circulant dans les discours publics (la fracture sociale,
la purification ethnique, le développement durable). Un cotexte plus large (la
phrase, le paragraphe) mettra au jour des associations moins figées, de nature
plus idéologiques qui demandent une bonne connaissance du corpus, un
retour au texte pour être interprétées (voir plus bas la notion de téléstéréo-
types), et, parfois, une analyse manuelle. Les exemples qui suivent illustrent
ces différentes relations cooccurrentielles.
Pour montrer l’intérêt que peut revêtir le cotexte dans l’analyse du sens
d’un mot dans un corpus donné et en quoi cela peut compléter une analyse
du discours lexicographique (« du dictionnaire »), nous prendrons l’exemple
du mot crise (Veniard, 2013) dans un corpus portant sur des conflits (militaire,
social) dans la presse quotidienne. Ce mot se caractérise par une grande diver-
sité référentielle (la crise est financière, immobilière, cardiaque ou conjugale).
Parmi les cooccurrents entretenant un lien très fort avec le mot, lien marqué
par un indice de spécificité très élevé, on relève gestion (conflit militaire) et
sortie (conflit social), qui actualisent les syntagmes (la) gestion de la crise et
(la) sortie de la crise. Une recherche de tous les verbes et les noms (des dérivés
verbaux en réalité) actualisant l’idée d’un « règlement » de la crise révèle une
série stable comprenant solution et résoudre ainsi que les variations morpho-
logiques (conjugaison des verbes) de toutes ces formes. Les dictionnaires
183
ne mentionnent pas le règlement comme faisant partie du sens du mot. Ils

classent les différents sens du mot par domaine référentiel (biologique, social,
politique), mais une analyse permet de faire émerger des caractéristiques
communes : la crise est une période, de rupture, d’une certaine gravité. Pour
rendre compte du sens du mot dans le corpus considéré, il est nécessaire
d’ajouter aux traits sémantiques issus de l’analyse du discours lexicographique
le trait pragmatique mis au jour par l’analyse du corpus : la crise est une
situation qu’on veut régler ou, plus largement, dont on veut voir arriver la fin.
On rejoint ainsi les propositions de la linguistique praxématique, pour qui les
pratiques sociales participent de la description du sens (cf. Détrie, Siblot,
Vérine, 2001).
Dans certains cas, des liens émergent entre des cooccurrents qui ne sont
pas aussi directement reliés par la syntaxe, les « téléstéréotypes », comme
les appelle Maurice Tournier (1996). On peut alors mettre au jour un sens
qui se situerait en deçà du sens explicite du discours, une forme de propa-
gande qui ne dirait pas son nom. Dans une étude sur français (nom/adjectif)
dans le discours du fondateur du parti d’extrême-droite Le Front National,
Jean-Marie Le Pen, M. Tournier (1996) met en évidence des attractions qui
dépassent parfois le cadre de la phrase et témoignent du message primaire,
de nature infra-intellectuel, que l’orateur veut faire passer. L’auteur distingue
les cooccurrents à gauche du mot-cible de ceux qui figurent à sa droite, pour
mettre au jour des enchaînements qui traduisent la linéarité du discours, tout
en s’en détachant. Ainsi, « nation » appelle « France », qui appelle « patrie »,
ou « français » appelle « immigrés, étrangers », révélant le système de catégo-
risation mis en place par le parti d’extrême-droite.
 Une recherche – L’insécurité en campagne :

Le mot insécurité et sa circulation lors de la campagne présidentielle
de 2002 dans Le Monde (Née, 2012) présente un cas intéressant de
« téléstéréotype ». Il s’agit d’un nom abstrait, dérivé d’un verbe ou d’un
adjectif, qui présente la particularité, comme tous les noms abstraits,
d’avoir une référence dépendante du contexte, et donc très variable. Ce
type de nom, très fréquent dans le discours politique, voit son sens et
sa référence construits par le discours (on dit qu’il est sémantiquement
sous-déterminé). L’analyse des cooccurrents va permettre à l’auteur
de préciser ses caractéristiques sémantico-référentielles. Un calcul de
spécificités dans la limite de la phrase révèle, entre autres formes spéci-
fiques, la forme délinquance (avec un coefficient très fort de 24). Si on
élargit la taille du cotexte, l’attraction se renforce. Ainsi, délinquance
est la forme la plus spécifique de insécurité au niveau des paragraphes.
184
La proximité entre ces deux formes dans les textes est confirmée par le
dispositif textuel que constitue la relation entre le titre et l’article. Le
plus abstrait des deux mots, insécurité, figure dans le titre d’articles qui
portent sur la délinquance et la criminalité. D’autres manifestations
discursives viennent ancrer cette proximité : les deux formes parta-
gent l’expression de la quantification (l’insécurité/la délinquance sont
croissantes) ; mais aussi l’association avec la forme victime. Les mots
partagent des fonctionnements communs, mais les enchaînements à
proprement parler sont rares (La délinquance… cette insécurité…).
Il apparaît donc que l’usage que fait Le Monde d’insécurité participe
du consensus général fondé sur l’interprétation « insécurité  délin-
quance ». L’interprétation qui ferait de l’insécurité un sentiment plutôt
qu’une réalité socio-politique n’est pas privilégiée dans les articles.
Née Émilie, 2012, L’insécurité en campagne électorale, Paris, Honoré

Champion.
Dans ce type de travail, il est important de vérifier si l’attraction entre les

différentes formes est réciproque, autrement dit, il convient de se demander,
dans le cas où A attire B, si B attire lui aussi A ou si B a un environnement
plus diversifié dans lequel A n’est pas un passage obligatoire, ce qui limite la
portée du résultat.
La relation entre un mot et son cooccurrent a récemment pu encore être
affinée par l’intégration des relations syntaxiques dans le calcul des cooccur-
rents. Un logiciel de linguistique de corpus tel que Sketch Engine permet ce
type de calcul, de même qu’un outil tel que le Lexicoscope, développé par
l’université de Grenoble, qui permet une exploration de la combinatoire du
lexique. Le lecteur pourra consulter le travail de Sascha Diwersy et Giancarlo
Luxardo (2016) pour une étude de cas appliquée à des discours parlemen-
taires européens.
L’importance du rôle du cotexte, en plus de celui du contexte, dans la
construction du sens conduit certains chercheurs à considérer que l’unité
sémantique minimale est la paire de cooccurrents : la cooccurrence constitue
la contextualisation minimale d’un mot par un autre (Mayaffre, 2008). La
dimension maximale de la contextualisation est plus difficile à définir : le
texte, le corpus dans son ensemble, jusqu’au contexte qui est toujours présent,
notamment dans la phase d’interprétation. C’est pourquoi certains logiciels
peuvent prendre des paires cooccurrentielles comme unités de base de calculs
statistiques (cf. chap. 4, p. 117).
185
Les formes grammaticales et la typographie
Les formes grammaticales ont longtemps été exclues de l’analyse lexicomé-

trique, au motif qu’elles n’étaient pas suffisamment riches sémantiquement. Il
en était de même pour les marques typographiques (ponctuation), même si la
longueur des phrases était prise en compte dans certains calculs, comme indica-
teur stylistique notamment. Cette mise à l’écart des éléments grammaticaux les
plus fréquents (déterminants, prépositions dites asémantiques/incolores telles
que de) était justifiée par des arguments discursifs – ces formes n’étaient pas
jugées « exploitables » dans l’interprétation – autant que techniques – concentrer
toute la puissance de l’ordinateur sur ces éléments jugés « utiles ». Que peut-on
dire d’un « le », d’un « ça » ? d’un point d’interrogation ? d’un guillemet ?
Et pourtant ! Les formes grammaticales, ainsi que les formes typographi-
ques, peuvent également ouvrir la voie à des interprétations intéressantes,
mais, parce que l’intuition est moins forte pour les interpréter, elles demandent
un retour au texte plus précis que les formes lexicales. Toutefois, D. Mayaffre
met en évidence, dans le discours de N. Sarkozy l’intérêt d’intégrer les formes
grammaticales dans le décompte des formes graphiques. Chez ce locuteur,
certaines sont statistiquement pertinentes, comme le point d’interrogation,
l’adverbe de négation ou les pronoms démonstratifs (ça notamment). Le retour
au texte permet de rattacher la présence du point d’interrogation, non pas à
de véritables interrogations mais à des questions rhétoriques dont l’homme
politique fait un usage fréquent. Les démonstratifs quant à eux permettent
de réduire la complexité du monde tout en créant une connivence entre le
locuteur et l’interlocuteur (Mayaffre, 2014a, p. 9). Nous verrons plus bas
l’intérêt des guillemets pour analyser la circulation de certaines expressions.
 Une recherche – Les pronoms dans le discours des candi-

dats à la présidence de la République :
Les pronoms personnels sont une catégorie morpho-syntaxique
(voir la description énonciative qu’en propose Émile Benveniste) dont
l’étude s’est révélée souvent productive en analyse du discours, notam-
ment politique. Cela peut être mis en relation avec la diffusion de la
description linguistique qu’en donne É. Benveniste, qui souligne leur
rapport à la subjectivité telle qu’elle s’exprime dans le langage. Les
pronoms peuvent en effet être interprétés en termes de positionnement
du locuteur par rapport à ses interlocuteurs : le discours est-il plutôt
centré sur le locuteur lui-même (je) ? sur ses interlocuteurs (vous) ?
ou encore sur la relation qu’il entretient avec eux (nous) ? L’exemple
illustré par un calcul de spécificités, mentionné plus haut, soulignait
que le pronom je était spécifique du candidat UMP (aujourd’hui
186
Les Républicains) Nicolas Sarkozy dans ses discours électoraux de

2007 mais n’apparaissait pas parmi les 30 premières formes spécifi-
ques dans le discours de la communiste Marie-Georges Buffet. Des
travaux sur le discours communiste (Courdesses 1971, par exemple) ont
souligné la préférence de ce parti pour le pronom nous. De telles recher-
ches peuvent rencontrer la notion d’éthos, notion tirée de la rhétorique
qui renvoie à l’image que le locuteur donne de lui dans son discours.
Dominique Labbé (1985), dans une étude du nous communiste,
considère que, pour s’auto-désigner, les communistes peuvent puiser dans
trois grands paradigmes : le Parti (avec une majuscule), qui est plus utilisé
que dans les autres formations politiques françaises ; nous et ses dérivés,
qui peut être accompagné de les communistes en apposition et, enfin,
la classe ouvrière. Ce paradigme de désignation permet à D. Labbé d’éta-
blir une typologie des discours en fonction de leur orientation pragma-
tique : il distingue le discours « institutionnel » (le Parti majoritaire),
« fusionnel » (nous) et « sectaire » (la classe ouvrière) selon la forme d’auto-
désignation favorisée. Il rattache ensuite ces types à des périodes
historiques, pour décrire le discours communiste entre 1958 et 1982.
Calvet Louis-Jean, Véronis Jean, 2006, Combat pour l’Élysée. Paroles

de prétendants, Seuil, Paris.
Courdesses Louis, 1971, « Blum et Thorez en mai 1936 : analyse
d’énoncés », Langue française, n° 9, p. 22-33.
Labbé Dominique, 1985, « Nous, les communistes », Mots, n° 10,
p. 133-146. Plus généralement, tout le numéro porte sur « Le nous
politique », sous la direction de Annie Geffroy.
Labbé Dominique, Monière Denis, 2008, « Je est-il un autre ? », Actes
des JADT’2008, Lyon, Lexicometrica [http://lexicometrica.univ-paris3.
fr/jadt/jadt2008/tocJADT2008.htm] (consulté le 01/06/16).
Leblanc Jean-Marc, 2004, « L’ethos, la diachronie, deux facteurs de la
variation lexicométrique », Lexicometrica, n° 4 [http://lexicometrica.
univ-paris3.fr/article/numero4/2.pdf] (consulté le 01/06/16).
Fiala Pierre, 1999, « Les termes de l’égalité et de l’inégalité ; flux et

reflux », in Fiala P. (dir.), In/égalités. Usages lexicaux et variations
discursives (XVIIIe-XXe siècles), Paris, L’Harmattan, p. 7-20.
187
Labbé Dominique, 1990, Le vocabulaire de François Mitterrand, Presses

de Sciences Po. D. Labbé est un spécialiste des approches lexicomé-
triques des discours politiques (partisans et présidentiels).
Mayaffre Damon, 2012, Nicolas Sarkozy. Mesure et démesure du
discours (2007-2012), Paris, Presses de Sciences Po.
Tournier Maurice, 1985, « Texte “propagandiste” et coocurrences.
Hypothèses et méthodes pour l’étude de la sloganisation », Mots,
n° 11, p. 155-187.
Diwersy Sascha, Luxardo Giancarlo, 2016, « Mettre en évidence le
temps lexical dans un corpus de grandes dimensions : l’exemple des
débats du Parlement européen » (dir.), Actes des JADT’2016 [http://
lexicometrica.univ-paris3.fr/jadt/jadt2016/01-ACTES/83638/83638.
pdf] (consulté le 01/06/16). Cet article propose une méthodologie
pour intégrer la syntaxe en textométrie.
Rémi-Giraud Sylvianne, 2010, « Sémantique lexicale et langages
du politique. Le paradoxe d’un mariage difficile ? », Mots, n° 94,
p. 165-173.
Quand le discours se fige : phraséologie,

routines discursives, sloganisation
L’intérêt pour les associations lexicales récurrentes et (plus ou moins) figées

a émergé dans des domaines bien différents, dans les années 1970 et 1980 : la
linguistique formelle (les travaux de Maurice et Gaston Gross, d’Igor Mel’čuk),
la lexicographie, c’est-à-dire l’entreprise de fabrication de dictionnaires (le
Trésor de la Langue Française en France, le COBUILT au Royaume-Uni) et
l’étude des discours politiques et syndicaux, au Laboratoire de Saint-Cloud par
exemple (voir chap. 4, p. 111). Au fur et à mesure de l’évolution des question-
nements et des moyens techniques, les unités ont changé de nature. Elles
sont devenues plus larges et moins figées et mettent en évidence le fait que
les sujets parlants oscillent entre deux pôles que John Sinclair (2004) nomme
l’idiosyncrasie (la création d’une parole originale) vs la phraséologie (la reprise
de « préfabriqués »). Consciemment ou non, les locuteurs répètent des bribes
d’énoncés qui viennent d’ailleurs : d’autres personnes, d’un collectif (parti
politique, association, profession), ou de manières de dire propres à un genre
de texte en particulier (la motion syndicale, le rapport…). Les problématiques
associées à ces unités touchent aux questions de langue de bois, d’associa-
tions sémantiques non conscientes et de sloganisation ou de « prêt-à-parler ».
L’horizon interprétatif peut être le même que dans la section précédente, le
locuteur, le groupe, le genre…
188
La phraséologie n’est pas en soi idéologique. Ainsi, certaines unités phraséo-

logiques relèvent de la langue, mais il est avéré – les travaux du Laboratoire de
Saint-Cloud ou les travaux sur les discours professionnels en témoignent –,
que les institutions produisent des discours à forte dominante phraséologique,
dans le but de créer, de consolider ou d’amender leur identité discursive et de
promouvoir leurs valeurs et leurs propositions.
La phraséologie n’est pas une problématique strictement linguistique.
Ainsi, dans le domaine de la communication politico-médiatique, les travaux
en sciences de l’information et de la communication ont montré comment les
communicants anticipaient les logiques de presse et les procédés de citation
en produisant des énoncés détachables – « éléments de langage » ou « petites
phrases », qui pourront être repris, ce qui facilite leur circulation (Krieg-
Planque, Ollivier-Yaniv, 2011). Alice Krieg-Planque (2006, p. 13) propose
même de définir la communication « comme l’anticipation des pratiques
de reprise, de transformation et de reformulation des énoncés et de leurs
contenus ». Des « éléments de langage », qui marquent le rattachement du
locuteur à sa communauté, sont intégrés à des productions langagières, parfois
dans un format facile à reprendre par les médias et/ou les interlocuteurs.
Le figement est là particulièrement temporaire mais caractéristique de ces
unités.
Les segments répétés
En proposant le segment répété comme unité de décompte (cf. chap. 4),

André Salem a cherché à dépasser l’unité de la forme pour saisir des segments
polylexicaux qui, soit font sens en eux-mêmes (sécurité sociale, proposition
de loi, juge pour enfants), soit sont des extraits de séquences plus longues.
L’incomplétude de ces formes, que l’on pourrait considérer à première vue
comme un défaut, ouvre des pistes d’exploration (voir tableau chap. 4, p. 111,
par exemple). Dans le cadre d’une recherche sur des rapports éducatifs rédigés
par des éducateurs spécialisés dans le champ de l’enfance en danger (Projet
ANR Écritures, université Paris 3), la liste des segments répétés a mis en
évidence un segment à deux unités, a pu, flexion pouvoir au passé composé. La
fréquence de ce segment répété a donné lieu à une étude de ce verbe modal
(Sitri, 2013), qui prend un sens spécifique dans le corpus et qui, jusqu’à ce
moment, n’avait pas attiré l’attention des chercheurs engagés dans le projet.
Le segment répété, en tant qu’unité exploratoire, permet de mettre au jour
des unités inattendues. Ainsi André Salem relève-t-il l’existence de « généraux
sans-culottes » dans un journal révolutionnaire (Le Père Duchêne, voir aussi
chap. 3, encadré p. 71). Les SR semblent ainsi davantage liés aux événements
que les formes simples : A. Salem (1986, p. 23) remarque que l’AFC d’un
corpus chronologique basée sur les segments répétés ne manifeste pas la
proximité successive des parties chronologiques. Autrement dit, les parties
189
ne se succèdent pas chronologiquement sur la représentation graphique

(cf. Fiche approfondissement sur l’AFC, page 218). A. Salem fait l’hypothèse
que le stock segmental (les SR) se renouvelle plus vite que le stock lexical, qui
est plus stable. Le vocabulaire de deux parties successives est proche tandis
que le stock des SR tend à se différencier. Cela peut se comprendre dans la
mesure où les segments répétés renvoient souvent à des entités prenant part
à un événement (institutions, noms de personnes, voire principes et valeurs).
Ce caractère événementiel les rend peu stables.
Nous l’avons vu dans le chapitre 4, les SR sont une unité à prendre en
compte au même titre que les formes simples. Le même type d’explorations et
de calculs peut être mené : concordance, AFC, etc. À l’origine, la catégorie des
SR a été pensée pour rendre compte des associations proches entre les formes
(Salem 1986, évoquant P. Lafon), tandis que la notion de cooccurrences devait
être réservée à des associations plus éloignées (dans le cotexte de la phrase,
voire dépassant la phrase).
Même si les segments répétés sont moins ambigus que les formes simples,
des incertitudes concernant leur interprétation peuvent demeurer et mériter
que l’on s’y attarde. Ainsi, Christine Barats (1994) montre que le SR problèmes
des immigrés, qui, dans les années 1980, signifie « les problèmes rencontrés
par les immigrés » (tels que le logement, le travail), voit son sens évoluer vers
« les problèmes posés par les immigrés » dans les années 1990.
Quelques pistes pour le repérage automatique de « formules »
La notion de « formule », explorée par Pierre Fiala et Marianne Ebel

(1983), reprise et modélisée par Alice Krieg-Planque (2009), renvoie au
figement d’une expression (un syntagme nominal) dans le contexte d’un événe-
ment (un débat, ou une question sociale). Ainsi, la purification ethnique, le
développement durable ou la guerre contre le terrorisme sont analysables comme
des formules. Une « formule » est définie par quatre caractéristiques (Krieg-
Planque, 2009) : il s’agit d’une séquence figée, dont le sens se construit en
discours à travers les investissements dont elle est l’objet ; son référent est
social dans la mesure où il est en émergence et ne fait pas nécessairement
l’objet d’un accord parmi les locuteurs ; enfin, la formule est l’objet de polémi-
ques, c’est-à-dire d’investissements argumentatifs divers par les locuteurs. La
formule est donc une expression ad hoc, figée, qui circule intensément et se
trouve investie d’enjeux argumentatifs.
Cette notion est très productive pour qui veut analyser des discours avec
des enjeux sociaux et politiques. Les outils quantitatifs permettent d’auto-
matiser une analyse qui peut également être menée manuellement, comme
l’a fait A. Krieg-Planque. L’analyse menée par Christine Barats et Jean-Marc
Leblanc (2013) sur la formule « classement de Shangaï » offre quelques pistes.
Dans le cas d’une recherche sur l’émergence et la diffusion du classement
190
académique de l’université Jiao Tong de Shanghai dans la presse française

(2003-2014), un corpus d’un million d’occurrences a été constitué à partir
des bases de données Factiva et Europresse (voir chap. 2 pour la présentation
exhaustive du corpus). Le calcul des segments répétés a permis de mettre
au jour qu’à partir de 2005, le segment répété classement de Shanghai (avec
différentes graphies pour Shanghai/Shangaï/Shanghaï) émerge et se diffuse.
Une ventilation des différentes formulations montre que celle-ci s’impose
par rapport à d’autres (le classement des 500 meilleures universités du/dans le
monde par exemple, présentes au commencement du corpus). Le retour aux
textes a permis d’observer qu’il a fonctionné dans les discours comme une
formule (Krieg-Planque, 2009), ce qui a contribué à sa reprise, à sa diffusion
et à sa circulation, éclairant les modalités de co-construction de ce processus
de médiatisation. La dimension partagée de la formule apparaît dans un SR
récurrent (fameux classement de Shanghai).
Longueur du SR SR Fréquence
6 classement de Shanghaï des universités mondiales 12

5 classement de Shanghaï des universités 18
5 le fameux classement de Shanghai 10
4 classement de Shanghaï des 23
4 classement de Shanghaï est 14
4 le fameux classement de 14
3 classement de Shanghaï 227
3 classement de Shanghai 331
Tableau 2. – Le syntagme classement de Shanghai et ses variations : extrait de la liste des

segments répétés, Lexico 3 (par ordre décroissant de taille).
Quant à la dimension polémique de la formule, on peut envisager de la

traiter à travers une évaluation de sa présence dans des séquences guillemé-
tées, qu’il s’agisse de discours direct ou de guillemets de modalisation autony-
mique (de « mise à distance »). La méthode est expliquée plus bas (voir
« Discours médiatiques et saillance événementielle »).
Les segments semi-figés
La notion de segment répété, telle qu’elle a été pensée par A. Salem

(cf. chap. 4, p. 111), n’implique pas nécessairement un figement complet de la
séquence. On peut mettre en évidence des cadres syntaxiques avec des places
vides qui sont « remplies » par différents items lexicaux. L’intérêt que peut y
trouver un analyste du discours est, là encore, de dépasser le niveau de la forme
graphique et d’accéder au sens plus directement, grâce à la contextualisation
opérée par l’unité phraséologique. Le travail d’Émilie Née, Frédérique Sitri et
Marie Veniard (2016) sur les routines discursives a consisté à mettre au jour
191
les routines d’écritures attachées à des formes lexicales ou à des segments

répétés particulièrement saillants dans un corpus de rapports éducatifs rédigés
par des éducateurs spécialisés. Ces routines constituent de véritables normes
d’écriture du genre rapport éducatif et ouvrent la voie vers l’étude de l’identité
professionnelle des rédacteurs (Veniard, 2016). On peut prendre l’exemple
de ce qui, au départ, n’est qu’un segment répété, est dans, forme anodine et
incomplète. Mais elle suscite l’intérêt des chercheurs, qui y reconnaissent une
marque du discours « psy », lequel constitue une source importante de l’inter-
discours de ce type d’écrits. Tout un paradigme de segments semi-figés est mis
au jour, certains relativement classiques (il est dans l’attente, dans l’attaque, dans
le déni), d’autres moins (il reste encore dans le besoin de satisfaction immédiate
de ses souhaits) et certains vraiment étranges (il est dans la dissimulation de
ses devoirs ou des informations à transmettre). Ce dernier groupe illustre la
prégnance de la routine, qui « force » certains contenus dans un patron au
détriment de formulations plus simples, telles que il dissimule ses devoirs ou des
informations à transmettre. Cette tournure permet de passer du récit de certains
faits à la caractérisation d’un état psychologique, ce qui est nécessaire, pour
ces professionnels, dans leur analyse de l’évolution de l’enfant.

Fiala Pierre, 1987, « Pour une approche discursive de la phraséologie.
Remarques en vrac sur la locutionalité et quelques points de vue qui
s’y rapportent, sans doute », Langage et société, n° 42, p. 27-44.
Fiala Pierre, Habert Benoît, Lafon Pierre, Pineira-Tresmontant
Carmen, 1987, « Des mots aux syntagmes [Figements et variations
dans la Résolution générale du congrès de la CGT de 1978] », Mots,
n° 14, p. 47-87.
Fiala Pierre, Lafon Pierre et Piguet Marie-France, éds, 1997,
La locution entre lexique, syntaxe et pragmatique, Paris, Inalf/
Klincksieck.
Krieg-Planque Alice, 2013, Analyser les discours institutionnels, Paris,
Armand Colin. Les lecteurs intéressés par une introduction à la
phraséologie en analyse du discours, accessible et très complète,
pourront se reporter au chapitre 3.
Sitri Frédérique, Tutin Agnès (dir.), 2016, « Phraséologie et genre
de discours », Lidil, n° 53 : ce numéro comprend plusieurs articles
concernant la phraséologie en AD (voir les articles de Née, Sitri,
Veniard et de Leblanc, notamment).
192
Comparer et caractériser des discours : la catégorie du genre

Les divers observables présentés ci-dessus peuvent être mis au service
d’une problématique centrée autour de la catégorie du genre de discours.
Comme on l’a vu au chapitre 2, le genre, souvent convoqué pour constituer des
corpus relativement homogènes et comparables, peut constituer en lui-même
l’objet de l’investigation, dans la mesure où c’est une notion qui articule des
pratiques sociales à des marques linguistiques. Dans le champ de l’Analyse des
Données Textuelles, la catégorie du genre est encore relativement peu prise
en compte – comme on peut le constater en parcourant le sommaire des actes
des Journées d’Analyse des Données Textuelles (facilement accessibles en ligne),
qui fournissent un bon tour d’horizon de la discipline. Elle tend néanmoins à
s’imposer dans les recherches qui se réclament de l’analyse du discours d’une
part, et dans celles qui se situent dans le sillage de la sémantique interpréta-
tive de F. Rastier d’autre part. Dans les deux cas en effet le genre participe de
façon cruciale à l’interprétation des données.
Une première problématique de recherche peut viser à caractériser un
genre, le plus souvent de façon différentielle : en opposant deux genres
« proches », on cherche à faire apparaître des formes propres à chacun. Les
formes observées sont diverses et dépendent largement du cadre théorique.
Ainsi, dans une perspective proche de celle de F. Rastier, l’analyse se focalise
sur les catégories morpho-syntaxiques. La thèse de C. Poudat (cf. Poudat,
2006), par exemple, porte sur un corpus de 224 articles de linguistique ; elle
vise à aboutir à une définition opérationnelle du genre à partir d’une exploi-
tation fine de ses traits morpho-syntaxiques et d’une approche contrastive
qui met en évidence des principes de variation liés à l’auteur, au domaine
(discipline), à la langue…
 Une recherche – Le genre de l’éditorial et ses évolutions

(1890-2015) :
Dans un travail récent, Virginie Lethier mène, avec Cyrielle
Montrichard (2016), une étude longitudinale du genre de l’éditorial
basée sur l’analyse de la répartition des catégories grammaticales. Cette
étude permet de faire apparaître les évolutions de l’éditorial sur une
durée longue (1890-2015) et de les mettre en relation avec les périodi-
sations issues de l’histoire des médias. Les auteurs observent ainsi « le
glissement d’un style à consistance verbale vers un style à consistance
nominale qui semble accompagner et refléter le passage d’une “presse
d’opinion” à une “presse d’information” » (p. 495). Ce faisant leur étude
permet également un retour sur le genre de l’éditorial en tant que tel et
sur la figure de l’éditorialiste.
193
Lethier Virginie, Montrichard Cyrielle, 2016, « Exploration texto-

métrique des évolutions de l’éditorial (1890-2015) », Actes des
JADT’2016, Nice, Lexicometrica, p. 485-496 [http://lexicometrica.
univ-paris3.fr/jadt/jadt2016/01-ACTES/83337/83337.pdf] (consulté
le 1er juin 2016).
À partir d’une perspective plus phraséologique, on peut chercher à mettre

en évidence les patrons, motifs ou routines propres à un genre (voir par
exemple les recherches d’Agnès Tutin et d’Olivier Kraif [2016] sur les genres
scientifiques, ou d’Olivier Kraif et al. [2016] sur les sous-genres romanesques,
études citées en bibliographie). Enfin, on peut également caractériser un genre
à partir d’une approche de type lexico-sémantique, en utilisant par exemple un
logiciel comme Alceste (cf. chap. 5) : c’est ce que proposent Valérie Beaudoin
et Dominique Pasquier (2014) pour caractériser des critiques de films amateurs
postés sur un même site. Une classification hiérarchique descendante permet
de mettre au jour deux réalisations typiques du genre de la critique, correspon-
dant à deux profils de scripteurs : un premier ensemble regroupe des critiques
centrées sur le film, fondées sur l’analyse et l’argumentation ; un deuxième des
critiques centrées sur l’effet produit par le film, visant à partager des émotions.
L’intérêt de ce travail est qu’il met en relation des réalisations textuelles mises
au jour automatiquement et des catégories de rédacteurs.
L’ensemble de ces recherches posent un certain nombre de questions qui
interrogent la catégorie même du genre, et interpellent en ce sens l’analyse
du discours : quels traits permettent de caractériser au mieux un genre ? Un
genre est-il plutôt défini par sa visée et la pratique sociale à laquelle il est relié
ou plutôt par un faisceau de traits formels ? Comment établir des distinctions
à l’intérieur d’un genre, distinguer genre et sous-genre ?
II peut être également intéressant de s’interroger sur la part des contraintes
liées au genre par rapport à d’autres variables. Ainsi, Damon Mayaffre
(2004b), reprenant son étude du discours d’hommes politiques de la troisième
république dans laquelle il avait mis en évidence une opposition massive entre
Thorez d’un côté, Blum et Flandin de l’autre, montre que la prise en compte
de la distinction générique entre articles de presse et discours parlementaires
ne conduit pas à modifier les résultats obtenus : pour lui, l’opposition entre
ce qu’il appelle la formation discursive communiste et la formation discursive
bourgeoise est indépendante des genres.
Dans une perspective plus proche de l’analyse du discours, enfin, le
genre participe à la construction de l’interprétation. Ainsi, dans leur travail
sur les rapports éducatifs, É. Née, F. Sitri et M. Veniard (2016) identifient
des routines discursives en mettant en relation des patrons lexico-syntaxi-
ques récurrents avec des contraintes et des déterminations liées au genre,
194
qui vont de la visée pragmatique que doit accomplir le rapport (décrire pour
évaluer et préconiser une mesure) à la prise en compte de l’interdiscours qui
« imprègne » le discours des éducateurs.
On voit à travers ces quelques exemples comment la catégorie du genre
peut contribuer à définir des problématiques discursives. On voit aussi que
ce qu’on entend par « genre » peut varier en fonction des recherches/du cadre
théorique de la recherche selon qu’on dénomme « genre » des classes de
textes identifiées par un nom, associées à une même fonction ou manifestant
des régularités formelles. On aura intérêt de fait à concevoir le genre
comme une catégorie « construite » susceptible d’être redéfinie au
cours de l’avancée de la recherche.
Pour aller plus loin :

Adam Jean-Michel, 2004, Linguistique textuelle. Des genres de discours
aux textes, Paris, Nathan.
Maingueneau Dominique, 2004, « Retour sur une catégorie : le
genre », Texte et discours : catégories pour l’analyse, J.-M. Adam,
J.-B. Grize, M. Ali Boucha (dir.), Dijon, Éditions universitaires de
Dijon, p. 107-118.
Malrieu Denise, Rastier François, 2001, « Genres et variations
morpho-syntaxiques », TAL, n° 42-2, p. 548-577.
Sitri Frédérique, 2015, Parcours en analyse du discours : enjeux et
méthodes. Autour d’écrits professionnels, Synthèse pour l’HDR.
Disponible sur HAL.
Rinck Fanny, 2006, L’article de recherche en Sciences du langage et en
Lettres. Figure de l’auteur et identité disciplinaire du genre, Thèse de
doctorat en Sciences du langage, Grenoble.
Kraif Olivier, Novakova Iva et Sorba Julie, 2016, « Constructions
lexico-syntaxiques spécifiques dans le roman policier et la science-
fiction », Lidil, n° 53, p. 143-159.
Voir également Tutin Agnès et Kraif Olivier, 2016, « Routines séman-
tico-rhétoriques dans l’écrit scientifique de sciences humaines :
l’apport des arbres lexico-syntaxiques récurrents », Lidil, n° 53,
p. 119-141. L’article propose une méthodologie pour prendre en
compte la syntaxe dans le calcul des cooccurrents.
Discours médiatiques et saillance événementielle

Nous consacrons une section aux particularités du discours médiatique
dans la mesure où il présente des propriétés très différentes de celles du
195
discours politique et qu’il s’inscrit dans un ensemble de contraintes qui

lui sont propres (positionnement du support, charte éditoriale, périodicité,
format…) et qui façonnent la mise en mots de l’information. Plus encore
que le discours politique, le discours médiatique participe à la co-construction
de l’actualité, et à la saillance (au buzz) que connaissent certains événements.
Il se caractérise par sa dimension plurilogale, c’est-à-dire qu’à travers lui se
manifestent d’autres discours, venus de sphères sociales différentes, comme
l’attestent les procédés de citation, les interviews ou les tribunes qui proposent
des espaces d’expression à une diversité d’acteurs qui ont accès aux espaces
médiatiques. À l’origine, les méthodes textométriques ont été forgées sur et
pour des corpus homogènes de discours politiques et syndicaux. Toutefois, ces
méthodes, robustes, sont transposables à l’analyse du discours médiatique, en
particulier à l’analyse de la construction discursive des événements.
Les travaux sur l’événement, que leur perspective soit herméneutique
(Quéré, 2013) ou constructiviste (Arquembourg, 2011) ont souligné le
caractère intrinsèquement social des événements. Si l’événement est tradi-
tionnellement défini comme ce qui advient, induisant un avant et un après,
sa caractéristique principale est qu’il provoque une rupture, plus ou moins
importante, dans le cours normal des choses, rupture que la communauté ou
l’individu touchés par l’événement vont chercher à résorber (Ricoeur, 1991).
Pour Claude Romano (1998), l’événement, à la différence du fait, est toujours
adressé : il survient pour quelqu’un qui va chercher à l’interpréter, à l’intégrer
à son histoire. Au niveau d’une société, les médias remplissent cette fonction
d’« interprétants », c’est pourquoi les modalités de mise en mots d’un événe-
ment s’avèrent riches en enseignements. C’est en ce sens qu’on parle de
construction du sens de l’événement par les médias. En tant qu’acteurs
de la configuration du récit, les journalistes sont pris dans des logiques propres
à leur profession, telles que la recherche des causalités de l’événement ou
des conséquences de celui-ci sur la vie de leurs lecteurs mais ils sont pris
également dans des logiques plus économiques de nouveauté à tout prix, de
dramatisation ou de jeu sur les émotions. Le travail de Patrick Champagne
(1991) sur la manière dont les médias traitent des banlieues en France et de
leurs habitants constitue une étape marquante de ce courant de recherche.
Il montre comment le travail des journalistes est très largement orienté par la
logique de ce secteur d’activité, notamment par la recherche de l’événementiel
au détriment d’une explication approfondie du problème.
D’un point de vue textométrique, plusieurs orientations d’analyse sont
possibles. Le traitement d’un événement ou d’un fait social (l’immigration,
les violences faites aux femmes, le débat sur l’insécurité en 2001-2002, etc.)
est, dans le discours de presse, un facteur de saillance lexicale, notamment
parce que ce traitement se fait à travers un « moment discursif » (Moirand,
2007), c’est-à-dire à travers la soudaine profusion d’articles de genres variés
(articles d’opinion ou d’information, interviews), de photos et de dessins. Cette
196
profusion a un impact sur le fonctionnement des mots. Ainsi, dans le cadre

de ce moment discursif, des vocables sont mis en avant et voient leur
fréquence augmenter. Les travaux qualitatifs d’analyse du discours ont mis
au jour des phénomènes qui accompagnent cette augmentation du nombre
d’occurrences tels que le changement dans l’environnement cooccurrentiel
du mot, une extension de l’usage de certaines formes, des créations lexicales
et la circulation des formes saillantes à travers la citation ou l’allusion, ce qui
les charge d’un sens dialogique.
La densité fréquentielle
L’augmentation de la fréquence d’un mot se présente comme une donnée

simple et très objective. Émilie Née (2009) montre que cette question recèle
des complexités inattendues dans un travail sur le débat sur l’insécurité dans
Le Monde lors de la campagne présidentielle de 2002.
Le pic de fréquence est très net pour insécurité. C’est un phénomène tout à
fait commun, mais qui peut s’expliquer soit par une augmentation du nombre
d’articles produits sur le sujet, soit par une augmentation forte de la fréquence
du lexème à l’intérieur de quelques-uns. L’auteure a recours à l’outil topogra-
phique « Carte des sections », proposé par le logiciel Lexico 3, qui permet
de visualiser le corpus sous forme de séries de cases, chacune représentant,
selon le délimiteur choisi, un article, un paragraphe ou encore une phrase. La
figure qui suit représente une carte des articles du corpus (1 carré représente
1 article) (voir aussi chap. 5).
Fig. 8. – Carte des sections de insécurité dans Le Monde (Née, 2009).
197
Cette représentation permet non seulement de constater que le nombre

d’articles augmente effectivement, mais également de repérer des « cases »
plus foncées qui signalent que le mot est répété au sein d’un même article. La
densification de l’usage tient donc à ces deux phénomènes.
D’autres facteurs sont à prendre en compte dans l’interprétation de cette
hausse de fréquence. En effet, le discours de presse traite d’événements
hétérogènes et l’augmentation de la fréquence de insécurité pourrait être liée
non pas au débat politique en France, mais à des événements extérieurs,
par exemple aux graves attentats terroristes ayant eu lieu aux États-Unis à
la même époque. Un retour au texte s’impose pour vérifier que insécurité
renvoie bien à l’événement étudié par le chercheur. Un dernier facteur est
à prendre en compte, d’ordre plus général. Il s’agit des genres de la presse
écrite : la forme insécurité est-elle également distribuée entre les différentes
rubriques du journal ou, au contraire, concentrée dans certaines ? Le balisage
des rubriques permet de constater qu’elle est employée dans les rubriques
d’information politique nationale, mais aussi qu’elle figure souvent dans des
articles d’opinion, ce qui indique qu’elle est un lieu de passage de l’activité de
commentaire sur la campagne électorale. Elle se dissémine également dans
des rubriques inattendues, telles que Culture, Télévision ou Sport…
La fréquence des formes n’est pas la seule à évoluer dans un moment
de « buzz », ces moments qui suscitent sur les réseaux sociaux une grande
quantité de production langagière et, plus largement, sémiotique (vidéos).
Le buzz se manifeste également par une augmentation et une diversification
des cooccurrents du mot-cible, comme l’a montré Erin MacMurray (2012) à
propos des événements économiques dans The New York Times. Cela amène
l’auteure à parler, dans l’optique d’une veille économique, de « la significativité
de la production cooccurrentielle comme indicateur d’un événement poten-
tiel » (2012, p. 222).
La diffusion d’un signifiant
Quand une forme est fréquente et centrale au récit d’une actualité, elle
peut connaître une certaine extension et diffusion, sur le plan de son signifiant
ou du référent.
La fréquence d’une forme pour dire un événement s’accompagne souvent,
dans les médias, d’une saillance qui rend possible sa diffusion pour parler
d’autres événements. Les segments répétés offrent une manière de saisir
quantitativement ce type de phénomènes discursifs. É. Née (2012) montre
que si les SR comprenant la forme insécurité relèvent en priorité du thème
de la délinquance, la forme a donné lieu à d’autres segments répétés tels
que insécurité sociale, routière, alimentaire, juridique, etc., qui sont autant de
recatégorisations de phénomènes existants et nommés (ou non) différemment,
à partir d’une forme saillante.
198
La diffusion peut prendre la forme d’une extension du référent initial,

sans modification de la forme saillante. Ce type de phénomène a été montré
sur différents corpus : si la formule purification ethnique a concerné en
premier lieu la guerre en ex-Yougoslavie, son référent a été ensuite étendu
(Krieg-Planque, 2009) ; si le syntagme la guerre contre le terrorisme lancé par
les Américains en 2001 a d’abord visé les talibans en Afghanistan, d’autres
acteurs internationaux, exploitant ce syntagme au profit de leur position dans
un contexte local et pour rejoindre le consensus international en bénéficiant
de l’aura d’une expression partagée par une large communauté, ont cherché
à l’étendre à la Tchétchénie ou au conflit israélo-palestinien (Veniard, 2013).
Tentative de coup de main sémantique, idéologique et politique.
Ces phénomènes reposent sur le fait que la forme est saillante dans les
discours, et, partant, dans la mémoire des locuteurs exposés à ceux-ci. Un autre
mode de diffusion peut s’opérer par la néologie. La saillance d’une forme, dans
le traitement discursif d’un événement, s’accompagne parfois de modifications
morphologiques, signe que les locuteurs exploitent les ressources linguistiques
offertes par ces items pour produire du sens. On peut repérer automatiquement
les néologismes de forme à partir d’une requête contenant des expressions
régulières (cf. chap. 3) et la base du mot étudié. Dans un corpus constitué
autour du thème de l’immigration (1998-2012, Libération et Le Figaro, voir
chap. 3, scénario 2), le mot intégration est saillant pendant une période donnée,
ce qui se traduit par des dérivés morphologiques du terme de base, tels que :
non-intégration, intégration-assimilation, intégrationistes, hyperintégrés, intégra-
tice, intégrabilité, désintégrés et même un hapax plus long une-gentille-petite-
famille-d’immigrés-chinois-modèle-d’intégration-réussie (Schröter et Veniard,
2016). Nombre des dérivés participent à l’actualisation d’un jugement d’évalua-
tion sur le degré et la qualité du processus d’intégration, que l’on peut repérer
par d’autres biais, tels que les cooccurrents de la forme-cible.
La circulation d’une forme
Le discours médiatique se caractérise par la forte présence de dialogisme,

indice de la pluralité des voix qui s’y expriment. L’hétérogénéité des voix qui
s’expriment dans le journal se manifeste à un niveau macro, certains articles
d’opinion étant rédigés par des extérieurs à la rédaction. À un niveau plus
micro, les articles sont émaillés de traces de voix venant d’ailleurs, qu’elles
soient explicitement marquées comme telles ou non. Nous avons vu plus haut
la notion de formule (voir « Quelques pistes pour le repérage automatique de
“formules” », p. 190). Parmi les formes explicites on peut identifier toutes les
formes du discours rapporté (discours direct, indirect, etc.). Il y a également
des formes moins explicites ou même implicites, on peut citer tout d’abord
les usages modalisants des guillemets, ce qu’on appelle la modalisation
autonymique (Authier-Revuz, 1997). Il s’agit de cas dans lesquels l’énon-
199
ciation d’un mot ou d’une expression s’accompagne d’un retour sur ce mot ou
cette expression, saisis dans leur matérialité signifiante. Ainsi, dans La France
a déclaré la « guerre » au terrorisme islamiste, le segment « guerre » est un cas
de modalisation autonymique : le locuteur effectue un retour sur ce mot, sans
que l’on puisse dire avec certitude s’il s’agit d’une mise à distance, que l’on
pourrait gloser par « comme on dit », ou plutôt d’un emprunt (une citation par
exemple, ou une allusion plus ou moins consciente).
Dans une certaine mesure, ces phénomènes peuvent faire l’objet d’un
repérage semi-automatique ou automatique. La première solution consiste
à annoter manuellement les formes de discours rapporté présentes dans le
corpus. Fanny Rinck et Agnès Tutin (2007) soulignent que l’entreprise est
possible, même si elle est difficile pour certaines formes. Elles dressent une
liste des indices formels qui peuvent faciliter la tâche des annotateurs et
distinguent les guillemets de citation, de modalisation et de dénomination
(exemple : ce qu’on appelle « un trou noir »).
On peut aussi se servir de certains repères linguistiques pour identifier les
segments de discours autre. Les guillemets constituent un indice relativement
fiable, à défaut d’être parfait. On peut utiliser tout simplement une concor-
dance ou une carte des sections (en projetant les guillemets au lieu d’une
forme). L’analyse de formes ou de segments répétés sous l’angle de l’hétéro-
généité énonciative permettra d’identifier de bons candidats susceptibles de
devenir des formules, au sens défini plus haut, ou des points de crispation
des discussions qui sont autant de lieux possibles de la construction du sens
de l’événement.
Différents travaux en TAL, ayant souvent des objectifs d’analyse d’opinion,
ont pour objectif une identification automatique des segments de discours
rapporté (Poulard et al., 2008), parfois assortie d’une caractérisation séman-
tique sur le rôle argumentatif de la citation (Jackiewicz, 2006).

Moirand Sophie, 2007, Les discours de la presse quotidienne. Observer,
analyser, comprendre, Paris, PUF, ouvrage qui propose un cadrage
global pour aborder le discours médiatique en analyse du discours.
Krieg-Planque Alice, 2009, La notion de « formule » en analyse du
discours. Cadre théorique et méthodologique, Besançon, Presses
universitaires de Franche-Comté.
Charaudeau Patrick, 2005, Les médias et l’information. L’impossible
transparence du discours, Bruxelles, De Boeck.
Née Émilie, 2012, L’Insécurité en campagne électorale, Paris, Honoré
Champion.
200
Veniard Marie, 2013, La nomination des événements dans la presse.

Essai de sémantique discursive, Besançon, Presses universitaires de
Franche-Comté.
!
Dans le chapitre 5, le lecteur a pu consulter un tableau récapitulant les
fonctionnalités des différents logiciels. Le tableau qui suit vient le compléter
en offrant une vue synthétique de ce qu’il est possible de faire grâce à une
analyse du discours outillée par l’informatique.
Je peux… Grâce à…
Mettre au jour la structuration lexicale AFC, classification descendante

(classes de vocabulaire, thèmes par exemple)
Mettre au jour le traitement d’un thème concordance, calcul

ou d’une notion en particulier de cooccurrents, SR
Saisir des évolutions socio-historiques ventilation, calcul de SR, calcul

de cooccurrents, spécificités
chronologiques
Comparer le vocabulaire spécifique de différentes AFC, calcul de spécificités

parties du corpus (par exemple, des locuteurs,
des genres…)
Analyser le sens d’un vocable concordance, calcul

de cooccurrents, SR
Mettre au jour des figements discursifs SR, recherche de patrons

avec des expressions régulières
Décrire un genre AFC, calcul de spécificités
Décrire l’événement en discours ventilation, carte des sections,

repérage de segments guillemétés
Pour terminer et pour donner corps à ce qui est récapitulé dans le tableau
précédent, nous reprenons les questions d’étudiants, présentées dans le
chapitre 2 et étayées du point de vue de la constitution du corpus, en les
poussant un peu plus loin sur le plan des possibilités d’analyse.
201
– je me demande quels thèmes aborde le président de la République dans

ses discours officiels, tout au long de son quinquennat  ce que je peux
faire : analyser le vocabulaire employé le plus fréquemment et son évolu-
tion (dictionnaire, spécificités chronologiques, calcul de cooccurrents).
Voir « Thèmes, événements, faits sociaux : de quoi parle le corpus et
comment ? », p. 164 ;
– je me demande si le positionnement politique du Front National a évolué
au fil des années  ce que je peux faire : analyser l’évolution du vocabu-
laire (par une ventilation des formes, par une analyse des spécificités,
par une AFC). Voir « Le mot comme témoin. Les analyses du discours à
entrée lexicale », p. 172 ;
– je voudrais étudier la représentation de la femme dans la presse généra-
liste  ce que je peux faire : analyser l’environnement du mot femme, et
d’autres désignants éventuels et leurs associations préférentielles (par un
affichage de concordances, par un calcul de cooccurrents). Voir « Le mot
comme témoin. Les analyses du discours à entrée lexicale », p. 172 ;
– je me demande si le discours politique ne serait pas une langue à part 
ce que je peux faire : analyser les caractéristiques du discours politique
en le comparant à d’autres types de discours (par une AFC), mettre au
jour la répétitivité du discours par l’analyse de segments répétés, recher-
cher des patrons lexico-syntaxiques propres à ce discours. Voir « Quand
le discours se fige : phraséologie, routines discursives, sloganisation »,
p. 190 ;
– je me demande si les journalistes rédigent de la même manière un
article d’information et un éditorial  ce que je peux faire : comparer les
caractéristiques des deux genres de texte dans plusieurs journaux (par le
dictionnaire, une AFC, une cooccurrence généralisée, la mise au jour de
SR et de patrons propres aux deux genres ou spécifiques de chacun des
deux genres). Voir « Comparer et caractériser des discours : la catégorie
du genre », p. 193 ;
– je me demande comment se manifeste un événement dans les médias 
ce que je peux faire : analyser finement la fréquence et la cooccurrence
(par une ventilation, par un calcul de cooccurrents). Voir « Discours
médiatiques et saillance événementielle », p. 195.
Marie Veniard, Frédérique Sitri.
202
FICHES PRATIQUES ET APPROFONDISSEMENTS
 Fiche pratique 1 – Le langage des expressions régulières
Définition
Une expression régulière est une « formule » écrite dans un langage*

créé dans le but de pouvoir décrire d’une façon concise des classes de chaînes
de caractères. Ce langage combine à la fois des caractères littéraux, des
lettres ou des chiffres, et des caractères spéciaux ou métacaractères. Ces
derniers « revêtent un sens particulier et constituent un ensemble d’opé-
rateurs (comme dans les expressions arithmétiques) qui permettent de
définir un motif combinant des caractères littéraux » (Habert et al.
1998, p. 106).
* [http://fr.wikipedia.org/wiki/Langage_rationnel] (consulté le 01/06/16).
Exemples
– Je cherche des mots avec le suffixe isme : \b\w+isme\b

– Je cherche une ligne commençant par une majuscule : ^[A-Z]
À quoi ça sert ?
À repérer des patrons ou motifs dans les textes.
Liens
Les expressions régulières

– [https://fr.wikipedia.org/wiki/Expression_rationnelle]
203
Les expressions régulières dans les outils bureautiques

– LIBREOFFICE [https://help.libreoffice.org/Common/Find_and_
Replace/fr]
Les expressions régulières dans les langages de programmations
– PERL [http://perldoc.perl.org/perlre.html]
Autres liens :
des tables claires en anglais :
– [http://www.w3schools.com/jsref/jsref_obj_regexp.asp]
une bonne version en français :
– [http://www.expreg.com/symbole.php]
des explications avec de bons exemples en chinois :
– [http://deerchao.net/tutorials/regex/regex.htm]
Liste des principaux opérateurs d’expression régulière :

La liste des opérateurs d’expressions régulières peut varier dans certains
outils mais le principe est toujours le même.
. (point) représente un caractère quelconque, sauf le retour à la ligne (\n)
* (astérisque) absence ou répétition de l’expression qui précède cet opérateur
+ au moins une occurrence de l’expression qui précède cet opérateur
? au plus une occurrence de l’expression qui précède cet opérateur
[…] (crochets) l’un des caractères de l’ensemble
[^…] en début de crochets, recherche dans le complémentaire de l’ensemble (carac-

tère absent des crochets)
^ recherche en début de ligne (ou en début de chaîne)
$ recherche en fin de ligne (ou en fin de chaîne)
\ annule le rôle de méta-caractère, pour jouer le rôle du caractère usuel
{n,m} indique le nombre de répétitions attendues du caractère précédent
| joue le rôle de « ou » entre 2 éléments d’une expression
\b frontière de mot
\w caractère de mot
204
Fiches pratiques et approfondissements
Exemples
Motif Chaînes possibles
arbres ? arbre, arbres
interest(s|(ed|ing)(ly) ?) ? interest, interests, interested, interestedly…
as [a-z]+ as as soon as
lo{1,3}ng long, loong, looong
(school) ? Bus(es) ? Bus, school Bus, school Buses
<[^>]+> une balise HTML du type <body>
[a-zA-Z.0-9_-]+@[a-zA-Z.0-9-]+ une adresse électronique
[0-3][0-9]/[0-1][0-9]/(200|19[5-9])[0-9] une date sous la forme jj/mm/aaaa
Serge Fleury.
205
 Fiche pratique 2 – Commandes Unix pour manipuler des données
Une fenêtre de commandes est un programme chargé de faire l’inter-

médiaire entre le système d’exploitation et l’utilisateur grâce aux lignes de
commandes saisies par ce dernier. Ce programme permet à l’utilisateur de
taper des commandes que le programme interprète puis exécute avant de
retourner le résultat (ou une erreur).
Dans un environnement Unix, cette fenêtre de commandes est communé-
ment appelée le shell. Dans cet environnement, il faut taper des commandes
au clavier pour interagir avec les ressources disponibles sur la machine
(manipuler des fichiers par exemple).
La figure suivante illustre ce principe via une série de trois commandes
dont la dernière s’approche de celle mise en œuvre au début de cet ouvrage
(compter les mots dans un texte) :
Cette figure donne à voir une fenêtre de commandes de type Unix dans
laquelle trois commandes sont tapées successivement ; la première (cd) permet
de se déplacer dans l’arborescence du système de fichiers et de se positionner
dans le répertoire indiqué (sur le disque C : dans un répertoire nommé tools) ;
la seconde (ls) affiche le contenu du répertoire courant (i.e celui atteint par
la précédente commande) ; et enfin la troisième (wc) est censée compter le
nombre de mots dans le fichier visé (via l’option –w utilisée ici) ; à noter que
le résultat est assez éloigné de ce qui a été vu dans le chapitre 1 : visiblement,
compter les mots avec cette commande ne semble ici pas pertinent, on a
d’ailleurs déjà vu une bien meilleure solution dans le même environnement.
Bien évidemment, toutes les commandes disponibles dans cet environnement
ne constituent pas toutes forcément la solution idéale, il faut souvent patienter
un peu avant de trouver une solution satisfaisante.
Comme on le voit ici, une fenêtre de commandes peut paraître à certains
un peu rustique (pas d’interface graphique). Elle impose aussi de connaître
un certain nombre de commandes pour atteindre les objectifs de traitements
souhaités.
206
Cet environnement de travail présent sur tous les systèmes d’exploita-

tion de type Unix, est désormais disponible aussi avec Windows 10 1 (version
1607) depuis août 2016. Pour les utilisateurs d’ordinateur sous Windows,
plusieurs solutions permettent de mettre en œuvre une émulation de fenêtre
de commandes Unix ; la solution la plus facile d’accès (avant la mise à dispo-
sition Windows 10 version 1607) consiste à installer l’application Cygwin
[https://fr.wikipedia.org/wiki/Cygwin] (consulté le 01/06/16) : cette applica-
tion largement documentée sur le web permet de disposer d’une interface
Unix puissante et complète. Elle est largement utilisée dans les exemples
développés dans ce manuel. Pour les utilisateurs d’ordinateur de type
Macintosh, ce programme est accessible dans le répertoire Utilitaires du
dossier Applications et il se nomme Terminal.
De nombreux utilitaires disponibles dans une fenêtre de commandes Unix,
permettent de manipuler des données pour les compter, les organiser, les
structurer etc. Le tableau suivant décrit le fonctionnement d’un petit nombre
de commandes utilisées pour réaliser cet objectif. On se reportera par exemple
à (Habert et al., 1998) pour une présentation plus complète.
NOM Commande Effet
CAT cat fichier Affiche le contenu du fichier

cat fichier1 fichier1 > fichier3 Concaténation de 2 premiers fichiers
(dans cet ordre) dans le troisième
Word wc –l fichier Affiche le nombre de lignes du fichier

Count wc –w fichier Affiche le nombre de mots du fichier
wc –c fichier Affiche le nombre de caractères du fichier
SORT sort fichier Trie les lignes du fichier
UNIQ sort fichier | uniq –c Affiche les lignes d’un fichier texte en
supprimant les multiples occurrences
consécutives d’une même ligne, pour n’en
garder qu’une seule (l’option –c permet de
compter les occurrences)
EGREP egrep motif fichier Affiche les lignes du fichier contenant

le motif recherché. Ce dernier peut être
exprimé sous la forme d’une expression
régulière.
egrep –o motif fichier Affiche les occurrences du texte corres-
pondant au motif (on peut ainsi afficher
tous les mots d’un fichier si le motif est
construit à cet effet)
1. [http://www.nextinpact.com/news/99572-bash-ubuntu-sous-windows-10-comment-
installer.htm] (consulté le 01/06/16) : on trouvera à cette adresse un mode d’emploi pour
disposer de la fenêtre de commandes Unix sous Windows 10 (console Bash Ubuntu).
207
Le tableau précédent est loin d’être exhaustif. D’autres commandes sont

utilisées dans cette fiche et les suivantes. Il convient de rappeler que l’appren-
tissage des commandes Unix demande du temps et de la patience ; heureu-
sement cet apprentissage au long cours est très vite bénéfique pour qui veut
apprendre à traiter efficacement des données.
Pour illustrer la puissance de cet environnement de travail, nous présen-
tons ci-dessous 2 commandes particulièrement utiles : pdftotext et cut. La
commande pdftotext permet d’extraire le contenu textuel dans un document
PDF. La commande cut permet quant à elle d’extraire des colonnes dans un
fichier dans lequel on peut mettre au jour ces colonnes (par exemple dans un
fichier tabulé éditable par le tableur Microsoft Excel).
Extraire le texte dans un fichier PDF

Dans la figure suivante, on commence par se placer (via la commande
cd) dans le répertoire contenant le fichier de travail au format PDF puis on
l’affiche (via la commande ls) :
Le fichier amants-utf8.pdf contient le texte du poème déjà vu précédem-

ment. La commande pdftotext permet finalement extraire le contenu textuel
de ce fichier dans un nouveau fichier du même nom que l’original avec une
extension différente :
Remarque : la commande pdftotext est utilisée ici avec l’option –q permet-

tant de masquer les éventuels messages d’erreur dont on ne parlera pas ici mais
qui peuvent éventuellement perturber le déroulement de la commande.
Au final, le fichier produit a l’allure suivante dans notre éditeur Notepad++
(voir l’illustration qui suit).
Le résultat est satisfaisant, un caractère résiduel en fin de fichier reste
à supprimer. Cependant, ce type de conversion peut parfois poser plus de
problèmes qu’il n’y paraît ici. En outre, il est souvent nécessaire de réaliser ce
208
type de conversion sur un plus grand nombre de fichiers. Dans ce cas, il est
possible de relancer le même type de commande autant de fois que nécessaire,
mais il peut être plus raisonnable de systématiser cette conversion en utilisant
des fonctionnalités de la fenêtre de commandes qui permettent par exemple
d’automatiser la conversion sur l’ensemble des fichiers PDF contenu dans le
répertoire courant, comme le montre la figure suivante :
Les 2 fichiers PDF initiaux ont chacun été traités et leurs contenus sont
respectivement associés à 2 nouveaux fichiers au format TXT brut. Ce traite-
ment en série des 2 fichiers est réalisé par une boucle de traitement (la bouche
for) qui exécute le traitement sur chacun des fichiers PDF contenus dans
le répertoire courant. On peut lire cette ligne de commandes de la manière
suivante : « pour chaque élément de l’ensemble résultant de la commande
listant les fichiers PDF du répertoire courant, appliquez sur cet élément (un
fichier donc) le traitement pdftotext. »
Cette dernière étape va bien entendu au-delà des objectifs de cet ouvrage.
Elle illustre cependant la nécessité de mettre parfois en œuvre des briques
de code pour dépasser la simple utilisation de commandes certes puissantes
mais dont on peut tirer encore plus en les intégrant dans des programmes
permettant d’automatiser au mieux les traitements visés.
209
Extraire ou traiter des données dans un fichier tabulé

On travaille désormais avec un fichier tabulé que l’on visualise tout d’abord
via le tableur Microsoft Excel :
Ce fichier contient 3 colonnes de données. La colonne C contient le

contenu du poème précédent réparti sur différentes lignes de cette colonne.
La colonne B contient le numéro de chaque ligne du poème et la colonne D
le numéro du sonnet associé au vers visé.
Avant de traiter ce fichier, il est important de souligner que ce format de
données est relativement fréquent en analyse de données. Il est lisible et
modifiable dans un tableur classique et surtout les outils unixiens peuvent
facilement traiter des données ainsi formatées. Le format tabulé est simplement
du texte brut avec des tabulations pour marquer les colonnes. On aperçoit cette
structure dans la ligne de commandes avec la commande cat déjà utilisée :
210
La commande cut permet maintenant d’extraire des données du fichier

précédent en sélectionnant les colonnes visées. Ci-dessous la commande cut
utilise l’option f (field) suivie d’un numéro de colonne (2) qui permet d’extraire
la seconde colonne du fichier i. e. le texte :
Par défaut, la commande cut « considère » que le délimiteur de colonnes à

prendre en compte est une tabulation, il est possible de modifier ce paramé-
trage en indiquant à la commande le délimiteur adéquat pour mettre au jour
les colonnes à considérer. On peut ainsi réaliser l’opération suivante :
211
Dans la figure précédente, deux commandes cut sont enchaînées par un

mécanisme de redirection de flux : la première extrait le texte du poème et
l’envoie à la seconde qui extrait le premier « mot » de chaque vers. La seconde
commande utilise l’option –d suivi d’un caractère délimiteur de colonnes, ici le
caractère espace placé entre guillemets. La commande s’appuie donc sur un
pseudo découpage en colonnes des données textuelles qu’elle reçoit, le blanc
entre les mots, pour ne tenir compte que de la première colonne contenant le
premier mot de chaque vers.
On peut encore aller un peu plus loin et par exemple extraire parmi les vers
du second sonnet ceux contenant la chaîne de caractères « eaux » (motif) :
Ci-dessus, 3 commandes sont « enchaînées » par un mécanisme de

redirection de flux (via l’opérateur | déjà vu). La première commande extrait
les colonnes 2 et 3 du fichier ; la seconde commande filtre parmi les données
précédentes les lignes se terminant par 2 (celles du sonnet n° 2) ; finalement
la troisième commande filtre les lignes restantes contenant le motif « eaux ».
Cet exemple illustre l’articulation de deux mécanismes de filtrage particuliè-
rement efficaces sur ce type de données : le premier extrait des colonnes, le
second filtre des lignes.
Serge Fleury.
212
 Fiche pratique 3 – Concaténation automatique

de fichiers : la commande cat et la redirection de flux
Pour illustrer le fonctionnement de cette commande, nous allons travailler
sur les trois fichiers visibles dans la figure ci-dessous. Ils sont positionnés dans
un dossier nommé « tools » du disque C. Ces trois fichiers sont au format
« texte brut » et encodés en UTF-8.
Nous utilisons ci-dessous une « fenêtre de commandes » (de type Unix),

et plus précisément la fenêtre de commandes disponible dans l’application
Cygwin.
Nous commençons par nous positionner dans le répertoire contenant les

trois fichiers (via la commande cd [« change directory »]). Les trois fichiers de
travail sont bien visibles :
La commande ls (« list short ») affiche les fichiers ou dossiers contenus

dans le répertoire courant. La commande cat permet dans un premier temps
d’afficher le contenu de nos trois fichiers :
213
Chacun des fichiers contient une seule ligne. Les trois fichiers peuvent
être concaténés de la manière suivante :
La commande prend en argument ici les noms des trois fichiers à conca-
téner (dans l’ordre induit par l’écriture des noms de fichier) ; on ajoute ensuite
le caractère > pour diriger le résultat de la concaténation dans un nouveau
fichier nommé fichierglobal.txt.
Le fichier résultant contient in fine les 3 lignes provenant de chacun des

fichiers de départ.
On peut ajouter de nouvelles lignes au fichier construit en prenant garde
de spécifier que la concaténation dans le fichier résultant doit se faire en les
concaténant au contenu déjà existant (les caractères >> permettent d’ajouter
par concaténation dans le fichier résultat) :
214
Pour aller plus loin : concaténer et baliser
On trouvera à cette adresse [http://www.tal.univ-paris3.fr/download/

pg-concat.zip] une archive contenant un petit programme pour Windows
réalisant la même opération de concaténation de tous les fichiers contenus
dans un même répertoire.
Ci-dessous, le répertoire de travail contient 2 fichiers au format « texte
brut » (et encodés en UTF-8) : t1.txt et t2.txt
Le contenu des 2 fichiers est visible ci-dessous :
Le lancement du script concat.exe (double-clic sur l’icône du programme)

déclenche la concaténation de tous les fichiers présents dans le répertoire (sauf
le programme lui-même) et crée un nouveau fichier nommé CONCATFILE.txt
dont le contenu est visible ci-dessous :
215
Les contenus des 2 fichiers de départ sont concaténés l’un derrière l’autre
et délimités par un jalon textuel (une balise) précisant leur origine. Ce type de
fichier est directement pris en charge par les logiciels Lexico ou Le Trameur.
Découper des fichiers
La commande split permet à rebours de découper le fichier, construit

précédemment avec la commande cat, en 6 fichiers de 1 ligne :
La commande split dispose de nombreuses options permettant de paramé-

trer le découpage d’un fichier (on se reportera à la documentation de cette
commande par exemple ici : [http://www.linux-france.org/article/man-fr/man1/
split-1.html], consulté le 01/06/16).
Serge Fleury.
216
 Fiche pratique 4 – Construire un corpus avec Gromoteur

On trouvera ci-dessous quatre fiches de TD proposées à des étudiants de
licence. Elles fournissent un mode d’emploi permettant d’abord de construire,
via Gromoteur, un corpus chronologique issu du web puis de l’analyser avec
Le Trameur. Le corpus est construit à partir des URLs de pages de journaux
en ligne. On trouvera la liste de ces URLs dans ce fichier :
– [http://www.tal.univ-paris3.fr/trameur/FICHES/liste-url-newspaper.txt]
Fiche n° 1 – Construire un corpus avec Gromoteur
– [http://www.tal.univ-paris3.fr/trameur/FICHES/L4F004-FICHE1.pdf]
Fiche n° 2 – Préparer le corpus issu de Gromoteur
– [http://www.tal.univ-paris3.fr/trameur/FICHES/L4F004-FICHE2.pdf]
Exemple de corpus
– [http://www.tal.univ-paris3.fr/trameur/FICHES/corpus-chronologique.
zip]
Fiche n° 3 – Le Trameur, démarrage
[http://www.tal.univ-paris3.fr/trameur/FICHES/L4F004-FICHE3a.pdf]
Fiche n° 4 – Exploration textométrique du corpus issu

de Gromoteur avec Le Trameur
– [http://www.tal.univ-paris3.fr/trameur/FICHES/L4F004-FICHE3b.pdf]
Serge Fleury.
217
 Approfondissement – En savoir plus sur l’analyse factorielle

des correspondances
Cette fiche approfondit la présentation de l’analyse factorielle des corres-
pondances faite au chapitre 5, elle peut donc être lue par ceux ayant parfai-
tement saisi les enjeux de la méthode ou reprise plus tardivement pour les
autres.
Analyse factorielle des correspondances (AFC) :

tableau de données et écart à l’indépendance
Avec l’AFC, il s’agit d’analyser un tableau d’effectifs qui se présente sous

la forme d’un tableau à double entrée. On parlera également de tableau de
contingence. Nous n’exposerons pas ici le détail du calcul, mais le lecteur
pourra se reporter aux références bibliographiques mentionnées p. 227.
Le principe de l’AFC est de mettre en évidence ce qui est inattendu dans
une répartition. Ainsi il ne s’agit pas, dans le tableau de contingence, de repérer
un mot qui semblerait particulièrement fréquent dans une des partitions (ce
mot peut être très fréquent dans l’ensemble du corpus). L’examen se porte
sur les marges, c’est-à-dire les totaux des lignes et des colonnes, afin de juger
de la répartition particulière d’un mot.
Ce que l’on représente au moyen d’un plan factoriel sur deux ou trois
axes correspond à l’écart à la norme. Examiner une AFC, c’est donc examiner
l’écart à l’indépendance entre les lignes et les colonnes du tableau (sur cette
notion d’indépendance, voir l’article suivant [https://fr.wikipedia.org/wiki/
Indépendance_(probabilités)], consulté le 01/06/16).
Les marges colonne correspondent à l’effectif total de chaque mot, les
marges lignes à l’effectif total de chaque partition.
Fig. 1
218
Exemple : la marge colonne est égale à l’effectif total des mots (effectif
total de la forme nous), la marge ligne est égale à l’effectif total de la partie
Andromaque, par exemple, dans le corpus CORPEX (cf. chap. 5).
L’AFC compare les profils lexicaux des partitions au profil lexical moyen,
c’est-à-dire l’écart à la norme. En d’autres termes, on évalue une répartition
théorique uniforme et l’on compare avec ce que l’on obtient réellement.
Fig. 2
Fig. 3
Une répartition uniforme reviendrait à ce que chaque partition présente

des fréquences équivalentes, c’est-à-dire qui ne dépendraient que de la
taille des sous-parties. L’écart à l’indépendance revient à s’interroger en
ces termes : quelle serait la répartition des différents mots s’ils ne dépen-
daient pas de la nature des textes soumis à l’analyse (du genre, de la situation
d’énonciation…) ?
219
Représentation graphique
Construire une AFC revient à suivre une démarche géométrique à

N-1 dimensions (n étant le nombre de colonnes du tableau). Traditionnellement,
on s’intéresse dans une AFC aux deux ou trois premières dimensions c’est-à-
dire aux deux ou trois premiers axes.
Dans l’exemple ci-dessous, le premier facteur est représenté par l’axe des
abscisses, le deuxième par l’axe des ordonnées (axe vertical).
Fig. 4. – Analyse factorielle des correspondances sur le corpus Vœux,

partition Locuteurs, via Lexico5.
Fig. 5. – Valeurs propres des axes factoriels sur le corpus Vœux,

partition Locuteurs, via Lexico5.
Lors de l’interprétation d’une AFC, il est primordial de prendre en considé-

ration la valeur propre de ces axes. Le premier axe comporte la valeur propre la
plus importante et chacun des axes comporte une valeur propre moindre que
celui qui précède, la somme des valeurs propres étant égale à 100 %, c’est-
à-dire à la totalité de l’information contenue dans le tableau. Ainsi, lorsqu’on
examine les deux premiers axes, on s’intéresse à l’information principale du
corpus, aux faits saillants du tableau lexical. Chaque axe suivant livrant une
information complémentaire, mais moindre.
En fonction des axes que l’on examine, on met en lumière des phénomènes
différents qui dépendent de la nature du corpus soumis à l’AFC et donc du
220
tableau lexical. En d’autres termes, la position des points-colonnes sur l’axe 1

ne peut pas toujours être interprétée de la même façon selon les corpus. Elle
peut être liée à l’énonciation, à une thématique particulière, au genre. Pour
caractériser ces axes, il convient donc d’examiner les spécificités des points
colonnes ou les mots (points-lignes) les plus contributifs de ces axes, c’est-à-
dire ceux qui participent le plus à la construction des axes.
Interpréter les configurations factorielles
On a longtemps représenté dans les analyses factorielles portant sur des

données textuelles les seuls points-colonnes, c’est-à-dire le plus souvent les
différentes parties du corpus.
Il n’est pourtant pas inintéressant d’examiner les points-lignes du tableau.
Afficher l’ensemble des points-lignes n’aurait aucun sens puisque cela
reviendrait à projeter l’ensemble des formes graphiques du corpus sur le plan
factoriel.
En revanche on peut s’intéresser aux points les plus contributifs, c’est-à-
dire à ceux qui sont responsables de la construction des différents axes (voir
ci-dessous).
Fig. 6. – Points-lignes les plus contributifs de l’axe 1 (38 %),

partition PARTIES sur CORPEX, via TextObserver.
221
Fig. 7. – Point les plus contributifs de l’axe 2 sur

CORPEX, partition PARTIES, via TextObserver.
On peut aussi choisir de projeter sur le plan factoriel des points-lignes dont
on veut examiner la position…
Fig. 8. – Affichage de quelques points-lignes de

CORPEX, partition PARTIES, via TextObserver.
222
Sur le corpus Corpex, les mots amour et mort projetés sur le plan facto-
riel peuvent être interprétés comme particulièrement significatifs des parties
Andromaque et Le Cid. Pour que cette interprétation soit statistiquement
fiable, il faudrait cependant s’assurer que ces points sont contributifs des
différents axes.
Notons qu’une forme très fréquente et banale se trouvera nécessairement
au centre du plan factoriel. C’est le cas, par exemple, sur un tableau lexical
non élagué, des formes de, le, la, et… qui statistiquement ne comportent que
peu d’intérêt.
Enfin, le fait d’afficher points-lignes et points-colonnes sur un même
graphique peut-être appelé « représentation simultanée ».
Quelques précautions interprétatives
Nombreux sont les outils logiciels qui utilisent le même module d’AFC et
donc strictement le même calcul. Cependant, les tableaux sur lesquels portent
ces calculs d’AFC diffèrent parfois sensiblement d’un outil à l’autre. Ainsi,
les configurations obtenues à partir d’un même corpus ne sont pas toujours
rigoureusement identiques :
– les seuils de fréquences ne sont pas toujours les mêmes, que l’on tienne
compte de la totalité du tableau lexical ou d’un extrait (par exemple,
garder les mots de fréquence >=5) ;
– la segmentation n’est pas toujours strictement équivalente d’un logiciel
à l’autre, les caractères délimiteurs n’étant pas toujours pris en compte
de la même façon ;
– certains tableaux lexicaux sont construits à partir de la casse originale et
mêlent donc caractères minuscules et majuscules, d’autres ont subi un
traitement préalable et tiennent compte des mots composés ;
– certains outils construisent l’AFC à partir d’un tableau lexical dont on a
supprimé les très hautes fréquences ou certains mots outils ;
– peuvent être soumis à l’AFC d’autres tableaux que des tableaux lexicaux
au sens strict : matrices de cooccurrences, matrices de distances entre
les textes, tableaux présentant non plus les fréquences des formes mais
simplement leur présence-absence.
Il est donc indispensable, lorsque l’on commente une AFC, de connaître
très précisément la nature du tableau qui est soumis à l’expérience factorielle.
Ces variations ne sont pour autant pas toujours contradictoires. Il appartient
au chercheur de construire, à partir des invariants des configurations obtenues,
des faisceaux d’éléments sur lesquels étayer l’analyse. En d’autres termes, ce
qui est commun à toutes les AFC permet de se lancer dans l’analyse.
223
Interpréter la position des points (lignes ou colonnes)
Les trois figures qui suivent représentent trois exemples d’interprétation

des points-colonnes sur les deux premiers axes d’une analyse factorielle.
Sur la première figure infra, les vecteurs qui relient les points a et b (colorés
en noir) en passant par l’origine forment un angle négatif à l’indépendance.
Ces deux points sont donc en opposition.
Fig. 9.
La deuxième figure ci-dessous présente une configuration de conjonction.

Les points a et b forment un angle positif à l’indépendance. Ils sont donc
proches et présentent de grandes similitudes en termes d’emploi du lexique.
Fig. 10.
224
La troisième figure ci-dessous présente une configuration de quadrature.

Le point a n’a ni plus ni moins d’affinité avec b que les autres.
Fig. 11.
Un exemple de signature statistique : l’effet Guttman
Sur une série de données contenues dans un tableau, la représentation des

deux premiers axes factoriels peut prendre la forme d’une parabole lorsqu’il
existe une forte corrélation entre les lignes et les colonnes. Cette signature
montre en outre une relation entre le facteur 1 et le facteur 2.
Un nuage de points de forme parabolique indique une redondance entre
les deux variables étudiées (les parties du corpus et le stock lexical utilisé, par
exemple). Ce phénomène apparaît lorsqu’il existe une structure d’ordre, à la
fois sur l’ensemble des lignes et sur celui des colonnes et que ces structures
sont associées.
Figure 12.
225
Un tel exemple de corrélation nous est livré avec l’étude qui suit, réalisée
par Fabienne Pierre (2008). Cette étude repose sur un corpus synchronique
réunissant une série de déclarations prononcées par les représentants des
États membres de l’ONU à l’occasion du Sommet Mondial du Développement
Durable (Johannesburg, 2002). Ce corpus compte 110 déclarations au total,
toutes en anglais. L’étude vise à décrire la configuration de cet espace discursif
en termes de positionnements spécifiques à travers une analyse systématique
et contrastive du vocabulaire. Les outils classiques de la statistique lexicale
sont mobilisés dans une perspective expérimentale, à travers l’application
d’une série de variables « construites », souvent invoquées pour rationa-
liser le comportement des acteurs étatiques sur la scène internationale. Les
indices de liberté élaborés par l’ONG américaine Freedom House donnent
lieu à une classification des États sur la base de critères politiques et civils et,
dans le contexte des déclarations de Johannesburg, s’associent à des résultats
inattendus.
L’AFC (reproduite ci-dessous) montre une configuration qui rappelle celle
qui peut être observée sur les corpus chronologiques (cf. infra). Cette configu-
ration suggère qu’il y aurait une corrélation forte entre l’« Indice » des libertés
Civiles des pays étudiés et le lexique employé. Les fréquences relatives et les
indices de spécificité associés à l’emploi des marqueurs énonciatifs du rituel
semblent corrélés aux degrés de liberté.
Fig. 13. – AFC – Partition par valeurs de l’Indice des Libertés

Civiles 2005 (seuil=5).
Une contribution forte de la lexicométrie appliquée à l’effet Guttman est

le phénomène de temps lexical mis en œuvre dans les travaux d’André Salem
(1988). D’après le chercheur, dans un corpus formant une suite textuelle
226
chronologique, si le seul phénomène d’évolution du lexique était lié au temps,

l’AFC pratiquée sur ce corpus formerait le même type de parabole que celle
obtenue avec l’effet Guttman. Cette signature statistique particulière impose
que l’on n’interprète pas l’analyse factorielle comme une simple opposition des
axes mais comme répondant ou non à un tracé théorique. Tout point qui s’écar-
terait de ce tracé parabolique, dans le cas d’une suite textuelle chronologique,
pourrait être interprété comme une rupture, stylistique, lexicale, thématique.
 Pour aller encore plus loin

Des cours en ligne sur YouTube
Ces cours constituent une très belle ressource pour en savoir plus :
Cours sur les principales méthodes d’analyse de données : analyse en
composantes principales, analyse des correspondances simples et multi-
ples, classification, etc. : [https://www.youtube.com/playlist ?list=PLn
Zgp6epRBbSolD849bJyS1gjS2OY9uqC] (consulté le 01/06/16).
Avec par exemple :

« Exemple d’analyse des correspondances sur des données textuelles » :
[https://www.youtube.com/watch ?v=AF2rYpc5nRY&list=PLnZgp6epR
BbSolD849bJyS1gjS2OY9uqC&index=11] (consulté le 01/06/16).
De nombreuses ressources en ligne

On pourra commencer par Wikipedia : [https://fr.wikipedia.org/wiki/
Analyse_factorielle_des_correspondances] (consulté le 01/06/16).
Et consulter ensuite d’autres sites comme par exemple [http://www.
jybaudot.fr/a_general/indexstats.html] (consulté le 01/06/16).
Avec notamment ces pages consacrées à l’AFC :

AFC [http://www.jybaudot.fr/Analdonnees/afc.html] (consulté le
01/06/16).
Test d’indépendance [http://www.jybaudot.fr/Inferentielle/indepkhidx.
html] (consulté le 01/06/16)
Nuages de points et AFC [http://www.jybaudot.fr/Analdonnees/nuage-
safc.html] (consulté le 01/06/16)
Benzecri Jean-Paul, Bellier L., 1973, L’Analyse des données :

leçons sur l’analyse factorielle et la reconnaissance des formes et
227
travaux du laboratoire de statistique de l’université de Paris VI,

Paris, Dunod.
Benzecri Jean-Paul, 1980, Pratique de l’analyse des données, Paris,
Dunod.
– 1982, Histoire et préhistoire de l’analyse des données, Paris, Dunod.
Guttman Louis, 1941, « The Quantification of a Class of Attributes :
A Theory and Method of Scale Construction », in P. Horst et al., The
Prediction of Personal Adjustment, New York, SSRC, p. 319-348.
Husson François, Lê Sébastien, Pagès Jérôme, 2009, Analyse de
données avec R, Rennes, PUR.
Lebart Ludovic, Morineau Alain, Tabard Nicole, 1977, Techniques
de la description statistique, Paris, Dunod.
Lebart Ludovic, Morineau Alain, Piron Marie, 2002, Statistique
exploratoire multidimensionelle, Paris, Dunod.
Lebart Ludovic, Salem André, 1994, Statistique Textuelle, Paris,
Dunod. En ligne [http://lexicometrica.univ-paris3.fr/livre/st94/
st94-tdm.html] (consulté le 01/06/16).
Pierre Fabienne, 2008, « Liberté et énonciation : une corrélation
inattendue dans les déclarations du Sommet de Johannesburg », in
Actes JADT’2008, p. 939-948.
Salem André, 1988, « Approches du temps lexical », Statistique
textuelle et séries chronologiques, vol. 17, n ° 1, p. 105-143, En ligne
[http://www.persee.fr/doc/mots_0243-6450_1988_num_17_1_1401]
Jean-Marc Leblanc.
228
BIBLIOGRAPHIE
Adresse au lecteur : La bibliographie rassemble les références citées dans le corps

de l’ouvrage, à l’exception de celles qui figurent dans les encadrés.
Les liens internet ont été vérifiés le 28 janvier 2017.
Alduy Cécile, Wahnich Stéphane, 2015, Marine Le Pen prise aux mots. Décryptage
du nouveau discours frontiste, Paris, Seuil.
Arquembourg Jocelyne, 2011, L’événement et les médias, les récits médiatiques des
tsunamis et les débats publics (1755-2004), Paris, Archives contemporaines.
Authier-Revuz Jacqueline, 1997, « Modalisation autonymique et discours autre :
quelques remarques », Modèles linguistiques, n° 35, p. 33-51.
– La représentation du discours autre. Principes pour une description (à paraître).
Bacot Paul, Gaboriaux Chloé, Le Bart Christian, Mayaffre Damon (dir.), 2016,
« Discourir pour présider », Mots, n° 112, p. 9-18 [http://www.cairn.info/revue-
mots-2016-3-page-9.htm].
Barats Christine, 1994a, L’intégration et le discours présidentiel sur l’immigration (1981-
1991), thèse pour le doctorat en sciences politiques, université Paris 9 Dauphine,
1994.
– 1994b, « Le discours présidentiel sur l’immigration : inscription dans l’espace natio-
nal et consensus d’évitement. 1981-1991 », Quaderni, 22, Hiver 1994, p. 109-123
[http://www.persee.fr/doc/quad_0987-1381_1994_num_22_1_1065].
– 1999, « Immigration : carrefour de la suspicion (discours présidentiels et juridi-
ques) », Mots, 60, septembre 1999, Perspectives croisées sur l’immigration, p. 43-57
[http://www.persee.fr/doc/mots_0243-6450_1999_num_60_1_2163].
Barats Christine, Leblanc Jean-Marc, 2013, « Généalogie de la co-construc-
tion médiatique du « classement de Shanghai » en France. Corpus de presse et
usages sociodiscursifs », Mots, n° 102, p. 67-83 [http://www.cairn.info/article.
php ?ID_ARTICLE=MOTS_102_0067].
Beaudouin Valérie, Pasquier Dominique, 2014, « Organisation et hiérarchisation
des mondes de la critique amateur cinéphile », Réseaux 1/2014, n° 183, p. 125-159
[http://www.cairn.info/revue-reseaux-2014-1-page-125.htm].
229
Ben Hamed Mahé, Mayaffre Damon (éd.), 2015, Thèmes et thématiques dans le
discours politique, Mots, n° 108 [https://mots.revues.org/21969].
Bendinelli Marion, 2012, « Étude des auxiliaires modaux et des semi-modaux dans
les débats présidentiels américains (1960-2008) : analyse qualitative et quantita-
tive. Relations d’influence et enjeux de pouvoir », thèse de doctorat en sciences du
langage, université de Nice.
Benveniste Émile, 1966, [1958], « De la subjectivité dans le langage », in Problèmes
de linguistique générale, 1, Paris, Gallimard, p. 258-266.
Bonnafous Simone, 1991, L’immigration prise aux mots, Paris, Kimé.
Bonnafous Simone, Tournier Maurice, 1995, « Analyse du discours, lexico-
métrie, communication et politique », Langages, n° 117, mars 1995, Les ana-
lyses du discours en France, p. 67-81 [http://www.persee.fr/doc/lgge_0458-
726x_1995_num_29_117_1706].
Branca-Rosoff Sonia, 1999, « Types, modes et genres entre langue et dis-
cours », Langage et Société, n° 87, p. 5-24 [http://www.persee.fr/doc/lsoc_0181-
4095_1999_num_87_1_2851].
Brunet Étienne, 2000, « Qui lemmatise dilemme attise », Lexicometrica [En ligne],
n° 1 [http://lexicometrica.univ-paris3.fr/article/numero2/brunet2000.PDF].
– 2012, « Nouveau traitement des cooccurrences dans Hyperbase », Corpus [En
ligne], n° 11 [http://corpus.revues.org/2275].
Cislaru Georgeta, Sitri Frédérique, 2012, « De l’émergence à l’impact social des
discours : hétérogénéités d’un corpus », Langages, 3/2012, n° 187, p. 59-72 [http://
www.cairn.info/revue-langages-2012-3-page-59.htm].
Cislaru Georgeta, Sitri Frédérique, Pugnière-Saavedra Frédéric (dir.), 2008,
Carnets du Cédiscor, n° 10, Analyse du discours et demande sociale. Le cas des
écrits de signalement [https://cediscor.revues.org/59].
Champagne Patrick, 1991, « La construction médiatique des malaises sociaux », in
Actes de la recherche en sciences sociales, n° 90, p. 64-76 [http://www.persee.fr/doc/
arss_0335-5322_1991_num_90_1_2997].
Charaudeau Patrick, Maingueneau Dominique (dir.), 2002, Dictionnaire d’analyse
du discours, Paris, Seuil.
Charaudeau Patrick, 2009, « Dis-moi quel est ton corpus, je te dirai quelle est ta
problématique », Corpus [En ligne], n° 8 [http://corpus.revues.org/1674].
Deroubaix Jean-Claude, Gobin Corinne, 2000, « Le roi règne, il ne gouverne pas. Il
s’adresse au peuple belge/vocabulaire des discours prononcés par le roi Baudouin
durant son règne », in Actes JADT’2000 [http://lexicometrica.univ-paris3.fr/jadt/
jadt2000/pdf/95/95.pdf].
Détrie Catherine, Siblot Paul et Verine Bertrand, 2001, Termes et concepts pour
l’analyse du discours. Une approche praxématique, Paris, Honoré Champion.
Diwersy Sascha et Liancarlo Gerardo, 2016, « Mettre en évidence le temps lexical
dans un corpus de grandes dimensions : l’exemple des débats du Parlement euro-
péen », in Actes JADT’2016, Nice, 2016 [http://lexicometrica.univ-paris3.fr/jadt/
jadt2016/01-ACTES/83638/83638.pdf].
Evert Stefan, 2005, The Statistics of Word Cooccurrences : Word Pairs and Collocations,
Dissertation, Institut für maschinelle Sprachverarbeitung, University of Stuttgart
[http://www.stefan-evert.de/PUB/Evert2004phd.pdf].
– 2008, « Corpora and collocations », in A. Lüdeling and M. Kytö (eds.), Corpus
Linguistics. An International Handbook, Berlin, Mouton de Gruyter, p. 1212-1248
[http://www.stefan-evert.de/PUB/Evert2007HSK_extended_manuscript.pdf].
230
Bibliographie
Fiala Pierre et Ebel Marianne, 1983, Langages xénophobes et consensus national en

Suisse (1960-1980) : discours institutionnels et langage quotidien ; la médiatisation
des conflits, Neuchâtel, université de Neuchâtel.
Fiala Pierre, 1987, « Pour une approche discursive de la phraséologie. Remarques
en vrac sur la locutionnalité et quelques points de vue qui s’y rapportent, sans
doute », Langage & Société, n° 42, p. 28-48 [http://www.persee.fr/doc/lsoc_0181-
4095_1987_num_42_1_2378].
Fleury Serge, 2007 (mise à jour 2016), « Le Trameur, Manuel d’utilisation » [http://
www.tal.univ-paris3.fr/trameur/leMetierLexicometrique.pdf].
Fleury Serge, Zimina Maria, 2007, « Exploring translation corpora with MkAlign »,
in Bokor G. (ed.) Translation Journal, Janvier 2007 [http://translationjournal.net/
journal/39mk.htm].
– 2014, « Approche systémique de la résonance textuelle multilingue », in Actes
JADT’2014, Paris, 2014 [http://lexicometrica.univ-paris3.fr/jadt/jadt2014/01-
ACTES/59-JADT2014.pdf].
Foucault Michel, 1969, L’Archéologie du savoir, Paris, Gallimard.
– 1971, L’ordre du discours, Paris, Gallimard.
Garric Nathalie, Longhi Julien, 2012, « L’analyse de corpus face à l’hétérogénéité
des données : d’une difficulté méthodologique à une nécessité épistémologique »,
Langages, 3/2012, n° 187, p. 3-11 [http://www.cairn.info/revue-langages-2012-3-
page-3.htm].
Guaresi Magali, 2014, « Les mots des politiques du genre dans les professions de foi
aux élections législatives françaises (1958-2007) », Synergies Italie, n° 10, p. 33-48
[http://gerflint.fr/Base/Italie10/Magali_Guaresi.pdf].
Guilhaumou Jacques, Maldidier Denise, Robin Régine, 1994, Discours et archive,
Liège, Mardaga.
Guilhaumou Jacques, 1997, « L’analyse de discours et la lexicométrie. Le Père
Duchesne et le mouvement cordelier (1793-1794) » [http://lexicometrica.univ-
paris3.fr/article/numero0/jgadlex.htm].
– 2002, « Le corpus en analyse de discours : perspective historique », Corpus [En
ligne], n° 1 [http://corpus.revues.org/8].
Habert Benoît, 2005, Instruments et ressources électroniques pour le français, Paris/
Gap, Ophrys (« L’Essentiel Français »).
Habert Benoît, Nazarenko Adeline, Salem André, 1997, Les linguistiques de corpus,
Paris, Armand Colin/Masson, Collection U Linguistique.
Habert Benoît, Fabre Cécile, Issac Fabrice, 1998, De l’écrit au numérique : constituer,
normaliser, exploiter les corpus électroniques, Paris, InterÉditions/Masson, Collection
Informatiques.
Haddad Raphaël, 2017, Le discours de meeting électoral : rituel d’affrontement, médiati-
sations, communication politique. Analyse du discours de meeting électoral pour l’élec-
tion présidentielle française (2002, 2007, 2012), thèse en sciences de l’information
et de la communication, université Paris-Est Créteil.
Halté Pierre, 2013, Les marques modales dans les t’chats : étude sémiotique et pragma-
tique des interjections et des émoticônes dans un corpus de conversations synchrones
en ligne, thèse en Sciences du langage, université de Lorraine et université du
Luxembourg [http://www.theses.fr/2013LORR0308].
Haroche Claudine, Henry Paul et Pêcheux Michel, 1971, « La sémantique et la cou-
pure saussurienne : langue, langage, discours », Langages, n° 24, p. 93-106 [http://
www.persee.fr/doc/lgge_0458-726x_1971_num_6_24_2608].
231
Hetzel Anne-Marie, Mouriaux René, Tournier Maurice, 1993, « Présentation »,

Mots, n° 36, Un demi-siècle de vocabulaire syndical, p. 3-5 [http://www.persee.fr/
doc/mots_0243-6450_1993_num_36_1_1842].
Illouz Gabriel, Habert Benoît, Fleury Serge, Folch Helka, Heiden Serge, Lafon
Pierre, 1999, « Maîtriser les déluges de données hétérogènes », in Actes de TALN’99,
Atelier Corpus et Traitement Automatique des Langues : pour une réflexion métho-
dologique, Cargèse, 12-17 juillet 1999.
Jackiewicz Agata, 2006, « Relations intersubjectives dans les discours rapportés », in
Actes de TALN’2006 [https://www.atala.org/IMG/pdf/TAL-2006-47-2-04-Jackiewicz.
pdf].
Kastberg Margareta, 2006, L’écriture de J. M. G. Le Clézio – Des mots aux thèmes,
Paris, Honoré Champion.
Kraif Olivier, Novakova Iva et Sorba Julie, 2016, « Constructions lexico-syntaxiques
spécifiques dans le roman policier et la science-fiction », Lidil, n° 53, p. 143-159.
Krieg-Planque Alice, 2003, « Purification ethnique ». Une formule et son histoire,
Paris, CNRS Éd., coll. CNRS Communication.
Krieg-Planque Alice, 2006, « “Formules” et “lieux discursifs” : propositions pour
l’analyse du discours politique », Semen, n° 21, p. 19-47 [https://semen.revues.
org/1938].
– 2007, « Travailler les discours dans la pluridisciplinarité. Exemples d’une “manière
de faire” en analyse de discours », in Bonnafous Simone et Temmar Malika (dir.),
2007, Analyse du discours et sciences humaines et sociales, Ophrys, p. 57-71.
– 2009, La notion de « formule » en analyse de discours, Cadre théorique et méthodolo-
gique, Besançon, Presses universitaires de Franche-Comté.
Krieg-Planque Alice, Ollivier-Yaniv Caroline, 2011, « Poser les “petites phrases”
comme objet d’étude », Communication & Langages, n° 168, juin 2011, p. 17-22.
Lafon Pierre, 1984, Dépouillements et statistiques en lexicométrie, Genève, Slatkine-
Champion.
Lamalle Cédric, Salem André, 2002, « Types généralisés et topographie textuelle
dans l’analyse quantitative des corpus textuels », in Actes JADT’2002, Saint-Malo,
2002 [http://lexicometrica.univ-paris3.fr/jadt/jadt2002/PDF-2002/lamalle_salem.
pdf].
Le Bart Christian, 1998, Le discours politique, Paris, PUF (coll. Que Sais-je ?).
Lebart Ludovic, Salem André, 1998, Statistique textuelle, Dunod [http://lexicome-
trica.univ-paris3.fr/livre/st94/st94-tdm.html].
Leblanc Jean-Marc, 2005, Les vœux présidentiels sous la Cinquième République (1959-
2001). Recherches et expérimentations lexicométriques à propos de l’ethos dans un
genre discursif rituel, thèse de doctorat en Sciences du langage, université Paris 12,
Val de Marne, chapitre 4 – Quelles typologies des messages des vœux, p. 396-434
[http://leblanc.jeanmarc.free.fr/].
– 2008, « Une approche expérimentale du rituel politique, l’analyse récursive des
énoncés sous Alceste », in Actes JADT’2008, Lyon, 2008. p 701-712 [http://
lexicometrica.univ-paris3.fr/jadt/jadt2008/pdf/leblanc.pdf].
– 2015, « Proposition de protocole pour l’analyse de données textuelles : pour une
démarche expérimentale en lexicométrie », Nouvelles Perspectives en Sciences
Sociales, vol. 11, n° 1, p. 25-64.
– 2016a, Analyses lexicométriques des vœux présidentiels, Londres, Iste Éditions.
– 2016b, « Phraséologie et formules rituelles dans le discours politique, l’expérimen-
tation en lexicométrie », Lidil, n° 53, p. 43-69.
232
Bibliographie
Legallois Dominique, Charnois Thierry, Poibeau Thierry, 2016, « Repérer les

clichés dans les romans sentimentaux », Lidil, n° 53, p. 95-117.
Lethier Virginie, 2009, Exploration textuelle du discours d’un quotidien régional au
carrefour du XIXe et du XXe siècles : Le Petit Comtois (1883-1903), thèse de doctorat
en Sciences du langage, université de Franche-Comté.
Lethier Virginie, Montrichard Cyrielle, 2016, « Exploration textométrique des
évolutions de l’éditorial (1890-2015) », in Actes JADT’2016, p. 485-496 [http://
lexicometrica.univ-paris3.fr/jadt/jadt2016/01-ACTES/83337/83337.pdf].
Longrée Dominique, Mellet Sylvie, 2013, « Le motif : une unité phraséologi-
que englobante ? Étendre le champ de la phraséologie de la langue au discours »,
Langages, n° 189, 2013/1, Vers une extension du domaine de la phraséologie,
p. 65-79 [http://www.revues.armand-colin.com/lettres-langue/langages/langages-
ndeg-189-12013-extension-du-domaine-phraseologie/presentation-extension-du-
domaine-phraseologie].
Mac Murray Erin, 2012, Discours de presse et veille stratégique d’événements. Approche
textométrique et extraction d’informations pour la fouille de textes, thèse de doctorat
en Sciences du langage, université Sorbonne nouvelle [https://tel.archives-ouvertes.
fr/tel-00740601].
Maingueneau Dominique, 1976, Initiation aux méthodes de l’analyse de discours, Paris,
Hachette.
– 2012, « Que cherchent les analystes du discours ? », Argumentation et Analyse du
Discours [En ligne], n° 9 [http://aad.revues.org/1354].
Maldidier Denise, 1990, L’inquiétude Du Discours, Paris, Éditions Des Cendres.
Marandin Jean-Marie, Pêcheux Michel, 1984, « Informatique et analyse du dis-
cours », Buscila, n° 1, 64-65.
Martinez William, 2012, « Au-delà de la cooccurrence binaire… Poly-cooccurrences
et trames de cooccurrence », Corpus, n° 11, p. 191-216 [http://corpus.revues.
org/2262].
Mayaffre Damon, 2002, « Les corpus réflexifs : entre architextualité et hypertextua-
lité », Corpus [En ligne], n° 1 [http://corpus.revues.org/11].
– 2004a, Paroles de président : Jacques Chirac, 1995-2003, et le discours présidentiel
sous la Ve République, Paris, Honoré Champion.
– 2004b, « Formation(s) discursive(s) et discours politique : l’exemplarité des dis-
cours communistes versus bourgeois durant l’entre-deux-guerres », Texto ! Textes
& Cultures [revue en ligne]. URL [http://www.revue-texto.net/Inedits/Mayaffre/
Mayaffre_Formations.html].
– 2008, « Quand travail, famille, patrie co-occurent dans le discours de Nicolas
Sarkozy. Étude de cas et réflexion théorique sur la co-occurrence », JADT’2008,
Lyon, 2008, Presses universitaires de Lyon, p. 811-822 [http://lexicometrica.univ-
paris3.fr/jadt/jadt2008/pdf/mayaffre.pdf].
– 2012, Nicolas Sarkozy. Mesure et démesure du discours (2007-2012), Paris, Presses
de Sciences Po.
– 2014a, « ’’ça suffit comme ça ! ’’. La fausse opposition quantitatif/qualitatif à l’épreuve
du discours sarkozyste », Corela [en ligne], n° 15 [http://corela.revues.org/3543].
– 2014b, « Plaidoyer en faveur de l’Analyse de Données co(n)Textuelles. Parcours
cooccurrentiels dans le discours présidentiel français (1958-2014) », in Actes
JADT’2014, Paris, 2014 [http://lexicometrica.univ-paris3.fr/jadt/jadt2014/].
Mayaffre Damon, Viprey Jean-Marie (coord.), 2012, « La Cooccurrence. Du fait sta-
tistique au fait textuel », Corpus [en ligne], n° 12 [https://corpus.revues.org/2183].
233
Mazière Francine, 2005, L’analyse du discours. Histoire et pratiques, Paris, Presses

universitaires de France (Que sais-je ?), réédité en 2010 et 2016.
Micheli Raphaël, 2011, « Quand l’affrontement porte sur les mots en tant que mots :
polémique et réflexivité langagière », Semen [En ligne], n° 31 [http://semen.revues.
org/9164].
Mel’cuk Igor, 1998, « Collocations and lexical functions », in A. Cowie (ed.),
Phraseology. Theory, Analyses, and Applications, Oxford, Oxford University Press,
p. 23-53.
Moirand Sophie, 2004, « L’impossible clôture des corpus médiatiques. La mise au jour
des observables entre catégorisation et contextualisation », TRANEL, n° 40, p. 71-92.
– 2007, Les discours de la presse quotidienne. Observer, analyser, comprendre, Paris,
PUF.
Muller, Charles, 1992 [1973], Initiation aux méthodes de la statistique linguistique,
Paris, Champion.
Née Émilie, 2009, « Insécurité et élections présidentielles dans le journal Le Monde »,
Lexicometrica [revue en ligne], Numéro spécial : Explorations textométriques, vol. 1,
p. 35-53 [http://lexicometrica.univ-paris3.fr/numspeciaux/special8/Presse3.pdf].
– 2012, L’Insécurité en campagne électorale, Paris, Honoré Champion.
Née Émilie, Sitri Frédérique, Fleury Serge, 2014, « L’annotation du pronom “nous”
dans un corpus de rapports éducatifs. Objectifs, méthodes, résultats », in Actes
JADT’2014, Paris, 2014, p. 495-506 [http://lexicometrica.univ-paris3.fr/jadt/
jadt2014/01-ACTES/41-JADT2014.pdf].
Née Émilie, Sitri Frédérique, Veniard Marie, 2014, « Pour une approche des routines
discursives dans les écrits professionnels », in Actes du CMLF 2014 – 4e Congrès
Mondial de Linguistique Française (vol. 8, p. 2113-2124). EDP Sciences [http://
dx.doi.org/10.1051/shsconf/20140801195].
– 2016, « Les routines, une catégorie pour l’analyse de discours : le cas des rapports
éducatifs », Lidil, n° 53, p. 71-93.
Née Émilie, Sitri Frédérique, Veniard Marie, Fleury Serge (2017, sous presse),
« Routines discursives et séquentialité dans des écrits professionnels : la mise
au jour d’une séquence évaluative ? », Corpus, n° 15, « Segments et séquences
textuelles : méthodologie et caractérisation », numéro coordonné par Marion
Bendinelli.
Née Émilie et Veniard Marie, 2012, « Analyse du Discours à Entrée Lexicale
(A.D.E.L.) : le renouveau par la sémantique ? », Langage & Société, n° 140, p. 15-28
[https://www.cairn.info/revue-langage-et-societe-2012-2-page-15.htm].
Paveau Marie-Anne, 2012, « Activités langagières et technologie discursive. L’exemple
du réseau de micro-blogging Twitter », communication au Colloque de la VALS-
ASLA, Le rôle des pratiques langagières dans la constitution des espaces sociaux plu-
riels d’aujourd’hui : un défi pour la linguistique appliquée, université de Lausanne,
1er-3 février 2012 [http://penseedudiscours.hypotheses.org/8338].
– 2013a, « Genre de discours et technologie discursive. Tweet, twittécriture et twittéra-
ture », Pratiques, p. 7-30 [https://hal.archives-ouvertes.fr/hal-00859064/document].
– 2013b, « Analyse discursive des réseaux sociaux numériques [Dictionnaire] », billet
du carnet de recherche Technologie discursive, 10/05/2013, mis à jour le 13/07/2015
[https://technodiscours.hypotheses.org/431].
Pêcheux Michel, 1969, « Analyse automatique du discours », in Maldidier Denise,
1990, L’inquiétude du discours. Textes de Michel Pêcheux, Paris, Édition des cendres,
p. 98-131.
234
Bibliographie
– 1979, « Effets discursifs liés au fonctionnement des relatives en français », in

Maldidier Denise, 1990, L’inquiétude du discours. Textes de Michel Pêcheux, Paris,
Édition des cendres, p. 273-280.
Pêcheux Michel, 1983, « Informatique et analyse de discours », in Maldidier Denise,
1990, L’inquiétude du discours. Textes de Michel Pêcheux, Paris, Édition des cendres,
p. 295-302.
Pincemin Bénédicte, 2012, « Hétérogénéité des corpus et textométrie », Langages,
2012/3, n° 187, p. 13-26 [https://www.cairn.info/revue-langages-2012-3-page-13.
html].
Pincemin Bénédicte, Heiden Serge, Lay Marie-Hélène, Leblanc Jean-Marc, Viprey
Jean-Marie, 2010, « Fonctionnalités textométriques : proposition de typologie selon
un point de vue utilisateur », in Actes JADT’2010, Rome, 2010 [http://lexicometrica.
univ-paris3.fr/jadt/jadt2010/allegati/JADT-2010-0341-0354_023-Pincemin.pdf].
Poibeau Thierry, 2014, « Le traitement automatique des langues pour les sciences
sociales : quelques éléments de réflexion à partir d’expériences récentes », Réseaux,
n° 188, Vol. 32, Méthodes digitales [https://hal.archives-ouvertes.fr/hal-01184549/
document].
Poudat Céline, 2006, « Étude contrastive de l’article scientifique de revue linguistique
dans une perspective d’analyse des genres », Texto ! Textes & Cultures [en ligne],
septembre-décembre 2006, vol. XI, n° 3-4 [http://www.revue-texto.net/Corpus/
Publications/Poudat/Etude.html].
– 2014, « Du corpus au genre : l’exemple de linguistique », in Ablali Driss, Badir,
Sémir, Ducard Dominique, Documents, textes, œuvres. Perspectives sémiotiques,
p. 193-208.
Poudat Céline, Landragin Frédéric, 2017, Explorer un corpus textuel. Méthodes,
pratiques, outils, Bruxelles, De Boeck.
Poudat Céline, Rinck Fanny, 2006, « Contrastes internes et variations stylistiques du
genre de l’article scientifique de linguistique », in Actes des JADT’2006, Besançon,
2006 [http://lexicometrica.univ-paris3.fr/jadt/jadt2006/PDF/II-070.pdf].
Poudat Céline, Vanni Laurent, Grabar Natalia, 2016, « How to explore conflicts
in French Wikipedia talk pages ? », in Actes JADT’2016, Nice, 2016, p. 645-656
[https://jadt2016.sciencesconf.org/78404].
Poulard Fabien, Waszak Thierry, Hernandez Nicolas et Bellot Patrice, 2008,
« Repérage de citations, classification des styles de discours rapporté et identifica-
tion des constituants citationnels en écrits journalistiques », in Actes TALN 2008
[http://www.atala.org/taln_archives/TALN/TALN-2008/taln-2008-court-015.pdf].
Quéré Louis, 2013, « Les formes de l’événement. Quelques considérations prag-
matiques », Mediazioni, n° 15 [http://www.mediazioni.sitlec.unibo.it/index.php/
no-15-special-issue-2013/86-les-formes-de-levenement/222-les-formes-de-levene-
ment.html].
Rastier François, éd., 1995, L’analyse thématique des données textuelles. L’exemple des
sentiments, Paris, Didier Erudition.
Rastier François, Pincemin Bénédicte, 1999, « Des genres à l’intertexte », Cahiers de
praxématique, n° 33. p. 83-111 [https://praxematique.revues.org/1974].
Reinert Max, 1999, « Quelques interrogations à propos de l’“objet” d’une analyse de
discours de type statistique et de la réponse “Alceste” », Langage & société, n° 90,
p. 57-70 [http://www.persee.fr/doc/lsoc_0181-4095_1999_num_90_1_2897].
– 1993, « Les “mondes lexicaux” et leur logique », Langage & société, n° 66, p. 5-39
[http://www.persee.fr/doc/lsoc_0181-4095_1993_num_66_1_2632].
235
Rémi-Giraud Sylvianne, 2010, « Sémantique lexicale et langages du politique. Le

paradoxe d’un mariage difficile ? », Mots, n° 94, p. 165-173 [https://mots.revues.
org/19882].
Ricoeur Paul, 1991, « Événement et sens », Raisons pratiques, n° 2, p. 41-56.
Rinck Fanny et Tutin Agnès, 2007, « Annoter la polyphonie dans les textes : le cas
des passages entre guillemets », Corpus, n° 6, p. 79-100 [https://corpus.revues.
org/1102].
Romano Claude, 1998, L’événement et le monde, Paris, PUF.
Salem André, 1987, Pratique des segments répétés. Essai de statistique textuelle, Paris,
Klincksieck.
– 1986, « Segments répétés et analyse statistique des données textuelles »,
Histoire & Mesure, n° 1 – n° 2, p. 5-28 [http://www.persee.fr/doc/hism_0982-
1783_1986_num_1_2_1518].
– 1988, « Approches du temps lexical. Statistique textuelle et séries chrono-
logiques », Mots, n° 17, p. 105-143 [http://www.persee.fr/doc/mots_0243-
6450_1988_num_17_1_1401].
– 1993, « De travailleurs à salariés. Repères pour une étude de l’évolution du vocabulaire
syndical (1971-1990) », Mots, n° 36, septembre, Un demi-siècle de vocabulaire syndi-
cal, p. 74-83 [http://www.persee.fr/doc/mots_0243-6450_1993_num_36_1_1848].
Sandré Marion, 2013, Analyser les discours oraux, Paris, Armand Colin.
Schröter Melani et Veniard Marie, 2016, « Contrastive Analysis of Keywords in
Discourses. Intégration and Integration in French and German discourses about
migration », International Journal of Language and Culture, n° 3/1, p. 1-33.
Sinclair John, 2004, Trust the text. Language, corpus and discourse, Routledge.
Sitri Frédérique, 2013, « Une lecture événementielle du verbe “pouvoir” dans des
rapports de travailleurs sociaux », in Londei D., Moirand S., Reboul-Touré S. and
Reggiani L. (éd.), Dire l’événement. Langage, mémoire, société, Presses Sorbonne
Nouvelle, Paris, p. 73-84.
Sitri Frédérique, Tutin Agnès (éd.), 2016, « Phraséologie et genre de discours »,
Lidil, n° 53.
Todirascu Amalia, Tutin Agnès, 2012, « Premier inventaire des corpus avec annota-
tion », document de travail du consortium Corpus écrits [https://groupes.renater.
fr/wiki/corpus-ecrits/_media/public/premier_inventaire_des_corpus_avec_annota-
tion_fr_disponibles_ou_interrogeables_en_ligne_vf.pdf].
Tournier Maurice, 1996, « Français à l’extrême-droite, un mot habité », in Rémi-
Giraud S. et Rétat P. (éd.), Les mots de la nation, Presses universitaires de Lyon,
Lyon, p. 65-81.
– 2002, Des sources du sens. Propos d’étymologie sociale, vol. 3, Lyon, ENS Éditions.
Tutin Agnès, 2013, « Les collocations lexicales : une relation essentiellement binaire
définie par la relation prédicat-argument », Langages, n° 189, p. 47-63
Tutin Agnès, Kraif Olivier, 2016, « Routines sémantico-rhétoriques dans l’écrit scien-
tifique de sciences humaines : l’apport des arbres lexico-syntaxiques récurrents »,
Lidil, n° 53, p. 119-141.
Valette Mathieu, 2004, « Détection et interprétation automatique de contenus illici-
tes préjudiciables sur Internet », in Approches Sémantiques du Document Numérique,
Actes du 7e Colloque International sur le Document Electronique, 22-25 juin 2004,
Enjalbert P. et Gaio M. (éd.), p. 215-230.
Veniard Marie, 2013a, La nomination des événements dans la presse. Essai de sémanti-
que discursive, Besançon, Presses universitaires de Franche-Comté.
236
Bibliographie
– 2013b, « Du profil lexico-discursif de crise à la construction du sens social d’un événe-

ment », in Londei D., Moirand S., Reboul-Touré S. and Reggiani L. (éd.), Dire l’évé-
nement. Langage, mémoire, société, Presses Sorbonne Nouvelle, Paris, p. 221-232.
– 2016, « Manifestations discursives de l’identité professionnelle des éducateurs spé-
cialisés », Langage & Société, n° 156, p. 77-96.
Veniard Marie, Fleury Serge, 2016, « Les manifestations textométriques de la
saillance lexicale. Expérimentations et tentative de caractérisation », in Actes
JADT’2016, Nice, 2016 [http://lexicometrica.univ-paris3.fr/jadt/jadt2016/01-
ACTES/83275/83275.pdf].
Veronis Jean, 2000, « Annotation automatique de corpus : panorama et état de la
technique », in Pierrel J.-M. (éd.), Ingénierie des langues, p. 111-129, Paris, Éditions
Hermès.
Viprey Jean-Marie, 2006, « Structure non-séquentielle des textes », Langages, n° 163,
p. 71-85 [http://www.persee.fr/doc/lgge_0458-726x_2006_num_40_163_2684].
Volochinov Valentin Nicolaïevitch, 2010 (1929), Marxisme et philosophie du langage,
nouvelle traduction de P. Sériot et I. Tylkowski, Limoges, Lambert Lucas.
Zimina Maria, Fleury Serge, 2014, « Trameur : A Framework for Annotated Text
Corpora Exploration », in Proceedings of COLING 2014, the 25th International
Conference on Computational Linguistics : System Demonstrations, August 2014,
Dublin, Ireland, p. 57-61 [http://www.aclweb.org/anthology/C14-2013.pdf].
237
INDEX
Adresse au lecteur : l’index a été pensé comme ressource pour le lecteur

afin de pouvoir circuler dans l’ouvrage, approfondir certains points. C’est
pourquoi il met délibérément sur le même plan des notions et des termes
techniques. Il rassemble des notions, des termes spécifiques à l’analyse du
discours ou la statistique textuelle, ainsi que des noms d’outils.
A Caractères délimiteurs, non-délimiteurs :

Alceste (outil) : 84-85, 91-92, 124-131, 79-81, 91-92, 104-105, 147, 150, 197,
160, 166, 168, 194 211-212
Analyse de contenu : 13, 84, 132, 164 Caractères spéciaux : 91, 203
Analyse de données textuelles (ADT) : 11, Carte des sections : 146-152, 197
16, 18, 81, 85, 87, 103, 118, 124, 129 Catégoriser/catégorisation (mor-
Analyse factorielle des correspondances phosyntaxique) : voir Catégorie
(AFC) : 114, 117, 123-125, 142, 152- morphosyntaxique.
159 Catégorie morphosyntaxique : 82, 85-87
– (Fiche pratique) : 175, 218 (annotation), 124, 107-108, 121, 144-
Annoter/Annotation/Types d’annotation : 145
14-15, 63, 80, 85-88, 100, 145 Classification descendante : 125-127,
Archive : 28, 45-48, 65, 67-70 166-167
Astartex (outil) : 117, 128, 160 Codage des caractères : 75-77, 80
Automatisation : 14, 63, 93, 131 Collocation : 114
Commande : 22-26
B – (Fiches pratiques), 206, 213
Balise/Balisage : 63, 78, 88, 90-93, 100- Concaténation : 88, 207
101, 148, 150, 198, 205, 215 (pour – (Fiche pratique) 213
aller plus loin), 216 (jalon textuel) Concordance, concordancier : 125, 142-
143, 145-146
C Cooccurrence : 84, 113, 113-117, 121,
Calcul des spécificités 44, 94, 125, 141- 183, 185
142, 154, 158, 172-173, 175-177, Cooccurrence contextuelle spécifique :
184, 186 114
239
Cooccurrence généralisée : 117-118, Factiva (base de données) : 54, 65, 68-70,

168-169, 190 73, 75, 78, 96, 123, 191
Cordial (Outil) : 81, 86, 106-107, 131- Flux : RSS 70
132 Format : 28, 41, 63, 68, 75-78, 90, 92,
Corpus : 37, 41-44 148-149, 208, 215
– corpus comparatifs/contrastifs : 43 Formatage des données : 63, 75, 90-92
– moments de corpus : 45 Forme canonique : 81, 106
– corpus exploratoire : 54, 96 Forme-cible/Expression-pôle : 74, 171,
– corpus réflexif : 47 174, 184, 198-199
– corpus web : 58-60 Forme graphique : 15, 82-83, 104-106,
– corpus politique : 97-100 121, 124, 191
– corpus de presse : 64-75 Formule (discursive) : 51, 56, 64, 89,
– délimitation du corpus : 65, 97 190, 199
– recueil du corpus : 68, 73, 95-96, 98 Frantext (corpus de français écrit) :
– regroupement opportuniste vs rai- 46-47, 66
sonné : 65 Fréquence : 13, 20, 24, 89, 135, 137-
– collection de textes : 65, 68 138, 141
– réservoir de corpus : 65 – (fréquence relative) : 139
– corpus lemmatisé : 81, 83 – (densité fréquentielle) : 197-198
– corpus catégorisé : 80, 97, 99
Corpus de référence du français parlé G
(CRFP, DELIC) : 66 Google Ngram viewer (outil) : 19, 36-37
Corpus de référence du français parlé Gromoteur (outil) : 99
parisien (CFPP2000) : 66 – (Fiche pratique) : 217
Cotexte : 44, 165, 170-171, 174, 181- Groupe de formes : 119-120
185
Critical Discourse Analysis (CDA) : 12 H
Hyperbase et Webhyperbase (outil) : 66,
D 114, 117, 124-125, 128, 160
Délimiteur (voir caractère délimiteur)
Délinéarisation : 14, 171 I
Diagramme de Pareto : 137-138 Index/Index hiérarchique : 24-25, 31, 33,
Distribution/ventilation de fréquences : 135, 137, 157
125, 139-140, 150, 170, 191 Interdiscours : 12
Inventaire distributionnel/lexical : 130
E Iramuteq (outil) : 36, 82, 92, 125, 128-
Encodage : 63 129, 160, 166
Entrée lexicale : 172-181
Étiquetage (morphosyntaxique, séman- L
tique, etc.)/Étiqueteurs : 85-86, 107- Lemmatiser/Lemmatisation : voir Lemme
108 Lemme : 81-82, 83-85, 104, 106-
Europresse (base de données) : 54, 65, 109, 113, 115, 118-119, 121, 126,
68-70, 75, 191 144
Expression régulière (Regex) : 24-27, 146 Le Trameur (outil) : 86, 91-92, 108, 116,
– (Fiche pratique) : 203 119, 125, 144, 146-147, 149, 157-160,
175, 180, 216-217
F Lexico (outil) 76-77, 81, 91-92, 105, 111,
Fenêtre de commande : 22, 24, 26 119-120, 124-125, 130, 136, 138, 146,
– (Fiche pratique) : 206 160, 172, 177, 191, 197, 216
240
Index
Lexicométrie : 10-11, 14, 15, 18, 44-46, Répétition/répétitivité : 111-113, 119,

53, 83, 87, 103-105, 110-111, 114, 137, 180, 202
135, 152, 172, 174, 181-182, 226 Routine (discursive/d’écriture) : 87, 108,
Linguistique de corpus : 11, 15-16, 44, 111, 118-119, 144, 188, 191, 192,
52, 66, 85, 87, 114, 118, 182, 185 194
Linguistique « instrumentée » : 15 RTF (Rich Text Format) : 75
Logométrie : 49
S
M Saillance lexicale : 95, 196
Majuscule : 75, 80, 105, 145, 187, 203 Script : 78, 215
Métadonnées : 43, 85 Segmentation : 26, 80, 81, 105, 106, 125,
Modèle hypergéométrique : 114-115, 135, 138, 165, 223
141 Segment répété/segment figé/segment
Moment discursif : 54, 196-197 semi-figé : 106, 109, 110-112, 118,
Mondes lexicaux/univers lexicaux : 124, 121, 189, 191-192
126, 166 Sémantique de corpus : 50
Motif : 24-26, 100, 108, 118-119, 121, Sémantique discursive : 172, 181-185
144, 194, 203, 205, 207, 212 Sémantique interprétative : 11, 48-49,
Mots-clés : 31, 57, 73-74, 95-96, 165 114, 193
Mots composés : 80, 81, 105, 106, 223 Série textuelle chronologique : 71, 89,
Mot-notion : 63-64 91, 96, 172, 173
Nettoyage des données : 75, 99 Séquentialité : 113
Sloganisation (slogan) : 64, 111, 188-
N 192
N-gramme : 109, 121 Sociolecte : 174
Norme de dépouillement : 103, 106, Spécificité (positive/négative) : 115, 141,
137 170, 177, 178
Notepad++ (outil éditeur) : 20, 22-24, Statistique linguistique et lexicale : 10,
26-27, 33, 76-80, 91-93, 208 84
Nuage de mots : 29, 32-35 Structuration des données : 88-92
O T
Occurrence : 142, 204 Tableau lexical : 125, 135, 138-139,
Ontologies sémantiques : 131 153-154, 157, 221, 223.
Texte brut : 75-77
P TextObserver (outil) : 125, 144-146, 160
Parties du discours : 107 Textométrie : 11
Partition/Partitionnement : 89-90, 138, Thème.s : 28-29, 35-36, 55, 60, 94, 127,
156-158, 164, 176, 180, 218-222, 131, 160, 164, 165-171
226 Topographie/topologie textuelle : 146-
Patron (lexico-syntaxique) : 88, 108, 118- 150, 197
119, 121, 144, 146, 192 Traitement automatique des langues
PDF (Portable Document Format) : (TAL) : 11, 101, 109, 118, 200
68-69, 75, 208-209 Transcoder : 80
Phraséologie : 100, 108, 111, 118, 188- TreeTagger (outil) : 81-82, 86, 106-108
189 Tropes (outil) : 131-132, 160, 165
TXM (outil) : 25, 144, 145, 160
R
Racine/Racinisation : 95, 109, 121, 126
241
U W
Unités polylexicales : 81, 106 Winbrill (outil) : 81, 106
Unités séquentielles : 109, 118 Wordle (outil) : 30, 31-35
Unité topique/non topique : 51, 56, 64 XML (Extensible Markup Language) :
Unix (Outil) : 22, 24-26, 28, 93, 135, 68, 91, 92, 148, 149, 150
206-208, 213
242
LES AUTEURS
Christine Barats, maître de conférences en sciences de l’information et de la

communication (université Paris-Descartes, laboratoire Céditec), est spécialiste d’ana-
lyse de discours. Elle a dirigé un Manuel d’analyse du web (Collection U, Armand
Colin, 2013) dans lequel elle a co-écrit avec Jean-Marc Leblanc et Pierre Fiala un
chapitre : « Approches textométriques du web : corpus et outils ». Elle utilise différents
outils de statistique textuelle dans le cadre de ses recherches (TextObserver, Alceste,
Lexico).
Serge Fleury est maître de conférences en linguistique informatique et Traitement
Automatique des Langues (université Sorbonne Nouvelle-Paris 3, laboratoire
CLESTHIA). Il participe au développement du logiciel Lexico3 et a aussi conçu les
logiciels mkAlign (explorations textométriques sur des corpus alignés) et Le Trameur
(explorations textométriques sur des corpus richement annotés). Il est responsable
du master Traitement Automatique des Langues à l’université Sorbonne nouvelle-
Paris 3.
Jean-Marc Leblanc, maître de conférence en sciences du langage (université Paris-
Est Créteil, laboratoire Céditec), est spécialiste du traitement automatisé des discours
(lexicométrie, textométrie). Il participe au développement du portail Textopol [http://
textopol.u-pec.fr], un dispositif de recherche et de formation en lexicométrie pour le
traitement automatisé des discours politiques. Il s’intéresse plus particulièrement au
discours politique et à sa forme rituelle et poursuit parallèlement une réflexion métho-
dologique et expérimentale sur les outils logiciels et statistiques et sur la démarche
lexicométrique. Ces réflexions l’ont amené à s’intéresser à l’ergonomie des interfaces
et à l’implémentation du multimédia dans la visualisation des données textuelles et
des résultats. Il a ainsi conçu le logiciel TextObserver.
Emilie Née, maître de conférences en sciences du langage (université Paris-Est
Créteil, laboratoire Céditec), est spécialiste d’analyse du discours. Elle a d’abord
travaillé dans le champ de la lexicologie politique en menant une recherche doctorale
sur l’usage médiatique du mot insécurité dans un contexte électoral. Elle a alors adapté
les méthodes de la lexicométrie à l’analyse d’un grand corpus de presse (Née, 2012).
Depuis plusieurs années et en collaboration avec S. Fleury, F. Sitri et M. Veniard, elle
243
mène ses recherches sur le repérage semi-automatique et l’analyse d’unités phraséolo-

giques dans le genre professionnel du rapport. Ses différents travaux et collaborations
l’ont peu à peu conduite à amorcer une réflexion méthodologique et épistémologique
sur la convocation de l’outil informatique en analyse du discours.
Frédérique Sitri, maître de conférences en sciences du langage (université Paris-
Ouest, laboratoire Modyco), est spécialiste d’analyse du discours. Elle a soutenu une
habilitation à diriger des recherches dont la synthèse s’intitule « Parcours en analyse
du discours : enjeux et méthode. Autour d’écrits professionnels » où elle propose une
réflexion sur des concepts-clefs de l’analyse du discours, en particulier ceux d’interdis-
cours et de genre de discours. Depuis quelques années, elle utilise dans ses recherches
les outils d’exploration textométrique.
Marie Veniard, maître de conférences en sciences du langage (université Paris-
Descartes, laboratoire EDA), est spécialiste d’analyse de discours. Ses réflexions
portent sur le lexique (les mots) comme voie d’entrée dans les discours, ainsi que
sur la phraséologie, ce qui la conduit à combiner approche qualitative et approche
quantitative (textométrie). Le cadrage de cette approche est présenté dans un ouvrage
intitulé La nomination des événements dans la presse. Essai de sémantique discursive
(Presses universitaires de Franche-Comté, 2013). Ces réflexions sont menées en colla-
boration avec E. Née (Née et Veniard, 2012). Marie Veniard participe actuellement à
un projet international concernant les discours médiatiques sur l’immigration (corpus
de 16 millions de mots, outils utilisés : Le Trameur, Corpus WorkBench Web).
244
TABLE DES MATIÈRES
REMERCIEMENTS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
POUR COMPRENDRE CE QUI VA SUIVRE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
COMMENT LIRE CE LIVRE… . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
CHAPITRE I
COMPTER LES MOTS ? PAS SI SIMPLE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
Quelques idées reçues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Savoir ce que l’on compte : un cas pratique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Quelles données ? Quels outils ? Pour quoi faire ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
Compter avec des nuages de mots ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
Mais où sont passés les mots ? Le cas de Google Ngram Viewer . . . . . . . . . . . . . . . . . . . . 36
CHAPITRE II
CONSTITUER UN CORPUS EN ANALYSE DU DISCOURS,
UN MOMENT CRUCIAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
Le corpus en analyse du discours . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
Principes de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
Le corpus est construit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
Les corpus est contextualisé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
Le corpus est contrastif/comparatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
Le corpus en AD : de la clôture à l’ouverture, de l’homogénéité à l’hétérogénéité . . . . . 44
La notion de « moments de corpus » chez les historiens du discours . . . . . . . . . . . . . . . . . 45
La notion de « corpus réflexif » . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
Les « corpus à géométrie variable » . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
Quelques exemples de structuration du corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
La structuration en genres de discours . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
Structuration selon les sources énonciatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
245
Structuration selon les espaces ou les sphères d’activité . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

Structuration selon les moments discursifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
Le nécessaire croisement des critères . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
Le cas des corpus recueillis sur le web . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
CHAPITRE III
CONSTITUER UN CORPUS EN TROIS SCÉNARIOS . . . . . . . . . . . . . . . . . . . . . . 63
Scénario 1 – Un corpus médiatique autour d’une expression,
d’un énoncé, d’une construction ou d’un mot-notion . . . . . . . . . . . . . . . . . . . . . . . . . 64
Étape 1 – Quel est mon objet d’étude, quel est mon corpus ? . . . . . . . . . . . . . . . . . . . . . . . 64
Choix des observables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
Délimitation du corpus : de la sphère médiatique au corpus de presse . . . . . . . . . . . . . . . 65
Étape 2 – Recueil du corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
Où recueillir les données ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
Comment recueillir les données ? Requêtes et mots-clés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
Étape 3 – Formatage et nettoyage des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
Extensions des fichiers prises en compte par le logiciel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
Codage des caractères . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
Nettoyage des scories . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
Étape 4 – Quelques choix à effectuer dans la préparation des données . . . . . . . . . . . . . 80
Que faire des majuscules ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
Que faire des mots composés ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
Lemmatiser ou ne pas lemmatiser mon corpus ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
Que peut m’apporter une annotation de mon corpus ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
Étape 5 – Concaténation des fichiers, structuration des données, balisage . . . . . . . . . . 88
Concaténation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
Structuration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
Balisage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
Scénario 2 – Un corpus autour d’un thème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
Exemple 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
Exemple 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
Exemple 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
Exemple 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
Exemple 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
Exemple 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
Étapes 3 et 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
Étape 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
Scénario 3 – Un corpus de discours politiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
Où recueillir les données ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
Comment recueillir les données ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
Étape 3 – Formatage et nettoyage des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
Étape 4 – Des choix à effectuer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
Étape 5 – Structuration du corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
246
Table des matières
CHAPITRE IV
COMPTER DANS LES TEXTES, QUELLES UNITÉS ? . . . . . . . . . . . . . . . . . . . 103
Autour du mot : formes graphiques, lemmes,
catégories morphosyntaxiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
La forme graphique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
106
Le lemme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Les parties du discours . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
Aller en deçà du mot ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
Les N-grammes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
Les racines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .109
Au-delà des mots : des unités séquentielles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
Les segments répétés (SR) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
Les associations de mots ou cooccurrences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
Principe. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
La cooccurrence contextuelle spécifique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
La cooccurrence généralisée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
De nouvelles unités séquentielles à définir : les motifs et les routines . . . . . . . . . . . . . 118
Des unités « paradigmatiques » : les groupes de formes . . . . . . . . . . . . . . . . . . . . . 119
CHAPITRE V
QUELS OUTILS LOGICIELS ET POUR QUOI FAIRE ? . . . . . . . . . . . . . . . . . . 123
Repères historiques et épistémologiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
Typologie logicielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
Les outils essentiellement contrastifs et longitudinaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
Les outils proposant une approche structurante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
Les outils reposant sur des ontologies ou des dictionnaires . . . . . . . . . . . . . . . . . . . . . . . 131
Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
Principales méthodes et fonctionnalités (outils contrastifs
et longitudinaux). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
135
Index hiérarchique et tableau lexical. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Distributions (ou ventilations) de fréquences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
141
Calcul des spécificités. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Du nécessaire retour au texte : concordances et cartes topographiques . . . . . . . . . . . 142
142
Concordances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Topographie/Topologie textuelle et carte des sections . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
L’analyse factorielle des correspondances (principes généraux) . . . . . . . . . . . . . 152
Synthèse : exploration méthodique d’un corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
Étape 1 – Conditions de recueil et de constitution du corpus . . . . . . . . . . . . . . . . . . . . . 155
Étape 2 – Caractéristiques quantitatives. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
Étape 3 – Examen de l’index hiérarchique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
Étape 4 – Affinités et contradictions lexicales : analyse factorielle
des correspondances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
Étape 5 – Spécificités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
Autres explorations… . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
247
CHAPITRE VI
PROBLÉMATIQUES D’ANALYSE DU DISCOURS ET MÉTHODES . . . . 163
Thèmes, événements, faits sociaux : de quoi parle le corpus et comment ? . . . 164
Approches déductives et inductives des thèmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
Approche inductive par la classification descendante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
Approche inductive par la cooccurrence généralisée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
Le mot comme témoin. Les analyses du discours à entrée lexicale . . . . . . . . . . 172
Le mot comme témoin d’évolutions socio-historiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
Le mot comme témoin de prises de position . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
Le cotexte et la construction du sens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
Les formes grammaticales et la typographie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
Quand le discours se fige : phraséologie, routines discursives,
sloganisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
Les segments répétés. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
Quelques pistes pour le repérage automatique de « formules ». . . . . . . . . . . . . . . . . . . . 190
Les segments semi-figés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
Comparer et caractériser des discours : la catégorie du genre . . . . . . . . . . . . . . . 193
Discours médiatiques et saillance événementielle . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
La densité fréquentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197
La diffusion d’un signifiant . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
La circulation d’une forme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199
FICHES PRATIQUES ET APPROFONDISSEMENTS . . . . . . . . . . . . . . . . . . . . . . . 203

Fiche pratique 1 – Le langage des expressions régulières . . . . . . . . . . . . . . . . . . . 203
Fiche pratique 2 – Commandes Unix pour manipuler des données . . . . . . . . . 206
Fiche pratique 3 – Concaténation automatique de fichiers . . . . . . . . . . . . . . . . . 213
Fiche pratique 4 – Construire un corpus avec Gromoteur. . . . . . . . . . . . . . . . . . . . . 217
Fiche Approfondissement – En savoir plus sur l’analyse factorielle
des correspondances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218
BIBLIOGRAPHIE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229
INDEX. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239
LES AUTEURS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243
248

OUTILS

Transféré par

Droits d'auteur :

Formats disponibles

OUTILS

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

OUTILS

Transféré par

Droits d'auteur :

Formats disponibles

Méthodes et outils informatiques

pour l’analyse des discours

Jacques C et Martine C,

Collection « Didact Méthodes »

Presses universitaires de Rennes

Structuration de l’ouvrage et sélection du contenu : Christine Barats,

Conception du paratexte : Christine Barats, Émilie Née.

© PRESSES UNIVERSITAIRES DE RENNES

Nous remercions chaleureusement Marie-Anne Paveau et Christian

POUR COMPRENDRE CE QUI VA SUIVRE…

« Un texte ne saurait être assimilé à une masse

Comme le souligne Thierry Poibeau, les chercheurs en Sciences humaines

effet de nombreux chercheurs ont recours aujourd’hui à des outils de traite-

Analyser des données textuelles

Un positionnement en analyse du discours

« risque de danger » est le motif qui conditionne l’intervention de l’État, ainsi

Analyse du discours et informatique

Pour M. Pêcheux, l’informatique est une sorte de garant méthodologique :

et il est admis que l’annotation constitue une ressource qui, à un moment de

Pourquoi un ouvrage sur les méthodes automatisées

et sociales qui s’intéressent au discours. Les auteurs de cet ouvrage, venant

Frédérique Sitri, Christine Barats.

COMMENT LIRE CE LIVRE…

Le chapitre 1 définit des prérequis de base liés à l’utilisation des outils

Note au lecteur sur la terminologie employée

Liste des abréviations utilisées

COMPTER LES MOTS ? PAS SI SIMPLE…

« Maintenant il faut se lancer sur vos propres données ! » C’est souvent ce

Quelques idées reçues…

Savoir ce que l’on compte : un cas pratique

« Nous aurons des lits pleins d’odeurs légères,

Et d’étranges fleurs sur des étagères,

Usant à l’envie leurs chaleurs dernières,

Un soir fait de rose et de bleu mystique,

Et plus tard un Ange, entr’ouvrant les portes,

Fig. 1. – « La mort des amants » dans Microsoft Word.

On dispose alors de la fonctionnalité « statistiques » permettant d’obtenir

Fig. 2. – Fonctionnalité « statistiques » dans Microsoft Word.

Comment lire les statistiques proposées par ce logiciel ? Que disent-elles

Fig. 3. – « La mort des amants » dans l’éditeur Notepad++.

commande est un programme informatique permettant de lancer, à l’aide du

Fig. 4. – Fenêtre de commande Unix : la commande CAT.

gauche vers la suivante et ainsi de suite. Cet empilement de commandes

Fig. 5. – Index des formes graphiques de « La mort des amants » via

L’identification des mots se fait là encore grâce à l’expression régulière

Fig. 6. – Identification des formes graphiques de « La mort des amants »

final, le motif utilisé et la matérialisation globale de ses réalisations permettent

Fig. 7. – Recherche de mots dans Notepad++ via l’expression régulière

Quelles données ? Quels outils ? Pour quoi faire ?

L’analyse du discours, même lorsqu’elle convoque l’outil informatique,

Pour répondre à cette question, il faut résoudre le problème suivant :

En effet, avant de se lancer dans une phase d’analyse automatique de

Compter avec des nuages de mots ?

Parmi tous les outils disponibles et facilement accessibles, l’un d’eux

Fig. 8. – Liste des discours de Nicolas

Disposer comme ici de données directement accessibles et apparemment

Fig. 10. – Index des mots dans Wordle.

 Pour aller plus loin :

On commence par copier un des textes du « corpus global » (Nicolas

Fig. 11. – Préparation du nuage de mots dans Wordle : insertion du texte.