OUTILS
OUTILS
OUTILS
Méthodes
et outils informatiques
pour l’analyse des discours
7
INTRODUCTION
9
Méthodes et outils informatiques pour l’analyse des discours
10
Introduction
au lexique tandis que l’AD, sans pour autant négliger l’unité lexicale, faisait de
la syntaxe (les relatives, les nominalisations) son objet d’observation privilégié.
À l’heure actuelle, les logiciels de lexicométrie évoluent de plus en plus vers la
prise en compte du texte et l’on parle alors plus volontiers de textométrie.
De nombreux travaux se situent également à l’intersection de l’AD et de
la sémantique interprétative, développée par François Rastier, qui vise à
rendre compte du sens des textes. Dans ce cadre, l’interprétation se fait de
façon différentielle, par un jeu d’oppositions, comme en sémantique struc-
turale (on se rappelle peut-être comment Bernard Pottier définit le terme
« chaise » par une combinaison de traits qui le distinguent de « fauteuil » ou
de « tabouret »…). Mais pour F. Rastier, le sens d’un mot ne peut être dissocié
du texte dans lequel il apparaît, du genre dont relève ce texte et du discours
(de la pratique sociale) dont ce genre émane. Sans entrer dans le détail, on
peut dire que la sémantique interprétative se distingue voire s’oppose à l’AD
sur des points de clivage théorique, en particulier la part de la dimension
historique et des contraintes de langue dans la production du sens. Mais étant
donné que la sémantique interprétative d’une part travaille sur des corpus
représentant des genres de discours et d’autre part a recours à l’outillage et en
particulier aux logiciels de textométrie, il arrive fréquemment que des travaux
se situent à l’intersection de la sémantique interprétative et de l’analyse du
discours (voir aussi « Zoom », p. 49-50 et chap. 6).
La plupart des courants/disciplines listés ci-dessus se retrouvent globa-
lement dans l’Analyse de Données Textuelles (ADT), dénomination
englobante et consensuelle qui regroupe une communauté de chercheurs se
retrouvant régulièrement dans le cadre des « Journées d’Analyse de Données
Textuelles » (JADT). Les chercheurs en ADT analysent des corpus constitués
de textes entiers considérés comme représentatifs (d’un genre, d’une pratique,
d’une sphère sociale, d’un locuteur, voir chap. 2), dans une visée herméneu-
tique (en relation avec le sens des textes), et ont recours à l’informatique
comme outil et comme méthode. Sur tous ces points l’ADT se distingue ainsi
du Traitement automatique des langues (TAL), qui vise généralement à
produire des outils informatiques permettant de traiter automatiquement des
données langagières, dans une visée le plus souvent applicative (industrielle).
L’ADT comme l’AD se distingue aussi de la linguistique de corpus, qui,
dans la tradition de la linguistique empirique britannique, vise à décrire les
usages de la langue à travers l’étude de « très grands corpus ». Même si les
outils mis en place par la linguistique de corpus, ainsi que l’attention prêtée
au contexte dans l’interprétation du sens, peuvent concerner des chercheurs
en AD, on voit que l’objectif est ici différent : il s’agit de décrire la langue dont
le corpus représente un échantillon.
Par rapport à ces différents domaines de recherche, essayons maintenant
de voir quelle peut être la spécificité d’un positionnement en AD.
11
Méthodes et outils informatiques pour l’analyse des discours
12
Introduction
13
Méthodes et outils informatiques pour l’analyse des discours
14
Introduction
15
Méthodes et outils informatiques pour l’analyse des discours
16
GUIDE DE LECTURE
17
Méthodes et outils informatiques pour l’analyse des discours
18
CHAPITRE I
19
Méthodes et outils informatiques pour l’analyse des discours
20
Compter les mots ? Pas si simple…
Charles Baudelaire.
On peut lire les lignes du poème et noter, sur un support papier par
exemple, la fréquence d’apparition de chaque mot repéré à la lecture de ce
texte. On peut aussi construire (ou récupérer) un fichier électronique conte-
nant ce même texte et l’éditer dans un éditeur tel que Microsoft Word.
21
Méthodes et outils informatiques pour l’analyse des discours
22
Compter les mots ? Pas si simple…
23
Méthodes et outils informatiques pour l’analyse des discours
24
Compter les mots ? Pas si simple…
25
Méthodes et outils informatiques pour l’analyse des discours
26
Compter les mots ? Pas si simple…
que l’on peut faire, c’est que Word compte les espaces et non les mots… Il
suffit pour s’en convaincre de supprimer à la ligne 15 l’espace entre adieux et
le point-virgule final et Word retrouvera le « bon compte ».
Cette expérience illustre une première difficulté et permet de tirer un
premier enseignement. Compter les mots (ou d’autres types d’unités)
« ne va pas de soi ». C’est souvent faire des choix, cela implique de bien
définir ce que l’on veut compter et de s’assurer que les décomptes obtenus
correspondent bien aux choix de départ.
C’est d’autant plus important que le problème envisagé ci-dessus ne
consiste qu’à compter globalement les mots d’un texte. Or les problémati-
ques développées en AD nécessitent de résoudre des difficultés bien plus
complexes : dans notre exemple, cela pourrait conduire à ne compter que les
pronoms personnels, ou les verbes, ou à contraster le vocabulaire entre les
parties du texte (entre les différentes strophes du poème par exemple).
La comparaison entre les stratégies mises en œuvre par différents outils
pour compter les mots dans un même texte révèle aussi une réelle diver-
gence d’approche dans les dispositifs informatiques disponibles.
Le bouton « statistiques » directement accessible dans Word peut laisser
27
Méthodes et outils informatiques pour l’analyse des discours
croire à l’utilisateur qu’il suffit de cliquer sur une icône pour produire une
information pertinente : le résultat est produit sans explication, fourni « tel
quel » à l’utilisateur qui a priori doit s’en satisfaire. A contrario, on a vu que
la suite de commandes Unix permet le contrôle et la maîtrise du résultat et
nécessite pour cela des savoirs de différentes natures pour élaborer la mise en
œuvre de cette solution – ici, la maîtrise d’un certain nombre de commandes
Unix, de leur articulation et la connaissance des expressions régulières. Les
résultats obtenus peuvent cependant être insatisfaisants pour certaines
tâches.
On peut tirer un deuxième enseignement de cette courte démonstration :
lorsqu’on fait appel à un outil informatique pour analyser des données
textuelles, il faut comprendre a minima comment cet outil travaille
sur les données qu’on lui soumet et comment il les utilise dans ses
calculs. Cette sélection du « bon outil » ne peut en général se faire que si
l’on dispose déjà d’un minimum d’informations sur les fonctionnalités et les
contraintes de format des données propres à tel ou tel outil.
28
Compter les mots ? Pas si simple…
29
Méthodes et outils informatiques pour l’analyse des discours
30
Compter les mots ? Pas si simple…
Fig. 9. – Wordle.
31
Méthodes et outils informatiques pour l’analyse des discours
32
Compter les mots ? Pas si simple…
Or, si l’on regarde de plus près, on constate que le mot plus ne correspond
pas du tout dans ce texte au slogan de campagne du candidat ! Un retour au
contexte (au « texte » ici) le montre.
Fig. 13. – Contexte du mot plus dans le discours de campagne de N. Sarkozy du 22/04/07.
33
Méthodes et outils informatiques pour l’analyse des discours
plus près les contextes de ce mot, ainsi que nous venons de le faire par un
retour au texte. Mais comme l’expérience précédente nous le montre, on ne
peut se contenter de simples comptages « graphiques » ni d’un simple index
tel que ceux produits par Wordle.
Un autre détail attire notre attention. Il « manque » des mots dans ce
nuage. En y regardant de plus près, il apparaît assez clairement que ce premier
nuage ne nous montre pas tous les mots du texte. Wordle ne les compterait-il
donc pas tous ? Pour le vérifier, on reprend le poème précédent, « La mort
des amants » de Charles Baudelaire, et l’on demande à Wordle de générer un
nouveau nuage de mots.
Fig. 15. – Nuage de mots effectué sur « La mort des amants » via Wordle.
Il apparaît plus facilement ici que les mots retenus par défaut n’intègrent
pas les mots grammaticaux qu’on appelle aussi mots-outils (de, ces, nous,
nos, etc.).
La fenêtre de la figure 16 indique qu’il est possible de modifier le paramé-
trage permettant d’inhiber la différence de casse des caractères – il s’agit alors
de compter les mots en convertissant tous les caractères en minuscule – et
également d’intégrer dans les calculs « les mots communs » : ces manipula-
tions modifient alors le nuage. La figure 17 représente un nuage généré à partir
d’un texte correspondant au discours tenu par Nicolas Sarkozy au premier tour
des élections présidentielles 2007.
On peut se sentir franchement désemparé face à une telle mosaïque de
mots… Que nous dit-elle du sens du texte ? D’aucuns pourront certes se
34
Compter les mots ? Pas si simple…
rassurer quelques instants en accrochant leur regard aux unités saillantes que
ce nuage fait ressortir. Parmi elles, on remarque un pronom, je, qui s’avère tout
à fait pertinent pour l’analyse du discours politique. Certes, ce mot ne corres-
pond pas à un « thème », mais sa fréquence semble suffisamment importante
pour qu’il puisse être intégré à l’analyse et être observé en parallèle à une
analyse thématique. On peut saisir à cette occasion la dimension heuristique
des outils informatiques dont nous traitons dans cet ouvrage. En revanche, où
Fig. 17. – Nuage de mots effectué via Wordle sur le discours de cam-
pagne du 22/04/07 de N. Sarkozy, intégrant les « mots communs ».
35
Méthodes et outils informatiques pour l’analyse des discours
sont passés les thèmes ? Que dire à partir d’une telle représentation du texte ?
Comment la faire parler ? Peut-on même en dire quelque chose ?
Cette deuxième expérience pointe aussi l’importance de l’accès
aux données lorsqu’on se lance dans une analyse de données textuelles,
de surcroît dans une analyse du discours outillée par l’informatique.
C’est ce sur quoi nous allons maintenant insister, à partir d’une dernière
expérience.
36
Compter les mots ? Pas si simple…
37
Méthodes et outils informatiques pour l’analyse des discours
38
Compter les mots ? Pas si simple…
39
CHAPITRE II
Principes de base
41
Méthodes et outils informatiques pour l’analyse des discours
42
Constituer un corpus en analyse du discours, un moment crucial
Indications bibliographiques
43
Méthodes et outils informatiques pour l’analyse des discours
Alors que, dans ses premiers travaux, l’AD prônait la constitution de corpus
clos, déterminés par des « conditions de production stables et homogènes »
(Pêcheux, 1983, in Maldidier 1990, p. 295-302), elle en vient rapidement à
réfuter cette clôture du corpus en prenant en compte le caractère constituti-
vement interdiscursif et dialogique du discours (cf. p. 12). Cette nécessaire
ouverture est en particulier prônée par les historiens qui travaillent en AD,
comme Jacques Guilhaumou qui explique que « “le tournant interprétatif” de
l’analyse de discours révoque le corpus clos, remet en cause la confrontation
entre le corpus et le hors-corpus » (Guilhaumou, 2002, p. 1). Cette position
est partagée par Damon Mayaffre pour qui le recours au « hors corpus » est
nécessaire à l’interprétation du corpus :
« La linguistique de corpus ou la sémantique du discours ont définitivement
démontré que pas plus qu’on ne pouvait comprendre un mot sans la phrase
et la phrase sans le discours, on ne pouvait comprendre le discours sans
l’interdiscours, le texte sans le co-texte (sans même parler ici du hors-
texte), c’est-à-dire aussi et de manière plus générale, le corpus sans le
hors corpus » (Mayaffre, 2002, p. 5. Le gras est de l’auteur).
44
Constituer un corpus en analyse du discours, un moment crucial
45
Méthodes et outils informatiques pour l’analyse des discours
Une recherche – « L’insécurité », de la sphère politique
à la sphère médiatique :
Dans sa thèse, située en AD et plus particulièrement en lexicomé-
trie et lexicologie politique, Émilie Née propose d’étudier l’usage du
mot insécurité dans les médias pendant la campagne pour les élections
présidentielles 2001-2002. Elle réunit dans un premier temps un grand
corpus de travail à partir des archives numériques et papier du journal
Le Monde. Le caractère notionnel du mot insécurité, ses liens avec la
notion politique de sécurité, son épaisseur dialogique et la mémoire
des discours que ce mot transporte avec lui, l’amènent à reconstituer
sur une très longue période le trajet sémantique et discursif du triplet
sûreté-sécurité-insécurité et à mettre en série et en dialogue des énoncés
appartenant à des périodes, à des sphères et à des genres divers.
En particulier, le corpus de travail du Monde – qui peut lui-même
être envisagé comme un « moment de corpus » – est mis en regard
46
Constituer un corpus en analyse du discours, un moment crucial
Indication bibliographique
47
Méthodes et outils informatiques pour l’analyse des discours
48
Constituer un corpus en analyse du discours, un moment crucial
49
Méthodes et outils informatiques pour l’analyse des discours
Indications bibliographiques
50
Constituer un corpus en analyse du discours, un moment crucial
51
Méthodes et outils informatiques pour l’analyse des discours
nations, en partie extra-linguistiques, qui pèsent sur elle. Dans l’ensemble des
disciplines de l’ADT et même de la linguistique de corpus, les corpus sont
fréquemment constitués sur une base générique.
Une telle démarche semble d’autant plus « évidente » qu’il est facile à
première vue d’identifier les genres : les locuteurs regroupent naturellement
leurs productions dans des classes auxquelles ils donnent des noms. Cette
facilité est cependant souvent trompeuse, et l’évidence qu’il peut y avoir à
saisir des genres par des « noms de genre » et à regrouper des textes sur cette
base peut poser problème, car il n’y a pas nécessairement coïncidence entre
le nom, la fonction sociale des textes et leurs caractéristiques langagières
(Branca-Rosoff, 1999). Prenons l’exemple de l’éditorial. Il s’agit d’une rubrique
en général bien identifiable dans la presse écrite parce qu’elle occupe une
place fixe dans le journal et qu’elle est souvent accompagnée dans le paratexte
de la mention « éditorial ». En faisant varier les supports (presse quotidienne,
presse hebdomadaire, presse en ligne, presse spécialisée…), on observe cepen-
dant des différences importantes dans la taille, les thématiques abordées, la
prise en charge énonciative. Si l’on cherche à préciser les caractéristiques
linguistiques de l’éditorial en relation avec la fonction qu’il occupe dans les
médias, on sera alors amené à opérer des distinctions plus fines du type quoti-
dien/magazine, presse d’information/presse spécialisée, presse papier/presse
web… La réflexion sur la façon de définir et de circonscrire le genre apparaît
ainsi comme une étape incontournable de la démarche en AD outillée.
La plupart des recherches en AD outillée et même en ADT intègrent à
l’heure actuelle le genre comme paramètre de constitution du corpus et un
certain nombre d’entre elles font même de la caractérisation du genre le centre
de la recherche, comme les travaux de Céline Poudat ou de Fanny Rinck sur
le genre de l’article scientifique (Poudat, 2006) ou les recherches actuelles de
Virginie Lethier sur le genre de l’éditorial dans la presse quotidienne française
(Lethier et Montrichard, 2016). Nous y revenons au chapitre 6.
52
Constituer un corpus en analyse du discours, un moment crucial
53
Méthodes et outils informatiques pour l’analyse des discours
U
ne recherche – La médiatisation du « classement
de Shanghaï » :
Dans le cadre d’une recherche sur la médiatisation, en France,
du classement académique de l’université Jiao Tong de Shanghai, la
constitution d’un corpus médiatique a nécessité d’interroger plusieurs
bases de données (Factiva et Europresse) archivant la presse française,
papier et en ligne, afin de collecter tous les articles qui avaient abordé
ce classement de 2003 à 2014. La collecte a été effectuée en plusieurs
étapes afin d’affiner les mots-clefs retenus et de vérifier l’exhaustivité
des bases de données. L’objectif de cette recherche était de consti-
tuer un corpus représentatif de la presse généraliste (par opposition à
une presse dite spécialisée) sur la moyenne durée afin d’observer les
modalités d’émergence et de circulation de ce classement.
Un premier corpus exploratoire a été constitué afin de vérifier la
pertinence des critères de collecte et la représentativité de la sphère
médiatique :
« À partir de la base de données Factiva, nous avons collecté tous
les documents abordant “classement mondial”, “classement interna-
tional” et “classement de Shanghai” de juin 2003 à décembre 2010,
soit 456 documents (articles, brèves, interviews, tribunes…) et environ
300 000 occurrences. Ils ont été publiés dans la presse nationale et régio-
nale française et francophone (quotidiens, hebdomadaires, mensuels,
journaux en ligne et dépêches d’agence hors AEF, soit 62 sources diffé-
rentes au total) » (Barats et Leblanc, 2013, p. 69).
Indication bibliographique
54
Constituer un corpus en analyse du discours, un moment crucial
Le choix d’un tel principe de structuration des corpus n’est pas sans
conséquences :
« Les corpus ainsi constitués se caractérisent par une hétérogénéité multi-
forme : sémiotique (pour la presse écrite, dans l’aire de la page de journal),
textuelle (différents genres contribuent à l’événement) et énonciative (textes
présentant des formes variées de discours autres : citations, allusions). Il s’agit
d’étudier non pas directement des événements mais, dans le contexte de
moments discursifs émergeant à l’occasion d’événements, les conséquences
produites sur les formes de discours mobilisées et leur rapport avec la consti-
tution du sens social de l’événement » (ibid.).
55
Méthodes et outils informatiques pour l’analyse des discours
U
ne recherche – Les professions de foi aux élections légis-
latives (1958-2007) :
Magali Guaresi analyse d’un point de vue historique et politique
un corpus diachronique de professions de foi électorales en faisant
intervenir une variable « sexe (des candidats) » :
« Le corpus de travail rassemble la quasi-exhaustivité des professions
de foi des candidates élues aux élections législatives […]. Un échan-
tillon raisonné de textes d’hommes sélectionné selon une logique chrono-
logique, politique et géographique a été constitué pour la comparaison :
pour un texte de femme élue a été retenu un texte d’homme élu à la
même date, du même bord politique et de la même zone géographique.
L’ensemble compte 719 textes pour 463 236 occurrences » (Guaresi, 2015,
p. 16).
Le corpus, homogène sur le plan générique, est ainsi divisé en sous-
ensembles en fonction du sexe des candidats, de l’année et des partis
politiques. Cela permet de faire apparaître les thématiques développées
par les femmes candidates et leur évolution au cours du temps.
Indications bibliographiques
Guaresi Magali, 2014, « Les mots des politiques du genre dans les
professions de foi aux élections législatives françaises (1958-2007) »,
Synergies Italie, n° 10, p. 33-48.
– 2015, « Les thèmes dans le discours électoral de candidature à la
députation », Mots, n° 108, p. 15-37.
56
Constituer un corpus en analyse du discours, un moment crucial
Indications bibliographiques
57
Méthodes et outils informatiques pour l’analyse des discours
58
Constituer un corpus en analyse du discours, un moment crucial
Indication bibliographique
Les corpus recueillis sur le web sont ainsi sources de nouveaux questionne-
ments pour les chercheurs, et posent en des termes renouvelés des questions
anciennes : outre que la question des « genres » du web est complexe – sans
doute n’a-t-on pas intérêt à confondre support médiatique et genre – les
« textes » recueillis sont souvent de longueur très différente, et présentent
une sémiotique hétérogène, difficile à prendre en compte dans une analyse
automatisée (voir par exemple les travaux de Pierre Halté sur les émoticônes,
Halté, 2013). L’hétérogénéité textuelle est constitutive du support : les pages
se renouvellent constamment, des liens hypertexte renvoient à d’autres
textes, le lecteur peut laisser des commentaires, les fils de discussion sont
hiérarchisés…
Toutefois, de nombreuses initiatives sont en cours pour constituer des
corpus raisonnés d’écrits numériques. L’un des objectifs du projet Coméré,
mené dans le cadre du consortium Corpus Écrits, est de mettre à la disposi-
tion de la communauté des linguistes des corpus issus de la communication
médiée par ordinateur (CMC) : corpus de tweets, de SMS, de mails, de pages
de Wikipédia, de blogs, de forums de discussion [https://hdl.handle.net/11403/
comere] (consulté le 01/04/16). Pour une étude de ce type de corpus, on peut
consulter, entre autres, le travail de Céline Poudat, Laurent Vanni et Natalia
59
Méthodes et outils informatiques pour l’analyse des discours
!
Pour terminer ce chapitre et en récapituler les principaux éléments,
le lecteur pourra s’entraîner avec les études de cas ci-dessous…
60
Constituer un corpus en analyse du discours, un moment crucial
!
Ce qu’il faut retenir au terme de ce chapitre…
La constitution du corpus est le résultat d’un certain nombre de décisions
entraînant des choix qui doivent être mûrement réfléchis et justifiés
théoriquement.
Même si l’analyse outillée nécessite pour les analyses ponctuelles de
clôturer et de stabiliser le corpus selon des critères clairement explicités, le
corpus n’est pas pour autant figé, il peut évoluer et être recomposé au fil de la
recherche, qui va de la construction du corpus à l’interprétation et fait retour
vers la construction du corpus.
La démarche de recherche est ainsi itérative et implique un va-et-vient
constant entre l’approche quantitative et le retour au texte pour des analyses
qualitatives et en contexte.
61
Méthodes et outils informatiques pour l’analyse des discours
62
CHAPITRE III
63
Méthodes et outils informatiques pour l’analyse des discours
Étape 1 – Quel est mon objet d’étude, quel est mon corpus ?
Un énoncé (J/je suis Charlie) et ses variantes J/je suis X vont faire l’objet de
l’analyse et donner lieu à la constitution d’un corpus dans la sphère média-
tique. Les objectifs de recherche formulés supra (diffusion et sens construit
de l’énoncé Je suis X) conduisent le chercheur à « construire le parcours »
(Maingueneau, 2012, p. 9) d’un énoncé constitué d’un matériau linguistique
mêlant lexique et syntaxe (J/je suis + Nom Propre ou DET Nom commun),
dans une unité topique, c’est-à-dire une unité prédécoupée par les pratiques
verbales (cf. chap. 2, p. 51).
L’énoncé Je suis X est-il un slogan ou une formule (Krieg-Planque, 2009) ?
C’est une des interrogations préliminaires à laquelle cette recherche tente de
répondre. De plus, avant même de constituer un corpus, on pourra s’interroger
sur le statut et l’histoire récente d’un tel énoncé, dont la structure reprend
un énoncé prononcé en 1963 par John Kennedy à Berlin-Ouest (Ich bin ein
64
Constituer un corpus en trois scénarios
Berliner) et se rapproche de celle d’un slogan de Mai 1968 (Nous sommes tous
des Juifs allemands).
65
Méthodes et outils informatiques pour l’analyse des discours
66
Constituer un corpus en trois scénarios
c’est un espace de production et de circulation de discours, un lieu où
se rencontrent les dires de différentes communautés discursives (journa-
listes, experts, citoyens, politiques, représentants d’associations, etc.) ;
c’est une « plateforme de lancement » des formules et le lieu privilégié
de leur intensification (Krieg-Planque, 2003, 2009), et par conséquent
un observatoire de prédilection pour qui s’intéresse à la circulation des
mots et des discours et aux rapports de force qui s’exercent dans et par
les discours (Foucault, 1971) ;
c’est un discours de référence en ce sens qu’il va être très souvent
repris dans d’autres médias. Par exemple, les journaux télévisés vont
souvent reprendre des informations parues dans Le Monde, Médiapart,
Libération, etc. ;
la presse offre une diversité de genres de discours (Moirand, 2007,
p. 5) : brèves, articles d’information, tribunes, éditoriaux, portraits,
interviews, critiques, etc. sont autant de regards différents sur un fait
d’actualité ou une question de société ;
c’est enfin un espace privilégié d’observation pour de nombreuses disci-
plines (sciences de l’information et de la communication, sciences du
langage, sciences politiques, sociologie politique, par exemple).
Ne soyons pas naïfs. Le choix de la presse par rapport aux médias audios
et audiovisuels est aussi motivé par deux facilités techniques : d’une part nous
avons aujourd’hui très facilement accès à des archives numérisées échelon-
nées sur de très longues périodes, et d’autre part ces données posent moins
de problèmes de diffusion pour le monde de l’édition que les données orales
(Moirand, 2007, p. 5). Notons cependant qu’en France le dépôt légal a été
étendu en 1992 aux émissions de radio et de télévision : c’est le dépôt légal
média. L’INA avec l’Inathèque [http://www.institut-national-audiovisuel.fr/
offres-services/ina-theque.html] (consulté le 01/06/2016) et la BnF proposent
ainsi des archives consultables, sous condition, mais qu’il faudra retranscrire
pour constituer des corpus.
Néanmoins, à l’heure où la presse papier est en pleine évolution et où
(l’accès à) l’information passe par de nombreux autres canaux et supports
(web, réseaux sociaux notamment), la question de la pertinence et de la repré-
sentativité de ce type de données, en particulier les plus récentes, se pose de
manière aiguë. Le chercheur peut d’ailleurs être amené selon sa probléma-
tique à articuler les données issues des médias à d’autres types de données
(cf. chap. 2).
Une fois qu’on a défini les observables et délimité le corpus, vient l’étape
du recueil des données.
67
Méthodes et outils informatiques pour l’analyse des discours
68
Constituer un corpus en trois scénarios
Fig. 2. – Distribution du nombre d’articles contenant l’énoncé Je suis Charlie par source
dans la base Europresse (2016) (période : janvier 2015-janvier 2016 ; filtre de recherche :
« presse généraliste nationale »).
Fig. 3. – Distribution du nombre d’articles contenant l’énoncé Je suis Charlie par mois dans
la base Europresse (2016) (période janvier 2015-janvier 2016 ; filtre de recherche : « presse
généraliste nationale »).
69
Méthodes et outils informatiques pour l’analyse des discours
70
Constituer un corpus en trois scénarios
Une recherche – Les langages révolutionnaires et le corpus
DUCH96 (ou corpus Hébert) :
Un des chantiers du Laboratoire de lexicologie politique de Saint-
Cloud portait sur les langages de la Révolution française. Une équipe
a alors mis au point une banque de données numérisées constituée de
textes révolutionnaires (corpus « Révolution française »). Cette texto-
thèque a fourni « de nombreux éléments lexicaux pour des études quanti-
tatives et qualitatives [qui] ont nourri la publication de monographies
lexicales dont les huit volumes du Dictionnaire des usages socio-politiques
(1770-1815) » (Guilhaumou, 2010, p. 137). C’est dans ce cadre scien-
tifique que Jacques Guilhaumou a réuni le corpus DUCH96, lequel
devait « servir de base à un travail sur les configurations discursives
du discours jacobin » (Salem, 1986, p. 10). Ce corpus est constitué de
96 numéros du journal d’Hébert (substitut du procureur de la Commune
de Paris), aussi intitulé le Père Duchesne. Il s’agit d’un pamphlet de huit
pages, qui paraît trois fois par semaine, puis quatre fois par décade après
l’adoption du calendrier révolutionnaire. Le journal a eu une réception
importante à partir de 1793 (80 000 exemplaires à l’été 1793). « Qualifié
par les journalistes de “thermomètre de l’événement” et d’“alphabet de
la révolution”, [il] constitue la mémoire de l’événement dans sa version
jacobine » (Guilhaumou, 1986, p. 30).
Le corpus Duch96 (150 000 occurrences) a été découpé par les
chercheurs en mois et en quinzaines, de manière à pouvoir saisir l’évo-
lution chronologique du vocabulaire révolutionnaire (en l’occurrence,
les mots d’ordre et le vocabulaire de la Terreur). D’un point de vue
lexicométrique, ce corpus constitue ainsi une « série textuelle chrono-
logique » (notion définie infra, p. 90).
71
Méthodes et outils informatiques pour l’analyse des discours
Une recherche – La base du Petit Comtois
Plusieurs structures de recherche de la région Franche-Comté se
lancent en 2005 dans un important programme de numérisation du
Petit Comtois sur une période allant de la création du journal en 1883
à l’arrêt de sa publication en 1944 (année d’interdiction du journal
par les autorités allemandes). Ce programme scientifique à dimension
patrimoniale inclut la création d’une base plein texte interrogeable à
partir d’un moteur de recherche [http://adcost-elliadd.univ-fcomte.fr/
petit-comtois/autres_scripts/recherche.php] (consulté le 01/06/2016)
et d’où peuvent être extraits des corpus textuels. Cette base a aussi pour
ambition de donner lieu à des explorations textométriques.
72
Constituer un corpus en trois scénarios
73
Méthodes et outils informatiques pour l’analyse des discours
On fait alors le pari que les variantes de l’énoncé Je suis Charlie font inter-
venir au moins une fois une glose contenant « Charlie » dans les paragraphes
où elles sont employées. C’est alors notre connaissance du fonctionne-
ment du discours médiatique et de l’écrit journalistique qui nous
guide dans la constitution du corpus. Ce premier filtrage effectué, sur
la période allant de janvier 2015 à avril 2016, on collecte 2 083 articles et on
recueille un bon nombre de variantes. En voici quelques exemples :
« Charlie Juif Flic : je suis la République » (Sud Ouest, 11 janvier 2015).
« Je suis Charlie, je suis Mohammed, mais je ne suis pas terroriste » (Sud Ouest,
11 janvier 2015).
« Je suis policier, Je suis Ahmed, Franck, Clarissa, Nous sommes Charlie »
(Sud Ouest, 11 janvier 2015).
« Maxime Boutet a eu l’idée de détourner le fameux “Je suis Charlie” avec son
“Je suis Submarine” sur fond noir » (Ouest France, 8 avril 2016).
« Des dizaines de milliers de personnes lui ont rendu hommage sur les réseaux
sociaux par le biais du hashtag “Je suis un chien”, inspiré de “Je suis Charlie” »
(Sud Ouest, 12 mars 2016).
Le refrain : « Je suis Paris, je suis le Mali, je suis les États-Unis, je suis la
Libye, je suis Charlie… ». Et : « Je suis le Burkina, je suis le Kenya, je suis le
Nigeria… » (La Croix, 15 février 2016).
« Le 21 novembre, nous avons découvert avec effroi des graffitis dans les
parties communes : Je suis terroriste, pour Daech, non Charlie », dénonce une
dame (Le Parisien, 24 janvier 2016).
74
Constituer un corpus en trois scénarios
75
Méthodes et outils informatiques pour l’analyse des discours
doit pouvoir être pris en charge par le logiciel choisi pour l’analyse. Certains
logiciels invitent l’utilisateur à sélectionner le codage idoine (Le Trameur),
d’autres se chargent de le reconnaître (Lexico 5) et d’autres encore ne suppor-
tent qu’un nombre restreint de codages (Lexico 3). L’extension d’un fichier
ne suffit pas en général pour déterminer le type d’un fichier et en aucun cas
le codage des caractères qu’il contient. En outre, on ne peut se contenter de
convertir les données en format « texte seul » pour pouvoir les utiliser avec tel
ou tel logiciel. Il est important de connaître le type de codage des caractères
utilisé pour créer le fichier sauvegardé. L’éditeur Microsoft Word propose par
exemple à l’utilisateur de spécifier ce codage quand un fichier est sauvegardé
au format « texte brut » :
76
Constituer un corpus en trois scénarios
permet de travailler sur des fichiers en texte brut (et donc aussi sur des fichiers
au format XML ou encore HTML).
77
Méthodes et outils informatiques pour l’analyse des discours
78
Constituer un corpus en trois scénarios
SC
PARIN
LA
Français
CY
Copyright 2015 leParisien.fr All Rights Reserved
LP Sa grande gueule lui a longtemps joué des tours. Aujourd’hui, elle fait de
lui un boxeur à part, dont l’aura va bien au-delà des rings et qui lui permet de
remplir à lui seul une salle de 5 000 personnes (lire ci-dessous) dans un événe-
ment qu’il a entièrement organisé. Toujours prêt à afficher son patriotisme,
Patrice Quarteron, 36 ans, combat aussi le communautarisme et les préjugés.
En porte-drapeau du positivisme en banlieue, ce colosse (1,98 m pour 118 kg)
de Grigny avait déjà crié haut et fort « je suis Charlie » après les attentats de
janvier, ce qui lui a valu de nombreux messages d’insultes.
79
Méthodes et outils informatiques pour l’analyse des discours
« comblent » rarement le linguiste (voir aussi chap. 4, p. 106). Pour que les
logiciels tiennent compte de la structure de ces unités, il faut les transformer.
On pourra par exemple remplacer dans les données initiales porte-drapeau
par porte_drapeau et paramétrer ensuite la segmentation en unités de telle
sorte que le caractère tiret-bas ne soit pas considéré comme un délimiteur de
mots – on parlera alors de caractère non-délimiteur.
Si une telle opération est effectuée sur l’ensemble des mots composés
– appelés aussi en linguistique unités polylexicales ou lexies – il faudra tout de
même tenir compte des propriétés statistiques du corpus obtenu. Le repérage de
telles unités, manuel ou semi-automatique, peut aussi s’avérer fastidieux et tout
aussi imparfait que leur non prise en compte dans la segmentation du texte.
81
Méthodes et outils informatiques pour l’analyse des discours
Fig. 12. – Index de formes lemmatisées et retour au contexte via un concordancier dans
Iramuteq, corpus Vœux (cf. chap. 4 et 5).
La lemmatisation n’est pas une opération anodine car elle transforme les
observables en neutralisant par exemple les variations morpho-syntaxiques. Un
exemple fameux que donne le Laboratoire de Saint-Cloud pour plaider contre
la lemmatisation systématique des textes est l’usage distinctif du singulier et
du pluriel pour certains concepts politiques : quand la gauche parle de liberté
(au singulier), la droite, elle, thématise sur les libertés (au pluriel). De fait, les
avis ont longtemps été partagés sur la question de savoir s’il fallait travailler en
surface (sur la forme graphique), lemmatiser ou catégoriser. Ce débat semble
aujourd’hui appartenir au passé (lire encadré ci-après). Le choix dépend en
réalité des hypothèses du chercheur et des moyens disponibles pour
ce traitement. Pour reprendre une formule d’Étienne Brunet, « les outils
82
Constituer un corpus en trois scénarios
ne sont mauvais que dans la main des mauvais ouvriers » (2000, p. 19). Les
chapitres suivants livreront quelques illustrations de méthodes et de problé-
matiques faisant intervenir la lemmatisation.
Dans le cas qui nous occupe, la diffusion et la construction du sens de
l’énoncé J/je suis X, la lemmatisation paraît de prime abord peu pertinente,
voire décalée, dans la mesure où l’on va justement s’intéresser à des varia-
tions formelles. En fait, il peut être intéressant de travailler sur deux états de
corpus, un corpus non lemmatisé et un corpus lemmatisé, ce dernier permet-
tant d’évaluer statistiquement la diffusion de cet énoncé (ou « patron », voir
chap. 4). Le corpus lemmatisé, on peut aussi imaginer que la séquence ETRE X
(Charlie, etc.) « attrape » ou regroupe des variantes du type nous sommes/serons
Charlie, X, etc., auxquelles nous n’avions pas nécessairement pensé au moment
de la délimitation de l’objet d’étude et du recueil des données. Nous pouvons
ainsi être amenés à intégrer dans nos observables ce type de variante voire à
élargir notre corpus. Comme on le voit, une question comme celle de la lemma-
tisation peut conduire à une démarche itérative dans la construction de l’objet
d’étude et du corpus à étudier. L’outil informatique a aussi quelques vertus…
83
Méthodes et outils informatiques pour l’analyse des discours
84
Constituer un corpus en trois scénarios
Indications bibliographiques
Au-delà du choix de travailler sur les formes ou sur les lemmes, c’est la
question de l’annotation du corpus qui peut se poser. Cette question est
pertinente aujourd’hui pour l’analyse du discours, en raison d’une part de
l’activité interprétative qu’engage toute description des formes langagières et
linguistiques en AD et d’autre part de l’évolution des corpus, des outils, des
pratiques et par ricochet, des orientations épistémologiques dans le champ de
l’ADT et de la linguistique de corpus.
Qu’est-ce que l’annotation ? Il s’agit d’ajouter de l’information (linguistique
ou non) aux unités qui constituent un corpus. De cette manière, ces unités
sont regroupées en « types » correspondant à des unités syntaxiques, séman-
tiques, textuelles, etc. Cette étape dans la préparation du corpus implique
une activité interprétative du chercheur. L’annotation s’apparente ainsi à
ce que fait le linguiste tous les jours : analyser, décrire, classer le matériau
langagier. Elle peut aussi rappeler le travail de codage de corpus et d’intégra-
tion de métadonnées que l’on observe dans d’autres disciplines des SHS
(sociologie, psychologie sociale, par exemple). L’annotation peut porter sur
différents niveaux de description linguistique et sur différents types de phéno-
mènes. Voici la classification que proposait Jean Veronis † en 2000 (p. 4)
(cf. figure 13).
Dans cet ouvrage, on distinguera surtout l’annotation morphosyn-
taxique (on parle aussi d’annotation grammaticale ou d’étiquetage), qui
porte sur la catégorie grammaticale (préposition, nom, verbe…) et qui peut
85
Méthodes et outils informatiques pour l’analyse des discours
86
Constituer un corpus en trois scénarios
87
Méthodes et outils informatiques pour l’analyse des discours
Concaténation
Structuration
88
Constituer un corpus en trois scénarios
89
Méthodes et outils informatiques pour l’analyse des discours
Indication bibliographique
Balisage
90
Constituer un corpus en trois scénarios
91
Méthodes et outils informatiques pour l’analyse des discours
92
Constituer un corpus en trois scénarios
93
Méthodes et outils informatiques pour l’analyse des discours
qui s’inspire de plusieurs travaux qui ont examiné les modalités de traitement
du thème de l’immigration dans la sphère médiatique et/ou politique.
Étape 1 – Quel est mon objet d’étude, quel est mon corpus ?
Exemple 1
Exemple 2
94
Constituer un corpus en trois scénarios
Exemple 3
95
Méthodes et outils informatiques pour l’analyse des discours
Pour recueillir son corpus, C. Barats s’est adressée à trois services : le service
de Presse de l’Élysée, la BIPA (Banque d’Information Politique et d’Actualité
de la Documentation Française) et l’ADRI (Agence pour le Développement
des Relations Interculturelles). Elle est partie des mots-clés étranger.s,
immigré.s, droits de l’homme, racisme. Les termes émigré(s) et émigration ont
été retenus pour tenir compte des interventions présidentielles prononcées
à l’étranger.
96
Constituer un corpus en trois scénarios
Étape 1 – Quel est mon objet d’étude, quel est mon corpus ?
97
Méthodes et outils informatiques pour l’analyse des discours
un corpus existant, que nous avons déjà cité dans cet ouvrage (cf. chap. 1), le
corpus Discours2007, « Le discours des présidentiables » (J. Veronis †).
La délimitation du corpus est d’abord temporelle : elle est imposée par
l’entrée officielle des candidats en campagne et par la durée d’une campagne
présidentielle qui se termine l’avant-veille au soir du vote du second tour. Elle
est ensuite limitée par le nombre de candidats à la campagne présidentielle.
On devra cependant tenir compte des variations quantitatives dans le volume
de discours.
On pourra commencer par une recherche sur les sites web des partis et
des candidats, où figurent généralement des agendas de campagne, ainsi
que la version écrite des discours prononcés. Une question surgit assez vite :
travaille-t-on sur les discours de campagne « publiés », donc écrits, ou sur
les discours prononcés ? Un choix doit être fait qui aura des conséquences
sur la recherche menée et sur le type de résultat obtenu. Si l’on privilégie les
discours prononcés, un travail de transcription sera à prévoir. C’est ce type
de travail qui a été entrepris par Marion Sandré dans ses recherches sur les
débats politiques. On se reportera à son ouvrage Analyser les discours oraux
(Sandré, 2013), qui propose un certain nombre d’éclairages méthodologiques
précieux à tous ceux qui souhaitent analyser des discours oraux.
Dans le cas où l’on privilégie les discours publiés, il peut être intéres-
sant de comparer les discours disponibles en ligne et ceux qui ont été
prononcés (via les vidéos disponibles en ligne et auprès des équipes de
campagne). Ce type de démarche a généralement été mené par ceux qui
se sont intéressés à un moment donné aux discours de locuteurs politiques
98
Constituer un corpus en trois scénarios
particuliers (lire par exemple Leblanc, 2005 ; Mayaffre, 2004a ; 2012, Alduy
et Wahnich, 2015).
Pour les données qui se trouvent sur le web et qui sont des données
écrites, on peut recourir à des solutions logicielles permettant de récupérer
automatiquement des masses de données. Un logiciel comme Gromoteur par
exemple est capable, à partir d’une liste d’adresses, de récupérer l’ensemble
des contenus textuels contenus dans les pages visées par ces adresses. Un
paramétrage avancé de ce logiciel (en amont du recueil) permet d’affiner le
processus de récupération des données. Les contenus finalement archivés
peuvent in fine être utilisés pour des traitements statistiques intégrés dans ce
logiciel ou être exportés pour des traitements externes par d’autres outils (voir
Fiche pratique 4 – « Construire un corpus avec Gromoteur », p. 217). Pour
tout autre type de données, on devra recourir à une numérisation complétée
par une saisie manuelle.
Au moment du recueil des données, il sera important de retenir toutes
sortes d’informations documentaires qui peuvent s’avérer précieuses pour
l’analyse (voir aussi chap. 2, « Le corpus est contextualisé ») : lieux, dates, et
types de discours (discours, allocutions, conférences de presse). Le discours
des candidats évolue dans le temps. Comme le montre l’étude récente de
Cécile Alduy et Stéphane Wahnich sur les discours du Front national (ibid.),
le discours d’une personnalité politique est aussi contraint par un genre
(cf. Introduction et chap. 2) et peut aussi s’ajuster en fonction du public
auquel il s’adresse : les mêmes mots ne seront pas forcément utilisés selon
qu’on s’adresse aux militants, aux journalistes ou à l’ensemble des électeurs.
99
Méthodes et outils informatiques pour l’analyse des discours
d’adverbes, d’adjectifs, de verbes au futur, passés, etc., utilisés par les candi-
dats. C’est ce type d’exploration qu’a mené Damon Mayaffre sur les discours
des présidents de la Ve République (Mayaffre, 2004a). L’annotation morpho-
syntaxique du corpus peut aussi permettre de travailler sur la phraséologie d’un
candidat ou du discours présidentiel, par l’extraction de motifs complexes
(cf. infra, chap. 4). Là encore, nous renvoyons directement le lecteur aux
chapitres suivants qui abordent plus en détail la problématique de la phraséo-
logie, en partant des unités et des fonctionnalités permettant d’accéder et de
décrire précisément ce type de phénomène.
Une partie des opérations à effectuer sont identiques à celles décrites dans
le scénario 1. Néanmoins, la structuration du corpus est différente dans le
cas présent. Dans la mesure où l’on souhaite comparer les discours de candi-
dats, on va privilégier ici une structuration par locuteurs, tout en respectant
la chronologie des discours tenus. On utilisera donc deux jeux de balises, un
premier jeu renvoyant aux locuteurs, un deuxième jeu qui puisse rassembler
les discours tenus à la même date, le même mois ou la même année.
100
Constituer un corpus en trois scénarios
101
CHAPITRE IV
103
Méthodes et outils informatiques pour l’analyse des discours
et le corpus Vœux, qui réunit tous les discours de vœux des présidents de la
Ve République, de 1959 à 2015 (voir aussi chapitre 5).
La forme graphique
Charles Baudelaire.
104
Compter dans les textes, quelles unités ?
– Nos est une forme distincte de la forme deux qui est une forme distincte
de cœurs, etc. ;
– Nos avec majuscule (premier vers) est une forme distincte de nos avec
minuscule. On notera là l’importance qu’il y a à accorder du temps à la
préparation de son corpus : la suppression des majuscules dans le texte
permettrait ici de ne relever qu’une forme nos (cf. chap. 3, p. 80) ;
– d(’) et odeurs constituent deux formes différentes, mais aussi entr(’) et
ouvrant !
Ce premier exemple souligne combien il est important de bien choisir
les caractères délimiteurs pour segmenter un texte en formes graphiques. La
plupart des logiciels de lexicométrie désignent des caractères délimiteurs par
défaut que l’utilisateur peut modifier. En voici une illustration.
Fig. 1. – Ouverture (ou « import ») d’un corpus avec Lexico 3 (version 3.6.).
105
Méthodes et outils informatiques pour l’analyse des discours
sans doute préférable – s’en tenir, pour le repérage des unités constituées de
plusieurs formes (unités polylexicales, mots composés, lexies…), aux unités
de décompte qui tiennent compte de la séquentialité des unités (voir infra,
p. 110), le segment répété par exemple. Il y a toujours une part d’arbitraire dans
une norme de dépouillement. « Une norme de dépouillement est rarement
satisfaisante pour le linguiste », prévenait Charles Muller (op. cit., p. 10).
On dira que travailler sur la forme graphique est un travail en surface,
par opposition aux analyses qui peuvent porter sur d’autres dimensions du
texte. L’analyse du discours, en raison de ses orientations théoriques et de ses
postulats (cf. Introduction), s’accommode fort bien de cette unité de comptage
qui part, au moins partiellement, de la matérialité linguistique.
Le décompte des formes graphiques permet de caractériser le vocabulaire
de l’ensemble du corpus ou d’une sous-partie du même corpus. Cette analyse
s’effectue le plus souvent par le contraste, c’est-à-dire par la comparaison entre
les différentes parties d’un corpus (voir aussi chap. 5, « Principales méthodes et
fonctionnalités… », p. 135). Prenons l’exemple d’un corpus dont chaque partie
correspond aux textes de locuteurs différents : la comparaison du vocabulaire
de chaque partie permettra de caractériser le vocabulaire de chaque locuteur.
L’examen en diachronie, c’est-à-dire la distribution d’une forme sur une période
donnée, peut également apporter une information intéressante sur un corpus.
Nous en verrons quelques illustrations dans le chapitre 6 (p. 172).
Le lemme
106
Compter dans les textes, quelles unités ?
107
Méthodes et outils informatiques pour l’analyse des discours
108
Compter dans les textes, quelles unités ?
Les N-grammes
Les racines
109
Méthodes et outils informatiques pour l’analyse des discours
110
Compter dans les textes, quelles unités ?
2 à ce 13
2 à ceux 41
3 à ceux qui 27
3 à chacun d 15
2 à chacun 39
6 à chacune et à chacun d 14
5 à chacune et à chacun 22
2 à chacune 25
2 à faire 14
2 àl 166
3 à la fois 10
3 à la france 28
2 à la 194
2 à leur 12
2 à nos 27
2 à notre 23
2 à nous 17
2 à se 11
2 à ses 12
2 à son 10
3 à tous ceux 11
3 à tous les 10
2 à tous 46
2 à toutes 16
2 à un 13
2 à une 23
2 à votre 11
2 à vous 38
111
Méthodes et outils informatiques pour l’analyse des discours
Indications bibliographiques
112
Compter dans les textes, quelles unités ?
Principe
113
Méthodes et outils informatiques pour l’analyse des discours
jeunes peut avoir comme cooccurrents les formes emploi, formation chez un
responsable politique et violence, délinquance, chômage chez un autre.
Le calcul de cooccurrence peut concrètement se faire de différentes façons
et se traduire par des visualisations variées (cf. Poudat et Landragin, 2017).
Les calculs les plus couramment utilisés en lexicométrie sont basés sur le
modèle hypergéométrique (Lafon 1984, voir infra, « La cooccurrence contex-
tuelle spécifique »). Mais on trouve d’autres modèles de calculs selon les
domaines scientifiques (en linguistique de corpus, en particulier) ou les zones
géographiques. Pour une présentation détaillée des différents types de calculs
et des types de recherches qui leur sont associés, nous renvoyons à la thèse
de Stephan Evert (2005) ainsi qu’à l’ouvrage de Céline Poudat et Frédéric
Landragin (op. cit.).
Enfin, plusieurs logiciels intègrent la cooccurrence comme unité de
décompte. C’est le cas, par exemple, du logiciel Hyperbase (fonctionnalité
Hypoccur) qui permet d’établir une typologie des textes non plus à partir des
occurrences des mots individuels mais sur les cooccurrences. L’outil établit
ainsi la liste des cooccurrences d’un corpus donné. Pour chaque texte ou
partition (cf. chap. 3 et 5, pour le terme de partition), on constitue un tableau
qui comporte en colonne la partie considérée et en lignes les occurrences non
plus des formes mais de couples de formes (lire aussi Brunet, 2012). Les diffé-
rents programmes d’analyse factorielle (cf. chap. 5) proposés par Hyperbase
permettent ainsi de cartographier les corpus analysés non plus en se basant
sur un tableau des occurrences mais sur ce tableau de couples cooccurrents.
Ce type de calcul répond à une hypothèse formulée par la sémantique inter-
prétative : le sens des mots se construit en contexte et non dans le dictionnaire
(lire aussi chap. 6, p. 181-185).
114
Compter dans les textes, quelles unités ?
pôle). Dans l’illustration ci-dessous, les contextes sont définis par un caractère
particulier (§).
Une fois ces contextes mis en évidence (partie gauche de la figure), il est
possible de contraster ceux qui contiennent le pôle et les autres puis d’identifier
les cooccurrents de ce pôle (à droite de la figure). La mise au jour des cooccur-
rents d’un pôle donné peut être réalisée par le biais d’un indice de spécificité
(via le Modèle Hypergéométrique, par exemple) ; les cooccurrents les plus carac-
téristiques du pôle sont déterminés suivant qu’ils apparaissent, dans les mêmes
contextes, plus ou moins souvent que prévu par la loi de la probabilité.
Le Modèle Hypergéométrique est fondé sur la distribution en probabilité
du nombre de rencontres de toutes les permutations possibles des formes
étudiées dans l’hypothèse d’équiprobabilité. Il détermine la valeur la plus
probable d’après les paramètres suivants :
T : le nombre d’occurrences dans le corpus ;
t : le nombre d’occurrences dans les contextes du pôle ;
F : la fréquence du cooccurrent dans le corpus ;
f : la fréquence du cooccurrent dans les contextes du pôle.
À partir de cette valeur probable, on calcule un diagnostic de spécificité
signalant l’écart par rapport à la valeur attendue – un écart qui peut être
positif, négatif ou nul. Si la fréquence réelle est supérieure à la fréquence
attendue, alors la forme est spécifique positive et on l’indique en général par le
code +x. Si la fréquence réelle est inférieure à la fréquence attendue, la forme
est spécifique négative et on l’indique par le code -x. Enfin, si la fréquence
réelle est égale à la fréquence attendue, alors la forme est banale.
Les deux figures suivantes illustrent un calcul de cooccurrent spécifique
effectué sur la forme nous (figure 5) puis le lemme nous (figure 6).
La comparaison des deux résultats produits permet ici de mettre au jour
les prédicats (verbes) les plus spécifiques du pronom nous : être, construire et
laisser. La figure 6 laisse penser que les prédicats devoir, aller, pouvoir, vivre,
115
Méthodes et outils informatiques pour l’analyse des discours
Fig. 5. – Calcul de cooccurrents spécifiques via Le Trameur (Corpus Vœux, pôle : nous,
seuil de spécificité choisi : 7, freq. cofreq. 5 ; contexte : phrase) et représentation graphi-
que ; la couleur des flèches varie en fonction de l’indice de spécificité (rouge = indice de
spécificité > 50), l’épaisseur en fonction du nombre de contextes concernés.
Fig. 6. – Calcul de cooccurrents spécifiques via Le Trameur sur un corpus lemmatisé (Corpus
Vœux, pôle : nous, seuil de spécificité choisi : 5, freq. cofreq. 5 ; contexte : phrase).
116
Compter dans les textes, quelles unités ?
La cooccurrence généralisée
117
Méthodes et outils informatiques pour l’analyse des discours
118
Compter dans les textes, quelles unités ?
Les auteures posent ainsi « l’existence d’un continuum entre des séquences
très figées et d’autres qui le sont moins, le moindre degré de figement [étant]
représenté par des associations notionnelles » (ibid). Une routine « consiste
en la mise en relation de séquences linguistiques récurrentes, partiellement
figées (i. e. les patrons) avec des déterminations discursives et des fonctions
textuelles propres à un genre ou une sphère d’activité » (ibid. : 2119). Le
lecteur trouvera dans le chapitre 6 une illustration commentée du recours à
ce type d’unité en AD (« Les segments semi-figés », p. 191).
119
Méthodes et outils informatiques pour l’analyse des discours
120
Compter dans les textes, quelles unités ?
121
CHAPITRE V
123
Méthodes et outils informatiques pour l’analyse des discours
124
Quels outils logiciels et pour quoi faire ?
Typologie logicielle
La typologie proposée dans ces pages repose sur les principales fonction-
nalités des outils logiciels.
125
Méthodes et outils informatiques pour l’analyse des discours
Énoncé 1 1 0 1 0 0
Énoncé 2 0 0 1 0 1
Énoncé 3 1 0 1 1 0
Etc. … … … … …
126
Quels outils logiciels et pour quoi faire ?
127
Méthodes et outils informatiques pour l’analyse des discours
Parmi les autres outils qui proposent une approche structurante, on peut
citer les fonctionnalités reposant sur des méthodes de cooccurrences dites
généralisées (cf. chap. 4 et 6) car elles permettent d’identifier dans un corpus
des zones qui peuvent s’interpréter comme autant de champs sémantiques
construits à partir de formes cooccurrentes (voir « La cooccurrence généra-
lisée », p. 117 où nous présentons cette méthode).
Pour terminer, voici quelques exemples de logiciels proposant des approches
structurantes : Alceste, Astartex, Iramuteq, Hyperbase, Webhyperbase.
Indications bibliographiques
128
Quels outils logiciels et pour quoi faire ?
Ressources en ligne
129
Méthodes et outils informatiques pour l’analyse des discours
Indications bibliographiques
130
Quels outils logiciels et pour quoi faire ?
131
Méthodes et outils informatiques pour l’analyse des discours
132
Quels outils logiciels et pour quoi faire ?
Synthèse
133
Méthodes et outils informatiques pour l’analyse des discours
134
Quels outils logiciels et pour quoi faire ?
Ressources en ligne
Et surtout…
135
Méthodes et outils informatiques pour l’analyse des discours
136
Quels outils logiciels et pour quoi faire ?
formes très redondantes. Ces hautes fréquences apportent le plus souvent une
information sur le corpus (son genre, sa thématique…). Dans notre exemple,
les formes nous, vous, je, france (pour France), monde apparaissent parmi les
hautes fréquences : leur présence est à la fois liée au genre (les discours de
vœux) et au discours présidentiel. À la seule lecture de cet index, on peut
déduire que le corpus est constitué de discours politiques français. La richesse
des index a une dimension heuristique.
Selon la loi de G. K. Zipf [https://fr.wikipedia.org/wiki/Loi_de_Zipf],
(consulté le 01/06/2016), le rapport entre rang et fréquence est constant dans
tout index hiérarchique. Ainsi, si une forme de rang 10 est d’une fréquence
de 830 occurrences, une forme de rang 100 dans le même corpus devrait
apparaître environ 10 fois moins (83 occurrences). Un index qui ne présen-
terait pas ces caractéristiques devra conduire le chercheur à s’interroger sur
son corpus. De même si, dans un corpus de français écrit, la forme la plus
fréquente n’est pas la préposition de, on devra prendre un certain nombre de
précautions interprétatives : il est possible en effet que le matériau soumis à
l’analyse soit quantitativement insuffisant.
Le rapport rang-fréquence donne aussi lieu à une synthèse sous la forme
d’un diagramme dit de Pareto :
« Le diagramme de Pareto fournit une représentation très synthétique des
renseignements contenus dans la gamme des fréquences. Ce diagramme est
constitué par un ensemble de points tracés dans un repère cartésien. Sur l’axe
vertical, gradué selon une échelle logarithmique, on porte la fréquence de
répétition F, qui varie donc de 1 à Fmax, la fréquence maximale du corpus.
Sur l’axe horizontal, gradué selon la même échelle logarithmique, on porte,
pour chacune des valeurs de la fréquence F comprises entre 1 et Fmax, le
nombre N (F) des formes répétées au moins F fois dans le corpus. La courbe
obtenue est donc une courbe cumulée.
De nombreuses expériences faites dans le domaine lexicométrique montrent
que, quel que soit le corpus de textes considéré, quelle que soit la norme de
dépouillement retenue, les points ainsi tracés s’alignent approximativement le
long d’une ligne droite » (Lebart et Salem, 1994, p. 16).
137
Méthodes et outils informatiques pour l’analyse des discours
dans le corpus qu’une seule fois. Là aussi, il est important de connaître une
règle statistique qui dit que, pour tout corpus, les hapax représentent toujours
approximativement la moitié de l’index hiérarchique en nombre de formes.
La prise en compte de cette caractéristique évitera au chercheur l’écueil
d’une surinterprétation qui consisterait à envisager qu’un auteur utilisant de
nombreux hapax utiliserait un vocabulaire riche ou original.
En statistique textuelle contrastive ou longitudinale, la phase de segmenta-
tion permet également de construire le tableau lexical du corpus. On parle de
tableau lexical entier (TLE) lorsqu’on considère la totalité des formes du
corpus (jusqu’à la fréquence 1). Il s’agit pour chaque forme rencontrée dans le
corpus d’en établir la distribution, en nombre d’occurrences (ou fréquences
absolues, voir infra) dans chaque partition.
L’exemple ci-dessous (cf. figure 7) est un extrait du tableau lexical du
corpus expérimental Corpex. La partition de ce corpus correspond aux cinq
sources mentionnées en introduction de ce chapitre, les différentes parties
étant notées : Andromaque, Lecid, Bovary, Editos, Vœux.
On imagine aisément la taille d’un tel tableau comprenant autant de lignes
que de formes contenues dans le corpus (ici 20 230) et autant de colonnes que
de parties du corpus. Ce tableau, au cœur de toute démarche textométrique,
permet de calculer la répartition d’une forme graphique dans chacune des
parties du corpus. La forme nous, par exemple, est attestée pour 44 occur-
rences dans la partie Andromaque, apparaît 116 fois dans le roman Madame
Bovary, 26 fois dans les éditos, 32 fois dans le Cid et 688 fois dans les vœux. Il
s’agit ici de fréquences absolues, c’est-à-dire que ces fréquences ne tiennent
pas compte de la longueur des différents textes constituant le corpus, ni de
la taille des différentes parties. Ainsi, la forme nous apparaît 688 fois sur
les 48 598 occurrences de la partie Vœux et 44 fois sur les 15 365 occur-
138
Quels outils logiciels et pour quoi faire ?
C’est à partir du tableau lexical que sont calculées les courbes (ou histo-
grammes) de fréquences absolues ou relatives, mais aussi que sont effectués
les calculs permettant de juger du sur-emploi ou du sous-emploi d’une forme
dans une partie du corpus par rapport aux autres parties et à l’ensemble du
corpus (calcul de spécificités, cf. infra). Les figures qui suivent illustrent
ces mesures.
Une première courbe présente la distribution de la forme nous dans le
corpus Corpex en fréquences absolues.
139
Méthodes et outils informatiques pour l’analyse des discours
Comme nous l’avons dit plus haut, le nombre des occurrences de la forme
est ramené à la taille de chaque partie du corpus :
140
Quels outils logiciels et pour quoi faire ?
141
Méthodes et outils informatiques pour l’analyse des discours
Concordances
Fig. 11. – Concordance de la forme nous (extrait), corpus Vœux, sortie TXM.
142
Quels outils logiciels et pour quoi faire ?
Fig. 12. – Concordance de la forme nous (extrait), corpus Vœux, tri contexte droit,
sortie TXM.
143
Méthodes et outils informatiques pour l’analyse des discours
144
Quels outils logiciels et pour quoi faire ?
145
Méthodes et outils informatiques pour l’analyse des discours
146
Quels outils logiciels et pour quoi faire ?
147
Méthodes et outils informatiques pour l’analyse des discours
Fig. 19. – La topographie textuelle : des points de vue multiples sur le texte.
148
Quels outils logiciels et pour quoi faire ?
permettent de délimiter des sections particulières. Une partie d’un texte est
aussi une section du texte :
– l’élément <l>…</l> permet de mettre au jour les vers (un à un) ; dans
ce cas, cet élément peut définir une section correspondant à un vers ;
– l’élément <lg>…</lg> permet de mettre au jour les strophes (une à
une) : dans ce cas, cet élément peut définir une section correspondant
à une strophe.
Un logiciel comme Le Trameur, par exemple, permet de s’appuyer sur la
structuration du corpus au format XML pour définir des sections correspon-
dant à des parties du texte.
149
Méthodes et outils informatiques pour l’analyse des discours
À quoi peut servir une carte des sections ? Nous mentionnons ici quatre
usages possibles :
– La ventilation topographique d’unités et le retour au contexte visé.
150
Quels outils logiciels et pour quoi faire ?
151
Méthodes et outils informatiques pour l’analyse des discours
des rapports étroits (traductions, tours de paroles, etc.), des unités textuelles
que l’on fait ainsi « résonner » dans les différents volets du corpus. La figure 22
supra, qui donne à voir simultanément sur le corpus Obama quatre sections
alignées, est une illustration très concrète de la notion de résonance.
L’analyse factorielle des correspondances (ou AFC), qui fait partie des
méthodes dites de statistique descriptive, a été développée par J.-P. Benzécri,
précisément pour analyser des données textuelles. Cette méthode traite
des tableaux de nombres difficiles à saisir dans leur globalité, tableaux que
l’on rend perceptibles en proposant une représentation graphique qui en est une
approximation, soit dans une perspective exploratoire soit dans une perspec-
tive confirmatoire, lorsqu’il s’agit de tester des hypothèses de recherche. On
utilise traditionnellement cette méthode en lexicométrie pour identifier les faits
saillants d’un corpus en termes de distribution du stock lexical. Il s’agit alors de
réduire un grand nombre de variables à quelques facteurs structurants.
152
Quels outils logiciels et pour quoi faire ?
Fig. 25. – Extrait du tableau lexical sur Corpex ; distribution des formes
Emma et Charles.
153
Méthodes et outils informatiques pour l’analyse des discours
Dans le tableau lexical qui précède figurent les premières formes spécifi-
quement positives (sur-employées dans la partie Bovary par rapport aux autres
154
Quels outils logiciels et pour quoi faire ?
Cette seconde AFC, produite sur les seuls pronoms personnels et adjectifs
possessifs, permet ainsi de juger de la proximité des emplois des marques de
l’énonciation entre les différentes parties du corpus. Nous aurons l’occasion
de voir d’autres illustrations au chapitre 6.
La lecture et l’interprétation de ces graphiques n’ont rien de très intuitif.
Pour comprendre ce qu’il y a derrière ces figures, nous proposons au lecteur
de se rendre en fin d’ouvrage et de lire la fiche « En savoir plus sur l’AFC »
(p. 218-228).
Les textes, recueillis sur le site officiel de l’Élysée, ont été confrontés à la
version audiovisuelle et modifiés lorsqu’il y avait lieu. Le corpus se compose
155
Méthodes et outils informatiques pour l’analyse des discours
Une fois segmenté, le corpus compte 58 257 occurrences pour 6 426 formes.
Rappelons ici qu’une forme est une suite de caractères non-délimiteurs bornée
à ses extrémités par deux caractères délimiteurs. Quantitativement, on peut
considérer qu’il s’agit d’un « petit » corpus. À titre d’exemple, l’œuvre complète
de Balzac représente 4 millions d’occurrences, les données numérisées par
Google, plus de 44 milliards. Cependant, le corpus Vœux est un corpus très
homogène en termes de genre, et exhaustif.
156
Quels outils logiciels et pour quoi faire ?
Fig. 30. – AFC sur Vœux, partition Locuteurs, axes 1 et 2, via Le Trameur.
157
Méthodes et outils informatiques pour l’analyse des discours
l’axe 2, etc. Ce qui oppose la partie giscard aux parties degaulle, chirac et
hollande (axe 2) n’est cependant pas de la même nature que ce qui oppose la
partie degaulle aux parties sarkozy et hollande. De plus, la position centrale
de la partie mitterrand laisse envisager qu’elle partage un grand nombre de
formes lexicales avec les autres parties du corpus. Cette analyse factorielle ne
constitue pas un résultat en soi et mérite un approfondissement de l’analyse.
Nous reviendrons sur l’interprétation de ce graphique dans le chapitre suivant
(« Le mot comme témoin de prises de position », p. 174).
Étape 5 – Spécificités
158
Quels outils logiciels et pour quoi faire ?
on 121 65 16
Autres explorations…
159
Méthodes et outils informatiques pour l’analyse des discours
160
Quels outils logiciels et pour quoi faire ?
161
CHAPITRE VI
163
Méthodes et outils informatiques pour l’analyse des discours
164
Problématiques d’analyse du discours et méthodes
165
Méthodes et outils informatiques pour l’analyse des discours
tion du sens ») et ce type de déception, déjà évoqué au fil de cet ouvrage (voir
le cas de la forme plus dans le chapitre 1, p. 32) fait partie de la démarche
lexicométrique, mais peut être en partie évité par l’examen de la liste des
segments répétés.
Que faut-il conclure de ces remarques sur une approche déductive des
thèmes ? Qu’une bonne connaissance des données est nécessaire pour identi-
fier les mots candidats à l’identification de thèmes et que le choix doit être
soigneusement justifié. Pour contourner cette difficulté, le chercheur peut
adopter une démarche inductive de repérage des thèmes, démarche rendue
possible par certains calculs tels que la classification descendante ou la
cooccurrence généralisée.
166
Problématiques d’analyse du discours et méthodes
167
Méthodes et outils informatiques pour l’analyse des discours
168
Problématiques d’analyse du discours et méthodes
Fig. 2. – AFC de cooccurrences (Source : Mayaffre, Damon, 2012, Nicolas Sarkozy. Mesure
et démesure du discours (2007-2012), Paris, Presses de Sciences Po, p. 38-39).
lexicaux les plus fréquents. Une fois l’AFC obtenue, on peut alors proposer
des regroupements sur des bases thématiques.
C’est cette méthode que met en œuvre Damon Mayaffre dans l’étude
du discours d’un président de la République contemporain, N. Sarkozy. La
comparaison qu’il propose illustre bien la différence thématique qui existe
entre les discours de ce président et les discours du premier président de la
Ve République, le général de Gaulle. Les deux hommes se distinguent très
nettement par la place accordée à l’économie, qui constitue un ensemble à
part chez N. Sarkozy, alors que les vocabulaires sociaux (emploi…) et écono-
mique sont mêlés chez de Gaulle. Ce dernier, en revanche, accorde une place
plus importante à l’international, ce qui fait écho à la période de la guerre
froide.
Une recherche – La naissance des rubriques dans la presse
écrite :
Le travail mené par Virginie Lethier (2009) est une bonne illustration
de la manière dont l’analyse thématique permet d’éclairer les pratiques
journalistiques. Dans le cadre d’un projet sur l’évolution des pratiques
journalistiques s’appuyant sur la numérisation d’un journal régional de
Franche-Comté au xixe siècle, Le Petit Comtois (voir présentation de la
base de données dans le chapitre 3), V. Lethier pose la question de la
naissance des rubriques dans la presse écrite. Cette étude s’intègre à
169
Méthodes et outils informatiques pour l’analyse des discours
Une fois le thème établi et les mots qui l’actualisent repérés, on peut
s’interroger sur le développement chronologique du thème, par une ventilation
(cf. chap. 5), par exemple. Le thème peut connaître des moments de densifi-
cation et des passages à vide.
Par ailleurs, la prudence s’impose dans l’interprétation de listes de mots
hors cotexte. Il faut vérifier, le cas échéant, si l’occurrence du mot relève bien
de la catégorie grammaticale que l’on cherche : un nom si on cherche un nom,
un adjectif si on cherche un adjectif. Un changement de catégorie signifiera
toujours un changement de sens, plus ou moins marqué. Prenons l’exemple
170
Problématiques d’analyse du discours et méthodes
de jeune, forme qui peut être soit un adjectif soit un nom, alors que le plus
souvent, le chercheur ne s’intéresse qu’à l’une des deux formes. La vérifica-
tion peut se faire très facilement grâce à une concordance dont les lignes de
cotexte sont triées en fonction de la forme qui précède la forme-cible. Le
chercheur vérifie que des déterminants (les, des) précèdent la forme-cible.
Ensuite, deux solutions sont possibles : soit le chercheur procède à un étique-
tage morpho-syntaxique qui permettra de discriminer les deux homonymes ;
soit, plus simplement, et seulement si le corpus n’est pas trop volumineux, il
change l’orthographe d’une des deux formes de façon à pouvoir les distinguer.
Par exemple, il code « jeuneN » pour le nom jeune.
Pour approfondir l’étude de la mise en mot du thème, on peut classer
les cooccurrents des mots-cibles en catégories thématico-sémantiques. Cette
pratique permet d’avoir accès à ce qui est dit à propos du thème, à la manière
dont celui-ci est envisagé. Un traitement complet et cohérent des listes de
cooccurrents est nécessaire pour éviter « l’interprétation à la volée ». L’analyse
et l’interprétation lexicométriques comportent toujours un va-et-vient entre
délinéarisation et relinéarisation. Ainsi, la forme politique est-elle ambiguë et
peut-elle actualiser le nom ou l’adjectif, ce qui peut éventuellement faire varier
son rattachement aux catégories thématiques. Une forme peut également
être tout à fait ininterprétable en dehors de son cotexte linguistique. Ainsi de
l’adjectif nouveaux, qui, dans un corpus de presse concernant l’immigration
(cf. chap. 3, scénario 2), présente un fort indice cooccurrentiel avec intégra-
tion. Le retour au texte montre qu’il apparaît dans la séquence intégration des
nouveaux arrivants. Seule cette indication permet de classer la forme nouveaux
dans les catégories des « personnes qui s’intègrent ».
171
Méthodes et outils informatiques pour l’analyse des discours
172
Problématiques d’analyse du discours et méthodes
Terme F Terme F
Tableau 1. CFDT. Les expansions gauches les plus fréquentes pour les formes salariés et
travailleurs.
173
Méthodes et outils informatiques pour l’analyse des discours
174
Problématiques d’analyse du discours et méthodes
Fig. 4. – AFC sur le corpus Vœux, partition Locuteurs, axes 1 et 2, projection colonnes +
lignes, via Le Trameur.
175
Méthodes et outils informatiques pour l’analyse des discours
tandis que le présentatif c’est est sans doute plutôt employé par F. Hollande.
Cette sur-représentation de c’est peut être révélatrice d’une manière de dire
le politique et d’argumenter. Il peut s’agir d’une manière de se rapprocher
de l’interlocuteur, par l’utilisation de tournures plus familières et dire mon
premier devoir, c’est… plutôt que mon premier devoir consiste en… On aurait
difficilement lu ou entendu cela chez de Gaulle.
Sur la gauche, la forme Algérie contribue à « tirer » la partie de Gaulle
sur la gauche du plan factoriel et fait donc partie des formes qui le distin-
guent nettement des autres locuteurs. Le rituel des vœux de bonne année
ne fait pas pour autant disparaître le contexte politique et les événements
en cours. L’indéfini on proche de F. Mitterrand doit engager le chercheur à
examiner cette forme en termes de spécificités. Celui-ci découvrira que les
contextes de l’indéfini on chez F. Mitterrand révèlent deux types d’emplois qui
peuvent relever de la construction de l’ethos présidentiel ou bien de l’argu-
mentation (Leblanc, 2005). Dans un premier cas de figure, F. Mitterrand use
de tournures familières, le plus souvent d’ailleurs pour dresser un parallèle
entre la France et les Français et peut-être construire un ethos du père : « Un
pays c’est comme une famille. On n’a pas les mêmes goûts, on n’a pas les
mêmes idées, mais on a la même patrie… » Le deuxième emploi consiste en
un effacement énonciatif qui a pour effet une certaine déresponsabilisation
du locuteur. Le référent du on étant indéterminé, cela laisse place à toutes
les interprétations : « La décrue du chômage qu’on nous annonce », « Ce que
l’on appelle la politique de rigueur n’est qu’une épreuve de vérité », « Il aura
fallu plus de quatre ans pour qu’on commence à se rendre compte que nous
sommes sur le bon chemin », « On a dit que nos réformes sociales avaient
coûté trop cher »…
Sur l’axe vertical (axe 2), la deuxième personne du pluriel (vous), mais aussi
les formes lexicales relevant de l’expression des vœux (bonheur, santé) contri-
buent à placer V. Giscard d’Estaing (VGE, désormais) plus bas sur l’axe 2, mais
sont sans doute également présentes chez G. Pompidou. Ces deux présidents
prononceraient-ils des discours plus rituels que les autres ? L’analyse des spéci-
ficités montre que c’est surtout chez VGE que ces formes sont en sur-emploi.
Si G. Pompidou use finalement assez peu du lexique relevant des vœux, il
rejoint VGE sur une caractéristique importante : comme VGE, il présente ses
vœux aux Français, dans leur vie personnelle et professionnelle, comme VGE,
il ne se présente pas uniquement comme les chefs de l’État mais comme un
Français parmi les Français. Tous deux créent donc un rapprochement, une
certaine connivence avec les Français.
Pour approfondir certaines de ces pistes, et pour faire apparaître des prises
de position s’exprimant par le lexique, on peut également chercher à mettre
au jour le vocabulaire spécifique de certaines parties du corpus. Le chercheur
peut obtenir ce résultat en lançant le calcul des spécificités dans les parties
qui l’intéressent. Ce calcul, expliqué dans le chapitre 5, permet de porter un
176
Problématiques d’analyse du discours et méthodes
jugement sur la répartition des formes dans les parties d’un corpus, jugement
qui s’exprime en termes de suremploi (spécificité positive) et de sous-emploi
(spécificité négative). Par exemple, on peut chercher à connaître le vocabulaire
spécifique des discours de deux candidats lors des élections présidentielles, à
partir du corpus Discours2007 (corpus mis à disposition de la communauté
par Jean Véronis †, présenté dans le chapitre 3).
Les discours de campagne électorale sont des textes très réfléchis, rédigés
en grande partie par des conseillers en communication (voir, dans le champ de
l’analyse du discours politique, Bacot et al. [dir.], 2016). Le vocabulaire utilisé,
177
Méthodes et outils informatiques pour l’analyse des discours
pensé dans le cadre d’une campagne de communication plus large, reprend les
grands mots d’ordre et l’éthos que le candidat veut construire ou qu’il véhicule.
Ainsi, les verbes de volonté apparaissent comme très spécifiques du discours
du candidat Sarkozy, de même que le pronom de la première personne. Le
discours de la candidate communiste au contraire est plus centré sur des noms
relevant des thèmes de campagne et de l’identité du parti (femmes, hommes,
luttes, militantes et militants). Et, si elle parle de « sport », c’est parce qu’elle
a occupé la fonction de « Ministre de la Jeunesse et des Sports ». Ce type
d’analyse peut ouvrir sur une réflexion sur l’éthos des candidats à la prési-
dentielle, et, pourquoi pas, sur des questions de genre (au sens de gender,
voir par exemple le travail mené par Magali Guaresi sur les professions de foi
politiques et chap. 2, p. 56).
La seconde voie pour repérer des prises de positions inscrites dans les
mots consiste à sélectionner certains mots, qu’on suppose discriminants, pour
comparer leur fréquence et/ou leur spécificité dans des partitions du corpus.
La première question à laquelle le chercheur est dès lors confronté est
celle du choix des mots étudiés. Heureusement, plusieurs réponses peuvent
être suggérées, induites par le corpus ou issues d’hypothèses formulées par
le chercheur en fonction de ses connaissances a priori : dans le premier cas
de figure, le mot peut être très fréquent (dictionnaire des fréquences) ou très
saillant (indice de spécificité) dans le corpus, conduisant l’analyste à s’inté-
resser à des formes qu’il n’avait pas a priori repérées comme centrales (par
exemple nous, difficultés dans un corpus de rapports rédigés par des éducateurs
spécialisés dans la protection de l’enfance) ; dans le second cas, la centralité
du mot/des mots est connue de l’analyste, parce qu’elle est fortement liée au
thème par exemple. Ainsi, on peut travailler sur des mots-notions politiques ou
sociaux (classe sociale, immigration) ou sur les différentes manières de nommer
un même référent (un immigrant, un immigré, un migrant, un réfugié) ; la
centralité du mot peut apparaître via des commentaires métalinguistiques
récurrents à son sujet ; le mot peut également être le thème de la recherche,
(par exemple, Shanghaï et ses différentes graphies dans une recherche sur
le classement du même nom, cf. Barats et Leblanc, 2013). Dans ce cas, on
fait l’hypothèse que le sens du nom en discours dépasse sa simple relation de
référence et que l’analyse du nom ouvrira des pistes sur la manière dont se
constitue le débat public sur ce thème.
Nous donnerons l’exemple de l’étude réalisée par Damon Mayaffre (2008)
sur travail dans les discours des candidats à l’élection présidentielle française
en 2007 (corpus Discours2007). L’analyste mobilise son savoir sur la campagne
et se pose la question de l’emploi du mot travail. Il sait que ce mot a été parti-
culièrement présent, notamment dans les discours de N. Sarkozy, qui a promu
le slogan « Travailler plus pour gagner plus » dont nous avons déjà parlé dans
le chapitre 1 au sujet de « plus ». Regardons maintenant travail, à partir d’un
calcul des spécificités (cf. figure 6).
178
Problématiques d’analyse du discours et méthodes
179
Méthodes et outils informatiques pour l’analyse des discours
180
Problématiques d’analyse du discours et méthodes
181
Méthodes et outils informatiques pour l’analyse des discours
sur des mots-notions comme inégalité, inéquité par exemple… Cette section
a été pensée de telle sorte à fournir à ces chercheurs les moyens d’inter-
préter les résultats textométriques sous un angle sémantique. Les chercheurs
formés en linguistique pourront y trouver la présentation d’une approche du
sens qui complétera celles qu’ils connaissent déjà. La lexicométrie a élaboré
une conception du sens appuyée sur des observations du texte délinéarisé.
Disons-le d’emblée, cela n’est pas la seule manière de concevoir le sens, et
cela ne recouvre pas tous les présupposés de l’analyse du discours tels qu’ils
ont été énoncés en introduction.
Les linguistes opposent généralement un sens stabilisé et partagé (dit
« en langue ») à un sens plus variable, moins pérenne (dit « en discours »).
On peut trouver une représentation du premier dans les dictionnaires, sans
que ces derniers constituent pour autant la référence absolue en la matière.
Le sens « en discours » est plus évanescent, parce que plus connecté à des
mouvements socio-historiques, des enjeux idéologiques ou des représentations
culturelles. De ce fait, il constitue une donnée très riche pour des travaux
qui articulent le langage au social, ou qui portent directement sur le social,
envisagé à travers ses réalisations langagières.
La sémantique est un domaine complexe, dans lequel différentes perspec-
tives cohabitent, en fonction des présupposés théoriques et des unités analy-
sées. Disons simplement que différentes approches se rejoignent (sans pour
autant s’appuyer sur des présupposés théoriques communs) pour considérer
que le cotexte est constitutif du sens dans la mesure où celui-ci actualise le
sens du mot, ou, tout du moins, en est un révélateur.
En sémantique discursive, domaine de l’étude du sens « en discours », la
méthodologie consiste, pour le chercheur, à corréler des différences cotex-
tuelles à des différences d’emploi, et, précisément, les outils quantitatifs
offrent une méthode raisonnée pour cette entreprise. Cette méthode, si elle
ne permet pas de décrire avec exhaustivité le sens d’un mot, permet au moins
d’en décrire une partie, qu’il s’agisse du sens « en langue » ou « en discours ».
Toutefois, dans un corpus, le sens d’un mot sera nécessairement restreint,
il est donc illusoire de penser qu’on pourra décrire l’intégralité du sens d’un
mot à partir d’un seul corpus. C’est là la difficulté à laquelle est confrontée la
linguistique de corpus.
Le lexique est particulièrement sensible aux variations idéologiques.
Cette hypothèse est formulée par Claudine Haroche, Paul Henry et Michel
Pêcheux : « les mots changent de sens selon les positions tenues par ceux qui
les emploient » (1971, p. 102). Le cas de travail développé plus haut illustre
cette position théorique. Ce fonctionnement sémantique trouve sa source,
en partie, dans le dialogisme (cf. Valentin Volochinov, Paul Siblot, Sophie
Moirand…), dont il a été question en introduction, à savoir le fait que les
mots sont « marqués » par leurs emplois antérieurs et, de ce fait, déclencheurs
d’une mémoire chez les locuteurs. Dans cette perspective, les mots sont à la
182
Problématiques d’analyse du discours et méthodes
fois les catalyseurs et les véhicules du dialogisme. Si ce dernier n’est pas direc-
tement accessible en tant que tel grâce à des outils textométriques, le sens
que donne un certain locuteur ou groupes de locuteurs à un mot est révélé et
configuré par les associations que ce mot a tissées avec d’autres au sein d’un
corpus particulier. Ainsi, pour M. Tournier (1996, p. 76), « un mot n’existe
pas par lui-même ; il est lu et entendu à travers les mots qui ont l’habitude de
coexister avec lui dans le discours ». Cette position ouvre la voie à l’étude de
l’idéologie qui naît des associations entre les mots. Au-delà de la syntaxe, les
associations « colorent » les mots et leur font porter des représentations, une
vision du monde qui se situe en deçà du sens explicite. « Le sens est associatif
avant d’être grammatical », nous disent M. Tournier et S. Bonnafous (1995,
p. 75), dans une prise de position assez provocatrice.
Le chercheur peut se trouver très désemparé devant une liste de cooccur-
rents et se demander comment il va pouvoir l’interpréter. En effet, les associa-
tions lexicales, que l’on peut voir émerger par la cooccurrence par exemple,
sont de nature très diverse et peuvent être rapportées à des phénomènes de
nature très différente. La taille du cotexte est un facteur de variation impor-
tant (sur cette question, voir Fiala, 1987) : un cotexte très proche (5 mots
avant, 5 après par exemple) va révéler principalement des associations figées,
soit grammaticales (prépositions, mais aussi pronoms ou modaux), soit des
syntagmes figés propres à un discours spécialisé (le pouvoir d’achat, les condi-
tions de travail dans le discours syndical), des dénominations de discours
(noms de ministères, d’institutions, de programmes politiques) ou des slogans
politiques ou formules circulant dans les discours publics (la fracture sociale,
la purification ethnique, le développement durable). Un cotexte plus large (la
phrase, le paragraphe) mettra au jour des associations moins figées, de nature
plus idéologiques qui demandent une bonne connaissance du corpus, un
retour au texte pour être interprétées (voir plus bas la notion de téléstéréo-
types), et, parfois, une analyse manuelle. Les exemples qui suivent illustrent
ces différentes relations cooccurrentielles.
Pour montrer l’intérêt que peut revêtir le cotexte dans l’analyse du sens
d’un mot dans un corpus donné et en quoi cela peut compléter une analyse
du discours lexicographique (« du dictionnaire »), nous prendrons l’exemple
du mot crise (Veniard, 2013) dans un corpus portant sur des conflits (militaire,
social) dans la presse quotidienne. Ce mot se caractérise par une grande diver-
sité référentielle (la crise est financière, immobilière, cardiaque ou conjugale).
Parmi les cooccurrents entretenant un lien très fort avec le mot, lien marqué
par un indice de spécificité très élevé, on relève gestion (conflit militaire) et
sortie (conflit social), qui actualisent les syntagmes (la) gestion de la crise et
(la) sortie de la crise. Une recherche de tous les verbes et les noms (des dérivés
verbaux en réalité) actualisant l’idée d’un « règlement » de la crise révèle une
série stable comprenant solution et résoudre ainsi que les variations morpho-
logiques (conjugaison des verbes) de toutes ces formes. Les dictionnaires
183
Méthodes et outils informatiques pour l’analyse des discours
184
Problématiques d’analyse du discours et méthodes
La proximité entre ces deux formes dans les textes est confirmée par le
dispositif textuel que constitue la relation entre le titre et l’article. Le
plus abstrait des deux mots, insécurité, figure dans le titre d’articles qui
portent sur la délinquance et la criminalité. D’autres manifestations
discursives viennent ancrer cette proximité : les deux formes parta-
gent l’expression de la quantification (l’insécurité/la délinquance sont
croissantes) ; mais aussi l’association avec la forme victime. Les mots
partagent des fonctionnements communs, mais les enchaînements à
proprement parler sont rares (La délinquance… cette insécurité…).
Il apparaît donc que l’usage que fait Le Monde d’insécurité participe
du consensus général fondé sur l’interprétation « insécurité délin-
quance ». L’interprétation qui ferait de l’insécurité un sentiment plutôt
qu’une réalité socio-politique n’est pas privilégiée dans les articles.
185
Méthodes et outils informatiques pour l’analyse des discours
186
Problématiques d’analyse du discours et méthodes
Indications bibliographiques
187
Méthodes et outils informatiques pour l’analyse des discours
188
Problématiques d’analyse du discours et méthodes
189
Méthodes et outils informatiques pour l’analyse des discours
190
Problématiques d’analyse du discours et méthodes
Longueur du SR SR Fréquence
191
Méthodes et outils informatiques pour l’analyse des discours
192
Problématiques d’analyse du discours et méthodes
193
Méthodes et outils informatiques pour l’analyse des discours
194
Problématiques d’analyse du discours et méthodes
qui vont de la visée pragmatique que doit accomplir le rapport (décrire pour
évaluer et préconiser une mesure) à la prise en compte de l’interdiscours qui
« imprègne » le discours des éducateurs.
On voit à travers ces quelques exemples comment la catégorie du genre
peut contribuer à définir des problématiques discursives. On voit aussi que
ce qu’on entend par « genre » peut varier en fonction des recherches/du cadre
théorique de la recherche selon qu’on dénomme « genre » des classes de
textes identifiées par un nom, associées à une même fonction ou manifestant
des régularités formelles. On aura intérêt de fait à concevoir le genre
comme une catégorie « construite » susceptible d’être redéfinie au
cours de l’avancée de la recherche.
195
Méthodes et outils informatiques pour l’analyse des discours
196
Problématiques d’analyse du discours et méthodes
La densité fréquentielle
197
Méthodes et outils informatiques pour l’analyse des discours
Quand une forme est fréquente et centrale au récit d’une actualité, elle
peut connaître une certaine extension et diffusion, sur le plan de son signifiant
ou du référent.
La fréquence d’une forme pour dire un événement s’accompagne souvent,
dans les médias, d’une saillance qui rend possible sa diffusion pour parler
d’autres événements. Les segments répétés offrent une manière de saisir
quantitativement ce type de phénomènes discursifs. É. Née (2012) montre
que si les SR comprenant la forme insécurité relèvent en priorité du thème
de la délinquance, la forme a donné lieu à d’autres segments répétés tels
que insécurité sociale, routière, alimentaire, juridique, etc., qui sont autant de
recatégorisations de phénomènes existants et nommés (ou non) différemment,
à partir d’une forme saillante.
198
Problématiques d’analyse du discours et méthodes
199
Méthodes et outils informatiques pour l’analyse des discours
ciation d’un mot ou d’une expression s’accompagne d’un retour sur ce mot ou
cette expression, saisis dans leur matérialité signifiante. Ainsi, dans La France
a déclaré la « guerre » au terrorisme islamiste, le segment « guerre » est un cas
de modalisation autonymique : le locuteur effectue un retour sur ce mot, sans
que l’on puisse dire avec certitude s’il s’agit d’une mise à distance, que l’on
pourrait gloser par « comme on dit », ou plutôt d’un emprunt (une citation par
exemple, ou une allusion plus ou moins consciente).
Dans une certaine mesure, ces phénomènes peuvent faire l’objet d’un
repérage semi-automatique ou automatique. La première solution consiste
à annoter manuellement les formes de discours rapporté présentes dans le
corpus. Fanny Rinck et Agnès Tutin (2007) soulignent que l’entreprise est
possible, même si elle est difficile pour certaines formes. Elles dressent une
liste des indices formels qui peuvent faciliter la tâche des annotateurs et
distinguent les guillemets de citation, de modalisation et de dénomination
(exemple : ce qu’on appelle « un trou noir »).
On peut aussi se servir de certains repères linguistiques pour identifier les
segments de discours autre. Les guillemets constituent un indice relativement
fiable, à défaut d’être parfait. On peut utiliser tout simplement une concor-
dance ou une carte des sections (en projetant les guillemets au lieu d’une
forme). L’analyse de formes ou de segments répétés sous l’angle de l’hétéro-
généité énonciative permettra d’identifier de bons candidats susceptibles de
devenir des formules, au sens défini plus haut, ou des points de crispation
des discussions qui sont autant de lieux possibles de la construction du sens
de l’événement.
Différents travaux en TAL, ayant souvent des objectifs d’analyse d’opinion,
ont pour objectif une identification automatique des segments de discours
rapporté (Poulard et al., 2008), parfois assortie d’une caractérisation séman-
tique sur le rôle argumentatif de la citation (Jackiewicz, 2006).
200
Problématiques d’analyse du discours et méthodes
!
Ce qu’il faut retenir au terme de ce chapitre…
Dans le chapitre 5, le lecteur a pu consulter un tableau récapitulant les
fonctionnalités des différents logiciels. Le tableau qui suit vient le compléter
en offrant une vue synthétique de ce qu’il est possible de faire grâce à une
analyse du discours outillée par l’informatique.
Je peux… Grâce à…
Pour terminer et pour donner corps à ce qui est récapitulé dans le tableau
précédent, nous reprenons les questions d’étudiants, présentées dans le
chapitre 2 et étayées du point de vue de la constitution du corpus, en les
poussant un peu plus loin sur le plan des possibilités d’analyse.
201
Méthodes et outils informatiques pour l’analyse des discours
202
FICHES PRATIQUES ET APPROFONDISSEMENTS
Définition
Exemples
À quoi ça sert ?
À repérer des patrons ou motifs dans les textes.
Liens
203
Méthodes et outils informatiques pour l’analyse des discours
Autres liens :
des tables claires en anglais :
– [http://www.w3schools.com/jsref/jsref_obj_regexp.asp]
une bonne version en français :
– [http://www.expreg.com/symbole.php]
des explications avec de bons exemples en chinois :
– [http://deerchao.net/tutorials/regex/regex.htm]
\b frontière de mot
\w caractère de mot
204
Fiches pratiques et approfondissements
Exemples
as [a-z]+ as as soon as
Serge Fleury.
205
Méthodes et outils informatiques pour l’analyse des discours
Cette figure donne à voir une fenêtre de commandes de type Unix dans
laquelle trois commandes sont tapées successivement ; la première (cd) permet
de se déplacer dans l’arborescence du système de fichiers et de se positionner
dans le répertoire indiqué (sur le disque C : dans un répertoire nommé tools) ;
la seconde (ls) affiche le contenu du répertoire courant (i.e celui atteint par
la précédente commande) ; et enfin la troisième (wc) est censée compter le
nombre de mots dans le fichier visé (via l’option –w utilisée ici) ; à noter que
le résultat est assez éloigné de ce qui a été vu dans le chapitre 1 : visiblement,
compter les mots avec cette commande ne semble ici pas pertinent, on a
d’ailleurs déjà vu une bien meilleure solution dans le même environnement.
Bien évidemment, toutes les commandes disponibles dans cet environnement
ne constituent pas toutes forcément la solution idéale, il faut souvent patienter
un peu avant de trouver une solution satisfaisante.
Comme on le voit ici, une fenêtre de commandes peut paraître à certains
un peu rustique (pas d’interface graphique). Elle impose aussi de connaître
un certain nombre de commandes pour atteindre les objectifs de traitements
souhaités.
206
Fiches pratiques et approfondissements
UNIQ sort fichier | uniq –c Affiche les lignes d’un fichier texte en
supprimant les multiples occurrences
consécutives d’une même ligne, pour n’en
garder qu’une seule (l’option –c permet de
compter les occurrences)
1. [http://www.nextinpact.com/news/99572-bash-ubuntu-sous-windows-10-comment-
installer.htm] (consulté le 01/06/16) : on trouvera à cette adresse un mode d’emploi pour
disposer de la fenêtre de commandes Unix sous Windows 10 (console Bash Ubuntu).
207
Méthodes et outils informatiques pour l’analyse des discours
208
Fiches pratiques et approfondissements
type de conversion sur un plus grand nombre de fichiers. Dans ce cas, il est
possible de relancer le même type de commande autant de fois que nécessaire,
mais il peut être plus raisonnable de systématiser cette conversion en utilisant
des fonctionnalités de la fenêtre de commandes qui permettent par exemple
d’automatiser la conversion sur l’ensemble des fichiers PDF contenu dans le
répertoire courant, comme le montre la figure suivante :
Les 2 fichiers PDF initiaux ont chacun été traités et leurs contenus sont
respectivement associés à 2 nouveaux fichiers au format TXT brut. Ce traite-
ment en série des 2 fichiers est réalisé par une boucle de traitement (la bouche
for) qui exécute le traitement sur chacun des fichiers PDF contenus dans
le répertoire courant. On peut lire cette ligne de commandes de la manière
suivante : « pour chaque élément de l’ensemble résultant de la commande
listant les fichiers PDF du répertoire courant, appliquez sur cet élément (un
fichier donc) le traitement pdftotext. »
Cette dernière étape va bien entendu au-delà des objectifs de cet ouvrage.
Elle illustre cependant la nécessité de mettre parfois en œuvre des briques
de code pour dépasser la simple utilisation de commandes certes puissantes
mais dont on peut tirer encore plus en les intégrant dans des programmes
permettant d’automatiser au mieux les traitements visés.
209
Méthodes et outils informatiques pour l’analyse des discours
210
Fiches pratiques et approfondissements
211
Méthodes et outils informatiques pour l’analyse des discours
Serge Fleury.
212
Fiches pratiques et approfondissements
213
Méthodes et outils informatiques pour l’analyse des discours
Chacun des fichiers contient une seule ligne. Les trois fichiers peuvent
être concaténés de la manière suivante :
La commande prend en argument ici les noms des trois fichiers à conca-
téner (dans l’ordre induit par l’écriture des noms de fichier) ; on ajoute ensuite
le caractère > pour diriger le résultat de la concaténation dans un nouveau
fichier nommé fichierglobal.txt.
214
Fiches pratiques et approfondissements
215
Méthodes et outils informatiques pour l’analyse des discours
Les contenus des 2 fichiers de départ sont concaténés l’un derrière l’autre
et délimités par un jalon textuel (une balise) précisant leur origine. Ce type de
fichier est directement pris en charge par les logiciels Lexico ou Le Trameur.
Serge Fleury.
216
Fiches pratiques et approfondissements
– [http://www.tal.univ-paris3.fr/trameur/FICHES/liste-url-newspaper.txt]
– [http://www.tal.univ-paris3.fr/trameur/FICHES/L4F004-FICHE1.pdf]
– [http://www.tal.univ-paris3.fr/trameur/FICHES/L4F004-FICHE2.pdf]
Exemple de corpus
– [http://www.tal.univ-paris3.fr/trameur/FICHES/corpus-chronologique.
zip]
[http://www.tal.univ-paris3.fr/trameur/FICHES/L4F004-FICHE3a.pdf]
– [http://www.tal.univ-paris3.fr/trameur/FICHES/L4F004-FICHE3b.pdf]
Serge Fleury.
217
Méthodes et outils informatiques pour l’analyse des discours
Fig. 1
218
Fiches pratiques et approfondissements
Exemple : la marge colonne est égale à l’effectif total des mots (effectif
total de la forme nous), la marge ligne est égale à l’effectif total de la partie
Andromaque, par exemple, dans le corpus CORPEX (cf. chap. 5).
L’AFC compare les profils lexicaux des partitions au profil lexical moyen,
c’est-à-dire l’écart à la norme. En d’autres termes, on évalue une répartition
théorique uniforme et l’on compare avec ce que l’on obtient réellement.
Fig. 2
Fig. 3
219
Méthodes et outils informatiques pour l’analyse des discours
Représentation graphique
220
Fiches pratiques et approfondissements
221
Méthodes et outils informatiques pour l’analyse des discours
On peut aussi choisir de projeter sur le plan factoriel des points-lignes dont
on veut examiner la position…
222
Fiches pratiques et approfondissements
Sur le corpus Corpex, les mots amour et mort projetés sur le plan facto-
riel peuvent être interprétés comme particulièrement significatifs des parties
Andromaque et Le Cid. Pour que cette interprétation soit statistiquement
fiable, il faudrait cependant s’assurer que ces points sont contributifs des
différents axes.
Notons qu’une forme très fréquente et banale se trouvera nécessairement
au centre du plan factoriel. C’est le cas, par exemple, sur un tableau lexical
non élagué, des formes de, le, la, et… qui statistiquement ne comportent que
peu d’intérêt.
Enfin, le fait d’afficher points-lignes et points-colonnes sur un même
graphique peut-être appelé « représentation simultanée ».
Nombreux sont les outils logiciels qui utilisent le même module d’AFC et
donc strictement le même calcul. Cependant, les tableaux sur lesquels portent
ces calculs d’AFC diffèrent parfois sensiblement d’un outil à l’autre. Ainsi,
les configurations obtenues à partir d’un même corpus ne sont pas toujours
rigoureusement identiques :
– les seuils de fréquences ne sont pas toujours les mêmes, que l’on tienne
compte de la totalité du tableau lexical ou d’un extrait (par exemple,
garder les mots de fréquence >=5) ;
– la segmentation n’est pas toujours strictement équivalente d’un logiciel
à l’autre, les caractères délimiteurs n’étant pas toujours pris en compte
de la même façon ;
– certains tableaux lexicaux sont construits à partir de la casse originale et
mêlent donc caractères minuscules et majuscules, d’autres ont subi un
traitement préalable et tiennent compte des mots composés ;
– certains outils construisent l’AFC à partir d’un tableau lexical dont on a
supprimé les très hautes fréquences ou certains mots outils ;
– peuvent être soumis à l’AFC d’autres tableaux que des tableaux lexicaux
au sens strict : matrices de cooccurrences, matrices de distances entre
les textes, tableaux présentant non plus les fréquences des formes mais
simplement leur présence-absence.
Il est donc indispensable, lorsque l’on commente une AFC, de connaître
très précisément la nature du tableau qui est soumis à l’expérience factorielle.
Ces variations ne sont pour autant pas toujours contradictoires. Il appartient
au chercheur de construire, à partir des invariants des configurations obtenues,
des faisceaux d’éléments sur lesquels étayer l’analyse. En d’autres termes, ce
qui est commun à toutes les AFC permet de se lancer dans l’analyse.
223
Méthodes et outils informatiques pour l’analyse des discours
Fig. 9.
Fig. 10.
224
Fiches pratiques et approfondissements
Fig. 11.
Figure 12.
225
Méthodes et outils informatiques pour l’analyse des discours
Un tel exemple de corrélation nous est livré avec l’étude qui suit, réalisée
par Fabienne Pierre (2008). Cette étude repose sur un corpus synchronique
réunissant une série de déclarations prononcées par les représentants des
États membres de l’ONU à l’occasion du Sommet Mondial du Développement
Durable (Johannesburg, 2002). Ce corpus compte 110 déclarations au total,
toutes en anglais. L’étude vise à décrire la configuration de cet espace discursif
en termes de positionnements spécifiques à travers une analyse systématique
et contrastive du vocabulaire. Les outils classiques de la statistique lexicale
sont mobilisés dans une perspective expérimentale, à travers l’application
d’une série de variables « construites », souvent invoquées pour rationa-
liser le comportement des acteurs étatiques sur la scène internationale. Les
indices de liberté élaborés par l’ONG américaine Freedom House donnent
lieu à une classification des États sur la base de critères politiques et civils et,
dans le contexte des déclarations de Johannesburg, s’associent à des résultats
inattendus.
L’AFC (reproduite ci-dessous) montre une configuration qui rappelle celle
qui peut être observée sur les corpus chronologiques (cf. infra). Cette configu-
ration suggère qu’il y aurait une corrélation forte entre l’« Indice » des libertés
Civiles des pays étudiés et le lexique employé. Les fréquences relatives et les
indices de spécificité associés à l’emploi des marqueurs énonciatifs du rituel
semblent corrélés aux degrés de liberté.
226
Fiches pratiques et approfondissements
Indications bibliographiques
227
Méthodes et outils informatiques pour l’analyse des discours
Jean-Marc Leblanc.
228
BIBLIOGRAPHIE
Alduy Cécile, Wahnich Stéphane, 2015, Marine Le Pen prise aux mots. Décryptage
du nouveau discours frontiste, Paris, Seuil.
Arquembourg Jocelyne, 2011, L’événement et les médias, les récits médiatiques des
tsunamis et les débats publics (1755-2004), Paris, Archives contemporaines.
Authier-Revuz Jacqueline, 1997, « Modalisation autonymique et discours autre :
quelques remarques », Modèles linguistiques, n° 35, p. 33-51.
– La représentation du discours autre. Principes pour une description (à paraître).
Bacot Paul, Gaboriaux Chloé, Le Bart Christian, Mayaffre Damon (dir.), 2016,
« Discourir pour présider », Mots, n° 112, p. 9-18 [http://www.cairn.info/revue-
mots-2016-3-page-9.htm].
Barats Christine, 1994a, L’intégration et le discours présidentiel sur l’immigration (1981-
1991), thèse pour le doctorat en sciences politiques, université Paris 9 Dauphine,
1994.
– 1994b, « Le discours présidentiel sur l’immigration : inscription dans l’espace natio-
nal et consensus d’évitement. 1981-1991 », Quaderni, 22, Hiver 1994, p. 109-123
[http://www.persee.fr/doc/quad_0987-1381_1994_num_22_1_1065].
– 1999, « Immigration : carrefour de la suspicion (discours présidentiels et juridi-
ques) », Mots, 60, septembre 1999, Perspectives croisées sur l’immigration, p. 43-57
[http://www.persee.fr/doc/mots_0243-6450_1999_num_60_1_2163].
Barats Christine, Leblanc Jean-Marc, 2013, « Généalogie de la co-construc-
tion médiatique du « classement de Shanghai » en France. Corpus de presse et
usages sociodiscursifs », Mots, n° 102, p. 67-83 [http://www.cairn.info/article.
php ?ID_ARTICLE=MOTS_102_0067].
Beaudouin Valérie, Pasquier Dominique, 2014, « Organisation et hiérarchisation
des mondes de la critique amateur cinéphile », Réseaux 1/2014, n° 183, p. 125-159
[http://www.cairn.info/revue-reseaux-2014-1-page-125.htm].
229
Méthodes et outils informatiques pour l’analyse des discours
Ben Hamed Mahé, Mayaffre Damon (éd.), 2015, Thèmes et thématiques dans le
discours politique, Mots, n° 108 [https://mots.revues.org/21969].
Bendinelli Marion, 2012, « Étude des auxiliaires modaux et des semi-modaux dans
les débats présidentiels américains (1960-2008) : analyse qualitative et quantita-
tive. Relations d’influence et enjeux de pouvoir », thèse de doctorat en sciences du
langage, université de Nice.
Benveniste Émile, 1966, [1958], « De la subjectivité dans le langage », in Problèmes
de linguistique générale, 1, Paris, Gallimard, p. 258-266.
Bonnafous Simone, 1991, L’immigration prise aux mots, Paris, Kimé.
Bonnafous Simone, Tournier Maurice, 1995, « Analyse du discours, lexico-
métrie, communication et politique », Langages, n° 117, mars 1995, Les ana-
lyses du discours en France, p. 67-81 [http://www.persee.fr/doc/lgge_0458-
726x_1995_num_29_117_1706].
Branca-Rosoff Sonia, 1999, « Types, modes et genres entre langue et dis-
cours », Langage et Société, n° 87, p. 5-24 [http://www.persee.fr/doc/lsoc_0181-
4095_1999_num_87_1_2851].
Brunet Étienne, 2000, « Qui lemmatise dilemme attise », Lexicometrica [En ligne],
n° 1 [http://lexicometrica.univ-paris3.fr/article/numero2/brunet2000.PDF].
– 2012, « Nouveau traitement des cooccurrences dans Hyperbase », Corpus [En
ligne], n° 11 [http://corpus.revues.org/2275].
Cislaru Georgeta, Sitri Frédérique, 2012, « De l’émergence à l’impact social des
discours : hétérogénéités d’un corpus », Langages, 3/2012, n° 187, p. 59-72 [http://
www.cairn.info/revue-langages-2012-3-page-59.htm].
Cislaru Georgeta, Sitri Frédérique, Pugnière-Saavedra Frédéric (dir.), 2008,
Carnets du Cédiscor, n° 10, Analyse du discours et demande sociale. Le cas des
écrits de signalement [https://cediscor.revues.org/59].
Champagne Patrick, 1991, « La construction médiatique des malaises sociaux », in
Actes de la recherche en sciences sociales, n° 90, p. 64-76 [http://www.persee.fr/doc/
arss_0335-5322_1991_num_90_1_2997].
Charaudeau Patrick, Maingueneau Dominique (dir.), 2002, Dictionnaire d’analyse
du discours, Paris, Seuil.
Charaudeau Patrick, 2009, « Dis-moi quel est ton corpus, je te dirai quelle est ta
problématique », Corpus [En ligne], n° 8 [http://corpus.revues.org/1674].
Deroubaix Jean-Claude, Gobin Corinne, 2000, « Le roi règne, il ne gouverne pas. Il
s’adresse au peuple belge/vocabulaire des discours prononcés par le roi Baudouin
durant son règne », in Actes JADT’2000 [http://lexicometrica.univ-paris3.fr/jadt/
jadt2000/pdf/95/95.pdf].
Détrie Catherine, Siblot Paul et Verine Bertrand, 2001, Termes et concepts pour
l’analyse du discours. Une approche praxématique, Paris, Honoré Champion.
Diwersy Sascha et Liancarlo Gerardo, 2016, « Mettre en évidence le temps lexical
dans un corpus de grandes dimensions : l’exemple des débats du Parlement euro-
péen », in Actes JADT’2016, Nice, 2016 [http://lexicometrica.univ-paris3.fr/jadt/
jadt2016/01-ACTES/83638/83638.pdf].
Evert Stefan, 2005, The Statistics of Word Cooccurrences : Word Pairs and Collocations,
Dissertation, Institut für maschinelle Sprachverarbeitung, University of Stuttgart
[http://www.stefan-evert.de/PUB/Evert2004phd.pdf].
– 2008, « Corpora and collocations », in A. Lüdeling and M. Kytö (eds.), Corpus
Linguistics. An International Handbook, Berlin, Mouton de Gruyter, p. 1212-1248
[http://www.stefan-evert.de/PUB/Evert2007HSK_extended_manuscript.pdf].
230
Bibliographie
231
Méthodes et outils informatiques pour l’analyse des discours
232
Bibliographie
233
Méthodes et outils informatiques pour l’analyse des discours
234
Bibliographie
235
Méthodes et outils informatiques pour l’analyse des discours
236
Bibliographie
237
INDEX
239
Méthodes et outils informatiques pour l’analyse des discours
240
Index
O T
Occurrence : 142, 204 Tableau lexical : 125, 135, 138-139,
Ontologies sémantiques : 131 153-154, 157, 221, 223.
Texte brut : 75-77
P TextObserver (outil) : 125, 144-146, 160
Parties du discours : 107 Textométrie : 11
Partition/Partitionnement : 89-90, 138, Thème.s : 28-29, 35-36, 55, 60, 94, 127,
156-158, 164, 176, 180, 218-222, 131, 160, 164, 165-171
226 Topographie/topologie textuelle : 146-
Patron (lexico-syntaxique) : 88, 108, 118- 150, 197
119, 121, 144, 146, 192 Traitement automatique des langues
PDF (Portable Document Format) : (TAL) : 11, 101, 109, 118, 200
68-69, 75, 208-209 Transcoder : 80
Phraséologie : 100, 108, 111, 118, 188- TreeTagger (outil) : 81-82, 86, 106-108
189 Tropes (outil) : 131-132, 160, 165
TXM (outil) : 25, 144, 145, 160
R
Racine/Racinisation : 95, 109, 121, 126
241
Méthodes et outils informatiques pour l’analyse des discours
U W
Unités polylexicales : 81, 106 Winbrill (outil) : 81, 106
Unités séquentielles : 109, 118 Wordle (outil) : 30, 31-35
Unité topique/non topique : 51, 56, 64 XML (Extensible Markup Language) :
Unix (Outil) : 22, 24-26, 28, 93, 135, 68, 91, 92, 148, 149, 150
206-208, 213
242
LES AUTEURS
243
Méthodes et outils informatiques pour l’analyse des discours
244
TABLE DES MATIÈRES
REMERCIEMENTS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
POUR COMPRENDRE CE QUI VA SUIVRE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
COMMENT LIRE CE LIVRE… . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
CHAPITRE I
COMPTER LES MOTS ? PAS SI SIMPLE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
Quelques idées reçues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Savoir ce que l’on compte : un cas pratique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Quelles données ? Quels outils ? Pour quoi faire ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
Compter avec des nuages de mots ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
Mais où sont passés les mots ? Le cas de Google Ngram Viewer . . . . . . . . . . . . . . . . . . . . 36
CHAPITRE II
CONSTITUER UN CORPUS EN ANALYSE DU DISCOURS,
UN MOMENT CRUCIAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
Le corpus en analyse du discours . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
Principes de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
Le corpus est construit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
Les corpus est contextualisé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
Le corpus est contrastif/comparatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
Le corpus en AD : de la clôture à l’ouverture, de l’homogénéité à l’hétérogénéité . . . . . 44
La notion de « moments de corpus » chez les historiens du discours . . . . . . . . . . . . . . . . . 45
La notion de « corpus réflexif » . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
Les « corpus à géométrie variable » . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
Quelques exemples de structuration du corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
La structuration en genres de discours . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
Structuration selon les sources énonciatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
245
Méthodes et outils informatiques pour l’analyse des discours
CHAPITRE III
CONSTITUER UN CORPUS EN TROIS SCÉNARIOS . . . . . . . . . . . . . . . . . . . . . . 63
Scénario 1 – Un corpus médiatique autour d’une expression,
d’un énoncé, d’une construction ou d’un mot-notion . . . . . . . . . . . . . . . . . . . . . . . . . 64
Étape 1 – Quel est mon objet d’étude, quel est mon corpus ? . . . . . . . . . . . . . . . . . . . . . . . 64
Choix des observables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
Délimitation du corpus : de la sphère médiatique au corpus de presse . . . . . . . . . . . . . . . 65
Étape 2 – Recueil du corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
Où recueillir les données ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
Comment recueillir les données ? Requêtes et mots-clés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
Étape 3 – Formatage et nettoyage des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
Extensions des fichiers prises en compte par le logiciel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
Codage des caractères . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
Nettoyage des scories . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
Étape 4 – Quelques choix à effectuer dans la préparation des données . . . . . . . . . . . . . 80
Que faire des majuscules ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
Que faire des mots composés ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
Lemmatiser ou ne pas lemmatiser mon corpus ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
Que peut m’apporter une annotation de mon corpus ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
Étape 5 – Concaténation des fichiers, structuration des données, balisage . . . . . . . . . . 88
Concaténation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
Structuration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
Balisage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
Scénario 2 – Un corpus autour d’un thème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
Étape 1 – Quel est mon objet d’étude, quel est mon corpus ? . . . . . . . . . . . . . . . . . . . . . . . 94
Exemple 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
Exemple 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
Exemple 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
Étape 2 – Recueil du corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
Exemple 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
Exemple 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
Exemple 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
Étapes 3 et 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
Étape 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
Scénario 3 – Un corpus de discours politiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
Étape 1 – Quel est mon objet d’étude, quel est mon corpus ? . . . . . . . . . . . . . . . . . . . . . . . 97
Étape 2 – Recueil du corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
Où recueillir les données ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
Comment recueillir les données ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
Étape 3 – Formatage et nettoyage des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
Étape 4 – Des choix à effectuer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
Étape 5 – Structuration du corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
246
Table des matières
CHAPITRE IV
COMPTER DANS LES TEXTES, QUELLES UNITÉS ? . . . . . . . . . . . . . . . . . . . 103
Autour du mot : formes graphiques, lemmes,
catégories morphosyntaxiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
La forme graphique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
106
Le lemme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Les parties du discours . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
Aller en deçà du mot ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
Les N-grammes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
Les racines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .109
Au-delà des mots : des unités séquentielles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
Les segments répétés (SR) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
Les associations de mots ou cooccurrences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
Principe. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
La cooccurrence contextuelle spécifique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
La cooccurrence généralisée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
De nouvelles unités séquentielles à définir : les motifs et les routines . . . . . . . . . . . . . 118
Des unités « paradigmatiques » : les groupes de formes . . . . . . . . . . . . . . . . . . . . . 119
CHAPITRE V
QUELS OUTILS LOGICIELS ET POUR QUOI FAIRE ? . . . . . . . . . . . . . . . . . . 123
Repères historiques et épistémologiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
Typologie logicielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
Les outils essentiellement contrastifs et longitudinaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
Les outils proposant une approche structurante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
Les outils reposant sur des ontologies ou des dictionnaires . . . . . . . . . . . . . . . . . . . . . . . 131
Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
Principales méthodes et fonctionnalités (outils contrastifs
et longitudinaux). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
135
Index hiérarchique et tableau lexical. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Distributions (ou ventilations) de fréquences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
141
Calcul des spécificités. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Du nécessaire retour au texte : concordances et cartes topographiques . . . . . . . . . . . 142
142
Concordances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Topographie/Topologie textuelle et carte des sections . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
L’analyse factorielle des correspondances (principes généraux) . . . . . . . . . . . . . 152
Synthèse : exploration méthodique d’un corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
Étape 1 – Conditions de recueil et de constitution du corpus . . . . . . . . . . . . . . . . . . . . . 155
Étape 2 – Caractéristiques quantitatives. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
Étape 3 – Examen de l’index hiérarchique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
Étape 4 – Affinités et contradictions lexicales : analyse factorielle
des correspondances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
Étape 5 – Spécificités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
Autres explorations… . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
247
Méthodes et outils informatiques pour l’analyse des discours
CHAPITRE VI
PROBLÉMATIQUES D’ANALYSE DU DISCOURS ET MÉTHODES . . . . 163
Thèmes, événements, faits sociaux : de quoi parle le corpus et comment ? . . . 164
Approches déductives et inductives des thèmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
Approche inductive par la classification descendante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
Approche inductive par la cooccurrence généralisée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
Le mot comme témoin. Les analyses du discours à entrée lexicale . . . . . . . . . . 172
Le mot comme témoin d’évolutions socio-historiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
Le mot comme témoin de prises de position . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
Le cotexte et la construction du sens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
Les formes grammaticales et la typographie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
Quand le discours se fige : phraséologie, routines discursives,
sloganisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
Les segments répétés. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
Quelques pistes pour le repérage automatique de « formules ». . . . . . . . . . . . . . . . . . . . 190
Les segments semi-figés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
Comparer et caractériser des discours : la catégorie du genre . . . . . . . . . . . . . . . 193
Discours médiatiques et saillance événementielle . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
La densité fréquentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197
La diffusion d’un signifiant . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
La circulation d’une forme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199
BIBLIOGRAPHIE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229
INDEX. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239
LES AUTEURS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243
248