Nothing Special   »   [go: up one dir, main page]

HDR - Candea2017 - Depot - HAL

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 224

Pratiques de prononciation et enjeux sociaux.

Approches post-variationnistes en sociophonétique du


français de France
Maria Candea

To cite this version:


Maria Candea. Pratiques de prononciation et enjeux sociaux. Approches post-variationnistes en
sociophonétique du français de France. Linguistique. Université Grenoble Alpes, 2017. �tel-01910667�

HAL Id: tel-01910667


https://hal.science/tel-01910667
Submitted on 2 Dec 2018

HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est


archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents
entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non,
lished or not. The documents may come from émanant des établissements d’enseignement et de
teaching and research institutions in France or recherche français ou étrangers, des laboratoires
abroad, or from public or private research centers. publics ou privés.
Maria CANDEA

Pratiques de prononciation et enjeux sociaux

Approches post-variationnistes en sociophonétique


du français de France

Synthèse des travaux en vue de l’obtention d’une


Habilitation à Diriger des Recherches
Université Grenoble Alpes

Jury : Jean-Pierre Chevrot, Professeur des universités (garant)

Martine Adda-Decker, Directrice de recherche, CNRS


Françoise Gadet, Professeure émérite des universités
Philippe Hambye, Professeur des universités
Claudine Moïse, Professeure des universités

2017

date de soutenance : 10 mars 2017


2
Pratiques de prononciation et enjeux sociaux
Approches post-variationnistes en sociophonétique du français de France

Sommaire
Remerciements .............................................................................. 5
Avant-propos : présentation générale du dossier en vue d’une
habilitation à diriger des recherches ..................................................6

Première partie : Genèse et évolution des questions et des


méthodes de recherche sur le français oral ................................ 8

I.1 Description et interprétation des pauses silencieuses et des


marques du travail de formulation .................................................8
I.1.1 Cadre théorique ........................................................................................... 8
I.1.2 Définition de l’objet de recherche .................................................................. 9
I.1.3 Synthèse des résultats sur la distribution et les propriétés prosodiques ...........11
I.1.4 Synthèse des résultats sur la perception .......................................................14

I.2 Bilan d’étape du parcours dans le champ théorique et


méthodologique .......................................................................... 16
I.2.1 Posture de recherche ...................................................................................17
I.2.2 Etudier la production de la parole .................................................................21
I.2.3 Etudier la perception de la parole .................................................................22
I.2.4. Terrain et « données » ...............................................................................26
Domaine de la production ......................................................................................... 28
Domaine de la perception ......................................................................................... 30
I.2.5 Des niveaux micro- vers les niveaux macro-, ou vice-versa ............................33
Les pratiques de prononciation................................................................................. 33
Zoomer sur une pratique de prononciation .............................................................. 35
Prendre en compte les idéologies langagières : zoomer - dézoomer ...................... 37

Deuxième partie : Travaux en sociophonétique du français de


France .......................................................................................46

II.1 Micro-phénomènes de la prononciation éclairés par des


méthodes mixtes de recherche .................................................49
II.1.1. Mener des recherches sur l’hétérogénéité socialement organisée des
prononciations ....................................................................................................49
II.1.2 L’exemple de la palatalisation/affrication des occlusives dentales ..................54
Définition et hypothèses ............................................................................................... 55
Production : méthodes d’enquête et résultats ................................................................ 58
Perception : méthodes d’enquête et résultats ................................................................ 66
3
Conclusions provisoires ................................................................................................ 81
II.1.3 L’exemple de l’épithèse vocalique ................................................................82
Définition et hypothèses ............................................................................................... 82
Production : méthodes d’enquête et résultats ................................................................ 86
Perception : méthodes d’enquête et résultats ................................................................ 94
II.1.4 L’exemple de l’épithèse consonantique ...................................................... 102
Définition et hypothèses ............................................................................................. 102
Production : méthodes d’enquête et résultats .............................................................. 107
Perception : méthodes d’enquête et résultats .............................................................. 111
II.1.5 Rapprocher épithèse vocalique et fricative ? Conclusions provisoires ........... 121
Contraintes articulatoires et distribution ...................................................................... 122
Discours spontanés et hypothèses scientifiques ........................................................... 127
Perceptibilité expérimentale ........................................................................................ 130

II.2 La prononciation comme pratique sociale............................. 132


II.2.1 Savoir académique et savoir « profane » : quelques pistes de réflexion ..... 132
Exemple de sollicitation de discours épilinguistiques ..................................................... 135
Confrontation avec les discours experts ....................................................................... 141
II.2.2 Apports des théories sur le « genre » et la « race » au domaine des études en
sociophonétique du français ............................................................................... 144
Bref état des lieux ...................................................................................................... 144
Ecueils ...................................................................................................................... 149
Résultats d’une étude sur la perception de la parole .................................................... 151
II.2.3 Accent régional, accent social et style........................................................ 153
Analyse de la notion accent dit « de banlieue » ........................................................... 157
II.2.4 Etude de cas : l’accent dit « de banlieue » à Sciences Po ? ......................... 163
Macro-contexte de l’enquête : Sciences Po et les débats sur la diversité ........................ 165
Le dispositif de sélection prévu par la Convention d’Education Prioritaire ....................... 167
Micro-contexte: terrain et méthode de recueil des données .......................................... 172
Pratiques de prononciation, pratiques discursives et construction identitaire des élèves.. 175

Synthèse : vers la construction d’un champ d’études inter-


disciplinaire autour des pratiques de prononciation ...............179

III.1 Généralisation des méthodes mixtes ........................................................... 180


III.2 Approches post-variationnistes en sociophonétique ...................................... 182
III.3 Chantiers en cours ..................................................................................... 185

Curriculum Vitae ....................................................................... 188


Liste des publications ................................................................ 199
Bibliographie du volume de synthèse .....................................206

Annexes (volume à part)


Textes des publications sélectionnées pour le dossier de synthèse

4
Remerciements

L’Habilitation à diriger des recherches est pour moi une étape dans un parcours, et non la fin d’un
parcours. Il va de soi qu’il n’est jamais solitaire, et on retrouvera au fil de cette synthèse la plupart des
noms de celles et ceux avec qui j’ai fait des tronçons plus ou moins longs de ce parcours (jamais
linéaire !).

Je suis profondément reconnaissante à toutes celles et tous ceux qui m’ont prodigué encouragements,
conseils, suggestions, critiques, et qui ont partagé avec moi remarques, questions, étonnements,
rires, espoirs et agacements… au sujet de mes différentes thématiques de recherche, passées,
actuelles, futures, possibles, probables et improbables !

Ce serait trop long d’en faire la liste exhaustive, mais je peux citer les différentes « tribus » :

 les « tribus » de Paris 3 (l’ancienne équipe Recherches sur le français contemporain fondée et
dirigée par Mary-Annick Morel où j’ai découvert la recherche en linguistique ; l’ancien Centre
de linguistique française ; l’axe actuel Pratiques langagières et interaction dirigé par Anne
Salazar Orvig au sein de CLESTHIA ; le Laboratoire de Phonétique et Phonologie ; l’ancien
Télé3 - actuel ENEAD ; les étudiant-e-s du séminaire de master de sociophonétique…)

 la « tribu » du LIMSI qui m’a chaleureusement accueillie en délégation

 la « tribu » du LIDILEM avec qui je me sens un peu comme en famille

 la « tribu » de « Delacroix » qui m’a toujours accueillie avec enthousiasme et bienveillance

 la « tribu » de la revue GLAD ! qui me donne tant d’énergie

 la « tribu » de Montreuil qui s’est prêtée à mes entretiens

 la « tribu » de Montreuil-Paris-Fontenay-Bucarest-Leipzig-Augsbourg-Constanta (bref, la


famille et les ami-e-s, qui sont toujours tout près malgré les distances et les contraintes
d’emploi du temps).

 Et aussi toustes les autres, dont j’ai croisé la route à un moment, dans différentes
organisations politiques, dans le réseau EDAF,… et qui ont contribué à ce que je conserve
mon enthousiasme pour les questions d’éducation et d’engagement citoyen ainsi que pour les
sciences humaines en général.

5
Avant-propos : présentation générale du dossier en vue
d’une habilitation à diriger des recherches

Ce volume s’ouvre par un bilan critique et synthétique de mon parcours de


recherche et se poursuit par un état des lieux de mes « chantiers » en cours et des
directions de recherche que je défends.

Les deux parties Genèse et évolution des questions et des méthodes de recherche sur
le français oral et Travaux en sociophonétique du français de France rendent compte de
mes principales questions de recherche, depuis la période de mon doctorat soutenu en
2000 et jusqu’à présent, et mettent en avant l’évolution de mon positionnement mais
également sa cohérence. C’est en effet dès le doctorat que j’ai commencé à concevoir
mon travail comme un slalom géant entre différentes théories réputées concurrentes ou
complémentaires, dans un parcours entrecoupé de longs arrêts devant des objets à
construire tout autant qu’à décrire à l’aide d’une diversité d’outils plus ou moins
sophistiqués, plus ou moins rodés, plus ou moins faciles à apprivoiser. Malgré les
difficultés de mes choix, et les impasses parfois, je ne me suis jamais résolue à envisager
mon travail comme une longue navigation paisible sur le fleuve tranquille d’un seul
cadre théorique.
Mon parcours n’a été possible que grâce à la richesse des échanges que j’ai pu avoir
avec des collègues qui ont constitué petit à petit mon « réseau de recherche », en
permanente expansion au gré des projets et des collaborations. Ce réseau ne pouvait
être que pluridisciplinaire ; il se constitue actuellement de chercheurs en
sociolinguistique, en anthropologie linguistique, en phonétique, en traitement
automatique de la parole, en interface prosodie-syntaxe, en acquisition de la parole, en
psycholinguistique et en études littéraires et linguistiques sur le genre (on trouvera des
détails dans la partie « Collaborations » de mon CV, à la fin de ce volume). Mes lectures
dans ces différents champs disciplinaires, ainsi que dans le domaine des sciences de
l’éducation, de la philosophie et de la sociologie, m’ont conduite à défendre à présent un
projet de recherche original, en sociophonétique du français.

La synthèse qui suit montre mon cheminement depuis la recherche d’invariants et


de contraintes linguistiques dans la production de la parole vers la prise en compte de
plus en plus approfondie de la variabilité langagière, à travers l’étude de macro facteurs
sociaux ou de micro enjeux en interaction, dans le domaine de la prononciation
(sociophonétique) ; depuis la recherche de constantes dans la perception de très brefs
extraits sonores vers la prise en compte des idéologies langagières liées à la
représentation de la variabilité, aussi bien dans la littérature de spécialité en sciences
humaines que dans les discours des non-spécialistes (médias ou grand public). J’inclus
dans ce mémoire des commentaires détaillés au sujet de certaines de mes lectures en
privilégiant délibérément les auteur·e·s qui ont étudié le français, car c’est tout
particulièrement avec elles et eux que je confronte mes hypothèses et mes résultats.
Bien que les travaux réalisés aux Etats-Unis (et parfois au Canada ou en Grande
Bretagne) sur les pratiques de l’anglais soient des sources d’inspiration incontournables
dans tout dialogue scientifique, pour des raisons évidentes de structuration du monde
académique actuel dans les pays dits « du nord », je ne considère pas que toute théorie
ou toute connaissance produite sur des pratiques en anglais dans un espace culturel

6
précis serait obligatoirement aisément transférable sur une autre langue et vers un
autre espace culturel. Si je privilégie des citations d’auteur·e·s qui ont consacré leurs
travaux au français, ce n’est donc pas un biais accidentel de ma bibliographie mais un
choix de ma part.

Bien que la présentation de ce volume suive en filigrane une logique


chronologique, on y trouvera régulièrement des développements consacrés à des points
de méthode ou choix théoriques ayant traversé différents projets appartenant à des
époques différentes ou ayant sensiblement évolué au fil du temps. Je privilégie de
manière générale davantage la présentation de mes méthodes et de mes
positionnements théoriques que j’ai rarement eu l’occasion de développer dans mes
publications (la question du « terrain », de la construction des « données », etc.), et
j’accorde une large place à la présentation de données inédites et de corpus
exploratoires, n’ayant pas encore fait l’objet d’une publication ou n’ayant pas vocation à
être publiés.

La dernière partie - conclusions et synthèse - de ce mémoire est plus


programmatique. J’y synthétise mes projets de recherche en cours, qui s’orientent vers
une théorisation plus assumée de la pertinence des méthodes mixtes de recherche et
vers la défense d’une sociophonétique constituée en champ d’étude inter-disciplinaire
(dans la logique des « studies », domaines organisés par un objet de recherche et non
par une théorie) autour des enjeux sociaux de la prononciation.

Les publications incluses dans le volume des annexes sont citées dans le corps de
cette synthèse par le numéro attribué dans la liste de mes publications placée en fin de
volume, avant la bibliographie ; par exemple [doc 01], [doc 02], etc.

Lorsque le symbole suivant accompagne une figure, cela signifie que le fichier son
est fourni en annexe de ce document :

7
Première partie : Genèse et évolution des questions et des
méthodes de recherche sur le français oral
L’objectif principal de cette partie n’est pas tant de rapporter les résultats de mes
premières recherches, mais d’exposer, avec la distance critique que permet
l’éloignement dans le temps et l’avancement dans les recherches, la construction
progressive de mon positionnement théorique et méthodologique.

I.1 Description et interprétation des pauses silencieuses et


des marques du travail de formulation

Après une maitrise en sociolinguistique sous la direction de Patrick Renaud,


durant laquelle j’ai pu découvrir les routines de la construction d’un objet de recherche
et les frontières institutionnelles entre linguistique et sociolinguistique, j’ai décidé de
commencer un parcours de recherche au long cours sous la direction de Mary-Annick
Morel, dans le domaine de l’analyse syntaxique et énonciative de productions orales en
français.
J’ai soutenu mon DEA (Master 2) en 1996 et j’ai poursuivi mon travail en
m’inscrivant en doctorat l’année suivante. A cette époque, Mary-Annick Morel et Laurent
Danon-Boileau étaient en train d’élaborer leur Grammaire de l’intonation qui devait être
publiée durant ma propre rédaction du travail de doctorat (Morel et Danon-Boileau
1998). L’expérience de leurs séminaires et les échanges scientifiques au sein de leurs
équipes ont été déterminants pour moi, car j’ai eu le privilège de voir une théorie
scientifique se co-construire et d’être associée à cette co-construction.

I.1.1 Cadre théorique

La théorie de la co-énonciation / colocution part de deux postulats en syntaxe de


l’oral : la tendance du français à l’analyticité et à la « décondensation des marques » et la
complémentarité (non-redondance) des indices intonatifs, morphosyntaxiques et
lexicaux (on trouvera dans Morel 20001, une synthèse particulièrement complète). Ce
modèle théorique se focalise sur la recherche de régularités au plan segmental et
suprasegmental susceptibles de refléter les rôles complémentaires - démarcatif,
rhétorique, énonciatif, interactionnel - des différents indices. Son objectif de description
va de pair avec celui de l’interprétation. En effet, le modèle se propose d’éclairer la
valeur que prennent les indices intonatifs par le recours à deux mécanismes
complémentaires : l’iconicité mobilisable par tout être humain qui pratique la parole
adressée à un autre être humain, et la conventionnalisation au sein d’un système
linguistique particulier.
Ce modèle a l’ambition de rendre compte du fonctionnement du langage selon trois
dimensions essentielles : la structuration syntaxique et informationnelle, le processus
d’encodage de la parole (gestion de la formulation), la construction de l’intersubjectivité
(gestion du droit à la parole en interaction – colocution et articulation à la pensée de

1 Dans Berthoud et Mondada 2000.


8
l’autre – coénonciation). Il permet ainsi de rechercher une interprétation de ce qui
relèverait des processus universels de communication entre humains par la parole et de
ce qui relèverait des contraintes linguistiques posées par un système particulier,
susceptibles d’être différentes d’une langue à une autre. Les paramètres intonatifs pris
en compte sont la durée des syllabes et des pauses silencieuses (permettant de rendre
visible le travail de formulation), les variations de la plage de la F0 (permettant de
montrer les ajustements ou absence d’ajustements à la pensée de l’Autre) et les
variations de l’intensité (permettant, notamment dans une langue dépourvue d’accent
lexical comme le français, de gérer le droit à la parole et son forçage, le cas échéant).
Quelques années plus tard, Mary-Annick Morel devait élargir son objet d’étude en
intégrant la prise en compte des indices posturo-mimo-gestuels dans sa recherche
d’invariants de la parole (Bouvet et Morel 2002). Partant du principe qu’il n’était pas
envisageable de concevoir l’activité humaine de parole sans la gestualité et les
mimiques, Bouvet et Morel ont proposé de parler de « gestes verbaux », en réfutant ainsi
la terminologie dominante à l’époque qui privilégiait l’utilisation des étiquettes
« paraverbal » ou « co-verbal ».
C’est dans ce cadre théorique que j’ai commencé mes recherches ; un cadre
théorique puissant qui s’intéressait d’abord aux invariants de la communication
humaine, à la typologie des langues et à ce qui, dans la prosodie et ensuite dans la
gestualité verbale, peut relever d’une grammaire.

I.1.2 Définition de l’objet de recherche

En ce qui me concerne, j’ai consacré mon doctorat à la description des pauses


silencieuses et de ce que j’ai appelé les marques du travail de formulation en français oral
non lu (notamment les euh , les répétitions de mots outils, les allongements vocaliques,
les auto-corrections immédiates ne dépassant pas une ou deux syllabes et la
combinaison de tous ces indices).
Dans le sillage des travaux de Morel et Danon-Boileau centrés sur la multimodalité
et la complexité de la parole, j’ai décidé de ne pas m’approprier la terminologie la plus
courante pour désigner ces phénomènes dans la littérature, à savoir « hésitations » ou
« disfluences ». Le premier terme « hésitations » m’a semblé trop restrictif, car le travail
de formulation laisse des traces omniprésentes dans la production de la parole, loin de
pouvoir se réduire à l’hypothèse d’une hésitation du locuteur ou de la locutrice en train
d’allonger ou de répéter un mot grammatical. Le second, « disfluences » émanait
principalement du TAL (traitement automatique du langage), un domaine de recherche
à l’époque clairement orienté vers la normativité du langage écrit. Tout particulièrement
les travaux en reconnaissance automatique de la parole envisageaient en général la
variation comme un problème et non comme une caractéristique intrinsèque de toute
langue ; l’oral y était décrit non comme la forme première de toute langue naturelle -
aussi bien en ontogenèse qu’en phylogenèse - mais comme un brouillon imparfait, plein
de scories et bruits à nettoyer, afin de l’approcher ou le comparer avec un écrit
canonique servant de référence même pour l’oral. Il m’avait semblé à l’époque que la
notion de « disfluence » reposait sur une notion de « fluence » insuffisamment théorisée.
Le fait d’envisager les marques spécifiques de l’oral non préparé comme un travail
de formulation m’a permis d’une part de conserver un regard englobant sur ces
différentes marques et d’autre part d’envisager des approches complémentaires sur les

9
mécanismes, cognitifs, énonciatifs, interactionnels… qui expliquent la production de ces
marques ainsi que sur les discours épilinguistiques qu’elles suscitent aisément (même si
cette démarche est restée inachevée à la fin de mon travail de doctorat).
Mon corpus actif a été construit dans une classe de collège (à Suresnes, en région
parisienne), durant une série d’exercices portant sur l’oral durant les cours de français ;
à l’époque il avait été impossible d’envisager de filmer la classe, et par conséquent mon
travail ne prend en compte que les traces captées sur bande audio, en écartant donc la
gestualité, les regards ou les mimiques.
Une des premières questions qui m’ont été posées au début de la fabrication de
mon corpus d’étude a été celle de la « spontanéité » du langage recueilli. Le débat venait
probablement de la sociolinguistique de la première vague (Labov 1966; Labov 1972)
où le « vernaculaire », le « casual speech », le « parler ordinaire » des locuteurs était
défini de manière idéalisée comme quelque chose d’authentique, de difficilement
accessible mais particulièrement désirable pour les chercheur·e·s. Bien que cette notion,
fragile et souvent très mal définie, ait fait l’objet de nombreuses critiques au fil du temps,
elle conserve encore un certain pouvoir de séduction (voir Auzanneau 2015 pour une
synthèse sur la réification de ce style de parole et sur le travail de déconstruction à ce
sujet suscité en sociolinguistique à la suite du développement des travaux en analyse des
interactions et en anthropologie linguistique). La réponse que j’ai choisi d’apporter dès
mon doctorat, et la position que j’ai adoptée depuis, a été celle de la linguistique de
corpus : il ne s’agissait pas de forger des analyses sur des exemples fabriqués par
l’imagination du chercheur, mais il ne s’agissait pas non plus d’écarter des masses
d’enregistrements variés sous prétexte que les locuteurs ou locutrices n’étaient pas en
conversation amicale avec des pairs. Le cadre d’analyse grammaticale de Morel &
Danon-Boileau allait dans le même sens, en favorisant la diversité des corpus, des
situations, des styles, des profils de gens… Un extrait de cours magistral ou un entretien
d’embauche ne sont pas moins authentiques qu’une conversation amicale ; ces
situations partagent, par postulat, un certain nombre de traits (ceux qui relèvent
justement de la grammaire d’une langue) et cela permet, dans une optique
grammaticale, d’en faire un grand corpus indifférencié, rendu homogène par la seule
reconnaissance unanime de son caractère unilingue (français, anglais, turc, etc.).
J’ai généralement évité de parler d’oral « spontané » pour ne pas alimenter
l’ambigüité éventuelle et la confusion avec le « vernaculaire » mythique, et j’ai choisi de
parler d’oral non lu. Le travail de formulation se rend visible dans toute production orale
non lue, y compris dans les discours appris par cœur – sauf s’il s’agit de discours répétés
un nombre incalculable de fois ayant abouti à une production suffisamment routinisée
pour que la mémoire à court terme ne soit plus sollicitée de la même manière qu’en
production langagière moins préparée (c’est le cas dans les prières, dans les
performances professionnelles au théâtre, après un très grand nombre de répétitions,
etc.). J’ai consacré mes recherches à de l’oral non-lu et non-appris-par-cœur-de-façon-
hautement-routinisée, et j’ai toujours tâché d’accorder une grande attention à la
description des situations d’enregistrement pour éclairer la production de la parole
analysée.
Les marques du travail de formulation (appelées en général « phénomènes
d’hésitation ») constituaient un objet marginal pour la linguistique traditionnelle mais
cet objet avait attiré l’attention de plusieurs spécialistes, à peu près depuis les années 60
(Goldman-Eisler 1958; Goldman-Eisler 1972; Boomer 1965; Maclay et Osgood 1959;
Grosjean et Deschamps 1975), comme étant spécifique à l’oral non lu. Les pauses
silencieuses avaient toujours eu une place de choix dans la description prosodique du
10
français (ou d’autres langues), mais leur combinatoire avec les autres phénomènes
« d’hésitation » « d’édition » ou « de formulation » n’avait pas vraiment été étudiée, et
encore moins dans un cadre coénonciatif qui laisserait une place à la construction de
l’intersubjectivité.
Mes premiers travaux ont permis de dégager un certain nombre de régularités
dans la production de la parole en français oral non lu, dont j’ai fait l’hypothèse qu’elles
pouvaient être indépendantes de mon corpus d’observation ; ces résultats, que je
résume ci-dessous brièvement, ont trouvé des échos dans le domaine de l’analyse de
l’oral et de la comparaison automatique des langues. Ils ont également permis d’ouvrir
des pistes de recherche sur la saillance perceptive des phénomènes étudiés d’une part en
rapport avec les capacités cognitives de discrimination acoustique de micro-extraits
sonores, et d’autre part en rapport avec les discours épilinguistiques et caricaturaux
dont ces phénomènes dits « d’hésitation » pouvaient faire l’objet, que ces discours soient
spontanés, codifiés de manière stable ou bien sollicités par une démarche
expérimentale.
Les marques du travail de formulation (désormais marques de TdF) que j’ai
étudiées sont le euh, l’allongement final significatif, la répétition et l’autocorrection
immédiate ; toutes se combinent avec la pause silencieuses et se combinent entre elles
car elles peuvent être produites par accumulation, en contigüité.

I.1.3 Synthèse des résultats sur la distribution et les


propriétés prosodiques

Pour le volet descriptif, trois aspects ont particulièrement focalisé mon attention
et représentent la contribution originale de ce travail : la distribution des marques
étudiées en fonction du type d’unité concerné - défini a priori (mot outil/ mot plein/
connecteur), la durée des marques étudiées et des pauses silencieuses subséquentes et
la combinatoire possible de ces marques, entre elles et avec la pause silencieuse. J’ai
comparé mes résultats, fondés sur l’analyse d’un corpus de 70 minutes
d’enregistrements de récits non lus en classe de français (produits par des élèves âgés
de 13-14 ans en interaction avec leur professeure de français), avec la littérature
disponible à l’époque, qui était en fait plus abondante pour l’anglais que pour le français.
Les auteurs qui m’ont fourni les bases de comparaison les plus solides pour le
français ont été Grosjean et Deschamps 1975 et Duez 1991 ; j’ai ainsi pu mettre en
évidence une régularité distributionnelle à travers différents corpus en français : le euh
semble être la marque la plus fréquente, suivi dans l’ordre par l’allongement vocalique
final (après la ::: troisième partie), la répétition (de de de) et l’autocorrection immédiate
(pour la pour le). La pause silencieuse reste toutefois encore plus fréquente mais
contrairement aux marques du travail de formulation, elle peut avoir des rôles très
différents comme la hiérarchisation et la structuration des constituants, la mise en
valeur stylistique de certains syntagmes, en plus du marquage du travail de formulation.
Elle sert aussi à la respiration, bien entendu, mais cette fonction physiologique est
subordonnée à la fonction linguistique (on ne respire jamais au milieu d’un mot ou
n’importe où dans un énoncé).
Dans un premier temps j’ai procédé à un classement des pauses silencieuses
selon leur rôle énonciatif en évitant de recourir à l’« intention du locuteur » qui avait
servi de critère pour (Drommel 1980) par exemple. Dans un deuxième temps, je me suis
intéressée aux propriétés de ce que j’ai appelé les marques mixtes du travail de

11
formulation, à savoir les sites où les locuteurs/locutrices produisaient une combinaison
de marques contenant le plus souvent une pause silencieuse ; mon objectif était de
rechercher d’éventuelles régularités.
J’ai ainsi classé les pauses de mon corpus en deux grandes catégories, après avoir
exclu les pauses de passation de parole (situées entre deux tours de parole de deux
locuteurs différents) : pauses structurantes et pauses non structurantes. Le critère de
reconnaissance que j’ai retenu était purement formel : les pauses structurantes sont des
pauses silencieuses simples, autonomes, tandis que les pauses non structurantes
regroupent les pauses silencieuses subséquentes à un euh ou à un allongement
marquant le TdF en cours, ainsi que les pauses silencieuses insérées entre les deux
termes d’une répétition. J’ai considéré que les pauses structurantes (simples) ne
pouvaient jamais être assimilées à des marques de TdF tandis que les pauses non
structurantes étaient englobées, du point de vue énonciatif, dans la marque de TdF qui
les précédait et qui n’aurait pas pu être prolongée indéfiniment.
Mes calculs ont mis en évidence des propriétés différentes des pauses
structurantes et non structurantes ainsi définies, notamment en ce qui concerne la
durée : les dernières étaient significativement plus longues. En outre, en me basant sur
les critères de segmentation de l’oral de la Grammaire de l’intonation (Morel et Danon-
Boileau 1998), j’ai pu montrer que les distributions étaient différentes, de façon
attendue : les pauses silencieuses structurantes sont placées surtout en position inter
constituants et fin de paragraphe et très exceptionnellement en position intra
constituant2, tandis que les pauses silencieuses non structurantes sont surtout placées en
position intra constituant et inter constituants et sont pratiquement absentes en position
fin de paragraphe.
Distinguer ces deux types de pauses silencieuses et défendre l’hypothèse de deux
fonctions bien différentes revenait à distinguer clairement, dans les comptages, les
pauses qui clôturent un constituant et précèdent une marque de TdF des pauses qui sont
subséquentes à une telle marque, et donc incorporées à cette dernière :
malheureusement, pratiquement toutes les données que j’ai pu trouver dans la
littérature concernant le français amalgamaient ces deux positions, ce qui a rendu
impossible les comparaisons entre mes résultats et ceux obtenus par d’autres
recherches.
Pour augmenter la taille de mon corpus et obtenir des données plus variées j’ai
dû recourir, sur ce point, à des corpus différents prêtés par Mary-Annick Morel. Cela m’a
permis de mettre en évidence une autre régularité significative qui allait de pair avec la
hiérarchie des fréquences des différentes marques à travers les corpus en français. Les
pauses silencieuses subséquentes au euh apparaissaient comme significativement plus
longues que toutes les autres, alors que celles qui séparaient les deux termes d’une
répétition étaient significativement plus brèves que toutes les autres3. A l’instar de Clark
1994 qui analyse la différence de durée constatée entre les pauses silencieuses
subséquentes au um et au uh en anglais, j’ai pu formuler l’hypothèse que les locuteurs
seraient capables, au moment où un blocage ou un retard dans la production survient,
d’anticiper s’ils ont besoin d’un laps de temps plutôt long ou plutôt bref pour enchainer,

2 Lorsqu’une pause silencieuse simple est produite intra-constituant elle joue un rôle rhétorique, de

mise en valeur (en sailance) du mot qui suit.


3 Les résultats pour les pauses subséquentes aux allongements étaient intermédiaires, ni

significativement distincts par rapport aux euh ni par rapport aux répétitions.
12
et de produire la marque de travail de formulation la plus pertinente pour prévenir de la
longueur du laps de temps à prévoir. Si cette hypothèse est juste, cela rendrait compte
d’une ressource subtile que les locuteurs apprendraient à utiliser pour garder leur tour
dans une interaction, en prévenant au mieux ceux à qui ils s’adressent du sens à donner
à une telle pause silencieuse (qui ne vaut pas cession du tour de parole).

Mes analyses ont mis en évidence le fait que l’ordre des fréquences des différentes
marques de TdF prises en compte est directement corrélé avec les durées des pauses
silencieuses subséquentes et inversement corrélé avec le « degré de rupture » introduit.
Ce qui voudrait dire, en résumé que,
• le euh, la marque la plus fréquente, introduit les pauses les plus longues mais garantit
la continuité (76% des exemples s’insèrent sans produire aucune interruption de la
structure syntagmatique),
• l’allongement vocalique, en deuxième position par ordre des fréquences, introduit des
durées plus brèves mais garantit moins la continuité sans rupture (55% s’insèrent
sans produire d’interruption de la structure) et
• les répétitions, en troisième position pour la fréquence, occupent les durées les plus
brèves mais introduisent une rupture sur le plan syntagmatique, par la multiplication
d’un élément.
Je n’ai pas été en mesure de formuler des hypothèses claires concernant les
autocorrections, mais il m’a semblé, à partir de mes données, que la hiérarchie des
durées n’est pas maintenue : les autocorrections semblent pouvoir mobiliser des durées
relativement longues tout en introduisant des ruptures de construction, ce qui pourrait
éventuellement expliquer pourquoi elles sont évitées par les locuteurs et pourquoi elles
demandent plus d’effort et plus de temps de décodage à la réception.

La marque la plus fréquente et la plus autonome, le euh, bénéficie d’une grande


liberté distributionnelle : aucune contrainte syllabique n’entrave sa production, on peut
en produire à tout moment, après tout type d’unité ou de syllabe.
En revanche, les allongements vocaliques4 sont soumis à des contraintes
combinatoires relativement strictes. Seulement 1,6% des allongements touchent une
syllabe de type CVC, ils sont donc pratiquement exclusivement produits sur une syllabe
ouverte de type (C)V. Par ailleurs, ils sont produits avec prédilection sur les mots outils,
probablement parce que l’allongement des mots pleins est mobilisé pour d’autres effets
stylistiques [doc 16].
Les répétitions, en plus de perturber la chaine syntagmatique, se combinent le
plus souvent, dans 59% des cas, avec au moins deux autres marques de la liste pause
silencieuse, allongement vocalique et auto-correction immédiate (exemples le : le la
ramena ou bien le : /3005/ la faire la faire sortir). Dans mon corpus, j’ai noté une
différence importante de fonctionnement entre les répétitions simples ou combinées
avec une pause silencieuse et celles qui se combinent à d’autres marques [doc 29] : les
répétitions simples sont très brèves et donc très contraignantes pour les locuteurs, les
pauses silencieuses éventuelles entre les deux termes répétés ne peuvent guère
dépasser 400 ms. Les locuteurs pensent pouvoir enchainer très rapidement l’énoncé et
la répétition gère à très court terme la formulation. J’ai avancé l’hypothèse, au vu de mes

4 Il s’agit des allongements vocaliques aberrants, plus longs que la durée d’une syllabe accentuée.
5 millisecondes.
13
données, que la combinaison répétition simple + pause silencieuse (de type *le le /pause/
cordonnier) est pratiquement interdite, alors que la combinaison allongement + pause
silencieuse (de type le : : /pause/ cordonnier) est très fréquente, ce qui conforte
l’hypothèse d’un fonctionnement différent de la répétition par rapport à l’allongement,
plutôt que l’hypothèse d’une distribution aléatoire ou idiosyncrasique.

I.1.4 Synthèse des résultats sur la perception

Mes hypothèses auraient pu être approfondies et mises à l’épreuve par des


approches dans le domaine de la cognition, de l’étude de la planification de la parole, et
de la perception des informations métalinguistiques portées par les marques de travail
de formulation. Je n’ai pas eu l’occasion d’ouvrir ce chantier, mais il est exploré
actuellement dans la thèse de I. Grosman, en cours à l’université de Louvain la Neuve
(qui interroge par exemple, de manière expérimentale, le caractère « fluent » ou
« disfluent » de ces marques (Grosman 2015).
En revanche, j’ai tenté de trouver des éclairages complémentaires du côté de la
perception, de manière à conforter ou relativiser les observations faites simplement à
partir de la distribution des durées des marques de TdF ou des régularités de leurs
contextes immédiats.
Consciente de la complexité de la perception de la parole (à la fois dans son volet
psycholinguistique impliquant des tâches de bas niveau cognitif, que dans son volet
sociolinguistique, impliquant des discours épilinguistiques et des représentations
complexes), j’ai adopté deux démarches complémentaires.
La première était une démarche d’expérimentation directe. Un échantillon de
confort de 30 étudiants et étudiantes de licence ont écouté une première fois un extrait
de récit de 100 secondes et ont noté par une barre oblique, sur une transcription vierge
de tout signe de ponctuation, les endroits où ils percevaient « une pause ou un arrêt » ; la
feuille était remplacée par un nouvel exemplaire vierge et à la deuxième écoute ils
étaient invités à noter une barre oblique à chaque fois que la locutrice enregistrée
« hésitait ».
Mes résultats étaient comparés à ceux obtenus par (Duez 1991; Duez 1995), et les
tendances générales étaient similaires (bien que les méthodes fussent différentes : Duez
avait utilisé des phrases isolées mais sans transcription fournie, et un choix binaire forcé
« hésitation : oui/non »). Les résultats rassemblés montrent surtout que les pauses
silencieuses structurantes (simples) sont plus souvent perçues correctement par
rapport aux marques que les auditeurs regroupent sous le verbe « hésiter » ; que les
marques mixtes sont mieux perçues par rapport aux marques simples, que la pause
silencieuse est moins perçue en tant que « pause » lorsqu’elle se combine à une marque
de TdF, que les marques de TdF simples passent assez largement inaperçues, qu’on
relève une grande quantité de « pauses subjectives », à des frontières syntaxiques où les
personnes interrogées s’attendent à ce qu’il y ait une pause (et ce, quelle que soit la
méthode de test employée)... Les résultats révèlent aussi une grande dispersion des
réponses, un faible taux d’accord entre les auditeurs (dans mon test, seules 13% des
marques de TdF et 36% des pauses silencieuses ont été perçues par au moins 75% des
personnes interrogées).
Ma deuxième démarche a été indirecte : elle visait à investiguer les
représentations partagées à travers la codification graphique (qui permet de stabiliser la

14
représentation d’un marqueur ou d’un phénomène de prononciation quel qu’il soit) et à
travers la stylisation caricaturale par des humoristes s’adressant à un public large.
Ainsi, je me suis penchée d’une part sur la représentation graphique des
« hésitations » dans les pièces de théâtre, où les didascalies permettent d’expliciter le
sens des trucages orthographiques. J’ai découvert que ce n’est qu’à partir du XIXe siècle
que la graphie euh s’est conventionalisée petit à petit pour marquer à l’écrit le trouble, le
malaise, l’embarras, l’hésitation de la personne qui parle. Cette graphie euh fait partie
des « trucages orthographiques », récemment stabilisés, censés suggérer l’oralité d’un
discours et donner une mauvaise image de la personne qui parle (comme pratiquement
toujours lors de l’usage des trucages de l’orthographe, le eye dialect Bowdre 1964). Il y a
un très grand écart entre l’interjection euh codifiée à l’écrit et la profusion de marques
vocales [œ, ∅, ə, œ̃, œm....] du français oral non lu très rarement liées à quoi que ce soit
qui puisse ressembler à un embarras ou désarroi. Les allongements vocaliques
emphatiques sont en général notés par la répétition d’une voyelle (laaaaaarge) [doc 16]
mais je n’ai trouvé aucun exemple où ce trucage soit utilisé pour noter l’hésitation ou le
travail de formulation du discours.
Par ailleurs, j’ai étudié quelques productions d’acteurs dans une émission
humoristique s’adressant à un très large public : les Guignols de l’info, diffusée sur la
chaine de télévision Canal +. Les hésitations de caricatures produites par les
personnages de cette émission doivent faire rire le public ; pour provoquer le rire, il est
probable que les traits les plus saillants et les plus largement partagés seront exploités.
Les conclusions de cette étude sont cohérentes avec les autres observations : la voyelle
/∅/ utilisée comme marqueur d’embarras bénéficie d’un traitement exceptionnel, ses
traits prosodiques sont particulièrement caricaturaux (la marionnette de F. Bayrou
produit des « euh » modulés et largement supérieurs à une seconde), et elle n’est pas
suivie de pause silencieuse (celle-ci étant utilisée surtout à des fins de démarcation ou
emphase).
Les observations faites à partir des différents indices sur la perception, la
saillance et les représentations partagées au sujet des marques de TdF ont permis de
formuler deux hypothèses sur les euh et les allongements vocaliques de mots outils :
• la notoriété indéniable du euh et sa liberté de distribution sont en fait
indissociables de sa stigmatisation.
• malgré ses contraintes de distribution, l’allongement vocalique de TdF
présente l’avantage d’être plus discret, moins perçu de manière consciente
mais parfaitement efficace en tant qu’indice de non-clôture du tour en
interaction (dans le cas des mots outils qui, en français, ouvrent un nouveau
syntagme et signalent par eux-mêmes l’attente d’une suite, l’allongement
s’avère une marque de travail de formulation non stigmatisée qui facilite
l’interprétation du changement de rythme pour les auditeurs).

Mes résultats sur les marques de TdF m’ont incitée à approfondir l’emploi des
différents points de vue sur un seul phénomène. J’ai notamment commencé à privilégier
le fait de compléter les observations faites sur la production de la parole dans différents
corpus, par une approche de la perception (notion qui sera discutée plus bas, dans la
partie I.2). J’ai acquis progressivement la conviction qu’il est toujours enrichissant, pour
mettre en perspective les résultats d’un test de perception précis ciblant un micro-
phénomène, de construire en parallèle une approche plurielle des représentations
largement partagées (par les auditeurs-auditrices, par les chercheur·e·s, par les

15
personnes enregistrées) pour les intégrer pleinement aux études au lieu de tenter
désespérément – et sans succès – de les écarter.

I.2 Bilan d’étape du parcours dans le champ théorique et


méthodologique

Comme dans toute démarche scientifique, j’ai fait des choix théoriques qui ont
rencontré des écueils et ces écueils m’ont amenée à chercher des ajustements ; comme
dans toute démarche scientifique, je n’ai eu de cesse d’opérer des va-et-vient entre les
corpus, les observations que je pouvais faire, et les différentes théories et méthodes
envisageables pour approfondir les questions qui surgissaient.
Je développe dans cette partie mon cheminement théorique et méthodologique
selon une logique thématique. J’ai choisi de mettre en avant différents aspects de mon
parcours qui ont, selon moi, pris de plus en plus d’importance au fil du temps pour
aboutir à mes prises de positions actuelles. Celles-ci seront développées également dans
la deuxième partie, à travers la présentation de quelques exemples concrets de mes
recherches passées ou en cours.

Dès mon doctorat j’ai eu le sentiment de devoir opérer quelques ajustements


théoriques, car le cadre théorique de la coénonciation / colocution ne me permettait pas
d’aborder assez de facettes dans l’étude du rôle des pauses silencieuses ou des
différentes marques du travail de formulation de mon corpus. J’ai notamment eu besoin
d’envisager les contraintes articulatoires, les tendances distributionnelles générales en
phonétique du français et tenir compte des recherches émergentes sur la cognition et
notamment sur l’encodage et sur les modèles de langage. En outre, sans que je sois
capable de théoriser dans un premier temps le rôle de l’observation participante et de
l’ethnographie, j’ai eu l’intuition d’avoir besoin de tenir compte de ce qui était à
l’extérieur de mon corpus, et plus précisément de l’imaginaire linguistique (Houdebine-
Gravaud 2005) et des représentations sociales partagées (Moscovici 2003) au sujet des
marques dites « d’hésitation », qui rejoignaient en fait une mythologie bien plus vaste
autour du langage, au sein d’une culture de l’écrit comme la culture française : j’y étais
confrontée à chaque fois que j’expliquais à quiconque, à l’extérieur du microcosme
académique, quel était mon sujet de thèse. Par ailleurs, mes interactions en tant que
chercheuse avec les gens qui me faisaient don de leurs voix et leurs paroles ont toujours
été très enrichissantes et sources de réel plaisir intellectuel, mais j’ai mis beaucoup de
temps avant de les intégrer pleinement à mes réflexions scientifiques.
Il m’a fallu pour cela dépasser non pas le cadre de la théorie de la coénonciation,
qui permettait beaucoup de souplesse interprétative, mais plutôt le cadre d’une
épistémologie trop naïvement positiviste, qui venait tout d’abord de ma formation
initiale (remontant à mes années de lycée, à Bucarest, en section scientifique). Or, les
discours circulants majoritaires, dans une partie encore non négligeable de la
production scientifique en linguistique et plus généralement dans les discours de
vulgarisation, accréditaient largement des idées simples selon lesquelles tout serait
mesurable, une corrélation statistique étayée par une hypothèse fondée sur le « bon
sens » pourrait servir de preuve difficilement réfutable, une hypothèse sérieuse devrait
impérativement être falsifiable, un cadre théorique solide devrait pouvoir répondre à

16
tout ... Le fait que les discours scientifiques soient traversés par les idéologies de leur
époque n’est pas souvent mis en avant dans les discours théoriques en sciences du
langage, et sans doute encore moins dans les recherches empiriques. Les auteurs qui se
réclament d’une démarche bottom up, empirique, espèrent parfois (souvent ?)
contourner les écueils idéologiques par une démarche descriptive rigoureuse, oubliant
que, avant la description, il y a l’étape du choix des aspects, éléments, catégories à
décrire et que ce choix, surtout s’il est présenté comme allant de soi, peut difficilement
échapper aux idéologies.
Si j’ai pu accumuler rapidement des données et des mesures dans mes
investigations en thèse, ce fut aussi grâce au fait d’avoir contourné toutes les discussions
nécessaires sur ce qui relevait de choix théoriques et ce qui allait de soi. C’est lorsque j’ai
progressivement souhaité approfondir l’interprétation de mes corpus et de mes
mesures pour la rendre compatible avec à une vision d’ensemble du fonctionnement du
langage que j’ai interrogé plus attentivement la pertinence de mes catégories et les biais
inhérents aux méthodes de « récolte de données ».

I.2.1 Posture de recherche

Pour résumer mon cheminement, je dirais que j’ai passé le début de ma carrière à
accumuler les moyens techniques pour construire un objet de recherche précis, qui se
voulait neutre et décontextualisé à partir d’une matière fluide, hétérogène et
nécessairement tronquée car insaisissable dans son intégralité ontologique. Face aux
difficultés théoriques, face à l’extrême variabilité, richesse et polysémie des corpus aux
frontières arbitraires, j’ai été amenée à prendre en compte par la suite le rôle
incontournable du contexte et à adopter une posture plus réflexive face à mes propres
pratiques de recherche et de fabrication des corpus. Cela m’a amenée, dans un premier
temps, à déconstruire la vision entièrement décontextualisée d’un phénomène
linguistique comme étant une illusion idéologique. J’en suis arrivée à présent à chercher
à construire des passerelles entre les démarches décontextualisantes, orientées vers les
généralisations possibles, et les démarches d’analyse in situ orientée vers la
compréhension fine d’un contexte précis.
Mon parcours m’a permis de prendre de plus en plus conscience que le langage est
une pratique sociale complexe, écartelée en permanence entre une extraordinaire force
centrifuge (besoin de distinction de l’Autre, besoin de ressources pour exclure l’Autre, y
compris par des indices les plus subtiles qu’on puisse imaginer) et une extraordinaire
force centripète (besoin de rassemblement, besoin de regroupement avec ses
semblables, besoin d’identification à un socle commun, etc.). Les différents paradigmes
théoriques qui semblent irréconciliables me semblent être souvent complémentaires,
comme si on disposait de lunettes qui permettraient de voir tantôt les lignes de champ
de la force centrifuge et tantôt celles de la force centripète, mais jamais les deux en
même temps.

La recherche de l’objectivité, de la neutralité, de la prise de distance par rapport à


son objet de recherche font partie de toute démarche scientifique. Mais lorsqu’on étudie
le langage qui est aussi une pratique sociale quotidienne du chercheur ou de la
chercheuse, il est impossible de s’en tenir à un discours simple sur la distance nécessaire
ou l’objectivité souhaitable.

17
On cite souvent Saussure qui aurait affirmé, selon l’édition du Cours de linguistique
générale revue par Tullio de Mauro, que l’objet de recherche en linguistique est construit
par le regard qui se pose sur lui « bien loin que l'objet précède le point de vue, on dirait
que c'est le point de vue qui crée l'objet » ; François-Geiger (1990, p. 67 et suivantes),
montre comment cette citation a connu une fortune sans discontinuité pour le moins
jusqu’aux fonctionnalistes ; Benveniste emploie souvent la notion de « point de vue »
dans les Problèmes de linguistique générale, Martinet prend la citation d’origine à son
compte et la développe dans les Eléments de linguistique générale… Néanmoins, cette
citation est généralement utilisée seulement pour légitimer l’autonomie des différents
points de vue sur le langage (par exemple : stylistique, phonétique, syntaxique,
sémantique) ; le « point de vue » se révèle être au final une notion abstraite et
totalement décontextualisée. Le « regard » qui produit le point de vue est en fait le
résultat d’une conception homogénéisante d’un ensemble de points de vue individuels.
Or, le regard qui construit un objet d'étude n’est pas seulement la réplique à l’identique
d’un regard précédent placé dans le même angle de vue, il est aussi incarné dans un
corps particulier, le corps d’une personne qui vit dans une époque particulière et à un
endroit particulier, ayant ses propres préjugés, a prioris, idéologies, sa propre histoire et
ses propres limites affectives, cognitives, perceptuelles, etc.
L’influence des idéologies et des connaissances a priori sur la perception (et donc
sur le regard, et au final sur le point de vue) a été amplement documentée en
psychologie sociale ou en sociolinguistique, notamment pour mettre en évidence les
préjugés racistes à travers des protocoles utilisant différents amorçages, subliminaux
(mots affichés) ou supraliminaux (association avec différentes photos). On peut citer les
travaux de Dambrun et Guimond 2003; Dambrun 2005 pour les expériences d’amorçage
subliminal en psychologie sociale, ou les travaux de Rubin 1992; Niedzielski 1999 pour
les amorçages par photos. Ce type de travail a également été mené pour mettre en
évidence l’influence du sexisme sur la perception, à partir de la présentation d’une
même vidéo de bébé (l'article très connu de Condry et Condry 1976), ou dans des études
menées à partir de l’écoute de brefs enregistrements audio, comme celle de Cutler et
Scott 1990. La démarche de déconstruction de la neutralité du point de vue reste
néanmoins rarissime en linguistique, si ce n’est justement à partir des études sur le
genre qui ont pointé l’idéologie sexiste et patriarcale insuffisamment interrogée par les
linguistes et grammairiens lors de l’élaboration de leurs propres discours scientifiques.
Les travaux pionniers de C. Michard 2002, menés au début des années 80 mais restés
confidentiels durant une vingtaine d’années, méritent amplement d’être cités à ce
propos. On peut également citer les travaux de Khaznadar 2002 sur la morphologie des
adjectifs en français ou bien les travaux récents menés dans le cadre de thèses en cours,
A. Coutant 2016; L. Michel 2016, qui interrogent les implications grammaticales,
philosophiques et discursives de la binarité du genre grammatical ou de la tradition
idéologique du « masculin neutre », ou encore l’histoire de la règle du « masculin qui
l’emporte » et des résistances à cette règle rédigée sous forme d’enquête parfois
satirique par E. Viennot 2014. Ces publications ouvrent des portes vers de nouveaux
points de vue, déconstruisant les idéologies du genre, désormais envisageables en
grammaire du français.
Bien que la démarche réflexive et déconstructive soit plus largement défendue et
reconnue en sociolinguistique, pour sa valeur heuristique, elle est restée longtemps
insuffisamment mise en pratique, pour le moins dans les analyses portant sur le
français ; l’article de F. Gadet 2000 qui interroge la notion de « relâchement »
linguistique et ses présupposés dans les textes scientifiques fait figure d’article pionnier.
18
Les critiques formulées par Solis Obiols 2002 et par Laur 2013 au sujet de l’étude
fondatrice de Lambert et al. 1960, notamment sur la capacité du protocole à réifier
artificiellement les stéréotypes et sur l’impact des représentations des chercheurs dans
le montage et l’interprétation des résultats, me semblent également aller dans le même
sens, et ouvrir des pistes qui restent largement sous-explorées.
Lorsque le discours scientifique est produit dans un cadre institutionnel qui le
légitime, la subjectivité du chercheur s'en trouve masquée par le dispositif de
production et par sa tradition disciplinaire reconnaissable en tant que formation
discursive (Foucault 1969) ; ce discours devient ainsi discours d'autorité, susceptible
d'avoir une force performative. Certains sujets en sociolinguistique appellent par
conséquent plus que d’autres une réflexion sur leur contexte social, politique,
scientifique. Un discours résultant nécessairement d'un point de vue situé et pré-
déterminé peut contribuer à constituer, à travers un dispositif de pouvoir, un nouveau
contexte social, un nouvel objet susceptible de reconfigurer le « réel ». La construction
de l’objet réifié « parler jeunes », « langue des jeunes » ou « langue des cités » en est un
bon exemple, discuté notamment dans Auzanneau, Leclère-Messebel, et Juillard 2012;
Auzanneau 2009; Gadet et Hambye 2014. Mais ce risque de réification concerne toute
démarche de description des « variétés » d’une langue, et les approches variationnistes
n’y ont pas toujours accordé suffisamment d’importance. Le risque de fabrication
d’homogénéités sur des bases idéologiques ou politiques insuffisamment interrogées est
tel que F. Gadet 1996 remettait en question, dès cette époque, la pertinence du prisme
théorique de la variation, en général, qui ne se distingue finalement pas tant que l’on
pourrait croire de la linguistique, « machine à (re)construire de l’homogène »(Gadet
2006). Elle préfèrait construire la « variabilité » comme concept, « qui a l’avantage
d’indiquer un processus et donc une dynamique » (idem). Cela rejoint les critiques
formulées par Calvet 2007 au sujet de ce qu’il appelle la « tentation de la loi », une
propension de la linguistique en général à simplifier et homogénéiser la trop grande
variabilité et complexité des observables, pouvant aller jusqu’au dogmatisme.
Au-delà de la nécessaire déconstruction de la part involontairement idéologique de
la construction des savoirs légitimes, de nombreux chercheurs et chercheuses prennent
le parti de rendre visible leur positionnement plus personnel, le cheminement qui les a
conduits vers certains sujets plutôt que d’autres, les ressources puisées dans leur
expérience personnelle et mobilisées pour leurs recherches, la façon dont ils et elles sont
perçu·e·s, etc. On trouve ainsi des notes sur leur propre socialisation familiale, sur leur
construction personnelle du rapport au langage, des récits personnels, chez des
sociolinguistes se positionnant de manières très différentes et travaillant sur des objets
théoriques très différents, comme Greco 2012 et Léglise 2013 dans leurs mémoires
d’HDR, ou Blanchet 2016, ou Castellotti 2014. Loin de rajouter une dimension spéculaire
gratuite à leurs publications, il s’agit là d’enrichir la contextualisation de la construction
des démarches de recherche, d’approfondir la décentration nécessaire dans la pratique
même de la recherche et de multiplier les clés de lecture possibles offertes au lectorat
potentiel.
Ces pratiques se retrouvent désormais y compris chez des sociolinguistes qui
focalisent leur attention sur la prononciation et passent par une démarche
ethnographique, ou un terrain de longue durée, ce qui est selon moi assez nouveau : le
premier exemple que je connaisse est celui de Mendoza-Denton 2008, dans son étude
consacrée aux bandes de filles latinas en Californie. J’ai relevé des exemples allant dans
ce sens dans l’introduction de Fagyal 2010 et de Paternostro 2016, ou chez Lehka-

19
Lemarchand 2015 pour en revenir au domaine d’étude des enjeux sociaux liés à la
prononciation du français.
Je me suis d’ailleurs retrouvée pleinement dans les remarques éparpillées de
Fagyal, Paternostro et Lehka-Lemarchand qui évoquent leur propre rapport au français
appris comme deuxième langue, leur propre découverte des différents « accents » et des
discours dominants au sujet des accents. Je me suis retrouvée aussi dans les remarques
sur l’évolution de leur propre « accent » et des réactions, diverses et changeantes, qu’il a
pu susciter. J’ai retrouvé aussi des échos avec des expériences que j’ai pu faire dans leurs
notes sur l’atout que peut constituer le fait de se présenter comme locuteur non natif de
français, comme venu d’ailleurs, pour se construire une place (notamment Fagyal et
Lehka-Lemarchand) auprès de locuteurs et locutrices particulièrement jeunes et
appartenant à des groupes socialement minorés. Si on rajoute à la liste de ces trois
auteurs les travaux de Fonagy 1989 et de Hansen 2000; Hansen 2015, il est difficile de
ne pas remarquer cette forte présence des chercheurs étrangers établis en France à l’âge
adulte ou ayant effectué de longs séjours en France et s’intéressant à différents enjeux
sociaux de la prononciation du français. C’est également mon cas, et ce n’est bien
entendu pas un effet du hasard.
Loin de moi de vouloir minimiser par ces quelques lignes les apports des
chercheurs francophones « natifs » dans ce domaine, à commencer par « C’est jeuli le
Mareuc ! » de (Martinet 1958) ; ce que je souhaite pointer c’est simplement que le fait
d’avoir expérimenté soi-même, en interaction, une vaste gamme de réactions à son
propre accent représente une ressource précieuse pour les chercheurs concernés,
ressource dont les « natifs » ne disposent pas, à condition, bien entendu, qu’ils
pratiquent la variété perçue comme standard des classes sociales moyennes-supérieures
de la moitié nord de la France. La gamme de réactions que ma prononciation a suscitée
va, pour ma part, de la reconnaissance déclarée d’un accent étranger dès ma réponse à
une salutation – visiblement fondée sur le faciès et/ou sur la sonorité de mon nom – ou
la reconnaissance d’un accent bourguignon lors d’une brève interaction avec des
inconnus, jusqu’à la négation farouche du fait qu’on pourrait déceler la moindre trace
d’accent étranger dans ma prononciation… et en passant par toutes les hypothèses
imaginables sur mes origines : libanaises, italiennes, portugaises, latino-américaines,
canadiennes, Est-européennes…
La réflexivité ne représente pas un axe de recherche à part entière, dans mon
travail ; la révélation et la mise en question des détails et déterminismes personnels qui
ont contribué au surgissement des questions de recherche et à la construction des
données, l’analyse approfondie de tout ce qui s’est joué dans une interaction au cours
d’une enquête ou d’une expérimentation, ne présentent pas un intérêt systématique.
Cependant, dans la mesure où toute construction de savoir est située, comme tout
discours, il me semble nécessaire de rendre accessible ce qui permet de contextualiser
de manière pertinente la production du savoir scientifique. Donner accès au mieux à la
compréhension des biais potentiels d’une recherche me semble avoir une plus grande
valeur heuristique que tenter de (se) persuader qu’on a éliminé tous les biais. La
différence essentielle que je fais entre les écrits scientifiques et les écrits journalistiques
ou littéraires ne réside pas dans le souhait des scripteurs à atteindre un point de vue
« neutre », mais dans leur souci pour rendre visibles toutes les « ficelles » de la
construction de leur démarche, de manière à la rendre réfutable, comparable, vérifiable,
discutable… Interroger ce que « faire preuve » et « comparer » veut dire en sciences
humaines et sociales est un champ de recherche en soi, qui est loin d’être clos ; je rejoins
tout à fait les pistes ouvertes par Gadet et Wachs 2015; Hambye 2015 à ce sujet.
20
Mon intérêt croissant pour l’impact des méthodes de recherche sur la fabrication
des résultats a entrainé, entre autres, un intérêt croissant pour la notion de
« frontière » ; et ce, à différents niveaux de mes analyses.
J’ai d’abord croisé la problématique de la frontière, notion transdisciplinaire
indissociable de toute catégorisation au sein d’un continuum, dans le domaine
phonétique et prosodique. J’ai en effet été amenée à fixer des frontières en partie
arbitraires pour délimiter les pauses courtes, moyennes, longues, pour distinguer un
« e » allongé en finale de mot d’un « e » dit d’hésitation [doc 28], pour distinguer un « e »
dit d’hésitation d’un « e » prépausal ou « e » d’appui [doc 26], pour décider de la
longueur pertinente des extraits à soumettre lors d’un test d’écoute [doc 14], pour
distinguer une syllabe longue d’une syllabe anormalement allongée [doc 16], ou pour
catégoriser les différents degrés de palatalisation (faible, moyenne, forte… : [doc 19])
etc. J’ai retrouvé la question des délimitations plus tard, dans le domaine social, lorsque
j’ai abordé les frontières identitaires, ethniques, de classe (Pasquali 2014)… dans une
démarche visant à tenir compte le plus possible des catégories ad hoc émergeant dans
les discours méta- ou épilinguistiques suscités [doc 06]. Mais les catégories ad hoc
rejoignent bien souvent les macro-catégories pré-construites, parfois dichotomiques ;
dès lors, interroger les frontières catégorielles émanant des discours scientifiques
requiert les mêmes outils que ceux forgés pour interroger celles qui émanent des
« terrains », des discours profanes ou « naïfs ». En outre, le maintien de certaines
catégories anciennes est le seul moyen pour comparer des études récentes avec des
études antérieures dans une démarche expérimentale [doc 05] pour pouvoir construire
des études diachroniques. Au risque de continuer à réifier des catégories toxiques,
comme celle de la race (voir infra)...

I.2.2 Etudier la production de la parole

Mes recherches reposent toujours sur l’analyse de corpus, constitués par moi-
même ou par d’autres (j’y reviens dans la partie Terrain et « données », infra).
Selon le type de question de recherche et selon le type de données, il peut être plus
pertinent d’adopter des méthodes qualitatives et de profiter d’un corpus situé dont on
peut appréhender la richesse et l'épaisseur, ou bien d’adopter des méthodes
quantitatives (notamment, pour ce qui me concerne, des fouilles semi-automatiques
dans des grandes bases de données médiatiques) pour tenter de déceler des tendances
globales, de possibles signes de changements en cours.
Je défends de manière générale les méthodes mixtes de recherche (Tashakkori et
Teddlie 2002), qui permettent l’obtention de résultats et éclairages complémentaires ;
j’y reviens dans la partie II et dans la synthèse finale.
Je défends également l’intérêt d’analyser tout type de corpus oral (sollicité ou non,
produit dans des situations où la proximité entre locuteurs est très forte ou au contraire
où il y a une grande distance, produit par des personnes jouissant d’un grand prestige
social ou au contraire par des personnes en grande insécurité linguistique, etc.) ; à
condition de pouvoir caractériser de manière très précise les conditions de fabrication
des « données » et d’en tenir compte lors des analyses proposées. Je pense qu’il est
important d’éviter les généralisations abusives, de faire des affirmations sur les femmes
et les hommes, sur les francophones et les anglophones, sur les monolingues et les

21
bilingues, sur les ados et les personnes âgées … à partir d’un échantillon de dix
personnes : c’est ce que l’on ne cesse d’enseigner aux étudiant·e·s. Mais il est tout aussi
important de dénoncer l’ambition vaine de pouvoir construire un corpus clos
représentatif de toutes les pratiques langagières reconnues comme relevant du français
(ou des jeunes, ou des Suisses, ou de tout autre catégorie englobant des millions de
personnes). Il faut donc continuer à défendre l’intérêt de corpus de petite taille,
répondant à des questions précises de recherche et contribuant à apporter des petites
pièces au grand puzzle des connaissances sur le langage.
Par ailleurs, je considère qu’étudier la production de la parole consiste en soi à
adopter un point de vue particulier, et non un point de vue « neutre ». Quoi que l’on
fasse, – augmenter la taille du corpus étudié, améliorer les outils de description ou
rendre indépendantes les variables mesurées – le simple fait d’étudier la production de
la parole revient à écarter des investigations le volet « perception », et donc à perdre la
possibilité de décentration que permet l’étude de la réception des productions étudiées.
Or, la parole n’est pratiquement jamais produite pour soi ou pour personne, elle est
toujours adressée.

I.2.3 Etudier la perception de la parole

Etudier uniquement la production de la parole, comme si elle n’était pas adressée,


aboutit donc à un artéfact. Au fond, étudier la production sans se préoccuper de la
perception, revient, quelque part, à étudier la parole produite par quiconque comme si
elle était adressée au chercheur ou à la chercheuse qui mène l’étude. Cela revient à
décrire la production de la parole à travers la perception unique de l’analyste. Ou bien, à
faire l’hypothèse implicite et absolument non étayée, que la multiplication des écoutes
n’apporterait aucun éclairage supplémentaire par rapport à une seule écoute, celle de la
personne qui mène une enquête pour vérifier une hypothèse forgée par elle-même. C’est
souvent un point aveugle de la linguistique de corpus qui met un point d’honneur à « ne
pas inventer les données », à ne pas accorder de crédit à l’introspection ou à l’intuition
des chercheurs, à avoir une démarche purement empirique. Les seuls moments où on
retrouve la variabilité des perceptions humaines en linguistique de corpus c’est lors de
l’élaboration des transcriptions orthographiques des enregistrements sonores, où la
variabilité est reconnue comme étant incontournable… pour être réduite à un
indispensable « accord inter-annotateurs », seul digne d’intérêt.
En éliminant souvent la prise en compte de la perception, la linguistique de corpus
n’autorise pas les chercheurs à inventer les données produites mais les autorise à
inventer une convergence ou une unicité de toutes les perceptions réunies, à l’instar de
la linguistique générative qui autorise les chercheurs à postuler que leur sentiment de
grammaticalité serait partagé par tous les locuteurs d’une langue.
En ce qui me concerne, même si je mène des études sur la production à l’aide de
logiciels d’analyse acoustique (essentiellement avec Praat, cf. (Boersma et Weenink
2008) pour appareiller ma propre écoute, je considère que le logiciel permet de décrire
et de mesurer des traits de prononciation qui peuvent échapper totalement ou
partiellement à la perception humaine et dont l’existence sociale doit être interrogée.
Dès lors, il me semble crucial de croiser ces analyses sur la production de la parole avec
des analyses sur la perception. Cela m’a permis de prendre de la distance par rapport à

22
ma propre perception (biaisée par les écoutes répétées, par l’activation de l’attention
sélective et par l’accès aux spectrogrammes) selon au moins deux axes.
Le premier axe se rattache aux mécanismes cognitifs de bas niveau : interroger des
personnes différentes permet d’investiguer les corrélats acoustiques de la perception
des différentes catégories phonétiques ou prosodiques [docs 21, 23, 24], de
questionner la pertinence linguistique de phénomènes acoustiques ou articulatoires
systématiquement non-perçus ou, au contraire, de révéler des phénomènes perçus mais
acoustiquement inexistants (comme les pauses silencieuses subjectives, que j’ai
évoquées en première partie).
On peut par exemple rattacher à cet axe l’étude de (Labov, Karen, et Miller 1991)
sur les compétences dialectales ou sociolectales des juges sollicités ; ceux-ci, catégorisés
selon leur origine régionale et leur groupe ethnique, devaient effectuer une tâche
d’identification de mots, à partir de mots susceptibles d’être ambigus selon les différents
systèmes phonologiques. Les mots ambigus étaient présentés isolés ou inclus dans des
phrases-porteuses ou dans des séquences plus grandes.
Le second se rattache aux mécanismes de plus haut niveau, aux représentations
[doc 05]. Il permet d’interroger le conditionnement social de la perception.
On peut rattacher à cet axe aussi bien la valeur indexicale de certains marqueurs
sociolinguistiques dans la tradition du variationnisme ou de la dialectologie perceptuelle
(par exemple les travaux de Boughton 2006; Armstrong et Boughton 2000, sur la
perception des accents régionaux), et les enquêtes sur la diversité des perceptions en
sollicitant des personnes avec des profils divers (âge, parcours social, région de
résidence, niveau d’éducation…) exemple Remysen 2016, des opinions politiques
diverses, ou encore en modifiant leurs attentes par la mise en scène des extraits utilisés
dans l'expérimentation, par différentes techniques d’amorçage, (Rubin 1992; Niedzielski
1999) sur différentes formes de racisme, (Hay, Warren, et Drager 2006), sur les préjugés
de classe et d’âge… On trouvera un état de l’art très riche sur la question des techniques
d’amorçage pour étudier la perception d’extraits langagiers dans la thèse de Squires
2011.
En sociophonétique actuelle, en général, les études sur la perception ont plutôt
tendance à se multiplier, et ont comme objectifs de :
• tester la capacité des personnes sollicitées à deviner l’origine (géographique)
et le profil économico-social des gens enregistrés, à partir de l’écoute de brefs
extraits ;
• tester l’influence des stéréotypes sur la perception de la parole, en activant
différents stéréotypes avant de faire écouter de brefs extraits ;
• tester la capacité des personnes sollicitées à distinguer deux voyelles ou
consonnes acoustiquement distinctes (mais susceptibles d’être
perceptivement fusionnées).
L’intérêt de mener des études sur la perception me semble à défendre à chaque
fois que cela est possible, en complémentarité avec les études sur la production. Toutes
les méthodes me semblent potentiellement intéressantes pour aborder la perception à
condition qu’on en interroge les limites : démarche expérimentale (réponses à des
questions à choix forcé) ou entretiens semi-directifs (individuels ou en focus group) qui
sollicitent la production de discours méta- ou épilinguistiques, ou encore récolte de
réactions sporadiques spontanées, produites en interaction ou dans des productions
écrites, dans différentes situations. Le choix de la méthode pertinente dépend bien
entendu de la question de recherche posée, mais il me semble que la multiplication des
méthodes de recherche permet de nuancer les descriptions, en évitant les conclusions
23
hâtives fondées sur des artéfacts et en permettant d’avancer progressivement vers la
modélisation de la cognition sociolinguistique (Campbell-Kibler 2016).
Même s’il s’agit pour le moment de recherches marginales dans le domaine en
plein essor de la linguistique de corpus, il me semble que l’idée de la complémentarité de
l’étude de la perception par rapport à la production fait son chemin, grâce (pour le
domaine francophone) aux études exploratoires de Vieru-Dimulescu 2006; Woehrling et
Boula de Mareüil 2006; Boula de Mareüil et al. 2008; Boula de Mareüil et Lehka-
Lemarchand 2011; Bardiaux et Boula de Mareüil 2012… dont A. C. Simon et al. 2012
proposent un bilan d’étape. Le décloisonnement progressif des sous-disciplines
consacrées à l’étude du langage semble expliquer l’intérêt pour les études perceptives
qui sont présentées comme venant des théories sur l’imaginaire linguistique, les
idéologies linguistiques, la sociolinguistique en général (Simon et al. 2012 : 27).
L’origine du questionnement vient selon moi de la confrontation avec la variation
imprévisible dans les corpus et de l’impossibilité pratique de constituer des échantillons
un tant soit peu représentatifs d’une population sans disposer d’un modèle décrivant la
stratification sociale, communautaire, les seuils pertinents des tranches d’âge et plus
généralement l’organisation sociale, et les éventuels marqueurs langagiers que les gens
mobilisent pour indexer leurs différentes appartenances et leurs différents
positionnements en interaction.
Sans adopter des positions simplistes, sans confondre une corrélation entre la
distribution d’une variable et des groupes sociaux avec une explication des raisons qui
inciteraient les locuteurs et locutrices à utiliser telle ou telle marque, Simon et al.
défendent le recours aux études perceptives, en lien avec la reconnaissance théorique
qu’ils concèdent au rapport potentiel entre perception et production, entre variation et
attitudes devant la variation.

« On peut en réalité considérer qu’il y a une relation de détermination réciproque


entre la distribution des variantes et leur signification sociale : cette dernière
dépend en grande partie de la distribution des variantes (par exemple lorsqu’une
variante est jugée négativement, c’est notamment parce qu’elle est principalement
utilisée par des groupes peu légitimes), mais pas uniquement (elle est aussi
influencée par exemple par les discours normatifs explicites), tandis que cette
distribution est modifiée progressivement à mesure que les locuteurs, adaptant
leurs pratiques dans la mesure de leurs possibilités, tiennent compte des
significations sociales dominantes associées aux variantes qu’ils utilisent (pour en
renforcer ou en atténuer l’usage).
(Simon et al. 2012 : 27)

Le fait de parvenir à isoler les « corrélats acoustiques des variantes perçues


comme marquées » (idem, p. 28) pourrait en retour permettre de catégoriser les
locuteurs et locutrices en fonction des taux de « variantes marquées » produites, et
pourquoi pas, à terme, de viser à construire un modèle plus général de la dynamique des
changements phonétiques ou de la dynamique de transmission de certaines pratiques de
prononciation. Un tel modèle semble évoqué en germe dans la citation précédente,
même s’il n’y a pas de référence à des travaux disponibles sur la sociocognition, ni à des
travaux qui pointent les écarts possibles entre attittudes suscitées par des étiquettes
(« accent de telle région », par exemple) et celles suscitées par l’écoute d’extraits sonores
présentés sans étiquette (voir par exemple une discussion théorique sur ces points dans
Preston 2016, étayée par ses nombreux travaux précédents).
24
Bien que les études inductives pour repérer, sans a priori, les marqueurs
prosodiques ou phonétiques les plus saillants soient évoquées comme possibles, au
même titre que les études déductives, il me semble que les recherches en linguistique de
corpus ont pour le moment largement privilégié les démarches déductives, qui partent
d’une hypothèse précise à vérifier par le recours à un test de perception. C’est le cas des
travaux cités ci-dessus pour le français. Le choix des marques à tester n’est
généralement pas longuement interrogé et les tests de perception sont souvent calibrés
pour interroger des gens à partir de l’écoute d’extraits de quelques secondes avec
comme seul contexte une focalisation explicite de l’attention sur un seul accent à
identifier (accent belge, accent suisse, accent espagnol en français, accent « de
banlieue »…). Cela laisse dans l’ombre l’influence de la situation expérimentale, l’effet
d’exagération des stéréotypes induit par la focalisation de l’attention sur un accent
nommé par les chercheurs (accent rendu implicitement homogène, sans nuance par
rapport à la stratification sociale et stylistique par exemple), ainsi que l’effet possible du
profil des gens sollicités comme auditeurs ; ces sujets sont à peine évoqués comme
perspectives ou comme biais dans Simon et al. 2012 [j’y reviens infra, dans la partie
« Terrain et données »].

J’ai eu l’occasion de pratiquer différentes techniques d’investigation de la


perception, sur différents objets de recherche.
Dans mon étude sur les marques du travail de formulation, le fait de croiser les
résultats des tests perceptifs portant sur les opérations de bas niveau avec la
représentation conventionnelle des marqueurs (euh, répétitions, allongements) dans les
productions littéraires, et avec les techniques caricaturales des humoristes (validées
perceptivement par le succès de l’émission TV qui les diffusait) m’a permis de créer une
image d’ensemble complexe dont j’ai pu rechercher la cohérence. Les observations sur la
saillance perceptive des phénomènes étudiés pouvaient ainsi éclairer en retour
l’interprétation des régularités de la production, en partant de l’hypothèse que les
locuteurs comptent sur le fait de partager un certain nombre de représentations avec
leurs interlocuteurs, et que cela doit avoir des implications dans la gestion de
l’alternance des tours.
Le « feeling of another’s knowing », qui n’est pas sans rappeler la définition de la
coénonciation de Morel et Danon-Boileau, a été pris comme porte d’entrée pour une
étude sur le rôle des « euh » dits d’hésitation produits dans une interaction scolaire à but
d’évaluation. Les auteurs, Brennan et Williams 1995, ont mis en place une étude
expérimentale qui les a amenés à défendre l’hypothèse que la production d’un « hum… »
« huh… » suivie d’une réponse « I don’t know » à une question suscite chez les
évaluateurs une meilleure appréciation du niveau de savoir de l’élève que la simple
réponse « I don’t know » de sa part, sans production de « hum ». Ce type d’étude permet
d’envisager des pistes pour une compréhension globale du processus d’alternance
production/perception de parole dans une interaction ; on peut par exemple faire
l’hypothèse que les élèves utilisent la production de ces marques d’hésitation pour des
raisons d’efficacité interactionnelle autant que pour des raisons cognitives, sans pour
autant faire des hypothèses sur le degré de conscience (awareness) de ces raisons.
Je reviendrai plus longuement dans la partie II.1 de ce mémoire sur l’enquête
menée avec C. Trimaille et I. Lehka-Lemarchand au sujet des différents aspects de la
perception des variantes affriquées des consonnes occlusives /d,t/ devant /i,y/ en
français de France, qui a donné lieu pour le moment à une publication [doc 19] et à
différentes présentations orales. Ces variantes ont été décrites comme pouvant indexer
25
l’insertion dans la culture de rue chez des adolescents des périphéries urbaines
pluriethniques (Jamin, Trimaille, et Gasquet-Cyrus 2006; Jamin 2005b; Binisti et
Gasquet-Cyrus 2003). Nous avons tenté de construire une approche expérimentale par
focalisation progressive de l’attention, appliquée à des groupes de 2 à 4 auditeurs ou
auditrices pour susciter des interactions. Le but visé était de commencer par une
démarche inductive sur les indices saillants dans la parole de personnes présentées
comme candidat·e·s à un stage de journalistes radiophoniques, pour pouvoir déceler
l’éventuelle absence totale de saillance des marqueurs qui nous intéressait, et de finir
par un forçage de l’attention et des questions de moins en moins ouvertes de manière à
solliciter ensuite la perception de bas niveau, la capacité à discriminer un son particulier
dans une tâche artificielle sollicitée en situation d’enquête. Ensuite, par la technique de
l’entretien, nous avons sollicité des discours épilinguistiques et d’évaluation du profil
social des personnes enregistrées, car ce qui nous intéressait en fin de compte était le
fonctionnement éventuel de l’affrication comme marqueur social. Les résultats de cette
approche expérimentale sont interprétés en tenant compte d’observations faites par
ailleurs sur des pratiques de stylisation spontanées et sporadiques de ces marques par
des humoristes, notamment en passant par une codification écrite du phénomène (des
trucages orthographiques de type « tchu vois », « interdchites »). L’ensemble est bien
évidemment mis en relation avec les hypothèses formulées dans des travaux antérieurs
à partir de l’observation des pratiques des jeunes en situation écologique, non suscitée
pour les besoins de la recherche.
Je développe également dans la partie II.1 de ce mémoire mes perspectives en
cours d’exploration sur les différents aspects de la perception de l’épithèse fricative qui
est prononcée (sporadiquement) de manière à prolonger les mots qui finissent par/i, e,
y, u/. J’ai relevé, là aussi, quelques notations spontanées de ce son, dans des publications
autres que celles relevant de la recherche, ainsi que des commentaires explicites, à l’oral,
d’un journaliste qui consacrait une de ses chroniques à ce phénomène. Malgré cela, il
semble difficile d’avancer des hypothèses sur un changement possible dans sa
perception, contrairement à une autre pratique de prononciation similaire, l’épithèse
vocalique, que je propose d’étudier en parallèle.
Pour conclure, étudier la perception a, selon moi, au moins une double valeur
heuristique : d’un côté cela facilite la décentration par rapport à sa propre écoute ou
celle partagée par les chercheurs et permet de faire émerger de nouvelles hypothèses de
travail, et d’un autre côté, notamment à travers la réflexion continue sur les protocoles,
cela permet d’interroger constamment la fabrication des savoirs.

I.2.4. Terrain et « données »

Je me suis toujours réclamée de la linguistique de corpus et j’ai toujours construit


mes analyses en prenant appui sur des exemples attestés. Mais ma vision de ce qu’on
peut appeler « des données » a évolué depuis le début de ma carrière. J’ai d’abord trouvé
normal de prélever des exemples quasiment au hasard, en formant des collections
contenant le même micro-objet de recherche, sans me soucier de l’analyse du contexte
qui avait permis la « récolte » de chaque exemple. J’ai par la suite accordé toujours plus
d’importance à la posture d’observation (participante) et au contexte, avant de mieux
prendre en compte la part inévitable de (co)-construction des corpus et l’impossibilité
de travailler sur un corpus clos en matière de langage dans la mesure où il s’agit d’une

26
pratique sociale d’une grande variabilité et en changement permanent. L’attention pour
le processus de « fabrication » des corpus (ce qui est retenu, ce qui est sollicité, ce qui est
écarté, ce qui est inaccessible, les effets théoriques du processus de transcription, etc.,
voir Mondada 1998; Mondada 2000b; Gadet 2010) a pris de plus en plus d’importance
dans mon travail. Parler de « données »6 m’a semblé dès lors de plus en plus gênant, à
cause de l’utilisation de ce verbe trivalent qui suggère que quelqu’un (ou un contexte ?)
« donne » quelque chose aux chercheurs qui n’ont plus qu’à recueillir passivement ce qui
est « donné ».
Face à la difficulté de combiner une démarche ethno-méthodologique avec une
description linguistique, sur un terrain riche et complexe que je découvrais à mon
arrivée en France (les cours de français dans l’Etablissement Régional d’Enseignement
Adapté de Bonneuil-sur-Marne, accueillant des élèves qui ne pouvaient pas être
scolarisés dans l'enseignement général ou spécialisé) j’avais abandonné, dans un
premier temps l’ambition d’une perspective sociolinguistique sur les données à la fin de
ma maitrise (master 1). J’avais restreint mes recherches à des objets linguistiques –
[docs 27, 28, 29, 30] persuadée à l’époque de pouvoir tracer une frontière entre le
linguistique et l’extra-linguistique, mais j’ai continué à chercher mes données sur un
« terrain » hors de l'université et des laboratoires. En effet, après avoir observé des
cours dispensés dans le dispositif de l'enseignement adapté, je me suis fait accueillir
dans les cours de français d’une classe de collège à Suresnes, dans un établissement sans
difficultés particulières. Néanmoins, durant tout le travail en doctorat j’ai considéré le
terrain comme un simple réservoir permettant de « recueillir des données »
linguistiques attestées, authentiques.
Le fait d’avoir écarté de mes réflexions la richesse des interactions non
enregistrées ainsi que toutes mes observations sur le terrain, et par ailleurs la
frustration de ne pas disposer des vidéos de mon corpus actif pour pouvoir lever
certaines ambigüités (le corpus étant uniquement sur support audio) m’ont conduite à
commencer, ultérieurement, à adopter une démarche plus clairement ethnographique et
réflexive pour mon dernier terrain (participation au module de préparation au concours
de Sciences Po Paris dans un lycée de la Convention Education Prioritaire : [docs 33, 11,
12, 13]).
En parallèle à mes réflexions sur le concept de terrain, j’ai eu la chance de profiter
d’une grande richesse d’échanges dans deux projets innovants dans lesquels j’ai été
impliquée à Paris 3 peu après mon doctorat, (CORPORA P3 et PI-ED268) sur l’annotation
des données orales alignées, et, au sein de mon équipe d’appartenance, avec L. Greco et
P. Renaud. Ces échanges, ainsi que la découverte des travaux de L. Mondada, notamment
Mondada 2000a ; Mondada 2005, et des réflexions critiques sur le statut du corpus et du
terrain en sociolinguistique, notament Cappeau et Gadet 2007, m’ont progressivement
conduite à développer une extrême prudence par rapport aux pratiques appelées à se
généraliser de mise à disposition pour la communauté de données orales (enregistrées
et transcrites par autrui, pour des objectifs obligatoirement particuliers et difficilement
partageables).
Ce changement de perspective sur l'activité de construction des observables ne
m'a pas empêchée, bien entendu, de conserver l'ambition de pouvoir formuler des
hypothèses avec une portée susceptible de dépasser le cadre de l'étude de cas, et

6 Le mot « data » ne pose pas exactement le même problème en anglais, mais il véhicule la même
idée de neutralité.
27
susceptibles d'être soumises à la confrontation scientifique. Mais cela m’a amenée à
accorder plus d’attention à la relation entre les méthodes de construction des corpus et
les questions de recherche, à envisager autrement la transférabilité des résultats et la
comparabilité des corpus, et à chercher à diversifier toujours plus les techniques de
fabrication des données, les démarches d’observation et participation sur un terrain et
les techniques d’analyse. Je suis partie de l’idée que toute démarche a ses limites et ses
avantages, et que les résultats obtenus par des méthodes diverses et selon des
postulatss divers sont complémentaires ; l’essentiel pour les rendre transférables c’est
de rendre la méthode de fabrication la plus accessible et transparente dans les
présentations.

Domaine de la production
Ainsi, pour analyser la production de la parole, j’ai eu recours à :

• Enregistrements sur un terrain de longue durée (observation participante


doublée ou non d’une démarche ethnographique). [terrain à l’EREA de
Bonneuil ; dans un collège de Suresnes ; dans un lycée de Seine-Saint-
Denis]
• Prise de notes sans enregistrement (sur des terrains où l’accord des personnes
impliquées serait impossible à obtenir, ou dans des conditions imprévues au
gré des interactions aléatoires en dehors d'une démarche explicite de récolte
de données) [études sur l’accent dit « de banlieue », études sur les épithèses
vocaliques et fricatives].
• Enregistrements sollicités (en ville, à domicile ou à l’université) selon des
protocoles qui postulent, à différents degrés, la réplicabilité des contextes ; en
particulier enregistrements de lectures [projet Diapix].
• Captation d’émissions radio- ou télédiffusées, souvent disponibles en podcast
pour pouvoir être écoutées durant une longue période par un public large
[études sur les affrications et les épithèses fricatives].

Je développe ci-dessous les avantages et les inconvénients de ces méthodes.

Les émissions captées se rapprochent le plus de la définition traditionnelle de


« données », surtout lorsqu’il s’agit d’une très grande quantité d’émissions sans critère
de sélection appliqué. Le grand intérêt de fouiller dans ce type d’enregistrements c’est
qu’on peut relever un grand nombre d’attestations d’un phénomène et qu’il s’agit de
données non sollicitées, qui se présentent dans la forme destinée au grand public. Les
émissions, surtout celles de grande écoute, participent, par exemple, à la stabilisation ou
aux changements du français « de référence », dans la mesure où la parole des
journalistes – notamment lors de la présentation du journal – est considérée par
beaucoup comme une référence, un modèle. La faiblesse de ce type de corpus c’est qu’on
n’a aucun accès à la complexité de la situation. Nous savons bien qu’une grande partie de
l’interaction se déroule en coulisses, hors antenne, que les interlocuteurs sont souvent
hors champ même pendant l’émission – on ne voit que la personne qui parle. Le travail
de préparation en amont nous échappe, nous ne savons souvent rien sur les locuteurs et
nous travaillons souvent sur un enregistrement qui a fait l’objet de coupures, montages,
filtrages, etc. Cela implique le risque d’une compréhension lacunaire des enjeux en
interaction.
28
Les enregistrements sollicités, de leur côté, ont comme avantage de pouvoir
produire des contextes identiques ou comparables du point de vue phonétique (lecture
des mêmes mots, description des mêmes planches avec des mots-cibles : Baker et Hazan
2011) et donc de pouvoir fournir rapidement des données comparables de ce point de
vue, ce qui est pratiquement impossible à obtenir autrement. Cela permet aussi de
simplifier l’analyse de la situation d’interaction par l’appauvrissement des enjeux, car on
sollicite des gens assez coopérants et on leur demande d’exécuter quelques tâches qui
n’ont quasiment aucun sens pour eux, en leur demandant une implication affective ou
émotionnelle minimale. Les limites de la démarche sont exactement celles qui font son
intérêt : les gens exécutent des tâches inhabituelles dans des circonstances inhabituelles,
et adoptent donc des pratiques langagières qu’on a du mal à situer sur l’axe proximité-
distance, formel-informel, etc. Si la situation de lecture sollicitée à haute voix a
l’avantage de pouvoir recueillir des co-occurrences identiques de consonnes et de
voyelles, il ne faut pas se laisser abuser par l’illusion d’une homogénéité du « style »
lecture, ou de la « situation » lecture, suggérée par les travaux de Labov des années 70.
Entre une lecture de conte à un enfant et une lecture d’informations à la radio, il y a plus
de différences que de similitudes ; et il sera impossible d’obtenir le style « lecture de
news » si on fait lire le début du Petit Chaperon rouge. En ce sens, l’exemple du Projet
« Phonologie du français contemporain » est très instructif, car dans la catégorie
« lecture », appuyée sur le même texte qui ressemble à un article de presse régionale, on
peut entendre aussi bien des gens qui ont ânonné à un débit très rapide, des gens qui se
sont amusés à lire, d’autres qui ont déchiffré avec quelques difficultés, d’autres encore
qui ont lu très distinctement comme pour une dictée scolaire… Sans doute en fonction
de leur interprétation de la situation d’interaction et de leur relation avec l’enquêteur ou
enquêtrice. Cela n’empêche pas de contraster ces lectures avec les entretiens, mais
l’interprétation qui en est faite demande beaucoup de précautions. Pour espérer susciter
une situation de lecture avec un minimum d’homogénéité, il faut certainement passer
par un scénario crédible et habituel pour les personnes sollicitées, et non se contenter
de donner un texte à lire.
Je plaide explicitement pour les prises de notes sans enregistrement, à intégrer
dans nos pratiques de recherche, comme dans le [doc 09] pour lequel I. Fougères avait
besoin d’un nombre suffisant d’attestations en contexte d’un emploi syntaxique régional,
le « y » bourguignon. Cela a comme immense avantage de ne nécessiter aucune
préparation, de pouvoir se pratiquer à l’improviste, sans demander l’accord des gens, et
donc de permettre l’accumulation d’exemples très divers dans des contextes écologiques
très divers. On peut imaginer qu’il est moins performant pour étudier des
caractéristiques acoustiques, mais c’est ignorer les capacités accrues de perception dont
on dispose si l’on focalise son attention sur une prononciation (différence bien connue
entre l’attention sélective et l’attention partagée, voir par exemple une synthèse dans
Arguin 2003). Après tout, une des études qui ont fait date dans l’histoire du
variationnisme, celle de Labov sur la prononciation du /r/ dans les grands magasins de
new York, a été menée de cette manière ; elle repose entièrement sur la confiance que
nous avons dans les capacités perceptives (notamment auditives) et de l’attention
sélective de Labov. Cela n’empêche en rien de mettre en place d’autres types de
protocoles ultérieurement, pour corroborer de telles observations faites sur le vif.
Enfin, les enregistrements effectués sur un terrain que l’on a longtemps fréquenté
ont l’avantage de produire des corpus pour lesquels la contextualisation peut être une
source d’une grande richesse pour la compréhension. Ils sont indispensables pour
comprendre les pratiques langagières et pour construire des hypothèses nuancées. Ils
29
ont la réputation de produire difficilement des connaissances aisément généralisables :
ce point fait néanmoins l’objet de discussions, par ex. chez Hambye 2015. Ils ont sans
doute comme limite la difficulté d’attester par des séries d’exemples un phénomène
linguistique qu’on aimerait focaliser.

Domaine de la perception
En parallèle, pour analyser la perception de la parole, j’ai eu recours à :

• Tests de perception d’extraits sonores par questionnaires avec choix forcés,


réponses sur une interface numérique (ordinateur) [études sur
l’identification des langues à partir de l’écoute des « euh » marqueurs de
travail de formulation dans différentes langues, projet MIDL ; un seul
groupe d’auditeurs]
• Tests d’évaluation des profils des locuteurs/locutrices à partir d’extraits sonores,
par questionnaires avec choix forcés ; réponses sur une interface numérique
(ordinateur) [études sur l’influence des stéréotypes de genre et de race sur
la perception de la parole d’autrui ; deux groupes d’auditeurs
indépendants, extraits manipulés]
• Tests de perception sous forme de tâche de notation à accomplir sur une
transcription brute fournie (à remplir sur papier) [identification des pauses
et des hésitations, doctorat]
• Tests de perception par questionnaire, avec questions souvent ouvertes (à
remplir sur papier) [épithèses vocaliques ou fricatives, divers accents
sociaux : identification des prononciations saillantes, évaluation libre des
locuteurs et locutrices]
• Tests d’évaluation de locuteurs-locutrices à partir d’extraits sonores par
questionnaire (choix multiples) à remplir sur papier, en groupe ou
individuellement [affrications : identification des prononciations marquées
par rapport à un phonostyle attendu ; évaluation des locuteurs-locutrices
en fonction du critère « admission à un stage de journalisme »]
• Tests de perception de prononciations saillantes et d’évaluation des profils des
locuteurs-locutrices par entretiens semi-dirigés, en focus groups [affrications,
idem supra]
• En projet : susciter des discours épilinguistiques par entretien dirigé, à partir de
brefs extraits sonores et avec demande de répétition-imitation [phonostyle
journalistique en particulier].

Toutes ces méthodes d’enquête sont intéressantes parce qu’elles permettent de


quantifier la saillance de certains phénomènes et les éventuelles corrélations indexicales
largement partagées (ou au contraire, l’absence de corrélations largement partagées). La
décentration des chercheurs est obtenue mécaniquement par le simple fait de solliciter
l’avis d’un certain nombre de personnes qui ne sont pas au courant des buts et des
hypothèses de l’enquête menée, et cela permet de produire des quantifications dont il
s’agit ensuite d’analyser la pertinence (par des analyses sur le fond) et le degré de
significativité (par des méthodes statistiques qui comparent les résultats à la
distribution au hasard ou à une hypothèse nulle).

30
Un des problèmes souvent soulevés par les tests de perception en général, qu’ils
portent sur l’identification de certaines variantes de prononciation ou sur l’évaluation
du profil social des personnes enregistrées, est celui des sources de biais dans les
résultats obtenus. Cela a donné lieu (et donne toujours lieu) à une littérature
importante.
Tout d’abord, l’exploration de la perception, dans la mesure où elle implique le
concours d’un grand nombre de personnes sollicitées qui construisent obligatoirement
une intersubjectivité avec les chercheurs, ne peut pas être conçue comme une simple
observation et description ; la démarche même de construction des tests perceptifs
mérite d’être éclairée par les apports de la psychologie sociale (Tajfel 1981) et par
l’analyse des différents biais prévisibles, au regard des études déjà disponibles. Mais la
liste des biais semble potentiellement infinie, et le fait de ne pas introduire sciemment
un amorçage au début d’un test ne veut pas dire qu’il n’y ait pas d’amorçage involontaire
et totalement incontrôlable, dû par exemple à l’annonce du cadre, à l’âge de l’enquêteur
ou l’enquêtrice, à une inscription institutionnelle sur son stylo-bille, ou à ce qui est
diffusé sur une chaine radio qu’on entend au loin... L’article de Hay et Drager 2010
mesure l’effet sur les réponses induit par la simple présence d’une peluche
emblématique (oiseau kiwi, kangourous ou koala) dans la salle où est mené le test.
Autrement dit, absolument tout peut influencer les réponses…
La tradition du locuteur masqué inaugurée par Lambert et al. 1960; Lambert,
Frankle, et Tucker 1966 me semble toujours digne d’intérêt, à condition d’en éclairer le
protocole par la prise en compte des apports critiques qui ont été ultérieurement
formulés sur les biais les plus importants (Solis Obiols 2002; Laur 2013; Drager 2013)…
En fait, il est indispensable de considérer la situation de test de perception
(questionnaire ou entretien) comme une interaction autonome en soi, avec ses propres
enjeux, entre le chercheur/la chercheuse et les personnes sollicitées ; la situation
nécessite une description détaillée, en relation avec les résultats obtenus. Il existe déjà
une longue tradition d’analyse approfondie et réflexive des entretiens, d’abord en
sociologie et ensuite en analyse de discours (par exemple Demazière 2008, sur les
enjeux de l’interaction en entretien, ou encore Salazar-Orvig et Grossen 2008 sur le
dialogisme et l’omniprésence des discours autres dans les entretiens cliniques). Il n’y a
pas de raison que les interactions que nous suscitons en sociophonétique échappent à ce
type de questionnements. J’ai eu l’occasion d’aborder cette problématique dans
l’enquête perceptive menée en collaboration avec A. Arnold [doc 05], où nous avons
essayé de poursuivre un double objectif. Le protocole construit devait mettre en
évidence, tout d’abord, l’éventuelle influence de la « race » et du « genre » sur la
perception diffuse, scalaire, de la personnalité des locuteurs et locutrices enregistrés
(grâce à une technique d’amorçage par affichage de différents prénoms associés aux
stimuli). Mais dans un deuxième temps, la comparaison des résultats obtenus avec ceux
des études menées dans d’autres contextes et à d’autres époques nous a amenés à
approfondir les réflexions sur la situation d’enquête en elle-même et sur les attentes des
auditeurs et auditrices sollicités.
Ce que Bourdieu dénonçait dans son article bien connu « L’opinion publique n’existe
pas » (Bourdieu 1973) me semble d’autant plus pertinent, car la situation, par l’extrême
banalisation de la pratique des sondages, est encore plus complexe.7 Il peut s’avérer

7Il n’est pas rare qu’un groupe ou une communauté virtuelle appelle explicitement à « pourrir » un
sondage. Il est de notoriété publique que les sondages en ligne n’ont aucune valeur, soit parce qu’ils ont
31
salutaire de confronter nos démarches d’enquête par questionnaire ou par entretien
semi-dirigé aux trois postulats de Bourdieu qui, selon lui, aboutissent à des distorsions
inévitables en amont même de l’analyse :

Toute enquête d'opinion suppose que tout le monde peut avoir une opinion ; ou, autrement
dit, que la production d'une opinion est à la portée de tous. Quitte à heurter un sentiment
naïvement démocratique, je contesterai ce premier postulat. Deuxième postulat : on suppose
que toutes les opinions se valent. Je pense que l'on peut démontrer qu'il n'en est rien et que le
fait de cumuler des opinions qui n'ont pas du tout la même force réelle conduit à produire des
artefacts dépourvus de sens. Troisième postulat implicite : dans le simple fait de poser la
même question à tout le monde se trouve impliquée l'hypothèse qu'il y a un consensus sur les
problèmes, autrement dit qu'il y a un accord sur les questions qui méritent d'être posées.
[Bourdieu, 1973, p 1292].

Ce que soutient Bourdieu, c’est que la méthode de la sollicitation directe de


réponses n’est pas seulement entachée de différents biais qu’on peut essayer de réduire
ou de contrôler, mais qu’elle est problématique dans ses postulats même. Selon lui, le
risque est élevé de fabriquer exactement les données dont on a besoin, qui continueront
à alimenter en retour des questions qui proviendront toujours de la même source (et du
même point de vue), dans un parfait cercle vicieux. Cercle vicieux qui peut produire des
effets bien réels, car on connait depuis longtemps le mécanisme social des prophéties
auto-réalisatrices (Merton 1948).
Pour diminuer un peu le poids des distorsions liées au premier postulat, il convient
d’accorder toujours de l’importance aux non-réponses, aux « je ne sais pas », aux
réponses qui ne sont pas directement exploitables pour valider ou infirmer l’hypothèse
formulée.
Quant au deuxième postulat, son poids peut être diminué en accordant des poids
différents aux réponses des expert·e·s, des personnes qui s’intéressent spontanément à
des questions de langue et à celles des personnes visiblement ennuyées par les
questions posées. Ce que j’affirmais plus haut, sur le fait d’accorder de l’importance à
l’interaction durant l’enquête, et de s’intéresser aux enjeux interactionnels qui peuvent
être très différents d’un individu à l’autre dans le même genre de tâche, peut également
constituer une réponse à l’objection de Bourdieu.
Le troisième postulat me semble porter sur une distorsion inévitable ; il est
important de le garder constamment à l’esprit en adoptant une démarche réflexive au
moment de fabriquer une enquête et au moment d’en tirer des conclusions. La
fabrication des questions de recherche est une partie importante de toute recherche, et
ce n’est pas parce que la question a déjà été posée par une / plusieurs recherches
précédentes qu’elle mérite d’être posée, qu’elle se pose pour tout le monde, qu’elle
apporte des éléments nouveaux qui ne soient pas tautologiques ou entièrement
contenus dans la question, etc.
C’est pourquoi je préconise l’utilisation des questionnaires comme méthode
complémentaire uniquement à partir du moment où on a construit des hypothèses très
pointues à partir d’éléments observés ou recueillis par d’autres méthodes. Quoi qu’il en
soit, je considère que les résultats obtenus par questionnaire ne peuvent jamais valider
une hypothèse, mais seulement apporter des éléments dans un sens ou dans un autre,

été « pourris », soit parce qu’ils ont attiré comme votants uniquement les gens concernés, mais cela
n’empêche pas les sondages en ligne de proliférer sur de nombreux sites de médias.
32
particulièrement pour des micro-phénomènes en production ou perception de la parole.
Les entretiens ont comme avantage de laisser de la place aux discours de celles et ceux
qui ne savent pas répondre, qui n’ont aucun avis sur la question posée, mais l’analyse de
la contribution de l’enquêteur ou l’enquêtrice à la fabrication des réponses, ou
autrement dit l’analyse de l’entretien lui-même comme évènement interactionnel
(Mondada 2001) reste incontournable. Les questionnaires ne permettent aucune
véritable analyse des non réponses, ce qui est probablement leur point le plus faible (le
choix forcé n’est qu’une distorsion supplémentaire car il rend invisibles les personnes
qui auraient préféré répondre « je ne sais pas » ou « ni l’un ni l’autre »).
Mes réflexions sur l'articulation entre 'théories', ‘données’ et 'terrain' rejoignent
celles d'une part non négligeable des chercheurs et chercheuses en sociolinguistique du
français contemporain, dont le numéro 154 de Langage et société (dir. Gadet & Guerin,
2015) donne un bon aperçu. L’heure n’est plus tellement à la déconstruction des
certitudes, car cela a beaucoup été fait, mais plutôt à l’innovation dans la construction de
démarches de recherche complexes, et à l’exploration de convergences possibles entre
les différents courants théoriques en concurrence. C’est typiquement le cas de Hambye
2015 qui explore la capacité à « faire preuve » à partir de l’analyse d’un cas singulier.
Cela m’amène à mon prochain point, qui porte sur la construction des liens entre les
observations des micro-phénomènes et les théories sur le langage, et sur la place que la
recherche accorde, notamment en sociophonétique, aux idéologies langagières.

I.2.5 Des niveaux micro- vers les niveaux macro-, ou vice-


versa
Dans ma démarche de recherche, je prends souvent comme points de départ des
micro-phénomènes et je tente d’en proposer une description et une interprétation qui
intègre des perspectives de plus en plus larges ; aller des niveaux d’analyse
microscopique vers des niveaux macroscopiques. Mais j’ai également adopté le chemin
inverse, car parfois les questions générales émergent du terrain, comme la consistance
des accents sociaux, la nécessité d’apprendre un accent, le rôle de la prononciation dans
l’évaluation d’une performance scolaire à l’oral…

Les pratiques de prononciation

Si l’article fondateur de Boutet, Fiala, et Simonin-Grumbach 1976 n’a pas réussi à


imposer largement le nom de « sociologie du langage », il a largement contribué à
imposer une conception du langage comme pratique sociale (à travers la notion centrale
de pratiques langagières), à remettre au devant de la scène les rapports de pouvoir et à
réfuter la théorie du langage comme reflet du social :

« il ne s’agit plus de séparer-rapprocher deux domaines, mais bien de voir comment le


langagier est constitutif – à la fois enjeu et agent – d’une formation sociale » (Boutet et alii,
1976, p. 81).

Cambon et Léglise 2008 reviennent trente ans plus tard sur la fortune de cette
notion de « pratiques langagières » pour en révéler les points de tension et les
convergences ; elles concluent sur la persistance de la problématique des rapports entre
stabilité et instabilité qui traverse la sociolinguistique actuelle et préconisent de
33
« montrer des changements qui ont cours dans les registres discursifs via les pratiques
langagières » (p. 86). Le mot « pratiques » continue à fonctionner comme centre
attracteur de différentes approches praxéologiques du langage et bénéficie de toujours
plus de colocations : « pratiques de catégorisation » (Greco 2012), « pratiques
discursives » (Nonnon 2014), « pratiques interprétatives » (Delarge 2001)…
Néanmoins, dans la plupart des études menées sur le français dans la perspective
des pratiques langagières il est surtout question de discours, de lexique, d’interactions.
Sauf erreur de ma part, Laks 1983 a été le premier, ou parmi les premiers, à parler
clairement de pratiques linguistiques pour décrire la prononciation, dans un article où il
visait à « mettre en relation systématique » pratiques linguistiques et pratiques sociales
d’un groupe d’adolescents de Villejuif.
Bien plus récemment, Arnold 2015a parle de « pratiques vocales », notamment
dans sa thèse de doctorat où il étudie :

« comment une voix est perçue comme genrée et comment des locutrices et des locuteurs
utilisent des pratiques vocales pour indexer leurs identités de genre ». (Arnold 2015a, p.16).

Je propose pour ma part de parler de « pratiques de prononciation » pour signifier


ainsi l’ambition d’étudier la variabilité des prononciations, les enjeux sociaux qui y sont
attachés et l’agentivité des locuteurs et locutrices en la matière. Parler de « pratiques de
prononciation » plutôt que simplement de « prononciation » a l’avantage de focaliser
l’attention sur la variabilité et donc de lever tout malentendu homogénéisant. Le risque
de malentendu est favorisé, en linguistique, par la longue tradition d’utilisation du mot
« prononciation » comme ellipse de « prononciation du français de référence » (Landick
2004), qui fonctionne déjà comme une étiquette homogénéisante à cause du singulier.
L’exemple de Landick est d’ailleurs très intéressant à cet égard, car elle déclare dans
l’introduction avoir pris toutes les mesures qui lui semblaient possibles pour réduire
toutes les variables facilement envisageables (sexe, âge, classe sociale, région) et étudier
ce qui se rapprocherait le plus de « la prononciation de référence ». Ainsi, elle choisit
d’enregistrer un groupe de 21 jeunes hommes, normaliens, nés à Paris ou ayant vécu
pratiquement toute leur vie à Paris (sauf 3 exceptions), logés à l’internat de l’ENS à Ulm.
Et pourtant, elle reconnait avec honnêteté, à la fin de son enquête sur « la »
prononciation des voyelles moyennes, que malgré son homogénéité sociale son
échantillon présentait tout de même une grande hétérogénéité dans le maintien des
oppositions o/Ɔ , dans l’application de la règle de l’harmonie vocalique, dans le poids
mesurable de l’influence de l’orthographe sur les prononciations, etc.
C’est en intitulant son livre « Phonétisme et prononciations du français », que P.
Léon 1993 a signifié sa prise en compte de la variabilité ; le pluriel permet en effet de
rejeter tout malentendu sur une prononciation unique du français et de revendiquer les
variantes comme également dignes d’intérêt. La posture de recherche me semble bien
différente de celle de Straka 1952 qui distingue dans « la » prononciation parisienne six
« étages » (p.19), clairement hiérarchisés. A mon sens l’usage du pluriel ne suffit pas
pour rendre visibles les tensions sociales et l’agentivité, à la différence du
mot « pratiques » qui s’est enrichi grâce à son appropriation par des courants de
recherche plus centrés sur des aspects sociologiques ou anthropologiques. D’où ma
préférence pour « pratiques de prononciation », où le pluriel est porté par le mot
« pratiques », et la « prononciation » désigne seulement le type d’activité. Le seul
désavantage du mot « pratique » c’est qu’il peut donner l’impression de désigner un
processus obligatoirement conscient et contrôlé.
34
Zoomer sur une pratique de prononciation

Une des techniques de recherche en sociophonétique correspond à ce qu’on


pourrait appeler, par analogie avec l’observation d’une image : zoomer. Cela correspond
à une démarche empirique focalisée sur la description, par différentes méthodes, d’un
micro-phénomène de la prononciation, dont on postule au préalable qu’il serait
susceptible de fonctionner comme index (Silverstein 2003) de groupe social, d’identité,
de style…, en partant de l’idée que les groupes d’humains construisent leur cohérence en
tant que groupe à travers le partage d’une communauté de pratiques (Eckert et
McConnell-Ginet 2007; Eckert 2000).
Ce type de démarche (« zoomer » sur un trait de prononciation) s’effectue
néanmoins au moins en deux temps :
• d’abord justifier l’intérêt du choix du trait en rapport avec une ou plusieurs
hypothèses, qu’il convient de défendre avec des arguments appuyés sur des
sources diverses et mobilisant, dans l’idéal, toutes les connaissances
disponibles (diachronie, contacts de langue, articulation, acoustique, savoir
populaire, stéréotypes, etc.)
• ensuite « zoomer » : construire un corpus dans lequel seul le trait choisi sera
étudié, isolé, mesuré, décrit, soumis à des tests d’écoute, etc.

A titre d’exemple, on peut penser à la description d’un phénomène prosodique


considéré traditionnellement comme emblématique d’un style « didactique », à savoir
l’accent d’insistance secondaire qui touche la première syllabe d’un mot. On peut se fixer
comme objectif de construire une étude sur ce trait. Cet accent est présenté en général
comme indexant un style « orateur » (Vaissière 2015), on le trouve facilement dans les
discours des enseignant·e·s en cours ou en conférence, dans les discours des
personnalités politiques, etc. Mais il a surtout été décrit acoustiquement dans la parole
des journalistes (Ko 1996). Dans une récente étude diachronique portant sur un grand
corpus radiophonique échantillonné sur une soixantaine d’années Boula de Mareüil,
Rilliard, et Allauzen (2012) ont pu affiner la description de cet accent associé à la
première syllabe. Ces auteurs ont pu montrer que, pour les syllabes frappées de cet
accent si typique de la parole journalistique, la durée de l’attaque syllabique a augmenté
dans le temps tandis que la durée de la voyelle diminuait. Ce degré de finesse n’aurait
pas été atteint si l’on s’en était tenu au niveau de la durée syllabique, sans « zoomer »
davantage. Or, l’émergence de cette hypothèse n’a été possible que par la technique
choisie en amont : alignement automatique d’une grande base de données, et par le
choix théorique de construire un corpus diachronique et d’explorer toutes les
dimensions mesurables pour tester si cette pratique de prononciation est une constante
parfaite de la parole journalistique ou non.

La première étape de la démarche scientifique (justifier l’intérêt du choix du trait)


peut parfois être franchie rapidement s’il s’agit d’un trait de prononciation déjà
largement décrit : compte tenu de l’immense tradition d’étude sur la liaison en français,
on peut (légitimement) ne pas éprouver le besoin d’en justifier l’intérêt.
Néanmoins, le passage trop rapide de cette étape par la construction d’hypothèses
issues surtout d’une tradition locale ou d’une source unique d’argumentation peut
aboutir à un processus de « zoomage » précipité. Le risque est de fournir une description
fine qu’on sera au final incapable de recontextualiser et de replacer dans le cadre d’une
35
vision d’ensemble. C’est ce qui a pu se produire, à mon avis, avec différentes études qui
se sont focalisées sur l’allongement de la pénultième syllabe en français.
Le trait est ancien et relie le français moderne aux autres langues romanes, qui ont
une forte tendance à la paroxytonnie. Il n’est pas lié au territoire de la France, car il a été
décrit également hors de France, par Dolbec et Ouellet 1996 qui l’appellent allongement
prétonique et le considèrent comme spécifique du français laurentien (québécois).
Fagyal 2003 choisit de l’étudier en lien avec le profil social des élèves d’un collège
de la Courneuve (région parisienne), tout en rappelant les hypothèses disponibles :

« Il peut s’agir, comme B. Conein et F. Gadet le font remarquer, d’un trait héréditaire. En effet,
le peu d’études phonétiques dont nous disposons sur les parlers populaires de Paris,
mentionnent, et parfois illustrent, un « allongement de la pénultième » dans les parlers des
différentes couches sociales parisiennes au xxe siècle (voir G. Straka, 1952 ; O. Mettas,
1979). » Fagyal, 2003, p. 9.

Fagyal part de l’observation de l’existence « dans le français des élèves de cette


banlieue ouvrière de Paris » de ce trait « atypique pour le français des classes moyennes »
(p. 10), et elle construit l’hypothèse que « ce rythme semble caractériser le vernaculaire
de toute une communauté d’enfants issus des milieux populaires » (idem, p.10). Ses
intuitions sur le terrain – non thématisées explicitement – la conduisent à faire
l’hypothèse qu’il pourrait s’agir d’une innovation (même si elle se fait à travers un
ancien trait qui referait surface) liée particulièrement aux pratiques de prononciation
des jeunes d’origine maghrébine, parfois arabophones. Cette hypothèse est soutenue par
les données de son corpus, où elle oppose quelques jeunes maghrébins (généralement
des garçons) à quelques jeunes qu’elle qualifie de « français de souche ». Cela permet de
forger l’hypothèse d’une influence des contacts de langues français-arabe sur les
pratiques prosodiques du français vernaculaire de ces communautés.
Or, la validation de cette hypothèse apparait, lorsqu’on la confronte à d’autres
études, comme très fortement déterminée par le corpus étudié, ce qui est un risque
inhérent à ce type de démarche.
En effet, j’ai déjà évoqué jusque là trois hypothèses : trait ancien héréditaire
(Straka 1952 parlait d’ « allongement de la syllabe prétonique » comme accent
d’insistance qui « choque » lorsqu’on écoute « la prononciation populaire de Paris »), trait
caractérisant le français laurentien (Dolbec et Ouellet), trait caractérisant le français des
jeunes maghrébins des quartiers populaires de la région parisienne (Fagyal). Mais la
liste ne s’arrête pas là.
Dans Bardiaux, Simon, et Goldman 2012, il est décrit comme étant spécifique à
l’accent belge8 : « l’allongement perçu de la syllabe pénultième » est présenté comme le
facteur le plus important qui est associé avec un « marquage régional » de la
prononciation, à l’issue d’un protocole d’étude de la perception (p. 80). Les spécificités
de la prosodie des francophones de Belgique sont mises en relation avec l’influence des
langues germaniques (flamand et allemand), p.69.
Et dans le même ouvrage, dans Avanzi et al. 2012, « l’accentuation des pénultièmes
de groupe accentuel » représente un trait distinctif pour le français parlé en Suisse
romande par rapport au français parlé à Paris. Certes, dans cette dernière étude les

8 Cette remarque n’est bien entendu pas nouvelle ; dans sa thèse de doctorat, Hambye 2005

rappelle une longue tradition de recherche qui place ce trait parmi les spécificités du français parlé en
Belgique.
36
auteurs décrivent une montée mélodique sur la syllabe pénultième et/ou un
allongement de sa durée, tandis que pour l’ « accent belge » il n’en était pas question ; en
revanche, pour l’accent belge Bardiaux et Boula de Mareüil 2012 évoquent plutôt une
diphtongaison sporadique de la voyelle qui prend l’accent tonique. Mais ces micro-
différences semblent secondaires par rapport au poids symbolique de l’allongement de
la pénultième, dont l’indexicalité régionale semble se brouiller plutôt que de se clarifier.
Au final, la confrontation de ces études amène à conclure que l’on peut étudier
finement un trait de prononciation dans un corpus et néanmoins peiner à avoir une
vision d’ensemble et une meilleure compréhension de la pratique de prononciation en
question ; cela peut être imputable à un zoomage trop rapide (sans prise en compte
suffisante des connaissances disponibles par des sources différentes), mais également à
une propension à l’hyperspécialisation des études et à la segmentation du continuum
des pratiques de prononciation selon des critères politiques (idéologiques) plutôt que
linguistiques. Cette segmentation politico-régionale empêche de voir le continuum, ce
qui peut nous empêcher de mieux comprendre la cohérence d’un ensemble de pratiques
reconnues comme formant « une langue ».
Le même problème peut se présenter si on construit la démarche de recherche en
sens inverse : une étude qui part d’une pré-catégorisation des pratiques court le risque
d’homogénéiser par la théorie un ensemble de pratiques fort variées sous la même
étiquette d’une « variété » belge, suisse, laurentienne, banlieusarde… pré-construite
(Gadet attire l’attention sur cet écueil dans différentes publications, citées supra). Ainsi,
partir d’une « variété » de langue postulée comme homogène pour ensuite focaliser son
attention (zoomer) sur un trait de prononciation isolé, indissociable de la variété de
départ, ou bien partir d’une « variété » postulée comme homogène pour ensuite
rechercher ses différents traits spécifiques par des mouvements successifs et zoom-
dézoom, production/perception, cela peut poser le même problème. Le problème vient
de la pré-catégorisation homogénéisante d’une « variété » ou d’un style par postulat, qui
rend donc impossible sa remise en question. Cela nous amène à l’indispensable prise en
compte des idéologies langagières, soit en amont de l’étude (au minimum) soit à toutes
les étapes de l’étude (dans l’idéal).

Prendre en compte les idéologies langagières : zoomer - dézoomer

Les choix idéologiques sont indissociables du processus de recherche, à chacune de


ses étapes : la construction de l’objet, (la construction de la question de recherche et des
hypothèses), le choix des méthodes pour récolter ou fabriquer les données, l’analyse des
données et le statut qu’on leur accorde, et jusqu’au choix du support de diffusion parmi
les différentes revues ou conférences scientifiques et/ou dans des publications de
vulgarisation ou rencontres grand public.
On peut bien entendu privilégier des choix qui visent à diminuer le poids de la
subjectivité, mais nous savons que cette entreprise est vaine ; car ce qui semble
« neutre » à un moment, semblera profondément marqué par l’idéologie de son époque
dès que l’on s’éloignera dans le temps et qu’on sera plus à même de déceler les postulats
non précisés. Les discours scientifiques ne bénéficient pas d’un état de grâce permanent
et ne sont pas produits en dehors des contingences humaines à l’œuvre dans tout autre
contexte. Foucault résume ainsi cette position, dans l’Archéologie du savoir :

« S'attaquer au fonctionnement idéologique d'une science pour le faire apparaître et pour le


modifier, ce n'est pas mettre au jour les présupposés philosophiques qui peuvent l'habiter ; ce
37
n'est pas revenir aux fondements qui l'ont rendue possible et qui la légitiment : c'est la
remettre en question comme formation discursive ; c'est s'attaquer non aux contradictions
formelles de ses propositions, mais au système de formation de ses objets, de ses types
d'énonciations, de ses concepts, de ses choix théoriques. C'est la reprendre comme pratique
parmi d'autres pratiques. » Foucault 1969, p. 252.

Depuis l’abondance des écrits d’inspiration constructiviste nous avons tendance,


en sciences humaines, à accepter comme inéluctable le poids des idéologies, à concevoir
les discours scientifiques comme relevant de formations discursives et à accorder
toujours plus de place à l’explicitation des choix épistémologiques plutôt qu’à leur mise
en scène comme allant de soi. Cette explicitation apparait comme indispensable pour
faciliter les dialogues ultérieurs entre des recherches fondées sur des postulats très
différents, assez différents, marginalement différents…
Le péché originel de la grammaire (et de la linguistique) française, pour
paraphraser l’article de Levinson sur le péché originel des sciences cognitives (Levinson
2012), a été de s’inscrire dans une idéologie du standard unique fondé sur les écrits
académiques ou sur les exemples forgés hors contexte, sans le théoriser clairement (à la
différence des grammairiens générativistes). Cela a longtemps influencé l’étude des
productions orales en français : un exemple flagrant est l’utilisation des mots « gauche »
et « droite » pour les constructions syntaxiques de l’oral : dislocation à gauche, etc. Ayant
commencé mes recherches dans le sillage des travaux de M.A. Morel et C. Blanche-
Benveniste j’ai appris rapidement à veiller à éviter cet écueil, et à rechercher des
désignations pour l’oral sans référence sous-jacente à l’écrit, et encore moins à l'écrit
académique. J'ai acquis la conviction que l'oral devait être conçu comme
intrinsèquement multimodal et structuré sur l'axe temporel, tandis que l'écrit était
linéaire9 ou en tout cas structuré de manière spatiale sur son support. Mais cela ne
suffisait pas pour prendre toute la distance nécessaire par rapport à l’idéologie du
standard, car les locuteurs enregistrés avec prédilection pour les études sur le français
oral faisaient souvent partie, comme par un extraordinaire hasard, des classes
moyennes ayant bénéficié d’une longue éducation scolaire ; l’idée d’une sorte de
standard de l’oral, distinct de l'écrit mais tout de même relativement homogène (qu’on
retrouvait chez Fouché 1959 par exemple), demeurait à la fois présente et peu
questionnée pour le moins dans les travaux, si novateurs par ailleurs, de Blanche-
Benveniste ou de Morel.
J’ai commencé par intégrer dans mes recherches les représentations sociales
partagées sur le « euh » dit d’hésitation à travers l’étude de quelques extraits de
l’émission les Guignols de l’info, pour tenter, petit à petit, d’intégrer les notions
d’idéologie langagière à côté de celle de représentation sociale, (Costa, Lambert, et
Trimaille 2012) et de standardisation (Milroy et Milroy 2012) vue comme une idéologie
(un totem national) et comme un processus jamais achevé et toujours à négocier
(Armstrong et Mackenzie 2013). C’est dans une optique constructiviste que j’envisage
pour ma part les notions de français de référence (Durand, Laks, et Lyche 2009) ou
français supralocal (Armstrong et Pooley 2010), comme des processus multiples,
concurrents et toujours en cours. Ces désignations mériteraient par ailleurs d'être plus
souvent employées au pluriel, pour éviter l’homogénéisation excessive.

9 La communication électronique écrite instantanée avec des images (gif, émoticônes) et des liens
cliquables a partiellement renégocié la contrainte de linéarité de l’écrit.
38
Lorsque j’ai commencé à m’intéresser à des traits particuliers en tant que
pratiques de prononciation, je n’ai pas eu besoin de mobiliser d’emblée la notion de
« standard », de « français de référence », ou d’ « accent » ; j’ai commencé par décrire les
contextes des occurrences relevées dans tel ou tel corpus et j’en ai sélectionné quelques
unes pour les soumettre à des tests de perception et catégorisation. La frontière entre
standard et non-standard émerge assez rapidement dans les discours, qu’il s’agisse de
discours « profanes » ou de discours de linguistes : si personne ne dit rien, c’est du
« standard », si l’on se met à catégoriser clairement la prononciation, c’est du non-
standard. Dans la prononciation, le « standard » correspond à cette prononciation
extraordinaire dite « sans accent ». On retrouve la même situation pour les catégories
raciales, où on parlera des gens « de couleur » et des gens… normaux (les « gens » tout
court, sans précision, suffit à désigner des blancs, car le blanc n’est pas une « couleur »
qui mérite d’être mentionnée). Et le non-standard renvoie en général à des catégories de
gens (des « identités »), et non à des catégories de situations. F. Gadet 2007 dénonce
explicitement ce biais de la catégorie « non-standard » :

bel exemple de dénomination purement négative, qui en dit davantage sur ce à quoi elle
s’oppose que sur ce qu’elle cherche à nommer ». Gadet, 2007, p 210.

…ainsi que le biais de la corrélation insuffisamment questionnée entre les identités


des locuteurs et leurs pratiques langagières, biais qu’elle qualifie de « préjugé tenace » et
fort répandu :

Un préjugé tenace, où les sociolinguistes ne se sont pas suffisamment démarqués des


conceptions de sens commun, conduit à caractériser les variations dans les vernaculaires à
travers l’identité des usagers. Peu nombreux ont été les travaux à les chercher soit dans les
idéologies des locuteurs, soit dans leurs circonstances d’usage et dans les relations entre
locuteurs. (idem, p 210).

Elle y cite notamment comme rares contre-exemples les travaux de Kroch 1978; et
de Lodge 2004.
C’est de manière récurrente et explicite que F. Gadet dénonce les idéologies
classistes et homogénéisantes sous-jacentes à l’emploi de l’expression « français
populaire » (variante à peine édulcorée de « bas-langage », « classificateur déclassant »,
Gadet 2003), rejoignant ainsi l’article bien connu de Bourdieu 1983 qui avait torpillé la
désignation de « populaire ». Néanmoins, F. Gadet reconnait que cette désignation
inadéquate et maladroite vaut mieux que les siècles de désintérêt pour tout ce qui n’était
pas le beau langage, largement homogénéisé également par idéologie. Cette longue
tradition de désintérêt fait qu’on manque cruellement de sources sur la variabilité des
pratiques langagières écrites ou orales des locuteurs et locutrices n’appartenant pas aux
classes dominantes (Lodge 2004), et l’intérêt récent pour les « classes populaires »
permet au moins de documenter largement une plus grande diversité de pratiques.
Or, si la description de la variabilité des pratiques langagières anciennes est quasi
impossible, celle des pratiques présentes ne va pas non plus de soi : on y retrouve les
questions d’idéologie. J’essaie de lister ci-dessous les points les plus importants et le
plus souvent discutés.
Premièrement, après des siècles de mépris du « bas-langage », des travaux ont
commencé à s’intéresser à la variabilité mais toujours au prisme de l’homogénéisation
des pratiques : parler toulousain, accent marseillais, français de Belgique, parler des

39
jeunes, accent de banlieue, français populaire… Les syntagmes homogénéisants ne
manquent pas, liés à des stéréotypes généralement nocifs et discriminants qui se portent
encore très bien de nos jours (Gasquet-Cyrus 2012; Blanchet 2016). On retrouve donc le
même problème, qui se décline dans de nombreuses études : le postulat de l’existence
d’une variété dont on discute uniquement les contours (généralement géographiques).
Les discours de la recherche adoptent dans ce domaine, très facilement, les catégories
du discours ordinaire, avec une dissymétrie évidente entre désignations de pratiques
géographiques et désignations de pratiques sociales :

les variétés sociales des idiomes apparaissent faire moins couramment l’objet de
désignations, ordinaires ou expertes, que les variétés régionales, dont la nomination liée à
l’espace peut plus facilement être assumée par les locuteurs . Gadet 2003.

Cela suscite, bien évidemment, des débats entre experts : Hambye et Simon 2009
contestent l’unité des parlers et des accents belges et imaginent aussi la possibilité
d’envisager des continuums de pratiques qui enjambent facilement les frontières
administratives de la Belgique avec la France. Ce à quoi Bardiaux et Boula de Mareüil
2012 répondent en recherchant des sous-variétés plus locales supposées homogènes
(déplacement des frontières) : variété de Liège, de Tournai, de Bruxelles et de Gembloux,
même s’ils ne parviennent pas à les faire valider perceptivement. L’absence de toute
validation perceptive incite Bardiaux, Simon, et Goldman 2012 à renoncer à construire
des variétés et des frontières géographiques, sans pour autant proposer d’avoir recours
à une catégorisation sociale des locuteurs ; ils défendent au final une démarche plus
empirique, fondée sur le classement des locuteurs, toutes régions confondues, sur une
échelle continue selon le « degré d’accent perçu » comme « régionalement marqué ».
Cela permet d’étudier un trait prosodique et sa perception tout en renonçant à régler la
question épineuse des relations imbriquées des affiliations régionales et sociales,
surtout à partir d’un très petit échantillon de locuteurs et locutrices.
Le débat sur les relations entre stratification sociale et régionalisation (ou vice-
versa) n’est toujours pas tranché. Des travaux récents sur la France avancent
l’hypothèse que le social l’emporte sur le régional (Boughton et Armstrong), pour le
moins du point de vue de la perception, et pour le moins à l’intérieur du vaste domaine
d’oïl versus domaine d’oc. L’enquête du projet « Phonologie du français contemporain »
(Durand, Laks, et Lyche 2009; Detey et al. 2010) ne permet pas de donner des réponses
fines en ce sens, car les différentes affiliations des personnes enregistrées à des groupes
sociaux n’ont pas été vraiment prises en compte.

Deuxièmement, en continuation logique avec le premier point sur les débats au


sujet de l’homogénéité ou l’hétérogénéité des « variétés », les choix idéologiques des
chercheurs se retrouvent jusque dans les descriptions des traits de prononciation les
plus fins. J’ai déjà évoqué l’exemple de l’accentuation (généralement par allongement)
de la pénultième syllabe. Ses descriptions comme indicateur spécifique caractérisant
différentes « variétés » se posent en concurrence avec celle, plus unifiante, d’un trait
ancien (d’héritage) vernaculaire, dont la préservation a pu être favorisée ici ou là par
différents facteurs. Je développerai dans la partie II.2.3 un autre exemple prosodique qui
fait débat, celui du contour rapide montant-descendant : celui-ci a été décrit par Boula
de Mareüil et Lehka-Lemarchand 2011 comme pouvant être un marqueur d’« accent de
banlieue », perceptivement identifiable et par Paternostro 2016 comme un contour
emphatique qu’on retrouve à des degrés divers dans les pratiques de tout locuteur de
40
français – la seule spécificité chez certains jeunes des quartiers populaires, dans
certaines situations étant sa production plus fréquente.
La vision stratifiée et compartimentée des pratiques d’une langue, fondée sur le
postulat de la perception catégorielle qui opère des frontières dans n’importe quel
continuum et construit des prototypes pour justifier les zones ou les catégories à
délimiter, se heurte, à nouveau, à une vision unifiante de l’immense communauté de
pratiques des gens qui se reconnaissent comme « parlant français ». Mais cette vision
unifiante d’une grande communauté n’empêche pas de prendre en compte la variabilité
des pratiques, au contraire : elle permet de les décrire sur des bases toujours
négociables et renouvelables selon les focalisations explicitement choisies, sans gommer
les rapports de pouvoir entre les membres mais sans les réifier non plus. Le danger de
réification des catégories et leur remise en question permanente traverse d’ailleurs
toute la recherche en sociolinguistique et en sociophonétique, quel que soit le
positionnement théorique choisi. Les réponses apportées sont différentes, en particulier
selon le rôle que les chercheurs acceptent d’endosser (observateurs-descripteurs versus
observateurs-acteurs dans le débat public) et, plus généralement, selon la place
accordée à la réflexion critique sur le pouvoir des discours experts dans une société, sur
leur capacité à produire des prophéties auto-réalisatrices ou à écorner des stéréotypes
socialement nocifs, etc. [j’y reviens dans la partie II.2].

Troisièmement, les divergences idéologiques se manifestent également dans la


prise en compte des différentes affiliations sociales et identitaires, plus ou moins
essentialisées, des personnes dont on étudie la prononciation. La tradition variationniste
envisage de postuler une hétérogénéité des pratiques langagières structurée par des
règles. Les gens sont susceptibles de parler différemment selon leurs appartenances
vues comme statiques et non négociables (genre, classe, âge, origine, race…), et ces
différences sont censées traverser, le cas échéant, tous les styles de parole imaginables.
Si ces différences existent, qu’elles soient perceptibles ou non, elles pourront être
décrites en termes mathématiques en mesurant les fréquences des variantes et en
effectuant des calculs statistiques qui considèrent les appartenances socio-identitaires
comme des facteurs indépendants.
Dans l’optique variationniste, si un facteur a déjà été décrit comme statistiquement
pertinent quelque part à un moment donné, cela le rend potentiellement pertinent pour
toujours et certains chercheurs peuvent se sentir de ce fait dispensés d’argumenter à
chaque fois pourquoi tel ou tel « grand » facteur traditionnellement reconnu devrait être
pertinent dans un cas précis. A titre d’exemple, l’article de A vanzi et al. 2012 présentant
de nombreux descripteurs très fins de « la prosodie de quelques variétés de français
parlées en Suisse romande » affiche, de manière surprenante, des comptages et des
graphiques portant sur la vitesse d’articulation (la durée syllabique) des femmes et des
hommes. L’article oppose des échantillons minuscules : 3 minutes de lecture et 3
minutes de parole conversationnelle par personne, 4 femmes et 4 hommes de la région
parisienne censés représenter le « standard », et 16 femmes et 16 hommes de la Suisse
romande, répartis en quatre groupes selon leur région d’origine censée correspondre à
leur « variété » suisse. Une des hypothèses testées est celle de la vitesse d’articulation
réputée (stéréotypiquement) être plus lente chez les Suisses par rapport aux Français.
Sur ce point précis, les données montrent que la vitesse d’articulation est
statistiquement plus lente pour trois sous-groupes suisses mais pas pour le quatrième.
Mais les auteurs rajoutent une ventilation des données par sexe, à la différence de tous
les autres paramètres mesurés pour obtenir des oppositions France – Suisse. Les autres
41
paramètres étaient : les pourcentages de proéminences pénultièmes en lecture et en
conversation, la durée vocalique / l’intensité / la F0 de la pénultième en fonction de la
variété et du statut proéminent ou non de la syllabe, la durée syllabique en fonction du
style de parole lecture-conversation et de la variété, etc.
Rien ne permet de savoir pourquoi ces auteurs ont considéré intéressant de tester
s’il y avait un effet du sexe sur la durée syllabique moyenne (et pas sur les autres
paramètres). A ma connaissance la vitesse d’articulation ne fait pas partie des pratiques
décrites comme genrées dans la littérature, ni dans les pratiques, ni dans les
représentations, ni dans la perception10. L’hypothèse qui semblerait a priori la plus
probable serait qu’il n’y aurait aucun effet de l’identité genrée assignée aux locuteurs et
locutrices de cet échantillon (20 femmes et 20 hommes au total). Et c’est exactement le
résultat obtenu : « la durée syllabique ne diffère pas signficativement en fonction du sexe,
toutes variétés confondues » (op.cit., p. 108). Ce qui est suprenant, c’est que les auteurs
tiennent à ventiler ce résultat par sexe et par « variété », malgré les faibles effectifs de
chaque « variété » (4 femmes, 4 hommes) ; ainsi, nous apprenons grâce au graphique de
la page 109 et à une longue note de bas de page contenant les chiffres précis, que malgré
l’absence de différence significative globale et la très grande variation inter-individuelle,
il est possible de constater que les 4 hommes de Paris, de Genève et de Neuchâtel
articulent en moyenne plus vite que les 4 femmes de chacune de ces villes, tandis que les
4 hommes de Martigny et de Nyon articulent en moyenne plus lentement que les 4
femmes correspondantes.
Autrement dit, si l’on récapitule : l’hypothèse de départ sur le lien entre genre et
vitesse d’articulation n’est jamais argumentée ou même formulée, mais les données sur
l’échantillon de 40 personnes (20 femmes, 20 hommes) ne montrent aucun lien. Malgré
cela, nous disposons des résultats détaillés sur des micro-échantillons qui ne montrent
rien d’autre que la forte variation individuelle en la matière. En termes de démarche,
nous observons donc ici un mouvement de « zoom » sur des données très fines, mais pas
de mouvement de « dézoom » final pour permettre d’interpréter ce que nous avons pu
observer de près. Selon moi, nous avons affaire là typiquement à un problème
d’idéologie non explicite (vision différentialiste du genre ?) qui rend délicate
l’exploitation et la discussion des données fournies ; il est possible que les auteurs
n’aient pas d’hypothèse explicite sur le genre, mais se soient sentis dans l’obligation de
mesurer l’impact du facteur « sexe » uniquement en raison du fait que sa pertinence
s’est imposée dans d’autres études, sur d’autres terrains. Cet exemple montre que la
quantification apparemment neutre et objectivante de certains paramètres ne permet
pas de se dispenser d’une explicitation des postulats idéologiques sur le fonctionnement
du langage. Au contraire, l’absence d’explicitation diminue les possibilités de dialogue
avec des chercheurs travaillant sur des postulats différents.
Par rapport aux postulats variationnistes « première vague » (Eckert 2012), les
hypothèses théoriques divergentes portent non seulement sur la fragilité des
« variétés » et l’impossibilité de tracer des frontières, mais également sur la fragilité des
autres catégories trop figées : l’âge, le sexe, la classe, l’origine. Même s’il existe des
tendances générales, les différences inter-individuelles entre personnes du même âge,
de la même origine, du même sexe, de la même classe sociale, du même niveau

10 Deux articles sont cités comme sources à ce sujet, (Quené 2005 et Jacewicz et al. 2009) dans la

mesure où ces auteurs ont calculé la vitesse d’articulation ventilée par sexe, mais les deux concluaient à
des différences inconsistantes ou non significatives.
42
d’éducation, etc. peuvent s’avérer abyssales ; le fait de pré-catégoriser les gens en
postulant que les différences inter-individuelles sont négligeables par rapport aux
« grandes tendances » et ne méritent donc pas la moindre place demeure très
problématique.
Selon Gadet 2007, la relation entre identités, répertoires verbaux et attitudes par
rapport à ces répertoires reste un thème central pour la sociolinguistique ; elle
préconise d’envisager les identités comme des processus d’assignation « à travers la
différentiation ». Elle rajoutait, en 2007, optimiste :

il reste à se représenter comment intervient la relation [entre identité et répertoires


verbaux], au delà d’une vague entrée en corrélation que plus personne ne défend
aujourd’hui. (op.cit. p.206)

Force est de constater que le calcul des corrélations reste une porte d’entrée
prisée, malgré le risque de réification des identités pré-établies, en raison de la force de
la tradition et probablement aussi de la fascination encore largement partagée en
sociolinguistique pour les chiffres et les quantifications.
Pourtant, différents modèles sont envisagés depuis une bonne quinzaine d’années.
Par exemple, Armstrong 2002 avance des hypothèses nouvelles sur les sociétés
françaises et britanniques actuelles, souvent incompatibles avec la vision trop
compartimentée de la société, qui a pourtant pu être pertinente par le passé. En parlant
de « nivellement » et de tendance générale à « l’informalisation », il propose de diminuer
le poids des appartenances sociales et de rechercher les dynamiques générales et les
ressorts de changement au niveau de la société dans son ensemble et non au niveau
d’une « variété », dans la mesure où il n’existe pas (plus ?) de groupe isolé du reste de la
société. Armstrong met justement en avant le rôle de la densification des contacts inter-
groupes qui a entrainé une diminution de la stratification rigide (classe, genre, âge) ; et
en même temps l’importance symbolique croissante du groupe « jeunes » qui a modifié
les rapports entre groupes d’âge et qui a pu accélérer certains changements en raison du
« goût de la jeunesse pour les variantes linguistiques non standard et novatrices » (p.5) :

… l’influence sociale et culturelle des jeunes s’est accrue pendant les quelques quarante
dernières années, en même temps que s’accroissait leur importance économique en tant que
consommateurs durant la période de reconstruction et de croissance qui a suivi 1945.
(Armstrong 2002, p. 5).

La multiplication des modèles interprétatifs concurrents et le développement


général des travaux en sociolinguistique critique, auxquels je souhaite m’affilier (Heller
2002; Boutet et Heller 2007) m’ont incitée à accorder de plus en plus de place aux
réflexions sur les idéologies langagières en général, celles des experts comme celles des
profanes, qui sont parfois identiques, et sur l’agentivité citoyenne des chercheurs, en
lien avec les études plus traditionnelles d’un trait particulier en sociophonétique.
Cette trajectoire de recherche se retrouve donc dans ma deuxième partie qui rend
compte de mes travaux les plus récents.
J’y expose d’abord les études focalisées sur des pratiques particulières de
prononciation : affrication des consonnes occlusives alvéo-dentales partie II.1.2,
épithèses vocaliques partie II.1.3, épithèses fricatives partie II.1.4. Ceci me permet
d’opérer des mouvements de « zoomage » réalisés à travers différents outils
d’observation et de description, tout en effectuant dans la mesure du possible des mises

43
en perspective plus générales. Les pratiques décrites, surtout celles qui caractérisent la
parole des journalistes, passent en partie inaperçues et le geste descriptif qui consiste à
les rendre visibles a aussi une portée politique. Cela oblige à discuter, non seulement du
statut linguistique de ces pratiques – pas encore élucidé pour les deux types d’épithèses
que je décris – mais également sur leur statut sociolinguistique traversé par des tensions
qui peuvent se révéler dans les choix de dénomination.
La partie II.2 expose :
• des réflexions plus théoriques sur les savoirs académiques et les savoirs
profanes en lien avec ce qui pourrait constituer les discours dominants, [doc
06]
• des travaux exploratoires sur les apports des théories sur le genre et la race
au domaine d’étude de la sociophonétique [doc 17], menés en partie en
collaboration avec A. Arnold [doc 05], mais également au sein du Réseau de
recherche « Genre et langage » que nous avons co-fondé, L. Greco et moi-
même, en 2009, dans le sillage de la dynamique de recherche impulsée
notamment par une journée d’études co-organisée à Paris 3, intitulée Le genre
à l'épreuve des dispositifs de pouvoir, de langage et de catégorisation sociale.
• quelques réflexions théoriques sur les enjeux idéologiques des travaux actuels
sur les accents régionaux et les accents sociaux, avec une focalisation
particulière sur le statut et la consistance de l’accent dit « de banlieue » ; j’y
défends l’intérêt de multiplier les études portant explicitement sur des
accents sociaux désignés comme tels, bien entendu sans focalisation exclusive
sur les accents socialement stigmatisés. Rendre visible ce qui est censé être
« neutre » me semble une piste prometteuse du point de vue théorique ; cela
permet de faire le lien entre différents terrains de lutte sociale contre les
discriminations, et de donner aux discriminations liées à l’accent toute la
place qui leur revient.
• quelques résultats d’un travail de plus longue haleine, qui est encore en cours,
et qui se nourrit de mes observations sur un terrain qui a duré plusieurs
années (2006-2013). Il s’agit de ma participation à l’équipe enseignante qui
animait le module de préparation à l’oral de Sciences Po des élèves inscrits en
classe de terminale dans un lycée (Seine Saint Denis) de la Convention signée
en 2001 entre Sciences Po et des établissements classés en Zone d’Education
Prioritaire. Ce travail porte sur les pratiques de prononciation de ces élèves
en trajectoire de réussite scolaire, étudiées à travers des descriptions
linguistiques [doc 11], à travers l’étude d’assignations identitaires (parfois
racialisantes, [doc 33]) en interaction, et également à travers différents types
de discours (discours des élèves, discours des enseignant·e·s, discours
recueillis dans la presse). J’entends soulever ainsi non seulement des
questions de sociolinguistique mais également des questions didactiques [doc
13] et politiques, notamment en lien avec le domaine des politiques
éducatives.

Les travaux exposés dans la partie II.2 ont alimenté, en ce qui me concerne, non
seulement des écrits scientifiques mais également des écrits de vulgarisation et des
prises de position publiques dans des cadres divers ; ceux-ci ne seront pas exposés dans
ce mémoire, mais ils revêtent une grande importance à mes yeux. Comme beaucoup de
chercheur·e·s, (Bulot 2004), je ne pense pas qu’un engagement citoyen explicite serait
incompatible avec une posture de recherche. Bien au contraire, je pense que la
44
revendication trop rapide et présentée comme allant de soi de l’absence de tout
engagement politique et citoyen de la part d’un-e chercheur-e peut souvent cacher un
engagement effectif et insuffisamment interrogé pour les statu quo de toutes sortes, y
compris les plus toxiques.
Je suis néanmoins sans illusion sur les limites de l’interventionnisme des
sociolinguistes : un discours scientifique, même radical, ne peut pas inverser un rapport
de forces social. Si les familles occitanophones cessent de transmettre l’occitan à leurs
enfants, l’occitan disparaitra. Il en est de même pour l’accent méridional, « de banlieue »,
etc. : ils se maintiendront (dans les pratiques comme dans les discours) tant qu’ils
joueront un rôle dans la construction au jour le jour de rapports sociaux.

45
Deuxième partie : Travaux en sociophonétique du français
de France
Dans cette deuxième partie je présenterai de manière plus détaillée mes travaux et
mes réflexions dans le domaine de la sociophonétique du français de France, au cœur du
projet de recherche que je défends actuellement. Mes travaux ont tendance à s’inscrire
dans une logique de studies, études des enjeux sociaux de la prononciation : je plaide
pour l’intérêt de convoquer de manière conjointe une multitude d’approches, de
théories et de méthodes sur un objet de recherche envisagé comme complexe, ou dont la
complexité se révèle grâce à la complémentarité des approches.
Dans le domaine de la sociophonétique du français, deux phénomènes ont fait
l’objet d’approches plurielles menées dans des cadres théoriques divers (par
différent·e·s chercheur·e·s, parfois dans des démarches hermétiques les unes aux
autres) : il s’agit de la liaison et de la prononciation du « e » instable (schwa). La
description du schwa entraine souvent des recherches sur l’assimilation des sons en
contact, comme conséquence de sa non-prononciation. On pourrait y rajouter
l’instabilité des liquides finales post-consonantiques, qui ont fait également l’objet de
descriptions et enquêtes depuis fort longtemps et dans divers cadres théoriques, mais
tout de même dans une moindre mesure par rapport aux deux premiers (voir Boughton
2013 pour une recherche récente dans une perspective sociolinguistique, et Pustka
2011 pour un bilan récent sur les contraintes distributionnelles en linguistique de
corpus).
La liaison a été prise comme objet de recherche dans une littérature abondante en
phonologie théorique depuis les années 60 (Shane 1967), plus récemment en
phonologie étayée par des corpus (Eychenne 2011) et elle a également été traitée en
sociolinguistique, surtout dans le style de parole publique (Encrevé 1988; Laks 2007),
en acquisition du langage (Chevrot, Chabanal, et Dugua 2007), en linguistique de corpus
(Mallet 2008; Adda-Decker et al. 2012), dans des études cognitives et
psycholinguistiques (Dautricourt 2010 ; Chevrot, Fayol, et Laks 2005) … sans compter
les ouvrages didactiques à visée orthoépique et traités de diction qui fournissent des
classifications et des recommandations sur les liaisons obligatoires, facultatives ou
interdites en permanente évolution. L’ouvrage qui a eu la plus grande influence sur mes
propres réflexions a été celui d’Encrevé 1988, qui m’a fait découvrir ce domaine ; j’y
avais beaucoup apprécié le fait de multiplier les angles de vue et de convoquer différents
champs théoriques, en particulier la phonologie et la sociolinguistique, ce qui était très
rare. Il me semble que ces démarches croisées sont devenues plus courantes les toutes
dernières années : phonologie et linguistique de corpus dans les recherches autour du
PFC, notamment menées par J. Durand et par B. Laks, cognition et sociolinguistique dans
les travaux de J.P. Chevrot et son équipe,… Ce n’est que grâce à cela qu’on peut à présent
disposer de démarches intégratives, permettant une meilleure compréhension du
phénomène dans toute sa complexité : Soum-Savaro, Coquillon, et Chevrot 2014;
Chevrot, Fayol et Laks, 2005.; Durand et al. 2011.
La situation est à peu près équivalente pour le schwa, ou e caduc / e instable : de
nombreuses mentions dans les traités de prononciation, notamment pour la métrique
des vers, un intérêt constant en phonologie (Tranel 1987), des travaux récents en
phonologie de corpus (Eychenne 2014), nombreuses recherches en linguistique de
corpus (Hansen 1994; Walter 1990) avec souvent des visées didactiques (Detey et al.

46
2010; Detey et Racine 2012), des recherches en sociolinguistique (Peretz 1977; Hansen
2000)… Néanmoins, il me semble que les approches croisées intégratives sont pour le
moment moins abouties que pour la liaison, malgré les avancées de Lacheret, Lyche, et
Tchobanov 2011 en ce sens.
Selon Eychenne 2011 la liaison, le ‘e caduc’ et le ‘h aspiré’ constituent les «trois
problèmes fondamentaux de la phonologie du français ». Contrairement aux deux
premiers, le ‘h aspiré’ en tant que phénomène autonome a fait couler beaucoup moins
d’encre, sauf erreur de ma part, dans le domaine de la sociolinguistique et de
l’acquisition du langage.
Les trois phénomènes évoqués plus haut (liaison, ‘e caduc’, liquides finales post-
occlusives) jouissent d’une très grande notoriété, non seulement dans les milieux
académiques mais également en dehors, ce qui fait qu’ils disposent de notations assez
stables et reconnaissables à l’écrit par le public large.
Les consonnes de liaison peuvent être notées, surtout lorsqu’il s’agit de pointer des
liaisons erronées :
Un pataquès, ça sonne comme le nom d’un
petit rongeur qui vivrait en Amérique du
Sud… … mais en fait, non ! (et c’est très
étonnant si vous voulez mon avis)

En fait, un pataquès est, à l’origine, une


faute de français consistant à faire des
liaisons mal-t-à propos. Vous trouvez ça
moche? Moi-z-aussi. Mais que vous le
vouliez ou non, quand vous prenez
quelqu’un entre quatre-z-yeux, par
exemple, vous êtes l’auteur d’un
regrettable pataquès!
Source : http://www.etaletaculture.fr/culture-generale/tout-savoir-sur-le-pataques/, consulté
en juillet 2016.

Petit, petite sont souvent noté « p’tit, p’tite » ; les assimilations de sons en contact
dues à la non prononciation sont très souvent notées dans les bandes dessinées, ou dans
les écrits informels « chte jure » :

Source : Tweet posté le 18 mai 2016

47
Et il en est de même avec la non-prononciation des liquides en finale post-
occlusive, qu’on retrouve dans des écrits littéraires « L’Opéra de quat’ sous », traduction
officielle du titre de B. Brecht, comme dans des écrits tout venants :

Par contre, je me demandais s'il était possible d'avoir une espèce de logo signifiant que
la new parle de comic plutôt qu'une image du comic en lui même. J'ai l'impression
bizarre de spoil sinon (ça peut paraitre assez débile mais je m'étais déjà fait cette
réflexion lors du premier, du coup, ptet que je suis pas le seul).
Source : post de forum consacré à un jeu vidéo, posté en 2014, sur
http://loltracker.com/articles/bd-quand-un-champion-fait-une-reclamation

Contrairement à ces phénomènes de prononciation, ceux que j’expose ci-dessous


ont attiré l’attention des chercheurs depuis bien moins longtemps ; ils ont surtout été
signalés par Fonagy au début des années 90. Leur notoriété est faible, voire nulle ; ils
échappent assez largement à la conscience des locuteurs et locutrices, à quelques
exceptions près, auxquelles il conviendra de prêter une grande attention car il pourrait
s’agir de signaux précurseurs ; ils ont fait l’objet de moins d’investigations pour le
moment, et ils ne disposent pas de notation graphique codifiée et stabilisée. Le premier
peut être lié à la grille de lecture des changements phonétiques (II.1.2,
palatalisation/affrication) ; les deux autres échappent à cette grille et ont un statut qui
demande à être inventé, entre la phonétique et le lexique (II.1.3 et II.1.4, épithèses
vocalique et consonantique).

48
II.1 Micro-phénomènes de la prononciation éclairés par des
méthodes mixtes de recherche

II.1.1. Mener des recherches sur l’hétérogénéité socialement


organisée des prononciations

Bien que la variation, même régulière, ne soit pas toujours liée à un changement en
cours, ces deux objets de recherche se trouvent souvent traités ensemble. En
sociolinguistique « variation et changement » (variation and change) forment presque
une expression figée, qui se retrouve dans le titre de manuels, colloques et même dans le
titre d’une revue (en anglais). L’explication est à chercher probablement d’une part dans
le fait que l’hypothèse la plus largement partagée est celle qu’il ne peut y avoir de
changement sans une variation synchronique préalable (Ohala 1989; Labov 2011) et
d’autre part dans le fait que la variation en soi, ou la variabilité de façon plus large, n’a
pas autant intéressé les (socio)linguistes si elle n’était pas liée à un changement possible,
ou au moins à une dynamique supposée évolutive.
Les théories sur les changements linguistiques (notamment phonétiques) sont
aussi anciennes que la linguistique. Les premiers modèles se sont fondés sur des
observations en diachronie et ont donné, par exemple, les méthodes de reconstruction
historique des langues anciennes, les modèles structuralistes dans lesquels la
phonétique était subordonnée à la phonologie et selon lesquels le système dans son
ensemble était censé évoluer vers un équilibre optimal, etc. Depuis l’âge d’or du
structuralisme, les modèles concurrents se sont multipliés et les méthodes
d’investigation en phonétique se sont extrêmement diversifiées, notamment en raison
des perfectionnements des techniques de recueil de corpus (appareils d’enregistrement
de plus en plus facilement transportables, peu onéreux, etc.), de l’augmentation
extraordinaire des capacités de stockage, y compris sur les ordinateurs personnels des
universitaires individuels, et, non en dernier lieu, en raison de l’évolution de
l’informatique : rapidité croissante avec laquelle nous pouvons investiguer une base de
données alignées son-texte, essor des technologies vocales, accessibilité et partage
facilité de données numériques en ligne, etc.. Il est devenu pratiquement impossible de
prendre connaissance de la totalité des publications qui traitent des changements
linguistiques, ne serait-ce que dans une seule langue s’il s’agit de langues abondamment
décrites comme le français, l’anglais ou l’espagnol. Il est pratiquement impossible de
prendre connaissance de l’ensemble des théories et de se familiariser avec l’ensemble
des méthodes d’enquête pour pouvoir sélectionner la plus pertinente en fonction de ses
hypothèses de départ…
Et c’est d’autant plus difficile d’envisager cette maitrise de tout un domaine si on
souhaite continuer à faire progresser les connaissances sur des phénomènes phares de
la prononciation d’une langue, comme la liaison ou le ‘e caduc’ en français, mentionnés
plus haut ; pour cela, il n’est plus guère envisageable, à mon avis, d’innover autrement
qu’en menant des recherches en équipe, comme c’est désormais le cas dans de
nombreux autres domaines scientifiques.
Quoi qu’il en soit, il est indispensable de rassembler au maximum les différents
points de vue avant de monter un protocole de recherche.
49
Ohala 1989 proposait un point d’étape intéressant, en mettant en avant une
sélection de nombreux exemples de changements avérés dans différentes langues pour
plaider le fait qu’il n’y a pas de téléologie démontrable a priori dans la logique des
changements : certains améliorent l’efficacité du système, d’autres insèrent de la
confusion ; certains se produisent dans un sens, d’autres en sens inverse ; avec parfois
des retours en arrière selon les époques… La complexité des faits observés le conduit à
nier la possibilité même de concevoir un modèle explicatif, capable de rendre compte de
causes de changements phonétiques qui seraient universelles. Il propose un parallèle
avec les études médicales sur les causes des infarctus ou arrêts cardiaques, à ceci près
que les changements linguistiques n’ont pas besoin de politique de prévention : en
essayant de remonter à la source d’un arrêt cardiaque, on doit prendre en ligne de
compte toute la vie d’un individu, et donc il devient impossible d’isoler clairement le
poids des facteurs, autrement que par quelques observations de type probabilistique. Il
en serait de même pour les causes des changements linguistiques : une infinité de
facteurs inépuisables et impossible à modéliser. Sans citer le moindre travail en
sociolinguistique sur les mécanismes sociaux possibles de diffusion des changements
phonétiques, Ohala préconise de restreindre l’étude de ces changements à ceux qui ont
été rapportés dans plusieurs langues et qui sont donc susceptibles d’avoir des causes
articulatoires, reproductibles en expérimentation perceptive (confusion ou
discrimination de sons proches, Ohala et Shriberg 1990; Ohala 1993). Ohala remet en
tout cas en question toute téléologie a priori des changements phonétiques : si les bases
articulatoires entrent en ligne de compte, rien ne permet de prouver que les systèmes
changeraient pour s’améliorer en quoi que ce soit.
En dehors des bases articulatoires, d’autres facteurs ont été avancés pour décrire
et mieux comprendre les mécanismes des changements phonétiques, en particulier les
facteurs sociaux et les facteurs cognitifs.
Les premiers ont été décrits abondamment par des sociolinguistes partis
justement du constat que les bases articulatoires n’expliquaient en rien les dynamiques
observées, en particulier en matière de diffusion et de transmission des changements :
Labov 1963; Labov 1983; Chambers, Trudgill, et Schilling-Estes 2003… De nombreuses
études de cas ont été menés dans ce courant de recherche, aboutissant à des conclusions
parfois divergentes : transmission aléatoire et imprédictible entre parents et enfants ou
entre pairs ( Thomas 1996), ou bien forte cohérence dans les groupes de pairs, selon une
logique locale que seule l’observation au long cours sur le terrain permet de mettre en
évidence (Eckert 1996; Eckert 2000; Eckert et McConnell-Ginet 2007; Mendoza-Denton
2008; Mendoza-Denton 1999)...
Quant aux facteurs cognitifs, ceux-ci ont surtout été étudiés pour mettre en avant
le rôle de la perception : capacité à discriminer les variantes à l’écoute, capacité à
catégoriser les locuteurs à partir de leurs pratiques de prononciation, capacité à
reproduire ou imiter une variante en lien avec sa perceptibilité, rôle de la saillance dans
le traitement des chaines sonores entendues, rôle de l’orthographe et de son prestige
(Chevrot 1994; Ohala 1996; Baugh 1996; Preston 1999; Thomas 2002; Kerswill et
Williams 2002; Campbell-Kibler 2007; Campbell-Kibler 2009; Boughton 2006; Kuiper
2005; Kendall et Fridland 2012; Pinget 2015).... Mais également pour mettre en évidence
les nombreux biais des protocoles expérimentaux, par des techniques variées
d’amorçage et autres manipulations des représentations et idéologies mobilisées dès
lors que les gens sont sollicités pour produire des évaluations de la parole d’autrui (Gill
1991; Niedzielski 1999; Menezes et al. 2007; Hay, Warren, et Drager 2006; Hay et
Drager 2010).
50
L’accumulation de données sur les adultes a permis d’affiner les hypothèses sur
l’acquisition de la variation sociolinguistique par les enfants et d’ouvrir un champ
nouveau, très récent, de recherche : Chevrot, Chabanal, et Dugua 2007; Labov 2013;
Chevrot et Foulkes 2013; Nardy, Chevrot, et Barbu 2013.
L’ouvrage de Labov 2011 constitue une synthèse sur les facteurs sociaux,
phonétiques et cognitifs des changements collectifs de la prononciation, en s’appuyant
sur des exemples venus principalement de l’anglais américain. Face à la diversité des
mécanismes décrits ici ou là, sur différents sons, il propose de distinguer les
changements entre eux et de renoncer à rechercher un mécanisme unique ou à une
cohérence absolue et générale, que ce soit à l’échelle d’un groupe humain ou à l’échelle
individuelle. Certains changements sont massifs et touchent des territoires très vastes,
comme le vocalic shift en anglais américain, d’autres obéissent à des dynamiques plus
locales, voire individuelles…
Ce que Labov ne semble pas (encore ?) prendre en compte, ce sont les hypothèses
sur le symbolisme intrinsèque des sons, lié à la corporalité de sa production par les
humains et à la tendance des humains à partager des métaphores corporelles, purement
langagières ou mimico-gestuelles. Ces hypothèses vont dans deux directions différentes :
celles d’une base collective humaine, universelle, « pulsionnelle » (Fónagy 1983; Ohala
1994) et celles qui recherchent des sens plus locaux, situés et négociables, à l’intérieur
de champs indexicaux fluides (Eckert 2008; Eckert 2010; Sicoli 2010; Bucholtz 2011;
Mendoza-Denton 2011)…
Il me semble que, face à la complexité des questions soulevées par des méthodes
différentes aux postulats différents, il est devenu contre-productif de prendre appui sur
une seule tradition de recherche et de balayer les méthodes différentes et les postulats
divergents par une formule convenue. A titre d’exemple à ce propos, on peut se pencher
sur les implications et les fragilités d’une phrase comme celle-ci, relevée dans un article
par ailleurs très intéressant :

« The sociolinguistic literature pays a lot of attention to the social meaning of linguistic
features (including prosodic features) found in the French working-class suburbs, but their
phonetic grounding is often fragile11. »Boula de Mareüil et Lehka-Lemarchand, 2011

Ce type de phrase peut être considéré comme contre-productif pour deux raisons.
La première, la plus importante à mes yeux, c’est qu’elle présente de manière
inversée le parcours de construction de l’hypothèse, en sous-entendant que l’analyse
phonétique serait le point de départ et non la démarche de vérification d’une hypothèse
sociolinguistique issue du terrain. Comme s’il était question d’accorder de l’attention, a
priori, à toutes les linguistic features possibles et ensuite de voir quelles sont celles qui
ont un sens social. Ce type de phrase me semble masquer le fait que toute étude
contrôlée et expérimentale pour mettre à l’épreuve une hypothèse est précédée par au
moins une étude – sinon une multitude d’études – qualitative(s), fondée(s) sur des
données de terrain et sur l’intuition des analystes. Les hypothèses à tester ne sont jamais
arbitraires, et à ma connaissance aucun chercheur quantitativiste ne procède à des
expérimentations purement aléatoires pour mettre à l’épreuve toutes les hypothèses
envisageables, même les plus improbables (comme il devrait le faire s’il suivait une
logique purement mathématique). Si on ne met pas en place un test sur le facteur

11 La mise en gras relève de mon choix.


51
« météo » pour vérifier si le temps pluvieux lors de l’enregistrement de phrases lues
favorise ou non la production d’un accent « de banlieue » plus marqué que si les phrases
sont lues par temps ensoleillé, ce n’est pas seulement parce qu’on fait l’hypothèse que le
résultat du test sera négatif12. Si personne n’envisage un tel test, c’est surtout parce que
cette hypothèse n’émerge d’aucun terrain, ne repose sur aucune tradition de recherche,
n’est corroborée par aucune intuition, aussi fragile soit-elle, de qui que ce soit. A partir
de là, même si le résultat du test était statistiquement positif et mettait en avant la
possibilité d’une influence du facteur météo sur le degré d’accent produit, le résultat
serait interprété comme une spurious correlation13, comme un artéfact, car, sans l’appui
d’une théorie, un résultat purement mathématique n’a aucun intérêt. Autrement dit, en
l’occurrence, l’étude précise et ciblée de Boula de Mareüil et Lehka-Lemarchand 2011
n’aurait pas pu exister sans le préalable indispensable de la thèse de Lehka-Lemarchand
2007 qui a pu, à la suite d’une observation de terrain au long cours, forger l’hypothèse
d’un contour prosodique particulier, suffisamment fréquent pour pouvoir
éventuellement servir de marqueur d’accent social, et suffisamment sporadique pour
mériter de faire l’objet de plusieurs hypothèses concurrentes (sociale versus stylistique).
Par conséquent, en l’occurrence, l’ordre le plus vraisemblable des études à mener est
bien celui-ci : observation de terrain, ensuite différentes études pour vérifier les
hypothèses forgées. Ce débat sur la saillance du contour étudiée n’est du reste pas
encore clos, et chaque étude, quelle que soit sa méthodologie, apporte une pièce au
puzzle (cf ci-dessous).
La deuxième raison de contester ce type de formule provient du fait qu’elle sous-
entend que les bases d’une étude perceptive avec des extraits courts, naturels et
artificiels, décontextualisés, aurait des bases moins « fragiles » qu’une étude
sociolinguistique de terrain. Or, cela n’est pas démontré, et la mise en concurrence des
méthodes me semble moins productive que leur utilisation en complémentarité.
L’article cité se propose de comparer la perception de brefs extraits de parole
naturelle contenant un contour prosodique montant-descendant très rapide susceptible
d’indexer un « accent de banlieue » avec des extraits artificiels obtenus par resynthèse,
après une manipulation de la courbe prosodique. Ainsi, la perception des extraits
originaux marqués par ce contour est comparée avec leur exact équivalent manipulé,
avec une courbe amoindrie, et vice-versa (la perception des extraits originaux non-
marqués par ce contour, comparée avec leur exact équivalent manipulé, qui permet
d’exagérer artificiellement le contour). Le résultat montre que la manipulation semble
fonctionner dans les deux cas : la prosodie manipulée est corrélée avec une légère
diminution ou augmentation du « score » global sur l’échelle de 0 à 5 de l’accent de
banlieue associé à chaque extrait.
Mais de nombreux aspects restent totalement non questionnés. Premièrement, les
scores moyens obtenus sur l’échelle de l’accent oscillent entre 2.14 (extraits non-
marqué originaux) et 2.71 (extraits marqué originaux) alors que le point d’indécision
absolu de l’échelle (le centre, point de départ du curseur que les gens devaient déplacer)
se situe à 2.5. Autrement dit, les sujets ont très légèrement déplacé le curseur vers le

12 Ceci n’est à mon avis absolument pas garanti, compte tenu de la diversité des biais possibles.
13 De nombreux exemples réels et mathématiquement parfaits de « spurious correlations » sur le
site de Tyler Vigen http://www.tylervigen.com/spurious-correlations, qui commence par le graphique de
la corrélation de 99,79% , pour la période 1999-2009, entre les dépenses publiques nord-américaines
pour la science, l’espace et les technologies et le nombre de suicides par pendaison, strangulation ou
suffocation aux USA.
52
plus d’accent ou vers le moins d’accent, mais les moyennes restent globalement très
proches du point de non décision, ce qui incite à penser que les juges n’ont globalement
pas émis de jugements bien tranchés14. Deuxièmement, les scores moyens obtenus ne
permettent pas de distinguer de manière significative les énoncés manipulés marqués
de ceux manipulés non-marqués (2.42 vs 2.45). Le fait que les énoncés manipulés ont
surtout suscité de la perplexité peut donc questionner la pertinence du recours à des
énoncés non-naturels pour vérifier la perception des énoncés naturels. Enfin, si on se
penche sur le protocole lui-même, on peut se demander quel a été le poids de l’amorçage
utilisé : les auditeurs et auditrices sont explicitement invités à évaluer la présence /
absence d’un « accent de banlieue » et on leur fait écouter des extraits exclusivement
produits par de jeunes garçons, plus proches des stéréotypes de la « banlieue » et du
« parler urbain » que les filles, selon de nombreuses études, notamment, en
sociolinguistique, Moïse 2003; Billiez et Lambert 2008. Ce protocole active donc des
stéréotypes et ne laisse aucune place à une interprétation différente des contours
marqués. Or, c’est exactement ce que Paternostro 2016 suggère comme hypothèse
contradictoire à prendre en compte, lorsqu’il choisit de demander aux gens de
catégoriser non pas « accent de banlieue / pas d’accent de banlieue » mais plutôt « accent
de banlieue » / « parole emphatique », dans la mesure où le contour intonatif ciblé
partage les traits du contour emphatique sans connotation sociale particulière ; et son
expérimentation montre, justement, que les gens ont beaucoup de difficultés à
distinguer les deux, dans une expérience décontextualisée.
Les critiques que je viens de formuler ne remettent en question ni l’apport de
l’article cité supra ni, en général, l’apport des tests quantifiant la perception, focalisés sur
un trait unique et ayant la prétention de contrôler au maximum les facteurs de biais. Mes
critiques remettent simplement en question la prétention que de telles études
apporteraient des résultats reposant sur une base « moins fragile » que celle des
recherches qualitatives en sociolinguistique, prétention qui semble impliquer une
absence de reconnaissance du caractère indispensable de la complémentarité des
démarches.
Or, dans toutes les traditions de recherche, dans toutes les méthodes de collecte ou
construction de données, il y a des points forts et des fragilités. Il semble dès lors plus
intéressant de les mettre en regard pour bénéficier de différents éclairages. En écartant
tout un modèle ou toute une théorie à cause d’un point de fragilité, on se prive
également de ses points forts. Selon moi, nous avons tout à gagner si nous
approfondissons les contacts interdisciplinaires et si nous confrontons des points de vue
qui semblent éloignés les uns des autres, et non seulement des points de vue qui
semblent partager une base commune maximale.
C’est ce que je vais essayer de montrer en application sur différents corpus de
français de France :
- d’abord sur l’affrication des /t,d/ - qui a déjà donné lieu à un nombre
suffisamment important de publications et au sujet de laquelle j’ai eu la chance de
pouvoir travailler en collaboration, ce qui permet d’avancer plus facilement et favorise la
confrontation des points de vue.

14 L’article a un format court et ne précise pas les valeurs de l’écart-type et donc nous ne pouvons

pas connaitre la dispersion des réponses à partir des moyennes. J’ai fait l’hypothèse que la dispersion
n’était pas très forte ; dans le cas contraire, si les moyennes correspondent à des réponses très dispersées,
il est encore plus difficile de leur donner un sens.

53
- ensuite sur les épithèses fricatives et vocaliques, qui ont donné lieu à moins de
publications, globalement, et sur lesquelles le chantier est encore grand ouvert.

Dans cette partie je présente à la fois des résultats qui ont déjà fait l’objet de
publications ainsi que des hypothèses ou des résultats inédits.

II.1.2 L’exemple de la palatalisation/affrication des occlusives


dentales

J’ai rencontré tout d’abord le phénomène de palatalisation/affrication de /d,t/ sur


mon terrain effectué dans un module de préparation à Sciences Po, au sein d’un lycée
classé en ZEP (Zone d’Education Prioritaire), en Seine Saint-Denis. Ce phénomène a
attiré mon attention en écoutant des lycéennes et lycéens discuter entre eux, et je lui ai
consacré plusieurs études notamment en collaboration avec C. Trimaille et I. Lehka.
C’est grâce aux travaux de Jamin, Trimaille et Gasquet-Cyrus (Jamin 2005; Jamin,
Trimaille, et Gasquet-Cyrus 2006) que j’ai pris connaissance de la possible stabilisation
de la prononciation palatale (fortement affriquée) des occlusives alvéo-dentales /t/ et
/d/ produites immédiatement avant un /i,j/ ou un /y,ɥ/, pour le moins chez des
locuteurs et locutrices jeunes et urbain·e·s.
La palatalisation appelée souvent « prononciation mouillée » est un mécanisme
connu depuis longtemps en phonétique historique, et il a déjà été décrit en français, à la
fois pour rendre compte du passage de [k] en latin à [ʃ] en français (comme dans cabalus
qui a donné cheval en passant probablement par un [tʃ] intermédiaire) et pour rendre
compte de certaines prononciations stables mais considérées comme populaires,
notamment au 19e et au 20e siècle. La plupart des descriptions anciennes concernaient la
palatalisation des occlusives vélaires /k/ et /g/ ou la vélarisation des occlusives alvéo-
dentales /t/ et /d/. Les variantes casquette, kyaskyette, tyastyette ou tchiastchiette sont
rapportées par (P. Léon 1993), par exemple, dans les pratiques de prononciations
populaires à Paris ; ou quiens est rapporté comme variante de « tiens ». De même,
morquier est rapporté comme variante de « mortier », Guieu comme variante de « Dieu »
par (Lodge 2004). Le phénomène est bien plus ancien, et vraisemblablement
emblématique des prononciations populaires depuis fort longtemps : on trouve des
transcriptions similaires, Mercy-Guieu, etc., dans des vers burlesques au 17ème siècle
(Berthod 1657), dans des chansons populaires à la fin du 19e (Rictus 1914)… Les
palatalisations (« mouillage ») des consonnes vélaires, généralement au contact avec les
glides, courantes par ailleurs dans l’histoire des langues romanes et emblématiques à
certaines époques en français, ne sont plus rapportées par les études sur le français
actuel, pour le moins européen. Cela m’incite à penser qu’elles ont à peu près disparu
des pratiques, ou, en tout cas, fortement régressé.
En revanche, on relève de la palatalisation des occlusives alvéo-dentales /t,d/ de
manière massive et stabilisée en français actuel du Québec (assibilation devant /i,y/) et,
de manière moins massive, en français de France (affrication devant /i,y/).

54
Définition et hypothèses

Lorsqu’on parle de palatalisation des occlusives dentales, on fait référence de


manière générale à tout déplacement du point de contact du dos de la langue vers
l’intérieur du palais, de l’avant jusqu’au voile du palais; ce déplacement peut
s’accompagner d’un allongement de la durée du contact entre la langue et le point
d’articulation et d’une détente progressive avec friction. Dans certaines langues, ces
déplacements du point d’articulation sont fortement limités par le système
phonologique dans les langues qui utilisent de nombreuses paires minimales opposant
/t/, /ts/ et /tʃ/ par exemple, la confusion articulatoire entre les trois positions sera
évitée, soit par inhibition des déplacements, soit par des déplacements en chaine. Dans
le cas du système phonologique du français de telles oppositions n’existent pas et ces
prononciations sont des variantes libres dont les locuteurs sont peu conscients. En
outre, les paires minimales opposant les sourdes /ti/ à /ki/ ou les sonores /di/ à /gi/
sont peu nombreuses (et encore moins nombreuses les oppositions devant glides / tj/ à
/kj/ ou /dj/ à /gj/ : y en a-t-il ?), ce qui fait que le système permet facilement des
déplacements du lieu d’articulation aboutissant même, on l’a vu, à la vélarisation des
occlusives dentales. Bien entendu, ces variantes peuvent être associées à des
connotations partagées au sein d’une communauté à un moment donné, et peuvent
indexer par exemple une prononciation affectueuse, enfantine, populaire, régionale, etc.
Les images suivantes montrent la différence entre les spectrogrammes du mot
‘nature’ prononcé avec occlusive alvéodentale ou avec occlusive affriquée. On peut
remarquer que le [tʃ] affriqué est plus long que la voyelle accentuée du mot (la voyelle
[y])

55
Figure 1: spectrogrammes de la prononciation de /t/ dans /lanatyR/: affriquée
palatale (en haut, Corpus Trimaille) et alvéo-dentale (en bas, Corpus Candea).

Il ne s’agit donc pas de vélarisation : le déplacement du point d’articulation n’est


pas aussi grand. Il s’agit d’un recul du point d’articulation, des alvéoles vers le palais, et
d’une détente progressive qui fait que la langue reste collée au palais plus longtemps
que dans l’occlusive « non mouillée ». De ce fait, il s’agit d’un phénomène scalaire : la
consonne peut être prononcée de manière plus ou moins longue, avec une légère
palatalisation, un déplacement vers le palais, suivie d’un temps plus ou moins long de
contact avant le décollement progressif de la langue.
Cette prononciation avait déjà été repérée comme phénomène de mode, pas
particulièrement connoté socialement, par Fonagy dans son inventaire de 1989, republié
presque à l’identique en 2006, (Fonagy 1989; Fónagy 2006), sur ce qu’il a appelé le
« changement de visage » du français. Pour démontrer la solidité de son intuition,
Fonagy n’a pas eu recours à une analyse acoustique mais à une analyse perceptive
astucieuse : il a sollicité des hungarophones n’ayant aucune connaissance du français
(l’opposition occlusive alvéo-dentale, occlusive palatale, affriqué /t-tj-tʃ/ et /d-dj-dƷ/
étant phonologique en hongrois) pour noter les sons entendus, et il a montré que ceux-ci
percevaient les palatalisations et affrications des prononciations d’énoncés isolés (lus)
par différents francophones. Fonagy a été le premier, à ma connaissance, à faire
l’hypothèse qu’il s’agirait d’un changement phonétique en cours, hypothèse qui mérite
d’être vérifiée aujourd’hui, 25 ans après.
Pour étayer son affirmation ‘le français change de visage’ Fonagy 1989 donnait des
exemples entendus dans les médias et parmi les gens de son entourage parisien, qu’il
notait à la volée. Il ne parlait pas de l’ensemble d’une infinie variabilité des
prononciations du français à travers les pays, les régions, les classes sociales et les âges,
n’affichait aucune ambition de représentativité de ses exemples, mais se référait à ce qui
lui semblait être la prononciation admise comme courante dans les médias et parmi les
classes moyennes dans la moitié nord de la France. On peut imaginer que lorsqu’il
affirmait qu’un phénomène était de plus en plus fréquent au point de le proposer comme
candidat du ‘changement de visage’, il voulait dire par là que le phénomène n’était pas,
ou n’était plus, couramment catégorisé comme un trait saillant caractéristique d’une
façon bien reconnaissable de prononcer (régionale, rurale, snob, populaire, etc.). Les
pratiques de prononciation du français auxquelles il s’intéressait se situaient à l’avant-

56
garde du français dominant, au pôle opposé de celui qui captivait traditionnellement
l’attention des dialectologues, les fameux NORMS, non-mobile old rural male speakers, de
Chambers et Trudgill 1980. Il n’est pas aisé de trouver comment on peut mener une
enquête quantitative pour confronter les résultats actuels avec les hypothèses de
Fonagy, mais il me semble qu’une enquête sur le style de prononciation dans les médias
pourrait être pertinente [cf. ci-dessous].
De nombreux indices convergent pour étayer l’hypothèse de Fonagy (1989),
hypothèse également défendue par Armstrong et Pooley 2010 qui pensent que la
tendance à la palatalisation forte des occlusives dentales devant /i,y/ pourrait être en
fait le seul candidat au statut de changement phonétique en cours dans le domaine
consonantique, en français européen15. Les résultats de Trimaille 2008 sur des données
médiatisées vont dans ce sens, car il montre que des occurrences de prononciation
fortement palatalisée voire affriquée sont observables dans la parole de certains
ministres du gouvernement français formé par Fillon en 2007, y compris en style formel,
lorsque la parole est adressée à un large public.
Evoquer, à ce propos de ce trait, la situation en français du Canada est intéressant.
En effet, au Québec il semble qu’il y ait eu une convergence pan-sociale car les variantes
affriqué es /ts, dz, d̥ s/ dans les mêmes contextes qu’en français de France, à savoir
devant /i,j,y,ɥ/ sont attestées chez les locuteurs et locutrices de toutes classes sociales et
tous âges, dans des contextes formels et informels, à des taux globalement compris entre
50 et 85% notamment pour les dentales sourdes ; une étude de Bento 1998 met en
avant une corrélation positive des taux d’affrication avec la ville, le genre et l’âge (à
Chicoutimi, dans l’échantillon étudié, les enfants et les hommes affriquent plus souvent
que les femmes, mais à Québec tout le monde, femmes, hommes et enfants, affrique
globalement plus souvent qu’à Chicoutimi). Ces hypothèses parallèles sur les pratiques
de prononciation en français du Canada peuvent se retrouver en convergence avec
l’hypothèse d’une évolution similaire en France.
Mais d’autres études mettent en avant une tout autre hypothèse, à commencer par
la thèse de Jamin 2005 dont les conclusions sont résumées ainsi par Vernet et Trimaille :

Par son enquête variationniste menée en région parisienne (La Courneuve, Fontenay-sous-
Bois), Jamin a montré que les plosives dentales et vélaires pouvaient être palatalisées et/ou
affriquées et que ce phénomène était en co-variation avec plusieurs critères sociaux. Ainsi, les
variables indépendantes âge, sexe, origine ethnique et insertion à la culture des rues
apparaissent-elles déterminantes: les 15-25 ans palatalisent plus que les 30-50 ans, les
garçons palatalisent plus que les filles, les descendants d’immigrés (surtout nord-africains)
palatalisent plus que les locuteurs d’origine “métropolitaine”, et, enfin, la palatalisation
augmente significativement avec le degré d’insertion à ce que Lepoutre a nommé, à la suite
de Labov, la culture des rues. (Vernet et Trimaille 2007)

Contrairement à Jamin 2005, l’étude de Vernet et Trimaile 2007 trouve que les
taux d’affrication produits par des lycéennes sont sensibles à la variation stylistique, car
ils sont largement supérieurs en discussion entre pairs qu’en situation d’interaction avec
un enseignant. Cette étude publie les résultats d’une démarche ethnographique, menée
par Marie Vernet dans un lycée professionnel de Grenoble, à travers une grille
variationniste. L’hypothèse sur l’indexation ethnique formulée par Jamin semble

15A ma connaissance nous ne disposons pas d’études précises sur ce point pour les pratiques de
prononciation en Belgique et en Suisse.
57
corroborée par les résultats de cette enquête : les lycéennes qui déclarent une « origine
maghrébine » produisent des taux d’affrication en moyenne plus élevés que les
lycéennes qui ne déclarent pas d’origine étrangère (pouvant dépasser les 80% en
interaction entre pairs), même si cette conclusion demande à être nuancée par le fait
que les locutrices qui se présentent comme d’origine maghrébine sont aussi – dans cette
étude – les plus insérées dans le groupe, les plus « ouvertes » à la communication, les
plus éloignées de la culture scolaire et les plus proches de la « culture des rues », ce qui
pourrait neutraliser tout effet de l’origine.
Autrement dit, si l’on rassemble les observations de Jamin en région parisienne, de
Trimaille à Grenoble et de Jamin, Trimaille, et Gasquet-Cyrus 2006 dans les quartiers
Nord de Marseille, on peut mettre en avant – comme le fait la dernière étude citée –
l’hypothèse d’une convergence supralocale des prononciations vernaculaires dont la
palatalisation/affrication des occlusives alvéo-dentales serait un indice. Selon cette grille
de lecture, il ne s’agirait plus d’un changement en cours en passe de se diffuser à travers
les différents groupes sociaux en français de France, mais plutôt d’un marqueur
sociolinguistique en émergence qui indexerait le vernaculaire des jeunes urbains issus
de l’immigration post-coloniale insérés dans la culture des rues.
Face à ces deux hypothèses contradictoires (changement trans-classes en cours
versus marqueur sociolinguistique émergent) Devilla et Trimaille 2010 ont imaginé une
lecture intégrative possible. Ils ont avancé l’hypothèse de l’achèvement d’une première
étape de convergence supralocale des prononciations vernaculaires suivie d’un début de
convergence pan-sociale, pouvant correspondre à un changement phonétique en cours
comme l’avait prédit Fonagy, malgré une différence de vitesse du changement selon les
groupes sociaux. Néanmoins, des zones d’ombre subsistent (Trimaille 2010) et il a
semblé nécessaire de diversifier les méthodes d’observation et d’enquête.

Production : méthodes d’enquête et résultats

J’ai tâché d’aborder l’étude de la production des variantes de /t, d/, à la fois dans
une perspective clairement quantitative, à l’intérieur de grandes bases de données à
l’aide d’outils de fouille semi-automatique [doc 03, 18] et dans des échantillons de
corpus situés et analysés en détail [doc 33].

Approche quantitative
Grâce à la collaboration de Martine Adda-Decker (LPP) et de Lori Lamel (LIMSI),
j’ai pu envisager une étude qui utilise les outils de la linguistique de corpus appliqués à
un grand corpus issus des médias et qui détourne les outils d’alignement automatique
pour cibler un marqueur sociolinguistique.
Si l’affrication de /t,d/ se trouve impliquée dans un processus de stéréotypisation
elle pourra devenir petit à petit, pour les locuteurs du français de France qui se sentent
légitimes et qui sont perçus comme légitimes, un indice d’appartenance aux classes
populaires issues de l’immigration post-coloniale. Dans ce scénario la diffusion du
changement qui semble actuellement en cours est susceptible d’être inhibée (les
locuteurs légitimes vont avoir tendance à éviter cette prononciation). Ces processus
peuvent montrer des dynamiques assez rapides, car, comme le rappelle Campbell-Kibler
2009 ‘social meaning is highly flexible’.
Il m’a paru intéressant de tenter de procéder à un sondage purement quantitatif
sur une période dépassant une dizaine d’années (1998-2010), en ciblant les médias
dominants, et plus particulièrement les émissions d’informations, les plus susceptibles
58
de fournir un échantillon reconnu comme « français de référence ». Le corpus auquel j’ai
eu accès était constitué d’émissions provenant de la campagne d’évaluation des
systèmes de reconnaissance automatique ESTER16 (voir Gravier et al. 2004 pour une
présentation) à savoir 20 heures pour 1998 et 65 heures pour 2000-2003. Le reste
provient des archives du laboratoire LIMSI, à savoir 200 heures pour 200717 et 32
heures pour 201018. Les transcriptions de référence ont été réalisées par des
annotateurs humains, bénéficiant de plusieurs relectures.
Je peux m’appuyer sur au moins deux études précédentes pour défendre l’intérêt
de travailler sur un tel corpus naturel, non sollicité par des chercheurs dans une
démarche expérimentale. D’un côté, l’enquête sur les représentations normatives menée
par Castellotti et Robillard 2003 auprès d’un groupe d’une centaine d’étudiant·e·s en
lettres a montré que les personnes interrogées mobilisaient des critères plus exigeants
pour accepter ou rejeter un locuteur lorsqu’elles l’imaginaient comme présentateur de
journal radiophonique que lorsqu’elles l’imaginaient comme enseignant devant une
classe. Leurs hypothèses vont dans le sens d’une pression normative particulièrement
forte sur les journalistes présentateurs de journaux radiophoniques et télévisuels, ce qui
en fait des locuteurs modèles (iconic speakers au sens de Eckert 2000) capables, par leur
position symbolique centrale, d’incarner le français de référence et du coup de le faire
évoluer. D’un autre côté, j’ai pu m’appuyer sur les résultats de l’enquête quantitative de
Torreira, Adda-Decker, et Ernestus 2010 qui a comparé selon différents critères les
données médiatiques issues de la campagne ESTER, que j’ai utilisées, avec des données
du corpus de casual parisian French NCCFr, constitué de conversations entre
étudiant·e·s ami·e·s. Cette enquête a montré que les indicateurs de « casualness » étaient
clairement plus fréquents dans le corpus NCCFr que dans le corpus médiatique de la
campagne ESTER. Cela conforte l’idée que les données issues des émissions
d’information relèvent globalement du pôle formel du français de référence, et
représentent une sorte de compromis entre la norme prescriptive et conservatrice en
français (le français académique très formel ou littéraire) et les usages communs (norme
au sens statistique).
Ce type de données est habituellement utilisé en linguistique de corpus mais pas
en sociolinguistique en raison du manque d’information sur chaque personne qui parle
et sur les détails de chaque situation. On peut malgré tout faire l’hypothèse d’une
certaine homogénéité car les émissions sont toujours structurées selon les catégories du
journal radiophonique ou télévisuel alternant des lectures de news, des reportages faits
par des journalistes de terrain et des interviews sur des thèmes politiques ou d’actualité
sociale (auprès de personnes qui savent que leurs prises de parole seront diffusées à un
public large).
L’alignement son/phonème de cette version de référence a été réalisé grâce au
système de reconnaissance automatique élaboré par le laboratoire LIMSI, selon la
technique de l’alignement forcé décrite par Adda-Decker et Snoeren 2011; Lamel et al.
2011. Pour les besoins de cette étude, le système conçu selon des principes

16 Il s’agit de transcriptions de référence pour tester les performances des systèmes de

reconnaissance automatique de la parole; les enregistrements proviennent des chaines de radio France
Inter, RFI, France Info.
17 Les enregistrements proviennent des chaines de radio France Inter, France Culture, RFI, Europe

1, et chaines de télévision TF1, France 2, France 3, TV5, BFM, LCP et M6.


18 Les enregistrements proviennent des chaines de radio France Inter, France Culture, Europe 1, et

chaines de télévision TF1, France 2, France 3 et Arte.


59
phonologiques - pour regrouper sous le même phonème toutes ses variantes de
prononciation possibles - a été modifié par l’insertion ciblée d’un principe phonétique.
Ainsi, le système d’alignement a été paramétré de façon à autoriser non pas une seule
transcription phonémique mais deux, selon les indices du signal sonore. Une liste de
contextes phonémiques a pu être alignée automatiquement avec une des deux variantes
autorisées pour chaque phonème, comme le récapitule le Tableau 1 :

Contextes phonémiques => Variantes autorisées


/ti, tj, ty, tɥ, te, ta, to/ [ti-tʃi, tj-tʃj, ty-tʃy, tɥ-tʃɥ, te-tʃe,
ta-tʃa, ta-tʃo]
/di, dj, dy, dɥ, de, da, do/ [di-dƷi, dj-dƷj, dy-dƷy, dɥ-dƷɥ,
de-dƷe, da-dƷa, do-dƷo]
Tableau 1 : Variantes autorisées lors de l’alignement automatique forcé

De cette manière le système pouvait choisir d’aligner avec la variante « standard »


ou la variante ciblée : à chaque fois qu’il détectait dans le signal la présence d’un bruit de
friction suffisamment long après l’occlusion et l’explosion, il alignait avec la variante
affriquée. Les variantes affriquées devant /e, a, o/ n’étaient pas attendues mais ont été
autorisées pour vérification de la méthode.
Cette procédure s’inspire directement de celle mise en place par Vieru-Dimulescu,
Boula de Mareüil, et Adda-Decker 2007; Boula de Mareüil et al. 2008 pour identifier
automatiquement des prononciations spécifiques à des accents régionaux ou étrangers ;
à ma connaissance elle n’a jamais encore été appliquée pour des marqueurs d’accent
social.
Dans les données alignées selon cette méthode il y avait environ 100.000 contextes
contenant le phonème /t/ et environ 50.000 contenant le phonème /d/ prononcés juste
avant les non-arrondis /i,j/. Le détail du nombre total d’occurrences prises en compte
figure dans le Tableau 2 :

/ti/ /tj/ /di/ /dj/


1998 8237 757 3766 437
2003 23362 2108 9769 1601
2007 49935 5282 24234 3524
2009/10 4896 1068 4255 488
total 86430 9215 42024 6050
Tableau 2: Nombre d’occurrences de /t,d/ devant /i,j/ dans le corpus

Grâce à l’application automatique des modèles acoustiques implémentés, nous


avons pu compter quel a été le pourcentage du nombre total d’occurrences des
phonèmes /t/ et /d/ dans ces contextes qui a été aligné automatiquement avec les
affriquées [tʃ, dƷ]. Ces pourcentages sont affichés dans la Figure 2, ventilés par période.

60
Figure 2: Evolution de /ti,tj,di,dj/ alignés avec les variantes [tʃi, tʃj,dƷi,dƷj]

La variante la plus fréquente dans notre corpus est la prononciation affriquée de


/t/ devant la glide /j/. Les résultats montrent une progression de la variante [tʃ] plus
importante devant /j/, dans des mots comme ‘moitié, chrétien, question’, etc., que devant
/i/ dans des mots comme ‘politique, exécutif, particulier’ etc. Sa progression devant /i/
est en fait attestée seulement durant les dernières années. La tendance de l’évolution de
la variante [dƷ] devant /j/, comme dans les mots ‘médias, dialogue, canadiens’ etc. n’est
pas très claire dans ces données; on peut seulement dire que son pourcentage est
nettement plus faible que pour [tʃ] dans le même contexte. En revanche, on peut dire
qu’on ne constate aucune progression de cette variante [dƷ] devant /i/ car ses taux,
relevés dans des mots comme ‘vendredi, direct’ etc. restent très bas même à la fin de la
période observée.
Nous avons également examiné l’ensemble des 30000 tokens contenant le
phonème /t/ et des 6000019 tokens contenant le phonème /d/ devant l’arrondi /y/ ou la
glide /ɥ/. Le détail du nombre total d’occurrences pour chaque période figure dans le
Tableau 3 ci-dessous.

/ty/ /tɥ/ /dy/ /dɥ/


1998 1197 483 3046 717
2003 3177 1771 9331 1578
2007 6863 3413 19816 4226
2009-10 8742 2937 19735 4645
total 19979 8604 51928 11166
Tableau 3: Nombre d’occurrences de /t,d/ devant /i,j/ dans le corpus

Les pourcentages des occurrences détectées automatiquement comme


correspondant mieux aux modèles acoustiques des affriquées sont représentés dans la
Figure 3 ci-dessous, ventilés par période de 1998 à 2010.

19Les occurrences contenant /dy/ sont particulièrement nombreuses en raison de la fréquence du


mot grammatical ‘du’.
61
Figure 3: Evolution de /ty,tɥ,dy,dɥ/ alignés avec les variantes [tʃy, tʃɥ, dƷy, dƷɥ]

Si l’on compare les pourcentages de 1998-2003 avec ceux de 2007-2010, les


résultats montrent une progression des variantes [tʃ] , devant /y/ dans des mots comme
‘ouverture, turc, structure, naturel’ etc., ainsi que devant /ɥ/ dans des mots comme
‘actuellement, effectué, éventuel, situation’ etc. En revanche, les variantes [dƷ] restent très
rares durant toute cette période, que ce soit devant /y/ ou /ɥ/.
Un nombre si important de segments ne pouvait pas être inspecté manuellement,
si ce n’est par sondage. En revanche, nous avons pu valider indirectement la pertinence
de cette méthode grâce au fait que les variantes [tʃ, dƷ] étaient également autorisées
pour l’alignement lorsque /t,d/ précédaient /e,a,o/ où nous n’attendions pas
d’affrication. Or, le pourcentage d’occurrences devant /e/ aligné avec une variante
affriquée a été de seulement 0.4% tandis que devant /a, o/ nous n’avons trouvé aucun
alignement inattendu.
A titre de comparaison nous avons également testé cette méthode d’alignement
avec des variantes affriquées sur un corpus de données comparables issues d’environ 33
heures de journaux canadiens en français, de 2007, où les prononciations affriquées
devraient être bien plus fréquentes bien qu’il s’agisse de sons un peu différents à savoir
[ts] et [dz]. Ce test a donné des résultats encourageants pour la fiabilité de notre
méthode car le système a aligné environ 16% des /tɥ/ avec des [tʃɥ] et environ 19% des
occurrences de /ty,dy,dɥ/ avec des [tʃy,dƷy,dƷɥ], ce qui représente effectivement des
taux bien plus élevés que dans notre corpus de France.
En conclusion, les résultats obtenus sur le corpus français exploité montrent
globalement une augmentation des prononciations fortement palatalisées ou affriquées
de /t/ devant /i,j,y,ɥ/ mais une très faible présence de l’affrication de /d/ devant /j/. Les
pourcentages restent globalement bas, inférieurs à 9% pour les plus hauts d’entre eux,
ce qui est encore modeste ; nous sommes bien loin des 50 à 80% de prononciations
affriquées chez les adolescentes grenobloises de l’étude déjà citée de Vernet et Trimaille
(2007). Même en situation de parole adressée à un enseignant, la moyenne des
pourcentages de /t,d/ devant /i,j,y,ɥ/ produits avec un fort taux d’affrication tournait
autour de 40%. Cela indique que même si nous n’avons pas pu documenter un recul de
cette pratique de prononciation dans les émissions d’info des médias dominants, qui
aurait plaidé en faveur d’une inhibition du phénomène par l’émergence d’un stéréotype
dévalorisant en cours, nous ne pouvons pas non plus parler de diffusion rapide et
massive de ce trait, pour le moment. En outre, la situation semble être différente selon
qu’on s’intéresse à /t/ ou à /d/. Bien que du point de vue articulatoire le mécanisme soit
le même, il ne serait pas exclu qu’un changement se produise sur l’articulation du /t/
62
tandis que celui affectant l’articulation du /d/ se retrouve inhibé, en tout cas pour le
moment. Les résultats ne permettent pas de trancher pour une hypothèse ou pour une
autre, mais ils permettent de confirmer que ce point du système de prononciation du
français de France est en mouvement.

Approche qualitative
Les angles morts de l’analyse quantitative sont bien connus, je les ai déjà évoqués :
mise en avant de grandes tendances, parfois obtenues en amalgamant des données
hétérogènes et difficilement comparables ; manque de visibilité des phénomènes
marginaux ; faible compréhension des enjeux de chaque interaction et des dynamiques
locales, faible connaissance des profils des gens enregistrés, et risque
d’homogénéisations abusives.
C’est la raison pour laquelle je pense qu’il est nécessaire de compléter les analyses
quantitatives par de nombreuses analyses qualitatives ; sans pour autant plaider pour le
renoncement aux approches quantitatives, car elles sont très utiles pour forger des
hypothèses.

C’est ce que j’ai tenté de faire dans [doc 33] en analysant la présence éventuelle et
fluctuante durant une seule et unique interaction de tout marqueur qui pourrait être
interprété comme un indice de ce que l’on a souvent appelé « accent de banlieue », dont
l’affrication de /t,d/ fait potentiellement partie.
Le corpus analysé ici fait partie d’une série d’enregistrements captés durant un
module de préparation à Sciences Po dans un lycée classé en ZEP de Seine-Saint-Denis.
[J’y reviens dans la partie II.2.4 de ce mémoire]. Je participais régulièrement à ces
modules hebdomadaires ; les enregistrements vidéo des examens blancs faisaient partie
des pratiques pédagogiques courantes de l’équipe enseignante. Il s’agit donc de données
écologiques, non sollicitées par moi-même en tant que chercheuse. Contrairement à ma
position totalement extérieure par rapport au corpus extrait des médias, cette fois-ci je
faisais partie du contexte au même titre que les autres participants. La démarche
d’enquête de terrain me permet de développer une analyse éclairée par un point de vue
situé différemment et de questionner la fabrication même du corpus.
Pour tenter d’apporter un autre type de contribution à la compréhension de la
pratique de l’affrication par un lycéen en particulier, j’ai focalisé mon attention sur une
interaction entre Ali, 19 ans, et l’équipe enseignante dont je faisais partie. Il s’agissait
plus précisément d’un oral blanc pour préparer le concours d’entrée à Sciences Po dans
la cadre de la procédure « Convention d’Education prioritaire ». L’enregistrement a eu
lieu en mai 2006, peu après les révoltes urbaines de novembre 2005 ; l’exercice portait
sur la production d’un discours d’analyste politique sur un sujet inattendu, imposé par le
jury. Dans ce cas, il a été demandé à Ali de donner son point de vue sur les révoltes
urbaines et en particulier sur les violences sur la voie publique.
J’ai pu montrer dans [doc 33] que le taux d’affrication forte de /t,d/ passait, dans
la parole d’Ali, de 23% à 50% durant la même interaction, sur le même sujet et avec les
mêmes interlocuteurs ; et que cette variation ne semblait pas aléatoire mais liée à un
changement de posture énonciative.
Si on envisage la situation globalement, Ali est un lycéen qui a été déclaré
admissible par le jury interne de son lycée lors de la première étape de son concours
CEP-Sciences Po, qui se trouve dans une dynamique positive de forte mobilisation sur
l’école après un épisode de quasi-décrochage deux années auparavant. Il est fortement
investi dans l’oral blanc filmé ; dans sa prononciation on ne relève pas les indices les
63
plus emblématiques de l’accent dit « de banlieue » populaire, à savoir l’allongement de
l’avant-dernière syllabe (Fagyal 2010) et le contour prosodique emphatique
particulièrement rapide et ample (Boula de Mareüil et Lehka-Lemarchand 2011; Lehka-
Lemarchand 2007; Paternostro et Goldman 2014). En résumé, les ressources
prosodiques et phonétiques qu’Ali maitrise sont très éloignées des tendances observées
chez les adolescents d’origine maghrébine habitant dans des quartiers populaires et très
proches de ce que la plupart considère comme le français parlé de référence dans la
moitié nord de la France.
Si on s’intéresse maintenant à la dynamique de l’interaction analysée, on peut
considérer qu’elle contient deux épisodes bien distincts.
Ali tente (maladroitement) au début de l’exercice de se construire un personnage
de futur analyste politique capable de prendre de la distance par rapport aux différents
groupes sociaux, et notamment par rapport à ses pairs : il soutient que les jeunes qui ont
brulé des voitures se sont simplement défoulés, ont profité d’une situation pour se
divertir, sans aucune revendication politique. Dans un premier temps il construit un
discours innovant et met assez bien en adéquation les ressources phonétiques et
prosodiques avec ce personnage émergent. Son taux d’affrication est très bas : 23%.
Devant lui, des enseignants (blancs, femmes et hommes, extérieurs à l’univers des
cités, voulant l'aider dans sa démarche), peinent à accorder de la crédibilité à ce
personnage et du coup ne l'encouragent pas dans cette voie ; au contraire, ils produisent
une assignation identitaire et le poussent à adopter le point de vue plus attendu de la
part d’un « jeune des cités » racialisé qui doit certainement subir des contrôles policiers
abusifs ; cette assignation ouvre un deuxième épisode dans l’interaction.
La question sur les contrôles policiers pique Ali au vif et une tournure en « est-ce
que » [« est-ce que c’est quelque chose que vous ressentez »] l’oblige à se positionner de
façon très contraignante (pour une analyse plus approfondie de ces discours politiques
émergents, voir [doc 12]). Après cette question, Ali accélère progressivement son débit
(il passe d’une vitesse moyenne d’articulation de 4,25 syllabes par seconde, pauses
silencieuses non comprises, à une moyenne de 5,50 syllabes par seconde) et le taux de
palatalisation de ses consonnes /t/ et /d/ double brusquement, passant de 23% à 50%.
Visiblement en colère, Ali raconte sa propre expérience : il admet volontiers que les
policiers le contrôlent abusivement pratiquement tous les jours, sans raison (« pour
rien ») ou pour des raisons inacceptables. Suite à une question de relance, il détaille un
épisode où il se fait arrêter par des policiers alors qu’il roulait sur son scooter et les
policiers appellent leur centre pour signaler un « scooter volé » avant même de prendre
la peine de lui demander s’il était en règle et s’il disposait de tous les papiers du
véhicule. Le taux de palatalisation d’Ali restera à 50% jusqu’à la fin de l’entretien et le
débit restera rapide ; jusqu’au bout, il continuera à parler de son propre exemple (« moi
quand ils m’ont arrêté ») avec emportement ; il ne retrouvera ni le débit ni le taux faible
d’affrication du début de son entretien.
C’est à ce point précis qu’Ali échoue à satisfaire aux exigences de l’exercice. Une
demi-heure plus tard, le même exercice, avec le même type de question piège de la part
du même jury sera réussi par un autre élève, André, qui avait pris le parti de défendre
les lois très restrictives de N. Sarkozy sur l’immigration : les enseignants le soumettront
au même test de déstabilisation et à la même assignation identitaire en lui rappelant
qu’il est d’origine portugaise et que ses parents sont arrivés comme ouvriers
clandestins, mais, contrairement à Ali, André ne se démontera pas et tiendra son
argumentation jusqu’au bout.

64
Ce qui est intéressant dans la réaction d’Ali, c’est qu’il a changé son taux de
palatalisation/affrication en même temps que son positionnement énonciatif, lorsqu’il
est passé brusquement de « les jeunes » et « on » général à « moi-même avec mon frère ».
Cet exemple permet d’observer de près la dynamique de la prononciation :
l’analyse de la situation dans laquelle quelqu’un se trouve impliqué, qui semble offrir
une zone de stabilité (même enjeu, même moment, mêmes interlocuteurs), ne suffit pas
pour prédire les marqueurs privilégiés dans sa prononciation durant toute la durée du
même « contexte ». Une interaction peut connaitre des ruptures en quelques secondes.
Le cas d’Ali que j’ai analysé donne à voir une mise en adéquation subtile de la
prononciation avec la posture énonciative adoptée. Dans son discours, Ali construit deux
identités successives qui le caractérisent tout autant et qui, dans un exercice scolaire
d’argumentation, donnent l’impression d’être contradictoires. D’une part l’élève qui vise
la réussite scolaire, l’accès à un établissement prestigieux, la conquête du pouvoir
symbolique et qui se place dans une logique d’extériorité par rapport à ses camarades de
la cité dont il analyse à froid les agissements ; de l’autre, le « jeune de cité » victime de
contrôles abusifs, prêt à se révolter contre le système aux côtés des autres jeunes
socialement minorés et exclus du pouvoir symbolique. Les deux identités affleurent dans
un même exercice, un exposé politique co-construit avec des enseignants qui jouent le
rôle du jury pour l’occasion. Mais seule la première identité était visée par Ali, et les
ressources phonétiques et prosodiques qu’il mobilise vont en ce sens, malgré le léger
écart observé en deuxième partie, dans le deuxième « épisode ».
[Je traite davantage des implications de cette analyse en termes de construction
identitaire, dans [doc 33].
Ce type d’étude située de la variation permet de sortir du piège de la première
vague du variationnisme qui avait tendance à associer des traits de prononciation à des
profils de locuteurs et au final à des habitudes articulatoires figées ; on peut envisager,
grâce à ce genre de corpus, d’ouvrir une petite fenêtre d’observation vers le style, vers
l’agentivité des locuteurs, vers la fluidité du sens en contexte, bref, vers une autre
perspective théorique (Gadet 2006; Eckert 2010; Eckert 2008). En l’occurrence, le fait
d’observer Ali changer de taux d’affrication au cours d’une seule interaction permet
d’éliminer les facteurs macro-sociaux et de se concentrer sur des hypothèses plus
stylistiques, en analysant la différence de posture (stance) ou la dynamique de la
relation intersubjective qui se construit. Le changement des pratiques de prononciation
est trop subtil pour que l’on puisse l’assimiler à un metaphorical switching, expression
proposée par Blom et Gumperz 1972 pour décrire les settings qui changent par le
changement de langue. La question qu’on se pose devient tout de suite strictement
située : qu’est-ce qui a changé entre la première et la deuxième partie de l’entretien
d’Ali ? Est-ce la connivence avec les profs ? (très faible au début, quand Ali tente
timidement, à tâtons, de construire et d’exprimer un point de vue original qui ne
rencontre aucun écho positif chez les profs ; très forte à la fin lorsque Ali exprime le
point de vue attendu par les profs et culminant avec l’épisode du scooter qui suscite des
sourires partagés). L’hypothèse de l’échelle de plus ou moins grande connivence rejoint
l’hypothèse de la proximité, formulée par Paternostro et Goldman 2014; Paternostro
2016. Ou celle de l’emphase plus ou moins grande formulée par Paternostro 2016 au
sujet du contour mélodique réputé (stéréo)typique « des cités, de banlieue ».
Une plus grande connivence favorise aussi une plus grande confiance en soi, et cela
favorise à son tour l’émergence d’une parole produite sur un débit plus rapide,
indépendamment des affiliations sociales. En parallèle, la focalisation de l’attention de
plus en plus bienveillante de quatre adultes sur la parole produite par un lycéen qui
65
prend de plus en plus confiance en soi peut encourager une certaine escalade dans la
mise en scène de la parole, une certaine emphase allant crescendo censée mettre en
scène la virtuosité du locuteur. On peut avancer donc de nouvelles hypothèses sur le
sens d’un taux d’affrication élevé : indice de grande connivence (partagée ou forcée),
indice de confiance en soi, posture de « beau parleur », de virtuosité dans le maniement
de la parole… Ce type d’hypothèse pourrait éclairer la présence de ce marqueur aussi
bien dans la parole adressée aux pairs dans les discussions aux allures de joutes
verbales auxquelles se livrent souvent les jeunes fortement insérés dans la culture de
rues, que dans la parole de certain·e·s ministres. Pour les ministres, on peut imaginer
que cela montrerait leur souhait de donner une image de virtuosité dans la parole, par
exemple pour donner le change en cas de grande insécurité linguistique ? ou bien leur
souhait d’afficher une posture de grande connivence avec leur public ?…

Conclusions partielles
Les résultats obtenus confortent l’hypothèse d’un possible changement en cours :
les pourcentages vont croissant et ces variantes sont de plus en plus attestées y compris
chez les locuteurs légitimes (personnalités politiques, journalistes, cf. Trimaille 2010).
Les analyses situées permettent de nuancer les corrélations trop strictes entre profil du
locuteur et le taux d’affrication, par l’exploration de la variabilité stylistique et de la
fluidité de la construction du sens en contexte. Il apparait comme particulièrement
prometteur d’étudier de près des locuteurs peu légitimes, socialement minorés, qui
produisent des faibles taux d’affrication de /t,d/ ou au contraire des locuteurs fortement
légitimes, socialement valorisés, qui produisent des taux élevés.
Pour autant, de manière globale, les fréquences sont bien plus faibles chez les
locuteurs « légitimes » que chez les locuteurs urbains des quartiers défavorisés des
grandes villes, ce qui laisse encore ouvertes toutes les possibilités d'évolution (ou
d’inhibition) de ces variantes dans le futur proche.

Perception : méthodes d’enquête et résultats

Nous l’avons vu, décrire les tendances dans le domaine de la production de


variantes phonétiques n’aboutit pas à des résultats aisément interprétables. De ce fait,
les analystes courent le risque de proposer des interprétations circulaires : telle variante
est plus fréquente chez tel groupe de personnes, au fond parce que … ce groupe de
personnes l’emploie plus souvent que d’autres groupes. La description des grandes
tendances de telle ou telle variante, ou même l’analyse d’interactions situées du point de
vue exclusif de la production équivaut à une photo prise toujours du même angle de vue,
celui de l’analyste qui mène l’étude. D’où l’importance d’aborder les variantes, de
manière complémentaire, d’un point de vue décentré, en s’intéressant à leur perception
qui peut s’avérer variable.
La tradition des études sociophonétiques sur les changements en cours ou sur les
dynamiques des variantes en concurrence vient de la dialectologie et repose sur
quelques principes fondamentaux (Labov et Trudgill, essentiellement, même si Labov
n’a cessé d’enrichir la liste des facteurs à prendre en compte au cours de sa carrière) :
tout d’abord le fait que lorsqu’on constate l’existence de deux variantes en concurrence,
il y en a une qui bénéficie d’un prestige ouvert, d’une grande légitimité – souvent lié à la
fidélité à l’orthographe, mais pas toujours – et l’autre qui souffre d’une stigmatisation
sociale compensée par un prestige latent (‘covert’) dans certains groupes. Cela revient à
postuler que les variantes sociophonétiques qui fonctionnent comme des marqueurs
66
bénéficient obligatoirement d’une certaine saillance ; accessoirement, si une dynamique
se met en place, une des deux variantes se diffusera au détriment de l’autre.
Or, Kerswill et Williams 2002 proposent un résumé et une analyse critique des
critères de saillance des marqueurs de Trudgill 1986 ; ils pointent notamment leur
circularité partielle et leur manque de pouvoir explicatif, en prenant appui sur des
exemples de l’anglais britannique. Ainsi, les deux auteurs mettent en avant le fait qu’une
seule et même variante, le H-dropping, bénéficiant d’une très forte saillance (de longue
date), se maintient dans la prononciation des adolescents des classes ouvrières d’une
petite ville nordique (Hull) et régresse très fortement dans la prononciation des
adolescents au même profil social de deux autres petites villes (Reading et Milton
Keynes, à l’ouest de Londres). Cet exemple montre que la saillance ne permet de prédire
ni la survenue ni la direction d’un changement. Par ailleurs, deux autres variables (le TH-
fronting et le T-glottaling) se diffusent très rapidement chez les adolescents, notamment
des classes ouvrières mais pas seulement, du sud vers le nord : la saillance n’explique ni
pourquoi elles se diffusent, ni pourquoi la diffusion s’est faite à une telle vitesse.
Le critère de la tendance naturelle (perte d’une marque au profit d’une
prononciation plus facile, maintien d’un effort articulatoire pour des raisons de
distinction sociale) est également souvent invoqué pour comprendre les tendances des
changements phonétiques, depuis au moins les hypothèses très diffusées de (Kroch
1978), que Trudgill 1986 semble avoir intégrées ; or, cette hypothèse s’est vu opposer
trop de contre-exemples, dont celui du H-dropping cité plus haut. Sans compter le fait
que le critère est inopérant dans le domaine vocalique, de l’aveu même de Kroch 1978.
C’est également le cas dans les exemples vocaliques de Kerswill et Williams : certaines
diphtongues sont prononcées avec une plus grande ouverture par les adolescents par
rapport aux personnes âgées, d’autres au contraire sont centralisées, mais rien ne
permet de dire laquelle des deux ou plusieurs variantes sur le continuum articulatoire
serait plus ‘naturelle’, plus facile à articuler.
Enfin, le critère de la saillance liée à la convergence ou divergence par rapport à
l’orthographe mérite d’être pris en compte car il s’appuie sur de nombreux discours
épilinguistiques ; néanmoins, il ne peut pas s’appliquer, loin s’en faut, à toutes les
variantes. Il peut être pertinent pour les variantes de type ‘X’ versus ‘absence de X’
(prononciation / non-prononciation d’un son qui correspond à un graphème) mais n’a
aucune pertinence lorsqu’on étudie une voyelle ou une consonne qui est prononcée avec
deux timbres légèrement différents en concurrence. Et même lorsqu’il est pertinent, il
n’a pas toujours un pouvoir prédictif, comme le montre, encore une fois, l’exemple du H-
dropping.
Kerswill et Williams 2002; Rácz 2013 rendent la notion de saillance opérationnelle,
en la débarrassant des définitions circulaires. Ce qu’il en reste, c’est essentiellement
l’application des critères phonétiques et phonologiques et la notion de contraste. Ce
faisant, ils mettent en évidence :
• le peu de pouvoir explicatif ou prédictif de la saillance,
• l’impossibilité de prévoir la direction d’un changement en utilisant des
critères de saillance
• le fait que ce qui est saillant pour un groupe social ne l’est pas obligatoirement
pour un autre.

Leurs conclusions plaident pour la nécessité de prendre en compte d’autres


facteurs – extra-linguistiques – qui semblent indépendants, liés notamment à la
construction des identités, aux attitudes partagées, aux contacts entre les groupes
67
sociaux… et à accepter le principe de l’existence de variables perceptivement saillantes
ou non saillantes.
Par ailleurs, Kerswill et Williams 2002 mettent en avant la difficulté d’interpréter
les discours épilinguistiques, que ce soit au sujet des marqueurs sociophonétiques ou au
sujet de certains marqueurs morphologiques réputés spécifiques à certains groupes
sociaux ou régionaux : une forme peut être très fréquente et passer inaperçue, ou bien
devenir très rare et rester néanmoins stéréotypique et très présente dans les discours
épilinguistiques. Cela incite à une grande prudence dans l’analyse de tels discours et
plaide, une fois de plus, pour la complémentarité des approches : discours spontanés ou
sollicités et expériences perceptives dont le but reste opaque aux personnes sollicitées
(Rácz 2013).
Le lien entre saillance et stéréotype apparait comme étant central, dans toute
recherche sur la perception : l’existence d’un stéréotype a la capacité d’augmenter ou
diminuer la saillance potentielle de n’importe quel trait, jusqu’à déformer la perception
globale d’un extrait (par effet de « hallo » ou contamination, Moreau et Brichard 1997,
ou par effet de gommage ‘erasure’ de ce qui ne correspond pas aux attentes activées par
le stéréotype, Irvine et Gal 2000). Ces mécanismes socio-cognitifs dépassent bien
évidemment le cadre de la sociolinguistique et sont également pertinents en
anthropologie, mais j’en retiens ici seulement les aspects qui s’appliquent à la
prononciation.
Une étude de Buson et Billiez 2013 montre que les stéréotypes en matière de
langage sont observables, y compris à travers des discours explicites, dès l’âge de 9-11
ans ; les humains sont capables d’interpréter très tôt des régularités d’ordre stylistique –
en tout cas en ce qui concerne le lexique – , de leur appliquer une perception catégorielle
influencée par des connaissances encyclopédiques sur la structure de la société dans
laquelle ils vivent, en partie en s’appuyant sur les stéréotypes partagés qui sont des
routines collectives d’appropriation du monde et de la société (« schèmes partagés par
une communauté», Amossy et Herschberg-Pierrot 1997).
En conclusion, il me semble qu’il faut retenir que les facteurs extra-linguistiques
sont toujours déterminants pour expliquer les pratiques de prononciation des gens de
tel ou tel groupe, dans telle ou telle situation, ou en lien avec tel ou tel enjeu
interactionnel. Il nous revient de définir de manière fine tous ces facteurs.
Cela n’empêche pas, bien entendu, sur un autre niveau, que certaines
prononciations soient soumises à des contraintes linguistiques – articulatoires,
phonologiques, grammaticales – dont il nous revient également de définir
soigneusement la portée exacte ; néanmoins les contraintes articulatoires n’ont rien
d’évident car elles n’échappent pas à l’imbrication « nature/culture » et, par conséquent,
toute tentative de désimbrication nécessite d’abord une analyse des idéologies et des
normes, sources d’illusions optiques et auditives.

En ce qui concerne les variantes de prononciation qui nous occupent ici


(palatalisation-affrication nulle→faible→moyenne→forte des /t,d/ dans certains
contextes), que savons-nous pour le moment ? Récapitulons.
Nous savons que du point de vue articulatoire on se situe sur un continuum rendu
libre par le système phonologique français ; nous savons qu’il y a déjà eu dans ce
contexte phonologique, dans le passé pas si ancien, des variantes opposées par leur
prestige social et que celles qui souffraient de stigmatisation ont disparu : « tyastyette »
/ « casquette », « quiens » / « tiens ».

68
Nous savons qu’un nouveau processus de déplacement du point et du mode
d’articulation de /t,d/ dans les mêmes contextes est en cours, et qu’il est susceptible de
progresser. Les indices qui vont dans ce sens sont sans appel dans les études consacrées
au groupe des locuteurs/locutrices jeunes, appartenant aux classes populaires urbaines,
en majorité issues de l’immigration post-coloniale ; ils ne sont pas sans appel en ce qui
concerne les pratiques de prononciation des locuteurs/locutrices légitimes. Ces derniers
peuvent soit suivre le mouvement (en l’absence de toute saillance du phénomène ? en
tout cas en l’absence d’une stigmatisation ouverte qui émergerait) ; soit inhiber ce
processus et rejeter ces variantes de prononciation. Ce sont ces hypothèses
contradictoires que j’ai commencé à explorer en passant par l’étude de la perception, en
collaboration avec C. Trimaille et I. Lehka-Lemarchand [doc 19].
En effet, différents indices montrent justement que cette nouvelle
palatalisation/affrication de /ti, tj, ty, tɥ, di, dj, dy, dɥ/ pourrait être en passe de recevoir
une connotation dévalorisante aux yeux des locuteurs légitimes, ce qui pourrait donc
inhiber le changement amorcé.
Gasquet-Cyrus 2013 avait déjà constitué un relevé d’attestations de « tch » et « ty »
(démarche qualitative et non quantitative) pour noter la palatalisation, qu’il qualifie de
« marqueur récent » pour styliser les prononciations des quartiers nord de Marseille, les
quartiers défavorisés. Ces graphies avaient fait leur apparition dans des vignettes de
comic strips de la presse locale et dans la littérature, dans des ouvrages qui ont tenté de
coder graphiquement une oralité régionalement ancrée. Il semblerait que ces graphies
soient en passe de déborder les frontières de Marseille, ce qui serait à mettre en
parallèle, dans le domaine graphique, avec la convergence évoquée pour l’oral (Jamin,
Trimaille, et Gasquet-Cyrus 2006).
Nous avons tout d’abord repéré au moins une humoriste et un dessinateur-
caricaturiste qui ont utilisé un trucage graphique pour noter les prononciations
affriquées dans des écrits à destination d’un large public, en comptant sur suffisamment
de connivence pour que cela soit correctement interprété.

Tout d’abord, Souad Belhaddad, journaliste et humoriste, a utilisé les graphies


alternatives « tch » et « dj » sur ses affiches et flyers, et dans le titre même de son
spectacle « Fatchima a des choses à vous djire ». Le spectacle devient dans les flyers un
« spectacle humoristchique », la graphie étant donc censée attirer l’attention et
convoquer tout un imaginaire linguistique, au sens de Houdebine-Gravaud 2005. Elle a
associé ainsi ces graphies et ces prononciations (systématiques durant son spectacle) au
personnage de la mère, Fatchima, algérienne venue s’installer en France à l’âge adulte, et
mère d’une fille qui avait réussi ses études et qui commençait tout juste une carrière
dans la communication. Durant le spectacle, l’actrice, auteure de son propre texte, joue
les deux rôles, celui de la mère comme celui de la fille ; le trait fortement affriqué de
/t,d/ est exclusivement associé à la parole de la mère, censée avoir gardé un accent
algérien, tandis que sa fille s’exprimait dans un français le plus proche possible de ce
qu’on imagine la norme des classes moyennes à Paris.

69
Figure 4 : Souad Belhaddad, affiche et flyer de spectacle humoristique de 2010-
2011

Ensuite, Riad Sattouf, utilise à plusieurs reprises les graphies « tch » et « dch » dans
sa série La vie secrète des jeunes. Bien que cela soit une pratique graphique sporadique
(nous avons repéré seulement quatre planches distinctes qui en font usage), nous
pouvons dire que ces transcriptions font partie d’un système graphique éclectique censé
suggérer les prononciations des jeunes des périphéries de l’Est parisien, qu’il dessine
généralement avec des habits stéréotypiques des jeunes des cités ou en tout cas de
familles modestes (capuches, vêtements de sport pour les filles comme pour les
garçons ; nombreux bijoux fantaisie chez les filles, bouches souvent édentées, surtout
chez les garçons).

Figure 5 :Dessins de Riad Sattouf, publiés en janvier 2015 après les attentats
contre le journal Charlie Hebdo).

70
Figure 6 : Dessins de Riad Sattouf, La vie Secrète des jeunes III (2012)

Son système graphique joue également sur la connivence de son lectorat et


mobilise des principes hybrides : transcriptions de tournures stigmatisées stéréotypées
(y m’a fé), de marques d’emphase (syllabes détachées), de débit rapide (syllabes non
prononcées), d’accent maghrébin stéréotypé (confusion de timbres de voyelles,
prononciation d’un /r/ marqué « rrr » ou simplement insertion de conventions
courantes venues des SMS, sans aucun rapport avec la prononciation comme par
exemple l’usage de « koi », qui rappelle le concept américain de eye dialect.

La présence de ces graphies incite à creuser davantage l’existence éventuelle de


représentations explicites de ce phénomène lié à la capacité des gens d’abord à le
percevoir (discriminer les variantes affriquées des variantes non-affriquées) et ensuite à
l’identifier comme une pratique de prononciation porteuse d’un sens quelconque (social,
régional, stylistique, pragmatique…).
La même démarche mériterait d’être menée sur les sketchs humoristiques
performés à l’oral : Gasquet-Cyrus 2013 mentionne cette pratique dans les sketchs qui
caricaturent la prononciation des quartiers nord de Marseille, mais cela peut très
certainement être attesté dans des contextes qui n’ont aucun lien avec cette région. C’est
le cas dans le spectacle de Souad Belhaddad mentionné plus haut : les graphies du titre
et de l’affiche correspondent bien à des prononciations systématiquement affriqués
pour le personnage de « la mère », algérienne venue en France à l’âge adulte.

Approches qualitatives
Les caricatures que nous avons trouvées représentent certes un bon point de
départ. Mais contrairement à l’émission des Guignols de l’info que j’avais utilisée dans
mon corpus de thèse, et qui bénéficiait d’une très large audience, ces stylisations
caricaturales ne touchent pas un public aussi large, et la question de leur réception
convergente ne peut pas recevoir de réponse a priori.
Ainsi, j’ai eu l’idée de procéder à un petit test de perception auprès de mes
étudiant·e·s de L1 (lettres modernes, à Paris 3, cours d’Introduction à la linguistique), à
partir des vignettes de Riad Sattouf : celles de Charlie Hebdo, reproduites plus haut, avec
un personnage masculin, et celles portant sur une discussion entre jeunes filles en
conflit ouvert avec l’école, son univers et son personnel, reproduites ci-dessous avec la
consigne de l’exercice, Figure 7.
Pour bénéficier de toute la motivation des étudiant-e-s dans l’élaboration de leur
réponse, j’ai inséré cet exercice dans un devoir sur table, noté sur 20 points ; l’exercice
valait officiellement deux points, mais en réalité j’ai accordé les deux points à toutes les
71
réponses données à cet exercice, du moment que l’exercice était traité. La consigne était
volontairement très ouverte, non focalisée sur les graphies qui m’intéressaient, de
manière à avoir des indices sur leur saillance. Je précise que je n’avais jamais évoqué
mes recherches sur la palatalisation/affrication dans ce cours de L1 et je n’avais jamais
mentionné ce phénomène dans mes exercices de phonétique20.

Interprétez attentivement le choix des graphies contenues dans les


vignettes suivantes. (Tâchez de les expliquer et d’interpréter globalement
l’effet stylistique visé). [2 points]

(dessins de Riad Sattouf, publiés dans l’album « La Vie secrète des jeunes »).
Figure 7 : consigne donnée aux étudiants de L1, portant, selon les groupes, sur ces
dessins ou sur ceux de la Figure 5.

J’ai donné cette consigne à trois groupes différents, toujours en devoir final sur
table : deux groupes de TD en présence et un groupe de TD à distance. J’ai recueilli au
total 117 copies. Les réponses reçues ont montré une très grande dispersion. Je les
regroupe ici :

• 22 copies ne mentionnent pas les graphies « tch/dch » dans les réponses


données.
C’est difficile d’interpréter cela (problème classique de l’absence de réponse dans un
questionnaire), mais il est possible qu’au moins une partie de ces étudiant-e-s n’aient
pas vraiment su quoi en dire, et donc leur réponse s’est focalisée sur d’autres choix
graphiques.

• 23 copies donnent une réponse vague et globale sur tous les choix
graphiques, incluant explicitement « tch » / « dch » : il s’agirait de transcrire
une « prononciation particulière », un « accent particulier », un « effet
d’oralité » (sans aucune précision), un « accent oral », ou de produire un
« effet comique » (sans plus de précision).

20 Ce cours comprend seulement trois séances sur les transcriptions en API qui se focalisent sur

l’acquisition de l’API, sur l’inventaire des phonèmes pertinents et sur les phénomènes d’assimilation et de
liaison largement didactisés pour ce type d’exercices introductifs.
72
Ces réponses montrent que l’effet stylistique recherché n’est pas perçu comme étant
particulièrement précis. Selon moi, ces étudiant·e·s ont cherché à donner une réponse
face à des choix graphiques qui les laissaient plutôt perplexes.

• 16 copies ont mis en avant une interprétation mécanique des prononciations


notées par « tch/dch », interprétation liée ou non à des hypothèses sur un
éventuel mauvais accès aux soins ; les raisons invoquées pour rendre
crédible une telle prononciation ont été : défaut d’articulation, dents mal
soignées, dents proéminentes, présence d’un appareil dentaire (ado), parole
produite en période de rhume ou avec le nez bouché.
Les auteurs de ces copies ont sans doute relié la notation d’une prononciation marquée
avec le fait que les dessins rendent saillantes les dents des personnages. Aucune trace de
connotation liée à un accent social ici, mais seulement des hypothèses articulatoires. Le
fait que les bases de la phonétique articulatoires faisaient partie du programme de
l’examen a dû également orienter les réponses.

• 12 copies ont cru identifier l’intention de transcrire un accent régional chti,


ou « du nord »
Ces copies mentionnaient très clairement une association entre les graphies « tch » et
« dch » et l’intention de transcrire un accent chuintant qui les a fait penser aux chtis. Là
encore, selon moi ces étudiant·e·s ont cherché une réponse face à une pratique
graphique difficilement interprétable, qu’elles/ils voyaient très probablement pour la
première fois.

• 10 copies ont affirmé qu’il s’agissait de représenter un accent immigré ou


étranger (dont deux qui ont dit précisé « accent arabe, maghrébin »).
Cette fois les réponses se rapprochaient du stéréotype recherché, mais il est impossible
de dire si l’identification de cette appartenance culturelle des personnages repose sur
l’indice de prononciation représenté par « tch/dch » ou bien prend en compte tous les
autres indices.

• 8 copies ont affirmé qu’il s’agissait de représenter un accent « jeune de


banlieue », « jeune populaire » ou un « langage wesh ».
Même remarque que précédemment : le stéréotype recherché est effectivement partagé,
mais il est difficile de distinguer ce qui relève des autres indices présents et
l’identification de la prononciation affriquée comme un trait spécifique ; les auteurs des
copies mentionnent parfois comme indice de même niveau la prononciation mise en
scène et caricaturée et le vêtement à capuche. Une copie a avancé l’hypothèse qu’il
s’agirait d’une prononciation d’un groupe d’amis qui déforme les sons pour que le
langage ne soit pas trop compris par l’entourage adulte.

• 8 copies ont affirmé qu’il s’agissait de styliser par la graphie une


prononciation non soignée, relâchée, familière ou populaire.
Les indices mis en avant pour arriver à cette réponse mentionnaient explicitement
« tch/dch » mais également les indices les plus conventionnels comme les élisions de
schwa.

73
• 8 copies ont associé les graphies « tch/dch » au souhait de l’auteur de la BD
de représenter la prononciation des jeunes et le langage enfantin (sans
aucune connotation sociale ou ethnique précisée).
Selon moi, ces réponses sont proches de celles qui ont pensé à un appareil dentaire ou
un défaut de prononciation. Rien ne permet de déceler un stéréotype partagé et stable ;
les auteurs de ces copies ont cherché une hypothèse pour interpréter des graphies
inédites.

• 5 copies ont cru voir la représentation d’un idiolecte bizarre, caractérisé par
le fait que les « consonnes deviennent chuintantes » ou qu’on note une
« contamination de sons ».
• 3 copies ont parlé de notations qui suggèrent une insistance, un effet
d’emphase.
• 2 copies (pour les caricatures de Charlie Hebdo) ont pensé à un jeu de mots
de l’auteur de BD qui faisait sonner le « ch » de Charlie Hebdo
sporadiquement dans la parole du personnage qui en parlait.
• 2 copies ont simplement explicitement avoué leur perplexité devant
« tch/dch » : « Je n’ai jamais entendu de telles prononciations ».
Ce dernier groupe de réponses montre différentes manières de donner du sens (ou non)
à une graphie de toute évidence difficile à interpréter et inconnue auparavant.

Sur les 117 réponses recueillies, une seule étudiante inscrite en enseignement à
distance (35 ans, née à Vannes, études à Rennes, habite à Malte) a montré qu’elle
associait très clairement la notation « tch/dch » à une prononciation précise et
identifiable en écrivant dans sa copie ceci:
Le passage du [t] au [y] implique une prononciation d’un [ʃ] par le personnage, qui
est un phénomène exacerbé ici du passage de la langue sur les dents du [t] à
l’arrondi vocalisé du [y]. Cette prononciation est commune dans le sud de la France

(par exemple, entendu à Marseille récemment

Il est évident que les 117 étudiant·e·s interrogé·e·s forment un échantillon de


confort sans aucune représentativité de la population francophone de France. Il n’y a
aucun intérêt, selon moi, à présenter les réponses obtenues sous forme de pourcentages,
car rien ne permet d’extrapoler les résultats à un échantillon représentatif. En revanche,
cet échantillon est formé de personnes susceptibles d’être confrontées au spectacle
humoristique de S. Belhaddad ou aux bandes dessinées de R. Sattouf : en ce sens, il s’agit
d’un échantillon du public potentiellement ciblé. Il est donc instructif de constater que la
majorité des gens de l’échantillon ne comprend pas les graphies « tch/dch » comme
suggérant une pratique de prononciation connue et identifiable clairement ; et
celles/ceux qui font l’hypothèse d’un marqueur d’accent semblent se fonder sur un
faisceau d’indices, car rien dans leurs commentaires ne permet de conclure que la
prononciation leur serait familière et suffisamment saillante pour qu’elle puisse être
catégorisée. Bien qu’il s’agisse d’une étude purement exploratoire, ces résultats
diminuent fortement le poids de l’argument de l’existence de graphies explicitement
destinées à noter un marqueur de la prononciation d’un groupe particulier pour plaider
pour l’émergence d’un stéréotype.

74
En outre, l’extrême diversité des réponses reçues montre à quel point nous
sommes loin de la convergence des représentations suscitées par un trucage graphique
censé représenter une prononciation.

Cette diversité des réponses rejoint ce que nous avons pu observer lors de
l’enquête combinant démarche qualitative et démarche quantitative menée en
collaboration avec C. Trimaille et I. Lehka (désormais le corpus Tri-Can-Leh), dont une
partie des résultats ont été publiés dans [doc 19].
Cette enquête, qui n’est pas close car nous n’avons pas encore dépouillé toutes les
réponses, a comme ambition de documenter un éventuel changement de perception et
de saillance de la prononciation affriquée en utilisant le contraste en temps apparent :
nous avons interrogé des jeunes de moins de 24 ans, encore en cours de formation au
lycée ou à l’université, et des personnes plus âgées, soit ayant une activité
professionnelle soit à la retraite.
Le premier volet, quantitatif, est constitué d’un questionnaire (décrit dans la sous-
partie suivante).
Le deuxième volet, qualitatif, est constitué d’une série d’entretiens semi-dirigés
menés à l’issue du questionnaire, avec des groupes de 2, 3 ou 4 personnes de manière à
susciter des interactions. Les questions posées permettent de focaliser progressivement
l’attention des juges sur le trait qui nous intéresse.
Dans la première partie de l’entretien nous revenons sur deux extraits de 10
secondes très contrastés en termes de présence/absence de la prononciation affriquée,
et nous demandons aux personnes sollicitées d’en parler, de donner leur préférence si
elles devaient recruter comme stagiaire une des deux ‘candidates’, pour une chaine
radiophonique. Il s’agit de deux lectures du même texte : « Les murs de l’institut où il était
venu danser quand il avait dix-sept ans ont été recouverts de graffitis et de fresques de peinture
à sa gloire ». Cela permet de recueillir des commentaires libres, non dirigés, et de vérifier
la saillance/non-saillance de l’affrication par rapport aux autres traits (prosodie,
liaisons, prononciation du /R/, des nasales…).
Dans la deuxième partie de l’entretien nous focalisons l’attention des personnes
sollicitées en utilisant des extraits de 2-3 secondes qui contiennent, tous, des
occurrences de /t,d/ fortement affriquées. Nous leur demandons de commenter les
prononciations et de relever d’éventuels indices sur les profils des gens qui parlent (il
s’agit d’adolescent·e·s et lycéen-nes qui lisent les phrases suivantes : Tu vas partir où
dimanche Quatre-vingt-quinze centimes c’est cher. Marc il est parti faire un graffiti). Cette
partie réussit généralement à attirer l’attention sur le trait analysé et cela a même
suscité des imitations spontanées de ces affrications ; les discussions suscitent un
certain nombre de catégorisations, car le simple fait de focaliser l’attention sur une
prononciation particulière en lien avec un profil de locuteur suggère l’existence d’un
stéréotype. Si tel n’est pas le cas, nous incitons explicitement les interviewé·e·s à prêter
l’oreille à la prononciation des /t/ et /d/ (cela s’est produit une fois, dans un groupe de 3
personnes).
Enfin, la troisième partie introduit quatre brefs extraits de 2-3 secondes contenant
des /t/ fortement affriqués (mais pas de /d/) produits par des journalistes, à la radio :
c’est les études qui les ont accompagnés // on voit arriver des des portugais qui sont représentés
// mais on peut déterminer quatre types si vous voulez, quatre typologies de de représentation //
hommage aux victimes du remaniement. Nous demandons si les prononciations de ces
journalistes sont similaires ou non à celles des jeunes de la deuxième partie ; si la
réponse est oui, nous sollicitons une hypothèse explicative, si la réponse est non nous
75
nous contentons d’écouter les commentaires et les arguments sur la distinction à faire.
Cela permet de confronter les auditeurs et auditrices à un éventuel conflit entre
différents stéréotypes, et les inciter le cas échéant à nuancer leurs réponses ou à
expliciter leurs représentations.

Les résultats de cette enquête par entretiens en focus groups impliquant 18


personnes différentes, de Lyon, Grenoble et Paris, ont été partiellement dépouillés par
Sperandio 2015, dans son mémoire de master rédigé sous ma direction. Malgré les biais
du dispositif d’enquête (orientation forcée vers la recherche d’un stéréotype ; jeune âge
facilement perceptible des locuteurs qui produisaient les extraits, et donc orientation de
la catégorisation vers le critère de l’âge), les réponses obtenues ont été très diverses.
Pour décrire les sons affriqués, les auditeurs et auditrices ont utilisé différentes
métaphores, dont certaines rejoignent celles de phonéticiens. La plus grande partie
tourne autour de l’emphase (ce qui, d’ailleurs, corrobore l’hypothèse principale de
Paternostro 2016 au sujet des contours mélodiques) ; les mots utilisés sont « relief »,
« attaque », « accentué » « tonique » « emphase » « marqué » « appuyé » « raclé »,
« projeté » et ils suggèrent ou affirment une prononciation qui nécessite plus d’effort,
plus de force (champ indexical de l’autorité ou de l’agressivité). Une autre partie suggère
au contraire la faiblesse de l’articulation, l’imprécision, le moindre effort (champ
indexical du relâchement) ; les mots utilisés sont « chuintement », « chuintant »
« mouillé » « soufflé » … Enfin, deux auditrices évoquent l’allongement, le fait que les
consonnes « prennent leur temps » « temps doublé » ; il est difficile d’interpréter ces
remarques, car elles peuvent être interprétées dans le sens de l’effort doublé ou bien au
contraire, dans le sens de l’économie dans l’effort d’articulation.
A la demande de deviner les profils des locuteurs enregistrés, pratiquement tous et
toutes ont évoqué l’âge (du fait du biais de l’échantillon) ; certain·e·s ont tout
simplement pensé qu’il s’agissait d’un défaut de prononciation ayant vocation à se
corriger avec l’âge ; d’autres ont cherché un accent régional à identifier (plusieurs
régions de France ont été évoquées, Sud, Marseille, Nord, Alsace, Vosges, Jura) ;
l’ascendance étrangère a également été envisagée ; certain·e·s ont évoqué un profil
social plutôt populaire (« CSP moins », « banlieue », « populaire »), en combinaison avec
l’âge ; et certain·e·s ont tout simplement avoué leur perplexité et leur incapacité à relier
cette prononciation (non saillante) à quoi que ce soit comme profil spécifique. Ces
directions rejoignent tout à fait celles suggérées par l’étude exploratoire à partir des
copies de mes étudiant·e·s de L1.
Quelles que soient les hypothèses émises lors des deux premières étapes de
l’entretien, elles sont peu compatibles avec la parole d’un-e journaliste à l’antenne. Cela
a obligé les interviewé·e·s à trouver, dans la dernière partie, une solution pour expliquer
la présence de ces traits chez des journalistes : une partie des juges soutient ainsi qu’il
ne s’agit pas exactement de la même prononciation chez les adolescents et chez les
journalistes, dans le sens où celles des journalistes produit un son légèrement différent
ou plus faible ; l’autre partie soutient que, bien que les prononciations des /t/ soient très
similaires, il s’agirait d’une recherche stylistique chez les journalistes, d’une insistance
contrôlée, tandis que chez les adolescents il s’agirait d’un phénomène rythmique
régulier, incontrôlé et sans volonté particulière de mettre en avant un mot. Ces discours
méritent d’être étudiés de manière plus approfondie du point de vue des idéologies
linguistiques qu’ils mobilisent (Candea & Trimaille, en préparation).

Approche quantitative
76
La constitution du corpus Tri-Can-Leh comprend, comme je l’ai déjà évoqué, une
première partie censée produire des données quantifiables. Contrairement aux
entretiens, cette partie de test prenait moins de temps et pouvait être passée en grand
groupe (jusqu’à une vingtaine de personnes simultanément, qui écoutaient les extraits et
répondaient sur des questionnaires papier, notamment dans le cas des élèves ou
étudiant·e·s en classe).
L’échantillon utilisé a, une fois de plus, été un échantillon de confort, sans postulat
de représentativité numérique pour l’ensemble de la population. Nous avons néanmoins
veillé à ce que les personnes sollicitées n’aient aucune idée de nos questions de
recherche. Pour pouvoir investiguer l’influence éventuelle de l’âge (selon la technique
du temps apparent), nous avons constitué deux groupes contrastés :
• Un groupe de 80 jeunes gens, dont 50 femmes et 30 hommes, âgés de 15 à 24
ans, encore en formation. Parmi eux, 40 habitent en banlieue populaire
parisienne et 40 à Grenoble et ses environs. [résultats publiés dans doc 19].
• Un groupe de 60 adultes, dans la vie active ou à la retraite, 36 femmes et 24
hommes, âgés de 27 à 90 ans (moyenne d’âge 49 ans) ; 45 habitent dans la
région grenobloise, 9 dans la région lyonnaise et 6 en région parisienne.
Parmi eux, 18 ont accepté de se soumettre aux entretiens après le
questionnaire. [Résultats inédits pour le moment].

La construction du questionnaire s’est faite avec l’ambition de ne pas révéler notre


point précis d’intérêt et de passer par des questions qui suscitent des tâches
d’évaluation perçues comme naturelles, et non des tâches cognitives déconnectées de la
pratique sociale habituelle des interviewés.
Ainsi, nous avons d’abord sélectionné 4 locutrices et un locuteur en raison de leurs
degrés différents de palatalisation/affrication et de leurs différences de pratiques dans
la prononciation en général, et nous leur avons demandé de lire la même dépêche, en
s’efforçant de lire comme des journalistes à l’antenne ; nous y avons rajouté une
journaliste professionnelle de RFI en train de lire une dépêche, pratiquement sans la
moindre trace de palatalisation-affrication de /t,d/. Dans un deuxième temps, nous
avons noté chaque réalisation de /t,d/ en contexte /i,y/ sur une échelle de 0 à 2 - allant
de l’absence de palatalisation-affrication (PalAff) au maximum d’affrication – ce qui nous
a permis de classer nos locuteurs en trois catégories selon le score moyen obtenu :

PalAff
Stimulus Locuteur
Taux Degré
RFI Journaliste confirmée 0,13
I faible
Extrait 1 Virginie, professeure des écoles 0,19
Extrait 2 Valentine, étudiante (Affr moyenne) 0,55
Extrait 3 Hugo, jeune journaliste 0,77 II moyen
Extrait 4 Samia, étudiante algérienne 0,87
Extrait 5 Valentine, étudiante (Affr forte) 1,30
III fort
Extrait 6 Myriam, lycéenne 1,42

Tableau 4. Taux global de PalAff pour chaque extrait. [doc 19]

La dépêche utilisée a été créée par les analystes (Trimaille, Candea, Lehka) et
contenait 18 contextes possibles de palatalisation de /t,d/. Sa lecture durait une
trentaine de secondes, de manière à laisser le temps aux auditeurs·trices de se faire une
77
opinion dans des conditions écologiques et perçues comme confortables. On peut noter
que les extraits inférieurs à 10s sollicitent des tâches cognitives spécifiques, si on se fie
aux résultats de Ohala et Gilbert 1981 ; de manière tout à fait intuitive, il est par ailleurs
aisé d’imaginer que plus l’extrait est bref, plus on s’éloigne des conditions naturelles de
communication parlée entre êtres humains, et plus on sollicite des tâches cognitives
particulières, spécifiques à la situation de test.
Pour présenter nos données et le sens de la tâche à accomplir, nous avons
demandé à nos auditeurs·trices de se mettre à la place d’une personne chargée des
recrutements de journalistes-stagiaires pour la radio et de répondre à quelques
questions sur les prestations des candidats et candidates qui se présentaient. Le choix de
cette situation reposait sur l’hypothèse que la plupart des gens placent très haut leurs
exigences de normativité pour ce métier, et tout particulièrement pour la lecture des
informations (cf supra). Une première question générale (désormais la « question A »)
proposait aux juges d’évaluer la conformité des prestations avec leurs attentes
prototypiques liées à ce métier. Elle était formulée ainsi :

En tant que directeur/directrice ou que personne chargée du recrutement des présentateurs


de journaux radiophoniques, pensez-vous que cette personne pourrait présenter les
informations ?

Quatre réponses étaient possibles, sur une échelle nominale allant du positif vers
le négatif : 1. tout à fait, 2. plutôt oui, 3. plutôt non, 4. en aucun cas.
Une question ouverte donnait ensuite l’occasion d’apporter des précisions pour
expliciter les points susceptibles d’être modifiés ou améliorés par chaque « candidat-e »
pour que sa prononciation se rapproche davantage des attentes. Cela nous permettait de
voir ce qui était plus saillant dans la liste des détails mentionnés comme à corriger, et de
vérifier si certaines formulations pouvaient faire penser à l’affrication (« cheveu sur la
langue, chuintement »…). Au final, la même échelle à quatre positions était mobilisée
pour permettre aux juges d’affiner leur verdict en fonction du type de chaine radio :
radio nationale, radio culturelle, radio jeune, radio communautaire. Cette astuce a très
bien fonctionné et a montré que les gens sont parfaitement capables de nuancer leurs
jugements si la situation leur semble crédible, ce qui représente un grand avantage par
rapport à un protocole plus décontextualisé où on demanderait aux gens simplement
d’évaluer la proximité ou la distance par rapport à un « standard » supposé unique. En
outre, la multiplication des types de radios a aidé à déculpabiliser les juges qui avaient
des scrupules à donner un avis négatif et à rejeter une candidature virtuelle : ils
pouvaient par ce biais refuser la candidature pour une radio nationale mais l’accepter
pour une radio jeune ou communautaire. Pour notre propos, les réponses qui ont retenu
notre attention ont été celles données à la question sur l’évaluation globale et à la
candidature pour une radio nationale, la plus exigeante.

Je reproduis ci-dessous la synthèse des résultats obtenus à la question sur


l’évaluation globale (fortement cohérents avec ceux obtenus au sujet de l’adéquation
avec les exigences d’une radio nationale). Le Tableau 5 présente les résultats chez les
jeunes et le Tableau 6 chez les adultes, et nous pouvons constater une très grande
convergence des avis exprimés ; la « hiérarchie » des préférences est rigoureusement la
même.

78
RFI E1 E2 E3 E4 E5 E6
Réponse
Degré I Degré I Degré II Degré II Degré II Degré III Degré III
tout à fait & plutôt oui 94 93 46 98 23 61 27
plutôt non & en aucun cas 6 7 54 2 77 39 73

Tableau 5. Distribution des réponses obtenues à la question A, en % arrondis, chez


les jeunes 15-24 ans.

RFI E1 E2 E3 E4 E5 E6
Réponse
Degré I Degré I Degré II Degré II Degré II Degré III Degré III
tout à fait & plutôt oui 96 82 50 100 28 42 42
plutôt non & en aucun cas 4 18 50 0 72 58 58

Tableau 6. Distribution des réponses obtenues à la question A, en % arrondis, chez


les adultes 27-90 ans.
La distribution des réponses obtenues est significativement différente du hasard
pour chacun des extraits évalués (test khi-2, p<0,001).
Chez les jeunes, toujours selon le calcul des khi-2, les distributions des réponses à
cette question sont significativement différentes pour chaque extrait si on les compare
deux à deux, sauf pour la paire Extrait 4 / Extrait 6, qui ont obtenu les évaluations les
plus négatives.
Chez les adultes, le calcul des khi-2 montre que les évaluations des Extraits 5 et 2,
et des Extraits 2 et 6 peuvent se confondre. Les évaluations obtenues ne hiérarchisent ni
ne distinguent entre eux ces trois extraits, à l’évaluation mitigée.
Mais ce qui est le plus important : aucune corrélation stricte n’a pu être mise en
évidence, ni chez les jeunes, ni chez les adultes, entre les évaluations et les taux moyens
de PalAff de chaque pseudo-candidat-e ; en outre, les remarques pouvant faire penser à
cette prononciation sont rarissimes. Les tableaux 7 et 8 mettent en parallèle les extraits
et les résultats des jeunes et des adultes.

comparaison
Stimulus Locuteur
Degré de PalAff Evaluation globale
Extrait 3 Hugo, jeune journaliste II
RFI Journaliste confirmée I positive
Extrait 1 Virginie, professeure des écoles I
Extrait 5 Valentine, étudiante (Affr forte) III
Valentine, étudiante (Affr mitigée
Extrait 2 II
moyenne)
Extrait 6 Myriam, lycéenne III
négative
Extrait 4 Samia, étudiante algérienne II

Tableau 7. Comparaison entre le degré de PalAff et les évaluations des jeunes.

79
comparaison
Stimulus Locuteur
Degré de PalAff Evaluation globale
Extrait 3 Hugo, jeune journaliste II
RFI Journaliste confirmée I positive
Extrait 1 Virginie, professeure des écoles I
Extrait 5 Valentine, étudiante (Affr forte) III
Valentine, étudiante (Affr mitigée
Extrait 2 II
moyenne)
Extrait 6 Myriam, lycéenne III
Extrait 4 Samia, étudiante algérienne II négative

Tableau 8. Comparaison entre le degré de PalAff et les évaluations des adultes.

Par exemple, malgré son taux de PalAff relativement élevé, c’est l’Extrait 3 (jeune
journaliste) qui obtient le plus de réponses positives, que ce soit chez les jeunes ou chez
les adultes. Ce locuteur rallie donc sans réserve (« tout à fait ») 88% des jeunes et 77%
des adultes, et rallie pratiquement la totalité des auditeurs si on inclut les réponses
« plutôt oui » ; cela représente un meilleur résultat que les Extraits 1, 2 et RFI, dont les
taux moyens de PalAff sont inférieurs. Ce qui semble avoir joué pour départager les
extraits, c’est la prosodie générale, plus ou moins proche du style formaté de cet exercice
de lecture d’informations. Les adultes y ont été plus sensibles que les jeunes, car ils ont
moins apprécié la lecture de Virginie, la locutrice prof des écoles (sa lecture respecte
toutes les attentes de la prononciation scolaire, mais s’éloigne du phonostyle
journalistique par sa prosodie).
Si on considère à présent l’Extrait 5, marqué par le plus fort taux de PalAff de notre
échantillon, on constate qu’il a reçu un nombre assez faible de réponses très négatives
(« en aucun cas »). En outre, chez les adultes, la présence ou l’absence d’une forte
affrication récurrente dans l’Extrait 5 n’a entrainé aucune différence notable dans les
évaluations par rapport à l’Extrait 2, produit par la même locutrice Valentine, avec un
nombre bien inférieur d’occlusives palatalisées ou affriquées. Chez les jeunes, l’Extrait 5
a même reçu plus d’évaluations positives que l’Extrait 2.
Quant à l’Extrait 6, qui présentait également un taux de PalAff très élevé, il a reçu
une évaluation plus sévère chez les jeunes que chez les adultes, mais rien ne permet de
l’imputer au taux de PalAff. Les remarques ont porté surtout sur son manque de fluidité,
car elle bute légèrement à deux reprises, et sur l’absence d’une liaison fort attendue
(quand#il avait). Je fais l’hypothèse que la sévérité des jeunes au sujet de l’Extrait 6
pourrait s’expliquer surtout par sa tonalité trop scolaire, encore très familière pour ces
jeunes en formation ; en parallèle, je fais l’hypothèse que l’attitude plus tolérante des
adultes par rapport à cet Extrait 6 pourrait s’expliquer surtout par la perception de son
jeune âge, et par une attitude globalement encourageante (de type la fille semble
dynamique, elle va s’améliorer) ; c’est ce qui résulte globalement des entretiens.
Le seul Extrait qui a fait l’unanimité contre lui a été l’Extrait 4, et le relativement
faible taux de PalAff ne pouvait en rien compenser l’effet global produit : les juges
percevaient un accent étranger, d’une locutrice qui a appris le français comme langue
étrangère, et malgré sa fluidité cela semble rédhibitoire aux juges sollicités pour
décrocher un stage à la radio.
Ce test nous donne des arguments allant dans le sens que le taux de palatalisation-
affrication, même très fort, n’est pas saillant pour les gens, même lorsque ceux-ci sont
80
amenés à évaluer clairement l’adéquation entre la prononciation d’une personne et les
attentes les plus normatives qui soient : celles qui portent sur la lecture d’informations
sur une chaine radio nationale. En résumé, une prononciation adéquate à tous points de
vue n’a pas de bonus « absence de PalAff » ; une prononciation adéquate à tous points de
vue, notamment pour la prosodie, n’est pas pénalisée par un taux moyen d’affrication.

Conclusions provisoires

Cet exemple de variantes émergentes en pleine évolution offre une fenêtre


intéressante sur les dynamiques sociophonétiques à un moment donné, et permet de
mettre à l’épreuve la pertinence des éclairages théoriques et méthodologiques multiples.
Il se peut qu’on assiste à un changement en cours, il se peut aussi qu’on assiste à un
mouvement très passager, qui va régresser. Dans les deux cas il est intéressant de
documenter le moment présent.

Pour l’étudier, nous avons d’abord tenu compte des apports des études
antérieures, bien entendu, notamment celles issues d’observations par immersion sur
différents terrains (Jamin, Gasquet-Cyrus, Trimaille).
Ensuite, nous avons décrit quantitativement des corpus différents :
• Une grande base de données radiophoniques contenant des émissions
d’information (travaux de Candea, Adda-Decker, Lamel)
• Des échantillons divers produits par des locuteurs aux profils sociaux variés
et contrastés (travaux de Trimaille, qui contraste la parole d’adolescent·e·s et
de ministres en exercice)
• Des stylisations caricaturales utilisant des ressources graphiques originales
(travaux de Trimaile, Candea, Lehka).

Ces approches fournissent des arguments faibles en faveur des deux hypothèses en
concurrence. D’un côté l’affrication progresse chez les locuteurs légitimes mais
faiblement, et elle progresse plus pour /t/ que pour /d/. D’un autre côté un stéréotype
semble émerger, mais peu de gens sont capables de l’expliciter. Les graphies pour noter
ces prononciations existent, mais elles sont sporadiques et non stabilisées.
Il semble qu’on ait encore besoin d’observations situées sur le terrain, à travers
une analyse fine des interactions, de manière à pouvoir affiner encore les hypothèses,
avant de lancer d’autres études quantitatives plus larges. Nous n’avons pas vraiment
d’hypothèses sur le mécanisme de diffusion de ces variantes. Ce champ reste à explorer.
En parallèle, nous avons tenté de rassembler les indices que peuvent nous fournir
d’autres locuteurs et locutrices, sollicités pour évaluer un petit échantillon de
productions orales ou écrites, sélectionné par nos soins.
En ce qui concerne la réception des graphies originales, une étude exploratoire a
montré qu’elle était finalement très mitigée, et qu’il est donc difficile de parler
véritablement de stéréotype émergent. On peut presque parler d’erreur de tir, de
caricature qui rate sa cible, dans le cas de Sattouf.
Notre étude perceptive combinant une approche de la perception globale, sans
focalisation de l’attention, interprétée selon des mesures quantitatives, et une approche
de la perception précise du phénomène de l’affrication, après focalisation artificielle de
l’attention, nous a fourni d’autres pistes de réflexion. Les résultats quantitatifs n’ont pas
permis de mettre en évidence une quelconque saillance perceptive du phénomène
lorsqu’il est « noyé » dans un faisceau d’indices, convergents ou divergents, comme cela
81
arrive dans la parole naturelle. En revanche, les discours recueillis en entretien ont
montré une extrême diversité des avis sur l’indexicalité (Silverstein 2003) de ce trait et
des capacités très diverses à entendre l’affrication (même après focalisation de
l’attention). Cette extrême diversité pour un échantillon de confort de 18 personnes ne
nous permet de faire aucune extrapolation, mais nous incite à approfondir la question.
Certaines réponses sont extraordinairement riches et intéressantes. C’est l’avantage de
la méthode choisie qui consiste à imaginer une situation la plus proche possible de
l’expérience des gens. En contrepartie, cette méthode ne permet pas d’isoler un trait, ou
de tester le poids de chaque trait potentiellement (dé)classant (Labov 2006). Pour cela,
il faut passer par des tests plus artificiels et par des échantillons de parole manipulés, ce
qui pose le problème de l’artificialité de la tâche cognitive demandée aux personnes
sollicitées (risque d’artéfact). C’est en effet en situation, en interaction, en contexte, que
les pratiques de prononciation prennent tout leur sens, fluide et négociable, (Campbell-
Kibler 2009; Campbell-Kibler 2007), sauf justement en cas de stéréotype très largement
partagé. Pour toutes ces raisons, je pense que les tests quantitatifs ciblés devraient être
mis en place le plus tard possible, une fois que les hypothèses issues de corpus
écologiques auront été suffisamment affinées, pour tenter d’extrapoler des hypothèses
reposant sur une petite quantité de données.
La multiplication des méthodes d’investigation pour une confrontation à bon
escient des résultats ne peut être qu’enrichissante. En ce sens, il reste une méthode qui
semble intéressante à mobiliser, et qui n’a pas encore été mise en place, à ma
connaissance, sur ce phénomène : l’analyse de la perception à travers les capacités
d’imitation des gens (soit imitations spontanées - sporadiques, soit imitations sollicitées
indirectement, pour préserver leur spontanéité, à l’instar de ce qui a été imaginé par
Pinget 2015). Dans notre corpus Tri-Can-Leh, nous avons relevé une douzaine
d’imitations spontanées, produites en interaction, et portant spécifiquement sur
l’affrication (Sperandio 2015). Cette piste reste entièrement à explorer.

II.1.3 L’exemple de l’épithèse vocalique


Deux autres pratiques de prononciation en français de France ont attiré mon
intérêt ; elles constituent des objets récents en sociophonétique du français et leur statut
mérite d’être discuté. Je les présente d’abord à part, car je n’ai trouvé aucune publication
qui les traite ensemble, et je ferai en conclusion une proposition pour les rapprocher.

Définition et hypothèses

L’épithèse vocalique consiste en la production d’un son vocalique central, parfois


nasalisé, imprévisible (pouvant donc être considéré comme parasite) à la frontière finale
d’un mot. La plupart du temps il touche des mots qui clôturent un groupe intonatif, mais
ce n’est pas obligatoire.
L’exemple prototypique de ce phénomène pourrait être « bonjour~e ! », prononcé
avec insertion de ce que Fonagy 1989 propose d’appeler un e d’appui, Léon 1993 un e
caduc terminal, Carton 1999 une épithèse vocalique et Hansen 1997; Hansen et
Mosegaard Hansen 2003 un [ə] prépausal.
La dénomination de Fonagy met en avant ses caractéristiques prosodiques : c’est
une voyelle assez brève, prononcée avec un contour descendant, jamais accentuée, qui
arrive toujours après la dernière syllabe d’un groupe et donc après une syllabe

82
proéminente, comme une béquille, comme un ‘appui’. La dénomination de Hansen &
Mosegaard Hansen met en avant son contexte distributionnel : cette voyelle est très
souvent produite avant une pause silencieuse, au point que ce trait a pu être
pratiquement intégré dans la définition. Ce point de vue est également interactionnel,
car en insistant sur son contexte pré-pausal les auteures formulent aussi l’hypothèse
qu’il pourrait s’agir d’un marqueur annonçant la pause et en même temps la non-clôture
du tour (pause interne au tour de parole). Pour finir, celle de Carton, que j’ai adoptée, se
focalise également sur son contexte mais de manière moins spécifiée (l’épithèse désigne
« l’adjonction en fin de mot d'un phonème non étymologique » ; ou, par extension en
musique grégorienne, « l’adjonction d’une note finale», TLF).
La dénomination de Carton a deux avantages : elle ne préjuge pas du statut
pragmatique ou de la position du mot touché dans le groupe intonatif, et elle ne nomme
pas la voyelle épithétique, ce qui permet d’inclure sous la même étiquette des voyelles
aux timbres plus ou moins centraux, plus ou moins ouverts et plus ou moins nasalisés.
Selon Carton, le timbre de la voyelle épithétique peut être influencé par le contexte
vocalique immédiatement précédent et bien entendu aussi par l’hypoarticulation. De
plus, Carton préconise d’inclure dans l’épithèse tout « son inattendu », non lié
strictement à l’étymologie. Ainsi, le mot « étude » pourra être prononcé en trois syllabes
avec un simple schwa à la fin dans le midi de la France, tandis que dans la moitié nord où
le schwa final d’un mot trisyllabique est inattendu, la prononciation [etydђ]
correspondra à l’adjonction d’une épithèse vocalique. Il m’a semblé que cette
désignation était plus descriptive qu’interprétative, ce qui était préférable, pour le moins
tant que l’on n’a pas élaboré une théorie en compréhension de ce phénomène.
La Figure 8 montre trois exemples d’épithèses vocaliques, (produites après
consonne, après voyelle orale et après voyelle nasale), extraites du Corpus Candea Conf
2008 analysé infra. Les transcriptions sous Praat sont en alphabet phonétique SAMPA.
Les captures d’écran affichent la courbe de la F0 et le spectrogramme.

chaque lecteur~e

83
à économiser~e

d’enseignement~e
Figure 8 : Exemples d’épithèses vocaliques [notées par un @] ; conventions SAMPA
Lorsqu’elle se produit après une consonne, elle rajoute une syllabe CV inaccentuée
à la fin du mot ; lorsqu’elle se produit après voyelle, elle forme toute seule une sorte de
syllabe finale toujours bien plus brève que la voyelle précédente, et accolée à celle-ci
sans coup de glotte, après une simple transition formantique, et avec rajout d’un
nouveau pic d’intensité.
La définition de Carton pose néanmoins un problème sérieux de délimitation de
son objet : elle ne permet pas de distinguer l’épithèse vocalique d’un euh marqueur du
travail de formulation en cours, dans les cas où ce dernier est produit immédiatement à
la fin d’un mot, sans la présence d’une pause silencieuse qui puisse permettre de
l’autonomiser pleinement. Conscient de ce problème, Carton préconise de considérer
que les deux phénomènes sont de même nature et correspondent à un continuum
impossible à segmenter, si ce n’est de manière arbitraire.
Hansen 1997 n’est pas de cet avis : pour elle, les deux phénomènes sont bien
distincts et elle écarte les euh d’hésitation de son étude sur le e prépausal, sans pour
autant donner ses critères précis. Son choix corrobore celui de Guaïtella 1991 qui se

84
focalise au contraire sur les phénomènes d’hésitation dont elle écarte les euh brefs.
Guaïtella considère les euh brefs « soit comme des mises en valeur lexicales, soit comme
des ajouts dans un but d’équilibrage rythmique » (p.125).
En ce qui me concerne, je considère que les deux phénomènes sont suffisamment
différents dans leurs caractéristiques et leurs fonctions pour écarter l’hypothèse du
continuum, malgré le fait qu’il est impossible de trouver un critère irréfutable pour
tracer une frontière entre les deux dans le cas très particulier du euh de travail de
formulation produit sans pause, à la fin d’un mot. Pour les distinguer, j’ai pris appui sur
les tendances claires des euh de travail de formulation non ambigus qui sont bien plus
longs qu’une syllabe normale. J’ai considéré (Candea 2000) qu’il s’agissait d’une épithèse
vocalique si le son vocalique ne dépassait pas le seuil moyen d’une syllabe longue située
en fin de groupe rythmique et dotée d’une intonation continuative (environ 200 ms, en
général) et si son intensité (dB) était moindre que celle de la syllabe accentuée
précédente. Si ces conditions ne sont pas remplies, donc pour les cas où le son vocalique
était prononcé avec une plus forte intensité ou avait une durée supérieure à celle des
syllabes longues, j’ai catégorisé la voyelle comme un euh marqueur de travail de
formulation. Ces critères suffisent pour trancher dans la quasi-totalité des cas, et il est
toujours possible de discuter en détail des quelques cas indécidables.
La description de ces épithèses vocaliques est intéressante car il semble bien qu’il
s’agisse d’une pratique de prononciation qui a changé dans les années ‘80-‘90 du 20e
siècle. Selon Carton 1999, ses origines sont à rechercher dans la tendance générale du
français à la syllabation ouverte ; le fait de produire des sons vocaliques à timbre central
en position finale de groupe est une pratique ancienne, notamment lorsqu’il s’agit de e
caducs post-consonantiques. Carton parle de « survivance du e féminin » et du « e de
détente » des orateurs anciens, dont on trouve trace dans le parler faubourien
« trainant » des années 30-40 ; mais il note que le e actuel a subi un changement de
statut pour devenir « l’appui d’un schéma mélodique cliché » (p.43).
Pour Fonagy 1989, qui se fie uniquement à son intuition, ce e d’appui semble
apparaitre dans le style « animé et peu formel », dans des énoncés à modalité marquée,
et semble utilisé de préférence par « les jeunes et les femmes ». Selon Léon 1993, il
pourrait s’agir d’une prononciation plus souvent féminine que masculine et pourrait
aller de pair avec la tendance à l’ouverture du timbre des voyelles attribuée aux « jeunes
filles dans le vent » et caricaturée par le chansonnier Jean Roucas (Léon, 1993 : 192-
193).
L’étude de Hansen 1997 a l’avantage de porter sur un très vaste corpus (5000
occurrences) de 24 locuteurs hommes et femmes, d’âges différents, enregistrés dans
trois situations différentes à raison de 2 heures par locuteur. Elle met en évidence
quelques régularités dans la distribution en fonction du contexte micro-phonétique,
notamment le fait que ces e se produisent après une syllabe fermée, en position
prépausale, mais elle formule surtout l’hypothèse que le macro-contexte (situation de
parole, profil sociolinguistique du locuteur) pourrait avoir une importance déterminante
pour favoriser ou inhiber ce son qu’elle considère comme une forme d’appui syllabique
post-coda consonantique, dont la fréquence est plus importante chez les jeunes.
Carton 1999 prend appui sur Hansen 1997 et confirme la progression du
phénomène. Dans son corpus (de 80 mini-séquences extraites de la parole de femmes et
hommes enregistrés en 1997-98 à la télé ou à la radio) il relève un certain nombre
d’occurrences d’épithèses vocaliques après voyelle, et donc produites en finale de
syllabe ouverte. Cela l’incite à émettre l’hypothèse qu’il pourrait s’agir d’une nouvelle

85
« clausule rythmique » et mélodique (p.41) plutôt que d’un appui syllabique censé éviter
la syllabation fermée.

Production : méthodes d’enquête et résultats

C’est dans ma thèse (Candea 2000) que j’ai été amenée à m’intéresser aux
épithèses vocaliques, dans un premier temps uniquement pour les distinguer des euh du
travail de formulation, et ensuite pour en comprendre le fonctionnement.
Après application des critères que j’avais fixés dans les rares cas où il pouvait y
avoir un doute, j’avais isolé plus de 500 voyelles centrales non étymologiques et
imprévisibles (dont certaines étaient autonomes, produites entre deux pauses
silencieuses) et j’en ai catégorisé 87% comme des euh de travail de formulation et 13%
(70 occurrences) comme des épithèses vocaliques (e d’appui). Mon corpus actif était
constitué de 70 minutes de récits de contes de fées, produits en 1997 par des élèves de
4e dans un collège de Suresnes, durant leurs cours de français consacrés à
l’entrainement à l’oral soutenu.
Du point de vue des caractéristiques distributionnelles, les épithèses de mon
corpus montraient des différences en temps réel par rapport aux données de Hansen
recueillies en 1989, et en temps apparent par rapport aux données de Carton recueillies
en 1997 auprès d’un échantillon d’adultes.
Tout d’abord celles de mon corpus étaient bien plus souvent produites à la suite
d’une syllabe ouverte (et~e, et puis~e, il vit~e, évidemment~e…) ; cela arrivait parfois
dans le corpus de Carton, et pratiquement jamais dans celui de Hansen, comme le
montre le Tableau 9 ci-dessous reproduit de Candea 2000 :

Euh d’appui Euh d’appui


après consonne après voyelle
Hansen 1989 98,94% 1,06%
Carton 1997-8 82,9% 17,1%
Notre corpus 1997 32,8% 67,2%
Tableau 9 : comparatif de la répartition des euh d’appui
(sources : Carton, 1999, p.38 et Hansen, 1997 p.186)
[reproduit de Candea 2000]

A la différence des deux autres corpus, les deux-tiers des occurrences étaient post-
vocaliques. Bien entendu, on ne peut rien extrapoler à partir d’un si petit échantillon de
parole, mais on peut au moins formuler l’hypothèse qu’il est devenu possible d’imaginer
que la structure de la syllabe de fin de groupe (suivie d’épithèse vocalique) pourrait à
terme n’avoir plus aucune incidence sur la probabilité de production d’une épithèse
subséquente. Autrement dit, que cette épithèse vocalique ne subisse plus de contrainte
distributionnelle de type phonotactique.
La deuxième différence notable entre mon corpus et les deux autres concerne la
présence d’une pause silencieuse subséquente à l’épithèse vocalique. Là encore, on peut
faire l’hypothèse d’une évolution dans le sens d’une possible tendance au relâchement
des contraintes.
Tandis que Fonagy (1989) avait associé le e d’appui à une fin d’énoncé, Hansen
montrait que les pauses non finales étaient légèrement plus souvent précédées par un e
épithétique par rapport à celles de fin, surtout chez les locuteurs et locutrices qu’elle
appelle les « hyperfinalistes », qui produisaient le plus souvent ce type d’adjonction
86
vocalique. Cela dit, dans le corpus de Hansen, 99,64% de ces e étaient bel et bien
prépausals, comme elle a proposé de les nommer. Pour Carton (1999) « l’épithèse
vocalique se situe toujours en fin de groupe phonétique, et le plus souvent à la pause, finale
ou non » (p.42). Mais il n’utilise pas cette caractéristique comme critère définitoire, car
selon lui la pause subséquente reste facultative. Ce qui est déterminant pour lui, c’est la
présence d’une voyelle accentuée, immédiatement suivie par cette épithèse qui « permet
aussi [...] de percevoir, par contraste, la voyelle accentuée avec plus de relief qu’elle n’en a
en réalité » (p.41). Selon Carton, bien que ce soit la voyelle accentuée précédant
l’épithèse qui porte le ton de frontière, celui-ci est rendu plus saillant par la présence de
la voyelle adjointe sur un ton descendant. En ce qui concerne mon corpus, cette
tendance est encore plus marquée : seul un quart des épithèses vocaliques était suivi par
une pause silencieuse, les autres étaient totalement intégrées au flux de parole.
Néanmoins, la présence de cette clausule rythmique contribuait à autonomiser les
groupes accentuels, malgré l’absence de pause silencieuse, comme pour renforcer une
frontière non finale.
Ces hypothèses qui vont dans le sens d’une progression d’un marqueur de plus en
plus autonome, défini par son timbre vocalique et son pattern rythmique, ont bien
évidemment besoin d’être testées sur un corpus plus important, correspondant à des
situations diverses, impliquant des personnes avec des profils divers et surtout elles ont
besoin d’être confrontées à des études perceptives.
En ce qui concerne le type de corpus, on ne peut exclure l’hypothèse de l’existence
d’un facteur stylistique ou situationnel, même si Hansen 1997 a tenté de mettre en
contraste, par une analyse quantitative variationniste, trois types de situations
prototypiques (lecture, interview, conversation amicale) et n’a pu mettre en évidence ni
un effet de la modalité d’énoncé ni un effet du type de situation. Avec une exception,
néanmoins : la lecture à haute voix inhibait la production des e prépausals uniquement
chez les très jeunes (15 à 19 ans). Cette exception l’a incitée à avancer l’hypothèse d’un
possible début de processus de stigmatisation qui aurait pu avoir poussé ces jeunes à
éviter de produire ces voyelles en style très surveillé (op.cit., p.182 et 193).
Dans la mesure où je n’avais pas pu enregistrer les élèves de mon corpus dans
différentes situations à contraster entre elles, puisque je m’étais contentée d’enregistrer
les séances de cours de français animés par une enseignante qui acceptait ma présence,
je n’ai pas pu tester cette hypothèse avec ces jeunes.
Si on résume les hypothèses qui se dégagent des approches quantitatives
(démarches descriptives et inductives à partir de quelques corpus de parole et de
quelques contextes particuliers), [doc 26], on peut retenir ceci :
• l’épithèse vocalique semble correspondre à l’adjonction d’une brève voyelle
inattendue, de timbre central, caractérisée par un contour mélodique
particulier (ton descendant, intensité moins forte que la syllabe précédente)
et produite à la fin d’un groupe accentuel suivi ou non d’une pause
silencieuse ;
• si les premières descriptions faisaient état de contraintes distributionnelles
fortes (présence d’une pause silencieuse subséquente, présence d’une syllabe
fermée immédiatement précédant la voyelle épithétique), les études
ultérieures mettent en avant une tendance à l’affaiblissement des ces
contraintes (voire, la possibilité qu’elles disparaissent) ;
• à la fin des années ’90, plusieurs études font l’hypothèse qu’il pourrait s’agir
d’une pratique de prononciation en progression, de plus en plus utilisée par

87
les jeunes (parfois l’ancrage parisien spécifique est mentionné comme
hypothèse)
• aucun facteur stylistique ne peut être mis en évidence avec les techniques
classiques de l’analyse variationniste, à travers des situations artificiellement
contrastées (lecture, conversation amicale, interview), mais l’hypothèse d’une
fonction stylistique ne peut être écartée.

Autrement dit, les approches mentionnées jusque là nous donnent une bonne idée
des caractéristiques acoustiques et distributionnelles d’un phénomène rythmique
particulier et nous permettent de formuler des hypothèses sur une possible progression
de ce phénomène pour le moins chez les locuteurs et locutrices jeunes, mais nous ne
savons pas vraiment quelle est la signification en contexte de l’adjonction de cette
voyelle, qui reste malgré tout absolument sporadique et imprévisible, ni comment elle
est perçue par celles-ceux qui la produisent et par celles-ceux qui ne la produisent
jamais. Nous ne savons pas non plus quel genre de personne a tendance à en produire
beaucoup et quel genre de personne a tendance à ne jamais en produire, si tant est qu’on
puisse trouver une régularité socialement organisée.
Nous ne savons pas non plus quel est le statut de cette voyelle, car le fait qu’elle
soit sporadique la distingue de manière radicale de ce qui pourrait être décrit comme un
changement phonétique. Adjoindre ici ou là, plus ou moins souvent, une voyelle finale
avec un contour prosodique particulier, c’est très différent du fait de modifier
globalement le timbre d’une voyelle, pouvant aller jusqu’à toucher la production de la
totalité des voyelles correspondant à un phonème particulier. L’épithèse vocalique ne
saurait jamais, en aucun cas, chez personne, toucher l’intégralité des finales de groupes
accentuels. Il manque donc un maillon important dans la description du phénomène.
Pour avoir des indices plus fins, il semble indispensable d’analyser de plus près des
contextes précis, situés, d’un point de vue interactionnel.
La seule étude qui aille dans ce sens, à ma connaissance, est celle de Hansen et
Mosegaard Hansen 2003 qui proposent d’en faire une sorte de particule discursive ou
particule à valeur expressive, pouvant être régiolectale (parisienne). Leur étude porte
sur une série de 9 interviews réalisées en 1993 avec 4 jeunes (moins de 23 ans) et 5
adultes (quadra- et quinquagénaires). Les auteures rappellent les origines probables de
la production de ce son (un phénomène de détente articulatoire) et elles mettent en
avant le fait qu’il s’est affranchi du facteur étymologique car il peut apparaitre à la fin de
n’importe quel mot et non seulement à la fin d’un mot finissant par un e caduc. Même si
leurs données montrent une prédilection pour le contexte suivant une syllabe fermée
par deux consonnes, ce facteur n’est pas déterminant. De même, leurs données montrent
une préférence pour le contexte « frontière non-finale », mais un cinquième de leurs
exemples sont produits à une fin d’énoncé, ce qui montre qu’il ne s’agit pas, là non plus,
d’une vraie contrainte. Du point de vue des profils des locuteurs, la seule régularité qui
semble émerger c’est le facteur « âge » : cette particule pourrait bénéficier d’un prestige
latent chez les jeunes, tandis qu’elle serait plutôt stigmatisée par les plus âgés. Pour le
moins, jusque vers les années 90, quand sa connotation a semblé se renégocier.
Mais pour qu’elle soit produite, il ne suffit pas que le contexte syllabique ou
prosodique soit favorable, ou que le locuteur ou la locutrice soit jeune ; il faut en outre,
selon Hansen & Hansen, que l’interaction soit « de qualité », qu’il y ait une certaine
connivence entre les participant·e·s, et que, dans la logique locale de l’interaction, il soit
pertinent de mettre en relief un énoncé ou un élément d’énoncé. Selon les deux auteures,
la fonction première de ce qui pourrait être décrit comme un « suffixe à fonction
88
interactionnelle/modalisatrice » [op.cit. p.106] est de mettre en relief le constituant
précédent. Cette mise en relief est susceptible d’être interprétée comme un indice
d’inachèvement du tour de parole, mais ce serait une conséquence accessoire,
irrégulière, fortement dépendante du contexte.

« Le fait qu’une telle mise en relief d’une partie de son discours peut permettre au locuteur de
garder la parole au delà d’un PTP [point de transition potentiel] n’est donc qu’une fonction
dérivée dont la pertinence dépendra du contexte concret d’apparition. » (op.cit. p. 107)

Selon ces deux auteures, le fait de ne pas pouvoir mettre en évidence des facteurs
courants de stratification sociale par une approche variationniste classique (à part le
facteur « âge ») s’explique par la valeur pragmatique acquise par cette particule, et donc
par sa dépendance très forte des enjeux interactionnels. L’hypothèse de la progression
de cette particule, ainsi que celle de sa valeur pragmatique demandent à être
approfondies par l’étude d’autres corpus.

En ce qui me concerne, j’ai plutôt remarqué l’absence de cette particule dans la


parole des lycéen-nes de mon corpus « ZEP-Sciences Po » construit dans les années
2006-2013 et sa présence très sporadique dans la parole de certain·nes enseignant·e·s.
Je n’ai pas mené d’étude approfondie sur ce corpus en ce qui concerne l’épithèse
vocalique, en raison du nombre très faible d’occurrences. Pour étudier un marqueur
sensible à la qualité de l’interaction et qui ne fait pas partie du répertoire de toute une
catégorie de locuteurs identifiables a priori il est très difficile de constituer un corpus
pertinent, qui contienne assez d’occurrences. Il faut en quelque sorte avoir de la chance.
A ce propos, j’ai eu l’occasion d’enregistrer, tout à fait par hasard, la conférence
d’un collègue en 2008, produite lors d’un colloque. Ce collègue a lu le texte de son
intervention devant une salle d’une trentaine de participant·e·s universitaires, et j’ai été
frappée par la récurrence de cette particule dans sa prononciation. Intriguée, je lui en ai
parlé durant une pause ; il m’a répondu qu’on lui avait déjà fait cette remarque mais qu’il
n’avait pas vraiment d’avis sur cette prononciation, et m’a autorisée à conserver
l’enregistrement pour mener une petite étude exploratoire à ce sujet. La situation était
donc une lecture à haute voix, devant un public de pairs. Comme il s’agissait de lire un
support écrit au préalable, les énoncés étaient équivalents à des phrases. Bien entendu,
on peut distinguer des séquences hiérarchisées dans une telle communication.
L’interaction obéit à des contraintes claires. Le locuteur ne peut pas être interrompu par
le public, mais le respect du temps imparti est contrôlé par la présidente de séance
assise à côté du locuteur ; le public peut manifester son intérêt ou son désintérêt par des
postures corporelles ; conserver l’attention du public représente un enjeu pour tout
locuteur dans cette situation. Il s’agit donc bien d’une lecture à haute voix, mais il n’est
pas question pour moi de considérer que la lecture haute voix constituerait un
phonostyle homogène en français, qui échapperait à l’analyse des interactions et aux
enjeux de la situation21.

21 Selon moi, comme je l’ai déjà écrit plus haut (partie I), entre une lecture rapide produite par une

personne pour les besoins d’une enquête phonétique, pour rendre service à un-e universitaire, une lecture
laborieuse produite par un-e jeune élève en classe, pour répondre à une consigne scolaire, une lecture
journalistique en voix off pour un reportage sur des pratiques commerciales abusives, ou la lecture faite
par un chercheur de son propre texte soumis à l’évaluation immédiate de ses pairs, il n’y a pratiquement
89
Voici mes observations à partir de cette séquence de 30 minutes.
Tout d’abord, la figure 9 présente une vue d’ensemble de la distribution dans le
temps des épithèses produites : il y en a eu 99 en tout, dont 85 après un contour
prosodique continuatif et 14 en finale d’énoncé. Cela donne une moyenne générale d’une
épithèse vocalique toutes les 30 secondes. Chaque barre verticale matérialise la
production d’une telle épithèse. La deuxième ligne indique celles qui sont produites en
fin d’énoncé (« fin »), tandis que la troisième ligne indique celles qui ne sont pas
prépausales (« non »).

Figure 9 : Distribution temporelle des épithèses vocaliques produites durant une


conférence de 30 minutes (corpus Candea Conf 2008).

On remarque qu’elles sont assez fréquentes (elles se suivent la plupart du temps à


des intervalles allant de 3 à 50 secondes), sauf à certains moments où il se passe 90
secondes sans aucune épithèse de ce type. Il n’y a que trois occurrences qui ne soient pas
suivies par une pause silencieuse d’au moins 200 ms : les trois ont été produites à des
moments d’accélération du débit, particulièrement durant les 5 dernières minutes
pendant lesquelles on remarque une densité accrue de ce marqueur : la conférence
s’approchait de sa fin et le conférencier était en difficulté pour respecter le temps.
Comme il avait dépassé le créneau imparti de quelques minutes, ce qui lui a été signalé
discrètement par des petits panneaux (« il reste 2 minutes », etc.), cela a favorisé une
très forte accélération de son débit. Mais 97% des épithèses vocaliques de ce corpus
sont prépausales, ce qui est sans doute à mettre en relation avec le fait qu’il s’agit de la
lecture d’un texte déjà rédigé.
Il est difficile d’établir une comparaison précise avec les facteurs phonotactiques
décrits par Hansen et Mosegaard Hansen 2003 en raison du fait qu’elles n’avaient pris
en compte que les épithèses vocaliques produites après consonnes. Or, dans ce corpus, il
y a pratiquement autant d’épithèses vocaliques après voyelles qu’après consonnes, pour
le moins dans les contextes continuatifs, comme le montre le tableau suivant. Toutes les
voyelles orales et nasales qui peuvent se trouver en fin de groupe intonatif peuvent
également être prolongées par une épithèse vocalique à timbre central ; j’en ai relevé à
la fin de mots comme « en réalité~e, à développer~e, éditées~e, particulier~e,
photocopies~e, écologie~e, endroits~e, formation~e, généralement~e, au fond~e,
point~e, sociaux~e »…).

rien en commun, si ce n’est le fait que le texte est structuré selon les règles de l’écrit et qu’il n’y a pas de
travail cognitif de formulation, puisque le contenu s’impose au cerveau à travers un support extérieur.
90
Epithèses Durée Après voyelle Après Après consonne
vocaliques orale voyelle
nasale
Intérieur 70 à 140 ms, 26 occ. 13 occ. 46 occ.
énoncé moyenne 100 ms /a, e, i, o, y, ∅/ /ã, õ, ɛ̃ / /f,v,s,z,R,l,t,k,b,ŋ,ɲ/
Fin 50 à 80 ms, néant néant 14 occ.
d’énoncé moyenne 60 ms /s,z,k,b,l,f,st,pt/

Tableau 10 : Distribution énonciative et phonotactique des épithèses vocaliques


(Corpus Candea Conf 2008)

Dans le corpus de Hansen et Mosegaard Hansen 2003 il y avait plus d’épithèses


après des codas consonantiques doubles, qu’après des consonnes seules ; ce n’est pas le
cas ici, où j’ai relevé un seul exemple dans la catégorie avec contour continuatif (après le
mot « béhavioriste ») et deux exemples dans la catégorie fin d’énoncé, après les mots
« éco-geste » et « concept ». En outre, dans le corpus cité plus haut les auteures
signalaient n’avoir presque pas trouvé d’exemples de e prépausals après des consonnes
fricatives ; or, dans le corpus analysé ici j’ai relevé 17 cas d’épithèses prépausales après
/f,v,s,z/, à la suite de mots comme « à distance~e, conférence~e, discursives~e,
descriptives~e, éducatif~e, progressif~e, positif~e, entre parenthèses~e, à la base~e »…) ;
comme on peut le voir, la présence d’un schwa graphique n’est en rien obligatoire.
Ces données, pour le moins celles qui concernent le contexte « intérieur de
l’énoncé », confortent en réalité l’hypothèse que cette épithèse vocalique ne subit plus
aucune contrainte de type phonotactique et incitent à abandonner purement et
simplement toute tentative d’explication par des contraintes articulatoires. Ce marqueur
peut être produit après tout type de mot et tout type de syllabe, et semble obéir à des
contraintes énonciatives et/ou stylistiques et non à des contraintes articulatoires.
Pour la position « fin d’énoncé » les données sont différentes : l’épithèse vocalique
n’apparait jamais après voyelle et elle est bien plus brève. En outre, elle n’insère jamais
de décrochage intonatif car les finales d’énoncés où elle apparait sont plates ou
descendantes. On peut se demander s’il s’agit du même phénomène : l’épithèse
vocalique placée après un contour continuatif semble aller dans le sens de l’hypothèse
citée plus haut, d’un suffixe à valeur interactionnelle/modalisatrice, tandis que l’épithèse
vocalique en fin d’énoncé ressemble davantage à un simple phénomène de détente
articulatoire. On relève de telles détentes en fin d’énoncé inférieures même à 50 ms,
mais elles semblent très difficilement perceptibles à l’oreille, même avec focalisation de
l’attention ; je ne m’y suis pas intéressée ici.

Si l’on revient aux hypothèses formulées par Hansen et Mosegaard Hansen 2003,
quel peut être l’apport particulier de ce nouveau corpus ?
Il est difficile d’apprécier la « qualité de l’interaction » lorsqu’il s’agit d’une lecture
devant un public qui ne peut pas prendre la parole durant 30 minutes, mais si ce critère
est à interpréter dans le sens du degré d’aisance des participants nous pouvons penser
qu’il s’agit d’une interaction de qualité, dans le cadre donné. En effet, le chercheur qui
expose son point de vue est un chercheur chevronné, à l’aise dans cet exercice, qui
s’exprime devant un public suffisamment nombreux – ce qui est toujours encourageant
dans ce genre de situation. Le public compte à la fois des universitaires connus par
91
l’orateur, ce qui contribue à créer une ambiance cordiale, et des universitaires inconnus,
ce qui témoigne de l’attractivité du sujet au de-là du cercle des collègues habituels. Le
point de vue exprimé semble être perçu comme suffisamment original et intéressant en
fin d’exposé pour susciter plusieurs questions de la part du public – là encore un indice
d’interaction réussie. Si l’hypothèse de la qualité de l’interaction est pertinente, ce
locuteur devrait produire nettement moins d’épithèses vocaliques dans d’autres
situations où il serait moins à l’aise. Cette hypothèse plaide pour l’intérêt de construire
un corpus centré sur une seule et même personne dans une grande variété de situations
naturelles de sa vie personnelle et professionnelle, ce qui est un vrai défi pratique et
éthique à relever…
Il est plus facile de se pencher sur l’hypothèse d’un marqueur d’emphase ou « mise
en relief de l’élément précédent (ou de l’énoncé entier dans lequel apparaît cet élément) »
qui pourrait avoir comme fonction dérivée le fait de « permettre au locuteur de garder la
parole au-delà d’un point de transition potentiel ». (idem op.cit., p.107). En effet, dans ce
corpus le fait de garder la parole est assuré par le dispositif interactionnel (le setting) et
la production fréquente d’épithèses vocaliques ne peut pas avoir cette fonction, mais on
peut tout à fait conserver l’hypothèse de l’emphase. Comme il s’agit d’un exposé qui
présente un point de vue potentiellement polémique, notamment par des propositions
visant à élargir le périmètre de ce qu’on désigne habituellement sous l’étiquette e-
formation, l’utilisation fréquente d’une marque d’emphase pour mettre en avant des
constituants d’énoncé et stimuler ainsi l’attention et la curiosité du public parait une
hypothèse recevable. En ce sens, il est intéressant de regarder de plus prés ce qui ce
passe dans les quelques séquences d’environ 90 secondes prononcées sans aucune
épithèse de ce type. Il y en a quatre, et je les résume ci-dessous :
• 1/ [95 secondes] : état de l’art général et quelques brèves citations
• 2/ [87 secondes] : lecture rapide de quelques extraits de corpus présents
dans l’exemplier distribué
• 3/ [87 secondes] : état de l’art sur les théories de l’apprentissage
• 4/ [180 secondes] (une seule épithèse durant ce laps de temps, après un
connecteur « au fond~e ») : conclusions qui récapitulent le propos

L’analyse du contenu de ces parties exemptes d’épithèses vocaliques montre qu’il


s’agit soit (pour les trois premières) de passages où le locuteur ne met pas en avant son
point de vue différencié mais présente d’autres discours, non soumis au jugement du
public qui écoute, soit (pour la dernière) de la partie conclusive où ce qui est présenté
n’est plus nouveau car il s’agit d’une reformulation condensée du propos exposé en
détail au préalable. Cela est donc compatible avec l’hypothèse d’une « particule
modalisatrice/interactionnelle », marque d’emphase, pour guider l’attention du public.
Guider et garder l’attention du public reste un enjeu même si celui-ci ne peut pas
intervenir immédiatement, car sa réaction est fortement attendue à la fin de
l’intervention, et l’absence de toute question serait interprétée comme un relatif échec
de la communication.

Regardons maintenant de plus près un exemple d’énoncé où le locuteur produit


quatre épithèses en 19 secondes, soit une très forte concentration. Il s’agit précisément
d’un moment où le conférencier s’adresse de façon particulière à des membres d’une
équipe qu’il connait bien (le SYLED-CeDISCor), présents dans la salle, pour souligner le
caractère divergent du point de vue qu’il s’apprête à exposer. Je transcris ce passage en

92
entier ci-dessous, en incluant la notation des pauses silencieuses en ms. Les épithèses
vocaliques et les syllabes auxquelles elles se rattachent sont soulignées :

d'ordinaire l'analyse du discours telle qu'on la pratique au SYLED –CeDisCor~e /450/ parle
de la description des configurations discursives~e /400/ et une fois cette description opérée~e
/310/ celles-ci~e /400/ sont interprétées à la lumière d'‘ailleurs’~e /210/ ces ailleurs entre
guillemets /210/ faisant souvent référence à ce que proposent des domaines disciplinaires
connexes /670/
ma démarche est ici inversée puisque je ne pars pas des configurations discursives pour
aboutir à des interprétations locales ou globales /570/

Les épithèses se trouvent toutes dans le premier énoncé, à la fin de chaque groupe
intonatif terminé par un ton montant suivi d’une pause silencieuse. La voyelle
épithétique est toujours prononcée avec une intonation basse, ce qui introduit un
décrochage intonatif audible par rapport à la syllabe précédente prononcée sur un ton
montant, souvent avec un contour complexe. Le tableau suivant détaille les durées des
séquences et le décrochage mélodique final pour chaque occurrence :

Durée du Groupe intonatif Décrochage mélodique Durée


groupe final voyelle
intonatif épithétique
3900 ms d'ordinaire l'analyse du discours telle qu'on 220 → 110 Hz 100 ms
la pratique au SYLED –CeDisCor~e /450/
2710 ms parle de la description des configurations 245 → 110 Hz 110 ms
discursives~e /400/
2260 ms et une fois cette description opérée~e /310/ 240 → 110 Hz 120 ms
770 ms celles-ci~e /400/ 340 → 120 Hz 120 ms
2160 ms sont interprétées à la lumière d'‘ailleurs’~e 117 → 103 Hz 110 ms
/210/
5500 ms ces ailleurs entre guillemets /210/ faisant
souvent référence à ce que proposent des
domaines disciplinaires connexes /670/
Tableau 11 : durée des séquences et hauteur du décrochage final

Nous pouvons constater qu’il n’y a pas de régularité rythmique, car la taille des
séquences qui séparent deux épithèses vocaliques varie entre moins d’une seconde et 4
secondes. Il s’agit véritablement d’un marqueur qui met en relief la fin de chaque
constituant à finale montante, et donc la construction énonciative, dans les limites des
contraintes syntaxiques22. Ce que nous pouvons retenir de ce passage, c’est que le
locuteur détache scrupuleusement chaque constituant intonatif en mettant en relief sa
finale durant toute la longue phrase qui annonce et introduit l’expression de son point
de vue original. L’emphase semble ici stylistiquement pertinente, et l’hypothèse d’un
fonctionnement comme particule modalisatrice/interactionnelle s’en trouve renforcée.
Il apparait donc intéressant de poursuivre cette piste par l’étude d’autres types
d’interactions et d’autres profils de locuteurs.

22 Par exemple le connecteur « d’ordinaire » aurait pu être détaché mais ne l’a pas été, tandis que le
sujet pronominal « celles-ci » a été mis en relief alors qu’il aurait pu ne pas l’être.
93
Cela étant dit, pour que l’on puisse parler d’émergence d’une nouvelle particule qui
se généraliserait en français, il faudrait que celle-ci soit connue et/ou produite
potentiellement par un très grand nombre de locuteurs/locutrices de français, pour le
moins dans une certaine tranche d’âge. Qu’en est-il ? On peut précisément aborder ce
questionnement par des études perceptives.

Perception : méthodes d’enquête et résultats

La première question à se poser pour avoir une première indication sur la


notoriété et la stabilité d’une pratique de prononciation porte sur l’existence de discours
épilinguistiques spontanés, produits par des non-professionnels de la phonétique ou de
la linguistique, et éventuellement sur l’existence d’une codification graphique largement
partagée de la prononciation en question.
Qu’en est-il concernant l’épithèse vocalique ? Quel est son degré de saillance dans
des situations non expérimentales ?
Je n’ai pas mené de véritable enquête pour débusquer une grande quantité de
discours épilinguistiques à ce sujet, car ce serait excessivement chronophage et la
récolte ne montrerait probablement pas une très grande diversité. En outre, comme je
l’ai déjà souligné, il serait illusoire de vouloir construire un échantillon représentatif de
tels discours : sur quelles bases décider qu’il serait représentatif ?

Je me suis contentée de rassembler un petit florilège, par sondage.


Les premiers discours que j’ai pu attester paraissaient dans « Le manuel
ado/parent » d’E. Girard et B. Kernel, paru en 1994 (Pocket), se présentant comme un
guide de conversation entre les parents (qui ne comprennent plus le langage des ados)
et leurs enfants. Ce phénomène d’adjonction d’une voyelle non étymologique en finale
des mots est évoqué dès le tout début du livre, « Règle n°1 : La prononciation ». Les
auteures partent du principe que les ados parlent « avec un accent particulier » et que
cela les rend « difficilement compréhensibles ». Elles proposent de décoder cet accent,
pour les parents, en passant par une graphie présentée comme phonétique pour donner
un exemple :

« Et pour cela, prenons une phrase lambda d’un ado lambda retranscrite phonétiquement :
- T’voi-an, jan né marr-an d’méé vieu-an. I zon rien-an compri-an.
Et comparons-la avec sa traduction phonétique en français « adulte » :
- Tu voi, jan né marre de mé vieu. Il zon rien compri.
Deux éléments sautent immédiatement aux yeux : 1/ la contraction (t’voi, i zon) ; 2/ la
terminaison en an (marr’an, compri-an). Bravo ! Vous possédez maintenant les deux clefs de
la prononciation ado. » (idem, p. 17).

Passons sur la présentation de la contraction ou la prononciation [i] de ils devant


consonne comme spécifique des ados des années ’90, car ce n’est pas le sujet ici. Passons
également sur la bizarrerie non discutée par les auteures du doublement de la voyelle du
déterminant dans « méé vieux » ; cette graphie suggère l’allongement de l’avant-dernière
syllabe, autre phénomène très ancien et largement répertorié en français, rattaché à la
tendance paroxytonne des langues romanes, qui semble peu compatible avec une
adjonction de voyelle finale, si l’avant-dernière syllabe s’allonge, la dernière perd son
accent et il devient absurde de lui adjoindre une autre voyelle non accentuée et
descendante, qui serait là pour mettre en relief justement la syllabe précédente.

94
Intéressons-nous à la voyelle épithétique. On remarque que là où les phonéticiens
(Fonagy, Carton, Hansen) ont vu un schwa qui peut s’ouvrir un peu ou se nasaliser, les
auteures du Manuel ado / parent ont surtout perçu une nasale ouverte. Elles ne sont pas
les seules, loin de là : cette représentation semble assez largement partagée et en partie
stabilisée. J’ai trouvé une occurrence publiée en août 2016, donc plus de 20 ans après le
Manuel ado / parent, sur un forum de discussion entre jeunes de 18-25 ans, où un
message précédent avait abordé un autre sujet lié à la prononciation (j’y reviens dans la
partie II.1.4) :

Le pire c'est les gens qui ajoutent des "an" à la fin des mots/phrases
Genre comme ça an
Tu vois an ?
Ça fait extrêmementt pd an
Site « jeuxvideo.com », Forum Blabla 18-25 ; message posté le 12 août 2016

Il est possible que la perception nasale « an » qui me semble largement partagée -


bien qu’elle ne corresponde pas à toutes les occurrences de ce marqueur produit parfois
en voix craquée, avec un timbre plutôt ouvert et assez antérieur, nasalisé ou non - ait été
influencée chez la plupart des gens par l’existence de la particule « hein », très fréquente
à l’oral, suffisamment stabilisée pour qu’elle dispose d’une entrée dans les dictionnaires
et d’une orthographe officielle et dont les rôles sont très variés en français. Cette
particule a été considérée comme un ponctuant du français par Morel et Danon-Boileau
1998, ou comme une particule énonciative aux valeurs multiples (Léglise 1999) ou
encore comme un possible indice de consensualité (Delomier 1999). Sa notoriété a pu
influencer la perception de gens qui ont cru entendre une sorte de « hein », plus ouvert,
avec une ou des fonction(s) énonciatives nouvelle(s).
En ce qui concerne la graphie « e » ou qui a été plus souvent utilisée par les
linguistes, celle-ci a dû être influencée par le rapprochement avec le fonctionnement du
« e caduc », doté d’un timbre central ; c’était la seule voyelle du français réputée pouvoir
être prononcée de façon sporadique dans certains contextes et influencée par des
facteurs sociaux ou régionaux. En somme les linguistes semblent avoir perçu une sorte
de e caduc final, avec un timbre plus ouvert et parfois nasalisé, comme une variante de
prononciation avec une distribution non étymologique énormément élargie, mais sans
fonction énonciative susceptible de se stabiliser.

A l’oral, j’ai également relevé des indices d’émergence d’un stéréotype en train de
se stabiliser dans les stylisations humoristiques et caricaturales. Ce marqueur apparait,
dans les exemples que j’ai pu découvrir (chez Anne Roumanoff ou Florence Foresti)
lorsqu’il s’agit de styliser la parole d’une jeune femme ou jeune fille superficielle,
prétentieuse et/ou snob. C’est le choix qui a été fait, pour le moins en 2013-2015, par
l’équipe de l’émission les Guignols de l’Info (Canal +) pour la création de la marionnette
de Cécile Duflot, ancienne secrétaire nationale du parti Europe-Ecologie les Verts et
ministre de l’égalité territoriale et du logement dans le gouvernement Ayrault. Sa
marionnette est souvent plus occupée par les applications de son smartphone, la mode
et les sorties avec ses copines que par la politique et les sujets de débat sur
l’environnement ou la politique. Elle utilise un vocabulaire parfois branché, parsemé de
mots en verlan, mais souvent vulgaire ; et se montre très impertinente et traite de
« boloss » le journaliste qui souhaite l’interviewer, etc. Or, sa marionnette produit

95
régulièrement des épithèses vocaliques : cela semble faire partie de ses caractéristiques
stylistiques.
J’ai sélectionné ci-dessous deux exemples de telles épithèses relevés durant les
prestations de la marionnette de Cécile Duflot en dialogue avec la marionnette de
Patrick Poivre d’Arvor, en novembre 2014.
Le premier ressemble à peu près aux épithèses vocaliques relevées dans mes
autres corpus : il s’agit d’un e épithétique post-vocalique adossé directement à un
contour montant et continuatif. Sa durée est de 100 ms.

Figure 10 : phonostyle caricaturé : « le seul truc écolo qu’i(l) fait~e, c’est …. »

Le contour intonatif est banal pour une telle épithèse, sa distribution également ; il
sert à mettre en relief le groupe intonatif, qui réalise déjà une focalisation syntaxique ;
cela augmente le suspense pour annoncer la chute censée provoquer le rire (« le seul
truc écolo qu’il fait~e, c’est manger ses crottes de nez »). La seule différence prosodique
avec les exemples que j’ai relevés dans les autres corpus, sans dimension caricaturale,
c’est que ce e épithétique est produit avec bien moins d’intensité que la voyelle qui le
précède.
Le second exemple que j’ai retenu est très différent. Il est produit à la fin d’un
énoncé, après un contour intonatif complexe, et la voyelle épithétique, à timbre central, a
une durée phénoménale : 225 ms ! Elle est même plus longue que la voyelle finale
accentuée.

96
Figure 11 : phonostyle caricature : « je savais aps~e ».

Cet exemple correspond donc clairement aux exagérations attendues d’une


caricature ; il ne sert pas à mettre en relief ce qui précède, à savoir une réponse brève du
personnage « ah bon, je savais aps~e », mais plus probablement à détacher la négation en
verlan pour la rendre plus saillante. Le personnage associe ainsi, en l’espace de 3
secondes, l’utilisation du verlan, l’épithèse vocalique exagérée, et le terme emblématique
« boloss »23. Ces indices semblent donc cohérents avec le personnage créé par la
marionnette de Cécile Duflot, et cela nous donne des renseignements très précis sur la
perception de la pratique de l’épithèse vocalique. Elle semble ici utilisée pour son
pouvoir stylistique stéréotypant (négatif) et non pour sa capacité de mise en relief
énonciative. Cet usage parait très différent de celui que faisait, en 2008, le chercheur cité
supra.
En résumé, on peut affirmer que les discours épilinguistiques spontanés ainsi que
les productions parodiques et caricaturales fournissent des indices convergents qui
incitent à formuler l’hypothèse d’une saillance suffisante de l’épithèse vocalique pour
qu’elle soit consciemment perçue de manière spontanée, pour le moins depuis la moitié
des années ‘90 où elle était présentée comme une innovation des jeunes. Les
publications scientifiques que j’ai déjà citées (Fonagy, Carton, Hansen et mes propres
recherches) ont mis en avant des arguments en faveur de l’hypothèse d’une diffusion
croissante de ce marqueur dont le statut méritait discussion : variante stylistique ou
sociolinguistique de prononciation, ou particule énonciative en émergence. Mais ces
publications datent au plus tard des années 2003 et les corpus dépouillés s’arrêtent, à
ma connaissance, à la fin des années 1990. Or, des échantillons plus récents offrent des
arguments moins cohérents : d’un côté les pratiques de prononciation d’un chercheur
trentenaire en 2008 vont dans le sens des hypothèses énonciatives formulées par

23 Ce terme « boloss », originaire des pratiques langagières des jeunes des cités, a été approprié

entre 2006 et 2008 par les jeunes des classes moyennes (Fiévet et Podhorná-Polická 2009; Podhorná-
Polická et Fiévet 2010) et depuis 2011 de manière plus large par la scène médiatique et culturelle grand
public (long métrage « Les Boloss » 2011, blog « Les boloss des Belles lettres » suivi d’un livre paru chez J’ai
lu en 2013 et d’une émission hebdomadaire sur France5 en 2016) ; il est utilisé par des personnages qui
entendent caricaturer le style « racaille » dans une sorte de connivence snob.
97
Hansen et Mosegaard Hansen 2003, et d’autre part l’usage caricatural de l’épithèse dans
une émission humoristique télévisuelle de 2014 va dans le sens d’une stigmatisation
croissante de ce marqueur perçu comme un stéréotype du style précieux (imbu de soi)
et vulgaire. Nous sommes face à des hypothèses concurrentes, qui peuvent correspondre
soit à des moments différents, si l’évolution de l’indexicalité de ce phénomène est rapide,
soit à des pratiques différentes selon les groupes sociaux ou selon les profils de
locuteurs. Il convient donc de multiplier les éclairages pour espérer y voir plus clair.
En ce sens, la deuxième série de questions qu’on peut se poser porte sur la
perception de cette épithèse vocalique en situation expérimentale avec focalisation
explicite de l’attention : les gens se disent-ils conscients de la produire ou de l’entendre ?
Y a-t-il des tendances qui se dégagent dans les discours épilinguistiques sollicités ?
Nous avions un premier indice dans le message cité plus haut, extrait du Forum
jeuxvideo.com (aout 2016), qui associait l’adjonction de « an » en finale de mot à
« extrêmement pd ». Il faut préciser que ce forum est connu pour laisser passer sans
modération de très nombreux messages sexistes et homophobes24. Mais ce message
révèle la capacité de l’épithèse vocalique à indexer, au moins pour certains, une identité
perçue de manière négative. Le terme ‘pédé’ peut désigner, au-delà d’une orientation
sexuelle, un homme qui ne se conforme pas aux normes strictes de la virilité
mainstream, ce qui peut être mal vu ; mais le terme peut aussi désigner de manière
vague n’importe quelle nuance de dépréciation, y compris pour qualifier des objets : laid,
désagréable, raté… Cela suscite l’hypothèse que l’épithèse vocalique pourrait être
perçue comme une pratique féminine, et de ce fait stigmatisée surtout chez les hommes.
C’était l’hypothèse formulée par Fónagy 2006 ; il se fondait sur le fait que Léon 1993
évoquait un décompte de pourcentages comparés durant un débat universitaire à
Toronto en 1983, où les e caducs terminaux étaient prononcés à 24% par les femmes et à
13% par les hommes, surtout en tournure exclamative. Le constat de cet écart entre les
pourcentages des deux groupes (sans qu’on ait la moindre idée de la variation intra-
groupe), incitait Léon à avancer l’hypothèse qu’il s’agirait d’une pratique plus souvent
féminine et cela a encouragé Fonagy 2006 (p. 39) à renchérir dans l’hypothèse d’une
connotation genrée très forte. Il donne l’impression de citer Léon, en mettant entre
guillemets une formule résumée que je n’ai en fait trouvée nulle part dans Léon 1993, ni
à la page indiquée ni ailleurs dans cet ouvrage : « coquetterie, féminité, rouge à lèvre
vocal, invitation à la danse ».25 Quoi qu’il en soit, Fonagy et Léon s’accordent pour
avancer une indexation genrée. Est-il possible de faire émerger chez des gens « tout
venant » ce type d’indexation explicitement ? S’il s’agit d’une « coquetterie » vocale,
peut-on trouver une trace de sa réception en tant que coquetterie ? C’est ce que j’ai
essayé de tester à travers une étude exploratoire menée avec la collaboration de mes

24 Il a déjà été épinglé à ce sujet dans des publications de presse ou sur les réseaux sociaux ; cf. par
exemple l’article de D. Bochel Guégan paru en 2014 sur Le Plus du Nouvel Obs, « Sexisme, homophobie,
harcèlement : la bêtise se porte bien sur les forums jeuxvideo.com » :
http://leplus.nouvelobs.com/contribution/1223007-sexisme-homophobie-harcelement-la-betise-se-
porte-bien-sur-les-forums-jeuxvideos-com.html
25 Soit il s’agit d’une formule de Léon relevée par Fonagy dans une version inédite de l’ouvrage de
1993, – ce dont je doute car elle ne me semble pas correspondre au style d’écriture de Léon ; soit il s’agit
d’une formule de Fonagy mise entre guillemets autonymiques ; soit les guillemets sont là uniquement par
erreur d’édition, car ce paragraphe contient la graphie « pose » à la place de « pause » et cela suggère une
relecture finale peu soignée.

98
étudiant·e·s du séminaire de master de Sociophonétique. J’ai construit un une grille
d’entretien à focalisation progressive de l’attention, qui commençait par des écoutes de
trois extraits captés dans les médias (une douzaine de secondes) et des questions pour
une première approche globale :

- 1/ Quelle est votre première impression sur la façon de parler de


cette personnalité du journalisme/de la politique / de la culture ?
- 2/ Entendez-vous des sons (ou des lettres) prononcées d’une
manière particulière ? Si oui, laquelle ou lesquelles et comment
l’interprétez-vous ?

L’entretien se poursuivait par une écoute focalisée sur des extraits d’environ une
seconde (un mot) et par des questions plus précises et plus explicites sur les éventuelles
représentations :

Focalisez votre attention sur la prononciation des fins de mots.


3/Aviez-vous déjà remarqué ce phénomène chez d’autres personnes ?
4/Si oui, chez qui, quel genre de personnes ? Comment pourriez-vous
l’appeler ? Quel effet cela provoque chez vous, quelle impression ?
5/Pensez-vous que la personne qui parle fait exprès de prononcer
comme cela la fin des mots, ou bien qu’elle ne s’en rend pas compte ?
6/Si elle fait exprès, quel pourrait être l’effet recherché ?

Il se finissait par une question fermée sur les éventuelles représentations des
propres pratiques de chaque personne interviewée :

7/ Vous arrive-t-il de prononcer de cette manière, dans certains cas ?


Réponses possibles :
Non, jamais
Parfois, lorsque ……………….
Souvent, lorsque …………………
Je ne sais pas.
Suivie d’une autre question fermée sur les hypothèses déjà en circulation :

Pensez-vous qu’il est plus souvent produit par : (entourez la réponse)

- Les femmes Les hommes Indifféremment


- Les plus jeunes Les plus âgés Indifféremment
- Les plus cultivés Les moins cultivés Indifféremment
Autre catégorie de gens à suggérer ???

Les étudiant·e·s répondaient d’abord, en tout début de semestre, à cette grille de


questions par écrit lors d’une écoute collective suivie d’une discussion (j’ai récupéré
leurs réponses). Dans un second temps, je leur donnais comme consigne de solliciter des
personnes de leur entourage vivant en France et s’exprimant en français
quotidiennement, pour répondre au même entretien sur leurs avis en ce qui concerne
certaines prononciations en français. Bien entendu, les résultats recueillis de cette
manière ne peuvent être qu’indicatifs, et source de construction de nouvelles
hypothèses. Les conditions de passation de l’entretien ont été fort diverses (et
99
explicitées dans les devoirs qui m’ont été rendus) : les lieux étaient plus ou moins calmes
mais pas toujours, les appareils utilisés pour faire écouter les extraits offraient un bon
échantillon de tout ce que les technologies actuelles proposent comme possibilité pour
écouter un fichier son, la durée a été très variable (du simple au triple), les personnes
sollicitées avaient des relations très diverses avec les enquêteurs et enquêtrices
(relations amicales, de voisinage, collégiales, famille proche…), etc. Mais les résultats
obtenus semblent suffisamment intéressants pour encourager à approfondir une telle
technique d’enquête, qui a un côté ludique pour les interviewés comme pour les
intervieweurs.
J’ai recueilli les réponses d’une quarantaine d’étudiant·e·s (moyenne d’âge 22 ans)
et d’une quarantaine de personnes de leur entourage (moyenne d’âge 28 ans).
L’épithèse vocalique est globalement facilement identifiée : les trois-quarts des
gens la mentionnent dès les premiers extraits comme prononciation particulière ; le
quart restant l’identifie aisément en écoute focalisée. Les étudiant·e·s ont précisé, à une
très large majorité, avoir déjà entendu ce phénomène « souvent » ou « parfois ».
Les questions fermées finales ne permettent de dégager aucune tendance explicite,
ni en termes d’association avec une tranche d’âge ni avec un genre ; la majorité a coché
« indifféremment », et la minorité restante a coché les deux autres options,
pratiquement de manière équivalente. Il n’y a donc pas de consensus déclaratif explicite
allant vers une catégorisation claire de cette pratique, ou en tout cas il n’a pas pu être
obtenu par ce type de démarche directe.
Par ailleurs, les trois-quarts des gens interviewés pensent (ou déclarent penser)
que les personnes qui produisent ce son ne s’en rendent pas compte ; seule une minorité
pense (ou déclare penser) que c’est « fait exprès », et donc seule une minorité va dans le
sens de l’interprétation comme marqueur. Quelques-uns ne savent pas répondre à cette
question.
En revanche, les réponses aux questions ouvertes portant sur l’effet provoqué par
cette prononciation, donnent indirectement des indices sur une perception plus
consensuelle qu’on ne pourrait penser si l’on se fiait uniquement aux questions fermées.
J’ai représenté ces réponses sous forme de nuage de mots, en agglutinant les réponses
des étudiant·e·s avec celles de leurs interviewé·e·s car elles allaient dans les mêmes
directions :

100
Figure 12 : Nuage de mots, évaluation libre de l’épithèse vocalique

Les réponses montrent une très grande diversité ; il y a un très grand nombre
d’items qui n’ont été utilisés que par une seule personne. Néanmoins, la majorité met en
avant un effet négatif (énervant, insupportable, agaçant, désagréable, irritant, ridicule…)
involontaire, cohérent avec l’hypothèse majoritaire sur le fait que les gens qui
produisent ces épithèses « ne s’en rendent pas compte »). Le champ sémantique qui se
dégage le plus et qui réunit la plupart des répondants est celui de la préciosité associée
au féminin ou à l’homosexualité masculine (prétentieux, efféminé, snob, précieux,
maniéré, hautain, homosexuel, affecté, féminin…), et parfois au parisianisme ; deux
personnes y voient une pratique « médiatique, journalistique ». Les catégorisations
mélioratives sont rarissimes et exprimées par une seule personne à chaque fois :
agréable, sûr de soi, sophistiqué, distingué, érudit, raffiné, mignon. Quelques réponses
vont toutefois dans un sens contraire : vulgaire, agressif, populaire, grossier, niais,
autoritaire, banlieusard…
Pour les rares personnes qui pensent qu’il s’agit d’une pratique de prononciation
consciente et contrôlée, elle est associée à l’hésitation ou l’incertitude (sans doute par
rapprochement avec le euh d’hésitation très connu) et quelquefois à la mise en relief
(accentuation, appui, emphatique, insistance).
La complexité des réponses obtenues témoigne à la fois de la complexité de la
perception sociale d’une pratique de prononciation qui reste marginale, malgré sa
relative expansion, et aussi de la complexité de la situation d’enquête qui oblige des gens
à évaluer les pratiques langagières d’autres gens sachant que s’en suivrait une
exploitation universitaire de leurs réponses. Malgré les réserves qui peuvent et doivent
être exprimées sur un tel protocole, la diversité des réponses suscitées reste un indice
précieux, qui incite à se garder de toute généralisation ou simplification trop rapide.

101
II.1.4 L’exemple de l’épithèse consonantique

Définition et hypothèses

Le deuxième phénomène épithétique que j’ai étudié grâce à différentes méthodes


[doc 8, doc 18] consiste en la production d’un son consonantique fricatif, sourd, le plus
souvent dorso-vélaire ou dorso-palatal mais pouvant être parfois labio-dental,
imprévisible, à la finale des mots qui clôturent une séquence, un énoncé ou un
paragraphe en lecture à haute voix, à condition qu’ils finissent par une voyelle fermée ou
mi-fermée. Ce son est soumis à des contraintes articulatoires : lorsque le mot finit par
/i,e/ c’est une fricative palatale proche de [ç] qui sera ajoutée comme coda, et lorsqu’il
finit par /y,o,u/ c’est une vélaire proche de [X] qui sera ajoutée. Les exemples
prototypiques les plus souvent cités sont merci et oui prononcés [mԑRsiç] et [wiç] avec
coda fricative palatale. Bien entendu, la production de ce marqueur est sporadique: tous
les locuteurs ne le produisent pas, ni en lecture ni en conversation, et ceux qui le
produisent fréquemment ne le produisent pas systématiquement dans tous les
contextes possibles.
La coda fricative sourde qui nous intéresse ici a d’abord été appelée voyelle
dévoisée, à commencer par Fonagy (1989, 2006), et cette dénomination a été reprise par
Fagyal et Moisset 1999, par Paternostro 2008 et par Dalola 2014. Bien que Fonagy ait
parlé clairement de rajout d’une consonne qui n’appartient pas au système
phonologique du français mais qu’on retrouve dans le système phonologique allemand
(il fait explicitement référence aux ich Laut et ach Laut), il a néanmoins focalisé son
attention sur le fait que la voyelle finale du mot perdait son caractère voisé. A travers le
choix de la désignation « dévoisement des voyelles » Fonagy refuse de donner à cette coda
le statut de consonne, et adopte, selon moi, une perspective purement phonologique.
Selon Fonagy, dans la mesure où il s’agit d’un seul phonème la consonne rajoutée ne
pourrait qu’être incorporée à la voyelle et dès lors nous ne pourrions considérer que
l’hypothèse d’un phonème qui se réalise à travers différentes variantes.
Or, selon moi, le dévoisement vocalique désigne traditionnellement un autre
phénomène, décrit probablement pour la première fois par Passy 1905, pp. 62 et 114,
qui est un des premiers à s’être intéressé à la diversité des prononciations en français
courant : il désigne ainsi le dévoisement jusqu’au chuchotement des voyelles finales
dans certains mots (c’est tout, tant pis…) ; la voyelle est prononcée chuchotée, en finale
absolue, après une consonne sourde. Passy parle aussi de dévoisement ou semi-
dévoisement des semi-voyelles par les « consonnes soufflées précédentes », comme dans
‘pied’ [pj˚e], p. 121. Il n’y a absolument aucune mention d’allongement de cette voyelle,
de maintien de la friction, etc. Les exemples de Passy ont fait date, et on les retrouve
cités par Abercrombie 1967 qui évoque ce phénomène en le mettant en parallèle avec la
prononciation dévoisée des voyelles inaccentuées en anglais, dans certains contextes :

In English, for eg, the first vowel of the word potato. Or come in to tea, « to » often
pronounced without vibration of the vocal cords in normal conversational speech ;
In French also the final vowels of entendu, tant pis, or c’est tout, when they occur in
conversation before a pause, are usually voiceless1. [Abercrombie, 1967, p.58].

102
C’est dans une note de bas de page liée au mot « voiceless » qu’Abercrombie cite
Passy, qui semble être sa seule source :

1Itis stated by P. Passy, in his Petite phonétique comparée (1906), pp. 62 and 114, that
under the circumstances described here these vowels are whispered. This does not appear,
however, to be the normal usage of French speakers. [idem].

Autrement dit, la première source ne se fonde pas sur un corpus très précis26 et ne
donne pas vraiment d’indication acoustique autre que « voyelle chuchotée ». Dans les
exemples repris par Abercrombie, surtout dans la comparaison avec l’anglais, on a
l’impression de déceler une confusion entre la simple réduction vocalique – avec
neutralisation du timbre liée à une durée extrêmement brève – et sa prononciation
chuchotée.
Si on écarte donc les voyelles dévoisées (chuchotées) de durée normale sans
adjonction de coda fricative, mentionnées, comme nous venons de le voir, au moins
depuis Passy 1905, je n’ai pu trouver aucune mention de ce phénomène d’épithèse
consonantique ou de quoi que ce soit de similaire avant 1989 dans la littérature. Il est
intéressant de noter que l’étude de Mettas 1979, qui était une description phonétique de
la prononciation du français parisien, fondée sur une enquête auprès de 39 femmes de la
bourgeoisie et aristocratie des quartiers huppés de Paris, ne faisait aucune mention de
cette coda consonantique.
Selon moi, le premier à l’avoir mentionnée est bien Fonagy 1989, qui consacre à ce
phénomène quelques paragraphes sur le dévoisement, la nature de la consonne
épithétique et le profil des personnes qui la produisent fréquemment. Selon ses
observations empiriques de l’époque, cette coda était fréquente dans la prononciation
des journalistes (hommes ou femmes) et dans celle des femmes de classe moyenne.
Coveney 2001 propose de distinguer trois cas de dévoisement vocalique dans la
prononciation du français, dont deux concernent seulement « certaines variétés de
français », et un seul – celui qui nous intéresse ici – concerne le français supralocal.
Le premier serait un dévoisement partiel plus connu sous le nom d’aspiration et
surviendrait en début de mot, après une occlusive (comme dans le mot « poule ») ; il
serait attesté dans « a few northern accents, parts of Canada and the old-fashioned upper-
class Parisian accent which apparently borrowed some of its features from English »
(p.145). Aucune source n’est indiquée. Le deuxième serait spécifique surtout au français
parlé québécois : il s’agit, selon Coveney, d’une semi-élision de la voyelle, comme dans
les exemples d’Abercrombie 1967 qu’il cite (potato, come to tea). Pour le français, il
s’agit toujours de positions inaccentuées après consonne sourde, comme dans
« compétition » [kõpetɪ˳sjõ] ; selon Cedergren & Simoneau cités par Coveney, ces
voyelles quasiment élidées ne sont pas perçues par tous les locuteurs.
Le troisième et dernier cas de dévoisement (idem, p. 144) serait bien plus répandu
en français et il concernerait la position accentuée en finale d’énoncé, touchant surtout
les voyelles fermés /i y u/ mais pouvant s’étendre aux mi-fermées /e, ∅/. Coveney
propose de rassembler ici la prononciation chuchotée ou approximante de la voyelle
finale prépausale dans « merci » [mɛRsi˳] ou « (il n’)y en a p’us » [jãnapy˚], ainsi que
l’adjonction d’une fricative finale comme dans « oui » prononcé [wiç], dont il donne

26 Ce qui est normal, car à l’époque de Passy il n’était pas envisageable de réaliser des
enregistrements de parole spontanée.
103
comme source Fonagy 1989. Il met en avant l’hypothèse qu’il s’agirait bien d’un seul et
unique phénomène qui, contrairement à l’hypothèse de Fonagy, n’aurait rien de nouveau
(« this does not seem to be a very new feature », p. 145) car il était déjà évoqué par …
Abercrombie 1967, p. 59, qui, nous l’avons vu, s’appuyait en fait sur Passy 1905, lequel
ne parlait absolument pas d’adjonction de fricative. En somme, mon impression est que
la décision de Fonagy d’adopter une dénomination unifiante « dévoisement vocalique »
pour désigner un phénomène qualifié de nouveau semble avoir été une source de
confusion supplémentaire, alors que le phénomène repéré auparavant manquait déjà de
documentation.
Selon Coveney, encore, l’adjonction d’une fricative correspondrait à un son alvéo-
palatal proche de [ɕ] plutôt que le son palatal évoqué par Fonagy. Or, jusqu’à présent,
personne n’a publié d’analyse d’acoustique à ce sujet, (Candea, Wottawa, Adda-Decker,
en préparation) : les descriptions des uns et des autres reposent sur des intuitions ou
des citations d’intuitions. La seule étude disponible proche de ce sujet porte sur les
prononciations de /ʃ/ versus /ç/ en allemand L2, par des apprenants de français L1,
(Wottawa, Adda-Decker, et Isel 2016).

L’étude de Smith 2003 compare un nouveau corpus avec les données de Fagyal et
Moisset 1999 sur la base, me semble-t-il, du malentendu favorisé par la dénomination
« dévoisement des voyelles ». Smith mesure la totalité des voyelles dévoisées (des
voyelles brèves prononcées sans voisement) et montre qu’elles sont bien plus
fréquentes et se trouvent dans des positions diverses, pas uniquement en fin de groupe.
C’est Fagyal 2010 p.168 qui, à ma connaissance, est la première à proposer de parler
d’« épithèse consonantique », et d’abandonner l’appellation ambigüe de Fonagy adoptée
une dizaine d’années avant (Fagyal et Moisset 1999). Elle renonce ainsi, en 2010, à la
focalisation de sa description sur la voyelle dévoisée pour mettre en avant plutôt
l’adjonction d’un son consonantique. Son changement de point de vue semble avoir été
provoqué par une observation fortuite, durant son travail de terrain. Plus précisément, il
semble avoir été déterminé par un incident très instructif dont elle a été témoin dans un
collège de la Courneuve (banlieue de l’Est parisien), où une élève caricaturait le
phonostyle de lecture d’un autre élève au moyen de la répétition humoristique du seul
son fricatif ‘ch ch ch ch ch’ (2010:168-170) et le qualifiait de ‘bouffon’27. Cette imitation
explicite pointait la prononciation de la fricative finale comme saillante chez « les
bouffons ».
L’observation de Fagyal sur son terrain rejoint mes propres hypothèses [doc 08] :
selon moi, ce son épithétique caractérise en effet surtout le comportement linguistique
de locuteurs ‘légitimes’ en position d’autorité. Fagyal l’interprète comme un phénomène
genré féminin, perçu comme incongru chez un garçon, tandis que moi j’ai tendance à y
voir, dans la situation décrite, une pratique sociale rejetée par une ado plutôt éloignée
de la culture de l’école comme étant une pratique de « bourge », typique d’un style
précieux, chez un élève perçu comme socialement proche des professeurs.
Comme l’épithèse désigne précisément l’adjonction d’un son imprévisible en
position finale, je suis favorable à cette dénomination ; il s’agit pour moi d’une épithèse
consonantique fricative. En outre, cette appellation a comme avantage de mettre en
lumière le parallélisme avec l’épithèse vocalique, sur lequel je reviendrai en conclusion
de cette partie.

27Terme péjoratif pour désigner les bons élèves, appréciés par les enseignants.
104
En ce qui me concerne, je réserve la dénomination voyelle dévoisée aux cas où la
voyelle n’est pas détectable comme signal voisé. Ces cas de voyelles remplacées par une
friction sont appelés par Fagyal et Moisset (1999) fully devoiced vowel et s’avèrent très
marginaux dans leurs données. La plupart du temps, dans leur corpus de lecture, la
partie voisée se maintient et elle oscille en général entre 25 et 50% de l’ensemble du
segment voyelle+coda fricative.
Les Figures 13 et 14 montrent les spectrogrammes d’une voyelle finale suivie
d’épithèse fricative et d’une voyelle finale dévoisée suivie de la même épithèse fricative,
selon moi. Ce serait peu cohérent de considérer que dans le premier cas on a une voyelle
suivie de consonne épithétique, et dans le deuxième d’une voyelle remplacée par un
bruit de friction plus long qu’une voyelle normale.

Figure 13: exemple de coda fricative après /e/: ‘dossier’ prononcé [dɔsjeç].

Figure 14 : exemple de fricative accolée à un /i/ totalement dévoisé: ‘midi et demi’


prononcé [midiedmi̥ç].
105
Concernant la description acoustique et distributionnelle de ce phénomène
phonétique, peu d’études, toutes effectuées manuellement, sont disponibles à ma
connaissance. La première déjà citée, Fagyal et Moisset (1999), a été menée à partir de
27 exemples provenant d’enregistrements de lecture sollicitée par les chercheurs auprès
de locuteurs de la Région parisienne, et portant uniquement sur la voyelle /y/ en
position finale. Leur analyse se concentre sur le mécanisme articulatoire et le
relâchement progressif de la tension en fin de paragraphe. La distribution montre que la
position finale de paragraphe favorise clairement l’apparition du dévoisement vocalique
avec coda fricative, mais elle montre également que les locuteurs sont très inégaux,
certains pouvant en produire systématiquement et d’autres presque pas ou de manière
très sporadique.
J’ai pour ma part mené une étude à ce sujet en 2012 [doc 08] à partir de 67
exemples extraits d’une sélection de 4 heures de news radiophoniques diffusées sur la
chaine Radio France Internationale, et portant sur /i,y,e,u,Ø,a,o/ suivies de coda fricative
en finale de mot. Mon analyse mettait en avant l’hypothèse d’un effet stylistique
recherché par le renforcement iconique du contour final. Dans cet échantillon, le plus
grand nombre d’occurrences produites avec coda fricative touchait la voyelle [i] ; le
contexte fin de paragraphe ou fin de tour de parole favorisait l’apparition des épithèses
fricatives, mais celles-ci pouvaient également être produites à l’intérieur d’un énoncé,
sur la finale d’un mot pragmatiquement important. En ce qui concerne les locuteurs et
locutrices : comme dans l’étude de Fagyal et Moisset, les taux de production varient
énormément d’une personne à une autre, il est impossible de mettre en lumière de cette
manière une éventuelle préférence genrée pour cette pratique de prononciation.
Plus récemment Dalola 2014, a consacré sa thèse de doctorat à une étude
variationniste de la production et la perception de ce marqueur, qu’elle note par la
graphie « bruit_hhh » ; elle choisit de comparer un échantillon de locuteurs de français
L1 et un échantillon d’apprenants américains de français L2. Le fait de s’intéresser aux
apprenants apporte un point de vue très original à l’étude de la perception de ce
phénomène (j’y reviens dans la partie suivante). Son enquête sur la production se fonde
essentiellement sur le calcul d’une série de corrélations statistiques susceptibles de
contribuer à formuler de nouvelles hypothèses ou à apporter des éléments de
confirmation/invalidation d’hypothèses déjà formulées. L’étude prend uniquement en
compte la production d’épithèses fricatives, qu’elle appelle dévoisements vocaliques,
après /i,y,u/ mais pas après /e,Ø /. Globalement, les locuteurs de français L1 produisent
un taux supérieur d’épithèses par rapport à ceux de français L2, mais les épithèses de
ces deux groupes ne se distinguent pas par leur degré (leur durée) : elles sont très
similaires. La position fin de paragraphe favorise globalement l’apparition de l’épithèse
en lecture.
Dalola créé de manière expérimentale trois situations durant son protocole de test
avec les deux groupes de locuteurs : une tâche de lecture, un jeu de rôles et un temps de
conversation libre. La comparaison des productions dans ces trois tâches lui permet de
dégager quelques observations générales : les locuteurs de L1 produisent plus
d’épithèses en conversation libre, lorsque la connivence était plus grande, tandis que
ceux de L2 en produisent davantage en lecture et dans la tâche de jeux de rôles. Ces
observations semblent cohérentes avec les discours sur la réception (cf infra, partie
consacrée à la perception). Aucune différence entre les pratiques des hommes et celles
des femmes n’a pu être mise en évidence par des comparaisons statistiques de la
distribution du phénomène observé.

106
Pour résumer, les recherches dont on dispose pour le moment dégagent quelques
hypothèses et soulèvent quelques questions :
• La production des épithèses fricatives est soumise à des contraintes
articulatoires. Celles-ci expliquent pourquoi elle ne peut pas se produire dans
certains contextes et pourquoi elle peut se produire plus ou moins facilement
dans d’autres ; mais celles-ci n’expliquent en rien l’émergence de ce phénomène
uniquement chez certains locuteurs et locutrices, et toujours de façon
sporadique. Son émergence et sa diffusion restent à explorer.
• Le statut phonétique de l’épithèse fricative soulève de nombreuses questions qui
restent à élucider ; le phénomène se situe à la frontière du domaine vocalique et
consonantique.
• Le statut linguistique de l’épithèse fricative reste également à élucider ; tout
comme l’épithèse vocalique, il existe des arguments plaidant en faveur d’un statut
de variante sociophonétique des voyelles finales et des arguments plaidant en
faveur d’un statut de particule énonciative en cours d’émergence.
• Les facteurs âge, genre et statut social ont été évoqués comme corrélés à la
pratique des épithèses fricatives ; cela reste à approfondir car les corpus
dépouillés sont trop réduits, notamment à travers des études socio-perceptives.

Production : méthodes d’enquête et résultats

L’étude réalisée avec M. Adda-Decker et L. Lamel, déjà évoquée au sujet de


l’affrication, [doc 18], nous a permis de recueillir, dans des émissions d’information
radio et télédiffusées 1998-2007, un très grand nombre d’exemples de ce phénomène
sporadique. Notre objectif était de fournir des descriptions acoustiques basées sur un
corpus bien plus large que ce qui avait déjà été décrit et de formuler des hypothèses sur
la persistance (ou non) de cette pratique de prononciation dans les médias et sur son
éventuelle progression dans la lecture d’information et les émissions d’actualité.
Pour récupérer automatiquement les exemples dans la base de données alignées
disponible au LIMSI, nous avons appliqué le même type de démarche d’adaptation
ponctuelle du système (méthode décrite dans la partie II.1.2), en autorisant des
variantes de transcription listées dans le tableau 12 ci-dessous.

Contexte => Variantes autorisées


phonémique comme options
/i, y, e, u, a, o/ en [i-iHH-iff-iʃʃ-iƷƷ,
position finale de mot
y-yHH-yff-yʃʃ-yƷƷ
e-eHH-eff-eʃʃ-eƷƷ
u-uHH-uff-uʃʃ-uƷƷ
a-aHH-aff-aʃʃ-aƷƷ
o-oHH-off-oʃʃ-oƷƷ]
Tableau 12. Variantes autorisées lors des alignements automatiques forcés.
HH correspond à une expiration ou inspiration audible; les doubles symboles
correspondent à des segments acoustiquement stables dont la durée dépasse la
moyenne des consonnes (il s’agit de consonnes étiquetées comme allongées)

Grâce à cette astuce de programmation, le système pouvait aligner différemment


les finales vocaliques des mots en fonction d’un éventuel segment fricatif détecté après
107
la voyelle, et cela permettait de sélectionner ensuite automatiquement tous ces
contextes, pour les écouter.28 Cette méthode a généré un très grand nombre de
transcriptions pouvant correspondre à des épithèses consonantiques fricatives, la
plupart étant des fausses alertes (faux positifs). Le nombre important de fausses alertes
s’explique par le fait que le système n’avait pas de modèle acoustique assez fiable de ce
son extérieur au système du français, et que les variantes que nous avions autorisées
pouvaient correspondre aussi bien aux codas fricatives que nous recherchions qu’à de
nombreux autres bruits de bouche, respirations audibles ou bruits de fond.
Ainsi, nous avons dû écouter et vérifier manuellement un ensemble d’environ
4000 extraits de 3 secondes pré-sélectionnés comme pouvant contenir des épithèses
fricatives. Finalement, 652 extraits de 1998 à 2007 ont été retenus comme pertinents.
Ceci représente un corpus actif très vaste, issu de parole non élicitée, ce qui est précieux
pour attester ce phénomène imprédictible, sporadique et très difficile à capter. Les
échantillons d’émissions étant inégaux, les chaines et les locuteurs n’étant pas les
mêmes d’une année sur l’autre dans la base de données utilisée, et les exemples repérés
ainsi ne couvrant très probablement pas l’intégralité des occurrences, il est impossible
d’établir une comparaison globale de fréquence de ce phénomène entre 1998-2003 et
2007, comme nous l’avions fait pour les affrications de /t,d/. Il est en revanche possible
de comparer les caractéristiques des exemples issus de ces deux périodes dans la
mesure où ils ont été extraits selon la même méthodologie.
J’ai pu segmenter et classer tous les exemples à la main, à l’aide du logiciel Praat
(Boersma et Weenink 2008). La partie voisée a été segmentée et étiquetée, ainsi que la
coda fricative. Les exemples pour lesquels il n’y avait pas de partie voisée détectable ont
été étiquetés comme totalement dévoisés et séparés dans un sous-corpus à part. Le
Tableau 13 montre la distribution des exemples selon les trois voyelles étudiées ici
/i,e,y/ ainsi que le nombre et l’évolution des exemples totalement dévoisés.

Voyelles suivies de Total Voyelles Voyelles


coda fricative occ. totalement totalement
dévoisées (occ.) dévoisées (%)
/i/, 1998-2003 154 61 39.6
/e/, 1998-2003 38 9 23.7
/y/, 1998-2003 32 3 9.38
/i/, 2007 249 46 18.47
/e/, 2007 138 14 10.14
/y/, 2007 41 5 12.2
All 652 138

Tableau 13. Distribution des voyelles suivies d’épithèse fricative


Ces données montrent une diminution par moitié des segments avec voyelle
totalement dévoisée pour /i,e/ entre 1998 et 2007. En revanche, pour /y/ les segments
totalement dévoisés sont toujours très peu nombreux, quelle que soit la période. Cela
peut expliquer pourquoi l’étude de Fagyal et Moisset (1999) n’en avait trouvé que chez
une seule locutrice, puisque leur étude portait uniquement sur /y/.
Globalement la partie voisée est donc bien conservée car nous avons pu la détecter et
la mesurer dans n=519 des exemples de ce corpus, et la comparer avec la durée de la

28 Nous avons décidé d’inclure les voyelles /a,o/ pour lequelles nous n’attendions pas d’épithèses
fricative de manière à pouvoir vérifier la validité de cette démarche de pré-sélection.
108
coda fricative. La Figure 15 expose les résultats éclatés par voyelle et par période de
temps. Elle montre d’un côté une bonne stabilité de la durée vocalique qui correspond
d’ailleurs aux valeurs moyennes attendues pour ces voyelles en parole de style
journalistique (Adda-Decker et Snoeren 2011) et d’un autre côté une progression
statistiquement significative de la durée des codas fricatives (Mann-Whitney U test, p =
0.0006 pour /i/, 0.003 pour /e/ et 0.002 pour /y/).

Figure 15: Durée des portions voisées et des codas fricatives pour /i,e,y/ (ms)

L’augmentation de la durée des codas pourrait expliquer l’impression de diffusion


toujours plus large de ce trait, dans la mesure où une coda plus longue devient plus
saillante.
Le Tableau 14 présente la diminution globale en pourcentage de la partie voisée par
rapport à la durée de l’ensemble du segment (voyelle + coda).

Voyelles suivies de Total occ. avec partie Durée moyenne de


coda fricative voisée distincte et la partie voisée
coda fricative (%)
/i/, 1998-2003 93 38,6
/e/, 1998-2003 29 43
/y/, 1998-2003 29 42
/i/, 2007 203 34
/e/, 2007 124 37
/y/, 2007 41 35,7
All 519

Tableau 14: Durée moyenne de la partie voisée de /i, e, y/ par rapport à l’ensemble
du segment (voyelle + coda), en %.

Ces chiffres sont à mettre en rapport avec ceux de Fagyal et Moisset (1999) qui
relevaient des ratios de voisement fluctuant entre un quart et un tiers de la durée totale
pour la position finale de paragraphe, en lecture, et environ une moitié de la durée totale
pour les autres positions de fin de intonational-phrase. Nos données montrent
néanmoins une plus grande variabilité car les valeurs extrêmes des durées vocaliques
les plus courtes oscillent entre 11 et 15% du segment, tandis que les plus longues
oscillent entre 60 et 71% du segment.
Une étude comme la nôtre ne peut pas apporter d’informations assez riches au sujet
109
du profil des personnes qui produisent ce marqueur. Nous avons simplement pu
constater que environ 41% de nos 652 exemples ont été produits par des femmes (les
pourcentages par voyelle et par période figurent dans le Tableau 15 ci-dessous), alors
que les femmes occupent environ 33% du temps total des émissions diffusées.

Voyelles suivies de coda Occ. produites par


fricative des locutrices, en %
/i/, 1998-2003 32,5
/e/, 1998-2003 42
/y/, 1998-2003 34
/i/, 2007 44,5
/e/, 2007 55
/y/, 2007 41,5

Tableau 15: Codas fricatives produites par des locutrices, en %


Même si proportionnellement les femmes, dans leur ensemble, produisent ce
marqueur plus souvent que les hommes, surtout en 2007, la grande variabilité des
données ne permet pas d’apporter d’éléments décisifs pour savoir comment interpréter
cela, dans la mesure où, tout comme pour le corpus de Candea (2012) [doc 08], les
données montrent surtout que certains locuteurs, femmes ou hommes, produisent des
taux élevés de voyelles finales avec codas fricatives tandis que d’autres n’en produisent
pas du tout.

En conclusion, le phénomène relativement récent d’épithèse fricative produite


notamment après /i,e,y/ en position finale de séquence (fin de paragraphe en lecture ou
fin de tour de parole) semble désormais bien présent et probablement en progression
pour le moins dans la parole radio- et télé-diffusée des journalistes, confirmant ainsi les
prédictions de Fonagy.
En l’absence d’implémentation d’un modèle acoustique spécifique pour ce son
extraphonologique en français, notre méthode de fouille n’a pas pu extraire tous les
exemples de nos données et a généré un grand nombre de fausses alertes, mais avons
néanmoins pu constituer le plus grand corpus analysé pour le moment d’occurrences
non sollicitées de cette prononciation. Ce corpus montre que dans la grande majorité de
nos exemples la voyelle n’est pas dévoisée et la coda fricative est bien plus longue que la
partie voisée, créant ainsi des segments d’une durée bien supérieure à celle qui est
attendue pour une voyelle finale. Nos observations plaident pour l’abandon de
l’ancienne opposition voyelles dévoisées et voyelles totalement dévoisées censée inclure
une coda consonantique facultative au profit de la dénomination plus précise d’épithèse
consonantique fricative inspirée de Fagyal (2010:168). Je propose de réserver
l’appellation dévoisement vocalique aux cas du même type que ceux cités par Passy 1905
où il n’y a plus de voisement détectable sur un bref segment considéré comme vocalique
du point de vue phonologique.
Nos résultats actuels ne permettent pas de formuler des prédictions plus précises
sur la diffusion de cette prononciation mais encouragent à mener des études perceptives
complémentaires pour tenter d’affiner les connaissances que nous avons sur son sens
social, sur ses constellations indexicales. On peut notamment se proposer de vérifier si
sa connotation féminine peut être attestée ou bien si, comme je le suggère dans [doc
08], cette coda fricative s’oriente davantage vers l’indexation d’un style de parole en
position d’autorité ou même de prononciation snob. L’hypothèse de l’émergence d’une
nouvelle particule énonciative reste également ouverte.
110
Perception : méthodes d’enquête et résultats

Avant de tenter d’explorer par la sollicitation directe d’évaluations plus ou moins


librement formulées, le plus important selon moi est de voir s’il est possible, même pour
un tel phénomène récent et peu décrit, de trouver des discours ou des réactions
produites spontanément, en dehors de tout dispositif de recherche.
J’ai déjà évoqué l’épisode rapporté par Fagyal 2010, où cette pratique de
prononciation a été explicitement pointée, à travers une imitation moqueuse, par une
collégienne qui venait d’écouter la lecture à haute voix d’un camarade. Ce type de
témoignage, qui nous fournit déjà des pistes pour élaborer des hypothèses, est très
précieux : il est vraiment rarissime de pouvoir recueillir des discours épilinguistiques
spontanés, en interaction, sauf, bien entendu, s’il s’agit de phénomènes stabilisés
devenus des stéréotypes, auquel cas les discours sont abondants et d’une grande
convergence (« folk linguistics », Paveau 2008; Paveau et Achard-Bayle 2008; Paveau
2009).
Paternostro 2008 cite un autre discours au sujet de l’épithèse fricative, bien plus
étoffé cette fois : il s’agit d’une chronique de 3’30’’ minutes réalisée en novembre 2003
par un journaliste, Philippe Vandel, à l’époque chroniqueur dans l’émission assez
confidentielle – de critique des médias – Arrêt sur images. Sa chronique était
entièrement consacrée au sujet « d’une nouvelle manie » qu’il attribuait aux jeunes
journalistes des chaines du câble. Si Fonagy est le premier phonéticien à avoir repéré ce
phénomène, Vandel semble être le premier à le mentionner explicitement dans les
médias (selon Paternostro). Cela nous incite à formuler l’hypothèse qu’il était devenu
suffisamment fréquent (en expansion ?) pour qu’il attire l’attention de quelques
observateurs attentifs, non phonéticiens. Ce qui est très intéressant à documenter, mais
ne suffit pas pour tirer comme conclusion qu’il était suffisamment stabilisé pour qu’il
puisse faire l’objet d’une interprétation consensuelle. Paternostro, qui a pu attester la
présence de cette épithèse fricative chez de nombreux journalistes en France comme en
Belgique, attribue (idem, 2008) d’ailleurs aux médias le rôle de vecteur principal de sa
diffusion ; hypothèse séduisante mais difficilement vérifiable.
Quoi qu’il en soit, une chronique journalistique consacrée à un phénomène de
prononciation émergent est un évènement suffisamment exceptionnel pour que cela
mérite toute l’attention des chercheurs ; la linguistique populaire est une source
indépendante d’hypothèses sur la perception sociale d’un phénomène (Paveau et
Achard-Bayle, supra).
Tout d’abord, Vandel donne des indications sur sa propre perception acoustique
du son produit ; il plaide en faveur de l’hypothèse de l’adjonction d’un son, qu’il appelle à
distinguer clairement de la simple prononciation chuchotée en finale de séquence –
pratique qu’il évoque en parallèle et qu’il trouve tout aussi nouvelle. La formulation
métaphorique de Vandel pour décrire l’épithèse comme adjonction de son imprévu est
la suivante : « il arrive que les solistes fassent des notes qui n’étaient pas sur la partition ».
Les « solistes » sont les journalistes, seuls face caméra, et les « notes qui ne sont pas sur
la partition » sont les sons qui se rajoutent au texte défilant sur leur prompteur. Quant
au profil spectral, Vandel cite tout d’abord le rajout d’un « petit ch comme dans « ich liebe
dich » / « mettre des ch à la fin de chaque mot » avant de montrer quelques exemples.
Mais il précise au final que « ils mettent aussi parfois d’autres consonnes ». Le dernier
exemple qu’il donne en est précisément l’illustration. On y découvre un extrait de la
présentation d’une journaliste sur une chaine de sport qui produit une épithèse fricative
111
alvéo-dentale après le nom de la joueuse de tennis « Daniilidou » qu’elle prononce
[danilidufə] suivie à son tour d’une brève épithèse vocalique audible, ce qui rend la
finale d’autant plus saillante. Vandel affirme entendre « Daniilidoufe », comme
« esbroufe ».
Au sujet de l’indexicalité du phénomène, Vandel tient d’abord à souligner
ironiquement le fait que les journalistes qui prononcent ainsi ne le font que
sporadiquement et n’ont donc aucun problème de respiration ou autre problème
médical ; il formule l’hypothèse, étayée par les impressions d’un professeur d’école de
journalisme consulté pour l’occasion, qu’il s’agirait d’un « défaut de débutant ». Pour
nuancer, il cite également un jeune journaliste qui lui aurait dit que « tout le monde fait
ça » et que « ça fait journaliste ». Ce qu’il qualifie de « manie » et de « coquetterie », est
donc pour Vandel un marqueur de « jeune journaliste ».
Mais le point de vue de Vandel est légèrement contesté par un autre chroniqueur
de la même émission de 2003, David Abiker, qui semble découvrir le phénomène et qui
propose une interprétation plus énonciative. Selon Abiker, il s’agirait d’une technique
pour « lancer un sujet » tout en signifiant que la séquence en cours s’arrête, et les
journalistes effectueraient vocalement cet arrêt progressif comme « un dérapage un peu
comme au ski ».
Aucune hypothèse en termes de genre (féminin /masculin) n’est formulée dans
cette émission.

Qu’en est-il pour les pratiques écrites ? J’ai tenté en parallèle de trouver des traces
de discussions spontanées au sujet de ce phénomène à l’écrit, non seulement pour
confronter entre elles les hypothèses qui émergent en dehors des protocoles
universitaires, mais surtout pour étudier comment cette prononciation pouvait être
notée, spontanément, à l’aide de la graphie.
Le premier fil de discussion que j’ai trouvé date de 2008 et il a été lancé sur un
forum du site internet wordreference.com, un site de dictionnaires en ligne dont les
forums, souvent très pointus, sont fréquentés par des gens passionnés de questions de
langage, plus ou moins puristes, parfois des professionnels de la traduction, souvent des
personnes qui ont fait des études littéraires ou linguistiques, même si cela n’est pas une
règle absolue. Les experts y côtoient les semi-experts et les novices. L’internaute qui l’a
lancé « Andrejj » s’était inscrit deux mois auparavant, et son profil montre qu’il a été
actif sur ce site de 2008 à 2011 et qu’il a posté 104 messages, ce qui en fait un
contributeur très modeste (il faut savoir que certains contributeurs à ce fil ont posté
seulement deux messages durant toute leur période d’activité sur le site, tandis que
d’autres en ont posté des milliers, voire des dizaines de milliers – « wildan1 » en a posté
au total plus de 34.000 !). « Andrejj » se présente comme ayant résidé dans différentes
régions de France, locuteur de polonais L1 et ayant appris le français comme L2. Son
message est classé dans le forum 'Etymology, History of languages, and Linguistics (EHL)',
et il a intitulé son fil « Français: oui[ç], merci[ç] » : 29

29 http://forum.wordreference.com/showthread.php?t=870250; toujours en ligne, toujours


consultable le 2 septembre 2016 ; inchangé depuis 2011.
112
objet : Français: oui[ç], merci[ç]
Re-bonjour,
En travaillant en France, j'ai remarqué que parfois les français ajoutent le son
supplémentaire prolongé aux mots terminants par une voyelle. Je vais essayer
d'illustrer cela par le dialogue improvisé :

Andrejj : Salut, Alain, ça va ?


Alain : Salu[chch], Andrejj, ca va.
Andrejj : Allons chercher le café ?
Alain : Ben oui[chch], pourquoi pas?!
Andrejj : Je t'invite.
Alain : Je te remercie[chch], c'est gentil.

J'espère que j'ai réussi d'expliquer ce que je voulais. 8]

J'observais cette forme pour comprendre : qui dit comme ça ? pourquoi ? quand ?
comment les puristes estiment ce type d'articulation ? pourquoi certains d'entre eux
ne parlent jamais comme ça ? pourquoi certains parlent, mais rarement ? pourqoui
certains parlent toujours ?
Andrejj, 13 mars 2008

Comme nous pouvons le voir, le titre du topic utilise les crochets de l’API et le
symbole de la non-sibilante palatale [ç], tandis que le corps du message conserve les
crochets mais utilise le graphème ‘ch’ qui note la sibilante alvéo-palatale [ʃ] , le son le
plus proche de [ç] du système phonologique du français. « Andrejj » a remarqué le
« rajout » d’un son final après /i, y/ dans ses exemples) par certains et est intrigué par la
logique de la distribution de cette prononciation. Selon lui, certains locuteurs le
produisent systématiquement, d’autres sporadiquement et d’autres pas du tout, ce qui
constitue le point de départ de son interrogation. Il recherche un avis de « puriste », et
en tout cas un avis de « natif ».
Une douzaine de personnes a participé à cette discussion, surtout fin mars 2008 ;
quelques messages seront rajoutés en mars 2009 et ensuite en juin 2011.
Dans un premier temps « Andrejj » a eu beaucoup de mal à se faire comprendre et
à être cru par certains experts du forum, locuteurs de français « natifs » : il s’est vu
orienter vers une prononciation régionale des « Ch’ti » du « Ch’nord », vers un accent
portugais, vers une prononciation facétieuse pour se moquer de lui, vers la
prononciation « ouaich » en contact avec l’arabe, ou encore vers une confusion avec la
prononciation aspirée de « oui ». Ce n’est qu’après plusieurs échanges et différentes
interventions d’autres locuteurs de français L2 qu’il finit par imposer – tant bien que
mal, car une participante a refusé d’y croire jusqu’au bout – un consensus sur l’existence
du phénomène décrit et sur sa distribution dans différentes classes sociales et dans
différentes régions de France. Les graphies adoptées spontanément ont été différentes,
montrant l’absence de toute stabilisation : mercich, ouich, merciç, ouiç, saluç, oui-h, salu-
h, ouiçççççççç, finiççç, ouiiiiHHHH, oui-chch, merci-chch, si vous voulez-chch, Parihhh …
Pour certains la fricative est notée comme séparée graphiquement par un tiret, ce qui lui
donne de l’autonomie, pour d’autres elle est notée comme collée au mot. La
multiplication du même symbole graphique (çççç ou hhhh), en revanche, est un code
stabilisé depuis longtemps pour représenter graphiquement l’allongement d’un son.

113
Plusieurs messages ont débattu des caractéristiques acoustiques de la fricative
produite dans ces cas ; un premier consensus s’est dégagé sur le fait que le son produit
n’est pas vraiment un « ch » français, mais il est plus proche du « ich Laut » allemand ;
hypothèse confirmée par « Mumml1 » qui se présente comme Allemand, et qui pense
qu’il pourrait tout de même y avoir une très légère différence (« la bouche un rien plus
bandée » :

Moi aussi, j'ai remarqué ça au bout de quelques jours en


Normandie. En fait, comme je suis allemand, moi aussi, j'ai qualifié ce
son comme le Ich-Laut (*) et il n'apparait qu'après les voyelles "i" et
"u" à la fin d'une phrase ou lors d'une pause d'articulation.
[…]
(*) la bouche pourrait-être un rien plus bandée qu'en allemand
Mumml1, 16 mars 2008

C’est par le truchement du recours à l’allemand qu’un deuxième consensus se


dégage à la fin de la discussion, après que plusieurs participants aient évoqué la
possibilité de rencontrer des rajouts de sons différents selon les cas (h, ch, f…) lorsque
« Dynamite » émet l’hypothèse que le timbre de la voyelle influence la coloration de la
consonne fricative rajoutée :

D'autre part, est-ce qu'après [ø, o, y, u] <e, o, u, ou> les étrangers n'entendent pas
parfois un prolongement avec un souffle que je symboliserai 'f'?? ex : 'Allez !
dis-le-nous' = [ale:ç di lø nu:f]
J'émets l'hypothèse que l'arrondissement de la voyelle détermine le son
additionnel (si tant est qu'un souffle puisse être considéré comme phonologique
car je n'ai pas trouvé de symbole phonétique)
Qu'en pensez-vous ?
Dynamite, 4 juillet 2011

La connotation sociale – qui était au centre de la question de départ – a également


été abordée dans ce fil de discussion. Une première hypothèse a été lancée par une
participante (qui ne donne aucun indice pour qu’on sache si elle avait vraiment compris
de quelle prononciation il était question) ; elle était formulée ainsi : « un tic de langage
inesthétique et désagréable » qui « fait un rien vulgaire ». Par la suite, d’autres
participant·e·s ont posté leurs avis à ce propos et ce fut toujours pour la contredire. Pour
« Outsider » « elle est utilisée surtout par des personnes raffinées, voire même un peu snob.
Elle paraît être typique des plus hauts régistres de la langue française », pour « Punky
Zoé » c’est un « sifflement atténué » spécifique à la région parisienne et à une « manière
affectée » de parler, pour « wildan1 » et « norma77 » elle est très répandue dans
différentes régions de France et n’a aucune connotation régionale. « Nanon » cherche
une explication articulatoire et parle de relâchement incontrôlé, à rapprocher de
l’épithèse vocalique (cf infra), susceptible d’être pratiqué dans toutes les classes sociales
(journalistes, institutrices…) mais pas vraiment en langage soutenu. Enfin « wildan1 »
penche pour une hypothèse stylistique car selon elle il s’agit d’une variante de
prononciation plutôt en fin de phrase « pour donner de l’emphase au sens du mot ».
Si l’on résume ces hypothèses – marqueur social, explication articulatoire ou
marqueur stylistique – on aboutit très exactement aux mêmes hypothèses que celles des
publications scientifiques en sociophonétique.

114
Ce qui est digne d’être noté, c’est précisément que ce forum témoigne de la
porosité entre les différents groupes sociaux et de la circulation des discours
linguistiques, sociolinguistiques et épilinguistiques produits par des journalistes, des
puristes, des curieux-curieuses de la langue et des linguistes universitaires. En effet, à la
fin de la longue liste de messages échangés en mars 2008, un participant trouve des
références universitaires et les partage avec tout le monde dans un message qui montre
qu’il n’a eu accès qu’à un à bref extrait de cette bibliographie :

Ce phénomène a été étudié par des phonéticiens. Voici quelques références.

• Zsuzsanna Fagyal & Christine Moisset. 1999. Sound change and articulatory
release: where and why are high vowels devoiced in Parisian French? In J. Ohala
et al. (eds.) Proceedings of the XIVth International Congress of Phonetics
Sciences, 309–312, Berkeley: University of California.
• Ivan Fónagy. 1989. Le français change de visage? Revue Romane 24: 225–
254.
• Caroline Smith. 2003. "Vowel devoicing in contemporary French." Journal
of French Language Studies 13, 177-194.
• Caroline Smith. 2002. "Prosodic finality and sentence type in French."
Language and Speech 45, 141-178.

Un extrait du dernier article est disponible ici. Eh oui, en anglais. J'espère que le
modérateurs feront preuve d'indulgence, c'est pour la bonne cause. Dans le
passage pertinent de l'intro, elle dit que l'assourdissement des voyelles (surtout
fermées) en fin de groupe prosodique représente un développement relativement
récent du français parlé, l'exemple le plus connu étant la prononciation de "oui"
comme [wiç] (le son final est une fricative sourde longue). Cela se produirait
plus souvent lors de la lecture à voix haute que dans la conversation courante.

Si quelqu'un a accès à ces ouvrages/revues, je lui souhaite bonne lecture et


j'ai hâte de lire son résumé synthétique ici même dans quelques jours.
CapnPrep, 21 mars 2008

En outre, un autre participant rajoute en mars 2009 un message qui semble faire
directement allusion à l’émission Arrêt sur images citée plus haut :

Il y a quelques années, un journaliste avait dit qu'on pouvait faire très facilement
la différence entre un jeune journaliste et un journaliste aguerri via certains tics
de langages en particulier le "hhh" à la fin des mots. Je ne noterais pas "ch" ou
/ç/ puisqu'après le u son /y/, j'entends plutôt un "fff").
Du coup, j'avais écouté les jeunes journalistes (sur les chaînes nationales) et j'ai
entendu à la pelle de "hhh" (on peut dire /ç/) après les /i/ et des "hhh" (je dirai
des "fff") après les /y/.
[…]
TitTornade, 14 mars 2009

Le cas de cette excellente circulation des idées sur un sujet si pointu me semble
fournir des arguments pour plaider l’intérêt qu’il y a à s’y pencher. La circulation des
discours experts-profanes devrait être abordée explicitement dans toute démarche
scientifique portant sur la perception (explicite ou implicite) de quelque phénomène que
115
ce soit. Il est illusoire de penser que les hypothèses élaborées par des scientifiques
proviennent d’un pur cheminement déductif ou inductif sans lien avec les discours
ambiants ou avec les représentations communément partagées, tout comme il est
illusoire de penser que les discours ambiants seraient « vierges » de toute influence des
discours scientifiques. La construction et la diffusion du savoir sont des processus d’une
extrême complexité, cela est bien connu : dès lors, il est impossible de mettre cette
information de côté lorsqu’on élabore un protocole d’enquête.
J’ai par ailleurs pu attester un autre fil de discussion, très récent (août 2016) sur
un site à fréquentation très différente : il s’agit du Forum Blabla 18-25 hébergé par le
site jeuxvideos.com, forum déjà évoqué dans la partie II.1.3. Le fil est ici bien plus court,
il se déroule durant seulement une quarantaine de minutes en impliquant une dizaine de
participant·e·s ; les réponses postées dépassent rarement trois lignes, et l’objectif
principal n’est pas de comprendre une pratique de prononciation mais de se moquer des
gens. Le sujet est lancé par un habitué « Sociopathie », plus de 4000 messages à son actif,
qui déclare sur son profil avoir 26 ans ; il s’intitule « Les gens qui prononcent ouichhh ».

Sociopathie : Les gens qui prononcent ouichhh


Je sais pas trop comment l'expliquer, mais vous avez déjà remarqué que
certaines personnes, quand elles parlent parfois on peut entendre un bruit
après leur mot, comme si elles soufflaient "chhh".
Très souvent ces personnes prononcent le oui en disant "ouichhh", en
soufflant après le mot comme pour le prolonger.
Ces personnes... elles m'énervent les kheys, ma parole elles m'énervent !
12 aout 2016

La graphie choisie pour le titre accole la fricative à la finale du mot et la rend


saillante par la multiplication des h, ce qui rejoint les pratiques graphiques déjà
explorées sur wordreference.com. On retrouve d’ailleurs de très nombreux points
communs avec la discussion de 2008-2011 évoquée précédemment : d’abord la
consternation des internautes qui ne comprennent pas de quoi il est question – le
phénomène n’ayant toujours pas suffisamment de notoriété, ensuite les hypothèses à
écarter (confusion avec l’aspiration, avec « wesh », avec la « ouiche lorraine »,
comparaison avec « bonjouran »), suivies par les explications des internautes qui
comprennent – un d’eux, « Fairphone », met en ligne via vocaroo.com un exemple
produit par lui-même pour illustrer les propos tenus et mieux cibler les réactions… La
description acoustique reformulée par « Sociopathie » ainsi que l’hypothèse sur le fait
qu’il s’agisse d’une pratique très courante rejoignent tout à fait la teneur de la discussion
tenue par les experts de wordreference.com :

Sociopathie, 12 aout 2016


Vous n'avez jamais entendu ? J'vous crois pas là, c'est tellement courant en
plus !
Faudrait que je retrouve un lien Youtube où on peut les entendre prononcer
le "ouichhh".
C'est pas vraiment le "ch" comme quand on dit "chat", c'est un mélange de
"ch" et d'un souffle continu qui prolonge le "oui".

116
Pour finir ce fil, une seule hypothèse est formulée, par « Anostra », un autre
habitué, (plus de 8000 messages à son actif) ; elle s’oriente vers une interprétation
stylistique :

Anostra, 12 aout 2016


Ah ok je vois . Je le fais quand je me fous de la gueule de quelqu'un
.

Cela désamorce le setting donné par « Sociopathie », qui semblait souhaiter


susciter des messages de désapprobation voire des insultes ; « Sociopathie » poste un
dernier message bref pour signifier qu’il se range à l’avis de « Anostra » sur l’utilisation
de ce trait dans la parole ironique : « Histoire de bien narguer, je vois. » ; ce qui clôt la
discussion.

Ce petit tour par les médias et par Internet fournit déjà un grand nombre
d’hypothèses sur l’épithèse fricative. Voyons quels sont les apports de la recherche, à ce
sujet, jusqu’à présent.
La première étude perceptive a été menée par Paternostro 2008, déjà cité. Il
s’agissait d’une étude pilote sur les connotations de cette pratique de prononciation
forgée à partir des hypothèses de Fonagy 1989. Malheureusement, de l’aveu même de
l’auteur, cette étude présente un problème de protocole qui rend les résultats
difficilement exploitables. La technique du matched guise adoptée a échoué car les
auditeurs ont reconnu qu’il s’agissait de la même locutrice qui produisait des phrases
avec ou sans « chh » ; or, cela a rendu les questions sur le profil imaginé de la locutrice
(censé être contrasté) peu pertinentes.
La deuxième étude à ma connaissance est le mémoire de doctorat de (Dalola
2014), déjà cité, qui met en regard la perception des locuteurs·trices de français L1 (35
personnes) et celle de 41 locuteurs·trices de français L2 (anglais L1). Les stimuli utilisés
étaient produits par deux femmes et deux hommes et contenaient des épithèses
fricatives après les voyelles /i,y,u/, dans des extraits étiquetés « parole
conversationnelle débit rapide » versus « débit lent », « registre formel » versus « registre
informel ». Des effets de contraste étaient obtenus par manipulation des extraits sonores
(épithèse fricative supprimée, épithèse fricative ‘normale’, et épithèse fricative allongée)
pour tester la sensibilité non seulement à la présence d’une épithèse mais également à
sa durée. L’ensemble était inséré dans un design de protocole matched guise, en ordre
aléatoire. Les auditeurs et auditrices devaient noter chaque extrait, sur une échelle de 1
à 7, selon une liste fermée d’une trentaine de critères différents portant sur la
personnalité imaginée des gens entendus (« la personne est superficielle, bourgeoise,
agaçante, professionnelle, féminine/efféminée, autoritaire, native de français », etc.), sur le
registre formel ou informel, sur le débit rapide ou lent, sur la posture épistémique (croit à
ce qu’il-elle dit / manque de confiance en soi), sur l’état émotionnel… Au final les juges
devaient exprimer une impression globale (Je fais confiance / Je respecte / J’aimerais
parler de la même manière).
Globalement, les résultats de Dalola montrent une différence significative entre le
groupe des L1 sollicités et celui des L2 : plus précisément, les évaluations des L1 se
distribuent dans deux directions opposées (« admiration, confiance » versus « effet
négatif, dépréciation ») tandis que les évaluations des L2 vont dans une seule et même
direction, positive (« personne digne de confiance, parole formelle »). De même, les L1
comme les L2 se montrent globalement peu sensibles à la durée des épithèses ; les
117
chiffres montrent peu de différences supérieures à l’effet du hasard. Néanmoins chez les
L2 il y a tout de même un effet significatif de la durée des épithèses sur la confiance que
les personnes évaluées inspirent ; mais aucun effet sur l’évaluation du degré de
formalité de la parole produite. La situation semble inversée pour les L1.
Globalement, malgré un nombre impressionnant de facteurs croisés et de calculs
effectués, peu de facteurs ont été repérés par Dalola comme pouvant être
statistiquement significatifs à l’intérieur de chaque groupe.
Dans le groupe des L1, il est possible que l’âge plus avancé soit davantage corrélé
avec la tendance à l’évaluation positive, surtout pour les évaluateurs hommes. Il
apparait également que les appréciations négatives sont surtout fournies par les
locuteurs-locutrices de français L1 vivant depuis fort longtemps aux Etats-unis chez qui
l’anglais était catégorisé comme ayant le plus haut niveau de « dominance », autrement
dit dont le bilinguisme est polarisé vers l’anglais, ce qui suggère que ces jugements
seraient fortement déterminés par les contacts avec autrui et pourraient facilement
évoluer chez une seule et même personne. Ces mesures restent bien sûr fragiles car les
échantillons sont vraiment petits et le poids du hasard reste très fort, mais elles
permettent de forger quelques hypothèses supplémentaires.
La conclusion de Dalola est similaire pour le groupe des L2.
Les quelques tendances qui émergent en termes de genre sont contradictoires en
termes de compétence (proficiency) en français. Par exemple, les chiffres montrent que
les femmes L2 dont le niveau en français est supérieur ont plus tendance à évaluer les
épithèses fricatives vers le haut de l’échelle de formalité, tandis que pour les hommes la
tendance est inversée. Mais comme la variation inter-individuelle est toujours très
importante, toute interprétation de ces résultats reste sujette à caution.
La dernière partie de l’étude est très difficilement interprétable, car Dalola a
demandé aux locuteurs et locutrices de la première partie du test (la partie production)
de s’auto-décrire à travers des adjectifs pour ensuite tenter de corréler ces adjectifs avec
la production des épithèses et comparer les « hyper-finalistes » qui produisent le plus
d’épithèses avec les autres. Or, premièrement rien ne prouve que l’auto-catégorisation
puisse avoir quoi que ce soit en commun avec l’hétéro-catégorisation, surtout dans une
interaction aussi décontextualisée (il est question de comparer les étiquettes qu’on
s’accorde à soi-même, face à une chercheuse, avec des étiquettes qu’on attribue à des
personnes inconnues dont on a entendu la voix durant 10 secondes). Deuxièmement, les
résultats obtenus montrent une extrême dispersion et aucune tendance claire n’a pu
être défendue, ne serait-ce qu’en termes purement mathématiques.
Au final, la principale conclusion de cette recherche semble être le fait que la
perception de ce trait, surtout pour les L1, demeure largement « murky » (obscure),
(Dalola, idem, p.ix).

La troisième étude que je souhaite discuter ici n’a pas encore fait l’objet d’une
publication : il s’agit du mémoire de M2 de Camille Nérant (Nérant 2015) qui a travaillé
sous ma direction. Profitant de son statut de journaliste stagiaire et des contacts
professionnels noués par ce biais, elle a mené une enquête perceptive par entretien
auprès de 11 journalistes de la station radio RFI. Les questions posées visaient à leur
demander de repérer des prononciations particulières dans des extraits de plus en plus
courts produits par leurs confrères ou consoeurs de manière à les amener
progressivement à identifier, à un moment, les épithèses fricatives et à en commenter
l’usage.

118
Dans cette étude, la pratique langagière ciblée est clairement la pratique
journalistique de la lecture d’informations à l’antenne ou de l’animation d’une émission
d’actualités ; les questions s’adressent à des professionnels considérés comme des
experts. Les discours sollicités portent, durant la plus longue partie de l’entretien, sur les
pratiques d’autrui ; en revanche, la dernière question porte sur les propres pratiques de
chaque journaliste à travers la confrontation à un exemple d’épithèse fricative produite
par soi-même à l’antenne (sauf pour un journaliste qui ne semble jamais en produire).
L’étude de Nérant montre que, sur 11 journalistes interviewés, 10 ont découvert
l’épithèse fricative directement par le biais du protocole d’enquête, malgré le fait qu’elle
faisait partie de leurs propres pratiques ; un seul, journaliste expérimenté et également
formateur, avait déjà repéré cette pratique de prononciation. Il a été aisé de trouver des
exemples d’épithèses fricatives produites par les 10 journalistes à l’antenne, mais
aucune attestation n’a pu être trouvée pour le 11e, celui qui l’avait déjà repérée.
Les experts ont ainsi été amenés d’abord à donner leur jugement dans un contexte
assez peu contraignant, influencé par l’omniprésente idéologie du standard en français,
si bien décrite par Armstrong et Mackenzie 2013 ; sous la pression de l’idéologie du
standard unique les évaluations sont orientées négativement, car il ne peut s’agir que
d’une pratique déviante. Pour finir ils et elles ont été invités à produire un discours sur
leurs propres pratiques qui échappaient à leur conscience, dans un contexte plus
contraignant (risque de perdre la face).
Que ce soit dans la partie consacrée à l’évaluation d’autrui ou dans celle de
l’évaluation de soi, les journalistes étaient toujours en position ingroup et leurs
jugements relevaient d’une posture intragroup (Tajfel 1981), car il s’agissait d’évaluer
leurs pairs, exerçant la même profession. Cela favorise une attitude globalement
bienveillante, malgré les critiques formulées. Ce qu’il en résulte c’est que le plus souvent,
les interviewé·e·s ont recherché une interprétation stylistique des épithèses fricatives :
marquer la fin d’une séquence, annoncer un changement de tour de parole, appuyer un
mot, se conformer au formatage du phonostyle « lecture de news » pour la presse
audiovisuelle. Quelques fois une interprétation interactionnelle a été avancée :
hésitation masquée due à un imprévu, gestion du stress ou de l’émotion par la gestion du
souffle ou par la mise en scène d’un relâchement. Ces interprétations interactionnelles
ont surtout été mises en avant dans la dernière partie de l’interview, lorsqu’il s’agissait
de s’auto-évaluer ; parfois, dans cette partie, la fatigue ponctuelle a été invoquée comme
excuse d’une performance de piètre qualité, d’un défaut de diction ponctuel et
accidentel.
Cette étude incite à formuler l’hypothèse que la pratique de l’épithèse fricative
serait en expansion dans la presse audiovisuelle mais qu’elle échapperait encore à la
conscience de la plupart des journalistes. Lorsque le niveau de conscience est atteint, les
réactions sont variées et peuvent évoluer rapidement ou se renégocier assez facilement,
ce qui rejoint certaines observations de Dalola 2014.

En ce qui me concerne, j’ai mené, avec le concours des étudiant·e·s de mon


séminaire de master de sociophonétique, une enquête exploratoire selon le protocole
déjà décrit pour l’épithèse vocalique, partie II.1.3. Un groupe de 40 étudiant·e·s (36
femmes, 4 hommes) a répondu dans un premier temps et une quarantaine de personnes
de leur entourage, 28 femmes, 16 hommes (familial, amical, collégial – sauf étudiant·e·s
en sciences du langage) a été sollicitée, par ce groupe, dans un second temps.
Les réponses obtenues montrent nettement une plus grande difficulté à repérer et
même à percevoir l’épithèse fricative par rapport à l’épithèse vocalique (même après
119
focalisation de l’attention sur les finales de mots, dans des extraits de quelques
secondes). La plupart des personnes sollicitées finissent par entendre ces
prononciations, mais il ressort qu’elles les découvrent artificiellement, en interaction
avec les enquêteurs, à travers le protocole d’enquête. Les discours produits par cette
sollicitation artificielle sont donc, logiquement, peu stables et peu convergents, ce qui ne
corrobore pas l’hypothèse de l’éventuelle émergence d’un stéréotype.
Aucune interprétation claire n’émerge en termes de genre : la majorité des femmes
affirme qu’il s’agirait d’une pratique plutôt féminine, mais une forte minorité affirme que
la pratique serait neutre ; en revanche, la grande majorité des hommes (11 sur 16)
pense qu’il s’agirait d’une pratique neutre, un seul pense qu’elle serait plutôt féminine ;
4 hommes et 3 femmes déclarent n’en avoir aucune idée sur ce sujet. Cette grande
dispersion des réponses ne permet de formuler aucune hypothèse ; la question (fermée)
semble avoir été tout simplement artificiellement imposée par le protocole d’enquête. La
situation est similaire pour la question fermée sur le milieu social où cette pratique
serait plus probable (cultivé, peu cultivé, indifférent, aucune idée) : les réponses se
distribuent au hasard entre « cultivé », « indifférent » et « aucune idée »). On peut
néanmoins noter que personne n’associe l’épithèse fricative à un milieu « peu cultivé ».
Dans les réponses ouvertes, plus intéressantes, les personnes sollicitées ont plutôt
cherché des interprétations stylistiques : recherche d’emphase, insistance, appui,
hésitation, dramatisation, stylisation, style précieux, hautain, pédant, prétentieux, théâtral,
séducteur … Mais aussi des pistes articulatoires : essoufflement, souffle final, chuintement,
fatigue, lassitude, naturelle. Et parfois, plus rarement, des associations avec des profils de
personnes : snob, parisien, allumeuse, mondain... Lorsque l’effet produit prend le pas sur
l’interprétation du phénomène, c’est toujours de manière négative : agaçant, irritant,
insupportable. Cependant, ces qualificatifs négatifs sont bien moins fréquents par
rapport à ceux que les épithèses vocaliques avaient suscités auprès des mêmes
personnes.

Figure 16 : Nuage de mots obtenus après écoute d’épithèses fricatives

120
Quant aux notations graphiques spontanées, elles sont, là encore, bien plus
dispersées que celles sur l’épithèse vocalique. Dans les expérimentations exploratoires
que j’ai menées à ce sujet (voir [doc 06]), j’avais utilisé en particulier un extrait de
quelques secondes produit par la journaliste C. Ceylac pour lancer une interview dans
l’émission « Thé et café » où elle produisait un « vous » suivi d’une épithèse fricative avec
une brève détente vocalique à la fin, ce qui le rendait particulièrement saillant
perceptivement. De nombreux répondants ont entrepris de le représenter
graphiquement pour pouvoir décrire sa prononciation à l’écrit, et cela a donné des
variantes de ce type :
• Avec notation de la fricative épithétique (perçue comme plus ou moins
alvéolaire, dentale ou palatale) : vousf, vouf, vouff, voufff, vouchfff, vouch,
vouchch…

• Avec notation de la fricative et de la voyelle épithétiques : vousssssseuh,


voufe, voufeu, voufveu, vouhfun

• Par périphrase : « vous en sifflant » ; « vous soufflé »

Cette dispersion est à mettre en relation avec la difficulté de percevoir


spontanément cette prononciation, par conséquent son manque de saillance, et donc,
probablement, avec l’absence d’un processus de stéréotypisation à l’œuvre. L’hypothèse
d’un processus de stéréotypisation incipient ne peut pas être rejetée, mais si c’était le
cas, la stéréotypisation serait moins avancée que celle de l’épithèse vocalique.

II.1.5 Rapprocher épithèse vocalique et fricative ? Conclusions


provisoires

J'ai étudié ces deux types d’adjonction (« sons parasites ») au statut


(socio)linguistique incertain de manière indépendante ; le premier – le son vocalique –
plutôt d’un point de vue distributionnel et énonciatif (doc 26 et thèse) avec un intérêt
pour sa perception sociale, le second – le son fricatif – d’un point de vue distributionnel
(doc 18), socio-perceptif et stylistique (doc 08). Ce n’est que progressivement que j’ai
perçu l’intérêt de les considérer ensemble, de manière complémentaire et de privilégier
la dénomination « épithèse » pour mieux faire ressortir ce rapprochement.
Mon objectif est double.
D’une part je tâche de rendre compte de la dynamique de ces phénomènes en
cours de diffusion, des facteurs articulatoires qui facilitent ou entravent leur diffusion,
de leur fréquence de production selon les contextes syntaxiques et prosodiques, selon
les enjeux interactionnels ou situationnels, et selon les profils des personnes qui les
produisent ; je m’intéresse également à leur perception sociale éventuellement en pleine
mutation.
D’autre part je souhaite prendre appui sur l’exemple des épithèses en français pour
défendre une méthode de recherche sociophonétique à même de donner une vision
globale des tendances phonétiques en français en rassemblant les observations éparses
des différents courants de recherche sur la prononciation. Ces analyses constituent des
mises en application de l’approche mixte et largement intégrative que je défends, une
approche qui puisse prendre en compte différents niveaux d’analyse (acoustique,
121
articulatoire, paratactique, énonciatif et perceptif) et qui puisse mettre en perspective
les résultats quantitatifs des fouilles de grandes bases de données (sollicitées ou
écologiques), les observations de détail issues des démarches d'analyse qualitative à
partir de corpus situés ainsi que les idéologies linguistiques qui structurent, en toile de
fond, les représentations sur la langue en grande partie partagées par le grand public et
par les (socio)linguistes. J’y reviens dans la synthèse finale, partie III.1.
Pour des pratiques de prononciation émergentes, non stabilisées, dont le statut
n’est pas clair (marqueur ? particule ? variante libre ? stéréotype ?) il est encore plus
difficile de choisir a priori une méthode d’enquête pertinente. Ainsi, concernant les deux
épithèses, la démarche variationniste classique s’avère décevante ; les résultats sont soit
non significatifs sur quasiment tous les critères (c’est le cas pour l’étude de Dalola
2014), soit contradictoires d’une étude à l’autre car trop dépendants de l’échantillon.
Pour espérer avoir des pistes un tant soit peu intéressantes par ce biais, il faudrait un
échantillon représentatif d’un millier de personnes scrupuleusement stratifié et
équilibré, ce qui n’est pas envisageable. En outre, les hypothèses formulées par les
chercheurs rejoignent celles venues de l’extérieur des cadres académiques, et il est fort
possible que, en l’état actuel des choses, une étude quantitative n’apporte quoi que ce
soit d’intéressant pour la compréhension d’un phénomène aussi sporadique et
susceptible d’évolution rapide. Dans un cas de pratique complexe et non stabilisée
comme celui-ci, il me semble qu’il serait nécessaire d’accumuler davantage d’études
qualitatives avant de pouvoir – éventuellement – construire des hypothèses formulables
en termes quantitatifs et vérifiables par des mesures statistiques.

Je récapitule ici les résultats et les questionnements en l’état actuel de mes


connaissances, en guise de conclusions provisoires, en mettant systématiquement en
parallèle l’épithèse vocalique et l’épithèse fricative.

Contraintes articulatoires et distribution

Du point de vue articulatoire : les deux sont des phénomènes de détente ; les deux
sont des adjonctions de sons.
Fagyal et Moisset 1999 convoquent le modèle articulatoire de Straka 1979 pour
expliquer la production des épithèses consonantiques. Mais ce modèle explique aussi
bien les épithèses vocaliques : lors de la détente finale, avant une pause, lorsque
l’énergie baisse il reste parfois, malgré cette baisse, beaucoup de tension entre les
articulateurs, ce qui provoque un effet mécanique de détente en sens inverse (un geste
ouvrant ou un geste fermant). Autrement dit, sous l’effet de la tension résiduelle, on
détend les articulateurs par une ouverture si le dernier son produit est une consonne, ou
par une fermeture si le dernier son produit est une voyelle. Le geste final ouvrant
produira une voyelle de timbre central [ə], parfois plus ouvert – qui pourra être
nasalisée si le voile du palais se baisse en même temps, ou qui sera orale si le voile du
palais reste levé. Le geste final fermant produira, quant à lui, un bruit de friction, dont
l’acoustique dépendra de la position des articulateurs, et en particulier de la langue, liée
à la production de la voyelle de fin ; ce bruit pourra donc être plus alvéolaire, alvéo-
palatal ou palatal, sibilant ou non.
Point commun aux deux épithèses : leur production est sporadique. Il existe des
personnes qui n’en produisent jamais (cela n’a donc rien d’automatique du point de vue
articulatoire), des personnes qui en produisent parfois, et des personnes qui en
produisent très souvent, mais néanmoins à des taux variables selon les enjeux du
122
contexte - qu’il convient de définir de manière très fine (Duranti et Goodwin 1992). Cela
veut dire que la piste articulatoire ne fournit pas d’explication à ces pratiques de
prononciation : elle fournit simplement la compréhension de ce qui rend possible leur
existence.
En théorie, ces deux épithèses pourraient se produire à la fin de tout type de
groupe intonatif, avant une pause : en pratique, on observe une tendance à la
distribution complémentaire. En effet, l’épithèse vocalique a tendance à être davantage
produite en position non finale d’énoncé, le plus souvent juste après une syllabe portant
un contour intonatif montant, tandis que l’épithèse fricative a tendance à être davantage
produite en position finale absolue d’énoncé, souvent en fin de tour de parole. Cela
suggère une certaine iconicité (Fónagy 1983; Bouvet et Morel 2002) du geste
articulatoire qui produit l’épithèse : le geste vocalique ouvrant est un geste de
continuation, tandis que le geste fricatif fermant est un geste de clôture. Comme la
continuation est déjà portée par le contour intonatif montant, et la clôture est déjà
portée par le contour intonatif descendant, la présence des épithèses est
pragmatiquement et énonciativement redondante, d’une certaine manière. Elle pourrait
donc servir à renforcer l’ouverture ou la clôture, à l’exhiber, ce qui pourrait expliquer le
champ indexical de la préciosité dans les discours sur la perception de ces
prononciations ; le contour mélodique se trouve en quelque sorte hypertrophié par ce
prolongement épithétique.
Pour l’épithèse vocalique : on s’attendrait à ce qu’elle apparaisse uniquement après
une syllabe fermée par une consonne ou une diphtongue décroissante /aj, uj/ et cela a
sans doute été le cas à un moment, si on se fie aux observations de Fonagy. Mais
plusieurs études dans les années ‘90-2000 ont montré qu’elle pouvait être produite non
seulement après toute consonne, mais aussi après toute voyelle fermée, et ensuite après
toute voyelle, même ouverte, même nasale. L’épithèse vocalique a donc perdu petit à
petit toute contrainte phonotactique pour changer de statut et devenir … autre chose :
cela reste à discuter. En tout cas plusieurs études et plusieurs discours épilinguistiques
issus du grand public convergent vers l’hypothèse d’une forte expansion de l’épithèse
vocalique, suivie probablement d’une stabilisation et d’un processus de stéréotypisation
qui a pu récemment freiner sa progression.
Pour l’épithèse fricative : on s’attendrait à ce qu’elle apparaisse uniquement après
une voyelle fermée /i, y, u/ qui nécessite plus de tension dans les articulateurs ; si
Fonagy avait raison à son époque, cela a été vrai à ce moment. Plusieurs études ont
malheureusement fait le choix de n’étudier que ces configurations. Or, les données
actuelles montrent qu’elle s’étend vers les voyelles mi-fermées /e, ∅/, peut-être /o/…
Elle ne s’est pas encore étendue vers les finales consonantiques30, ce qui montre qu’elle
est plus soumise à des contraintes paratactiques que l’épithèse vocalique. Son domaine
de distribution est néanmoins en expansion et il y a bien moins d’indices qui nous
conduisent vers l’hypothèse d’une stéréotypisation suffisamment forte pour inhiber sa
progression actuelle.
En ce qui concerne la durée : l’épithèse vocalique a tendance à être brève, plus
brève qu’une voyelle accentuée, tandis que l’épithèse fricative peut avoir des durées
variables, allant jusqu’à des seuils très élevés, totalement anormaux pour une consonne.
Les observations sur l’articulation portent en germe la possibilité de champs
indexicaux multiples et contradictoires ; rien, dans l’articulation, ne permet de prédire

30 En théorie on pourrait imaginer des détentes fricatives après des occlusives ou des vibrantes.
123
l’indexicalité de ces prononciations, mais cela permet d’imaginer les tendances qui
pourraient s’actualiser. On peut en effet y voir, virtuellement :
• l’adjonction d’un son parasite, déviant par rapport à l’orthographe → et donc
construire une association avec un faible niveau de littératie, ou la vulgarité,
etc. ;
• la détente articulatoire mal contrôlée, laissant s’échapper des bruits parasites →
et donc construire une association avec la négligence, le « relâchement », ou
bien avec la connivence, la proximité, l’interaction informelle ;
• la production de sons facultatifs, purement stylistiques, nécessitant un contrôle
de la phonation pour produire des contours mélodiques complexes
uniquement pour mettre en relief certaines unités, à certains moments → et
donc construire une association avec le soin porté à la prononciation ; si le soin
porté à la prononciation est jugé excessif, cela peut aussi produire une
association avec la préciosité, le snobisme, l’expressivité recherchée…
• l’adjonction d’une voyelle ouverte avant une pause → et donc y voir une forme
réduite d’appel à l’autre, une ouverture vers l’autre, une marque de
bienveillance, amicale…
• l’adjonction d’une consonne fricative allongée avant une pause → et donc y voir
une forme réduite d’onomatopée menaçante, un bruit de dissuasion, une
marque d’autorité inamicale…

Tous ces axes sont virtuellement possibles, défendables ; ils pourraient s’actualiser
en concurrence, de manière simultanée et éventuellement socialement organisée, ou
bien en alternance, à des époques/générations différentes.
Pour avancer dans la compréhension de ces pratiques de prononciation, nous
pouvons également nous appuyer sur un élément nouveau qui a émergé de mes corpus
et qui n’a pour le moment pas fait l’objet de descriptions à ma connaissance ; il s’agit de
l’observation du fait que ces deux épithèses peuvent se concaténer, comme dans
« merci~chhh~e » prononcé en trois syllabes [mƐR-si-çə], où l’épithèse fricative (geste
fermant tendu) est elle-même suivie par une épithèse vocalique (détente, geste
d’ouverture), aboutissant ainsi à l’adjonction non pas d’un son mais d’une syllabe
complète [çə].
Ainsi, ai-je repéré Juliette Rengeval, jeune journaliste de RFI, capable de produire
par moments plusieurs épithèses concaténées en quelques secondes.
La figure ci-dessous représente 400 secondes de temps de parole de J. Rengeval,
durant une émission spéciale sur RFI le matin du 14 novembre 2015. La première ligne
rend visibles les épithèses vocaliques et la deuxième les épithèses fricatives concaténées
ou non à des épithèses vocaliques. La dernière ligne indique quelles sont les épithèses
doubles (concaténées).

124
Figure 17 : distribution des épithèses (vocaliques ‘@’, fricatives ‘ç’ et mixtes ‘*’) de la
journaliste J. Rengeval dans un échantillon de 400 secondes

Dans cet extrait, elle produit une épithèse vocalique toutes les 32 secondes en
moyenne (comme le conférencier analysé dans la partie II.1.3), mais elle produit
également une épithèse fricative (combinée ou non) toutes les 20 secondes en moyenne.
Il s’agit chez elle d’un phonostyle stable lié à la lecture d’informations à l’antenne, que
j’ai pu observer à d’autres moments. Nous pouvons repérer ici un passage avec une
concentration exceptionnelle de contours mélodiques hypertrophiés par la présence de
doubles épithèses fricatives et vocaliques ; c’est également un passage particulièrement
dense pour la production des épithèses fricatives simples. Il est difficile de comprendre à
quoi cela est dû car nous ne pouvons pas avoir accès à la situation en studio, mais on
peut imaginer un passage particulièrement stressant (lendemain des attentats de
novembre 2015 à Paris) ; une série d’hésitations à la lecture d’informations semble être
due au fait que la journaliste découvrait en direct ce qu’elle devait dire. Regardons de
plus près cet extrait en focalisant notre attention sur les épithèses concaténées :

« … distinctes /700/ l’enquête n’en est e /100/ qu’à ses débuts-chhh-e /360/ et /100/
un conseil de défense-e donc-e vient de s’ouvrir-e à Paris au palais de l’Elysée-chh-e
/390/ on sait que les renforts-e militaires sont attendus-chhh-e /90/ restez avec nous
à l’écoute de RFI on se retrouve dans une minute… »
[pauses silencieuses en ms, entre barres obliques]

Les deux premiers items (Figure 18) sont prépausals en contexte continuatif : on
aurait attendu des épithèses vocaliques, mais en fait elles sont précédées par une
transition fricative.

qu’à ses débuts~chhh~e

125
au palais de l’Elysée~chhh~e

Figure 18 : tracés Praat (épithèses fricatives), transcriptions SAMPA

Le troisième, Figure 19, est en contexte final, avant la fin du paragraphe (avant la
relance « restez avec nous). Il est suivi d’une pause extrêmement brève, qui serait passée
inaperçue si elle n’était pas renforcée par le décrochage intonatif entre la fin du
paragraphe d’information et le début de l’énoncé de relance avant jingle. On aurait
attendu ici une épithèse fricative qui exhibe le geste de clôture intonative ; or, elle est
suivie par une détente vocalique longue (230 ms) et plate, pouvant faire penser à un
« euh » de travail de formulation. Son statut n’est pas très clair.

sont attendus~chhh~e
Figure 19 : tracé Praat, épithèse fricative (transcription SAMPA)

J. Rengeval n’est pas la seule locutrice à produire des épithèses concaténées ;


j’avais déjà évoqué l’exemple de C. Ceylac plus haut ; j’ai trouvé une bonne vingtaine
d’exemples dans mes corpus radiophoniques (mais la recherche ne peut se faire que
manuellement, en écoutant des émissions au hasard, ce qui fait qu’on ne peut pas
constituer un grand corpus de cette manière).
Dans l’exemple ci-dessous produit par une journaliste toujours en lecture
d’informations, (RFI, janvier 2008), il n’y a aucune trace de pause après la concaténation
des deux épithèses qui suivent un pronom focalisé, « lui » :

« une médiation qui s’annonce difficile le camp de l’opposant Raila Odinga en attend
beaucoup /370/ mais l’entourage de Mwaï Kibaki officiellement réélu président a
lui~chhh~e déjà fait savoir qu’il s’y opposait /390/ »

Ce pronom sert de focus contrastif et à ce titre il est détaché par un ton montant ;
mais cette mise en avant est renforcée par une détente très forte et audible. On aurait
attendu une simple épithèse vocalique, comme contre-point descendant juste après la
montée, compte tenu du contexte non final. L’épithèse vocalique est bien là (95ms), mais
elle est précédée par un passage fricatif (110ms) qui assure une partie de la descente (et
126
de la détente), même si tout cela est extrêmement rapide et totalement enchainé à ce qui
suit :

-dent a lui~chhh~e déjà fait

Figure 20 : tracé Praat, épithèse fricative (transcription SAMPA)

La concaténation des épithèses fricative + vocalique (syllabique ?31) n’est pratiquée


que par un petit nombre de locuteurs ou locutrices ; et elle est produite avec une
fréquence bien moindre par rapport à chaque épithèse prise isolément.
Mais le phénomène est instructif, car il corrobore l’hypothèse que ces épithèses
jouent le même rôle stylistique et énonciatif. Lorsqu’elles font partie des pratiques très
courantes d’une personne, il n’est pas surprenant qu’elles en viennent à se combiner.
C’est surtout l’épithèse vocalique, celle qui s’est affranchie de toute contrainte
phonotactique, qui est produite subséquemment à l’épithèse fricative ; je n’ai jamais
relevé de cas d’ordre inverse. Mais les contextes dans lesquels on relève ces doubles
épithèses peuvent correspondre aussi bien à ceux qui favorisent l’épithèse vocalique
qu’à ceux où on attend plutôt une épithèse fricative.
On a l’impression qu’en cas de contexte final, le rajout de la détente vocalique (qui
permet de finir la bouche ouverte), adoucit un peu la tension finale exhibée par la
friction audible. A l’inverse, en cas de contexte interne à un énoncé, en position non
finale, le fait de rajouter une friction de transition, notamment après un ton montant,
permet d’insérer une note autoritaire ou menaçante avant de produire la clausule
vocalique continuative. La description de ces pratiques en interaction reste un chantier
quasiment inexploré.

Discours spontanés et hypothèses scientifiques

Nous avons vu que, lorsqu’il s’agit d’évaluer chaque type d’épithèse, les hypothèses
formulées (spontanément ou non) par des gens qui n’ont pas une démarche de
recherche rejoignent en grande partie celles que nous pouvons relever dans les
publications scientifiques :
• hypothèses articulatoires (contraintes, défauts…)
• hypothèses stylistiques (effets recherchés, posture)
• hypothèses identitaires ou sociales (pratiques spécifiques à un groupe)

31 Du point de vue articulatoire, l’adjonction d’une consonne fricative suivie d’une voyelle rajoute en

fait une syllabe complète à la fin du mot. On peut l’appeler « épithèse syllabique », et en faire un tout, ou
bien chercher une autre désignation plus analytique.
127
Une seule exception notable : les hypothèses interactionnelles (comme chez
Hansen) ne se retrouvent que chez les chercheurs. De manière générale, les hypothèses
des chercheurs sont formulées de manière plus bienveillante, plus compréhensive et
évitent les stigmatisations. Ou, pour le moins, elles évitent les formulations
explicitement stigmatisantes, car si l’on songe au ‘e d’appui’ de Fonagy présenté comme
un rouge à lèvres vocal et une invitation à la danse, on se rend compte rapidement des
limites de l’exercice lorsqu’il s’agit de l’appliquer à un conférencier ou un journaliste
parlant en public. Quoi qu’il en soit, globalement, on a relevé une grande cohérence, et
même un certain va-et-vient, on l’a vu, entre les discours scientifiques et les discours
profanes, si on s’intéresse à chaque épithèse isolément.
Il semble que l’épithèse vocalique ait connu une forte expansion dans différents
groupes sociaux en s’affranchissant de toute contrainte phonotactique ; cette expansion
n’est plus d’actualité, et elle semble être en train de se stabiliser comme stéréotype
(négatif) de préciosité. Il apparait aussi qu’elle serait perçue comme plus ouverte qu’elle
ne l’est (elle est notée « an » par le public non-spécialiste, alors que son timbre, lorsqu’il
est nasalisé – ce qui n’est pas toujours le cas – est plus proche de /ɛ̃/ ou /ə̃ / ou /æ̃/).
Pour autant, il n’est pas établi qu’elle puisse être considérée comme une variante de
prononciation : de quoi serait-elle une variante ? de toute coda syllabique prépausale ou
en intonation montante ? En outre, on constate que même pour les personnes qui la
produisent souvent elle reste très dépendante des enjeux interactionnels ; elle n’a rien
d’automatique. Dès lors, son statut de possible particule énonciative mérite amplement
d’être étudié de manière plus approfondie.
Concernant l’épithèse fricative, j’ai dégagé l’hypothèse qu’elle serait pour le
moment en expansion et passerait encore assez largement inaperçue. Elle serait soumise
à des contraintes phonotactiques encore assez strictes, mais la tendance serait à
l’assouplissement et sa coloration acoustique s’adapterait à celle de la voyelle
précédente. Il apparait que les voyelles qui peuvent être suivies par une épithèse
fricative se diversifient, et du point de vue articulatoire rien n’empêche que ses
contextes s’étendent pour inclure d’autres codas, des occlusives sourdes, des
vibrantes…. Les gens interviewés ont du mal à percevoir l’épithèse fricative, sauf si elle
est suivie d’une épithèse vocalique concaténée. Néanmoins, j’ai pu attester de discours
spontanés à son sujet produits par des observateurs plus attentifs et plus performants
que la moyenne, et dans ce cas les discours évaluatifs produits sont aussi peu stabilisés
que les graphies spontanément adoptées. Il est, pour l’heure, difficile de déceler la
moindre émergence de stéréotype négatif ou positif à ce sujet. Par ailleurs, il n’est pas
établi qu’elle puisse être considérée comme une variante (dévoisée) de prononciation de
toute voyelle fermée ou mi-fermée. Tout comme pour l’épithèse vocalique, elle reste
dépendante des enjeux interactionnels ou énonciatifs et n’a rien d’automatique, même
chez les personnes qui en produisent souvent. Son statut de possible particule
énonciative mérite également d’être étudié de manière plus approfondie.

Qu’en est-il pour le lien que je pense devoir établir entre les deux épithèses ?
Je n’en ai pas trouvé trace dans les publications scientifiques, en dehors d’un lien
implicite chez Fagyal et Moisset 1999, lors du recours à l’hypothèse articulatoire (geste
ouvrant / geste fermant).

En revanche, j’ai trouvé une trace dans la brève discussion du forum Blabla 18-25
du site « jeuxvideo.com » déjà cité : la discussion est lancée sur « les gens qui prononcent
ouichhh » et, quelques minutes plus tard une personne fait immédiatement le parallèle
128
avec « Le pire c'est les gens qui ajoutent des "an" à la fin des mots/phrases . Genre
comme ça an » . Les graphies choisies parlent d’elles-mêmes : dans les deux cas les
scripteurs ont choisi de rajouter des sons, et non de prolonger la fin du mot32. Dans le
premier cas, le « chhh » rajouté a été accolé au mot porteur, tandis que dans le deuxième,
le « an » rajouté a été noté à part.
Dans ce bref échange, on peut en fait retrouver une grande part des hypothèses :
dans les deux cas le phénomène est perçu comme une adjonction et non une variante de
prononciation du son final ; les phénomènes sont perçus comme parallèles (l’un évoque
l’autre), mais l’épithèse vocalique est qualifiée comme « le pire » ; dans le cas de la
voyelle, la graphie séparée plaide pour la perception d’une vraie particule dotée d’une
certaine autonomie, ce qui n’est pas le cas pour la fricative ; dans les deux cas il s’agit de
cibler un profil de gens « les gens qui », mais, pour l’épithèse fricative, c’est l’hypothèse
stylistique qui sera imposée, au final, par un participant ayant autorité [« je le fais quand
je me fous de la gueule de quelqu’un »] .

De même, dans la discussion de 2008 du Forum de wordreference.com33., déjà


citée, consacrée à la prononciation « merci[ç] et oui[ç] », l’exemple de l’épithèse
vocalique a également été amené spontanément en complément, et en parallèle. La
première à l’avoir introduit a été la participante « Nanon », et c’était pour caractériser la
prononciation d’une collègue « originaire de la région parisienne » :

Il faudrait que j'enregistre une de mes collègues qui cumule ce "ouiçççç, merciçççç"
avec l'ajout d'une voyelle nasale en fin de mot : "Bonjouran !" Elle fait ça de façon
aussi systématique (et ça a d'ailleurs le don de m'irriter) qu'inconsciente. (Pour Itka :
cette personne est originaire de la région parisienne).
Dans mes vieux souvenirs de FLE, les étudiants de français langue étrangère
remarquent plus facilement ces phénomènes que les locuteurs natifs, car ils perçoivent
des "sons parasites" dont ils ne s'expliquent pas la provenance.

Nanon, 15 mars 2008

Les autres participants ont immédiatement compris de quoi il s’agissait, ont donné
l’exemple d’un journaliste dont le phonostyle « parisien » a été caricaturé, alors que pour
l’épithèse fricative la discussion faisait encore rage pour savoir de quoi il s’agit
exactement.

"Bonjouran" à la façon M.O.F34 c'est l'accent parisien, parigot même, il me semble !


Celui que les "Inconnus" ont caricaturé dans plusieurs de leurs sketches... (Sauf que
pour moi, ce serait plutôt un [bonjourə] - pardon pour la transcription non moins
étrange - cet étrange ə étant fortement nasalisé).
... mais ce serait sans doute l'objet d'un autre fil !

Itka, 16 Mar 2008

32 oui
Par exemple ils ont écrit « ouichhh », et n’ont pas écrit : « iiiiii ».
33 http://forum.wordreference.com/threads/fran%C3%A7ais-oui-%C3%A7-merci-%C3%A7.870250/
34 Marc Olivier Fogiel.

129
De manière intéressante, la participante « Itka » propose une graphie alternative
pour « bonjouran » : ce sera la seule alternative, tandis que pour les épithèses fricatives
chaque participant aura proposé sa propre graphie.
Pour finir, le participant « Andrejj », à l’origine de la discussion, présente son point
de vue, très précis, sur le profil des gens qui utilisent les deux épithèses en les mettant
en parallèle et en prenant appui sur les avis échangés sur le fil :

Par exemple, dans ce fil vous trouverez deux opinions opposées au sujet de la valeur
stylistique des "ouiç/merciç" (certains les jugent comme tout à fait fautifs, mais certains
soulignent leur appartenance au style soutenu), mais il n'y a qu'une seule évaluation en
ce qui concerne des "bonjouran" (le jugement est surtout négatif).

On en peut déjà faire quelques conclusions.


Régardez maintenant mes observations :
1) J'entendais les "ouiç" prononcés par tout le monde (du juge à la femme de ménage) ;
2) L'utilisation de la forme "Bonjouran" indique plutôt une personne mal instruite, qui
ne réfléchit jamais sur la langue.
Andrejj, 18 Mars, 2008

Nous retrouvons, là encore, les hypothèses déjà évoquées : symétrie des


phénomènes (adjonctions de sons) mais dissymétrie dans les connotations et dans le
degré de notoriété. Contrairement au fil de « jeuxvideos.com», les choix graphiques pour
l’épithèse vocalique ont privilégié la voyelle accolée à la fin du mot, tandis que les choix
graphiques pour l’épithèse fricative ont été d’une extrême diversité.

Le grand intérêt de ces exemples, encore une fois, c’est qu’ils ont été produits en
dehors de toute démarche de sollicitation dans le cadre d’une recherche ciblée, dont le
thème aurait été défini par avance et qui se serait imposé aux participants. Ici, le thème a
émergé du terrain. La faiblesse de ces exemples provient du fait qu’ils émanent de
personnes de toute évidence très sensibles à ces questions et donc capables de formuler
des avis d’une finesse très différente de ce que l’on peut espérer obtenir de la part de
personnes sollicitées au hasard. Nous n’avons donc aucun moyen de généraliser ces
propos, mais ils représentent des signaux très précieux.

Perceptibilité expérimentale

En l’occurrence, il n’existe pas de publication issue d’une étude expérimentale sur


la perception conjointe (ou en miroir) des épithèses vocaliques et fricatives. Les
protocoles mis en place par Paternostro 2008 ou Dalola 2014 ne permettaient pas de
rassembler ou comparer ces deux phénomènes, car le parti était pris d’en isoler un seul,
au risque, comme toute démarche de ce type, de produire un artefact. Il en est de même
avec l’étude, pour le moment inédite, de C. Nérant 2015.
La seule démarche expérimentale allant dans ce sens, et confrontant les discours et
la capacité à percevoir les deux épithèses par les mêmes personnes, est l’étude pilote
que j’ai mise en place avec les étudiant·e·s de mon séminaire de sociophonétique, dont
j’ai rendu compte supra. Les éléments obtenus allaient dans le sens des hypothèses déjà
formulées, à savoir :
- plus de saillance pour l’épithèse vocalique, moins de saillance pour
l’épithèse fricative, y compris lorsque l’attention est explicitement et
artificiellement focalisée sur la prononciation des « finales des mots » ;
130
- davantage de traces convergentes de stéréotypisation négative pour
l’épithèse vocalique ; davantage de dispersion des réponses et plus de
perplexité pour l’épithèse fricative.

Ces résultats incitent plutôt à la prudence méthodologique, car s’il s’agit de micro-
phénomènes insuffisamment saillants le risque est très élevé que le protocole produise
lui-même des résultats indépendants de toute pratique écologique. Ces résultats
plaident en fait plutôt pour une multiplication des études sur la production, à la fois en
contexte expérimental, en se focalisant sur la fréquence et la description acoustique, et
en contexte écologique, en recherchant des interactions où ces pratiques de
prononciation sont susceptibles de se manifester.

131
II.2 La prononciation comme pratique sociale

Dans un article qui visait à dresser un panorama critique de la prolifération de


handbooks de sociolinguistique des grandes maisons d’édition universitaires
anglophones, Angermeyer 2015 pointait les divergences et les convergences de ces
ouvrages pour en arriver à isoler ce qui lui semblait faire malgré tout l’unité de ce
champ, à savoir la réflexion critique sur les liens entre le social et le linguistique. Selon
lui, il y a toujours deux démarches en concurrence : on mène des investigations sur les
facteurs sociaux pour apprendre plus sur le langage, sur ce qui conditionne la variation
langagière, ou bien on utilise le langage pour en savoir plus sur la société et sur la
position de chaque individu dans la société en observant comment les gens utilisent le
langage dans différentes situations, avec différents objectifs et selon différents enjeux
sociaux. Or, selon Angermeyer, on peut difficilement séparer ces deux démarches et
écarter une des deux en faveur de l’autre.
En réalité, en raison de la pression actuelle dans le milieu académique favorisant la
multiplication des publications et le « saucissonnage » des résultats dans des articles au
format parfois très bref, il est fréquent que l’on écarte de nombreux aspects et que l’on
publie des résultats de recherche sans mise en perspective et sans réelle explicitation
des postulats plus généraux mobilisés. D’autant plus que la tendance générale est à
l’assouplissement des cadres théoriques et à l’exportation des méthodes d’investigation
conçues dans un cadre théorique vers d’autres cadres, sans que l’on puisse toujours
savoir ce qui est transposé d’un cadre à un autre et ce qui est écarté.
En outre, les sociolinguistes ne sont pas les seuls à s’intéresser aux rapports entre
le langage et le social : d’autres sciences s’y intéressent (la sociologie, la psychologie
sociale, l’anthropologie, la critique littéraire, la philosophie), et, de manière générale, le
sujet intéresse potentiellement beaucoup de monde : les élèves qui préparent un
examen oral, leurs parents, les journalistes, les acteurs et actrices, les enseignant·e·s…
Dans cette partie, je propose quelques pistes pour élargir les perspectives les plus
courantes dans les études consacrées à la prononciation comme pratique sociale :
réfléchir explicitement au statut des discours non-experts et à leurs apports possibles
(II.2.1), intégrer les apports critiques des études sur le genre et sur la « race » (II.2.2) et
réfléchir à la capacité des discours experts en sociophonétique à fournir des outils de
critique sociale aux mouvements civiques, à travers, par exemple, la notion d’accent
social (II.2.3). La dernière sous-partie (II.2.4) est une ébauche des directions de
recherche que je suis encore en train d’explorer pour analyser un corpus de terrain
construit durant plusieurs années autour des enjeux sociaux, réels ou fantasmés, liés à
une diversité de pratiques langagières susceptibles d’être rassemblées sous une
étiquette homogénéisante de « accent de banlieue ».

II.2.1 Savoir académique et savoir « profane » : quelques


pistes de réflexion
J’ai évoqué dans la partie précédente, à travers l’exemple de l’étude sur l’épithèse
fricative, l’importance de la circulation des discours dans une société, la porosité entre
les discours dits experts et non-experts, en matière de langage, et l’importance
d’interroger l’imbrication de ces discours.

132
Je ne suis évidemment ni la première ni la seule à poser ces questions, mais il me
semble que le terrain n’est pas encore suffisamment investi par les recherches, en tout
cas pas de manière explicite.
Gadet 2007 formulait ainsi le problème :

Nous situons notre réflexion dans une perspective où il y a des effets de l’idéologie ou des
représentations de la langue, sur les pratiques et sur les formes linguistiques. Ce type
d’hypothèse n’est pas très répandue chez les linguistes (Gadet, op.cit, p.206).

Et elle rappellait la difficulté de garder ce cap dans les recherches, que ce soit pour
les linguistes ou pour les sociolinguistes, dans la mesure où les traditions de recherches
encouragent davantage l’étude des idéologies chez les locuteurs et locutrices étudié·e·s
et pas tellement chez les linguistes eux-mêmes, comme si le fait de faire de la recherche
pouvait imuniser ipso facto contre les idéologies.

Billiez et Buson 2013 vont plus loin. Dans un article où elles s’opposent à la vision
diglossique du français (avec une variété haute à l’écrit et une variété basse à l’oral),
elles dénoncent non seulement le caractère dichotomique et réducteur de cette
conception de la langue, sur ce point précis, mais, de manière plus générale, toute la
tradition de simplification, de création de dichotomies et de vastes catégories
simplifiantes et fermées. Cette tendance continue à polluer la réflexion sur la variabilité
et la complexité des pratiques langagières, et demeure omniprésente dans
l’enseignement du français. Le fait de continuer à parler de langage soutenu, courant,
relâché dans les cours de français ne fait que contribuer à réifier les représentations des
élèves, futurs adultes, ne leur donne aucune clé de compréhension efficace des tensions
et dynamiques langagières, et au final ne leur donne aucune prise sur la langue à part
perpétuer l’insécurité linguistique si souvent dénoncée en lien avec l’académisme dans
l’enseignement du français :

« Force est de constater que le dilemme éducatif des modalités d’un enseignement efficace du
français scolaire normé sans dévalorisation des usages linguistiques ordinaires des enfants
n’est pas encore résolu, malgré plusieurs dizaines d’années de réflexions sociolinguistiques et
didactiques sur ce thème. Comme l’est encore moins un enseignement pertinent et explicite
des faits de variation en intégrant les paramètres des situations de communication.
La violence symbolique inhérente à la dévalorisation des pratiques vernaculaires, comme
prolongement naturel à la dévalorisation des pratiques orales et non standard, est à la fois
humainement douloureuse et pédagogiquement inefficace. », Billiez et Buson, op.cit. p. 144.

En somme, lorsque Billiez et Buson dénoncent le fait que l’école ne développe pas
assez la conscience métalinguistique, que la didactique plurinormaliste n’a pas assez
d’outils pour être opérationnelle et que le souhaitable « éveil aux styles » (Buson 2010)
n’est pas encore d’actualité, elles pointent surtout le fait que les représentations
collectives simplifiantes sur le langage sont souvent imputables au discours de l’école,
qui est à son tour en partie alimenté par les discours de la recherche. A travers la
dénonciation de cette propension collective persistante à la simplification, c’est
l’incapacité à rayonner de la recherche en sociolinguistique qu’elles pointent.
Or, les relations entre discours profanes et discours experts sur la langue ne me
semblent pas réductibles à ce qui résulte de la tradition scolaire, même si son rôle est
très important. Cela mériterait que l’on s’y attarde davantage. Premièrement pour
vérifier si on retrouve vraiment une si bonne congruence entre les discours dominants à
133
l’école et les représentations partagées. Et deuxièmement pour interroger les
conséquences que cela pourrait avoir sur la démarche d’enquête par entretien sur des
phénomènes langagiers : si les discours de l’école se retrouvent dans les discours tout-
venant, quel peut être l’intérêt de les recueillir ? Cela voudrait dire que toute démarche
de recherche sur les représentations en matière de langage serait condamnée d’emblée à
la circularité.
Or, comme le notait déjà, il y a une trentaine d’années, (Tajfel 1981 : 223) au sujet
des identités sociales, les processus parallèles d’unification et de diversification sont
plus rapides que jamais dans un contexte où des groupes humains très divers entrent en
communication les uns avec les autres à une très vaste échelle ; cela doit avoir fortement
contribué à configurer les discours sur autrui, ceux des sociolinguistes comme ceux de
tout francophone. Les contacts établis à l’école s’inscrivent dans une longue série de
contacts inter-groupes.
En outre, rien ne permet d’affirmer que la circulation se ferait toujours dans le
même sens, des « détenteurs du savoir » vers le « public » ; ces catégories sont
éternellement négociables et les discours circulent, a priori, dans tous les sens.
Un petit exemple amusant à cet égard : la circulation d’une citation d’autorité, sans
source, à la fois dans les médias, dans les discours du tout venant et dans les
publications scientifiques dont l’histoire a été retracée par Broudic 200735. Il s’agit d’une
interdiction censée avoir été affichée sur des écriteaux dans les cours d’école en
Bretagne, à savoir « Il est interdit de cracher par terre et de parler breton ». Or, cette
interdiction n’a jamais été affichée telle quelle : c’était à la base un slogan militant et
littéraire choisi comme titre provocateur pour un recueil bilingue de poèmes de combat
par un professeur de l’université de Rennes 2 (Piriou 1971), aujourd’hui émérite. C’était
le titre d’un des poèmes inclus dans son recueil.
La formule a paru vraisemblable parce que le breton, considéré comme un patois, a
été très fortement dévalorisé par le discours de l'école et ses locuteurs ont été humiliés,
comme dans toutes les autres régions « patoisantes » de France. D'un autre côté, selon
Broudic (op.cit. p.95), il y a vraiment eu des affiches rédigées en breton, dans des lieux
publics (trains, tribunaux) pour signifier aux bretonnants, généralement ruraux, qu'il
était interdit de cracher par terre et de jeter des saletés et des restes de nourriture,
surtout à une époque où la tuberculose faisait rage et où il était fréquent que les
hommes – notamment ceux qui exerçaient un des nombreux métiers "aux mains sales" -
mâchent du tabac à chiquer et le recrachent par terre. Cela a pu contribuer à
l’émergence de l’association entre l’usage du breton et l’interdit de cracher par terre
pour des raisons d’hygiène. Toujours est-il que la formule coordonnant les deux
interdits a fait mouche, à tel point qu’elle s’est diffusée dans de nombreux discours
devenant une formule emblématique. Une recherche sur internet réserve la surprise de
trouver des « reproductions d’affiches » d’avant les années 40, fabriquées a posteriori
pour diverses causes régionalistes par des professionnels des logiciels de dessin…. Ou
même avant les logiciels, car Broudic retrouve une carte postale, avec une autre mise en
page, dans un Musée Rural de l’Education36. D’où la nécessité d’une véritable enquête
pour en retrouver l’origine.

35 Le texte "Il est interdit de cracher par terre et de parler breton" a été publié d'abord en 2001, dans :
Société Archéologique du Finistère, tome CXXX, 2001, 363-370.
36 Musée Rural de l'Education de Bothoa, (Côtes d'Armor) ; l’éditeur de la carte postale précise ne pas
connaitre l'origine de la photo. (Broudic, 2007).
134
Or, les discours scientifiques, dans leur ensemble, n’ont pas été plus méfiants sur la
source de cet écriteau que les discours non scientifiques. On trouve de très nombreuses
mentions à partir du portail Cairn dans des articles scientifiques. Yaguello 2008(1988)
l’intègre sans aucune réserve dans son « Catalogue des idées reçues sur la langue », au
chapitre « Identité linguistique, identité nationale », d’abord en exergue en donnant
comme source « Instructions aux élèves des écoles publiques », et ensuite dans une
phrase reproduite ci-dessous :
"Avec l'école de Jules Ferry, les instituteurs, issus généralement de la paysannerie, se firent les
alliés du pouvoir central dans l'oeuvre d'unification linguistique. "Défense de cracher par
terre et de parler breton" : ce furent des Bretons bretonnants qui firent appliquer ces
consignes." (Yaguello 2008 [1988], p. 49).

Elle est aussi citée, bien plus récemment, dans Auger 2010 comme « fameux
interdit ». Le résultat de l’enquête de F. Broudic ne s’est pas encore diffusé assez
largement, même dans les milieux académiques ; en revanche, sa conclusion a été
introduite sur Wikipedia à l’entrée « breton »37 depuis plusieurs années.
Cet exemple montre une belle convergence entre les discours scientifiques et les
discours non scientifiques et une circulation qui se fait à double sens.

Confronter les discours sociolinguistiques avec les discours profanes permettra de


vérifier si l’on peut repérer quelques convergences ou divergences, et s’il reste
intéressant de penser que l’analyse des discours profanes peut continuer à nourrir les
recherches en sociolinguistique. C’est ce que j’ai tenté de faire dans le [doc 6] que je
reprends ici.

Exemple de sollicitation de discours épilinguistiques

Pour documenter des discours épilinguistiques actuels en France, j’ai construit un


protocole assez simple d’enquête par questionnaire, que j’ai mis à l’épreuve en tant que
pré-enquête auprès de deux personnes. La trentaine d’étudiants et étudiantes qui
suivait mon séminaire de master de sociophonétique en 2012-2013 a eu comme
consigne, pour le devoir, de recueillir des réactions évaluatives auprès de deux
personnes de leur entourage (famille, voisins ou amis, en excluant des étudiant·e·s en
sciences du langage) au sujet de six extraits de parole enregistrée, d’une douzaine de
secondes chacun. 68 personnes (femmes ou hommes, d’âges très variés, habitant dans
différentes régions de France, profils sociaux divers) ont été sollicité·e·s [doc 06].

Les six échantillons de parole soumis à évaluation appartenaient à trois locuteurs


ayant des métiers prestigieux liés à des compétences langagières réputées au-dessus de
la moyenne (deux journalistes et une actrice) et à trois locuteurs ayant un statut moins
valorisé et non lié à des compétences langagières particulières (deux lycéens, sans
métier du fait de leur âge, et un ancien joueur de rugby).
Les deux journalistes soumis à évaluation étaient Patrick Poivre d’Arvor (extrait
d’un journal télévisé) et Catherine Ceylac (extrait d’interview de l’émission « Thé ou
Café ») ; l’actrice était Fanny Ardant, en interview dans la même émission « Thé ou
Café ». De nombreux auditeurs sollicités ont reconnu ces voix, notamment celle du

37 Consultée le 20 septembre 2016.


135
présentateur vedette, ce qui était un effet prévisible. Cela permettait d’augmenter, le cas
échéant, l’effet d’une profession valorisée en ajoutant celui de la notoriété d’une
personne. Quant aux deux lycéens enregistrés, ils faisaient partie du groupe que j’ai été
amenée à suivre durant ma dernière recherche de terrain (Convention CEP-Sciences Po)
et le commentateur de rugby était Richard Astre, s’exprimant dans un journal
radiophonique podcasté à partir de France Info. Personne parmi les auditeurs ne pouvait
reconnaitre ces trois dernières voix.
La perception des auditeurs et auditrices était volontairement amorcée (priming)
par les profils des personnes enregistrées, qui leur étaient indiqués dans les termes
suivants : 1/ journaliste de télévision, présentateur de journal, 2/ ancien joueur de rugby,
toulousain, consultant sportif sur une radio nationale, 3/ lycéen de Seine-Saint-Denis lors
d’une préparation d’examen oral, 4/ lycéenne de Seine-Saint Denis lors d’un exercice de
lecture, 5/ journaliste de télévision, lors d’un entretien avec une artiste, 6/ actrice, lors
d’une interview à la télévision.
Pour donner une idée des caractéristiques de ces enregistrements, j’essaie de
dresser ici une liste de traits de prononciation qui m’ont semblé susceptibles d’avoir une
saillance perceptive.
Du côté des locuteurs connus38, la prononciation de PPDA et celle de C. Ceylac
contenaient différentes marques caractéristiques du phonostyle journalistique :
emphase prosodique, allongements vocaliques parfois remarquables, épithèses
fricatives particulièrement longues, et chez Ceylac deux épithèses vocaliques. La
prononciation de F. Ardant contenait des voyelles nasales très ouvertes (« intempéries »
prononcé [ãtãpeRi]), des épithèses fricatives particulièrement longues, une insistance
inhabituelle sur certaines consonnes occlusives /k, t/ prononcées avec beaucoup
d’énergie, des allongements vocaliques emphatiques ; elle parlait en voix soufflée
(breathy voice) durant tout cet extrait, sur le ton de la confidence-séduction.
Du côté des locuteurs anonymes, le lycéen produisait un contour saillant montant-
descendant ultra-rapide que Lehka-Lemarchand (2011) considère comme une
caractéristique saillante de l’« accent de banlieue », des /t/ affriqués au contact avec /j/,
des /a/ postérieurs, un « euh » marqueur du travail de formulation et un allongement du
connecteur « ben ». La lycéenne prononçait des /t/ et /d/ fortement affriqués, la nasale
/ã/ proche du [õ] assez fermé et postérieur, deux /R/ pharyngaux ainsi que des liaisons
attendues non réalisées, comme par exemple « quand#il ». Enfin, le commentateur de
rugby produisait une prononciation globalement marquée par l’accent du sud-ouest :
schwas finaux prononcés, nasales allongées et partiellement dénasalisées.
Pour diminuer le poids de la saillance réputée plus forte du lexique par rapport à la
prononciation, tous les extraits contenaient un lexique courant plutôt soutenu (aucun
mot familier ou susceptible d’entrainer des stigmatisations) mais des prononciations
qu’on peut qualifier de « non-standard », assez typantes, susceptibles d’être perçues et
identifiées par les auditeurs sollicités.

Le questionnaire fourni aux étudiants comportait cinq questions sur le caractère


« standard » ou « non standard » de la prononciation, sur les sons perçus comme
prononcés de manière remarquable et sur l’appréciation globale de l’extrait de parole
écouté. La dernière question demandait aux auditeurs de catégoriser chaque

38 La plupart des personnes interrogées les ont reconnus immédiatement, mais cela n’était pas
indispensable pour répondre aux questions.
136
prononciation par rapport à la façon dont ils-elles se représentaient le groupe dont
faisait partie la personne enregistrée. La question était formulée ainsi :

« Pensez-vous que la journaliste que vous venez d’écouter a une façon très personnelle de
parler, ou bien qu’elle prononce comme nombre de ses confrères ? Explicitez, notamment si
vous pouvez proposer des explications de sa façon de parler ».

Les mots « journaliste » et « confrères » étaient remplacés respectivement par


« lycéen » et « camarades » pour les extraits concernés, ou par « actrice » et « nombre
d’autres actrices ».
Les auditeurs répondaient par écrit, de manière télégraphique, mais les étudiants-
enquêteurs avaient comme consigne de noter également, dans la mesure du possible, les
remarques produites oralement lors des écoutes, notamment si elles n’étaient pas
consignées sur les feuilles des questionnaires.
Il ne serait pas pertinent de présenter des données quantifiées, homogénéisantes à
partir d’un protocole d’enquête interprété différemment par chaque étudiant-e (les
interviews ont duré entre 20 minutes et une heure et demie). En revanche je résume ci-
dessous ce qui me semble pertinent pour la réflexion sur la catégorisation des styles de
parole.

On pouvait s’attendre, au regard de la littérature de spécialité, à ce que la


prononciation des locuteurs servant de modèles en matière de langage (journalistes et
actrice) soit catégorisée comme standard et que leurs spécificités passent inaperçues,
comme non-marquées ; de même on pouvait s’attendre à ce que le fait d’avoir rendu
saillantes les identités sociales des locuteurs entraine une stéréotypisation (Tajfel,
1981), chaque locuteur devenant un prototype de sa catégorie : le lycéen de banlieue
parisienne, l’actrice, le présentateur télé, etc.
Or, il a été frappant de constater que les particularités de prononciation ont été
massivement repérées et mentionnées. Parfois dès la première question, de manière
spontanée, parfois après la relance qui demandait aux ‘juges’ de focaliser leur attention
sur la prononciation des voyelles et des consonnes car certains avaient tendance à se
focaliser tout de même plutôt sur le lexique, ou uniquement sur l’intonation.
Pour les trois locuteurs dont le statut n’induisait pas de compétences langagières
particulières (l’ancien joueur de rugby et les deux lycéens), comme attendu, les
auditeurs ont remarqué de nombreuses variantes de prononciation : nasales « du sud »
pour le commentateur, nasales non conformes pour les lycéens (« peinture » entendu
comme « panture », /ã/ entendu comme /õ/) ,« e muets prononcés », accent trainant,
/r/ « arabe ou guttural », /t / « soufflé, chuintant, mouillé » (pour les occlusives
affriquées), /a/ fermé, « tirant vers le ‘o’ », liaisons non faites, prononciation nasillarde…
Mais, contrairement à ce que l’on pouvait penser a priori, les métiers et la notoriété
des trois autres locuteurs n’ont pas masqué leurs prononciations remarquables. Les
auditeurs ont très souvent évoqué le rythme trainant de PPDA, le parler « soufflé » des
deux journalistes et surtout de l’actrice, les nasales trop ouvertes de Fanny Ardant, les
attaques occlusives particulièrement fortes de certains mots, les « e » rajoutés à la fin de
certains mots. Les épithèses fricatives ont également été souvent perçues, notamment
chez F. Ardant et C. Ceylac39 (cf partie II.1.4, production).

39 PPDA en produisait une seule mais elle n’a jamais été clairement évoquée.
137
Au final, les personnes sollicitées n’ont pas mobilisé les catégories de « standard »
et « non-standard », et la demande portant sur l’appréciation subjective et globale des
extraits écoutés n’a pas permis de départager les locuteurs exerçant des métiers de la
parole et les autres. En effet, les extraits les plus appréciés ont été ceux produits par C.
Ceylac, la lycéenne et l’ancien sportif, tandis que les extraits les moins appréciés étaient
ceux de PPDA (monocorde), du lycéen (inarticulé, agressif) et de F. Ardant qui a suscité
tantôt des réactions de détestation (affectée, pompeuse, surannée, ampoulée,
insupportable, pédante, égotique, castafiore …), tantôt d’enthousiasme (sublime, poétique,
rêveuse, émouvante, aérienne…).
Globalement, les auditeurs se sont approprié les macro-catégories proposées dans
le protocole et les ont reformulées en insistant soit sur les traits de prononciation des
groupes sociaux (journalistes, ados, bobos, bourgeois, racaille, arabe, africain), soit sur les
traits régionaux (parisien, pointu, sud-ouest, banlieue), soit les deux. En raison de la
composition de l’échantillon interviewé (qui ne comportait ni lycéens, ni acteurs, ni
journalistes), tous les auditeurs se sont positionnés comme étant extérieurs (outgroup)
aux groupes d’affiliation des locuteurs écoutés, ce qui a enclenché un mécanisme
d’évaluation intergroup et a facilité la formulation de critiques (Tajfel, 1981).

En revanche, si l’on observe la grande variété des syntagmes produits pour


« expliquer » les prononciations remarquables, en écart par rapport à une prononciation
supposée neutre, un clivage subtil apparait entre nos deux catégories de locuteurs.
Pour les locuteurs « légitimes », les ‘juges’ formulent une grande diversité
d’hypothèses faisant une large place à leurs choix stylistiques supposés, aux effets
recherchés et en général à leur agentivité ou puissance d’agir (« agency » Butler 1997).
Les tendances générales sont résumées dans le Tableau 16 :

Locuteur Tendances des interprétations Conclusion sur


l’individuation
PPDA - adopte un ton monocorde ou monotone parce qu’il se veut Style très personnel
rassurant (il parle d’une épidémie)
- insiste sur certains mots pour rendre l’information plus facile à
comprendre
- un style qui se veut efficace
C. Ceylac - style d’interview culturelle maniérée Une façon bien à elle
- tente de construire une ambiance chaleureuse, joviale, enjouée, de parler, parle d’une
sympa, mondaine / essaie de mettre à l’aise l’autre, de l’englober / se façon très personnelle
montre faussement chaleureuse, hypocrite ou pédante / adopte un
ton snob, mièvre ou précieux
- on imagine presque sa gestuelle et son sourire
F. Ardant - rythme très saccadé mais personnel, attaques fortes pour Une façon bien à elle
convaincre, s’imposer ou conquérir l’autre / hésite entre convaincre et de parler, style très
se perdre dans son monde par les mots personnel
- on a l’impression qu’elle essaie de se faire désirer quand elle parle
- a un ton de voix hautain et un vocabulaire plutôt enrichi/ça la fait
passer pour une snob
- prononce comme d’autres actrices le feraient au théâtre, pas dans
une interview

Tableau 16 : tendance des réponses au sujet des locuteurs dont la parole est réputée
prestigieuse [reproduit de Candea 2014, doc 06]

138
Ainsi, très souvent, malgré le fait qu’il ait une prononciation typique parisienne
avec un phonostyle journalistique (« formaté journal télé »), les auditeurs trouvent que
PPDA a un style très personnel. Pour C. Ceylac, les réponses foisonnent d’adjectifs
généralement convergents sur son style et son intention de créer une atmosphère
spécifique. En ce qui concerne Fanny Ardant, il est plus difficile de construire un florilège
représentatif dans la mesure où elle déclenche des réactions fortes positives ou
négatives, mais les conclusions vont toutes vers le même consensus, très fort, d’une
façon très personnelle de parler.
Pour les locuteurs minorés, les réponses récoltées montrent une tout autre
tendance. Elles sont résumées dans le Tableau 17.
Locuteur Tendances des interprétations Conclusion sur l’individuation
Ancien - appuie sur les voyelles, il met des ‘g’ à la fin des mots Parle exactement comme ses
sportif - il est dans le ton, on comprend tout de suite que c’est du confrères 40
rugby Parle façon sud-ouest et façon
rugby
Lycéen de - on sent l’envie de s’appliquer mais avec beaucoup Parle comme ses camarades ;
Seine- d’hésitation / on sent qu’il doute et qu’il n’est pas assuré, comme ses comparses ; comme
Saint mais essaie de répondre malgré son stress une bonne partie de ses
Denis - problème de l’agencement du contenu : complique son camarades ; comme la plupart des
discours à cause de la construction jeunes des milieux populaires
- on dirait qu’il agresse son interlocuteur
- la fin des groupes syntaxiques est relevée, comme s’il Pas personnel du tout, tous les
reprenait sa respiration après une nage en apnée, comme élèves de certains quartiers
s’il était soulagé d’en avoir fini / sa prononciation est un parlent comme lui (banlieue)
peu mixée, pas très distincte, s’il fallait l’écrire on a
l’impression qu’il n’y a pas de ponctuation / à la fin de ses
phrases, l’intonation monte au lieu de descendre
- prononce comme beaucoup d’étrangers / sa parole n’est
pas tout à fait vulgaire, mais c’est limite / ça fait vraiment
racaille des cités
Lycéenne - ton très dynamique Parle comme ses camarades41,
de Seine- - lecture banale, rien de particulier / pas d’accent comme sa génération
Saint particulier, mais parle trop vite et découpe ses phrases de
Denis manière particulière Comme beaucoup de gens quand
- accent africain, accent de banlieue mais pas très fort ils ne sont pas à l’aise pour lire un
- moins de rythme rap que le lycéen précédent texte en public
- elle a une voix joyeuse alors qu’elle parle de la mort de
Michael Jackson Style assez habituel chez les
- parle comme ses camarades, mais fait un effort de étrangers d’origine africaine
diction dans ce travail

Tableau 17 : tendance des réponses au sujet des locuteurs éloignés des variétés prestigieuses
[reproduit de Candea 2014, doc 06]

40 Parmi les rares personnes ayant trouvé que le commentateur avait une façon personnelle de

parler, une auditrice répondait ainsi : « Il a sa façon personnelle de commenter, on sent dans sa voix que le
journalisme n’est pas son premier métier ». Autrement dit, selon cette auditrice, ce qui pouvait singulariser
ce commentateur c’était le fait qu’il n’était pas journaliste, et qu’il ne présentait pas les traits de
prononciation du corps de métier attendu.
41 Deux auditeurs ont préféré ne pas répondre à cette question en disant « Il faudrait entendre

d’autres jeunes en situation de lecture ».


139
Personne n’envisage la possibilité que les lycéens puissent avoir une façon
personnelle de parler, et presque personne ne l’envisage pour l’ancien rugbyman. Un
très large consensus se dégage là aussi, mais dans un sens contraire aux trois précédents
: ils sont perçus comme prototypiques (comme ses camarades, comme ses confrères).
Au sujet du sportif devenu commentateur, les réponses étaient très courtes et je
n’ai trouvé aucun verbe relevant du champ sémantique de l’intention, du vouloir ou de
l’agentivité en général, si ce n’est quelques vagues « il appuie sur les voyelles » et
absolument aucune trace de possibles choix stylistiques.
Pour le lycéen, chez qui pratiquement tous les auditeurs ont noté la présence de
« ben », hésitant, en début d’énoncé, un seul commentaire a fait une place à son
agentivité en matière de choix stylistique, formulé ainsi : « il fait sans doute des efforts, il
ne parle pas comme avec ses copains ados ». Ce commentaire apparait donc comme tout à
fait exceptionnel dans l’échantillon des juges car, par ailleurs, les seules remarques
recueillies envisageaient le style ou les connotations de la prononciation du lycéen
comme échappant entièrement à son contrôle et contraires à sa volonté (on dirait qu’il
agresse, complique son discours). Sa subjectivité est souvent masquée par des tournures
qui portent uniquement sur sa prononciation, décrite comme s’il s’agissait d’un
phénomène sans sujet (la fin des groupes est relevée, sa prononciation est mixée,
l’intonation monte, etc.) rappelant en cela les rédactions d’analyses en phonétique.
En ce qui concerne la lycéenne, qui avait reçu des appréciations globalement plus
positives pour son exercice de lecture à haute voix perçue le plus souvent comme « très
dynamique », tous les juges pensent que sa façon de lire n’a rien de personnel à
l’exception de cinq qui évoquent tout de même ses efforts pour contrôler sa
prononciation et se rapprocher du « standard ».
Le clivage entre locuteurs légitimes et locuteurs illégitimes me semble assez bien
résumé par une auditrice dans cette phrase produite spontanément après l’écoute du
dernier extrait (Fanny Ardant) : « Ardant c’est quelqu’un qui aime la langue, on sent un
plaisir de parler, de jouer avec la langue, contrairement au lycéen pour qui la langue est
quelque chose de simplement fonctionnel ».
Si l’on tente de synthétiser les tendances observées en matière d’interprétation de
la diversité des prononciations, on peut dire que lorsqu’on confronte des auditeurs
profanes à des locuteurs exerçant des métiers prestigieux de la parole, ils relient
rapidement les macro-catégories d’appartenance et les habitudes de prononciation (ici :
bourgeois, journalistes, parisiens…) mais recherchent spontanément et
systématiquement des traces d’individuation et des effets de style supposés
intentionnels, qu’ils décrivent par une profusion de tournures.
En revanche, lorsqu’on confronte les mêmes auditeurs à la parole de locuteurs
minorés, ceux-ci sont tout aussi rapidement rattachés à des macro-catégories
d’appartenance (ici : méridionaux, sportifs, jeunes de banlieue populaire…), mais il n’y a
pratiquement jamais de recherche d’individuation ou de tentative d’identifier des effets
de style supposés intentionnels. Les locuteurs minorés sont perçus comme
prototypiques de leur groupe – envisagé comme homogène et inapte à la variation
stylistique.
La macro-catégorisation unifiante suivie d’individuation pour les uns mais pas
pour les autres apparait comme indépendante de l’empathie (ou totale absence
d’empathie) avec les personnes écoutées.

140
Confrontation avec les discours experts

Revenons à présent aux tendances identifiables dans les discours des publications
académiques portant sur les prononciations. En 2000, dans un numéro de LINX consacré
aux approches sociolinguistiques du plan phonique, Gadet comparait la profusion de
termes pour désigner les profils des locuteurs et la remarquable pauvreté des termes
pour les situations et les styles de parole associés. Elle mettait également en évidence ce
que la notion de « relâchement » avait d’idéologique, pour caractériser à la fois la parole
dite non surveillée (le style « relâché » étant une option pour les locuteurs avec un grand
capital culturel) et la parole produite dans les milieux socialement minorés, supposée
marquée par un « relâchement » articulatoire et musculaire inhérent, compatible avec
les analyses de Bourdieu sur l’hexis corporelle. En dehors de ce paradigme assez
réducteur, Gadet déplorait un manque flagrant de données et d’analyses.
Si l’on tente de faire un bilan des études disponibles une bonne dizaine d’années
plus tard, on peut noter une évolution certaine depuis ce constat de quasi-absence
formulé en 2000, mais leur nombre est toujours bien trop faible.
D’un côté, les recherches utilisant des protocoles pour observer la variation
stylistique des locuteurs dominés restent rares et éparses (Trimaille 2003; Jamin 2005;
P. Lambert 2005; Buson 2009; Lehka-Lemarchand 2011; Auzanneau, Leclère-Messebel,
et Juillard 2012) et cette question reste souvent périphérique au regard de l’étude,
souvent suscitée par la demande sociale, des traits langagiers stigmatisants. Trimaille
(2003) affirme vouloir « étayer empiriquement l’hypothèse selon laquelle les
représentations et les attitudes ont une influence prépondérante dans la perception par les
adultes de ce que Gueunier (2000) nomme une ‘frontière d’incommunicabilité’ avec les
enfants des cités», et Lehka-Lemarchand (2011) rappelle explicitement les idées reçues
selon lesquelles les jeunes de couches populaires n’auraient aucune sensibilité aux
variations diaphasiques. Auzanneau & al. (2012) évoquent la force de l’idée reçue selon
laquelle les jeunes des milieux populaires en réinsertion après un parcours judiciaire
sont incapables de variation stylistique, ainsi que l’hostilité a priori que rencontrent les
conclusions contraires auprès des acteurs sociaux commanditaires des enquêtes. Par
ailleurs, Lambert 2005 rend compte d’une expérience de jeux de rôles – interviews sur
les marchés – menée dans un lycée professionnel, où le style de parole des élèves par
ailleurs en rupture avec l’école changeait de manière radicale lorsqu’elles jouaient les
intervieweuses. Ce changement était tellement fort que, lorsqu’une des élèves a eu
l’occasion de se réécouter une dizaine d’années plus tard, à la suite d’une rencontre
fortuite avec la chercheuse, elle a refusé spontanément de croire qu’il s’agissait de son
propre enregistrement et a pensé qu’il s’agissait d’une autre collègue42.
D’un autre côté, les recherches portant sur des enregistrements de locuteurs dits
« légitimes » s’intéressent certes souvent à la variation stylistique, mais celle-ci est
appréhendée surtout à travers des oppositions entre lecture / conférence / entretien
formel / conversation / narration / jeu de rôles, catégories peu nombreuses et fortement
liées aux pratiques universitaires ou médiatiques (voir par exemple Mettas 1979; Duez
1991; Fagyal et Moisset 1999; Hansen 2000; Durand, Laks, et Lyche 2009; Goldman,
Auchlin, et Simon 2009. Bien souvent, on déduit, en creux, qu’il s’agit de locuteurs
familiers des normes langagières prestigieuses uniquement du fait de l’absence de tout

42 Communication orale, séminaire, Lambert 2013.


141
discours explicite au sujet de leur profil ; c’est par exemple le cas chez Dalola 2014, qui
étudie la différence entre « entretien, conversation et jeu de rôles », mais qui ne fournit
pas de longues explications sur les profils des personnes sollicitées. C’est également le
cas dans l’étude que je viens de présenter, à partir d’un échantillon « de confort »
constitué par les étudiant·e·s qui ont sollicité leur entourage : par facilité mais
également pour avoir la certitude de recueillir des réponses sans mettre en difficulté les
personnes sollicitées par un protocole trop universitaire, les étudiant·e·s ont sollicité
des personnes familières avec les normes langagières scolaires, sans pour autant le
préciser. L’absence de toute précision, en général, équivaut à « appartenance à un
groupe socialement dominant ».
En résumé, malgré le postulat unanimement partagé en sociolinguistique selon
lequel tous les locuteurs sont pluristyles, l’inventaire des études disponibles pour le
français peut suggérer que nous aurions collectivement tendance à nous intéresser
davantage aux variations stylistiques chez les locuteurs socialement valorisés. De plus,
pour ces derniers, nous aurions tendance à appréhender la variation stylistique de la
prononciation à travers une grille de catégories fort rudimentaires par rapport à celles
qui ont cours par exemple dans les études stylistiques portant sur des textes littéraires.
Il est très rare, par ailleurs, que des études visent à comparer les variations stylistiques
d’individus appartenant à différents groupes sociaux, comme l’avait fait Labov (1972)
dans son étude sur les /R/ à New-York, où il interprétait la plus grande amplitude de
variation entre la première occurrence de fourth floor et la seconde chez le groupe de
classe moyenne comme le signe d’une plus grande insécurité linguistique dans ce
groupe.

Revenons à présent au point de départ de ces réflexions. En prenant en


considération la doxa de la sociolinguistique, on s’attendrait à ce que les chercheurs et
les chercheuses aillent à l’encontre des stéréotypes sociaux. Or, si nous observons les
tendances générales dans les pratiques de recherche des sociolinguistes, dont je fais
partie, à travers les publications disponibles, il n’est pas aisé d’attester la déconstruction
nette de ces stéréotypes culturellement partagés, pour le moins dans le domaine de la
sociophonétique.
Certes, selon moi, pour l’étude des variations stylistiques des locuteurs
socialement minorés, les sociolinguistes sont plutôt en avance sur les opinions
profanes ; mais cette avance est assez récente (Gadet 2000) et encore bien trop timide. Il
est vrai que les sociolinguistes défendent l’hypothèse selon laquelle tout locuteur est
pluristyle et évitent activement les termes stigmatisants pour décrire les variantes
socialement dévalorisées. Le syntagme relâchement articulatoire a plutôt fait place aux
contraintes articulatoires et au comportement des sons en contact. Il n’en reste pas
moins que les chercheur·e·s sont encore trop rares à s’intéresser aux variations
stylistiques et à la recherche d’expressivité, ou à l’exploitation adroite de l’iconicité des
gestes articulatoires en lien avec l’énonciation et les enjeux situationnels, et préfèrent le
plus souvent s’en tenir à l’étude de « variables explicatives » comme l’âge, l’ethnicité, le
genre, les langues d’héritage, la réussite scolaire (Fagyal, 2010) et l’appartenance sociale.
Or, décrire les pratiques des locuteurs (minorés ou non, d’ailleurs) uniquement à travers
leurs affiliations de groupe ne permet pas de donner une place à leur agentivité
(individuelle), ni à rendre visible la dynamique de mise en scène des affiliations sociales
(souvent appelées « identités »).
Parallèlement, il me semble qu’au sujet de l’étude des variations stylistiques des
locuteurs jouissant d’un grand prestige social, les sociolinguistes sont au contraire plutôt
142
en retrait par rapport à l’opinion profane. La richesse foisonnante des hypothèses et
nuances produites, après seulement quelques secondes de parole de deux journalistes et
d’une actrice, par les auditeurs et auditrices sollicité·e·s dans le test de perception
rapporté ici, contraste de manière saisissante avec la simplicité des catégories que nous,
sociolinguistes en particulier sociophonéticiens, mobilisons généralement pour rendre
compte des variations stylistiques, comme par exemple « lecture / entretien formel /
conversation / interview politique » etc. La place importante accordée à la capacité des
personnes écoutées pour agir subtilement sur autrui à travers la prononciation,
construire une situation par la parole, marquer leur subjectivité, se distinguer, jouer
avec le langage, s’oppose aux analyses en sociophonétique où nous parlons plutôt
d’influence de la situation et de variation diaphasique, ne laissant aucune place à
l’agentivité. Or, celle-ci s’invite parfois de manière imprévue même dans les études
variationnistes classiques fondées sur des données sollicitées dans des situations
standardisées. C’est le cas chez Hansen 2000 qui montre comment une simple tâche de
lecture, présentée de manière identique à plusieurs personnes sollicitées, est investie
différemment selon leurs niveaux de littéracie, bien que ce ne soit pas l’objectif premier
de son étude43, ce qui remet en question l’hypothèse encore fort répandue selon laquelle
il suffirait de donner le même texte et la même consigne à des personnes différentes
pour obtenir « la même situation ».
Les études ethnographiques se situent au pôle opposé, où aucune situation n’est
identique à une autre. Par exemple, dans son ouvrage consacré aux gangs de jeunes filles
dans une ville du Nord de la Californie, Mendoza-Denton (2008, p.113) évoque en détail
un rendez-vous très important qui a tourné court dès le rituel de salutation en raison
d’un faux-pas : l’interviewé avait initié l’échange en donnant son prénom (Manuel)
prononcé [mæ:nyu:Ɛl] à l’anglaise, et la chercheuse a répondu en prononçant le sien
(Norma) à l’espagnole, [nƆrma] sans voyelle longue et avec un /r/ apical. Cette
prononciation de la part d’une personne représentant l’université, dans un contexte où
le choix de la langue fait l’objet de négociations subtiles, a été interprétée par Manuel,
l’interviewé, comme une vexation, comme le signe que la chercheuse ne le croyait pas
capable d’être suffisamment à l’aise en anglais. Pour ce type d’analyse, la macro-
catégorie des salutations ne permet pas de rendre compte des contraintes sur la
prononciation, et cela pose la question de la pertinence des catégories pour comparer
les situations.
Trois directions de recherche me semblent à l’heure actuelle sous-exploitées, au
sujet du français.
Premièrement, il conviendrait certainement d’approfondir l’étude des contraintes
qui pèsent sur la production des variantes de prononciation prestigieuses, car elles sont
encore trop souvent présentées comme « neutres » et échappant à la fois aux contraintes
articulatoires et à l’agentivité (recherche de distinction, hyper-articulation ;
confrontation intéressante avec l’hypothèse de Kroch 1978, malgré ses insuffisances).
Deuxièmement, il serait nécessaire d’élargir et de multiplier les études portant
véritablement sur la variation stylistique des locuteurs peu valorisés socialement, et
veiller à poser le même type de questions sur les marqueurs sociolinguistiques
valorisants et stigmatisants. Cela diminuerait le poids des stéréotypes sociaux qui nous
incitent à réserver involontairement aux écrivains et aux personnages ayant une grande

43Ce constat est flagrant lorsqu’on se penche sur les lectures de texte recueillies dans le cadre du
protocole PFC (Phonologie du français contemporain).
143
notoriété les questionnements stylistiques (voir Fagyal, 1995 sur Marguerite Duras), et
aux groupes minorés les questionnements sur l’effet des langues en contact et des
propriétés articulatoires des sons (Fagyal, 2010). Les corpus sont disponibles, il faut
simplement modifier nos grilles de lecture44. Cela permettrait de compléter les
descriptions trop éparses et parcellaires sur les capacités de variation stylistique chez
des personnes réputées peu habiles dans le maniement de la langue. J’y reviendrai dans
la partie sur l’accent social, infra.
Troisièmement, on peut aller plus loin et établir un parallèle entre la critique des
limites des approches par corrélations quantitatives entre « identités » prédéfinies et
pratiques langagières et une critique parallèle de la même approche par corrélations
entre pré-catégories de genres discursifs trop simplifiants, trop vagues et trop peu
nombreux avec des régularités langagières. Ce qui a été déconstruit au sujet des
« identités » des gens doit aussi l’être au sujet des descriptions des choix et contraintes
stylistiques. Beaucoup se demandent si la démarche de croiser des identités prédéfinies
de grands groupes sociaux avec des particularités langagières a encore un sens et peut
encore apporter quoi que ce soit de nouveau ; il faut se poser la même question sur la
pertinence des catégories « conversation, lecture, entretien ». Il est peut-être temps
d’écarter cette façon de travailler, pour se concentrer sur de nouveaux paradigmes, que
j’appellerais volontiers post-variationnistes. L’objectif serait de construire des analyses
plus fines et pouvoir tirer meilleur profit des approches situées, ethnographiques et
interactionnistes, mais également d’enrichir les apports de la sociolinguistique, et en
l’occurrence de la sociophonétique à la critique sociale, au-delà de la validation ou
invalidation de quelques stéréotypes largement partagés45. Par ailleurs, un tel
changement de paradigme mettrait probablement au devant de la scène le chantier de
réflexion sur la comparabilité des données.
Ajoutons enfin à ces trois pistes que, dans le sillage des hypothèses de Fonagy
(1983) sur l’iconicité potentielle des gestes articulatoires, il serait possible
d’approfondir la complexité des relations entre ces éventuelles iconicités ou motivations
articulatoires, les conventions sociales et la créativité stylistique individuelle.

II.2.2 Apports des théories sur le « genre » et la « race » au


domaine des études en sociophonétique du français

Bref état des lieux

Les études linguistiques sur les rapports sociaux de sexe ont véritablement pris
leur essor seulement depuis quelques années en France (se rapporter notamment à
Chetcuti et Greco 2012; Greco 2014 pour un état de l’art, et à Duchêne et Moïse 2011
pour une collection de travaux récents pluridisciplinaires). Néanmoins, des travaux
isolés portant sur le français existent depuis plus longtemps (en particulier Michard
2002 [1982]; Michard 1996; Houdebine-Gravaud 2003; Houdebine 1979), et, dans une

44 A titre d’exemple, après avoir montré que les macro-catégories prédéterminées échouent à

rendre compte de manière satisfaisante des différences entre les collégiens étudiés, Fagyal (2010) admet
la nécessité de se pencher sur le profil particulier d’un élève (un « passeur » interculturel) et sur ses
stratégies stylistiques, ce qui donne une nouvelle direction à sa recherche.
45 Même si la déconstruction des stéréotypes nocifs peut constituer un axe intéressant

d’intervention des sociolinguistes dans les débats publics.


144
certaine mesure car elle ne se considère pas comme linguiste, les essais théoriques de
Wittig 2001. Leur pertinence n’est plus à démontrer, mais ils ont été longtemps ignorés
par les courants linguistiques institutionnellement majoritaires et n’ont été
redécouverts que tout récemment.
La situation est, selon moi, très différente dans le domaine des études linguistiques
sur la race et la racisation (ou racialisation) : ces thèmes ont en effet fait l’objet de
nombreuses études, surtout depuis les années 70, particulièrement en analyse de
discours mais également en sociologie du langage. En outre, les travaux sur ces objets
s’inscrivent dans une tradition résolument inter-disciplinaire. A titre d’exemple, Achard
1988, défenseur notoire de la sociologie du langage, signe un long compte rendu critique
dans la revue Langage et société sur l’ouvrage du politologue, P.A. Taguieff, intitulé La
force du préjugé - Essai sur le racisme et ses doubles qu’il confronte avec les positions
théoriques de la sociologue Guillaumin 1972. Les sociolinguistes et les spécialistes
d’analyse du discours n’ont jamais cessé le dialogue avec les autres sciences humaines
sur ces objets d’études : racisme, antiracisme, néo-racisme, racisation, hétéroracisation,
autoracisation, débat entre l’opportunité de distinguer ou de mettre quasiment sur le
même plan « racisme différentialiste » et « antiracisme culturaliste » en raison des pré-
construits communs sur la naturalisation des différences, (Taguieff 1985) etc. Un autre
exemple significatif à cet égard est la parution du numéro 33 de la revue Mots consacré à
une controverse, qui avait donné lieu à un grand colloque : Le mot race est-il de trop dans
la Constitution française ? (Israel, Herszberg, et Bonnafous 1992). On retrouve dans ce
numéro la même évidence du dialogue interdisciplinaire ; le numéro rassemble des
contributions de linguistes, politologues, juristes, historiens, philosophes… (Guillaumin,
Balibar, Fiala & Bonnafous, Lochak, Taguieff…).
Il est impossible de citer ici les travaux sur ce sujet, depuis les années 80-90 : ils
sont innombrables. J’en citerai certains au fil de mes analyses, sur des points précis,
notamment ceux qui ont analysé l’ambigüité des rapports entre questions sociales et
questions raciales dans la société française contemporaine (Fassin, Fassin, et Beaud
2009).
Ce qui me parait intéressant à noter c’est que, notamment grâce aux travaux
théoriques de Guillaumin (1992a), les réflexions sur le genre et sur la race ont
commencé à se croiser à partir des années 90 et à s’éclairer mutuellement. Ce courant
d’analyse intersectionnelle, plus développé aux Etats Unis en lien avec les écrits
théoriques du Black feminism, est venu enrichir, avec un certain délai, la tradition de
recherche intersectionnelle inaugurée, en France, par Guillaumin. Les traductions vers le
français de K.W. Crenshaw y ont beaucoup contribué (Crenshaw et Bonis 2005), et nous
disposons à présent de quelques études menées dans une perspective intersectionnelle
dans l’espace culturel français (Dorlin 2006; Delphy 2008), même si la démarche
continue à être perçue comme nouvelle et culturellement marquée par les enjeux
sociaux étatsuniens (Fassin 2015).

Qu’en est-il en sociolinguistique du français en général ?


Autant les travaux sur le genre ont, tout dernièrement, imposé leur pertinence et
leur légitimité dans le domaine de la sociolinguistique du français (Duchêne et Moïse
2011; Greco 2014; Greco 2011; Chetcuti et Greco 2012; Arnold 2015a; Arnold 2012;
Baider et Elmiger 2012; Baider 2004), autant les études sur la race, au sens bien entendu
sociologique critique du terme, ainsi que la perspective intersectionnelle, ont me
semble-t-il plus de mal à s’y imposer. Et ce, malgré le fait que la racialisation des
rapports sociaux soit mise en avant depuis de longues années en sociologie, et malgré le
145
fait que les sociolinguistes soient confrontés régulièrement sur le terrain à des
catégories faussement culturelles, largement naturalisées dans les discours spontanés :
maghrébins, rebeus, renois, bountys, niaks, babtous, etc. (Simon et Clément 2006).
Dès les années 80, Guillaumin (1986; 1992b) dénonçait le fait qu’on avait semblé
réserver aux sciences naturelles « l’encombrante notion » de race, pour qu’elles en
démontrent scientifiquement l’inanité, mais que, dans le domaine politique, les mots
« culture » et « différence » en avaient récupéré « l’ensemble du champ sémantique ».
Cela a pu donner l’illusion d’un recul du racisme, alors qu’il s’agissait plutôt d’une
transformation des rhétoriques racistes et de l’émergence d’un véritable discours de
déni. Le rejet de la notion de race a pu cacher, selon Guillaumin 1986 :64, une
dénégation du racisme, tandis que l’idée que les êtres humains seraient
« naturellement » différents persistait dans les processus inconscients qui ne font pas la
différence entre un fait nié et un fait affirmé (op.cit, p.63). La démarche de
déconstruction scientifique de la consistance de la notion de race a pu être considérée
comme suffisante : or, il s’est avéré qu’elle n’était qu’une étape nécessaire mais pas
suffisante pour faire reculer le racisme, et faire disparaitre cette idée qui reste un
« engin technique de meurtre » (op. cit., p. 65). Bien après les sociologues, ce sont les
sociolinguistes spécialistes des migrations, des discours sur le plurilinguisme et de
l’accueil des enfants migrants en France qui ont, probablement, été les premiers – dans
le domaine de la sociolinguistique - à se rendre à l’évidence du retour des discours
clairement racistes sous des formes renouvelées, par exemple glottophobiques ou
prônant l’inégalité des civilisations (Arditty 2013).

Le domaine de la sociophonétique du français me semble pour le moment encore


moins ouvert à ces questions.
Les seuls travaux approfondis sur les pratiques de prononciation, tout
particulièrement les pratiques vocales, au prisme des théories sur le genre sont, à ma
connaissance, les travaux de Arnold 2015a, 2015b, 2016 portant à la fois sur les
pratiques vocales des personnes trans et sur les idéologies naturalisantes et
différentialistes du genre encore largement partagées en phonétique. C’est cette position
différentialiste qui me semble encore dominante en sociophonétique : le genre est
souvent confondu avec le sexe, les catégories de genre sont naturalisées, non
questionnées, postulées comme incommensurablement différentes et strictement
binaires ; la fluidité des catégories n’est pas envisagée et leur binarité n’est pas prise en
compte dans sa dimension de rapport social construit sur des bases idéologiques
patriarcales.
Pour la race, c’est un peu le problème contraire qui se pose. Le postulat
universaliste me semble en effet le plus largement partagé, la fluidité des catégories est
considérée comme empêchant tout « étiquetage » des humains et les rapports sociaux de
domination sont perçus comme indissociables de la notion de « race ». En revanche, le
refus de prendre en compte la persistance des catégories racialisantes, à peine
masquées par une terminologie culturelle ou ethnique, ne permet pas de rendre visible
ou de tenir compte de la persistance des rapports sociaux racistes. Le tabou de
l’utilisation, dans les discours scientifiques, des statistiques ethniques ou raciales qui
sont pourtant en vigueur dans les discours des médias et dans les discours des gens du
tout venant (Simon et Clément 2006), aboutit à l’invisibilisation des mécanismes de
domination, par l’invisibilisation à la fois des personnes qui en sont victimes (les
personnes racialisées dans les situations de la vie courante) et de celles qui en sont

146
bénéficiaires grâce à leur privilège persistant (les personnes qui ont les moyens de
refuser d’être racialisées, à savoir les personnes « blanches », Cervulle 2013).

L’absence des paramètres « genre » et « race » dans le domaine de la perception


des pratiques de prononciation, en sociophonétique du français, me semble liée en outre
au fait que la démarche expérimentale est encore associée au mythe d’une
expérimentation objective et axiologiquement neutre qui va de pair avec la négation ou
l'ignorance de l'influence des représentations stéréotypiques sur la perception46. Or, ces
représentations stéréotypiques liées au genre mais également aux classes sociales et à la
« race » structurent une société comme la nôtre et il est donc très difficile d’y échapper
en tant qu’analyste ou en tant que « personne sollicitée pour un test ». Ces
représentations peuvent se projeter, par exemple, sur des voix données à écouter lors
d’expériences perceptives. Surtout lorsque les voix écoutées sont des voix produites par
des locuteurs mâles, blancs, avec un accent considéré comme « standard » et ayant un
niveau d’éducation élevé, faisceau de paramètres susceptibles de rendre les
chercheur·e·s aveugles à la spécificité de ce sous-groupe symboliquement dominant !
En l’occurrence, les études disponibles sur la parole incitent à formuler comme
hypothèse que la non-prise en compte du rapport impensé ou délibérément ignoré que
les auditeurs·trices ou les locuteurs·trices entretiennent avec les normes de genre ou les
catégories raciales contribue à construire des protocoles biaisés qui produisent un
savoir lacunaire, fondé sur des postulats implicitement universalistes, qui masquent les
discriminations, les hiérarchies et les rapports de force ou implicitement
différentialistes, qui partent du principe que les femmes et les hommes sont
incommensurablement différents.
Pour faire progresser le savoir et briser le cercle vicieux des prophéties auto-
réalisatrices nous avons tout intérêt à introduire la notion de genre et de race dans les
domaines expérimentaux où la pertinence de ces catégorisations est volontairement
ignorée ou contestée au nom d’une scientificité conventionnelle. Il est en effet rarement
pertinent de ne tenir compte d’aucune manière de la catégorisation femmes / hommes
des personnes dont les voix sont utilisées pour une expérience perceptive, ou bien des
personnes qui donnent les instructions et qui mènent l’enquête, ou encore des
personnes qui répondent à une enquête. Il est toujours utile de se poser la question et
d’argumenter, le cas échéant, sur les raisons qui incitent à penser que malgré la
socialisation assez profondément différente des filles/garçons et femmes/hommes dans
une société les normes de genre n’auront aucune incidence sur les résultats. Mais cela ne
veut pas dire que la socialisation genrée aura des effets sur tous les aspects de la parole,
ni qu’elle concernera de la même manière tous les individus catégorisés comme femmes
ou comme hommes !
Pour une expérience perceptive comme celle de Rubin (1992) menée uniquement
sur deux photos d'enseignantes féminines (une « asiatique », une « caucasienne ») ou
celle de Niedzielski (1999) qui a fait écouter uniquement des voix de femmes, il aurait
probablement été utile que le genre soit questionné, par exemple au sujet de l’écart avec
les prototypes de féminité. De même, pour l’étude de Boula de Mareüil & Lehka-
Lemarchand (2011) sur l’accent dit « de banlieue » qui a été menée uniquement à partir
d’extraits produits par de jeunes garçons, il aurait été probablement utile de justifier ce

46 En tout cas la négation du fait que les scientifiques puissent tout à fait partager les stéréotypes du
tout venant et que cela influence leur démarche de recherche.
147
choix et de réfléchir aux éventuelles implications liées à l’image stéréotypée des jeunes
garçons des cités.
A l’inverse, dans l’étude très connue de Cutler et Scott 1990 sur l’importance de la
catégorisation genrée des individus dans la perception stéréotypée de leur temps de
parole, les juges, femmes et hommes, devaient écouter des dialogues en dyade où le
temps de parole de chacun-e était rigoureusement identique et estimer à chaque fois
quel locuteur avait parlé le plus longtemps. Leurs résultats, significatifs, ont mis en
évidence le fait que lorsque les dialogues étaient non mixtes (H-H et F-F), les juges ont
estimé que les locuteurs·trices avaient parlé aussi longtemps, tandis que lorsque les
dialogues étaient mixtes47, ils ont estimé que la locutrice F avait parlé le plus longtemps.
Les auteures ont également décelé un effet significatif du genre de la personne qui
menait l’enquête et qui incarnait donc « la recherche ». En revanche, cette étude était
totalement colorblind (les effets des stéréotypes raciaux n’étaient pas interrogés) et rien
n’est dit sur le style de prononciation des acteurs et actrices sollicité·e·s pour faire les
enregistrements. On suppose qu’il s’agissait d’une prononciation socialement
prestigieuse et que cela incitait les juges à imaginer des rapports égalitaires en termes
de classe sociale entre les personnages enregistrés pour le test. La démarche était donc
focalisée sur l’interrogation de la construction du genre, mais elle s’est avérée
homogénéisante pour d’autres rapports sociaux qui pourtant sont souvent imbriqués les
uns dans les autres, en situation réelle.
Exemple plus subtil : une étude sur l’anglais portant sur des dizaines de familles
(Foulkes, Docherty, et Watt 2005) a pu montrer comment les mères adoptent des
pratiques de prononciation différentes lorsqu’elles s’adressent à leurs enfants selon qu’il
s’agit d’une fille ou d’un garçon : elles utilisent davantage de variantes standard
lorsqu’elles parlent aux filles et davantage de variantes vernaculaires lorsqu’elles
parlent aux garçons, surtout à des âges très jeunes, contribuant ainsi à transmettre des
techniques de différenciation genrée. Sans que les pratiques étudiées soient
explicitement homogénéisées à l’échelle de toute la société étudiée (Nord-Est de
l’Angleterre), aucune autre affiliation sociale n’est prise en compte dans l’étude.
L’importance de la voix dans la perception de la féminité et de la masculinité a été
mise en évidence dans une étude récente (Arnold 2015a), déjà citée, qui avait pour
objectif de montrer comment des locuteurs et locutrices trans utilisent la fréquence
fondamentale et les fréquences de résonance pour rendre intelligibles leurs identités de
genre. Des analyses acoustiques quantitatives y sont mises en relation avec des
expériences perceptives et les résultats sont ensuite éclairés, dans une démarche
qualitative, par des entretiens ethnographiques avec les personnes trans au sujet de leur
identité sociale, notamment dans les cas d’absence de passing (notamment lorsque la
voix de certaines femmes trans est perçue comme une voix d’homme). Là encore, l’étude
ne donne pas d’indications sur les affiliations sociales des personnes interrogées et
laisse à peine deviner, par moments, leurs niveau d’éducation ou leur domaine d’activité,
sans pour autant prendre en compte la banalité ou la rareté des pratiques selon les
communautés sociales ou raciales.
Malgré leur intérêt, ces sujets restent très marginaux dans la production
scientifique d’expression française, pour des raisons que j’ai exposées au début de cette

47 Dans les deux dernières combinaisons mixtes les rôles étaient échangés, pour annuler tout biais
en rapport avec le contenu linguistique.

148
partie ; je ne connais pas d’autres études qui confrontent l’analyse de la prononciation et
les idéologies sur le genre, sur le français.

Ecueils

Il faut reconnaitre que, grâce à la multiplication des études d’abord sur les femmes,
ensuite sur le genre notamment en histoire, en sociologie et en anthropologie, les
sociolinguistes (et même les linguistes) ont pris l’habitude, ces dernières décades, à
prendre en compte la distribution par sexe des locutrices et locuteurs en interaction,
que ce soit les personnes dont les productions sont analysées ou celles sollicitées pour
répondre à un test.
Or, deux écueils importants me semblent à éviter lorsqu’on tente de mettre en
place une étude sur la parole visant à intégrer la dimension du genre.
Le premier écueil est assez basique et relève de la confusion, fréquente, entre sexe
(biologique), postulé comme binaire quitte à exclure du champ d’étude les personnes
intersexes et autres profils minoritaires (cf. Fausto-Sterling 1993), et genre
(obligatoirement social). Or, indiquer simplement l’assignation sexuelle des gens induit
une catégorisation figée qui ne permet pas d’expliquer les dynamiques sociales, les
évolutions en cours, ou la contestation des normes de genre. Au mieux, les explications
seront tautologiques ou relèveront de la prophétie auto-réalisatrice : puisque nous
observons des femmes nous allons observer des comportements féminins, et puisque
nous observons des hommes nous allons observer des comportements masculins… Si
une différence est trouvée, elle sera corrélée au genre, ou parfois, même si cela devient
de plus en plus rare, elle sera corrélée à des différences innées, sans que la corrélation
soit analysée et expliquée, sans prise en compte des rapports sociaux de sexe, et parfois
sans affichage des mesures de dispersion à l’intérieur de chaque catégorie de genre. Si
aucune différence n’est trouvée, cela ne sera pas davantage analysé de manière à
enrichir la compréhension des rapports sociaux de sexe. Pour finir, les individus
catégorisés « femmes » et dont les pratiques correspondent aux tendances majoritaires
des individus catégorisés « hommes », ou vice versa, ne feront l’objet d’aucune analyse
particulière, comme si ces individus n’existaient pas ou ne méritaient pas qu’on s’y
intéresse.
Cette conception peut avoir une certaine efficacité pour des phénomènes genrés
statiques et fossilisés, déjà analysés, mais pas pour des phénomènes émergents ou en
pleine évolution. Comment rendre compte des renégociations de frontières entre ce qui
est féminin et ce qui est masculin, si l’on se contente de deux catégories censées rendre
compte efficacement des pratiques de tous les êtres humains ?
J’ai évoqué cet écueil dans la partie I.2.5 « Zoomer/dézoomer » lorsque j’ai
commenté l’exemple d’une étude (Avanzi et al. 2012) sur deux très petits échantillons de
personnes originaires de France ou de Suisse, où le simple calcul de la moyenne des
vitesses d’articulation était ventilé par sexe, sans qu’une hypothèse sur le genre soit
formulée, à moins de deviner une théorie implicitement différentialiste sous-jacente.

Pour éviter cet écueil basique mais néanmoins encore courant, il convient d’abord
d’envisager – lors de la catégorisation des individus - le genre comme une échelle,
continue, organisée par une double polarité (masculin – féminin), dotée d’une position
médiane (« entre-deux ») et ensuite comme un dispositif doté d’une dimension
performative, capable d’expliquer les cas de non-congruence genre – sexe. Le fait
d’envisager une échelle plutôt qu’une catégorisation binaire permet de rendre compte
149
des femmes perçues comme plus ou moins féminines ou comme plus ou moins
masculines et des hommes perçus comme plus ou moins masculins ou plus ou moins
féminins. La performativité permet de faire une place à l’agentivité (Butler 2004) des
gens plutôt que de les enfermer dans des cases qui n’épuisent ni la diversité des
performances individuelles ni même les possibilités d’évolution des tendances
majoritaires.
Concrètement, en sociolinguistique, plutôt que de se contenter (typiquement) de
compter le nombre d’hommes et de femmes qui produisent un marqueur et de tirer
comme conclusion qu’il est féminin parce qu’il est produit à 65% par les femmes, ou vice
versa s’il concerne davantage les hommes, on peut envisager d’approfondir le
questionnement. On peut par exemple s’intéresser aux hommes qui produisent des
marqueurs considérés comme typiquement féminins, ou aux femmes qui produisent des
tournures réputées masculines, ou dont le profil ne correspond ni à ce qui est décrit
comme masculin ni à ce qui est décrit comme féminin, bref aux locuteurs minoritaires
mais néanmoins fort nombreux, qui ont des comportements atypiques, et tenter de
déterminer les tendances, la direction des changements, etc. On peut également
s’intéresser aux positionnements des juges sollicités, à leur degré de tolérance/rejet ou
de sympathie/antipathie pour les personnes atypiques en termes de normes de genre ;
on peut aisément utiliser les possibilités offertes par la technologie pour cela : par
exemple sur Praat, la parole filtrée pour inverser le genre perçu d’une voix enregistrée
et mesurer les effets, ou encore pour masquer toute marque de genre par des voix
rendues artificiellement robotiques ou androgynes, manipuler les courbes intonatives et
le débit, etc. On peut aussi multiplier les approches qualitatives pour mieux comprendre,
en situation, les pratiques des gens avant de se lancer dans des approches quantitatives,
afin d’élaborer des hypothèses plus nuancées et des catégories nouvelles. En règle
générale, il me semble toujours fécond de chercher à complexifier les catégories et à
analyser finement les enjeux, plutôt que de se contenter d’une bien maigre description
des personnes à l’aide des paramètres sexe / âge / niveau d’études / catégorie socio-
professionnelle des parents qui ont été importés de la sociologie et qui ont été transférés
en linguistique sur des échantillons totalement non représentatifs...
Ce premier écueil basique ne se retrouve pas, comme je l’ai déjà dit, sur la « race » :
le postulat universaliste largement partagé empêche les chercheurs de catégoriser les
gens par « race » et de compter quel groupe racial articule plus vite, utilise plus de
néologismes, fait plus de liaisons facultatives, roule plus souvent les /r/, prononce
davantage de schwas, etc., etc. … comme ils le font encore, sans distance critique, pour
les catégories de genre présentées comme strictement binaires. Force est de constater
que la prise de distance critique sur la construction des classes sociales de sexe est
globalement en retrait par rapport au mouvement critique sur les classes sociales
raciales ; la situation décrite par Guillaumin 1986 [1981] est toujours d’actualité dans
nombre de recherches :

[la notion de race] durant plus d'un siècle une sorte de vérité première, d'évidence que nul ne
songe même à remettre en cause (comme l'est encore le « sexe ») (Guillaumin, 1986, p. 55).

Le second écueil est plus subtil, et plus difficile à éviter, car il concerne les
interprétations à partir de productions orales ou jugements recueillis en situation
expérimentale auprès d’un échantillon de personnes. En effet, il s’avère bien souvent
inextricable de vouloir prendre en compte simultanément les représentations liées au
genre mais également aux classes sociales et à la race. Il est probablement utopique de
150
penser qu’un protocole expérimental permettrait de neutraliser (ou contrôler, ou
mesurer) les réactions induites par des stéréotypes. L’écueil de l’interprétation abusive
ou circulaire des données recueillies est en partie incontournable, mais le poser
explicitement comme écueil permet d’ouvrir de vastes perspectives de recherche.
Mes propres observations vont dans le sens de Campbell-Kibler (2009) pour qui le
champ d’étude de la perception en sociolinguistique/sociophonétique est à peine ouvert
sur les questions d’agentivité, d’intention, de croyances et de frontière entre réactions
automatiques et réactions contrôlées. Ces questions méritent d’être prises en compte
dans les futures études linguistiques sur le genre, la race, les classes sociales et leurs
interférences. Les recherches en sociolinguistique ont tout intérêt à entrer en dialogue
avec les études actuelles en sociologie intersectionnelle (Rollock 2014) trop peu
développées dans la recherche d’expression française.

Résultats d’une étude sur la perception de la parole

Même de nos jours, lorsqu’on parle de « perception de la parole », ce domaine est


encore surtout associé aux démarches expérimentales. Il est en effet assez difficile
d’étudier la perception en situation, de manière fortuite, au gré des échanges non
sollicités et au gré des réactions explicites des gens, même si cela reste un objectif qu’il
ne faut pas renoncer à atteindre.
Les trois études expérimentales que j’ai déjà citées à plusieurs reprises (Condry &
Condry 1976 sur le genre, Rubin 1992 et Hay, Warren & Drager 2006 sur la race)
montrent la même chose, à savoir le cercle vicieux inextricable des stéréotypes sociaux.
Le fait de donner accès aux juges à une pré-catégorisation sexuelle, raciale ou sociale des
gens à écouter (ce qu’on appelle l’amorçage, ou le priming en psychologie sociale
expérimentale) active les stéréotypes des juges et cela suffit pour rendre certains
aspects saillants et pour en masquer d’autres. La perception s’en trouve donc modifiée
par les attentes activées ; les aspects rendus saillants justement par ces attentes seront
mieux perçus, ce qui va en retour renforcer les stéréotypes et alimenter ainsi le cercle
vicieux.
Il est facile de tester ce qui se passe si on entend une voix qu’on pense appartenir à
une femme ou qu’on pense appartenir à un homme ; ou bien une voix qu’on pense
appartenir à un-e journaliste, à un-e ouvrier-e, à une personne catégorisable comme
étant blanche ou noire. Il suffit de le faire croire aux gens, à travers un protocole. En
revanche, il est un peu plus difficile de savoir comment jouent exactement nos attentes
lorsqu’on sait à l’avance qu’on va percevoir une voix de femme ou une voix d’homme,
sans que la voix n’entre en ligne de compte par elle-même. Pour cela, il faut pouvoir faire
écouter une voix androgyne ; cela permet d’annoncer à l’avance s’il s’agit d’une femme
ou s’il s’agit d’un homme (amorçage), et de faire écouter en réalité la même voix. C’est
cette technique que nous avons utilisée dans une étude récente menée en collaboration
avec A. Arnold (2015, [doc 05]).
Il n’y avait pas vraiment, à ma connaissance, d’étude expérimentale sur la
perception stéréotypée de la parole féminine ou masculine portant sur le français,
focalisée sur la mesure de l’influence des stéréotypes de genre et de race. Je résume ici le
point de départ et les pistes ouvertes par notre étude, annexée en [doc 05].
Nous avions souhaité par cette enquête non seulement obtenir des résultats
éventuels sur le poids des stéréotypes mais également mettre à l’épreuve des méthodes
expérimentales déjà utilisées en phonétique pour étudier la perception des attitudes et
151
émotions par la voix (celle de Rubin 1992 sur l’accent de faciès, menée aux Etats-unis,
étant sans doute la plus citée). Ainsi, nous avons testé l'approbation, par deux groupes
indépendants, d'une série de phrases affirmatives (de type « X est sûre d’elle »)
appariées à de courts extraits sonores d'une dizaine de secondes ; le choix des adjectifs
s’est fait à partir d’autres protocoles déjà éprouvés, comme par exemple dans Williams
et Bennett 1975. Inspiré de la technique du locuteur masqué, mais appliquée à deux
groupes de juges indépendants, notre protocole expérimental jouait sur la manipulation
de deux étiquettes différentes associées au même extrait sonore. D’un groupe à l’autre,
des voix androgynes créées par resynthèse ont été présentées tantôt avec des prénoms
féminins, tantôt avec des prénoms masculins, par exemple Mathilde L./Mathieu L., ou
encore Fatiha A-K. / Hassan A.-K. ; en outre, des voix féminines ou masculines naturelles
plus ou moins prototypiques ont été présentées tantôt avec des prénoms à sonorité
française, tantôt avec des prénoms à sonorité maghrébine, par exemple Constance
Ph./Ghenima Kh., Paul H./Samir H.
Les résultats obtenus étaient assez conformes aux attentes pour le genre, mais pas
conformes aux attentes pour la race, si on construit nos attentes par rapport aux
protocoles comparables utilisant l’amorçage de stéréotypes. Plus exactement, les
réactions des juges face à l’amorçage des stéréotypes de genre ont semblé globalement
moins contrôlées ou réfléchies que celles face à l’amorçage de stéréotypes raciaux.
Nos juges semblaient vouloir éviter à tout prix d’émettre des jugements négatifs à
l’égard de voix produites par des locuteurs qu’ils percevaient comme racialisés à cause
des prénoms affichés. Les résultats quantitatifs obtenus, par exemple le fait que le même
extrait a été évalué plus positivement simplement parce qu’il avait été associé au
prénom « Samir » plutôt que « Paul », sont corroborés par des commentaires spontanés
que nous avons pu recueillir à partir d’autres protocoles similaires. Par exemple, une
étudiante en master ayant fait passer un test de perception sur différents accents en
français a recueilli cette remarque explicite d’un « juge » qui va tout à fait dans le sens de
nos hypothèses : « A l'écoute de l'extrait 8, il dit en riant ‘En fait depuis le début elle veut
m'avoir, c'est que des tourangeaux, et celui qui parle bien, il est algérien’ […] Toutes ses
réponses passeront par ce filtre d'appréhension du piège de l'exercice. »
Mais force a été de constater que, contrairement aux stéréotypes raciaux, les
stéréotypes de genre ont rencontré peu de méfiance chez nos « juges » qui ne semblent
pas avoir censuré leurs réponses. Il en ressort, par exemple, qu’une personne avec une
voix androgyne est perçue comme plus « agressive » simplement parce que
l’enregistrement est associé à un prénom féminin ; elle est perçue comme pas du tout
agressive si les gens pensent, grâce au prénom masculin, qu’il s’agit d’un homme. Ou
encore, une personne identifiée par le même prénom masculin, est perçue comme moins
hésitante simplement lorsque la voix, manipulée d’un groupe à l’autre grâce à un filtre,
est plus grave. Nous avons donc retrouvé, par ce protocole assez simple, les stéréotypes
déjà documentés depuis fort longtemps qui font que les voix aigües et claires, ayant des
fréquences élevées par rapport aux prototypes féminins ou masculins, sont associées à
la soumission, à la déférence et au manque de confiance en soi (Apple, Streeter, et
Krauss 1979; Bolinger 1964) et en plus, pour les voix masculines, sont associées à
l’homosexualité (Gaudio 1994).
Il est dès lors possible de formuler l’hypothèse que les juges ont un niveau de
conscience de l’utilisation qui peut être faite de leurs réponses en matière d’analyse des
discriminations raciales supérieur à celui qui concerne les discriminations de genre. Or,
si tel est le cas, une approche expérimentale simplement quantitative ne pourra pas
donner d’indications sur la perception de la parole, mais uniquement sur le niveau de
152
vigilance des auditrices-teurs aux affirmations stéréotypées que les chercheur·e·s leur
ont soumises et, éventuellement, sur leurs envies de se positionner par rapport à ces
affirmations pour conforter ou non les hypothèses qu’ils prêtent aux chercheur·e·s. Les
conclusions permettent de questionner les méthodes d’investigations expérimentales et
d’exposer les limites de l’interprétation des résultats ainsi obtenus (cf. discussion sur les
sondages vus par Bourdieu dans la partie I.2.4).
La comparaison des résultats obtenus avec ceux des études menées dans d’autres
contextes et à d’autres époques nous a amenés à approfondir les réflexions sur la
situation d’enquête en elle-même et sur les attentes des auditeurs et auditrices sollicités,
visiblement plus vigilant·e·s sur les questions de « race » que sur les questions de
« genre ». Ce travail incite en outre à mettre encore plus en avant le besoin de mener une
analyse du contexte large, historique, de toute enquête scientifique. En effet, à une
époque où les sondages et les enquêtes de toutes sortes sont monnaie courante, il est
devenu très rare qu’un auditeur ou une auditrice réponde pour la première fois à une
sollicitation de ce type, et par conséquent ce qui rentre en ligne de compte ne relève plus
seulement des idéologies partagées sur la science ou sur le langage mais également de
l’expérience individuelle de chaque auditeur/auditrice en tant que répondant-e à des
enquêtes, sondages ou expérimentations. Il n’est pas rare, de nos jours, particulièrement
parmi les personnes ayant suivi des études universitaires, qu’on observe une véritable
expertise en matière d’enquêtes scientifiques chez les personnes sollicitées, ce qui
n’était probablement pas le cas il y a une cinquantaine d’années. Il est impossible de
procéder comme si les juges étaient des non-experts naïfs, alors qu’en réalité ils et elles
vont avoir tendance à deviner les objectifs de l’enquête, à déjouer les pièges du
protocole, voire à remettre en question ou à renégocier sa construction.

II.2.3 Accent régional, accent social et style

En sociolinguistique, absolument tout le monde s'accorde pour reconnaitre que la


notion d''accent' est difficile à définir de manière rigoureuse en raison des enjeux
politiques et idéologiques dont elle est l'objet. Tout le monde s'accorde pour reconnaitre
que les frontières d'un 'accent régional' sont difficiles à établir, que l'homogénéité des
accents régionaux est une fiction, tout comme l'homogénéité de l’'accent natif' d'une
langue... En parallèle, néanmoins, les sociolinguistes sont confrontés à la persistance des
mythes qui réifient et naturalisent les accents et à leurs conséquences sociales bien
réelles. Tout comme dans le cas de la race, le fait de prouver scientifiquement
l'inconsistance des accents ne suffit en rien pour ébranler les croyances dans la
différence irréductible et essentielle entre les gens selon leur lieu de naissance ni les
croyances dans la hiérarchie des accents. Or, les sociolinguistes sont aussi des citoyen-
ne-s et des locuteurs·trices et à ce titre ils et elles peuvent difficilement s'abstraire des
débats publics et peuvent encore moins s'abstraire des interactions quotidiennes où ils
et elles sont confronté·e·s à leurs propres assignations identitaires. Ainsi, le consensus
apparent au sujet des accents se fissure très rapidement dans les différentes études
publiées à ce sujet, et il apparait que ce domaine de recherche est traversé par des
désaccords profonds.
En ce qui concerne les accents régionaux, nombre de chercheurs (toute l'équipe
autour du projet Phonologie du français contemporain, ainsi que Ph. Boula de Mareüil,
A.C. Simon, …) mettent en avant l'existence de marqueurs régionaux saillants et

153
mesurables, donc objectivables, et cela représente une base suffisante pour justifier la
description des accents régionaux dont on peut même tenter de mesurer la dispersion,
les degrés ou l'homogénéité. Cette vision, selon moi, se focalise sur les forces centrifuges
qui incitent les locuteurs·trices à tracer des frontières entre les gens et les territoires, à
gommer les ressemblances et à exagérer les différences. L'avantage de cette vision c'est
qu'elle rend bien compte de l'illusion répandue de perception catégorielle des accents
par les non-spécialistes et de la force des stéréotypes dans les pratiques de
catégorisation de soi et d'autrui, même si, parfois, les expert·e·s courent le risque de
contribuer à réifier les catégories par leurs propres discours. Le désavantage de cette
vision c'est qu'elle ne peut pas vraiment rendre compte des tensions idéologiques et des
évolutions des rapports de pouvoir entre les communautés qui partagent la pratique de
tel ou tel accent. En outre, en reprenant les catégories stéréotypées traditionnelles, elle
ne permet pas non plus de nommer les accents qui se rendent invisibles grâce à leur
prestige social.
D'autres chercheurs (Boughton 2006; Gasquet-Cyrus 2013a) mettent en avant la
fiction de l'homogénéité des accents régionaux, qui sont, notamment, socialement
stratifiés, ainsi que le continuum dans la variabilité des pratiques de prononciation.
Gasquet-Cyrus propose de distinguer quatre pôles qui organiseraient socialement la
perception de la variabilité des prononciations à Marseille (accent authentique, accent
bourgeois, accent des quartiers Nord, accent des néo-marseillais, avec des continuités
entre eux) tandis que Boughton et Armstrong (Boughton 2005; Armstrong et Boughton
2000; Boughton 2006) montrent comment les nancéiens qui écoutent des rennais avec
un accent perçu comme populaire pensent entendre des nancéiens des classes sociales
défavorisées (et vice-versa pour les rennais qui écoutent des nancéiens), ce qui permet
de mettre en évidence la plus forte saillance du social par rapport au régional, pour le
moins à l'intérieur d'un territoire réunissant la grande moitié nord de la France et la
Belgique francophone. L'avantage de cette vision plus centripète, plus focalisée sur le
continuum et sur ce qui fait l'unité des pratiques de prononciation en français, c'est
qu'elle permet de mieux faire ressortir le rôle des idéologies linguistiques et de susciter
une réflexion critique quant à leurs effets socialement délétères et quant aux
potentialités de changement.
Les divergences dans les angles de vue choisis pour les recherches se retrouvent
aussi au niveau des positionnements politiques des chercheur·e·s, notamment par
rapport à l'interventionnisme (inacceptable, acceptable, souhaitable, inévitable…), par
rapport aux risques de récupération politique des discours d'expertise et, plus
largement, par rapport aux conséquences des discours d'expertise. Ainsi, le fait de
comparer des accents « régionaux » à un accent non-régional construit comme une
« référence » revient à accepter – sans intervenir – l'idéologie dominante qui relie de
façon indestructible un territoire à un accent, comme si l'accent caractérisait un
territoire et s'imposait à ses habitants au même titre que la météo. Cela entérine
également, de façon paradoxale, l'idée que certains territoires n'aient « pas d'accent ». Le
fait d'accepter la notion même d'accent « régional » revient d'ailleurs à gommer la
stratification sociale, ce qui représente également un choix politique. Le fait de
s'appuyer sur les recherches disponibles sur l'histoire de la standardisation (politique et
idéologique, par exemple Armstrong et Mackenzie 2013) du français de France pour en
dénoncer les effets glottophobiques revient à forger un contre-discours politique,
déconstructiviste, visant à mettre toutes les pratiques de prononciation – tous les
'accents' – sur le même plan au risque de militer pour une injonction à la loyauté socio-
territoriale des individus et de continuer, parfois, à réifier les catégories… Ces différents
154
positionnements expliquent non seulement des divergences dans les approches
adoptées par rapport à l'objet de recherche « accent régional », mais également des
divergences dans les résultats obtenus.
Pour ma part, je n'ai pas eu à travailler sur les accents régionaux pris comme objets
d'étude en tant que tels, mais j'ai toujours été frappée par le processus de gommage de
la dimension sociale de cette notion, malgré le fait qu'elle soit rendue évidente, au moins
pour la France, par l'existence de territoires réputés « sans accent ». Or, les derniers
temps, un mouvement croissant, au moins dans certaines régions, de re-négociations de
la construction de la contre-légitimité traditionnelle fondée sur l'authenticité (Gasquet-
Cyrus 2015, Boudreau 2016) a rendu plus visible la double compétence de certains
individus qui se trouvent confrontés à la contrainte de jongler avec les différentes
pratiques de prononciation de manière médiatiquement exposée.
C'est ainsi que Marie-Hélène Carlotti48 a été épinglée par l'émission « Le Petit
Journal de Canal+ »49 précisément en raison du fait qu'elle pratiquait l'accent du pouvoir
lorsqu'elle s'exprimait publiquement en tant que ministre, et qu'elle continuait à
pratiquer l'accent de la légitimité régionale marseillaise lorsqu'elle s'exprimait
publiquement dans le cadre de la campagne électorale régionale de la ville de Marseille.
Un simple montage de quelques énoncés, en alternance, prononcés dans deux émissions
différentes suffisait pour déclencher l'hilarité des spectateurs du plateau et
probablement celle d'une partie des personnes qui regardaient l'émission à la télévision.
Cette anecdote offre un exemple intéressant et rare d'observation directe des tensions
idéologiques autour de ce sujet. Pour M.-H. Carlotti, le fait d'adapter ses pratiques de
prononciation fait partie de ses compétences professionnelles, au même titre que ce que
Léon 1993 appelait les voix professionnelles, comme la voix publicitaire ou celle du
sermon du prêtre. Il ne viendrait à l'idée de personne de penser que les prêtres ou les
acteurs et actrices des publicités parlent de la même manière, avec leur voix
professionnelle, lors d'un repas avec des membres de leur famille proche ou lors d'un
entretien en tête à tête avec un supérieur hiérarchique. Il est donc extrêmement
intéressant d'approfondir les raisons pour lesquelles la voix professionnelle de M.-H.
Carlotti en tant que ministre de la République mise en contraste avec sa voix lors d'un
débat sur les enjeux locaux à Marseille, est perçue comme tellement incongrue qu'elle
suscite le rire50.
La dimension sociale a tendance à être escamotée dans les discours sur les accents
régionaux, par idéologie, derrière une conception essentialiste du lien entre « accent » et
« territoire de naissance » d'un individu ; elle a également tendance à être escamotée
pour les accents purement sociaux.
En réalité, actuellement, il n'existe pas vraiment de dénominations largement
partagées des accents sociaux en français mobilisant des noms de groupes sociaux 51. On

48 Ministre déléguée aux Personnes handicapées et à la Lutte contre l'exclusion, 2012-2014.


49 Extrait consultable sur Daily Motion, depuis le 26/09/2013 :
http://www.dailymotion.com/video/x156w96_le-drole-accent-de-marie-arlette-carlotti_news ; extrait
repris et commenté dans le documentaire Avec ou sans accent » par Vincent Dsombre (diffusé en mars
2016 sur France 3 Provence-Alpes).
50 Je suis en train de préparer un travail sur ce sujet avec les étudiant·e·s de mon séminaire de
sociophonétique.
51 On parle parfois d'accent snob, mais cela ne mobilise pas vraiment un groupe social (il s'agit
plutôt d'un style) ; en outre, nous ne disposons guère d'études sur cet accent. Cette discussion concerne
uniquement les pratiques de prononciation en français L1, et ne s'applique pas aux accents dits étrangers
(pratiques de prononciation en français appris comme L2).
155
ne parle pas d'accent populaire, d'accent ouvrier, d'accent paysan, d'accent
poissonnier… On parle d'accent « de banlieue », « des quartiers », « des cités », « rural » :
autrement dit, on utilise des métonymies pour masquer la dimension sociale de
certaines pratiques de prononciation sous une dimension spatiale. Pour Boula de
Mareüil 2012, p.18 les termes 'accent de banlieue, des quartiers' « territorialisent une
réalité avant tout propre à certains jeunes ». Il en est de même pour la colocation « accent
rural » : cela territorialise des pratiques langagières propres à certaines personnes, à
certaines communautés. Or, il ne peut échapper à personne qu'il est possible de naitre et
d'habiter de longues années « en banlieue » populaire ou dans une cité, ou en zone
rurale, sans pour autant adopter des pratiques de prononciation spécifiques.
On ne parle pas non plus d'accent bourge, d'accent aristo, d'accent médiatique ou
d'accent parlementaire. La seule étude d'ampleur dont on dispose sur les accents
bourgeois de Paris est celle de Mettas (1979) qui utilise le même type de métonymie
dans le titre, bien qu’elle fasse usage du mot « sociolecte » [« aspects phoniques d'un
sociolecte parisien (du faubourg Saint-Germain à La Muette) »] ; le fait d’associer un
sociolecte à des quartiers maintient l’ambigüité et fait comme si on pouvait envisager
l’hypothèse que les pratiques langagières des femmes de la bourgeoisie et haute
bourgeoisie de Saint-Germain et de La Muette puissent être similaires à celles des
concierges habitant dans les mêmes immeubles.
D'ailleurs, depuis l'étude de Mettas, on ne s'intéresse plus vraiment aux accents
des classes sociales favorisées mais quasi uniquement à ceux des classes défavorisées.
Les études se consacrent uniquement à l'accent de banlieue (populaire), l'accent des
migrants (pauvres) de date récente et l'accent rural. A aucun moment il n’est question
des parlers snobs et précieux dans l’ouvrage de Lodge 2004 sur l’histoire du français
parisien, alors que l’auteur accorde une large attention aux pratiques vernaculaires
populaires en expliquant à quel point il est difficile de trouver des sources de
documentation fiables et détaillées. Autrement dit, la recherche en sociophonétique du
français s'est surtout focalisée sur les accents minorés, qui manquaient de
documentation, en contraste avec l’accent « de référence » et on peut se demander
pourquoi.
Il est fort possible que ce soit lié à la demande sociale, car on retrouve la même
tendance en sociologie ; Pinçon et Pinçon-Charlot font partie des rares sociologues à
étudier la bourgeoisie, (Pinçon et Pinçon-Charlot 2002; Pinçon et Pinçon-Charlot 2003).
Il en est de même en sciences de l'éducation : l'écrasante majorité des études se
consacre à l'échec scolaire et aux inégalités et non à la réussite scolaire et aux privilèges,
(Daverne et Dutercq 2013). Mais à mon avis il y a une autre raison, en ce qui concerne
les accents, qui ne sont autre chose que des pratiques de prononciation artificiellement
homogénéisées, et elle est à chercher précisément du côté de la tendance à
l'euphémisation des rapports sociaux et au gommage de la violence de la domination.
Par exemple, il est frappant que dans les entretiens de C. Nérant 2015 avec des
journalistes, il est très souvent question de « formatage » pour désigner un ensemble de
techniques prosodiques et de pratiques de prononciations de toute sorte. A aucun
moment il n'est question d'« accent journalistique » ou « accent professionnel ». La
notion d’accent étant généralement construite comme un attribut rattaché à un individu
de manière ‘naturelle’ et non-négociable, elle semble incompatible avec une pratique
professionnelle prestigieuse. Or, aucun critère linguistique ne permet de distinguer
entre accent professionnel, accent régional et accent social ; ce n’est qu’une question de
point de vue culturellement construit à un moment donné. On pourrait par conséquent
parler bel et bien d'accent professionnel ou d’accent journalistique, ainsi que d'accent
156
professoral ou didactique, d'accent politique, etc. et refuser d'associer la notion d'accent
à un stigmate social. Cela permettrait de l'aborder avec les outils d'étude du style, et
ouvrir des perspectives théoriques nouvelles sur ce phénomène langagier (j'y reviens
dans la partie suivante).
Pour résumer, les pistes qui me semblent encore insuffisamment exploitées, au
moins pour le français, dans le domaine de la recherche sur les accents sont :
• d'une part mettre en regard les accents régionaux, les accents sociaux et les
styles, de manière à croiser les méthodes d'étude et les perspectives
• d'autre part approfondir la réflexion critique sur l'articulation entre les
exigences d'une description scientifique des pratiques de prononciation et des
idéologies langagières et les retombées sociétales des discours d'expertise
produits par les chercheur·e·s (notamment, en l'occurrence, le risque de
contribuer à la réification des catégorisations naïves et traditionnelles).

Analyse de la notion accent dit « de banlieue »

La recherche portant sur l'accent dit « de banlieue » est un domaine qui rend
particulièrement visibles les débats idéologiques et politiques entre chercheur·e·s.
Fries & Deprez 2003 s’étonnent explicitement de la construction et la
dénomination de cet « accent » natif, dont la description est souvent orientée vers
l’assimilation avec les accents étrangers et n’évite pas toujours l’expression d’une
xénophobie latente.

« la France est en train de connaître le développement d’un « accent étranger de


l’intérieur » comparable à l’accent des Hispaniques aux États-Unis, de par sa fonction de
marqueur d’identité mais aussi de par sa stigmatisation dans les représentations de la
population générale. Il y a là une étonnante zone d’ombre à explorer ». (Fries et Deprez
2003: p. 103)

Sa désignation est d'ailleurs loin de faire consensus. D'une part « la banlieue » (ou
« les quartiers ») est déjà une ellipse pour désigner les banlieues socialement
défavorisées caractérisées par un pourcentage élevé de bâtiments relevant de l'habitat
social, et non les banlieues ou quartiers pavillonnaires riches, et d'autre part, nous
l'avons vu, le fait de relier l'accent à un territoire plutôt qu'à un groupe précis de
personnes relève d'une technique de masquage des facteurs sociaux et d’un processus
de naturalisation. Ainsi, certains chercheurs s'approprient la dénomination en raison de
sa notoriété tout en la mettant à distance avec des guillemets autonymiques, tandis que
d'autres la rejettent et proposent des alternatives, comme par exemple « français
multiculturel parisien » (Gadet et Paternostro 2013), ou bien de longues périphrases
prudentes visant l’explicitation maximale et le refus ostensible de généralisations
naturalisantes, comme par exemple celle-ci : « pratiques langagières de jeunes
principalement issus de l’immigration et de milieux sociaux dits «populaires», évoluant, en
ville, dans des espaces culturels et linguistiques caractérisés par la pluralité et la mixité »
(Auzanneau et Juillard 2012).
Le débat sur le risque d'homogénéisation et de réification – stigmatisante – d'une
grande variabilité de pratiques sous le label « accent », « variété » ou « parler » n’est
toujours pas clos. Ce risque a été maintes fois dénoncé, par exemple par Auzanneau
2009; Trimaille et Billiez 2007 … Auzanneau ne parle d’ailleurs pas de risque, mais
d’exigence de dénonciation d’un véritable « mythe ». Et les racines de ce débat sont
157
encore plus anciennes, car Conein et Gadet 1998 dénonçaient il y a vingt ans déjà la
tendance à l'iconisation de l'innovation associée aux « parlers jeunes », quitte à gommer
l'histoire parfois ancienne des pseudo-innovations mises en avant, que ce soit en
matière de prononciation ou à d'autres niveaux linguistiques. A la même époque, en
sociologie de la communication, Derville 1997, par exemple, dénonçait la
« stigmatisation des jeunes des banlieues » ; il montrait comment le journal de droite Le
Figaro, à diffusion nationale, publiait des énoncés fallacieux à quelques jours d'intervalle
portant sur des « jeunes » : « les jeunes de cité profitent de ce climat », article défini
associé à une information négative, versus « Quand des jeunes prennent des initiatives
positives », article indéfini associé à une information positive. Selon Derville (op. cit. p.
110), en conformité avec le positionnement idéologique de ce journal, « les derniers
[sont] présentés comme exceptionnels, les autres comme une masse ».
La tendance n’a fait que s’amplifier dans les médias, durant les années 2000.
L’enquête ethnographique de Berthaut 2013 sur « la banlieue » dans les sujets des
journaux télévisés permet de mieux comprendre la fabrication de ce thème comme
repoussoir, à toutes ses étapes et avec la contribution d’un grand nombre d’acteurs. Il
est instructif de relever que Berthaut 2013 a pris en note au moins un échange explicite
entre un reporter et une monteuse portant sur l’accent imaginé des personnes
interviewées en banlieue par les journalistes. Ces notes s’insèrent dans toute une série
d’observations sur les commentaires des journalistes durant le montage, sur les
catégorisations (« racaille » « z’y-va »), sur les prénoms stéréotypés que les journalistes
attribuent aux interviewé·e·s sur un mode humoristique (Aïcha et Mohammed), et plus
largement sur l’ensemble des pratiques discursives et filmiques qui aboutissent à la
dépersonnification des individus utilisés pour illustrer des figures médiatiques
simplifiées :

« Le recours à ces prénoms d'emprunt s'accompagne régulièrement d'une imitation de


l'accent rustre prêté aux jeunes habitants des quartiers populaires, même si les
protagonistes représentés à l'image en sont dépourvus. Paradoxalement, le journaliste pointe
pourtant souvent la qualité d'expression des interlocuteurs rencontrés : « On est tombés sur
des bons, hein, parce que c'est rare qu'ils s'expriment comme ça, les jeunes de
banlieue »52. (Berthaud, 2013 : 307).

Autrement dit, dans les années 2010 le mythe de l’ « accent de banlieue » semble si
ancré à l’extérieur des quartiers populaires que les observations contradictoires faites
sur le terrain ne peuvent plus l’ébranler. Des individus vivant dans une banlieue
populaire et s’exprimant « bien » (autrement dit ayant des pratiques langagières
proches de celles des journalistes) deviennent par postulat des exceptions qui
confirment la règle.
Face à l'omniprésence, déjà ancienne, de toute une phraséologie médiatique sur la
banlieue susceptible d'alimenter directement les pratiques de discrimination et les
discours de haine, il n'est pas étonnant que les sociolinguistes cherchent de plus en plus
à prendre position et à défendre des points de vue divergents. Les stratégies les plus
cohérentes et les plus abouties visent, nous l'avons vu plus haut, à dénoncer
l'homogénéisation abusive de l'accent de banlieue (et en général de la variété « français
des cités », etc. ) et à proposer une vision unifiante de ce qu'on appelle « le français », en

52 Le choix des passages en gras m’appartient.


158
focalisant l’attention soit sur l'histoire d’un trait langagier, soit sur le continuum (ou la
variabilité) des pratiques qui relèvent du français, soit sur la variation stylistique de
chaque locuteur ou locutrice selon les contextes. Cette position, qu'on peut considérer
comme favorisant une vision centripète, est partagée par les chercheur·e·s que je viens
de citer : Auzanneau, Billiez, Gadet, Trimaille… D'autres vont encore plus loin : Arditty et
Blanchet 2015 dénoncent l'idéologie glottophobique institutionnelle qui pollue tout
débat sur la variation en français, et Paternostro 2016 entame un processus de
déconstruction des variantes décrites comme des marqueurs d'accent social en
proposant une grille de lecture centrée sur la variation stylistique.
Cette dernière suggestion me semble ouvrir un chantier qui n'est que très peu
exploré, et qui permettrait enfin de commencer à mettre à profit les nombreuses
recherches dans ce domaine menées pour le moment surtout sur l'anglais et sur
l'espagnol (Coupland, Eckert & Rickford, Eckert, Mendoza-Denton…). En effet, en
proposant d'interpréter le contour ultra-rapide montant-descendant comme une
ressource pour exprimer l'emphase, alors qu’il avait été décrit par Lehka-Lemarchand
2007; Boula de Mareüil et Lehka-Lemarchand 2011 comme possible marqueur
d'« accent de banlieue », Paternostro 2016 remet en question les catégories identitaires
pré-fabriquées et place au centre de l'attention l'agentivité et la capacité à renégocier les
identités en interaction. Son étude s'appuie tout d’abord sur un test de perception qui
montre que, hors contexte, les auditeurs et auditrices sollicité·e·s « ne sont que
partiellement capables » de distinguer entre un « contour emphatique » et un « contour
banlieue » (ils ne le font que dans 59% des cas, op.cit., p.99), avec un taux d’accord entre
« juges » et chercheurs » très faible, de 54% ; en outre, les items qui suscitent des
réponses avec un fort taux d’accord inter-annotateurs (90-100%) ne représentent que
13% des exemples testés. En d’autres termes, il est très difficile de prouver une
distinction perceptive entre ces deux contours. Pour compléter ce résultat perceptif,
Paternostro s’appuie également sur l’analyse acoustique qui aboutit aux mêmes
résultats : les deux contours se placent plutôt sur un continuum et ne se différencient
pas de manière nette. La tendance moyenne montre une polarisation légèrement
différente des valeurs du degré de glissando et du rapport de durée entre la dernière
syllabe et l’avant-dernière. En fait, la perception d’un « parler » typique « de banlieue »
n’est en rien automatiquement suscitée par la présence d’un tel contour, en l’absence
d’autres traits convergents. D’où la proposition de l’auteur de considérer qu’il s’agit d’un
seul contour de base en français, qui est mobilisé le plus souvent pour exprimer
l’emphase et qui peut être réalisé avec différents degrés. On peut regretter que
Paternostro ne remette pas radicalement en question le concept même d’accent de
banlieue, mais il fournit tous les éléments pour pouvoir le faire.
Une telle approche rejoint celle qui est défendue par Eckert et Rickford 2001, et
nombreux autres chercheurs notamment dans le sillage de Coupland 1980. La vie sociale
est vue comme un processus perpétuel (multidimensionnel) de construction de
catégories et d’identités ; le style fait partie des ressources disponibles pour les
construire, tout comme le langage en général qui participe à la construction du social.
Cette vision s’oppose à celle du langage comme simple reflet du social, et à la vision de la
vie sociale comme une difficile navigation des individus à travers des catégories pré-
existantes figées et immobiles (Eckert & Rickford, 2001 :6). L’approche de la variation
s’en trouve fortement modifiée, elle évolue « from marking categories to constituting a
more fluid landscape of meaning » (idem).
Selon Bishop, Coupland, et Garrett 2005, à l’issue d’une grande enquête sur la
perception des accents (régionaux) en Grande-Bretagne, l’utilisation des pré-catégories
159
traditionnelles, déjà connues, dans une enquête pourrait même activer, en soi, les
idéologies linguistiques conservatrices associées à ces catégories ; cela pourrait
obscurcir les résultats, en empêchant de voir émerger, le cas échéant, des changements
récents ne disposant pas encore d’une traduction en discours officiel suffisamment
reconnu. Sans pousser à l’extrême le constructivisme, on peut en arriver à se demander
si l’utilisation, en discours, des catégories traditionnelles – qui sont davantage des
catégories identitaires que des catégories linguistiques – ne joue pas le rôle de squelette
qui permet au concept de rester opérationnel dans les discours non-spécialistes et dans
les interactions du tout venant, et qui permet aux frontières de se maintenir. Ce type de
questionnement semble encore plus justifié dans le cas des accents sociaux, comme
l’accent dit « de banlieue » en français.
Cette vision centripète des pratiques langagières aboutissant à une fluidification
des frontières et à une focalisation sur la performativité de la variation est loin d’être
partagée par tous les sociolinguistes et elle semble même en inquiéter certains. Ainsi,
Boula de Mareüil accepte l’idée d’une hétérogénéité au sein des pratiques pouvant être
catégorisées comme relevant d’un accent, et accepte de reconnaitre le risque de
réification par des stéréotypes, mais cela ne le conduit pas à remettre en question la
catégorie. Bien au contraire, il se déclare explicitement à la recherche des prototypes de
chaque accent, et en l’occurrence spécifiquement de l’accent « de banlieue », et qualifie le
fait d’envisager l’hypothèse d’un continuum remettant en question toute consistance
scientifique de la notion d’accent comme équivalant à « succomber au nihilisme » :

En même temps, entre le stéréotype (caricatural, idéalisé) et le prototype (théorisé en


psychologie cognitive [Rosch, 1975]), la frontière n’est pas nette. Si traditionnellement, en
dialectologie, le prototype a pu être relié aux « Non-mobile Older Rural Males (NORM) »
[Chambers & Trudgill, 2004], ce portrait n’est pas applicable à des accents urbains comme
l’accent des titis parisiens ou l’accent de banlieue. De toute évidence, le concept de prototype
est à développer, pour ne pas succomber à un nihilisme qui, partant de l’observation de
différences au sein de tout accent, en vient à nier l’existence de tout accent53. (Boula de
Mareüil 2012), pp.270-271.

Je qualifie cette vision de « stratifiante » ou « centrifuge », car elle se focalise sur les
différences et sur les mécanismes d’iconisation de ces différences qui aboutissent à une
vision de la langue traversée par des frontières nettes, correspondant à une multiplicité
de catégories. Il me semble que cette vision des frontières postulant la perception
catégorielle est, en partie au moins, partagée par d’autres sociolinguistes qui ont décrit
l’accent dit « de banlieue » en français comme Fagyal et Lehka-Lemarchand.
Les deux visions décrites ci-dessus semblent profondément contradictoires. Or, je
crois qu’il serait plus productif de les voir comme complémentaires pour pouvoir faire
continuer à dialoguer les résultats obtenus par les uns et par les autres.
A ce propos, dresser un parallèle avec la notion de « race » et les recherches qui
portent sur les catégories raciales me semble une démarche intellectuellement féconde,
car j’ai l’impression de retrouver le même débat et la même complémentarité des
approches. En effet, il est possible d’argumenter scientifiquement autant pour défendre
l’inconsistance de la « race » que celle de l’« accent », et mettre en parallèle
l’impossibilité de rendre ces catégories opérationnelles si on les confronte à des
individus réels, dans toute leur diversité (race), ou à des échantillons de parole, dans

53 La mise en gras relève de mon choix.


160
toute leur diversité (accent). Il est impossible de décompter scientifiquement autant les
races que les accents ; il est impossible de tracer des frontières. Néanmoins, les deux
catégories conservent une puissance d’agir (agency) sociale indéniable, et s’avèrent
capables de se modifier et de s’adapter à tout discours niant leur pertinence.
Ainsi, la « race » (et le racisme qui est fondé sur cette notion) a su s’accommoder
de l’existence de métissages et d’individus inclassables, du white passing54, de la
déconstruction évidente de nombreux stéréotypes hérités du racisme historique… du
moment que l’essentiel a pu être préservé, à savoir le privilège blanc, le privilège de la
race qu’on n’a pas besoin de nommer car elle sert de référence. La « race » s’est très bien
accommodée des discours sur le manque de fondement des races et a transféré
l’idéologie raciste vers de nouvelles catégories (différences culturelles, ethniques…) ; les
stéréotypes négatifs se sont parfois mués en stéréotypes soi-disant positifs (les Africains
ont le rythme dans le sang, etc.), mais tout aussi naturalisants.
Dans le domaine du langage, l’idéologie du « standard » unique et de la variété de
prestige (de référence) elle aussi unique, sur laquelle repose le mécanisme de
minoration de tout ce qui serait « déviant », a su également s’accommoder des
métissages et des contre-discours plus égalitaristes : elle admet que certains individus
puissent changer d’accent ou apprendre un accent différent de celui des parents, que les
frontières entre les accents sont plus floues qu’il n’y paraissait, et que la diversité des
accents constitue une richesse et non une tare à éradiquer… Et pourtant, l’essentiel, là
aussi, a été préservé : le privilège du bon accent, de référence, le non-accent qu’on n’a
pas besoin de nommer. Comme le montre Gasquet-Cyrus 2012, à partir de l’exemple de
l’accent « méridional » qui fait pourtant partie des accents régionaux bénéficiant du plus
grand consensus pour des stéréotypes soi-disant positifs, la discrimination à l’accent se
porte toujours très bien. Les stéréotypes positifs sont ambivalents et, de fait, sous
prétexte d’authenticité (terroir, vacances et joie de vivre…), les accents régionaux sont
minorés et folklorisés face au non-accent.
Le parallèle entre « race » et « accent », entre discriminations racistes et
discriminations à l’accent, peut être maintenu pour réfléchir aux stratégies de
résistance, y compris dans le domaine de la recherche.
La première stratégie possible, nous l’avons vu, est la construction d’une vision
unifiante : les races n’existent pas, les accents n’existent pas. La seule chose qui existe,
c’est une grande variabilité et des mécanismes de domination qui construisent, par la
violence symbolique, des catégories dominantes et dominées. En déconstruisant les
catégories de race et d’accent qui servent surtout à maintenir les hiérarchies, on
retrouve l’unité (une seule humanité, une seule langue) et on reconnait aux individus la
capacité d’agir (l’agentivité) ; les gens sont libres de construire des identités
innombrables et de combattre la minoration de tel ou tel groupe par rapport à un autre.
Certes, au sujet de l’accent certains peuvent encore considérer cette position théorique
comme du « nihilisme » : mais n’en a-t-il pas été ainsi lorsque les premiers penseurs, au
18ème siècle, ont commencé à remettre en question le dogme de l’infériorité et
l’inéducabilité des Noirs sur lequel reposait la légitimité de l’esclavage, ou lorsque les
biologistes de la première moitié du 20e siècle ont commencé à remettre en question la

54 Le fait qu’un individu puisse « passer » pour un blanc malgré une ascendance non-blanche.
161
consistance génétique des races ?55 Ce qui semblait du nihilisme au début (ou plutôt de
l’onirisme social et politique, si on tient compte de la dimension politique de ces
théories), s’est imposé largement par la suite. Il est donc tout à fait envisageable que la
consistance des accents et la doxa sur leur caractère évident perde largement du terrain.
Mais si la notion d’accent devient obsolète dans le discours scientifique dominant,
comme l’est devenu la notion de race, cela ne veut pas dire que les discriminations à
l’accent disparaitraient par voie de conséquence, à l’instar du racisme qui n’a pas
disparu, mais s’est adapté. Et la vision unifiante (les races n’existent pas, les accents
n’existent pas) ne permet pas d’analyser cela en détail.
Cela nous conduit à la deuxième stratégie de résistance, complémentaire, qui
préserve les catégories de race et d’accent en raison de leur caractère encore
opérationnel, ou plus exactement pour dénoncer leur caractère encore opérationnel, car
il s’agit dans les deux cas de machines à fabriquer de la discrimination et de la
minoration sociale. En effet, il me semble qu’en l’état actuel de nos connaissances il est
devenu difficilement défendable, pour peu qu’on prenne les questions au sérieux,
d’utiliser les notions de race et d’accent sans les questionner, comme si elles se
fondaient sur des évidences ou comme s’il s’agissait de catégories purement
descriptives. En revanche, il est tout à fait possible de continuer à décrire leur
fonctionnement social et de mobiliser à des titres divers leurs dénominations en cours
dans le langage courant. Cela permet notamment de rendre compte des stratégies de
retournement de stigmate dans les constructions identitaires collectives : la négritude, la
fierté noire, la revitalisation d’une culture minorée, la revendication d’authenticité d’un
accent, la mise en avant d’un ancrage local… Pour le moment, au sujet du retournement
de stigmate, le parallèle entre race et accent semble fonctionner surtout pour les accents
régionaux et moins pour les accents sociaux ; en théorie, il est envisageable que les
pauvres, comme tou·tes exclu·e·s, revendiquent leur identité renégociée, mais cela ne
semble pas se produire pour le moment en France.
Un autre parallèle semble possible, au sein de cette stratégie de maintien des
catégories, et il a été trop peu exploré ; il concerne la pratique de visibilisation du
privilège par la dénomination symétrique de la variante socialement favorisée. Ainsi,
dans le domaine du racisme, on parlera de race blanche et non-blanche, pour rendre
visible ce qui est dominant. On s’attachera à inverser le processus de racialisation, pour
mieux pouvoir le dénoncer : en l’occurrence, en racialisant symétriquement les Blancs.
La même pratique de résistance idéologique a été appliquée pour rendre visible
l’hétérosexualité (et l’hétérocentrisme) ou le cis-genderisme : donner un nom à la
coïncidence entre identité de genre construite et celle assignée à la naissance, de
manière à mettre sur le même plan les individus cis-genres et trans-genres. Il peut donc
s’avérer efficace de nommer les accents sociaux prestigieux, et non seulement les
accents sociaux minorés : par conséquent, parler d’accent du pouvoir, d’accent
journalistique, d’accent bourgeois, d’accent septentrional (par symétrie avec l’accent
méridional) et d’accent de centre-ville (par symétrie avec l’accent de banlieue). Cette
pratique de nomination symétrique permettrait de rendre visible la distance critique

55 Le refus des idées de Mendel était si puissant dans certains milieux scientifiques que la principale
revue anglaise de biométrie, Biometrika, a refusé jusqu'en 1937 tout article faisant référence à la génétique.
(Jacquard 1986:44)
162
par rapport à la nomination spontanée usuelle et d’écarter le risque de fossilisation non
questionnée des catégories naïves dans les discours scientifiques.
Pour résumer, à l’issue de ce détour par le parallèle entre la race et l’accent, on
peut défendre l’intérêt d’une approche complexe de l’accent dit « de banlieue » ou « des
quartiers », susceptible de transformer en complémentarité l’apparente contradiction
entre les théories. D’une part, remettre en question son existence ainsi que la
consistance de toute notion d’accent social et aborder la variabilité des pratiques de
prononciation par le biais du style (comme stratégie de distinction sociale, d’adaptation
au contexte ou de construction située de soi) et de l’agentivité. D’autre part, reconnaitre
son existence comme catégorie ad hoc encore opérationnelle en tant que machine à
fabriquer de la discrimination sociale, et éclairer son fonctionnement et les relations
construites avec les catégories symétriques (accent du pouvoir, accent de centre-ville,
accent des beaux quartiers). En miroir parfait par rapport à la formule finale de
Guillaumin (1986 [1981]) au sujet de la persistance des systèmes de « domination
féroce » :

« Non, la race n'existe pas. Si, la race existe. Non certes, elle n'est pas ce qu'on dit qu'elle est,
mais elle est néanmoins la plus tangible, réelle, brutale, des réalités ». (Guillaumin,
1986[1981] :65).

II.2.4 Etude de cas : l’accent dit « de banlieue » à Sciences


Po ?
Depuis 2001 l'IEP56 - Sciences Po Paris a mis en place une convention d’éducation
prioritaire pour diversifier son public en permettant à des lycéens des ZEP57 de
bénéficier d'une procédure d'admission spécifique, fondée sur une pré-sélection interne
dans chaque lycée et sur un entretien oral devant un jury ad hoc à l’IEP. Cette convention
qualifiée parfois de discrimination positive, ou affirmative action à la française, a été
accompagnée par une communication très importante en direction des médias, insistant
sur la démocratisation de l'IEP. Cela a suscité des réactions enthousiastes, la demande
sociale en matière d’ouverture des Grandes Ecoles étant très forte, mais aussi des
réactions outrées car le discours de Sciences Po n’a pas su éviter la démagogie et l’auto-
promotion (on trouvera facilement des exemples dans Delhay 2006).
J'ai participé pendant cinq années, de 2006 à 2011, de manière régulière, aux
modules de préparation à l’oral et à la sélection interne des candidats dans un lycée
classé en ZEP, situé en Seine Saint-Denis ; j'ai ainsi pu accumuler un matériel important
et diversifié sous forme d'enregistrements de nombreux examens blancs, entretiens,
notes de type ethnographique. Une partie a été analysée et à donné lieu à des articles
(doc 33, 11, 12, 13, 15) mais une bonne partie est encore en cours de dépouillement, en
vue de la rédaction d'une étude de plus grande envergure à publier sous forme
d'ouvrage. Je présente ici l’entrée sur le terrain et la construction d’une problématique
au fil du temps, grâce à un va-et-vient permanent entre théories, lecture de la presse et
terrain.
Le matériel que j’ai recueilli incite à ne pas se contenter d’une polémique
superficielle sur les « actions positives » et à s’arrêter plus longuement sur ce que le

56 Institut d’Etudes Politiques


57 Zones d’Education Prioritaires.
163
dispositif de sélection prioritaire révèle sur la place que peuvent espérer occuper les
jeunes des classes populaires, sur les idéaux d’une société plus « décente » (Margalit
2007), sur les dynamiques langagières des échanges entre professeurs et élèves, sur la
manière dont les élèves concernés et leurs professeurs se sont emparés de ce dispositif
lors des préparations à l’oral. Cela permet tout d'abord de construire des
questionnements plus généraux sur les enjeux sociaux liés à la diversité des pratiques de
prononciation mais également de proposer des pistes de réflexion pour la didactique de
l'oral au lycée (cf. doc 13 et mes conférences pour des stages de formation continue des
profs de français).
Bien que la presse se soit concentrée sur des enjeux généraux liés à la méritocratie
supposée des concours ou à la réalité des discriminations, le langage était parfois
évoqué explicitement comme enjeu. J’ai même relevé (sur un blog d’extrême droite dont
les auteurs habitent Lyon) une association directe entre jeunes des quartiers et couleur
de peau non-blanche, capuches et « accent de banlieue », dans une phrase censée faire la
différence entre les « jeunes de couleur-à accent » casseurs en fin de manifestation, et
« jeunes de couleur-à accent » étudiants à Sciences Po :

« Les jeunes casseurs que j’ai pu rencontrer avaient pour la plupart la peau aussi sombre que
leurs capuches , un terrible accent de banlieue , et ils n’étaient visiblement pas étudiants à
Science Po ! » [commentaire posté le 19/10/2010, à la suite du billet intitulé « Coups de
bâtons ? »]
http://www.rouxdebezieux.org/2010/10/coups-de-batons/

Je suis arrivée sur ce terrain d’abord pour participer à une politique éducative anti-
discrimination et voir si la sociophonétique pouvait y contribuer. Ensuite, du point de
vue scientifique, je suis arrivée avec des questions sur la consistance de la notion
d’accent de banlieue, sur sa perceptibilité et les représentations associées chez les
lycéen-nes, sur l’importance des pratiques de prononciation dans la présentation de soi
et sur la réflexion autour de la présentation de soi chez les élèves qui préparaient le
concours à Sciences Po dans un lycée de Seine Saint-Denis (93).
Mon objectif plus général était d'explorer l'accent social en relation avec l'idéologie
du standard unique et du « ne-pas-avoir-d'accent » en français, car sans cette idéologie,
la variabilité des prononciations n'aurait pas d'existence dans les discours et les
pratiques de catégorisations, à l'instar, par exemple, de la variabilité des échelles de
taille des orteils des humains58. Je me suis intéressée dès lors, non seulement à ce qui est
mesurable ou saillant perceptivement dans les prononciations, mais également aux
processus de catégorisation des locuteurs à partir de leurs prononciations, tout en
essayant de tenir compte qu’en situation réelle les catégorisations d’autrui se fondent
sur un faisceau d’indices langagiers discursifs, lexicaux, phonétiques et non-langagiers.
J’avais un grand nombre de questions de départ. Peut-on construire des profils de
locuteurs qui soient pertinents en interaction ? Peut-on les décrire à l'aide de mesures
acoustiques, de seuils, de taux de récurrence de tel ou tel marqueur, de telle sorte qu’on
puisse catégoriser les accents et quantifier leur degré sur une échelle définie à partir de
critères perceptifs ? Ou bien s'agit-il seulement de profils stéréotypiques, pré-construits,
et susceptibles d'être renégociés dans chaque situation d’interaction, qu'elle soit
authentique ou bien de type expérimental ? Quelle place accorder aux ajustements en

58 On parle de pied « grec, celtique, égyptien … » en fonction de la configuration des tailles des
orteils : mais qui s’en sert pour catégoriser les humains ?
164
interaction (Giles, Coupland, et Coupland 1991), aux mouvements (potentiellement
permanents) d'affiliation ou de désaffiliation des locuteurs ? Quel statut accorder aux
stéréotypes si largement partagés sur l’accent « de banlieue », par exemple sa réputation
d’être agressif ou perçu comme agressif ?
Cela étant dit, mon arrivée sur le terrain n’a pas coïncidé avec le début de la récolte
d’enregistrement et le début de mes études du corpus. Loin de là… J’ai eu besoin d’un
certain temps pour m’insérer dans l’équipe pédagogique et comprendre les enjeux du
module de préparation à Sciences Po pour les enseignant·e·s impliqué·e·s et non-
impliqué·e·s ainsi que pour les élèves qui y participaient et j’ai rapidement remarqué la
circulation des discours entre ce qui se disait dans les médias et en général en dehors du
lycée, et ce qui se disait durant les module de préparation. J’ai également remarqué
autre chose, très rapidement : le fait que les pratiques de prononciation des élèves du
module ne présentaient pas – à quelques exceptions près – les traits décrits notamment
par Fagyal et Lehka-Lemarchand comme spécifiques à l’accent dit « de banlieue ». Cela
m’a incitée à m’intéresser au rôle que peuvent avoir les pratiques de prononciation dans
la construction d’une identité de « bon élève » dans un lycée situé en ZEP et en Seine-
Saint-Denis, aux discours épilinguistiques des élèves, à l’agentivité et aux stratégies
éventuelles de distinction, à l’interaction entre les attentes des enseignant·e·s, les
attentes du jury de Sciences Po – exprimées dans différents discours largement diffusés
– et les attentes des élèves… Tout cela passait par une indispensable étude fine du
contexte, par une étude des enjeux émergeant en situation. Ce n’est que dans un
deuxième temps que je pouvais espérer forger des hypothèses sur la capacité de ces
élèves à mobiliser leurs ressources phonétiques parmi d’autres ressources et sur la
perception par autrui des discours et plus particulièrement des pratiques de
prononciation de ces élèves. Il aurait été aisé de sélectionner quelques échantillons de
parole et de se contenter de monter un test de perception auprès d’un groupe aléatoire
de gens, mais cela n’aurait pas tenu compte de la complexité de ce qui se joue dans des
interactions. Je voulais éviter de tester uniquement des hypothèses issues de mes
lectures sur l’accent dit « de banlieue », hypothèses dont il est impossible de retrouver la
source et dans lesquelles il est impossible de déceler la part d’idéologie qu’elles
véhiculent.
Ainsi, avant de pouvoir étudier une notion fragilisée par des critiques sur son
inconsistance (l’« accent de banlieue »), je me suis attachée à comprendre d’abord mon
terrain et ce que ma position sur ce terrain me permettait d’y voir.

Macro-contexte de l’enquête : Sciences Po et les débats sur la diversité

Les discours et les dispositifs visant à faire diminuer les inégalités en France sont
traversés par des courants politiques, philosophiques et militants difficilement
conciliables. Au risque d’en simplifier par trop les termes, on peut tenter de distinguer
les principaux. Le premier place au centre de la réflexion les inégalités économiques et
les déterminismes sociaux, dont dériveraient toutes les inégalités. Ce courant, de
tradition marxiste, produit des critiques virulentes de la notion de « diversité », mais
également des notions de « communauté », de « multiculturalisme » et du paradigme des
discriminations, comme par exemple dans (Michaels 2009), The Trouble with Diversity,
traduit en français en 2009 qui a connu un certain succès dans la mesure où il
rencontrait toute la tradition de critique bourdieusienne (Bourdieu et Wacquant 1998)
sur ces sujets.

165
Un deuxième courant opposé, probablement dominant actuellement, est celui qui
selon Bereni 2009 s’est répandu dans le management et la gestion des entreprises, le
management des grandes écoles (Dardelet, Hervieu-Wane, et Sibieude 2011) et même
dans la publicité selon Kunert et Seurrat 2013. Ce courant étend de manière
consensuelle la notion de diversité à toute sorte de critères - âge, sexe, culture, religion,
origine régionale, handicap etc.- mettant en avant des notions vagues d’ouverture,
richesse, harmonie … d’une manière totalement dépolitisée et occultant les rapports de
pouvoir entre les groupes sociaux. Ce qui est mis en avant ce n’est pas tellement la
justice sociale, mais le fait que la diversité peut augmenter les bénéfices en termes
d’image, en termes d’efficacité, de diversification des compétences, d’ouverture des
élites françaises à l’international, etc. Ce deuxième courant a été diffusé et soutenu
politiquement par N. Sarkozy (2006-2012) et son gouvernement. Un des faits marquants
de ce gouvernement a été de compter en son sein trois femmes ministres dont les
origines immigrées récentes ont systématiquement été mises en avant par elles-mêmes
et par les médias59 : Rachida Dati, ministre de la Justice, Rama Yade, secrétaire d’Etat aux
Affaires étrangères et aux Droits de l’Homme, puis aux Sports, et Fadela Amara,
secrétaire d’Etat chargée de la Politique de la Ville. L’idéologie de la diversité dans cette
version néolibérale vise à accréditer le mythe de l’égalité des chances et de la réussite
individuelle libérée de tout déterminisme social, à travers la mise en valeur de quelques
success stories exceptionnelles ou présentées comme exceptionnelles et largement
réécrites pour les rendre enthousiasmantes. Leur existence permet ensuite,
corolairement, de nier le caractère systémique des discriminations. Ce courant critiqué
en détail pour son conservatisme, sa capacité à miner les bases théoriques des luttes
collectives et à nier les déterminismes sociaux (Eribon 2007; Chollet 2008) n’a cessé
d’alimenter la méfiance de toute une partie de la gauche par rapport à la « diversité ».
Enfin un troisième courant de pensée attesté, tout comme le premier, en sociologie,
philosophie et aussi dans les mouvements sociaux, accorde une place centrale aux
enjeux symboliques, identitaires, à la prise en compte de la construction du vécu et de la
subjectivité, et tente de préserver un contenu politique et subversif de la notion de
« diversité ». Ce dernier courant, se revendiquant souvent de l’influence des post-colonial
studies qui ont émergé au niveau international, rassemble les chercheurs, journalistes ou
activistes qui dénoncent l’ambivalence du modèle républicain d’ « intégration » et les
limites de l’idéologie de l’universalisme à la française. Ce dernier, dénoncé comme un
idéal abstrait contredit par le vécu, devient source d’ethnicisation croissante des
rapports entre individus ce qui nourrit la persistance des « races sociales » et du racisme
(Franchi 2002; Guénif Souilamas 2006; Oberti 2007; Delphy 2008; Boggio Éwanjé-Épée
et Magliani-Belkacem 2012; Tin et Kubiak 2011)… pour n’en citer que quelques uns. En
rupture avec les mouvements syndicaux traditionnels en France et avec les partis de
tradition communiste, on peut inclure dans cette mouvance les Indigènes de la
République, le Conseil Représentatif des Associations Noires de France, les collectifs Les
Mots sont Importants, Féministes pour l’Egalité, MWASI… Ses représentants peuvent
parfois tenir compte à des degrés divers des critiques formulées par ce que j’ai appelé ci-

59 Ce choix n’est pas une obligation pour les ministres : par exemple les origines de Jean-François

Copé, roumaines par son grand père et algériennes par sa mère, ne sont pratiquement jamais thématisées
ni par lui-même, ni par les médias lorsqu’ils analysent ses décisions, sa trajectoire ou ses prises de
position.
166
dessus le premier courant, mais prennent le plus souvent leurs distances avec la gauche
traditionnelle de tradition marxiste et surtout avec l’universalisme ‘à la française’.
Avant la commission de préfiguration d’une Haute Autorité contre les
Discriminations mise en place en 2003 sous la pression des associations politiques60,
avant la Charte de la diversité mise en place au niveau national en 2004 en direction des
entreprises, et bien avant la création du mouvement des Indigènes de la République en
2005, on peut affirmer qu’en 2001, avec son programme volontariste de « diversification
du recrutement social », Sciences Po fait figure de précurseur et, compte tenu de
l’ampleur des débats suscités, également de catalyseur. Pour défendre leur projet, les
concepteurs de la Convention d’Education Prioritaire réussissent à construire une
argumentation qui coupe court aux accusations de « discrimination positive » à
l’américaine, car les élèves éligibles ne doivent satisfaire à aucun critère d’appartenance
ethno-raciale ou même de revenus ; le seul critère à remplir est d’avoir été scolarisés
durant trois ans dans un lycée signataire de la convention. Parallèlement, ils arrivent à
mettre très habilement en avant l’effet de lutte contre l’inégalité économique et de
promotion de la « diversité » à Sciences Po grâce à ce programme, dans la mesure où il
concerne des établissements situés en zone dite « sensible » qui, de fait, accueillent
majoritairement des enfants de familles à faible revenu et bien souvent issus de
l’immigration récente.
Ces thèmes sont au cœur des discours tenus par les concepteurs de la Convention
d’Education Prioritaire à Sciences Po et ils reviennent régulièrement sous la plume des
journalistes, personnalités politiques et chercheurs qui en parlent dans les médias. Ils
représentent des prédiscours (Paveau 2006) dont on trouve, bien évidemment, des
traces fréquentes dans les discussions entre enseignants impliqués dans les lycées
partenaires, ou encore dans les débats avec les élèves concernés.

Le dispositif de sélection prévu par la Convention d’Education Prioritaire

Le concours d’admission prioritaire prévu par Sciences Po a été comparé par


Delhay (2006 :17) au grand oral de l’ENA, car il s’agit d’un entretien oral de 30 à 40
minutes de chaque candidat ou candidate avec un jury composé de 3 à 5 personnes61,
enseignants de Sciences Po et personnalités diverses issues de la presse, des grandes
entreprises, du haut fonctionnariat, de la recherche universitaire, de l’Académie
française… En réalité, ce concours n’a pas d’équivalent en France pour sélectionner des
élèves de 17-18 ans et il serait très réducteur de présenter la filière de sélection
uniquement par son aboutissement, à savoir ce fameux entretien oral à Sciences Po.
Pour comprendre l’ensemble du dispositif il est nécessaire de le présenter dans
son intégralité et dans toute sa complexité.
De fait, la première étape du concours ne concerne pas les élèves mais les
établissements scolaires, car ceux-ci doivent d’abord présenter une candidature pour

60 Celle-ci avait préparé la création de la HALDE (Haute Autorité de Lutte contre les Discriminations

et pour l’Egalité), autorité indépendante de 2005 à 2011 ; depuis 2011 elle a rejoint le domaine de
compétence du Défenseur des droits.
61 La première année les polémiques étaient fortes, les candidatures peu nombreuses et les

membres du jury étaient très connus ; au fur et à mesure que la Convention s’installait, les candidatures
ont été de plus en plus nombreuses, les jurys ont été élargis (et limités à trois membres), et les temps de
passage devant le jury ont été réduits (de 40 minutes à 20 minutes environ).
167
pouvoir signer une convention avec l’Institut d’Etudes Politiques. Pour que
l’établissement scolaire soit éligible, il doit remplir un certain nombre de conditions :
(site IEP 2001). Il ne s’agit pas toujours d’établissement classés en ZEP (Zone
d’Education Prioritaire) car Sciences Po a tenu compte de la diversité des stratégies
régionales en France dans ce domaine ; le but était d’éviter d’exclure des établissements
ayant des profils similaires simplement en raison du non classement ZEP dans leur
académie, et par ailleurs d’assurer le meilleur maillage possible du territoire français,
DOM-TOM y compris. Pour la première année de la convention il y avait seulement sept
lycées partenaires, mais leur nombre n’a cessé de croitre pour dépasser actuellement la
centaine.
Une fois la convention signée, chaque lycée désigne un ou une responsable de la
correspondance avec Sciences Po et de l’animation de l’atelier hebdomadaire, de deux
heures, de préparation au concours. Il est prévu que l’enseignant correspondant
bénéficie d’une décharge horaire pour l’animation de l’atelier de préparation et le suivi
de la logistique administrative (dossiers d’élèves à remplir, à centraliser, à envoyer,
documentation à lire, etc.) mais il arrive souvent que cette décharge ne couvre même
pas les deux heures de l’atelier. En outre, généralement ce n’est pas une seule personne
qui prend en charge le programme mais une petite équipe pluridisciplinaire
d’enseignant·e·s volontaires (sciences économiques et sociales, histoire-géographie,
langues vivantes, français…) et au final leur implication est assez largement bénévole ou
très peu reconnue dans leur service.
Ce n’est qu’après la signature de la convention et après la mise en place de l’équipe
pédagogique que le processus de sélection peut s’enclencher pour les élèves. Du côté de
ces derniers, la première phase éliminatoire dépend de leur accès à l’information sur
l’existence de la convention dans leur lycée et sur la possibilité de s’inscrire à l’atelier de
préparation en début d’année de classe terminale (l’année du baccalauréat). Certains
élèves, minoritaires, dont les familles sont très mobilisées sur la réussite scolaire et qui
en plus connaissent bien le système d’enseignement supérieur français, ont appris, avant
de s’inscrire au lycée, l’existence de la convention et leur choix de l’établissement
scolaire a parfois même été déterminé précisément par cette opportunité. Mais pour la
plupart, le rôle des enseignants est crucial car ce n’est que par eux qu’ils peuvent avoir
accès à ces informations. Ceux-ci ne se contentent pas de diffuser l’information brute
une fois aux élèves de première et une fois au tout début de l’année de terminale, car
cela ne suffirait pas pour susciter véritablement leur intérêt. Les enseignants répètent et
développent avec insistance les informations auprès des élèves qu’ils ont repérés
comme pouvant correspondre au profil recherché par Sciences Po ou pouvant être
intéressés par ce concours. Les témoignages des élèves admis concordent souvent sur ce
point : ceux rapportés par Delhay (2006), par Oberti, Sanselme, et Voisin 2009, comme
ceux que j’ai moi-même recueillis. Nombreux sont ceux qui racontent, avec
reconnaissance, comment un ou une enseignant-e a longtemps essayé de les convaincre
que ce projet pourrait être le leur, à une époque où eux-mêmes et leurs familles
ignoraient tout de l’existence même de Sciences Po, ainsi que de l’existence du système
des « grandes écoles » et des classes préparatoires.
Les élèves qui franchissent cette première étape s’inscrivent à l’atelier
hebdomadaire pour préparer le concours, ce qui impliquera de leur part, bien entendu,
une surcharge de travail en parallèle avec leur préparation du baccalauréat. Durant cet
atelier de préparation, les candidats et candidates suivront quelques cours dits
« d’ouverture au monde » sur la presse et l’histoire contemporaine et vont surtout être
incités à s’intéresser à l’actualité politique, économique et culturelle grâce à des sorties
168
et des séances animées par divers intervenants. Le dispositif de concours prévoit qu’ils
doivent choisir à la fin du premier semestre, individuellement, un sujet qu’ils auront à
approfondir dans un dossier écrit comportant une revue de presse, une synthèse et une
note de réflexion personnelle. Le sujet doit être actuel et avoir été traité dans la presse
française et internationale durant une assez courte période fixée par Sciences Po chaque
année, de manière à éviter les éventuelles reprises d’anciens sujets d’une année sur
l’autre. Chaque élève est libre de choisir son sujet mais les enseignants accompagnateurs
attirent l’attention sur l’importance stratégique, pour la suite du concours, de ce sujet à
approfondir. L’ensemble du dossier rédigé doit être prêt avant la fin du deuxième
trimestre. Bien entendu, pour certain·e·s élèves la tâche s’avère plus lourde que prévu et
l’atelier enregistre assez rapidement un certain nombre d’abandons. A titre d’exemple,
dans le lycée où j’ai mené mes recherches, une trentaine d’élèves (parfois un peu plus,
parfois un peu moins) s’inscrit à l’atelier en début d’année dont 13 à 17 iront jusqu’au
bout du deuxième trimestre, c’est-à-dire jusqu’à la remise du dossier au jury de sélection
interne du lycée.
Celles et ceux qui parviennent à rendre à temps leur dossier seront inscrits à
l’épreuve dite « d’admissibilité », que Sciences Po délègue à chaque établissement. Cette
épreuve consiste en un examen oral d’une quarantaine de minutes devant un jury
composé du proviseur ou de la proviseure ainsi que d’une équipe d’enseignants qui ont
ou n’ont pas eu les candidats dans leurs classes durant leurs trois années de lycée, et
parfois de quelques membres extérieurs. J’ai moi-même participé à tous les jurys
d’admissibilité durant les sept années de mon observation participante. Les élèves
doivent présenter oralement leur dossier, sur le sujet qu’ils ont choisi, durant une
vingtaine de minutes et doivent ensuite répondre à des questions diverses de la part du
jury sur des aspects qu’ils n’ont pas eu le temps ou qu’ils n’ont pas pensé développer
durant leur présentation. L’épreuve est vécue comme étant très difficile, car le cadre est
assez formel, le jury est nombreux et intimidant (de six à douze personnes durant les
séances auxquelles j’ai assisté), le temps de présentation autonome est relativement
long par rapport à leurs habitudes d’exposé. En outre, les questions sont souvent
inattendues et nécessitent une concentration maintenue après l’exposé, si bien que les
élèves sortent généralement épuisé·e·s de la salle où se déroule cette épreuve.
Certain·e·s ont du mal à organiser un exposé d’une vingtaine de minutes et finissent bien
avant, certain·e·s ont très bien préparé et chronométré leur exposé mais ont du mal à
répondre aux questions qui leur demandent d’approfondir leur réflexion et de connecter
leurs connaissances parfois peu articulées entre elles ; d’autres réussissent haut la main.
Les membres du jury d’admissibilité remplissent des fiches sur la prestation de
chaque élève, organisées selon quatre rubriques : 1/ Maîtrise de l’expression orale, 2/
Qualités de discernement et de raisonnement, curiosité intellectuelle, capacité d’écoute, 3/
Maîtrise de l’écrit, 4/ Appréciation d’ensemble. Toutes ces remarques seront synthétisées
sur une seule fiche par le/la responsable du projet Sciences Po du lycée qui sera remise
individuellement à chaque candidat-e, quel que soit son résultat à l’épreuve. Seules les
fiches des élèves déclarés admissibles à l’issue de cette étape seront conservées pour le
dossier qui sera transmis à Sciences Po.
Dès son annonce en 2000, la Convention d’éducation prioritaire a suscité des
réactions enthousiastes, mais aussi critiques voire des réactions outrées. Il est vrai que
l’établissement a toujours bénéficié d’un traitement médiatique hors du commun, que

169
certains, comme A. Garrigou par exemple dans un article du Monde Diplomatique62, ont
mis en relation avec le « système de connivences entre les milieux de l’économie, de la
politique, du journalisme, du sondage et d’autres ». Sciences Po n’a pas négligé de mettre
en place, d’emblée, une cellule de pilotage qui assurait la communication autour de la
convention CEP et servait parfois d’intermédiaire entre la presse et les élèves admis par
cette filière de sélection.
Le responsable de ce projet en 2001 était Cyril Delhay, chargé de mission dès
l’étape de préfiguration par Richard Descoings, le très médiatique directeur de l’époque
de l’IEP Paris. Delhay a joué un rôle important à la fois pour assurer le succès de ce
projet et sa médiatisation, par divers canaux y compris par la publication d’un ouvrage,
quelques années plus tard, Promotion ZEP. Des quartiers à Sciences Po (2006) où il
expose son point de vue sur la genèse et les débuts de la convention d’éducation
prioritaire et brosse le portrait de quelques élèves admis. Cet ouvrage est intéressant
dans la mesure où il consigne les difficultés et les étapes de l’ouverture de cette nouvelle
filière de sélection. Mais, compte tenu du statut de son auteur au cœur du dispositif, il est
surtout intéressant parce qu’il nous renseigne sur l’idéologie sous-jacente de ce
programme de manière plus riche que le site officiel de Sciences Po ou les interviews
accordées à la presse. Par exemple, le début de son ouvrage pose d’emblée la thèse
défendue, étayée par un remarquable bilan d’étape en termes de chiffres : selon Delhay,
Sciences Po a accompli une véritable révolution en agissant à contre-courant, dans un
contexte farouchement hostile. Sa réussite au bout de six années mérite un
retentissement national. Voici le début de l’avant-propos :

L’ascenseur social marche. Je l’ai vu fonctionner. Entre plusieurs dizaines de lycées des
quartiers défavorisés ou des campagnes isolées et Sciences Po. Deux-cents soixante-quatre
élèves admis en six ans dans le prestigieux Institut d’études politiques de Paris, dans le cadre
des Conventions d’éducation prioritaire (CEP). Eté 2006. Les premiers diplômés. Les premiers
contrats d’embauche signés. […]
Il a fallu quelques petits riens pour que Sciences Po imagine ce que personne n’avait osé
penser. Je raconte l’histoire de ces petits riens qui ont tout bouleversé. […]
J’ai eu la chance d’être chargé dans un même temps, par Richard Descoings, directeur de
Sciences Po, d’une mission de dynamitage des remparts socioculturels. […] une action
modeste par le nombre d’individus qu’elle touche mais explosive par nature. (Delhay : 2006)

Delhay raconte dans son ouvrage les prémisses de la Convention, les réticences
qu’elle a rencontrées au début au sein du corps enseignant dans les lycées, au sein des
grandes écoles, parmi certaines personnalités politiques et parmi les syndicats
étudiants ; le plus farouchement opposé ayant été au final l’UNI, syndicat situé très à
droite, qui allait continuer à faire campagne contre cette convention à l’intérieur de
Sciences Po même après l’admission de la première promotion d’élèves. Il raconte
également les détails du lancement du projet ayant nécessité un vote au parlement pour
ratifier les changements des modalités du concours, sa réception dans la presse. La
seconde partie de son ouvrage se fait l’écho de longs et nombreux témoignages d’élèves

62 Une petite trentaine d’articles sont parus en 2001 dans la presse écrite archivée dans la base de

données Factiva. Selon le décompte de Garrigou publié dans un article du Monde Diplomatique en
novembre 2006, « en juillet 2006, plus de deux cents articles avaient été publiés dans la presse écrite, dont
cinquante-trois dans Le Monde, quarante-neuf dans Le Figaro, quarante-trois dans Les Echos, trente-cinq
dans Libération, seize dans Le Point, treize dans L’Express. »
170
admis, pour lesquels il est impossible de savoir s’il s’agit de transcriptions d’entretiens
ou de réécritures fondées sur les notes ou les souvenirs de Delhay, de manière à ce que
les lecteurs puissent mesurer aisément le caractère hors du commun des trajectoires de
ces élèves. En revanche, il ne s’attarde pas de manière explicite sur les objectifs du
projet, sur ses postulats, ou sur les retombées espérées. Lorsqu’il parle, dès son avant-
propos, de « ce que personne n’avait osé penser » et de « dynamitage des remparts
socioculturels » (p.12), la référence reste allusive et sujette à diverses interprétations.
Difficile de savoir s’il s’agit simplement du fait que des élèves de milieux populaires
puissent accéder à une école publique d’élite, et si le simple fait d’en amener quelques
uns suffit pour dynamiter les remparts socioculturels. Ou bien s’il s’agit du fait de montrer
qu’en court-circuitant le processus de sélection intrinsèquement discriminatoire, les
élèves ainsi admis réussissent comme les autres ; ou encore du fait que la réussite d’un
tel dispositif puisse être interprétée comme une petite démonstration pratique et
concrète du caractère fictif de la méritocratie républicaine…
L’IEP a mis en avant, dès son premier communiqué de presse sur la Convention
CEP, qu’il entendait lever, pour les élèves qui allaient être admis, quatre types
d’obstacles qui les empêcheraient d’accéder autrement à l’enseignement d’élite : le
contenu du concours, construit pour les élèves venant d’un environnement
« socioculturel ou socioprofessionnel initié », le manque d’information sur ces filières,
l’auto-censure et les difficultés à financer des études longues. Rien n’est dit sur les
bénéfices visés pour la masse des lycéens des zones sensibles, qui ne seraient pas
concernés par cette sélection. Delhay (2006) évoque clairement ce sujet dès les
premières phrases de son avant-propos (« En quoi cette expérience réussie pourrait-elle
être utile à d’autres ? Cette question, tous ceux qui ont participé à l’incroyable aventure de
cette réforme se la sont posée. ») mais se garde bien d’avancer, au final, la moindre
hypothèse concrète allant dans ce sens, se contentant simplement de citer quelques
suggestions formulées par des élèves admis par la CEP. Cela reste entièrement à
explorer, et intéresse en fait au plus haut point les enseignant·e·s impliqué·e·s dans cette
convention.
Une dernière question, cruciale, fait l’objet de très peu de lignes dans les
communiqués de Sciences Po : pourquoi avoir retenu l’entretien oral comme épreuve
finale de sélection, et quels doivent être les critères permettant de départager les
candidats ? Delhay (2006) donne un peu plus de détails, sans pour autant être très
explicite et sans développer le sujet. Le choix de l’oral semble lié d’une part à la faiblesse
des compétences écrites censée caractériser les élèves des milieux populaires et d’autre
part au souhait de Sciences Po de repérer des personnalités plutôt « atypiques » (op.cit :
pp. 22,36) et « à haut potentiel » (idem :36) plutôt que de valider l’accumulation d’un
savoir scolaire.
Delhay insiste à différentes reprises sur leur ignorance, sur leur manque de culture
générale et de savoir abstrait, quitte à grossir parfois un peu le trait lorsqu’il évoque la
désinvolture des lycéens confrontés aux membres du jury de l’oral de Sciences Po
(« Pouvaient-ils connaître l’académicien qui présidait la commission ? Savaient-ils même
ce qu’était un académicien ? » idem :19) pour nous expliquer quelques dizaines de pages
plus loin, au détour d’un paragraphe, (idem :110,117), que les élèves recevaient avant
d’entrer à l’oral un document avec le parcours des membres de leur jury et qu’ils en
étaient très fortement impressionnés. Par ailleurs, comme dans les communiqués
officiels de Sciences Po, on retrouve à plusieurs reprises le mot « potentiel » pour
caractériser les lycéens des ZEP, censés être particulièrement « débrouillards et

171
créatifs », qualités qu’ils sont capables de montrer davantage à l’oral qu’à l’écrit, trop
empreint de normes académiques.
Quant aux critères de sélection, Delhay qualifie les jurys de « jardinier des
talents »63 (idem :24) et indique que

L’enjeu est d’apprécier les qualités intellectuelles du candidat, sa curiosité d’esprit, sa


capacité de réflexion. Le jury pose des questions de société et d’actualité mais attend moins
de l’érudition qu’une capacité d’écoute, de l’intelligence et de l’engagement. (idem :17).

Ces critères de sélection semblent au final délibérément subjectifs. L’absence de


tout programme préalablement défini ainsi que le peu de poids accordé officiellement à
la culture générale rendent les exigences du concours assez floues pour les lycéen-nes
comme pour les enseignant·e·s qui les accompagnent, ce qui peut provoquer beaucoup
de frustration selon les auteurs d’une enquête sociologique sur ce sujet (Oberti,
Sanselme, Voisin : 2009). La conclusion de cette enquête met en lumière un effet
douloureux et paradoxal sur les lycéens impliqués dans ce type de programme qui se
présente explicitement comme un mécanisme de réparation des inégalités
socioculturelles, car en sapant la « croyance nécessaire » dans la méritocratie ce
programme « leur révèle que le jeu est encore plus truqué qu’ils ne l’imaginaient »
(op.cit. :124).
L’organisation et la préparation de l’épreuve orale incitent les trois auteurs de
l’enquête à rapprocher cette sélection du casting plus que du concours. Elles se
rapprochent également davantage du test de personnalité que de l’examen académique.
Par ailleurs, les traits attendus chez ces élèves (naïveté et ignorance, mais ouverture
d’esprit, curiosité, débrouillardise, créativité, intelligence brute, talent brut) rappellent
de manière troublante l’imaginaire que suscitent, selon Terrail 2009 les élèves de
l’immigration récente qui combinent les traits du sauvage et de l’enfant.
Il faut tout de même admettre que ce concours est pour le moment singulier par
rapport à toutes les autres procédures de sélection pour l’accès à une filière
d’enseignement supérieur en France, ce qui explique son ambivalence dérangeante pour
beaucoup, et la difficulté de penser comment l’expérience pourrait être étendue et en
quoi elle pourrait profiter aux nombreux lycéens des zones sensibles en France.

Micro-contexte: terrain et méthode de recueil des données

Le lycée classé en ZEP où j’ai mené mon étude de terrain se situe dans la périphérie
populaire de la région parisienne. C’est un grand lycée général et technologique,
accueillant plus de 1800 élèves, qui a signé la convention CEP avec Sciences Po dès 2002.
Mon observation s’est déroulée à partir du printemps 2006 et jusqu’à l’été 2013, ce qui
m’a permis de rencontrer une dizaine d’enseignants et enseignantes de différentes
matières impliqué·e·s à tour de rôle dans l’encadrement du module de préparation au

63 Dans le même sens, Hakim Hallouch, le responsable de la convention, déclare à l’AFP en juillet 2012 :
«Il n'y a pas d'objectif chiffré car on ne veut pas entrer dans une logique de quota. Nous sommes dans une
logique de recruteurs, comme une entreprise qui chercherait à attirer les meilleurs talents». Il était interrogé sur
le nombre de candidats retenus chaque année.

172
concours, certain·e·s pendant trois ou quatre ans, d’autres pendant toute la période.
Entre 2006 et 2013, une centaine d’élèves ont passé l’épreuve d’admissibilité organisée
annuellement à la fin du deuxième trimestre. Parmi eux, 59 ont été déclarés admissibles
pour la poursuite du concours et 27 ont été admis au final à Sciences Po durant cette
période.
Mon accès dans cet établissement a été facilité par les contacts personnels que
j’avais eus auparavant avec deux enseignants, lors de débats, réunions ou formations en
relation avec les activités d’associations politiques contre les discriminations et les
inégalités. Animant moi-même parfois des débats dans le domaine de l’éducation civique
dans des établissements scolaires de la région parisienne, j’étais confrontée de près,
avant 2005, à l’expression du sentiment d’exclusion par les lycéens et lycéennes des
zones dites « sensibles », plus exactement des zones où les familles pauvres issues de
l’immigration post-coloniale sont majoritaires. Les violentes émeutes de la fin 2005
(voir par exemple Mauger 2006 qui analyse ces phénomènes urbains comme des
révoltes proto-politiques) ont contribué à ma décision d’approfondir mes connaissances
sur ce terrain et de m’y investir davantage, en tant que chercheuse et non plus en tant
que militante. C’est en tant qu’enseignante-chercheuse que j’ai obtenu l’autorisation du
proviseur pour participer à l’encadrement du module de préparation à Sciences Po, et
c’est avec cette identité que j’ai été présentée aux collègues enseignant·e·s que je ne
connaissais pas ainsi qu’aux élèves. Comme j’avais fait le choix de la méthode de
l’observation participante comme mode d’entrée sur le terrain j’ai donc participé
réellement aux différentes tâches d’accompagnement des élèves. J’ai souvent rempli les
mêmes tâches que d’autres collègues du lycée qui intervenaient plus ou moins
régulièrement, de manière complémentaire par rapport aux deux enseignants « pivots »
qui étaient, quant à eux, présents toutes les semaines. Ainsi, durant les deux premières
années de mes recherches sur ce terrain, j’ai assisté régulièrement aux séances assurées
par d’autres collègues durant le premier trimestre et j’en ai moi-même assuré une
consacrée à la sociophonétique et à l’accent social en français [doc 13]. J’ai ensuite
participé à l’accompagnement personnalisé des élèves qui préparaient leur dossier de
presse durant le deuxième trimestre, aux jurys des épreuves d’admissibilité et enfin à
l’accompagnement personnalisé, aux débats, oraux blancs, autoscopies64, présentations
de soi, et autres exercices d’entrainement organisés durant les séances du dernier
trimestre pour les élèves déclarés admissibles, et également à quelques sorties
culturelles. Progressivement et assez rapidement, l’approche ethnographique de mon
terrain a pris plus d’importance et j’ai commencé à passer plus de temps avec certain·e·s
collègues enseignant·e·s : trajets communs en bus, discussions autour d’un café, parfois
d’un repas, échanges de courriers électroniques sur divers sujets, visites aux domiciles
des uns et des autres etc.
C’est mon identité d’enseignante qui a surtout été mobilisée dans mes interactions
au fil du temps. Ma pratique partagée des codes de sociabilité des enseignants ainsi que
mes routines interactionnelles acquises durant l’exercice de mon métier ont été pour
moi des ressources précieuses qui ont facilité l’entrée dans l’équipe et m’ont permis
d’être reconnue comme telle par les élèves. Certes, le fait que je ne donne pas d’autres
cours dans le lycée et que je ne sois pas amenée à noter par ailleurs les élèves, que je ne

64 Exercice pratiqué par Sciences Po et fortement suggéré aux équipes qui encadrent les modules de

préparation ; il consiste à réaliser un enregistrement vidéo d’une réponse orale d’un élève et à analyser
ensuite avec lui/elle le film. L’autoscopie peut être réalisée individuellement ou en petit groupe.
173
sois pas au courant de toute l’actualité du lycée ou que je n’y sois pas joignable un autre
jour de la semaine, en dehors du module, faisait que j’ai toujours conservé une position
perçue comme quelque peu extérieure ; mais la complicité croissante due à la richesse
de mes échanges avec les autres collègues a rapidement fait diminuer cette distance,
pour le moins aux yeux des élèves.
Après les deux premières années de mon terrain, (2006-2008) j’ai participé de
manière beaucoup plus sporadique aux séances des deux premiers trimestres, tout en
assurant chaque année une séance de sensibilisation à la sociophonétique et en
participant aux jurys d’admissibilité ; en revanche, je n’ai pas cessé de prendre part très
activement aux séances du troisième trimestre réservées aux six à huit élèves déclarés
admissibles, jusqu’en 2013.
Le matériel qui me servira de corpus actif pour cette étude est constitué d’un grand
nombre d’enregistrements (audio ou vidéo) des élèves admissibles lors des séances
d’entrainement à des exercices oraux divers, ainsi que d’entretiens avec quelques-un·e·s
de ces élèves et avec les enseignant·e·s les plus impliqué·e·s, enregistré·e·s durant ma
deuxième année de recherche. A ce corpus d’enregistrements s’ajoutent quelques
dizaines de questionnaires par écrit sur les représentations des élèves concernant leurs
pratiques langagières, distribués en début d’année auprès des quatre premières
promotions du module, un corpus de courriers électroniques d’information envoyés par
l’enseignant référent au sujet de ce concours interne du lycée, ainsi que mon propre
journal de bord contenant mes notes prises au retour de chaque déplacement sur ce
terrain, et mes annotations sur les prononciations des élèves, fondées sur mon écoute et
prises en temps réel durant les épreuves d’admissibilité.
Mais l’analyse de ce matériel serait très drastiquement appauvrie si elle ne prenait
pas en compte ma connaissance du contexte nourrie précisément par toutes les séances
que je n’ai pas pu enregistrer65, par mes échanges informels notamment avec les
collègues enseignant·e·s, parfois avec les élèves, mais aussi par les articles qui
paraissaient dans la presse ou par les émissions sur Sciences Po et qui alimentaient nos
débats.
Du fait de ma position sur ce terrain, les discours que j’ai pu recueillir et l’éclairage
que je peux en donner sont directement configurés et co-construits par ma posture
d’enseignante. J’aurais très certainement recueilli des discours différents, en grande
partie, si j’avais mené cette enquête lorsque j’étais étudiante. C’est donc le point de vue
des enseignants qui m’a servi de guide dans cette recherche, c’est ce point de vue que je
tente d’approfondir, de comprendre, d’analyser, et c’est ce point de vue que je prends
comme repère lorsque j’effectue le nécessaire travail de distanciation pour mes
analyses. Les discours des élèves auxquels j’ai eu accès sont des discours adressés aux
enseignants, que ce soit leurs propres enseignants, dont moi-même, ou bien ceux de
Sciences Po, tels qu’ils se les imaginent lors des séances d’entrainement à l’oral. Je n’ai
pas eu accès aux discours des élèves adressés à leurs pairs, ni aux discours de leurs
familles. Ces volets, qui seraient intéressants pour une enquête sociologique, ne sont
donc pas présents dans mon enquête. Je focalise mon attention sur les pratiques
langagières des lycéens au sein de l’institution : ils sont donc en interaction avec
l’institution qui a comme mission de les former, y compris en matière de compétences
langagières, et qui a également le pouvoir de les évaluer et sanctionner.

65 A commencer par les épreuves éliminatoires d’admissibilité qui ne pouvaient pas être
enregistrées pour des raisons évidentes de confidentialité et de risque de contestations des résultats.
174
Pratiques de prononciation, pratiques discursives et construction
identitaire des élèves

A partir du moment où on remarque que les pratiques de prononciation des élèves


admissibles et admis sont le plus souvent assez éloignées ou fort éloignées de ce qui est
décrit comme « accent de banlieue » et que par ailleurs ces élèves sont confrontés
quotidiennement, dans leurs classes, à d’autres élèves qui en sont bien plus proches, les
questions qui se posent sont :
- Quelles sont les attitudes de ces élèves candidats et candidates par rapport
à ce qu’on peut appeler l’‘accent de banlieue’ ou plus exactement par
rapport à son spectre qui s’impose à eux ?
- Comment peut-on décrire leurs pratiques de prononciation en lien avec
leurs discours politiques émergents et leur trajectoire de construction
identitaire ?
- Comment sont perçues leurs pratiques de prononciation par autrui ?
- Y a-t-il un lien entre ce qu’on peut observer de leurs prises de position
idéologiques, leurs pratiques langagières en situation d’examen oral (blanc)
et leur réussite au concours ?
- Qui sont ces élèves, au final ?

Pour répondre, nous avons constamment besoin de croiser les observations ;


observer la prononciation de façon détachée de tous les autres niveaux d’analyse
linguistique n’aurait pas beaucoup d’intérêt.
Quiconque s’est intéressé au concours « ZEP » de Sciences Po, dont des
journalistes, s’est demandé à qui profitait ce « Sciences Po pour tous », quel était le profil
des élèves recrutés par cette voie et qui étaient les recalés.
La question cachait parfois le soupçon plus ou moins clairement formulé que
finalement les élèves recruté·e·s n’étaient pas si défavorisé·e·s que cela, qu’ils et elles ne
venaient pas des milieux populaires mais des rares familles de classe moyenne qui
scolarisent leurs enfants en ZEP, ou même qui auraient scolarisé leurs enfants dans un
établissement conventionné précisément pour profiter de cette aubaine. Face à ce
soupçon, de notoriété publique, Sciences Po a toujours mis en avant les deux dimensions
objectives qui caractérisent les élèves admis par la Convention CEP et qui permettent de
répondre à la méfiance et aux critiques : le revenu bas des familles et l’origine immigrée
récente. Par exemple, dans l’encadré avec les chiffres-clés du bilan de la CEP publié par
Sciences Po en 2009 et diffusé sur son site, on peut lire que « chaque année, entre 50 et
70% des admis sont des enfants de chômeurs, d’ouvriers ou d’employés, les 3/4 sont
boursiers » et que « les 2/3 des admis ont au moins un parent né hors de France ». Rien
n’est dit pour caractériser le tiers des admis dont les deux parents sont nés en France ou
sur les 30 à 50% des admis qui ne sont ni enfants de chômeurs, ni d’ouvriers ni
d’employés. Rien également sur la répartition sexuelle des élèves admis : les filles y sont
toujours largement majoritaires. Le fait de thématiser uniquement la présence d’élèves
de familles financièrement défavorisées et issues de l’immigration récente correspond à
la ligne de communication choisie par Sciences Po pour ce programme ; cela n’est
certainement pas sans influence ni sur les élèves qui postulent, et qui choisissent de
mettre en avant ces dimensions pour se présenter, ni sur les jurys qui opèrent la
sélection.

175
Cela dit, Delhay (2006) explicite dans son livre le fait que 15 à 20% des élèves
admis sont des « bourgeois de la ZEP », des enfants de « classes moyennes plus ou moins
aisées qui ont résisté à l’évitement de la carte scolaire » (op.cit. : 163) et s’en félicite car
selon lui ces élèves sont « le chainon manquant » qui assure « un lien indispensable, et
aussi rare que précieux, dans la société française cloisonnée » (idem).
Il s’avère, au-delà des macro-catégories statistiques préétablies par les
sociologues, que les profils, les aspirations et les trajectoires des élèves, admissibles ou
admis, sont d’une extrême diversité, comme j’ai pu les constater à travers mes
observations réunies. Tous et toutes effectuent, à l’aide des enseignant·e·s qui co-
construisent une véritable complicité, un parcours idéologique et discursif pour se
rapprocher de ce qu’ils/elles pensent être les attentes de Sciences Po. Les discours qui
participent de ce parcours me semblent intéressants à analyser de près, entre autres
parce qu’ils permettent d’appréhender les chemins de la réussite rendus possibles par
ce dispositif de sélection.
Il va de soi que tous ne partent pas du même niveau d’adéquation avec les attentes
du concours, au demeurant bien difficiles à cerner. Mais tous se confrontent avec le
même environnement au lycée et le même discours général ambiant, ce qui les oblige à
se construire des identités complexes. D’un côté leurs pairs du lycée les rejettent en
général, les appellent « les bouffons » et de l’autre côté les adultes extérieurs à la
banlieue les assimilent aux stéréotypes négatifs attachés aux « jeunes des cités » :
turbulents, ignorants, agressifs, peu subtiles… Ces élèves s’attendent donc à un rejet de
la part de leurs futurs pairs de Sciences Po : dans les entretiens, ils redoutent, en cas
d’admission, l’hostilité de leurs futurs collègues et le décalage culturel et financier.
Leurs craintes ne sont pas totalement injustifiées, car malgré une intégration
globalement réussie, la première promotion CEP de Sciences Po racontait, dans des
témoignages lors d’un bilan public organisé en janvier 2009, que les autres élèves les
avaient tout de suite surnommés les « zépreux », mot valise entre « ZEP » et
« lépreux »66. Ce mot est intéressant dans la mesure où il sanctionne clairement l’identité
hybride, improbable (élève de ZEP qui n’est pas à sa place dans une grande école),
rejetée par la majorité ; il permet aussi de pointer l’absence de mot ou de syntagme qui
puisse désigner de façon collective et positive ce groupe67.

Une partie de mes analyses a donné lieu à quelques publications sur ce sujet :
[doc 11] Sortir de ‘son’ territoire en périphérie parisienne : un mouvement
géographique, langagier et idéologique,
Je montre, à travers quelques exemples d’élèves admis, comment les candidats et
candidates qui réussissent le concours sont amenés à former tout d’abord un projet de
sortie du territoire (du lycée de périphérie vers la grande école parisienne) et une
ambition sociale. Ceci les incite à mettre en conformité leur idéologie et leurs ressources
langagières avec ce projet. Le jury de Sciences Po arrive à un moment du parcours déjà
bien lancé pour valider ce mouvement langagier et discursif, en décidant d’accorder (ou
non) l’admission dans un nouveau territoire géographique et social.

66 Troublante coïncidence avec le mot lepers (lépreux) créé en Californie pour désigner des élèves

chicanos orientés dans la filière LEP (Limited English proficiency) et rapporté par Mendoza-Denton 2008,
p.33.
67 D’ailleurs ce « groupe » ne revendique pas automatiquement une identité collective ; dans les

témoignages spontanés que j’ai notés, Leïla, une élève diplômée de Science Po m’a dit qu’elle ne précisait
jamais sur ses CV qu’elle avait été sélectionnée grâce à la CEP.
176
[doc 15] Structures de rectifications en dialogue (interactions profs-élèves),
L'article se propose d'analyser en détail un dialogue professeurs - élèves dans un
contexte d'entrainement aux épreuves orales (oral blanc filmé pour être analysé avec les
élèves). Les interlocuteurs sont d'un côté les candidat·e·s, qui s'entrainent à mener un
débat sur des sujets politiques, et de l'autre côté leurs enseignant·e·s qui jouent le rôle
du jury de Sciences Po tel qu'ils se l'imaginent. L’analyse met en évidence les
mécanismes de la rectification négociée dans un dialogue et la construction
dissymétrique d'un consensus. L’extrait qui sert d'exemple et porte sur la définition du
mot "racisme" ; la négociation s’avère particulièrement longue et complexe, et implique
plusieurs enseignant·e·s et plusieurs élèves. La rectification initiale est demandée par un
enseignant, qui n’admet pas que le racisme puisse accepter une gradation (« un peu
raciste » / « vraiment raciste ») et que sa définition donnée par les élèves rejette tout
besoin de faire appel au concept de race ; la définition des enseignant·e·s finit par être
imposée autoritairement, malgré la forme dialogale de l’interaction, par un forçage du
consensus, conjoncturel et fragile.

[doc 33] Se construire comme candidat à une Grande Ecole quand on vit en banlieue
populaire parisienne et [doc 12] Emergence du discours politique des jeunes lycéens dans
et par le dispositif de la convention « éducation prioritaire » de l’IEP
Ces deux articles se focalisent sur le processus de construction du positionnement
idéologique des élèves qui préparent leur candidature à l’IEP dans le lycée où
j’interviens. Je mets en avant l’intérêt d’étudier à la fois les discours individuels, situés,
mais aussi la manière dont la "Convention Education Prioritaire" configure les pratiques
discursives des élèves et des enseignant·e·s.
Plusieurs extraits d’interactions profs-élèves enregistrées sont analysés de près,
notamment en mettant en regard deux élèves, Ali et André, aux trajectoires différentes
et aux positionnements identitaires différents. Dans le cas d’Ali, perçu comme un jeune
d’origine maghrébine, l’analyse met en évidence le processus de racisation discursive de
l’élève candidat68, qui amène celui-ci à se conformer à une assignation identitaire
restreignant fortement sa puissance d’agir. La conclusion insiste sur l’apport central de
l’ethnographie à la compréhension des tensions sociales et questionne la performativité
des discours involontairement identitaires des enseignant·e·s impliqué·e·s dans des
dispositifs de politique anti-discriminations.
Les observations conduisent par ailleurs à questionner l'action concrète d'un
dispositif politique pour l'égalité tel que la Convention Education Prioritaire.

[doc 13] Une expérience de didactisation de la sociophonétique centrée sur de


« bons » élèves d’un lycée classé ZEP,
Cet article prend comme corpus principal les retours que j’ai obtenus après la
séance assurée chaque année sur ce que l'on appelle "avoir un accent" en français,
notamment à travers une série d'entretiens semi-dirigés avec des élèves admissibles ou
admis. Les parties d'entretien analysées ici concernent le souvenir que ces élèves ont
gardé du cours magistral sur l'accent, les avis qu'ils-elles expriment sur leurs pratiques
pluristyles et celles de leurs collègues ainsi que leurs avis - très divers - sur la position et
les pratiques didactiques que devrait adopter l'école face à ce qui est souvent désigné

68 Exemple développé à la fin de la partie II.1.2 sur la palatalisation.


177
comme français de banlieue ou langue des cités. Cette étude a par ailleurs l’ambition de
nourrir la réflexion sur la difficulté de didactiser certains apports de la sociolinguistique
sans sacrifier les nuances et sans éluder les demandes sociales.

Pistes sur les représentations de l’accent de banlieue

Le point de départ de cette étude est constitué par une observation générale : les
candidats et candidates à ce concours adoptent des pratiques de prononciation en
français qui ne correspondent pratiquement jamais à ce qui est décrit dans la littérature
comme l’ « accent de banlieue ». Outre la déconstruction plus générale de la notion
d’accent territorial, il est intéressant de mettre en lien, en détail, les pratiques de
prononciation des élèves (admissibles et admis) avec leurs discours. Durant mes années
sur ce terrain j’ai eu l’occasion de recueillir des discours de présentation de soi qui
peuvent apporter une compréhension générale des « personae » que ces élèves se
construisent, avec plus ou moins de cohérence par rapport à leurs pratiques
observables ; parfois, surtout au début, j’ai également sollicité directement des discours
sur les pratiques langagières des élèves du lycée, en général. Ces entretiens ont mis en
lumière des positionnements politiques différents, notamment par rapport à ce spectre
de l’ « accent de banlieue » ou du « parler banlieue », ou plus généralement de la figure
médiatique repoussoir du « jeune-de-banlieue » que ces élèves ne peuvent pas se
permettre d’ignorer.
En fonction de leurs trajectoires et de leurs ambitions, les élèves construisent
parfois des discours de rejet de cette figure repoussoir, parfois des discours ambivalents
– oscillant entre le devoir de solidarité et la volonté de sortir du lot – et parfois des
discours nettement solidaires, prônant le caractère performatif, fluide et ludique des
pratiques qui sont généralement perçues comme stigmatisantes. [analyse en cours,
publication en préparation]. Ces observations me conduisent à remettre en question la
catégorisation d’un certain nombre de pratiques de prononciation en tant que « accent »
dit de banlieue et à privilégier une catégorisation en tant que style indexant un certain
rapport à l’école et aux contre-cultures locales..
En complément, afin d'étayer mes hypothèses sur les perceptions socialement
partagées des prononciations, j'ai mené des tests de perception des échantillons de
parole des élèves-candidats, auprès de groupes d'étudiant·e·s en master de lettres et de
leur entourage proche. Les résultats sont exposés et comparés à d'autres tests de
perception, autour d'échantillons de parole produits par des journalistes ou autres
locuteurs reconnus comme légitimes [doc 06].

Pistes sur la différenciation par les pratiques langagières

La comparaison entre les admissibles (déclarés admissibles par le jury interne de


ce lycée) et les admis (élèves finalement admis par Sciences Po) montre que le jury
interne du lycée pourrait être moins sensible aux rares particularités stylistiques de
prononciation interprétables comme des marques d’affiliation à la culture des rues des
quartiers populaires.
En effet, à une seule exception près, les admissibles qui adoptaient l’affrication
forte et l’allongement de l’avant-dernière syllabe, en particulier, n’ont pas été admis. Il
en est de même pour un lycéen admissible sénégalais, arrivé en France au début de sa
scolarisation en lycée et pratiquant une prononciation marquée par des traits perçus
comme étrangers (notamment une tendance à la fusion /z-Ʒ/. Cette hypothèse pose un
178
certain nombre de questions sur la marge de manœuvre des candidats et candidates, et
sur les stratégies que pourrait adopter le corps enseignant sur ce sujet qui est
généralement un point aveugle durant toute la scolarité.

Synthèse : vers la construction d’un champ d’études inter-


disciplinaire autour des pratiques de prononciation
Les recherches que je mène et celles que j'envisage de diriger se situent dans le
domaine de l'analyse de la variabilité des pratiques de prononciation, principalement en
français.
Les objets de recherche sont toujours à construire, ils ne sont jamais donnés de
manière évidente ; à ce sujet, mon ambition est de contribuer à multiplier les passerelles
entre les études sur la production et celles sur la perception, portant sur un même objet
de recherche, de manière à éviter le risque d'une trop profonde dissociation des deux
versants de l'analyse de la parole. En l’occurrence, il me semble que la tentation est
parfois grande d’accorder une attention démesurée aux mécanismes de production de la
parole en négligeant le fait que celle-ci est toujours adressée, alors que la tentation
inverse me semble moins probable et moins attestée, à savoir étudier uniquement la
perception d’une pratique isolée de prononciation ou d’une personne à travers ses
pratiques de prononciation sans tenir compte des mécanismes de production de la
parole.
La tradition de recherche en phonétique a produit un immense corpus de
connaissances sur les caractéristiques acoustiques qui servent à différencier les sons
isolés dans une langue ou une « variété » de langue, sur leur évolution dans l'histoire,
sur les contraintes articulatoires (typiques ou pathologiques) qui influencent les sons
lorsque nous les produisons les uns après les autres, dans la rapidité de l'activité de
parole, sur le rôle syntaxique et lexical de la prosodie, sur la capacité du cerveau à
reconstruire des sons dans le bruit ambiant, sur le crible phonologique lorsqu'on
apprend une nouvelle langue… Ces savoirs ont été enrichis par les apports plus récents
de la psycholinguistique, de la sociolinguistique et de la linguistique de corpus, mais ce
processus d'enrichissement et élargissement est loin d'être arrivé à son terme. Les
savoirs phonétiques disponibles, et parfois considérés encore comme des références,
sont rarement situés. Pour des raisons parfois techniques, parfois idéologiques, ils ont
pu être constitués à partir d'une seule personne ou d'un très petit échantillon de
personnes dont on ne connait ni le profil ni les compétences communicationnelles, à
partir d'enregistrements en laboratoire d'une parole produite pour les exigences de la
recherche et obéissant à des critères scolaires stricts. Les exemples analysés par Arnold
2016 sont très pertinents à ce sujet : ils montrent le poids de l'idéologie différentialiste
sur la construction des savoirs phonétiques sur les voix genrées, le poids de
l’androcentrisme des chercheur.es lorsque les humains mâles sont présentés comme
référence pour les corps humains, ou lorsque les pratiques phonatoires des mâles sont
présentées comme des références humaines ou comme des références dont les humains
femelles s’écartent ou s’approchent, ou encore le poids de l’ethnocentrisme des
chercheur.es lorsque des mesures anthropologiques réalisées sur un petit échantillon
d’individus européens et blancs sont censées s'appliquer à toute l'espèce humaine, etc. Il
nous reste donc un grand chantier qui est à peine ouvert, en phonétique : situer les
savoirs déjà construits, mettre au point des méthodes d'enquêtes plus sophistiquées
capables de mieux prendre en compte la variabilité des pratiques de prononciation,

179
développer le domaine de la sociophonétique, ouvrir les sciences phonétiques non
seulement aux apports des progrès techniques – comme cela a toujours été fait – mais
également aux apports théoriques des autres sciences humaines, car cette jonction ne
s’est pas faite véritablement pour le moment.
Les pratiques de prononciation et les enjeux sociaux qui y sont liés peuvent
constituer un objet d'études pour différentes sciences humaines, en dehors de la
(socio)phonétique : la sociologie, les sciences de l'éducation, de la communication, les
sciences politiques, l’anthropologie. Il me semble que le moment est venu de multiplier
les dialogues inter- et transdisciplinaires sur des objets traditionnellement étudiés en
phonétique. Le fait que les travaux de Gasquet-Cyrus 2012 sur les discriminations à
l'accent ou ceux de Blanchet 2016 sur la glottophobie puissent susciter des échos dans
les médias montre que ces enjeux peuvent être perçus et analysés à l'extérieur des
universités et des laboratoires de recherche. Lippi-Green 1997 avait déjà essayé de
porter ce type de débats aux Etats-Unis, autour des prononciations de l'anglais.

III.1 Généralisation des méthodes mixtes

Dans le domaine de la connaissance de la variabilité des prononciations du


français, tout comme dans d'autres domaines de la connaissance humaine, nous sommes
confrontés à un défi majeur : celui de parvenir à prendre connaissance des savoirs
cumulés construits par nos prédécesseurs, de parvenir à les assimiler tout en
développant un regard critique qui puisse permettre de les historiciser mais aussi de les
compléter, de les enrichir, de les critiquer. On peut tenter de relever ce défi en
poursuivant au moins deux ambitions différentes.
La première consiste à viser une hyper-spécialisation, pour espérer construire des
savoirs nouveaux, pointus, dans des directions déjà empruntées par les prédécesseurs ;
répliquer des études en variant certains paramètres, en diversifiant les situations ou les
publics, comparer des données anciennes à des données nouvelles, construire de
nouvelles méthodes de recueil, de fabrication ou d'analyse de données. Dans cette voie
nous courons néanmoins le risque d'arriver au constat que, malgré l'utilisation d'outils
plus sophistiqués et l’introduction d’une plus grande variabilité, nous ne pouvons que
confirmer ou nuancer légèrement des hypothèses déjà largement défendues lorsque
celles-ci sont consubstantielles à leur cadre épistémologique. Ce n’est pas toujours le cas,
mais de manière générale plus les objets d'étude sont précis et pointus, plus ils sont
susceptibles d'être postulés par une théorie ou une idéologie, et plus il est difficile
d'imaginer une manière de les étudier, pour comparaison, dans un cadre théorique
radicalement différent. Il serait par exemple absurde de vouloir étudier « le /r/
français » dans un cadre théorique centré sur les pratiques langagières (Boutet, Fiala, et
Simonin-Grumbach 1976), car lorsqu'on postule que le langage est une pratique sociale
complexe et hétérogène, la notion de « /r/ français » perd quasiment toute consistance.
La seconde consiste à viser une approche globale et transdisciplinaire, afin de
parvenir à formuler de nouvelles questions de recherche, à ouvrir de nouvelles pistes à
explorer : adopter une démarche réflexive pour rendre visibles les points de vue des
études précédentes lorsqu'ils ne sont pas explicités, et rechercher des éclairages
d'autres disciplines pour construire à terme des domaines transdisciplinaires autour
d'objets d'études renouvelés ou sérieusement redéfinis. Dans cette voie nous courons
toutefois le risque de la sous-spécialisation, et de la formulation d'hypothèses

180
faussement nouvelles, insuffisamment informées par les savoirs pointus élaborés
précédemment, au moins dans un premier temps.
Pour ma part, je pense que nous avons besoin d'alterner ces démarches en fonction
des objets d'étude et des questions de recherche que nous construisons. La
comparabilité des résultats est un domaine de recherche en soi, mais les écueils
théoriques de la comparabilité ne doivent pas nous dissuader, de manière absolue, à
tenter de répliquer certaines études ou à mettre en parallèle des résultats obtenus par
des méthodes diverses. Par ailleurs même si l'approche transdisciplinaire peut s'avérer
superficielle dans un premier temps, elle me semble une voie très prometteuse pour
renouveler le regard qu'on pose sur des objets de recherche construits par une longue
tradition monodisciplinaire.
Corolairement, l'adoption de méthodes mixtes de recherche fait son chemin de
plus en plus dans les pratiques des chercheurs et chercheuses en sciences humaines. Il
n'est pas souhaitable, selon moi, de réduire la notion de méthodes mixtes à la simple
complémentarité des approches quantitatives, qui connaissent un grand essor depuis
l'arrivée des très grandes bases de données langagières écrites ou orales, et des
approches qualitatives, analyses d'interactions écologiques ou d'entretiens, corpus
situés construits sur divers terrains. J'entends par méthodes mixtes à la fois les
protocoles d'enquête combinant analyse quantitative et qualitative, mais aussi les
approches inter- et transdisciplinaires d'un objet de recherche, incluant la confrontation
des conclusions produites par des études menées selon des postulats différents, autour
d'objets de recherche similaires ou comparables. Dans le cas qui nous intéresse ici, cela
revient à construire la prononciation en général comme un domaine de recherche : le
domaine des études sur la prononciation, « pronunciation studies ».
Je souscris au point de vue de Teddlie et Tashakkori sur les deux aspects
définitoires des méthodes mixtes de recherche :

- 1. Rejection of the either-or at all levels of the research process, which leads to
methodological eclectism
- 2. Subscription to the iterative, cyclical approach to research.

Fully integrated Mixed Methods in Research mixes top-down deductive and bottom-up
inductive processes in the same study, using both confirmatory and exploratory research
questions in a search for relatioships between entities, the processes that underlie these
relationships, and the context of these occurrences. [Tashakkori & Teddlie, 2010, pp.16-17]

L'itération d'un cycle inductif-déductif-inductif, ou bien déductif-inductif-déductif


me semble inévitable pour toute recherche qui se propose d'approfondir la
compréhension d'un phénomène social complexe. Le va-et-vient est indispensable car
les démarches inductives et déductives sont complémentaires. La seule différence entre
les approches mixtes et non-mixtes, consiste dans le fait que dans une approche
résolument mixte le cycle s'actualise au sein de la même recherche menée par le(s)
même(s) chercheur(s), tandis que dans une approche non-mixte, le cycle se segmente
dans des études différentes menées par des chercheurs différents et ce n'est que par une
démarche de méta-analyse qu'on peut reconstituer ses différentes parties.
Tashakkori & Teddlie pensent qu’il est possible de dépasser les grands schismes
des sciences humaines actuelles, qui conduisent à des impasses : combler le gouffre
apparent entre objectivité et subjectivité en construisant un paradigme de
l’intersubjectivité, et sortir des apories sur l’impossibilité de généralisation d’une étude

181
de cas, ou l’impossibilité de comprendre les nuances à travers les grandes études
quantitatives par une réflexion constante sur la transférabilité des résultats de toute
étude.
Dans sa recherche construite selon un design mixte, Arnold 2015b formule de
manière très concise l’avantage de combiner analyse acoustique, analyse perceptive et
analyse ethnographique des discours :

pouvoir combiner différentes approches des phénomènes de variation phonétique, tout en


mettant au centre de l’étude l’être humain dans sa globalité et non simplement son appareil
phonatoire. (Arnold 2015b) p.102.

Selon moi, le glissement de la phonétique vers les pratiques de prononciation est


similaire au glissement opéré de l’étude de la langue vers l’étude des pratiques
langagières. Ce glissement a besoin de l’hybridation des méthodes de recherche. Ainsi,
les méthodes mixtes n’ont pas seulement comme avantage de diversifier les données et
les raisonnements pour valider ou infirmer une hypothèse mais également, dans le
domaine de l’étude des prononciations, de déplacer le focus de l’appareil phonatoire
vers l’être humain qui se sert de son appareil phonatoire.

III.2 Approches post-variationnistes en sociophonétique

Plusieurs manuels de « sociophonétique » ont été publiés en anglais, dans de


grandes maisons d’édition universitaires, entre 2010 et 2011, notamment : Preston et
Niedzielski 2010; Di Paolo et Yaeger-Dror 2010; Erik R Thomas 2011. En 2014, très peu
de temps après, un autre manuel choisissait un titre présupposant déjà l’existence bien
établie du domaine de la sociophonétique, à savoir : Celata et Calamai 2014 : « Advances
in Sociophonetics ». Selon Foulkes et Docherty 2006 le champ a connu une expansion
fulgurante qui a commencé vers la fin des années 90. Cet affichage éditorial massif et
récent questionne : s’agit-il d’un « branding », comme il en existe tant, à cette époque
friande d’étiquettes innovantes ? S’il s’agit d’un domaine nouveau, en quoi consisterait
sa nouveauté par rapport à la sociolinguistique et à la phonétique ? La question se pose
de la même manière pour l’ethnographie linguistique, cf. Snell, Shaw, et Copland 2015.
Avec C. Trimaille, j’ai développé ces questionnements – à partir des publications en
anglais mais également à partir du paysage de la recherche francophone au croisement
de la sociolinguistique et de la phonétique – dans l’introduction d’un numéro de Langage
et société [doc 04]. Il nous est apparu que les convergences entre phonétique et
sociolinguistique sont plus anciennes que les études revendiquant explicitement cette
catégorisation. Des spécialistes des pratiques de prononciation de l’anglais américain,
comme D. Preston et N. Niedzielski, ou du français, comme Ph. Boula de Mareüil et Z.
Fagyal, ont commencé récemment à revendiquer l’affiliation à la sociophonétique dans
leurs mots-clés ou leurs titres, bien que leurs travaux relèvent du même champ depuis
de nombreuses années. De même, des travaux plus anciens sur le français (Martinet
1945; Fouché 1959; Straka 1952; P. R. Léon 1973; Peretz 1977; Houdebine 1977; Mettas
1979) ont beaucoup apporté à l’étude de la variabilité des prononciations ainsi qu’à la
description de la construction laborieuse et toujours fragile d’une sorte de standard
dans le domaine de la prononciation ; « standard » dont finalement tout le monde
s’accordait pour dire qu’il n’avait pas de frontières bien nettes, dans la mesure où
chaque locuteur était capable de changer de « standard » selon les contraintes de la
182
situation, selon l’attention portée au langage, etc. La sociophonétique actuelle ne
pourrait pas exister s’il n’y avait pas eu toutes ces études.
Avec C. Trimaille, nous écrivions dans le [doc 04] :

Il nous paraît difficile, voire vain, de chercher à déterminer si le domaine désigné par le mot
sociophonétique représente un nouveau champ d’investigation, ayant forgé des méthodes de
recherche qui lui sont spécifiques, ou si sa nouveauté est en quelque sorte performative,
résultant de la proclamation d’une coupure symbolique dans une évolution continue et à long
terme des questionnements sur la variabilité des prononciations et les changements
linguistiques. Comme il nous est impossible de donner ici un aperçu complet des enjeux et
méthodes de la Sociophonétique actuelle (nous renvoyons pour cela aux manuels), nous
préférons insister sur les apports de domaines dont le développement est récent et encore
insuffisamment exploré pour le français : les études socioperceptives (socioperceptual
studies, Drager 2010), les approches cognitives et l’exploitation des grands corpus. [Candea
& Trimaille 2015, p.12-13]

Il est fort possible que la sociophonétique se trouve à un tournant.


Selon Di Paolo et Yaeger-Dror 2010, le domaine a désormais une autonomie
suffisante et s’ouvrira de plus en plus à la prise en compte des mécanismes de
traitement cognitif (apprentissage, mémorisation, évaluation) de la variation
socialement structurée des prononciations ; selon Celata & Calamai 2014, l’approche
sociocognitive permettra d’affiner la compréhension de l’acquisition de l’indexicalité des
variantes en lien avec les changements linguistiques, un des thèmes centraux de la
sociophonétique. Pour d’autres chercheurs, comme Chevrot et Nardy à paraitre; Babel
2016, la rencontre avec les sciences (socio)cognitives promet d’apporter des éclairages
nouveaux à tous les niveaux de l’analyse sociolinguistique, et non seulement en ce qui
concerne les prononciations.
Un autre apport devrait pouvoir enrichir considérablement la sociophonétique
(tout comme la sociolinguistique) : il s’agit de la linguistique de corpus et de ses
méthodes de fouille de grandes bases de données69 orales alignées. Les travaux de
Torreira, Adda-Decker, et Ernestus 2010; Torreira et Ernestus 2010; Torreira et
Ernestus 2011; Boula de Mareüil, Rilliard, et Allauzen 2012 montrent le potentiel, mais il
me semble que le domaine n’en est qu’à ses débuts. Avec la collaboration de M. Adda-
Decker et L. Lamel j’ai pu à mon tour ouvrir quelques pistes, en ce sens, qui méritent
approfondissement [docs 03, 18].
De manière complémentaire et non contradictoire à l’apport des grandes bases de
données, les enquêtes de terrain construites selon une logique ethnographique
devraient désormais pouvoir se multiplier et renouveler profondément notre vision des
pratiques de prononciation et, à terme, notre vision du langage. Là encore, il me semble
que nous en sommes au tout début. Les études de Eckert 2000; Mendoza-Denton 2008
aux Etats-Unis et celle de Audrit 2009 en Belgique me semblent constituer les premières
pièces d’un grand puzzle en cours de création. C’est dans ce sens que vont mes
recherches de terrain en cours [docs 33,11,12].

Je considère ces approches comme post-variationnistes, dans la mesure où elles


sont suffisamment en rupture épistémologique par rapport au variationnisme tel qu’on

69 Les grandes bases de données écrites me semblent également une mine de données pertinentes
pour le développement de la sociolinguistique.
183
le définit traditionnellement pour justifier le préfixe « post- » mais elles ne sont pas
suffisamment en rupture pour proposer – en tout cas pour le moment - une vision
radicalement nouvelle de l’hétérogénéité socialement organisée des pratiques
langagières qui justifierait la création d’un nouveau label, distinct du variationnisme.
En effet, il me semble que les fondamentaux du variationnisme sur l’hétérogénéité
ordonnée restent solides : la variabilité des prononciations présente des régularités
générales selon l’attention portée au langage et selon le degré de formalité ; il existe des
corrélations entre pratiques de prononciation et groupes sociaux (indicateurs /
marqueurs / stéréotypes) ; on peut décrire des changements linguistiques dans la
prononciation qui se propagent du « haut » de la société vers le « bas » ou inversement ;
on peut utiliser les observations sur le temps apparent (différences éventuelles entre les
générations) pour forger des hypothèses sur les changements en temps réel (Bailey
2004; Yaeger-Dror 1988).
Cependant, le variationnisme de la première vague a fait l’objet de nombreuses
critiques qui sont intégrées dans la construction des études actuelles. Je les ai déjà
évoquées à différents moment du mémoire et je me contente de lister celles qui me
semblent les plus importantes :
 Focaliser les études sur l’hétérogénéité ordonnée, celle dont on peut
trouver / a déjà trouvé les règles et étudier tout particulièrement les
variables qui semblent être en cours de changement : Eckert 2008.
 Utiliser essentiellement la corrélation statistique comme outil
argumentatif (nombreuses critiques à ce sujet).
 Raisonner uniquement en termes macro- (grands groupes sociaux de
classe, genre et race/ethnicité) : Eckert 2008, 2012. Ne pas s’intéresser à
l’agentivité, aux enjeux micro- en situation.
 Ne pas s’intéresser assez aux rapports entre processus conscients (savoir
social) et processus automatisés, aux aspects sociocognitifs : Chevrot
1994.
 S’intéresser moins à la perception qu’à la production.
 Ne pas prendre assez en compte l’interaction70 durant l’enquête lors des
recherches expérimentales (éclairages de la psychologie expérimentale et
sociale) : travaux de Hay et Drager.

Pour ma part :
Je revendique la richesse de l'héritage labovien, notamment en ce qui concerne
l'approche des changements phonétiques en cours, l'intérêt heuristique de faire varier
l'attention portée au langage dans un protocole expérimental pour l'étude de la
prononciation et, sur un plan plus épistémologique, la recherche permanente de
compatibilité entre une posture de recherche exigeante et une posture
interventionniste, politiquement engagée. Néanmoins, cet héritage ne doit pas être
exclusif, et ce serait d’ailleurs une injustice par rapport à la créativité de Labov que de
l’enfermer dans des frontières intangibles.
Je défends l'ambition de faire dialoguer les démarches variationnistes, y compris
enrichies par les apports de la linguistique de corpus, qui permettent de mettre en
évidence les grandes tendances, ainsi que de construire des hypothèses sur la

70 En variant seulement l'attention portée au langage dans la même interaction avec un-e
chercheur-e, on ne laisse pas beaucoup de marge à l’agentivité de l'interviewé-e.
184
quantification des déterminismes sociaux et sur les facteurs susceptibles d’organiser
socialement, au moins en partie, la variabilité, avec les démarches ethnographiques qui
permettent de comprendre finement les enjeux d’une situation, et le cas échéant les
tensions et les résistances locales ou individuelles aux déterminismes sociaux, en lien ou
non avec des changements en cours.
Je défends également la nécessité de renouer le lien avec la tradition de recherche
en phonostylistique du français. Cette tradition phonostylistique, riche de pistes
inexplorées, me semble rejoindre en partie le programme de recherche défendu par
(Eckert 2012)71 sous le label de « la troisième vague » dans l'étude de la variation dans
le langage. Notamment, les hypothèses anciennes sur la notion de style doivent s’enrichir
de la synthèse de l’approche par l’indexicalité et des apports du variationnisme sur le
conditionnement social. Elles méritent également de recevoir de nouveaux éclairages
grâce aux outils de la linguistique de corpus, de la psychologie sociale (expériences
perceptives ; discours méta- ou épilinguistiques spontanés ou sollicités), de l’analyse des
interactions et des théories de l'intersubjectivité. De manière complémentaire, les
apports des ethnographies menées sur différents terrains peuvent contribuer à forger
une définition interactionnelle et, dans une large mesure, performative du style. Je suis
persuadée que nous avons beaucoup à gagner si l’on explore davantage les voies de
recherche ouvertes par Eckert 2008 lorsqu’elle conteste la séparation entre la forme et
le fond et lorsqu’elle appelle à considérer que différentes façons de dire signalent de
manière inextricable différentes façons d’être (« ways of being ») et potentiellement
différentes choses à dire.

III.3 Chantiers en cours


Les chantiers en sociophonétique du français ne manquent pas. Je me contente de
mentionner ceux dans lesquels j’inscris mes recherches.
Premièrement, il serait envisageable de contribuer à mieux mettre en évidence le
travail de distinction et de rejet de l'autre, travail fourni de manière permanente (pas
toujours consciente) par les locuteurs « légitimes » pour asseoir leur domination
symbolique. Ce travail est parfois facilité par la collaboration active des locuteurs
reconnus comme « ayant un accent », par les stratégies de non transmission familiale de
pratiques de prononciation perçues comme éloignées de 'la référence', mais on peut
aussi observer, ici ou là, divers mouvements de résistance, mouvements anti-puristes,
soit pro-cosmopolites soit régionalistes, ces derniers rejoignant parfois des mouvements
anti-élitistes populistes et xénophobes.
Cet axe d’étude prend comme porte d’entrée l’étude des idéologies et de leur
diffusion, et vise à mieux comprendre comment une diversité de pratiques de
prononciation arrive à passer pour UNE prononciation homogène et comment certaines

71 Il est intéressant de rappeler ici que Bell 1984 regrettait déjà, il y a une trentaine d’années,
l'absence de focalisation sur le style de la part de sociolinguistes, et leur point de vue passif sur cette
question. A l’époque il proposait une explication qui me semble entrer en résonnance avec les réflexions
d’Eckert. Selon Bell, le style en sociolinguistique a été vu comme le produit de techniques utilisées pour
manipuler le contexte, avec une attention concentrée sur l'identification des variantes impliquées et sur
les facteurs qui les font varier. « Study of what a change in styles does to the situation has been of more
interest to sociologists, ethnographers, and social psychologists, whose primary focus is people rather than
langage. » [Bell, 1984, p. 183]. Peut-être que le moment est venu d’adopter des méthodes de recherche
qui, tout en se focalisant sur le langage, ne perdent plus de vue les gens.

185
pratiques de prononciation arrivent à maintenir un statut de référence au détriment
d’autres. Cela permettrait de construire des ponts transdisciplinaires à partir d'un
questionnement linguistique tel que défendu par Foulkes et Hay 2015, à savoir :
comment émergent les identités sociales et les représentations sociophonétiques
partagées au niveau collectif, dans un groupe plus ou moins grand ? comment se
transmettent-elles d’une génération à l’autre?
Deuxièmement, il est possible, et même urgent, de contribuer davantage à la
réflexion actuelle (philosophique, didactique, sociale et politique) au sujet de la mobilité
sociale ascendante, du passage des frontières de classe y compris à travers la
construction d'une utopie alternative au standard unique. Ce dernier était à l'origine une
idée politique généreuse portée par la Révolution de 1789, qui s'est retrouvée mise à
l’épreuve d’abord par la résistance des « patois », ensuite, plus récemment, par la
mondialisation, le brassage des identités, les mobilités et la multiplication des contacts
(Gadet et Guerin 2015). Nous avons besoin d'une autre idée généreuse qui puisse être
un pôle attracteur, rassembleur. Est-il possible de construire une société où la variation
soit la règle, sans hiérarchisation postulée par définition ? Celle-ci doit échapper aux
deux paradigmes actuellement en conflit qui mènent chacun à une impasse : d'un côté
l'« universalisme » auquel seuls les dominants actuels croient encore (en l'occurrence, le
standard unique censé être accessible à tout un chacun, indistinctement, de manière
égalitaire garantie par une éducation commune censée être identique), d'un autre côté le
« repli communautaire » défendu le plus souvent en réaction à l’expérience quotidienne
de la stigmatisation par différents groupes minorés, politisés à des degrés divers (en
l'occurrence, la liberté de pratiquer la langue de son choix – ce qui dépasse en général la
question des accents régionaux ou étrangers – de manière à donner toute sa place à la
diversité des pratiques vécues comme identitaires ou comme électives). Il semble urgent
d'arriver à construire, dans une société « décente » au sens de Margalit 2007, à savoir
une société qui n’humilie pas les individus, une alternative capable de ménager un
équilibre entre les poussées vers l'homogénéité assimilationniste et les poussées vers la
diversité omniprésente, car le refus de dialogue entre ces deux paradigmes risque
d'aboutir à l'explosion pure et simple de la société depuis l'intérieur. Il semble urgent
d’avancer également dans la voie de l’intégration de la sociolinguistique dans
l’enseignement général, ce qui pour l’instant est toujours un projet à l’état
embryonnaire, selon Gadet et Guerin 2015, malgré les vœux exprimés sur ces sujets
durant les dernières dizaines d’années. Un dialogue avec les recherches sur
l'intersectionnalité parait à ce stade également indispensable : pouvoir dire de soi qu'on
« n'a pas d'accent » est un privilège, et peut être rendu saillant et opérationnel en tant
que privilège, à l'instar du « white privilege » ou de la blanchitude (Cervulle 2013).
Enfin, un troisième axe : les travaux sur la performativité des identités et sur
l'agentivité (notamment Butler 1990; Butler 2004), confrontées avec les théories sur
l’accommodation de Giles, Coupland, et Coupland 1991 pourraient renouveler
l'approche des pratiques de prononciation. Celles-ci font partie des ressources
mobilisables par les gens pour performer leurs identités ou leurs affiliations (de classe,
de genre, d'appartenance régionale) mais également les affiliations à des groupes plus
locaux, parfois de manière fluide et variable selon les enjeux intersubjectifs en contexte.
Arriver à étudier l'auto-catégorisation et l'hétéro-catégorisation de la parole d'autrui
sans avoir à mobiliser la notion d'identité peut s’avérer une piste prometteuse pour se
débarrasser, au moins provisoirement, d’une notion emprisonnée, selon Brubaker 2001,
dans un débat devenu stérile qui oppose une définition essentialiste toujours fortement
exploitée dans le champ politique à une définition constructiviste postulant une telle
186
fluidité des catégories qu'elle rend la notion quasiment absurde et inopérante. Il est
possible de mettre la problématique de la construction des identités à l'épreuve des
expériences perceptives car l'agentivité de Soi est en grande partie une réaction à la
façon dont on pense qu'on est perçu par Autrui (la perception de Soi par Autrui se rend
intelligible). Ces réflexions posent de nouvelles questions méthodologiques, cruciales,
pour lesquelles les réponses disponibles sont balbutiantes, comme par exemple le fait de
rendre possible – pratiquement et théoriquement – l’étude de la perception en
interaction, sur le terrain, de manière complémentaire par rapport aux démarches
explicites, expérimentales.

Ces chantiers ne sont pas, selon moi, spécifiques à la sociophonétique ; ils


devraient pouvoir s’ouvrir dans toutes les branches de la (socio)linguistique, nourrir les
circulations entre les différentes sciences humaines et contribuer à les rapprocher en
favorisant les « forces centripètes » (Calvet 2007). Selon l’image de Calvet, les forces
centripètes sont celles qui permettent de maintenir les dialogues, celles qui mettent en
avant les complémentarités des apports selon le modèle des différentes branches de la
médecine par rapport à l’être humain. Le fait de concevoir les sciences du langage
comme un champ d’études, et la prononciation comme un champ plus restreint à
l’intérieur de celui-ci, conduit à concevoir la sociolinguistique comme une des
disciplines, parmi d’autres, qui permettent de construire des connaissances pertinentes
dans ce champ d’études. Cela peut inciter à aller plus loin, et à défendre une vision de la
sociolinguistique comme une science non-autonome (Rickford 2001), ce qui peut
représenter un risque du point de vue institutionnel. Pourtant, la mise en dialogue de
toutes les sciences humaines semble, à notre époque, la voie la plus prometteuse du
point de vue heuristique ; selon moi, le risque de donner à toutes les disciplines des
sciences humaines un statut non-autonome est un risque institutionnel qui doit
désormais être assumé et pensé.

187
Curriculum Vitae

Maria CANDEA, née en 1973 à Bucarest (Roumanie)

Coordonnées professionnelles
UFR LLD – Sorbonne nouvelle
Bureau 429, 13 rue Santeuil,
75005 Paris

e-mail : maria.candea@univ-paris3.fr
page internet : http://www.univ-paris3.fr/mme-candea-maria-29447.kjsp

Formation universitaire
Thèse de doctorat en sciences du langage sous la direction de Mary-Annick Morel,
Paris3

Titre : Contribution à l’étude des pauses silencieuses et des phénomènes dits


d’«hésitation» en français oral spontané. Etude sur un corpus de récits en classe de
2000 français

Jury : Mary-Annick Morel (dir.), Alain Deschamps (rapp.), Danielle Duez (rapp.),
Martine Adda-Decker, Jacqueline Vaissière

- Mention : Très honorable, félicitations du jury à l’unanimité

DEA en sciences du langage, Paris3 - E.N.S. Fontenay/St.Cloud, direction M.A.


Morel
1996 Etude des silences et stratégies de recherche de formulation dans des dialogues
professeurs - élèves en enseignement adapté.
- Mention TB

Maîtrise de sociolinguistique, Paris3 - E.N.S. Fontenay/St.Cloud, direction


P.Renaud
1995 Etude des hésitations et reformulations dans un corpus d'enregistrements à
l'Etablissement d’enseignement adapté de Bonneuil sur Marne. (Enquête de terrain)
- Mention TB

Recrutement à l’Ecole Normale Supérieure de Fontenay comme pensionnaire


1994
scientifique étrangère ; tuteur : P. Fiala

Licence de LLCE français/portugais, Université de Bucarest.


1994
- Mention TB

Baccalauréat option maths/physique, Bucarest.


1991
- Mention TB

roumain, français [bilingue]


Langues portugais, anglais, espagnol, italien [niveau intermédiaire]
allemand [scolaire]

188
Parcours professionnel

Deux délégations de six mois chacune au laboratoire LIMSI / CNRS, dans


2011-2013
l’équipe TLP – Traitement du Langage Parlé, dirigée par Jean-Luc Gauvain

Maitre de conférences en linguistique française à l'Univ. Paris 3,


depuis 2001
UFR Littérature, linguistique, didactique

Attachée temporaire d’enseignement et de recherche (ATER) au Centre de


2000 - 2001
linguistique française, Université Paris 3

Chargée de cours à Paris3 (ILPGA Institut de phonétique, Département LEA


1998-2000
Langues étrangères appliquées, Centre de linguistique française)

Traductrice français-roumain dans un cabinet de traductions techniques et


1996-1998
administratives, Paris

Responsabilités et fonctions d’intérêt collectif

Membre du Bureau de la Fédération CLESTHIA (fédération de trois EA de sciences


2010-2011
du langage de Paris 3 créée en juillet 2010)

2008-2010 Coordinatrice des professeurs référents au Service d’enseignement à distance

Co-responsable de la convention EDAF (Ecole Doctorale Algéro-Française de


2005-2009 français) pour le réseau Ile de France. Cette convention a ultérieurement donné lieu
à l’actuel réseau mixte de recherche LaFEF : http://lafef.net.

e
2005-2008 Membre de la commission de spécialistes / comité de sélection 7 section, Université
2012-2016 Paris 3
e
2012-2013 Membre du comité de sélection 7 section, Université Grenoble 3 (Stendhal)
e
2009 Membre du comité de sélection 7 section Université de Franche-Comté
e
2005-2008 Membre de la commission de spécialistes 27 section, Université Paris 3

Membre de diverses commissions dans l’Université Paris 3 :

Conseil de Gestion du Service de Télé-enseignement


Conseil de la formation continue du personnel,
2002-2010
Conseil du Service de documentation BU,
Co-responsable du groupe de travail sur les parcours-types pour le LMD,
Commission des structures,
Commission du Personnel enseignant

Responsable pédagogique des Lettres modernes, licence et maitrise, au


Service d’enseignement à distance de l’université Paris 3 (anciennement Télé3,
2002-2006
actuellement ENEAD)

2001-2003 Responsable du tutorat en Lettres modernes, service d’enseignement à distance

189
Directions de mémoires et thèses
Master
Univ. Paris 3 : direction de mémoires de master 1 depuis 2002 et de mémoires de master 2 recherche depuis
2005 (au total une trentaine de mémoires dirigés et amenés à soutenance) ; étudiants inscrits en présence ou
à distance.

Exemples :

2015 : Chloé SPERANDIO : Analyse de la perception de variantes affriquées : entendre et d[ʒ]ire (Master 1)

2015 : Camille NERANT : La perception des journalistes d’un micro phénomène de socio phonétique, l’épithèse
fricative (Master 2)

2012 : Juan Carlos AGUIRRE : Etude sociolinguistique sur la perception de la voix masculine et les stéréotypes
lies à l'orientation sexuelle (Master 2)

2011 : Bahae MRAKHA : Réussite scolaire : quelle place pour les enfants plurilingues de milieux défavorisés ?
(Master 2)

2009 : Morgane BRAVERMAN : La stratégie pausale des leaders de gauche lors de la « semaine noire », octobre
2008 . Etude de cas (Master 1).

2008 : Sandy BICHON : Étude des stratégies prosodiques et énonciatives : L'exemple d'une classe de migrants
en français langue étrangère (Master 2)

2008 : Ikuko KAMIYAMA : La dislocation à droite en français parlé (Master2)

2007 : Isabelle FOUGERES : Contribution à l’étude d’un régionalisme grammatical : Le pronom Y complément
direct (Master 1)

2006 : Luiza MAXIM : Autonymie et modalité autonymique à l’oral : Réflexion sur la typologie et le fonctionnement
des séquences autonymiques dans le discours d’expert sur les qualités de la voix chantée -aspects intonatifs et
cognitifs - (Master 2)

Univ. Tizi-Ouzou : cinq directions de magistère (équivalent M2) soutenus en 2010 et 2011, devant jurys algéro-
français. Animation d’un séminaire doctoral à Tizi-Ouzou (2011).

Exemples :

2011 : Razika BOUNSIAR Gestion des tours de parole dans une situation didactique : étude d’un module de
Pratique Systématique de la langue (Magister)

2010 : Mounir AHMED-TAYEB : Discours épilinguistique et appropriation de l'espace urbain tizi-ouzéen par les
locuteurs citadins (Magister)

Doctorat
Univ. Catholique de Louvain : membre du comité de thèse de Iulia Grosman (co-dirigée par Anne-Catherine
Simon et Liesbeth Degand) ; le travail de thèse est mené dans le cadre d’un projet financé par l’ARC et
s’intitule Production & Perception des (dis)fluences : Formes prosodiques et variations prosodico-syntaxiques
à travers les genres. J’ai été sollicitée pour faire partie de ce comité de thèse notamment pour encadrer la
construction des protocoles de tests de perception. En cours.

Algérie, convention Ecole Doctorale Algéro-Française :


• Co-direction de thèse dans le cadre de la convention Ecole Doctorale algéro-française (financement
bilatéral), avec le Prof. Samir Abdelhamid, Université de Batna : Soumya Chebli, intitulée Développement
de la conscience phono-syllabique et processus d’apprentissage du français chez le jeune enfant ; soutenue
en 2012.
• Co-direction de thèse dans le cadre de la convention Ecole Doctorale algéro-française (financement
bilatéral) avec la Prof. Assia Lounici, Université d’Alger : Mounir Ahmed-Tayeb, intitulée Langue française,
violence verbale et construction identitaire en contexte urbain tizi-ouzéen. En cours.

190
Membre de jury de thèse : Edlira Cela, Univ. Paris 3, intitulée Le rôle de ‘tu’ dans les modulations du
consensus entre le formateur et l'apprenti, soutenance en 2011. Direction : Mary-Annick Morel

Membre de comités de lecture

2006-2015 Colloques annuels avec actes Rencontres Jeunes Chercheurs, ED 268 « Langages et
langues » – Paris 3

2015-2016 Colloque VALS-ASLA (Genève) « Processus de différenciation - des pratiques langagières à


leur interprétation sociale » ; Colloque ConSoLe (Paris 7), Appel à projets de recherche
Comue Sorbonne Paris Cité ; Revue Information grammaticale (relectures ponctuelles) ;
Congrès Réseau Francophone de Sociolinguistique ; Appel à Projets Grenoble Innovation
Recherche – AGIR ; Workshop avec actes ERRARE 2015 (CNRS – ICIA Académie
roumaine) ; 7th Conference of the ISGS - International Society for Gesture Studies (Paris) ;
Comité de rédaction de la Revue GLAD !, recherches sur le genre, le langage et les
sexualités.

2013-2014 Revue Information grammaticale (relectures ponctuelles) ; Revue Journal of French


Language Studies (relecture ponctuelle) ; Colloque Pluri-L (Nantes) ; Colloque CEDIL 2014
(Jeunes chercheurs LIDILEM, Grenoble) ; Colloque avec actes Journées d’Etudes sur la
Parole 2014 (Le Mans ; relectures ponctuelles) ; Colloque avec actes CJC14 (Jeunes
chercheurs Dipralang, Montpellier), Colloque Journées de la pausologie (PRAXILING,
Montpellier),

2010-2012 Colloque avec actes Emotion, Cognition, Communication (colloque Univ. Chypre / Univ. Paris
3) ; Revue Linguistica, Slovénie (relecture ponctuelle), Colloque ISSP 2011 Montréal ;
Colloque avec publication des actes Langue et territoire, Ontario – Canada.

2007-2009 Colloque avec actes ISSP 2008, Strasbourg ; Colloque avec actes Les énoncés averbaux
autonomes (EA 182 Paris 3 et Lattice) ; Colloque avec actes Grammaire et prosodie 1
(Travaux du CerliCO) ; Colloque avec actes Grammaire et prosodie 2 (Travaux du CerliCO) ;
Revue Synergies Algérie.

2004-2006 Colloque LPSS, Taipei (Taiwan), Journée ATALA « Hésitations, disfluences, répétitions, faux
départs : quel ordre dans le désordre ? », Paris ; Colloque 2005 DISS 05, avec actes, Aix en
Provence ; Workshop international avec actes MIDL, Paris.

Activités d’enseignement

 En tant que titulaire, maitre de conférences (2001-2016)

Cours assurés en licence (Département de lettres modernes, Univ. Paris 3)

2001-2015. Introduction à la linguistique : cours assuré en présence et à distance ; participation à l’équipe


pédagogique du cours ; plusieurs modifications de programme d’un quadriennal à l’autre ; rédaction de
chapitres et corrigés pour le fascicule commun de cours. Le cours s’intitule actuellement « Le français. Une
langue et ses usages ».

L’objectif principal de ce cours est d’amener les étudiants en tout début de cursus à découvrir la
réflexion linguistique à partir de la notion de variation, et de découvrir les niveaux d’analyse
syntaxique, morphologique et phonologique.

2001-2015. Questions d’énonciation : subjectivité et pluralité des voix : cours assuré en présence et à
distance en liaison avec une équipe pédagogique ; rédaction de chapitres de cours et de corrigés détaillés
pour les cours à distance ; responsable de l’équipe pédagogique 2009-2012.

Ce cours introduit les étudiants aux problématiques liées à la construction de la référence, à la


deixis et à la description des techniques de circulation des discours (discours rapporté, polyphonie,
modalisations, autonymie.)

2014-2016 : Sociolinguistique du français contemporain : cours assuré en présence pour les étudiants de
ème
3 année ; création personnelle de l’intégralité des supports de cours.

191
Ce cours prend appui sur la notion de standard ou français de référence partagée spontanément
par les étudiants de lettres pour la déconstruire et l’analyser ; il amène les étudiants à observer la
variabilité des pratiques langagières et les discours que cela suscite, à observer les régularités, les
différentes tendances et à construire un raisonnement sociolinguistique à partir de leurs
observations. Une grande importance est accordée à la discussion de différentes techniques
d’enquête et de récolte de données, à la posture du chercheur.

2009-2011. Langage et société. Culture langagière illégitime, l’exemple de la « langue des cités » (UE
libre, ouverte à tous les étudiants de deuxième année, en présence, de Paris 3) ; création personnelle.

L’objectif principal de ce cours est de susciter des réflexions sociolinguistiques sur le langage
comme pratique sociale ; il aborde quelques notions clés (variation, standard, épilinguistique,
intersubjectivité, prestige couvert, etc.) et prend appui sur des exemples attestés ou sur des
enquêtes que les étudiants étaient incités à mener auprès des personnes de leur entourage.

2014-2016 Genre et langage. Enjeux théoriques et applications pratiques (UE libre ouverte à tous les
étudiants de licence, en présence, de Paris 3) ; créée et assurée en collaboration avec Andrea Valentini.

Ce cours commence par une introduction aux études et théories féministes au sens large et se
concentre ensuite sur la déclinaison des différents paradigmes théoriques (différence / domination /
déconstruction queer) appliqués aux enjeux liés au langage. Les exemples analysés sont puisés
tout particulièrement dans le domaine francophone mais pas exclusivement.

2001-2006. Morphosyntaxe du français ; cours créé par une équipe pédagogique à laquelle j’ai participé ;
assuré en présence et à distance.

Ce cours rappelle les bases de la grammaire du français et introduit les étudiants à l’analyse
distributionnelle.

2001-2004. Sémantique lexicale ; cours assuré à distance et en présence, créé par une équipe
pédagogique ; rédaction de corrigés détaillés pour l’enseignement à distance.

Ce cours introduit les étudiants aux questions d’analyse du sens : sémantique lexicale, approches
distributionnelle et discursive ; quelques notions sur la création lexicale.

Cours assurés en master (UFR Lettres / Sciences du langage / Didactique)

2013-2016 : Sociophonétique du français contemporain (séminaire, M1/M2 création personnelle ; ouvert


à tous les parcours du master Lettres modernes, Sciences du langage et partiellement au master de
didactique du FLE)

Ce cours traite de l’idéologie du standard en matière de prononciation du français, et aborde les


enjeux sociaux liés à la description de la variabilité des prononciations du français ainsi qu’à la
perception de cette variabilité. Il passe en revue les différents traits phonétiques socialement
connotés en français qui ont fait l’objet d’études ou d’enquêtes. Les étudiants sont amenés à
travailler en binôme pour mener une enquête par questionnaire (un des étudiants observe
l’interaction entre son binôme et la personne sollicitée) et à produire une réflexion qui accorde une
large part aux conditions de production des données à analyser et aux biais inhérents à leur
démarche d’enquête.

2004-2012 : Analyse de l’oral, observation et description (séminaire M1/M2, créé et assuré en


collaboration avec Dominique Delomier de 2004 à 2007 ; assuré seule de 2008 à 2012 ; ouvert aux étudiants
de tous les parcours du master Lettres modernes et Didactique du FLE.

Ce cours a comme objectif une première introduction à l’analyse de l’oral, particulièrement


focalisée sur la transcription de l’oral, sur l’utilisation du logiciel Praat et sur une première approche
des rapports entre prosodie et syntaxe. Les étudiants étaient amenés à réfléchir aux écueils de la
transcription de l’oral et découvraient les principales différences entre la structuration de l’oral
spontané (non préparé) et de l’oral préparé ou lu.

2010-2011 : Types et genres du discours médiatique (séminaire créé et assuré en collaboration avec
Georgeta Cislaru ; ouvert uniquement aux étudiants du parcours M1 « Culture, arts, médias »).

Ce cours offre une approche essentiellement discursive de la multitude des genres, écrits ou oraux,
produits par les professionnels de la communication. Les étudiants sont amenés à dégager les
aspects essentiels du fonctionnement discursif à partir de notions de base comme « type » et
192
« genre de discours », « scène d’énonciation », « embrayage énonciatif », « cohésion textuelle ».
Ils apprennent également à constituer un corpus à partir des grandes bases de données de la
presse écrite ou orale.

2009-2016 : Questions de sociolinguistique (cours à distance, M1, création personnelle de l’intégralité des
supports ; ouvert aux étudiants du master de Lettres).

L’objectif du cours est de rendre compte, au moins partiellement, de la diversité des approches en
sociolinguistique, des passerelles avec les autres sciences humaines. La sociolinguistique et ses
outils est présentée selon deux perspectives : une perspective macroscopique, proche de celle de
la sociologie, qui permet d’étudier les phénomènes sociaux, les grandes tendances, les forces en
concurrence, les rapports de domination, etc, et une perspective microscopique qui permet
d’étudier comment les locuteurs utilisent en pratique les différentes ressources langagières à leur
disposition dans une interaction, dans un contexte précis. En outre, les étudiants sont amenés à
réfléchir à leur propre profil sociolinguistique et aux représentations qu’ils ont de leurs propres
pratiques langagières en situation.

2006-2011 : Syntaxe du français écrit et oral : les mots en qu- (cours à distance, M1/M2, créé et assuré
en collaboration avec Florence Lefeuvre ; ouvert aux étudiants du master de Lettres et de Didactique du
FLE)

Ce cours se propose de donner accès à des travaux récents sur la syntaxe du français et d’aborder
les mêmes outils syntaxiques sur des échantillons d’une grande variété de textes écrits ou de
transcriptions de discours oraux (récits, entretiens). Le cours est focalisé sur les mots en qu- qui
ont un rôle fondamental en syntaxe du français en ce qu'ils fournissent les outils principaux de la
subordination et de l'interrogation. Leur description syntaxique et sémantique s’appuie sur des
exemples attestés de sources très diverses. Les étudiants sont amenés à mettre en parallèle leurs
analyses sur l’écrit et sur l’oral.

2006-2009. Introduction à la linguistique contemporaine (cours à distance, M1, dont le support principal a
été créé par Christian Puech autour de la lecture critique de deux ouvrages généraux sur les linguistiques
contemporaines (P. Le Goffic – C. Fuchs 1999 et JL. Chiss – C. Puech 1999).

Ce cours d'introduction choisit d'attirer l'attention sur quatre thèmes théoriques à portée scientifique
et culturelle significatives du développement de la linguistique au XXe siècle: - la stylistique, les
formalismes, la variation sociale en linguistique et l'émergence des linguistiques de l'énonciation

2001-2006 : Grammaire de la phrase complexe (cours à distance, M1, dont le support principal a été créé
par Mary-Annick Morel)

Ce cours est une introduction à la description grammaticale du français dans une optique de
grammaire scolaire ; l’ouvrage de référence utilisé était la Grammaire méthodique du français ; les
étudiants sont amenés à identifier les fonctions grammaticales, à décrire la construction des
phrases et à identifier les types de subordonnées dans des corpus variés, en français.

193
 En tant que non titulaire, chargée de cours et ATER (1998-2001, Université de Paris 3)

ère ème
Cours assurés en 1 et 2 année de licence

Introduction à la linguistique (UFR Lettres) ; cours créé par Ch. Leroy, assuré sous la responsabilité ; centré
sur l’analyse distributionnelle en phonologie, morphologie et syntaxe et plus généralement sur l’introduction au
structuralisme.

Linguistique générale (UFR Sciences du langage, ILPGA) ; cours créé par D. Laroche-Bouvy, assuré sous sa
responsabilité ; cours introductif à la linguistique, centré sur le structuralisme et la typologie des langues.

Sociolinguistique (UE de découverte, UFR Sciences du langage, ILPGA) ; création personnelle en collaboration
avec E. Cambon, sous la responsabilité de P. Renaud ; centré sur la découverte des grands domaines de la
sociolinguistique , notamment : le variationnisme, le bilinguisme et les contextes de contact de langues, l’analyse
critique du discours, l’analyse des interactions et les politiques linguistiques.

Morphosyntaxe du français (département LEA) ; cours créé par Ch. Leroy, assuré sous la responsabilité ;
centré sur l’analyse distributionnelle et l’introduction au structuralisme.

ème
Cours assurés en 3 année de licence

Introduction à l’argumentation (département LEA) ; cours créé par Ch. Leroy, assuré sous la responsabilité ;
centré sur la grammaire de texte, la description des connecteurs et les techniques de rédaction avec contraintes.

Tutorat en traitement du signal pour les étudiants de maitrise et DEA (master 1 et 2, UFR Lettres)

Activités scientifiques autres que publications

 Terrains de recherche, participations à des projets

2013-2016 Co-fondatrice et membre du bureau de l’association de recherche


interdisciplinaire « GSL – Genres, sexualités, langage », issue de l’ancien réseau
de recherche « Genre et langage ». L’association organise des manifestations
scientifiques et œuvre à la création d’une revue inter-disciplinaire à audience
internationale, dans un domaine thématique émergent en France (revue GLAD ! :
lancement du premier numéro fin 2016).

Depuis 2012 Membre de l’Axe 1 Phonetic and phonological dynamics du LABEX Empirical
Foundations of Linguistics ; conception et réalisation d’un corpus de roumain oral
selon le protocole Diapix (UK) adapté pour le roumain (en collaboration avec le
laboratoire ICIA-Bucarest et LIMSI-CNRS) ; analyses en cours.

2010 Avec Luca Greco, constitution d’un Réseau de recherche « Genre et


langage » basé à Paris 3 ; mise en place d’un site soutenu par le Conseil scientifique
(http://www.univ-paris3.fr/gender), lancement d’un appel à projets. Depuis janvier 2013
le réseau compte une centaine de membres, titulaires et doctorants.

2006 et 2007 Soumission à l’ANR de deux projets « jeune chercheur » portés par
M.Candea (acronymes Multidentité – 2006 – et Margidentité – 2007 – qui n’ont pas
été retenus mais ont permis de commencer à construire un réseau de chercheurs
intéressés par des questions d’identité, de discriminations, de sociolinguistique).

2011 Participation à la rédaction d’un projet ANR thématique porté par Luca
Greco Paris 3, (PLURISOI) sur les dynamiques identitaires ; non retenu

2006-2013 Observation sur le terrain : enregistrements réguliers et observation


participante dans le module de préparation au concours de Sciences Po Paris, au
lycée Delacroix (Drancy 93). Intégrée dans l’équipe d’animation du module ainsi que
dans le jury de sélection mis en place dans le cadre de la convention « Egalité des
194
chances » devenue « Education prioritaire » de Sciences Po Paris. Constitution d’un
nouveau corpus.

2005-2006 Membre du Comité d’organisation de l’école d’été thématique et


pluridisciplinaire (CNRS) « Voix, parole, langues » à Cargèse juillet 2006
(http://archives.limsi.fr/vpl2006.limsi.fr/) réunissant le CNRS, Paris 3, Paris 10, la DGA
et l’ENST.

2004-2005 Membre du Projet innovant PI-ED268 inter-équipes de recherches, financé


par Paris 3, porté par Serge Fleury et Cédric Gendrot. Ce projet s’est focalisé sur le
partage de réflexions sur l’adaptation des systèmes d’étiquetage pour permettre la
mise en commun et l’accès plus ouvert à des données orales alignées. Les réflexions
donnaient lieu à des débats réguliers entre spécialistes de phonétique, syntaxe et
sociolinguistique. http://pi-ed268.univ-paris3.fr/index.html

2002-2004 Membre du projet MIDL (Modélisation et IDentification des Langues) qui a


impliqué Paris 3, l’ENST, la DGA et le LIMSI CNRS. Ce projet financé dans le cadre du
programme interdisciplinaire du CNRS STIC-SHS Société de l’Information, rassemblait
des linguistes et des chercheurs en informatique et TAL autour de problématiques
liées à l’identification (par les humains et par les machines) des différentes langues ou
des différentes variétés dialectales.

2002-2003 Responsable du Projet innovant Corpora-P3, financé par Paris 3, sur la


formation des membres de l’EA 1483 (doctorants et titulaires) à la mise en place des
bases de données orales alignées. Ce projet a permis d’ouvrir des réflexions sur les
enjeux théoriques et pratiques des corpus oraux alignés, dans une équipe où la
majorité des transcriptions se faisaient sur des éditeurs de textes et la plupart des
données orales étaient stockées sur des mini-disques ou parfois sur des cassettes.

1997-1998 Observation sur le terrain : enregistrements réguliers au Collège Emile Zola


(Suresnes, 92). Constitution du corpus de thèse au sein d’une classe de 4è, durant les
cours de français. L’enseignante pratiquait une pédagogie du projet pour faire travailler
ses élèves sur la structuration des récits oraux à haute voix. La dernière séance du
trimestre s’est déroulée dans une classe d’école maternelle où certains collégiens ont
pu performer le récit préparé auparavant devant les enfants de moyenne section.

 Organisation de conférences ou journées d’études

juillet 2016 Membre du comité d’organisation et scientifique de 7th Conference of the


International Society for Gesture Studies : Gesture – Creativity – Multimodality, Paris.

nov 2015 Co-organisation d’une journée d’études Linguistique et études sur le genre, à
Paris 3 ; invitations de doctorants et titulaires de différentes universités de France.

oct 2012 Co-organisation d’une journée d’études Recherches linguistiques sur le


genre: état des lieux, questions, enjeux à Paris 3. Journée accueillant un public large
de différentes universités franciliennes.

avr 2009 Organisation d’une journée d’études dans le cycle « samedis de l’Ecole
doctorale Langage et langues », à Paris 3 : Didactique et prosodie (destinée aux
doctorants).

oct 2008 Co-organisation d’une journée d’études en hommage à Mary-Annick


Morel : La Rectification à l’oral et à l’écrit, à Paris 3.

avr 2005 Co-organisation d’une Journée ATALA Association pour le traitement


automatique des langues sur « Hésitations, répétitions, faux-départs » ;
(conférence d’ouverture assurée conjointement par Adda-Decker, Candea et
Vasilescu) ; colloque à audience nationale.

dec 2004 Co-organisatrice du workshop international MIDL (Modélisation et


IDentification des Langues par les humains et les machines) en décembre 2004, à

195
Paris, ENST, avec publication des actes.

juin 1999 Co-organisation de la Journée Jeunes chercheurs de l’ED ‘Langage et


langues’ de Paris 3 ; coordination de la publication des actes avec Florence Lefeuvre
(publication interne Paris 3).

1995, 1996 Co-organisation d’écoles d’été pluridisciplinaires en Roumanie sous l’égide


de l’E.N.S. Fontenay-St.Cloud sur le thème « Espace et culture en Europe Centrale et
Orientale », Univ Timisoara 1995 et « Public / Privé », Univ. Cluj 1996.

Principaux thèmes de recherches

1/ Description et perception des pauses silencieuses et des marques du travail de formulation

→ Publications sur cette thématique : thèse ; docs [16, 20, 21, 22, 23, 24, 26, 27, 28, 29, 30, 32].

2/ Méthodes mixtes de recherche

Méthodes d’enquête en perception de la parole

→ Publications sur cette thématique : thèse ; docs [05, 19, 21, 23, 24]
Fouille de grandes bases de données

→ Publications sur cette thématique : docs [03, 19].

3/ Intersubjectivité, enjeux sociaux de la prononciation

Co-énonciation, rôle de la prosodie et des indices posturo-mimo-gestuels dans la construction


de l’intersubjectivité en interaction

→ Publications sur cette thématique : docs [07, 16, 20].

Sociophonétique du français, accent social, ressources phonétiques et discursives pour la


construction identitaire du groupe social, du genre ou de la race

→ Publications sur cette thématique : docs [06, 33, 11, 12, 15].

Enjeux autour de la didactisation de la sociophonétique, politiques éducatives

→ Publications sur cette thématique : docs [13].

196
Collaborations
Au fil du temps j’ai été amenée à collaborer avec un certain nombre de collègues – titulaires ou
doctorants – dans différents projets et sur différentes thématiques. Certaines de ces collaborations ont donné
lieu à des publications, d’autres à des animations scientifiques organisées de manière conjointe ou encore à
des discussions informelles enrichissantes qui pourront aboutir à des collaborations plus ciblées.

C’est ici qu’il convient également de mentionner les séminaires que j’ai suivis et qui ont eu une grande
importance dans ma formation scientifique : outre les séminaires de Mary-Annick Morel, j’ai également suivi
les cours de Patrick Renaud, Françoise Gadet, Jacqueline Vaissière, Claire Blanche-Benveniste,
Danièle Dubois, Danièle Bouvet, Laurent Danon-Boileau et Jean-Yves Dommergues.

Je donne ci-dessous une liste indicative des collaborations qui ont abouti à des publications
communes :

- CLESTHIA-EA 7345 (et ancienne EA1483 RFC, Recherches sur le français contemporain), Paris
3:

Mary-Annick Morel, qui a dirigé mon travail de thèse et avec qui j’ai continué des échanges soutenus sur le
rôle de la prosodie et des marques posturo-mimo-gestuelles dans la co-énonciation en interaction.C’est
dans son séminaire que j’ai fait la connaissance de Jean-Gérard Sender et d’Edlira Cela avec qui j’ai eu
l’occasion de collaborer au sujet de certains aspects de leurs corpus qui croisaient mes propres
préoccupations sur le rôle des marques posturo-mimo-gestuelles, associées aux pauses silencieuses,
dans la structuration des énoncés et dans la progression de l’interaction. [docs 07, 16 et 20].

Séverine Morange, avec qui nous avons longuement travaillé sur l’importance du dispositif d’enquête dans la
construction des observables lors des tests de perception ; les conseils de Danièle Dubois avaient joué
également un grand rôle dans le développement de nos questionnements. [doc 14]

Dominique Delomier, avec qui j’ai d’abord travaillé pour la préparation des cours que nous assurions en
première année de licence, et aussi, de manière plus pointue, pour la conception d’un séminaire de master
sur l’analyse de l’oral. Par la suite j’ai échangé avec elle sur la diversité des expressions de la rectification
à partir d’extraits de mon corpus issu du terrain ZEP-Sciences Po, dans le cadre de la préparation de la
journée d’hommages en l’honneur de Mary-Annick Morel [doc 15]. Cette journée a donné lieu à une
publication collective [doc 01] que j’ai dirigée avec Reza Mir-Samii, de l’Université du Mans, à l’époque
membre de l’EA 1483.

Florence Lefeuvre : échanges sur des points précis de la syntaxe de l’oral, et tout particulièrement sur le rôle
possiblement syntaxique de l’intensité ; nos discussions ont abouti à un article de colloque [doc 25] mais
également à un séminaire commun de master.

Luca Greco : échanges réguliers sur l’analyse des interactions, sur le genre comme concept opérationnel et
comme paradigme d’analyse, sur l’approche ethnographique et le rapport entre chercheur et « son »
terrain... Ces échanges ont donné lieu à des dépôts de projets, des animations scientifiques, des séances
de séminaires communes et, à partir de 2010, la création et l’animation d’un réseau de recherche sur
« Genre et langage », qui rassemble à présent une centaine de membres sur la liste de diffusion interne.
C’est sur ce thème que j’ai été amenée à collaborer, outre Luca Greco, avec Andrea Valentini et
Gabriella Parussa, pour mettre en place un enseignement transversal à Paris 3 et pour amplifier les
collaborations avec d’autres universités franciliennes membres du GIS « Institut du genre ».

Aron Arnold : collaborations en sociophonétique notamment au sujet du montage de protocoles de


perception pour interroger l’influence de certains facteurs macro-sociaux comme le genre ou la race. Son
double rattachement au LPP et à CLESTHIA a permis l’émergence de nombreux échanges sur les
frontières disciplinaires et sur les routines scientifiques dans la communauté des phonéticiens et dans
celle des sociolinguistes. [doc 05]

197
- LPP « Laboratoire de Phonétique et Phonologie », CNRS / Paris 3, UMR 7018:

Martine Adda-Decker : nombreuses collaborations, d’abord à l’époque où M. Adda-Decker était CR au LIMSI


CNRS, et ensuite les dernières années, depuis qu’elle est DR au LPP. Le domaine qui nous rassemble est
la linguistique de corpus et la fouille semi-automatique de données orales alignées. Nous avons collaboré
pour des études qui se proposaient d’isoler des items particuliers, en grand nombre, dans un corpus de
grandes dimensions, pour pouvoir observer une tendance à un moment donné, et dans un style de parole
donné.

- LIMSI Laboratoire d’Informatique pour la Mécanique et les Sciences de l’Ingénieur / CNRS

Lori Lamel : collaborations (conjointes avec M. Adda-Decker) durant la délégation au LIMSI en 2012 et
2013, notamment au sujet des techniques de fouille automatique dans les corpus de médias, grâce à
l’implémentation de variantes autorisées non-standard lors du processus d’alignement automatique. [docs
03 et 18].

Ioana Vasilescu : collaborations au sujet de la perception des fillers (voyelles centrales dites d’hésitation)
dans différentes langues, dans le cadre du projet MIDL qui visait l’amélioration des systèmes de
reconnaissance automatique grâce – entre autres – à l’apport des comparaisons entre discrimination
acoustique, statistique, et discrimination par des humains. Ces études ont été menées avec M. Adda-
Decker également. [docs 21, 22, 23 et 24].

- LIDILEM, EA 609, Université Stendhal, Grenoble :

Cyril Trimaille : nombreux échanges au sujet de la définition de la sociophonétique en général [docs 02 et


04], et collaborations au long cours pour étudier la palatalisation/affrication en français de France :
distribution selon les styles de parole ou les macro-catégories des locuteurs et locutrices, enquêtes sur la
perception des connotations sociales. Une bonne part de ces études ont été menées avec Iryna Lehka-
Lemarchand, post-doctorante [doc 19, et communications sans actes].

- DELIC DEscription Linguistique Informatisée sur Corpus, Université Aix-Marseille

Jean Véronis : nombreux échanges durant mon doctorat et peu après au sujet de l’étude des phénomènes
dits « d’hésitation » en français oral, et au sujet de la constitution et l’étiquetage des corpus oraux. Ces
échanges, impliquant des doctorantes du séminaire de DELIC, outre Jean Véronis, ont abouti à
l’organisation ultérieure d’une journée d’études ATALA.

Autres collaborations individuelles

Ioana Chitoran, Paris 7, CLILLAC-ARP : échanges autour des tendances actuelles dans la prononciation des
voyelles moyennes en roumain ; constitution conjointe d’un corpus d’enregistrement en cours, selon le
protocole d’enquête DIAPIX. Projet de recherches sur la sociophonétique du roumain en cours, avec
Ioana Vasilescu.

Rédaction collaborative d’un livre grand public sur les positions linguistiques machistes et scientifiquement
infondées de l’Académie française ; avec Eliane Viennot (Univ. Saint-Etienne), Yannick Chevalier
(Univ. Lyon 2), Anne-Marie Houdebine (Paris 5), Sylvia Duverger (Paris 8) et Audrey Lasserre (Paris
3). Livre paru en juin 2016.

198
Liste des publications
Celles qui figurent en annexe sont suivies d’un ▲

 Direction d’ouvrage

[01]
Candea M., Mir Samii R., (dir.) 2010, La Rectification à l’oral et à l’écrit, Ophrys, Paris.

 Direction de numéro de revue

[02]
Candea M., Trimaille C. (coord.) 2015, Sociophonétique du français : genèse, questions, méthodes.
Langage et société, n°151.

 Articles de revues avec comité de lecture

[34]
(soumis)
Candea M. L’« accent de banlieue » à l’épreuve du terrain, Glottopol n° 29, M. Auzanneau, P.
Lambert, N. Maillard (dir.)

[35]
Abbou J., Candea M, Coutant A., Gérardin-Laverge M., Katsiki S., Marignier N., Michel L. et Thevenet
C., 2016, GLAD! revue féministe et indisciplinée. Un projet scientifique, éditorial et
politique, n° 1, GLAD ! Revue sur le langage, le genre, les sexualités, http://www.revue-
glad.org/260.

[03] ▲
(soumis), Candea M., Adda-Decker M. et Lamel L. : How can Speech Processing Tools Renew
Perspectives on Sociophonetic Changes in French? A Case Study Based on Broadcast News
(JFLS).

[04] ▲
Candea M., & Trimaille C., 2015, Introduction. Phonétique, sociolinguistique, sociophonétique :
histoires parallèles et croisements, dans Langage et société, 151, 7-25.

[05] ▲
Arnold A. & Candea M., 2015, Comment étudier l'influence des stéréotypes de genre et de race sur la
perception de la parole ?, dans Langage et société, n°152, 75-96.

[06] ▲
Candea M., 2014, Discours sociolinguistiques et discours profanes face à la variation stylistique dans la
prononciation du français, dans Lidil. Revue de linguistique et de didactique des langues,
50 : 45-61.

[07]
Cela-Gontier E., Candea M., 2013, L’apport des indices posturo-mimico-gestuels et intonatifs à la
construction de la référence de ‘tu’ dit générique, dans l’Information grammaticale, n° 136,
12-19.

[08] ▲

199
Candea M., 2012, Au journal de RFI-chhh et dans d’autres émissions radiodiffusée-chhhs. Les
épithèses fricatives, in Le discours et la langue, n°3, Bruxelles, 136-149.

[09]
Fougères I., Candea M., 2011, Vivacité d’un régionalisme grammatical : le « y » bourguignon, on va
vous y expliquer, dans Information grammaticale, n°129, 46-52.

 Chapitres de livres

[33] ▲
(à paraitre) Candea M., Se construire comme candidat à une Grande Ecole quand on vit en banlieue
populaire parisienne, dans F. Gadet (dir.) Le français dans les métropoles européennes,
Garnier.

[10]
Candea M., 2016 (rédigé en 2011), L’accent dit de banlieue, une mode ? Etude auprès de lycéens
en ZEP inscrits dans une dynamique de réussite scolaire dans Siouffi G. (dir.) Modes
langagières dans l’histoire, Champion, Paris.

[11] ▲
Candea M., 2014 , Sortir de ‘son’ territoire en périphérie parisienne : un mouvement géographique,
langagier et idéologique, Boissonneault, Julie et Ali Reguigui (dir.), Langue et territoire.
Études en sociolinguistique urbaine / Language and Territory. Studies in Urban
Sociolinguistics, Sudbury, Université Laurentienne, Série monographique en sciences
humaines / Human Sciences Monographic Series, vol. 15, 103-132.

[12] ▲
Candea M., 2012, Emergence du discours politique des jeunes lycéens dans et par le dispositif de la
convention « éducation prioritaire » de l’IEP Paris (Sciences Po), dans Pugnière-Saavedra F.,
Sitri F. et Véniard M., L’analyse du discours dans la société : engagement du chercheur et
demande sociale, Champion, Paris, 479-496.

[13] ▲
Candea M., 2012, Une expérience de didactisation de la sociophonétique centrée sur de « bons »
élèves d’un lycée classé ZEP, in M. Dreyfus et JM Prieur, Hétérogénéité et variation, Michel
Houdiard éditeur, Paris, 320-330.

[14] ▲
Morange S., Candea M., 2010, Aux frontières de l’écoute. Réflexion sur la construction des variables
pertinentes dans la mise en place des tests de perception in D. Delomier, M.A. Morel (dir.)
Frontières, du linguistique au sémiotique, Lambert-Lucas, Limoges, 79-96.

[15] ▲
Candea M., Delomier D., 2010, Structures de rectifications en dialogue (interactions profs-élèves),
dans La Rectification à l’oral et à l’écrit, Candea M. & Mir Samii R. (dir) Ophrys, Paris, 31-42.

[16] ▲
Candea M. et Morel M.A., 2002: La gestion de l’indicible à l’aide de différents types d’allongements en
français oral, in Représentations du sens linguistique, Lagorgette D., Larrivée P. (éds.),
Munich, Lincom Europa, 471-486.

200
 Actes de colloques avec comité de lecture

[17] ▲
(à paraitre) Candea M. 2017, Qu’est-ce que le « genre » apporte aux études sur la perception de la
parole ? dans Actes du colloque « Genres et sciences du langage, enjeux et perspectives »,
Montpellier, 2015.

[18] ▲
Candea M., Adda-Decker M. & Lamel L. 2013, Recent evolution of non-standard consonantal variants
in French broadcast news, Proceedings of Interspeech, Lyon.

[19] ▲
Trimaille C., Candea M., Lehka-Lemarchand I., 2012, Existe-t-il une signification sociale stable et
univoque de la palatalisation/affrication en français ? Étude sur la perception de variantes
non standard, Actes du Congrès Mondial de Linguistique Française,
http://www.linguistiquefrancaise.org/index.php.

[20] ▲
Candea M., Sender JG., 2008, Prosodie et indices gestuels, quelle place dans la grammaire de l’oral ?
L’exemple des pauses in Travaux linguistiques du Cerlico n° 21, [Grammaire et Prosodie],
PUR, 95-107.

[21] ▲
Vasilescu I., Candea M., Adda-Decker M., 2005, Perceptual salience of language-specific acoustic
differences in autonomous fillers across eight languages, in Proceedings of Interspeech
2005, Lisbonne.

[22] ▲
Candea M., Vasilescu I., Adda-Decker M., 2005, Inter- and intra-language acoustic analysis of
autonomous fillers, in Proceedings of DISS 2005, Aix-en-Provence, 47-51.

[23]
Clerc-Renaud J, Vasilescu I., Candea M., Adda-Decker M.,2004, Etude acoustique et perceptive des
hésitations autonomes multilingues, in Actes des 25ème Journées d’Etudes sur la Parole, Fès.
[24]
Vasilescu I., Candea M., Adda-Decker M., 2004, Hésitations autonomes dans huit langues : une étude
acoustique et perceptive, in Identification des langues et des variétés par les humains et les
machines, MIDL2004, ENST, S003, 25-30.

[25]
Candea M. et Lefeuvre F., 2004, Les pics d'intensité dans les récits en français oral spontané, in
Travaux linguistiques du CerLiCo n°17, [Intensité, comparaison, degré], PU. Rennes, 27-35.

[26] ▲
Candea M., 2002, Le e d’appui parisien : statut actuel et progression, in Actes des 24èmes Journées
d’Etudes sur la Parole, 185-188.

[27] ▲
Candea M., 2001, Euh et allongements dits « d’hésitation », contraintes combinatoires, in Travaux
linguistiques du CerLiCo n°14, [La grammaticalisation : concepts et cas], P.U. Rennes, 35-
46.

201
[28]
Candea M., 2000, Les euh et les allongements dits « d’hésitation » : deux phénomènes soumis à
certaines contraintes en français oral non lu, in Actes des 23è Journées d’Etude sur la Parole,
75-78.

[29]
Candea M., 2000, Typologie des pauses à travers le processus de formulation/auto-reformulation en
français oral spontané, in Annales littéraires de l’Université de Franche-Comté, n°701
[Répétition, altération, reformulation], série Linguistique et Sémiotique, P.U. Franche-Comté,
119-130.

[30]
Candea M., 1998, Les facteurs désambiguïsateurs du rôle des pauses en français oral spontané, in
Proceedings of the 16th International Congress of Linguists, Pergamon, Oxford, Paper
n°0157.

[31]
Morel M.A. et al., 1998 Intonation, oral spontané, comparaison de langues (article collectif, Equipe
d’Accueil 1483 direction M.A. Morel ; j’ai rédigé la partie « Le paragraphe roumain », in
Proceedings of the 16th International Congress of Linguists, Pergamon, Oxford, Paper
n°0456.

[32]
Candea M., 1997, Peut-on définir la pause dans le discours comme un lieu d’absence de toute
marque?, in Travaux linguistiques du CerLiCo, n°10, [Absence de marques, représentation
de l’absence], P.U. Rennes, 231-244 .

202
 Communications et conférences invitées

• Conférences invitées à des colloques scientifiques :

2017 : Colloque (à venir) « Prononcer les langues: variations, émotions, médiations », Apports des
études perceptives à la compréhension de la variation sociophonétique (Univ. Rouen)

2015 : Congrès du Réseau Francophone de Sociolinguistique, Grenoble : Vers des approches post-
variationnistes en sociophonétique du français ?

2014 : CJC14 Colloque Jeunes chercheurs Montpellier – DIPRALANG : Qu’est-ce que le « genre »
apporte aux études sur la perception de la parole ?

• Invitations diverses (dans un cadre académique, cinq dernières années) :

2014 : Communication dans le séminaire du LIDILEM : L’‘accent de banlieue’ à Sciences Po ? Enjeux


politiques et didactiques autour d'une filière de sélection universitaire ultra-médiatisée

2014 : Discutante pour Intersubjectivity and stance, (international workshop) (PRISMES - Paris 3).

2014 : Discutante autour de la parution de l’ouvrage « Non le masculin ne l’emporte pas sur le
féminin » Eliane Viennot 2014 : GIS Institut du Genre - Columbia Global Center in Paris.

2012-2014 : Conférences du stage de formation continue des professeurs de français (PAF Académie
de Créteil, resp. Colin Fraigneau) intitulé « Enrichir les échanges et l’expression orale » : 1/
Questions de didactique de l’oral au collège et au lycée ; 2/ Perception et évaluation de l’oral

2013 : Communication dans le séminaire du LIDILEM : Nouvelles méthodes de fouille de données en


sociophonétique du français

2012 : Communication dans le séminaire EHESS de Juliette Rennes : Avoir un accent social

2011 : Conférence pour le stage de formation continue des formateurs (IFE / ENS Lyon, resp. Patricia
Lambert & Marie-Odile Maire-Sandoz) intitulé « Diversité langagière à l’école : accueillir les
enfants nouvellement arrivés en France » : Diversité et perception des accents. Exemples.
Implications.

• Autres conférences invitées (grand public) :

2014 : Conférence pour la SNCF et La Poste Région Centre, « Semaine de la Mixité » à Tours : La
langue française permet-elle l’égalité entre les femmes et les hommes ? Focus sur le langage
professionnel

2014 : Conférence à la Mairie de Toulouse, pour la Mission « Egalité, diversité et laïcité » : D’où vient
le sexisme de la langue française ?

2012 : Conférence au Centre Pompidou, Semaine de la langue française, soirée-débat organisée par
C. Trimaille : Les parlers jeunes, un danger pour la langue française ?

2011 : Conférence à la Mairie de Sceaux, au colloque « Le français, une langue en mouvement » ;


titre : Petits mouvements de modes dans la prononciation du français ? Quelques
phénomènes socialement connotés

203
2006-2011 : Nombreuses présentations sur la prononciation et les enjeux sociaux des pratiques
langagières devant des lycéens, en Seine Saint-Denis.

 Comptes rendus

Candea M., 2017 à par., Compte rendu de A. Babel (dir.), 2016, Awareness and control in
sociolinguistic research, Cambridge Univ. Press, pour Langage et société.

Candea M., 2015, Compte rendu de G. Henri-Pannebière, 2010, Les héritiers en échec scolaire, La
Dispute, pour Langage et société, n°152, 142-145.

Candea M., 2009, Compte rendu de Bouvet D., Morel MA., 2002 Le ballet et la musique de la
parole, Ophrys, pour l’Information grammaticale, n°123.

Candea M., 2008, Compte rendu de L’interjection : jeux et enjeux, n° 161 - 2006 de Langages,
dir. Claude Buridant, pour l’Information grammaticale, n°118.

 Communications à des colloques sans actes

2015 : Grenoble, Congrès du Réseau Francophone de Sociolinguistique, avec C. Sperandio et C.


Trimaille, communication orale : Evolution et perception d'une variante non-standard : la
palatalisation/affrication des occlusives en français de France.

2015 : Paris, Symposium du LABEX EFL, avec I. Chitoran (Paris 7) et R. Ridouane (Paris 3/CNRS),
communication orale : Phonetic and phonological dynamics

2012 : Berlin, 19th Symposium of Sociolinguistics, avec Adda-Decker (Paris 3) et L. Lamel


(LIMSI/CNRS), poster: Recent evolution of some non standard variants in French broadcast
news

2012 : Berlin, 19th Symposium of Sociolinguistics, avec C.Trimaille (Grenoble) et I. Lehka (Rouen),
communication orale: Could the affrication of plosive dental consonants be an ongoing
process of phonetic change in French ?

2012 : Paris, Journée d’études : « Recherches linguistiques sur le genre: état des lieux, questions,
enjeux », avec A. Arnold, communication orale : Etudier l’influence des stéréotypes de genre
et de race sur la perception de la parole

2012 : Lausanne, 6e Congrès de recherches féministes, avec A. Arnold, communication orale :


Influence des stéréotypes de genre et de race sur la perception de la parole

2011 : Nancy, Colloque Association for French Language Studies, avec C. Trimaille et I. Lehka :
Etudier la perception de phénomènes sociophonétiques : méthodes « artisanales » et / ou
interfaces en ligne ?

2008: Montpellier, Colloque « Modes langagières dans l’histoire » : L’accent dit de banlieue, une mode
? Etude auprès de lycéens en ZEP inscrits dans une dynamique de réussite scolaire

 Animation scientifique en lien avec l’association GSL « Genres,


Sexualités, Langage »
Depuis 2015 : membre du Comité de rédaction de la revue GLAD ! (en cours de création), consacrée
aux recherches sur langage, genre, sexualités.

204
2015 : Co-organisatrice de Fédérer les études de genre dans Sorbonne Paris Cité (journée de
lancement d’une Fédération de recherche – La Cité du genre – au sein de la COMUE)

2014 : Discutante pour la parution du livre « Le discours pornographique », Marie-Anne Paveau,


Librairie Violette & Co, Paris.

2013 : Discutante, avec Valelia Muni Toke (IRD) du documentaire « Les Roses Noires », dans le cadre
des séminaires publics de l’association « GSL »

2010 : Table ronde interdisciplinaire « Quelle place pour les études de genre ? », Paris 3

 Publications à visée de vulgarisation scientifique

Ouvrage collectif, Viennot E., Candea M., Chevalier Y ., Duverger S., Houdebine A.-M., 2016 :
L’Académie contre la langue française (éditions iXe)

Candea M., 2014, compte rendu de Viennot E. Non, le masculin ne l’emporte pas sur le féminin !
Petite histoire des résistances de la langue française, éditions iXe, publié sur le blog
« Féministes en tous genres », hébergé par le Nouvel Observateur :
http://feministesentousgenres.blogs.nouvelobs.com/archive/2014/07/26/le-feminin-c-est-
bien-et-non-le-masculin-ne-l-a-pas-toujours-emporte-sur-le.html

Candea M., 2013, Cachons ce féminin que nous ne saurions voir au pouvoir : de la résistance des
FrançaisEs à la féminisation des titres glorieux, entretien publié par S. Duverger sur le blog
« Féministes en tous genres », hébergé par le Nouvel Observateur :
http://feministesentousgenres.blogs.nouvelobs.com/archive/2013/12/12/cachez-moi-ce-
feminin-que-je-ne-saurais-voir-de-la-resistanc-516025.html

Arnold A., Candea M. 2013, Le mauvais 'gender' peine à séduire les linguistes, entretien publié par S.
Duverger sur le blog « Féministes en tous genres », hébergé par le Nouvel Observateur :
http://feministesentousgenres.blogs.nouvelobs.com/archive/2013/12/15/titre-de-la-note-
516027.html

Candea M., 2012, Départ : ZEP. Arrivée : Sciences Po. Moyen de transport : le langage, dans
Diversité. Ville-Ecole-Intégration, numéro 167, « Les jeunes des quartiers », 111-115.

Candea M. et Morel M.A., 2001: Interprétation des propriétés mélodiques du disque bleu de Raymond
Hains, publié dans J'ai la mémoire qui planche, R. Hains, Centre Pompidou.

205
Bibliographie du volume de synthèse
Abercrombie, David. 1967. Elements of General Phonetics. Edinburgh: University press.
Achard, Pierre. 1988. « Pierre-André Taguieff : La force du préjugé - Essai sur le racisme
et ses doubles ». Langage et société 46 (1): 69‑80.
Adda-Decker, Martine, Cécile Fougeron, Cédric Gendrot, Elisabeth Delais-Roussarie, et
Lori Lamel. 2012. « La liaison dans la parole spontanée familière : une étude sur
grand corpus ». Revue française de linguistique appliquée XVII (1): 113‑28.
Adda-Decker, Martine, et Natalie D. Snoeren. 2011. « Quantifying temporal speech
reduction in French using forced speech alignment ». Journal of Phonetics, Speech
Reduction, 39 (3): 261‑70.
Amossy, Ruth, et Anne Herschberg-Pierrot. 1997. Stéréotypes et clichés : langue, discours,
société. 128 171. Paris: Nathan.
Angermeyer, Ph.S. 2015. « Review article: The handbooks of sociolinguistics : Defining
and dividing the field ». Journal of Sociolinguistics 1 (19): 91‑104.
Apple, William, Lynn A. Streeter, et Robert M. Krauss. 1979. « Effects of pitch and speech
rate on personal attributions ». Journal of Personality and Social Psychology 37
(5): 715‑27.
Arditty, Jo. 2013. « Du droit d’aubaine au Français Langue d’Insertion (FLI) : Évolution
des modalités d’« accueil » de l’étranger ». Langage et société, no 144 (juin): 7‑26.
Arditty, Jo, et Philippe Blanchet. 2015. « La « mauvaise langue » des « ghettos
linguistiques » : la glottophobie française, une xénophobie qui s’ignore ». Revue
Asylon(s), no 4.
Arguin, Martin. 2003. « L’attention sélective ». In Perception et réalité, édité par André
Delorme et Michelangelo Flückiger. Bruxelles: De Boeck Supérieur.
Armstrong, Nigel. 2002. « Nivellement et standardisation en anglais et en français ».
Langage et société, no 102: 5‑32.
Armstrong, Nigel, et Zoe Boughton. 2000. « Absence de repères régionaux et
relâchement de la prononciation ». Linx. Revue des linguistes de l’université Paris X
Nanterre, no 42: 59‑71.
Armstrong, Nigel, et I. Mackenzie. 2013. Standardization, Ideology and Linguistics.
Palgrave Macmillan.
Armstrong, Nigel, et Timothy Pooley. 2010. Social and linguistic change in European
French. New York: Palgrave Macmillan.
Arnold, Aron. 2012. « Voix genrée / Voix genrante – Étude sociophonétique sur
l’utilisation de la voix dans le passing trans ». Manuscrit pour ouvrage collectif à
la suite de la journée d’étude « Genre et voix » à l’ENS Paris - 26.11.2011.
———. 2015a. « La voix genrée, entre idéologies et pratiques – Une étude
sociophonétique ». Thèse de doctorat. Paris: Univ. Sorbonne nouvelle.
———. 2015b. « Voix et transidentité : changer de voix pour changer de genre ? »
Langage et société n° 151 (1): 87‑105.
———. 2016. « Idéologies de genre et construction des savoirs en sciences
phonétiques ». Revue GLAD!, no 1: [en ligne, http://www.revue-glad.org/117].
Audrit, Stéphanie. 2009. « Variation linguistique et signification sociale chez les jeunes
Bruxelloises issues de l’immigration maghrébine. Analyse socio-phonétique de
trois variantes non standard. »

206
Auger, Nathalie. 2010. « Enseignement des langues d’origine et apprentissage du
français : vers une pédagogie de l’inclusion ». Le français aujourd’hui, no 158
(janvier): 76‑83.
Auzanneau, Michelle. 2009. « “La langue des cités ” ? Contribution pour la libération d’un
mythe ». Langages, Adolescence 4 (70): 873‑85.
———. 2015. « La quête des parlers ordinaires ». Langage et société, no 154 (novembre):
51‑66.
Auzanneau, Michelle, et Caroline Juillard. 2012. « Aperçu théorique et méthodologique
sur la variation langagière de jeunes en banlieue parisienne ». In Langages de
jeunes, plurilinguisme et urbanisation, 27‑41. Paris: L’Harmattan.
Auzanneau, Michelle, Malory Leclère-Messebel, et Caroline Juillard. 2012. « Élaboration
et théâtralisation de catégorisations sociolinguistiques en discours, dans une
séance de formation continue. La catégorie « jeune » en question ». Langage et
société 141 (3): 47.
Avanzi, Mathieu, Sandra Schwab, Dubosson, et Jean-Philippe Goldman. 2012. « La
prosodie de quelques variétés de français parlées en Suisse romande ». In La
variation prosodique régionale en français, édité par Anne Catherine Simon,
89‑118. Bruxelles: De Boeck-Duculot.
Babel, Anna, éd. 2016. Awareness and control in sociolinguistic research. Cambridge:
Cambridge University Press.
Baider, Fabienne. 2004. Hommes galants, femmes faciles: Etude socio-sémantique et
diachronique. Paris : Editions L’Harmattan.
Baider, Fabienne, et Daniel Elmiger, éd. 2012. Intersexion. Langues romanes, langue et
genre.
Bailey, Guy. 2004. « Real and Apparent Time ». In The Handbook of Language Variation
and Change, édité par J. K. Chambers, Peter Trudgill, et Natalie Schilling-Estes,
312‑32. Blackwell Publishing Ltd.
Baker, Rachel, et Valerie Hazan. 2011. « DiapixUK: Task Materials for the Elicitation of
Multiple Spontaneous Speech Dialogs ». Behavior Research Methods 43 (3):
761‑70.
Bardiaux, Alice, et Philippe Boula de Mareuil. 2012. « Allongements vocaliques en
français de belgique : approche expérimentale et perceptive ». In 29e Journées
d’Etude sur la Parole, 625‑32. Grenoble.
Bardiaux, Alice, Anne Catherine Simon, et Jean-Philippe Goldman. 2012. « La prosodie de
quelques variétés de français parlées en Belgique ». In La variation prosodique
régionale en français, édité par Anne Catherine Simon, 65‑88. Bruxelles: De
Boeck-Duculot.
Baugh, John. 1996. « Perceptions within a Variable Paradigm: Black and White Racial
Detection and Identification Based on Speech ». In Focus on the USA, édité par
Edgar W. Schneider, 169‑82. John Benjamins Publishing.
Bell, Allan. 1984. « Language style as audience design ». Language in Society 13 (2):
145‑204.
Bento, Margaret. 1998. « Une étude sociophonétique des affriquées désonorisées en
franco-québécois ». Revue québécoise de linguistique 26 (1): 13.
Bereni, Laure. 2009. « « Faire de la diversité une richesse pour l’entreprise » ». Raisons
politiques, no 35 (octobre): 87‑105.
Berthaut, Jérôme. 2013. La banlieue du « 20 heures » : ethnographie de la production d’un
lieu commun journalistique. Marseille: Agone.
207
Berthod, Sieur. 1657. La Ville de Paris en vers burlesques, contenant toutes les galanteries
du Palais, la chicane des plaideurs, les filouteries du Pont-Neuf... par le sieur
Berthod. In-8°. Anvers: G. Colles. cote BNF 8-Z LE SENNE-6504, numérisé sur
Gallica.
Berthoud, Anne-Claude, et Lorenza Mondada, éd. 2000. Modèles du discours en
confrontation. Sciences pour la communication 6. Bern ; New York: P. Lang.
Billiez, Jacqueline, et Laurence Buson. 2013. « Perspectives diglossique et variationnelle
– Complémentarité ou incompatibilité ? Quelques éclairages sociolinguistiques ».
Journal of French Language Studies 1 (23): 135‑49.
Billiez, Jacqueline, et Patricia Lambert. 2008. « Dans les coulisses de la sociolinguistique
urbaine française : le silence criant des filles ». In Les boîtes noires de Louis-Jean
Calvet, édité par A. Moussirou-Mouyama, 364‑70. Editions Ecriture.
Binisti, N., et M. Gasquet-Cyrus. 2003. « Les accents de Marseille ». Cahiers du français
contemporain, no 8: 107‑29.
Bishop, Hywel, Nikolas Coupland, et Peter Garrett. 2005. « Conceptual accent evaluation:
Thirty years of accent prejudice in the UK ». Acta Linguistica Hafniensia 37 (1):
131‑54.
Blanche-Benveniste, Claire. 1997. Approches de la langue parlée en français. Collection
L’essentiel français. Gap, Paris: Ophrys.
Blanche-Benveniste, Claire, éd. 1997. Le français parlé: études grammaticales. Sciences
du langage. Paris: CNRS éd.
Blanchet, Philippe. 2016. Discriminations: combattre la glottophobie. Petite encyclopédie
critique. Paris: Textuel.
Blom, Jan-Petter, et John J. Gumperz. 1972. « Social Meaning in Linguistic Structures:
Code Switching in Northern Norway ». In Directions in Sociolinguistics : The
Ethnography of Communication, édité par John Joseph Gumperz et Dell H. Hymes.
Boersma, Paul, et David Weenink. 2008. Praat : doing phonetics by computer [Programme
informatique] (version 5.0.14). Version 5.0.14. http://www.praat.org/.
Boggio Éwanjé-Épée, Félix, et Stella Magliani-Belkacem. 2012. Les féministes blanches et
l’empire. 1 vol. Paris: la Fabrique.
Bolinger, Dwight. 1964. « Intonation as a Universal ». In Proceedings of the Ninth
International Congress of Linguists, édité par Horace G Lunt, 833‑48. The Hague:
Mouton.
Boomer, Donald. 1965. « Hesitations and grammatical encoding ». Language and Speech,
no 8: 148‑58.
Boudreau, Annette. 2016. À l’ombre de la langue légitime: l’Acadie dans la francophonie.
Linguistique variationnelle 2. Paris: Classiques Garnier.
Boughton, Zoë. 2005. « Accent levelling and accent localisation in northern French:
Comparing Nancy and Rennes ». Journal of French Language Studies 15 (03):
235‑56.
———. 2006. « When perception isn’t reality: Accent identification and perceptual
dialectology in French ». Journal of French Language Studies 16 (03): 277‑304.
———. 2013. « Social class, cluster simplification and following context: Sociolinguistic
variation in word-final post-obstruent liquid deletion in French ». Journal of
French Language Studies, novembre, 1‑21.
Boula de Mareuil, Philippe. 2012. Accents et styles. Une étude à base de perception et
d’analyses acoustiques à travers le traitement automatique de la parole. Mémoire
d’Habilitation à diriger des recherches, [inédit], Univ. Sorbonne nouvelle.
208
Boula de Mareuil, Philippe, et Iryna Lehka-Lemarchand. 2011. « Can a prosodic pattern
induce/reduce the perception of a lower-class suburban accent in French ? »
Proceedings of the XVIIth International Congress of Phonetic Sciences (ICPhS 2011).
Boula de Mareuil, Philippe, Bianca Vieru-Dimulescu, C. Woehrling, et M. Adda-Decker.
2008. « Accents étrangers et régionaux en français. Caractérisation et
identification ». Traitement Automatique des Langues 49 (3): 135‑62.
Bourdieu, Pierre. 1973. « L’opinion publique n’existe pas ». Les Temps modernes, no 318:
1292‑1309.
———. 1979. La distinction: critique sociale du jugement. Le Sens commun. Paris:
Éditions de Minuit.
———. 1983. « Vous avez dit “populaire” ? » Actes de la recherche en sciences sociales 46
(1): 98‑105.
Bourdieu, Pierre, et Loïc J. D. Wacquant. 1998. « Sur les ruses de la raison impérialiste ».
Actes de la recherche en sciences sociales 121 (1): 109‑18.
Boutet, Josiane, Pierre Fiala, et Jenny Simonin-Grumbach. 1976. « Sociolinguistique ou
sociologie du langage ? » Critique, no 344: 68‑85.
Boutet, Josiane, et Monica Heller. 2007. « Enjeux sociaux de la sociolinguistique : pour
une sociolinguistique critique ». Langage et société 121‑122 (3): 305.
Bouvet, Danielle, et Mary-Annick Morel. 2002. Le ballet et la musique de la parole: le
geste et l’intonation dans le dialogue oral en français. Gap: Ophrys.
Bowdre, Paul Hull. 1964. « A Study of Eye Dialect ». PhD, University of Florida.
Brennan, Susan, et Maurice Williams. 1995. « The feeling of another’s knowing: Prosody
and filled pauses as cues to listeners about metacognitive states of speakers ».
Journal of Memory and Language, no 34: 383‑98.
Brouard, Sylvain, et Vincent Tiberj. 2005. Français comme les autres ? Enquête sur les
citoyens d’origine maghrébine, africaine et turque. Paris: Presses de Sciences Po.
Broudic, Fañch. 2007. Le breton, une langue en questions. 1 vol. Brest: Emgleo Breiz.
Brubaker, Rogers. 2001. « Au-delà de L’« identité » ». Traduit par Frédéric Junqua. Actes
de la recherche en sciences sociales 139 (1): 66‑85.
Bucholtz, Mary. 2011. « Race and the re-embodied voice in Hollywood film ». Language
& Communication 31 (3): 255‑65.
Bulot, Thierry. 2004. « Présentation : Les parlers jeunes, le parler de / des jeunes ».
Cahiers de sociolinguistique, no 9: 5‑7.
Buson, Laurence. 2009. « Variation stylistique entre 5 et 11 ans et réseaux de
socialisation scolaire : usages, représentations, acquisition et prise en compte
éducative ». Phdthesis, Université Stendhal - Grenoble III.
———. 2010. « La didactique du FLM, du FLE et du plurilinguisme au service de l’éveil
aux styles à l’école : des pistes pour la formation des enseignants. » In Actes du
Congrès Mondial de Linguistique Française, [en ligne]. La Nouvelle Orléans.
http://www.linguistiquefrancaise.org/index.php?option=com_article&access=do
i&doi=10.1051/cmlf/2010117&Itemid=129.
Buson, Laurence, et Jacqueline Billiez. 2013. « Representations of stylistic variation in 9-
to 11-year-olds: Cognitive processes and salience ». Linguistics 51 (2).
Butler, Judith. 1990. Gender trouble: feminism and the subversion of identity. New York:
Routledge.
———. 1997. Excitable Speech: A Politics of the Performative. New York: Routledge.
———. 2004. Undoing gender. New York: Routledge.

209
Calvet, Louis-Jean. 2007. « Pour une linguistique du désordre et de la complexité »,
Carnets d’Ateliers de Sociolinguistique, no 1. https://www.u-
picardie.fr/LESCLaP/spip.php?article45.
Cambon, Emmanuelle, et Isabelle Léglise. 2008. « Pratiques langagières et registres
discursifs ». Langage et société, no 124 (juin): 15‑38.
Campbell-Kibler, Kathryn. 2007. « Accent, (ING), and the social logic of listener
perceptions ». American Speech 82 (1).
———. 2009a. « The nature of sociolinguistic perception ». Language Variation and
Change 21 (01): 135‑56.
———. 2009b. « The nature of sociolinguistic perception ». Language Variation and
Change 21 (01): 135‑56.
———. 2016. « Toward a cognitively realistic model of meaningful sociolinguistic
variation. » In Awareness and Control in Sociolinguistic Research, édité par Anna
Babel, 123‑51. Cambridge: Cambridge University Press.
Candea, Maria. 2000. « Contribution à l’étude des pauses silencieuses et des phénomènes
dits’d’hésitation’en français oral spontané. Etude sur un corpus de récits en classe
de français ». Thèse de doctorat, Université Paris 3 - Sorbonne nouvelle.
Cappeau, Paul, et Françoise Gadet. 2007. « L’exploitation sociolinguistique des grands
corpus. » Revue française de linguistique appliquée XII (1): 99‑110.
Carton, Fernand. 1999. « L’épithèse vocalique et son développement en français parlé ».
Faits de langues, no 13: 35‑45.
Castellotti, Véronique. 2014. « Réflexivité et pluralité/diversité/hétérogénéité : soi-
même comme des autres ? » Cahiers de sociolinguistique, no 14 (mars): 129‑44.
Castellotti, Véronique, et Didier de Robillard. 2003. « Des Français devant la variation:
quelques hypothèses ». Cahiers de l’Institut Linguistique de Louvain, no 29:
223‑40.
Celata, Chiara, et Silvia Calamai. 2014. Advances in Sociophonetics. John Benjamins
Publishing Company.
Cervulle, Maxime. 2013. Dans le blanc des yeux: diversité, racisme et médias. Éd.
Amsterdam.
Chambers, J. K., Peter Trudgill, et Natalie Schilling-Estes, éd. 2003. « The Handbook of
Language Variation and Change ». In The Handbook of Language Variation and
Change, 475‑99. Oxford, UK: Blackwell Publishing Ltd.
Chambers, J.K., et Peter Trudgill. 1980. Dialectology. Cambridge: Cambridge University
Press.
Chetcuti, Natasha, et Luca Greco, éd. 2012. La face cachée du genre : Langage et pouvoir
des normes. Presses Sorbonne Nouvelle.
Chevrot, Jean-Pierre. 1994. « La variation phonétique : un point de vue cognitif ».
Langage et société 70 (1): 5‑33.
Chevrot, Jean-Pierre, Damien Chabanal, et Céline Dugua. 2007. « Pour un modèle de
l’acquisition des liaisons basé sur l’usage: trois études de cas ». Journal of French
Language Studies 17 (01): 103–128.
Chevrot, Jean-Pierre, Michel Fayol, et Bernard Laks. 2005. « La liaison de la phonologie à
la cognition ». Langages, no 158: 3‑8.
Chevrot, Jean-Pierre, et Paul Foulkes. 2013. « Introduction: Language acquisition and
sociolinguistic variation ». Linguistics 51 (2).
Chevrot, Jean-Pierre, et Aurélie Nardy. à par. « Sociolinguistique et sciences cognitives :
promesses d’une rencontre inattendue ». In Dynamiques linguistiques : variation,
210
changement et cognition, édité par M.-H. Côté, Jacques Durand, Chantal Lyche, et J.
Peuvergne. Paris: P.U. de Paris Ouest.
Chollet, Mona. 2008. Rêves de droite : défaire l’imaginaire sarkozyste. 1 vol. Paris: Zones.
Clark, Herbert H. 1994. « Managing Problems in Speaking ». Speech Communication 15
(3‑4): 243‑50.
Condry, John, et Sandra Condry. 1976. « Sex Differences: A Study of the Eye of the
Beholder ». Child Development 47 (3): 812‑19.
Conein, Bernard, et Françoise Gadet. 1998. « Le français populaire des jeunes de la
banlieue parisienne, entre permanence et innovation ». In Actes du Colloque
de Heildelberg, Jugendsprache/langue des jeunes/youth language, édité par J.
Androutsopoulos et A. Scholz, 105‑23. Frankfurt: Peter Lang.
Costa, James, Patricia Lambert, et Cyril Trimaille. 2012. « Idéologies, représentations et
différenciations sociolinguistiques : quelques notions en question ». Carnets
d’Atelier de Sociolinguistique, 226‑46.
Coupland, Nikolas. 1980. « Style-Shifting in a Cardiff Work-Setting ». Language in Society
9 (1): 1‑12.
Coutant, Alice. 2016. « Masculin, féminin : l’indicibilité de la non-coïncidence sexe
genre ». In Pratiques et langages du genre et du sexe : déconstruire l’idéologie
sexiste du binarisme, édité par Sophie Bailly, Grâce Ranchon, et Sandra Tomc, EME
Editions, 121‑43. Louvain-la-Neuve.
Coveney, Aidan. 2001. The Sounds of Contemporary French. Chicago: University of
Chicago Press.
Crenshaw, Kimberlé Williams, et Oristelle Bonis. 2005. « Cartographies des marges :
intersectionnalité, politique de l’identité et violences contre les femmes de
couleur ». Cahiers du Genre 39 (2): 51.
Cutler, Anne, et Donia R. Scott. 1990. « Speaker Sex and Perceived Apportionment of
Talk ». Applied Psycholinguistics 11 (03): 253.
Dalola, Amanda. 2014. « A sociophonetic examination of the production and perception
of final vowel devoicing among L1 and L2 speakers of French ». Austin: University
of Texas.
Dambrun, Michaël. 2005. « L’effet du statut du groupe d’appartenance sur les attitudes
ethniques implicites et explicites chez les enfants ». Les cahiers internationaux de
psychologie sociale Numéro 67-68 (3): 65‑76.
Dambrun, Michaël, et Serge Guimond. 2003. « Les mesures implicites et explicites des
préjugés et leur relation : développements récents et perspectives théoriques ».
Les Cahiers internationaux de psychologie sociale, no 57: 52‑73.
Dardelet, Chantal, Fabrice Hervieu-Wane, et Thierry Sibieude. 2011. Une grande école,
pourquoi pas moi? Le droit au mérite. Paris: Colin.
Dautricourt, Robin Guillaume. 2010. « French Liaison: Linguistic and Sociolinguistic
Influences on Speech Perception ». Ohio State University.
Daverne, Carole, et Yves Dutercq. 2013. Les bons élèves: expériences et cadres de
formation. Éducation et société. Paris: Presses Univ. de France.
Delarge, Alexandre. 2001. « Pratiques interprétatives en muséologie ». Études de
communication. langages, information, médiations, no 24 (décembre): 57‑70.
Delhay, Cyril. 2006. Promotion ZEP ; des quartiers à Sciences po -. Paris : Hachette
littératures.
Delomier, Dominique. 1999. « Hein, particule désémantisée ou indice de
consensualité? » Faits de langues, no 13: 137‑49.
211
Delphy, Christine. 2008. Classer, dominer: qui sont les autres ? Paris: la Fabrique éd.
Demazière, Didier. 2008. « L’entretien biographique comme interaction négociations,
contre-interprétations, ajustements de sens ». Langage et société, no 123 (avril):
15‑35.
Derville, Grégory. 1997. « La stigmatisation des « jeunes de banlieue » ». Communication
et langages 113 (1): 104‑17.
Detey, Sylvain, Jacques Durand, Bernard Laks, et Chantal Lyche. 2010. Les variétés du
français parlé dans l’espace francophone: ressources pour l’enseignement. Paris:
Ophrys.
Detey, Sylvain, et Isabelle Racine. 2012. « Les apprenants de français face aux normes de
prononciation : quelle(s) entrée(s) pour quelle(s) sortie(s) ? » Revue française de
linguistique appliquée 1 (17): 81‑96.
Devilla, Lorenzo, et Cyril Trimaille. 2010. « Variantes palatalisées/affriquées en français
hexagonal: Quel(s) statut(s) pour quel destin ? » In Actes du XXVe Congrès
International de Linguistique et de Philologie Romanes, édité par M. Iliescu, H.
Siller-Runggaldier, et P. Danler, 99‑108. Innsbruck.
Di Paolo, Marianna, et Malcah Yaeger-Dror, éd. 2010. Sociophonetics: A Student’s Guide.
Routledge.
Dolbec, Jean, et Marise Ouellet. 1996. Recherches en phonétique et en phonologie au
Québec. Centre international de recherche en aménagement linguistique.
Dorlin, Elsa. 2006. La matrice de la race : Généalogie sexuelle et coloniale de la nation
française. Paris: Editions La Découverte.
Drager, Katie. 2013. « Experimental Methods in Sociolinguistics: matched guise and
identification tasks ». In Rsearch methods in sociolinguistics: A practical guide,
édité par J. Holmes et K. Hazen, Wiley-Blackwell, 58‑73.
Drommel, Raimund. 1980. « Towards a subcategorization of speech pauses ». In
Temporal variables in speech. Studies in honour of F. Goldman-Eisler, édité par
H.W. Dechert et M. Raupach, 227‑38. Mouton.
Duchêne, Alexandre, et Claudine Moïse, éd. 2011. Langage, Genre et Sexualite. Nota Bene.
Duez, Danielle. 1991. La Pause dans la parole de l’homme politique. Editions du CNRS.
———. 1995. « Perception of hesitations in spontaneous French speech ». In Proc. of
ICPhS, 2:498‑501. Stockholm, Suède.
Durand, Jacques, Bernard Laks, Basilio Calderone, et Atanas Tchobanov. 2011. « Que
savons-nous de la liaison aujourd’hui ? » Langue française, no 169: 103‑35.
Durand, Jacques, Bernard Laks, et Chantal Lyche, éd. 2009. Phonologie, variation et
accents du français. Paris-Londres : Hermès-Lavoisier.
Duranti, Alessandro, et Charles Goodwin. 1992. Rethinking Context: Language as an
Interactive Phenomenon. Cambridge University Press.
Eckert, Penelope. 1996. « Vowels and Nail Polish: The Emergence of Linguistic Style in
the Preadolescent Heterosexual Marketplace ». In Gender and Belief Systems, édité
par Natasha Warner, Jocelyn Ahlers, Leela Bilmes, Monica Oliver, Suzanne
Wertheim, et Melinda Chen, Berkeley Women and Language Group:183‑90.
———. 2000. Linguistic Variation as Social Practice: The Linguistic Construction of
Identity in Belten High. Malden, Mass.; Oxford: Blackwell.
———. 2008. « Variation and the Indexical Field ». Journal of Sociolinguistics 12 (4):
453‑76.
———. 2010. « Affect, Sound Symbolism, and Variation ». University of Pennsylvania
Working Papers in Linguistics 15 (2).
212
———. 2012. « Three Waves of Variation Study: The Emergence of Meaning in the Study
of Sociolinguistic Variation ». Annual Review of Anthropology 41 (octobre):
87‑100.
Eckert, Penelope, et Sally McConnell-Ginet. 2007. « Putting communities of practice in
their place ». Gender and Language 1 (1).
Encrevé, Pierre. 1988. La liaison avec et sans enchaînement: phonologie tridimensionnelle
et usages du français. Travaux linguistiques. Paris: Seuil.
Eribon, Didier. 2007. D’une révolution conservatrice : et de ses effets sur la gauche
française. 1 vol. Variations 5. Paris: L. Scheer.
Eychenne, Julien. 2011. « La liaison en français et la théorie de l’optimalité ». Langue
française, no 169 (juillet): 79‑101.
———. 2014. « Schwa and the loi de position in Southern French ». Journal of French
Language Studies 24 (02): 223‑53.
Fagyal, Zsuzsanna. 2003. « La prosodie du français populaire des jeunes: traits
héréditaires et novateurs ». Le Français aujourd’hui 4 (143): 47‑55.
———. 2010. Accents de banlieue : Aspects prosodiques du français populaire en contact
avec les langues de l’immigration. Paris : L’Harmattan.
Fagyal, Zsuzsanna, et Christine Moisset. 1999. « Sound change and articulatory release:
where and why are high vowels devoiced in Parisian French? » In ICPhS, 309‑12.
San Francisco, USA.
Fassin, Didier, Eric Fassin, et Stéphane Beaud, éd. 2009. De la question sociale à la
question raciale: représenter la société française. Poche / Découverte. Paris:
Découverte.
Fassin, Éric, éd. 2015. Les langages de l’intersectionnalité. Raisons Politiques n°58. Paris:
Presses de Sciences Po.
Fiévet, Anne-Caroline, et Alena Podhorná-Polická. 2009. « Quand un nouveau mot
devient identitaire pour les jeunes : le cas de « bolos » ». Revue Adolescence.
http://revueadolescence.fr/2014/01/anne-caroline-fievet-alena-podhorna-
policka-quand-un-nouveau-mot-devient-identitaire-pour-les-jeunes-le-cas-de-
bolos/.
Fónagy, Iván. 1983. La vive voix: essais de psycho-phonétique. Paris: Payot.
Fonagy, Ivan. 1989. « Le français change de visage? » Revue Romane, no 24: 225‑54.
Fónagy, Ivan. 2006. Dynamique et changement. Bibliothèque de l’information
grammaticale. Louvain ; Dudley, MA: Peeters.
Foucault, Michel. 1969. L’Archéologie du savoir. (Réimpression 2008). Bibliothèque des
sciences humaines. Paris: Gallimard.
Fouché, Pierre. 1959. Traite de prononciation francaise. (2. ed.) - Paris: Klincksieck 1959.
LXIII, 528 S., 1 Tab. 8°. Paris : Klincksieck.
Foulkes, Paul, et Gerard Docherty. 2006. « The social life of phonetics and phonology ».
Journal of Phonetics 34 (4): 409‑38.
Foulkes, Paul, Gerard J. Docherty, et Dominic Watt. 2005. « Phonological Variation in
Child-Directed Speech ». Language 81 (1): 177‑206.
Foulkes, Paul, et Jennifer B. Hay. 2015. « The Emergence of Sociophonetic Structure ». In
The Handbook of Language Emergence, édité par Brian MacWhinney et William
O’Grady, 292‑313. Hoboken, NJ, USA: John Wiley & Sons, Inc.
Franchi, Vijé. 2002. « Ethnicisation des rapports entre élèves : une approche
identitaire ». Ville-Ecole-Intégration Enjeux (VEI), no hors série n° 6 (décembre):
25‑40.
213
François-Geiger, Denise. 1990. A la recherche du sens: des ressources linguistiques aux
fonctionnements langagiers. Peeters Publishers.
Fries, Susan, et Christine Deprez. 2003. « L’accent étranger : identification et traitement
social en France et aux Etats-Unis ». In Français: variations, représentations et
pratiques, édité par Jacqueline Billiez et Didier de Robillard, 89‑105. ENS
Editions.
Gadet, Françoise. 1996. « Variabilité, variation, variété: le français d’Europe ». Journal of
French Language Studies 6 (1): 75‑98.
———. 1997. « La variation, plus qu’une écume ». Langue française, 115(1), 5-18.
———. 2000. « Le terme « relâchement » en sociolinguistique ». Linx. Revue des
linguistes de l’université Paris X Nanterre, no 42 (juin): 11‑20.
———. 2003. « ‘Français populaire’ : un classificateur déclassant ? » Marges
linguistiques, no 6: 103‑15.
———. 2006. « Le locuteur comme champ de bataille ». In Conférence IUF « De l’écologie
des langues et de la Dynamique du langage ». Paris.
www.unice.fr/ChaireIUFNicolai/Archives/Conferences/Conf_IUF_Paris/Chp-
de_bataille.pdf.
———. 2007. La variation sociale en français, Nouv. éd. rev. et augm. Paris, Ophrys.
———. 2007. « Identités françaises différentielles et linguistique du contact ». In The
French language and Questions of Identity, édité par Wendy Ayres-Bennett et Mari
C. Jones, 206‑16. London: Legenda.
———. 2010. « Problèmes méthodologiques du recueil des données ».
http://www.revue-texto.net/Inedits/Gadet_Principes.html.
Gadet, Françoise, et Emmanuelle Guerin. 2015. « Introduction ». Langage et société, no
154 (novembre): 7‑15.
Gadet, Françoise, et Philippe Hambye. 2014. « Contact and Ethnicity in “Youth Language”
Description: in Search of Specificity ». In Nicolaï, Robert, Questionning Language
Contact, Brill, 183‑2016. Leiden/Boston.
Gadet, Françoise, et Roberto Paternostro. 2013. « Un accent multiculturel en région
parisienne ? » Repères- Dorif : autour du français : langues, cultures et
plurilinguisme, septembre.
En ligne : http://www.dorif.it/ezine/ezine_printarticle.php?art_id=94.
Gadet, Françoise, et Sandrine Wachs. 2015. « Comparer des données de corpus :
évidence, illusion ou construction ? » Langage et société, no 154 (novembre):
33‑49.
Gasquet-Cyrus, Médéric. 2012. « La discrimination à l’accent en France : idéologies,
discours et pratiques ». Carnets d’atelier de sociolinguistique 2012 (6): 227‑45.
———. 2013a. « Perpectives dynamiques sur la ségrégation sociolinguistique en milieu
urbain ». Glottopol, no 21.
———. 2013b. « Peut-on écrire l’accent marseillais ? » TIPA. Travaux interdisciplinaires
sur la parole et le langage, no 29 (décembre).
———. 2015. « Changements urbains et conflits sociolinguistiques: l’impact de la
gentrification sur le français de Marseille ». International Journal of the Sociology
of Language 2015 (235): 77–101.
Gaudio, Rudolf P. 1994. « Sounding Gay: Pitch Properties in the Speech of Gay and
Straight Men ». American Speech 69 (1): 30‑57.
Giles, Howard, Justine Coupland, et Nikolas Coupland, éd. 1991. Contexts of
Accommodation : Developments in Applied Sociolinguistics. Studies in Emotion
214
and Social Interaction. Cambridge New York Port Chester Paris: Cambridge
university press Éd. de la Maison des sciences de l’homme.
Gill, Mary M. 1991. « Accents and stereotypes: Their effects on perceptions of teachers
and lecture comprehension ». ETD collection for University of Nebraska - Lincoln,
janvier, 1‑179.
Goldman, Jean-Philippe, Antoine Auchlin, et Anne Catherine Simon. 2009. « Description
prosodique semi-automatique et discrimination de styles de parole ». In Colloque
Interfaces Discours-Prosodie.
Goldman-Eisler, Frida. 1958. « Speech Analysis and Mental Processes ». Language and
Speech 1 (1): 59‑75.
———. 1972. « Pauses, Clauses, Sentences ». Language and Speech, no 15: 103‑13.
Gravier, Guillaume, et al. 2004. « The ESTER evaluation campaign of rich transcription of
French broadcast news ». In LREC, 885‑88. Lisbonne, Portugal.
Greco, Luca. 2011. « Exhumer le corps du placard : pour une linguistique queer du corps
king ». Paris.
———. 2012. Pratiques de catégorisation, genre et interaction : récit d’une transition.
Mémoire pour l’Habilitation à Diriger des Recherches, Université Lyon 2.
———. 2014. « Les recherches linguistiques sur le genre : un état de l’art ». Langage et
société, no 148 (juin): 11‑29.
Grosjean, François, et Alain Deschamps. 1975. « Analyse contrastive des variables
temporelles de l’anglais et du français: vitesse de parole et variables
composantes, phénomènes d’hésitation. » Phonetica, no 31: 144‑84.
Grosman, Iulia. 2015. « (Dis)Fluencies as cognitive cues for native speakers of French ».
In Proceedings of Disfluencies in Spontaneous Speech Workshop. Edinburgh.
Guaïtella, Isabelle. 1991. « Hésitations vocales en parole spontanée : réalisations
acoustiques et fonctions rythmiques ». Travaux de l’Institut de Phonétique d’Aix, no
14: 113‑30.
Guénif Souilamas, Nacira, éd. 2006. La République mise à nu par son immigration. 1 vol.
Paris: la Fabrique éd.
Guillaumin, Colette. 1972. L’idéologie raciste : genèse et langage actuel. Paris: Mouton.
———. 1986. « « Je sais bien mais quand même », ou les avatars de la notion de race ». In
La science face au racisme, 55‑65. Complexe poche 2. Bruxelles [Paris]: Éd.
Complexe [diffusion Presses universitaires de France].
———. 1992a. Sexe, race et pratique du pouvoir: L’idée de nature. Côté-Femmes.
———. 1992b. « Usages théoriques et usages banals du terme “race” ». Mots 33 (1):
59‑65.
Hambye, Philippe. 2005. « La prononciation du français contemporain en Belgique.
Variation, normes et identités ». Thèse de doctorat, Louvain: Université
catholique de Louvain.
———. 2015. « L’ethnographie comme méthode d’enquête sociolinguistique : « faire
preuve » à partir d’un cas singulier ? » Langage et société, no 154 (novembre):
83‑97.
Hambye, Philippe, et Anne Catherine Simon. 2009. « La prononciation du français en
Belgique ». In Phonologie, variation et accents du français, édité par Jacques
Durand, Bernard Laks, et Chantal Lyche, 95‑130. Paris: Lavoisier.
Hansen, Anita Berit. 1994. « Etude Du E Caduc — Stabilisation En Cours et Variations
Lexicales ». Journal of French Language Studies 4 (01): 25.

215
———. 1997. « Le nouveau [ə] prépausal dans le français parlé à Paris ». In Polyphonie
pour Ivan Fonagy, 173‑98. Paris-Montréal: L’Harmattan.
———. 2000. « Le E caduc interconsonantique en tant que variable sociolinguistique ».
Linx. Revue des linguistes de l’université Paris X Nanterre, no 42 (juin): 45‑58.
———. 2015. « Sensibilité et insensibilité devant la variation phonétique : une étude
perceptive sur le français de la région parisienne ». Langage et société n° 151 (1):
45‑65.
Hansen, Anita Berit, et Maj-Britt Mosegaard Hansen. 2003. « Le [E] prépausal et
l’interaction ». Etudes Romanes, no 54: 89‑109.
Hay, Jennifer, et Katie Drager. 2010. « Stuffed toys and speech perception. » Linguistics
48 (4): 865‑92.
Hay, Jennifer, Paul Warren, et Katie Drager. 2006. « Factors influencing speech
perception in the context of a merger-in-progress ». Journal of Phonetics 34 (4):
458‑84.
Heller, Monica. 2002. Éléments d’une sociolinguistique critique. Paris: Didier.
Houdebine, Anne-Marie. 1977. « Français régional ou français standard? À propos du
système des voyelles orale en français contemporain ». Édité par Henriette
Walter. Studia phonetica, no 13: 35‑63.
———. 1979. « La différence sexuelle et la langue ». Langage et société 7 (1): 3‑30.
Houdebine-Gravaud, Anne-Marie. 2003. « Trente ans de recherche sur la différence
sexuelle, ou Le langage des femmes et la sexuation dans la langue, les discours, les
images ». Langage et société 106 (4): 33.
———. , éd. 2005. L’imaginaire linguistique. Paris, France: Editions L’Harmattan.
Irvine, Judith T., et Susan Gal. 2000. « Language ideology and linguistic differentiation ».
In Regimes of language: Ideologies, polities, and identities, édité par P.V. Kroskrity,
35‑83. Santa Fe: School of American Research Press.
Israel, Jean-Jacques, Bernard Herszberg, et Simone Bonnafous. 1992. « Le mot
~~race~~ est-il de trop dans la Constitution française ? Une controverse
[Présentation] ». Mots 33 (1): 5‑8.
Jacquard, Albert. 1986. « Biologie et théorie des “élites” ». In La Science face au racisme.
Bruxelles-Paris: Éd. Complexe [diffusion Presses universitaires de France].
Jamin, Mikael. 2005. « Sociolinguistic Variation in the Paris Suburbs ». Kent at
Canterburry.
Jamin, Mikael, Cyril Trimaille, et Médéric Gasquet-Cyrus. 2006. « De La Convergence
Dans La Divergence: Le Cas Des Quartiers Pluri-Ethniques En France ». Journal of
French Language Studies 16 (03): 335.
Kendall, Tyler, et Valerie Fridland. 2012. « Variation in perception and production of mid
front vowels in the U.S. Southern Vowel Shift ». Journal of Phonetics 40 (mars):
289‑306.
Kerswill, Paul, et Ann Williams. 2002. « “Salience” as an explanatory factor in language
change: evidence from dialect levelling in urban England . » In M.C. Jones & E.
Esch, Language change. The interplay of internal, external and extra-linguistic
factors, 81‑110. Berlin: Mouton de Gruyter.
Khaznadar, Edwige. 2002. Le féminin à la française. L’Harmattan. Paris.
Ko, Young-Lim. 1996. Etude prosodique du discours oral en français: variables temporelles
et variables mélodiques dans l’interview radiophonique. Thèse de doctorat,
Université de Strasbourg.

216
Kroch, Anthony S. 1978. « Toward a Theory of Social Dialect Variation ». Language in
Society 1 (7): 17‑36.
Kuiper, Lawrence. 2005. « Perception Is Reality: Parisian and Provençal Perceptions of
Regional Varieties of French1 ». Journal of Sociolinguistics 9 (1): 28‑52.
Kunert, Stéphanie, et Aude Seurrat. 2013. « De la « publicité sociale » : lorsque les
marques communiquent sur « la lutte contre les discriminations » et la
« promotion de la diversité » ». Communication & management 10 (1): 63‑78.
Labov, William. 1963. « The social motivation of a sound change ». Word, no 19:
273‑309.
———. 1966. The Social Stratification of English in New York. Center for Applied
Linguistics. Washington, D.C.
———. 1972. Sociolinguistic Patterns. University of Pennsylvania Press.
———. 1983. « Le changement linguistique: Entretien avec William Labov ». Actes de la
recherche en sciences sociales 46 (1): 67‑71.
———. 2006. « A sociolinguistic perspective on sociophonetic research. » Journal of
Phonetics 34 (4): 500‑515.
———. 2011. Principles of Linguistic Change, Cognitive and Cultural Factors. John Wiley
& Sons.
———. 2013. « Preface: The acquisition of sociolinguistic variation ». Linguistics 51 (2).
Labov, William, M. Karen, et C. Miller. 1991. « Near-mergers and the suspension of
phonemic contrast. » Language Variation and Change 3 (1): 33‑74.
Lacheret, Anne, Chantal Lyche, et Atanas Tchobanov. 2011. « Schwa et position initiale
revisités : l’éclairage de la prosodie en phonologie du français contemporain ».
Langue française, no 169 (juillet): 137‑58.
Laks, Bernard. 1983. « Langage et pratiques sociales [Étude sociolinguistique d’un
groupe d’adolescents] ». Actes de la recherche en sciences sociales 46 (1): 73‑97.
———. 2007. « Les hommes politiques français et la liaison (1908-1999) ». In Modéliser
le changement : Les voies du français, édité par L. Baronian et F. Martineau,
Presses de l’Université de Montréal, 237‑69. Montréal.
Lambert, Patricia. 2005. « Les répertoires plurilectaux de jeunes filles d’un lycée
professionnel : une approche sociolinguistique ethnographique ». Thèse,
Grenoble 3.
Lambert, W. E., H. Frankle, et G. R. Tucker. 1966. « Judging personality through speech: A
French-Canadian example ». Journal of Communication 16 (4): 305‑21.
Lambert, W.E., R.C. Hodgson, R.C. Gardner, et S. Fillenbaum. 1960. « Evaluational
reactions to spoken languages ». Journal of Abnormal and Social Psychology 60
(1): 44‑51.
Lamel, Lori, Sandrine Courcinous, Julien Despres, Jean-Luc Gauvain, Yvan Josse, Kevin
Kilgour, Florian Kraft, et al. 2011. « Speech Recognition for Machine Translation
in Quaero ». In The International Workshop on Spoken Language Translation. San
Francisco, USA.
Landick, Marie. 2004. Enquête sur la prononciation du français de référence : les voyelles
moyennes et l’harmonie vocalique. Espaces discursifs. Paris: l’Harmattan.
Laur, Elke. 2013. « “Those who work in the bush” ou l’effet des lunettes idéolinguistiques
utilisées dans une recherche qui a fait école ». Édité par Cyril Trimaille et Jean-
Michel Eloy. Carnets d’atelier de sociolinguistique Idéologies linguistiques et
discriminations (6): 130‑48.

217
Léglise, Isabelle. 1999. « Contraintes de l’activité de travail et contraintes sémantiques
sur l’apparition des unités et l’interprétation des situations. L’exemple de la
particule énonciative “hein” dans les dialogues de la Patrouille Maritime. » Thèse,
Université Paris 7.
———. 2013. Multilinguisme, variation, contact. Des pratiques langagières sur le terrain à
l’analyse de corpus hétérogènes . Mémoire pour l’Habilitation à Diriger des
Recherches, Paris: INALCO.
Lehka-Lemarchand, Iryna. 2007. « Accent de banlieue : approche phonétique et
sociolinguistique de la prosodie des jeunes d’une banlieue rouennaise ». Thèse de
doctorat, Université de Rouen.
———. 2011. « La stratification stylistique d’un indice prosodique de l’accent dit « de
banlieue » – Enquête auprès de jeunes Rouennais ». Lidil. Revue de linguistique et
de didactique des langues, no 44 (décembre): 79‑92.
———. 2015. « Questionner la signification sociale d’un indice prosodique de l’accent
dit de banlieue en France ». Langage et société n° 151 (1): 67‑86.
Léon, Pierre. 1993. Phonétisme et prononciations du français. Paris: Nathan. [Rééd. 2011
A. Colin].
Léon, Pierre R. 1973. « Modèle standard et système vocalique du français populaire de
jeunes Parisiens ». In Contributions canadiennes à la linguistique appliquée,
55‑79. Montréal: G. Rondeau.
Levinson, Stephen C. 2012. « The Original Sin of Cognitive Science ». Topics in Cognitive
Science 4 (3): 396‑403.
Lodge, R. Anthony. 2009(2004). A Sociolinguistic History of Parisian French. Cambridge:
Cambridge University Press.
Maclay, Howard, et Charles Osgood. 1959. « Hesitation Phenomena in Spontaneous
English Speech ». Word, no 15: 19‑44.
Mallet, Géraldine-Mary. 2008. « La liaison en français : descriptions et analyses dans le
corpus PFC ». Thèse de doctorat, Université Paris Ouest Nanterre La Défense.
Mareüil, Philippe Boula de, Albert Rilliard, et Alexandre Allauzen. 2012. « Variation
diachronique dans la prosodie du style journalistique : le cas de l’accent initial ».
Revue française de linguistique appliquée XVII (1): 97‑111.
Margalit, Avishai. 2007. La société décente. Paris: Flammarion.
Martinet, André. 1945. La prononciation du français contemporain. Paris: Droz.
———. 1958. « C’est jeuli, le Mareuc ! » Romance philology, no 11: 345‑55.
Mauger, Gérard. 2006. L’émeute de novembre 2005 : une révolte protopolitique. 1 vol.
Savoir-agir. Bellecombe-en-Bauges: Éd. du Croquant.
Mendoza-Denton, Norma. 1999. « Sociolinguistics and Linguistic Anthropology of US
Latinos ». Annual Review of Anthropology 28 (janvier): 375‑95.
———. 2008. Homegirls: Language and Cultural Practice among Latina Youth Gangs.
Malden, MA: Blackwell Pub.
———. 2011. « The Semiotic Hitchhiker’s Guide to Creaky Voice: Circulation and
Gendered Hardcore in a Chicana/o Gang Persona ». Journal of Linguistic
Anthropology 21 (2): 261–280.
Menezes, Caroline, Donna Erickson, Kikuo Maekawa, et Hideki Kawahara. 2007.
« Experimental paradigm influence subject’s perception of attitudes ». The
Journal of the Acoustical Society of America 122 (5): 3018.
Merton, Robert K. 1948. « The self-fulfilling prophecy ». Antioch Review, no 8: 193‑210.

218
Mettas, Odette. 1979. La prononciation parisienne: aspects phoniques d’un sociolecte
parisien (du faubourg Saint-Germain à La Muette). Paris: SELAF.
Michaels, Walter Benn. 2009. La diversité contre l’égalité. Traduit par Frédéric Junqua. 1
vol. Paris: Raisons d’agir.
Michard, Claire. 1996. « Genre et sexe en linguistique : les analyses du masculin
générique ». Mots 49 (1): 29‑47.
———. 2002. Le sexe en linguistique: sémantique ou zoologie ? Editions L’Harmattan.
Michel, Lucy. 2016. « Le « neutre » d’une langue sans neutre. Genre grammatical et
dénomination de la personne ». Implications Philosophiques.
http://www.implications-philosophiques.org/actualite/une/le-neutre-dune-
langue-sans-neutre/.
Milroy, James, et Lesley Milroy. 2012. Authority in Language: Investigating Standard
English. 4 Reprint. Abingdon, Oxon ; New York: Routledge.
Moïse, Claudine. 2003. « Pratiques langagières des banlieues : où sont les femmes ? » La
lettre de l’enfance et de l’adolescence 51 (1): 47‑54.
Mondada, Lorenza. 1998. « Technologies et interactions sur le terrain du linguiste ».
Cahiers de l’ILSL, no 10: 39‑68.
———. 2000a. Décrire la ville: la construction des savoirs urbains dans l’interaction et
dans le texte. Collection Villes. Paris: Anthropos.
———. 2000b. « Les effets théoriques des pratiques de transcription ». Linx. Revue des
linguistes de l’université Paris X Nanterre, no 42 (juin): 131‑46.
———. 2001. « L’entretien comme événement interactionnel ». In L’espace urbain en
méthodes, 197‑214. Marseille: Parenthèses.
———. 2005. Chercheurs en interaction : comment émergent les savoirs. 1 vol. 28.
Lausanne [Paris]: Presses polytechniques et universitaires romandes [diff.
GEODIF].
Moreau, Marie-Louise, et Brichard. 1997. « La part de la subjectivité dans l’évaluation de
la qualité linguistique: Une étude en Belgique francophone ». Parole, no 2:
121‑45.
Morel, Mary-Annick. 2000. « Intonation, Coénonciation, Colocution, Formulation ». In
Modèles du discours en confrontation, édité par Lorenza Mondada et Anne-Claude
Berthoud. Sciences pour la communication 6. Bern ; New York: P. Lang.
Morel, Mary-Annick, et Laurent Danon-Boileau. 1998. Grammaire de l’intonation
l’exemple du français. Paris : Ophrys.
Moscovici, Serge. 2003. « 2. Des représentations collectives aux représentations
sociales : éléments pour une histoire ». In Les représentations sociales, par Denise
Jodelet, 7e éd., 79. Presses Universitaires de France.
Nardy, Aurélie, Jean-Pierre Chevrot, et Stéphanie Barbu. 2013. « The acquisition of
sociolinguistic variation: Looking back and thinking ahead ». Linguistics 51 (2).
Nérant, Camille. 2015. « La perception des journalistes d’un micro phénomène de socio
phonétique, l’épithèse fricative ». Mémoire de M2, non publié, Université Paris 3 -
Sorbonne nouvelle.
Niedzielski, Nancy. 1999. « The Effect of Social Information on the Perception of
Sociolinguistic Variables ». Journal of Language and Social Psychology 18 (1):
62‑85.
Nonnon, Élisabeth. 2014. « Langage oral et inégalités scolaires (entretien) ». Le français
aujourd’hui 2 (185): 17‑24.

219
Oberti, Marco. 2007. L’école dans la ville: ségrégation, mixité, carte scolaire. Sociétés en
mouvement. Paris: Presses de la Fondation nationale des sciences politiques.
Oberti, Marco, Franck Sanselme, et Agathe Voisin. 2009. « Ce que Sciences Po fait aux
lycéens et à leurs parents : entre méritocratie et perception d’inégalités ». Actes
de la recherche en sciences sociales, no 180: 102‑24.
Ohala, John. 1989. « Sound Change Is Drawn from a Pool of Synchronic Variation ». In
Language Change, Contributions to the Study of Its Causes, édité par Leiv E. Breivik
et Ernst H. Jahr, Reprint 2011, 173‑98. Berlin, Boston: De Gruyter Mouton.
———. 1993. « Sound change as nature’s speech perception experiment ». Speech
Communication, no 13: 155‑61.
———. 1994. « The frequency codes underlies the sound symbolic use of voice pitch ».
In Sound symbolism, édité par Leanne Hinton, Johanna Nichols, et John J. Ohala,
325‑47. Cambridge ; New York: Cambridge University Press.
———. 1996. « Speech perception is hearing sounds, not tongues ». J. Acoustic Soc. Am.,
no 99: 1718‑25.
Ohala, John, et J.B. Gilbert. 1981. « Listeners’ ability to identify languages by their
prosody. » In Problèmes de prosodie, vol. II Expérimentations, modèles et fonctions
(Studia Phonetica 18), édité par Pierre Léon et Mario Rossi, 123‑31. Ottawa.
Ohala, John, et Elizabeth Shriberg. 1990. « Hypercorrection in speech perception ». In
Proceedings, ICSLP 90, 405‑8. Kobe.
Pasquali, Paul. 2014. Passer les frontières sociales. Paris : Fayard.
Passy, Paul. 1905. Petite phonétique comparée des principales langues européennes, par
Paul Passy,... Leipsic: B. G. Teubner.
Paternostro, Roberto. 2008. « Le dévoisement des voyelles finales, étude perceptive ».
Rassegna Italiana di Linguistica Applicata 3 (40): 129‑58.
———. 2016. Diversité des accents et enseignement du français - Les parlers jeunes en
région parisienne. Paris : L’Harmattan.
Paternostro, Roberto, et Jean-Philippe Goldman. 2014. « Vers une modélisation
acoustique de l’intonation des jeunes en région parisienne : une question de
“proximité” ? » NCLF 31.
Paveau, Marie-Anne. 2006. Les prédiscours : sens, mémoire, cognition. Paris: Presses
Sorbonne nouvelle.
———. 2008. « Les non-linguistes font-ils de la linguistique ? Une approche anti-
éliminativiste des théories folk ». Pratiques, no 139‑140 (décembre): 93‑110.
———. 2009. « Quand Marie-Chantal dit merde : sentiment linguistique et normes
perceptives dansla haute société ». In Sentiment linguistique et discours spontanés
sur le lexique, 41‑63. Recherches linguistiques. Metz.
Paveau, Marie-Anne, et Guy Achard-Bayle. 2008. « La linguistique hors du temple ».
Pratiques, no 139‑140 (décembre): 3‑16.
Peretz, Caroline. 1977. « Aspects sociolinguistiques du parler parisien contemporain ».
Édité par Henriette Walter. Studia phonetica, no 13: 65‑78.
Pinçon, Michel, et Monique Pinçon-Charlot. 2002. Voyage en grande bourgeoisie : journal
d’enquête. Quadrige. Paris: Presses universitaires de France.
———. 2003. Sociologie de la bourgeoisie. Nouv. éd. Repères 294. Paris: Éd. la
Découverte.
Pinget, Anne-France. 2015. « The actuation of sound change ». Utrecht University.

220
Piriou, Yann-Ber, éd. 1971. Défense de cracher par terre et de parler breton : poèmes de
combat, 1950-1970, anthologie bilingue. Collection J’exige la parole 19. Honfleur
(Calvados): P. J. Oswald.
Podhorná-Polická, Alena, et Anne-Caroline Fiévet. 2010. « Le questionnaire comme
moyen de circonscrire l’emploi d’un mot identitaire pour les jeunes : le cas de
“bolos” ». In Pour une épistémologie de la sociolinguistique, édité par Henri Boyer,
301‑8. Limoges: Lambert Lucas.
Preston, Dennis R. (ed.) 1999. A Handbook of Perceptual Dialectology, vol. I. Amsterdam:
Benjamins.
———. 2016. « Whaddayaknow now? » In Awareness and Control in Sociolinguistic
Research, édité par Anna Babel, 177‑99. Cambridge: Cambridge University Press.
Preston, Dennis R., et Nancy Niedzielski. 2010. A Reader in Sociophonetics. Trends in
Linguistics: Studies and Monographs (TiLSaM): 219, vii, 426 pp. Berlin, Germany:
de Gruyter Mouton.
Pustka, Elissa. 2011. « Le conditionnement lexical de l’élision des liquides en contexte
post-consonantique final ». Langue française, no 169 (juillet): 19‑38.
Rácz, Péter. 2013. Salience in Sociolinguistics: A Quantitative Approach. Walter de
Gruyter.
Remysen, Wim. 2016. « Langue et espace au Québec: les Québécois perçoivent-ils des
accents régionaux? » LCM - La Collana / The Series, novembre, 31–57.
Rickford, John R. 2001. « Style and Stylizing from the Perspective of a Non-Autonomous
Sociolinguistics ». In Style and sociolinguistic variation, édité par Penelope Eckert
et John R. Rickford, 220‑31. Cambridge, UK ; New York, NY: Cambridge University
Press.
Rictus, Jehan. 1914. Le coeur populaire. Roubaix: Geai bleu éd.
Rollock, N. 2014. « Race, Class and “The Harmony of Dispositions” ». Sociology 48 (3):
445‑51.
Rubin, Donald L. 1992a. « Nonlanguage factors affecting undergraduates’ judgments of
nonnative English-speaking teaching assistants ». Research in Higher Education
33 (4): 511‑31.
———. 1992b. « Nonlanguage Factors Affecting Undergraduates’ Judgments of
Nonnative English-Speaking Teaching Assistants ». Research in Higher Education
33 (4): 511‑31.
Salazar-Orvig, Anne, et Michèle Grossen. 2008. « Le dialogisme dans l’entretien
clinique ». Langage et société, no 123 (avril): 37‑52.
Shane, S.A. 1967. « L’élision et la liaison en français ». Langages, no 8: 37‑59.
Sicoli, Mark A. 2010. « Shifting Voices with Participant Roles: Voice Qualities and Speech
Registers in Mesoamerica ». Language in Society 39 (04): 521‑53.
Silverstein, Michael. 2003. « Indexical Order and the Dialectics of Sociolinguistic Life ».
Language & Communication 23 (3‑4): 193‑229.
Simon, Anne Catherine, Philippe Hambye, Alice Bardiaux, et Philippe Boula de Mareuil.
2012. « Caractéristiques des accents régionaux en français : que nous apprennent
les approches perceptives ? » In La variation prosodique régionale en français,
édité par Anne Catherine Simon, Bruxelles : De Boeck, Duculot, 27‑40.
Simon, Patrick, et Martin Clément. 2006. « Comment décrire la diversité des origines en
France? Une enquête exploratoire sur les perceptions des salariés et des
étudiants ». Population et sociétés juillet-aout (425): 1‑4.

221
Smith, Caroline L. 2003. « Vowel Devoicing in Contemporary French ». Journal of French
Language Studies 13 (2): 177‑94.
Snell, Julia, Sara Shaw, et Fiona Copland, éd. 2015. Linguistic Ethnography :
Interdisciplinary Explorations. Palgrave Advances in Language and Linguistics.
Basingstoke New-York: Palgrave Macmillan.
Solis Obiols, Marina. 2002. « The Matched Guise Technique: a Critical Approximation to a
Classic Test for Formal Measurement of Language Attitudes ». Noves SL. Revista
de Sociolingüistica Summer. consulté en mai 2008 sur
http://cultura.gencat.net/llengcat/noves.
Soum-Savaro, Ch., A. Coquillon, et J.-P. Chevrot, éd. 2014. La Liaison : Approches
Contemporaines. Peter Lang Pub Inc.
Sperandio, Chloé. 2015. « Analyse de la perception de variantes affriquées : entendre et
d[ʒ]ire ». Mémoire de master 1, dir. M. Candea, Paris 3 - Sorbonne nouvelle.
Squires, Lauren M. 2011. « Sociolinguistic Priming and the Perception of Agreement
Variation: Testing Predictions of Exemplar-Theoretic Grammar ». University of
Michigan.
Straka, Georges. 1952. La Prononciation parisienne: ses divers aspects et ses traits
généraux. Palais Univ.
Taguieff, Pierre-André. 1985. « Le néo-racisme différentialiste. Sur l’ambiguïté d’une
évidence commune et ses effets pervers ». Langage et société 34 (1): 69‑98.
Tajfel, Henri. 1981. Human Groups and Social Categories: Studies in Social Psychology.
CUP Archive.
Tashakkori, Abbas, et Charles Teddlie. 2002. Handbook of Mixed Methods in Social &
Behavioral Research. SAGE.
Terrail, Jean-Pierre. 2009. De l’oralité : Essai sur l’égalité des intelligences. Paris: La
Dispute.
Thomas, E. R. 2002. « Sociophonetic applications of speech perception experiments ».
American Speech 2 (77): 115‑47.
Thomas, Erik R. 1996. « A Comparison of Variation Patterns of Variables among Sixth-
Graders in an Ohio Community ». In Focus on the USA, édité par Edgar W.
Schneider, 149‑68. John Benjamins Publishing.
———. 2011. Sociophonetics: An Introduction. Basingstoke, Hampshire; New York:
Palgrave Macmillan.
Tin, Louis-Georges, et Valérie Kubiak, éd. 2011. Le pacte : pour en finir avec les
discriminations. 1 vol. Paris: Éd. Autrement.
Torreira, Francisco, Martine Adda-Decker, et Mirjam Ernestus. 2010. « The Nijmegen
Corpus of Casual French ». Speech Communication 52 (3): 201‑12.
Torreira, Francisco, et Mirjam Ernestus. 2010. « Phrase-medial vowel devoicing in
spontaneous French ». In Proceedings of Interspeech 2010, 2006‑9. Makuhari,
Japan.
———. 2011. « Vowel elision in casual French: The case of vowel /e/ in the word
c’était ». Journal of Phonetics 39 (1): 50‑58.
Tranel, Bernard. 1987. « French schwa and nonlinear phonology ». Linguistics 25 (5).
Trimaille, Cyril. 2003. « Approche sociolinguistique de la socialisation langagière
d’adolescents ». Grenoble 3.
———. 2008. « Who’s not palatalizing? Trying to understand the status of palatalized
variants in French ». In 8th Conference of the HDLS. Albuquerque, New Mexico.

222
———. 2010. « Consonnes dentales palatalisées en français contemporain : indicateurs,
marqueurs et/ou variantes en développement ? » In Les voix des Français, édité
par Michel Abecassis et Gudrun Ledegen, Berne : Peter Lang, 2:89‑100.
Trimaille, Cyril, et Jacqueline Billiez. 2007. « Pratiques langagières de jeunes urbains :
peut-on parler de «parler» ? » In Les français en émergence, édité par Chiara
Molinari et Enrica Galazzi, 95‑109. Berne: Peter Lang.
Trudgill, Peter. 1986. On dialect. Oxford: Blackwell.
Vaissière, Jacqueline. 2015. La phonétique. Paris: Presses universitaires de France.
Vernet, Marie, et Cyril Trimaille. 2007. « Contribution à l’analyse de la palatalisation en
français parlé contemporain ». Nottingham French Studies. Sociolinguistic
Variation and Change in France 46 (2): 82‑99.
Viennot, Eliane. 2014. Non, le masculin ne l’emporte pas sur le féminin! Éditions iXe. Paris.
Vieru-Dimulescu. 2006. « Identification perceptive d’accents étrangers en français ». In
Actes des 26e journées d’Etudes sur la Parole, 163‑66. Dinard, France.
Vieru-Dimulescu, Bianca, Philippe Boula de Mareüil, et Martine Adda-Decker. 2007.
« Characterizing non-native French accents using automatic alignement ». In 16th
ICPhS, 2217‑20. Saarbrücken, Allemagne.
Walter, Henriette. 1990. « Une voyelle qui ne veut pas mourir ». In Variation and Change
in French. Essays Presented to Rebecca Posner on the Occasion of her Sixtieth
Birthday., édité par John Green et Wendy Ayres-Bennett, London : Routledge,
27‑36.
Williams, JohnE., et SusanM. Bennett. 1975. « The definition of sex stereotypes via the
adjective check list ». Sex Roles 1 (décembre).
Wittig, Monique. 2001. La pensée straight. Paris: Balland.
Woehrling, Cécile, et P. Boula de Mareuil. 2006. « Identification d’accents regionaux en
francais: perception et analyse ». Revue Parole 37: 55.
Wottawa, Jane, Martine Adda-Decker, et Frédéric Isel. 2016. « Putting German [ʃ] and [ç]
in two different boxes: native German vs L2 German of French learners ». In
Proceedings of Interspeech 2016. San Francisco, USA.
Yaeger-Dror, Malcah. 1988. « Realtime vs. Apparent Time Change in Montreal French. »
Yaguello, Marina. 2008. Catalogue des idées reçues sur la langue. (1ere éd. 1988). Le goût
des mots. Paris: Points.

223

Vous aimerez peut-être aussi