Nothing Special   »   [go: up one dir, main page]

WO2012076807A1 - Procede et systeme de vocalisation d'un texte - Google Patents

Procede et systeme de vocalisation d'un texte Download PDF

Info

Publication number
WO2012076807A1
WO2012076807A1 PCT/FR2011/052882 FR2011052882W WO2012076807A1 WO 2012076807 A1 WO2012076807 A1 WO 2012076807A1 FR 2011052882 W FR2011052882 W FR 2011052882W WO 2012076807 A1 WO2012076807 A1 WO 2012076807A1
Authority
WO
WIPO (PCT)
Prior art keywords
text
extract
word
group
vocalizing
Prior art date
Application number
PCT/FR2011/052882
Other languages
English (en)
Inventor
Paul Bagshaw
Edouard Hinard
Original Assignee
France Telecom
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom filed Critical France Telecom
Publication of WO2012076807A1 publication Critical patent/WO2012076807A1/fr

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Definitions

  • the invention relates to the field of speech synthesis ("Text-to-speech synthesis" in English).
  • an automatic speech synthesis system converts a written text into a corresponding intelligible audio content.
  • a voice synthesis method based on a text implemented in such a system conventionally breaks down into two stages: a linguistic processing step and a production step of audio content.
  • Linguistic processing includes analyzing the text to be synthesized and generating a sequence of symbolic representations of the sounds corresponding to the text.
  • an audio content corresponding to the text is constructed from the sequence of symbolic representations obtained during the linguistic processing step.
  • the step of producing the audio content takes into account a voice model, specific to this speaker, which is constructed from predefined sentences uttered by this speaker. speaker and stored in a database in a previous step.
  • applications are based on such speech synthesis methods.
  • applications provide a user with the sending of audio content obtained from a text provided by this user and a voice model of a predetermined person, for example a known personality.
  • the application allows a user to enter a text of their choice using a graphical interface and select a person from a predefined set of people.
  • the audio content constructed according to the text and a template associated with the selected person is then transmitted to a friend of the user. This friend, while listening to the received audio content, hears the spoken text of the user with the voice of the chosen person.
  • the text entered may contain offensive words and phrases for a person listening to the audio content, or attacking the public image of someone whose voice is being exploited by the system, or who is damaging the image of the service provider.
  • the invention improves the situation.
  • the invention relates to a method of vocalizing a text comprising:
  • a text extract verifies said identification criterion if it has at least one predefined linguistic characteristic and a usage context in said text identical to those defined for a group of at least one undesirable word of a predefined set of at least one group of at least one undesirable word.
  • the predefined linguistic characteristic is a phonetic representation or the lemma.
  • the use of the phonetic representation makes it possible to dispense with the word division made by the user and the spelling used by the user and thus to detect extracts for which the user has voluntarily modified the division of words and / or the spelling.
  • the use of the lemma can detect all forms of an unwanted word while keeping a reasonable size of the predefined set of unwanted words.
  • the group comprises several undesirable words and the method comprises a word-by-word comparison step of linguistic characteristics of the group and the extract.
  • the allocation of characteristics by word when defining a group of words of the set of unwanted word group makes it possible to group several unwanted expressions in the same group of unwanted words and to avoid a large volume of the set predefined.
  • the word-by-word comparison detects all group shapes from the registration of a single group.
  • the choice of the lemma characteristic for the first word and the phonetic representation for the second word makes it possible to detect all the conjugate or declining forms of the first word when it is followed by the second word.
  • the usage context of an extract is determined from the syntax of a sentence containing said extract and / or the semantic role of said extract.
  • the analysis of the syntax of the sentence makes it possible, for example, to determine the grammatical function of a word in a sentence containing a relevant extract and thus to determine whether the extract is undesirable or not undesirable as a function of the grammatical function of that word. .
  • an extract is censored if preceded by a verb and accepted otherwise.
  • the semantic role of a word makes it possible to differentiate two words having the same spelling while having a different meaning.
  • the semantic role is used here to decide whether or not the extract in question is undesirable.
  • the word “black” may be retained if it is used as a color but must be rejected if it is used to pejoratively qualify a person.
  • the checking of the context of use is performed by comparing a group of words containing said extract with a list of at least one authorized expression and / or a list of at least one forbidden expression.
  • a word or group of words that is undesirable used alone or in certain expressions can be used correctly in other expressions.
  • the French word “cul” must be detected as undesirable if it is used alone and accepted if it is part of the French expression "cul de sac”.
  • the comparison of the group and the list is based on the phonetic representation.
  • the semantic role is used for the comparison.
  • the phonetic representation allows a simple and fast comparison.
  • the vocalization of the text includes a linguistic processing step in which linguistic characteristics are generated and, during the detection step, the identification criterion is checked from at least one generated linguistic characteristic.
  • Linguistic characteristics determined during a linguistic processing phase to transform the text into a phoneme sequence are also used to detect unwanted words and extracts. Thus the detection process is time consuming and can be performed in near real time during a vocalization of a text.
  • the vocalization comprises a step of obtaining a sequence of phonemes for said text
  • the method comprises a step of modifying said phoneme sequence in which at least a phoneme of a detected extract is replaced by at least one replacement phoneme and the audio content is produced according to the modified sequence.
  • the modification of the phoneme sequence makes it possible to make unwanted extracts inaudible.
  • the order of the phonemes of a detected extract is modified.
  • a predefined sound signal masks the audio content representing at least one detected extract.
  • the method of vocalizing a text further comprises a preliminary step of storing a group of at least one unwanted word of said set in association with data defining at least one associated linguistic feature and a context of use in which said group is undesirable.
  • the set of unwanted words is built according to the application, the evolution of a language, the language and then memorized.
  • Each group of words in the set makes it possible to detect unwanted extracts in a text to be vocalized.
  • the data defining the linguistic characteristic (s) associated with a group of words makes it possible to detect an extract suspected of being undesirable.
  • the method further comprises a step of selecting a predetermined voice model and the audio content is further produced according to said selected voice model.
  • the vocalization method according to the invention thus makes it possible to respect the image of the person associated with the voice model.
  • the invention also relates to a system for vocalizing a text comprising
  • the means for detecting at least one text extract verifying said identification criterion are arranged to determine whether a text extract has at least one predefined linguistic characteristic and a context of use identical to those of a group of at least one unwanted word from a predefined set of at least one group of at least one unwanted word.
  • the invention finally relates to a computer program product comprising instructions for implementing the steps of the vocalization method as described above, when it is loaded and executed by a processor.
  • FIG. 1 illustrates a vocalization system according to one embodiment of the invention
  • FIG. 2 is a flowchart illustrating the various steps of a vocalization method implemented in a vocalization system according to an embodiment
  • FIG. 3 is a table illustrating a set of groups of unwanted words recorded during a preliminary storage step and implemented in a step of detecting a vocalization method according to a first embodiment
  • FIG. 4 is a table illustrating a set of groups of unwanted words recorded during a prior storage step and implemented in a step of detecting a vocalization method according to a second embodiment.
  • a system SYS comprises an vocalization server SV, a first terminal T1 of a first user A and a second terminal T2 of a second user B able to communicate through a communication network R .
  • the first terminal T1 is, for example, a computer type PC (for "Personal Computer"), a PDA (for "Personal Digital Assistant") or a mobile phone.
  • the second terminal T2 is, for example, a fixed telephone, a mobile phone, a PDA.
  • the vocalization server SV has in particular a processing unit 100 equipped with a microprocessor, a random access memory type RAM 102, one or more ROM or EEPROM type ROMs 104 in which programs that can be executed by the microprocessor are recorded.
  • the vocalization server SV also has a reception module REC, a linguistic processing module MTL, a detection device DET, a selection module of a voice model SEL, a module for producing an audio content PRO and a emission module ENV.
  • the vocalization server SV may comprise in a conventional and non-exhaustive manner the following elements: a screen, a keyboard, a microphone, a speaker, a storage means, etc.
  • the processing unit is driven by a computer program PG in order to implement in particular the vocalization method according to an embodiment of the invention described later with reference to FIG. 2.
  • the computer program PG includes code instructions for implementing the steps of the method of vocalizing a text and in particular the steps:
  • a text extract verifying the identification criterion if it has at least one predefined linguistic characteristic and a context of use in said text identical to those of a group of at least one unwanted word of a predefined set of at least one group of at least one undesirable word.
  • the computer program PG can also implement a step of recording a predefined set of groups of unwanted words and data defining for each group at least one associated linguistic characteristic and a context of use in which the group in question is undesirable. .
  • This set is named afterwards "reference set”.
  • the reception module REC is able to receive data via the network R, for example a text to be vocalized transmitted by the terminal T1 of the first user A. - -
  • the transmission module ENV is able to transmit data, for example audio content, to the second terminal T2 of the second user B via the telecommunications network R.
  • data for example audio content
  • a reference set Z of one or more groups of unwanted words is stored in a memory M, for example a read-only memory 104, of the vocalization server SV.
  • a memory M for example a read-only memory 104
  • this memory are stored data defining, for each group of the reference set Z, at least one associated linguistic characteristic and a context of use in which the group in question is undesirable.
  • a grammar tag has a grammatical function of the word in a sentence of the text and one or more associated attributes.
  • a grammatical function is, for example, a noun, a verb, an adjective, an article ...
  • An attribute makes it possible to specify the grammatical function.
  • a name can be associated with a gender attribute: masculine, feminine, or indefinite, and an attribute that specifies whether the name is used in the singular or the plural.
  • An attribute associated with a verb is for example an attribute indicating the time at which the verb is conjugated.
  • the phonetic representation of a word consists of a symbolic sequence of phones and phonemes.
  • These data stored in the memory M furthermore comprise, concerning the definition of the usage context in which the group is undesirable, a list of at least one authorized expression and / or a list of at least one forbidden expression. For example if the French word "cul” is undesirable when used alone but allowed if it is used in the French expression "cul de sac”. In this case, the list of prohibited expressions will include the expression "cul” and the authorized expression list will include the expression "cul de sac”. Depending on which is the simplest to define the unwanted words or groups, only one of these two lists can be used or both. In addition, each expression of one of these lists of expressions can be represented in the memory M in its phonetic form, so as to be able to detect the presence in the text of such an expression despite possible spelling errors in the text to be vocalized.
  • An expression of one of these lists can also be defined according to linguistic characteristics such as a grammatical label of a word or a semantic role of a word of the expression.
  • the list of authorized words may include the French word “jet” defined by its spelling and a semantic role "aviation”.
  • the French word “jet” having a semantic role "to throw” is not in the list of authorized words.
  • the reference set Z is stored in a remote server (not shown) accessible by the voice server SV through the network R.
  • the receiving module REC receives a TXT text to be sent from the first terminal T1 of the user A.
  • the text to be spoken TXT is read in a memory of the vocalization server SV.
  • a next step E4 the linguistic processing module MTL analyzes the text to be vocalized TXT.
  • the linguistic processing module MTL determines the words Ml, M2, M3 ... of the text TXT. In a classic way, this division into words takes into account the punctuation of the text. A punctuation mark, for example the sign is considered a word by the MTL language processing module.
  • the linguistic processing module MTL determines at least one linguistic characteristic CLi.
  • the linguistic characteristics determined for a word or an extract of the text are the phonetics, the lemma, a grammatical label, a semantic role ...
  • the linguistic processing module MTL determines a series of phonemes associated with each word according to the linguistic characteristics determined.
  • the linguistic processing module MTL determines a sequence SEQ of phonemes representing the text TXT.
  • the sequence of phonemes SEQ is obtained by concatenating the word phoneme sequences of the text TXT.
  • Step E4 is followed by a detection step E6 in which at least one unwanted text extract EXT is detected in the text TXT according to the set of reference Z stored in step E0.
  • An extract of text EXT is either a word of the text TXT, or a set of consecutive words of the text TXT.
  • a text extract TXT is detected if it checks an unwanted word identification criterion.
  • the TXT extract verifies an undesirable word identification criterion if it has at least one predefined linguistic characteristic and a usage context identical to those of a group of the reference set Z.
  • the detection module DET compares the properties of an extract of the text to be vocalized with those of the groups of words of the reference set.
  • the detection module DET compares the linguistic characteristics used to define a group of the reference set Z with the linguistic characteristics determined for a word or an extract of the text during the linguistic processing step E4.
  • the modification module MOD modifies the sequence SEQ obtained during the linguistic processing step E4 in a modified SQM sequence.
  • the modified sequence SQM corresponds to the initial sequence SEQ in which the phonemes representing the detected unwanted TXT extracts are replaced by a predetermined sequence of phonemes.
  • each phoneme of an EXT detected extract is replaced by a replacement phoneme.
  • a replacement phoneme is, for example, a phoneme corresponding to an inaudible sound, a silence, a predetermined frequency sound ("beep"), an animal cry or a randomly selected phoneme.
  • the modified SQM sequence corresponds to the initial sequence SEQ in which the phonemes representing the detected undesired TXT extracts were removed.
  • the modified sequence SQM corresponds to the initial sequence SEQ in which the order of the phonemes representing one or more unwanted TXT extracts detected is modified.
  • the selection module SEL selects a voice model V from a set of voice models.
  • an identifier of a personality is selected by the first user A from among a set of personal identifiers by means of a graphical interface of the first terminal T1 and the identifier selected is transmitted to the selection module SEL of the vocalization server SV through the reception module REC.
  • the selection module SEL selects the voice model V according to the selected identifier received.
  • the production module PRO determines an audio content C according to the modified phoneme sequence SQM and the selected voice model V.
  • the sending module ENV transmits the audio content C obtained at the second terminal T2 of the second user B.
  • User B can listen to the audio content C received by the second terminal T2.
  • the audio content C is determined according to the initial phoneme sequence SEQ and the selected voice model V and a predetermined signal S. More precisely, the signal S masks the audio content corresponding to the phonemes of the unwanted extracts detected. The masking of the words or groups of words detected as undesirable by the signal S makes these words or groups inaudible.
  • a reference set ZI was recorded during the previous storage step E0 and the text to be vocalized is the text: "MT1 MT2 MT3 MT4" in which MT1, MT2, MT3 and MT4 are words entered by the user A .
  • the reference set ZI comprises 3 groups of words: GR1, GR2 and GR3.
  • the group of words GR1 is defined by a set of linguistic characteristics CL1 and a context of use Cl.
  • the set of characteristics CL1 is for example constituted of a single characteristic: the phonetic representation of the group of words GR1 is equal to one predetermined value PHI.
  • the context of use Cl is for example: "the word following the group of words GR1 is different from a name”.
  • the group of words GR2 is defined by a set of linguistic characteristics CL2 and a context of use C2.
  • the set of characteristics CL2 for example consists of two characteristics: the phonetic representation of the first word of the group of words GR2 is equal to a predetermined value PH2 and the grammatical label of the second and last word of the group of words GR2 is equal to a predetermined value PH3.
  • the context of use C2 is for example: "indifferent". A context of use of the type "indifferent" means that a word or group of words verifies this context whatever the context.
  • the predetermined value PH2 is here equal to the concatenation of a predetermined value P2 and a predetermined value P3.
  • the group of words GR3 is defined by a set of linguistic characteristics CL3 and a context of use C3.
  • the set of characteristics CL3 consists for example of a single characteristic: the lemma of the group of words GR3 is equal to a predetermined value L1.
  • the - - context of use C3 is for example: "the grammatical label of the group of words GR3 is different from a verb".
  • step E4 the MTL language processing module determines that:
  • the word MT3 has for phonetics P3, for lemma L3 and for grammatical label G3,
  • the context of use Cl is defined according to a linguistic characteristic, which is here a grammatical label.
  • the grammar label is applied to a word of the text that is not a word of a suspicious extract, to determine whether the context of use of the suspect extract and the group GR1 are identical.
  • the word MT1 has the linguistic characteristic CL3 of the group GR3. However, the word MT1 does not have the context of use C3 because the grammar label Gl is a verb. Also, the word MT1 is not considered an unwanted word.
  • a reference set Z2 was recorded during the prior storage step E0 and the text to be vocalized is the text: "MT1 MT2 MT3 MT4", identical to the text of the previous embodiment.
  • the set Z2 comprises a first reference subset Z21 and a second reference subset Z22.
  • the first subset Z21 here comprises 3 groups of words: GR4, GR5 and GR6.
  • the group of words GR4 is defined by a set of linguistic characteristics CL4.
  • the set of characteristics CL4 consists for example of a single characteristic: the phonetics of the group of words GR4 is equal to the predetermined value PHI.
  • the group of words GR5 is defined by a set of linguistic characteristics CL5.
  • the set of characteristics CL5 for example consists of two characteristics: the phonetics of the first word of the group of words GR2 is equal to the predetermined value PH2 and the grammatical label of the second and last word of the group of words GR2 is a "noun ". - -
  • the group of words GR6 is defined by a set of linguistic characteristics CL6.
  • the set of characteristics CL6 is for example constituted of a characteristic: the lemma of the group of words GR3 is equal to the predetermined value L1.
  • the second subset Z22 here comprises 2 groups of words: GAI and GA2. Each group of words of the second subset Z22 here represents a set of authorized words.
  • the second subset Z22 represents an example of a list of authorized words.
  • the group GAI includes the words or groups of words whose phonetics is PH4 and the group GA2 comprises the words or groups of words whose phonetics is PHI followed by a word whose grammatical label is a noun.
  • the linguistic processing step E4 is similar to that described in relation to the previous embodiment.
  • the linguistic characteristics defined for each word of the text to be vocalized TXT are those obtained in the previous embodiment described with reference to FIG.
  • the detection module DET detects that the MT2-MT3 extract composed of the words MT2 and MT3 has the linguistic characteristics of GR4.
  • the MT2-MT3 extract is thus considered to be potentially undesirable.
  • the DET detection module searches whether the MT2-MT3 extract corresponds to a word or group of words of the second reference subset Z22. If the MT2-MT3 extract corresponds to a group of words of the second reference subset Z22, for example to the group of words GA2, the extract MT2-MT3 is considered to have the same context of use as GA2 and is considered as undesirable.
  • the word MT4 being a name
  • the excerpt "MT2-MT3-MT4" is a group of words of the group GA2.
  • the excerpt "MT2-MT3-MT4" is an authorized extract. Since the excerpt "MT2-MT3" is used in a group of authorized words, the condition of use of this excerpt, which here is not to belong to a group of the second subset Z22 reference is not verified and the extract "MT2-MT3" is not considered undesirable.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

L'invention se rapporte à un procédé de vocalisation d'un texte comprenant la détection dans le texte d'au moins un extrait de texte vérifiant un critère d'identification de mot indésirable et la production d'un contenu audio, résultant d'une vocalisation dudit texte et dans lequel l'extrait détecté n'est pas audible. Selon l'invention, le procédé est adapté de façon à ce qu'un extrait de texte vérifie ledit critère d'identification s'il possède au moins une caractéristique linguistique prédéfinie et un contexte d'usage identiques à ceux d'un groupe d'au moins un mot indésirable d'un ensemble prédéfini de groupes de mots indésirables. L'invention se rapporte également à un système mettant en œuvre le procédé de vocalisation.

Description

Procédé et système de vocalisation d'un texte
L'invention se rapporte au domaine de la synthèse vocale ("Text-to-Speech synthesis" en anglais).
De façon connue, un système automatique de synthèse vocale transforme un texte écrit en un contenu audio intelligible correspondant.
Un procédé de synthèse vocale à partir d'un texte mis en œuvre dans un tel système se décompose classiquement en deux étapes : une étape de traitement linguistique et une étape de production d'un contenu audio. Le traitement linguistique comprend l'analyse du texte à synthétiser et la génération d'une suite de représentations symboliques des sons correspondant au texte. Lors de l'étape de production, un contenu audio correspondant au texte est construit à partir de la suite de représentations symboliques obtenue lors de l'étape de traitement linguistique. De manière à ce que le contenu audio ainsi produit simule la voix d'un locuteur, l'étape de production du contenu audio prend en compte un modèle de voix, propre à ce locuteur, qui est construit à partir de phrases prédéfinies prononcées par ce locuteur et enregistré dans une base de données lors d'une étape préalable.
De nombreuses applications sont basées sur de tels procédés de synthèse vocale. Parmi celle-ci, des applications proposent à un utilisateur l'envoi d'un contenu audio obtenu à partir d'un texte fourni par cet utilisateur et d'un modèle de voix d'une personne prédéterminée, par exemple une personnalité connue. Par exemple, l'application permet à un utilisateur de saisir un texte de son choix à l'aide d'une interface graphique et de sélectionner une personne parmi un ensemble de personnes prédéfini. Le contenu audio construit en fonction du texte et d'un modèle associé à la personne sélectionnée est ensuite transmis à un ami de l'utilisateur. Cet ami, lors de l'écoute du contenu audio reçu entend le texte de l'utilisateur prononcé avec la voix de la personne choisie.
Le texte saisi peut contenir des mots et des phrases offensantes pour une personne écoutant le contenu audio, ou attaquant l'image publique d'une personne dont la voix est exploitée par le système ou encore qui détériore l'image du fournisseur de service.
Ces mots ou phrases (par exemple des mots obscènes) sont considérés comme indésirables. Des méthodes existantes permettent de détecter et de supprimer les mots indésirables du contenu audio restitué.
Ces méthodes sont basées sur une comparaison des mots du texte avec une liste de mots indésirables enregistrée dans une mémoire du système. Lorsqu'un mot du texte figure dans la liste, il est remplacé par un autre mot ou supprimé du texte à vocaliser.
La comparaison est réalisée avant le traitement linguistique du texte nécessaire à la vocalisation. - -
Ces méthodes ne sont toutefois pas suffisamment efficaces. En effet, l'utilisateur, auteur du texte, peut délibérément modifier l'orthographe d'un mot indésirable de façon à ce que le mot mal orthographié ne soit pas dans la liste des mots interdits. Dans ce cas, le mot indésirable ne sera pas supprimé du texte à vocaliser. Ceci est notamment possible car de nombreux langages naturels possèdent plusieurs formes écrites différentes (graphèmes) correspondant à une même perception d'un son lorsqu'elles sont prononcées (phonèmes).
Il existe donc un besoin pour améliorer l'efficacité du filtrage des mots ou séquences de mots indésirables.
L'invention vient améliorer la situation.
A cet effet, l'invention se rapporte à un procédé de vocalisation d'un texte comprenant:
- une étape de détection dans ledit texte d'au moins un extrait de texte vérifiant un critère d'identification de mot indésirable;
- une étape de production d'un contenu audio, résultant d'une vocalisation dudit texte et dans lequel ledit au moins un extrait détecté n'est pas audible;
caractérisé en ce qu'un extrait de texte vérifie ledit critère d'identification s'il possède au moins une caractéristique linguistique prédéfinie et un contexte d'usage dans ledit texte identiques à ceux définis pour un groupe d'au moins un mot indésirable d'un ensemble prédéfini d'au moins un groupe d'au moins un mot indésirable.
L'utilisation de caractéristiques linguistiques permet d'identifier dans le texte des extraits de texte, c'est-à-dire des mots, des expressions ou des phrases, suspectés d'être indésirables. L'analyse du contexte dans lequel ces extraits suspects sont employés permet de rejeter uniquement les extraits indésirables.
Selon une caractéristique particulière du procédé de vocalisation d'un texte, la caractéristique linguistique prédéfinie est une représentation phonétique ou le lemme.
L'utilisation de la représentation phonétique permet de s'affranchir du découpage en mots effectué par l'utilisateur et de l'orthographe utilisée par l'utilisateur et ainsi de détecter des extraits pour lequel l'utilisateur a volontairement modifié le découpage des mots et/ou l'orthographe.
L'utilisation du lemme permet de détecter toutes les formes d'un mot indésirable tout en gardant une taille raisonnable de l'ensemble prédéfini des mots indésirables.
Selon une caractéristique particulière du procédé de vocalisation d'un texte, le groupe comprend plusieurs mots indésirables et le procédé comporte une étape de comparaison mot par mot de caractéristiques linguistiques du groupe et de l'extrait.
L'attribution de caractéristiques par mot lors de la définition d'un groupe de mots de l'ensemble de groupe de mots indésirables permet de regrouper plusieurs expressions indésirables dans un même groupe de mots indésirables et d'éviter un volume important de l'ensemble prédéfini. La comparaison mot par mot permet de détecter toutes les formes du groupe à partir de l'enregistrement d'un seul groupe.
Par exemple, le choix de la caractéristique lemme pour le premier mot et de la représentation phonétique pour le deuxième mot permet de détecter toutes les formes conjuguées ou déclinées du premier mot lorsqu'il est suivi du deuxième mot.
Selon une caractéristique particulière du procédé de vocalisation d'un texte, le contexte d'usage d'un extrait est déterminé à partir de la syntaxe d'une phrase contenant ledit extrait et/ou du rôle sémantique dudit extrait.
L'analyse de la syntaxe de la phrase permet par exemple de déterminer la fonction grammaticale d'un mot dans une phrase contenant un extrait considéré et ainsi de déterminer si l'extrait est indésirable ou non indésirable en fonction de la fonction grammaticale de ce mot.
Par exemple, un extrait est censuré s'il est précédé d'un verbe et accepté sinon.
Le rôle sémantique d'un mot permet de différencier deux mots ayant la même orthographe tout en ayant un sens différent. Le rôle sémantique est ici utilisé pour décider si l'extrait considéré est ou non indésirable.
Par exemple, le mot anglais "black" peut être conservé s'il est utilisé en tant que couleur mais doit être rejeté s'il est utilisé pour qualifier péjorativement une personne.
Selon une caractéristique particulière du procédé de vocalisation d'un texte, la vérification du contexte d'usage est effectuée par comparaison d'un groupe de mots contenant ledit extrait avec une liste d'au moins une expression autorisée et/ou une liste d'au moins une expression interdite.
Un mot ou groupe de mots qui est indésirable employé seul ou dans certaines expressions peut être employé correctement dans d'autres expressions. Par exemple, le mot français "cul" doit être détecté comme indésirable s'il est employé seul et être accepté s'il fait partie de l'expression française "cul de sac".
Selon une caractéristique particulière du procédé de vocalisation d'un texte, la comparaison du groupe et de la liste est basée sur la représentation phonétique.
Selon une autre caractéristique particulière du procédé de vocalisation d'un texte, utilisée seule ou en combinaison avec la caractéristique précédente, le rôle sémantique est utilisé pour la comparaison.
L'utilisation de caractéristiques linguistiques pour effectuer la comparaison d'un groupe de mots contenant un extrait suspect et un groupe de mots d'une liste permet de déterminer si l'extrait est ou non indésirable.
La représentation phonétique permet une comparaison simple et rapide.
Selon un mode de réalisation particulier du procédé de vocalisation d'un texte, la vocalisation du texte comporte une étape de traitement linguistique lors de laquelle des - - caractéristiques linguistiques sont générées et, lors de l'étape de détection, le critère d'identification est vérifié à partir d'au moins une caractéristique linguistique générée.
Les caractéristiques linguistiques déterminées lors d'une phase de traitement linguistique visant à transformer le texte en une séquence de phonèmes sont également utilisées pour détecter les mots et extraits indésirables. Ainsi le processus de détection est peu consommateur de temps et peut être effectué en temps quasi réel lors d'une vocalisation d'un texte.
Selon un mode de réalisation particulier du procédé de vocalisation d'un texte, la vocalisation comporte une étape d'obtention d'une séquence de phonèmes pour ledit texte, le procédé comporte une étape de modification de ladite séquence de phonèmes lors de laquelle au moins un phonème d'un extrait détecté est remplacé par au moins un phonème de remplacement et le contenu audio est produit en fonction de la séquence modifiée.
La modification de la séquence de phonèmes permet de rendre inaudibles les extraits indésirables.
Selon une caractéristique particulière de ce mode de réalisation, lors de l'étape de modification, l'ordre des phonèmes d'un extrait détecté est modifié.
La modification de l'ordre des phonèmes permet de changer la prononciation d'un extrait indésirable tout en conservant la durée du contenu. Le contenu correspondant aux extraits indésirables est incompréhensible mais reste harmonieux car prononcé de façon similaire au contenu non censuré.
Selon encore un autre mode de réalisation particulier du procédé d'un texte, utilisé seul ou en combinaison avec un des deux modes de réalisation précédents, un signal sonore prédéfini masque le contenu audio représentant au moins un extrait détecté.
Le masquage du signal sonore rend inaudible les extraits détectés indésirables.
Selon un mode de réalisation particulier, le procédé de vocalisation d'un texte comporte en outre une étape préalable de mémorisation d'un groupe d'au moins un mot indésirable dudit ensemble en association avec des données définissant au moins une caractéristique linguistique associée et un contexte d'usage dans lequel ledit groupe est indésirable.
L'ensemble de mots indésirables est construit en fonction de l'application, de l'évolution d'un langage, de la langue puis mémorisé. Chaque groupe de mots de l'ensemble permet de détecter des extraits indésirables dans un texte à vocaliser.
Les données définissant la ou les caractéristiques linguistiques associées à un groupe de mots permettent de détecter un extrait suspecté d'être indésirable.
Les données définissant le contexte d'usage permettent de déterminer si l'extrait suspecté doit être accepté ou censuré. Selon un mode de réalisation particulier, le procédé comporte en outre une étape de sélection d'un modèle de voix prédéterminé et le contenu audio est en outre produit en fonction dudit modèle de voix sélectionné.
Le procédé de vocalisation selon l'invention permet ainsi de respecter l'image de la personne associée au modèle de voix.
L'invention se rapporte également à un système de vocalisation d'un texte comprenant
- des moyens de détection dans ledit texte d'au moins un extrait de texte vérifiant un critère d'identification de mot indésirable;
- des moyens de production d'un contenu audio, résultant d'une vocalisation dudit texte et dans lequel ledit au moins un extrait détecté n'est pas audible;
caractérisé en ce que les moyens de détection d'au moins un extrait de texte vérifiant ledit critère d'identification sont agencés pour déterminer si un extrait de texte possède au moins une caractéristique linguistique prédéfinie et un contexte d'usage identiques à ceux d'un groupe d'au moins un mot indésirable d'un ensemble prédéfini d'au moins un groupe d'au moins un mot indésirable.
L'invention se rapporte enfin à un produit programme d'ordinateur comprenant des instructions pour mettre en œuvre les étapes du procédé de vocalisation tel que décrit précédemment, lorsqu'il est chargé et exécuté par un processeur. D'autres particularités et avantages de la présente invention apparaîtront dans la description suivante de modes de réalisation donnés à titre d'exemples non limitatifs, en référence aux dessins annexés, dans lesquels :
- la figure 1 illustre un système de vocalisation selon un mode de réalisation de l'invention,
- la figure 2 est un organigramme illustrant les différentes étapes d'un procédé de vocalisation mis en œuvre dans un système de vocalisation selon un mode de réalisation,
- la figure 3 est un tableau illustrant un ensemble de groupes de mots indésirables enregistrés lors d'une étape préalable de mémorisation et mis en œuvre dans une étape de détection d'un procédé de vocalisation selon un premier mode de réalisation,
- la figure 4 est un tableau illustrant un ensemble de groupes de mots indésirables enregistrés lors d'une étape préalable de mémorisation et mis en œuvre dans une étape de détection d'un procédé de vocalisation selon un deuxième mode de réalisation.
Un mode de réalisation particulier de l'invention va maintenant être décrit en référence aux figures 1 et 2. En référence à la figure 1, un système SYS comprend un serveur de vocalisation SV, un premier terminal Tl d'un premier utilisateur A et un deuxième terminal T2 d'un deuxième utilisateur B aptes à communiquer au travers d'un réseau de communication R.
Le premier terminal Tl est, par exemple, un ordinateur de type PC (pour "Personal Computer"), un PDA (pour "Personal Digital Assistant") ou un téléphone mobile.
Le deuxième terminal T2 est, par exemple, un téléphone fixe, un téléphone mobile, un PDA. Le serveur de vocalisation SV possède notamment une unité de traitement 100 équipée d'un microprocesseur, une mémoire vive de type RAM 102, une ou plusieurs mémoires mortes de type ROM ou EEPROM 104 dans laquelle sont enregistrés des programmes pouvant être exécutés par le microprocesseur.
Le serveur de vocalisation SV possède également un module de réception REC, un module de traitement linguistique MTL, un dispositif de détection DET, un module de sélection d'un modèle de voix SEL, un module de production d'un contenu audio PRO et un module d'émission ENV.
Le serveur de vocalisation SV peut comporter de manière classique et non exhaustive les éléments suivants: un écran, un clavier, un microphone, un haut-parleur, un moyen de stockage...
L'unité de traitement est pilotée par un programme informatique PG afin de mettre en œuvre notamment le procédé de vocalisation selon un mode de réalisation de l'invention décrit ultérieurement en référence à la figure 2.
Le programme informatique PG comporte des instructions de code pour mettre en œuvre les étapes du procédé de vocalisation d'un texte et notamment les étapes :
- de détection dans le texte d'au moins un extrait de texte vérifiant un critère d'identification de mot indésirable, un extrait de texte vérifiant le critère d'identification s'il possède au moins une caractéristique linguistique prédéfinie et un contexte d'usage dans ledit texte identiques à ceux d'un groupe d'au moins un mot indésirable d'un ensemble prédéfini d'au moins un groupe d'au moins un mot indésirable.
- de production d'un contenu audio, résultant d'une vocalisation du texte et dans lequel ledit au moins un extrait détecté n'est pas audible.
Le programme informatique PG peut également mettre en œuvre une étape d'enregistrement d'un ensemble prédéfini de groupes de mots indésirables et de données définissant pour chaque groupe au moins une caractéristique linguistique associée et un contexte d'usage dans lequel le groupe considéré est indésirable. Cet ensemble est nommé par la suite "ensemble de référence".
Le module de réception REC est apte à recevoir des données via le réseau R, par exemple un texte à vocaliser transmis par le terminal Tl du premier utilisateur A. - -
Le module d'émission ENV est apte à transmettre des données, par exemple un contenu audio, à destination du deuxième terminal T2 de deuxième utilisateur B, via le réseau de télécommunications R. Un mode de réalisation du procédé de vocalisation mis en œuvre dans le système SYS est maintenant décrit en référence à la figure 2.
Lors d'une étape préalable E0, un ensemble de référence Z d'un ou plusieurs groupes de mots indésirables est mémorisé dans une mémoire M, par exemple une mémoire morte 104, du serveur de vocalisation SV. Dans cette mémoire, sont mémorisées des données définissant, pour chaque groupe de l'ensemble de référence Z, au moins une caractéristique linguistique associée et un contexte d'usage dans lequel le groupe considéré est indésirable.
Ces données comprennent par exemple, concernant la définition de la ou des caractéristiques linguistiques:
- une représentation phonétique du groupe; et/ou
- une représentation phonétique d'un mot du groupe; et/ou
- le lemme de chaque mot du groupe; et/ou
- le lemme d'un mot du groupe; et/ou
- une étiquette grammaticale d'un mot du groupe.
Une étiquette grammaticale comporte une fonction grammaticale du mot dans une phrase du texte et un ou plusieurs attributs associés.
Une fonction grammaticale est par exemple, un nom, un verbe, un adjectif, un article... Un attribut permet de préciser la fonction grammaticale.
Un nom peut par exemple être associé à un attribut de genre : masculin, féminin ou indéfini et à un attribut précisant si le nom est employé au singulier ou au pluriel.
Un attribut associé à un verbe est par exemple un attribut indiquant le temps auquel le verbe est conjugué.
De façon connue, la représentation phonétique d'un mot est constituée d'une suite symbolique de phones et de phonèmes.
Ces données enregistrées dans la mémoire M comprennent en outre, concernant la définition du contexte d'usage dans lequel le groupe est indésirable, une liste d'au moins une expression autorisée et/ou une liste d'au moins une expression interdite. Par exemple si le mot français "cul" est indésirable lorsqu'il est utilisé seul mais autorisé s'il est utilisé dans l'expression française "cul de sac". Dans ce cas, la liste d'expressions interdites comprendra l'expression "cul" et la liste d'expression autorisée comprendra l'expression "cul de sac". Selon ce qui est le plus simple pour définir les mots ou groupes indésirables, une seule de ces deux listes peut être utilisée ou bien les deux. En outre, chaque expression d'une de ces listes d'expressions peut être représentée dans la mémoire M sous sa forme phonétique, de manière à pouvoir détecter la présence dans le texte d'une telle expression malgré d'éventuelles fautes d'orthographe dans le texte à vocaliser.
Une expression d'une de ces listes peut également être définie en fonction de caractéristiques linguistiques telle qu'une étiquette grammaticale d'un mot ou un rôle sémantique d'un mot de l'expression.
Par exemple, la liste des mots autorisés peut comprendre le mot français "jet" défini par son orthographe et un rôle sémantique "aviation". Dans ce cas, le mot français "jet" ayant un rôle sémantique "jeter" n'est pas dans la liste des mots autorisés.
A titre d'alternative, l'ensemble de référence Z est enregistré dans un serveur distant (non représenté) accessible par le serveur de vocalisation SV à travers le réseau R.
Lors d'une étape E2, le module de réception REC reçoit un texte à vocaliser TXT en provenance du premier terminal Tl de l'utilisateur A.
A titre d'alternative, le texte à vocaliser TXT est lu dans une mémoire du serveur de vocalisation SV.
Lors d'une étape suivante E4, le module de traitement linguistique MTL analyse le texte à vocaliser TXT.
Plus précisément, le module de traitement linguistique MTL détermine les mots Ml, M2, M3...du texte TXT. De façon classique, ce découpage en mot prend en compte la ponctuation du texte. Un signe de ponctuation, par exemple le signe est considéré comme un mot par le module de traitement linguistique MTL.
Pour chaque mot Mi du texte, le module de traitement linguistique MTL détermine ensuite au moins une caractéristique linguistique CLi.
Les caractéristiques linguistiques déterminées pour un mot ou un extrait du texte sont la phonétique, le lemme, une étiquette grammaticale, un rôle sémantique...
Egalement lors de l'étape E4, le module de traitement linguistique MTL détermine une suite de phonèmes associée à chaque mot en fonction des caractéristiques linguistiques déterminées.
Puis, le module de traitement linguistique MTL détermine une séquence SEQ de phonèmes représentant le texte TXT. La séquence de phonèmes SEQ est obtenue par la concaténation des suites de phonèmes de mots du texte TXT.
L'étape E4 est suivie d'une étape de détection E6 lors de laquelle au moins un extrait de texte indésirable EXT est détecté dans le texte TXT en fonction de l'ensemble de référence Z mémorisé lors de l'étape E0.
Un extrait de texte EXT est soit un mot du texte TXT, soit un ensemble de mots consécutifs du texte TXT. Lors de l'étape de détection E6, un extrait de texte TXT est détecté s'il vérifie un critère d'identification de mot indésirable. L'extrait TXT vérifie un critère d'identification de mot indésirable s'il possède au moins une caractéristique linguistique prédéfinie et un contexte d'usage identiques à ceux d'un groupe de l'ensemble de référence Z.
Le module de détection DET compare les propriétés d'un extrait du texte à vocaliser avec celles des groupes de mot de l'ensemble de référence.
Plus précisément, le module de détection DET compare les caractéristiques linguistiques utilisées pour définir un groupe de l'ensemble de référence Z avec les caractéristiques linguistiques déterminées pour un mot ou un extrait du texte lors de l'étape de traitement linguistique E4.
Puis, il compare le contexte d'usage utilisé pour définir un groupe de l'ensemble de référence
Z avec le contexte d'usage associé au mot ou à l'extrait considéré.
Ainsi, par simple comparaison de propriétés, on peut vérifier si un critère d'identification de mot indésirable est vérifié ou non.
Puis lors d'une étape E8, le module de modification MOD modifie la séquence SEQ obtenue lors de l'étape E4 de traitement linguistique en une séquence modifiée SQM.
Dans le mode de réalisation décrit, la séquence modifiée SQM correspond à la séquence initiale SEQ dans laquelle les phonèmes représentant les extraits TXT indésirables détectés sont remplacés par une suite de phonèmes prédéterminée.
Plus précisément, chaque phonème d'un extrait détecté EXT est remplacé par un phonème de remplacement.
Un phonème de remplacement est, par exemple, un phonème correspondant à un son inaudible, à un silence, à un son de fréquence prédéterminée ("beep"), à un cri d'animal ou encore un phonème choisi aléatoirement.
A titre d'alternative, la séquence modifiée SQM correspond à la séquence initiale SEQ dans laquelle les phonèmes représentant les extraits TXT indésirables détectés ont été enlevés.
Encore, à titre d'alternative, la séquence modifiée SQM correspond à la séquence initiale SEQ dans laquelle l'ordre des phonèmes représentant un ou plusieurs extraits TXT indésirables détectés est modifié.
Lors d'une étape E10, le module de sélection SEL sélectionne un modèle de voix V parmi un ensemble de modèles de voix.
Dans le mode de réalisation décrit, un identifiant d'une personnalité, par exemple, un nom, est sélectionné par le premier utilisateur A parmi un ensemble d'identifiants de personnes au moyen d'une interface graphique du premier terminal Tl et l'identifiant sélectionné est transmis au module de sélection SEL du serveur de vocalisation SV au travers du module de réception REC. Le module de sélection SEL sélectionne ensuite le modèle de voix V en fonction de l'identifiant sélectionné reçu. Puis, lors d'une étape E12, le module de production PRO détermine un contenu audio C en fonction de la séquence de phonèmes modifiée SQM et du modèle de voix sélectionné V.
Lors d'une étape El 4, le module d'envoi ENV transmet le contenu audio C obtenu au deuxième terminal T2 du deuxième utilisateur B.
L'utilisateur B peut écouter le contenu audio C reçu par le deuxième terminal T2.
A titre d'alternative, le contenu audio C est déterminé en fonction de la séquence de phonèmes initiale SEQ et du modèle de voix sélectionné V et d'un signal prédéterminé S. Plus précisément, le signal S masque le contenu audio correspondant aux phonèmes des extraits indésirables détectés. Le masquage par le signal S des mots ou groupes de mots détectés comme étant indésirables rend inaudible ces mots ou groupes.
Un premier mode de réalisation particulier des étapes de traitement linguistique E4 et de détection E6 va maintenant être décrit en référence à figure 3.
Un ensemble de référence ZI a été enregistré lors de l'étape préalable de mémorisation E0 et le texte à vocaliser est le texte : "MT1 MT2 MT3 MT4" dans lequel MT1, MT2, MT3 et MT4 sont des mots saisis par l'utilisateur A.
Comme illustré figure 3, l'ensemble de référence ZI comprend 3 groupes de mots : GR1, GR2 et GR3.
Le groupe de mots GR1 est défini par un ensemble de caractéristiques linguistiques CL1 et un contexte d'usage Cl. L'ensemble de caractéristiques CL1 est par exemple constitué d'une seule caractéristique : la représentation phonétique du groupe de mots GR1 est égale à une valeur prédéterminée PHI. Le contexte d'usage Cl est par exemple : "le mot suivant le groupe de mots GR1 est différent d'un nom".
Le groupe de mots GR2 est défini par un ensemble de caractéristiques linguistiques CL2 et un contexte d'usage C2. L'ensemble de caractéristiques CL2 est par exemple constitué de deux caractéristiques : la représentation phonétique du premier mot du groupe de mots GR2 est égale à une valeur prédéterminée PH2 et l'étiquette grammaticale du deuxième et dernier mot du groupe de mots GR2 est égale à une valeur prédéterminée PH3. Le contexte d'usage C2 est par exemple : "indifférent". Un contexte d'usage du type "indifférent" signifie qu'un mot ou groupe de mots vérifie ce contexte quel que soit le contexte.
La valeur prédéterminée PH2 est ici égale à la concaténation d'une valeur prédéterminée P2 et d'une valeur prédéterminée P3.
Le groupe de mots GR3 est défini par un ensemble de caractéristiques linguistiques CL3 et un contexte d'usage C3. L'ensemble de caractéristiques CL3 est par exemple constitué d'une seule caractéristique : le lemme du groupe de mots GR3 est égal à une valeur prédéterminée Ll. Le - - contexte d'usage C3 est par exemple : "l'étiquette grammaticale du groupe de mots GR3 est différent d'un verbe".
Lors de l'étape E4, le module de traitement linguistique MTL détermine que :
- le mot MT1 a pour phonétique PI, pour lemme Ll et pour étiquette grammaticale Gl=verbe, - le mot MT2 a pour phonétique P2, pour lemme L2 et pour étiquette grammaticale G2,
- le mot MT3 a pour phonétique P3, pour lemme L3 et pour étiquette grammaticale G3,
- le mot MT4 a pour phonétique P4, pour lemme L4 et pour étiquette grammaticale G4 = "nom, masculin, singulier".
Lors de l'étape E6, le module de détection DET détecte que l'extrait MT2-MT3 composé des mots MT2 et MT3 possède les mêmes caractéristiques linguistiques et le même contexte d'usage que GR1. En effet, PH1=P2+P3 et le mot MT4 suivant le mot MT3 est un nom. L'extrait MT2- MT3 est en conséquence considéré comme indésirable.
Le contexte d'usage Cl est défini en fonction d'une caractéristique linguistique, qui est ici une étiquette grammaticale. Lors de l'étape de détection, l'étiquette grammaticale est appliquée à un mot du texte qui n'est pas un mot d'un extrait suspect, pour déterminer si le contexte d'usage de l'extrait suspect et du groupe GR1 sont identiques.
Le mot MT1 possède la caractéristique linguistique CL3 du groupe GR3. Cependant, le mot MT1 ne possède pas le contexte d'usage C3 car l'étiquette grammaticale Gl est un verbe. Aussi, le mot MT1 n'est pas considéré comme un mot indésirable.
Un deuxième mode de réalisation particulier des étapes de traitement linguistique E4 et de détection E6 va maintenant être décrit en référence à la figure 4.
Dans ce mode de réalisation, un ensemble de référence Z2 a été enregistré lors de l'étape préalable de mémorisation E0 et le texte à vocaliser est le texte : "MT1 MT2 MT3 MT4", identique au texte du mode de réalisation précédent.
Comme illustré sur la figure 4, l'ensemble Z2 comprend un premier sous ensemble de référence Z21 et un deuxième sous ensemble de référence Z22.
Le premier sous ensemble Z21 comprend ici 3 groupes de mots : GR4, GR5 et GR6.
Le groupe de mots GR4 est défini par un ensemble de caractéristiques linguistiques CL4. L'ensemble de caractéristiques CL4 est par exemple constitué d'une seule caractéristique : la phonétique du groupe de mots GR4 est égale à la valeur prédéterminée PHI.
Le groupe de mots GR5 est défini par un ensemble de caractéristiques linguistiques CL5. L'ensemble de caractéristiques CL5 est par exemple constitué de deux caractéristiques : la phonétique du premier mot du groupe de mots GR2 est égale à la valeur prédéterminée PH2 et l'étiquette grammaticale du deuxième et dernier mot du groupe de mots GR2 est un "nom". - -
Le groupe de mots GR6 est défini par un ensemble de caractéristiques linguistiques CL6. L'ensemble de caractéristiques CL6 est par exemple constitué d'une caractéristique : le lemme du groupe de mots GR3 est égal à la valeur prédéterminée Ll.
Le deuxième sous ensemble Z22 comprend ici 2 groupes de mots : GAI et GA2. Chaque groupe de mots du deuxième sous ensemble Z22 représente ici un ensemble de mots autorisés.
Le deuxième sous ensemble Z22 représente un exemple de liste de mots autorisés.
Par exemple, le groupe GAI comprend les mots ou groupes de mots dont la phonétique est PH4 et le groupe GA2 comprend les mots ou groupes de mots dont la phonétique est PHI suivi d'un mot dont l'étiquette grammaticale est un nom.
Dans ce mode de réalisation, l'étape de traitement linguistique E4 est similaire à celle décrite en relation avec le mode de réalisation précédent. Les caractéristiques linguistiques définies pour chaque mot du texte à vocaliser TXT sont celles obtenues dans le mode de réalisation précédent décrit en relation avec la figure 3.
Lors de l'étape de détection E6, le module de détection DET détecte que l'extrait MT2-MT3 composé des mots MT2 et MT3 possède les caractéristiques linguistiques de GR4. L'extrait MT2- MT3 est ainsi considéré comme étant potentiellement indésirable.
Puis le module de détection DET recherche si l'extrait MT2-MT3 correspond à un mot ou groupe de mots du deuxième sous ensemble de référence Z22. Si l'extrait MT2-MT3 correspond à un groupe de mots du deuxième sous ensemble de référence Z22, par exemple au groupe de mots GA2, l'extrait MT2-MT3 est considéré comme possédant le même contexte d'usage que GA2 et est considéré comme indésirable.
Le mot MT4 étant un nom, l'extrait "MT2-MT3-MT4" est un groupe de mots du groupe GA2. Aussi, l'extrait "MT2-MT3-MT4" est un extrait autorisé. L'extrait "MT2-MT3" étant utilisé dans un groupe de mots autorisé, la condition d'usage de cet extrait qui est ici de ne pas appartenir à un groupe du deuxième sous ensemble Z22 de référence n'est pas vérifiée et l'extrait "MT2-MT3" n'est pas considéré comme indésirable.

Claims

REVENDICATIONS
1. Procédé de vocalisation d'un texte (TXT) comprenant :
- une étape de détection (E6) dans ledit texte d'au moins un extrait de texte (EXT) vérifiant un critère d'identification de mot indésirable;
- une étape de production (El 2) d'un contenu audio (C), résultant d'une vocalisation dudit texte et dans lequel ledit au moins un extrait détecté n'est pas audible;
caractérisé en ce qu'un extrait de texte vérifie ledit critère d'identification s'il possède au moins une caractéristique linguistique prédéfinie et un contexte d'usage dans ledit texte identiques à ceux définis pour un groupe d'au moins un mot indésirable d'un ensemble prédéfini d'au moins un groupe d'au moins un mot indésirable.
2. Procédé de vocalisation d'un texte selon la revendication 1 dans lequel la caractéristique linguistique prédéfinie est une représentation phonétique ou le lemme.
3. Procédé de vocalisation d'un texte selon la revendication 1 dans lequel le groupe comprend plusieurs mots indésirables et le procédé comporte une étape de comparaison mot par mot de caractéristiques linguistiques du groupe et de l'extrait.
4. Procédé de vocalisation d'un texte selon la revendication 1 dans lequel le contexte d'usage d'un extrait est déterminé à partir de la syntaxe d'une phrase contenant ledit extrait et/ou du rôle sémantique dudit extrait.
5. Procédé de vocalisation d'un texte selon la revendication 1 dans lequel la vérification du contexte d'usage est effectuée par comparaison d'un groupe de mots contenant ledit extrait avec une liste d'au moins une expression autorisée et/ou une liste d'au moins une expression interdite.
6. Procédé de vocalisation d'un texte selon la revendication 5 dans lequel la comparaison du groupe et de la liste est basée sur la représentation phonétique.
7. Procédé de vocalisation d'un texte selon la revendication 1 dans lequel le rôle sémantique est utilisé pour la comparaison.
8. Procédé de vocalisation d'un texte selon la revendication 1 caractérisé en ce que la vocalisation du texte comporte une étape de traitement linguistique lors de laquelle des caractéristiques linguistiques sont générées et en ce que, lors de l'étape de détection, le critère d'identification est vérifié à partir des caractéristiques linguistiques générées.
9. Procédé de vocalisation d'un texte selon la revendication 1 dans lequel la vocalisation comportant une étape d'obtention d'une séquence de phonèmes pour ledit texte, le procédé comporte une étape de modification de ladite séquence de phonèmes lors de laquelle au moins un phonème d'un extrait détecté est remplacé par au moins un phonème de remplacement, et dans lequel le contenu audio est produit en fonction de la séquence modifiée.
10. Procédé de vocalisation d'un texte selon la revendication 9 dans lequel lors de l'étape de modification, l'ordre des phonèmes d'un extrait détecté est modifié.
11. Procédé de vocalisation d'un texte selon la revendication 1 dans lequel un signal sonore prédéfini masque le contenu audio représentant au moins un extrait détecté.
12. Procédé de vocalisation d'un texte selon la revendication 1 caractérisé en ce que le procédé comporte en outre une étape préalable (E0) de mémorisation d'un groupe d'au moins un mot indésirable dudit ensemble en association avec des données définissant au moins une caractéristique linguistique associée et un contexte d'usage dans lequel ledit groupe est indésirable.
13. Procédé de vocalisation selon la revendication 1 caractérisé en ce qu'il comporte en outre une étape de sélection (E10) d'une voix prédéterminée et en ce que le contenu audio est en outre produit en fonction de ladite voix sélectionnée.
14. Système (SYS) de vocalisation d'un texte comprenant :
- des moyens de détection (DET) dans ledit texte d'au moins un extrait de texte vérifiant un critère d'identification de mot indésirable;
- des moyens de production (PRO) d'un contenu audio, résultant d'une vocalisation dudit texte et dans lequel ledit au moins un extrait détecté n'est pas audible;
caractérisé en ce que les moyens de détection (DET) d'au moins un extrait de texte vérifiant ledit critère d'identification sont agencés pour déterminer si un extrait de texte possède au moins une caractéristique linguistique prédéfinie et un contexte d'usage identiques à ceux d'un groupe d'au moins un mot indésirable d'un ensemble prédéfini d'au moins un groupe d'au moins un mot indésirable.
15. Produit programme d'ordinateur comprenant des instructions pour mettre en œuvre les étapes du procédé de vocalisation d'un texte selon la revendication 1 , lorsqu'il est chargé et exécuté par un processeur.
PCT/FR2011/052882 2010-12-07 2011-12-06 Procede et systeme de vocalisation d'un texte WO2012076807A1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1060158A FR2968445A1 (fr) 2010-12-07 2010-12-07 Procede et systeme de vocalisation d'un texte
FR1060158 2010-12-07

Publications (1)

Publication Number Publication Date
WO2012076807A1 true WO2012076807A1 (fr) 2012-06-14

Family

ID=44209777

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2011/052882 WO2012076807A1 (fr) 2010-12-07 2011-12-06 Procede et systeme de vocalisation d'un texte

Country Status (2)

Country Link
FR (1) FR2968445A1 (fr)
WO (1) WO2012076807A1 (fr)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108305611A (zh) * 2017-06-27 2018-07-20 腾讯科技(深圳)有限公司 文本转语音的方法、装置、存储介质和计算机设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060095262A1 (en) * 2004-10-28 2006-05-04 Microsoft Corporation Automatic censorship of audio data for broadcast
US20090124272A1 (en) * 2006-04-05 2009-05-14 Marc White Filtering transcriptions of utterances

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060095262A1 (en) * 2004-10-28 2006-05-04 Microsoft Corporation Automatic censorship of audio data for broadcast
US20090124272A1 (en) * 2006-04-05 2009-05-14 Marc White Filtering transcriptions of utterances

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108305611A (zh) * 2017-06-27 2018-07-20 腾讯科技(深圳)有限公司 文本转语音的方法、装置、存储介质和计算机设备

Also Published As

Publication number Publication date
FR2968445A1 (fr) 2012-06-08

Similar Documents

Publication Publication Date Title
CN112804400B (zh) 客服呼叫语音质检方法、装置、电子设备及存储介质
US7983910B2 (en) Communicating across voice and text channels with emotion preservation
US7788095B2 (en) Method and apparatus for fast search in call-center monitoring
US8219397B2 (en) Data processing system for autonomously building speech identification and tagging data
US8121845B2 (en) Speech screening
US8812314B2 (en) Method of and system for improving accuracy in a speech recognition system
KR101344630B1 (ko) 오디오 스트림으로부터 개인적인 오디오 컨텐츠의 생략 방법
US7644000B1 (en) Adding audio effects to spoken utterance
US9986394B1 (en) Voice-based messaging
US20060149555A1 (en) System and method of providing an automated data-collection in spoken dialog systems
JP5496863B2 (ja) 感情推定装置、その方法、プログラム及びその記録媒体
US9311914B2 (en) Method and apparatus for enhanced phonetic indexing and search
FR2820872A1 (fr) Procede, module, dispositif et serveur de reconnaissance vocale
EP0867856A1 (fr) "Méthode et dispositif de detection d'activité vocale"
CN106686191A (zh) 一种自适应识别骚扰电话的处理方法及系统
CN108962233A (zh) 用于语音对话平台的语音对话处理方法及系统
CN114328867A (zh) 一种人机对话中智能打断的方法及装置
CN111768789B (zh) 电子设备及其语音发出者身份确定方法、装置和介质
US20110145002A1 (en) Automatic detection of audio advertisements
WO2012076807A1 (fr) Procede et systeme de vocalisation d'un texte
US11563708B1 (en) Message grouping
Koumpis et al. Extractive summarization of voicemail using lexical and prosodic feature subset selection
Alrumayh et al. Understanding and mitigating privacy leaks from third-party smart speaker apps
FR2966635A1 (fr) Procede et dispositif d'affichage de donnees vocales d'un contenu audio
WO2023232609A1 (fr) Procédé et dispositif de vérification de l'utilisation d'une interface homme/machine par un opérateur humain

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11805105

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 11805105

Country of ref document: EP

Kind code of ref document: A1