JP4684609B2 - Speech synthesizer, control method, control program, and recording medium - Google Patents
Speech synthesizer, control method, control program, and recording medium Download PDFInfo
- Publication number
- JP4684609B2 JP4684609B2 JP2004284240A JP2004284240A JP4684609B2 JP 4684609 B2 JP4684609 B2 JP 4684609B2 JP 2004284240 A JP2004284240 A JP 2004284240A JP 2004284240 A JP2004284240 A JP 2004284240A JP 4684609 B2 JP4684609 B2 JP 4684609B2
- Authority
- JP
- Japan
- Prior art keywords
- mode
- speech
- reading mode
- text information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
本発明は、音声合成装置、制御方法、制御プログラム及び記録媒体に係り、特にテキスト情報を入力して音声合成を行う音声合成装置、その制御方法、制御プログラム及び記録媒体に関する。 The present invention relates to a speech synthesizer, a control method, a control program, and a recording medium, and more particularly to a speech synthesizer that performs speech synthesis by inputting text information, a control method thereof, a control program, and a recording medium.
従来より、現在地から目的地までの誘導経路を案内するナビゲーション装置において、
TTS(Text To Speech)コントローラを実装し、誘導経路案内に対応するテキスト情報、任意に指定したテキスト情報(VICS情報、メールなど)に基づいて音声合成を行って、読み上げを行うものが知られている(例えば、特許文献1参照)。
この場合において、合成される音声の質(声質)は、予めナビゲーション装置で設定している発話する速度、声の高さ、声の太さなどの音素を固定値として使用し、音声合成(発声)を行わせていたため、一定のものになってしまうという問題点があった。
It is known that a TTS (Text To Speech) controller is mounted, and speech synthesis is performed based on text information corresponding to guidance route guidance and arbitrarily specified text information (VICS information, e-mail, etc.). (For example, refer to Patent Document 1).
In this case, the synthesized speech quality (voice quality) is determined by using phonemes such as speech speed, voice pitch, voice thickness, etc., set in advance in the navigation device as fixed values. ) Has been performed, and there has been a problem that it becomes a certain thing.
ところで、一般的に話をする場合に、その内容によっては、話者がその内容的な重要度に応じて、話し方(発話する速度、アクセント、声の大きさ等)を部分的に変更することがあり、このようにすることにより、聴取者は、よりその内容を聞き取り易くなったり、迅速にその内容を把握できるということがある。
しかしながら、上記従来のナビゲーションシステムにおいては、常に合成される音声の質は一定であるため、例えば、ユーザの長いメールを早く読み通したいという要望や、固有名称(地名、建物名、施設名など)については発話速度を遅くしたり、大きな声で発話してもらいたいという要望等には応えられないという問題点があった。
そこで、本発明の目的は、音声合成装置において、音声合成の対象とするテキスト情報の種類、内容に基づいて音声合成の態様を適宜変更することが可能な音声合成装置、その制御方法、制御プログラムおよび記録媒体を提供することにある。
By the way, when speaking in general, depending on the content, the speaker may partially change the way of speaking (speaking speed, accent, loudness, etc.) according to the importance of the content. In this way, the listener may be able to hear the content more easily or can quickly grasp the content.
However, since the quality of the synthesized voice is always constant in the conventional navigation system described above, for example, a user's desire to read a long email quickly and a unique name (location name, building name, facility name, etc.) However, there was a problem that it was not possible to respond to requests such as slowing down the utterance speed or requesting a loud voice.
SUMMARY OF THE INVENTION Accordingly, an object of the present invention is to provide a speech synthesizer capable of appropriately changing the mode of speech synthesis based on the type and content of text information to be synthesized in the speech synthesizer, a control method therefor, and a control program. And providing a recording medium.
上記課題を解決するために、入力されたテキスト情報に基づいて音声合成を行って音声読み上げを行う音声合成装置において、前記テキスト情報の入力元の種類に応じてメール読み上げモード、長文メール高速読み上げモード、交通情報読み上げモードあるいは経路案内モードのいずれかに音声読み上げモードを設定するモード設定部と、設定された前記音声読み上げモードに対応する音声合成制御パラメータの組み合わせを特定し、前記メール読み上げモードあるいは長文メール高速読み上げモードにおいては、固有名詞を大きくはっきり発音するようにし、前記交通情報読み上げモードにおいては、地名、インターチェンジ名などの固有名称を大きくはっきり発音するようにし、前記経路案内モードにおいては、距離、方向、目印について大きくはっきり発音するようにするパラメータ特定部と、特定された音声合成パラメータに基づいて音声合成を行って前記音声として出力する音声合成部と、を備えたことを特徴としている。
上記構成によれば、モード設定部は、テキスト情報の入力元の種類に応じてメール読み上げモード、長文メール高速読み上げモード、交通情報読み上げモードあるいは経路案内モードのいずれかに音声読み上げモードを設定する。
これにより、パラメータ特定部は、定された前記音声読み上げモードに対応する音声合成制御パラメータの組み合わせを特定し、前記メール読み上げモードあるいは長文メール高速読み上げモードにおいては、固有名詞を大きくはっきり発音するようにし、前記交通情報読み上げモードにおいては、地名、インターチェンジ名などの固有名称を大きくはっきり発音するようにし、前記経路案内モードにおいては、距離、方向、目印について大きくはっきり発音するようにし、音声合成部は、特定された音声合成パラメータに基づいて音声合成を行って前記音声として出力する。
In order to solve the above problems, in the speech synthesizing apparatus for performing speech voice line speech synthesis based on the input text information, mail reading mode, reading lengthy mail faster in response to the input source type of the text information A mode setting unit for setting the voice reading mode to any of the mode, traffic information reading mode or route guidance mode, and a combination of the voice synthesis control parameters corresponding to the set voice reading mode, and the mail reading mode or In the long mail high-speed reading mode, proper nouns are pronounced greatly clearly. In the traffic information reading mode, proper names such as place names and interchange names are pronounced clearly. In the route guidance mode, distances , Direction, placemark Is a parameter specifying unit to allow increased clearly pronounce the voice synthesizing unit for outputting as the speech by performing speech synthesis based on speech synthesis parameters identified, comprising the.
According to the above configuration, the mode setting unit sets the voice reading mode to one of the mail reading mode, the long text high speed reading mode, the traffic information reading mode or the route guidance mode according to the type of the text information input source.
Thus, the parameter specifying unit specifies the combination of the speech synthesis control parameters corresponding to the determined speech reading mode, and in the mail reading mode or the long text high speed reading mode, the proper noun is pronounced largely and clearly. In the traffic information reading mode, unique names such as place names and interchange names are pronounced clearly, and in the route guidance mode, the distance, direction, and landmarks are pronounced clearly. Then, speech synthesis is performed based on the identified speech synthesis parameters and output as the speech.
この場合において、前記テキスト情報の入力元は、メールアプリケーション、交通情報処理アプリケーションあるいはナビゲーションアプリケーションであり、前記モード設定部は、前記テキスト情報の入力元がメールアプリケーションである場合には、前記音声読み上げモードを前記メール読み上げモードあるいは長文メール高速読み上げモードに設定し、前記テキスト情報の入力元が交通情報処理アプリケーションである場合には、前記音声読み上げモードを前記交通情報読み上げモードに設定し、前記テキスト情報の入力元がナビゲーションアプリケーションである場合には、前記音声読み上げモードを前記経路案内モードに設定する、ようにしてもよい。 In this case, the input source of the text information is a mail application, a traffic information processing application or a navigation application, and the mode setting unit, when the input source of the text information is a mail application, Is set to the mail reading mode or the long text high speed reading mode, and when the input source of the text information is a traffic information processing application , the voice reading mode is set to the traffic information reading mode, and the text information When the input source is a navigation application, the voice reading mode may be set to the route guidance mode .
入力されたテキスト情報に基づいて音声合成を行って音声読み上げを行う音声合成装置の制御方法において、前記テキスト情報の入力元の種類に応じてメール読み上げモード、長文メール高速読み上げモード、交通情報読み上げモードあるいは経路案内モードのいずれかに音声読み上げモードを設定するモード設定過程と、設定された前記音声読み上げモードに対応する音声合成制御パラメータの組み合わせを特定し、前記メール読み上げモードあるいは長文メール高速読み上げモードにおいては、固有名詞を大きくはっきり発音するようにし、前記交通情報読み上げモードにおいては、地名、インターチェンジ名などの固有名称を大きくはっきり発音するようにし、前記経路案内モードにおいては、距離、方向、目印について大きくはっきり発音するようにするパラメータ特定過程と、特定された音声合成パラメータに基づいて音声合成を行って前記音声として出力する音声合成過程と、を備えたことを特徴としている。
この場合において、前記テキスト情報の入力元は、メールアプリケーション、交通情報処理アプリケーションあるいはナビゲーションアプリケーションであり、前記モード設定過程において、前記テキスト情報の入力元がメールアプリケーションである場合には、前記音声読み上げモードを前記メール読み上げモードあるいは長文メール高速読み上げモードに設定し、前記テキスト情報の入力元が交通情報処理アプリケーションである場合には、前記音声読み上げモードを前記交通情報読み上げモードに設定し、前記テキスト情報の入力元がナビゲーションアプリケーションである場合には、前記音声読み上げモードを前記経路案内モードに設定する、ようにしてもよい。
A method of controlling a speech synthesis apparatus for performing speech voice I line speech synthesis based on the input text information, in response to the input source type mail reading mode of the text information, long sentence mail fast reading mode, reading traffic information A combination of a mode setting process for setting the voice reading mode to either the mode or the route guidance mode and a voice synthesis control parameter corresponding to the set voice reading mode, and the mail reading mode or the long sentence high speed reading mode In the traffic information reading mode, proper names such as place names and interchange names are pronounced clearly, and in the route guidance mode, distances, directions, and landmarks are pronounced. Big A parameter specifying the process to be sound, and characterized in that and a speech synthesis step of outputting as the speech by performing speech synthesis based on speech synthesis parameters specified.
In this case, the input source of the text information is a mail application, a traffic information processing application, or a navigation application. If the input source of the text information is a mail application in the mode setting process, the voice reading mode is set. Is set to the mail reading mode or the long text high speed reading mode, and when the input source of the text information is a traffic information processing application , the voice reading mode is set to the traffic information reading mode, and the text information When the input source is a navigation application, the voice reading mode may be set to the route guidance mode.
また、入力されたテキスト情報に基づいて音声合成を行って音声読み上げを行う音声合成装置をコンピュータにより制御するための制御プログラムにおいて、前記テキスト情報の入力元の種類に応じてメール読み上げモード、長文メール高速読み上げモード、交通情報読み上げモードあるいは経路案内モードのいずれかに音声読み上げモードを設定させ、 設定された前記音声読み上げモードに対応する音声合成制御パラメータの組み合わせを特定し、前記メール読み上げモードあるいは長文メール高速読み上げモードにおいては、固有名詞を大きくはっきり発音するようにさせ、前記交通情報読み上げモードにおいては、地名、インターチェンジ名などの固有名称を大きくはっきり発音するようにさせ、前記経路案内モードにおいては、距離、方向、目印について大きくはっきり発音するようにさせ、特定された音声合成パラメータに基づいて音声合成を行って前記音声として出力させる、ことを特徴としている。
この場合において、前記テキスト情報の入力元は、メールアプリケーション、交通情報処理アプリケーションあるいはナビゲーションアプリケーションであり、前記テキスト情報の入力元がメールアプリケーションである場合には、前記音声読み上げモードを前記メール読み上げモードあるいは長文メール高速読み上げモードに設定させ、前記テキスト情報の入力元が交通情報処理アプリケーションである場合には、前記音声読み上げモードを前記交通情報読み上げモードに設定させ、前記テキスト情報の入力元がナビゲーションアプリケーションである場合には、前記音声読み上げモードを前記経路案内モードに設定させる、ようにしてもよい。
また、上記各制御プログラムをコンピュータ読取可能な記録媒体に記録するようにしてもよい。
In the control program for controlling a computer speech synthesis apparatus for performing speech voice line speech synthesis based on the input text information, in response to the input source type mail reading mode of the text information, long sentence email fast reading mode, the traffic or information reading mode or route guidance mode is set the speech output mode, and specifying a combination of speech synthesis control parameters corresponding to the speech output mode set, the mail reading mode or the lengthy In the mail high-speed reading mode, proper nouns are pronounced greatly clearly. In the traffic information reading mode, proper names such as place names and interchange names are pronounced clearly. In the route guidance mode, distance The direction and the mark are pronounced largely and clearly , and speech synthesis is performed based on the specified speech synthesis parameters to output the speech.
In this case, the input source of the text information is a mail application, a traffic information processing application, or a navigation application. When the input source of the text information is a mail application, the voice reading mode is set to the mail reading mode or When the long text mail high speed reading mode is set and the text information input source is the traffic information processing application , the voice reading mode is set to the traffic information reading mode, and the text information input source is the navigation application. In some cases, the voice reading mode may be set to the route guidance mode.
The control programs may be recorded on a computer-readable recording medium.
本発明によれば、音声合成対象のテキスト情報の種類、内容に基づいて音声合成の態様を適宜変更することが可能となる。 According to the present invention, it is possible to appropriately change the mode of speech synthesis based on the type and content of text information to be synthesized.
以下図面を参照して本発明の実施の形態について説明する。以下の説明では、ナビゲーション装置として、車載型のナビゲーション装置(いわゆる、カーナビゲーション装置)について例示する。
図1は、本実施の形態に係るナビゲーション装置100の機能的構成を示すブロック図である。この図に示すように、ナビゲーション装置100は、絶対位置・方位検出部1と、相対方位検出部2と、車速検出部3と、主制御部4と、ROM5と、DRAM6と、SRAM7と、VRAM8と、ユーザインタフェース部9と、表示部10と、入力部11と、ディスク制御部12と、FM多重信号処理部13と、外部記録装置制御部14、音声データ生成部(音声合成出力部)15と、を備えている。
Embodiments of the present invention will be described below with reference to the drawings. In the following description, an in-vehicle navigation device (so-called car navigation device) will be exemplified as the navigation device.
FIG. 1 is a block diagram showing a functional configuration of
絶対位置・方位検出部1は、GPS(Global Positioning System)衛星から送信されているGPS電波を受信するレシーバ(アンテナを含む)を備え、ナビゲーション装置100が搭載された自動車の現在地、すなわち自車位置の地表における絶対的な位置座標及び方位をGPS電波に基づいて計算し主制御部4に出力するものである。相対方位検出部2は、ジャイロセンサを有し、自車位置の相対的な方位を検出して主制御部4に出力するものである。また、車速検出部3は、自動車より得られる車速パルスを処理して、自車両の速度を主制御部4に出力するものである。
The absolute position /
主制御部4は、ナビゲーション装置100の各部の制御や、ナビゲーション機能のための処理とった各種の処理を実行するものであり、演算手段としてのCPUや、その他の周辺回路を備えている。ROM5は、制御プログラムやBIOS(Basic Input Output System)、装置起動のためのブートプログラム、ナビゲーション機能を実現するためのプログラムといった各種プログラムを予め格納するものであり、主制御部4によりアクセス可能になされている。また、DRAM6は揮発性メモリであり主制御部4のワークエリアとして用いられる。また、SRAM7は不揮発性メモリであり、自動車のアクセサリ電源等のメイン電源(図示せず)から電力が供給されると共に、当該メイン電源がオフの間は、電池などの予備電源(図示せず)から電力が供給されて記憶内容を常時保持可能に構成され、バックアップメモリとして機能する。また、VRAM8は、表示部10に表示される画面データが書き込まれるバッファメモリである。
The main control unit 4 executes various processes such as control of each part of the
表示部10は、ユーザインタフェース部9の制御の下、ナビゲーションのための地図や自車位置、操作メニュー等の各種の情報を表示するものであり、例えばLCD(Liquid Crystal Display)やEL(Electro Luminescent)ディスプレイ等のディスプレイ装置を備えている。入力部11は、ユーザの指示操作を受け付け、ユーザインタフェース部9に出力するものであり、当該ナビゲーション装置100のフロント部分等に配設される複数の操作子や、表示部10が備えるディスプレイ装置に設けられたタッチパネル(不図示)を備えている。なお、当該ナビゲーション装置100をリモートコントローラ等により遠隔操作可能に入力部11を構成しても良い。
The
ユーザインタフェース部9は、I/O(Input/Output)制御回路やドライバ回路を備え、表示部10及び入力部11と、主制御部4とを結ぶインターフェースとして機能する。具体的には、ユーザインタフェース部9は、主制御部4の制御の下、表示部10の表示制御を実行すると共に、入力部11の操作を主制御部4に出力する。
The user interface unit 9 includes an input / output (I / O) control circuit and a driver circuit, and functions as an interface that connects the
ディスク制御部12は、ナビゲーションに使用される地図データや、各種のデータを格納するCD−ROMドライブやDVD-ROMドライブ、ハードディスクドライブといった記憶装置を制御するものである。また、FM多重信号処理部13は、FM多重放送波を受信して、渋滞や事故、交通規制といった情報を示すVICS(道路交通情報通信システム)情報を取り出し、主制御部4に出力するものである。外部記録装置制御部14は、例えばメモリカードやメモリースティック(登録商標)、コンパクトフラッシュ(登録商標)カード等の外部記録媒体に対してデータの記録及び読み出しを行うものである。
The
図2は、音声データ生成部の概要構成ブロック図である。
音声データ生成部15は、音声表記記号列が入力される合成単位系列変換部15Aを備えている。
音声表記記号列が入力されると、合成単位系列変換部15Aは、音声表記記号列を解析し、音声合成単位の記号列である合成単位系列記号列に変換して、音声合成制御パラメータ生成部15Bに出力する。
音声合成制御パラメータ生成部15Bは、予め設定されたTTSパラメータおよび音声合成規則データベース(DB)15Cを参照して、音源部15Dおよび音声合成フィルタ15Eを制御するための音声合成制御パラメータを時系列的に生成する。
FIG. 2 is a schematic configuration block diagram of the audio data generation unit.
The voice
When a speech notation symbol string is input, the synthesis
The voice synthesis control
この場合において、音声合成制御パラメータ生成部15Bは、テキスト情報の内容あるいはテキスト情報の入力元(メールアプリケーション、ナビゲーションアプリケーション、交通情報処理アプリケーションなど)の種類に応じて音声読み上げモードを設定するモード設定部として機能する。従って、音声合成制御パラメータ生成部15Bは、複数の音声読み上げモードに対応して予め設定された複数組のTTSパラメータのうち、テキスト情報の内容あるいは、テキスト情報の入力元の種類に応じて音声読み上げモードを自動的に生成して対応するTTSパラメータを参照することとなる。
生成される音声合成制御パラメータとしては、声道の伝達特性を定めるパラメータと、音源特性に関与するパラメータ(ピッチ(基本周波数)、音源振幅、有声/無声等)がある。これらのパラメータは、一定の時間的な枠の中で、互いに相関関係を持って設定される。
In this case, the speech synthesis control
The generated speech synthesis control parameters include a parameter that determines the transfer characteristics of the vocal tract and parameters (pitch (fundamental frequency), sound source amplitude, voiced / unvoiced, etc.) related to the sound source characteristics. These parameters are set in correlation with each other within a certain time frame.
これらの結果、音源部15Dおよび音声合成フィルタ15Eは、設定されたパラメータに基づいて連続音声を合成し、スピーカ15Fより合成音声が出力されることとなる。
上記構成において、音声合成を行って各種情報の音声読み上げを行わせるに先立って、ユーザは、複数の音声読み上げモードに対応して複数組のTTSパラメータを予め設定するためのTTSパラメータの設定処理を行っておく必要がある。
As a result, the
In the above configuration, prior to performing speech synthesis and reading out various kinds of information, the user performs a TTS parameter setting process for presetting a plurality of sets of TTS parameters corresponding to a plurality of speech reading modes. It is necessary to go.
図3は、TTSパラメータの設定処理のフローチャートである。
まず、ユーザはTTSパラメータを設定すべき音声読み上げモードNを選択する(ステップS1)。
この場合において、音声読み上げモードNとしては、メール読み上げモード、長文メール高速読み上げモード、交通情報(VICS)読み上げモード、経路案内モード等が挙げられる。メール読み上げモードにおいては、通常の音声合成がなされる、あるいは、固有名詞等については大きくはっきり発音するなどの処理がなされる。長文メール高速読み上げモードにおいては、メールの内容を短時間で把握するために、固有名詞等については大きくはっきり発音するとともに、発話速度を速くするなどの処理がなされる。交通情報(VICS)読み上げモードにおいては、地名、インターチェンジ名などの固有名称を大きくはっきりと発音させる等の処理がなされる。経路案内モードにおいては、距離、方向(進行方向など)、目印(信号、ビルなど)については、大きくはっきり発音させる等の処理がなされる。
FIG. 3 is a flowchart of TTS parameter setting processing.
First, the user selects a speech reading mode N in which a TTS parameter is to be set (step S1).
In this case, examples of the voice reading mode N include a mail reading mode, a long mail high speed reading mode, a traffic information (VICS) reading mode, a route guidance mode, and the like. In the mail reading mode, normal speech synthesis is performed, or proper nouns and the like are pronounced largely clearly. In the long mail high-speed reading mode, in order to grasp the contents of the mail in a short time, the proper nouns are pronounced largely and clearly, and the speech speed is increased. In the traffic information (VICS) read-out mode, processing is performed such that a unique name such as a place name or interchange name is pronounced largely and clearly. In the route guidance mode, a process such as making the distance, direction (traveling direction, etc.), and a mark (signal, building, etc.) loud and clear is performed.
続いてユーザは、選択した音声読み上げモードに対するTTSパラメータP1〜Pnを設定する(ステップS2)。
ここで、TTSパラメータP1〜Pnの種類としては、ピッチ、発話スピード、声の太さ、特殊記号の読み上げ可否、男声/女性、声の高さ、声の大きさ、アクセントの大きさ、母音の無声化の可否などが挙げられる。
続いて、主制御部4は、設定されたTTSパラメータP1〜Pnを読み上げモードNに対応づけてDRAM6およびSRAM7に記憶し設定処理を終了する(ステップS3)。
Subsequently, the user sets TTS parameters P1 to Pn for the selected speech reading mode (step S2).
Here, the types of TTS parameters P1 to Pn include pitch, speech speed, voice thickness, whether special symbols can be read out, male / female, voice pitch, voice volume, accent size, vowel The possibility of devoicing is mentioned.
Subsequently, the main control unit 4 stores the set TTS parameters P1 to Pn in the
図4は、音声出力要求処理のフローチャートである。
その後、主制御部4は、自己が実行しているメールアプリケーション、交通情報処理アプリケーションあるいはナビゲーションアプリケーションから音声出力要求がなされた場合には、出力するテキストデータTおよび音声読み上げモードを取得あるいは設定し(ステップS11)、音声データ生成部15に対し、TTS出力要求情報Sを設定し、出力する(ステップS12)。
FIG. 4 is a flowchart of the audio output request process.
Thereafter, when a voice output request is made from the mail application, traffic information processing application or navigation application being executed by itself, the main control unit 4 acquires or sets the text data T to be output and the voice reading mode ( In step S11), the TTS output request information S is set and output to the audio data generation unit 15 (step S12).
図5は、TTS音声出力処理の処理フローチャートである。
音声データ生成部15は、主制御部4からTTS出力要求情報Sを取得すると(ステップS21)、TTSパラメータP1〜Pnを設定する(ステップS22)。
さらに音声データ生成部15は、テキストデータTを設定する(ステップS23)。
これにより、音声データ生成部15は、テキストデータTを音声データに変換する(ステップS24)。
FIG. 5 is a process flowchart of the TTS audio output process.
When the voice
Further, the voice
Thereby, the voice
図6は、音声データ生成部の処理フローチャートである。
まず音声データ生成部15は、入力されたテキストデータTを解析し、音声記号の系列に変換するととともに、韻律的な特徴を自動的に生成するために、形態素解析や構文解析を行う(ステップS31)。
具体的には、ある単語に対し文法的に連結可能な単語の種類を規定した単語検索テーブル15Gおよび辞書15Hを参照して入力されたテキストを単語と、形態素の系列と、に分割する。
FIG. 6 is a process flowchart of the audio data generation unit.
First, the speech
Specifically, the text input with reference to the word search table 15G and the
続いて、分割した単語と、形態素の系列とに基づいて、読み仮名情報、文法情報、アクセント情報、単語/文節アクセント情報を音声合成用情報として抽出し、合成単位系列変換部に出力される(ステップS32)。
これにより合成単位系列変換部15Aは、音声合成用情報を解析し、音声合成単位の記号列である合成単位系列記号列に変換されて、音声合成制御パラメータ生成部15Bに出力される。
Subsequently, based on the divided words and the morpheme sequence, the reading information, the grammatical information, the accent information, and the word / sentence accent information are extracted as speech synthesis information and output to the synthesis unit sequence conversion unit ( Step S32).
As a result, the synthesis unit
音声合成制御パラメータ生成部15Bは、設定されたTTSパラメータP1〜Pnおよび音声合成規則データベース(DB)15Cを参照して、音源および音声合成フィルタを制御するための音声合成制御パラメータを時系列的に生成する(ステップS34)。
ここで、音声合成制御パラメータとしては、声道の伝達特性を定めるパラメータと、音源特性に関与するパラメータ(ピッチ(基本周波数)、音源振幅、有声/無声等)がある。これらのパラメータは、一定の時間的な枠の中で、互いに相関関係を持って設定される。
The voice synthesis control
Here, as speech synthesis control parameters, there are a parameter that determines the transfer characteristics of the vocal tract and parameters (pitch (fundamental frequency), sound source amplitude, voiced / unvoiced, etc.) related to the sound source characteristics. These parameters are set in correlation with each other within a certain time frame.
これらの結果、音源部15Dおよび音声合成フィルタ15Eは、設定されたパラメータに基づいて連続音声を合成し、スピーカ15Fより合成音声が出力される(ステップS25)。
このとき、スピーカ15Fから出力される合成音声は、設定されたTTSパラメータP1〜Pnに従うものとなる。
例えば、メールの容量が所定の基準容量よりも大きい長文メールである場合には、読上モードが長文高速読上モードに設定され、読み上げ速度を上げて、より短時間でメールの内容を把握することができる。
As a result, the
At this time, the synthesized speech output from the
For example, if the mail volume is a long text mail that is larger than a predetermined reference capacity, the reading mode is set to the long text high speed reading mode, the reading speed is increased, and the content of the mail is grasped in a shorter time. be able to.
また、経路案内情報や交通情報を読み上げる場合には、距離あるいは地名(固有名称)などをゆっくり大きく発音するなどより聞きやすい状態にすることが可能となる。
以上の説明のように、本実施形態によれば、テキスト情報の内容あるいはテキスト情報の入力元の種類に応じて主制御部4が自動的に音声読み上げモードを設定し、設定された音声読み上げモードに対応するTTSパラメータの組に基づいて音声合成を行って合成音声を出力するので、読み上げ対象に応じてより聞き取りやすい合成音声を得ることができ、使い勝手が向上する。
In addition, when reading out route guidance information and traffic information, it becomes possible to make it easier to hear, for example, slowly pronounce a distance or place name (unique name).
As described above, according to the present embodiment, the main control unit 4 automatically sets the speech reading mode according to the content of the text information or the input source type of the text information, and the set speech reading mode is set. Since the synthesized speech is output by performing speech synthesis based on the set of TTS parameters corresponding to, synthesized speech that is easier to hear can be obtained according to the reading target, and usability is improved.
以上の説明においては、音声読み上げモードを主制御部4が自動的に設定する構成としていたが、ユーザが入力部11を介して任意に音声読み上げモードを設定するように構成することも可能である。
以上の説明では、テキスト情報の入力元は、ナビゲーション装置上で実行されるメールアプリケーション、交通情報処理アプリケーションあるいはナビゲーションアプリケーションである場合を説明したが、これら以外の各種アプリケーションであっても良い。
さらに、アプリケーションばかりでなく、外部装置、例えば、外部の交通情報処理装置、インターネット端末などからテキスト情報を入力するようにしてもよい。
以上の説明では、ナビゲーション装置について説明したが、音声合成装置を設けることが可能な装置であれば、どのような装置でも適用が可能である。
In the above description, the main control unit 4 automatically sets the voice reading mode. However, the user can arbitrarily set the voice reading mode via the
In the above description, the case where the text information input source is a mail application, a traffic information processing application, or a navigation application executed on the navigation device has been described, but various other applications may be used.
Furthermore, text information may be input not only from an application but also from an external device such as an external traffic information processing device or an Internet terminal.
In the above description, the navigation device has been described. However, any device can be applied as long as it can provide a speech synthesizer.
100 ナビゲーション装置
1 絶対位置・方位検出部
2 相対方位検出部
3 車速検出部
4 主制御部(モード設定部、パラメータ特定部)
5 ROM
6 DRAM(パラメータ記憶部)
7 SRAM(パラメータ記憶部)
9 ユーザインタフェース部
10 表示部
11 入力部(モード指定部)
12 ディスク制御部
13 FM多重信号処理部
14 外部記録装置制御部
15 音声データ生成部(音声合成出力部、音声合成部)
15A 合成単位系列変換部
15B 音声合成制御パラメータ生成部
15C 音声合成規則データベース(DB)
15D 音源部
15E 音声合成フィルタ
15F スピーカ
DESCRIPTION OF
5 ROM
6 DRAM (parameter storage unit)
7 SRAM (parameter storage unit)
9
12
15A Synthesis unit
15D
Claims (7)
前記テキスト情報の入力元の種類に応じてメール読み上げモード、長文メール高速読み上げモード、交通情報読み上げモードあるいは経路案内モードのいずれかに音声読み上げモードを設定するモード設定部と、
設定された前記音声読み上げモードに対応する音声合成制御パラメータの組み合わせを特定し、前記メール読み上げモードあるいは長文メール高速読み上げモードにおいては、固有名詞を大きくはっきり発音するようにし、前記交通情報読み上げモードにおいては、地名、インターチェンジ名などの固有名称を大きくはっきり発音するようにし、前記経路案内モードにおいては、距離、方向、目印について大きくはっきり発音するようにするパラメータ特定部と、
特定された音声合成パラメータに基づいて音声合成を行って前記音声として出力する音声合成部と、
を備えたことを特徴とする音声合成装置。 In the speech synthesizing apparatus for performing speech voice line speech synthesis based on the input text information,
Depending on the input source type and e-mail read aloud mode, long sentence e-mail high-speed read-out mode, the mode setting unit that sets a text-to-speech mode to one of the traffic information reading mode or route guidance mode of the text information,
The combination of the speech synthesis control parameters corresponding to the set speech reading mode is specified, and in the mail reading mode or the long sentence high speed reading mode, proper nouns are pronounced largely and clearly, in the traffic information reading mode A parameter specifying unit that clearly pronounces unique names such as place names and interchange names, and pronounces clearly about distance, direction, and landmarks in the route guidance mode ;
A speech synthesizer that performs speech synthesis based on the identified speech synthesis parameters and outputs the synthesized speech;
A speech synthesizer characterized by comprising:
前記テキスト情報の入力元は、メールアプリケーション、交通情報処理アプリケーションあるいはナビゲーションアプリケーションであり、
前記モード設定部は、前記テキスト情報の入力元がメールアプリケーションである場合には、前記音声読み上げモードを前記メール読み上げモードあるいは長文メール高速読み上げモードに設定し、前記テキスト情報の入力元が交通情報処理アプリケーションである場合には、前記音声読み上げモードを前記交通情報読み上げモードに設定し、前記テキスト情報の入力元がナビゲーションアプリケーションである場合には、前記音声読み上げモードを前記経路案内モードに設定する、
ことを特徴とする音声合成装置。 The speech synthesizer according to claim 1.
The input source of the text information is a mail application, a traffic information processing application or a navigation application,
When the text information input source is a mail application, the mode setting unit sets the voice reading mode to the mail reading mode or the long text high-speed reading mode, and the text information input source is the traffic information processing If it is an application , the speech reading mode is set to the traffic information reading mode, and if the input source of the text information is a navigation application, the voice reading mode is set to the route guidance mode.
A speech synthesizer characterized by the above.
前記テキスト情報の入力元の種類に応じてメール読み上げモード、長文メール高速読み上げモード、交通情報読み上げモードあるいは経路案内モードのいずれかに音声読み上げモードを設定するモード設定過程と、
設定された前記音声読み上げモードに対応する音声合成制御パラメータの組み合わせを特定し、前記メール読み上げモードあるいは長文メール高速読み上げモードにおいては、固有名詞を大きくはっきり発音するようにし、前記交通情報読み上げモードにおいては、地名、インターチェンジ名などの固有名称を大きくはっきり発音するようにし、前記経路案内モードにおいては、距離、方向、目印について大きくはっきり発音するようにするパラメータ特定過程と、
特定された音声合成パラメータに基づいて音声合成を行って前記音声として出力する音声合成過程と、
を備えたことを特徴とする音声合成装置の制御方法。 A method of controlling a speech synthesis apparatus for performing speech voice I line speech synthesis based on the input text information,
Depending on the input source type and e-mail read aloud mode, long sentence e-mail high-speed read-out mode, the mode setting process of setting the text-to-speech mode to one of the traffic information reading mode or route guidance mode of the text information,
The combination of the speech synthesis control parameters corresponding to the set speech reading mode is specified, and in the mail reading mode or the long sentence high speed reading mode, proper nouns are pronounced largely and clearly, in the traffic information reading mode In the route guidance mode, a parameter specifying process for clearly pronounced distances, directions, and landmarks is pronounced .
A speech synthesis process in which speech synthesis is performed based on the identified speech synthesis parameters and output as the speech;
A method for controlling a speech synthesizer, comprising:
前記テキスト情報の入力元は、メールアプリケーション、交通情報処理アプリケーションあるいはナビゲーションアプリケーションであり、
前記モード設定過程において、前記テキスト情報の入力元がメールアプリケーションである場合には、前記音声読み上げモードを前記メール読み上げモードあるいは長文メール高速読み上げモードに設定し、前記テキスト情報の入力元が交通情報処理アプリケーションである場合には、前記音声読み上げモードを前記交通情報読み上げモードに設定し、前記テキスト情報の入力元がナビゲーションアプリケーションである場合には、前記音声読み上げモードを前記経路案内モードに設定する、
ことを特徴とする音声合成装置の制御方法。 The method of controlling a speech synthesizer according to claim 3,
The input source of the text information is a mail application, a traffic information processing application or a navigation application,
In the mode setting process, when the text information input source is a mail application, the voice reading mode is set to the mail reading mode or the long text high-speed reading mode, and the text information input source is the traffic information processing If it is an application , the speech reading mode is set to the traffic information reading mode, and if the input source of the text information is a navigation application, the voice reading mode is set to the route guidance mode.
A method of controlling a speech synthesizer characterized by the above.
前記テキスト情報の入力元の種類に応じてメール読み上げモード、長文メール高速読み上げモード、交通情報読み上げモードあるいは経路案内モードのいずれかに音声読み上げモードを設定させ、
設定された前記音声読み上げモードに対応する音声合成制御パラメータの組み合わせを特定し、前記メール読み上げモードあるいは長文メール高速読み上げモードにおいては、固有名詞を大きくはっきり発音するようにさせ、前記交通情報読み上げモードにおいては、地名、インターチェンジ名などの固有名称を大きくはっきり発音するようにさせ、前記経路案内モードにおいては、距離、方向、目印について大きくはっきり発音するようにさせ、
特定された音声合成パラメータに基づいて音声合成を行って前記音声として出力させる、
ことを特徴とする制御プログラム。 In the control program for controlling a computer speech synthesis apparatus for performing speech voice I line speech synthesis based on the input text information,
Depending on the input source type mail reading mode of the text information, long sentence e-mail high-speed read-out mode, to set the text-to-speech mode to one of the traffic information reading mode or route guidance mode,
The combination of the speech synthesis control parameters corresponding to the set speech reading mode is specified, and in the mail reading mode or the long sentence high speed reading mode, proper nouns are pronounced largely and clearly, in the traffic information reading mode Is to pronounce unique names such as place names, interchange names, etc., and in the route guidance mode, it should be pronounced clearly about distance, direction and landmarks ,
Performing speech synthesis based on the identified speech synthesis parameters and outputting as speech.
A control program characterized by that.
前記テキスト情報の入力元は、メールアプリケーション、交通情報処理アプリケーションあるいはナビゲーションアプリケーションであり、
前記テキスト情報の入力元がメールアプリケーションである場合には、前記音声読み上げモードを前記メール読み上げモードあるいは長文メール高速読み上げモードに設定させ、前記テキスト情報の入力元が交通情報処理アプリケーションである場合には、前記音声読み上げモードを前記交通情報読み上げモードに設定させ、前記テキスト情報の入力元がナビゲーションアプリケーションである場合には、前記音声読み上げモードを前記経路案内モードに設定させる、
ことを特徴とする制御プログラム。 The control program according to claim 5, wherein
The input source of the text information is a mail application, a traffic information processing application or a navigation application,
If the input source of the text information is a mail application, the text-to-speech mode is set in the e-mail reading mode or a long sentence e-mail high-speed read-out mode, when the input source of the text information is a traffic information processing applications The speech reading mode is set to the traffic information reading mode, and when the input source of the text information is a navigation application, the voice reading mode is set to the route guidance mode.
A control program characterized by that.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004284240A JP4684609B2 (en) | 2004-09-29 | 2004-09-29 | Speech synthesizer, control method, control program, and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004284240A JP4684609B2 (en) | 2004-09-29 | 2004-09-29 | Speech synthesizer, control method, control program, and recording medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006098695A JP2006098695A (en) | 2006-04-13 |
JP4684609B2 true JP4684609B2 (en) | 2011-05-18 |
Family
ID=36238586
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004284240A Expired - Fee Related JP4684609B2 (en) | 2004-09-29 | 2004-09-29 | Speech synthesizer, control method, control program, and recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4684609B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014069220A1 (en) * | 2012-10-31 | 2014-05-08 | Necカシオモバイルコミュニケーションズ株式会社 | Playback apparatus, setting apparatus, playback method, and program |
JP5958303B2 (en) | 2012-11-27 | 2016-07-27 | 株式会社デンソー | Text-to-speech device |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08335096A (en) * | 1995-06-07 | 1996-12-17 | Oki Electric Ind Co Ltd | Text voice synthesizer |
JPH0962286A (en) * | 1995-08-22 | 1997-03-07 | Sony Corp | Voice synthesizer and the method thereof |
JPH0990971A (en) * | 1995-09-25 | 1997-04-04 | N T T Data Tsushin Kk | Voice synthesizing method |
JPH10260815A (en) * | 1997-03-18 | 1998-09-29 | Toshiba Corp | Voice synthesizing method |
JPH11102198A (en) * | 1997-07-31 | 1999-04-13 | Toyota Motor Corp | Message processing device, method of processing message, and medium on which a message processing program is recorded |
JP2000075875A (en) * | 1998-08-28 | 2000-03-14 | Ntt Data Corp | Method and device for voice synthesis |
JP2002132282A (en) * | 2000-10-20 | 2002-05-09 | Oki Electric Ind Co Ltd | Electronic text reading aloud system |
JP2002351485A (en) * | 2001-05-28 | 2002-12-06 | Matsushita Electric Ind Co Ltd | Electronic mail reading-aloud device |
-
2004
- 2004-09-29 JP JP2004284240A patent/JP4684609B2/en not_active Expired - Fee Related
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08335096A (en) * | 1995-06-07 | 1996-12-17 | Oki Electric Ind Co Ltd | Text voice synthesizer |
JPH0962286A (en) * | 1995-08-22 | 1997-03-07 | Sony Corp | Voice synthesizer and the method thereof |
JPH0990971A (en) * | 1995-09-25 | 1997-04-04 | N T T Data Tsushin Kk | Voice synthesizing method |
JPH10260815A (en) * | 1997-03-18 | 1998-09-29 | Toshiba Corp | Voice synthesizing method |
JPH11102198A (en) * | 1997-07-31 | 1999-04-13 | Toyota Motor Corp | Message processing device, method of processing message, and medium on which a message processing program is recorded |
JP2000075875A (en) * | 1998-08-28 | 2000-03-14 | Ntt Data Corp | Method and device for voice synthesis |
JP2002132282A (en) * | 2000-10-20 | 2002-05-09 | Oki Electric Ind Co Ltd | Electronic text reading aloud system |
JP2002351485A (en) * | 2001-05-28 | 2002-12-06 | Matsushita Electric Ind Co Ltd | Electronic mail reading-aloud device |
Also Published As
Publication number | Publication date |
---|---|
JP2006098695A (en) | 2006-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2137723B1 (en) | Apparatus for text-to-speech delivery and method therefor | |
JP3573907B2 (en) | Speech synthesizer | |
WO1993007447A1 (en) | Navigation apparatus for vehicles | |
JPH09114489A (en) | Device and method for speech recognition, device and method for navigation, and automobile | |
JP2011242594A (en) | Information presentation system | |
EP2544178B1 (en) | Mobile computing apparatus and method of reducing user workload in relation to operation of a mobile computing apparatus | |
JP2002156241A (en) | Navigation apparatus and recording medium with program recorded thereon | |
JP4784156B2 (en) | Speech synthesizer for performing voice guidance by a plurality of characters, speech synthesis method, program thereof, and information recording medium on which the program is recorded | |
CN103020232B (en) | Individual character input method in a kind of navigational system | |
JP2003014485A (en) | Navigation device | |
JP2001117584A (en) | Voice processor | |
JPH08193837A (en) | Navigation system | |
JP4684609B2 (en) | Speech synthesizer, control method, control program, and recording medium | |
JP2006010509A (en) | Navigation system | |
JPH07319383A (en) | Map display device | |
JP3862478B2 (en) | Speech synthesis apparatus and speech synthesis method | |
JP4520555B2 (en) | Voice recognition device and voice recognition navigation device | |
JP4655268B2 (en) | Audio output system | |
JP2004226711A (en) | Voice output device and navigation device | |
JP2002062893A (en) | On-vehicle navigation device | |
JP2011180416A (en) | Voice synthesis device, voice synthesis method and car navigation system | |
JP4550207B2 (en) | Voice recognition device and voice recognition navigation device | |
JP3706495B2 (en) | Speech synthesizer | |
JPH08166797A (en) | Voice interactive control system | |
JPH0934490A (en) | Method and device for voice synthetization, navigation system, and recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070718 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100308 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100330 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100527 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20100527 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110201 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110209 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140218 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4684609 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |