Nothing Special   »   [go: up one dir, main page]

JP4302788B2 - 音声合成用の基本周波数テンプレートを収容する韻律データベース - Google Patents

音声合成用の基本周波数テンプレートを収容する韻律データベース Download PDF

Info

Publication number
JP4302788B2
JP4302788B2 JP26640197A JP26640197A JP4302788B2 JP 4302788 B2 JP4302788 B2 JP 4302788B2 JP 26640197 A JP26640197 A JP 26640197A JP 26640197 A JP26640197 A JP 26640197A JP 4302788 B2 JP4302788 B2 JP 4302788B2
Authority
JP
Japan
Prior art keywords
speech
prosodic
fundamental frequency
timbre
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP26640197A
Other languages
English (en)
Other versions
JPH10116089A (ja
Inventor
ディー ヒューアン シュードン
エル アドコック ジェームズ
エイ ゴールドスミス ジョン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JPH10116089A publication Critical patent/JPH10116089A/ja
Application granted granted Critical
Publication of JP4302788B2 publication Critical patent/JP4302788B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • G10L2025/903Pitch determination of speech signals using a laryngograph

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、一般的には、データ処理システムに関し、特に、音声合成用の基本周波数テンプレートを収容する韻律データベースに関する。
【0002】
【従来の技術】
音声テキスト(text-to-speech)システムは原文通りの入力によって指定された音声を合成する。従来の音声テキストシステムの限界の1つは、それらが非常に不自然なロボットのような合成された音声を作り出していたということである。かかる合成された音声は、典型的には人間の音声である韻律的特徴を示さない。従来の音声テキストシステムのほとんどは、時間に伴う韻律パラメータの展開を定義するために、僅かなセットのルールを適用することによって韻律を生み出す。韻律は一般的には、音の持続期間と、音の大きさと、音に関係するピッチアクセントとを含むように考えられる。所定の音声テキストシステムは、そのシステムによって作り出されたかかる合成された音声の本質を高める推測統計学的技術を採用するように試みられている。これらの推測統計学的学習技術は、口述された句又は文のコーパスから導かれる統計に基づいた韻律を求めるように試みられている。しかし、これらの推測統計学的技術はまた、自然な音声を一貫して作り出すのに失敗してきている。
【0003】
【課題を解決するための手段】
本発明の第1の態様によれば、コンピュータで実施される方法は、音声を合成するためのシステムで実行される。この方法によれば、合成されるべき音声に関するテキストは韻律テンプレートに沿って設けられる。各韻律テンプレートは、音声のユニットに関する一連の基本周波数値を保持する。テンプレートのうちの1つは、テキストに関して合成された音声に関する韻律の確立用に選択される。次いで、音声は、音声に関する韻律を確立する際に、選択されたテンプレートから基本周波数のうちの少なくとも1つを使用してテキストに関して合成される。
本発明の別の態様によれば、音声のユニットに関する基本周波数の韻律データベースが提供される。韻律データベースの各エントリは、基本周波数が保持される音声のユニットに関する強調の度合いと対応する音色マーキングのパターンによって指標付けされる。自然言語解析を所定のテキストで実施する。自然言語解析の結果に基づいて、音色マーキングの予測パターンがテキストにおける音声のユニットに関して予測される。韻律データベースにおける最適合インデックスが、韻律データベースにおけるエントリのインデックスを持ったテキストにおける音声のユニットに関する音色マーキングの予測パターンと比較することによって識別される。最適合インデックスによって指標付けされた韻律データベースにおけるエントリの基本周波数のうちの少なくとも1つは、テキストに関して合成された音声において韻律を確立するために使用される。
【0004】
本発明の更なる態様によれば、韻律データベースを構築する方法がコンピュータシステムで実行される。人間のトレーナによって話される、話されたテキストの複数の対応する部分の各々に関して、音響信号が得られる。各音響信号は、人間トレーナがテキストの対応する部分を話すときに生じる信号である。話されるテキストの各部分に関する喉頭グラフ(laryngograph)は、テキストの部分が話されるとき、人間トレーナに付随する喉頭グラフから得られる。音響信号は、テキストの音節を表わすセグメントに区分けられる。各音節は母音部分を含む。喉頭グラフ信号は、音響信号のセグメントと適合するセグメントに区分けられる。テキストの各部分で各音節の母音部分に関する瞬間的な基本周波数の重み合計が計算される。基本周波数は、喉頭グラフ信号から得られ、重みは音響信号から得られる。テキストの各部分に関して、韻律データベースにおけるテキストの部分の各音節に関する瞬間的な基本周波数の重み合計はストアされ、これらの重み合計は合成された音声の韻律を確立するために使用される。
【0005】
本発明の追加の態様によれば、音声テキストシステムは入力テキストを音声のユニットに解析するためのパーサを含む。このシステムはまた、韻律テンプレートを保持する韻律データベースを含み、各韻律テンプレートは音声のユニットに関する一連の基本周波数値を保持する。このシステムは、入力テキストにおける音声のユニットに関して基本周波数値を得るために、韻律データベースにおけるテンプレートのうちの選択された1つを使用することによって、入力テキストに対応する音声を作り出すための音声合成手段を更に含む。
本発明の更なる態様によれば、音声の異なるスタイルに関する韻律テンプレートを保持する韻律データベースが設けられる。作り出されるべき音声の部分に適用されるべきである韻律スタイルが求められ、求められた韻律スタイルに関する韻律データベースにおけるテンプレートのうちの少なくとも1つは、求められた韻律スタイルを持った音声の部分を作り出すのに使用される。
【0006】
本発明の更に別の態様によれば、韻律データベースは、単一の話者に関する異なる韻律スタイルの韻律テンプレートを保持することが設けられる。システムによって作り出されるべきである音声の部分に適用されるべきである韻律スタイルが求められ、韻律データベースにおけるテンプレートのうちの少なくとも1つが、求められた韻律スタイルを持った音声の部分を作り出すために求められた韻律スタイルのために使用される。
【0007】
【発明の実施の形態】
本発明の典型的な実施形態は、句又は文に関する基本周波数のテンプレートを保持する1又はそれ以上の韻律データベースを設ける。複数の話者に関する韻律データベースを保持し、異なる韻律スタイルに関する複数の韻律データベースを保持することができる。これらのデータベースの各々は、一種の「ボイスフォント」としての役割を果たす。韻律データベースは、より自然な合成された音声を作り出すように利用される。音声合成では、所望の韻律をセットするためにこれらのボイスフォントの間から選択することができる。特に、合成された音声の出力における音節に割り当てられるべき基本周波数を決定するために、韻律データベースのうちの1つからの最も適合したテンプレートを使用する。本発明の典型的な実施形態の音声テキストシステムへのテキスト入力は、韻律データベースにおける最も適合したテンプレートを決定するように処理される。正確な一致が見つからないならば、最も適合するテンプレートから無標の領域に一致を作り出すように改竄技術を適用しうる。かかる合成された音声は、従来の音声テキストシステムによって作り出された音声より、より自然な音である。
【0008】
各韻律データベースは、無標コーパスから人間の話者が話す文を有することによって構築されている。次いで、これらの文は、自然言語処理エンジンによって処理され、隠れマルコフモデル(HMM)を使用して音素と音節に区分される。この喉頭グラフ出力は、HMMによってマイクロフォン音声信号に作り出された区分に従って区分されている。区分された喉頭グラフ出力は、各音節の母音部分における重み基本周波数を求めるように処理される。これらの重み基本周波数は韻律データベースのエントリにストアされ、韻律データベースのエントリは音色マーキング(音色マークとも称す)によって指標付けられる。 本発明の典型的な実施形態は、所定の話者に関する韻律を判断するために、迅速で且つ容易なアプローチを提供する。このアプローチは、全てのタイプのテキストに在して適用されるべく広範囲に及ぶ。典型的な実施形態はまた、扱いやすく、該システムを扱ったオリジナルスピーカーと非常に似ているように発する音声を作り出す機構を提供する。
【0009】
図1は、本発明の典型的な実施形態を実行するのに適当なコンピュータシステム10を示す。当業者は、図1におけるコンピュータシステム構成が単に説明することを意図したものであり、本発明を限定するものではないことを認識するであろう。本発明はまた、分散型システム及び密結合多重プロセッサシステムを含む、他のコンピュータシステム構成の状態で実行されうる。
コンピュータシステム10は、中央処理装置(CPU)12及びたくさんの入出力デバイスを含む。例えば、これらのデバイスはキーボード14、ビデオディスプレィ16、及び、マウス18を含みうる。CPU12はメモリ20へのアクセスを有する。メモリ20は音声テキスト(text-to-speech)(TTS)機構28のコピーを保持する。TTS機構28は、本発明の典型的な実施形態を実行するための命令を保持する。コンピュータシステム10はまた、CPU12をネットワーク24と接続するためのネットワークアダプタ22を含む。コンピュータシステム10は更に、モデム26と、オーディオ出力を発生させるために(ラウドスピーカのような)オーディオ出力デバイス27とを含みうる。
【0010】
TTS機構28は、1又はそれ以上の韻律データベースを含む。単一の話者に関する複数のデータベースが保持されうる。例えば、話者は異なる領域内のアクセントに関する別々のデータベースを作り出すことができ、各アクセントは、それら自体の韻律スタイルを有する。更に、話者は、ニュース放送を読むことによってデータベースを作ることができ、子供向けの本を読むことによって別のデータベースを作りうる。更に、別の韻律データベースを多数の話者のために保持しうる。上で述べたように、これらのデータベースの各々は、別々の「ボイスフォント」を斟酌しうる。
図2は、入力テキストの単一の文に関する合成された音声出力を作り出すために、本発明の典型的な実施形態によって行われる段階の概観をなすフローチャートである。複数の入力テキスト文が処理されるべきならば、図2(即ち、ステップ32乃至44)に示された多くのステップは各文に関して繰り返されうる。図2のフローチャートを、本発明の典型的な実施形態のTTS機能28の基本的な構成を図示する図3に関連して説明する。本発明の典型的な実施形態において実施される第1の段階は、韻律データベースを構築する(図2のステップ30)。韻律データベースは図3に示される韻律テンプレート60の部分である。テンプレート60は、複数の韻律データベース即ちボイスフォントを含みうる。上で議論したように、各韻律データベースは、無標コーパスからの多くの文を人間の話者に話させることによって、且つ、かかるアナログ音声信号及び喉頭グラフを寄せ集めることによって作り出される。次いで、このデータは韻律データベースを構築するために処理される。
【0011】
図4は、より詳細に韻律データベースを構築するために実施される段階を図示したフローチャートである。図4に示されたステップは、話者によって話された無標コーパス50における各文に関して実施される。最初に、話されるトレーニング文に関する喉頭グラフ信号を受信する(図4のステップ70)。
図5Aは、マイクロフォン音声信号の例を示す。図5Bは対応する喉頭グラフ信号を示す。この信号は、その時点での話者の音声コードがどの程度に開いているか又は閉じているかの指示を与える。トレーニング文に関する音素及び音節によるセグメンテーションを受信し、同様な仕方で喉頭グラフ信号を区分する。特に、喉頭グラフ信号は、マイクロフォン信号が区分けされたのと丁度同じ時間サイズで区分けされる。特に、HMMトレーニング52は、区分けされたコーパス54をもたらすように、無標コーパス50の話される文で実施される。HMM技術は当該技術分野で周知である。適当なHMMトレーニング技術は、1996年5月1日に出願された「連続密度隠れマルコフモデルを使用して音声認識をする方法及びシステム(Method and System for Speech Recognition Using Continuous Density Hidden Markov Models)」と題する継続出願第08/655,273号に記載されており、本出願と共通の譲受人に譲渡されている。これらのHMM技術により、音素及び音節によって区分された音声信号になる。音節区分は、本発明の典型的な実施形態に対して特別に重要なものである。
【0012】
喉頭グラフは、エポック情報を識別するように、且つ、瞬間的な基本周波数(F0)情報を作り出すように処理される。この文脈中では、エポックとは、音声コードが開いている及び閉じている継続時間のことを言う。言い換えれば、1つのエポックが音声コードの1つの開き及び閉じに対応する。基本周波数は、話者の音声コードが音節に関して振動する基本周波数を言う。これは、本発明の典型的な実施形態の最も重要なものである韻律パラメータである。エポック情報は、喉頭グラフ信号の継続時間のスムージング評価の局所的最大から得られる。
母音領域は、典型的には、最も強く強調される音節の部分だから、解析のために選択される。音節の母音部分に関する喉頭グラフ信号から選られた瞬間的な基本周波数値の重み合計として、重みF0(weighted F0 )を計算する。より数式的には、重み基本周波数は数学的に以下のように表わしうる:
【0013】
【数1】
Figure 0004302788
【0014】
ここで、Wi は重み、F0i は時間i での基本周波数である。基本周波数F0i を、喉頭グラフの信号における隣接したピークを分離する時間分の1として計算する。典型的には、音節の母音部分は複数のピークを含むであろう。重みWは音響信号から得られ、式的には以下のように表わしうる:
【0015】
【数2】
Figure 0004302788
【0016】
ここで、A(t)は時間tでの音響信号の振幅、ta は第1のピークでの時間、tb は第2のピークでの時間である。ta 及びtb の値は、それぞれ第1及び第2のピークに関する喉頭グラフ信号のピークに対応する時間における点を表わしているものである。この重み機構により、音節毎の知覚重みF0を計算する際に、速度信号のより大きな振幅の部分に、より大きな重みを与えることができる。この重み機構は、F0カーブの知覚的に重要な部分(即ち、振幅が高い場所)に更なる重みを与える。
自然言語処理(NLP)は文で実行され(即ち、テキスト解析56が実行される)、自然言語処理から得られた情報は音色マーキングを予測するように使用される(図4のステップ76)。多くのどんな周知の技術でも、この解析を実行するように使用されうる。自然言語処理は文を解析するので、音声の部分の同一性、文脈単語、文の文法構造、文のタイプ、及び、文における単語の発音が生ずる。かかるNLPパーズから得られた情報は、文の各音節に関して音色マーキングを予測するように使用される。音声の人間的韻律パターンの多くが各音節に関して3つの音色マーキングのうちの1つを予測することによって表現されることは認識されていた。これらの3つの音色マーキングは、高音、低音、又は、特別な強調の無いものである。本発明の典型的な実施形態は、音節基(syllable basis)毎に解析された入力文に関して、音色マーキングのパターンを予測する。音色マーキングを予測及び割り当てるための適当なアプローチは、John Goldsmith著「English as a Tone Language」(Communication and Cognition, 1978 )と、Janet Pierrehumbert 著「The Phonology and Phonetics of English Intonation 」(学位論文、マサチューセッツ工科大学、1980)に説明されている。予測された音色マーキングストリングの例は「2 H 0 H 0 N 0 L 1 - 」である。このストリングは数字と、H,L,h,l,+ 及び- の組から選択された記号とから構成される。記号は、所定の高い突出音節の音色の特徴、第1のアクセント、及び、最後の音節を示し、数字は、これらのアクセント又は最後の音節の間にいくつの音節が生じるかを示す。H 及びL はそれぞれ強調された音節での高音及び低音を示し、+ 及び- は最後の音節での高音及び低音を示し、h 及びl は以下に続く強調された音節の最左端の音節での(以下に続く音節が無ければ、それ自身の強調された音節での)高音及び低音を示す。
【0017】
エントリは、文の音節に関する重み基本周波数の連続を保持するために韻律データベースに作成される。各エントリを、文に関する関連した音色マーキングストリングによって指標付けする(図4のステップ78)。基本周波数値は、符号無しのキャラクタ値として韻律データベースにストアされうる(図4のステップ80)。上述したステップは、韻律データベースを構築するために各文に関して実行される。一般的には、セグメンテーション及び原文通りの解析は、韻律データベース60を構築するために、本発明の典型的な実施形態によって採用された韻律モデルによって使用される。
韻律データベースが構築された後(図2のステップ30参照)、データベースを音声合成に利用しうる。音声合成における第1の段階は、作り出されるべき音声を識別する(図2のステップ32)。本発明の典型的な実施形態では、この音声は、文を表わすテキストのチャンクである。それにもかかわらず、当業者は、本発明がまた、成句、単語又はパラグラフさえも含むテキストの他の細分性を伴って実行されうることを理解するであろう。合成段階(図3)における次のステップは、入力テキストを解析し、入力文に関する音色マーキング予測を作り出す(図2のステップ34)。一般的には、上で議論した同じ自然言語処理は、音声の部分、文法構造、単語の発音、及び、入力テキスト文に関する文のタイプの同一性を判断するために適用される。この処理は、図3のテキスト解析ボックス56として指定される。音色マーキングは、上で議論したGoldsmith の技術を使用して自然言語処理パーズから得られた情報を使用して予測される。典型的な実施形態のこの態様は、合成段階48の韻律生成段階66で実行される。
【0018】
予測された音色マーキングを与えるので、韻律データベースにおける韻律テンプレート60はインデックスとして予測された音色マーキングを使用して、アクセスされうる(図2のステップ36)。正確な調和(即ち、入力文に関して予測されたものと同じ音色マーキングパターンによって指標付けされるエントリ)があるならば、それは初めに決定される(図2のステップ38)。調和したエントリがあるならば、エントリにストアされた重み基本周波数は、入力文に関して合成された音声に関する韻律を確立するのに使用される。次いで、システムは、これらの重み基本周波数を利用する音声出力を生成するために進行する(図2のステップ44)。図3に示したように、本発明の典型的な実施形態は音声合成への連鎖的なアプローチを使用する。特に、区分けされたコーパス55は、2音素(diphone )、3音素(triphone)等のような音響単位を識別するために処理され、合成された音声を作り出すのに使用されうる。このプロセスは図3のユニット生成段階46によって示され、ユニットの目録を与える。入力テキスト文に関するユニットの適当なセットはユニット目録62から引き出され、合成された音声出力を作り出すために連結される。韻律データベースからの基本周波数は、合成された音声出力の韻律を確立するために採用される。
【0019】
正確な調和が図2のステップ38で見つからなければ、韻律データベースにおける最適合エントリは判断され、最適合エントリ内の基本周波数値は、合成された音声出力の生成に用いられる基本周波数とより近く適合するように修正される(図2のステップ42及び44)。
本発明の典型的な実施形態は最適合エントリを見つけるために最適化された検索ストラテジを使用する。特に、予測された音色マーキングは、韻律データベースのエントリに関する音色マーキングインデックスと比較し、音色マーキングインデックスは、予測された音色マーキングとの類似性に基づいてスコアされる。特に、ダイナミックプログラミング(即ち、ヴィテルビ)検索は、インデックス音色マーキングに対して予測された音色マーキングで実行される(図6のステップ82)。ヴィテルビアルゴリズムについて詳細に述べるために、まず初めに幾らかの名称集を確立する必要がある。ヴィテルビアルゴリズムは所定の観測(observation )シーケンスによって最も良いステートシーケンスを見つけるためにシークする。所定の観測シーケンスO=(o1 2 ・・・oT )に関して、ステートシーケンスはqとして指定され、ここでqは(q1 2 ・・・qT )であり、λはパラメータセットであり、Tはステート及び観測のそれぞれのシーケンスにおける数である。ステートiにおける最初のt観測と最後のものを説明する、時間Tでの単一のパスに沿った最も良いスコアは、以下のように定義される:
【0020】
【数3】
Figure 0004302788
【0021】
この文脈では、各音色マーカはステートを表わし、音色マーカの各値は観測を表わす。ヴィテルビアルゴリズムは以下のように数式化して表わしうる:
1.初期設定
【0022】
【数4】
δ1 (i)=π1 1 (o1 ) 1≦i≦N
Φ1 (i)=0
【0023】
ここで、Nはステートの数であり、πi =P[ qi =i] である。
2.再帰
【0024】
【数5】
Figure 0004302788
【0025】
ここで、aijはステートiからステートjまでのステート遷移確率であり、bj (ot )は、ot が観測されるステートjに関する観測確率である。
【0026】
【数6】
Figure 0004302788
【0027】
3.終了
【0028】
【数7】
Figure 0004302788
【0029】
4.パス(ステートシーケンス)バックトラッキング
【0030】
【数8】
* t =Φt+1 (q* t+1 )、 t=T−1,T−2,....1
【0031】
従って、図6に示したように、最適合を見つけるためにヴィテルビアルゴリズムを適用する(ステップ82)。アルゴリズムはクイックアウトを行うために修正される。特に、システムは、これまで見つけられた最も安いコスト解のトラックを維持し、ストリングを修正する最小コストが以前に見つけられた最も良いストリングのコストを上回ることが発見されるとすぐに、各連続ストリングに関するアルゴリズムを中止する。コストは、多くの経験的に得られた方法で割り当てられうる。ある解は、2つの数字の間の違いのコストを割り当て、ここで、予測音色パターンストリングにおける数字はインデックス音色パターンストリングにおける数字と適合する。従って、予測音色パターンストリングがある場所にストアされた2の値を有し、インデックス音色パターンストリングにストアされた同じ場所値が3ならば、1のコストはこのミスマッチのために割り当てられうる。ノンストレスキャラクタの包含又は削除に関するキャラクタのミスマッチには10のコストが割り当てられる。
【0032】
クイックアウトアプローチは、明らかに最適合ではないインデックス音色パターンができる限り早急に無視されるように、実質的に検索スペースを切り詰める。
次いで、システムは、より近い適合シーケンスを得るように、基本周波数の最適合ストリングを修正するように探す。特に、2つのストリングが、連続して現れる無標の音節の数において異なっている場所に関して、最適合インデックスと予測音色パターンとの間の違いを計算するように、基本周波数を修正する。次いで、連続関数を作るための領域におけるオリジナル基本周波数値の間の線形補間によって、異なる基本周波数の最適合ストリングの部分を修正する。次いで、領域の所望の新しい数にレンジを分割し、領域に関する所望の出力基本周波数サンプルポイントを表わす離散点の新しいセットを作るためにこれらの点でレンジを再びサンプリングする。最適合インデックスが「H 5 H 」の音色マーキングパターンを有している例を考える。このパターンは、初めの音節が高音マーキングを有し、5つの無標音節が続き、今度は高音マーク音節が続いていることを示す。予測音色パターンが「H 4 H 」であると仮定する。最適合インデックスは追加の無標音節を有する。4つの無標音節を作り出すために修正しなければならない。最適合韻律データベースエントリの7つの基本周波数値は、6つの線形セグメントから成り立つ連続関数を作り出すために、7つの点の間で線形補間するように処理される。6つの線形セグメントは4つの新しい中間無標点で再びサンプリングされ、高音にマークされたエンドポイントに対応する以前の2つの基本周波数値は保持される。
【0033】
本発明の典型的な実施形態の主な利益の1つは、望みの音声のスタイルの選択を合成することを可能にすることである。複数のボイスフォントは、所定の話者に関して種々の個人の特異性のスタイルを迅速且つ容易に作り出すことができる能力を備える。作り出された音声は、個人の特異性スタイルの全てを必要とせず、単一の話者から得られる。
本発明の典型的な実施形態に関して説明したけれども、当業者は添付した特許請求の範囲に定義する本発明の意図した範囲から逸脱すること無く種々の変更がなされることを理解するであろう。例えば、本発明は、文の代わりに句を解析するシステムで実施されても良く、音素のような別の音声のユニットを使用しても良い。更に、他のセグメンテーション技術が使用されうる。
【図面の簡単な説明】
【図1】本発明の典型的な実施形態を実施するのに適当なコンピュータシステムのブロック図である。
【図2】所定の入力テキスト文に関する音声を合成するために、本発明の典型的な実施形態によって実行される段階の概観を図示するフローチャートである。
【図3】本発明の典型的な実施形態の音声テキスト(TTS)機能のコンポーネントを図示するブロック図である。
【図4】韻律データベースにおけるエントリを構築するために実行される段階を図示するフローチャートである。
【図5A】実例となる音響信号を示す。
【図5B】図5Aの音響信号と対応する実例となる喉頭グラフ(laryngograph)信号を示す。
【図6】正確な適合が韻律データベースにおいて見つからないとき、基本周波数値を得るために実行される段階を図示するフローチャートである。
【符号の説明】
12 CPU
28 TTS機能
50 無標コーパス
54 区分けられたコーパス
60 韻律テンプレート
62 ユニット目録

Claims (8)

  1. 音声合成用システムにおいて、
    音声の異なる韻律スタイルに関する複数の韻律テンプレートを含み、各テンプレートが音声のユニットに関する基本周波数を含む韻律データベースを利用可能にする段階であって、前記韻律データベースのそれぞれのテンプレートにおける各エントリが、基本周波数が保持されている音声のユニットに関して強調の度合いと一致する音色マークのパターンによって指標付けされている、そのような、音声のユニットに関する基本周波数を含む韻律データベースを利用可能にする段階と、
    合成される音声の一部に前記韻律スタイルのどれが適用されるべきかを決定する段階と、
    所定のテキストで自然言語解析を行う段階と、
    前記自然言語解析の結果に基づいて、前記テキストにおける音声のユニットに関して音色マークの予測パターンを予測する段階と、
    前記テキストにおける前記音声のユニットに関する音色マークの前記予測パターンと、前記決定された韻律スタイルに対応する前記韻律データベースのテンプレートにおけるエントリのインデックスとを比較することによって、前記韻律データベースのテンプレートにおいて最適合インデックスを識別する段階と、
    前記テキストに関する音声を合成するにあたって韻律を確立するために最適合インデックスによって指標付けされた前記韻律データベースのテンプレートにおける前記エントリの基本周波数値の少なくとも1つを使用する段階と
    からなるコンピュータで実施される段階を含む方法。
  2. 前記最適合インデックスが音色マークの前記予測パターンと正確に適合する、請求項に記載の方法。
  3. 前記最適合インデックスによって指標付けされた前記エントリにおける全ての基本周波数値が、韻律を確立する際に使用される、請求項に記載の方法。
  4. 前記最適合インデックスが音色マークの前記予測パターンと必ずしも適合しない、請求項に記載の方法。
  5. 前記音色マークが、高音強調マーカと、低音強調マーカと、特別な強調がない音色マーカと、無標ストレスを明記するマーカとを含む、請求項に記載の方法。
  6. 前記最適合インデックスが、前記音声のユニットに関して連続無標ストレスの数において音色マークの予測パターンと異なる、請求項に記載の方法。
  7. 前記最適合インデックスの不適合部分に対応する最適合インデックスによって指標付けされた前記韻律データベースのテンプレートのエントリにおいて、音色マークの前記予測パターン及び前記基本周波数値と適合しない、前記最適合インデックスの不適合部分を識別する段階と、
    前記最適合インデックスの不適合部分と対応する前記エントリでの前記識別された基本周波数値を拘束する前記最適合インデックスによって指標付けされた前記韻律データベースのテンプレートのエントリにおける拘束性基本周波数値間に、線形補間を適用して、前記拘束性基本周波数値間に連続関数を作成する段階と、
    音色マークの予測パターンにおいて連続無標ストレスマーカの数と適合する音声の無標ストレスユニットに関する多数の基本周波数値を得るために前記連続関数を再サンプリングする段階と、
    前記テキストのための音声を合成する際に韻律を確立するにあたって前記再サンプリングによって得られた基本周波数値を使用する段階と
    を更に含む、請求項に記載の方法。
  8. 前記最適合インデックスを識別するためにヴィテルビ検索が使用される、請求項に記載の方法。
JP26640197A 1996-09-30 1997-09-30 音声合成用の基本周波数テンプレートを収容する韻律データベース Expired - Lifetime JP4302788B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/724,071 US5905972A (en) 1996-09-30 1996-09-30 Prosodic databases holding fundamental frequency templates for use in speech synthesis
US08/724071 1996-09-30

Publications (2)

Publication Number Publication Date
JPH10116089A JPH10116089A (ja) 1998-05-06
JP4302788B2 true JP4302788B2 (ja) 2009-07-29

Family

ID=24908854

Family Applications (1)

Application Number Title Priority Date Filing Date
JP26640197A Expired - Lifetime JP4302788B2 (ja) 1996-09-30 1997-09-30 音声合成用の基本周波数テンプレートを収容する韻律データベース

Country Status (5)

Country Link
US (1) US5905972A (ja)
EP (1) EP0833304B1 (ja)
JP (1) JP4302788B2 (ja)
CN (1) CN1169115C (ja)
DE (1) DE69719654T2 (ja)

Families Citing this family (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BE1011892A3 (fr) * 1997-05-22 2000-02-01 Motorola Inc Methode, dispositif et systeme pour generer des parametres de synthese vocale a partir d'informations comprenant une representation explicite de l'intonation.
US6418431B1 (en) * 1998-03-30 2002-07-09 Microsoft Corporation Information retrieval and speech recognition based on language models
US6182044B1 (en) * 1998-09-01 2001-01-30 International Business Machines Corporation System and methods for analyzing and critiquing a vocal performance
US6601030B2 (en) * 1998-10-28 2003-07-29 At&T Corp. Method and system for recorded word concatenation
US6253182B1 (en) * 1998-11-24 2001-06-26 Microsoft Corporation Method and apparatus for speech synthesis with efficient spectral smoothing
US6260016B1 (en) * 1998-11-25 2001-07-10 Matsushita Electric Industrial Co., Ltd. Speech synthesis employing prosody templates
JP3361066B2 (ja) * 1998-11-30 2003-01-07 松下電器産業株式会社 音声合成方法および装置
AU2931600A (en) 1999-03-15 2000-10-04 British Telecommunications Public Limited Company Speech synthesis
US6185533B1 (en) * 1999-03-15 2001-02-06 Matsushita Electric Industrial Co., Ltd. Generation and synthesis of prosody templates
CN1168068C (zh) * 1999-03-25 2004-09-22 松下电器产业株式会社 语音合成系统与语音合成方法
EP1045372A3 (en) * 1999-04-16 2001-08-29 Matsushita Electric Industrial Co., Ltd. Speech sound communication system
JP3669869B2 (ja) * 1999-06-28 2005-07-13 株式会社サン・フレア 最適テンプレートパターンを用いた評価方法、評価装置および記録媒体
JP2001034282A (ja) 1999-07-21 2001-02-09 Konami Co Ltd 音声合成方法、音声合成のための辞書構築方法、音声合成装置、並びに音声合成プログラムを記録したコンピュータ読み取り可能な媒体
JP3361291B2 (ja) * 1999-07-23 2003-01-07 コナミ株式会社 音声合成方法、音声合成装置及び音声合成プログラムを記録したコンピュータ読み取り可能な媒体
JP3450237B2 (ja) * 1999-10-06 2003-09-22 株式会社アルカディア 音声合成装置および方法
US6496801B1 (en) * 1999-11-02 2002-12-17 Matsushita Electric Industrial Co., Ltd. Speech synthesis employing concatenated prosodic and acoustic templates for phrases of multiple words
US6904402B1 (en) * 1999-11-05 2005-06-07 Microsoft Corporation System and iterative method for lexicon, segmentation and language model joint optimization
US6411933B1 (en) * 1999-11-22 2002-06-25 International Business Machines Corporation Methods and apparatus for correlating biometric attributes and biometric attribute production features
JP4632384B2 (ja) * 2000-03-31 2011-02-16 キヤノン株式会社 音声情報処理装置及びその方法と記憶媒体
GB0013241D0 (en) * 2000-05-30 2000-07-19 20 20 Speech Limited Voice synthesis
US6865528B1 (en) * 2000-06-01 2005-03-08 Microsoft Corporation Use of a unified language model
US7031908B1 (en) 2000-06-01 2006-04-18 Microsoft Corporation Creating a language model for a language processing system
US20030195740A1 (en) * 2000-06-20 2003-10-16 Sunflare Co., Ltd. Translation evaluation using optimum template pattern determination method
US7277855B1 (en) 2000-06-30 2007-10-02 At&T Corp. Personalized text-to-speech services
US6684187B1 (en) 2000-06-30 2004-01-27 At&T Corp. Method and system for preselection of suitable units for concatenative speech
US6505158B1 (en) 2000-07-05 2003-01-07 At&T Corp. Synthesis-based pre-selection of suitable units for concatenative speech
JP5361104B2 (ja) * 2000-09-05 2013-12-04 アルカテル−ルーセント ユーエスエー インコーポレーテッド 非言語依存韻律マークアップを用いてテキストからスピーチに処理する方法および装置
US7451087B2 (en) * 2000-10-19 2008-11-11 Qwest Communications International Inc. System and method for converting text-to-voice
US6978239B2 (en) * 2000-12-04 2005-12-20 Microsoft Corporation Method and apparatus for speech synthesis without prosody modification
US7263488B2 (en) * 2000-12-04 2007-08-28 Microsoft Corporation Method and apparatus for identifying prosodic word boundaries
US6845358B2 (en) * 2001-01-05 2005-01-18 Matsushita Electric Industrial Co., Ltd. Prosody template matching for text-to-speech systems
US6513008B2 (en) * 2001-03-15 2003-01-28 Matsushita Electric Industrial Co., Ltd. Method and tool for customization of speech synthesizer databases using hierarchical generalized speech templates
DE10120513C1 (de) * 2001-04-26 2003-01-09 Siemens Ag Verfahren zur Bestimmung einer Folge von Lautbausteinen zum Synthetisieren eines Sprachsignals einer tonalen Sprache
JP4680429B2 (ja) * 2001-06-26 2011-05-11 Okiセミコンダクタ株式会社 テキスト音声変換装置における高速読上げ制御方法
CN1234109C (zh) * 2001-08-22 2005-12-28 国际商业机器公司 语调生成方法、语音合成装置、语音合成方法及语音服务器
US8229753B2 (en) * 2001-10-21 2012-07-24 Microsoft Corporation Web server controls for web enabled recognition and/or audible prompting
US7711570B2 (en) * 2001-10-21 2010-05-04 Microsoft Corporation Application abstraction with dialog purpose
US20030101045A1 (en) * 2001-11-29 2003-05-29 Peter Moffatt Method and apparatus for playing recordings of spoken alphanumeric characters
JP2003186490A (ja) * 2001-12-21 2003-07-04 Nissan Motor Co Ltd テキスト音声読み上げ装置および情報提供システム
DE10207875A1 (de) * 2002-02-19 2003-08-28 Deutsche Telekom Ag Parametergesteuerte Sprachsynthese
US7496498B2 (en) * 2003-03-24 2009-02-24 Microsoft Corporation Front-end architecture for a multi-lingual text-to-speech system
US7280968B2 (en) * 2003-03-25 2007-10-09 International Business Machines Corporation Synthetically generated speech responses including prosodic characteristics of speech inputs
US7200559B2 (en) * 2003-05-29 2007-04-03 Microsoft Corporation Semantic object synchronous understanding implemented with speech application language tags
US8301436B2 (en) * 2003-05-29 2012-10-30 Microsoft Corporation Semantic object synchronous understanding for highly interactive interface
EP1630791A4 (en) * 2003-06-05 2008-05-28 Kenwood Corp SPEECH SYNTHESIS DEVICE, SPEECH SYNTHESIS METHOD, AND PROGRAM
CN100498932C (zh) * 2003-09-08 2009-06-10 中国科学院声学研究所 通用的汉语两级混合模板口语对话语言生成方法
US8160883B2 (en) * 2004-01-10 2012-04-17 Microsoft Corporation Focus tracking in dialogs
CN100524457C (zh) * 2004-05-31 2009-08-05 国际商业机器公司 文本至语音转换以及调整语料库的装置和方法
US7788098B2 (en) * 2004-08-02 2010-08-31 Nokia Corporation Predicting tone pattern information for textual information used in telecommunication systems
US7558389B2 (en) * 2004-10-01 2009-07-07 At&T Intellectual Property Ii, L.P. Method and system of generating a speech signal with overlayed random frequency signal
CN1811912B (zh) * 2005-01-28 2011-06-15 北京捷通华声语音技术有限公司 小音库语音合成方法
US20080177548A1 (en) * 2005-05-31 2008-07-24 Canon Kabushiki Kaisha Speech Synthesis Method and Apparatus
US8374873B2 (en) * 2008-08-12 2013-02-12 Morphism, Llc Training and applying prosody models
CN101894547A (zh) * 2010-06-30 2010-11-24 北京捷通华声语音技术有限公司 一种语音合成方法和系统
US8744854B1 (en) * 2012-09-24 2014-06-03 Chengjun Julian Chen System and method for voice transformation
US9472182B2 (en) 2014-02-26 2016-10-18 Microsoft Technology Licensing, Llc Voice font speaker and prosody interpolation
US10832587B2 (en) * 2017-03-15 2020-11-10 International Business Machines Corporation Communication tone training
CN112365880B (zh) * 2020-11-05 2024-03-26 北京百度网讯科技有限公司 语音合成方法、装置、电子设备及存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4139732A (en) * 1975-01-24 1979-02-13 Larynogograph Limited Apparatus for speech pattern derivation
JPS5919358B2 (ja) * 1978-12-11 1984-05-04 株式会社日立製作所 音声内容伝送方式
US4797930A (en) * 1983-11-03 1989-01-10 Texas Instruments Incorporated constructed syllable pitch patterns from phonological linguistic unit string data
JPH0833744B2 (ja) * 1986-01-09 1996-03-29 株式会社東芝 音声合成装置
GB8618193D0 (en) * 1986-07-25 1986-11-26 Smiths Industries Plc Speech recognition apparatus
GB8911153D0 (en) * 1989-05-16 1989-09-20 Smiths Industries Plc Speech recognition apparatus and methods
EP0515709A1 (en) * 1991-05-27 1992-12-02 International Business Machines Corporation Method and apparatus for segmental unit representation in text-to-speech synthesis
US5384893A (en) * 1992-09-23 1995-01-24 Emerson & Stern Associates, Inc. Method and apparatus for speech synthesis based on prosodic analysis
US5636325A (en) * 1992-11-13 1997-06-03 International Business Machines Corporation Speech synthesis and analysis of dialects
JP3422541B2 (ja) * 1992-12-17 2003-06-30 ゼロックス・コーポレーション キーワードのモデル化方法及び非キーワードhmmの提供方法

Also Published As

Publication number Publication date
EP0833304A2 (en) 1998-04-01
EP0833304B1 (en) 2003-03-12
CN1169115C (zh) 2004-09-29
US5905972A (en) 1999-05-18
DE69719654T2 (de) 2003-08-21
EP0833304A3 (en) 1999-03-24
JPH10116089A (ja) 1998-05-06
DE69719654D1 (de) 2003-04-17
CN1179587A (zh) 1998-04-22

Similar Documents

Publication Publication Date Title
JP4302788B2 (ja) 音声合成用の基本周波数テンプレートを収容する韻律データベース
US20230058658A1 (en) Text-to-speech (tts) processing
JP4176169B2 (ja) 言語合成のためのランタイムアコースティックユニット選択方法及び装置
US5970453A (en) Method and system for synthesizing speech
US8224645B2 (en) Method and system for preselection of suitable units for concatenative speech
JP2826215B2 (ja) 合成音声生成方法及びテキスト音声合成装置
US20050119890A1 (en) Speech synthesis apparatus and speech synthesis method
US20090048841A1 (en) Synthesis by Generation and Concatenation of Multi-Form Segments
US11763797B2 (en) Text-to-speech (TTS) processing
US20200410981A1 (en) Text-to-speech (tts) processing
JP3587048B2 (ja) 韻律制御方法及び音声合成装置
US10699695B1 (en) Text-to-speech (TTS) processing
JP4829477B2 (ja) 声質変換装置および声質変換方法ならびに声質変換プログラム
Maia et al. Towards the development of a brazilian portuguese text-to-speech system based on HMM.
Ipsic et al. Croatian HMM-based speech synthesis
JP6330069B2 (ja) 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現
KR0146549B1 (ko) 한국어 텍스트/음성 변환 방법
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JPH09152884A (ja) 音声合成装置
Houidhek et al. Statistical modelling of speech units in HMM-based speech synthesis for Arabic
EP1589524B1 (en) Method and device for speech synthesis
EP1640968A1 (en) Method and device for speech synthesis
Ng Survey of data-driven approaches to Speech Synthesis
Khalil et al. Implementation of speech synthesis based on HMM using PADAS database
IMRAN ADMAS UNIVERSITY SCHOOL OF POST GRADUATE STUDIES DEPARTMENT OF COMPUTER SCIENCE

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20040806

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20040806

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040826

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20040806

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060915

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20061215

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20061221

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070315

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080722

RD13 Notification of appointment of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7433

Effective date: 20081021

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20081021

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081119

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20081201

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090327

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090423

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120501

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130501

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term