JP4302788B2

JP4302788B2 - 音声合成用の基本周波数テンプレートを収容する韻律データベース

Info

Publication number: JP4302788B2
Application number: JP26640197A
Authority: JP
Inventors: ディーヒューアンシュードン; エルアドコックジェームズ; エイゴールドスミスジョン
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 1996-09-30
Filing date: 1997-09-30
Publication date: 2009-07-29
Anticipated expiration: 2017-09-30
Also published as: EP0833304A2; EP0833304B1; CN1169115C; US5905972A; DE69719654T2; EP0833304A3; JPH10116089A; DE69719654D1; CN1179587A

Description

【０００１】
【発明の属する技術分野】
本発明は、一般的には、データ処理システムに関し、特に、音声合成用の基本周波数テンプレートを収容する韻律データベースに関する。
【０００２】
【従来の技術】
音声テキスト（text-to-speech）システムは原文通りの入力によって指定された音声を合成する。従来の音声テキストシステムの限界の１つは、それらが非常に不自然なロボットのような合成された音声を作り出していたということである。かかる合成された音声は、典型的には人間の音声である韻律的特徴を示さない。従来の音声テキストシステムのほとんどは、時間に伴う韻律パラメータの展開を定義するために、僅かなセットのルールを適用することによって韻律を生み出す。韻律は一般的には、音の持続期間と、音の大きさと、音に関係するピッチアクセントとを含むように考えられる。所定の音声テキストシステムは、そのシステムによって作り出されたかかる合成された音声の本質を高める推測統計学的技術を採用するように試みられている。これらの推測統計学的学習技術は、口述された句又は文のコーパスから導かれる統計に基づいた韻律を求めるように試みられている。しかし、これらの推測統計学的技術はまた、自然な音声を一貫して作り出すのに失敗してきている。
【０００３】
【課題を解決するための手段】
本発明の第１の態様によれば、コンピュータで実施される方法は、音声を合成するためのシステムで実行される。この方法によれば、合成されるべき音声に関するテキストは韻律テンプレートに沿って設けられる。各韻律テンプレートは、音声のユニットに関する一連の基本周波数値を保持する。テンプレートのうちの１つは、テキストに関して合成された音声に関する韻律の確立用に選択される。次いで、音声は、音声に関する韻律を確立する際に、選択されたテンプレートから基本周波数のうちの少なくとも１つを使用してテキストに関して合成される。
本発明の別の態様によれば、音声のユニットに関する基本周波数の韻律データベースが提供される。韻律データベースの各エントリは、基本周波数が保持される音声のユニットに関する強調の度合いと対応する音色マーキングのパターンによって指標付けされる。自然言語解析を所定のテキストで実施する。自然言語解析の結果に基づいて、音色マーキングの予測パターンがテキストにおける音声のユニットに関して予測される。韻律データベースにおける最適合インデックスが、韻律データベースにおけるエントリのインデックスを持ったテキストにおける音声のユニットに関する音色マーキングの予測パターンと比較することによって識別される。最適合インデックスによって指標付けされた韻律データベースにおけるエントリの基本周波数のうちの少なくとも１つは、テキストに関して合成された音声において韻律を確立するために使用される。
【０００４】
本発明の更なる態様によれば、韻律データベースを構築する方法がコンピュータシステムで実行される。人間のトレーナによって話される、話されたテキストの複数の対応する部分の各々に関して、音響信号が得られる。各音響信号は、人間トレーナがテキストの対応する部分を話すときに生じる信号である。話されるテキストの各部分に関する喉頭グラフ（laryngograph）は、テキストの部分が話されるとき、人間トレーナに付随する喉頭グラフから得られる。音響信号は、テキストの音節を表わすセグメントに区分けられる。各音節は母音部分を含む。喉頭グラフ信号は、音響信号のセグメントと適合するセグメントに区分けられる。テキストの各部分で各音節の母音部分に関する瞬間的な基本周波数の重み合計が計算される。基本周波数は、喉頭グラフ信号から得られ、重みは音響信号から得られる。テキストの各部分に関して、韻律データベースにおけるテキストの部分の各音節に関する瞬間的な基本周波数の重み合計はストアされ、これらの重み合計は合成された音声の韻律を確立するために使用される。
【０００５】
本発明の追加の態様によれば、音声テキストシステムは入力テキストを音声のユニットに解析するためのパーサを含む。このシステムはまた、韻律テンプレートを保持する韻律データベースを含み、各韻律テンプレートは音声のユニットに関する一連の基本周波数値を保持する。このシステムは、入力テキストにおける音声のユニットに関して基本周波数値を得るために、韻律データベースにおけるテンプレートのうちの選択された１つを使用することによって、入力テキストに対応する音声を作り出すための音声合成手段を更に含む。
本発明の更なる態様によれば、音声の異なるスタイルに関する韻律テンプレートを保持する韻律データベースが設けられる。作り出されるべき音声の部分に適用されるべきである韻律スタイルが求められ、求められた韻律スタイルに関する韻律データベースにおけるテンプレートのうちの少なくとも１つは、求められた韻律スタイルを持った音声の部分を作り出すのに使用される。
【０００６】
本発明の更に別の態様によれば、韻律データベースは、単一の話者に関する異なる韻律スタイルの韻律テンプレートを保持することが設けられる。システムによって作り出されるべきである音声の部分に適用されるべきである韻律スタイルが求められ、韻律データベースにおけるテンプレートのうちの少なくとも１つが、求められた韻律スタイルを持った音声の部分を作り出すために求められた韻律スタイルのために使用される。
【０００７】
【発明の実施の形態】
本発明の典型的な実施形態は、句又は文に関する基本周波数のテンプレートを保持する１又はそれ以上の韻律データベースを設ける。複数の話者に関する韻律データベースを保持し、異なる韻律スタイルに関する複数の韻律データベースを保持することができる。これらのデータベースの各々は、一種の「ボイスフォント」としての役割を果たす。韻律データベースは、より自然な合成された音声を作り出すように利用される。音声合成では、所望の韻律をセットするためにこれらのボイスフォントの間から選択することができる。特に、合成された音声の出力における音節に割り当てられるべき基本周波数を決定するために、韻律データベースのうちの１つからの最も適合したテンプレートを使用する。本発明の典型的な実施形態の音声テキストシステムへのテキスト入力は、韻律データベースにおける最も適合したテンプレートを決定するように処理される。正確な一致が見つからないならば、最も適合するテンプレートから無標の領域に一致を作り出すように改竄技術を適用しうる。かかる合成された音声は、従来の音声テキストシステムによって作り出された音声より、より自然な音である。
【０００８】
各韻律データベースは、無標コーパスから人間の話者が話す文を有することによって構築されている。次いで、これらの文は、自然言語処理エンジンによって処理され、隠れマルコフモデル（ＨＭＭ）を使用して音素と音節に区分される。この喉頭グラフ出力は、ＨＭＭによってマイクロフォン音声信号に作り出された区分に従って区分されている。区分された喉頭グラフ出力は、各音節の母音部分における重み基本周波数を求めるように処理される。これらの重み基本周波数は韻律データベースのエントリにストアされ、韻律データベースのエントリは音色マーキング（音色マークとも称す）によって指標付けられる。本発明の典型的な実施形態は、所定の話者に関する韻律を判断するために、迅速で且つ容易なアプローチを提供する。このアプローチは、全てのタイプのテキストに遍在して適用されるべく広範囲に及ぶ。典型的な実施形態はまた、扱いやすく、該システムを扱ったオリジナルスピーカーと非常に似ているように発する音声を作り出す機構を提供する。
【０００９】
図１は、本発明の典型的な実施形態を実行するのに適当なコンピュータシステム１０を示す。当業者は、図１におけるコンピュータシステム構成が単に説明することを意図したものであり、本発明を限定するものではないことを認識するであろう。本発明はまた、分散型システム及び密結合多重プロセッサシステムを含む、他のコンピュータシステム構成の状態で実行されうる。
コンピュータシステム１０は、中央処理装置（ＣＰＵ）１２及びたくさんの入出力デバイスを含む。例えば、これらのデバイスはキーボード１４、ビデオディスプレィ１６、及び、マウス１８を含みうる。ＣＰＵ１２はメモリ２０へのアクセスを有する。メモリ２０は音声テキスト（text-to-speech）（ＴＴＳ）機構２８のコピーを保持する。ＴＴＳ機構２８は、本発明の典型的な実施形態を実行するための命令を保持する。コンピュータシステム１０はまた、ＣＰＵ１２をネットワーク２４と接続するためのネットワークアダプタ２２を含む。コンピュータシステム１０は更に、モデム２６と、オーディオ出力を発生させるために（ラウドスピーカのような）オーディオ出力デバイス２７とを含みうる。
【００１０】
ＴＴＳ機構２８は、１又はそれ以上の韻律データベースを含む。単一の話者に関する複数のデータベースが保持されうる。例えば、話者は異なる領域内のアクセントに関する別々のデータベースを作り出すことができ、各アクセントは、それら自体の韻律スタイルを有する。更に、話者は、ニュース放送を読むことによってデータベースを作ることができ、子供向けの本を読むことによって別のデータベースを作りうる。更に、別の韻律データベースを多数の話者のために保持しうる。上で述べたように、これらのデータベースの各々は、別々の「ボイスフォント」を斟酌しうる。
図２は、入力テキストの単一の文に関する合成された音声出力を作り出すために、本発明の典型的な実施形態によって行われる段階の概観をなすフローチャートである。複数の入力テキスト文が処理されるべきならば、図２（即ち、ステップ３２乃至４４）に示された多くのステップは各文に関して繰り返されうる。図２のフローチャートを、本発明の典型的な実施形態のＴＴＳ機能２８の基本的な構成を図示する図３に関連して説明する。本発明の典型的な実施形態において実施される第１の段階は、韻律データベースを構築する（図２のステップ３０）。韻律データベースは図３に示される韻律テンプレート６０の部分である。テンプレート６０は、複数の韻律データベース即ちボイスフォントを含みうる。上で議論したように、各韻律データベースは、無標コーパスからの多くの文を人間の話者に話させることによって、且つ、かかるアナログ音声信号及び喉頭グラフを寄せ集めることによって作り出される。次いで、このデータは韻律データベースを構築するために処理される。
【００１１】
図４は、より詳細に韻律データベースを構築するために実施される段階を図示したフローチャートである。図４に示されたステップは、話者によって話された無標コーパス５０における各文に関して実施される。最初に、話されるトレーニング文に関する喉頭グラフ信号を受信する（図４のステップ７０）。
図５Ａは、マイクロフォン音声信号の例を示す。図５Ｂは対応する喉頭グラフ信号を示す。この信号は、その時点での話者の音声コードがどの程度に開いているか又は閉じているかの指示を与える。トレーニング文に関する音素及び音節によるセグメンテーションを受信し、同様な仕方で喉頭グラフ信号を区分する。特に、喉頭グラフ信号は、マイクロフォン信号が区分けされたのと丁度同じ時間サイズで区分けされる。特に、ＨＭＭトレーニング５２は、区分けされたコーパス５４をもたらすように、無標コーパス５０の話される文で実施される。ＨＭＭ技術は当該技術分野で周知である。適当なＨＭＭトレーニング技術は、1996年５月１日に出願された「連続密度隠れマルコフモデルを使用して音声認識をする方法及びシステム（Method and System for Speech Recognition Using Continuous Density Hidden Markov Models）」と題する継続出願第08/655,273号に記載されており、本出願と共通の譲受人に譲渡されている。これらのＨＭＭ技術により、音素及び音節によって区分された音声信号になる。音節区分は、本発明の典型的な実施形態に対して特別に重要なものである。
【００１２】
喉頭グラフは、エポック情報を識別するように、且つ、瞬間的な基本周波数（F0）情報を作り出すように処理される。この文脈中では、エポックとは、音声コードが開いている及び閉じている継続時間のことを言う。言い換えれば、１つのエポックが音声コードの１つの開き及び閉じに対応する。基本周波数は、話者の音声コードが音節に関して振動する基本周波数を言う。これは、本発明の典型的な実施形態の最も重要なものである韻律パラメータである。エポック情報は、喉頭グラフ信号の継続時間のスムージング評価の局所的最大から得られる。
母音領域は、典型的には、最も強く強調される音節の部分だから、解析のために選択される。音節の母音部分に関する喉頭グラフ信号から選られた瞬間的な基本周波数値の重み合計として、重みF0（weighted F0 ）を計算する。より数式的には、重み基本周波数は数学的に以下のように表わしうる：
【００１３】
【数１】

【００１４】
ここで、Ｗ_iは重み、F0_iは時間i での基本周波数である。基本周波数F0_iを、喉頭グラフの信号における隣接したピークを分離する時間分の１として計算する。典型的には、音節の母音部分は複数のピークを含むであろう。重みＷは音響信号から得られ、式的には以下のように表わしうる：
【００１５】
【数２】

【００１６】
ここで、A(t)は時間ｔでの音響信号の振幅、ｔ_aは第１のピークでの時間、ｔ_bは第２のピークでの時間である。ｔ_a及びｔ_bの値は、それぞれ第１及び第２のピークに関する喉頭グラフ信号のピークに対応する時間における点を表わしているものである。この重み機構により、音節毎の知覚重みF0を計算する際に、速度信号のより大きな振幅の部分に、より大きな重みを与えることができる。この重み機構は、F0カーブの知覚的に重要な部分（即ち、振幅が高い場所）に更なる重みを与える。
自然言語処理（ＮＬＰ）は文で実行され（即ち、テキスト解析５６が実行される）、自然言語処理から得られた情報は音色マーキングを予測するように使用される（図４のステップ７６）。多くのどんな周知の技術でも、この解析を実行するように使用されうる。自然言語処理は文を解析するので、音声の部分の同一性、文脈単語、文の文法構造、文のタイプ、及び、文における単語の発音が生ずる。かかるＮＬＰパーズから得られた情報は、文の各音節に関して音色マーキングを予測するように使用される。音声の人間的韻律パターンの多くが各音節に関して３つの音色マーキングのうちの１つを予測することによって表現されることは認識されていた。これらの３つの音色マーキングは、高音、低音、又は、特別な強調の無いものである。本発明の典型的な実施形態は、音節基（syllable basis）毎に解析された入力文に関して、音色マーキングのパターンを予測する。音色マーキングを予測及び割り当てるための適当なアプローチは、John Goldsmith著「English as a Tone Language」（Communication and Cognition, 1978 ）と、Janet Pierrehumbert 著「The Phonology and Phonetics of English Intonation 」（学位論文、マサチューセッツ工科大学、1980）に説明されている。予測された音色マーキングストリングの例は「2 H 0 H 0 N 0 L 1 - 」である。このストリングは数字と、H,L,h,l,+ 及び- の組から選択された記号とから構成される。記号は、所定の高い突出音節の音色の特徴、第１のアクセント、及び、最後の音節を示し、数字は、これらのアクセント又は最後の音節の間にいくつの音節が生じるかを示す。H 及びL はそれぞれ強調された音節での高音及び低音を示し、+ 及び- は最後の音節での高音及び低音を示し、h 及びl は以下に続く強調された音節の最左端の音節での（以下に続く音節が無ければ、それ自身の強調された音節での）高音及び低音を示す。
【００１７】
エントリは、文の音節に関する重み基本周波数の連続を保持するために韻律データベースに作成される。各エントリを、文に関する関連した音色マーキングストリングによって指標付けする（図４のステップ７８）。基本周波数値は、符号無しのキャラクタ値として韻律データベースにストアされうる（図４のステップ８０）。上述したステップは、韻律データベースを構築するために各文に関して実行される。一般的には、セグメンテーション及び原文通りの解析は、韻律データベース６０を構築するために、本発明の典型的な実施形態によって採用された韻律モデルによって使用される。
韻律データベースが構築された後（図２のステップ３０参照）、データベースを音声合成に利用しうる。音声合成における第１の段階は、作り出されるべき音声を識別する（図２のステップ３２）。本発明の典型的な実施形態では、この音声は、文を表わすテキストのチャンクである。それにもかかわらず、当業者は、本発明がまた、成句、単語又はパラグラフさえも含むテキストの他の細分性を伴って実行されうることを理解するであろう。合成段階（図３）における次のステップは、入力テキストを解析し、入力文に関する音色マーキング予測を作り出す（図２のステップ３４）。一般的には、上で議論した同じ自然言語処理は、音声の部分、文法構造、単語の発音、及び、入力テキスト文に関する文のタイプの同一性を判断するために適用される。この処理は、図３のテキスト解析ボックス５６として指定される。音色マーキングは、上で議論したGoldsmith の技術を使用して自然言語処理パーズから得られた情報を使用して予測される。典型的な実施形態のこの態様は、合成段階４８の韻律生成段階６６で実行される。
【００１８】
予測された音色マーキングを与えるので、韻律データベースにおける韻律テンプレート６０はインデックスとして予測された音色マーキングを使用して、アクセスされうる（図２のステップ３６）。正確な調和（即ち、入力文に関して予測されたものと同じ音色マーキングパターンによって指標付けされるエントリ）があるならば、それは初めに決定される（図２のステップ３８）。調和したエントリがあるならば、エントリにストアされた重み基本周波数は、入力文に関して合成された音声に関する韻律を確立するのに使用される。次いで、システムは、これらの重み基本周波数を利用する音声出力を生成するために進行する（図２のステップ４４）。図３に示したように、本発明の典型的な実施形態は音声合成への連鎖的なアプローチを使用する。特に、区分けされたコーパス５５は、２音素（diphone ）、３音素（triphone）等のような音響単位を識別するために処理され、合成された音声を作り出すのに使用されうる。このプロセスは図３のユニット生成段階４６によって示され、ユニットの目録を与える。入力テキスト文に関するユニットの適当なセットはユニット目録６２から引き出され、合成された音声出力を作り出すために連結される。韻律データベースからの基本周波数は、合成された音声出力の韻律を確立するために採用される。
【００１９】
正確な調和が図２のステップ３８で見つからなければ、韻律データベースにおける最適合エントリは判断され、最適合エントリ内の基本周波数値は、合成された音声出力の生成に用いられる基本周波数とより近く適合するように修正される（図２のステップ４２及び４４）。
本発明の典型的な実施形態は最適合エントリを見つけるために最適化された検索ストラテジを使用する。特に、予測された音色マーキングは、韻律データベースのエントリに関する音色マーキングインデックスと比較し、音色マーキングインデックスは、予測された音色マーキングとの類似性に基づいてスコアされる。特に、ダイナミックプログラミング（即ち、ヴィテルビ）検索は、インデックス音色マーキングに対して予測された音色マーキングで実行される（図６のステップ８２）。ヴィテルビアルゴリズムについて詳細に述べるために、まず初めに幾らかの名称集を確立する必要がある。ヴィテルビアルゴリズムは所定の観測（observation ）シーケンスによって最も良いステートシーケンスを見つけるためにシークする。所定の観測シーケンスＯ＝（ｏ₁ｏ₂・・・ｏ_T）に関して、ステートシーケンスはｑとして指定され、ここでｑは（ｑ₁ｑ₂・・・ｑ_T）であり、λはパラメータセットであり、Ｔはステート及び観測のそれぞれのシーケンスにおける数である。ステートｉにおける最初のｔ観測と最後のものを説明する、時間Ｔでの単一のパスに沿った最も良いスコアは、以下のように定義される：
【００２０】
【数３】

【００２１】
この文脈では、各音色マーカはステートを表わし、音色マーカの各値は観測を表わす。ヴィテルビアルゴリズムは以下のように数式化して表わしうる：
１．初期設定
【００２２】
【数４】
δ₁（ｉ）＝π₁ｂ₁（ｏ₁）１≦ｉ≦Ｎ
Φ₁（ｉ）＝０
【００２３】
ここで、Ｎはステートの数であり、π_i＝Ｐ[ ｑ_i＝ｉ] である。
２．再帰
【００２４】
【数５】

【００２５】
ここで、ａ_ijはステートｉからステートｊまでのステート遷移確率であり、ｂ_j（ｏ_t）は、ｏ_tが観測されるステートｊに関する観測確率である。
【００２６】
【数６】

【００２７】
３．終了
【００２８】
【数７】

【００２９】
４．パス（ステートシーケンス）バックトラッキング
【００３０】
【数８】
ｑ^* _t＝Φ_t+1（ｑ^* _t+1）、ｔ＝Ｔ−１，Ｔ−２，....１
【００３１】
従って、図６に示したように、最適合を見つけるためにヴィテルビアルゴリズムを適用する（ステップ８２）。アルゴリズムはクイックアウトを行うために修正される。特に、システムは、これまで見つけられた最も安いコスト解のトラックを維持し、ストリングを修正する最小コストが以前に見つけられた最も良いストリングのコストを上回ることが発見されるとすぐに、各連続ストリングに関するアルゴリズムを中止する。コストは、多くの経験的に得られた方法で割り当てられうる。ある解は、２つの数字の間の違いのコストを割り当て、ここで、予測音色パターンストリングにおける数字はインデックス音色パターンストリングにおける数字と適合する。従って、予測音色パターンストリングがある場所にストアされた２の値を有し、インデックス音色パターンストリングにストアされた同じ場所値が３ならば、１のコストはこのミスマッチのために割り当てられうる。ノンストレスキャラクタの包含又は削除に関するキャラクタのミスマッチには１０のコストが割り当てられる。
【００３２】
クイックアウトアプローチは、明らかに最適合ではないインデックス音色パターンができる限り早急に無視されるように、実質的に検索スペースを切り詰める。
次いで、システムは、より近い適合シーケンスを得るように、基本周波数の最適合ストリングを修正するように探す。特に、２つのストリングが、連続して現れる無標の音節の数において異なっている場所に関して、最適合インデックスと予測音色パターンとの間の違いを計算するように、基本周波数を修正する。次いで、連続関数を作るための領域におけるオリジナル基本周波数値の間の線形補間によって、異なる基本周波数の最適合ストリングの部分を修正する。次いで、領域の所望の新しい数にレンジを分割し、領域に関する所望の出力基本周波数サンプルポイントを表わす離散点の新しいセットを作るためにこれらの点でレンジを再びサンプリングする。最適合インデックスが「H 5 H 」の音色マーキングパターンを有している例を考える。このパターンは、初めの音節が高音マーキングを有し、５つの無標音節が続き、今度は高音マーク音節が続いていることを示す。予測音色パターンが「H 4 H 」であると仮定する。最適合インデックスは追加の無標音節を有する。４つの無標音節を作り出すために修正しなければならない。最適合韻律データベースエントリの７つの基本周波数値は、６つの線形セグメントから成り立つ連続関数を作り出すために、７つの点の間で線形補間するように処理される。６つの線形セグメントは４つの新しい中間無標点で再びサンプリングされ、高音にマークされたエンドポイントに対応する以前の２つの基本周波数値は保持される。
【００３３】
本発明の典型的な実施形態の主な利益の１つは、望みの音声のスタイルの選択を合成することを可能にすることである。複数のボイスフォントは、所定の話者に関して種々の個人の特異性のスタイルを迅速且つ容易に作り出すことができる能力を備える。作り出された音声は、個人の特異性スタイルの全てを必要とせず、単一の話者から得られる。
本発明の典型的な実施形態に関して説明したけれども、当業者は添付した特許請求の範囲に定義する本発明の意図した範囲から逸脱すること無く種々の変更がなされることを理解するであろう。例えば、本発明は、文の代わりに句を解析するシステムで実施されても良く、音素のような別の音声のユニットを使用しても良い。更に、他のセグメンテーション技術が使用されうる。
【図面の簡単な説明】
【図１】本発明の典型的な実施形態を実施するのに適当なコンピュータシステムのブロック図である。
【図２】所定の入力テキスト文に関する音声を合成するために、本発明の典型的な実施形態によって実行される段階の概観を図示するフローチャートである。
【図３】本発明の典型的な実施形態の音声テキスト（ＴＴＳ）機能のコンポーネントを図示するブロック図である。
【図４】韻律データベースにおけるエントリを構築するために実行される段階を図示するフローチャートである。
【図５Ａ】実例となる音響信号を示す。
【図５Ｂ】図５Ａの音響信号と対応する実例となる喉頭グラフ（laryngograph）信号を示す。
【図６】正確な適合が韻律データベースにおいて見つからないとき、基本周波数値を得るために実行される段階を図示するフローチャートである。
【符号の説明】
１２ＣＰＵ
２８ＴＴＳ機能
５０無標コーパス
５４区分けられたコーパス
６０韻律テンプレート
６２ユニット目録

Claims

音声合成用システムにおいて、
音声の異なる韻律スタイルに関する複数の韻律テンプレートを含み、各テンプレートが音声のユニットに関する基本周波数を含む韻律データベースを利用可能にする段階であって、前記韻律データベースのそれぞれのテンプレートにおける各エントリが、基本周波数が保持されている音声のユニットに関して強調の度合いと一致する音色マークのパターンによって指標付けされている、そのような、音声のユニットに関する基本周波数を含む韻律データベースを利用可能にする段階と、
合成される音声の一部に前記韻律スタイルのどれが適用されるべきかを決定する段階と、
所定のテキストで自然言語解析を行う段階と、
前記自然言語解析の結果に基づいて、前記テキストにおける音声のユニットに関して音色マークの予測パターンを予測する段階と、
前記テキストにおける前記音声のユニットに関する音色マークの前記予測パターンと、前記決定された韻律スタイルに対応する前記韻律データベースのテンプレートにおけるエントリのインデックスとを比較することによって、前記韻律データベースのテンプレートにおいて最適合インデックスを識別する段階と、
前記テキストに関する音声を合成するにあたって韻律を確立するために最適合インデックスによって指標付けされた前記韻律データベースのテンプレートにおける前記エントリの基本周波数値の少なくとも１つを使用する段階と
からなるコンピュータで実施される段階を含む方法。
前記最適合インデックスが音色マークの前記予測パターンと正確に適合する、請求項１に記載の方法。
前記最適合インデックスによって指標付けされた前記エントリにおける全ての基本周波数値が、韻律を確立する際に使用される、請求項１に記載の方法。
前記最適合インデックスが音色マークの前記予測パターンと必ずしも適合しない、請求項１に記載の方法。
前記音色マークが、高音強調マーカと、低音強調マーカと、特別な強調がない音色マーカと、無標ストレスを明記するマーカとを含む、請求項１に記載の方法。
前記最適合インデックスが、前記音声のユニットに関して連続無標ストレスの数において音色マークの予測パターンと異なる、請求項５に記載の方法。
前記最適合インデックスの不適合部分に対応する最適合インデックスによって指標付けされた前記韻律データベースのテンプレートのエントリにおいて、音色マークの前記予測パターン及び前記基本周波数値と適合しない、前記最適合インデックスの不適合部分を識別する段階と、
前記最適合インデックスの不適合部分と対応する前記エントリでの前記識別された基本周波数値を拘束する前記最適合インデックスによって指標付けされた前記韻律データベースのテンプレートのエントリにおける拘束性基本周波数値間に、線形補間を適用して、前記拘束性基本周波数値間に連続関数を作成する段階と、
音色マークの予測パターンにおいて連続無標ストレスマーカの数と適合する音声の無標ストレスユニットに関する多数の基本周波数値を得るために前記連続関数を再サンプリングする段階と、
前記テキストのための音声を合成する際に韻律を確立するにあたって前記再サンプリングによって得られた基本周波数値を使用する段階と
を更に含む、請求項６に記載の方法。
前記最適合インデックスを識別するためにヴィテルビ検索が使用される、請求項１に記載の方法。