JP4332323B2

JP4332323B2 - 音声合成方法および装置並びに辞書生成方法および装置

Info

Publication number: JP4332323B2
Application number: JP2002164624A
Authority: JP
Inventors: 雅章山田; 俊明深田; 康弘小森
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2002-06-05
Filing date: 2002-06-05
Publication date: 2009-09-16
Anticipated expiration: 2022-06-05
Also published as: JP2004012700A

Description

【０００１】
【発明の属する技術分野】
本発明は、音声を合成する音声合成装置および方法に関する。
【０００２】
【従来の技術】
従来より、所望の合成音声を得るための音声合成方法として、あらかじめ収録し蓄えられた音声素片を複数の微細素片に分割し、分割の結果得られた微細素片の再配置を行って所望の合成音声を得る方法がある。これら微細素片の再配置において、微細素片に対して間隔変更・繰り返し・間引き等の処理が行われることにより、所望の時間長・基本周波数を持つ合成音声が得られる。
【０００３】
図１０は、音声波形を微細素片に分割する方法を模式的に示した図である。図１０に示された音声波形は、切り出し窓関数（以下、窓関数）によって微細素片に分割される。このとき、有声音の部分（音声波形の後半部）では原音声のピッチ間隔に同期した窓関数が用いられる。一方、無声音の部分では、適当な間隔の窓関数が用いられる。
【０００４】
そして、図１０に示すようにこれらの微細素片を間引いて用いることにより音声の継続時間長を短縮することができる。一方、これらの微細素片を繰り返して用いれば、音声の継続時間長を伸長することができる。更に、図１０に示すように、有声音の部分では、微細素片の間隔を詰めることにより合成音声の基本周波数を上げることが可能となる。一方、微細素片の間隔を広げることにより合成音声の基本周波数を下げることが可能である。
【０００５】
以上のような繰り返し・間引き・間隔変更を行なって再配置された微細素片を再び重畳することにより所望の合成音声が得られる。なお、音声素片を収録・蓄積する単位としては、音素やＣＶ・ＶＣあるいはＶＣＶといった単位が用いられる。ＣＶ・ＶＣは音素内に素片境界を置いた単位、ＶＣＶは母音内に素片境界を置いた単位である。
【０００６】
【発明が解決しようとする課題】
しかしながら、上記従来法においては、音声波形から微細素片を得るために窓関数が適用されることにより、音声のスペクトルに所謂「ぼやけ」が生じてしまう。すなわち、音声のホルマントが広がったりスペクトル包絡の山谷が曖昧になる等の現象が起こり、合成音声の音質が低下することになる。
【０００７】
本発明は上記の課題に鑑みてなされたものであり、微細素片を得るために適用した窓関数による音声のスペクトルの「ぼやけ」を軽減し、高音質な音声合成を実現することを目的とする。
【０００８】
【課題を解決するための手段】
上記の目的を達成するための本発明による音声合成方法は、
音声波形データと窓関数とから微細素片を取得する取得工程と、
前記取得工程で取得された微細素片を、合成時の韻律を変更するべく再配置する再配置工程と、
前記再配置工程で再配置された微細素片を重畳して得られる重畳波形データに基づいて合成音声波形データを出力する合成工程と、
前記音声波形データに基づいて構成された、前記微細素片を取得するために適用した前記窓関数による音声のスペクトルのぼやけを軽減するスペクトル補正フィルタを、前記取得工程で取得された微細素片に対して作用させる補正工程とを備える。
【０００９】
また、上記の目的を達成するための本発明による音声合成方法は以下の構成を備える。
すなわち、
音声波形データと窓関数とから微細素片を取得する取得工程と、
前記取得工程で取得された微細素片を、合成時の韻律を変更するべく再配置する再配置工程と、
前記再配置工程で再配置された微細素片を重畳して得られる重畳波形データに基づいて合成音声波形データを出力する合成工程とを備え、
前記取得工程で処理される音声波形データに基づいて構成された、前記微細素片を取得するために適用した前記窓関数による音声のスペクトルのぼやけを軽減するスペクトル補正フィルタを分解して得られる複数の要素フィルタのそれぞれを、前記取得工程、再配置工程、合成工程を含む処理過程中の複数個所において作用させる。
【００１０】
また、本発明によれば、上記音声合成方法或は音声合成装置に好適な音声合成用の辞書生成方法が提供される。
【００１１】
【発明の実施の形態】
以下、添付の図面を参照して本発明の好適な実施形態のいくつかについて詳細に説明する。
【００１２】
〈第１実施形態〉
図１は第１実施形態におけるハードウェア構成を示すブロック図である。
【００１３】
図１において、１１は中央処理装置であり、数値演算・制御等の処理を行なう。特に、中央処理装置１１は、以下に説明する手順に従った音声合成処理を実行する。１２は出力装置であり、中央処理装置１１の制御下でユーザに対して各種の情報を提示する。１３はタッチパネル或はキーボード等を備えた入力装置であり、ユーザが本装置に対して動作の指示を与えたり、各種の情報を入力するのに用いられる。１４は音声を出力する音声出力装置であり音声合成された内容を出力する。
【００１４】
１５はディスク装置や不揮発メモリ等の記憶装置であり、音声合成用辞書５０１等が保持される。１６は読み取り専用の記憶装置であり、本実施形態の音声合成処理の手順や、必要な固定的データが格納される。１７はＲＡＭ等の一時情報を保持する記憶装置であり、一時的なデータや各種フラグ等が保持される。以上の各構成（１１〜１７）は、バス１８によって接続されている。なお、本実施形態ではＲＯＭ１６に音声合成処理のための制御プログラムが格納され、中央処理装置１１がこれを実行する形態とするが、そのような制御プログラムを外部記憶装置１５に格納しておき、実行に際してＲＡＭ１７にロードするような形態としてもよい。
【００１５】
以上のような構成を備えた本実施形態の音声出力装置の動作について、図２及び図３を参照して以下に説明する。図２は第１実施形態による音声出力処理を説明するフローチャートである。また、図３は第１実施形態の音声合成処理の様子を表す図である。
【００１６】
まず、韻律目標値取得ステップＳ１において、合成音声の目標韻律値を取得する。合成音声の目標韻律値は、歌声合成の様に直接上位モジュールから与えられる場合もあれば、何らかの手段を用いて推定される場合もある。例えば、テキストからの音声合成であるならばテキストの言語解析結果より推定される。
【００１７】
次に、波形データ取得ステップＳ２において、合成音声の元となる波形データ（図３の音声波形３０１）を取得する。そして、音響分析ステップＳ３において、線形予測（ＬＰＣ）分析・ケプストラム分析・一般化ケプストラム分析等の音響分析を取得した波形データについて行い、スペクトル補正フィルタ３０４を構成するのに必要なパラメータを計算する。なお波形データの分析は、ある定められた時間間隔で行なっても良いし、ピッチ同期分析を行なっても良い。
【００１８】
次に、スペクトル補正フィルタ構成ステップＳ４において、前記音響分析ステップＳ３で計算されたパラメータを用いてスペクトル補正フィルタを構成する。例えば、前記音響分析にｐ次の線形予測分析を用いた場合には、以下の［数１］式で表される特性を持ったフィルタをスペクトル補正フィルタ３０４として用いる。なお、［数１］式を用いる場合、上記パラメータ計算においては線形予測係数α_jが算出されることになる。
【００１９】
【数１】

【００２０】
また、ｐ次のケプストラム分析を用いた場合には、以下の［数２］式で表される特性を持ったフィルタをスペクトル補正フィルタとして用いる。なお、［数２］式を用いる場合、上記パラメータ計算においてはケプストラム係数ｃ_jが算出されることになる。
【００２１】
【数２】

【００２２】
上記各式において、μ、γは適当な係数、αは線形予測係数、ｃはケプストラム係数である。あるいは、上記フィルタのインパルス応答を適当な次数で打ち切って構成した、以下の［数３］式で表されるＦＩＲフィルタが用いられる場合もある。なお、［数３］式を用いる場合、上記パラメータ計算においては係数β_jが計算されることになる。
【００２３】
【数３】

【００２４】
なお、実際には、上記の各式において、システムのゲインを考慮する必要がある。以上のようにして構成されたスペクトル補正フィルタは音声合成用辞書５０１に格納される（実際にはフィルタの係数を格納することになる）。
【００２５】
次に、微細素片切り出しステップＳ５において、前記波形データ取得ステップＳ２で取得した波形に窓関数３０２を適用し、微細素片３０３を切り出す。窓関数としてはハニング窓等が用いられる。
【００２６】
次に、微細素片スペクトル補正ステップＳ６において、微細素片切り出しステップＳ５で切り出した微細素片３０３に対して、スペクトル補正フィルタ構成ステップＳ４で構成されたフィルタ３０４を適用し、微細素片切り出しステップＳ５で切り出した微細素片のスペクトルを補正する。こうして、スペクトル補正された微細素片３０５が取得される。
【００２７】
次に、韻律変更ステップＳ７において、微細素片スペクトル補正ステップＳ６でスペクトル補正された微細素片３０５を、韻律目標値取得ステップＳ１で取得した韻律目標値に合致するように、間引き・繰り返し・間隔変更して再配置（３０６）する。そして波形重畳ステップＳ８において、韻律変更ステップＳ７で再配置した微細素片を重畳し、合成音声３０７を得る。なお、ステップＳ８で得られるのは音声素片であるので、実際の合成音声は波形重畳ステップＳ８で得られた複数の音声素片を接続して得られる。すなわち、音声出力ステップＳ９において、波形重畳ステップＳ８で得られた音声素片を接続して合成音声を出力する。
【００２８】
なお、微細素片の再配置処理に関して、「間引き」については、図３に示すようにスペクトル補正フィルタを作用させる前に実行するようにしてもよい。このようにすれば、不要な微細素片についてフィルタ処理を施すという無駄な処理を省くことができるからである。
【００２９】
〈第２実施形態〉
上記第１実施形態においてはスペクトル補正フィルタを音声合成時に構成しているが、スペクトル補正フィルタの構成を音声合成に先立って行い、フィルタを構成するための構成情報（フィルタ係数）を所定の記憶領域に保持しておくようにしてもよい。すなわち、第１実施形態のプロセスをデータ作成（図４）と音声合成（図５）の２つのプロセスに分離することが可能である。第２実施形態ではこの場合の処理について説明する。なお、本処理を実現するための装置構成は第１実施形態（図１）と同様である。また、本実施形態では、構成情報を音声合成用辞書５０１に格納することとする。
【００３０】
図４のフローチャートにおいて、ステップＳ２、Ｓ３、Ｓ４は第１実施形態（図２）と同様である。そして、スペクトル補正フィルタ記録ステップＳ１０１では、スペクトル補正フィルタ構成ステップＳ４で構成されたスペクトル補正フィルタのフィルタ係数を外部記憶装置１５に記録する。本実施形態では、音声合成用辞書５０１に登録された各波形データについてスペクトル補正フィルタを構成し、各波形データに対応するフィルタの係数をスペクトル補正フィルタとして音声合成用辞書５０１内に保持する。すなわち、第２実施形態の音声合成用辞書５０１には、各音声波形の波形データとスペクトル補正フィルタが登録されていることになる。
【００３１】
一方、音声合成時においては、図５のフローチャートに示されるように、第１実施形態の処理における音響分析ステップＳ３およびスペクトル補正フィルタ構成ステップＳ４が不要となり、代りにスペクトル補正フィルタ読込みステップＳ１０２が追加される。スペクトル補正フィルタ読込みステップＳ１０２では、スペクトル補正フィルタ記録ステップＳ１０１で記録したスペクトル補正フィルタ係数を読み込む。すなわち、波形データ取得ステップＳ２で取得された波形データに対応するスペクトル補正フィルタの係数を音声合成用辞書５０１から読み込んでスペクトル補正フィルタを構成する。そして、微細素片スペクトル補正ステップＳ６では、スペクトル補正フィルタ読込みステップＳ１０２で読込まれたスペクトル補正フィルタを用いて微細素片の処理が行われる。
【００３２】
以上のように、予め全ての波形データについてスペクトル補正フィルタを記録しておくことにより、音声合成時にスペクトル補正フィルタを構成する必要がなくなる。このため、第１実施形態に比べて音声合成時の処理量を軽減することが可能となる。
【００３３】
〈第３実施形態〉
上記第１及び第２実施形態では、スペクトル補正フィルタ構成ステップＳ４で構成されたフィルタを微細素片切り出しステップＳ５で切り出された微細素片に適用していた。しかし、スペクトル補正フィルタを前記波形データ取得ステップＳ２で取得した波形データ（音声波形３０１）に対して適用しても良い。第３実施形態ではこのようは音声合成処理について説明する。なお、本処理を実現するための装置構成は第１実施形態（図１）と同様である。
【００３４】
図６は第３実施形態による音声合成処理を説明するフローチャートである。図６において、波形データ取得ステップＳ２〜スペクトル補正フィルタ構成ステップＳ４の各ステップは上記第２実施形態と同様である。第３実施形態では、スペクトル補正フィルタ構成ステップＳ４によってスペクトル補正フィルタを構成した後、波形データスペクトル補正ステップＳ２０１において、波形データ取得ステップＳ２で取得した波形データに対してスペクトル補正フィルタ構成ステップＳ４で構成したスペクトル補正フィルタを適用し、波形データのスペクトルを補正する。
【００３５】
次に、スペクトル補正波形データ記録ステップＳ２０２において、波形データスペクトル補正ステップＳ２０１でスペクトル補正された波形データを記録する。すなわち、第２実施形態では、図１の音声合成用辞書５０１において、「スペクトル補正フィルタ」の代わりに「スペクトル補正された波形データ」が記憶されることになる。
【００３６】
一方、音声合成処理においては、図７のフローチャートに示される処理が実行される。第３実施形態では、上述の各実施形態における波形データ取得ステップＳ２の代りにスペクトル補正波形データ取得ステップＳ２０３が設けられる。これにより、スペクトル補正波形データ記録ステップＳ２０２で記録されたスペクトル補正後の波形データを、ステップＳ５における微細素片の切り出しの対象として取得させる。そして、この取得された波形データについて微細素片の切り出し、再配置が行なわれることで、スペクトル補正が施された合成音声を得ることになる。なお、スペクトル補正された波形データを用いるので、微細素片に対するスペクトル補正処理（第１、第２実施形態のステップＳ６）は不要となっている。
【００３７】
第３実施形態のように、微細素片ではなく波形データに対してスペクトル補正フィルタを適用した場合、微細素片切り出しステップＳ５にて用いられる窓関数の影響を完全に排除することは出来ない。すなわち、上記第１及び第２実施形態と比べて音質は若干劣ってしまう。しかし、スペクトル補正フィルタによるフィルタリングまでを音声合成に先立って行なうことが出来るため、音声合成時（図７）の処理量は第１、第２実施形態に比べて大幅に削減されるという特長がある。
【００３８】
尚、第３実施形態では、第２実施形態のように、データ作成と音声合成の２つのプロセスに分けた構成を説明したが、第１実施形態のように合成処理を実行する毎にフィルタリングを行なうように構成することもできる。この場合、図２のフローチャートにおいて、ステップＳ４とステップＳ５の間で合成処理対象の波形データにスペクトル補正フィルタを作用させることになる。また、ステップＳ６は不要となる。
【００３９】
〈第４実施形態〉
第１、第２実施形態では、スペクトル補正フィルタ構成ステップＳ４で構成されたフィルタを微細素片切り出しステップＳ５で切り出された微細素片に適用した。また、第３実施形態では、スペクトル補正フィルタ構成ステップＳ４で構成されたフィルタを、微細素片に切り出される前の波形データに適用した。これらに対して、スペクトル補正フィルタを波形重畳ステップＳ８で合成した合成音声の波形データに対して適用することもできる。第４実施形態ではこの場合の処理について説明する。なお、本処理を実現するための装置構成は第１実施形態（図１）と同様である。
【００４０】
図８は第４実施形態による音声合成処理を説明するフローチャートである。第１実施形態の処理（図２）と同様の処理には同一の参照番号が付されている。第４実施形態では、図８に示されるように、波形重畳ステップＳ８の後に合成音声スペクトル補正ステップＳ３０１を設け、微細素片スペクトル補正ステップＳ６を廃する。合成音声スペクトル補正ステップＳ３０１では、スペクトル補正フィルタ構成ステップＳ４において構成されたフィルタを、波形重畳ステップＳ８で得られた合成音声の波形データに適用し、スペクトル補正を行なう。
【００４１】
以上の第４実施形態によれば、韻律変更ステップＳ７の結果、同一微細素片の繰り返し回数が少ない場合等においては、第１実施形態に比べて処理量が少なくなる。
【００４２】
また、本実施形態においても、スペクトル補正フィルタをあらかじめ構成しておくことが可能な点は、第１及び第２実施形態との関係と同様である。即ち、予めフィルタ係数を音声合成用辞書５０１に格納しておき、音声合成時にはこれを読出してスペクトル補正用フィルタを構成し、ステップＳ８で波形重畳された波形データに作用させる。
【００４３】
〈第５実施形態〉
スペクトル補正フィルタとして、複数の部分フィルタの合成フィルタとして表現できる場合には、上記第１〜第４実施形態のように１ステップでスペクトル補正を行なうのではなく、スペクトル補正を複数のステップに分散させることが可能となる。スペクトル補正の分散により、上記各実施形態と比べて、音質と処理量のバランスを柔軟に調節することが可能となる。第５実施形態では、このようにスペクトル補正フィルタを分散させて音声合成処理する場合について説明する。なお、本処理を実現するための装置構成は第１実施形態（図１）と同様である。
【００４４】
図９は第５実施形態による音声合成処理を説明するフローチャートである。図９に示されるように、まず、韻律目標値取得ステップＳ１〜スペクトル補正フィルタ構成ステップＳ４の処理を行なう。これらの処理は、上記第１〜第４実施形態におけるステップＳ１〜Ｓ４の処理と同様である。
【００４５】
次に、スペクトル補正フィルタ分解ステップＳ４０１で、スペクトル補正フィルタ構成ステップＳ４で構成されたスペクトル補正フィルタを２乃至３個の部分フィルタ（要素フィルタ）に分解する。例えば、前記音響分析にｐ次の線形予測分析を用いた場合のスペクトル補正フィルタＦ１(z)は、分母多項式と分子多項式の積として、以下の［数４］式のように表現される。
【００４６】
【数４】

【００４７】
あるいは、以下の式のように分子・分母多項式を１次または２次の実係数多項式の積に因数分解することも可能である（以下の［数５］式は、ｐが偶数の場合を示したものである）。同様に、スペクトル補正フィルタにＦＩＲフィルタを使用した場合も、１次または２次の実係数多項式の積に因数分解することができる。すなわち、［数３］式を因数分解して、［数６］式のように表される。
【００４８】
【数５】

【数６】

【００４９】
また、ｐ次のケプストラム分析を用いた場合には、フィルタ特性は指数で表現されるため、［数７］式のようにケプストラム係数をグループ分けするだけで良い。
【００５０】
【数７】

【００５１】
次に、スペクトル補正フィルタ部分適用（１）ステップＳ４０２において、スペクトル補正フィルタ分解ステップＳ４０１で分解されたフィルタの１つを用いて、波形データ取得ステップＳ２で取得した波形データをフィルタリングする。すなわち、ステップＳ４０１で得られた複数のフィルタ要素のうちの一つである第１のフィルタ要素を用いて、微細素片切り出し前の波形データに対してスペクトル補正処理を施す。
【００５２】
次に、微細素片切り出しステップＳ５において、スペクトル補正フィルタ部分適用（１）ステップＳ４０２の結果として得られた波形データに対して窓関数を適用し、微細素片を切り出す。そして、スペクトル補正フィルタ部分適用（２）ステップＳ４０３において、スペクトル補正フィルタ分解ステップＳ４０１で分解されたフィルタの１つを用いて、微細素片切り出しステップＳ５で切り出された微細素片をフィルタリングする。すなわち、ステップＳ４０１で得られた複数のフィルタ要素のうちの一つである第２のフィルタ要素を用いて、切り出された各微細素片に対してスペクトル補正処理を施す。
【００５３】
次に、第１及び第２実施形態と同様に韻律変更ステップＳ７と波形重畳ステップＳ８を行なう。そして、スペクトル補正フィルタ部分適用（３）ステップＳ４０４において、スペクトル補正フィルタ分解ステップＳ４０１で分解されたフィルタの１つを用いて、波形重畳ステップＳ８の結果得られた合成音声をフィルタリングする。すなわち、ステップＳ４０１で得られた複数のフィルタ要素のうちの一つである第３のフィルタ要素を用いて、得られた合成音声の波形データに対してスペクトル補正処理を施す。
【００５４】
そして、音声出力ステップＳ９において、スペクトル補正フィルタ部分適用（３）ステップＳ４０４の結果得られた合成音声を出力する。
以上の構成において、例えば、［数５］式の分解を行った場合は、Ｆ_1,1(ｚ)をステップＳ４０２で、Ｆ_1,2(ｚ)をステップＳ４０３で、Ｆ_1,3(ｚ)をステップＳ４０４で用いるというようなことが可能である。
【００５５】
尚、［数４］式の様に、２要素の積に分割した場合にはステップＳ４０２，Ｓ４０３，Ｓ４０４のいずれかではフィルタリングを行わないことになる。すなわち、スペクトル補正フィルタ分解ステップＳ４０１においてスペクトル補正フィルタを２つに分解した場合（この例では、分母多項式と分子多項式の２つに分割している）には、スペクトル補正フィルタ部分適用（１）ステップＳ４０２、スペクトル補正フィルタ部分適用（２）ステップＳ４０３、スペクトル補正フィルタ部分適用（３）ステップＳ４０４のうちのいずれかは省略される。
【００５６】
また、第５実施形態においても、スペクトル補正フィルタや各要素フィルタをあらかじめ構成して音声合成用辞書５０１の一部として登録しておくようにしてもよいことは、第１及び第２実施形態の関連と同様、明らかである。
以上のように、第５の実施形態によれば、どの多項式（フィルタ）をどのステップ（Ｓ４０２，Ｓ４０３，Ｓ４０４）に割り当てるかという任意性があり、その割り当て方によって、音質・処理量の配分が変わってくる。特に、［数５］式や［数７］式、あるいはＦＩＲフィルタを因数分解した［数６］式の場合には、それぞれのステップに因数を何個ずつ割り当てるかまで制御できるので、さらに柔軟性があることになる。
【００５７】
〈その他の実施形態〉
上記各実施形態において、スペクトル補正フィルタ係数を直接記録するのではなく、ベクトル量子化等の手法を使って量子化した後に記録しても良い。これにより、外部記憶装置１５に記録されるデータ量を削減することが可能である。
【００５８】
このとき、音響分析の手法としてＬＰＣ分析や一般化ケプストラム分析を用いている場合には、フィルタ係数を線スペクトル対（ＬＳＰ）に変換した後に量子化を行なうと量子化の効率が良くなる。
【００５９】
また、波形のサンプリング周波数が高い場合には、帯域分割フィルタによって帯域分割を行い、帯域制限された個々の波形に対してスペクトル補正フィルタリングを行なっても良い。帯域分割によってスペクトル補正フィルタの次数が押えられ、計算量を削減する効果がある。メルケプストラムのような周波数軸の伸縮によっても同様の効果がある。
【００６０】
また、前記各実施形態で、スペクトル補正フィルタリングを行なうタイミングには、複数の選択肢があることを示した。どのタイミングでスペクトル補正フィルタリングを行なうか、あるいはスペクトル補正を行なうか行なわないかの選択を、素片毎に行なっても良い。選択のための情報として、音素種別や有声／無声の種別等を利用することができる。
なお、上記各実施形態において、スペクトル補正フィルタの一例としては、ホルマントを強調するホルマント強調フィルタが挙げられる。
【００６１】
また、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ（またはＣＰＵやＭＰＵ）が記憶媒体に格納されたプログラムコードを読出し実行することによっても、達成されることは言うまでもない。
【００６２】
この場合、記憶媒体から読出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
【００６３】
プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク，ハードディスク，光ディスク，光磁気ディスク，ＣＤ−ＲＯＭ，ＣＤ−Ｒ，磁気テープ，不揮発性のメモリカード，ＲＯＭなどを用いることができる。
【００６４】
また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているＯＳ（オペレーティングシステム）などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【００６５】
さらに、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【００６６】
【発明の効果】
以上説明したように、本発明によれば、微細素片を得るために適用した窓関数による、音声のスペクトルの「ぼやけ」を軽減することができ、音質が高い音声合成を実現することができる。
【図面の簡単な説明】
【図１】第１実施形態におけるハードウェア構成を示すブロック図である。
【図２】第１実施形態による音声出力処理を説明するフローチャートである。
【図３】第１実施形態の音声合成処理の様子を表す図である。
【図４】第２実施形態による音声出力処理におけるスペクトル補正フィルタ登録処理を説明するフローチャートである。
【図５】第２実施形態による音声出力処理における音声合成処理を説明するフローチャートである。
【図６】第３実施形態による音声出力処理におけるスペクトル補正フィルタ登録処理を説明するフローチャートである。
【図７】第３実施形態による音声出力処理における音声合成処理を説明するフローチャートである。
【図８】第４実施形態による音声出力処理を説明するフローチャートである。
【図９】第５実施形態による音声出力処理を説明するフローチャートである。
【図１０】音声波形の微細素片への分割、再配置、合成による音声合成方法を模式的に示した図である。

Claims

音声波形データと窓関数とから微細素片を取得する取得工程と、
前記取得工程で取得された微細素片を、合成時の韻律を変更するべく再配置する再配置工程と、
前記再配置工程で再配置された微細素片を重畳して得られる重畳波形データに基づいて合成音声波形データを出力する合成工程と、
前記音声波形データに基づいて構成された、前記微細素片を取得するために適用した前記窓関数による音声のスペクトルのぼやけを軽減するスペクトル補正フィルタを、前記取得工程で取得された微細素片に対して作用させる補正工程とを備えることを特徴とする音声合成方法。
前記補正工程は、前記取得工程で処理される音声波形データに基づいてスペクトル補正フィルタを構成する構成工程を有し、
前記取得工程で取得された微細素片に対して前記構成工程で構成されたスペクトル補正フィルタを作用させることを特徴とする請求項１に記載の音声合成方法。
音声波形データの各々について、該音声波形データに基づいたスペクトル補正フィルタのための構成情報が登録された音声合成用辞書を具備し、
前記補正工程は、前記取得工程で処理される音声波形データに対応する構成情報を前記音声合成用辞書から取得してスペクトル補正フィルタを構成し、前記取得工程で取得された微細素片に対して該スペクトル補正フィルタを作用させることを特徴とする請求項１に記載の音声合成方法。
音声波形データと窓関数とから微細素片を取得する取得工程と、
前記取得工程で取得された微細素片を、合成時の韻律を変更するべく再配置する再配置工程と、
前記再配置工程で再配置された微細素片を重畳して得られる重畳波形データに基づいて合成音声波形データを出力する合成工程とを備え、
前記取得工程で処理される音声波形データに基づいて構成された、前記微細素片を取得するために適用した前記窓関数による音声のスペクトルのぼやけを軽減するスペクトル補正フィルタを分解して得られる複数の要素フィルタのそれぞれを、前記取得工程、再配置工程、合成工程を含む処理過程中の複数個所において作用させることを特徴とする音声合成方法。
前記窓関数で切り出された微細素片の再配置は、各微細素片の間隔の変更、微細素片の繰返し、微細素片の間引きの少なくとも何れかであることを特徴とする請求項１乃至４のいずれか１項に記載の音声合成方法。
音声波形データと窓関数とから微細素片を取得する取得手段と、
前記取得手段で取得された微細素片を、合成時の韻律を変更するべく再配置する再配置手段と、
前記再配置手段で再配置された微細素片を重畳して得られる重畳波形データに基づいて合成音声波形データを出力する合成手段と、
前記音声波形データに基づいて構成された、前記微細素片を取得するために適用した前記窓関数による音声のスペクトルのぼやけを軽減するスペクトル補正フィルタを、前記取得手段で取得された微細素片に対して作用させる補正手段とを備えることを特徴とする音声合成装置。
音声波形データと窓関数とから微細素片を取得する取得手段と、
前記取得手段で取得された微細素片を、合成時の韻律を変更するべく再配置する再配置手段と、
前記再配置手段で再配置された微細素片を重畳して得られる重畳波形データに基づいて合成音声波形データを出力する合成手段とを備え、
前記取得手段で処理される音声波形データに基づいて構成された、前記微細素片を取得するために適用した前記窓関数による音声のスペクトルのぼやけを軽減するスペクトル補正フィルタを分解して得られる複数の要素フィルタのそれぞれを、前記取得手段、再配置手段、合成手段を含む処理過程中の複数個所において作用させることを特徴とする音声合成装置。
請求項１乃至５のいずれか１項に記載の音声合成方法をコンピュータに実行させるための制御プログラム。