JP4332323B2 - 音声合成方法および装置並びに辞書生成方法および装置 - Google Patents
音声合成方法および装置並びに辞書生成方法および装置 Download PDFInfo
- Publication number
- JP4332323B2 JP4332323B2 JP2002164624A JP2002164624A JP4332323B2 JP 4332323 B2 JP4332323 B2 JP 4332323B2 JP 2002164624 A JP2002164624 A JP 2002164624A JP 2002164624 A JP2002164624 A JP 2002164624A JP 4332323 B2 JP4332323 B2 JP 4332323B2
- Authority
- JP
- Japan
- Prior art keywords
- waveform data
- fine
- speech
- correction filter
- spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
本発明は、音声を合成する音声合成装置および方法に関する。
【0002】
【従来の技術】
従来より、所望の合成音声を得るための音声合成方法として、あらかじめ収録し蓄えられた音声素片を複数の微細素片に分割し、分割の結果得られた微細素片の再配置を行って所望の合成音声を得る方法がある。これら微細素片の再配置において、微細素片に対して間隔変更・繰り返し・間引き等の処理が行われることにより、所望の時間長・基本周波数を持つ合成音声が得られる。
【0003】
図10は、音声波形を微細素片に分割する方法を模式的に示した図である。図10に示された音声波形は、切り出し窓関数(以下、窓関数)によって微細素片に分割される。このとき、有声音の部分(音声波形の後半部)では原音声のピッチ間隔に同期した窓関数が用いられる。一方、無声音の部分では、適当な間隔の窓関数が用いられる。
【0004】
そして、図10に示すようにこれらの微細素片を間引いて用いることにより音声の継続時間長を短縮することができる。一方、これらの微細素片を繰り返して用いれば、音声の継続時間長を伸長することができる。更に、図10に示すように、有声音の部分では、微細素片の間隔を詰めることにより合成音声の基本周波数を上げることが可能となる。一方、微細素片の間隔を広げることにより合成音声の基本周波数を下げることが可能である。
【0005】
以上のような繰り返し・間引き・間隔変更を行なって再配置された微細素片を再び重畳することにより所望の合成音声が得られる。なお、音声素片を収録・蓄積する単位としては、音素やCV・VCあるいはVCVといった単位が用いられる。CV・VCは音素内に素片境界を置いた単位、VCVは母音内に素片境界を置いた単位である。
【0006】
【発明が解決しようとする課題】
しかしながら、上記従来法においては、音声波形から微細素片を得るために窓関数が適用されることにより、音声のスペクトルに所謂「ぼやけ」が生じてしまう。すなわち、音声のホルマントが広がったりスペクトル包絡の山谷が曖昧になる等の現象が起こり、合成音声の音質が低下することになる。
【0007】
本発明は上記の課題に鑑みてなされたものであり、微細素片を得るために適用した窓関数による音声のスペクトルの「ぼやけ」を軽減し、高音質な音声合成を実現することを目的とする。
【0008】
【課題を解決するための手段】
上記の目的を達成するための本発明による音声合成方法は、
音声波形データと窓関数とから微細素片を取得する取得工程と、
前記取得工程で取得された微細素片を、合成時の韻律を変更するべく再配置する再配置工程と、
前記再配置工程で再配置された微細素片を重畳して得られる重畳波形データに基づいて合成音声波形データを出力する合成工程と、
前記音声波形データに基づいて構成された、前記微細素片を取得するために適用した前記窓関数による音声のスペクトルのぼやけを軽減するスペクトル補正フィルタを、前記取得工程で取得された微細素片に対して作用させる補正工程とを備える。
【0009】
また、上記の目的を達成するための本発明による音声合成方法は以下の構成を備える。
すなわち、
音声波形データと窓関数とから微細素片を取得する取得工程と、
前記取得工程で取得された微細素片を、合成時の韻律を変更するべく再配置する再配置工程と、
前記再配置工程で再配置された微細素片を重畳して得られる重畳波形データに基づいて合成音声波形データを出力する合成工程とを備え、
前記取得工程で処理される音声波形データに基づいて構成された、前記微細素片を取得するために適用した前記窓関数による音声のスペクトルのぼやけを軽減するスペクトル補正フィルタを分解して得られる複数の要素フィルタのそれぞれを、前記取得工程、再配置工程、合成工程を含む処理過程中の複数個所において作用させる。
【0010】
また、本発明によれば、上記音声合成方法或は音声合成装置に好適な音声合成用の辞書生成方法が提供される。
【0011】
【発明の実施の形態】
以下、添付の図面を参照して本発明の好適な実施形態のいくつかについて詳細に説明する。
【0012】
〈第1実施形態〉
図1は第1実施形態におけるハードウェア構成を示すブロック図である。
【0013】
図1において、11は中央処理装置であり、数値演算・制御等の処理を行なう。特に、中央処理装置11は、以下に説明する手順に従った音声合成処理を実行する。12は出力装置であり、中央処理装置11の制御下でユーザに対して各種の情報を提示する。13はタッチパネル或はキーボード等を備えた入力装置であり、ユーザが本装置に対して動作の指示を与えたり、各種の情報を入力するのに用いられる。14は音声を出力する音声出力装置であり音声合成された内容を出力する。
【0014】
15はディスク装置や不揮発メモリ等の記憶装置であり、音声合成用辞書501等が保持される。16は読み取り専用の記憶装置であり、本実施形態の音声合成処理の手順や、必要な固定的データが格納される。17はRAM等の一時情報を保持する記憶装置であり、一時的なデータや各種フラグ等が保持される。以上の各構成(11〜17)は、バス18によって接続されている。なお、本実施形態ではROM16に音声合成処理のための制御プログラムが格納され、中央処理装置11がこれを実行する形態とするが、そのような制御プログラムを外部記憶装置15に格納しておき、実行に際してRAM17にロードするような形態としてもよい。
【0015】
以上のような構成を備えた本実施形態の音声出力装置の動作について、図2及び図3を参照して以下に説明する。図2は第1実施形態による音声出力処理を説明するフローチャートである。また、図3は第1実施形態の音声合成処理の様子を表す図である。
【0016】
まず、韻律目標値取得ステップS1において、合成音声の目標韻律値を取得する。合成音声の目標韻律値は、歌声合成の様に直接上位モジュールから与えられる場合もあれば、何らかの手段を用いて推定される場合もある。例えば、テキストからの音声合成であるならばテキストの言語解析結果より推定される。
【0017】
次に、波形データ取得ステップS2において、合成音声の元となる波形データ(図3の音声波形301)を取得する。そして、音響分析ステップS3において、線形予測(LPC)分析・ケプストラム分析・一般化ケプストラム分析等の音響分析を取得した波形データについて行い、スペクトル補正フィルタ304を構成するのに必要なパラメータを計算する。なお波形データの分析は、ある定められた時間間隔で行なっても良いし、ピッチ同期分析を行なっても良い。
【0018】
次に、スペクトル補正フィルタ構成ステップS4において、前記音響分析ステップS3で計算されたパラメータを用いてスペクトル補正フィルタを構成する。例えば、前記音響分析にp次の線形予測分析を用いた場合には、以下の[数1]式で表される特性を持ったフィルタをスペクトル補正フィルタ304として用いる。なお、[数1]式を用いる場合、上記パラメータ計算においては線形予測係数αjが算出されることになる。
【0019】
【数1】
【0020】
また、p次のケプストラム分析を用いた場合には、以下の[数2]式で表される特性を持ったフィルタをスペクトル補正フィルタとして用いる。なお、[数2]式を用いる場合、上記パラメータ計算においてはケプストラム係数cjが算出されることになる。
【0021】
【数2】
【0022】
上記各式において、μ、γは適当な係数、αは線形予測係数、cはケプストラム係数である。あるいは、上記フィルタのインパルス応答を適当な次数で打ち切って構成した、以下の[数3]式で表されるFIRフィルタが用いられる場合もある。なお、[数3]式を用いる場合、上記パラメータ計算においては係数βjが計算されることになる。
【0023】
【数3】
【0024】
なお、実際には、上記の各式において、システムのゲインを考慮する必要がある。以上のようにして構成されたスペクトル補正フィルタは音声合成用辞書501に格納される(実際にはフィルタの係数を格納することになる)。
【0025】
次に、微細素片切り出しステップS5において、前記波形データ取得ステップS2で取得した波形に窓関数302を適用し、微細素片303を切り出す。窓関数としてはハニング窓等が用いられる。
【0026】
次に、微細素片スペクトル補正ステップS6において、微細素片切り出しステップS5で切り出した微細素片303に対して、スペクトル補正フィルタ構成ステップS4で構成されたフィルタ304を適用し、微細素片切り出しステップS5で切り出した微細素片のスペクトルを補正する。こうして、スペクトル補正された微細素片305が取得される。
【0027】
次に、韻律変更ステップS7において、微細素片スペクトル補正ステップS6でスペクトル補正された微細素片305を、韻律目標値取得ステップS1で取得した韻律目標値に合致するように、間引き・繰り返し・間隔変更して再配置(306)する。そして波形重畳ステップS8において、韻律変更ステップS7で再配置した微細素片を重畳し、合成音声307を得る。なお、ステップS8で得られるのは音声素片であるので、実際の合成音声は波形重畳ステップS8で得られた複数の音声素片を接続して得られる。すなわち、音声出力ステップS9において、波形重畳ステップS8で得られた音声素片を接続して合成音声を出力する。
【0028】
なお、微細素片の再配置処理に関して、「間引き」については、図3に示すようにスペクトル補正フィルタを作用させる前に実行するようにしてもよい。このようにすれば、不要な微細素片についてフィルタ処理を施すという無駄な処理を省くことができるからである。
【0029】
〈第2実施形態〉
上記第1実施形態においてはスペクトル補正フィルタを音声合成時に構成しているが、スペクトル補正フィルタの構成を音声合成に先立って行い、フィルタを構成するための構成情報(フィルタ係数)を所定の記憶領域に保持しておくようにしてもよい。すなわち、第1実施形態のプロセスをデータ作成(図4)と音声合成(図5)の2つのプロセスに分離することが可能である。第2実施形態ではこの場合の処理について説明する。なお、本処理を実現するための装置構成は第1実施形態(図1)と同様である。また、本実施形態では、構成情報を音声合成用辞書501に格納することとする。
【0030】
図4のフローチャートにおいて、ステップS2、S3、S4は第1実施形態(図2)と同様である。そして、スペクトル補正フィルタ記録ステップS101では、スペクトル補正フィルタ構成ステップS4で構成されたスペクトル補正フィルタのフィルタ係数を外部記憶装置15に記録する。本実施形態では、音声合成用辞書501に登録された各波形データについてスペクトル補正フィルタを構成し、各波形データに対応するフィルタの係数をスペクトル補正フィルタとして音声合成用辞書501内に保持する。すなわち、第2実施形態の音声合成用辞書501には、各音声波形の波形データとスペクトル補正フィルタが登録されていることになる。
【0031】
一方、音声合成時においては、図5のフローチャートに示されるように、第1実施形態の処理における音響分析ステップS3およびスペクトル補正フィルタ構成ステップS4が不要となり、代りにスペクトル補正フィルタ読込みステップS102が追加される。スペクトル補正フィルタ読込みステップS102では、スペクトル補正フィルタ記録ステップS101で記録したスペクトル補正フィルタ係数を読み込む。すなわち、波形データ取得ステップS2で取得された波形データに対応するスペクトル補正フィルタの係数を音声合成用辞書501から読み込んでスペクトル補正フィルタを構成する。そして、微細素片スペクトル補正ステップS6では、スペクトル補正フィルタ読込みステップS102で読込まれたスペクトル補正フィルタを用いて微細素片の処理が行われる。
【0032】
以上のように、予め全ての波形データについてスペクトル補正フィルタを記録しておくことにより、音声合成時にスペクトル補正フィルタを構成する必要がなくなる。このため、第1実施形態に比べて音声合成時の処理量を軽減することが可能となる。
【0033】
〈第3実施形態〉
上記第1及び第2実施形態では、スペクトル補正フィルタ構成ステップS4で構成されたフィルタを微細素片切り出しステップS5で切り出された微細素片に適用していた。しかし、スペクトル補正フィルタを前記波形データ取得ステップS2で取得した波形データ(音声波形301)に対して適用しても良い。第3実施形態ではこのようは音声合成処理について説明する。なお、本処理を実現するための装置構成は第1実施形態(図1)と同様である。
【0034】
図6は第3実施形態による音声合成処理を説明するフローチャートである。図6において、波形データ取得ステップS2〜スペクトル補正フィルタ構成ステップS4の各ステップは上記第2実施形態と同様である。第3実施形態では、スペクトル補正フィルタ構成ステップS4によってスペクトル補正フィルタを構成した後、波形データスペクトル補正ステップS201において、波形データ取得ステップS2で取得した波形データに対してスペクトル補正フィルタ構成ステップS4で構成したスペクトル補正フィルタを適用し、波形データのスペクトルを補正する。
【0035】
次に、スペクトル補正波形データ記録ステップS202において、波形データスペクトル補正ステップS201でスペクトル補正された波形データを記録する。すなわち、第2実施形態では、図1の音声合成用辞書501において、「スペクトル補正フィルタ」の代わりに「スペクトル補正された波形データ」が記憶されることになる。
【0036】
一方、音声合成処理においては、図7のフローチャートに示される処理が実行される。第3実施形態では、上述の各実施形態における波形データ取得ステップS2の代りにスペクトル補正波形データ取得ステップS203が設けられる。これにより、スペクトル補正波形データ記録ステップS202で記録されたスペクトル補正後の波形データを、ステップS5における微細素片の切り出しの対象として取得させる。そして、この取得された波形データについて微細素片の切り出し、再配置が行なわれることで、スペクトル補正が施された合成音声を得ることになる。なお、スペクトル補正された波形データを用いるので、微細素片に対するスペクトル補正処理(第1、第2実施形態のステップS6)は不要となっている。
【0037】
第3実施形態のように、微細素片ではなく波形データに対してスペクトル補正フィルタを適用した場合、微細素片切り出しステップS5にて用いられる窓関数の影響を完全に排除することは出来ない。すなわち、上記第1及び第2実施形態と比べて音質は若干劣ってしまう。しかし、スペクトル補正フィルタによるフィルタリングまでを音声合成に先立って行なうことが出来るため、音声合成時(図7)の処理量は第1、第2実施形態に比べて大幅に削減されるという特長がある。
【0038】
尚、第3実施形態では、第2実施形態のように、データ作成と音声合成の2つのプロセスに分けた構成を説明したが、第1実施形態のように合成処理を実行する毎にフィルタリングを行なうように構成することもできる。この場合、図2のフローチャートにおいて、ステップS4とステップS5の間で合成処理対象の波形データにスペクトル補正フィルタを作用させることになる。また、ステップS6は不要となる。
【0039】
〈第4実施形態〉
第1、第2実施形態では、スペクトル補正フィルタ構成ステップS4で構成されたフィルタを微細素片切り出しステップS5で切り出された微細素片に適用した。また、第3実施形態では、スペクトル補正フィルタ構成ステップS4で構成されたフィルタを、微細素片に切り出される前の波形データに適用した。これらに対して、スペクトル補正フィルタを波形重畳ステップS8で合成した合成音声の波形データに対して適用することもできる。第4実施形態ではこの場合の処理について説明する。なお、本処理を実現するための装置構成は第1実施形態(図1)と同様である。
【0040】
図8は第4実施形態による音声合成処理を説明するフローチャートである。第1実施形態の処理(図2)と同様の処理には同一の参照番号が付されている。第4実施形態では、図8に示されるように、波形重畳ステップS8の後に合成音声スペクトル補正ステップS301を設け、微細素片スペクトル補正ステップS6を廃する。合成音声スペクトル補正ステップS301では、スペクトル補正フィルタ構成ステップS4において構成されたフィルタを、波形重畳ステップS8で得られた合成音声の波形データに適用し、スペクトル補正を行なう。
【0041】
以上の第4実施形態によれば、韻律変更ステップS7の結果、同一微細素片の繰り返し回数が少ない場合等においては、第1実施形態に比べて処理量が少なくなる。
【0042】
また、本実施形態においても、スペクトル補正フィルタをあらかじめ構成しておくことが可能な点は、第1及び第2実施形態との関係と同様である。即ち、予めフィルタ係数を音声合成用辞書501に格納しておき、音声合成時にはこれを読出してスペクトル補正用フィルタを構成し、ステップS8で波形重畳された波形データに作用させる。
【0043】
〈第5実施形態〉
スペクトル補正フィルタとして、複数の部分フィルタの合成フィルタとして表現できる場合には、上記第1〜第4実施形態のように1ステップでスペクトル補正を行なうのではなく、スペクトル補正を複数のステップに分散させることが可能となる。スペクトル補正の分散により、上記各実施形態と比べて、音質と処理量のバランスを柔軟に調節することが可能となる。第5実施形態では、このようにスペクトル補正フィルタを分散させて音声合成処理する場合について説明する。なお、本処理を実現するための装置構成は第1実施形態(図1)と同様である。
【0044】
図9は第5実施形態による音声合成処理を説明するフローチャートである。図9に示されるように、まず、韻律目標値取得ステップS1〜スペクトル補正フィルタ構成ステップS4の処理を行なう。これらの処理は、上記第1〜第4実施形態におけるステップS1〜S4の処理と同様である。
【0045】
次に、スペクトル補正フィルタ分解ステップS401で、スペクトル補正フィルタ構成ステップS4で構成されたスペクトル補正フィルタを2乃至3個の部分フィルタ(要素フィルタ)に分解する。例えば、前記音響分析にp次の線形予測分析を用いた場合のスペクトル補正フィルタF1(z)は、分母多項式と分子多項式の積として、以下の[数4]式のように表現される。
【0046】
【数4】
【0047】
あるいは、以下の式のように分子・分母多項式を1次または2次の実係数多項式の積に因数分解することも可能である(以下の[数5]式は、pが偶数の場合を示したものである)。同様に、スペクトル補正フィルタにFIRフィルタを使用した場合も、1次または2次の実係数多項式の積に因数分解することができる。すなわち、[数3]式を因数分解して、[数6]式のように表される。
【0048】
【数5】
【数6】
【0049】
また、p次のケプストラム分析を用いた場合には、フィルタ特性は指数で表現されるため、[数7]式のようにケプストラム係数をグループ分けするだけで良い。
【0050】
【数7】
【0051】
次に、スペクトル補正フィルタ部分適用(1)ステップS402において、スペクトル補正フィルタ分解ステップS401で分解されたフィルタの1つを用いて、波形データ取得ステップS2で取得した波形データをフィルタリングする。すなわち、ステップS401で得られた複数のフィルタ要素のうちの一つである第1のフィルタ要素を用いて、微細素片切り出し前の波形データに対してスペクトル補正処理を施す。
【0052】
次に、微細素片切り出しステップS5において、スペクトル補正フィルタ部分適用(1)ステップS402の結果として得られた波形データに対して窓関数を適用し、微細素片を切り出す。そして、スペクトル補正フィルタ部分適用(2)ステップS403において、スペクトル補正フィルタ分解ステップS401で分解されたフィルタの1つを用いて、微細素片切り出しステップS5で切り出された微細素片をフィルタリングする。すなわち、ステップS401で得られた複数のフィルタ要素のうちの一つである第2のフィルタ要素を用いて、切り出された各微細素片に対してスペクトル補正処理を施す。
【0053】
次に、第1及び第2実施形態と同様に韻律変更ステップS7と波形重畳ステップS8を行なう。そして、スペクトル補正フィルタ部分適用(3)ステップS404において、スペクトル補正フィルタ分解ステップS401で分解されたフィルタの1つを用いて、波形重畳ステップS8の結果得られた合成音声をフィルタリングする。すなわち、ステップS401で得られた複数のフィルタ要素のうちの一つである第3のフィルタ要素を用いて、得られた合成音声の波形データに対してスペクトル補正処理を施す。
【0054】
そして、音声出力ステップS9において、スペクトル補正フィルタ部分適用(3)ステップS404の結果得られた合成音声を出力する。
以上の構成において、例えば、[数5]式の分解を行った場合は、F1,1(z)をステップS402で、F1,2(z)をステップS403で、F1,3(z)をステップS404で用いるというようなことが可能である。
【0055】
尚、[数4]式の様に、2要素の積に分割した場合にはステップS402,S403,S404のいずれかではフィルタリングを行わないことになる。すなわち、スペクトル補正フィルタ分解ステップS401においてスペクトル補正フィルタを2つに分解した場合(この例では、分母多項式と分子多項式の2つに分割している)には、スペクトル補正フィルタ部分適用(1)ステップS402、スペクトル補正フィルタ部分適用(2)ステップS403、スペクトル補正フィルタ部分適用(3)ステップS404のうちのいずれかは省略される。
【0056】
また、第5実施形態においても、スペクトル補正フィルタや各要素フィルタをあらかじめ構成して音声合成用辞書501の一部として登録しておくようにしてもよいことは、第1及び第2実施形態の関連と同様、明らかである。
以上のように、第5の実施形態によれば、どの多項式(フィルタ)をどのステップ(S402,S403,S404)に割り当てるかという任意性があり、その割り当て方によって、音質・処理量の配分が変わってくる。特に、[数5]式や[数7]式、あるいはFIRフィルタを因数分解した[数6]式の場合には、それぞれのステップに因数を何個ずつ割り当てるかまで制御できるので、さらに柔軟性があることになる。
【0057】
〈その他の実施形態〉
上記各実施形態において、スペクトル補正フィルタ係数を直接記録するのではなく、ベクトル量子化等の手法を使って量子化した後に記録しても良い。これにより、外部記憶装置15に記録されるデータ量を削減することが可能である。
【0058】
このとき、音響分析の手法としてLPC分析や一般化ケプストラム分析を用いている場合には、フィルタ係数を線スペクトル対(LSP)に変換した後に量子化を行なうと量子化の効率が良くなる。
【0059】
また、波形のサンプリング周波数が高い場合には、帯域分割フィルタによって帯域分割を行い、帯域制限された個々の波形に対してスペクトル補正フィルタリングを行なっても良い。帯域分割によってスペクトル補正フィルタの次数が押えられ、計算量を削減する効果がある。メルケプストラムのような周波数軸の伸縮によっても同様の効果がある。
【0060】
また、前記各実施形態で、スペクトル補正フィルタリングを行なうタイミングには、複数の選択肢があることを示した。どのタイミングでスペクトル補正フィルタリングを行なうか、あるいはスペクトル補正を行なうか行なわないかの選択を、素片毎に行なっても良い。選択のための情報として、音素種別や有声/無声の種別等を利用することができる。
なお、上記各実施形態において、スペクトル補正フィルタの一例としては、ホルマントを強調するホルマント強調フィルタが挙げられる。
【0061】
また、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読出し実行することによっても、達成されることは言うまでもない。
【0062】
この場合、記憶媒体から読出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
【0063】
プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク,ハードディスク,光ディスク,光磁気ディスク,CD−ROM,CD−R,磁気テープ,不揮発性のメモリカード,ROMなどを用いることができる。
【0064】
また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0065】
さらに、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0066】
【発明の効果】
以上説明したように、本発明によれば、微細素片を得るために適用した窓関数による、音声のスペクトルの「ぼやけ」を軽減することができ、音質が高い音声合成を実現することができる。
【図面の簡単な説明】
【図1】第1実施形態におけるハードウェア構成を示すブロック図である。
【図2】第1実施形態による音声出力処理を説明するフローチャートである。
【図3】第1実施形態の音声合成処理の様子を表す図である。
【図4】第2実施形態による音声出力処理におけるスペクトル補正フィルタ登録処理を説明するフローチャートである。
【図5】第2実施形態による音声出力処理における音声合成処理を説明するフローチャートである。
【図6】第3実施形態による音声出力処理におけるスペクトル補正フィルタ登録処理を説明するフローチャートである。
【図7】第3実施形態による音声出力処理における音声合成処理を説明するフローチャートである。
【図8】第4実施形態による音声出力処理を説明するフローチャートである。
【図9】第5実施形態による音声出力処理を説明するフローチャートである。
【図10】音声波形の微細素片への分割、再配置、合成による音声合成方法を模式的に示した図である。
Claims (8)
- 音声波形データと窓関数とから微細素片を取得する取得工程と、
前記取得工程で取得された微細素片を、合成時の韻律を変更するべく再配置する再配置工程と、
前記再配置工程で再配置された微細素片を重畳して得られる重畳波形データに基づいて合成音声波形データを出力する合成工程と、
前記音声波形データに基づいて構成された、前記微細素片を取得するために適用した前記窓関数による音声のスペクトルのぼやけを軽減するスペクトル補正フィルタを、前記取得工程で取得された微細素片に対して作用させる補正工程とを備えることを特徴とする音声合成方法。 - 前記補正工程は、前記取得工程で処理される音声波形データに基づいてスペクトル補正フィルタを構成する構成工程を有し、
前記取得工程で取得された微細素片に対して前記構成工程で構成されたスペクトル補正フィルタを作用させることを特徴とする請求項1に記載の音声合成方法。 - 音声波形データの各々について、該音声波形データに基づいたスペクトル補正フィルタのための構成情報が登録された音声合成用辞書を具備し、
前記補正工程は、前記取得工程で処理される音声波形データに対応する構成情報を前記音声合成用辞書から取得してスペクトル補正フィルタを構成し、前記取得工程で取得された微細素片に対して該スペクトル補正フィルタを作用させることを特徴とする請求項1に記載の音声合成方法。 - 音声波形データと窓関数とから微細素片を取得する取得工程と、
前記取得工程で取得された微細素片を、合成時の韻律を変更するべく再配置する再配置工程と、
前記再配置工程で再配置された微細素片を重畳して得られる重畳波形データに基づいて合成音声波形データを出力する合成工程とを備え、
前記取得工程で処理される音声波形データに基づいて構成された、前記微細素片を取得するために適用した前記窓関数による音声のスペクトルのぼやけを軽減するスペクトル補正フィルタを分解して得られる複数の要素フィルタのそれぞれを、前記取得工程、再配置工程、合成工程を含む処理過程中の複数個所において作用させることを特徴とする音声合成方法。 - 前記窓関数で切り出された微細素片の再配置は、各微細素片の間隔の変更、微細素片の繰返し、微細素片の間引きの少なくとも何れかであることを特徴とする請求項1乃至4のいずれか1項に記載の音声合成方法。
- 音声波形データと窓関数とから微細素片を取得する取得手段と、
前記取得手段で取得された微細素片を、合成時の韻律を変更するべく再配置する再配置手段と、
前記再配置手段で再配置された微細素片を重畳して得られる重畳波形データに基づいて合成音声波形データを出力する合成手段と、
前記音声波形データに基づいて構成された、前記微細素片を取得するために適用した前記窓関数による音声のスペクトルのぼやけを軽減するスペクトル補正フィルタを、前記取得手段で取得された微細素片に対して作用させる補正手段とを備えることを特徴とする音声合成装置。 - 音声波形データと窓関数とから微細素片を取得する取得手段と、
前記取得手段で取得された微細素片を、合成時の韻律を変更するべく再配置する再配置手段と、
前記再配置手段で再配置された微細素片を重畳して得られる重畳波形データに基づいて合成音声波形データを出力する合成手段とを備え、
前記取得手段で処理される音声波形データに基づいて構成された、前記微細素片を取得するために適用した前記窓関数による音声のスペクトルのぼやけを軽減するスペクトル補正フィルタを分解して得られる複数の要素フィルタのそれぞれを、前記取得手段、再配置手段、合成手段を含む処理過程中の複数個所において作用させることを特徴とする音声合成装置。 - 請求項1乃至5のいずれか1項に記載の音声合成方法をコンピュータに実行させるための制御プログラム。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002164624A JP4332323B2 (ja) | 2002-06-05 | 2002-06-05 | 音声合成方法および装置並びに辞書生成方法および装置 |
US10/449,072 US7546241B2 (en) | 2002-06-05 | 2003-06-02 | Speech synthesis method and apparatus, and dictionary generation method and apparatus |
DE60332980T DE60332980D1 (de) | 2002-06-05 | 2003-06-04 | Sprachsynthese |
EP03253523A EP1369846B1 (en) | 2002-06-05 | 2003-06-04 | Speech synthesis |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002164624A JP4332323B2 (ja) | 2002-06-05 | 2002-06-05 | 音声合成方法および装置並びに辞書生成方法および装置 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2004012700A JP2004012700A (ja) | 2004-01-15 |
JP2004012700A5 JP2004012700A5 (ja) | 2005-10-13 |
JP4332323B2 true JP4332323B2 (ja) | 2009-09-16 |
Family
ID=30432718
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002164624A Expired - Fee Related JP4332323B2 (ja) | 2002-06-05 | 2002-06-05 | 音声合成方法および装置並びに辞書生成方法および装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4332323B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006337476A (ja) * | 2005-05-31 | 2006-12-14 | Canon Inc | 音声合成方法および装置 |
JP4929896B2 (ja) * | 2006-07-25 | 2012-05-09 | カシオ計算機株式会社 | 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム |
JP5089295B2 (ja) | 2007-08-31 | 2012-12-05 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声処理システム、方法及びプログラム |
-
2002
- 2002-06-05 JP JP2002164624A patent/JP4332323B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2004012700A (ja) | 2004-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8280738B2 (en) | Voice quality conversion apparatus, pitch conversion apparatus, and voice quality conversion method | |
JP3294604B2 (ja) | 波形の加算重畳による音声合成のための処理装置 | |
JP3408477B2 (ja) | フィルタパラメータとソース領域において独立にクロスフェードを行う半音節結合型のフォルマントベースのスピーチシンセサイザ | |
JP5159325B2 (ja) | 音声処理装置及びそのプログラム | |
JPS62160495A (ja) | 音声合成装置 | |
JPH031200A (ja) | 規則型音声合成装置 | |
WO2004049304A1 (ja) | 音声合成方法および音声合成装置 | |
JP2009109805A (ja) | 音声処理装置及びその方法 | |
JP6347536B2 (ja) | 音合成方法及び音合成装置 | |
JP3450237B2 (ja) | 音声合成装置および方法 | |
EP1369846B1 (en) | Speech synthesis | |
JP4332323B2 (ja) | 音声合成方法および装置並びに辞書生成方法および装置 | |
JP3728173B2 (ja) | 音声合成方法、装置および記憶媒体 | |
JP3841596B2 (ja) | 音素データの生成方法及び音声合成装置 | |
JP5075865B2 (ja) | 音声処理装置、方法、及びプログラム | |
JP3897654B2 (ja) | 音声合成方法および装置 | |
JP2008058379A (ja) | 音声合成システム及びフィルタ装置 | |
JP2002287784A (ja) | 音声合成用圧縮素片作成装置、音声規則合成装置及びそれらに用いる方法並びにそのプログラム | |
JP3756864B2 (ja) | 音声合成方法と装置及び音声合成プログラム | |
JP3197975B2 (ja) | ピッチ制御方法及び装置 | |
JP2007052456A (ja) | 音声合成用辞書生成方法及び装置 | |
JP4929896B2 (ja) | 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム | |
JP2005024794A (ja) | 音声合成方法と装置および音声合成プログラム | |
JP3289511B2 (ja) | 音声合成用音源データ作成方法 | |
JP3994333B2 (ja) | 音声辞書作成装置、音声辞書作成方法、及び、プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050606 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050606 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070316 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070515 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070615 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070814 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20070827 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20070914 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090521 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090622 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4332323 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120626 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120626 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130626 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |