JP3289511B2 - 音声合成用音源データ作成方法 - Google Patents
音声合成用音源データ作成方法Info
- Publication number
- JP3289511B2 JP3289511B2 JP22231494A JP22231494A JP3289511B2 JP 3289511 B2 JP3289511 B2 JP 3289511B2 JP 22231494 A JP22231494 A JP 22231494A JP 22231494 A JP22231494 A JP 22231494A JP 3289511 B2 JP3289511 B2 JP 3289511B2
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- source data
- waveform
- sound
- speech synthesis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Description
【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音声データを音源とし
て振幅制御により音声合成を行う日本語規則音声合成装
置等に用いられる音声合成用音源データの作成方法に関
するものである。
て振幅制御により音声合成を行う日本語規則音声合成装
置等に用いられる音声合成用音源データの作成方法に関
するものである。
【0002】
【従来の技術】従来の規則音声合成装置における音声合
成用の音源データの作成と音声合成の流れを図2に示
す。一般的に音声合成は、入力されたテキストを日本語
処理等により音素記号列に変換し、各音素についてデー
タベース等を参照して時間長(音声の継続時間)、ピッ
チ(音の高さ)、エネルギー(音の大きさ)のパターン
を生成し、これらの韻律制御のパターンに基づいて音声
データから音声波形を合成する。
成用の音源データの作成と音声合成の流れを図2に示
す。一般的に音声合成は、入力されたテキストを日本語
処理等により音素記号列に変換し、各音素についてデー
タベース等を参照して時間長(音声の継続時間)、ピッ
チ(音の高さ)、エネルギー(音の大きさ)のパターン
を生成し、これらの韻律制御のパターンに基づいて音声
データから音声波形を合成する。
【0003】ここで、音源データは、人間ののどから口
に至る声道特性を表す声道断面積パターンと音源とから
成り、CV−VCデータ形式(ただし、Cは子音、Vは
母音)を採っている。図3、図4に“ま”の音声波形例
を示す。図3が/M(子音C)から/A/(母音V)の
移行部を示し、図4が全体形状を示している。図3にお
けるピッチ周期単位のフレームF1〜F6が子音/M
/、フレームF7〜が母音/A/である。
に至る声道特性を表す声道断面積パターンと音源とから
成り、CV−VCデータ形式(ただし、Cは子音、Vは
母音)を採っている。図3、図4に“ま”の音声波形例
を示す。図3が/M(子音C)から/A/(母音V)の
移行部を示し、図4が全体形状を示している。図3にお
けるピッチ周期単位のフレームF1〜F6が子音/M
/、フレームF7〜が母音/A/である。
【0004】音源データは、合成しようとする音声の対
象波形(自然音声(原音)の波形)を分析し、各ピッチ
周期単位のフレーム(F1〜F14)毎に声道断面積パ
ターンと第1次音源を抽出し、このうち第1次音源は分
析対象波形の最大振幅値Hで割って正規化した音源と
し、これらの声道断面積パターンと正規化した音源とが
音声合成用の音源データとしてデータベース等に格納さ
れて用いられる。
象波形(自然音声(原音)の波形)を分析し、各ピッチ
周期単位のフレーム(F1〜F14)毎に声道断面積パ
ターンと第1次音源を抽出し、このうち第1次音源は分
析対象波形の最大振幅値Hで割って正規化した音源と
し、これらの声道断面積パターンと正規化した音源とが
音声合成用の音源データとしてデータベース等に格納さ
れて用いられる。
【0005】音声合成では、エネルギー制御部の制御に
基づいて振幅制御を行うため、音源データとして用意す
る音源には上記したように、原音波形の分析結果で得ら
れた第1次音源を、対応する原音の音声波形の最大振幅
で割って正規化した音源が用いられている。上記の振幅
制御によって、正規化した音源に合成時のエネルギー
E′が掛けられ、これが対応する音声データの声道断面
積パターンの声道特性を有するフィルタ等を通って合成
音声となる。
基づいて振幅制御を行うため、音源データとして用意す
る音源には上記したように、原音波形の分析結果で得ら
れた第1次音源を、対応する原音の音声波形の最大振幅
で割って正規化した音源が用いられている。上記の振幅
制御によって、正規化した音源に合成時のエネルギー
E′が掛けられ、これが対応する音声データの声道断面
積パターンの声道特性を有するフィルタ等を通って合成
音声となる。
【0006】
【発明が解決しようとする課題】しかしながら、上記従
来の技術による音源正規化方式では、原音波形の最大振
幅で正規化しているため、波形の形状によっては合成
時、波形レベルでギャップがでてしまう場合がある。図
3を例に取ると、/M/のような正弦波的な波形と、/
A/のような複雑な波形とで、同じ基準で正規化する
と、原音の波形推移が損なわれてしまう場合が多く、そ
れが音質劣化につながっていた。具体的には、子音部の
方が母音部より振幅が大きくなったりすると、明瞭性が
なくなるし、もっと局所的な波形振幅の異常が出現する
と大きな異音となる。図5は“あまい”という合成音声
の波形例を示した図で/A/と/M/の境界で、子音/
M/の振幅が大きく異常となっている。また子音/M/
全体としても母音/A/に比べて振幅が大き目である。
このような異常は、正規化の問題のほかに、時間長の制
御のための間引きなども発生要因として考えられてい
る。
来の技術による音源正規化方式では、原音波形の最大振
幅で正規化しているため、波形の形状によっては合成
時、波形レベルでギャップがでてしまう場合がある。図
3を例に取ると、/M/のような正弦波的な波形と、/
A/のような複雑な波形とで、同じ基準で正規化する
と、原音の波形推移が損なわれてしまう場合が多く、そ
れが音質劣化につながっていた。具体的には、子音部の
方が母音部より振幅が大きくなったりすると、明瞭性が
なくなるし、もっと局所的な波形振幅の異常が出現する
と大きな異音となる。図5は“あまい”という合成音声
の波形例を示した図で/A/と/M/の境界で、子音/
M/の振幅が大きく異常となっている。また子音/M/
全体としても母音/A/に比べて振幅が大き目である。
このような異常は、正規化の問題のほかに、時間長の制
御のための間引きなども発生要因として考えられてい
る。
【0007】本発明は、上記問題点を解決するためにな
されたものであり、その目的は、規則音声合成装置等に
おける、エネルギー制御に伴う、合成波形の振幅異常に
起因する音質劣化を解消する音声合成用音源データ作成
方法を提供することにある。
されたものであり、その目的は、規則音声合成装置等に
おける、エネルギー制御に伴う、合成波形の振幅異常に
起因する音質劣化を解消する音声合成用音源データ作成
方法を提供することにある。
【0008】
【課題を解決するための手段】上記の目的を達成するた
め、本発明の音声合成用音源データ作成方法は、合成し
ようとする自然音声の音声波形を分析して抽出した音源
を該音声波形の最大振幅値で正規化し、該正規化した音
源を音源データの一部とする音声合成用音源データ作成
方法において、まず、前記音声合成用音源データ作成方
法により作成した音源データを用いて作成した合成音声
を観察し、振幅異常が認められる場合に該振幅異常を解
消する振幅補正値を予めテーブル化しておき、次に、最
終的な音源データの作成時に音源を正規化する際に、前
記テーブルの対応する振幅補正値を読み出して前記最大
振幅値を補正し、該補正した最大振幅値で音源の正規化
を行うことを特徴としている。
め、本発明の音声合成用音源データ作成方法は、合成し
ようとする自然音声の音声波形を分析して抽出した音源
を該音声波形の最大振幅値で正規化し、該正規化した音
源を音源データの一部とする音声合成用音源データ作成
方法において、まず、前記音声合成用音源データ作成方
法により作成した音源データを用いて作成した合成音声
を観察し、振幅異常が認められる場合に該振幅異常を解
消する振幅補正値を予めテーブル化しておき、次に、最
終的な音源データの作成時に音源を正規化する際に、前
記テーブルの対応する振幅補正値を読み出して前記最大
振幅値を補正し、該補正した最大振幅値で音源の正規化
を行うことを特徴としている。
【0009】
【作用】本発明の音声合成用音源データ作成方法では、
韻律制御に基づいて音源をエネルギー制御するために音
源データの音源を正規化する際に、正規化に用いる自然
音声波形の最大振幅値を、その最大振幅値で正規化した
音源による合成音声を波形分析して予め作成したテーブ
ルを用いて音源データ毎に補正することで、子音−母音
や母音−子音のエネルギー推移をなめらかにし、合成音
声の音質劣化を解消する。
韻律制御に基づいて音源をエネルギー制御するために音
源データの音源を正規化する際に、正規化に用いる自然
音声波形の最大振幅値を、その最大振幅値で正規化した
音源による合成音声を波形分析して予め作成したテーブ
ルを用いて音源データ毎に補正することで、子音−母音
や母音−子音のエネルギー推移をなめらかにし、合成音
声の音質劣化を解消する。
【0010】
【実施例】以下、本発明の実施例を図面を参照して詳細
に説明する。
に説明する。
【0011】図1は本発明の一実施例を示す音源データ
作成の流れ図である。図中、S1〜S9は処理ステップ
を示す。まず、アナウンサ等により、合成しようとする
対象音声の原音(自然音声)を録音する(S1)。録音
はアナログ信号のままでテープ等に行われる。次に、録
音された原音を再生してA/D変換し、適当なサンプリ
ング周波数でサンプリングしてファイル化する(S
2)。なお、原音は、ローパスフィルタやハイパスフィ
ルタを通すことにより、あるいはA/D変換後のフィル
タリングにより、余分な周波数成分をカットするのが好
適である。次にファイル化した音声波形を目視で観察す
るなどして、各種制御点をマニュアルで決定する(S
3)。各種制御点としては、波形の切り出し範囲、C/
V境界や韻律制御等におけるパラメータなどがある。次
に、前処理として波形混合処理を行う(S4)。ここで
は、波形データと波形データの接続性を良くする。次
に、対象波形毎に波形分析を行い(S5)、フレーム毎
に声道断面積パターンと第1次音源を抽出する。
作成の流れ図である。図中、S1〜S9は処理ステップ
を示す。まず、アナウンサ等により、合成しようとする
対象音声の原音(自然音声)を録音する(S1)。録音
はアナログ信号のままでテープ等に行われる。次に、録
音された原音を再生してA/D変換し、適当なサンプリ
ング周波数でサンプリングしてファイル化する(S
2)。なお、原音は、ローパスフィルタやハイパスフィ
ルタを通すことにより、あるいはA/D変換後のフィル
タリングにより、余分な周波数成分をカットするのが好
適である。次にファイル化した音声波形を目視で観察す
るなどして、各種制御点をマニュアルで決定する(S
3)。各種制御点としては、波形の切り出し範囲、C/
V境界や韻律制御等におけるパラメータなどがある。次
に、前処理として波形混合処理を行う(S4)。ここで
は、波形データと波形データの接続性を良くする。次
に、対象波形毎に波形分析を行い(S5)、フレーム毎
に声道断面積パターンと第1次音源を抽出する。
【0012】次に、波形データを切り出して(S6)、
正規化を行うことになるが、従来は波形の最大振幅値を
用いて自動的に正規化を行っていたのに対して、本実施
例では、正規化において、予めテーブル化しておいた振
幅補正値テーブルの対応する振幅補正値(倍率)をデー
タ切り出し時に読んで来て音源データの音源の正規化に
用いる最大振幅値にかけて音源データ毎に補正し(S
7)、補正した値で第1次音源を割って正規化の処理を
行う(S8)。以上により、最終的に声道断面積パター
ンと正規化音源から成る音源データを得る(S9)。
正規化を行うことになるが、従来は波形の最大振幅値を
用いて自動的に正規化を行っていたのに対して、本実施
例では、正規化において、予めテーブル化しておいた振
幅補正値テーブルの対応する振幅補正値(倍率)をデー
タ切り出し時に読んで来て音源データの音源の正規化に
用いる最大振幅値にかけて音源データ毎に補正し(S
7)、補正した値で第1次音源を割って正規化の処理を
行う(S8)。以上により、最終的に声道断面積パター
ンと正規化音源から成る音源データを得る(S9)。
【0013】上記において、振幅補正値テーブルの作成
方法は、従来と同様に最大振幅値で正規化した音源デー
タから作成した合成音声の波形を一通り目視等でチェッ
クし、ピッチ周期単位で波形振幅の異常なフレームを確
認し、その異常をなくすのに適当な振幅補正値をその音
源データ毎にテーブル化することで行う。なお、補正の
必要のないフレームは倍率を1.0にセットすること
で、上記補正の処理を簡単化することができる。
方法は、従来と同様に最大振幅値で正規化した音源デー
タから作成した合成音声の波形を一通り目視等でチェッ
クし、ピッチ周期単位で波形振幅の異常なフレームを確
認し、その異常をなくすのに適当な振幅補正値をその音
源データ毎にテーブル化することで行う。なお、補正の
必要のないフレームは倍率を1.0にセットすること
で、上記補正の処理を簡単化することができる。
【0014】音源データ作成時には波形の最大振幅を用
いて自動的に正規化し、合成時には韻律制御で得られた
パターンを適用する従来方式では、子音と母音の整合性
が波形形状により悪い場合があり、合成音声の全体的な
エネルギー推移のバランスが崩れる場合がある。本実施
例は、音源データ正規化に用いる最大振幅値を、予め上
記従来方式による音源データで合成した音声波形を分析
して作成したテーブルにより補正することで、合成波形
レベルで非常になめらかな振幅推移を実現することがで
き、規則音声合成装置における、エネルギー制御に伴
う、合成波形の振幅異常に起因する音質劣化を解消する
ことができる。
いて自動的に正規化し、合成時には韻律制御で得られた
パターンを適用する従来方式では、子音と母音の整合性
が波形形状により悪い場合があり、合成音声の全体的な
エネルギー推移のバランスが崩れる場合がある。本実施
例は、音源データ正規化に用いる最大振幅値を、予め上
記従来方式による音源データで合成した音声波形を分析
して作成したテーブルにより補正することで、合成波形
レベルで非常になめらかな振幅推移を実現することがで
き、規則音声合成装置における、エネルギー制御に伴
う、合成波形の振幅異常に起因する音質劣化を解消する
ことができる。
【0015】
【発明の効果】以上の説明で明らかなように、本発明の
音声合成用音源データ作成方法によれば、合成音声に用
いる音源データ作成時のエネルギー制御のために伴う正
規化の際、正規化不良により発生する合成波形振幅異常
を解消することができ、音質劣化を解消することができ
る。
音声合成用音源データ作成方法によれば、合成音声に用
いる音源データ作成時のエネルギー制御のために伴う正
規化の際、正規化不良により発生する合成波形振幅異常
を解消することができ、音質劣化を解消することができ
る。
【図1】本発明の一実施例を示す音源データ作成の流れ
図
図
【図2】従来の技術を説明する音源データの作成と音声
合成の流れ図
合成の流れ図
【図3】音声波形例のC−V移行部を示す図
【図4】上記音声波形例の全体を示す図
【図5】従来の技術による合成音声の波形例を示す図
S1〜S9…処理ステップ
Claims (1)
- 【請求項1】 合成しようとする自然音声の音声波形を
分析して抽出した音源を該音声波形の最大振幅値で正規
化し、該正規化した音源を音源データの一部とする音声
合成用音源データ作成方法において、まず、前記音声合成用音源データ作成方法により作成し
た 音源データを用いて作成した合成音声を観察し、振幅
異常が認められる場合に該振幅異常を解消する振幅補正
値を予めテーブル化しておき、次に、最終的な音源データの作成時に 音源を正規化する
際に、前記テーブルの対応する振幅補正値を読み出して
前記最大振幅値を補正し、該補正した最大振幅値で音源
の正規化を行うことを特徴とする音声合成用音源データ
作成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP22231494A JP3289511B2 (ja) | 1994-09-19 | 1994-09-19 | 音声合成用音源データ作成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP22231494A JP3289511B2 (ja) | 1994-09-19 | 1994-09-19 | 音声合成用音源データ作成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0887295A JPH0887295A (ja) | 1996-04-02 |
JP3289511B2 true JP3289511B2 (ja) | 2002-06-10 |
Family
ID=16780423
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP22231494A Expired - Fee Related JP3289511B2 (ja) | 1994-09-19 | 1994-09-19 | 音声合成用音源データ作成方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3289511B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3912913B2 (ja) | 1998-08-31 | 2007-05-09 | キヤノン株式会社 | 音声合成方法及び装置 |
JPWO2011118207A1 (ja) * | 2010-03-25 | 2013-07-04 | 日本電気株式会社 | 音声合成装置、音声合成方法および音声合成プログラム |
JP7202916B2 (ja) * | 2019-02-08 | 2023-01-12 | シャープ株式会社 | 音声出力装置、電気機器 |
-
1994
- 1994-09-19 JP JP22231494A patent/JP3289511B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH0887295A (ja) | 1996-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5400434A (en) | Voice source for synthetic speech system | |
US8280738B2 (en) | Voice quality conversion apparatus, pitch conversion apparatus, and voice quality conversion method | |
Childers et al. | Voice conversion: Factors responsible for quality | |
JPH031200A (ja) | 規則型音声合成装置 | |
JPH0833744B2 (ja) | 音声合成装置 | |
JP3450237B2 (ja) | 音声合成装置および方法 | |
JP3289511B2 (ja) | 音声合成用音源データ作成方法 | |
US6832192B2 (en) | Speech synthesizing method and apparatus | |
US6829577B1 (en) | Generating non-stationary additive noise for addition to synthesized speech | |
JP2002525663A (ja) | ディジタル音声処理装置及び方法 | |
JP5075865B2 (ja) | 音声処理装置、方法、及びプログラム | |
US7130799B1 (en) | Speech synthesis method | |
JP4332323B2 (ja) | 音声合成方法および装置並びに辞書生成方法および装置 | |
JP2000003200A (ja) | 音声信号処理装置及び音声信号処理方法 | |
JP3241582B2 (ja) | 韻律制御装置及び方法 | |
JP2900454B2 (ja) | 音声合成装置の音節データ作成方式 | |
JP3967571B2 (ja) | 音源波形生成装置、音声合成装置、音源波形生成方法およびプログラム | |
JPH0756590A (ja) | 音声合成装置、音声合成方法及び記録媒体 | |
JPH11109992A (ja) | 音声素片データベースの作成方法、音声合成方法、音声素片データベース、音声素片データベース作成装置および音声合成装置 | |
JP2003223180A (ja) | 音声素片生成方法と装置及びプログラム、並びに音声合成方法と装置 | |
Bonada et al. | Improvements to a sample-concatenation based singing voice synthesizer | |
JP2000099100A (ja) | 音声変換装置 | |
JPS61259300A (ja) | 音声合成方式 | |
JP2000003187A (ja) | 音声特徴情報記憶方法および音声特徴情報記憶装置 | |
JP2573587B2 (ja) | ピッチパタン生成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |