JP4304934B2 - CHORAL SYNTHESIS DEVICE, CHORAL SYNTHESIS METHOD, AND PROGRAM - Google Patents
CHORAL SYNTHESIS DEVICE, CHORAL SYNTHESIS METHOD, AND PROGRAM Download PDFInfo
- Publication number
- JP4304934B2 JP4304934B2 JP2002235039A JP2002235039A JP4304934B2 JP 4304934 B2 JP4304934 B2 JP 4304934B2 JP 2002235039 A JP2002235039 A JP 2002235039A JP 2002235039 A JP2002235039 A JP 2002235039A JP 4304934 B2 JP4304934 B2 JP 4304934B2
- Authority
- JP
- Japan
- Prior art keywords
- sample data
- singing
- sound signal
- chorus
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Abstract
Description
【0001】
【発明の属する技術分野】
本発明は、合唱音信号を合成する合唱合成装置、合唱合成方法、および合唱音を合成するためのプログラムに関する。
【0002】
【従来の技術】
従来より、歌詞情報やメロディ情報に基づいて、歌唱音信号を合成して歌声を発音する合唱合成装置が提案されている。このように歌唱音信号を合成する装置としては、規則音声合成技術を応用した装置等の種々の装置が提案されている。規則合成技術を応用した歌唱合成装置では、予め発声者が発した音声から、音素や複数の音素を含む音素連鎖を単位とする音声試料データを作成してデータベースに記憶しておく。そして、歌詞情報にしたがって必要となる音素等の音声試料データを読み出して接続することにより歌唱音信号を合成している。
【0003】
ところで、上記のような歌唱音を合成する歌唱音合成装置では、文章読み上げ装置等の音声合成装置と異なり、斉唱や重唱といった合唱時の歌唱音を電子的に出力するといった利用形態も考えられる。したがって、合唱時の歌唱音(合唱音)を合成する機能を備えた合唱合成装置の開発も行われている。
【0004】
このような合唱時の合唱音信号を合成する機能を備えた合唱合成装置は、複数のパートの各々に基づいて、音声試料データを読み出して接続することにより合唱音信号を生成する。そして、各々のパートについて生成した歌唱音信号を重ね合わせて出力することにより、合唱音を電子的に出力することができるようになっている。
【0005】
【発明が解決しようとする課題】
しかし、従来の合唱音信号を合成する機能を備えた合唱合成装置では、各パート毎に歌詞情報やメロディ情報にしたがって歌唱音信号を生成する際に、同一の音声試料データを用いているため、各パート毎に生成された歌唱音はメロディが異なっているものの、生成された各パート毎の音声波形の微細な特徴(ピッチのゆらぎ等)は基本的に同一となってしまう。したがって、これらを重ね合わせた合唱音は、聴取者にとって不自然な合唱音に聴こえてしまう。これは、各パート間の相関関係(微細な特徴が一致する)を聴取者が聴き取ってしまい、不自然な印象を与えているものと考えられる。
【0006】
また、斉唱時の合唱音信号を合成する場合には、上記のように各パート毎に単純に歌唱音信号を生成して重ね合わせる手法では、全く同じ歌唱音が重ねられて出力されてしまい、この結果聴取者に不自然な印象を与えてしまうことになる。そこで、従来の合唱音合成装置において、斉唱時の合唱音信号を合成する場合には、各パート(内容は同一)毎に生成した歌唱音の発音タイミングを若干ずらしたり、各パート毎に生成した歌唱音のピッチを若干ずらしたりすることにより、全く同一の歌唱音が重ねられて発音されてしまうことを防止していた。しかしながら、発音タイミングやピッチを若干ずらした場合にも、上記のように各パート毎に生成された音声波形の微細な特徴(ゆらぎ等)は基本的に同一となってしまう。したがって、これらを重ね合わせた合唱音は、上記と同様、聴取者にとって不自然な合唱音に聴こえてしまう。
【0007】
また、特開平7−146695号公報には、合唱音信号を生成する装置が開示されており、この装置では、各パート毎に歌唱音信号を生成する際に、各パート毎に異なるピッチのゆらぎ成分を付与した歌唱音信号を生成している。このように各パート毎に異なるピッチのゆらぎ成分を付与した歌唱音信号を重ねて出力することにより、各パート間の相関関係を小さくすることができる。しかしながら、この公報に記載された装置において、各パート毎の歌唱音信号に付与されるピッチ成分は、人の音声を基にしたものではなく、人工的に作られたものであるため、各パート間の相関関係は小さくなるものの、合成された合唱音が不自然に聴こえてしまうことがある。
【0008】
本発明は、上記の事情を考慮してなされたものであり、より自然な印象を聴取者に与えることが可能な合唱音を合成することができる合唱合成装置、合唱合成方法およびプログラムを提供することを目的とする。
【0009】
【課題を解決するための手段】
上記課題を解決するため、本発明に係る合唱合成装置は、楽曲データに基づいて合唱音信号を合成する合唱合成装置であって、複数の音声試料データからなる音声試料データ群であって複数の異なる音声に基づいて各々作成された前記音声試料データ群を音域毎に記憶するデータベースと、前記楽曲データにしたがって歌唱音信号を生成する手段であって、必要となる前記音声試料データを前記データベースから読み出して当該歌唱音信号の生成に用いる複数の歌唱生成手段と、前記複数の歌唱生成手段で生成された歌唱音信号から合唱音信号を合成する歌唱合成手段とを具備し、前記楽曲データが複数のパートからなり、前記複数の歌唱生成手段の各々が各前記パートに対応する歌唱音信号を生成する際に、少なくとも2つの前記歌唱生成手段の各々は、前記歌唱生成手段の各々のパートに対応する音域に応じた音声試料データ群に含まれる前記音声試料データを前記データベースから読み出して前記歌唱音信号の生成に用いることを特徴としている。
【0010】
この構成によれば、各歌唱生成手段が対応するパートの歌唱音信号を生成する際に、少なくとも2つの歌唱生成手段が異なる音声に基づいて作成した音声試料データを用いることになる。ここで、異なる音声に基づいて作成した音声試料データは、微細な特徴等が異なっているため、上記少なくとも2つの歌唱生成手段から出力される歌唱音信号は微細な特徴が異なったものとなる。したがって、各パートに応じた歌唱音として、固有の特徴を有する歌唱音が放音されるので、聴取者に対してより自然な印象を与えることができる。
【0012】
この構成によれば、各歌唱生成手段が対応するパートの歌唱音信号を生成する際に、少なくとも2つの歌唱生成手段が音声試料データの異なる時間に対応する部分から使用を開始して生成を行うことになる。ここで、音声に基づいて作成されたある時間長を有する音声試料データは、その時間長の間微細な特徴(音声波形のゆらぎ)が一定ではなく、時間によって微細な特徴等が異なっている。このため、上記少なくとも2つの歌唱生成手段から出力される歌唱音信号は微細な特徴が異なったものとなる。したがって、各パートに応じた歌唱音として、固有の特徴を有する歌唱音が放音されるので、聴取者に対してより自然な印象を与えることができる。
【0013】
また、本発明に係る合唱合成方法は、楽曲データに基づいて生成された複数の歌唱音信号から合唱音信号を合成する合唱合成方法であって、複数のパートからなる前記楽曲データにしたがって前記複数のパートに対応する歌唱音信号を生成する際には、複数の音声試料データからなる音声試料データ群であって複数の異なる音声に基づいて各々作成された音声試料データ群を音域毎に記憶するデータベースから必要となる前記音声試料データを読み出し、少なくとも2つの前記パートに対応する歌唱音信号の生成には、該パート毎に、各々のパートに対応する音域に応じた音声試料データ群に含まれる前記音声試料データを前記データベースから読み出して前記歌唱音信号の生成に用いることを特徴としている。
【0014】
また、本発明の別の態様の合唱合成方法は、楽曲データに基づいて生成された複数の歌唱音信号から合唱音信号を合成する合唱合成方法であって、複数のパートからなる前記楽曲データにしたがって前記複数のパートに対応する歌唱音信号を生成する際には、音声に基づいて作成された所定の時間長を有する音声試料データを記憶するデータベースから必要となる前記音声試料データを読み出し、少なくとも2つの前記パートに対応する歌唱音信号の生成には、前記データベースから読み出した前記音声試料データの異なる時間に対応する部分から使用を開始して前記歌唱音信号を生成することを特徴としている。
【0015】
また、本発明に係るプログラムは、コンピュータを、楽曲データにしたがって、複数の音声試料データからなる音声試料データ群であって複数の異なる音声に基づいて各々作成された音声試料データ群を音域毎に記憶するデータベースから必要となる前記音声試料データを読み出して歌唱音信号を生成する手段であって、前記楽曲データが複数のパートからなり、前記複数のパートに対応する歌唱音信号を生成する場合には、少なくとも2つの前記パートに対応する歌唱音信号の生成の際に、該パート毎に各々のパートに対応する音域に応じた音声試料データ群に含まれる前記音声試料データを前記データベースから読み出して前記歌唱音信号の生成に用いる歌唱音生成手段と、前記生成された歌唱音信号から合唱音信号を合成する歌唱合成手段として機能させることを特徴としている。
【0016】
また、本発明の別の態様のプログラムは、コンピュータを、楽曲データにしたがって、音声に基づいて作成された所定の時間長を有する音声試料データを記憶するデータベースから必要となる前記音声試料データを読み出して歌唱音信号を生成する手段であって、前記楽曲データが複数のパートからなり、前記複数のパートに対応する歌唱音信号を生成する場合には、少なくとも2つの前記パートに対応する歌唱音信号の生成する際に、前記データベースから読み出した前記音声試料データの異なる時間に対応する部分から使用を開始して前記歌唱音信号を生成する歌唱音生成手段と、前記生成された歌唱音信号から合唱音信号を合成する歌唱合成手段として機能させることを特徴としている。
【0017】
【発明の実施の形態】
以下、図面を参照して本発明の実施形態について説明する。
A.第1実施形態
A−1.第1実施形態の基本構成
まず、図1は本発明の第1実施形態に係る合唱合成装置の基本構成を示すブロック図である。同図に示すように、この合唱合成装置100は、音声試料データベース110と、複数(図示の例では3つ)の歌唱生成器120,121,122と、合唱制御部140と、歌唱生成器120,121,122の各々が出力する歌唱音信号を加算して合成し、出力する加算器130とを備えている。
【0018】
音声試料データベース110には、人が発声した自然の音声に基づいて作成された音声試料データが記憶されている。この音声試料データベース110には、単一の音素または複数の音素で構成される音素連鎖を1つの単位とする音声試料データ(以下、音声素片試料データという)が記憶されている。
【0019】
多数の短時間長の音声試料データをデータベースに蓄積しておいて、歌詞等に応じてこれらの音声試料データを接続して音声合成処理技術では、合成単位として音素が用いられるのが基本である。このため、この合唱合成装置100における音声試料データベース110に、音素(30〜50種類程度)単位のみの音声素片試料データを蓄積するようにしてもよいが、音素間の結合規則は複雑であるため、音素単位のみの音声試料データを蓄積した場合には、良好な品質を得ることが難しい。したがって、音声試料データベース110には、音素単位のみの音声素片試料データに加え、音素よりもやや大きい単位(音素連鎖)の音声素片試料データも蓄積しておくことが好ましい。音素よりも大きい単位としては、CV(子音→母音)、VC(母音→子音)、VCV(母音→子音→母音)、CVC(子音→母音→子音)といった単位がある。これらの単位の音声素片試料データを全て蓄積しておくことも考えられるが、合唱音を合成する合唱合成装置100においては、歌唱において使用頻度の高い母音など長く発音する伸ばし音を1単位とした音声素片試料データ、子音から母音(CV)および母音から子音(VC)を1単位とした音声素片試料データ、子音から子音を1単位としたの音声素片試料データ、および母音から母音を1単位とした音声素片試料データを蓄積しておくようにすればよい。
【0020】
音声試料データベース110には、上述したような音素あるいは音素連鎖を1単位とした音声素片試料データが格納されているが、この音声試料データベース110では、同一種類の音素(例えば「a」)あるいは音素連鎖(例えば、「ai」)について3つの音声素片試料データを記憶している。すなわち、音声試料データベース110には、音素あるいは音素連鎖を1単位とした所定数の単位音声素片試料データからなる3つの音声試料データ群110a,110b,110cが記憶されているのである。
【0021】
音声試料データベース110に記憶されている3つの音声試料データ群110a,110b,110cは、各々異なる音声に基づいて作成されたデータである。ここで、異なる音声とは、発声者が異なることのみを意味するわけではなく、同じ発声者であっても別の機会に発した音声や異なる発声部分を用いたものであってもよい。このように音声試料データ群110a,110b,110cは、別の発声者または同じ発声者であっても別の機会に発した音声や別の発声部分に基づいて作成されているのである。このように各音声試料データ群110a,110b,110cに含まれる同一の音素(あるいは音素連鎖)についてのデータは、各々のデータを作成するために使用した基となる音声が異なっているため、微細な特徴(ピッチのゆらぎ等)が異なったものとなっている。
【0022】
音声試料データベース110には、上述したような3つの音声試料データ群110a,110b,110cが記憶されており、各歌唱生成器120,121,122は、歌唱音信号を生成する際にこの音声試料データベース110から音声素片試料データを読み出して用いることになる。
【0023】
歌唱生成器120,121,122の各々は、歌詞情報およびメロディ情報を有する楽曲情報にしたがって、音声試料データベース110から必要となる音声素片試料データを読み出し、読み出した音声素片試料データを用いて歌唱音信号を生成する。
【0024】
より具体的には、歌唱生成器120,121,122の各々は、歌詞情報にしたがって音素列を求め、その音素列を構成するために必要な音声素片試料データを決定し、音声試料データベース110から読み出す。そして、読み出した音声素片試料データを時系列に接続し、接続した音声素片試料データをメロディ情報にしたがったピッチに応じて適宜調整し、歌唱音信号を生成するのである。
【0025】
本実施形態に係る合唱合成装置100は、歌詞情報およびメロディ情報にしたがって歌唱音信号を生成することができる3つの歌唱生成器120,121,122を備えており、これにより3つのパートかならなる合唱曲の楽曲情報(歌詞情報およびメロディ情報)にしたがって、この合唱曲に対応した合唱音信号を合成することができるようになっている。
【0026】
合唱制御部140は、当該合唱合成装置100において、合唱曲の楽曲情報に基づいて合唱音に対応した合唱音信号を合成する際に、楽曲情報を各パート毎に分割して各歌唱生成器120,121,122に出力する。これにより、3つのパートからなる楽曲情報にしたがって合唱音信号を合成する場合には、各歌唱生成器120,121,122が合唱制御部140から供給される各々のパートの歌詞情報およびメロディ情報にしたがって歌唱音信号を生成し、各歌唱生成器120,121,122の各々が生成した歌唱音信号が加算器130に出力される。これにより、加算器130からは3つのパートからなる合唱曲の楽曲情報にしたがって、この合唱曲に対応した合唱音信号を合成することができるのである。
【0027】
また、この合唱合成装置100において、上記のように合唱音信号を合成する際には、合唱制御部140は、各歌唱生成器120,121,122の各々が、音声試料データベース110に記憶されている音声試料データ群110a,110b,110cのうち、どの音声試料データ群から音声素片試料データを読み出して用いるかを指定する指定情報を歌唱生成器120,121,122に出力する。ここで、合唱制御部140は、各歌唱生成器120,121,122が互いに異なる音声試料データ群110a,110b,110cに含まれる音声素片試料データを用いて歌唱音信号を生成するように、各歌唱生成器120,121,122に異なるデータ群を指定する指定情報を出力する。
【0028】
具体的に例示すると、歌唱生成器120に対しては音声試料データ群110aを指定する指定情報を出力し、歌唱生成器121に対しては音声試料データ群110bを指定する指定情報を出力し、歌唱生成器122に対しては音声試料データ群110cを指定する指定情報を出力するといった具合である。このような指定情報が合唱制御部140から供給されると、歌唱生成器120は音声試料データ群110aに含まれる音声素片試料データを読み出して歌唱音信号の生成に用い、歌唱生成器121は音声試料データ群110bに含まれる音声素片試料データを読み出して歌唱音信号の生成に用い、歌唱生成器122は音声試料データ群110cに含まれる音声素片試料データを用いて歌唱音信号を生成することになる。
【0029】
合唱合成装置100において、3つのパートからなる合唱曲の歌唱音信号を合成する場合に、上述したように各歌唱生成器120,121,122が互いに異なる音声試料データ群110a,110b,110cに含まれる音声素片試料データを用いることにより、より自然な印象を聴取者に与えることが可能な合唱音信号を合成することができる。すなわち、音声試料データベース110に記憶されている音声試料データ群110a,110b,110cは、各々異なる音声に基づいて作成されたものであり、同一種類の音素や音素連鎖についてのデータであっても、各音声試料データ群110a,110b,110cに含まれるデータに示される音声の微細な特徴(ピッチのゆらぎ等)は異なっている。このように微細な特徴が異なっている音声素片試料データが含まれる音声試料データ群110a,110b,110cのうち、各歌唱生成器120,121,122が異なる音声試料データ群に含まれる音声素片試料データを用いて歌唱音信号を生成することにより、各歌唱生成器120,121,122によって生成される歌唱音信号は、互いに微細な特徴が異なるものとなっている。したがって、これらを重ね合わせた合唱音は、各パート間の相関関係がほとんどない固有の特徴を有するものとなり、聴取者に不自然な印象を与えてしまうことを低減することができる。
【0030】
また、音声試料データベース110に記憶されている音声試料データ群110a,110b,110cに含まれる音声素片試料データは、各々人が発声した音声に基づいて作成されたデータである。したがって、各音声試料データ群に含まれる音声素片試料データに示される音声の微細な特徴の相違は、予め用意されたピッチのゆらぎを付与するといった人工的に作り出されたものではない。したがって、合成された合唱音が不自然なものとなってしまうことを低減することができる。
【0031】
A−2.合唱合成装置の具体的な構成
以上説明したのが本実施形態に係る合唱合成装置100の基本的な構成である。この合唱合成装置100においては、歌唱生成器120,121,122として、歌詞情報にしたがって音声試料データベース110から音声素片試料データを読み出して接続し、メロディ情報にしたがったピッチに応じて接続した音声素片試料データを調整して歌唱音信号を出力するといった歌唱生成器であれば、規則音声合成技術等を応用した歌唱生成器等の公知の種々の歌唱生成器を用いることができ、音声試料データベース110には採用する歌唱生成器に対応した音声素片試料データを記憶させておけばよい。以下においては、歌唱生成器120,121,122として、米国特許第5029509号や特許第2906970号において提案されているスペクトルモデリング合成(SMS:Spectral Modeling Synthesis)技術を利用した歌唱生成器を適用した場合を例に挙げて、合唱合成装置100について具体的に説明する。
【0032】
まず、SMS技術を利用した歌唱生成器120,121,122を備えた歌唱合成装置100における音声試料データベース110の作成手法について説明する。
【0033】
上述したように、この合唱合成装置100における音声試料データベース110には、発声者の発した音声に基づいて作成された音声素片試料データが記憶されている。SMS技術は、オリジナルの音を2つの成分、すなわち調和成分(deterministic component)と、非調和成分(stochastic component)で表すモデルを使用して楽音の分析および合成を行う技術であり、SMS技術を利用した音声合成においては、音素あるいは音素連鎖といった1単位の音声素片試料データとして、上記調和成分および非調和成分からなるデータが音声合成に用いられる。したがって、SMS技術を利用した合唱合成装置100においては、音声試料データベース110に、発声者の発した音声をSMS分析することにより得られた調和成分および非調和成分を示すデータが1つの音声素片試料データとして記憶される。以下、図2を参照しながら、音声試料データベース110の作成手法について説明する。
【0034】
同図に示すように、音声試料データベース110の作成のために発声者が発した音声は、SMS分析部200に入力され、SMS分析部200においてSMS分析される。ここで、音声試料データベース110には、異なる音声に基づいて作成した音声試料データ群110a,110b,110cを記憶しておく必要があるため、3つの異なる音声がSMS分析部200に入力されることになる。なお、図示では、3つの異なる音声が並列にSMS分析部200に入力されるように表されているが、各音声についてのSMS分析は同時に並列して行う必要はなく、個別に行うようにしてもよい。
【0035】
SMS分析部200は、入力される音声に対してSMS分析を行い、各フレーム毎のSMS分析データを出力する。より具体的には、以下の手法により各フレーム毎のSMS分析データを出力する。
【0036】
まず、入力される音声を一連のフレームに分ける。ここで、SMS分析に用いるフレーム周期としては、一定の固定長であってもよいし、入力音声のピッチ等に応じてその周期を変更する可変長の周期であってもよい。
【0037】
次に、フレームに分けた音声に対して高速フーリエ変換(FFT:Fast Fourier Transform)等の周波数分析を行う。この周波数分析によって得られた周波数スペクトル(複素スペクトル)から振幅スペクトルと位相スペクトルを求め、振幅スペクトルのピークに対応する特定の周波数のスペクトルを線スペクトルとして抽出する。このとき、基本周波数およびその整数倍の周波数近傍の周波数を持つスペクトルを線スペクトルとする。このようにして抽出した線スペクトルが上述した調和成分に対応している。
【0038】
次に、上記のように入力音声から線スペクトルを抽出するとともに、抽出した線スペクトルをそのフレームの入力音声(FFT後の波形)から減算することにより、残差スペクトルを得る。あるいは、抽出した線スペクトルから合成した調和成分の時間波形データをそのフレームの入力音声波形データから減算して残差成分の時間波形データを取得した後、これに対してFFT等の周波数分析を行うことにより残差スペクトルを得るようにしてもよい。このようにして得られた残差スペクトルが上述した非調和成分に対応している。
【0039】
SMS分析部200は、上記のようにして取得した線スペクトル(調和成分)および残差スペクトル(非調和成分)からなる各フレーム毎のSMS分析データを区間切り出し部201に出力する。
【0040】
区間切り出し部201は、SMS分析部200から供給される各フレーム毎のSMS分析データを、音声試料データベース110に記憶すべき音声素片試料データの1単位(音素あるいは音素連鎖)の長さに対応するように切り出す。区間切り出し部201は、各素片の単位長さに対応するようにSMS分析データを切り出し、音声試料データベース110に記憶させる。
【0041】
ここで、音声試料データベース110に記憶される音声素片試料データは、音素あるいは音素連鎖毎に切り出されたSMSデータであり、調和成分については、その音素あるいは音素連鎖に含まれるフレーム全てのスペクトル包絡(線スペクトル(倍音系列)の強度(振幅)および位相のスペクトル)が記憶される。なお、このようなスペクトル包絡そのものを調和成分として記憶させるようにしてもよいが、該スペクトル包絡を何らかの関数で表現したものを記憶させるようにしてもよいし、調和成分を逆FFT等して得た時間波形として記憶させるようにしてもよい。本実施形態では、非調和成分についても調和成分と同様に、強度スペクトルと位相スペクトルとして記憶させることとするが、上記調和成分と同様、関数や時間波形として記憶させるようにしてもよい。
【0042】
このような音声に対するSMS分析および区間切り出しが3つの異なる入力音声の各々について行われ、この結果、音声試料データ群110a,110b,110cといった3つの異なる音声に基づいて作成された音声素片試料データ(音素あるいは音素連鎖毎のSMS分析データ)の群が音声試料データベース110に記憶される。
【0043】
以上が本実施形態に係る合唱合成装置100の音声試料データベース110の作成手法の詳細である。
【0044】
次に、上述したように異なる音声に基づいて作成された3つの音声試料データ群110a,110b,110cを記憶する音声試料データベース110を用いて歌唱音信号を生成する各歌唱生成器120,121,122について説明する。なお、歌唱生成器120,121,122は、各々同様の構成であるため、以下においては歌唱生成器120の構成について図3を参照しながら説明し、他の歌唱生成器121,122についての説明を割愛する。
【0045】
同図に示すように、この歌唱生成器120は、音声素片選択部301と、ピッチ決定部302と、継続時間長調整部303と、音声素片接続部304と、調和成分生成部305と、加算部306と、逆FFT(高速フーリエ変換)部307と、窓掛け部308と、オーバーラップ部309とを備えている。
【0046】
音声素片選択部301は、合唱制御部140(図1参照)から供給される歌詞情報および指定情報にしたがって、必要となる音声素片試料データを音声試料データベース110から読み出す。より具体的には、供給される歌詞情報を音声記号(音素あるいは音素連鎖)列に変換し、変換した音声記号列にしたがって音声試料データベース110から音声素片試料データを読み出す。例えば、「サイタ」(saita)といった歌詞情報にしたがって歌唱音信号を生成する場合には、該歌詞情報が「#s」、「s」、「sa」、「a」、「ai」、「i」、「it」、「t」、「ta」、「a」、「a#」といった音声記号列に変換され、これらの各音声記号に対応する音声素片試料データが音声試料データベース110から読み出されることになる。
【0047】
音声素片選択部301は、上記のように歌詞情報にしたがって読み出すべき音声素片試料データを決定し、合唱制御部140から供給される指定情報に指定される音声試料データ群の中から決定した音声素片試料データを読み出す。例えば、指定情報が音声試料データ群110aを指定している場合には、音声試料データベース110の音声試料データ群110aに含まれる「#s」、「s」、「sa」、「a」、「ai」、「i」、「it」、「t」、「ta」、「a」、「a#」に対応した音声素片試料データを読み出す。
【0048】
ピッチ決定部302は、合唱制御部140(図1参照)から供給されるメロディ情報に応じて歌唱音のピッチを決定し、決定したピッチを示すピッチ情報を調和成分生成部305に出力する。
【0049】
継続時間長調整部303には、音声素片選択部301によって読み出された音声素片試料データ(調和成分および非調和成分)が供給される。ここで、音声素片選択部301は、読み出した音声素片試料データをそのまま継続時間長調整部303に供給するようにしてもよいが、メロディ情報に示されるピッチ等に応じて適当な補正処理を施してから継続時間長調整部303に供給するようにしてもよい。
【0050】
継続時間長調整部303は、メロディ情報等によって決定される音素あるいは音素連鎖毎の発音時間長に応じて音声素片選択部301から供給された各音声素片試料データの時間長を変更する処理を行う。より具体的には、ある音声素片試料データを、その時間長より短い時間として使用する場合には、該音声素片試料データからフレームを間引く処理を行う。一方、ある音声素片試料データを、その時間長よりも長い時間継続して使用する場合には、その音声素片試料データを使用する時間長の間繰り返して時間を長くするループ処理を行う。このループ処理において、ある音声素片試料データを繰り返す場合には、当該音声素片試料データの最初から最後(0〜t)までのデータの後に、当該音声素片試料データjを最初(0)からデータを接続して繰り返すようにしてもよいし、最初から最後(0〜t)までのデータの後に、当該音声素片試料データの時間的に最後(t)の部分から最初の部分に向かってデータを接続して繰り返すようにしてもよい。
【0051】
継続時間長調整部303は、上記のように各音声素片の発音時間長に応じて音声素片試料データ(調和成分および非調和成分)の継続時間長を調整した後、時間調整後の音声素片試料データを音声素片接続部304に出力する。
【0052】
音声素片接続部304は、継続時間長調整部303から供給された音声素片試料データの調和成分のデータを時系列に接続するとともに、非調和成分のデータを時系列に接続する。このような接続に際し、接続する2つの調和成分のスペクトル包絡の形状の差が大きい場合には、スムージング処理等を施すようにすればよい。音声素片接続部304は、接続した調和成分のデータを調和成分生成部305に出力するとともに、接続した非調和成分のデータを加算部306に出力する。
【0053】
調和成分生成部305には、音声素片接続部304から調和成分のデータ(スペクトル包絡情報)が供給されるとともに、ピッチ決定部302からメロディ情報にしたがったピッチ情報が供給される。調和成分生成部305は、音声素片接続部304からのスペクトル包絡情報に示されるスペクトル包絡形状を維持しつつ、ピッチ決定部302からのピッチ情報に対応する倍音成分を生成する。
【0054】
加算部306には、音声素片接続部304からの非調和成分のデータと、調和成分生成部305からの調和成分のデータが供給され、加算部306は両者を合成して逆FFT部307に出力する。逆FFT部307は、加算部306から供給される加算された周波数領域の信号に対し、逆FFTを施すことにより時間領域の波形信号に変換し、変換後の波形信号を窓掛け部308に出力する。窓掛け部308では、時間領域の波形信号に対してフレーム長に対応した窓関数が乗算され、オーバーラップ部309が乗算後の波形信号をオーバーラップさせながら歌唱音信号を生成する。このようにして歌唱生成器120では、合唱制御部140(図1参照)から供給された楽曲情報のあるパートの歌詞情報およびメロディ情報にしたがった歌唱音信号が生成され、生成された歌唱音信号が加算器130(図1参照)に出力される。
【0055】
以上が歌唱生成器120の詳細な構成であり、図1に示す他の歌唱生成器121,122(歌唱生成器120と同様の構成)からも上記のように合唱制御部140から供給された楽曲情報のあるパートの歌詞情報およびメロディ情報にしたがって生成された歌唱音信号が出力される。ここで、上述したように各歌唱生成器120,121,122は、合唱制御部140から振り分けられたパートに対応する歌唱音信号を生成する際に、各々異なる音声試料データ群110a,110b,110cから音声素片試料データを読み出して生成に用いているので、各々が生成する歌唱音信号の微細な特徴(ピッチのゆらぎ等)は異なったものとなる。
【0056】
加算器130は、このように合唱曲の楽曲情報の各パートにしたがって歌唱生成器120,121,122が生成した歌唱音信号を合成して出力する。加算器130から出力された3つのパートの歌唱音信号が合成された合唱音信号は、図示せぬD/A(Digital to Analog)変換器によってアナログの音声波形信号に変換された後、アンプ等を介してスピーカから放音される。これにより、聴取者は、複数パートからなる合唱曲の楽曲情報にしたがった合唱音を聴くことができる。この合唱合成装置100から放音される合唱音は、各パートの歌唱音の微細な特徴(ピッチのゆらぎ等の相違に起因する声質等)が相違しており、聴取者により自然な印象を与えることが可能な合唱音を発音することができるのである。
【0057】
B.第2実施形態
次に、本発明の第2実施形態に係る合唱合成装置について、図4を参照しながら説明する。同図に示すように、上記第1実施形態における合唱合成装置100の音声試料データベース110が3つの音声試料データ群110a,110b,110cを記憶していたのに対し、第2実施形態に係る合唱合成装置400における音声試料データベース110には、同一の音素または音素連鎖については1種類の音声素片試料データしか記憶されていない点で相違している。第2実施形態に係る合唱合成装置400は、このように1つの音素または音素連鎖について1つの音声素片試料データのみを記憶する音声試料データベース110を用いて、上記第1実施形態と同様により自然な印象を与えることが可能な合唱音信号を合成することができるようになっている。以下、合唱合成装置400の構成について、上記第1実施形態に係る合唱合成装置100との相違点を中心に説明する。
【0058】
合唱合成装置400における歌唱生成器120,121,122の各々は、上記第1実施形態と同様であり、歌詞情報およびメロディ情報を有する楽曲情報にしたがって音声試料データベース110から必要となる音声素片試料データを読み出し、読み出した音声素片試料データを用いて歌唱音信号を生成する。第2実施形態においては、音声試料データベース110には1つの音素あるいは音素連鎖については1つの音声素片試料データしか記憶されていないため、合唱曲の楽曲情報にしたがって歌唱音信号を生成する際には、各歌唱生成器120,121,122が同一の音声素片試料データを用いることもあり得る。上述したように複数のパートの歌唱音信号を同一の音声素片試料データを用いて生成した場合、微細な特徴(ピッチのゆらぎ等)が基本的に同一になるため、聴取者に不自然な印象を与えてしまう。
【0059】
そこで、この合唱合成装置400では、合唱制御部140が合唱曲の楽曲情報の歌詞情報およびメロディ情報を各パート毎に分割して各歌唱生成器120,121,122に出力するとともに、音声試料データベース110に記憶されている音声素片試料データをどの時間に対応する部分から使用を開始するかを指定する指定情報を各歌唱生成器120,121,122に出力するようになっている。
【0060】
上述した第1実施形態で説明したように、音声試料データベース110に記憶される音声素片試料データは、発声者の発した音声に基づいて作成されたものであり、所定の時間長(1フレーム〜数フレーム等)の音声波形に基づいて作成されたデータである。すなわち、前記所定の時間内における時間と振幅との関係で表される音声波形に基づいて作成されたデータである。したがって、上記第1実施形態のように音声素片試料データが周波数領域のデータとして記憶されている場合にも、そのデータは時間領域の音声波形にFFT等を施して得られたものである。合唱制御部140は、このように時間に伴って変化する情報である音声素片試料データをどの時間に対応する部分から使用するかを指定する指定情報を各歌唱生成器120,121,122に供給するのである。
【0061】
ここで、合唱制御部140は、各歌唱生成器120,121,122が音声素片試料データを、互いに異なる時間に対応する部分から使用を開始して歌唱音信号を生成するように、各歌唱生成器120,121,122に異なる使用開始時間を指定する指定情報を出力する。
【0062】
各歌唱生成器120,121,122は、合唱制御部140から供給される各パートの歌詞情報に基づいて必要となる音声素片試料データを音声試料データベース110から読み出すと共に、読み出した音声素片試料データを、合唱制御部140から指定情報に指定される時間に対応する部分から使用を開始して歌唱音信号の生成を行う。
【0063】
以下、3つのパートの歌詞情報にしたがって読み出される音声素片試料データが母音の「a」であり、音声素片試料データ「a」がF0〜F13といった13のフレーム(時間0〜T)からなり、該音声素片試料データを13フレーム分の長さを使用して各歌唱生成器120,121,122が歌唱音信号を生成する場合について、図5および図6を参照しながら具体的に例示して説明する。
【0064】
図5に示す例では、歌唱生成器120に対しては最初のフレームF0から使用を開始するように指定する指定情報が供給されており、歌唱生成器121に対してはフレームF3から使用を開始するように指定する指定情報が供給されており、歌唱生成器122に対してはフレームF6から使用を開始するように指定する指定情報が供給されている。なお、図示では説明の便宜上、音声素片試料データが時間領域の音声波形として示されているが、音声試料データベース110に記憶しておくデータは、上記第1実施形態のように周波数領域で表現される調和成分(線スペクトル)および非調和成分(残差スペクトル)といった形態であってもよい。
【0065】
このような指定情報が供給されている場合には、図6に示すように、歌唱生成器120は、フレームF0,F1,F2……F13といった順序、つまり音声素片試料データ「a」をそのまま使用して歌唱音信号の生成に用いる。また、歌唱生成器121は、フレームF3,F4,F5……F13,F0,F1,F2,F3といった順次で音声素片試料データ「a」を使用して歌唱音信号の生成を行う。さらに、歌唱生成器122は、フレームF6,F7……F13,F0,F1……F5といった順序の音声素片試料データ「a」を使用して歌唱音信号の生成を行う。
【0066】
このように合唱制御部140が互いに異なる時間に対応する部分から使用を開始して歌唱音信号を生成するように指定情報を出力することにより、同じ音素「a」を同じ時間長(0〜Tまで)だけ用いて歌唱音信号を生成する際にも、各歌唱生成器120,121,122が実際に用いるデータは異なるものとなっている。すなわち、各歌唱生成器120,121,122が実際に用いる音声素片試料データに示される微細な特徴(ピッチのゆらぎ等)は異なったものとなり、1つの音素あるいは音素連鎖について1種類の音声素片試料データを用いて、各歌唱生成器120,121,122が微細な特徴の異なる歌唱音信号を生成することができるのである。
【0067】
ところで、音素「a」のように単一の音素についての音声素片試料データを用いる場合には、上記のように単純にデータ中の使用開始時間をずらすといった手法により、各パートについて生成される歌唱音の微細な特徴を変えてより自然な合唱歌唱音を合成することができるが、複数の音素が連なる音素連鎖についての音声素片試料データの場合には、単純にデータ中の使用開始時間をずらすだけでは不都合が生じることもある。例えば、「ai」といった音素連鎖についての音声試料データの場合、時間領域における前半部分は「a」の音素をより強く反映したデータであり、後半部分は「i」の音素をより強く反映したデータである。したがって、音素連鎖「ai」の歌唱音信号を生成するために、音素「i」の影響の強い後半部分から使用を開始した場合には、音素連鎖「ia」に類似した傾向を持つデータを用いることになってしまう虞があり、この場合、生成すべき音素連鎖「ai」についての信号が正確に生成できなくなってしまう。
【0068】
そこで、本実施形態では、複数の音素連鎖に対応する音声素片試料データを用いる場合には、合唱制御部140は、図7に示すような指定情報を各歌唱生成器120,121,122に出力するようにしている。同図に示す例では、歌唱生成器120に対しては最初のフレームF0から使用を開始するように指定する指定情報が供給されており、歌唱生成器121に対してはフレームF2から使用を開始するように指定する指定情報が供給されており、歌唱生成器122に対してはフレームF4から使用を開始するように指定する指定情報が供給されている。すなわち、上記単一の音素についての指定情報と比較すると、各歌唱生成器120,121,122に対して指定する使用開始時間が前半部分(「a」の影響の強い)に集中している。このように各パートの使用開始時間をデータの前半部分に集中させることで、上記のように実際に使用するデータが音素連鎖「ia」に類似してしまうことを抑制している。
【0069】
また、上記のように指定情報が供給されている場合に、歌唱生成器121がフレームF2,F3,F4……F13,F0,F1,F2といった順序、すなわち一方向に順番に音声素片試料データを使用して歌唱音信号の生成を行うと、音素「a」の影響の強いフレームF0〜F2が本来「i」の影響を強くすべき後半部分のデータとして用いられてしまうことになる。そこで、本実施形態では、複数の音素からなる音素連鎖についての音声素片試料データを用いる場合には、最後のフレーム(F13)の後にフレームF1に戻るのではなく、フレームF12,F11……といったように逆方向に戻る順序でフレームを用いるようにしている。したがって、図7に示すように使用開始フレームが指定されている場合には、図8に示すように、歌唱生成器120は、フレームF0,F1,F2……F13といった順序、つまり音声試料データベース110に記憶されている音声素片試料データをそのまま使用して歌唱音信号の生成に用いる。また、歌唱生成器121は、フレームF2,F3,F4……F13,F12,F11といった順次で音声素片試料データ」を使用して歌唱音信号の生成を行う。さらに、歌唱生成器122は、フレームF4,F5,F6……F13,F12,F11,F10,F9といった順序の音声素片試料データを使用して歌唱音信号の生成を行う。なお、フレームF13からフレームF12といったように逆方向に戻る順序でフレームを使用する際には両者の接続部分に雑音等が生じる虞があるため、各フレームの接続部分において振幅調整処理やクロスフェード処理等を施すようにすればよい。
【0070】
複数の音素からなる音素連鎖の音声素片試料データを各歌唱生成器120,121,122で用いる場合には、以上のようにすることでより正確に音素連鎖を生成することができ、また各歌唱生成器120,121,122から出力される歌唱音信号の微細な特徴等が異なるものとなる。
【0071】
以上説明したように、第2実施形態に係る合唱合成装置400では、1つの音素あるいは音素連鎖について1つの音声素片試料データしか記憶されていなくても、1つの音声素片試料データを用いて、上記第1実施形態と同様により自然な印象を与えることが可能な合唱音信号を合成することができる。すなわち、音声試料データベース110に記憶させておくデータ量を抑制しつつ、より自然な印象を与えることが可能な合唱音信号を合成することができるのである。
【0072】
C.変形例
なお、本発明は、上述した第1および第2実施形態に限定されるものではなく、以下に例示するような種々の変形が可能である。
【0073】
(変形例1)
上述した各実施形態においては、音素あるいは音素連鎖といった単位の音声素片試料データを接続して歌唱音信号を生成するようにしているが、ビブラートといわれる歌唱表現法があり、上記各実施形態における合唱合成装置にこのビブラートによる歌唱表現を加える機能を付加するようにしてもよい。
【0074】
従来より、ビブラートによる歌唱音を電子的に発音するための歌唱音信号を生成する手法としては、上記各実施形態のように音素あるいは音素連鎖単位の音声素片試料データを接続するとともに、該接続した音声素片試料データによって表現される波形に約6Hz程度の周波数変調を付与する方法が知られている。このような方法を実施するための構成を上記各実施形態における合唱合成装置に加えるようにしてもよいが、聴取者により自然な印象を与えることが可能なビブラート歌唱音信号の生成方法として、発声者がビブラート歌唱法で歌唱した時の音声に基づいて作成したビブラート音声試料データを用いる方法があり、この方法を実施するための構成を上記各実施形態に係る合唱合成装置に付加することが好ましい。
【0075】
以下、図9を参照しながら、発声者のビブラート歌唱音声に基づいて作成したビブラート音声試料データを用いて歌唱音信号を生成する機能を上記第1実施形態における合唱合成装置に付加した場合を例に挙げて説明する。
【0076】
同図に示すように、この合唱合成装置100’における音声試料データベース110には、上記音声試料データ群110a,110b,110cといった音素あるいは音素連鎖を単位とした音声素片試料データに加え、ビブラート歌唱時の歌唱音声に基づいて作成されたビブラート音声試料データが記憶されている。ここで、音声試料データベース110には、各々異なる音声に基づいて作成された3つのビブラート音声試料データBDa,BDb,BDcが記憶されている。
【0077】
この構成の下、合唱制御部140は、上述した第1実施形態と同様、各歌唱生成器120,121,122に各パートの歌詞情報およびメロディ情報と、使用する音声試料データ群を指定する指定情報とに加え、3つのビブラート音声試料データBDa,BDb,BDcのいずれを使用するかを指定する第2の指定情報を供給するようになっている。ここで、各歌唱生成器120,121,122に供給される第2の指定情報は、異なるビブラート音声試料データを使用するように指定する情報である。このような第2の指定情報を各歌唱生成器120,121,122に供給することによって、各歌唱生成器120,121,122はビブラート歌唱音信号を生成する際に各々異なるビブラート音声試料データを読み出し、上記実施形態と同様に接続した音声素片試料データによって表現される音声波形に、読み出したビブラート音声試料データによって表現される波形を重ね、重ね合わせた波形信号を歌唱音信号として出力する。
【0078】
このようにビブラート歌唱音信号を生成する際に、各歌唱生成器120,121,122が異なる音声に基づいて作成された3つのビブラート音声試料データBDa,BDb,BDcを各パート毎に使い分けることにより、生成されるビブラート歌唱音信号の微細な特徴(ビブラート時の周波数の変動具合等)も各パート毎に異なったものとなる。このようにビブラート歌唱音の各パート毎の相関関係がほとんどなく、各々のパートが固有の特徴を持つことになるため、当該合唱合成装置100’によって合成された合唱音信号に基づいた歌唱音のビブラート部分を聴いた聴取者に対して、より自然な印象を与えることが可能となる。
【0079】
ところで、合唱音において各パートのビブラート部分の特徴が基本的に同一であることは、聴取者にとって他の部分の特徴が同一である場合よりも不自然な印象を与えるものである。したがって、ビブラート部分だけでも各パート毎に固有の特徴を付与した装置が要望されることもあり得る。このような場合には、上記各実施形態のように音素あるいは音素連鎖についての音声試料データは、各パートで同一のものをそのまま使用して歌唱音信号を生成し、生成した歌唱音信号に各パート毎に異なるビブラート音声試料データによって表現される波形を加算してビブラート効果を付与するようにしてもよい。
【0080】
(変形例2)
また、図9に示すように、各歌唱生成器120,121,122の数に対応して3つのビブラート音声試料データを用いるようにしてもよいが、図10に示す合唱歌合成装置400’のように、歌唱生成器120,121,122が同一のビブラート音声試料データを用いてビブラート部分の歌唱音信号を生成するようにしてもよい。
【0081】
上述した実施形態で説明したように歌唱生成器120,121,122は、音声試料データ群110a,110b,110cを使い分けることにより各々異なる固有の特徴を有する歌唱音信号を生成することができるので、このように生成した歌唱音信号に同一のビブラート音声試料データによって表現される波形を加算しても、各々の歌唱生成器120,121,122から出力されるビブラート部分の歌唱音信号は固有の特徴を有したものとなる。したがって、単純に1つのビブラート音声試料データを各歌唱生成器120,121,122が用いるようにしてもよいが、ビブラート音声試料データについても、上記第2実施形態において各歌唱生成器120,121,122による音声素片試料データの使用方法として説明したように、各々の歌唱生成器120,121,122が同一のビブラート音声試料データの異なる時間に対応する部分から使用を開始するようにしてもよい。この場合、合唱制御部140がどの時間に対応する部分から使用を開始するかを指定する指定情報を各歌唱生成器120,121,122に供給するようにすればよい。このようにすることで、各歌唱生成器120,121,122がビブラート付与のために用いる実際の音声試料データは異なる特徴を有するものとなる。したがって、各々のパートのビブラート部分の歌唱音信号が固有の特徴を有するものとなり、当該合唱合成装置400’によって合成された合唱音信号に基づいた歌唱音のビブラート部分を聴いた聴取者に対して、より自然な印象を与えることが可能となる。
【0082】
(変形例3)
また、上記変形例においては、生成する歌唱音信号にビブラート効果を付与するために音声試料データベース110にビブラート音声試料データを記憶させておくようにしていたが、ビブラート以外のトレモロ、ポルタメント等の種々の歌唱法による歌唱音を電子的に放音するために、発声者によるトレモロ部分の歌唱音声や、ポルタメント部分の歌唱音声に基づいて作成した音声試料データを音声試料データベース110に記憶させておくようにしてもよい。この場合にも、上述した変形例におけるビブラート音声試料データと同様、各パート毎に音声試料データを用意しておいたり、同じ音声試料データであっても異なる時間に対応した部分から使用を開始したりすることにより、各パートのトレモロやポルタメント部分の歌唱音信号に固有の特徴を持たせることができる。
【0083】
(変形例4)
また、上述した第1実施形態では、3つの音声試料データ群110a,110b,110cを音声試料データベース110に記憶させるようにしていたが、高音、中音、低音といったように異なるピッチの音声に基づいて、各音声試料データ群110a,110b,110cに含まれる音声素片試料データを作成するようにしてもよい。例えば、高音の音声に基づいて作成した音声素片試料データは音声試料データ群110aに含ませるようにし、中音の音声に基づいて作成した音声素片試料データは音声試料データ群110bに含ませるようにし、低音の音声に基づいて作成した音声素片試料データを音声試料データ群110cに含ませるようにしてもよい。
【0084】
このように各音域毎に作成された音声試料データ群110a,110b,110cを記憶した音声試料データベース110を用いる場合、合唱制御部140は、楽曲情報に含まれる複数のパートのうち、高音域のメロディからなるパートの歌唱音信号の生成を担当する歌唱生成器に対し、高音の音声に基づいて作成した音声試料データ群110aを用いるように指定する指定情報を出力する。また、中音域のメロディからなるパートの歌唱音信号の生成を担当する歌唱生成器に対し、中音の音声に基づいて作成した音声試料データ群110bを用いるように指定する指定情報を出力し、さらに低音域のメロディからなるパートの歌唱音信号の生成を担当する歌唱生成器に対し、低音の音声に基づいて作成した音声試料データ群110cを用いるように指定する指定情報を出力する。これにより各歌唱生成器120,121,122は、各々が担当するパートの歌唱音信号の生成により好適な音声素片試料データを用いることができ、より高品位の歌唱音信号を生成することができる。
【0085】
なお、上記のようにある楽曲に対応する歌唱音信号の生成時には各歌唱生成器120,121,122が使用する音声試料データ群110a,110b,110cを固定するようにしてもよいが、各パート毎にメロディ情報によって決定される各パート毎のピッチの高低が時間毎に変化することも考えられる。この場合には、ある1つの楽曲の歌唱音信号を生成する際に、各パート毎のメロディ情報によって決定される各パート毎のピッチに高低に応じて合唱制御部140が各歌唱生成器120,121,122に対して指定する音声試料データ群を楽曲の途中で逐次変更するような指定情報を出力するようにしてもよい。
【0086】
(変形例5)
また、上述した変形例では、異なるピッチ毎の音声に基づいて作成した音声試料データ群110a,110b,110cを音声試料データベース110に記憶させるようにしていたが、歌唱時には同じ音韻を発声している間にピッチが大きく変動することもある。したがって、音声試料データベース110に、同じ音韻、例えば「a」を発声している間にピッチ(音高)を変動させて発した音声に基づいて音声素片試料データを作成し、該音声素片試料データを音声試料データベース110に記憶させるようにしてもよい。このように音声試料データベース110には、上述した各実施形態において説明した同一ピッチの音素あるいは音素連鎖だけではなく、歌唱時に起こりうる様々なピッチ変動等を考慮して音声素片試料データを作成しておくようにしてもよい。
【0087】
(変形例6)
また、上述した第1実施形態では、音声試料データベース110に記憶されている音声試料データ群110a,110b,110cを各歌唱生成器120,121,122が使い分けて用い、第2実施形態では、同一の音声素片試料データを異なる時間に対応する部分から使用を開始することにより、より自然な印象を与えることが可能な合唱音信号を合成していた。このような第1および第2実施形態に係る合唱合成装置に、音声試料データベース110から読み出した音声素片試料データに示される何らかの値(すなわち音を決定付けるパラメータ)を各歌唱生成器120,121,122毎に変更してから供給するパラメータ変更手段を設けるようにしてもよい。このようなパラメータ変更手段を上記第1実施形態に係る合唱合成装置に付加した場合の構成を図11に示す。
【0088】
同図に示すように、この合唱合成装置100”は、上記第1実施形態における合唱合成装置100の構成に加え、各歌唱生成器120,121,122に対応して設けられるパラメータ変更部220,221,222を備えている。この構成の下、合唱制御部140は、上述した第1実施形態と同様、歌唱生成器120,121,122に各パートの歌詞情報およびメロディ情報と、どの音声試料データ群を使用するかを指定する指定情報を出力するとともに、パラメータ変更部220,221,222の各々に対してパラメータの変更内容を示す変更情報を出力する。ここで、合唱制御部140は、音声試料データベース110から読み出した音声素片試料データに対して各々異なる内容の変更が施されるような変更情報を各パラメータ変更部220,221,222に出力する。
【0089】
パラメータ変更部220,221,222は、対応する歌唱生成器120,121,122が必要とする音声素片試料データを指定情報に示される音声試料データ群の中から読み出し、合唱制御部140から供給される変更情報にしたがって読み出した音声素片試料データを変更する。そして、変更後の音声素片試料データが対応する歌唱生成器120,121,122に供給する。そして、各歌唱生成器120,121,122が変更後の音声素片試料データを用いて歌唱音信号を生成する。
【0090】
ここで、パラメータ変更部220,221,222が音声試料データベース110から読み出した音声素片試料データに対して行う変更処理の内容としては、音韻性を損なわない程度に音色等を変更する処理であれば種々の変更処理を適用することができる。例えば、音声試料データベース110から読み出したある音声素片試料データによって表現される音声のフォルマント構造をモデル化し、フォルマントのバンド幅を数%変更したり、バンドの中心周波数を10Hz程度シフトする等によって音色を微妙に変更する方法がある。この場合、変更するフォルマントのバンド幅の割合や、バンドの中心周波数のシフトする量を各パラメータ変更部220,221,222毎に異なる値とすることにより、各パラメータ変更部220,221,222によって読み出された音声素片試料データに示される音声の音色が微妙に異なるものとなる。
【0091】
(変形例7)
また、上述した各実施形態において、各歌唱生成器120,121,122によって生成された合唱音がより自然な印象を聴取者に与えるために、各パート毎に生成された歌唱音信号による歌唱音の発音タイミングをずらすようにしてもよい。この場合、合唱制御部140が各パートに対して発音タイミングをどの程度ずらすかを指定するタイミング指定情報を供給する。この際、合唱制御部140は、各歌唱生成器120,121,122での発音タイミングが微妙にずれるようなタイミング指定情報を各歌唱生成器120,121,122に供給する。例えば、歌唱生成器120に対しては、合唱制御部140から供給される歌詞情報およびメロディ情報にしたがって生成した歌唱音信号を遅延させることなく加算器130に出力させ、歌唱生成器121に対しては、10msec遅延させて歌唱音信号を加算器130に出力させ、歌唱生成器122に対しては20msec遅延させて歌唱音信号を加算器130に出力させるようにすれば、各パートの歌唱音が微妙にずれて発音され、聴取者に対してより自然な印象を与えることができる。
【0092】
なお、上記のようにある1つの楽曲の歌唱音信号を生成している際に、各歌唱生成器120,121,122の発音タイミングの相関関係を固定するようにしてもよいが、ある楽曲の途中であっても歌唱生成器120,121,122の発音タイミングの相関関係を変動させるようにしてもよい。例えば楽曲の前半部分では、上記例のように歌唱生成器120,121,122といった順序で発音するようにし、楽曲の後半部分では歌唱生成器122,121,120といった順序で発音するようにしてもよい。
【0093】
(変形例8)
また、上述した第1実施形態では、歌唱生成器120,121,122の数(3つ)に応じた種類の音声試料データ群を音声試料データベース110に記憶させるようにしていたが、歌唱生成器の数よりも多い種類の音声試料データ群を記憶させるようにしてもよい。
【0094】
また、歌唱生成器120,121,122といった3つの歌唱生成器を備えている場合に、音声試料データベース110に2つの音声試料データ群110a,110bしか記憶されていない場合には、少なくとも2つの歌唱生成器が異なる音声試料データ群110a,110bを用いて歌唱音信号を生成するようにすればよい。この場合には、歌唱生成器120が音声試料データ群110aを用い、歌唱生成器121が音声試料データ群110bを用い、歌唱生成器122が音声試料データ群110a,110bのいずれかを歌唱生成器120,121と異なる時間に対応する部分から使用を開始すれば、3つの歌唱生成器120,121,122が実際には異なる音声素片試料データを用いて歌唱音信号を生成することになり、上記各実施形態と同様、自然な印象を与えることが可能な合唱音信号を合成することができる。
【0095】
(変形例9)
上述した各実施形態および変形例における合唱合成装置は、専用のハードウェア回路で構成するようにしてもよいが、図12に示すようなコンピュータシステムによるソフトウェアによって構成するようにしてもよい。同図に示すように、このコンピュータシステムは、装置全体を制御するCPU(Central Processing Unit)320、各種制御データやプログラム群を記憶するROM(Read Only Memory)321、ワークエリアとして使用されるRAM(Random Access Memory)322、楽曲情報やプログラム群を記憶するハードディスクやCD−ROM(Compact Disc Read Only Memory)ドライブ等の外部記憶装置323、キーボードやマウス等の操作部324、各種情報をユーザに表示する表示部325、D/A変換器326、アンプ327、スピーカ328を備えている。
【0096】
CPU320は、ROM321もしくはハードディスク等の外部記憶装置323に記憶されているプログラム群にしたがって、音声試料データベース110をRAM322もしくは外部記憶装置323に構築し、音声試料データベース110を用いて上記各実施形態や変形例と同様に各パート毎の歌唱音信号合成処理を行う。そして、CPU320は、生成した各パート毎の歌唱音信号を加算した後、加算後の合唱音信号をD/A変換器326に出力する。D/A変換器326では合唱音信号がアナログ信号に変換され、該合唱音のアナログ信号アンプ327によって増幅された後、スピーカ328から放音される。
【0097】
このように上記各実施形態および変形例における合唱合成装置は、コンピュータシステムによるソフトウェアによって構成することが可能であり、上記各実施形態等と同様の合唱音合成処理をコンピュータシステムに実行させるためのプログラムの形態でユーザに提供するようにしてもよい。このようなプログラムの提供方法としては、CD−ROMやフロッピーディスク等の各種記録媒体に記憶して提供する方法や、インターネット等の通信回線を介して提供する方法等がある。
【0098】
【発明の効果】
以上説明したように、本発明によれば、より自然な印象を聴取者に与えることが可能な合唱音を合成することができる。
【図面の簡単な説明】
【図1】 本発明の第1実施形態に係る合唱合成装置の基本構成を示すブロック図である。
【図2】 前記合唱合成装置の構成要素でる音声試料データベースの作成手法を説明するための図である。
【図3】 前記合唱合成装置の構成要素である歌唱生成器の機能構成を示すブロック図である。
【図4】 本発明の第2実施形態に係る合唱合成装置の基本構成を示すブロック図である。
【図5】 第2実施形態に係る前記合唱合成装置による歌唱音信号生成方法を説明するための図である。
【図6】 第2実施形態に係る前記合唱合成装置による歌唱音信号生成方法を説明するための図である。
【図7】 第2実施形態に係る前記合唱合成装置による歌唱音信号生成方法を説明するための図である。
【図8】 第2実施形態に係る前記合唱合成装置による歌唱音信号生成方法を説明するための図である。
【図9】 第1実施形態に係る前記合唱合成装置の変形例の基本構成を示すブロック図である。
【図10】 第2実施形態に係る前記合唱合成装置の変形例の基本構成を示すブロック図である。
【図11】 第1実施形態に係る前記合唱合成装置の他の変形例の基本構成を示すブロック図である。
【図12】 前記合唱合成装置による機能をソフトウェアによって実現するためのコンピュータシステムの構成を示すブロック図である。
【符号の説明】
100、100’、100”……合唱合成装置、110……音声試料データベース、110a,110b,110c……音声試料データ群、120……歌唱生成器、121……歌唱生成器、122……歌唱生成器、130……加算器、140……合唱制御部、200……SMS分析部、201……区間切り出し部、220、221,222……パラメータ変更部、301……音声素片選択部、302……ピッチ決定部、303……継続時間長調整部、304……音声素片接続部、305……調和成分生成部、306……加算部、307……逆FFT部、308……窓掛け部、309……オーバーラップ部、400、400’……合唱合成装置。[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a chorus synthesizer that synthesizes a choral sound signal, a choral synthesis method, and a program for synthesizing a choral sound.
[0002]
[Prior art]
Conventionally, a chorus synthesizer that synthesizes a singing sound signal and produces a singing voice based on lyrics information and melody information has been proposed. As devices for synthesizing a singing sound signal in this way, various devices such as a device applying a regular speech synthesis technique have been proposed. In a singing voice synthesizing apparatus to which a rule synthesis technique is applied, voice sample data in units of phonemes or phoneme chains including a plurality of phonemes is created from voices uttered by a speaker in advance and stored in a database. The voice signal data such as phonemes required according to the lyric information is read and connected to synthesize a singing sound signal.
[0003]
By the way, in the singing sound synthesizing apparatus that synthesizes the singing sound as described above, unlike a speech synthesizing apparatus such as a text-to-speech apparatus, a usage form of electronically outputting the singing sound at the time of chorusing such as singing or singing can be considered. Therefore, development of a chorus synthesizer having a function of synthesizing a singing sound (choral sound) at the time of chorus is also being performed.
[0004]
A choir synthesizing apparatus having a function of synthesizing a chorus sound signal at the time of chorus generates a chorus sound signal by reading and connecting audio sample data based on each of the plurality of parts. Then, by superimposing and outputting the singing sound signals generated for each part, the chorus sound can be electronically output.
[0005]
[Problems to be solved by the invention]
However, in the choral synthesizer having the function of synthesizing the conventional choral sound signal, the same voice sample data is used when generating the singing sound signal according to the lyric information and the melody information for each part. Although the singing sound generated for each part has a different melody, fine features (such as pitch fluctuation) of the generated speech waveform for each part are basically the same. Therefore, the chorus sound obtained by superimposing these sounds as an unnatural chorus sound for the listener. This is considered that the listener listens to the correlation between the parts (the fine features match), giving an unnatural impression.
[0006]
In addition, when synthesizing the chorus sound signal at the time of singing, the method of simply generating and superimposing the singing sound signal for each part as described above, the same singing sound is superimposed and output, As a result, an unnatural impression is given to the listener. Therefore, in the conventional chorus sound synthesizer, when synthesizing the chorus sound signal at the time of singing, the sound generation timing of the singing sound generated for each part (the content is the same) is slightly shifted or generated for each part. By slightly shifting the pitch of the singing sound, the same singing sound was prevented from being overlaid and pronounced. However, even when the sound generation timing and pitch are slightly shifted, the fine features (fluctuations and the like) of the speech waveform generated for each part as described above are basically the same. Therefore, the chorus sound obtained by superimposing these sounds like a chorus sound unnatural for the listener.
[0007]
Japanese Patent Application Laid-Open No. 7-146695 discloses an apparatus for generating a chorus sound signal. In this apparatus, when generating a singing sound signal for each part, the pitch fluctuations that differ for each part are disclosed. A singing sound signal with components added is generated. Thus, the correlation between each part can be made small by overlapping and outputting the singing sound signal which provided the fluctuation component of a different pitch for every part. However, in the apparatus described in this publication, the pitch component added to the singing sound signal for each part is not based on human voice, but is artificially created. Although the correlation between the two becomes small, the synthesized chorus may be heard unnaturally.
[0008]
The present invention has been made in consideration of the above circumstances, and provides a choral synthesizer, a choral synthesis method, and a program capable of synthesizing a choral sound that can give a listener a more natural impression. For the purpose.
[0009]
[Means for Solving the Problems]
In order to solve the above problems, a choral synthesizer according to the present invention is a choral synthesizer that synthesizes a choral sound signal based on music data, and is a voice sample data group including a plurality of voice sample data, The voice sample data group created based on different voices For each range A database to be stored; means for generating a singing sound signal according to the music data; and a plurality of singing sound generating means used for generating the singing sound signal by reading out the required voice sample data from the database; Singing synthesis means for synthesizing a chorus sound signal from singing sound signals generated by a plurality of song generation means, and the music data is composed of a plurality of parts, and each of the plurality of song generation means is in each of the parts. When generating the corresponding singing sound signal, each of the at least two singing generation means, According to the range corresponding to each part of the song generation means The voice sample data included in the voice sample data group is read from the database and used to generate the singing sound signal.
[0010]
According to this configuration, when the singing sound signal of the part to which each singing generation unit corresponds is generated, the audio sample data created based on different sounds by at least two singing generation units is used. Here, since the voice sample data created based on different voices have different fine features and the like, the singing sound signals output from the at least two song generation means have different fine features. Therefore, since the singing sound having a unique characteristic is emitted as the singing sound corresponding to each part, a more natural impression can be given to the listener.
[0012]
According to this structure, when generating the song sound signal of the part to which each song generating unit corresponds, at least two song generating units start using the portions corresponding to different times of the voice sample data and generate them. It will be. Here, in the voice sample data having a certain length of time created based on the voice, the fine features (fluctuation of the voice waveform) are not constant during the time length, and the fine features and the like vary with time. For this reason, the singing sound signals output from the at least two singing generation means have different fine features. Therefore, since the singing sound having a unique characteristic is emitted as the singing sound corresponding to each part, a more natural impression can be given to the listener.
[0013]
Moreover, the choral synthesis method according to the present invention is a choral synthesis method for synthesizing a choral sound signal from a plurality of singing sound signals generated based on music data, and the plurality of the choral synthesizing methods according to the music data composed of a plurality of parts. When generating a singing sound signal corresponding to the part, a voice sample data group composed of a plurality of voice sample data, each created based on a plurality of different voices, For each range For reading out the voice sample data required from the database to be stored and generating the singing sound signal corresponding to at least two of the parts, for each part, Depending on the range corresponding to each part The voice sample data included in the voice sample data group is read from the database and used to generate the singing sound signal.
[0014]
Moreover, the chorus synthesis method according to another aspect of the present invention is a choral synthesis method for synthesizing a choral sound signal from a plurality of singing sound signals generated based on music data. Therefore, when generating the singing sound signal corresponding to the plurality of parts, the required voice sample data is read out from a database that stores voice sample data having a predetermined time length created based on the voice, and at least The generation of the singing sound signal corresponding to the two parts is characterized in that the singing sound signal is generated by starting the use from the part corresponding to the different time of the audio sample data read from the database.
[0015]
Further, the program according to the present invention allows a computer to generate a voice sample data group composed of a plurality of voice sample data according to music data, each created based on a plurality of different voices. For each range A means for generating the singing sound signal by reading out the voice sample data required from the database to be stored, wherein the music data is composed of a plurality of parts, and the singing sound signal corresponding to the plurality of parts is generated. Is generated for each part when generating a singing sound signal corresponding to at least two parts. Depending on the range corresponding to each part Functions as singing sound generating means for reading out the voice sample data included in the voice sample data group from the database and used to generate the singing sound signal, and as a singing sound synthesizing means for synthesizing a chorus sound signal from the generated singing sound signal. It is characterized by letting.
[0016]
According to another aspect of the present invention, there is provided a program that reads out the required voice sample data from a database that stores voice sample data having a predetermined time length created based on voice according to music data. A singing sound signal corresponding to at least two of the parts when the song data is composed of a plurality of parts and the singing sound signal corresponding to the plurality of parts is generated. Singing sound generating means for generating the singing sound signal by starting use from portions corresponding to different times of the audio sample data read from the database, and chorusing from the generated singing sound signal It is characterized by functioning as a song synthesis means for synthesizing sound signals.
[0017]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
A. First embodiment
A-1. Basic configuration of the first embodiment
First, FIG. 1 is a block diagram showing a basic configuration of a choral synthesizer according to the first embodiment of the present invention. As shown in the figure, the chorus synthesizer 100 includes a
[0018]
The
[0019]
A large number of short-time long voice sample data is accumulated in a database, and these voice sample data are connected according to the lyrics etc., and in the voice synthesis processing technology, phoneme is basically used as a synthesis unit. . For this reason, speech unit sample data of only phoneme (about 30 to 50 types) units may be stored in the
[0020]
The
[0021]
The three audio
[0022]
The
[0023]
Each of the singing
[0024]
More specifically, each of the singing
[0025]
The chorus synthesizer 100 according to the present embodiment includes three
[0026]
When the
[0027]
In addition, when the chorus synthesizer 100 synthesizes the chorus sound signal as described above, the
[0028]
Specifically, for the
[0029]
When the chorus synthesizer 100 synthesizes the singing sound signal of the chorus composed of three parts, as described above, the singing
[0030]
The speech segment sample data included in the speech
[0031]
A-2. Specific configuration of the choral synthesizer
What has been described above is the basic configuration of the choral synthesizer 100 according to the present embodiment. In this chorus synthesizer 100, as the
[0032]
First, a method for creating the
[0033]
As described above, the
[0034]
As shown in the figure, the voice uttered by the speaker to create the
[0035]
The
[0036]
First, the input voice is divided into a series of frames. Here, the frame period used for the SMS analysis may be a fixed length, or may be a variable length period in which the period is changed according to the pitch of the input speech.
[0037]
Next, frequency analysis such as Fast Fourier Transform (FFT) is performed on the voice divided into frames. An amplitude spectrum and a phase spectrum are obtained from the frequency spectrum (complex spectrum) obtained by this frequency analysis, and a spectrum of a specific frequency corresponding to the peak of the amplitude spectrum is extracted as a line spectrum. At this time, a spectrum having a frequency in the vicinity of the fundamental frequency and an integral multiple of the fundamental frequency is defined as a line spectrum. The line spectrum extracted in this way corresponds to the harmonic component described above.
[0038]
Next, a line spectrum is extracted from the input speech as described above, and a residual spectrum is obtained by subtracting the extracted line spectrum from the input speech (waveform after FFT) of the frame. Alternatively, the time waveform data of the harmonic component synthesized from the extracted line spectrum is subtracted from the input speech waveform data of the frame to obtain the time waveform data of the residual component, and then subjected to frequency analysis such as FFT. Thus, a residual spectrum may be obtained. The residual spectrum obtained in this way corresponds to the above-described anharmonic component.
[0039]
The
[0040]
The
[0041]
Here, the speech segment sample data stored in the
[0042]
SMS analysis and segmentation for such speech are performed for each of three different input speech, and as a result, speech segment sample data created based on three different speech such as speech
[0043]
The above is the detail of the production method of the
[0044]
Next, each
[0045]
As shown in the figure, the
[0046]
The speech
[0047]
The speech
[0048]
The
[0049]
The speech unit sample data (harmonic component and anharmonic component) read out by the speech
[0050]
The duration
[0051]
The
[0052]
The speech
[0053]
The harmonic
[0054]
The adding
[0055]
The above is the detailed configuration of the
[0056]
The
[0057]
B. Second embodiment
Next, a chorus synthesizer according to a second embodiment of the present invention will be described with reference to FIG. As shown in the figure, the
[0058]
Each of the singing
[0059]
Therefore, in this chorus synthesizer 400, the
[0060]
As described in the first embodiment, the speech segment sample data stored in the
[0061]
Here, the
[0062]
Each
[0063]
Hereinafter, the speech unit sample data read according to the lyrics information of the three parts is “a” of the vowel, and the speech unit sample data “a” is composed of 13 frames (
[0064]
In the example shown in FIG. 5, designation information is supplied to the
[0065]
When such designation information is supplied, as shown in FIG. 6, the
[0066]
Thus, by outputting the designation information so that the
[0067]
By the way, when using speech segment sample data for a single phoneme like the phoneme “a”, it is generated for each part by the method of simply shifting the use start time in the data as described above. It is possible to synthesize a more natural chorus sound by changing the minute characteristics of the singing sound, but in the case of speech segment sample data for a phoneme chain consisting of a plurality of phonemes, the use start time in the data is simply It may be inconvenient to simply shift the position. For example, in the case of speech sample data for a phoneme chain such as “ai”, the first half of the time domain is data that more strongly reflects the phoneme of “a”, and the second half is data that more strongly reflects the phoneme of “i”. It is. Therefore, in order to generate the singing sound signal of the phoneme chain “ai”, when the use is started from the latter half portion where the influence of the phoneme “i” is strong, data having a tendency similar to that of the phoneme chain “ia” is used. In this case, the signal for the phoneme chain “ai” to be generated cannot be generated accurately.
[0068]
Therefore, in this embodiment, when using speech segment sample data corresponding to a plurality of phoneme chains, the
[0069]
Further, when the designation information is supplied as described above, the
[0070]
In the case where the speech unit sample data of a phoneme chain composed of a plurality of phonemes is used in each
[0071]
As explained above, in the chorus synthesizer 400 according to the second embodiment, even if only one speech segment sample data is stored for one phoneme or phoneme chain, one speech segment sample data is used. As in the first embodiment, it is possible to synthesize a choral sound signal that can give a more natural impression. That is, it is possible to synthesize a chorus sound signal that can give a more natural impression while suppressing the amount of data stored in the
[0072]
C. Modified example
The present invention is not limited to the first and second embodiments described above, and various modifications as exemplified below are possible.
[0073]
(Modification 1)
In each of the embodiments described above, unit speech unit sample data such as phonemes or phoneme chains are connected to generate a singing sound signal, but there is a singing expression method called vibrato, You may make it add the function which adds the singing expression by this vibrato to a chorus synthesizer.
[0074]
Conventionally, as a method for generating a singing sound signal for electronically pronouncing a singing sound by vibrato, as in each of the above-described embodiments, the speech unit sample data of phonemes or phoneme chain units is connected, and the connection There has been known a method of applying a frequency modulation of about 6 Hz to a waveform represented by the speech segment sample data. A configuration for carrying out such a method may be added to the choir synthesizer in each of the above embodiments, but as a method of generating a vibrato singing sound signal that can give a natural impression to the listener, There is a method of using vibrato voice sample data created based on the voice when a person sings with the vibrato singing method, and it is preferable to add a configuration for carrying out this method to the chorus synthesizer according to each of the above embodiments. .
[0075]
Hereinafter, with reference to FIG. 9, an example in which a function of generating a singing sound signal using vibrato sound sample data created based on a speaker's vibrato singing sound is added to the chorus synthesizer in the first embodiment will be described. Will be described.
[0076]
As shown in the figure, in the
[0077]
Under this configuration, the
[0078]
In this way, when generating the vibrato singing sound signal, each
[0079]
By the way, the fact that the characteristics of the vibrato part of each part are basically the same in the chorus sound gives the listener a more unnatural impression than when the characteristics of the other parts are the same. Therefore, there may be a demand for an apparatus in which only the vibrato portion is given unique characteristics for each part. In such a case, as in each of the above embodiments, the voice sample data about the phoneme or the phoneme chain uses the same sound as it is in each part to generate a singing sound signal, and the generated singing sound signal A vibrato effect may be given by adding waveforms expressed by different vibrato audio sample data for each part.
[0080]
(Modification 2)
Moreover, as shown in FIG. 9, you may make it use three vibrato audio | voice sample data corresponding to the number of each song generator 120,121,122, but of choral song synthesis apparatus 400 'shown in FIG. As described above, the
[0081]
As described in the above-described embodiment, the
[0082]
(Modification 3)
Moreover, in the said modification, in order to give the vibrato effect to the song sound signal to produce | generate, the vibrato audio | voice sample data was memorize | stored, but various things, such as tremolo other than vibrato, portamento, etc. In order to electronically emit the singing sound of the singing method, the voice sample data created based on the singing voice of the tremolo part and the singing voice of the portamento part by the speaker is stored in the
[0083]
(Modification 4)
Further, in the first embodiment described above, the three audio
[0084]
When the
[0085]
The voice
[0086]
(Modification 5)
In the above-described modification, the voice
[0087]
(Modification 6)
In the first embodiment described above, the voice
[0088]
As shown in the figure, in addition to the configuration of the choral synthesizer 100 in the first embodiment, the choral synthesizer 100 ″ includes a
[0089]
The
[0090]
Here, the content of the changing process performed on the speech segment sample data read from the
[0091]
(Modification 7)
Moreover, in each embodiment mentioned above, in order for the chorus sound produced | generated by each song generator 120,121,122 to give a listener a more natural impression, the song sound by the song sound signal produced | generated for every part The sound generation timing may be shifted. In this case, the
[0092]
In addition, when generating the singing sound signal of one piece of music as described above, the correlation between the sound generation timings of the singing
[0093]
(Modification 8)
Moreover, in 1st Embodiment mentioned above, although the audio |
[0094]
Further, in the case where three song generators such as the
[0095]
(Modification 9)
The chorus synthesizer in each of the embodiments and modifications described above may be configured by a dedicated hardware circuit, but may be configured by software by a computer system as shown in FIG. As shown in the figure, this computer system includes a central processing unit (CPU) 320 that controls the entire apparatus, a read only memory (ROM) 321 that stores various control data and program groups, and a RAM (RAM) used as a work area. Random Access Memory) 322, an
[0096]
The
[0097]
As described above, the chorus synthesizer in each of the above embodiments and modifications can be configured by software using a computer system, and a program for causing a computer system to perform the same chorus sound synthesizing process as in each of the above embodiments and the like. You may make it provide to a user with the form. As a method of providing such a program, there are a method of providing it by storing it in various recording media such as a CD-ROM and a floppy disk, a method of providing it via a communication line such as the Internet, and the like.
[0098]
【The invention's effect】
As described above, according to the present invention, it is possible to synthesize a chorus sound that can give a listener a more natural impression.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a basic configuration of a choral synthesizer according to a first embodiment of the present invention.
FIG. 2 is a diagram for explaining a method of creating a voice sample database, which is a component of the choral synthesizer.
FIG. 3 is a block diagram showing a functional configuration of a song generator that is a component of the chorus synthesizer.
FIG. 4 is a block diagram showing a basic configuration of a choral synthesizer according to a second embodiment of the present invention.
FIG. 5 is a diagram for explaining a singing sound signal generation method by the chorus synthesizer according to the second embodiment.
FIG. 6 is a diagram for explaining a singing sound signal generation method by the chorus synthesizer according to the second embodiment.
FIG. 7 is a diagram for explaining a singing sound signal generation method by the chorus synthesizer according to the second embodiment.
FIG. 8 is a diagram for explaining a singing sound signal generation method by the chorus synthesizer according to the second embodiment.
FIG. 9 is a block diagram showing a basic configuration of a modified example of the choral synthesizer according to the first embodiment.
FIG. 10 is a block diagram showing a basic configuration of a modified example of the choral synthesizer according to the second embodiment.
FIG. 11 is a block diagram showing a basic configuration of another modification of the choral synthesizer according to the first embodiment.
FIG. 12 is a block diagram showing a configuration of a computer system for realizing the function of the choral synthesizer by software.
[Explanation of symbols]
100, 100 ', 100 "... chorus synthesizer, 110 ... voice sample database, 110a, 110b, 110c ... voice sample data group, 120 ... song generator, 121 ... song generator, 122 ... song Generator, 130... Adder, 140... Choral control unit, 200... SMS analysis unit, 201... Segment extraction unit, 220, 221, 222. 302...
Claims (6)
複数の音声試料データからなる音声試料データ群であって複数の異なる音声に基づいて各々作成された前記音声試料データ群を音域毎に記憶するデータベースと、
前記楽曲データにしたがって歌唱音信号を生成する手段であって、必要となる前記音声試料データを前記データベースから読み出して当該歌唱音信号の生成に用いる複数の歌唱生成手段と、
前記複数の歌唱生成手段で生成された歌唱音信号から合唱音信号を合成する歌唱合成手段とを具備し、
前記楽曲データが複数のパートからなり、前記複数の歌唱生成手段の各々が各前記パートに対応する歌唱音信号を生成する際に、少なくとも2つの前記歌唱生成手段の各々は、前記歌唱生成手段の各々のパートに対応する音域に応じた音声試料データ群に含まれる前記音声試料データを前記データベースから読み出して前記歌唱音信号の生成に用いる
ことを特徴とする合唱合成装置。A chorus synthesizer that synthesizes a choral sound signal based on music data,
A database that stores voice sample data groups each consisting of a plurality of voice sample data and each voice sample data group created based on a plurality of different voices for each sound range ;
A means for generating a singing sound signal according to the music data, wherein a plurality of singing sound generating means used for generating the singing sound signal by reading out the required voice sample data from the database;
Singing synthesis means for synthesizing a chorus sound signal from the singing sound signals generated by the plurality of song generation means,
When the music data is composed of a plurality of parts, and each of the plurality of song generation means generates a song sound signal corresponding to each of the parts, at least two of the song generation means each of the song generation means A choral synthesizer characterized in that the voice sample data included in a voice sample data group corresponding to a range corresponding to each part is read from the database and used to generate the singing sound signal.
ことを特徴とする請求項1に記載の合唱合成装置。Made before Symbol music data of a plurality of parts, when each of the plurality of singing generating means for generating a singing sound signals corresponding to each of said parts, each of at least two of said singing generating means, said singing generating means 2. The chorus synthesizer according to claim 1 , wherein the audio sample data group to be used is sequentially changed in the middle of the music in accordance with the pitch of each part determined by the melody information of each part.
前記歌唱生成手段は、前記データベースから前記楽曲データに示される歌詞に対応した音声試料データを読み出して接続し、接続した音声試料データを前記楽曲データに示されるピッチに応じて調整して歌唱音信号を生成する
ことを特徴とする請求項1又は2に記載の合唱合成装置。Voice pre-SL database, phonemes, or an audio sample data for the voice segment is phoneme is a chain of two or more phonemes, which was created based on a plurality of different audio for the same phoneme or phoneme It stores sample data,
The singing generation means reads out and connects voice sample data corresponding to the lyrics shown in the music data from the database, adjusts the connected voice sample data according to the pitch shown in the music data, and sings sound signal chorus synthesizing apparatus according to claim 1 or 2, characterized in that to produce a.
前記歌唱生成手段は、ビブラート部分の歌唱音信号を生成する際に、前記データベースに記憶されている前記ビブラート音声試料データを読み出して用いる
ことを特徴とする請求項1ないし3のいずれかに記載の合唱合成装置。 Before SL database, an audio sample data, each created on the basis of a plurality of different audio stores a vibrato sound sample data indicating characteristics of vibrato part of speech,
The singing generating means, when generating a singing sound signal vibrato part, according to any one of claims 1 to 3, characterized in that use reads the vibrato voice sample data stored in said database Choral synthesizer.
複数のパートからなる前記楽曲データにしたがって前記複数のパートに対応する歌唱音信号を生成する際には、複数の音声試料データからなる音声試料データ群であって複数の異なる音声に基づいて各々作成された音声試料データ群を音域毎に記憶するデータベースから必要となる前記音声試料データを読み出し、
少なくとも2つの前記パートに対応する歌唱音信号の生成には、該パート毎に、各々のパートに対応する音域に応じた音声試料データ群に含まれる前記音声試料データを前記データベースから読み出して前記歌唱音信号の生成に用いる
ことを特徴とする合唱合成方法。A chorus synthesis method for synthesizing a choral sound signal from a plurality of singing sound signals generated based on music data,
When generating a singing sound signal corresponding to the plurality of parts according to the music data consisting of a plurality of parts, a voice sample data group consisting of a plurality of voice sample data each created based on a plurality of different sounds Read out the required voice sample data from a database that stores the voice sample data group for each sound range ,
For generating the singing sound signal corresponding to at least two parts, for each part, the voice sample data included in the voice sample data group corresponding to the range corresponding to each part is read from the database and the singing is performed. A chorus synthesis method characterized by being used to generate a sound signal.
楽曲データにしたがって、複数の音声試料データからなる音声試料データ群であって複数の異なる音声に基づいて各々作成された音声試料データ群を音域毎に記憶するデータベースから必要となる前記音声試料データを読み出して歌唱音信号を生成する手段であって、前記楽曲データが複数のパートからなり、前記複数のパートに対応する歌唱音信号を生成する場合には、少なくとも2つの前記パートに対応する歌唱音信号の生成の際に、該パート毎に各々のパートに対応する音域に応じた音声試料データ群に含まれる前記音声試料データを前記データベースから読み出して前記歌唱音信号の生成に用いる歌唱音生成手段と、
前記生成された歌唱音信号から合唱音信号を合成する歌唱合成手段
として機能させるためのプログラム。The computer,
In accordance with the music data, the audio sample data group composed of a plurality of sound sample data, and the sound sample data required from a database for storing the sound sample data groups respectively created based on a plurality of different sounds for each sound range. A means for reading and generating a singing sound signal, wherein the music data comprises a plurality of parts, and when generating a singing sound signal corresponding to the plurality of parts, the singing sound corresponding to at least two of the parts When generating a signal, the singing sound generating means for reading out the voice sample data included in the voice sample data group corresponding to the range corresponding to each part for each part from the database and generating the singing sound signal When,
The program for functioning as a song synthesis | combination means which synthesize | combines a chorus sound signal from the said produced | generated song sound signal.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002235039A JP4304934B2 (en) | 2002-08-12 | 2002-08-12 | CHORAL SYNTHESIS DEVICE, CHORAL SYNTHESIS METHOD, AND PROGRAM |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002235039A JP4304934B2 (en) | 2002-08-12 | 2002-08-12 | CHORAL SYNTHESIS DEVICE, CHORAL SYNTHESIS METHOD, AND PROGRAM |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008312209A Division JP4844623B2 (en) | 2008-12-08 | 2008-12-08 | CHORAL SYNTHESIS DEVICE, CHORAL SYNTHESIS METHOD, AND PROGRAM |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004077608A JP2004077608A (en) | 2004-03-11 |
JP4304934B2 true JP4304934B2 (en) | 2009-07-29 |
Family
ID=32019670
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002235039A Expired - Fee Related JP4304934B2 (en) | 2002-08-12 | 2002-08-12 | CHORAL SYNTHESIS DEVICE, CHORAL SYNTHESIS METHOD, AND PROGRAM |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4304934B2 (en) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4207902B2 (en) | 2005-02-02 | 2009-01-14 | ヤマハ株式会社 | Speech synthesis apparatus and program |
JP4645241B2 (en) * | 2005-03-10 | 2011-03-09 | ヤマハ株式会社 | Voice processing apparatus and program |
JP2006337468A (en) * | 2005-05-31 | 2006-12-14 | Brother Ind Ltd | Device and program for speech synthesis |
JP2009025328A (en) * | 2007-07-17 | 2009-02-05 | Oki Electric Ind Co Ltd | Speech synthesizer |
JP5223433B2 (en) * | 2008-04-15 | 2013-06-26 | ヤマハ株式会社 | Audio data processing apparatus and program |
JP6492933B2 (en) * | 2015-04-24 | 2019-04-03 | ヤマハ株式会社 | CONTROL DEVICE, SYNTHETIC SINGING SOUND GENERATION DEVICE, AND PROGRAM |
CN112420004A (en) * | 2019-08-22 | 2021-02-26 | 北京峰趣互联网信息服务有限公司 | Method and device for generating songs, electronic equipment and computer readable storage medium |
CN111063364B (en) * | 2019-12-09 | 2024-05-10 | 广州酷狗计算机科技有限公司 | Method, apparatus, computer device and storage medium for generating audio |
-
2002
- 2002-08-12 JP JP2002235039A patent/JP4304934B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2004077608A (en) | 2004-03-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10008193B1 (en) | Method and system for speech-to-singing voice conversion | |
JP3985814B2 (en) | Singing synthesis device | |
JP4207902B2 (en) | Speech synthesis apparatus and program | |
JP3333022B2 (en) | Singing voice synthesizer | |
CN109952609B (en) | Sound synthesizing method | |
EP1701336B1 (en) | Sound processing apparatus and method, and program therefor | |
JP4153220B2 (en) | SINGLE SYNTHESIS DEVICE, SINGE SYNTHESIS METHOD, AND SINGE SYNTHESIS PROGRAM | |
JP3287230B2 (en) | Chorus effect imparting device | |
Schnell et al. | Synthesizing a choir in real-time using Pitch Synchronous Overlap Add (PSOLA). | |
Huang et al. | A Research of Automatic Composition and Singing Voice Synthesis System for Taiwanese Popular Songs | |
JP3711880B2 (en) | Speech analysis and synthesis apparatus, method and program | |
JP4844623B2 (en) | CHORAL SYNTHESIS DEVICE, CHORAL SYNTHESIS METHOD, AND PROGRAM | |
JP4304934B2 (en) | CHORAL SYNTHESIS DEVICE, CHORAL SYNTHESIS METHOD, AND PROGRAM | |
JP3966074B2 (en) | Pitch conversion device, pitch conversion method and program | |
TW201027514A (en) | Singing synthesis systems and related synthesis methods | |
JP6171393B2 (en) | Acoustic synthesis apparatus and acoustic synthesis method | |
JP4349316B2 (en) | Speech analysis and synthesis apparatus, method and program | |
JP4433734B2 (en) | Speech analysis / synthesis apparatus, speech analysis apparatus, and program | |
JP4300764B2 (en) | Method and apparatus for synthesizing singing voice | |
JP2022065554A (en) | Method for synthesizing voice and program | |
JP5106437B2 (en) | Karaoke apparatus, control method therefor, and control program therefor | |
WO2022080395A1 (en) | Audio synthesizing method and program | |
JP2005195968A (en) | Pitch converting device | |
JP6822075B2 (en) | Speech synthesis method | |
Uchida | A practical method for generating whispers from singing voices: Application of improved phantom silhouette method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050224 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070529 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070605 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070806 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20081007 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081208 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20081215 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090407 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090420 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120515 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130515 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140515 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |