JP2011242465A - Speech element database creating device, alternative speech model creating device, speech synthesizer, speech element database creating method, alternative speech model creating method, program - Google Patents
Speech element database creating device, alternative speech model creating device, speech synthesizer, speech element database creating method, alternative speech model creating method, program Download PDFInfo
- Publication number
- JP2011242465A JP2011242465A JP2010112373A JP2010112373A JP2011242465A JP 2011242465 A JP2011242465 A JP 2011242465A JP 2010112373 A JP2010112373 A JP 2010112373A JP 2010112373 A JP2010112373 A JP 2010112373A JP 2011242465 A JP2011242465 A JP 2011242465A
- Authority
- JP
- Japan
- Prior art keywords
- label
- diphone
- speech
- phone
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
この発明は、人間が発声した音声を記録した音声波形データベースから、テキスト音声合成技術に用いることができる音声素片データベースを作成する音声素片データベース作成装置に関する。 The present invention relates to a speech segment database creation device that creates a speech segment database that can be used in a text speech synthesis technique from a speech waveform database that records speech uttered by a human.
音素、音節、あるいは音韻連鎖といった単語より短い単位の音声を音声合成単位として、この音声合成単位を連結して合成音声を生成する技術が知られている。音声合成単位は発声者が文リストを読み上げた音声を記録した音声波形データベースより収集する。音声合成単位として以下が知られている(非特許文献1、2参照)。
2. Description of the Related Art There is known a technique for generating synthesized speech by connecting speech synthesis units using speech units shorter than words such as phonemes, syllables, or phonological chains as speech synthesis units. The speech synthesis unit is collected from the speech waveform database that records the speech that the speaker has read out the sentence list. The following are known as speech synthesis units (see Non-Patent
音素単位:母音(Vowel)、子音(Consonant)を音声合成単位とする。収集しなければならない音声合成単位の総数が少なくて済む。しかし、音声の調音結合情報が含まれていないため、合成音声の音質は低い。 Phoneme units: Vowels and consonants are used as speech synthesis units. The total number of speech synthesis units that must be collected is small. However, since the sound articulation combination information is not included, the sound quality of the synthesized speech is low.
音節(CV)単位:子音(Consonant)と母音(Vowel)の組み合わせを音声合成単位とする。日本語の音節に適しており、子音から母音に変化する際の調音結合が保存されている。収集しなければならない音声合成単位の総数が少なくて済む。しかし音節(CV)単位前後の調音結合情報が含まれていないため、やはり合成音声の音質は低い。 Syllable (CV) unit: A combination of consonant and vowel is used as a speech synthesis unit. It is suitable for Japanese syllables, and preserves articulation combinations when changing from consonants to vowels. The total number of speech synthesis units that must be collected is small. However, the tone quality of the synthesized speech is still low because the articulation combination information around the syllable (CV) unit is not included.
ダイフォン単位:CV、VC、VVなど、2個の音素の組み合わせを音声合成単位とする。音声合成単位間の連結は音素の中心部にて行われる。日本語に出現する全ての調音結合情報を含んでいるため、音節(CV)単位よりも必要な音声合成単位の総数が多くなるが、合成音声は高品質となる。 Diphone unit: A combination of two phonemes such as CV, VC, and VV is used as a speech synthesis unit. Connection between speech synthesis units is performed at the center of phonemes. Since all the articulation combination information appearing in Japanese is included, the total number of necessary speech synthesis units is larger than the syllable (CV) unit, but the synthesized speech has high quality.
音素単位とダイフォン単位とを併用する方法(非特許文献3参照):母音同士を連結する場合にはダイフォン単位を音声合成単位に用いるが、それ以外の連結には音素単位を用いる。ダイフォン単位を用いる場合には、音声合成単位間の連結は音素の中心部にて行われる。音素単位を用いる場合には、音声合成単位間の連結は音素の境界部にて行われる。母音同士を連結する場合には、音素中心部において連結するほうが音素境界部において連結する場合よりもなめらかな音声合成結果が得られる。したがってこの方法によれば、音素境界部と音素中心部のうち、より滑らかに連結することができる連結点において、合成音声単位を連結することができる。音素単位のみを音声合成単位とする場合よりも自然な合成が可能であり、合成音声は高品質となる。しかし、音声合成時の素片探索処理量が大きいという問題がある。 A method of using a phoneme unit and a diphone unit in combination (see Non-Patent Document 3): When connecting vowels, a diphone unit is used as a speech synthesis unit, but a phoneme unit is used for other connections. When diphone units are used, the speech synthesis units are connected at the center of the phoneme. When phoneme units are used, the speech synthesis units are connected at the phoneme boundary. When vowels are connected, a smoother speech synthesis result is obtained when connecting at the phoneme center than when connecting at the phoneme boundary. Therefore, according to this method, the synthesized speech units can be connected at a connection point where the phoneme boundary part and the phoneme center part can be connected more smoothly. More natural synthesis is possible than when only phoneme units are used as speech synthesis units, and the synthesized speech has high quality. However, there is a problem in that the amount of segment search processing during speech synthesis is large.
この他に、環境付音素(トライフォン)や、合成の都度音声コーパスから適切な音声合成単位を選択する、可変長合成単位などが提案されている。 In addition to this, a variable length synthesis unit for selecting an appropriate speech synthesis unit from a speech phone with environment (triphone) or a speech corpus for each synthesis has been proposed.
ダイフォン単位を音声合成単位として用いれば、音節(CV)単位を音声合成単位として用いた場合と比較して必要な音声合成単位の総数がそれほど多くはならずに、品質の良い合成音声を得ることができる。しかしながら発声者が文リストを読み上げた音声を記録した音声波形データベースから、ダイフォン単位による音声合成に必要な音声合成単位を収集する場合、前記文リストの規模が十分でなく、音声波形データベースから必要な全ての音声合成単位を収集できない場合がある。この場合には、必要な全ての音声合成単位を音声モデルとして保有する音声素片データベースを作成することができず、この不完全な音声素片データベースによっては、音声の欠落なしに合成音声を作成することができない。 If the diphone unit is used as the speech synthesis unit, the total number of required speech synthesis units is not so much compared with the case where the syllable (CV) unit is used as the speech synthesis unit, and high-quality synthesized speech can be obtained. Can do. However, when collecting speech synthesis units necessary for speech synthesis in units of diphones from a speech waveform database that records the speech that the speaker has read out the sentence list, the scale of the sentence list is not sufficient and is necessary from the speech waveform database. It may not be possible to collect all speech synthesis units. In this case, it is not possible to create a speech segment database that holds all necessary speech synthesis units as speech models. Depending on this incomplete speech segment database, synthesized speech can be created without missing speech. Can not do it.
前述の音素単位とダイフォン単位とを併用する方法によれば、ダイフォン単位による音声合成に必要な音声合成単位は母音同士の連結に限られるため、音声合成単位の総数が少なくて済む。従って前記文リストが小規模であっても、必要な全ての音声合成単位を得ることは容易である。しかしながら、音声合成時の素片探索の範囲が広がることにより、素片探索処理量が大きくなってしまう。 According to the above-described method using both phoneme units and diphone units, the total number of speech synthesis units can be reduced because the speech synthesis unit necessary for speech synthesis by diphone units is limited to the connection of vowels. Therefore, even if the sentence list is small, it is easy to obtain all necessary speech synthesis units. However, since the range of segment search at the time of speech synthesis is expanded, the segment search processing amount is increased.
本発明では、音声波形データベースから必要な全ての音声モデルを生成できなかった場合に、代替音声モデルを生成して完全な音声素片データベースを生成することができる音声素片データベース作成装置が提供される。本発明の音声素片データベース作成装置は、音素−ダイフォン区間変換部と、音声パラメータ系列変換部と、音声モデル生成部と、欠落ダイフォンラベル出力部と、ハーフフォン生成部と、代替音声モデル生成部とを備える。 According to the present invention, there is provided a speech unit database creation device capable of generating a substitute speech model and generating a complete speech unit database when all necessary speech models cannot be generated from the speech waveform database. The The speech segment database creation device of the present invention includes a phoneme-diphone section converter, a speech parameter series converter, a speech model generator, a missing diphone label output unit, a half phone generator, and an alternative speech model generator. A part.
前記音素−ダイフォン区間変換部は、音素区間長さごとに音素ラベルを付与された音声波形データを入力とし、任意の隣り合う二つの音素区間のうち先の音素区間の後半部と、後の音素区間の前半部とを連結してダイフォン区間とし、当該先の音素区間の音素ラベルと当該後の音素区間の音素ラベルとを連結してダイフォンラベルとし、当該ダイフォン区間と当該ダイフォンラベルとを対応付けて出力する。 The phoneme-diphone section conversion unit receives speech waveform data to which a phoneme label is assigned for each phoneme section length, and inputs the latter half of the preceding phoneme section and the subsequent phonemes of any two adjacent phoneme sections. The first half of the section is connected to form a diphone section, the phoneme label of the previous phoneme section and the phoneme label of the subsequent phoneme section are connected to form a diphone label, and the diphone section and the diphone label are Output in association.
前記音声パラメータ系列変換部は、前記音声波形データと前記ダイフォンラベルと前記ダイフォン区間とを入力とし、前記音声波形データをダイフォン区間ごとに、一定のフレーム長ごとに音声パラメータに変換し、ダイフォン区間ごとの音声パラメータの列を音声パラメータ系列とし、当該音声パラメータ系列を当該ダイフォン区間と対応付けて出力する。 The speech parameter series conversion unit receives the speech waveform data, the diphone label, and the diphone section, and converts the speech waveform data into speech parameters for each diphone section and for each fixed frame length. Each voice parameter column is set as a voice parameter series, and the voice parameter series is output in association with the diphone section.
前記音声モデル生成部は、前記音声パラメータ系列と前記ダイフォンラベルと前記ダイフォン区間とを入力とし、ダイフォン区間ごとに、ダイフォン区間に対応付けられた音声パラメータ系列のうちから1以上の音声パラメータを選択して代表パタンとし、当該代表パタンよりなる音声モデルを生成し、当該ダイフォン区間と対応付いたダイフォンラベルと、当該音声モデルとを対応付けて出力する。 The voice model generation unit receives the voice parameter series, the diphone label, and the diphone section, and selects one or more voice parameters from the voice parameter series associated with the diphone section for each diphone section. As a representative pattern, a voice model composed of the representative pattern is generated, and a diphone label associated with the diphone section and the voice model are output in association with each other.
前記欠落ダイフォンラベル出力部は、前記ダイフォンラベルと、定義済ダイフォンラベルリストとを入力とし、前記定義済ダイフォンラベルリストに存在するが、前記ダイフォンラベルとして入力されていないダイフォンラベルを欠落ダイフォンラベルとして出力する。 The missing diphone label output unit receives the diphone label and a defined diphone label list, and is present in the defined diphone label list but is not input as the diphone label. Is output as a missing diphone label.
前記ハーフフォン生成部は、前記音声モデルと前記ダイフォンラベルとを入力とし、前記音声モデルを前半部と後半部に分割して双方をハーフフォンとし、当該分割された音声モデルと対応付いたダイフォンラベルの前半部をハーフフォンラベルとして、当該分割された音声モデルの前半部からなるハーフフォンと対応付けて出力し、当該分割された音声モデルと対応付いたダイフォンラベルの後半部をハーフフォンラベルとして、当該分割された音声モデルの後半部からなるハーフフォンと対応付けて出力する。 The half phone generation unit receives the voice model and the diphone label as input, divides the voice model into a first half and a second half to make both half phones, and a die associated with the divided voice model. The first half of the phone label is set as a half phone label and output in association with the half phone consisting of the first half of the divided voice model, and the second half of the diphone label associated with the divided voice model is half phone. As a label, it is output in association with a half phone comprising the latter half of the divided speech model.
前記代替音声モデル生成部は、前記ハーフフォンと、前記ハーフフォンラベルと、前記欠落ダイフォンラベルとを入力とし、任意の欠落ダイフォンラベルの前半部と同一もしくは類似のハーフフォンラベルと対応付いたハーフフォンと、当該欠落ダイフォンラベルの後半部と同一もしくは類似のハーフフォンラベルと対応付いたハーフフォンとを連結し、代替音声モデルとして出力する。 The alternative speech model generation unit inputs the half phone, the half phone label, and the missing diphone label, and associates the half phone label with the same or similar half phone label as the first half of any missing diphone label. The half phone and the half phone associated with the same or similar half phone label as the latter half of the missing diphone label are connected and output as an alternative voice model.
これらにより、ハーフフォンを連結して代替音声モデルを生成するため、音声波形データベースから必要な全ての音声モデルを生成できなかった場合にも、完全な音声素片データベースを生成することができ、当該音声素片データベースを用いて、音声の欠落がない合成音声を作成することができる。また、音声素片データベース作成時にあらかじめ適切な代替音声モデルを生成しておくため、素片探索処理量の増大を避けることができる。 As a result, half phone is connected to generate an alternative speech model, so that even if all required speech models cannot be generated from the speech waveform database, a complete speech unit database can be generated, Using the speech segment database, synthesized speech with no missing speech can be created. In addition, since an appropriate alternative speech model is generated in advance when the speech unit database is created, an increase in the amount of segment search processing can be avoided.
また、本発明の音声素片データベース作成装置における代替音声モデル生成部は、任意の欠落ダイフォンラベルの前半部と同一のハーフフォンラベルと対応付いたハーフフォンと、当該欠落ダイフォンラベルの後半部と同一のハーフフォンラベルと対応付いたハーフフォンの、少なくともいずれか一方が複数存在する場合に、前記前半部のハーフフォンと、前記後半部のハーフフォンとのF0ギャップが最小となる組み合わせを当該欠落ダイフォンラベルの連結対象として選択してもよい。 The alternative speech model generation unit in the speech unit database creation device of the present invention includes a half phone associated with the same half phone label as the first half of any missing diphone label, and the latter half of the missing diphone label. A combination that minimizes the F0 gap between the half phone in the first half and the half phone in the second half when there is a plurality of half phones associated with the same half phone label. You may select as a connection object of a missing diphone label.
これにより、代替音声モデルの接続部のF0変化量が減少し、当該代替音声モデルを用いた合成音声が高品質となる。 As a result, the F0 change amount at the connection portion of the alternative speech model is reduced, and the synthesized speech using the alternative speech model becomes high quality.
また、本発明の音声素片データベース作成装置における代替音声モデル生成部は、任意の欠落ダイフォンラベルの前半部と同一のハーフフォンラベルと対応付いたハーフフォンと、当該欠落ダイフォンラベルの後半部と同一のハーフフォンラベルと対応付いたハーフフォンの、少なくともいずれか一方が複数存在する場合に、前記前半部のハーフフォンと、前記後半部のハーフフォンを、予め定義されたF0値域で区切られた2以上のカテゴリに分類し、同一もしくは近接するカテゴリに分類された前記前半部のハーフフォンと前記後半部のハーフフォンとからなる組み合わせを当該欠落ダイフォンラベルの連結対象として選択してもよい。 The alternative speech model generation unit in the speech unit database creation device of the present invention includes a half phone associated with the same half phone label as the first half of any missing diphone label, and the latter half of the missing diphone label. When there are a plurality of halfphones associated with the same halfphone label, the first halfphone and the second halfphone are separated by a predefined F0 range. The combination of the first half half phone and the second half half phone classified into two or more categories and the same or close categories may be selected as the connection target of the missing diphone label. .
これにより、代替音声モデルの接続部のF0変化量が減少し、当該代替音声モデルを用いた合成音声が高品質となる。また、このようにして作成された音声素片データベースは、同一の欠落ダイフォンラベルについて、平均F0の異なる代替音声モデルを複数(最多の場合、カテゴリ数と同数)有する可能性が高くなる。このため、上記音声素片データベースを用いて音声合成処理を行う場合、韻律生成によって生成したF0に近似したF0値を持つ音声モデルを、前記音声素片データベースから選択できる可能性が高くなり、F0変化量が減少することにより合成音声がさらに高品質となる。また、同一もしくは近接するカテゴリに分類されたハーフフォン同士を組み合わせて代替音声モデルとするため、すべてのハーフフォンの組み合わせを代替音声モデルとして記憶することとした場合に比べ、音声素片データベースに記憶する代替音声モデルの総数を著しく少なく抑えることができ、素片探索時間の増加やデータベースサイズの増加を避けることができる。 As a result, the F0 change amount at the connection portion of the alternative speech model is reduced, and the synthesized speech using the alternative speech model becomes high quality. In addition, the speech unit database created in this way has a high possibility of having a plurality of alternative speech models having the same average F0 (the same number as the number of categories in the maximum case) for the same missing diphone label. Therefore, when speech synthesis processing is performed using the speech unit database, it is highly possible that a speech model having an F0 value approximated to F0 generated by prosody generation can be selected from the speech unit database. As the amount of change is reduced, the synthesized speech is of higher quality. In addition, since the half-phones classified into the same or close categories are combined into an alternative voice model, the combination of all the half-phones is stored in the voice unit database as compared with the case where all the half-phone combinations are stored as alternative voice models. The total number of alternative speech models to be performed can be significantly reduced, and an increase in segment search time and an increase in database size can be avoided.
また、本発明の音声素片データベース作成装置における代替音声モデル生成部は、任意の欠落ダイフォンラベルの前半部と同一のハーフフォンラベルと対応付いたハーフフォン、もしくは任意の欠落ダイフォンラベルの後半部と同一のハーフフォンラベルと対応付いたハーフフォンが存在しない場合に、予め定義された音素間距離マトリクスが最小となるハーフフォンを、前記存在しないハーフフォンの替わりに当該欠落ダイフォンラベルの連結対象として選択してもよい。 The alternative speech model generation unit in the speech unit database creation device of the present invention is a half phone associated with the same half phone label as the first half of any missing diphone label, or the latter half of any missing diphone label. If there is no halfphone associated with the same halfphone label as the part, the halfphone with the smallest interphoneme distance matrix is connected to the missing diphone label instead of the nonexistent halfphone. You may select as an object.
これにより、音声波形データベース中に全く存在しない音素についても、代替音声モデルを生成することができるため、必要な全ての音声モデルを保有する音声素片データベースを生成することができ、当該音声素片データベースを用いて、音声の欠落がない合成音声を作成することができる。 As a result, an alternative speech model can be generated even for a phoneme that does not exist in the speech waveform database. Therefore, a speech unit database having all necessary speech models can be generated, and the speech unit Using the database, synthesized speech without missing speech can be created.
また、あらかじめダイフォンラベルを付与された音声モデルを入力することとすれば、音素−ダイフォン区間変換部と、音声パラメータ系列変換部と、音声モデル生成部とを省略することができる。したがって、本発明では、欠落ダイフォンラベル出力部と、ハーフフォン生成部と、代替音声モデル生成部とを備える代替音声モデル作成装置が提供される。この代替音声モデル作成装置における各部の働きは、前記音声素片データベース作成装置における同一名称の各部における働きと同じである。 Also, if a speech model to which a diphone label is assigned in advance is input, the phoneme-diphone section converter, the speech parameter series converter, and the speech model generator can be omitted. Therefore, in the present invention, an alternative speech model creation device including a missing diphone label output unit, a half phone generation unit, and an alternative speech model generation unit is provided. The function of each part in this alternative speech model creation apparatus is the same as the function of each part having the same name in the speech segment database creation apparatus.
これらにより、ハーフフォンを連結して代替音声モデルを生成するため、音声波形データベースから必要な全ての音声モデルを生成できなかった場合にも、完全な音声素片データベースを生成することができ、当該音声素片データベースを用いて、音声の欠落がない合成音声を作成することができる。また、音声素片データベース作成時にあらかじめ適切な代替音声モデルを生成しておくため、素片探索処理量の増大を避けることができる。 As a result, half phone is connected to generate an alternative speech model, so that even if all required speech models cannot be generated from the speech waveform database, a complete speech unit database can be generated, Using the speech segment database, synthesized speech with no missing speech can be created. In addition, since an appropriate alternative speech model is generated in advance when the speech unit database is created, an increase in the amount of segment search processing can be avoided.
また本発明は、上記の音声素片データベース作成装置、もしくは代替音声モデル作成装置によって作成された音声素片データベースを用いて、テキストから音声を合成する音声合成装置を提供する。この音声合成装置は、テキスト解析部と、韻律生成部と、音声モデル選択部と、音声合成部とを有する。 The present invention also provides a speech synthesizer that synthesizes speech from text using the speech segment database created by the speech segment database creation device or the alternative speech model creation device. The speech synthesizer includes a text analysis unit, a prosody generation unit, a speech model selection unit, and a speech synthesis unit.
テキスト解析部は、テキストを入力とし、読み、アクセント、音韻系列を出力する。韻律生成部は、読み、アクセントを入力とし、F0、パワー、音韻長を出力する。音声モデル選択部は、F0、パワー、音韻系列を入力とし、音声素片データベースから音声モデルを選択して出力する。音声合成部は、音声モデル、F0、パワー、音韻長を入力とし、合成音声を出力する。 The text analysis unit takes text as input and outputs readings, accents, and phoneme sequences. The prosody generation unit receives readings and accents, and outputs F0, power, and phoneme length. The speech model selection unit receives F0, power, and phoneme series as input, and selects and outputs a speech model from the speech unit database. The speech synthesizer receives the speech model, F0, power, and phoneme length, and outputs synthesized speech.
これらにより、ハーフフォンを連結して代替音声モデルを生成し、音声素片データベースを作成するため、音声波形データベースから必要な全ての音声モデルを生成できなかった場合にも、完全な音声素片データベースを生成することができ、当該音声素片データベースを用いて、音声の欠落がない合成音声を作成することができる。また、音声素片データベース作成時にあらかじめ適切な代替音声モデルを生成しておくため、素片探索処理量の増大を避けることができる。 As a result, half phone is connected to generate an alternative speech model and a speech unit database is created. Therefore, even if all necessary speech models cannot be generated from the speech waveform database, a complete speech unit database is created. Can be generated, and using the speech segment database, synthesized speech with no missing speech can be created. In addition, since an appropriate alternative speech model is generated in advance when the speech unit database is created, an increase in the amount of segment search processing can be avoided.
以上のように、本発明では、音声波形データベースから必要な全ての音声モデルを生成できなかった場合にも、代替音声モデルを生成することにより完全な音声素片データベースを生成することができ、当該音声素片データベースを用いて、音声の欠落がない合成音声を作成することができる。また、音声素片データベース作成時にあらかじめ適切な代替音声モデルを生成しておくため、素片探索処理量の増大を避けることができる。 As described above, in the present invention, even when all necessary speech models cannot be generated from the speech waveform database, a complete speech segment database can be generated by generating an alternative speech model, Using the speech segment database, synthesized speech with no missing speech can be created. In addition, since an appropriate alternative speech model is generated in advance when the speech unit database is created, an increase in the amount of segment search processing can be avoided.
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。 Hereinafter, embodiments of the present invention will be described in detail. In addition, the same number is attached | subjected to the structure part which has the same function, and duplication description is abbreviate | omitted.
図1〜6、図10を参照して本発明の音声素片データベース作成装置および、音声素片データベース作成方法を説明する。図1に示した音声素片データベース作成装置1000は、音素セグメンテーション部1100と、音素−ダイフォン区間変換部1200と、音声パラメータ系列変換部1300と、音声モデル生成部1400と、定義済ダイフォンラベルリスト1500と、欠落ダイフォンラベル出力部1600と、ハーフフォン生成部1800と、代替音声モデル生成部1900と、を有する。図3に示した音素セグメンテーション部1100は、音素区間分割手段1110と、音素ラベル付与手段1120とを有する。音素−ダイフォン区間変換部1200は、ダイフォン区間分割手段1210と、ダイフォンラベル付与手段1220とを有する。図5に示した代替音声モデル生成部1900は、ハーフフォン配置手段1910と、欠落ダイフォンラベルリスト1920と、決定木確定手段1930と、音素間距離マトリクステーブル1940と、ハーフフォン選択手段1950と、ハーフフォン連結手段1960とを有する。
The speech segment database creation apparatus and speech segment database creation method of the present invention will be described with reference to FIGS. The speech unit
図2、3を参照して、音素セグメンテーション部1100では、音声波形データベース91中の音声波形データ1111を入力として、音素区間分割手段1110が、音声波形データ1111を音素区間1112に分割し、音声波形データ1111と音素区間1112を対応付けて出力する。音声波形データ1111と音素区間1112を入力として、音素ラベル付与手段1120が、音素区間1112ごとに音素ラベル1121を付与して、音声波形データ1111と、音素区間1112と、音素ラベル1121とを対応付けて出力する(S1100)。この処理は、セグメンテーションを自動的に行う方法として知られている従来方法(参考特許文献1:特開2004−77901)を用いることができる。
2 and 3, in
音素−ダイフォン区間変換部1200では、音素区間1112ごとに音素ラベル1121を付与された音声波形データ1111を入力とし、ダイフォン区間分割手段1210が、任意の隣り合う二つの音素区間のうち先の音素区間の後半部と、後の音素区間の前半部とを連結してダイフォン区間1212とし、ダイフォン区間1212と、音素ラベル1121とを音声波形データ1111に対応付けて出力する。ダイフォン区間1212と、音素ラベル1121と、音声波形データ1111とを入力とし、ダイフォンラベル付与手段1220は、当該先の音素区間の音素ラベルと当該後の音素区間の音素ラベルとを連結してダイフォンラベル1221とし、当該ダイフォン区間1212と当該ダイフォンラベル1221とを対応付けて出力する(S1200)。
In the phoneme-diphone
図3では、音素セグメンテーション部1100に、音声波形データ「ONSe」が入力された場合の音素セグメンテーション部1100と音素−ダイフォン区間変換部1200の動作について例示した。図3中の「Sil」は無音区間の音素ラベルを意味する。「Sil」を付与された無音区間については前半部と後半部に分割せず、無音区間全体を、後の音素区間の前半部もしくは先の音素区間の後半部と連結してダイフォン区間1212を生成するものとする。図3中の「Sil:O」、「O:N」、「N:S」、「S:e」、「e:Sil」は何れもダイフォンラベル1221である。
FIG. 3 illustrates the operations of the
図2、4を参照して、音声パラメータ系列変換部1300は、音声波形データ1111とダイフォンラベル1221とダイフォン区間1212とを入力とし、前記音声波形データ1111をダイフォン区間1212ごとに、一定のフレーム長(例えば5ms)ごとにN個の音声パラメータよりなる音声パラメータ系列1301−1〜Nに変換し、当該音声パラメータ系列1301−1〜Nをダイフォン区間1212と対応付けて出力する(S1300)。音声パラメータの表現方法としては、例えばケプストラム(非特許文献2参照)などを用いることができる。
Referring to FIGS. 2 and 4, speech parameter
音声モデル生成部1400は、音声パラメータ系列1301−1〜Nとダイフォンラベル1221とダイフォン区間1212とを入力とし、ダイフォン区間1212ごとに、ダイフォン区間1212に対応付けられた音声パラメータ系列を状態1〜3に分割し、状態1〜3から1つずつ音声パラメータを選択して代表パタン1401−1〜3とする。これら3つの代表パタンよりなる3状態の音声モデル1402を生成し、当該ダイフォン区間1212と対応付いたダイフォンラベル1221と、当該音声モデル1402とを対応付けて出力する(S1400)。本実施例では状態数を3としたが、状態数についてはこれ以外の値とすることもでき、例えば長母音のような長い音韻長を含むダイフォン区間については5状態とし、選択する代表パタン数を5として、5状態からなる音声モデルを生成することとしてもよい。各状態の長さは、ダイフォン区間を均等に分割することとしてもよいし、例えば音声パラメータが急激に変動する中心部を密に分割するような非均一な分割を行うこととしてもよい。また、各状態の代表パタンの選択方法としては、各状態の時間的中心部分のフレームにある音声パラメータを選択する方法、各状態における全てのフレームの音声パラメータの平均値を用いる方法、この平均値に最も近い音声パラメータを各状態から選択する方法がある。
The voice model generation unit 1400 receives the voice parameter series 1301-1 to 130-1 to N, the diphone label 1221 and the diphone section 1212 as input, and for each diphone section 1212, the voice parameter series associated with the diphone section 1212 The voice parameters are selected one by one from the
図4では、ダイフォン区間に分割された音声波形データ「ONSe」、対応するダイフォンラベル「Sil:O」、「O:N」、「N:S」、「S:e」、「e:Sil」が入力された場合、例えばダイフォンラベル「N:S」に対応付けられた音声パラメータ系列1301−1〜Nにおける音声パラメータ系列変換部1300と、音声モデル生成部1400の動作について例示した。
In FIG. 4, voice waveform data “ONSe” divided into diphone sections, corresponding diphone labels “Sil: O”, “O: N”, “N: S”, “S: e”, “e: Sil ”Is input, for example, the operation of the speech parameter
図1、2を参照して、欠落ダイフォンラベル出力部1600は、ダイフォンラベル1221と、定義済ダイフォンラベルリスト1500とを入力とし、定義済ダイフォンラベルリスト1500に存在するが、ダイフォンラベル1221として入力されていないダイフォンラベルを欠落ダイフォンラベルとして出力する(S1600)。なお、定義済ダイフォンラベルリスト1500とは、音声合成に必要な全てのダイフォンのダイフォンラベルをリストとして予め生成したものである。
Referring to FIGS. 1 and 2, missing diphone
なお、欠落ダイフォンラベル出力部1600は、音声波形データベース91の規模が不十分で、音声波形データベース91に必要な全てのダイフォンが含まれていない場合、当該含まれていないダイフォンを欠落ダイフォンラベルとして特定して出力することを目的として存在している。従って、欠落ダイフォンラベル出力部1600は、音声波形データベース91に含まれる全ての音声波形データに対応付いた全てのダイフォンラベルと、定義済ダイフォンラベルリスト1500との比較により、欠落しているダイフォンを特定して欠落ダイフォンラベルとして出力する。この点に注意を要する。
Note that the missing diphone
ここで、欠落ダイフォンラベルが存在する場合には、ハーフフォン生成部1800の動作(S1800)、代替音声モデル生成部1900の動作(S1900)を実行するが、欠落ダイフォンラベルが存在しない場合には、S1800、S1900は行われない(S1700)。以下、欠落ダイフォンラベルが存在した場合のハーフフォン生成部1800、代替音声モデル生成部1900の各動作について説明する。
Here, when there is a missing diphone label, the operation of the half phone generation unit 1800 (S1800) and the operation of the alternative speech model generation unit 1900 (S1900) are executed. S1800 and S1900 are not performed (S1700). Hereinafter, each operation of the half
ハーフフォン生成部1800は、音声モデル1402とダイフォンラベル1221とを入力とし、音声モデル1402を前半部と後半部に分割して双方をハーフフォンとし、当該分割された音声モデルと対応付いたダイフォンラベルの前半部をハーフフォンラベルとして、当該分割された音声モデルの前半部からなるハーフフォンと対応付けて出力し、当該分割された音声モデルと対応付いたダイフォンラベルの後半部をハーフフォンラベルとして、当該分割された音声モデルの後半部からなるハーフフォンと対応付けて出力する(S1800)。例えば音声モデル1402の状態数がLであった場合、前半部のハーフフォンは第1状態〜第(L/2)状態(小数点以下繰り上げ)の代表パタンを保持し、残りの状態を削除し、後半部のハーフフォンは第(L/2)+1状態〜第L状態(小数点以下繰り下げ)の代表パタンを保持し、残りの状態を削除することによって生成する。Lが奇数である場合には、音声モデル1402の状態数Lのちょうど中間に位置する状態の代表パタンについては、前半部のハーフフォンと後半部のハーフフォンの双方において保持されるものとする。従って音声モデル1402の状態数が3である場合には、前半部のハーフフォンは音声モデルの第1状態〜第2状態の代表パタンを保持し、後半部のハーフフォンは音声モデルの第2状態〜第3状態の代表パタンを保持する。3状態のちょうど中間に位置する状態2の代表パタンについては、前半部のハーフフォンと後半部のハーフフォンの双方において保持される。なお、ハーフフォン生成部1800は、音声波形データベース91に含まれる全ての音声波形データから生成された音声モデルを分割してハーフフォンを生成する。従って音声波形データベース91に含まれる全ての音声波形データと対応するハーフフォンが生成されることに注意する。
The half
図2、5を参照して、代替音声モデル生成部1900は、前記ハーフフォンと、前記ハーフフォンラベルと、前記欠落ダイフォンラベルとを入力とし、任意の欠落ダイフォンラベルの前半部と同一もしくは類似のハーフフォンラベルと対応付いたハーフフォンと、当該欠落ダイフォンラベルの後半部と同一もしくは類似のハーフフォンラベルと対応付いたハーフフォンとを連結し、代替音声モデルとして出力する(S1900)。
2 and 5, the alternative speech
詳細には、代替音声モデル生成部1900において、ハーフフォン配置手段1910は、ハーフフォンと、ハーフフォンラベルとを入力とし、入力されたハーフフォンを予め用意された決定木に配置する。決定木は、音素前後の音素環境をコンテキストとして生成し、音素ごとに各1つずつ用意されているものである。前述のハーフフォンは、ハーフフォンラベルに示された音素と同一の音素について用意された決定木のリーフノードに配置される。ハーフフォン配置手段1910は、ハーフフォン生成部1800において生成された全てのハーフフォンを、音素ごとに用意された決定木のリーフノードに配置する。つまり決定木のリーフノードには、音声波形データベース91に含まれる全ての音声波形データに基づいて生成した全てのハーフフォンを配置する。この点に注意を要する。
Specifically, in the alternative speech
欠落ダイフォンラベルリスト1920は、欠落ダイフォンラベルを入力とし、入力された欠落ダイフォンラベルを自身に記憶する。決定木確定手段1930は、欠落ダイフォンラベルリスト1920と、ハーフフォンを配置した決定木とを入力とし、全ての欠落ダイフォンラベルの前半部および後半部に対して、参照すべき決定木を確定し、それぞれを前半ハーフフォン決定木、後半ハーフフォン決定木として欠落ダイフォンラベルに対応付けて出力する。ここで、参照すべき決定木のリーフノードに、ハーフフォンが1つも配置されていない場合には、音素間距離マトリクス1940を参照し、参照すべき決定木の音素と最も音素間距離が短くなる音素の決定木を代替の決定木として確定する。ここで、音素間距離マトリクスは、調音点や調音方法などの弁別素性を考慮し、予め定義したマトリクステーブルである。
The missing
上記のように決定木を利用することにより、コンテキスト情報を考慮した絞り込みが容易になるという利点がある。例えば、決定木を利用するのでなく、音素単位でハーフフォンの集合を構成することとすると、前後の音素環境があまりにも合致しないハーフフォンが連結対象として選択されてしまう。このため決定木を利用して前後の音素環境を考慮したクラスタリングを行い、連結対象の候補の絞り込みを行う。決定木は音素単位で作成されるため、音声データベース91に含まれる音素と同種別、同数の決定木が作成される。決定木の分岐条件の質問には、音素のコンテキスト情報(前後の音素環境の一致など)を用いることとする。例えば、「ダイフォンの前半部に相当するか」、「後続音素が母音か」、「後続音素が/A/であるか」「先行音素が破裂子音か」「先行音素が/P/か」など、大まかな分類から詳細な分類へと徐々に絞り込むように構成されている。
By using a decision tree as described above, there is an advantage that narrowing down in consideration of context information becomes easy. For example, if a set of halfphones is configured in units of phonemes instead of using a decision tree, halfphones whose phoneme environments before and after do not match too much are selected as connection targets. For this reason, clustering is performed in consideration of the phoneme environment before and after using a decision tree, and candidates for connection are narrowed down. Since the decision tree is created in units of phonemes, the same number and number of decision trees as the phonemes included in the
図6を参照して、ハーフフォン選択手段1950は、欠落ダイフォンラベルリスト1920と、前半ハーフフォン決定木1951と、後半ハーフフォン決定木1952とを入力とし、欠落ダイフォンラベルごとに、前半ハーフフォン決定木1951、後半ハーフフォン決定木1952から各1つずつ、半音素前後のコンテキストが合致したリーフノードに含まれるハーフフォンを連結対象として決定し、欠落ダイフォンラベルと対応付けて出力する。
Referring to FIG. 6, half phone selection means 1950 receives a missing
ここで、前半ハーフフォン決定木1951と、後半ハーフフォン決定木1952の、少なくともいずれか一方の参照すべきリーフノードにハーフフォンが複数存在し、双方のハーフフォンラベルの音素が有声音である場合には、前半ハーフフォン決定木に存在するハーフフォンと、後半ハーフフォン決定木に存在するハーフフォンとのF0ギャップが最小となる組み合わせを欠落ダイフォンラベルの連結対象となるハーフフォンとして選択することとしてもよい。F0ギャップはハーフフォンのF0平均値の差分から求める。ここで、ハーフフォンのF0平均値は、前半部のハーフフォンの各状態の代表パタンのF0値を平均した値、後半部のハーフフォンの各状態の代表パタンのF0値を平均した値をそれぞれ用いる。
Here, when there are a plurality of halfphones in at least one of the leaf nodes to be referred to in the first
また、参照すべきリーフノードに存在するハーフフォンを、予め定義されたF0値域で区切られた2以上のF0カテゴリ1953に分類し、同一もしくは近接するカテゴリに分類されたハーフフォン同士からなる組み合わせを欠落ダイフォンラベルの連結対象として選択してもよい。ここでF0カテゴリとはF0値を量子化幅Dにて分類したものである。F0値の量子化幅Dを例えば50Hzとして、100Hz未満、100Hz以上150Hz未満、150Hz以上200Hz未満、200Hz以上250Hz未満、250Hz以上300Hz未満、300Hz以上からなる6カテゴリとすることができる。また、別の方法として、対数F0領域で量子化幅Dを設定しても良い。量子化幅Dについては、音声合成処理における信号処理方式のF0変形耐性に応じて適切な分類を行うことができるように決定するものとする。同一のF0カテゴリに含まれるハーフフォンが複数存在する場合には、それぞれのF0平均値を比較し、F0平均値の差分が最も小さくなる組み合わせを連結対象として選択する。等しいF0カテゴリにどちらか一方のハーフフォンが含まれていない場合には、互いに隣接するF0カテゴリのハーフフォン同士を連結対象として選択する。このようにして、最低でも1つ、最高でF0カテゴリ数と等しい数のハーフフォンの組み合わせを得ることができる。なお、前記の連結対象の選択は、平均F0の代わりとして音響パラメータ(例えばスペクトル間距離など)の差分を基準とすることとしてもよい。
Further, the halfphones existing in the leaf node to be referred to are classified into two or
なお、平均F0を基準として連結対象となるハーフフォンを決定するのは、連結対象のハーフフォンがいずれも有声音である場合に限られる。組み合わせる素片の何れか、あるいは両方が無声音の場合は、リーフノードに含まれる全てのハーフフォンの集合のセントロイド(平均(重心)に最も近いある一つの音声モデル)を代表パタンとする。もしくは、リーフノードに含まれる全てのハーフフォンについて、両者の音響パラメータ(例えばスペクトル間距離など)が最も近くなる組み合わせを選択することとしてもよい。無声音は、周期的な振動を伴わない音であるため、F0情報を持たない。従ってF0ギャップを考慮する必要がないため、有声音同士の連結と、無声音を含む連結とで連結方法が異なる。 Note that the halfphones to be connected are determined based on the average F0 only when all the halfphones to be connected are voiced sounds. If either or both of the combined segments are unvoiced sounds, the centroid (one voice model closest to the average (center of gravity)) of all the halfphone sets included in the leaf node is used as a representative pattern. Or it is good also as selecting the combination with which both acoustic parameters (for example, distance between spectra, etc.) are the nearest about all the half phones contained in a leaf node. An unvoiced sound does not have F0 information because it is a sound without periodic vibration. Therefore, since it is not necessary to consider the F0 gap, the connection method differs between connection of voiced sounds and connection including unvoiced sounds.
図5に戻り、ハーフフォン連結手段1960は、連結対象となるハーフフォンと、欠落ダイフォンラベルリスト1920とを入力とし、欠落ダイフォンラベルごとに連結対象となるハーフフォンを連結して、代替音声モデルとして、欠落ダイフォンラベルと対応付けて出力する。
Returning to FIG. 5, the
ハーフフォンの連結は、連結後の代替音声モデルの状態数が奇数であるとき、前半部のハーフフォンの最初の状態〜最後から数えて2番目の状態の代表パタンと、後半部のハーフフォンの最初から数えて2番目の状態〜最後の状態の代表パタンを用いて連結する。連結後にちょうど中間に位置する、前半部のハーフフォンの最後の状態と、後半部のハーフフォンの最初の状態については、双方の状態における内分値を用いた重みづけ加算により求めた値を用いる。内分比率には例えばシグモイド関数を用いることができる。 When the number of states of the alternative speech model after connection is an odd number, the half phone is connected to the representative pattern of the second state from the first state to the last half phone of the first half and the half phone of the second half. The connection is made using the representative patterns from the second state to the last state counted from the beginning. For the last state of the first half phone and the first half phone state that are located in the middle after the connection, values obtained by weighted addition using the internal values in both states are used. . For example, a sigmoid function can be used as the internal ratio.
例えば音声モデルの代表パタン数が3であった場合、前半部のハーフフォンの最初の状態の代表パタンが連結後の代替音声モデルの第1状態の代表パタンとして用いられ、後半部のハーフフォンの最後の状態の代表パタンが連結後の代替音声モデルの第3状態の代表パタンとして用いられる。連結後の代替音声モデルの第2状態については、前半部のハーフフォンの最後の状態と、後半部のハーフフォンの最初の状態との内分値を用いた重みづけ加算により求めた値を用いる。なお、代替音声モデルの状態数が偶数である場合には、前半ハーフフォンの各状態、後半ハーフフォンの各状態の代表パタンをそれぞれ用いて連結すればよい。 For example, when the number of representative patterns of the speech model is 3, the representative pattern of the first state of the first half phone is used as the representative pattern of the first state of the alternative speech model after connection, The representative pattern in the last state is used as the representative pattern in the third state of the alternative speech model after connection. For the second state of the alternative speech model after concatenation, a value obtained by weighted addition using the internal values of the last state of the first half phone and the first state of the second half phone is used. . When the number of states of the alternative speech model is an even number, connection may be performed using the representative patterns of the states of the first half phone and the states of the second half phone.
図1、図10を参照して、音声素片データベース92は、音声モデルと、代替音声モデルとを入力とし、入力された音声モデルと、代替音声モデルとを記憶する(S92)。図10は、音声素片データベース92に記憶された音声モデル、代替音声モデルを例示した表である。音声素片データベース92には、ダイフォンラベルごとに平均周波数F0(Hz)、平均周波数F0の傾斜(Hz/ms)、パワー(dB)、音声パラメータが記憶される。
Referring to FIGS. 1 and 10, the
なお、あらかじめダイフォンラベルを付与された音声モデルを入力とする場合には、欠落ダイフォンラベルリスト1500、欠落ダイフォンラベル出力部1600、ハーフフォン生成部1800、代替音声モデル生成部1900のみを備える代替音声モデル作成装置10000によって、代替音声モデルを作成する構成としても良い。
In the case where a speech model to which a diphone label is assigned in advance is used as an input, only a missing
この代替音声モデル作成装置10000における各部の働きは、前記音声素片データベース作成装置1000における同一名称の各部における働きと同じである。代替音声モデル作成装置10000に入力されるダイフォンラベルを付与された音声モデルは、予め用意された音声波形データベースに含まれる全ての音声波形データを用いて予め別の装置にて作成されているものとする。なお、代替音声モデル作成装置10000における欠落ダイフォンラベル出力部1600の働きは、音声素片データベース作成装置1000における欠落ダイフォンラベル出力部1600の働きと同じであり、予め用意された音声波形データベースに含まれる全ての音声波形データから生成した全てのダイフォンラベルを入力として、定義済ダイフォンラベルリスト1500との比較により、欠落しているダイフォンを特定して欠落ダイフォンラベルとして出力する。同様に、代替音声モデル作成装置10000のハーフフォン生成部1800は、音声波形データベースに含まれる全ての音声波形データを用いてハーフフォンを生成し、代替音声モデル作成装置10000のハーフフォン配置手段1910は、ハーフフォン生成部1800において生成された全てのハーフフォンを音素ごとに用意された決定木のリーフノードに配置する。この点に注意を要する。
The function of each part in the alternative speech
本実施例の音声素片データベース作成装置1000によれば、ハーフフォンを連結して代替音声モデルを生成するため、音声波形データベースから必要な全ての音声モデルを生成できなかった場合にも、完全な音声素片データベースを生成することができ、当該音声素片データベースを用いて、音声の欠落がない合成音声を作成することができる。また、音声素片データベース作成時にあらかじめ適切な代替音声モデルを生成しておくため、素片探索処理量の増大を避けることができる。
According to the speech unit
また、F0ギャップが最小となるハーフフォンの組み合わせを欠落ダイフォンラベルの連結対象となるハーフフォンとして選択する場合には、代替音声モデルの接続部のF0変化量が減少し、当該代替音声モデルを用いた合成音声が高品質となる。 In addition, when the combination of half phones with the smallest F0 gap is selected as the half phone to be connected to the missing diphone label, the amount of change in F0 at the connection portion of the alternative voice model is reduced, and the alternative voice model is selected. The synthesized speech used is of high quality.
また、予め定義されたF0値域で区切られた2以上のF0カテゴリに分類し、同一もしくは近接するカテゴリに分類されたハーフフォン同士からなる組み合わせを欠落ダイフォンラベルの連結対象として選択する場合には、代替音声モデルの接続部のF0変化量が減少し、当該代替音声モデルを用いた合成音声が高品質となる。また、このようにして作成された音声素片データベースは、同一の欠落ダイフォンラベルについて、平均F0の異なる代替音声モデルを複数(最多の場合、カテゴリ数と同数)有する可能性が高くなる。このため、上記音声素片データベースを用いて音声合成処理を行う場合、韻律生成によって生成したF0に近似したF0値を持つ音声モデルを、前記音声素片データベースから選択できる可能性が高くなり、F0変化量が減少することにより合成音声がさらに高品質となる。また、同一もしくは近接するカテゴリに分類されたハーフフォン同士を組み合わせて代替音声モデルとするため、すべてのハーフフォンの組み合わせを代替音声モデルとして記憶することとした場合に比べ、音声素片データベースに記憶する代替音声モデルの総数を著しく少なく抑えることができ、素片探索時間の増加やデータベースサイズの増加を避けることができる。同時に、前述のF0カテゴリは、F0変形耐性に応じて適切な量子化幅から設定するため、音声合成に最適な代替音声モデルはなお音声素片データベースに記憶されることとなり、これにより合成音声が高品質となる。 In addition, when two or more F0 categories separated by a predefined F0 range are classified, and a combination of halfphones classified into the same or adjacent categories is selected as a connection target of missing diphone labels. The F0 change amount at the connection portion of the alternative speech model is reduced, and the synthesized speech using the alternative speech model becomes high quality. In addition, the speech unit database created in this way has a high possibility of having a plurality of alternative speech models having the same average F0 (the same number as the number of categories in the maximum case) for the same missing diphone label. Therefore, when speech synthesis processing is performed using the speech unit database, it is highly possible that a speech model having an F0 value approximated to F0 generated by prosody generation can be selected from the speech unit database. As the amount of change is reduced, the synthesized speech is of higher quality. In addition, since the half-phones classified into the same or close categories are combined into an alternative voice model, the combination of all the half-phones is stored in the voice unit database as compared with the case where all the half-phone combinations are stored as alternative voice models. The total number of alternative speech models to be performed can be significantly reduced, and an increase in segment search time and an increase in database size can be avoided. At the same time, since the aforementioned F0 category is set from an appropriate quantization width according to the F0 deformation tolerance, an alternative speech model that is optimal for speech synthesis is still stored in the speech unit database. High quality.
また、任意の音素におけるハーフフォンが、全く存在しない場合に、予め定義された音素間距離マトリクスが最小となるハーフフォンを、前記存在しないハーフフォンの替わりに当該欠落ダイフォンラベルの連結対象として選択することとすれば、音声波形データベース中に全く存在しない音素についても、代替音声モデルを生成することができるため、必要な全ての音声モデルを保有する音声素片データベースを生成することができ、当該音声素片データベースを用いて、音声の欠落がない合成音声を作成することができる。 In addition, when there is no halfphone in any phoneme, the halfphone having the smallest predefined phoneme distance matrix is selected as the connection target of the missing diphone label instead of the non-existing halfphone. If so, since an alternative speech model can be generated even for phonemes that are not present in the speech waveform database, it is possible to generate a speech segment database that holds all necessary speech models. Using the speech segment database, synthesized speech with no missing speech can be created.
図7〜9を参照して本発明の音声合成装置および、音声合成方法を説明する。図7に示す音声合成装置7000は、テキスト解析部7100と、テキスト解析用辞書7200と、韻律生成部7300と、音声モデル選択部7400と、音声合成部7600とを有する。テキスト解析部7100は、テキストを入力とし、テキスト解析用辞書7200を用いて、読み、アクセント、音韻系列を出力する(S7100)。韻律生成部7300は、読み、アクセントを入力とし、F0、パワー、音韻長を出力する(S7300)。音声モデル選択部7400は、F0、パワー、音韻系列を入力とし、音声素片データベースから音声モデルを選択して出力する(S7400)。音声合成部7600は、音声モデル、F0、パワー、音韻長を入力とし、合成音声を出力する(S7600)。詳細には、図9に示す音声合成部7600は、音声パラメータ系列生成手段7610と、音声パラメータ系列補間手段7620と、合成音声波形生成手段7630とを有する。
The speech synthesis apparatus and speech synthesis method of the present invention will be described with reference to FIGS. A
音声パラメータ系列生成手段7610は、入力された音声モデル1402の各代表パタンを、入力された音韻長に応じて繰り返して連結する。図9の例では、音声モデル1402の3つの代表パタンである音声パラメータの各々が、音韻長を3等分した長さ分だけ繰り返し複製され連結される。入力された音声モデルの全てについて音声パラメータの複製−連結処理が行われ、音声モデルごとに複製−連結処理が行われた音声パラメータ系列は、対応するダイフォンラベルの順序ごとに全て連結される。例えば音声モデルの状態数がP、音韻長から算出されるフレーム数がQの場合、j番目の状態の代表パタンである音声パラメータは、フレーム番号(j−1)×(Q/P)+1番から、j×(Q/P)番まで繰り返され、連結される。
The speech parameter
音声パラメータ系列補間手段7620は、音声パラメータ系列を、滑らかに遷移するように補間する。ここでの補間方法としては、例えば、音声パラメータの分布列から、最尤パラメータ列を生成する方法(参考非特許文献1:徳田恵一、益子貴史、小林隆夫、今井聖、「動的特徴量を用いたHMMからの音声パラメータ生成アルゴリズム」、日本音響学会誌、社団法人日本音響学会、平成9年3月、第53巻、第3号、pp192〜200)などが適用可能である。 The voice parameter series interpolation means 7620 interpolates the voice parameter series so as to make a smooth transition. As an interpolation method here, for example, a method of generating a maximum likelihood parameter sequence from a speech parameter distribution sequence (reference non-patent document 1: Keiichi Tokuda, Takashi Masuko, Takao Kobayashi, Kiyoshi Imai, “Dynamic feature value The speech parameter generation algorithm from the used HMM ”, Journal of the Acoustical Society of Japan, Acoustical Society of Japan, March 1997, Vol. 53, No. 3, pp192-200) can be applied.
合成音声波形生成手段7630は、音声パラメータ系列から、合成音声波形を生成する。ここでの合成音声波形生成方法としては、例えばSTRAIGHT法(参考非特許文献2:Hideki Kawahara, Ikuyo Masuda-Katsuse and Alain de Cheveigne, “Restructuring speech representations using a pitch-adaptive time-frequency smoothing and an instanta- neous-frequency-based F0 extraction: Possible role of a repetitive structure in sounds”, Speech Communication, 27, 3-4, pp.187-207 (1999))などを用いることができる。
The synthesized speech
本実施例の音声合成装置7000によれば、ハーフフォンを連結して代替音声モデルを生成し、音声素片データベースを作成するため、音声波形データベースから必要な全ての音声モデルを生成できなかった場合にも、完全な音声素片データベースを生成することができ、当該音声素片データベースを用いて、音声の欠落がない合成音声を作成することができる。また、音声素片データベース作成時にあらかじめ適切な代替音声モデルを生成しておくため、素片探索処理量の増大を避けることができる。
According to the
また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。 In addition, the various processes described above are not only executed in time series according to the description, but may be executed in parallel or individually according to the processing capability of the apparatus that executes the processes or as necessary. Needless to say, other modifications are possible without departing from the spirit of the present invention.
また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。 Further, when the above-described configuration is realized by a computer, processing contents of functions that each device should have are described by a program. The processing functions are realized on the computer by executing the program on the computer.
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。 The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used.
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。 The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。 A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. When executing the process, the computer reads a program stored in its own recording medium and executes a process according to the read program. As another execution form of the program, the computer may directly read the program from a portable recording medium and execute processing according to the program, and the program is transferred from the server computer to the computer. Each time, the processing according to the received program may be executed sequentially. Also, the program is not transferred from the server computer to the computer, and the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition. It is good. Note that the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 In this embodiment, the present apparatus is configured by executing a predetermined program on a computer. However, at least a part of these processing contents may be realized by hardware.
Claims (9)
前記音声波形データを入力とし、任意の隣り合う二つの音素区間のうち先の音素区間の後半部と、後の音素区間の前半部とを連結してダイフォン区間とし、当該先の音素区間の音素ラベルと当該後の音素区間の音素ラベルとを連結してダイフォンラベルとし、当該ダイフォン区間と当該ダイフォンラベルとを対応付けて出力する音素−ダイフォン区間変換部と、
前記音声波形データと前記ダイフォンラベルと前記ダイフォン区間とを入力とし、前記音声波形データをダイフォン区間ごとに、一定のフレーム長ごとに音声パラメータに変換し、ダイフォン区間ごとの音声パラメータの列を音声パラメータ系列とし、当該音声パラメータ系列を当該ダイフォン区間と対応付けて出力する音声パラメータ系列変換部と、
前記音声パラメータ系列と前記ダイフォンラベルと前記ダイフォン区間とを入力とし、ダイフォン区間ごとに、ダイフォン区間に対応付けられた音声パラメータ系列のうちから1以上の音声パラメータを選択して代表パタンとし、当該代表パタンよりなる音声モデルを生成し、当該ダイフォン区間と対応付いたダイフォンラベルと、当該音声モデルとを対応付けて出力する音声モデル生成部と、
前記ダイフォンラベルと、定義済ダイフォンラベルリストとを入力とし、前記定義済ダイフォンラベルリストに存在するが、前記ダイフォンラベルとして入力されていないダイフォンラベルを欠落ダイフォンラベルとして出力する欠落ダイフォンラベル出力部と、
前記音声モデルと前記ダイフォンラベルとを入力とし、前記音声モデルを前半部と後半部に分割して双方をハーフフォンとし、当該分割された音声モデルと対応付いたダイフォンラベルの前半部をハーフフォンラベルとして、当該分割された音声モデルの前半部からなるハーフフォンと対応付けて出力し、当該分割された音声モデルと対応付いたダイフォンラベルの後半部をハーフフォンラベルとして、当該分割された音声モデルの後半部からなるハーフフォンと対応付けて出力するハーフフォン生成部と、
前記ハーフフォンと、前記ハーフフォンラベルと、前記欠落ダイフォンラベルとを入力とし、任意の欠落ダイフォンラベルの前半部と同一もしくは類似のハーフフォンラベルと対応付いたハーフフォンと、当該欠落ダイフォンラベルの後半部と同一もしくは類似のハーフフォンラベルと対応付いたハーフフォンとを連結し、代替音声モデルとして出力する代替音声モデル生成部と、
を備えることを特徴とする音声素片データベース作成装置。 A speech unit database creation device for creating a speech unit database from speech waveform data to which a phoneme label is assigned for each phoneme section length,
The speech waveform data is input, and the second half of the preceding phoneme section and the first half of the subsequent phoneme section of any two adjacent phoneme sections are connected to form a diphone section, and the phonemes of the preceding phoneme section are connected. A phoneme-diphone section conversion unit that links the label and the phoneme label of the subsequent phoneme section to form a diphone label, and associates and outputs the diphone section and the diphone label;
The voice waveform data, the diphone label, and the diphone section are input, the voice waveform data is converted into voice parameters for each diphone section and at a fixed frame length, and a voice parameter column for each diphone section is converted into voice. A voice parameter series conversion unit that outputs the voice parameter series in association with the diphone section as a parameter series;
The voice parameter series, the diphone label, and the diphone section are input, and for each diphone section, one or more voice parameters are selected from the voice parameter series associated with the diphone section as a representative pattern, A voice model generation unit that generates a voice model including a representative pattern, outputs a corresponding diphone label associated with the diphone section, and the voice model;
Missing output of the diphone label and the defined diphone label list as input, and the diphone label that is present in the defined diphone label list but not entered as the diphone label is output as a missing diphone label A diphone label output section;
The voice model and the diphone label are input, the voice model is divided into a first half and a second half to make both half phones, and the first half of the diphone label associated with the divided voice model is a half phone. The phone label is output in association with the half phone consisting of the first half of the divided voice model, and the second half of the diphone label associated with the divided voice model is used as the half phone label. A half-phone generating unit that outputs the half-phone corresponding to the second half of the speech model;
The half phone that has the half phone, the half phone label, and the missing diphone label as inputs and is associated with a half phone label that is the same as or similar to the front half of any missing diphone label, and the missing diphone An alternative speech model generation unit that connects a half phone corresponding to the same or similar half phone label to the latter half of the label and outputs as an alternative speech model;
A speech unit database creation apparatus comprising:
前記代替音声モデル生成部は、
任意の欠落ダイフォンラベルの前半部と同一のハーフフォンラベルと対応付いたハーフフォンと、当該欠落ダイフォンラベルの後半部と同一のハーフフォンラベルと対応付いたハーフフォンの、少なくともいずれか一方が複数存在する場合に、前記前半部のハーフフォンと、前記後半部のハーフフォンとのF0ギャップが最小となる組み合わせを当該欠落ダイフォンラベルの連結対象として選択することを特徴とする音声素片データベース作成装置。 The speech unit database creation device according to claim 1,
The alternative speech model generation unit
At least one of the half phone corresponding to the same half phone label as the first half of any missing diphone label and the half phone corresponding to the same half phone label as the second half of the missing diphone label When there are a plurality of speech unit databases, a combination that minimizes the F0 gap between the first half phone and the second half phone is selected as a connection target of the missing diphone label. Creation device.
前記代替音声モデル生成部は、
任意の欠落ダイフォンラベルの前半部と同一のハーフフォンラベルと対応付いたハーフフォンと、当該欠落ダイフォンラベルの後半部と同一のハーフフォンラベルと対応付いたハーフフォンの、少なくともいずれか一方が複数存在する場合に、前記前半部のハーフフォンと、前記後半部のハーフフォンを、予め定義されたF0値域で区切られた2以上のカテゴリに分類し、同一もしくは近接するカテゴリに分類された前記前半部のハーフフォンと前記後半部のハーフフォンとからなる組み合わせを当該欠落ダイフォンラベルの連結対象として選択することを特徴とする音声素片データベース作成装置。 The speech unit database creation device according to claim 1,
The alternative speech model generation unit
At least one of the half phone corresponding to the same half phone label as the first half of any missing diphone label and the half phone corresponding to the same half phone label as the second half of the missing diphone label When there are a plurality, the first half phone and the second half phone are classified into two or more categories separated by a predefined F0 range, and are classified into the same or adjacent categories. A speech unit database creation apparatus, wherein a combination of a first half phone and a second half phone is selected as a connection target of the missing diphone label.
前記代替音声モデル生成部は、
任意の欠落ダイフォンラベルの前半部と同一のハーフフォンラベルと対応付いたハーフフォン、もしくは任意の欠落ダイフォンラベルの後半部と同一のハーフフォンラベルと対応付いたハーフフォンが存在しない場合に、予め定義された音素間距離マトリクスが最小となるハーフフォンを、前記存在しないハーフフォンの替わりに当該欠落ダイフォンラベルの連結対象として選択することを特徴とする音声素片データベース作成装置。 The speech unit database creation device according to any one of claims 1 to 3,
The alternative speech model generation unit
If there is no half phone associated with the same half phone label as the first half of any missing diphone label, or no half phone associated with the same half phone label as the second half of any missing diphone label, A speech unit database creation apparatus, wherein a half phone having a minimum distance matrix between phonemes is selected as a connection target of the missing diphone label instead of the half phone that does not exist.
前記ダイフォンラベルと、定義済ダイフォンラベルリストとを入力とし、前記定義済ダイフォンラベルリストに存在するが、前記ダイフォンラベルとして入力されていないダイフォンラベルを欠落ダイフォンラベルとして出力する欠落ダイフォンラベル出力部と、
前記音声モデルと前記ダイフォンラベルとを入力とし、前記音声モデルを前半部と後半部に分割して双方をハーフフォンとし、当該分割された音声モデルと対応付いたダイフォンラベルの前半部をハーフフォンラベルとして、当該分割された音声モデルの前半部からなるハーフフォンと対応付けて出力し、当該分割された音声モデルと対応付いたダイフォンラベルの後半部をハーフフォンラベルとして、当該分割された音声モデルの後半部からなるハーフフォンと対応付けて出力するハーフフォン生成部と、
前記ハーフフォンと、前記ハーフフォンラベルと、前記欠落ダイフォンラベルとを入力とし、任意の欠落ダイフォンラベルの前半部と同一もしくは類似のハーフフォンラベルと対応付いたハーフフォンと、当該欠落ダイフォンラベルの後半部と同一もしくは類似のハーフフォンラベルと対応付いたハーフフォンとを連結し、代替音声モデルとして出力する代替音声モデル生成部と、
を備えることを特徴とする代替音声モデル作成装置。 An alternative speech model creation device for creating an alternative speech model from a speech model assigned a diphone label,
Missing output of the diphone label and the defined diphone label list as input, and the diphone label that is present in the defined diphone label list but not entered as the diphone label is output as a missing diphone label A diphone label output section;
The voice model and the diphone label are input, the voice model is divided into a first half and a second half to make both half phones, and the first half of the diphone label associated with the divided voice model is a half phone. The phone label is output in association with the half phone consisting of the first half of the divided voice model, and the second half of the diphone label associated with the divided voice model is used as the half phone label. A half-phone generating unit that outputs the half-phone corresponding to the second half of the speech model;
The half phone that has the half phone, the half phone label, and the missing diphone label as inputs and is associated with a half phone label that is the same as or similar to the front half of any missing diphone label, and the missing diphone An alternative speech model generation unit that connects a half phone corresponding to the same or similar half phone label to the latter half of the label and outputs as an alternative speech model;
An alternative speech model creation device comprising:
テキストを入力とし、読み、アクセント、音韻系列を出力するテキスト解析部と、
読み、アクセントを入力とし、F0、パワー、音韻長を出力する韻律生成部と、
F0、パワー、音韻系列を入力とし、音声素片データベースから音声モデルを選択して出力する音声モデル選択部と、
音声モデル、F0、パワー、音韻長を入力とし、合成音声を出力する音声合成部と、
を備え、前記音声素片データベースが請求項1から5の何れかに記載の装置によって作成されること
を特徴とする音声合成装置。 A speech synthesizer that synthesizes speech from text,
A text analysis unit that takes text as input and outputs a reading, accent, and phoneme sequence;
A prosody generation unit that inputs reading, accent, and outputs F0, power, and phoneme length;
A speech model selection unit that receives F0, power, and phoneme sequence as input, and selects and outputs a speech model from a speech unit database;
A speech synthesizer that receives a speech model, F0, power, and phoneme length as input, and outputs a synthesized speech;
And the speech unit database is created by the apparatus according to any one of claims 1 to 5.
前記音声波形データを入力とし、任意の隣り合う二つの音素区間のうち先の音素区間の後半部と、後の音素区間の前半部とを連結してダイフォン区間とし、当該先の音素区間の音素ラベルと当該後の音素区間の音素ラベルとを連結してダイフォンラベルとし、当該ダイフォン区間と当該ダイフォンラベルとを対応付けて出力する音素−ダイフォン区間変換ステップと、
前記音声波形データと前記ダイフォンラベルと前記ダイフォン区間とを入力とし、前記音声波形データをダイフォン区間ごとに、一定のフレーム長ごとに音声パラメータに変換してダイフォン区間ごとの音声パラメータの列を音声パラメータ系列とし、当該音声パラメータ系列を当該ダイフォン区間と対応付けて出力する音声パラメータ系列変換ステップと、
前記音声パラメータ系列と前記ダイフォンラベルと前記ダイフォン区間とを入力とし、ダイフォン区間ごとに、ダイフォン区間に対応付けられた音声パラメータ系列のうちから1以上の音声パラメータを選択して代表パタンとし、当該代表パタンよりなる音声モデルを生成し、当該ダイフォン区間と対応付いたダイフォンラベルと、当該音声モデルとを対応付けて出力する音声モデル生成ステップと、
前記ダイフォンラベルと、定義済ダイフォンラベルリストとを入力とし、前記定義済ダイフォンラベルリストに存在するが、前記ダイフォンラベルとして入力されていないダイフォンラベルを欠落ダイフォンラベルとして出力する欠落ダイフォンラベル出力ステップと、
前記音声モデルと前記ダイフォンラベルとを入力とし、前記音声モデルを前半部と後半部に分割して双方をハーフフォンとし、当該分割された音声モデルと対応付いたダイフォンラベルの前半部をハーフフォンラベルとして、当該分割された音声モデルの前半部からなるハーフフォンと対応付けて出力し、当該分割された音声モデルと対応付いたダイフォンラベルの後半部をハーフフォンラベルとして、当該分割された音声モデルの後半部からなるハーフフォンと対応付けて出力するハーフフォン生成ステップと、
前記ハーフフォンと、前記ハーフフォンラベルと、前記欠落ダイフォンラベルとを入力とし、任意の欠落ダイフォンラベルの前半部と同一もしくは類似のハーフフォンラベルと対応付いたハーフフォンと、当該欠落ダイフォンラベルの後半部と同一もしくは類似のハーフフォンラベルと対応付いたハーフフォンとを連結し、代替音声モデルとして出力する代替音声モデル生成ステップと、
を備えることを特徴とする音声素片データベース作成方法。 A speech segment database creation method for creating a speech segment database from speech waveform data to which a phoneme label is assigned for each phoneme section length,
The speech waveform data is input, and the second half of the preceding phoneme section and the first half of the subsequent phoneme section of any two adjacent phoneme sections are connected to form a diphone section, and the phonemes of the preceding phoneme section are connected. A phoneme-to-diphone section conversion step of connecting the label and the phoneme label of the subsequent phoneme section to form a diphone label, and associating and outputting the diphone section and the diphone label;
The speech waveform data, the diphone label, and the diphone section are input, and the speech waveform data is converted into speech parameters for each diphone section and for each fixed frame length, and a speech parameter column for each diphone section is converted to speech. A voice parameter series conversion step for outputting the voice parameter series in association with the diphone section as a parameter series;
The voice parameter series, the diphone label, and the diphone section are input, and for each diphone section, one or more voice parameters are selected from the voice parameter series associated with the diphone section as a representative pattern, A speech model generation step of generating a speech model composed of a representative pattern, and outputting a corresponding diphone label associated with the diphone section and the speech model;
Missing output of the diphone label and the defined diphone label list as input, and the diphone label that is present in the defined diphone label list but not entered as the diphone label is output as a missing diphone label A diphone label output step;
The voice model and the diphone label are input, the voice model is divided into a first half and a second half to make both half phones, and the first half of the diphone label associated with the divided voice model is a half phone. The phone label is output in association with the half phone consisting of the first half of the divided voice model, and the second half of the diphone label associated with the divided voice model is used as the half phone label. A half phone generation step of outputting in association with a half phone comprising the second half of the voice model;
The half phone that has the half phone, the half phone label, and the missing diphone label as inputs and is associated with a half phone label that is the same as or similar to the front half of any missing diphone label, and the missing diphone An alternative speech model generation step of connecting a half phone corresponding to the same or similar half phone label to the latter half of the label and outputting as an alternative speech model;
A speech unit database creation method comprising:
前記ダイフォンラベルと、定義済ダイフォンラベルリストとを入力とし、前記定義済ダイフォンラベルリストに存在するが、前記ダイフォンラベルとして入力されていないダイフォンラベルを欠落ダイフォンラベルとして出力する欠落ダイフォンラベル出力ステップと、
前記音声モデルと前記ダイフォンラベルとを入力とし、前記音声モデルを前半部と後半部に分割して双方をハーフフォンとし、当該分割された音声モデルと対応付いたダイフォンラベルの前半部をハーフフォンラベルとして、当該分割された音声モデルの前半部からなるハーフフォンと対応付けて出力し、当該分割された音声モデルと対応付いたダイフォンラベルの後半部をハーフフォンラベルとして、当該分割された音声モデルの後半部からなるハーフフォンと対応付けて出力するハーフフォン生成ステップと、
前記ハーフフォンと、前記ハーフフォンラベルと、前記欠落ダイフォンラベルとを入力とし、任意の欠落ダイフォンラベルの前半部と同一もしくは類似のハーフフォンラベルと対応付いたハーフフォンと、当該欠落ダイフォンラベルの後半部と同一もしくは類似のハーフフォンラベルと対応付いたハーフフォンとを連結し、代替音声モデルとして出力する代替音声モデル生成ステップと、
を備えることを特徴とする代替音声モデル作成方法。 An alternative speech model creation method for creating an alternative speech segment database from a speech model assigned a diphone label,
Missing output of the diphone label and the defined diphone label list as input, and the diphone label that is present in the defined diphone label list but not entered as the diphone label is output as a missing diphone label A diphone label output step;
The voice model and the diphone label are input, the voice model is divided into a first half and a second half to make both half phones, and the first half of the diphone label associated with the divided voice model is a half phone. The phone label is output in association with the half phone consisting of the first half of the divided voice model, and the second half of the diphone label associated with the divided voice model is used as the half phone label. A half phone generation step of outputting in association with a half phone comprising the second half of the voice model;
The half phone that has the half phone, the half phone label, and the missing diphone label as inputs and is associated with a half phone label that is the same as or similar to the front half of any missing diphone label, and the missing diphone An alternative speech model generation step of connecting a half phone corresponding to the same or similar half phone label to the latter half of the label and outputting as an alternative speech model;
An alternative speech model creation method comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010112373A JP5449022B2 (en) | 2010-05-14 | 2010-05-14 | Speech segment database creation device, alternative speech model creation device, speech segment database creation method, alternative speech model creation method, program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010112373A JP5449022B2 (en) | 2010-05-14 | 2010-05-14 | Speech segment database creation device, alternative speech model creation device, speech segment database creation method, alternative speech model creation method, program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011242465A true JP2011242465A (en) | 2011-12-01 |
JP5449022B2 JP5449022B2 (en) | 2014-03-19 |
Family
ID=45409212
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010112373A Expired - Fee Related JP5449022B2 (en) | 2010-05-14 | 2010-05-14 | Speech segment database creation device, alternative speech model creation device, speech segment database creation method, alternative speech model creation method, program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5449022B2 (en) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06167989A (en) * | 1992-12-01 | 1994-06-14 | N T T Data Tsushin Kk | Speech synthesizing device |
JP2000075878A (en) * | 1998-08-31 | 2000-03-14 | Canon Inc | Device and method for voice synthesis and storage medium |
JP2003208188A (en) * | 2002-01-15 | 2003-07-25 | Advanced Telecommunication Research Institute International | Japanese text voice synthesizing method |
JP2004252316A (en) * | 2003-02-21 | 2004-09-09 | Canon Inc | Information processor, information processing method and program, storage medium |
JP2006084715A (en) * | 2004-09-15 | 2006-03-30 | Canon Inc | Method and device for element piece set generation |
-
2010
- 2010-05-14 JP JP2010112373A patent/JP5449022B2/en not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06167989A (en) * | 1992-12-01 | 1994-06-14 | N T T Data Tsushin Kk | Speech synthesizing device |
JP2000075878A (en) * | 1998-08-31 | 2000-03-14 | Canon Inc | Device and method for voice synthesis and storage medium |
JP2003208188A (en) * | 2002-01-15 | 2003-07-25 | Advanced Telecommunication Research Institute International | Japanese text voice synthesizing method |
JP2004252316A (en) * | 2003-02-21 | 2004-09-09 | Canon Inc | Information processor, information processing method and program, storage medium |
JP2006084715A (en) * | 2004-09-15 | 2006-03-30 | Canon Inc | Method and device for element piece set generation |
Non-Patent Citations (2)
Title |
---|
CSNG200100868023; 小山貴夫 吉岡隆 高橋淳一 中村太一: 'ピッチ変形幅を抑えたVCV波形素片生成機構をもつ高品質波形規則合成方式' 電子情報通信学会論文誌 J83-D-II, 20001125, pp.2264-2275 * |
JPN6013028981; 小山貴夫 吉岡隆 高橋淳一 中村太一: 'ピッチ変形幅を抑えたVCV波形素片生成機構をもつ高品質波形規則合成方式' 電子情報通信学会論文誌 J83-D-II, 20001125, pp.2264-2275 * |
Also Published As
Publication number | Publication date |
---|---|
JP5449022B2 (en) | 2014-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11735162B2 (en) | Text-to-speech (TTS) processing | |
US8571871B1 (en) | Methods and systems for adaptation of synthetic speech in an environment | |
US10692484B1 (en) | Text-to-speech (TTS) processing | |
US7603278B2 (en) | Segment set creating method and apparatus | |
JP4025355B2 (en) | Speech synthesis apparatus and speech synthesis method | |
US7010488B2 (en) | System and method for compressing concatenative acoustic inventories for speech synthesis | |
JP3910628B2 (en) | Speech synthesis apparatus, speech synthesis method and program | |
US11763797B2 (en) | Text-to-speech (TTS) processing | |
JP6342428B2 (en) | Speech synthesis apparatus, speech synthesis method and program | |
US9978359B1 (en) | Iterative text-to-speech with user feedback | |
US20010056347A1 (en) | Feature-domain concatenative speech synthesis | |
JP2007249212A (en) | Method, computer program and processor for text speech synthesis | |
US20040030555A1 (en) | System and method for concatenating acoustic contours for speech synthesis | |
US10699695B1 (en) | Text-to-speech (TTS) processing | |
CN112102811B (en) | Optimization method and device for synthesized voice and electronic equipment | |
Qian et al. | Improved prosody generation by maximizing joint probability of state and longer units | |
JP2016151736A (en) | Speech processing device and program | |
JP4247289B1 (en) | Speech synthesis apparatus, speech synthesis method and program thereof | |
JP2017167526A (en) | Multiple stream spectrum expression for synthesis of statistical parametric voice | |
Mullah | A comparative study of different text-to-speech synthesis techniques | |
JP5449022B2 (en) | Speech segment database creation device, alternative speech model creation device, speech segment database creation method, alternative speech model creation method, program | |
KR102277205B1 (en) | Apparatus for converting audio and method thereof | |
JP6314828B2 (en) | Prosody model learning device, prosody model learning method, speech synthesis system, and prosody model learning program | |
Wen et al. | Prosody Conversion for Emotional Mandarin Speech Synthesis Using the Tone Nucleus Model. | |
Wang et al. | Emotional voice conversion for mandarin using tone nucleus model–small corpus and high efficiency |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121004 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130610 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130618 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130729 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130822 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131008 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131112 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131217 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131224 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5449022 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |