JP5552797B2 - Speech synthesis apparatus and speech synthesis method - Google Patents
Speech synthesis apparatus and speech synthesis method Download PDFInfo
- Publication number
- JP5552797B2 JP5552797B2 JP2009256027A JP2009256027A JP5552797B2 JP 5552797 B2 JP5552797 B2 JP 5552797B2 JP 2009256027 A JP2009256027 A JP 2009256027A JP 2009256027 A JP2009256027 A JP 2009256027A JP 5552797 B2 JP5552797 B2 JP 5552797B2
- Authority
- JP
- Japan
- Prior art keywords
- segment
- speech
- information
- data
- library
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Electrophonic Musical Instruments (AREA)
Description
本発明は、音声(典型的には歌唱音)を合成する技術に関する。 The present invention relates to a technique for synthesizing voice (typically singing sound).
音声素片を示す複数の素片データの集合(以下「音声ライブラリ」という)を利用して所望の音声を合成する技術が従来から提案されている(例えば特許文献1)。音声ライブラリは、実際の音声を採取したうえで音声素片毎に区分および解析することで作成される。 Conventionally, a technique for synthesizing a desired speech using a set of a plurality of segment data (hereinafter referred to as “speech library”) indicating speech segments has been proposed (for example, Patent Document 1). The speech library is created by collecting and analyzing actual speech and then segmenting and analyzing each speech unit.
特許文献1の技術のもとでは、合成すべき音声の特性毎に別個の音声ライブラリが必要となる。したがって、既存の音声ライブラリとは特性が異なる音声(例えば別の歌手の歌唱音)を合成するためには、音声ライブラリを新規に作成する必要がある。また、多様な音声の合成には多数の音声ライブラリが使用されるから、これらの音声ライブラリの記憶に必要な記憶装置の容量が増大するという問題もある。以上の事情を考慮して、本発明は、音声ライブラリの作成の労力や音声ライブラリの記憶に必要な容量を削減しながら多様な音声を合成することを目的とする。 Under the technique of Patent Document 1, a separate audio library is required for each characteristic of audio to be synthesized. Therefore, in order to synthesize a voice having characteristics different from those of an existing voice library (for example, a singer's singing sound), it is necessary to create a new voice library. In addition, since a large number of voice libraries are used for synthesizing various voices, there is a problem that the capacity of a storage device necessary for storing these voice libraries increases. In view of the above circumstances, an object of the present invention is to synthesize various voices while reducing the effort for creating a voice library and the capacity required for storing the voice library.
以上の課題を解決するために、本発明の第1態様に係る音声合成装置は、音声素片を示す複数の素片データを含む音声ライブラリと、素片データの利用を規定する素片利用情報が、音声ライブラリ内の1個以上の素片データを単位として複数の前記単位の各々を対象に設定された付属情報とを記憶する記憶手段と、指定音(合成の対象として指定された音)の時系列を示す音楽情報に応じて音声ライブラリの素片データを順次に選択する素片選択手段と、素片選択手段が選択した各素片データを、付属情報にて当該素片データに設定された素片利用情報に応じて加工する素片加工手段と、素片加工手段による加工後の素片データから音声を合成する合成処理手段とを具備する。以上の構成においては、付属情報を音声ライブラリに適用することで合成音が生成されるから、新規な音声ライブラリを追加せずに、既存の音声ライブラリからの合成音とは音響的な特性が相違する合成音を生成することが可能である。すなわち、音声ライブラリの作成の労力や音声ライブラリの記憶に必要な容量を削減しながら多様な音声を合成することが可能である。 In order to solve the above problems, the speech synthesizer according to the first aspect of the present invention includes a speech library including a plurality of segment data indicating speech segments, and segment usage information that defines the usage of the segment data. but storage means for storing the attribute information set in the target each of the plurality of the unit one or more fragment data in the speech library as a unit, designated sounds (designated as the synthesis of the target) The segment selection means for sequentially selecting segment data of the audio library according to the music information indicating the time series, and each segment data selected by the segment selection means is set as the segment data in the attached information Segment processing means for processing according to the segment usage information, and synthesis processing means for synthesizing speech from the segment data processed by the segment processing means. In the above configuration, synthesized sound is generated by applying the attached information to the audio library, so the acoustic characteristics are different from the synthesized sound from the existing audio library without adding a new audio library. It is possible to generate a synthesized sound. That is, it is possible to synthesize various voices while reducing the effort required to create a voice library and the capacity required for storing the voice library.
なお、記憶手段は、音声ライブラリおよび付属情報を記憶する単体の記録媒体と、音声ライブラリおよび付属情報の各々を別個に記憶する別体の複数の記録媒体とを含む概念である。また、記憶手段と音楽情報を記憶する手段とは、別体の記録媒体、または、単体の記録媒体に設定された別個の記憶領域であり得る。 The storage means is a concept including a single recording medium for storing the audio library and the attached information, and a plurality of separate recording media for separately storing the audio library and the attached information. The storage means and the means for storing music information may be separate recording media or separate storage areas set on a single recording medium.
本発明の好適な態様において、付属情報は、素片データのうち音声の合成に使用される区間を示す区間情報を含み、素片加工手段は、素片選択手段が選択した素片データのうち区間情報が示す区間を抽出する。以上の態様においては、各素片データの使用区間を既存の音声ライブラリの素片データから相違させることで多様な合成音を生成することが可能である。また、他の態様において、付属情報は、素片データに対応する音声素片内の特徴量を示す特性情報を含み、素片加工手段は、素片選択手段が選択した素片データの特徴量を特性情報に応じて制御する。以上の態様においては、各素片データの特徴量の変化を既存の音声ライブラリの素片データから相違させることで多様な合成音を生成することが可能である。以上の各態様の具体例は第1実施形態として後述される。 In a preferred aspect of the present invention, the attached information includes section information indicating a section used for speech synthesis in the piece data, and the piece processing means includes the piece data selected by the piece selection means. The section indicated by the section information is extracted. In the above aspect, it is possible to generate various synthesized sounds by making the usage interval of each piece data different from the piece data of the existing speech library. In another aspect, the attached information includes characteristic information indicating a feature amount in the speech unit corresponding to the piece data, and the piece processing means is a feature amount of the piece data selected by the piece selection means. Is controlled according to the characteristic information. In the above aspect, various synthesized sounds can be generated by making the change in the feature amount of each piece data different from the piece data of the existing speech library. Specific examples of the above aspects will be described later as the first embodiment.
本発明の好適な態様において、記憶手段は、複数の音声ライブラリを記憶し、付属情報は、複数の音声ライブラリの各々の素片データの混合比を指示し、素片選択手段は、複数の音声ライブラリの各々から素片データを選択し、素片加工手段は、素片選択手段が各音声ライブラリから選択した素片データを、付属情報が示す混合比で混合する。以上の態様においては、各音声ライブラリから選択された素片データが付属情報の規定する混合比で混合されるから、複数の音声ライブラリの各々の素片データの特性を反映した合成音を生成することが可能である。以上の態様の具体例は第2実施形態として後述される。 In a preferred aspect of the present invention, the storage means stores a plurality of sound libraries, the attached information indicates a mixture ratio of each piece data of the plurality of sound libraries, and the piece selection means has a plurality of sound libraries. The segment data is selected from each of the libraries, and the segment processing unit mixes the segment data selected from each speech library by the segment selection unit at a mixing ratio indicated by the attached information. In the above aspect, since the segment data selected from each speech library is mixed at the mixing ratio specified by the attached information, a synthesized sound reflecting the characteristics of each segment data of the plurality of speech libraries is generated. It is possible. A specific example of the above aspect will be described later as a second embodiment.
本発明の第2態様に係る音声合成装置は、音声素片を示す複数の素片データを各々が含む複数の音声ライブラリと、複数の音声ライブラリの各々の素片データについて制御変数の設定値を示す付属情報とを記憶する第1記憶手段と、指定音の時系列を示す音楽情報を記憶する第2記憶手段と、制御変数の指示値を順次に指示する変数指示手段と、複数の音声ライブラリの各々において音楽情報に応じた素片データのうち、付属情報における設定値が変数指示手段による指示値に近い素片データを選択する素片選択手段と、素片選択手段が選択した素片データから音声を合成する合成処理手段とを具備する。以上の構成においては、各音声ライブラリから選択された素片データを利用して合成音が生成されるから、新規な音声ライブラリを追加せずに、既存の1個の音声ライブラリからの合成音とは音響的な特性が相違する合成音を生成することが可能である。すなわち、音声ライブラリの作成の労力や音声ライブラリの記憶に必要な容量を削減しながら多様な音声を合成することが可能である。以上の態様の具体例は第3実施形態として後述される。 The speech synthesizer according to the second aspect of the present invention includes a plurality of speech libraries each including a plurality of segment data indicating speech units, and setting values of control variables for each segment data of the plurality of speech libraries. First storage means for storing the attached information to be shown, second storage means for storing music information indicating the time series of the designated sound, variable instruction means for sequentially indicating the instruction values of the control variables, and a plurality of audio libraries Among the segment data corresponding to the music information, the segment selection means for selecting the segment data whose set value in the attached information is close to the instruction value by the variable instruction means, and the segment data selected by the segment selection means Synthesizing means for synthesizing speech from. In the above configuration, the synthesized sound is generated using the segment data selected from each speech library. Therefore, the synthesized speech from one existing speech library can be generated without adding a new speech library. Can generate synthesized sounds with different acoustic characteristics. That is, it is possible to synthesize various voices while reducing the effort required to create a voice library and the capacity required for storing the voice library. A specific example of the above aspect will be described later as a third embodiment.
以上の各態様に係る音声合成装置は、音声の合成に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明の第1態様に係るプログラムは、音声素片を示す複数の素片データを含む音声ライブラリと、素片データの利用を規定する素片利用情報が、音声ライブラリ内の1個以上の素片データを単位として複数の前記単位の各々を対象に設定された付属情報とを記憶する記憶手段を具備するコンピュータに、指定音の時系列を示す音楽情報に応じて音声ライブラリの素片データを順次に選択する素片選択処理と、素片選択処理で選択した各素片データを、付属情報にて当該素片データに設定された素片利用情報に応じて加工する素片加工処理と、素片加工処理による加工後の素片データから音声を合成する合成処理処理とを実行させる。以上のプログラムによれば、第1態様に係る音声合成装置と同様の作用および効果が実現される。 The speech synthesizer according to each aspect described above is realized by hardware (electronic circuit) such as a DSP (Digital Signal Processor) dedicated to speech synthesis and general-purpose arithmetic processing such as a CPU (Central Processing Unit). This is also realized by cooperation between the apparatus and the program. The program according to the first aspect of the present invention includes a speech library including a plurality of segment data indicating speech segments, and segment usage information for defining the usage of the segment data in one or more segments in the speech library. In a computer having storage means for storing auxiliary information set for each of a plurality of units with a piece of data as a unit, the piece of speech library data is stored in accordance with the music information indicating the time series of the specified sound. Segment selection processing for sequentially selecting, segment processing for processing each segment data selected in the segment selection processing according to the segment usage information set in the segment data in the attached information, And synthesizing processing for synthesizing speech from segment data after processing by segment processing. According to the above program, the same operation and effect as the speech synthesizer according to the first aspect are realized.
また、本発明の第2態様に係るプログラムは、音声素片を示す複数の素片データを各々が含む複数の音声ライブラリと、複数の音声ライブラリの各々の素片データについて制御変数の設定値を示す付属情報とを記憶する第1記憶手段と、指定音の時系列を示す音楽情報を記憶する第2記憶手段とを具備するコンピュータに、制御変数の指示値を順次に指示する変数指示処理と、複数の音声ライブラリの各々において音楽情報に応じた素片データのうち、付属情報における設定値が変数指示処理による指示値に近い素片データを選択する素片選択処理と、素片選択処理で選択した素片データから音声を合成する合成処理処理とを実行させる。以上のプログラムによれば、第2態様に係る音声合成装置と同様の作用および効果が実現される。 The program according to the second aspect of the present invention includes a plurality of speech libraries each including a plurality of segment data indicating speech segments, and setting values of control variables for each segment data of the plurality of speech libraries. Variable instruction processing for sequentially instructing instruction values of control variables to a computer having first storage means for storing attached information and second storage means for storing music information indicating a time series of a specified sound; In each of the plurality of audio libraries, segment selection processing for selecting segment data in which the set value in the attached information is close to the instruction value by the variable instruction processing among the segment data corresponding to the music information, and the segment selection processing And a synthesis process for synthesizing speech from the selected segment data. According to the above program, the same operation and effect as the speech synthesizer according to the second aspect are realized.
本発明の各態様に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。 The program according to each aspect of the present invention is provided to the user in a form stored in a computer-readable recording medium and installed in the computer, and is also provided from the server device in the form of distribution via a communication network. Installed on the computer.
<A:第1実施形態>
図1は、本発明の第1実施形態に係る音声合成装置100のブロック図である。音声合成装置100は、歌唱音などの様々な音声(以下「合成音」という)を合成する装置であり、図1に示すように、制御装置10と記憶装置12と入力装置14と表示装置16と放音装置18とを具備するコンピュータシステムで実現される。音声合成装置100を楽曲の歌唱音の合成に利用する場合を以下では想定する。
<A: First Embodiment>
FIG. 1 is a block diagram of a
制御装置(CPU)10は、記憶装置12に記憶されたプログラムPGの実行で、音声信号SOUTの生成に必要な複数の機能(表示制御部22,情報生成部24,音声合成部26)を実現する。音声信号SOUTは、合成音の波形を表す信号である。なお、制御装置10の各機能を専用の電子回路(DSP)で実現した構成や、制御装置10の各機能を複数の集積回路に分散した構成も採用され得る。
The control device (CPU) 10 realizes a plurality of functions (
入力装置14は、利用者からの指示を受付ける機器(例えばマウスやキーボード)である。表示装置(例えば液晶表示装置)16は、制御装置10から指示された画像を表示する。放音装置(例えばスピーカやヘッドホン)18は、制御装置10が生成する音声信号SOUTに応じた音波を放射する。
The
記憶装置12は、制御装置10が実行するプログラムPGや制御装置10が使用する各種のデータ(音楽情報DS,音声ライブラリL,付属情報A)を記憶する。半導体記録媒体や磁気記録媒体などの公知の記録媒体または複数種の記録媒体の組合せが記憶装置12として任意に採用される。なお、プログラムPGや各データ(DS,L,A)を複数の記録媒体に分散して記憶した構成も採用される。
The
音楽情報DSは、楽曲を構成する音符(以下「指定音」という)の時系列を示す情報(スコアデータ)である。具体的には、音楽情報DSは、指定音の音高(ノートナンバ)と発音期間と発音文字とを楽曲内の指定音毎に指定する。発音期間は、例えば発音が開始する時刻と発音が継続される時間長とで規定される。発音文字は、音節を単位として発音の内容(歌詞)を示す文字である。 The music information DS is information (score data) indicating a time series of musical notes (hereinafter referred to as “designated sound”) constituting the music. Specifically, the music information DS designates the pitch (note number) of the designated sound, the pronunciation period, and the pronunciation character for each designated sound in the music. The sound generation period is defined by, for example, the time when sound generation starts and the length of time during which sound generation is continued. The pronunciation character is a character indicating the content (lyrics) of the pronunciation in syllable units.
図1の音声ライブラリLは、相異なる音声素片に対応する複数の素片データVの集合である。各素片データVは、合成音の素材として利用される。音声素片は、例えば、音声を聴覚的に区別し得る最小の単位に相当する音素、または複数の音素を連結した音素連鎖である。音素連鎖は、典型的には2個の音素の連鎖(子音-母音,母音-子音,子音-子音,母音-母音)であるが、3個以上の音素の連鎖(例えば子音-母音-子音)や音節をも包含する概念である。 The speech library L in FIG. 1 is a set of a plurality of segment data V corresponding to different speech segments. Each piece data V is used as a synthetic sound material. The phoneme segment is, for example, a phoneme corresponding to a minimum unit that can be audibly distinguished from a voice, or a phoneme chain in which a plurality of phonemes are connected. A phoneme chain is typically a chain of two phonemes (consonant-vowel, vowel-consonant, consonant-consonant, vowel-vowel), but a chain of three or more phonemes (eg consonant-vowel-consonant). It is also a concept that encompasses syllables.
図1に示すように、音声ライブラリLを構成する各音声素片の素片データVは、その音声素片の波形(以下「素片波形」という)Wと、素片波形Wの初期的な使用区間を指示する区間情報Qとを含んで構成される。使用区間は、素片波形Wのうち実際に合成音の生成に使用される区間に相当する。図2は、母音の音素[a]と子音の音素[s]とを連続させた音声素片(音素連鎖)[a_s]の素片波形Wの模式図である。区間情報Qは、始点s0と終点e0とにわたる素片波形Wの全区間のうち、使用区間の初期的な始点(以下「初期始点」という)qSと、使用区間の初期的な終点(以下「初期終点」という)qEとを指示する。 As shown in FIG. 1, the segment data V of each speech unit constituting the speech library L includes the waveform W of the speech unit (hereinafter referred to as “segment waveform”) W and the initial unit waveform W. And section information Q indicating a section to be used. The used section corresponds to a section of the unit waveform W that is actually used for generating a synthesized sound. FIG. 2 is a schematic diagram of a unit waveform W of a speech unit (phoneme chain) [a_s] in which a vowel phoneme [a] and a consonant phoneme [s] are continuous. The section information Q includes the initial start point of the used section (hereinafter referred to as “initial start point”) qS and the initial end point of the used section (hereinafter “ QE) (referred to as "initial end point").
図1の付属情報Aは、音声ライブラリL内の各素片データVの加工に適用される。図3に示すように、付属情報Aは、音声ライブラリLに収録された複数の音声素片(素片データV)のうち利用者が編集を指示した音声素片毎に、区間情報Pおよび特性情報Fの少なくとも一方を含んで構成される。利用者が編集を指示しない音声素片について区間情報Pや特性情報Fは付属情報Aに含まれない。 The attached information A in FIG. 1 is applied to the processing of each piece data V in the audio library L. As shown in FIG. 3, the attached information A includes the section information P and the characteristics for each speech unit that the user has instructed to edit among a plurality of speech units (segment data V) recorded in the speech library L. It is configured to include at least one of the information F. The segment information P and the characteristic information F are not included in the attached information A for the speech unit that the user does not instruct to edit.
区間情報Pは、音声ライブラリL内の素片データVが示す素片波形Wのうち実際に音声合成に使用される使用区間を指定する情報である。図2に示すように、区間情報Pは、使用区間の始点pSおよび終点pEを可変に指示する。区間情報Pが指定する始点pSは、音声ライブラリL内の区間情報Qが指定する初期始点qSとは相違し得る。同様に、区間情報Pの終点pEは初期終点qEとは相違し得る。始点pSは初期始点qSに対する変化量として指定され、終点pEは初期終点qEに対する変化量として指定される。 The section information P is information for designating a use section that is actually used for speech synthesis in the unit waveform W indicated by the unit data V in the speech library L. As shown in FIG. 2, the section information P variably indicates the start point pS and the end point pE of the use section. The starting point pS specified by the section information P may be different from the initial starting point qS specified by the section information Q in the audio library L. Similarly, the end point pE of the section information P may be different from the initial end point qE. The start point pS is specified as a change amount with respect to the initial start point qS, and the end point pE is specified as a change amount with respect to the initial end point qE.
図3の特性情報Fは、音声ライブラリL内の各素片データVが示す素片波形W内での特徴量(特に時間的な変化)を示す。具体的には、素片波形W内の音量,ピッチ,ホルマント周波数,または音色の時間的な変化が特性情報Fで指示される。音色の時間的な変化は、例えばスペクトルやMFCC(mel-frequency cepstrum coefficient)の遷移で定義される。 The characteristic information F in FIG. 3 indicates a feature amount (particularly temporal change) in the segment waveform W indicated by each segment data V in the audio library L. Specifically, the temporal change in volume, pitch, formant frequency, or timbre in the segment waveform W is indicated by the characteristic information F. The temporal change in timbre is defined by, for example, the transition of a spectrum or MFCC (mel-frequency cepstrum coefficient).
図1の表示制御部22は、音楽情報DSや付属情報Aの生成および編集のために利用者が視認する編集画像40を表示装置16に表示させる。図4は、編集画像40の模式図である。図4に例示するように、編集画像40は、指定音の時系列を表示する楽譜領域42と、付属情報Aの編集に利用される編集領域44とを含んで構成される。
The
楽譜領域42は、音高に対応する縦軸(音高軸)と時間に対応する横軸(時間軸)とが設定されたピアノロール型の画像領域である。利用者は、楽譜領域42を視認しながら入力装置14を適宜に操作することで指定音の音高と発音期間と発音文字とを指示する。表示制御部22は、利用者から指示された指定音に対応する音指示子51を楽譜領域42内に配置する。音高軸の方向における音指示子51の位置は利用者が指示した音高に応じて決定され、時間軸の方向における音指示子51の各端点は利用者が指示した発音期間の始点および終点に相当する。また、利用者から指示された発音文字が各音指示子51に付加される。なお、指定音の音譜を五線譜に記譜した楽譜の画像を楽譜領域42に配置した構成も採用され得る。
The
図1の情報生成部24は、利用者が楽譜領域42に対して指示した指定音の音高と発音期間と発音文字とを対応させて記憶装置12の音楽情報DSに格納する。以上の処理が反復されることで、利用者から指示された指定音の時系列を示す音楽情報DSが記憶装置12に生成され、各指定音の音指示子の時系列が図4の例示のように楽譜領域42に表示される。
The
編集領域44は、波形領域441と特性領域443とを含んで構成される。表示制御部22は、利用者が指示した指定音の合成に使用される各素片データVの素片波形Wを波形領域441内に時系列に配置する。波形領域441に素片波形Wが表示される素片データVは、指定音に指示された発音文字に応じて選択される。例えば、図4の例示のように「あさ(朝)」が発音文字として指示された場合、表示制御部22は、音声素片[#_a](「#」は無音を意味する),[a],[a_s],[s_a],[a]および[a_#]の各々に対応する素片データVを記憶装置12の音声ライブラリLから取得して各素片波形Wを波形領域441内に時系列に配列する。
The
表示制御部22は、素片波形Wのうち使用区間の始点を示す始点指示子532と使用区間の終点を示す終点指示子534とを素片波形W毎に配置する。始点指示子532の初期的な位置は、音声ライブラリL内の素片データVの区間情報Qが示す初期始点qSに設定される。同様に、終点指示子534の初期的な位置は、素片データVの区間情報Qが示す初期終点qEに設定される。利用者は、入力装置14を適宜に操作することで、波形領域441内に配置された複数の素片波形Wの何れかを選択するとともにその素片波形Wの始点指示子532および終点指示子534の移動を指示することが可能である。表示制御部22は、入力装置14に対する利用者からの指示に応じて、始点指示子532と終点指示子534とを、各素片波形Wの始点s0から終点e0までの範囲内で移動させる。
The
また、表示制御部22は、各指定音の合成に使用される素片データVの特徴量の遷移を示す特性遷移画像55を素片波形W毎に特性領域443に配置する。例えば、表示制御部22は、図4の例示のように、各素片データVの音量の時間的な遷移を示すグラフ(折線グラフ)を特性遷移画像55として表示装置16に表示させる。各素片波形Wに対応する特性遷移画像55は、波形領域441におけるその素片波形Wと時間軸を共通にして表示される。利用者は、入力装置14を適宜に操作することで、特性遷移画像55の編集(変更)を指示することが可能である。表示制御部22は、利用者からの指示に応じて特性遷移画像55を編集する。
Further, the
情報生成部24は、編集領域44に対する利用者からの指示に応じて付属情報Aを更新する。具体的には、情報生成部24は、各素片データVの素片波形Wに対して利用者から指示された始点指示子532および終点指示子534の各々の位置を特定し、始点指示子532の位置に応じた始点pSと終点指示子534の位置に応じた終点pEとを示す情報を、その素片データVの区間情報Pとして生成したうえで付属情報Aに格納する。すなわち、音声ライブラリL内の区間情報Qが指示する使用区間が維持されたまま、付属情報Aの区間情報Pが指示する使用区間は、利用者からの指示に応じて可変に設定される。
The
また、情報生成部24は、各素片データVの素片波形Wについて利用者が編集した特性遷移画像55から特性情報Fを生成して付属情報Aに格納する。すなわち、音声ライブラリL内の各素片データVの素片波形Wが維持されたまま、付属情報Aの特性情報Fが素片波形Wについて指示する特徴量は、利用者からの指示に応じて可変に設定される。以上に説明したように、始点指示子532または終点指示子534の移動や特性遷移画像55の変更が利用者から指示された場合でも、付属情報Aが更新されるだけで、音声ライブラリL内の各素片データVは何ら変更されない。
Further, the
図1の音声合成部26は、記憶装置12に格納された音楽情報DSが示す指定音を合成して音声信号SOUTを生成する。概略的には、音声合成部26は、音声ライブラリLのうち音楽情報DSに応じて選択した素片データVを付属情報Aに応じて加工して相互に連結することで音声信号SOUTを生成する。図5に示すように、音声合成部26は、素片選択部32と素片加工部34と合成処理部36とを含んで構成される。素片選択部32は、音楽情報DSにて各指定音に指示された発音文字に対応する各音声素片の素片データVを記憶装置12の音声ライブラリLから順次に選択する。
The
素片加工部34は、素片選択部32が選択した各素片データVを加工する。素片選択部32が選択した素片データVについて付属情報Aに区間情報Pや特性情報Fが含まれない場合、素片加工部34は、その素片データVが示す素片波形Wのうち音声ライブラリLの区間情報Qで指示される使用区間(図2の始点qSと終点qEとにわたる区間)を、音楽情報DSが指示する音高および発音期間に調整する。
The
他方、素片選択部32が選択した素片データVについて付属情報Aに区間情報Pが含まれる場合、素片加工部34は、その素片データVが示す素片波形Wのうち当該区間情報Pで指示された使用区間(始点pSと終点pEとにわたる区間)を抽出し、抽出後の使用区間を、音楽情報DSが指示する音高および発音期間に調整する。すなわち、付属情報Aの区間情報Pに応じた加工(使用区間の抽出)が素片データVに対して実行される。なお、素片データVの音高や発音期間の調整には公知の技術が任意に採用される。また、素片データVの音高や発音期間の調整後に区間情報Pに応じた使用区間を抽出する構成も採用され得る。
On the other hand, when the segment information P is included in the attached information A for the segment data V selected by the
また、素片選択部32が選択した素片データVについて付属情報Aに特性情報Fが含まれる場合、素片加工部34は、その素片データVが示す素片波形Wの使用区間を、音楽情報DSが指示する音高および発音期間に調整するとともに特性情報Fに応じて加工する。具体的には、素片加工部34は、特性情報Fで指示される特性が素片波形Wの使用区間に対して付加されるように、素片波形Wの特徴量を特性情報Fに応じて制御する。例えば、特性情報Fが音量の時系列を示す場合、素片加工部34は、素片波形Wの使用区間内の音量が特性情報Fの音量の時系列に沿うように素片データVを加工する。なお、素片データVのうち特性情報Fに応じた加工の対象となる使用区間は、付属情報Aが区間情報Pを含まない素片データVについては音声ライブラリLの区間情報Qが示す使用区間であり、付属情報Aが区間情報Pを含む素片データVについては当該区間情報Pが示す使用区間である。
Further, in the case where the characteristic information F is included in the attached information A for the segment data V selected by the
図5の合成処理部36は、素片加工部34による加工後の各素片データVを時間軸上で相互に連結することで音声信号SOUTを生成する。以上の説明から理解されるように、楽譜領域42の各音指示子51が示す音符で構成される楽曲を各指定音の発音文字で歌唱した歌唱音の音声信号SOUTが生成される。なお、素片データVを利用した音声信号SOUTの生成には公知の技術が任意に採用される。
The
以上に説明したように、第1実施形態においては、既存の音声ライブラリLに付属情報Aを適用することで合成音が生成されるから、音声ライブラリLとは別個の音声ライブラリを実際には用意することなく、収録音の特性が音声ライブラリLとは相違する新規な音声ライブラリ(仮想的な音声ライブラリ)を利用した場合と同等の音声信号SOUTを生成することが可能である。すなわち、音声毎に別個の音声ライブラリLを用意しなくても、相異なる特性の音声を合成することが可能である。したがって、音声ライブラリLの作成の労力を削減しながら、新規な音声ライブラリLを作成および利用した場合と同様に多様な音声を合成できるという利点がある。また、付属情報Aは音声ライブラリLと比較してデータ量が少ないから、新規な音声ライブラリLを用意する場合と比較して、記憶装置12に必要な容量が削減されるという利点もある。
As described above, in the first embodiment, since the synthesized sound is generated by applying the auxiliary information A to the existing sound library L, a sound library separate from the sound library L is actually prepared. Without being performed, it is possible to generate an audio signal SOUT equivalent to the case of using a new audio library (virtual audio library) whose recorded sound characteristics are different from those of the audio library L. That is, it is possible to synthesize sounds having different characteristics without preparing a separate sound library L for each sound. Therefore, there is an advantage that various voices can be synthesized as in the case of creating and using a new voice library L while reducing the effort for creating the voice library L. Further, since the attached information A has a smaller data amount than the audio library L, there is an advantage that the capacity required for the
<B:第2実施形態>
次に、本発明の第2実施形態を説明する。なお、以下の各例示において作用や機能が第1実施形態と同等である要素については、以上と同じ符号を付して各々の詳細な説明を適宜に省略する。
<B: Second Embodiment>
Next, a second embodiment of the present invention will be described. In the following examples, elements having the same functions and functions as those of the first embodiment are denoted by the same reference numerals, and detailed descriptions thereof are omitted as appropriate.
図6は、第2実施形態における音声の合成を説明するための模式図である。図6に示すように、第2実施形態の記憶装置12は、複数(以下の例示では2個)の音声ライブラリL(L1,L2)を記憶する。各音声ライブラリL(L1,L2)は、第1実施形態と同様に音声素片毎の素片データV(V1,V2)の集合である。音声ライブラリL1と音声ライブラリL2とは、相異なる特性の音声から生成される。例えば、各音声素片の抽出元となる音声の発声者が音声ライブラリL1と音声ライブラリL2とでは相違する。なお、ひとりの発声者が相異なる特性で発声した複数の音声の各々から音声ライブラリL1と音声ライブラリL2とを生成してもよい。
FIG. 6 is a schematic diagram for explaining speech synthesis in the second embodiment. As shown in FIG. 6, the
図6の素片選択部32は、音楽情報DSにて各指定音に指定された発音文字に対応する各音声素片の素片データVを音声ライブラリL1および音声ライブラリL2の各々から順次に選択する。したがって、音声ライブラリL1内の素片データV1と音声ライブラリL2内の素片データV2とが、各発音文字に対応する音声素片毎に順次に選択される。
The
図6に示すように、第2実施形態の付属情報Aは、音声ライブラリL1および音声ライブラリL2に収録された複数の音声素片の各々について、音声ライブラリL1内の素片データV1と音声ライブラリL2内の素片データV2との混合比Rを指示する。付属情報Aが指示する各混合比Rは、例えば入力装置14に対する利用者からの指示に応じて可変に設定される。
As shown in FIG. 6, the attached information A of the second embodiment is that, for each of a plurality of speech units recorded in the speech library L1 and the speech library L2, the segment data V1 and speech library L2 in the speech library L1. The mixing ratio R with the segment data V2 is indicated. Each mixing ratio R indicated by the auxiliary information A is variably set according to an instruction from the user to the
素片加工部34は、素片選択部32が音声ライブラリL1から選択した素片データV1と音声ライブラリL2から選択した素片データV2とを、その音声素片に対して付属情報Aに指示された混合比Rで混合(加算)することで素片データVAを生成する。なお、音楽情報DSに応じた音高や発音期間の調整は、素片加工部34による混合前または混合後に、第1実施形態にて例示した方法で実行される。合成処理部36は、素片加工部34による加工後(混合後)の素片データVAから音声信号SOUTを生成する。
The
以上の形態においては、音声ライブラリL1の素片データV1と音声ライブラリL2の素片データV2とを付属情報Aの混合比Rで混合したうえで音声信号SOUTの生成に利用する。したがって、音声ライブラリLを新規に作成することなく、音声ライブラリL1および音声ライブラリL2の双方の特性を反映した音声ライブラリ(すなわち、音声ライブラリL1の素片データVと音声ライブラリL2の素片データVとを混合した素片データVで構成される仮想的な音声ライブラリ)を利用した場合と同等の音声信号SOUTを生成することが可能である。すなわち、第1実施形態と同様に、音声ライブラリLの作成の労力や記憶装置12に必要な容量を削減しながら、新規な音声ライブラリLを用意した場合と同様に多様な音声を合成できるという利点がある。
In the above embodiment, the segment data V1 of the audio library L1 and the segment data V2 of the audio library L2 are mixed at the mixing ratio R of the auxiliary information A and then used to generate the audio signal SOUT. Therefore, without creating a new audio library L, an audio library reflecting the characteristics of both the audio library L1 and the audio library L2 (that is, the unit data V of the audio library L1 and the unit data V of the audio library L2) It is possible to generate an audio signal SOUT equivalent to the case of using a virtual audio library composed of segment data V mixed with. That is, as in the first embodiment, it is possible to synthesize various voices as in the case of preparing a new voice library L while reducing the effort for creating the voice library L and the capacity required for the
<C:第3実施形態>
図7は、本発明の第3実施形態における音声の合成を説明するための模式図である。図7に示すように、第3実施形態の記憶装置12は、第2実施形態と同様に、相異なる特性の音声から生成された複数(以下の例示では2個)の音声ライブラリL(L1,L2)を記憶する。
<C: Third Embodiment>
FIG. 7 is a schematic diagram for explaining speech synthesis in the third embodiment of the present invention. As shown in FIG. 7, the
また、記憶装置12は、音声合成に適用される制御変数(コントロールパラメータ)Xの数値の変化を示す変数情報DPを記憶する。制御変数Xは、合成音に付与される音楽的な表情を制御するための変数である。具体的には、指定音の発音の強弱(velocity),音量(dynamics),息成分の強弱(breathness)、明瞭度(brightness,clearness),発音時の開口度(opening),発音者の性別(genderfactor),音高を連続的に変化(ポルタメント)させる時点(portamento-timing),音高の微小変化(pitch-bend),音高の微小変化の最大幅(pitch-bend sensitivity)など、音声合成に適用される公知の変数が制御変数Xとして任意に採用される。また、以上の例示から選択された複数の変数の組合せ(例えば利用者から指示された複数の変数)を新規な(仮想的な)制御変数Xとして変数情報DPで指定した構成も採用され得る。
Further, the
図8は、第3実施形態における編集画像40の模式図である。図8の例示のように、表示制御部22は、変数情報DPが示す制御変数Xの時系列を示す画像(以下「変数遷移画像」という)57を、楽譜領域42内の各音指示子51の時系列と共通の時間軸のもとで編集領域46内に配置する。具体的には、制御変数Xの数値の遷移を示すグラフ(例えば折線グラフ)が変数遷移画像57として表示される。表示制御部22は、入力装置14に対する利用者からの指示に応じて変数遷移画像57を随時に変更する。情報生成部24は、変更後の変数遷移画像57に応じた制御変数Xの時系列を示す内容に記憶装置12の変数情報DPを更新する。すなわち、変数情報DPは利用者からの指示に応じて可変に設定される。
FIG. 8 is a schematic diagram of an edited
第3実施形態の付属情報Aは、図7に示すように、音声ライブラリL1の素片データV1と音声ライブラリL2の素片データV2との各々について、制御変数Xの数値(以下「設定値」という)xAを音声素片毎に指示する。各素片データV1には設定値xA1が指示され、各素片データV2には設定値xA2が指示される。音声素片が共通する素片データV1と素片データV2とでは設定値xA(xA1,xA2)が相違する。例えば、図7では、音声素片[a_s]の素片データV1の設定値xA1を0.2に設定し、同じ音声素片[a_s]の素片データV2の設定値xA2を0.6に設定した場合が例示されている。各設定値xA1および各設定値xA2は、例えば入力装置14に対する利用者からの指示に応じて可変に設定される。
As shown in FIG. 7, the auxiliary information A of the third embodiment includes numerical values of control variables X (hereinafter “set values”) for each of the segment data V1 of the audio library L1 and the segment data V2 of the audio library L2. XA) is designated for each speech unit. A set value xA1 is instructed to each piece data V1, and a set value xA2 is instructed to each piece data V2. The set value xA (xA1, xA2) is different between the segment data V1 and the segment data V2 that share the speech segment. For example, in FIG. 7, the set value xA1 of the segment data V1 of the speech unit [a_s] is set to 0.2, and the set value xA2 of the segment data V2 of the same speech unit [a_s] is set to 0.6. Illustrated. Each set value xA1 and each set value xA2 are variably set according to an instruction from the user to the
図7に示すように、第3実施形態の音声合成部26は、素片選択部32と素片加工部34と合成処理部36とに加えて変数指示部38を含んで構成される。変数指示部38は、制御変数Xの数値(以下「指示値」という)xBを素片選択部32に対して順次に指定する。具体的には、変数指示部38は、変数情報DPが時系列に指定する制御変数Xの数値を指示値xBとして順次に記憶装置12から取得して素片選択部32に指示する。
As shown in FIG. 7, the
素片選択部32は、音声ライブラリL1および音声ライブラリL2の各々において音楽情報DSの発音文字に対応する音声素片の素片データV(素片データV1および素片データV2)の何れかを、各々に対して付属情報Aに規定された設定値xA(xA1,xA2)と変数指示部38からの指示値xBとに応じて順次に選択する。具体的には、素片選択部32は、発音文字に応じた素片データV1および素片データV2のうち、付属情報Aにて各々に規定された設定値xA(xA1,xA2)が変数指示部38からの指示値xBに近い素片データVを素片データVAとして選択する。
The
例えば、付属情報Aが図7に例示した内容に設定された状況で音声素片[a_s]の合成が指示された場合を想定する。変数指示部38からの指示値xBが例えば0.3である場合、素片選択部32は、音声素片[a_s]について付属情報Aに規定された設定値xA1(0.2)および設定値xA2(0.6)のうち指示値xB(0.3)に近い設定値xA1に対応する素片データV1を音声ライブラリL1から素片データVAとして選択する。他方、変数指示部38からの指示値xBが例えば0.5である場合、素片選択部32は、音声素片[a_s]に関する設定値xA1(0.2)および設定値xA2(0.6)のうち、指示値xB(0.5)に近い設定値xA1に対応する素片データV2を音声ライブラリL2から素片データVAとして選択する。したがって、素片選択部32による素片データVAの選択の対象となる音声ライブラリLは、変数指示部38からの指示値xB(変数情報DPが規定する制御変数Xの時系列)に応じて音声ライブラリL1および音声ライブラリL2の一方から他方に順次に変更される。
For example, a case is assumed in which the synthesis of the speech unit [a_s] is instructed in the situation where the attached information A is set to the content illustrated in FIG. When the instruction value xB from the
素片加工部34は、素片選択部32が選択した素片データVAを音楽情報DSが指示する音高および発音期間に調整する。なお、素片加工部34による素片データVの加工には第1実施形態と同様の方法が採用され得る。また、合成処理部36は、素片加工部34による処理後の素片データDSの連結で音声信号SOUTを生成する。
The
以上に説明したように、第3実施形態においては、音声ライブラリが規定する設定値xAと変数指示部38からの指示値xBとの大小に応じて複数の音声ライブラリL(L1,L2)から択一的に素片データVAが選択されて合成音の生成に利用される。したがって、音声ライブラリLを新規に作成することなく、音声ライブラリL1および音声ライブラリL2の双方の特性を反映した音声ライブラリ(すなわち、音声ライブラリL1および音声ライブラリL2から音声素片毎に択一的に抽出した素片データVで構成される仮想的な音声ライブラリ)を利用した場合と同等の多様な音声信号SOUTを生成することが可能である。すなわち、第1実施形態と同様に、音声ライブラリLの作成の労力や記憶装置12に必要な容量を削減しながら、新規な音声ライブラリLを用意した場合と同様に多様な音声を合成できるという利点がある。
As described above, in the third embodiment, a plurality of audio libraries L (L1, L2) are selected according to the setting value xA defined by the audio library and the instruction value xB from the
<D:変形例>
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様は適宜に併合され得る。
<D: Modification>
Each of the above forms can be variously modified. Specific modifications are exemplified below. Two or more aspects arbitrarily selected from the following examples can be appropriately combined.
(1)変形例1
以上の各形態においては、音声ライブラリLが音声素片毎に1個の素片データVを含む構成を便宜的に例示したが、素片データVを更に細分化した構成も採用され得る。例えば、音高(周波数)や音量などの音響的な属性(以下「素片属性」という)が相違する複数の素片データVを音声素片毎に音声ライブラリLに含ませる構成も採用され得る。素片選択部32は、指定音に指示された発音文字の音声素片に対応する複数の素片データVのうち、その指定音に対して指示された素片属性の素片データV(例えば音楽情報DSで指示される音高の素片データV)を選択する。
(1) Modification 1
In each of the above embodiments, the configuration in which the speech library L includes one unit data V for each speech unit is illustrated for convenience, but a configuration in which the unit data V is further subdivided may be employed. For example, a configuration may be employed in which a plurality of segment data V having different acoustic attributes (hereinafter referred to as “segment attributes”) such as pitch (frequency) and volume are included in the speech library L for each speech segment. . The
以上の構成によれば、音声素片毎に1個の素片データVを用意した構成と比較して多様な合成音を生成できるという利点がある。他方、素片データVの個数が多いほど音声ライブラリLのデータ量は増大するから、記憶装置12に必要な容量を削減しながら合成音を多様化できるという各形態の効果は、音声素片に加えて素片属性(音高や音量)に応じて素片データVを用意した変形例1のもとでは格別に顕著である。
According to the above configuration, there is an advantage that various synthesized sounds can be generated as compared with a configuration in which one unit data V is prepared for each speech unit. On the other hand, as the number of segment data V increases, the amount of data in the speech library L increases. Therefore, the effect of each embodiment that the synthesized speech can be diversified while reducing the capacity required for the
(2)変形例2
以上の各形態では、音声合成部26における素片データVの利用(素片選択部32による選択または素片加工部34による加工)を規定するための情報(以下「素片利用情報」という)を素片データV毎(音声素片毎)に付属情報Aに設定したが、以下に例示するように、複数の素片データVを単位として素片利用情報を設定する構成も採用され得る。素片利用情報は、第1実施形態における区間情報Pおよび特性情報Fと、第2実施形態における混合比Rと、第3実施形態における制御変数Xの設定値xAとを包括する概念である。
(2) Modification 2
In each of the above forms, information for defining the use of the segment data V in the speech synthesizer 26 (selection by the
例えば、音声素片の分類毎に付属情報Aに素片利用情報を設定する構成が採用される。音声素片の分類としては、音素の構造による分類(音素単体/音素連鎖)や、母音または子音の有無による分類が想定される。例えば、音素単体で構成される複数の音声素片の素片データVの集合と、音素連鎖で構成される複数の音声素片の素片データVの集合との各々について、付属情報Aに素片利用情報が設定される。分類が共通する複数の音声素片の素片データVについては同じ素片利用情報が適用される。 For example, a configuration is used in which segment usage information is set in the attached information A for each speech segment classification. As the classification of speech elements, classification based on phoneme structure (phoneme unit / phoneme chain), or classification based on the presence or absence of vowels or consonants is assumed. For example, for each of a set of segment data V of a plurality of speech units composed of a single phoneme and a set of segment data V of a plurality of speech units composed of a phoneme chain, element A includes Single usage information is set. The same unit usage information is applied to the unit data V of a plurality of speech units having a common classification.
また、音声ライブラリL内の全部の素片データVに対して共通の素片利用情報を設定した構成も採用され得る。例えば、第1実施形態では、1個の区間情報Pや1個の特性情報Fが総ての素片データVに対して共通に適用される。第2実施形態では、音声ライブラリL1内の素片データV1と音声ライブラリL2内の素片データV2とが、音声素片に関わらず共通の混合比Rで混合される。また、第3実施形態では、音声ライブラリL1の素片データV1および音声ライブラリL2の素片データV2の何れかが、音声素片に関わらず共通の設定値xA(xA1,xA2)に応じて選択される。 Further, a configuration in which common segment usage information is set for all the segment data V in the audio library L may be employed. For example, in the first embodiment, one section information P and one characteristic information F are commonly applied to all the piece data V. In the second embodiment, the segment data V1 in the speech library L1 and the segment data V2 in the speech library L2 are mixed at a common mixing ratio R regardless of the speech segment. In the third embodiment, either the segment data V1 of the speech library L1 or the segment data V2 of the speech library L2 is selected according to the common set value xA (xA1, xA2) regardless of the speech segment. Is done.
変形例1のように音高や音量などの素片属性毎に素片データVを用意する場合には、素片属性に関わらず音声素片毎に素片利用情報を設定する構成や、素片属性毎に素片利用情報を設定する構成が採用される。前者の構成では、音声素片が共通する複数の素片データVに対して、素片属性に関わらず共通の素片利用情報が適用される。後者の構成では、素片属性が相違する各素片データVに対しては、音声素片が共通する場合でも別個の素片利用情報が適用される。 When preparing the segment data V for each segment attribute such as pitch and volume as in the first modification, a configuration in which segment usage information is set for each speech segment regardless of the segment attribute, A configuration in which element usage information is set for each attribute is adopted. In the former configuration, common unit usage information is applied to a plurality of unit data V having a common speech unit regardless of the unit attribute. In the latter configuration, separate segment usage information is applied to each segment data V having different segment attributes even if the speech segment is common.
(3)変形例3
第1実施形態から第3実施形態は、以下の例示のように適宜に併合され得る。なお、以下の説明では、音声ライブラリL内の各素片データVに付属情報Aを適用した素片データVAで構成される仮想的な音声ライブラリLを便宜的に「仮想ライブラリ」と表記する。各形態の説明から理解されるように、実際には総ての音声素片に対応する素片データVAの集合(音声ライブラリ)が記憶装置12に生成される訳ではない(つまり、音声ライブラリLの各素片データVに対する付属情報Aの適用で素片データVAが順次に生成される)ことを考慮して、「仮想」という文言を付記した。
(3)
The first to third embodiments can be appropriately merged as illustrated below. In the following description, a virtual audio library L composed of segment data VA obtained by applying attached information A to each segment data V in the audio library L will be referred to as a “virtual library” for convenience. As can be understood from the description of each embodiment, a set of segment data VA (speech library) corresponding to all speech units is not actually generated in the storage device 12 (that is, the speech library L). In consideration of the fact that the segment data VA is sequentially generated by applying the auxiliary information A to each segment data V of FIG.
例えば、第1実施形態では、既存の音声ライブラリLの全部の素片データVに対して付属情報Aを適用したと仮定した場合に生成され得る複数の素片データVAの集合が仮想ライブラリLVに相当する。第2実施形態では、音声ライブラリL1内の素片データV1と音声ライブラリL2内の素片データV2とを混合比Rで混合する処理を、音声素片が共通する素片データV1と素片データV2との全対について実行した、と仮定した場合に得られる複数の素片データVAの集合が、仮想ライブラリLVに相当する。同様に、第3実施形態では、音声ライブラリL1内の素片データV1と音声ライブラリL2内の素片データV2との何れかを設定値xA(xA1,xA2)に応じて選択する処理を、音声素片が共通する素片データV1と素片データV2との全対について実行した、と仮定した場合に得られる複数の素片データVAの集合が、仮想ライブラリLVに相当する。 For example, in the first embodiment, a set of a plurality of segment data VA that can be generated on the assumption that the attached information A is applied to all the segment data V of the existing audio library L is stored in the virtual library LV. Equivalent to. In the second embodiment, the process of mixing the segment data V1 in the speech library L1 and the segment data V2 in the speech library L2 with the mixing ratio R is performed by using the segment data V1 and the segment data in which the speech segments are common. A set of a plurality of segment data VA obtained when it is assumed that all pairs with V2 are executed corresponds to the virtual library LV. Similarly, in the third embodiment, the process of selecting either the segment data V1 in the speech library L1 or the segment data V2 in the speech library L2 according to the set value xA (xA1, xA2) is performed. A set of a plurality of segment data VA obtained on the assumption that the processing is executed for all pairs of the segment data V1 and the segment data V2 having the same segment corresponds to the virtual library LV.
まず、図9に示すように、仮想ライブラリLV1と仮想ライブラリLV2とに対して第2実施形態や第3実施形態の付属情報A3を適用することで、仮想ライブラリLV3が構成される。仮想ライブラリLV1は、例えば、区間情報Pや特性情報Fを含む第1実施形態の付属情報A1を既存の音声ライブラリL1に適用することで構成される。同様に、仮想ライブラリLV2は、第1実施形態の付属情報A2を既存の音声ライブラリL2に適用することで構成される。また、図10に示すように、仮想ライブラリLV1と既存の音声ライブラリL2とに対して第2実施形態や第3実施形態の付属情報A4を適用することで、仮想ライブラリLV4が構成される。以上のように、第1実施形態から第3実施形態を適宜に併合することで、様々な特性の音声に対応した多様な仮想ライブラリLVを構築することが可能である。 First, as shown in FIG. 9, the virtual library LV3 is configured by applying the auxiliary information A3 of the second embodiment or the third embodiment to the virtual library LV1 and the virtual library LV2. The virtual library LV1 is configured, for example, by applying the auxiliary information A1 of the first embodiment including the section information P and the characteristic information F to the existing audio library L1. Similarly, the virtual library LV2 is configured by applying the auxiliary information A2 of the first embodiment to the existing audio library L2. Further, as shown in FIG. 10, the virtual library LV4 is configured by applying the auxiliary information A4 of the second embodiment or the third embodiment to the virtual library LV1 and the existing audio library L2. As described above, various virtual libraries LV corresponding to voices having various characteristics can be constructed by appropriately merging the first to third embodiments.
また、図11に示すように、既存の音声ライブラリLに対して複数の付属情報A(A1,A2)を用意した構成も採用され得る。音声ライブラリLに対する付属情報A1の適用で仮想ライブラリLV1が構築され、音声ライブラリLに対する付属情報A2の適用で仮想ライブラリLV2が構築される。すなわち、付属情報Aの個数に相当する仮想ライブラリLVが1個の音声ライブラリLから生成される。 Further, as shown in FIG. 11, a configuration in which a plurality of attached information A (A1, A2) is prepared for an existing audio library L may be employed. The virtual library LV1 is constructed by applying the attached information A1 to the audio library L, and the virtual library LV2 is constructed by applying the attached information A2 to the audio library L. That is, a virtual library LV corresponding to the number of attached information A is generated from one audio library L.
(4)変形例4
第1実施形態では、付属情報Aの区間情報Pが素片データVの素片波形Wの使用区間を指定する場合を例示したが、例えば、音楽情報DSにて継続的な発音が指示された母音の補間(クロスフェード)に使用される素片データVの区間を区間情報Pが指定する構成も採用される。例えば、「あさが(朝が)」という発音文字の音声を音声素片[#_a],[a],[a_s],[s_a],[a],[a_g],[g_a],[a_#]から生成する場合を想定すると、音声素片[s_a]のうち区間情報Pが示す後方の区間と、音声素片[a_g]のうち区間情報Pが示す前方の区間との補間で両者間の[a]の音声を合成する。
(4) Modification 4
In the first embodiment, the case where the section information P of the accessory information A designates the use section of the segment waveform W of the segment data V is exemplified. However, for example, continuous pronunciation is instructed by the music information DS. A configuration in which the section information P designates a section of the segment data V used for vowel interpolation (crossfade) is also employed. For example, the voice of the phonetic character “Asa (morning)” is converted into speech units [#_a], [a], [a_s], [s_a], [a], [a_g], [g_a], [a_ Assuming the case of generating from [#], interpolation between the backward segment indicated by the segment information P in the speech unit [s_a] and the forward segment indicated by the segment information P in the speech unit [a_g] [A] is synthesized.
(5)変形例5
第3実施形態では、変数情報DPが記憶装置12に格納された場合を例示したが、変数指示部38が制御変数Xの指示値xBを指示する方法は適宜に変更される。例えば、入力装置14に対する入力に応じて変数指示部38が指示値xBを時系列に指示する構成や、通信網から順次に受信される指示値xBを変数指示部38が順次に素片選択部32に指示する構成も採用される。すなわち、変数指示部38は、制御変数Xの指示値xBを順次に指示する要素として包括され、変数情報DPを予め用意して記憶装置12に格納した構成は省略され得る。
(5) Modification 5
In the third embodiment, the case where the variable information DP is stored in the
(6)変形例6
以上の各形態では、素片データVが素片波形Wを示す場合を例示したが、素片データVの内容は適宜に変更される。例えば、音声素片を公知の手法で解析した結果を示す情報(例えば音声素片の周波数スペクトルに関する情報)を素片データVとして利用してもよい。
(6) Modification 6
In each of the above embodiments, the case where the segment data V indicates the segment waveform W is exemplified, but the content of the segment data V is appropriately changed. For example, information indicating the result of analyzing a speech unit by a known method (for example, information on the frequency spectrum of the speech unit) may be used as the unit data V.
(7)変形例7
以上の各形態では、利用者からの指示に応じて音楽情報DSを編集したが、音楽情報DSの編集は省略され得る。すなわち、記憶装置12に予め記憶された音楽情報DSや、可搬型の記録媒体または通信網を介して音声合成装置100に提供された音楽情報DSを合成音の生成に利用する構成も採用される。したがって、以上の各形態における情報生成部24は省略され得る。
(7) Modification 7
In each of the above embodiments, the music information DS is edited in response to an instruction from the user, but the editing of the music information DS can be omitted. That is, a configuration in which music information DS stored in advance in the
100……音声合成装置、10……制御装置、12……記憶装置、14……入力装置、16……表示装置、18……放音装置、22……表示制御部、24……情報生成部、26……音声合成部、32……素片選択部、34……素片加工部、36……合成処理部、38……変数指示部。
100 ... speech synthesizer, 10 ... control device, 12 ... storage device, 14 ... input device, 16 ... display device, 18 ... sound emitting device, 22 ... display control unit, 24 ... information generation , 26... Speech synthesis unit, 32... Segment selection unit, 34... Segment processing unit, 36.
Claims (6)
指定音の時系列を示す音楽情報に応じて前記音声ライブラリの前記素片データを順次に選択する素片選択手段と、
前記素片選択手段が選択した各素片データを、前記付属情報にて当該素片データに設定された素片利用情報に応じて加工する素片加工手段と、
前記素片加工手段による加工後の素片データから音声を合成する合成処理手段と
を具備する音声合成装置。 And audio library containing a plurality of segment data indicating a speech segment, segment usage information defining the use of fragment data, a plurality of the units of one or more segment data as a unit in the audio library Storage means for storing attached information set for each of the objects ;
Segment selection means for sequentially selecting the segment data of the audio library according to music information indicating a time sequence of a designated sound;
Each piece data selected by the piece selection means is processed according to the piece usage information set in the piece data in the attached information;
A speech synthesizer comprising: synthesis processing means for synthesizing speech from the piece data processed by the piece processing means.
前記付属情報にて各素片データに設定された素片利用情報は、当該素片データの素片波形のうち前記始点指示子および前記終点指示子で規定される使用区間を示す区間情報を含み、
前記素片加工手段は、前記素片選択手段が選択した素片データのうち前記区間情報が示す区間を抽出する
請求項1の音声合成装置。 The time series of the segment waveform of each segment data corresponding to the specified sound specified by the music information, the start point indicator indicating the start point of the used segment used for speech synthesis in each segment waveform, and the used segment An end point indicator indicating the end point of the display, and a display control means for moving each of the start point indicator and the end point indicator in accordance with an instruction from a user,
The segment usage information set for each segment data in the attached information includes segment information indicating a usage segment defined by the start point indicator and the end point indicator in the segment waveform of the segment data. ,
The speech synthesis apparatus according to claim 1, wherein the segment processing unit extracts a segment indicated by the segment information from segment data selected by the segment selection unit.
請求項2の音声合成装置。 The speech synthesis apparatus according to claim 2, wherein the display control unit displays an image indicating a time series of a designated sound indicated by the music information on the display device in parallel with the time series of the segment waveforms.
前記付属情報にて各素片データに設定された素片利用情報は、当該素片データの特性遷移画像に応じた特徴量を示す特性情報を含み、
前記素片加工手段は、前記素片選択手段が選択した素片データの特徴量を前記特性情報に応じて制御する
請求項2または請求項3の音声合成装置。 The display control means displays a characteristic transition image showing a transition of the feature amount of each piece data corresponding to the designated sound specified by the music information, for each piece waveform, on a time axis common to the piece waveform. And display on the display device, edit the characteristic transition image according to instructions from the user,
The segment usage information set for each segment data in the attached information includes characteristic information indicating a feature amount according to a characteristic transition image of the segment data,
The speech synthesis apparatus according to claim 2 or 3, wherein the segment processing unit controls a feature amount of the segment data selected by the segment selection unit according to the characteristic information.
前記素片加工手段は、一の分類に属する各音声素片の素片データの加工に、前記付属情報にて当該一の分類に設定された前記素片利用情報を共通に適用する
請求項1から請求項4の何れかの音声合成装置。 The storage means stores the accessory information in which the unit usage information is set for each speech unit classification of each unit data in the speech library,
2. The segment processing means commonly applies the segment usage information set in the one classification in the attached information to processing the segment data of each speech segment belonging to one classification. The speech synthesizer according to claim 4.
指定音の時系列を示す音楽情報に応じて前記音声ライブラリの前記素片データを順次に選択し、
前記選択した各素片データを、前記付属情報にて当該素片データに設定された素片利用情報に応じて加工し、
前記加工後の素片データから音声を合成する
音声合成方法。 And audio library containing a plurality of segment data indicating a speech segment, segment usage information defining the use of fragment data, a plurality of the units of one or more segment data as a unit in the audio library A computer comprising storage means for storing auxiliary information set for each object ,
According to the music information indicating the time series of the specified sound, the unit data of the voice library is sequentially selected,
Each selected piece data is processed according to the piece use information set in the piece data in the attached information,
A speech synthesis method for synthesizing speech from the processed segment data.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009256027A JP5552797B2 (en) | 2009-11-09 | 2009-11-09 | Speech synthesis apparatus and speech synthesis method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009256027A JP5552797B2 (en) | 2009-11-09 | 2009-11-09 | Speech synthesis apparatus and speech synthesis method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011100055A JP2011100055A (en) | 2011-05-19 |
JP5552797B2 true JP5552797B2 (en) | 2014-07-16 |
Family
ID=44191264
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009256027A Expired - Fee Related JP5552797B2 (en) | 2009-11-09 | 2009-11-09 | Speech synthesis apparatus and speech synthesis method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5552797B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012160767A1 (en) * | 2011-05-25 | 2012-11-29 | 日本電気株式会社 | Fragment information generation device, audio compositing device, audio compositing method, and audio compositing program |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0950295A (en) * | 1995-08-09 | 1997-02-18 | Fujitsu Ltd | Voice synthetic method and device therefor |
JPH11184490A (en) * | 1997-12-25 | 1999-07-09 | Nippon Telegr & Teleph Corp <Ntt> | Singing synthesizing method by rule voice synthesis |
JP4736483B2 (en) * | 2005-03-15 | 2011-07-27 | ヤマハ株式会社 | Song data input program |
JP4639932B2 (en) * | 2005-05-06 | 2011-02-23 | 株式会社日立製作所 | Speech synthesizer |
JP2007086316A (en) * | 2005-09-21 | 2007-04-05 | Mitsubishi Electric Corp | Speech synthesizer, speech synthesizing method, speech synthesizing program, and computer readable recording medium with speech synthesizing program stored therein |
JP4858173B2 (en) * | 2007-01-05 | 2012-01-18 | ヤマハ株式会社 | Singing sound synthesizer and program |
JP4247289B1 (en) * | 2007-11-14 | 2009-04-02 | 日本電信電話株式会社 | Speech synthesis apparatus, speech synthesis method and program thereof |
JP4844623B2 (en) * | 2008-12-08 | 2011-12-28 | ヤマハ株式会社 | CHORAL SYNTHESIS DEVICE, CHORAL SYNTHESIS METHOD, AND PROGRAM |
-
2009
- 2009-11-09 JP JP2009256027A patent/JP5552797B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011100055A (en) | 2011-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2983168B1 (en) | Voice analysis method and device, voice synthesis method and device and medium storing voice analysis program | |
JP6236765B2 (en) | Music data editing apparatus and music data editing method | |
US10354629B2 (en) | Sound control device, sound control method, and sound control program | |
JP6127371B2 (en) | Speech synthesis apparatus and speech synthesis method | |
JP2007240564A (en) | Singing synthesis device and program | |
JP6507579B2 (en) | Speech synthesis method | |
JP5625321B2 (en) | Speech synthesis apparatus and program | |
JP5423375B2 (en) | Speech synthesizer | |
JP6390690B2 (en) | Speech synthesis method and speech synthesis apparatus | |
JP6179221B2 (en) | Sound processing apparatus and sound processing method | |
JP6255744B2 (en) | Music display device and music display method | |
JP6044284B2 (en) | Speech synthesizer | |
JP5157922B2 (en) | Speech synthesizer and program | |
JP5552797B2 (en) | Speech synthesis apparatus and speech synthesis method | |
JP5176981B2 (en) | Speech synthesizer and program | |
JP7124870B2 (en) | Information processing method, information processing device and program | |
JP5935831B2 (en) | Speech synthesis apparatus, speech synthesis method and program | |
JP5790860B2 (en) | Speech synthesizer | |
JP7127682B2 (en) | Information processing method, information processing device and program | |
JP5641266B2 (en) | Speech synthesis apparatus, speech synthesis method and program | |
JP6286946B2 (en) | Speech synthesis apparatus and speech synthesis method | |
JP5782799B2 (en) | Speech synthesizer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120920 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130529 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130604 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130802 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130815 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140121 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140324 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140430 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140513 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5552797 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |