JP5625321B2 - Speech synthesis apparatus and program - Google Patents
Speech synthesis apparatus and program Download PDFInfo
- Publication number
- JP5625321B2 JP5625321B2 JP2009247784A JP2009247784A JP5625321B2 JP 5625321 B2 JP5625321 B2 JP 5625321B2 JP 2009247784 A JP2009247784 A JP 2009247784A JP 2009247784 A JP2009247784 A JP 2009247784A JP 5625321 B2 JP5625321 B2 JP 5625321B2
- Authority
- JP
- Japan
- Prior art keywords
- variable
- section
- time series
- setting
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000015572 biosynthetic process Effects 0.000 title claims description 48
- 238000003786 synthesis reaction Methods 0.000 title claims description 48
- 230000000694 effects Effects 0.000 claims description 62
- 230000002194 synthesizing effect Effects 0.000 claims description 16
- 230000007704 transition Effects 0.000 description 89
- 238000000034 method Methods 0.000 description 31
- 230000014509 gene expression Effects 0.000 description 27
- 230000008859 change Effects 0.000 description 23
- 230000008569 process Effects 0.000 description 16
- 239000008186 active pharmaceutical agent Substances 0.000 description 15
- 238000010586 diagram Methods 0.000 description 15
- 230000008901 benefit Effects 0.000 description 14
- 230000002123 temporal effect Effects 0.000 description 11
- 230000008921 facial expression Effects 0.000 description 10
- 230000004048 modification Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 5
- 230000004044 response Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 2
- 238000005562 fading Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
Images
Landscapes
- Electrophonic Musical Instruments (AREA)
Description
本発明は、音声合成に適用される制御変数を設定する技術に関する。 The present invention relates to a technique for setting a control variable applied to speech synthesis.
発音の強度や息成分の強弱などの音楽的な表情が多様に制御された音声(典型的には歌唱音)を合成する技術が従来から提案されている。特許文献1には、合成の対象として指定された音(以下「指定音」という)の時系列を示す画像(ピアノロール画像)と、各指定音に付与される表情を示す複数種の制御変数の時間的な遷移を示すグラフとを、共通の時間軸のもとで表示する技術が提案されている。利用者は、予め時間的な遷移が設定された複数種の制御変数の何れかを選択してグラフを操作することで、その制御変数の時間的な遷移を編集することが可能である。 Techniques for synthesizing sounds (typically singing sounds) in which musical expressions such as the intensity of pronunciation and the strength of breath components are controlled in various ways have been proposed. Patent Document 1 discloses an image (piano roll image) showing a time series of sounds designated as synthesis targets (hereinafter referred to as “designated sounds”) and a plurality of types of control variables representing facial expressions given to each designated sound. There has been proposed a technique for displaying a graph showing temporal transitions of the above with a common time axis. The user can edit the temporal transition of the control variable by selecting one of a plurality of types of control variables for which temporal transition is set in advance and operating the graph.
しかし、特許文献1の技術のもとで合成音に付与される表情を変更するためには、予め用意された制御変数を利用者が編集する必要がある。したがって、制御変数とその制御変数に応じて変化する音楽的な表情との相関を熟知していない利用者にとって作業の負担が大きいという問題がある。複数種の制御変数を編集可能な構成では、複数種の制御変数の何れかを1種類ずつ順次に選択して編集する作業が必要であるから、作業の負担の増大という問題は特に深刻となる。以上の事情を考慮して、本発明は、複数種の制御変数を設定するための利用者の作業の負担を軽減することを目的とする。 However, in order to change the facial expression given to the synthesized sound under the technique of Patent Document 1, it is necessary for the user to edit a control variable prepared in advance. Therefore, there is a problem that the burden of work is large for a user who is not familiar with the correlation between the control variable and the musical expression that changes in accordance with the control variable. In a configuration in which a plurality of types of control variables can be edited, it is necessary to select and edit any one of the plurality of types of control variables sequentially one by one. Therefore, the problem of an increase in the work load becomes particularly serious. . In view of the above circumstances, an object of the present invention is to reduce a burden on a user's work for setting a plurality of types of control variables.
以上の課題を解決するために、本発明の音声合成装置は、音楽情報が示す指定音(合成の対象として指定された音)の時系列における適用区間を利用者からの指示に応じて可変に設定する区間設定手段と、音声合成に適用される制御変数の時系列を示す複数の変数情報のうち利用者からの指示に応じた変数情報を選択する変数選択手段と、変数選択手段が選択した変数情報に応じて適用区間内の制御変数の時系列を設定する変数設定手段と、音楽情報が示す指定音を合成する手段であって、変数設定手段が設定した制御変数の時系列を適用区間内の指定音の合成に適用する音声合成手段とを具備する。なお、音楽情報および変数情報は、単体の記憶装置(例えば図1の記憶装置12)内に設定された別個の記憶領域、または、別体の記憶装置の各々に設定された記憶領域に記憶され得る。
In order to solve the above-described problems, the speech synthesizer according to the present invention variably applies an application section in a time series of a designated sound (sound designated as a synthesis target) indicated by music information according to an instruction from a user. The section selection means for setting, the variable selection means for selecting the variable information according to the instruction from the user among the plurality of variable information indicating the time series of the control variables applied to the speech synthesis, and the variable selection means selected Variable setting means for setting the time series of control variables in the applicable section according to the variable information, and means for synthesizing the specified sound indicated by the music information, wherein the time series of the control variable set by the variable setting means is applied to the applicable section Voice synthesizing means applied to the synthesis of the designated sound. Note that the music information and the variable information are stored in a separate storage area set in a single storage device (for example, the
以上の構成においては、制御変数の時間的な遷移を示す複数の変数情報のうち利用者からの指示に応じて選択された変数情報が、適用区間内の各指定音の音声合成に適用される制御変数Xの時系列の設定に利用される。したがって、合成音に付与される音楽的な表情を変更するためには利用者が制御変数の時系列を変更(編集)する必要がある特許文献1の技術と比較して、合成音に所望の表情を付与するために必要な利用者の作業の負担が軽減されるという利点がある。ただし、変数選択手段が複数の変数情報の何れかを選択する構成に加えて、変数設定手段による設定後の制御変数を特許文献1と同様に利用者が編集する構成も、本発明の範囲内の好適な態様として採用され得る。 In the above configuration, variable information selected in response to an instruction from the user among a plurality of variable information indicating temporal transitions of control variables is applied to speech synthesis of each designated sound in the application section. This is used to set the time series of the control variable X. Therefore, in order to change the musical expression assigned to the synthesized sound, the user needs to change (edit) the time series of the control variables to the desired value for the synthesized sound. There is an advantage that the burden on the user's work necessary for giving a facial expression is reduced. However, in addition to the configuration in which the variable selection unit selects any one of the plurality of pieces of variable information, the configuration in which the user edits the control variable after setting by the variable setting unit in the same manner as in Patent Document 1 is also within the scope of the present invention. It can employ | adopt as a suitable aspect of.
本発明の好適な態様において、複数の変数情報の各々は、音声合成に適用される複数種の制御変数の各々について当該制御変数の時系列を示す。以上の態様においては、各変数情報が、複数種の制御変数の時系列を示すから、変数情報が1種類の制御変数のみを示す構成と比較すると、多様な表情の合成音を生成できるという利点がある。 In a preferred aspect of the present invention, each of the plurality of variable information indicates a time series of the control variable for each of a plurality of types of control variables applied to speech synthesis. In the above aspect, since each variable information indicates a time series of a plurality of types of control variables, an advantage that synthetic sounds with various facial expressions can be generated as compared with a configuration in which the variable information indicates only one type of control variable. There is.
本発明の好適な態様に係る音声合成装置は、音楽情報が示す各指定音に対応する音指示子の時系列と、変数設定手段が設定した制御変数の時系列とを、時間軸を共通にして表示装置に表示させる表示制御手段を具備する。以上の態様においては、各指定音の音指示子の時系列と制御変数の時系列とが時間軸を共通にして表示されるから、制御変数に応じて各指定音に付与される音楽的な表情を利用者が容易に確認できるという利点がある。 A speech synthesizer according to a preferred aspect of the present invention uses a common time axis for a time series of sound indicators corresponding to each designated sound indicated by music information and a time series of control variables set by the variable setting means. Display control means for displaying on the display device. In the above aspect, since the time series of the sound indicator of each designated sound and the time series of the control variable are displayed with the time axis in common, the musical sound given to each designated sound according to the control variable There is an advantage that the user can easily confirm the facial expression.
本発明の好適な態様において、変数選択手段は、合成音の複数の属性(例えば音質やジャンルや曲部位や調)の各々に関する選択肢の相異なる組合せに対応する複数の変数情報のうち、利用者が前記各属性について指示した選択肢の組合せに対応する変数情報を選択する。以上の態様によれば、利用者に馴染みのある属性の指示に応じて変数情報が選択されるから、変数情報で指示される音楽的な表情について利用者に詳細な知識がなくても、適切な変数情報を音声合成に適用できるという利点がある。 In a preferred aspect of the present invention, the variable selecting means includes a user among a plurality of pieces of variable information corresponding to different combinations of options relating to each of a plurality of attributes (for example, sound quality, genre, song part, and key) of the synthesized sound. Selects variable information corresponding to the combination of options indicated for each attribute . According to the above aspect, since variable information is selected according to an instruction of an attribute familiar to the user, it is appropriate even if the user has no detailed knowledge about the musical expression indicated by the variable information. Advantageous variable information can be applied to speech synthesis.
本発明の好適な態様において、区間設定手段は、適用区間内の編集区間を利用者からの指示に応じて可変に設定し、変数設定手段は、適用区間のうち編集区間内の制御変数の時系列と編集区間以外の区間(編集外区間)内の制御変数の時系列とを独立に設定し得る。以上の態様においては、適用区間のうち利用者からの指示に応じた編集区間について編集区間以外の区間内とは独立に制御変数の時系列が設定される。すなわち、適用区間内の制御変数の時系列を部分的に変更することが可能である。したがって、適用区間のみが設定される構成と比較して、利用者に意図を高度に反映した多様な表情の合成音を生成できるという利点がある。以上の態様の具体例は、例えば第2実施形態として後述される。 In a preferred aspect of the present invention, the section setting means variably sets the editing section in the application section in response to an instruction from the user, and the variable setting means is a control variable in the editing section of the application section. A series and a time series of control variables in a section other than the editing section (non-editing section) can be set independently. In the above aspect, the time series of the control variables is set independently of the editing section corresponding to the instruction from the user in the applied section, in the section other than the editing section. That is, it is possible to partially change the time series of control variables in the application section. Therefore, compared with the configuration in which only the applicable section is set, there is an advantage that synthesized sounds with various facial expressions that reflect the intention to the user can be generated. A specific example of the above aspect will be described later as a second embodiment, for example.
ところで、編集区間と編集外区間とで制御変数の時系列が独立に設定される構成では、制御変数の時系列が編集区間と編集外区間との境界にて不連続となる可能性がある。そこで、本発明の好適な態様において、変数設定手段は、適用区間における編集区間の内外で制御変数が連続するように制御変数の補間を実行する。以上の態様においては、編集区間と編集外区間との境界における制御変数の不連続な変化が抑制されるから、合成音の音楽的な表情の不自然(唐突)な変化が防止されるという利点がある。なお、以上の態様の具体例は、例えば第3実施形態として後述される。 By the way, in the configuration in which the time series of the control variable is set independently in the editing section and the non-editing section, the time series of the control variable may be discontinuous at the boundary between the editing section and the non-editing section. Therefore, in a preferred aspect of the present invention, the variable setting means executes control variable interpolation so that the control variable is continuous inside and outside the editing section in the application section. In the above aspect, since the discontinuous change of the control variable at the boundary between the editing section and the non-editing section is suppressed, the advantage that an unnatural (abrupt) change in the musical expression of the synthesized sound is prevented. There is. In addition, the specific example of the above aspect is later mentioned, for example as 3rd Embodiment.
本発明の好適な態様に係る音声合成装置は、利用者からの指示に応じて効果調整値を可変に設定する調整値設定手段を具備し、変数設定手段は、効果調整値に応じた度合で変数情報が適用区間内の指定音の合成に反映されるように適用区間内の制御変数の時系列を設定する。以上の態様においては、利用者からの指示で設定された効果調整値に応じた度合で変数情報が音声合成に反映されるから、利用者の音楽的な意図を反映した多様な表情の合成音を生成できるという利点がある。 The speech synthesizer according to a preferred aspect of the present invention includes adjustment value setting means for variably setting an effect adjustment value in accordance with an instruction from a user, and the variable setting means has a degree according to the effect adjustment value. A time series of control variables in the application section is set so that the variable information is reflected in the synthesis of the designated sound in the application section. In the above aspect, since the variable information is reflected in the speech synthesis to a degree corresponding to the effect adjustment value set by the instruction from the user, the synthesized sound of various expressions reflecting the user's musical intention There is an advantage that can be generated.
本発明の好適な態様に係る音声合成装置は、利用者からの指示に応じた効果調整値を適用区間のうちの編集区間と編集区間以外の区間とで個別に設定する調整値設定手段を具備し、変数設定手段は、編集区間の効果調整値に応じた度合で当該編集区間内の指定音の合成に変数情報が反映され、編集区間以外の区間の効果調整値に応じた度合で当該区間内の指定音の合成に変数情報が反映されるように、適用区間内の制御変数の時系列を設定する。以上の態様においては、適用区間のうちの編集区間と編集外区間とについて設定された効果調整値に応じて、制御変数の時系列が編集区間と編集外区間とで独立に設定される。したがって、利用者に意図に沿った多様な表情の合成音を生成できるという利点がある。 A speech synthesizer according to a preferred aspect of the present invention comprises adjustment value setting means for individually setting an effect adjustment value according to an instruction from a user in an editing section of an applied section and a section other than the editing section. The variable setting means reflects the variable information in the synthesis of the specified sound in the editing section to a degree according to the effect adjustment value in the editing section, and the section in the degree according to the effect adjustment value in the section other than the editing section. The time series of the control variables in the applicable section is set so that the variable information is reflected in the synthesis of the designated sound in the. In the above aspect, the time series of the control variable is set independently for the editing section and the non-editing section in accordance with the effect adjustment value set for the editing section and the non-editing section of the applied section. Therefore, there is an advantage that a synthesized sound with various expressions according to the intention can be generated for the user.
なお、編集区間と編集外区間とについて効果調整値が設定される構成では、編集区間と編集外区間とで効果調整値が極端に相違することに起因して、合成音の音楽的な表情が不自然となる可能性もある。そこで、本発明の好適な態様における調整値設定手段は、適用区間のうち編集区間の効果調整値と編集区間以外の効果調整値とを、両者の比率を維持しながら、利用者からの指示に応じて変化させる。以上の態様においては、編集区間の効果調整値と編集外区間の効果調整値との比率が維持されるから、編集区間の内外で合成音の音楽的な表情が不自然に変化することを抑制できるという利点がある。なお、以上の態様の具体例は、例えば第4実施形態として後述される。 In the configuration in which the effect adjustment value is set for the editing section and the non-editing section, the musical expression of the synthesized sound is caused by the fact that the effect adjustment value is extremely different between the editing section and the non-editing section. It may be unnatural. Therefore, the adjustment value setting means according to a preferred aspect of the present invention provides an instruction from the user while maintaining the ratio between the effect adjustment value of the editing section and the effect adjustment value other than the editing section of the application section. Change accordingly. In the above aspect, since the ratio between the effect adjustment value of the editing section and the effect adjustment value of the non-editing section is maintained, the musical expression of the synthesized sound is prevented from changing unnaturally inside and outside the editing section. There is an advantage that you can. In addition, the specific example of the above aspect is later mentioned as 4th Embodiment, for example.
以上の各態様に係る音楽情報処理装置は、音楽情報の処理に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明のプログラムは、コンピュータを、音楽情報が示す指定音(合成の対象として指定された音)の時系列における適用区間を利用者からの指示に応じて可変に設定する区間設定手段、音声合成に適用される制御変数の時系列を示す複数の変数情報のうち利用者からの指示に応じた変数情報を選択する変数選択手段、変数選択手段が選択した変数情報に応じて適用区間内の制御変数の時系列を設定する変数設定手段、および、音楽情報が示す指定音を合成する手段であって、変数設定手段が設定した制御変数の時系列を適用区間内の指定音の合成に適用する音声合成手段として機能させる。以上のプログラムによれば、本発明に係る音声合成装置と同様の作用および効果が実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。
The music information processing apparatus according to each of the aspects described above is realized by hardware (electronic circuit) such as a DSP (Digital Signal Processor) dedicated to processing music information, and a general-purpose device such as a CPU (Central Processing Unit). This is also realized by cooperation between the arithmetic processing unit and the program. The program of the present invention includes a section setting means for setting a computer to variably set an application section in a time series of a designated sound (sound designated as a synthesis target) indicated by music information in accordance with an instruction from a user, speech synthesis Variable selection means for selecting variable information according to an instruction from the user from among a plurality of variable information indicating a time series of control variables applied to the control, and control within the application section according to the variable information selected by the variable selection means Variable setting means for setting a time series of variables, and means for synthesizing a specified sound indicated by music information, and applying the time series of control variables set by the variable setting means to the synthesis of the specified sound in the application section It functions as a speech synthesis means. According to the above program, the same operation and effect as the speech synthesizer according to the present invention are realized. The program of the present invention is provided to a user in a form stored in a computer-readable recording medium and installed in the computer, or provided from a server device in a form of distribution via a communication network and installed in the computer. Is done.
<A:第1実施形態>
図1は、本発明の第1実施形態に係る音声合成装置100のブロック図である。音声合成装置100は、歌唱音などの様々な音声(以下「合成音」という)を合成する装置であり、図1に示すように、制御装置10と記憶装置12と入力装置14と表示装置16と放音装置18とを具備するコンピュータシステムで実現される。音声合成装置100を楽曲の歌唱音の合成に利用する場合を以下では想定する。
<A: First Embodiment>
FIG. 1 is a block diagram of a
制御装置(CPU)10は、記憶装置12に記憶されたプログラムPGの実行で、音声信号SOUTの生成に必要な複数の機能(表示制御部22,情報生成部24,区間設定部26,変数処理部32,音声合成部34)を実現する。音声信号SOUTは、合成音の波形を表す信号である。なお、制御装置10の各機能を専用の電子回路(DSP)で実現した構成や、制御装置10の各機能を複数の集積回路に分散した構成も採用され得る。
The control device (CPU) 10 executes a plurality of functions (
入力装置14は、利用者からの指示を受付ける機器(例えばマウスやキーボード)である。表示装置(例えば液晶表示装置)16は、制御装置10から指示された画像を表示する。放音装置(例えばスピーカやヘッドホン)18は、制御装置10が生成する音声信号SOUTに応じた音波を放射する。
The
記憶装置12は、制御装置10が実行するプログラムPGや制御装置10が使用する各種のデータ(音素情報DV,音楽情報DS,変数情報DP)を記憶する。半導体記録媒体や磁気記録媒体などの公知の記録媒体(または複数種の記録媒体の組合せ)が記憶装置12として任意に採用される。なお、プログラムPGや各データ(DV,DS,DP)を複数の記録媒体に分散して記憶した構成も採用され得る。
The
音素情報DVは、合成音の素材として利用されるデータ群であり、相異なる音声素片に対応する多数の素片データ(例えば音声素片の時間波形や特徴量を示すデータ)を含んで構成される。音声素片は、音声を聴覚的に区別し得る最小の単位に相当する音素、または複数の音素を連結した音素連鎖である。 The phoneme information DV is a data group used as a synthetic sound material, and includes a large number of unit data corresponding to different speech units (for example, data indicating a time waveform or a feature amount of a speech unit). Is done. The phoneme segment is a phoneme corresponding to a minimum unit that can be audibly distinguished from a voice, or a phoneme chain in which a plurality of phonemes are connected.
音楽情報DSは、楽曲を構成する各指定音の時系列を示す情報(スコアデータ)である。具体的には、音楽情報DSは、指定音の音高(ノートナンバ)と発音期間(例えば発音の開始時刻と継続長)と発音文字(例えば歌詞の文字に対応する音節や音韻)とを楽曲内の指定音毎に指定する。 The music information DS is information (score data) indicating the time series of each designated sound that constitutes the music. Specifically, the music information DS includes the pitch (note number) of the specified sound, the pronunciation period (for example, the start time and duration of pronunciation), and the pronunciation characters (for example, syllables and phonemes corresponding to the words of the lyrics). Specify for each specified sound.
変数情報DPは、音声合成に適用される複数種の制御変数(コントロールパラメータ)Xの時間的な変化を示すデータ群である。制御変数Xは、合成音に付与される音楽的な表情を制御するための変数である。具体的には、指定音の発音の強弱(velocity),音量(dynamics),息成分の強弱(breathness)、明瞭度(brightness,clearness),発音時の開口度(opening),発音者の性別(genderfactor),音高を連続的に変化(ポルタメント)させる時点(portamento-timing),音高の微小変化(pitch-bend),音高の微小変化の最大幅(pitch-bend sensitivity)など、音声合成に適用される公知の変数が制御変数Xとして任意に採用される。 The variable information DP is a data group indicating temporal changes in a plurality of types of control variables (control parameters) X applied to speech synthesis. The control variable X is a variable for controlling a musical expression given to the synthesized sound. Specifically, the sound intensity (velocity), volume (dynamics) of the specified sound, breathness intensity (breathness), clarity (brightness, clearness), opening degree during pronunciation, gender ( genderfactor), time point of continuous pitch change (portamento) (portamento-timing), minute pitch change (pitch-bend), maximum pitch change (pitch-bend sensitivity), etc. A known variable applied to the above is arbitrarily adopted as the control variable X.
図1に示すように、記憶装置12は複数の変数情報DPを記憶する。1個の変数情報DPは、相異なる種類の制御変数X(X1,X2,……)に対応する複数の変数遷移データVを含んで構成される。各制御変数Xの変数遷移データVは、所定の時間にわたる当該制御変数Xの時系列(時間的な遷移)を示すデータ列である。各変数遷移データVが示す制御変数Xの変化の態様は、同種の制御変数Xの変数遷移データVでも変数情報DP毎に相違し得る。なお、変数情報DP内の各変数遷移データVが示す制御変数Xの種類は、基本的には複数の変数情報DPで共通するが、変数情報DP毎に制御変数Xの種類が相違する構成を採用することも可能である。
As shown in FIG. 1, the
図1の表示制御部22は、音楽情報DSの生成および編集や合成音に付与される音楽的な表情の編集のために利用者が視認する画像(編集画像60,管理画像70,操作画像80)を表示装置16に表示させる。図2は、音楽情報DSの作成および編集に使用される編集画像60の模式図である。図2に示すように、編集画像60は、指定音の時系列を表示する楽譜領域62と、制御変数Xの経時的な変化を表示する変数領域64とを含んで構成される。
The
楽譜領域62は、音高に対応する縦軸(音高軸)と時間に対応する横軸(時間軸)とが設定されたピアノロール型の画像領域である。利用者は、楽譜領域62を視認しながら入力装置14を適宜に操作することで指定音の音高と発音期間(始点および終点)とを指示する。表示制御部22は、利用者から指示された指定音に対応する音指示子622を楽譜領域62内に配置する。音高軸の方向における音指示子622の位置は利用者が指示した音高に応じて決定され、時間軸の方向における音指示子622の位置およびサイズは利用者が指示した発音期間に応じて決定される。また、利用者は、入力装置14を適宜に操作することで各指定音の発音文字(歌詞)を指示する。なお、指定音の音譜を五線譜に記譜した楽譜の画像を楽譜領域62に配置する構成も採用され得る。
The
図1の情報生成部24は、楽譜領域62に対して利用者から指示された指定音の音高と発音期間と発音文字とを対応させて記憶装置12の音楽情報DSに格納する。以上の処理が反復されることで、利用者から指示された指定音の時系列を示す音楽情報DSが記憶装置12に生成され、各指定音の音指示子622の時系列が図2の例示のように楽譜領域62に表示される。
The
図1の区間設定部26は、音楽情報DSが示す指定音の時系列(楽曲)のうち変数情報DPの適用の対象となる区間(以下「適用区間」という)SAを、入力装置14に対する利用者からの指示に応じて可変に設定する。例えば、区間設定部26は、楽譜領域62に対して利用者から指示された始点から終点にわたる区間を適用区間SAとして特定する。区間設定部26は、時間的に重複しない複数の適用区間SAを利用者からの指示に応じて楽曲内に順次に特定する。各適用区間SAの始点および終点は、入力装置14に対する利用者からの指示に応じて随時に変更され得る。
The
図3に示すように、表示制御部22は、区間設定部26が設定した適用区間SAを示す区間指示子(網掛の部分)624を編集画像60に配置する。区間指示子624は、例えば、楽譜領域62のうち適用区間SAの始点から終点にかけて時間軸に沿って延在する帯状の画像である。また、利用者が指示した適用区間SAの識別情報(例えば図3の「パートA」という名称)が区間指示子624に付加される。
As shown in FIG. 3, the
また、表示制御部22は、各適用区間SAの管理に利用される図4の管理画像70を表示装置16に表示させる。図4に示すように、管理画像70は、適用区間SA毎にレコード72を配置した図表である。各レコード72は、適用区間SAの識別情報(名称)と継続期間とを含んで構成される。継続期間は、適用区間SAの始点と終点とで指定される。なお、継続期間の指定の方法は任意である。例えば、図4の例示のように始点および終点の時刻を指定する方法のほか、楽曲内の小節や拍点の番号で継続期間の始点および終点を指定する方法も採用され得る。利用者は、管理画像70に対する直接的な入力(継続期間や識別情報の入力)で適用区間SAを指示することも可能である。すなわち、区間設定部26は、管理画像70に対して利用者が入力した継続期間に相当する適用区間SAを設定する。
In addition, the
図1の変数処理部32は、相異なる制御変数X(X1,X2,……)に対応する複数の変数遷移データWを記憶装置12内の変数情報DP(各変数遷移データV)から生成する。各制御変数Xに対応する変数遷移データWは、適用区間SAの音声合成に適用されるべき当該制御変数Xの時系列(時間的な遷移)を示すデータ列である。変数処理部32の具体的な構成や動作については後述する。
The
音声合成部34は、記憶装置12に格納された音楽情報DSが示す指定音を合成して音声信号SOUTを生成する。具体的には、音声合成部34は、記憶装置12の音素情報DVのうち音楽情報DSが示す各指定音の発音文字(音声素片)に対応する素片データを、音楽情報DSが示す音高および発音期間に調整したうえで相互に連結することで音声信号SOUTを生成する。音楽情報DSが示す指定音の時系列(楽曲)のうち区間設定部26が設定した適用区間SA内の各指定音の合成には、変数処理部32が生成した複数の変数遷移データWが適用される。すなわち、音楽情報DSが示す指定音に対して各制御変数Xの変数遷移データWに応じた音楽的な表情を付与した合成音の音声信号SOUTが生成される。なお、適用区間SA以外の区間の各指定音については、音楽的な表情を付与しない構成や、各制御変数Xを所定値(初期値)に固定して表情を付与する構成が採用され得る。音楽情報DSおよび制御変数Xに応じた音声合成には公知の技術が任意に採用される。
The
図1に示すように、変数処理部32は、変数選択部42と調整値設定部44と変数設定部46とを含んで構成される。変数選択部42は、記憶装置12に格納された複数の変数情報DPのうち利用者からの指示に応じた変数情報DPを適用区間SA毎に選択する。具体的には、変数選択部42は、適用区間SAについて利用者が入力装置14から指示した条件(以下「区間条件」という)に応じた変数情報DPを記憶装置12から取得する。図1の調整値設定部44は、変数選択部42が選択した変数情報DPを音声合成に反映させる度合を示す効果調整値Aを、入力装置14に対する利用者からの指示に応じて可変に設定する。
As shown in FIG. 1, the
表示制御部22は、区間条件および効果調整値Aの指示に利用される図5の操作画像80を表示装置16に表示させる。図5に示すように、操作画像80は、区間条件の指示に利用される条件指示領域82と、効果調整値Aの指示に利用される調整値指示領域84とを含んで構成される。
The
区間条件は、適用区間SAに関する複数の属性(音質,ジャンル,曲部位)で規定される。条件指示領域82は、区間条件を規定する複数の属性の各々について、利用者が選択し得る複数の選択肢(候補)を羅列した画像である。具体的には、図5の例示のように、適用区間SAの音質に関する複数の選択肢(男声,女声,ロボット声)と、適用区間SAのジャンルに関する複数の選択肢(ロック,ポップス,ジャズ,……)と、適用区間SAの曲部位に関する複数の選択肢(イントロ,Aメロ,Bメロ,サビ,……)とが条件指示領域82に配列される。なお、以上の例示からも理解されるように、曲部位は、楽曲内における適用区間SAの構造的な位置付けに相当する。
The section condition is defined by a plurality of attributes (sound quality, genre, song part) regarding the application section SA. The
利用者は、入力装置14を適宜に操作することで、適用区間SAの各属性について、条件指示領域82に配列された何れかの選択肢を指示する。図5では、利用者が、声質について「女声」を選択し、ジャンルについて「ボサノバ」を選択し、曲部位について「Aメロ」を選択した場合が例示されている。利用者が属性毎に指示した選択肢の組合せが区間条件として変数選択部42に指示される。
The user instructs one of the options arranged in the
記憶装置12は、利用者から指示され得る区間条件毎(すなわち、各属性について選択され得る選択肢の組合せ毎)に変数情報DPを記憶する。各区間条件に対応する変数情報DPの各変数遷移データVは、変数遷移データVが示す制御変数Xの時系列で表現される音楽的な表情の時間的な遷移が、その区間条件(音質,ジャンル,曲部位)を満たす旋律に対して音楽的に適合するように作成される。例えば、図5の例示で指示された区間条件(女声,ボサノバ,Aメロ)に対応する変数情報DPの各変数遷移データVは、各変数遷移データVが示す音楽的な表情の時間的な遷移が、「ボサノバ」の楽曲のうち「Aメロ」の旋律を「女声」で発声した場合の歌唱音に対して音楽的に適合するように作成される。図1の変数選択部42は、記憶装置12が記憶する複数の変数情報DPのうち、利用者から指示された区間条件に適合または近似する変数情報DPを記憶装置12から選択的に取得する。
The
他方、図5の調整値指示領域84には、入力装置14に対する操作に応じて移動するスライダ型の操作子画像842が配置される。調整値設定部44は、利用者が入力装置14の操作で移動させた操作子画像842の位置に応じた効果調整値Aを設定する。例えば、調整値設定部44は、移動可能な範囲の下端に操作子画像842が位置する場合には効果調整値Aを最小値(例えば0%)に設定し、移動可能な範囲の上端に操作子画像842が位置する場合には効果調整値Aを最大値(例えば100%)に設定する。効果調整値Aが最小値(0%)である場合、例えば図5にて「OFF」が併記された図形“○”の点灯で、適用区間SA内の合成音に音楽的な表情を付与しないことが表示され、効果調整値Aが最小値を上回る場合、図5にて「ON」が併記された図形“○”の点灯で、適用区間SA内の合成音に音楽的な表情を付与することが表示される。
On the other hand, a slider-type
図6に示すように、利用者が条件指示領域82に対して指示した区間条件と調整値指示領域84に対して指示した効果調整値Aとは管理画像70にも反映される。なお、利用者は、入力装置14を適宜に操作することで、管理画像70に対して直接的に区間条件や効果調整値Aを入力することも可能である。すなわち、管理画像70に入力された区間条件に応じて変数選択部42は変数情報DPを選択し、管理画像70に対する入力に応じて調整値設定部44は効果調整値Aを設定する。
As shown in FIG. 6, the section condition designated by the user for the
図1の変数設定部46は、適用区間SAの音声合成に適用される各制御変数X(X1,X2,……)の変数遷移データWを、変数選択部42が選択した変数情報DPと調整値設定部44が設定した効果調整値Aとに応じて生成する。具体的には、変数設定部46は、以下に例示する第1処理と第2処理とを実行する。
The
記憶装置12に記憶された変数情報DPの各変数遷移データVは、適用区間SAとは無関係に事前に選定された所定の時間にわたる制御変数Xの時系列を指示する。第1処理は、変数情報DPの各変数遷移データVを、区間設定部26が設定した適用区間SAの時間長に合致するように伸縮する処理である。例えば、各変数遷移データVが示す制御変数Xの時系列を例えば補間(間引)により伸縮する処理や、制御変数Xの時系列が反復するように変数遷移データVを時間軸に沿って連結する処理が、第1処理として採用され得る。
Each variable transition data V of the variable information DP stored in the
第2処理は、第1処理後の各変数遷移データVを効果調整値Aに応じて調整することで各変数遷移データWを生成する処理である。具体的には、変数設定部46は、変数遷移データWにおける制御変数Xの時系列と、第1処理後の変数遷移データVにおける当該制御変数Xの時系列との近似の度合(すなわち、変数遷移データWに対して変数遷移データVが反映される度合)が効果調整値Aに応じて変化するように、各制御変数Xの変数遷移データWを第2処理で生成する。例えば、変数設定部46は、効果調整値Aが最大値(100%)に近いほど、第2処理後の各変数遷移データWにおける制御変数Xの時系列が変数遷移データVの制御変数Xの時系列に近づき、効果調整値Aが最小値(0%)に近いほど、第2処理後の各変数遷移データWにおける制御変数Xが、変数遷移データVとは無関係の所定値(例えばゼロ)に近づくように、各制御変数Xの変数遷移データWを生成する。なお、以上では第1処理の実行後に第2処理を実行したが、第2処理の実行後に第1処理を実行する構成も採用される。
The second process is a process of generating each variable transition data W by adjusting each variable transition data V after the first process according to the effect adjustment value A. Specifically, the
音声合成部34は、以上の手順で変数処理部32(変数設定部46)が生成した各変数遷移データWの制御変数Xの時系列を適用区間SA内の各指定音の合成に適用して音声信号SOUTを生成する。他方、表示制御部22は、図7に示すように、各変数遷移データWが示す制御変数Xの時系列を示す画像(以下「変数遷移画像」という)642を編集画像60内の変数領域64に制御変数X毎に配置する。具体的には、制御変数Xの遷移を示すグラフ(例えば折れ線グラフ)が変数遷移画像642として変数領域64に表示される。表示制御部22は、変数領域64内の変数遷移画像642が示す制御変数Xの時系列と、楽譜領域62内の各音指示子622(指定音)の時系列とで時間軸が共通(一致)するように変数遷移画像642を表示する。すなわち、変数領域64内の変数遷移画像642のうち時間軸上の各時点での制御変数Xは、楽譜領域62のうちその時点に存在する指定音の合成に適用される。
The
図7に示すように、変数遷移画像642は、制御変数X毎に相異なる態様(表示色や線幅や線種)で表示される。例えば、図7では、制御変数X1の変数遷移画像642を実線で表示し、制御変数X2の変数遷移画像642を破線で表示した場合が例示されている。なお、複数の制御変数Xのうち利用者から指示された1種以上の制御変数Xの変数遷移画像642のみを選択的に変数領域64に配置する構成も採用され得る。また、変数領域64内の各変数遷移画像642を変更(編集)する指示が入力装置14から入力された場合に、その変数遷移画像642に対応する変数遷移データW(制御変数Xの時系列)を変数設定部46が変更の指示に応じて更新する構成も好適である。
As shown in FIG. 7, the
以上に説明したように、第1実施形態においては、制御変数Xの時間的な遷移を示す複数の変数情報DPのうち利用者からの指示(区間条件)に応じて選択された変数情報DPが、適用区間SA内の各指定音の音声合成に適用される制御変数Xの時系列の設定(変数遷移データWの生成)に利用される。すなわち、変数選択部42による選択の結果(変数情報DP)に応じて合成音の音楽的な表情を変更することが可能である。したがって、合成音の音楽的な表情を変更するためには変数情報を利用者が編集する必要がある特許文献1の技術と比較して、合成音に所望の表情を付与するために必要な利用者の作業の負担が軽減されるという利点がある。さらに、以上の例示においては、変数情報DPが複数の制御変数Xの時間的な遷移を指示するから、変数情報DPが1種類の制御変数Xのみを指示する構成と比較すると、多様な表情の合成音を生成できるという格別の効果が実現される。
As described above, in the first embodiment, the variable information DP selected according to the instruction (section condition) from the user among the plurality of variable information DP indicating the temporal transition of the control variable X is the variable information DP. This is used for setting the time series of the control variable X (generation of variable transition data W) applied to speech synthesis of each designated sound in the application section SA. That is, it is possible to change the musical expression of the synthesized sound according to the selection result (variable information DP) by the
また、変数情報DPを音声合成に反映させる度合が利用者からの指示(効果調整値A)に応じて可変に制御されるから、事前に用意された変数情報DPが音声合成に利用されるとは言っても、変数情報DPの反映の度合が固定された構成と比較すると、利用者の音楽的な意図を反映した多様な合成音を生成できるという利点がある。 In addition, since the degree to which the variable information DP is reflected in the speech synthesis is variably controlled according to the instruction (effect adjustment value A) from the user, when the variable information DP prepared in advance is used for the speech synthesis. Nevertheless, there is an advantage that various synthesized sounds reflecting the musical intention of the user can be generated as compared with the configuration in which the reflection degree of the variable information DP is fixed.
<B:第2実施形態>
次に、本発明の第2実施形態を説明する。なお、以下の各例示において作用や機能が第1実施形態と同等である要素については、以上と同じ符号を付して各々の詳細な説明を適宜に省略する。
<B: Second Embodiment>
Next, a second embodiment of the present invention will be described. In the following examples, elements having the same functions and functions as those of the first embodiment are denoted by the same reference numerals, and detailed descriptions thereof are omitted as appropriate.
図8は、第2実施形態における編集画像60の模式図である。第2実施形態の区間設定部26は、入力装置14に対する利用者からの指示に応じて適用区間SAのうちの編集区間SBを可変に設定する。区間設定部26は、時間的に重複しない複数の編集区間SBを利用者からの指示に応じて各適用区間SA内に順次に特定し得る。なお、編集区間SBの設定には、適用区間SAの設定と同様の方法が適用される。
FIG. 8 is a schematic diagram of an edited
表示制御部22は、図8に示すように、区間設定部26が設定した編集区間SBを示す区間指示子626と、その編集区間SBについて利用者が指示した識別情報(図8の「フレーズA」という名称)とを編集画像60に配置する。また、表示制御部22は、図9に示すように、区間設定部26が設定した編集区間SBの識別情報と継続期間とを含むレコード72を、適用区間SAのレコード72とは別個に管理画像70に配置する。なお、適用区間SAのうち編集区間SB以外の区間(以下「編集外区間」という)に関する処理は第1実施形態の適用区間SAに関する処理と同様であるから、以下では適宜に説明を省略する。
As shown in FIG. 8, the
利用者は、所望の編集区間SBを選択して操作画像80を適宜に操作することで、編集区間SBの区間条件と効果調整値Aとを、編集外区間の区間条件や効果調整値Aとは独立に設定することが可能である。変数選択部42は、編集区間SBについて指示された区間条件に対応する変数情報DPを選択し、調整値設定部44は、編集区間SBについて指示された効果調整値Aを変数設定部46に通知する。表示制御部22は、利用者が指示した区間条件や効果調整値Aを、管理画像70内の編集区間SBのレコード72に反映させる。例えば、図10では、網掛で示すように、編集区間SBの効果調整値Aを、その編集区間SBを含む適用区間SAの効果調整値A(図9の80%)から増加した場合(80%→90%)が想定されている。
The user selects a desired editing section SB and appropriately manipulates the
変数設定部46は、適用区間SAのうち編集区間SBの変数遷移データWと編集外区間の変数遷移データWとを独立に設定する。すなわち、変数設定部46は、適用区間SAのうち編集外区間について既に生成された変数遷移データWを維持したまま、編集区間SBの変数遷移データWを、変数選択部42が編集区間SBについて選択した変数情報DPと調整値設定部44が編集区間SBについて設定した効果調整値Aとに応じて生成する。編集区間SBの変数遷移データWの生成には、例えば、第1実施形態における適用区間SA内の変数遷移データWの生成と同様の方法が採用される。
The
表示制御部22は、図8に示すように、適用区間SA内の編集外区間について第1実施形態と同様に変数遷移画像642を表示するほか、編集区間SBの変数遷移データWに応じた変数遷移画像642を、変数領域64のうち編集区間SBに対応する領域に配置する。音声合成部34は、編集区間SBについて変数設定部46が設定した変数遷移データWを、その編集区間SB内の各指定音の合成に適用して音声信号SOUTを生成する。
As shown in FIG. 8, the
第2実施形態においては、適用区間SAのうち利用者からの指示に応じた編集区間SBについて、編集外区間とは独立に変数遷移データWが生成される。すなわち、適用区間SA内の制御変数Xの時系列を利用者が部分的に編集することが可能である。したがって、適用区間SAのみが設定される構成(第1実施形態)と比較して、利用者の意図を高度に反映した多様な表情の合成音を生成できるという利点がある。 In the second embodiment, the variable transition data W is generated independently of the non-editing section for the editing section SB corresponding to the instruction from the user in the application section SA. That is, the user can partially edit the time series of the control variable X in the application section SA. Therefore, compared to the configuration in which only the application section SA is set (first embodiment), there is an advantage that it is possible to generate synthetic sounds with various facial expressions that highly reflect the user's intention.
<C:第3実施形態>
第2実施形態のように適用区間SAのうち編集区間SBと編集外区間とで変数遷移データWが個別に設定されると、図8における変数領域64の内容から理解されるように、変数遷移データWの示す制御変数Xの時系列が編集区間SBと編集外区間との境界にて不連続となる可能性がある。そこで、第3実施形態の変数設定部46は、編集区間SBの内外で制御変数Xが連続する(滑らかに遷移する)ように、編集外区間の変数遷移データWと編集区間SBの変数遷移データWとの補間を実行する。
<C: Third Embodiment>
When the variable transition data W is individually set in the editing section SB and the non-editing section in the application section SA as in the second embodiment, the variable transition is understood as understood from the contents of the
例えば変数設定部46は、図11に示すように、編集区間SB内の変数遷移データWが示す制御変数Xの時系列α1と、その編集区間SBの直前および直後の区間(編集外区間)の変数遷移データWが示す制御変数Xの時系列α2とを時間軸上で重複させたうえでクロスフェードすることで、編集区間SBの始点および終点の部分における制御変数Xの時系列α3(破線部分)を算定する。音声合成部34は、補間後の変数遷移データWを適用区間SA(編集区間SBおよび編集外区間)内の音声合成に適用する。
For example, as shown in FIG. 11, the
以上の構成によれば、編集区間SBと編集外区間との境界における制御変数Xの不連続な変化が抑制されるから、合成音の音楽的な表情の不自然(唐突)な変化が防止される。したがって、音楽的な表情が滑らかに遷移する自然な合成音を生成できるという利点がある。もっとも、編集区間SBの内外で音楽的な表情を不連続に変化させることが望ましい楽曲(制御変数Xを補間すると却って不自然となる楽曲)も存在し得るから、変数遷移データWの補間の実行の有無を利用者が指示し得る構成が好適である。 According to the above configuration, since the discontinuous change of the control variable X at the boundary between the editing section SB and the non-editing section is suppressed, an unnatural (abrupt) change in the musical expression of the synthesized sound is prevented. The Therefore, there is an advantage that a natural synthesized sound in which a musical expression smoothly transitions can be generated. However, since there may be a song (a song that becomes unnatural when the control variable X is interpolated) for which it is desirable to discontinuously change the musical expression inside and outside the editing section SB, the variable transition data W is interpolated. A configuration in which the user can instruct the presence or absence of this is preferable.
<D:第4実施形態>
第2実施形態では編集区間SBの効果調整値Aと編集外区間の効果調整値Aとを独立に設定したが、編集区間SBと編集外区間とで効果調整値Aが極端に相違すると、合成音の音楽的な表情の遷移が不自然となる可能性もある。そこで、第4実施形態では、編集区間SBの効果調整値Aと編集外区間の効果調整値Aとの一方を他方に連動して変化させる。
<D: Fourth Embodiment>
In the second embodiment, the effect adjustment value A of the editing section SB and the effect adjustment value A of the non-editing section are set independently. However, if the effect adjustment value A is extremely different between the editing section SB and the non-editing section, the synthesis is performed. The transition of the musical expression of the sound may be unnatural. Therefore, in the fourth embodiment, one of the effect adjustment value A in the editing section SB and the effect adjustment value A in the non-editing section is changed in conjunction with the other.
具体的には、調整値設定部44は、編集区間SBの効果調整値Aと編集外区間の効果調整値Aとを、両者の比率(相対比)を維持しながら利用者からの指示に応じて変化させる。例えば、図10の例示のように編集外区間(適用区間SA)の効果調整値Aが80%に設定されるとともに編集区間SBの効果調整値Aが90%に設定された場合を想定する。図12の例示のように、利用者が編集外区間(パートA)の効果調整値Aを80%から70%に変更すると、調整値設定部44は、編集区間SBの効果調整値Aを図10の90%から78%(≒90×70/80)に変更する。編集区間SBの効果調整値Aを利用者が変更した場合にも同様に、調整値設定部44は、変更前の両者の比率が維持されるように編集外区間の効果調整値Aを変更する。
Specifically, the adjustment
以上の構成によれば、編集区間SBの効果調整値Aと編集外区間の効果調整値Aとの比率を維持したまま各々が変更されるから、編集区間SBの内外で音楽的な表情が不自然に変化することを抑制できるという利点がある。 According to the above configuration, each change is made while maintaining the ratio between the effect adjustment value A of the editing section SB and the effect adjustment value A of the non-editing section, so that the musical expression is not good inside and outside the editing section SB. There is an advantage that it is possible to suppress natural changes.
<E:変形例>
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様は適宜に併合され得る。
<E: Modification>
Each of the above forms can be variously modified. Specific modifications are exemplified below. Two or more aspects arbitrarily selected from the following examples can be appropriately combined.
(1)変形例1
区間条件を構成する属性は以上の例示(音質,ジャンル,曲部位)に限定されない。例えば、楽曲の調(キー)を含む区間条件に応じて変数情報DPを選択する構成が採用される。もっとも、変数情報DPの選択にとって区間条件の指示は必須ではなく、変数情報DPの選択の方法は適宜に変更される。例えば、複数の変数情報DPの何れかを利用者が直接的に(すなわち区間条件の入力を介さずに)入力装置14から指示する構成も採用され得る。以上の説明から理解されるように、以上の各形態における変数選択部42は、複数の変数情報DPのうち利用者からの指示に応じた変数情報DPを選択する要素として包括される。ただし、音質やジャンルや曲部位といった利用者に馴染みのある区間条件を変数情報DPの選択に利用する以上の各形態によれば、変数情報DPで付与される音楽的な表情について詳細な知識がなくても、利用者の所望の変数情報DPを音声合成に適用できるという格別の効果が実現される。
(1) Modification 1
The attributes constituting the section condition are not limited to the above examples (sound quality, genre, song part). For example, a configuration is adopted in which the variable information DP is selected according to the section condition including the key (key) of the music. However, the instruction of the section condition is not essential for the selection of the variable information DP, and the method for selecting the variable information DP is appropriately changed. For example, a configuration in which the user directly instructs any of the plurality of variable information DP from the input device 14 (that is, not via the input of the section condition) may be employed. As can be understood from the above description, the
(2)変形例2
効果調整値Aに応じた変数遷移データWの生成の方法は任意である。例えば、変数遷移データVに対して効果調整値Aを加算または乗算することで変数設定部46が変数遷移データWを生成する構成も採用される。また、多様な表情の付与という効果が不要であれば、効果調整値Aの設定(調整値設定部44)は省略され得る。
(2) Modification 2
A method of generating the variable transition data W according to the effect adjustment value A is arbitrary. For example, a configuration in which the
(3)変形例3
第3実施形態においては編集区間SAと編集外区間とで制御変数Xを補間したが、時間軸上で相前後する2個の適用区間SAについて制御変数Xを補間する構成も採用される。適用区間SA間の制御変数Xの補間には、編集区間SAと編集外区間とで制御変数Xを補間する第3実施形態と同様の方法が採用される。各適用区間SAについて制御変数Xを補間する構成によれば、相前後する各適用区間SAの境界における制御変数Xの不連続な変化が抑制されるから、音楽的な表情が滑らかに遷移する自然な合成音を生成できるという利点がある。
(3) Modification 3
In the third embodiment, the control variable X is interpolated between the editing section SA and the non-editing section. However, a configuration in which the control variable X is interpolated for two application sections SA that are in succession on the time axis is also employed. For the interpolation of the control variable X between the application sections SA, the same method as in the third embodiment in which the control variable X is interpolated between the editing section SA and the non-editing section is employed. According to the configuration in which the control variable X is interpolated for each application section SA, the discontinuous change of the control variable X at the boundary of each successive application section SA is suppressed, so that the musical expression changes smoothly. There is an advantage that a simple synthesized sound can be generated.
(4)変形例4
以上の各形態においては、変数処理部32(変数設定部46)が生成した変数遷移データW(制御変数Xの時系列)に応じて音声合成部34が音声信号SOUTを生成する音声合成装置100を例示したが、音声合成に適用される変数遷移データWを生成する装置(変数処理装置)としても本発明は実施され得る。
(4) Modification 4
In each of the above embodiments, the
具体的には、変数処理装置は、制御変数Xの時系列を示す複数の変数情報DPを記憶する記憶装置12と、利用者からの指示に応じて適用区間SAを可変に設定する区間設定部26と、複数の変数情報DPのうち利用者からの指示に応じた変数情報DPを利用して適用区間SA内の制御変数Xの時系列(変数遷移データW)を設定する変数処理部32とを具備する。すなわち、情報生成部24や音声合成部34や表示制御部22は適宜に省略され得る。変数処理装置(変数処理部32)が生成した変数遷移データWは、可搬型の記録媒体や通信網を介して、変数処理装置とは別体の音声合成装置(音声合成部34を具備する)に提供されて音声合成に適用される。
Specifically, the variable processing device includes a
100……音声合成装置、10……制御装置、12……記憶装置、14……入力装置、16……表示装置、18……放音装置、22……表示制御部、24……情報生成部、26……区間設定部、32……変数処理部、34……音声合成部、42……変数選択部、44……調整値設定部、46……変数設定部、60……編集画像、62……楽譜領域、622……音指示子、624,626……区間指示子、64……変数領域、70……管理画像、72……レコード、80……操作画像、82……条件指示領域、84……調整値指示領域、642……変数遷移画像、SA……適用区間、SB……編集区間、DS……音楽情報、DV……音素情報、DP……変数情報、V,W……変数遷移データ。
100 ... speech synthesizer, 10 ... control device, 12 ... storage device, 14 ... input device, 16 ... display device, 18 ... sound emitting device, 22 ... display control unit, 24 ... information generation , 26... Section setting section, 32... Variable processing section, 34... Speech synthesis section, 42... Variable selection section, 44 ....... adjustment value setting section, 46. 62 …… Score area, 622 …… Sound indicator, 624,626… Section indicator, 64 …… Variable area, 70 …… Management image, 72 …… Record, 80 …… Operation image, 82 …… Condition Designated area, 84... Adjustment value designated area, 642... Variable transition image, SA... Applicable section, SB... Edit section, DS ... Music information, DV ... Phoneme information, DP ... Variable information, V, W: Variable transition data.
Claims (6)
音声合成に適用される制御変数の時系列を示す複数の変数情報であって、合成音の複数の属性の各々に関する選択肢の相異なる組合せに対応する複数の変数情報のうち、利用者が前記各属性について指示した選択肢の組合せに対応する変数情報を選択する変数選択手段と、
前記変数選択手段が選択した変数情報に応じて前記適用区間内の制御変数の時系列を設定する変数設定手段と、
前記音楽情報が示す指定音を合成する手段であって、前記変数設定手段が設定した制御変数の時系列を前記適用区間内の指定音の合成に適用する音声合成手段と
を具備する音声合成装置。 Section setting means for variably setting the application section in the time series of the designated sound indicated by the music information according to an instruction from the user;
A plurality of variable information indicating the time sequence of the control variables applied to speech synthesis, among a plurality of variable information corresponding to a plurality of respective different combinations of the options for the attributes of the synthesized speech, wherein the user each Variable selection means for selecting variable information corresponding to the combination of options instructed for the attribute ;
Variable setting means for setting a time series of control variables in the application section according to the variable information selected by the variable selection means;
A voice synthesizer comprising: a voice synthesizing unit for synthesizing a designated sound indicated by the music information, the voice synthesizing unit applying a time series of control variables set by the variable setting unit to synthesis of the designated sound in the application section; .
音声合成に適用される制御変数の時系列を示す複数の変数情報のうち利用者からの指示に応じた変数情報を選択する変数選択手段と、
前記変数選択手段が選択した変数情報に応じて前記適用区間内の制御変数の時系列を設定する手段であって、前記適用区間のうち前記編集区間内の制御変数の時系列と前記編集区間以外の区間内の制御変数の時系列とを独立に設定し得る変数設定手段と、
前記音楽情報が示す指定音を合成する手段であって、前記変数設定手段が設定した制御変数の時系列を前記適用区間内の指定音の合成に適用する音声合成手段と
を具備する音声合成装置。 Section setting means for variably setting the application section in the time series of the designated sound indicated by the music information and the editing section in the application section according to an instruction from the user;
Variable selection means for selecting variable information according to an instruction from a user among a plurality of variable information indicating a time series of control variables applied to speech synthesis ;
A means for setting a time series of control variables in the applied section according to the variable information selected by the variable selecting means, except for the time series of the control variables in the editing section and the editing section other than the applied section. Variable setting means capable of independently setting the time series of control variables in the interval of
A voice synthesizer comprising: a voice synthesizing unit for synthesizing a designated sound indicated by the music information, the voice synthesizing unit applying a time series of control variables set by the variable setting unit to synthesis of the designated sound in the application section; .
請求項2の音声合成装置。 The speech synthesis apparatus according to claim 2 , wherein the variable setting unit performs interpolation of the control variable so that the control variable is continuous inside and outside the editing section in the application section.
前記変数設定手段は、前記効果調整値に応じた度合で前記変数情報が前記適用区間内の指定音の合成に反映されるように前記適用区間内の制御変数の時系列を設定する
請求項1から請求項3の何れかの音声合成装置。 Comprising adjustment value setting means for variably setting the effect adjustment value in accordance with an instruction from the user;
The variable setting means sets a time series of control variables in the application section so that the variable information is reflected in the synthesis of the designated sound in the application section to a degree according to the effect adjustment value. The speech synthesizer according to claim 3 .
音楽情報が示す指定音の時系列における適用区間を利用者からの指示に応じて可変に設定する区間設定手段、 Section setting means for variably setting the application section in the time series of the designated sound indicated by the music information according to an instruction from the user,
音声合成に適用される制御変数の時系列を示す複数の変数情報であって、合成音の複数の属性の各々に関する選択肢の組合せに対応する変数情報のうち、利用者が前記各属性について指示した選択肢の組合せに対応する変数情報を選択する変数選択手段、 A plurality of variable information indicating a time series of control variables applied to speech synthesis, and the user has instructed each of the attributes among the variable information corresponding to the combination of options for each of the plurality of attributes of the synthesized sound. Variable selection means for selecting variable information corresponding to the combination of options,
前記変数選択手段が選択した変数情報に応じて前記適用区間内の制御変数の時系列を設定する変数設定手段、および、 Variable setting means for setting a time series of control variables in the application section according to the variable information selected by the variable selection means; and
前記音楽情報が示す指定音を合成する手段であって、前記変数設定手段が設定した制御変数の時系列を前記適用区間内の指定音の合成に適用する音声合成手段 Means for synthesizing a designated sound indicated by the music information, the voice synthesizing means for applying a time series of control variables set by the variable setting means to synthesis of the designated sound in the application section;
として機能させるプログラム Program to function as
音楽情報が示す指定音の時系列における適用区間と、前記適用区間内の編集区間とを利用者からの指示に応じて可変に設定する区間設定手段、 Section setting means for variably setting the application section in the time series of the designated sound indicated by the music information and the editing section in the application section according to an instruction from the user,
音声合成に適用される制御変数の時系列を示す複数の変数情報のうち利用者からの指示に応じた変数情報を選択する変数選択手段、 Variable selection means for selecting variable information according to an instruction from a user among a plurality of variable information indicating a time series of control variables applied to speech synthesis;
前記変数選択手段が選択した変数情報に応じて前記適用区間内の制御変数の時系列を設定する手段であって、前記適用区間のうち前記編集区間内の制御変数の時系列と前記編集区間以外の区間内の制御変数の時系列とを独立に設定し得る変数設定手段、および、 A means for setting a time series of control variables in the applied section according to the variable information selected by the variable selecting means, except for the time series of the control variables in the editing section and the editing section other than the applied section. Variable setting means capable of independently setting the time series of control variables in the interval of
前記音楽情報が示す指定音を合成する手段であって、前記変数設定手段が設定した制御変数の時系列を前記適用区間内の指定音の合成に適用する音声合成手段 Means for synthesizing a designated sound indicated by the music information, the voice synthesizing means for applying a time series of control variables set by the variable setting means to synthesis of the designated sound in the application section;
として機能させるプログラム。 Program to function as.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009247784A JP5625321B2 (en) | 2009-10-28 | 2009-10-28 | Speech synthesis apparatus and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009247784A JP5625321B2 (en) | 2009-10-28 | 2009-10-28 | Speech synthesis apparatus and program |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014203496A Division JP5790860B2 (en) | 2014-10-01 | 2014-10-01 | Speech synthesizer |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011095397A JP2011095397A (en) | 2011-05-12 |
JP5625321B2 true JP5625321B2 (en) | 2014-11-19 |
Family
ID=44112399
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009247784A Active JP5625321B2 (en) | 2009-10-28 | 2009-10-28 | Speech synthesis apparatus and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5625321B2 (en) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013018294A1 (en) * | 2011-08-01 | 2013-02-07 | パナソニック株式会社 | Speech synthesis device and speech synthesis method |
JP6149373B2 (en) * | 2011-10-18 | 2017-06-21 | ヤマハ株式会社 | Speech synthesis data editing apparatus and speech synthesis data editing method |
JP2014178620A (en) * | 2013-03-15 | 2014-09-25 | Yamaha Corp | Voice processor |
JP6299141B2 (en) * | 2013-10-17 | 2018-03-28 | ヤマハ株式会社 | Musical sound information generating apparatus and musical sound information generating method |
JP6696138B2 (en) | 2015-09-29 | 2020-05-20 | ヤマハ株式会社 | Sound signal processing device and program |
CN109952609B (en) * | 2016-11-07 | 2023-08-15 | 雅马哈株式会社 | Sound synthesizing method |
JP2022075147A (en) * | 2020-11-06 | 2022-05-18 | ヤマハ株式会社 | Acoustic processing system, acoustic processing method and program |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3823930B2 (en) * | 2003-03-03 | 2006-09-20 | ヤマハ株式会社 | Singing synthesis device, singing synthesis program |
-
2009
- 2009-10-28 JP JP2009247784A patent/JP5625321B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2011095397A (en) | 2011-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6236765B2 (en) | Music data editing apparatus and music data editing method | |
JP5625321B2 (en) | Speech synthesis apparatus and program | |
JP6665446B2 (en) | Information processing apparatus, program, and speech synthesis method | |
JP6620462B2 (en) | Synthetic speech editing apparatus, synthetic speech editing method and program | |
JP2004258563A (en) | Device and program for score data display and editing | |
JP2019066648A (en) | Method for assisting in editing singing voice and device for assisting in editing singing voice | |
JP5423375B2 (en) | Speech synthesizer | |
JP5515986B2 (en) | Information editing apparatus and program | |
JP5636665B2 (en) | Music information processing apparatus and music information processing method | |
JP6179221B2 (en) | Sound processing apparatus and sound processing method | |
JP6255744B2 (en) | Music display device and music display method | |
JP5790860B2 (en) | Speech synthesizer | |
JP5779838B2 (en) | Sound processing apparatus and program | |
JP3807380B2 (en) | Score data editing device, score data display device, and program | |
JP7124870B2 (en) | Information processing method, information processing device and program | |
JP4456088B2 (en) | Score data display device and program | |
JP2013195699A (en) | Singing synthesis device and singing synthesis program | |
JP5106437B2 (en) | Karaoke apparatus, control method therefor, and control program therefor | |
JP2010160406A (en) | Voice synthesis device and program | |
JP5935831B2 (en) | Speech synthesis apparatus, speech synthesis method and program | |
JP5552797B2 (en) | Speech synthesis apparatus and speech synthesis method | |
US20230244646A1 (en) | Information processing method and information processing system | |
JP7544076B2 (en) | Information processing device, electronic musical instrument, electronic musical instrument system, method, and program | |
JP6341032B2 (en) | Apparatus and program for processing musical tone information | |
JP5782799B2 (en) | Speech synthesizer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120820 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140127 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140204 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140404 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140902 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140915 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5625321 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313532 |