JP6477096B2 - Input device and sound synthesizer - Google Patents
Input device and sound synthesizer Download PDFInfo
- Publication number
- JP6477096B2 JP6477096B2 JP2015058374A JP2015058374A JP6477096B2 JP 6477096 B2 JP6477096 B2 JP 6477096B2 JP 2015058374 A JP2015058374 A JP 2015058374A JP 2015058374 A JP2015058374 A JP 2015058374A JP 6477096 B2 JP6477096 B2 JP 6477096B2
- Authority
- JP
- Japan
- Prior art keywords
- touch
- end point
- start point
- point
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 claims description 65
- 230000015572 biosynthetic process Effects 0.000 claims description 48
- 239000013598 vector Substances 0.000 claims description 42
- 238000006243 chemical reaction Methods 0.000 claims description 37
- 238000003786 synthesis reaction Methods 0.000 claims description 32
- 230000002194 synthesizing effect Effects 0.000 claims description 29
- 239000011295 pitch Substances 0.000 description 37
- 230000007704 transition Effects 0.000 description 20
- 230000006870 function Effects 0.000 description 14
- 238000000034 method Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 13
- 238000012545 processing Methods 0.000 description 9
- 230000004048 modification Effects 0.000 description 7
- 238000012986 modification Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000001133 acceleration Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- User Interface Of Digital Computer (AREA)
Description
本発明は、複数の点に同時に触れて操作することができるマルチタッチパネルを利用した入力装置に関する。 The present invention relates to an input device using a multi-touch panel that can be operated by simultaneously touching a plurality of points.
電子機器に対するユーザの入力操作を受け付けるユーザインタフェースとしてタッチパネルが一般に普及している。タッチパネルは液晶ディスプレイなどの表示装置の表示面に透明なシート状の接触検知センサを貼り付けて構成されている。電子機器のユーザは、表示装置に表示される画像による案内に応じて指やペン先などで透明接触検知センサの表面(以下、操作検出面)に触れるといった直観的で判り易い操作により、電子機器に対する各種入力を行うことができる。タッチパネルを電子機器に対するユーザインタフェースとして用いる場合、ユーザの操作内容を表すデータ、すなわち、ユーザのタッチ位置を表すデータをその電子機器にて実行するアプリケーションに応じたデータに変換する必要がある。例えば、歌唱音声を合成する歌唱合成装置であれば、ユーザのタッチ位置を合成対象の歌唱音声の発音を表すデータ(例えば、音素や音高、音量を表すデータ等)に変換し、その変換結果に応じて歌唱音声を合成するといった具合である。 As a user interface for accepting a user input operation on an electronic device, a touch panel is generally popular. The touch panel is configured by attaching a transparent sheet-like contact detection sensor to a display surface of a display device such as a liquid crystal display. The user of the electronic device performs an intuitive and easy-to-understand operation such as touching the surface (hereinafter referred to as an operation detection surface) of the transparent contact detection sensor with a finger or a pen tip according to the guidance by the image displayed on the display device. Various inputs can be made. When a touch panel is used as a user interface for an electronic device, it is necessary to convert data representing the operation contents of the user, that is, data representing the touch position of the user into data corresponding to an application executed on the electronic device. For example, in the case of a singing voice synthesizing device that synthesizes a singing voice, the user's touch position is converted into data representing the pronunciation of the singing voice to be synthesized (for example, data representing a phoneme, pitch, volume, etc.), and the conversion result The singing voice is synthesized according to the situation.
従来のタッチパネルは、ユーザが操作検出面の複数個所に同時に指を触れたとしても、一点だけしか検出できないものや、接触箇所を正しく検出できないものが主流であった。しかし、近年では、複数個所の接触検出が可能なマルチタッチパネルが普及しつつある。電子機器のユーザインタフェースとしてマルチタッチパネルを用いると、従来にはなかったアプリケーションを実現できると期待される。例えば、複数人が同時に操作することで共同作業的なアプリケーションを実現できる、といった具合である。また、複数のタッチ位置間の位置関係に新たな情報を対応させたり、それらタッチ位置の変化に応じてアプリケーションの処理内容を変えられるようにすれば、上記ユーザインタフェースを適用可能なアプリケーションの幅が広がる。しかし、複数のタッチ位置の位置関係に新たな情報を対応させることや、それら複数のタッチ位置の経時的な変化に応じてアプリケーションの処理内容を変えられるようにする技術は従来なかった。 Conventional touch panels have mainly been those that can detect only one point even if the user touches a plurality of locations on the operation detection surface at the same time, and those that cannot correctly detect a contact location. However, in recent years, multi-touch panels capable of detecting contact at a plurality of locations are becoming popular. When a multi-touch panel is used as a user interface of an electronic device, it is expected that an application that has not existed before can be realized. For example, a collaborative application can be realized by a plurality of people operating simultaneously. In addition, if new information is made to correspond to the positional relationship between a plurality of touch positions, or the processing contents of the application can be changed according to changes in the touch positions, the range of applications to which the user interface can be applied is increased. spread. However, there has been no technology that makes new information correspond to the positional relationship of a plurality of touch positions, or changes the processing contents of an application in accordance with changes over time of the plurality of touch positions.
本発明は以上に説明した課題に鑑みて為されたものであり、操作検出面上の複数のタッチ位置の関係に情報を対応させることを可能にするとともに、当該位置関係の経時的な変化に応じて処理内容を変えるアプリケーションを実現できるようにする技術を提供することを目的とする。 The present invention has been made in view of the problems described above, and makes it possible to make information correspond to the relationship between a plurality of touch positions on the operation detection surface, and to change the positional relationship over time. An object of the present invention is to provide a technology that makes it possible to realize an application that changes processing contents in response.
上記課題を解決するために本発明は、操作検出面に対してユーザにより為されたタッチ操作による複数のタッチ位置の各々を示す操作内容データを出力する操作検出手段と、前記操作内容データを他の情報を表すデータに変換して出力する手段であって、前記操作内容データの示す複数のタッチ位置のうちの一つを始点とし当該始点以外のタッチ位置のうちの一つを終点とした場合における当該始点と当該終点の予め定められた方の位置、当該予め定められた方から見た他方の方向および両者の間の距離を予め定められたルールにしたがって3種類の情報に変換し、少なくとも当該3種類の情報を含む複数の情報を表すデータを出力する変換手段とを備えることを特徴とする入力装置を提供する。 In order to solve the above-described problems, the present invention provides operation detection means for outputting operation content data indicating each of a plurality of touch positions by a touch operation performed by a user on an operation detection surface; When the data is converted into data representing the information and output, and one of the touch positions indicated by the operation content data is a start point and one of the touch positions other than the start point is an end point The predetermined position of the start point and the end point in the above, the other direction viewed from the predetermined direction, and the distance between them is converted into three types of information according to a predetermined rule, at least There is provided an input device comprising conversion means for outputting data representing a plurality of pieces of information including the three types of information.
上記操作検出手段の具体例としてはマルチタッチパネルが挙げられる。本発明の入力装置を電子機器に対する入力手段として用いるようにすれば、始点或いは終点の位置に応じて定まる情報の他に、始点と終点のうち予め定められた方から見た他方の方向に応じて定まる情報と両者の間の距離に応じて定まる情報(すなわち、両者の位置関係に応じて定まる情報)を操作検出面に対する操作に応じて出力することが可能になる。また、上記操作検出手段が、少なくとも1つのタッチ位置の更新が発生する毎に上記操作内容データを出力するものであり、上記変換手段が、操作内容データを受け取る毎に上記変換および出力を行うものであれば、始点と終点の位置関係を経時的に変化させる操作、すなわち、始点を指示している指先や終点を指示している指先の何れか一方、或いは両方を操作検出面をなぞるように動かす操作に応じて上記情報が経時的に更新され、当該情報を利用して何らかの処理を行うアプリケーション側では当該情報の更新に応じてその処理内容を変えることができる。非特許文献1に開示のコンピュータゲームでは、キャラクタをタッチしたままドラッグすることで、当該キャラクタを投げ飛ばす際の初速および方向を指定することができるが、これら初速や方向の経時的な変化を指定できる訳ではなく、本発明とは異なる技術である。 A specific example of the operation detection means is a multi-touch panel. If the input device of the present invention is used as an input means for an electronic device, in addition to the information determined according to the position of the start point or the end point, it corresponds to the other direction as viewed from a predetermined one of the start point and the end point. It is possible to output information determined according to the distance between them and information determined according to the distance between them (that is, information determined according to the positional relationship between the two) according to the operation on the operation detection surface. The operation detection means outputs the operation content data every time at least one touch position is updated, and the conversion means performs the conversion and output each time the operation content data is received. If so, an operation for changing the positional relationship between the start point and the end point with time, i.e., tracing either one or both of the fingertip indicating the start point and the fingertip indicating the end point on the operation detection surface. The information is updated over time according to the operation to be moved, and the processing content can be changed according to the update of the information on the application side that performs some processing using the information. In the computer game disclosed in Non-Patent Document 1, it is possible to specify the initial speed and direction when throwing the character by dragging while touching the character, but it is possible to specify changes in the initial speed and direction over time. It is not a translation but a technique different from the present invention.
より好ましい態様としては、始点と終点のうちの予め定められた方の位置、当該予め定められた方から見た他方の方向および両者の間の距離の少なくとも一つに関する基準値または推奨値をユーザに報知する報知手段を上記入力装置に設ける態様が考えられる。このような態様によれば、ユーザは、報知手段により報知される基準値或いは推奨値を参照しつつ、始点或いは終点を指定する操作を行うことができるからである。 As a more preferable aspect, the reference value or recommended value relating to at least one of the predetermined position of the start point and the end point, the other direction viewed from the predetermined direction, and the distance between the two is set by the user. It is conceivable to provide the input device with notification means for informing the input device. This is because, according to such an aspect, the user can perform an operation of designating the start point or the end point while referring to the reference value or the recommended value notified by the notification unit.
さらに別の好ましい態様としては、操作検出手段には、各タッチ位置に加えてタッチ開始時刻を表す操作内容データを生成させ、変換手段には、始点のタッチ開始時刻と終点のタッチ開始時刻の時間差を前記3種類の情報とは異なる第4の情報に変換して出力させる態様が考えられる。このような態様によれば、操作検出面上の複数のタッチ位置の位置関係および時間関係に情報を対応させることが可能になり、一層多様な情報入力を行うことが可能になる。なお、上記時間差を第4の情報に対応させるのではなく、始点の決定に利用しても良い。例えば、時間差を設けて指定された2つのタッチ位置のうちの一方を始点、他方を終点とする場合、上記時間差が所定の閾値未満の場合には先に指定された方を始点とし、上記時間差が所定の閾値以上の場合は後から指定された方を始点とするといった具合である。 In another preferred embodiment, the operation detection means generates operation content data representing the touch start time in addition to each touch position, and the conversion means causes the time difference between the start touch start time and the end touch start time. Can be converted into fourth information different from the three types of information and output. According to such an aspect, it becomes possible to make information correspond to the positional relationship and the time relationship of a plurality of touch positions on the operation detection surface, and it becomes possible to perform more diverse information input. In addition, you may utilize the said time difference for determination of a starting point instead of making it respond | correspond to 4th information. For example, if one of the two touch positions specified with a time difference is set as the start point and the other is set as the end point, if the time difference is less than a predetermined threshold, the previously specified one is set as the start point, and the time difference is If is greater than or equal to a predetermined threshold, the one specified later is used as the starting point.
本発明において始点と終点のうちの予め定められた方の位置等に対応付ける情報の種類は、本発明の入力装置をどのような種類の電子機器の入力手段として用いるのかに応じて定まる。本発明の入力装置の適用対象となる電子機器としては、歌唱合成装置などの音合成装置やコンピュータゲーム機が挙げられる。また、本発明の入力装置を、地図アプリケーション用の入力装置、或いはコンピュータゲーム用の入力装置として用いても勿論良い。例えば、本発明の入力装置を、歌唱合成装置等の音合成装置の入力手段として用いる態様、換言すれば、本発明の入力装置と、当該入力装置の出力データに応じて歌唱音声や楽器演奏音を合成する音合成手段とを有する音合成装置を提供する態様においては、始点と終点の予め定められた方の位置、当該予め定められた方から見た他方の方向および両者の間の距離を、合成対象の音を規定する複数の情報(少なくとも、音色または発音、音高および音量の3つの情報)に対応付けておけば良い。また、始点と終点の各々のタッチ時刻の時間差を第4の情報に対応付ける態様においては、合成結果の音を出力する際のベロシティに当該第4の情報を対応付けるようにすれば良い。 In the present invention, the type of information associated with a predetermined one of the starting point and the ending point is determined according to the type of electronic device used as the input device of the present invention. Examples of the electronic device to which the input device of the present invention is applied include a sound synthesizer such as a singing synthesizer and a computer game machine. Of course, the input device of the present invention may be used as an input device for a map application or an input device for a computer game. For example, an aspect in which the input device of the present invention is used as input means of a sound synthesizer such as a synthesizer, in other words, a singing voice or a musical instrument performance sound according to the input device of the present invention and output data of the input device. In the aspect of providing a sound synthesizer having a sound synthesizer for synthesizing the sound, the position of the predetermined point of the start point and the end point, the other direction viewed from the predetermined direction, and the distance between the two are determined. It is only necessary to associate with a plurality of pieces of information defining at least the synthesis target sound (at least three pieces of information of tone color or pronunciation, pitch, and volume). Further, in the aspect in which the time difference between the touch times of the start point and the end point is associated with the fourth information, the fourth information may be associated with the velocity at the time of outputting the synthesized sound.
本発明の入力装置を音合成装置の入力手段として用いる態様においては、始点と終点のうちの予め定められた方から他方を見た方向に音高を対応付け、変換手段には、予め定められた方を中心として他方が予め定められた角度分回転する毎に音高が一オクターブ変化するように、始点および終点の位置を示すデータを音高を示すデータに変換させる方向と音高の対応付けを行っておくことが好ましい。始点と終点のうちの予め定められた方から見た他方の方向は、当該予め定められた方を中心とする極座標における角度で表すことができ、当該角度による表現は平均律等の音楽理論における音高表現との親和性が高いからである。 In an aspect in which the input device of the present invention is used as an input unit of a sound synthesizer, a pitch is associated with a direction in which the other one of the start point and the end point is viewed from the predetermined point, and the conversion unit has a predetermined pitch. Correspondence between the direction and pitch to convert the data indicating the position of the start point and end point to data indicating the pitch so that the pitch changes by one octave each time the other rotates by a predetermined angle. It is preferable to perform the attachment. The other direction seen from the predetermined one of the start point and the end point can be expressed by an angle in polar coordinates centered on the predetermined direction, and the expression by the angle is in music theory such as equal temperament. This is because it has high affinity with pitch expression.
上記課題を解決するための別の態様としては、CPU(Central Processing Unit)などのコンピュータを上記変換手段および上記音合成手段として機能させるプログラム、すなわち、当該コンピュータを本発明の音合成装置として機能させるプログラムを提供する態様が考えられる。同様に、コンピュータを上記変換手段として機能させるプログラム、すなわち、当該コンピュータを本発明の入力装置として機能させるプログラムを提供する態様も考えられる。これらのプログラムの具体的な提供態様としては、CD−ROM(Compact Disk-Read Only memory)やDVD(登録商標:Digital Versatile Disc)、フラッシュROMなどのコンピュータ読み取り可能な記録媒体に上記プログラムを書き込んで配布する態様や、インターネットなどの電気通信回線経由のダウンロードにより配布する態様が考えられる。 As another aspect for solving the above-described problem, a program that causes a computer such as a CPU (Central Processing Unit) to function as the conversion unit and the sound synthesis unit, that is, the computer functions as the sound synthesis device of the present invention. An aspect of providing a program is conceivable. Similarly, an aspect of providing a program that causes a computer to function as the conversion means, that is, a program that causes the computer to function as the input device of the present invention is also conceivable. As specific provision modes of these programs, the above programs are written on a computer-readable recording medium such as a CD-ROM (Compact Disk-Read Only memory), a DVD (registered trademark: Digital Versatile Disc), or a flash ROM. A distribution mode or a distribution mode via a telecommunication line such as the Internet can be considered.
以下、図面を参照しつつ、この発明の実施形態を説明する。
(A:構成)
図1は、本発明の音合成装置の一実施形態の歌唱合成装置10の構成例を示す図である。歌唱合成装置10は、ユーザが手に持って操作可能な大きさ(例えばB5サイズ)のタブレット型のコンピュータ装置に歌唱合成プログラムをインストールしたものである。歌唱合成装置10のユーザは、歌唱合成装置10を片手で保持しつつ他方の手で各種操作を行うことができる。歌唱合成装置10は、ユーザの操作に応じて歌唱音声を合成し、放音する。図1に示すように、歌唱合成装置10は、制御部100、ユーザインタフェース(以下、「I/F」と表記)部110、記憶部120、およびこれら構成要素間のデータ授受を仲介するバス130を有している。
Embodiments of the present invention will be described below with reference to the drawings.
(A: Configuration)
FIG. 1 is a diagram illustrating a configuration example of a singing voice synthesizing apparatus 10 according to an embodiment of the sound synthesizing apparatus of the present invention. The singing voice synthesizing apparatus 10 is obtained by installing a singing voice synthesizing program on a tablet computer device having a size (for example, B5 size) that a user can hold and operate. The user of the song synthesizing device 10 can perform various operations with the other hand while holding the song synthesizing device 10 with one hand. The singing voice synthesizing apparatus 10 synthesizes a singing voice according to a user operation and emits the sound. As shown in FIG. 1, the singing voice synthesizing apparatus 10 includes a
制御部100は例えばCPUである。制御部100は、記憶部120に記憶されている歌唱合成プログラム124aを実行することで歌唱合成装置10の制御中枢として機能する。制御部100が歌唱合成プログラム124aにしたがって実行する処理の詳細については後に明らかにする。
The
ユーザI/F部110は、表示手段110a、音出力手段110b、および操作検出手段110cを有する。表示手段110aは、歌唱合成装置10の筐体と略同じサイズの液晶パネルである。音出力手段110bは、制御部100から与えられる音データ(例えば、音のサンプリング波形を表すサンプル列:本実施形態では歌唱音声のサンプル列)に応じた音を出力する。図1では図示を省略したが、音出力手段110bは、上記音データをアナログ信号に変換するD/A変換器と当該D/A変換器の出力信号により駆動されるスピーカとを含んでいる。
The user I /
操作検出手段110cは、表示手段110aの表示面全体を覆うように貼り付けられた透明なシート状の接触検知センサ(すなわち、B5サイズよりも若干小さい透明接触検知センサ)である。操作検出手段110cは透明であるため、ユーザは操作検出手段110c越しに表示手段110aの表示内容を視認できる。詳細については後述するが、表示手段110aには、制御部100による制御の下、歌唱合成装置10の使用をユーザに促す画面が表示される。ユーザは、表示手段110aに表示される画面による案内を受けて操作検出面に対する操作を行う。操作検出手段110cは、その表面(すなわち、操作検出面)に対してユーザの指先等によるタッチ開始またはタッチ終了の操作が為されると、その操作内容を表す操作内容データを出力する。なお、タッチ終了の操作とは、タッチしていた指先等を操作検出面から離すことを言う。
The
操作内容データには、タッチ開始の位置またはタッチ終了の位置を示す位置データと、操作種別(タッチ開始であるか、タッチ終了であるか)を示す操作種別データとが含まれている。本実施形態では、位置データとして、操作検出面の左上隅を原点とし、表示手段110aの水平走査方向を一方の座標軸、垂直走査方向を他方の座標軸とした場合の二次元座標系におけるタッチ開始の位置等の座標を示すデータが用いられる。操作検出手段110cは、操作検出面上のある位置に対してタッチが為されている状態で他の位置に対するタッチが開始されると、後者の位置を示す位置データおよびタッチ開始を示す操作種別データを含む操作内容データを出力する。つまり、操作検出手段110cと表示手段110aはマルチタッチパネルを形成する。
The operation content data includes position data indicating a touch start position or a touch end position, and operation type data indicating an operation type (touch start or touch end). In this embodiment, as position data, the origin of the touch start in the two-dimensional coordinate system when the upper left corner of the operation detection surface is the origin, the horizontal scanning direction of the
記憶部120は、図1に示すように、揮発性記憶部122および不揮発性記憶部124を有する。揮発性記憶部122は例えばRAM(Random Access Memory)である。揮発性記憶部122は、各種プログラムを実行する際のワークエリアとして制御部100によって利用される。不揮発性記憶部124は、フラッシュROMやハードディスクである。不揮発性記憶部124には、歌唱合成プログラム124aの他に、OS(Operating System)を制御部100に実現させるためのOSソフトウェア(図1では図示略)が格納されている。
As illustrated in FIG. 1, the
制御部100は、歌唱合成装置10の電源(図1では図示略)の投入またはリセットを契機としてOSソフトウェアを不揮発性記憶部124から揮発性記憶部122へ読み出してその実行を開始する。OSソフトウェアにしたがって作動し、OSを実現している状態の制御部100は、ユーザの指示に応じて他のプログラムを実行することができる。ユーザI/F部110を介して歌唱合成プログラム124aの実行指示を与えられると、制御部100は歌唱合成プログラム124aを不揮発性記憶部124から揮発性記憶部122に読み出し、その実行を開始する。
The
歌唱合成プログラム124aにしたがって作動している制御部100は、合成対象の歌唱音声の発音(本実施形態では、当該歌唱音声の音素)、音高および音量を指示する合成指示データにしたがって歌唱音声の波形データを合成し、音出力手段110bに出力する音声合成手段として機能する。加えて、歌唱合成プログラム124aにしたがって作動している制御部100は、合成対象の歌唱音声を規定する複数の情報(前述した音素、音高、および音量)を操作検出手段110cに対する操作によりユーザに指定させるための画面を表示手段110aに表示させる。
The
より詳細に説明すると、歌唱合成プログラム124aにしたがって作動している制御部100は、合成対象の歌唱音声を規定する複数の情報をユーザに指定させるため、図2に示す画面を表示手段110aに表示させる。図2に示すように、この画面には、各々が正五角形の頂点となるように配置された小円A01〜A05と小円A01〜A05の各々の中心を通る大円A06とが描画されており、小円A01〜A05の各々の内部には母音を表す文字“a”、“e”、“i”、“o”、および“u”が描画されている。図2に示す画面を視認したユーザは、操作検出面に対して一つのベクトルを指定する操作(すなわち、ベクトルの始点と終点を指定する操作)を行うことで、合成対象の歌唱音声を規定する複数の情報を指定することができる。
More specifically, the
本実施形態では、操作検出手段110cに対して複数のベクトルを同時に指定することはできない。つまり、1つのベクトルが指定されている状態(当該ベクトルの始点および終点をユーザが指先で押さえている状態)でさらに他の位置に対するタッチ操作が為されても当該タッチ操作は無視される。本実施形態では、ベクトルが全く指定されていない状態或いは終点のみが指定された状態(始点と終点とが指定された状態から始点の指定が解除されることで生じる状態)でユーザがタッチ操作を行うと、そのタッチ位置はベクトルの始点と解釈される。
In the present embodiment, a plurality of vectors cannot be specified simultaneously for the
より詳細に説明すると、ユーザは、小円A01〜A05の何れかの内部の一点を始点として指定することで小円に対応する母音を、合成対象の歌唱音声の音素として指定することができる。本実施形態では、合成対象の歌唱音声の音素の指定を促す表象として、母音を割り当てられた小円を用いるが、他の表象を用いても勿論良い。また、ユーザは、始点から見た終点の方向で音高を、始点と終点の間の距離で音量を指定することができる。例えば、母音“a”をある音高および音量で発音する歌唱音声の合成を指示する場合には、図3の矢印B01で表されるようなベクトルを指定(すなわち、始点および終点を指定)すれば良く、より大きな音量の歌唱音声の合成を指示する場合には同図3の矢印B02で表されるようなベクトルを指定すれば良い。そして、図3の矢印B01のベクトルの示す歌唱音声よりも音高の高い歌唱音声の合成を指定する場合には、図3の矢印B03で表されるようなベクトルを指定すれば良い。 More specifically, the user can designate a vowel corresponding to the small circle as a phoneme of the singing voice to be synthesized by designating one of the small circles A01 to A05 as a starting point. In the present embodiment, a small circle to which a vowel is assigned is used as a representation that prompts the user to specify the phoneme of the singing voice to be synthesized. However, other representations may be used. In addition, the user can specify the pitch in the direction of the end point viewed from the start point, and the volume in the distance between the start point and the end point. For example, in order to instruct the synthesis of a singing voice that utters the vowel “a” at a certain pitch and volume, a vector as indicated by the arrow B01 in FIG. 3 is designated (that is, the start point and the end point are designated). What is necessary is just to designate the vector as shown by arrow B02 of the same figure, when instruct | indicating the synthesis | combination of the loud sound of singing. Then, when specifying the synthesis of a singing voice having a pitch higher than that of the singing voice indicated by the vector indicated by the arrow B01 in FIG. 3, a vector represented by the arrow B03 in FIG. 3 may be specified.
図2に示す画面を表示手段110aに表示させている状況下で操作検出手段110cに対して何らかの操作が行われると、制御部100はその操作内容に応じたデータを揮発性記憶部122に書き込み、これにより歌唱合成装置10の内部状態は順次遷移して行く。歌唱合成装置10の内部状態としては図4に示す4つの状態が挙げられる。すなわち、始点および終点の両者の何れも指定されていない初期状態S01、始点のみが指定された始点記憶済状態S02、終点のみが指定された終点記憶済状態S03、始点と終点の両者が指定された始点・終点記憶済状態S04の4種類の状態である。制御部100は、操作検出手段110cの操作検出面に対するタッチ開始の検出を契機として図5に示す処理を実行する一方、タッチ終了の検出を契機として図6に示す処理を実行することで上記4種類の状態間の遷移を実現する。
When an operation is performed on the
図5は、タッチ開始の検出を契機として実行される処理の流れを示すフローチャートである。操作検出手段110cから受け取った操作内容データを解析してタッチ開始を検出した制御部100は、まず、始点を示す始点位置データが揮発性記憶部122に格納されているか否かを判定する(ステップSA100)。本実施形態では、操作内容データに含まれている操作種別データが“タッチ開始”を意味するものである場合に制御部100はタッチ開始を検出し、ステップSA100の判定を行う。
FIG. 5 is a flowchart showing a flow of processing executed in response to detection of touch start. The
ステップSA100の判定結果が“No”であれば、制御部100は、操作内容データに含まれる位置データの示す位置を始点の位置とし、当該始点の位置を示す始点位置データを記憶し、すなわち、揮発性記憶部122に当該始点位置データを書き込み(ステップSA110)、当該処理を終了する。これにより、初期状態S01から始点記憶済状態S02への遷移T01、或いは終点記憶済状態S03から始点・終点記憶済状態S04への遷移T07が実現される。これに対して、ステップSA100の判定結果が“Yes”である場合には、制御部100は、終点の位置を示す終点位置データが揮発性記憶部122に格納されているか否かを判定する(ステップSA120)。
If the determination result in step SA100 is “No”, the
ステップSA120の判定結果が“No”であれば、制御部100は、操作内容データに含まれる位置データの示す位置を終点の位置とし、当該終点の位置を示す終点位置データを記憶(ステップSA130)して当該処理を終了する。これにより、始点記憶済状態S02から始点・終点記憶済状態S04への遷移T02が実現される。ステップSA120の判定結果が“Yes”である場合には、制御部100はタッチ開始期位置の記憶を行うことなく、当該処理を終了する。始点と終点とが指定されている状態でさらに他の位置に対するタッチが為されても、そのタッチ操作を無視するためである。
If the determination result in step SA120 is “No”, the
図6は、タッチ終了の検出を契機として実行される処理の流れを示すフローチャートである。操作検出手段110cから受け取った操作内容データを解析してタッチ終了を検出した制御部100は、まず、始点のタッチが解除されたのか否かを判定する(ステップSB100)。ステップSB100の判定結果が“Yes”であれば、制御部100は、始点位置データを揮発性記憶部122から削除し(ステップSB110)、当該処理を終了する。これにより、始点記憶済状態S02から初期状態S01への遷移T04、或いは始点・終点記憶済状態S04から終点記憶済状態S03への遷移T05が実現される。
FIG. 6 is a flowchart showing a flow of processing executed in response to detection of the end of touch. The
これに対して、ステップSB100の判定結果が“No”である場合、制御部100は、終点のタッチが解除されたか否かを判定する(ステップSB120)。ステップSB120の判定結果が“Yes”であれば、制御部100は、終点位置データを揮発性記憶部122から削除し(ステップSB130)、当該処理を終了する。これにより、始点・終点記憶済状態S04から始点記憶済状態S02への遷移T03、或いは終点記憶済状態S03から初期状態S01への遷移T06が実現される。ステップSB120の判定結果が“No”である場合には、制御部100は当該処理を終了する。なお、本実施形態では、始点および終点以外に他の点を指定するタッチ操作が為されても当該タッチ操作は無視されるため、ステップSB120の判定結果が“No”になることはない。
On the other hand, when the determination result of step SB100 is “No”, the
始点記憶済状態S02から始点・終点記憶済状態S04への遷移T02、或いは終点記憶済状態S03から始点・終点記憶済状態S04への遷移T07が発生すると、1つのベクトルが確定する。このため、制御部100は、始点・終点記憶済状態S04への遷移が発生すると当該ベクトルを表すデータを予め定められたルールにしたがって合成指示データに変換して音合成手段に与える。つまり、歌唱合成プログラム124aにしたがって作動している制御部100は、操作内容データを予め定められたルールにしたがって合成指示データに変換して出力する変換手段として機能する。
When the transition T02 from the start point stored state S02 to the start point / end point stored state S04 or the transition T07 from the end point stored state S03 to the start point / end point stored state S04 occurs, one vector is determined. For this reason, when the transition to the start point / end point stored state S04 occurs, the
本実施形態の変換手段は、始点・終点記憶済状態S04において記憶されている始点の位置を合成対象の歌唱音声の音素に、始点から見た終点の方向を同歌唱音声の音高に、始点と終点との間の距離を歌唱音声の音量に変換し、当該音素、音高および音量の歌唱音声の合成を指示する合成指示データを音合成手段に出力する。その結果、上記音素、音高および音量の歌唱音声が音出力手段から出力される。このようにして出力を開始した歌唱音について、制御部100は、始点・終点記憶済状態S04から他の状態への状態遷移の発生を契機として出力を停止する。
The conversion means of this embodiment uses the position of the start point stored in the start point / end point stored state S04 as the phoneme of the singing voice to be synthesized, the direction of the end point viewed from the start point as the pitch of the singing voice, Is converted into the volume of the singing voice, and synthesis instruction data for instructing synthesis of the singing voice having the phoneme, the pitch and the volume is output to the sound synthesis means. As a result, the singing voice having the above phoneme, pitch and volume is output from the sound output means. With respect to the singing sound that has started to be output in this manner, the
変換手段におけるデータ変換ルールとしては種々のものが考えられるが、具体例を挙げると以下の通りである。まず、始点位置の音素への変換ルールについては、図2に示す画面における小円A01〜A02の各々の円周上および内部の領域を示す範囲データ(前述した二次元座標系における当該円周上および当該範囲を示すデータ)に対応付けてその小円に対応する母音を示す母音データを格納した変換ルールテーブルを歌唱合成プログラム124aに内蔵させておき、この変換ルールテーブルの格納内容と始点位置データの示す始点位置との対比により実現すれば良い。例えば、始点位置が何れかの小円の円周上または領域内の位置である場合には、変換手段は、変換ルールテーブルにおいてその小円に対応付けられた母音データの表す母音を、合成対象の歌唱音声の音素とするのである。なお、始点位置が小円A01〜A05の円周上または内部に属さない場合には、最も近い小円に対応する母音が指定されたと解釈しても良く、また、最も近い小円と2番目に近い小円の各々に対応する母音の間の音素が指定されたと解釈しても良い。また、始点位置が小円A01〜A05の円周上または内部に属さない場合には、各母音に対応する小円の中心と当該始点との間の距離の逆数をその合計値が1になるように正規化した値を各母音の重みとして各母音をモーフィングすることで得られる音素の発音を指示されたと解釈し、当該始点の位置を当該音素(上記モーフィングにより得られる音素)に変換しても良い。
Various data conversion rules in the conversion means can be considered, and specific examples are as follows. First, regarding the conversion rule to the phoneme of the starting point position, range data (on the circumference in the two-dimensional coordinate system described above) on the circumference of each of the small circles A01 to A02 on the screen shown in FIG. And a conversion rule table storing vowel data indicating vowels corresponding to the small circle in association with the small circle) is incorporated in the
始点から見た終点の方向の音高への変換、および始点と終点の間の距離の音量への変換については、変換手段は、まず、終点の位置を、始点を原点とする極座標(r、θ)に変換する。始点の座標が(x1、y1)であり、終点の座標が(x2、y2:ただし、x2≠x1、y2≠y1)である場合、変換手段は、以下の数1および数2により極座標変換を実現する。なお、数2においてatan()は逆正接関数であり、x=x2−x1、y=y2−y1であり、πは円周率である。次いで、変換手段は、数1にしたがって算出したrの値を変換ルールテーブル(すなわち、rの値と音量とを対応付ける変換ルールテーブル)を用いて音量に変換するとともに、数2にしたがって算出したθの値を変換ルールテーブル(すなわち、θの値と音高とを対応付ける変換ルールテーブル)を用いて音高に変換する。これら変換ルールテーブルについても歌唱合成プログラム124aに予め内蔵させておけば良い。
数2に従って算出されるθの値は−πからπの範囲に制限される。ここで、タッチ位置検出の時間的間隔を十分小さくとることで直前のタッチ位置検出から現在のタッチ位置検出までの間に閾値θth以上の角度の変化は起きないものとみなすことができる。このような状況下では、閾値θth=π として所謂アンラッピングを施すことでθの値を正負ともに拡大することができる。なお、アンラッピングの具体的な実現アルゴリズムとしては、例えば図7のソースコードにより示されるアルゴリズムが挙げられる。このようなアンラッピングを施すことで、始点を中心として終点が予め定められた角度分回転する毎に1オクターブ音高が変化する(例えば、反時計回りに予め定められた角度分回転したときは音高が1オクターブ高くなり、時計回りに予め定められた角度分回転したときは音高が1オクターブ低くなる)ように上記角度θと音高の変換ルールを定めておくことで、平均律等の音楽理論との親和性の高い音高表現が可能になる。通常の楽曲の演奏を行う際には2オクターブ程度の音域が必要となることを考慮すると、上記予め定められた角度をπラジアンと設定しておくことが好ましい。始点を中心に終点を一周させるといった直観的に判り易い操作で、通常の楽曲の演奏に必要な2オクターブの音域を確保できるからである。なお、より広い音域が必要となる楽曲の演奏の際には、上記予め定められた角度をπ/2ラジアン(すなわち、1/4周分の角度)、或いはπ/4ラジアン(すなわち、1/8周分の角度)に設定すれば良いことは言うまでもない。 The value of θ calculated according to Equation 2 is limited to a range of −π to π. Here, if the time interval of touch position detection is sufficiently small, it can be considered that no change in angle beyond the threshold θth occurs between the previous touch position detection and the current touch position detection. Under such circumstances, the value of θ can be increased in both positive and negative directions by applying so-called unwrapping with the threshold θth = π. In addition, as a concrete implementation algorithm of unwrapping, for example, an algorithm shown by the source code of FIG. By applying such unwrapping, the pitch changes by one octave every time the end point is rotated by a predetermined angle with the start point as the center (for example, when rotating by a predetermined angle counterclockwise) By setting the above angle θ and pitch conversion rules so that the pitch becomes 1 octave higher and the pitch becomes 1 octave lower when rotated clockwise by a predetermined angle) It is possible to express pitches with high affinity with music theory. In consideration of the fact that a range of about two octaves is required when playing a normal music piece, it is preferable to set the predetermined angle to π radians. This is because an intuitively easy-to-understand operation such as turning the end point around the start point makes it possible to secure a 2-octave range necessary for normal music performance. When playing a musical piece that requires a wider range, the predetermined angle is set to π / 2 radians (that is, an angle corresponding to a quarter turn) or π / 4 radians (that is, 1 / Needless to say, it may be set to an angle of 8 laps.
以上説明したように、本実施形態によれば、歌唱音声を規定する複数の情報(歌詞の音素、当該歌詞を発音する際の音高および音量)を操作検出面上の複数のタッチ位置(本実施形態では、始点および終点の2点の位置)の位置関係に対応させることが可能になる。また、操作検出手段110cとして、少なくとも1つのタッチ位置の更新が発生する毎に上記操作内容データを出力するものを用い、その操作内容データに応じて始点或いは終点の位置を更新し更新後の始点位置等に応じて合成指示データを生成して出力する処理を制御部100に実行させるようにすれば、始点を指示している指先や終点を指示している指先の何れか一方、或いは両方を操作検出面をなぞるように動かす操作に応じて上記複数の情報を経時的に更新すること、すなわち、歌唱音声を経時的に変化させることが可能になり、ビブラートなどの音響効果の付与を簡便に行うことが可能になる。
As described above, according to the present embodiment, a plurality of pieces of information defining the singing voice (phonemes of lyrics, pitches and volumes when sounding the lyrics) are displayed on a plurality of touch positions (books). In the embodiment, it is possible to correspond to the positional relationship between the two points of the start point and the end point. Further, as the
本実施形態では、歌唱合成装置への本発明の適用を説明したが、文章等の読み上げ音声を合成する装置や楽器の演奏音を合成する装置に本発明を適用しても良い。例えば、楽器の演奏音を合成する音合成装置であれば、始点の位置に音色を対応付けておけば良い。文章の読み上げ音声を合成する音合成装置や楽器の演奏音を合成する音合成装置であっても、合成対象の音を規定する情報として音色或いは音素と、音高および音量の指定および経時的な更新を直観的かつ判り易い操作で行えることが好ましいことには変わりはないからである。 In the present embodiment, the application of the present invention to the singing voice synthesizing apparatus has been described. However, the present invention may be applied to an apparatus that synthesizes a reading voice such as a sentence or an apparatus that synthesizes a performance sound of a musical instrument. For example, in the case of a sound synthesizer that synthesizes performance sounds of musical instruments, a timbre may be associated with the position of the starting point. Even in a sound synthesizer that synthesizes a text-to-speech speech or a sound synthesizer that synthesizes a performance sound of a musical instrument, the tone color or phoneme, the pitch and volume specification, and the time This is because it is preferable that the update can be performed by an intuitive and easy-to-understand operation.
(B:変形)
以上本発明の実施形態について説明したが、以下の変形を加えても良い。
(1)上記実施形態では、始点記憶済状態S02から始点・終点記憶済状態S04への遷移、或いは終点記憶済状態S03から始点・終点記憶済状態S04への遷移の発生タイミングを発音開始時刻としたが、初期状態S01から始点記憶済状態S02への遷移の発生タイミングを発音開始時刻としても良い。始点記憶済状態S02では終点が指定されておらず、合成対象の歌唱音声の音高および音量を確定できない。このため、初期状態S01から始点記憶済状態S02への遷移の発生タイミングを発音開始時刻とする態様においては音高および音量については予め定められた値としても良く、また、疑似乱数等を用いて定めた値としても良い。
(B: Deformation)
Although the embodiment of the present invention has been described above, the following modifications may be added.
(1) In the above embodiment, the sound generation start time is defined as the generation timing of the transition from the start point stored state S02 to the start point / end point stored state S04 or the transition from the end point stored state S03 to the start point / end point stored state S04. However, the generation timing of the transition from the initial state S01 to the start point stored state S02 may be set as the sound generation start time. In the start point stored state S02, the end point is not specified, and the pitch and volume of the singing voice to be synthesized cannot be determined. For this reason, in the aspect in which the generation timing of the transition from the initial state S01 to the start point stored state S02 is set as the sound generation start time, the pitch and volume may be set in advance, or a pseudo random number or the like may be used. It may be a predetermined value.
また、歌唱合成装置10が加速度センサなどの他のセンサや操作子等の他の操作検出手段を有している場合には、当該他の操作検出手段を介して取得したデータに応じて音高および音量を定めるようにしても良い。発音終了時刻についても同様に、始点・終点記憶済状態S04から始点記憶済状態S02或いは終点記憶済状態S03への遷移が発生したタイミングを発音終了時刻とするのではなく、始点・終点記憶済状態S04から始点記憶済状態S02或いは終点記憶済状態S03の何れかを経て初期状態S01へ遷移したタイミングを発音終了時刻としても良い。なお、始点・終点記憶済状態S04において始点の指定が解除された場合には、それまでの終点を新たな始点として始点記憶済状態S02へ遷移させるようにしても良い。 In addition, when the singing voice synthesizing apparatus 10 has other sensors such as an acceleration sensor or other operation detection means such as an operator, the pitch is determined according to the data acquired through the other operation detection means. Also, the volume may be determined. Similarly, for the sound generation end time, the start point / end point stored state is not set as the sound generation end time when the transition from the start point / end point stored state S04 to the start point stored state S02 or the end point stored state S03 occurs. The timing of transition from S04 to the initial state S01 through either the start point stored state S02 or the end point stored state S03 may be set as the sound generation end time. When the start point designation is canceled in the start point / end point stored state S04, the previous end point may be changed to the start point stored state S02 as a new start point.
(2)上記実施形態では、操作検出手段110cに対するタッチ操作により指定された始点の位置を合成対象の歌唱音声の音素に、始点から見た終点の方向を歌唱音声の音高に、始点と終点との間の距離を歌唱音声の音量に対応させたがこれに限定される訳ではない。例えば、始点の位置を音量に対応させ、始点から見た終点の方向を音素に対応させ、始点と終点の間の距離を音高に対応させても良く、始点と終点の役割を入れ替えても良い。また、時間的に先に指定された方を終点とし、後から指定された方を始点としても良い。始点と終点とが指定されると1つのベクトルが特定されるので、当該ベクトルを規定する複数の情報(ベクトルの大きさ、方向、および位置の各々を示す情報)を合成対象の歌唱音声を規定する複数の情報に対応させる態様であれば良い。また、始点と終点の他に、始点とは異なり、終点とも異なる第3の点をユーザに指定させ、これら3つの点の位置関係を複数の情報に対応させても良い。また、始点と終点を順次指定する際の時間間隔を歌唱音声のベロシティに対応させる(例えば、始点と終点の各々を指定する際の時間間隔が短いほどベロシティを大きくする)など、上記ベクトルを規定する情報以外の情報を歌唱音声の合成に利用しても良い。
(2) In the above embodiment, the position of the start point specified by the touch operation on the
一般に歌声は、発音が開始されてから音響的に定常的な状態に至るまでにある程度の時間を要し、発音が音響的に定常的な状態ではなくなってから完全に発音が停止するまでにもある程度時間を要する。ベロシティとは、音楽の演奏情報の通信に使用されるMIDI規格において、主に発音開始および終了時点の過渡特性を伝達する目的で利用される情報である。従来、スマートフォンなどのタブレット端末用の楽器アプリケーション等では、そのタブレット端末が加速度センサを有している場合には、加速度センサの出力値をベロシティとして利用することが多かった。しかし、このような態様では、タブレット端末自体を動かしながら演奏した場合に意図したベロシティを入力できないといった問題や、タブレット端末の持ち方に応じて入力値が変わってしまうといった問題があった。これに対して、ベクトルの始点と終点を順次指定する際の時間間隔をベロシティに対応させるようにすれば、装置自体を動かしながら使用しても問題はなく、また、装置自体の持ち方による影響を小さくすることができる。 In general, a singing voice takes a certain amount of time from the start of pronunciation until it reaches an acoustically steady state. It takes some time. Velocity is information used mainly for the purpose of transmitting transient characteristics at the start and end of pronunciation in the MIDI standard used for communication of music performance information. Conventionally, in a musical instrument application or the like for a tablet terminal such as a smartphone, when the tablet terminal has an acceleration sensor, the output value of the acceleration sensor is often used as a velocity. However, in such a mode, there is a problem that an intended velocity cannot be input when playing while moving the tablet terminal itself, and an input value changes depending on how the tablet terminal is held. On the other hand, if the time interval for sequentially specifying the start and end points of the vector is made to correspond to the velocity, there is no problem even if the device itself is moved, and the influence of how the device itself is held. Can be reduced.
(3)上記実施形態では、母音の範囲で合成対象の歌唱音声の発音を指定させたが、ボタンなどを併用することでより多彩な発音(或いは音色)を指定できるようにしても良い。例えば、図8に示す画面を表示手段110aに表示させ、[S]ボタンA08をタッチした状態で母音[a]に対応する小円A01内の点を始点として指定するタッチ操作が為された場合には、子音/s/を付加して/sa/の発音の音を合成するようにしても良い。また、多様な歌詞(或いは音色)による音合成を可能にするため、始点・終点記憶済状態S04への遷移が発生する毎に表示手段110aに表示させる音素(或いは音色)の候補を切り替えるようにしても良い。また、歌唱合成装置に本発明を適用する場合、音素ではなく発音記号により合成対象の歌唱音声の発音を指定させても良い。この場合、小円A01等の内部に音素を示す文字を表示するのではなく発音記号を表示すれば良い。要は、小円A01等に発音を表す発音文字(音素を表す文字や発音記号)を表示してユーザに発音を指定する操作を促す態様であれば良い。また、合成対象の歌唱音声の発音を指定させる際に、音節単位で発音を指定させても良く、日本語の範囲で発音を指定させるのであればモーラ単位で発音を指定させても良い。
(3) In the above-described embodiment, the pronunciation of the singing voice to be synthesized is designated within the range of vowels. However, more various pronunciations (or timbres) may be designated by using buttons together. For example, when the screen shown in FIG. 8 is displayed on the
(4)上記実施形態の音合成装置(すなわち、歌唱合成装置10)は、歌唱音声を規定する複数の情報を指定する操作を検出する操作検出手段と、当該操作検出手段により検出された操作の内容を表すデータを合成指示データに変換する変換手段と、この合成指示データにしたがって歌唱音声を合成する音合成手段、および音出力手段を有していた。しかし、ヘッドフォンを音出力手段として用いる等、図9(a)に示すように、音出力手段を外部要素としても良い。つまり、音出力手段は、本発明の音合成装置の必須構成要素ではない。また、操作検出手段、変換手段および音合成手段についても、これらのうちの何れか1つと他の2つとが異なる装置に実装されていても良く、また、これら3つが全て異なる装置に実行されていても良い。例えば、図9(b)に示すように操作検出手段と変換手段とで、ユーザの操作内容を表すデータを合成指示データに変換して出力する入力装置を形成し、有線或いは無線通信により当該入力装置から音声合成手段に合成指示データを与えるようにしても良い。また、図9(b)における入力装置を単体で製造・販売しても良い。 (4) The sound synthesizer (that is, the song synthesizer 10) of the above embodiment includes an operation detection unit that detects an operation that specifies a plurality of information that defines a singing voice, and an operation that is detected by the operation detection unit. It had conversion means for converting data representing contents into synthesis instruction data, sound synthesis means for synthesizing singing voice according to the synthesis instruction data, and sound output means. However, the sound output means may be an external element as shown in FIG. 9A, such as using headphones as the sound output means. That is, the sound output means is not an essential component of the sound synthesizer of the present invention. As for the operation detecting means, the converting means, and the sound synthesizing means, any one of these may be mounted on different devices, and all three of them may be executed on different devices. May be. For example, as shown in FIG. 9 (b), the operation detection means and the conversion means form an input device that converts data representing the user's operation contents into synthesis instruction data and outputs the combined instruction data. Synthesis instruction data may be given from the apparatus to the voice synthesis means. Further, the input device in FIG. 9B may be manufactured and sold alone.
また、図9(c)に示すように、操作検出手段110cと音出力手段110bとを有する第1のコンピュータ装置をインターネットなどの電気通信回線に接続するとともに、上記変換手段および音声合成手段として機能する第2のコンピュータ装置を当該電気通信回線に接続し、当該電気通信回線経由で第1のコンピュータ装置から送信されてくる操作内容データの合成指示への変換、当該合成指示に応じた波形データの合成、およびその波形データの第1のコンピュータ装置への返信を上記第2のコンピュータ装置に行わせるようにしても良い。図9(c)では、2台の第1のコンピュータ装置を電気通信回線に接続する場合について例示されている。このような態様によれば、歌唱音声のリアルタイム合成を所謂ASP形式の通信サービスで提供することが可能になる。なお、複数の歌唱合成装置10を電気通信回線に接続し、それら複数の歌唱合成装置10のうちの1つを第1のコンピュータ装置かつ第2のコンピュータ装置として機能させ、他のものを第1のコンピュータ装置として機能させた場合も同様の効果が得られる。 Further, as shown in FIG. 9 (c), the first computer device having the operation detecting means 110c and the sound output means 110b is connected to an electric communication line such as the Internet and functions as the converting means and the voice synthesizing means. Connecting the second computer device to the telecommunications line, converting the operation content data transmitted from the first computer device via the telecommunications line into a synthesis instruction, and the waveform data corresponding to the synthesis instruction You may make it make the said 2nd computer apparatus perform a synthesis | combination and the reply to the 1st computer apparatus of the waveform data. FIG. 9C illustrates the case where two first computer devices are connected to a telecommunication line. According to such an aspect, real-time synthesis of singing voice can be provided by a so-called ASP communication service. A plurality of song synthesizing apparatuses 10 are connected to an electric communication line, and one of the plurality of song synthesizing apparatuses 10 is made to function as a first computer apparatus and a second computer apparatus, and the other one is set as a first one. The same effect can be obtained when the computer apparatus is made to function.
また、複数の上記第1のコンピュータ装置を電気通信回線に接続して同時に演奏を行わせ、第1のコンピュータ装置の各々に入力されたベクトルを、当該ベクトルを入力された装置以外の他の第1のコンピュータ装置にも表示させるとともに、第2のコンピュータ装置からの返信を上記複数のコンピュータ装置に対するマルチキャストにより行っても良い。このようにすることで、複数の第1のコンピュータ装置の各々のユーザに、各ユーザが指定した歌唱音声の音楽的な関係を各ベクトルの位置関係等を通じて視覚的に把握させることが可能になる。 Further, a plurality of the first computer devices are connected to an electric communication line to perform simultaneously, and a vector input to each of the first computer devices is changed to a second one other than the device input with the vector. The information may be displayed on one computer device, and the reply from the second computer device may be sent by multicast to the plurality of computer devices. By doing so, it becomes possible for each user of the plurality of first computer devices to visually grasp the musical relationship of the singing voice designated by each user through the positional relationship of each vector. .
例えば、2πラジアンの回転が1オクターブ(すなわち、1200cent)の音高変化に一致するように音高とベクトルの角度とを対応付けておけば、(i)音高が等しいベクトルは平行になる、(ii)音高の比がオクターブの関係、すなわち、1200centの倍数の関係にある2つのベクトルも平行になる、(iii)音色が同一のベクトルは始点が一致する等の視覚的な美観が得られる。音高に関してより一般的に言えば、互いの音高の関係が特別な値にあることをベクトルの為す角度により視覚的に把握できるといった効果が得られる。なお、上記(i)〜(iii)の何れかの事象の発生を第2のコンピュータ装置において検知して複数の第1のコンピュータ装置の各々に通知し、当該通知に応じた報知(ベクトルの表示態様を変化させるなどの視覚に訴える報知や、音による報知或いは振動による報知等)を行っても良い。 For example, if pitches and vector angles are associated with each other so that a rotation of 2π radians coincides with a pitch change of 1 octave (ie, 1200 cent), (i) vectors having equal pitches are parallel. (Ii) Two vectors having a pitch ratio of octave, that is, a multiple of 1200 cent, are parallel, (iii) Vectors having the same timbre have the same visual aesthetics. It is done. More generally speaking, with respect to the pitch, there is an effect that it is possible to visually grasp that the relationship between the pitches is a special value by the angle made by the vector. The occurrence of any of the above events (i) to (iii) is detected by the second computer device and notified to each of the plurality of first computer devices, and a notification (vector display) corresponding to the notification is made. Notification that appeals visually such as changing the aspect, notification by sound, or notification by vibration may be performed.
(6)上記実施形態では、操作検出手段110cとして略B5サイズのシート状の接触検知センサを用いた。しかし、畳一枚分などより大きな接触検知センサを用いても良い。このように大きな接触検知センサを用いる場合には、当該接触検知センサを床などに敷き、その操作検出面を足で踏むことで始点および終点の指定を行うようにすれば良い。なお、このような態様においては、接触検知センサは透明である必要はなく、各々異なる発音を示す複数の表象(図2における小円A01〜A05)が描画されたものであれば良い。このような態様によれば、接触検知センサ上でステップを踏んだり、踊るなどの操作で合成対象の歌唱音声を規定する複数の情報を指定することが可能になり、ゲーム感覚で歌唱合成を行うことが可能になる。また、本態様と上記実施形態の態様とを併用し、歌詞を構成する音素のうち母音については本態様により指定し、子音については上記実施形態の態様により指定するようにしても良い。
(6) In the above embodiment, a substantially B5 size sheet-like contact detection sensor is used as the
(7)上記実施形態では、本発明の入力装置(すなわち、操作検出手段と変換手段とを有する入力装置)を、音合成装置への情報入力手段として用いたが、携帯型ゲーム機や据え置き型ゲーム機への情報入力手段として用いても良く、また、地図アプリケーションへの情報入力手段として用いても良い。例えば、地図アプリケーションへの情報入力手段やロールプレイングゲーム用の情報入力手段として本発明の入力装置を用いると、地図上で始点と終点とが指定されたことを契機としてその始点から見た終点の方向の風景の画像を、始点と終点との間の距離に応じたズーム比率で表示し、道案内を行うことが可能になる。 (7) In the above embodiment, the input device of the present invention (that is, the input device having the operation detecting means and the converting means) is used as the information input means to the sound synthesizer, but the portable game machine or the stationary type is used. You may use as an information input means to a game machine, and you may use as an information input means to a map application. For example, when the input device of the present invention is used as an information input means for a map application or an information input means for a role playing game, the end point viewed from the start point when the start point and the end point are specified on the map. An image of a landscape in the direction can be displayed at a zoom ratio corresponding to the distance between the start point and the end point, and road guidance can be performed.
(8)アプリケーションの種類に応じてベクトルを指定する際の基準となる情報を表示しても良い。具体的には、図10に示すような格子や、図11に示す十字線と同心円の組み合わせなど何らかの規則に基づいた表象を上記基準を示す情報として表示するのである。このような態様によれば、ベクトルの位置、大きさ、角度についての基準或いは基準間隔をユーザに把握させつつ入力操作を行わせることが可能になる。また、図12に示すように、入力中のベクトルの始点に上記十字線と同心円の組み合わせの中心を位置づけるなど、大きさや角度についての基準を示す表象の表示位置を入力中のベクトルの位置に追従させても良い。また、上記同心円を構成する各円の半径を始点の指定時刻からの経過時間に応じて次第に小さく(或いは大きく)しても良い。 (8) Information serving as a reference for designating a vector according to the type of application may be displayed. Specifically, a representation based on a certain rule such as a lattice as shown in FIG. 10 or a combination of a cross line and a concentric circle as shown in FIG. 11 is displayed as information indicating the reference. According to such an aspect, it is possible to perform an input operation while allowing the user to grasp the reference or reference interval for the position, size, and angle of the vector. In addition, as shown in FIG. 12, the display position of the representation indicating the reference for the size and angle follows the position of the vector being input, such as by positioning the center of the combination of the crosshair and the concentric circle at the starting point of the vector being input. You may let them. Further, the radius of each circle constituting the concentric circle may be gradually reduced (or increased) according to the elapsed time from the designated time at the start point.
また、図13に示すように、ベクトルの位置、方向および長さの何れか(或いは、これらのうちの複数)についての推奨値を示す表象を表示させても良く、入力中のベクトルと当該表象の表すベクトルとが充分に近くなったときに、その旨をユーザに報知しても良い。具体的には、入力中のベクトルと当該表象の表すベクトルの近似の度合いに応じて、入力中のベクトルと当該表象の表すベクトルの何れか一方(或いは両方)の表示態様を異ならせる態様や音や振動により報知する態様が考えられる。また、この推奨値を表す表象についても、入力中のベクトルの始点の指定時刻からの経過時間に応じて表示態様を変化させても良い。 Further, as shown in FIG. 13, a symbol indicating a recommended value for any one of (or a plurality of) the position, direction, and length of the vector may be displayed. When the vector represented by is sufficiently close, it may be notified to the user. Specifically, depending on the degree of approximation between the vector being input and the vector represented by the representation, a mode or sound in which either (or both) the display mode of the vector being input and the vector represented by the representation is different is displayed. A mode in which the notification is made by vibration or vibration can be considered. Further, the display mode of the representation representing the recommended value may be changed according to the elapsed time from the designated time of the starting point of the vector being input.
(9)上記実施形態では、変換手段と音合成手段とがソフトウェアモジュールにより実現されていたが、電子回路などのハードウェアにより実現しても良い。また、上記実施形態では、歌唱合成プログラム124aに制御部100を変換手段として機能させるプログラムが含まれていたが、制御部100を変換手段として機能させるプログラム単体で提供しても良い。マルチタッチパネルを有するコンピュータ装置の制御部を当該プログラムにしたがって作動させることで、当該コンピュータ装置を本発明の入力装置として機能させることが可能になるからである。なお、当該プログラムの具体的な提供態様としては、CD−ROMやDVDなどのコンピュータ読み取り可能な記録媒体に当該プログラムを記録して配布する態様や、電気通信回線経由のダウンロードにより配布する態様が考えられる。
(9) In the above embodiment, the converting means and the sound synthesizing means are realized by software modules, but may be realized by hardware such as an electronic circuit. Moreover, in the said embodiment, the program which functions the
10…歌唱合成装置、100…制御部、110…ユーザI/F部、110a…表示手段、110b…音出力手段、110c…操作検出手段、120……記憶部、122…揮発性記憶部、124…不揮発性記憶部、124a…歌唱合成プログラム、130…バス。 DESCRIPTION OF SYMBOLS 10 ... Singing synthesis apparatus, 100 ... Control part, 110 ... User I / F part, 110a ... Display means, 110b ... Sound output means, 110c ... Operation detection means, 120 ... Memory | storage part, 122 ... Volatile memory part, 124 ... Non-volatile storage unit, 124a ... singing synthesis program, 130 ... bus.
Claims (6)
前記所定の時間間隔で出力される前記操作内容データを他の情報を表すデータに変換して出力する手段であって、前記操作内容データの示す複数のタッチ位置のうちベクトルの始点および終点が指定されていない状態で開始されたタッチ位置を前記ベクトルの始点とし、当該始点以外の前記ベクトルの始点が指定された状態で開始されたタッチ位置を前記ベクトルの終点とした場合における当該始点と当該終点の予め定められた方の位置、当該予め定められた方から見た他方の方向θ、および両者の間の距離rを算出し、前記方向θにアンラッピング処理を施して前記方向θの値を正負ともに拡大し、予め定められたルールにしたがって3種類の情報に変換し、少なくとも当該3種類の情報を含む複数の情報を表すデータを出力する変換手段と
を備えることを特徴とする入力装置。 Operation detection means for outputting operation content data indicating each of a plurality of touch positions by a touch operation performed by the user on the operation detection surface;
Means for converting the operation content data output at the predetermined time interval into data representing other information and outputting the data, wherein a start point and an end point of a vector are designated among a plurality of touch positions indicated by the operation content data is a has been touched position starts in a state not the start point of the vector, the start point and the end point when the touch position is started in a state where the starting point of the vector other than the starting point is specified as the end point of the vector Of the predetermined direction , the other direction θ viewed from the predetermined direction , and the distance r between the two , and unwrapping the direction θ to obtain the value of the direction θ. Conversion means for expanding both positive and negative , converting into three types of information according to a predetermined rule, and outputting data representing a plurality of information including at least the three types of information; An input device comprising:
ことを特徴とする請求項1に記載の入力装置。 Informing means for informing a user of a reference value or a recommended value relating to at least one of a predetermined position of the start point and the end point, the other direction viewed from the predetermined direction, and a distance between the two. The input device according to claim 1, further comprising:
前記変換手段は、始点のタッチ開始時刻と終点のタッチ開始時刻の時間差を前記3種類の情報とは異なる第4の情報に変換する
ことを特徴とする請求項1または請求項2に記載の入力装置。 The operation detection means outputs operation content data representing a touch start time in addition to the touch position,
The input according to claim 1, wherein the conversion unit converts the time difference between the touch start time at the start point and the touch start time at the end point into fourth information different from the three types of information. apparatus.
ことを特徴とする請求項3に記載の入力装置。 The converting means converts the predetermined position, the other direction viewed from the predetermined direction, and the distance between the two according to a predetermined rule according to a timbre or pronunciation, pitch and volume. The input device according to claim 3, wherein the time difference between the touch start time at the start point and the touch start time at the end point is converted into a velocity at the time of outputting the tone color or the sound of the pronunciation.
前記変換手段は、前記始点と前記終点のうちの予め定められた方を中心として他方が予め定められた角度分回転する毎に音高が一オクターブ変化するように、前記始点および前記終点の位置を示すデータを、音高を示すデータに変換する
ことを特徴とする請求項4に記載の入力装置。 A pitch is associated with the direction of viewing the other from the predetermined one of the start point and the end point,
The converting means is configured to position the start point and the end point so that the pitch changes by one octave each time the other of the start point and the end point rotates around a predetermined angle. The input device according to claim 4, wherein the data indicating the pitch is converted into the data indicating the pitch.
操作検出面に対してユーザにより為されたタッチ操作による複数のタッチ位置の各々を示す操作内容データを出力する操作検出手段と、
前記操作内容データを他の情報を表すデータに変換して出力する手段であって、前記操作内容データの示す複数のタッチ位置のうちの一つを始点とし当該始点以外のタッチ位置のうちの一つを終点とした場合における当該始点と当該終点の予め定められた方の位置、当該予め定められた方から見た他方の方向および両者の間の距離の各々を予め定められたルールにしたがって音色または発音、音高および音量に変換し、当該音色または発音の音を当該音高および当該音量で合成することを指示する合成指示データを出力する変換手段と、
前記変換手段の出力する合成指示データにしたがって音を合成する音合成手段と、
を有することを特徴とする音合成装置。 In a sound synthesizer that synthesizes and outputs a timbre or sound corresponding to a user's operation as a sound having a pitch and volume according to the operation,
Operation detection means for outputting operation content data indicating each of a plurality of touch positions by a touch operation performed by the user on the operation detection surface;
A means for converting the operation content data into data representing other information and outputting the data, wherein one of a plurality of touch positions indicated by the operation content data is set as a start point and one of the touch positions other than the start point. The tone of each of the starting point and the predetermined position of the end point, the other direction as viewed from the predetermined direction, and the distance between the two when the two points are the end points. Or conversion means for converting to pronunciation, pitch and volume, and outputting synthesis instruction data for instructing to synthesize the tone or tone with the pitch and volume;
Sound synthesis means for synthesizing sound according to synthesis instruction data output by the conversion means;
A sound synthesizer characterized by comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015058374A JP6477096B2 (en) | 2015-03-20 | 2015-03-20 | Input device and sound synthesizer |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015058374A JP6477096B2 (en) | 2015-03-20 | 2015-03-20 | Input device and sound synthesizer |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016177639A JP2016177639A (en) | 2016-10-06 |
JP6477096B2 true JP6477096B2 (en) | 2019-03-06 |
Family
ID=57069245
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015058374A Active JP6477096B2 (en) | 2015-03-20 | 2015-03-20 | Input device and sound synthesizer |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6477096B2 (en) |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4901031B2 (en) * | 2001-08-28 | 2012-03-21 | ジーイー・メディカル・システムズ・グローバル・テクノロジー・カンパニー・エルエルシー | Phase contradiction detection method and apparatus, phase contradiction elimination method and apparatus, and magnetic resonance imaging apparatus |
US20090207142A1 (en) * | 2008-02-20 | 2009-08-20 | Nokia Corporation | Apparatus, method, computer program and user interface for enabling user input |
JP5071290B2 (en) * | 2008-07-23 | 2012-11-14 | ヤマハ株式会社 | Electronic acoustic system |
JP5771936B2 (en) * | 2009-11-30 | 2015-09-02 | ヤマハ株式会社 | Parameter adjustment device and acoustic adjustment table |
WO2011075114A1 (en) * | 2009-12-14 | 2011-06-23 | Hewlett-Packard Development Company, L.P. | Touch input based adjustment of audio device settings |
JP5648515B2 (en) * | 2011-02-08 | 2015-01-07 | ヤマハ株式会社 | User interface device |
JP2013054470A (en) * | 2011-09-01 | 2013-03-21 | Sony Corp | Information processor, information processing method, and program |
JP5960851B2 (en) * | 2012-03-23 | 2016-08-02 | ドルビー ラボラトリーズ ライセンシング コーポレイション | Method and system for generation of head related transfer functions by linear mixing of head related transfer functions |
JP5998799B2 (en) * | 2012-09-26 | 2016-09-28 | ブラザー工業株式会社 | Operation input processing program and operation input processing method |
JP5871841B2 (en) * | 2013-03-01 | 2016-03-01 | パナソニック株式会社 | Carrier frequency offset correction method and apparatus |
JP5964770B2 (en) * | 2013-03-12 | 2016-08-03 | パナソニック株式会社 | Phase error estimation method and apparatus |
WO2015025345A1 (en) * | 2013-08-21 | 2015-02-26 | パナソニックIpマネジメント株式会社 | Information display device, information display method, and information display program |
-
2015
- 2015-03-20 JP JP2015058374A patent/JP6477096B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016177639A (en) | 2016-10-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10354627B2 (en) | Singing voice edit assistant method and singing voice edit assistant device | |
JP5895740B2 (en) | Apparatus and program for performing singing synthesis | |
JP6344578B2 (en) | How to play an electronic musical instrument | |
US9355634B2 (en) | Voice synthesis device, voice synthesis method, and recording medium having a voice synthesis program stored thereon | |
JP6007476B2 (en) | Performance device and electronic musical instrument | |
Marshall et al. | Gesture control of sound spatialization for live musical performance | |
Johnson et al. | Vrmin: using mixed reality to augment the theremin for musical tutoring. | |
JP6477096B2 (en) | Input device and sound synthesizer | |
JP6589356B2 (en) | Display control device, electronic musical instrument, and program | |
Torre | The design of a new musical glove: a live performance approach | |
JP5945170B2 (en) | Electronic device, method for displaying image on electronic device, and program for realizing the method | |
US20170337909A1 (en) | System, apparatus, and method thereof for generating sounds | |
JP5935815B2 (en) | Speech synthesis apparatus and program | |
JP6149917B2 (en) | Speech synthesis apparatus and speech synthesis method | |
US8912420B2 (en) | Enhancing music | |
JP5999689B2 (en) | Performance system and program | |
JP5825056B2 (en) | Electronic musical instruments | |
JP2008165098A (en) | Electronic musical instrument | |
JP2638992B2 (en) | Score input method | |
Molina-Villota et al. | A Singing Toolkit: Gestural Control of Voice Synthesis, Voice Samples and Live Voice | |
Schiesser et al. | Sabre: affordances, realizations and Perspectives. | |
US10083678B1 (en) | Enhanced user interfaces for virtual instruments | |
JP6358554B2 (en) | Musical sound control device, musical sound control method and program | |
JP2008292664A (en) | Graph learning support device and graph learning support program | |
US20220270576A1 (en) | Emulating a virtual instrument from a continuous movement via a midi protocol |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180125 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180912 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180918 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181116 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20181116 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190108 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190121 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6477096 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313532 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |