JP6409417B2 - Sound processor - Google Patents
Sound processor Download PDFInfo
- Publication number
- JP6409417B2 JP6409417B2 JP2014175157A JP2014175157A JP6409417B2 JP 6409417 B2 JP6409417 B2 JP 6409417B2 JP 2014175157 A JP2014175157 A JP 2014175157A JP 2014175157 A JP2014175157 A JP 2014175157A JP 6409417 B2 JP6409417 B2 JP 6409417B2
- Authority
- JP
- Japan
- Prior art keywords
- sound
- target
- pitch
- signal
- acoustic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 claims description 74
- 238000006243 chemical reaction Methods 0.000 claims description 69
- 238000004458 analytical method Methods 0.000 claims description 34
- 238000000605 extraction Methods 0.000 claims description 8
- 239000011295 pitch Substances 0.000 description 182
- 239000011159 matrix material Substances 0.000 description 65
- 238000000034 method Methods 0.000 description 36
- 239000013598 vector Substances 0.000 description 23
- 230000008569 process Effects 0.000 description 22
- 230000007704 transition Effects 0.000 description 17
- 230000008859 change Effects 0.000 description 15
- 238000000926 separation method Methods 0.000 description 14
- 230000008901 benefit Effects 0.000 description 8
- 230000005236 sound signal Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000001228 spectrum Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000010365 information processing Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 229940050561 matrix product Drugs 0.000 description 1
- 238000012950 reanalysis Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Images
Landscapes
- Electrophonic Musical Instruments (AREA)
Description
本発明は、音響信号を処理する技術に関する。 The present invention relates to a technique for processing an acoustic signal.
音声や楽音等の音響の音高を変更する各種の技術が従来から提案されている。例えば特許文献1には、利用者が発音した音声の音高を変更する技術が開示されている。また、例えば特許文献2には、歌唱音声を歌唱音声を調波成分と非調波成分とに分解して声質変換を実行する構成が開示されている。 Various techniques for changing the pitch of sound such as voice and music have been proposed. For example, Patent Literature 1 discloses a technique for changing the pitch of a sound produced by a user. Further, for example, Patent Document 2 discloses a configuration in which voice quality conversion is performed by decomposing a singing voice into a harmonic component and a non-harmonic component.
収録済の音響信号のうち特定の音響(以下「対象音」という)と同等の音色で所望の音高(以下「目標音高」という)の音響を生成する構成としては、例えば、音響信号から抽出される対象音の音高を目標音高に変更し、変更後に音色を対象音に近付ける構成(ピッチシフト→モーフィング)が想定され得る。しかし、例えば対象音を含む複数の音響成分を音響信号が包含する場合には、処理対象の対象音のみを高精度に抽出することは困難であり、対象音以外の音響成分が不可避的に対象音に付随し得る。以上の状況では、対象音に付随する対象音以外の音響成分が音高の変更に起因して顕在化し、更に音色の変換に起因して顕在化するという問題がある。以上の事情を考慮して、本発明は、音響信号のうち特定の音響の音高を変更する場合の音質の低下を抑制することを目的とする。 As a configuration for generating a sound having a desired pitch (hereinafter referred to as “target pitch”) with a timbre equivalent to a specific sound (hereinafter referred to as “target sound”) among the recorded acoustic signals, for example, from the acoustic signal A configuration (pitch shift → morphing) in which the pitch of the extracted target sound is changed to the target pitch and the timbre approaches the target sound after the change can be assumed. However, for example, when the acoustic signal includes a plurality of acoustic components including the target sound, it is difficult to extract only the target sound to be processed with high accuracy, and acoustic components other than the target sound are inevitably targeted. Can accompany sound. In the above situation, there is a problem that acoustic components other than the target sound accompanying the target sound become obvious due to the change in the pitch, and further become apparent due to the conversion of the timbre. In view of the above circumstances, an object of the present invention is to suppress deterioration in sound quality when changing the pitch of a specific sound among acoustic signals.
以上の課題を解決するために、本発明の音響処理装置は、対象音とは相違する音色で対象音と同等の音高の第1参照音を表す第1参照信号と、対象音の音高とは相違する目標音高で第1参照音と同等の音色の第2参照音を表す第2参照信号とを取得する参照音取得手段と、対象音を表す対象信号と第1参照信号とを利用して、第1参照音を対象音の音色に近付けるための変換フィルタを生成する解析処理手段と、変換フィルタを第2参照信号に適用することで、対象音に近似した音色で目標音高の音響を表す変換信号を生成する音響処理手段とを具備する。以上の態様では、対象音と同等の音高の第1参照音を対象音の音色に近付けるための変換フィルタが対象信号と第1参照信号とに応じて生成され、目標音高の第2参照音を表す第2参照信号に変換フィルタを適用することで変換信号が生成される。すなわち、対象音の音高の変換は原理的に不要である。したがって、対象音の音高の変更に起因した音質の低下を防止できるという利点がある。 In order to solve the above problems, the sound processing apparatus of the present invention includes a first reference signal representing a first reference sound having a tone different from the target sound and a pitch equivalent to the target sound, and a pitch of the target sound. Reference sound acquisition means for acquiring a second reference signal representing a second reference sound having a target tone pitch different from that of the first reference sound, and a target signal representing the target sound and a first reference signal By using the analysis processing means for generating a conversion filter for bringing the first reference sound close to the timbre of the target sound, and applying the conversion filter to the second reference signal, the target pitch can be obtained with a timbre approximating the target sound. And a sound processing means for generating a converted signal representing the sound. In the above aspect, the conversion filter for bringing the first reference sound having the same pitch as the target sound closer to the timbre of the target sound is generated according to the target signal and the first reference signal, and the second reference of the target pitch is obtained. A conversion signal is generated by applying a conversion filter to the second reference signal representing the sound. That is, it is not necessary in principle to convert the pitch of the target sound. Therefore, there is an advantage that it is possible to prevent a decrease in sound quality due to a change in the pitch of the target sound.
本発明の好適な態様において、参照音取得手段は、対象信号および第1参照信号の一方の音高を他方の音高に調整する。以上の態様では、対象信号および第2参照信号とを同等の音高に調整したうえで変換フィルタが生成されるから、対象信号と第1参照信号とで音高が相違した状態で変換フィルタを生成する場合と比較して、参照音を対象音の音色に高精度に変換可能な変換フィルタを生成できるという利点がある。 In a preferred aspect of the present invention, the reference sound acquisition means adjusts the pitch of one of the target signal and the first reference signal to the other pitch. In the above aspect, since the conversion filter is generated after adjusting the target signal and the second reference signal to the same pitch, the conversion filter is used in a state where the pitch is different between the target signal and the first reference signal. Compared with the case where it produces | generates, there exists an advantage that the conversion filter which can convert a reference sound into the timbre of an object sound with high precision can be produced | generated.
例えば、音響信号から対象音以外の音響を抑圧することで対象信号を生成する成分抽出手段を具備する構成では、対象音以外の残差成分が対象信号に付随し得る。したがって、対象信号を第1参照信号の音高に変更する構成では、音高の変更に起因して残差成分が顕在化する可能性がある。したがって、参照音取得手段が第1参照信号を対象信号と同等の音高に調整する構成が好適である。 For example, in a configuration including a component extraction unit that generates a target signal by suppressing sound other than the target sound from the acoustic signal, a residual component other than the target sound may accompany the target signal. Therefore, in the configuration in which the target signal is changed to the pitch of the first reference signal, there is a possibility that the residual component becomes obvious due to the change in the pitch. Therefore, a configuration in which the reference sound acquisition unit adjusts the first reference signal to a pitch equivalent to that of the target signal is suitable.
本発明の構成は、音響信号の特定の音響の音高を変更する構成に好適に採用される。具体的には、音響信号の音高の時系列を解析する音高解析手段と、音高解析手段が解析した音高の時系列において音高を変更すべき対象音と変更後の目標音高との指示を利用者から受付ける指示受付手段と、外部音源が生成した参照音を表す参照信号を取得する参照音取得手段と、参照音取得手段が取得した参照信号の参照音を対象音の音色に近付けた目標音高の変換信号を生成する音色変換手段と、成分抽出手段が生成した分離信号と音色変換手段が生成した変換信号とを混合する混合処理手段とを具備する音響処理装置において、音色変換手段に前述の各形態が利用され得る。 The configuration of the present invention is suitably employed for a configuration that changes the pitch of a specific sound of an acoustic signal. Specifically, the pitch analysis means for analyzing the time series of the pitch of the acoustic signal, the target sound whose pitch should be changed in the time series of the pitch analyzed by the pitch analysis means, and the target pitch after the change The instruction accepting means for accepting the instruction from the user, the reference sound obtaining means for obtaining the reference signal representing the reference sound generated by the external sound source, and the reference sound of the reference signal obtained by the reference sound obtaining means for the timbre of the target sound In a sound processing apparatus comprising: a timbre conversion unit that generates a conversion signal of a target pitch that is close to the sound signal; and a mixing processing unit that mixes the separated signal generated by the component extraction unit and the conversion signal generated by the timbre conversion unit. The above-described embodiments can be used for the timbre conversion means.
以上の各態様に係る音響処理装置は、音響信号の処理に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)等の汎用の演算処理装置とプログラムとの協働によっても実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。また、例えば、本発明のプログラムは、通信網を介した配信の形態で提供されてコンピュータにインストールされ得る。 The sound processing apparatus according to each of the above aspects is realized by hardware (electronic circuit) such as a DSP (Digital Signal Processor) dedicated to processing of an acoustic signal, or a general-purpose operation such as a CPU (Central Processing Unit). This is also realized by cooperation between the processing device and the program. The program of the present invention can be provided in a form stored in a computer-readable recording medium and installed in the computer. The recording medium is, for example, a non-transitory recording medium, and an optical recording medium (optical disk) such as a CD-ROM is a good example, but a known arbitrary one such as a semiconductor recording medium or a magnetic recording medium This type of recording medium can be included. For example, the program of the present invention can be provided in the form of distribution via a communication network and installed in a computer.
<第1実施形態>
図1は、本発明の第1実施形態に係る音響処理装置100の構成図である。図1に例示される通り、音響処理装置100は、演算処理装置10と記憶装置12と表示装置14と入力装置16と信号供給装置22と音源装置24と放音装置26とを具備するコンピュータシステムで実現される。例えば携帯電話機またはスマートフォン等の可搬型の情報処理装置やパーソナルコンピュータ等の可搬型または据置型の情報処理装置が音響処理装置100として利用され得る。
<First Embodiment>
FIG. 1 is a configuration diagram of a
信号供給装置22は、音響の時間波形を表す音響信号Xを出力する。第1実施形態の音響信号Xは、例えばライブハウスやコンサートホール等の固有の音響特性の音響空間で収録された信号であり、楽曲の歌唱音と楽器(以下「対象楽器」という)の演奏音との混合音の波形を表現する。なお、対象楽器以外の楽器の演奏音を包含する音響信号Xも処理可能である。可搬型または内蔵型の記録媒体から音響信号Xを取得して出力する再生装置や、通信網から音響信号Xを受信して出力する通信装置が信号供給装置22として利用され得る。第1実施形態の音響処理装置100は、信号供給装置22が出力する音響信号Xのうち対象楽器の演奏音の特定の箇所(例えば演奏者が対象楽器の演奏を失敗した箇所)を変更することで音響信号Zを生成する信号処理装置である。
The
表示装置14(例えば液晶表示パネル)は、演算処理装置10から指示された画像を表示する。入力装置16は、音響処理装置100に対する各種の指示のために利用者が操作する操作機器であり、例えば利用者が操作する複数の操作子を包含する。表示装置14と一体に構成されたタッチパネルを入力装置16として利用することも可能である。放音装置26(例えばスピーカやヘッドホン)は、演算処理装置10が生成した音響信号Zに応じた音響を放音する。
The display device 14 (for example, a liquid crystal display panel) displays an image instructed from the
音源装置24は、対象楽器の演奏音を表す音響信号(以下「参照信号」という)Rを生成する外部音源である。第1実施形態の音源装置24は、任意の音高の参照信号Rを生成可能である。例えばPCM(Pulse Code Modulation)音源等の公知の音源が音源装置24として任意に採用され得る。また、記憶装置12に記憶されたプログラムを演算処理装置10が実行することで音源装置24の機能を実現することも可能である。
The
記憶装置12は、演算処理装置10が実行するプログラムや演算処理装置10が使用する各種のデータを記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置12として任意に採用される。演算処理装置10は、記憶装置12に記憶されたプログラムを実行することで、音響信号Xから音響信号Zを生成するための複数の機能(音源分離部32,音高解析部34,表示制御部36,指示受付部38,成分抽出部40,音響加工部42,混合処理部44)を実現する。なお、演算処理装置10の各機能を複数の装置に分散した構成や、演算処理装置10の機能の一部を専用の電子回路が実現する構成も採用され得る。
The
音源分離部32は、信号供給装置22が出力する音響信号Xから音響信号XAと音響信号XBとを生成する。音響信号XAは、音響信号Xのうち歌唱音が強調された信号(理想的には対象楽器の演奏音が除去された信号)であり、音響信号XBは、音響信号Xのうち対象楽器の演奏音が強調された信号(理想的には歌唱音が除去された信号)である。音響信号XAおよび音響信号XBの生成には公知の技術が任意に採用され得る。例えば、歌唱音および演奏音の音像が定位する位置の相違を利用して歌唱音と演奏音とを分離する音源分離処理が音響信号XAおよび音響信号XBの生成に好適に利用される。
The sound
音高解析部34は、音源分離部32による分離後の音響信号XBにおける音高の時系列(以下「音高系列」という)Sを解析する。音高系列Sは、対象楽器の演奏音の音高の時間的な遷移とも換言され得る。第1実施形態の音高解析部34は、音響信号XBに対する非負値行列因子分解(NMF:Nonnegative Matrix Factorization)で音高系列Sを生成する。
The
図2は、第1実施形態における非負値行列因子分解の説明図である。図2に例示される通り、音高解析部34は、音響信号XBを表現する観測行列Wを基底行列Bと係数行列Gとに分解する。観測行列Wは、音響信号XBを時間軸上で区分したN個のフレームの各々の強度スペクトルを時系列に配列したM行N列の非負値行列である。任意の1個のフレームの強度スペクトルは、周波数軸上のM個の周波数の各々における強度(振幅やパワー)の系列である。以上の説明から理解される通り、観測行列Wは、音響信号XBのスペクトログラムを表現する。
FIG. 2 is an explanatory diagram of non-negative matrix factorization in the first embodiment. As illustrated in FIG. 2, the
基底行列Bは、対象楽器の演奏音の音響特性を表現する。第1実施形態の基底行列Bは、図2に例示される通り、対象楽器の相異なる音高の演奏音に対応するK個の基底ベクトルb[1]〜b[K]を横方向に配列したM行K列の非負値行列である。任意の1個の基底ベクトルb[k](k=1〜K)は、対象楽器が発音可能なK種類(例えばピアノの88音)の音高のうち第k番目の音高の演奏音の強度スペクトルに相当し、周波数軸上のM個の周波数の各々における強度の系列である。基底行列Bは、対象楽器の演奏音の解析で生成されて記憶装置12に事前に格納される。第1実施形態の音高解析部34は、記憶装置12に記憶された基底行列Bを教師情報(事前情報)として利用した音響信号XBの教師あり非負値行列因子分解(Supervised NMF)で係数行列Gを生成する。
The base matrix B expresses the acoustic characteristics of the performance sound of the target musical instrument. As illustrated in FIG. 2, the base matrix B of the first embodiment arranges K base vectors b [1] to b [K] corresponding to performance sounds of different pitches of the target musical instrument in the horizontal direction. This is a non-negative matrix of M rows and K columns. An arbitrary one basis vector b [k] (k = 1 to K) represents the performance sound of the kth pitch among the K types of pitches (for example, 88 notes of piano) that can be generated by the target musical instrument. It corresponds to an intensity spectrum and is a series of intensities at each of M frequencies on the frequency axis. The base matrix B is generated by analyzing the performance sound of the target instrument and stored in the
係数行列Gは、図2に例示される通り、基底行列Bの相異なる基底ベクトルb[k]に対応するK個の係数ベクトルg[1]〜g[K]を縦方向に配列したK行N列の非負値行列である。係数行列Gの第k行の係数ベクトルg[k]は、時間軸上の相異なるフレームに対応するN個の係数a[k,1]〜a[k,N]で構成される。係数ベクトルg[k]の任意の1個の係数a[k,n](n=1〜N)は、基底行列Bの基底ベクトルb[k]に対する加重値を意味する。具体的には、係数ベクトルg[k]を構成するN個の係数a[k,1]〜a[k,N]は、対象楽器のK種類の音高のうち基底ベクトルb[k]に対応する第k番目の音高の音響成分の強度(活性度)の時系列に相当する。すなわち、係数a[k,n]が大きい第n番目のフレームでは、対象楽器の第k番目の音高の音響成分が優勢に存在する。以上の傾向を考慮して、第1実施形態の音高解析部34は、係数行列Gを音高系列Sとして算定する。具体的には、音高解析部34は、基底行列Bと係数行列Gとの行列積が観測行列Wに接近するように係数行列Gを更新する演算処理の反復で係数行列Gを逐次的に更新し、所定の収束条件が成立した時点(例えば更新演算の所定値に到達した時点)の係数行列Gを音高系列Sとして確定する。第1回目の演算処理に適用される係数行列Gの各係数a[k,n](初期値)は、例えば乱数に設定される。
As illustrated in FIG. 2, the coefficient matrix G includes K rows in which K coefficient vectors g [1] to g [K] corresponding to different base vectors b [k] of the base matrix B are arranged in the vertical direction. It is a non-negative matrix with N columns. The coefficient vector g [k] in the k-th row of the coefficient matrix G is configured with N coefficients a [k, 1] to a [k, N] corresponding to different frames on the time axis. Any one coefficient a [k, n] (n = 1 to N) of the coefficient vector g [k] means a weight value for the base vector b [k] of the base matrix B. Specifically, the N coefficients a [k, 1] to a [k, N] constituting the coefficient vector g [k] are set to the base vector b [k] among the K pitches of the target musical instrument. This corresponds to the time series of the intensity (activity) of the acoustic component of the corresponding kth pitch. That is, in the nth frame having a large coefficient a [k, n], the acoustic component of the kth pitch of the target musical instrument is dominant. In consideration of the above tendency, the
図1の表示制御部36は、音高解析部34が解析した音高系列Sを表象する図3の音高遷移画像142を表示装置14に表示させる。図3に例示される通り、音高遷移画像142は、時間軸(横軸)と音高軸(縦軸)とが設定された座標平面に音高系列Sを描画したピアノロール状の画像である。時間軸上の各地点はN個のフレームの各々に対応し、音高軸上の各地点はK個の音高の各々に対応する。時間軸上の第n番目のフレームと音高軸上の第k番目の音高とに対応する地点は、音高系列S(係数行列G)の係数a[k,n]の大小に応じた態様(例えば階調や色彩)で表示される。すなわち、音響信号XBに包含される各音響(音符毎の単音)の音高と発音期間とが音高遷移画像142で表現される。したがって、利用者は、音高遷移画像142を視認することで対象楽器の演奏音の時系列(各音高の発音期間や発音強度)を直観的に把握することが可能である。
The
図1の指示受付部38は、入力装置16に対する利用者からの指示を受付ける。第1実施形態の指示受付部38は、音高解析部34が解析した音高系列S(表示制御部36が表示装置14に表示させた音高遷移画像142)から音高を変更すべき任意の演奏音(以下「対象音」という)Tの指示を利用者から受付ける。図3に例示されるとおり、利用者は、例えば音高遷移画像142を視認しながら入力装置16を適宜に操作することで、音高遷移画像142で表現された複数の演奏音のうち音高の変更を希望する対象音Tを選択するとともに、当該対象音Tの変更後の音高(以下「目標音高」という)Pを指定することが可能である。指示受付部38は、音高遷移画像142に対する対象音Tの指示と目標音高Pの指示とを利用者から受付ける。なお、相異なる複数の対象音Tの指示と対象音T毎の目標音高Pの指示とを指示受付部38が受付けることも可能である。
The
図1の成分抽出部40は、対象楽器の演奏音が強調された音響信号XBから分離信号YAと対象信号YBとを生成する。分離信号YAは、音響信号XBのうち利用者が指示した対象音Tを抑圧(理想的には除去)した音響信号であり、対象信号YBは、音響信号XBのうち対象音Tを強調した音響信号(理想的には対象音T以外の演奏音が除去された音響信号)である。分離信号YAおよび対象信号YBの生成には公知の技術が任意に採用され得るが、例えばウィナー(Wiener)フィルター等を利用した周波数領域での音源分離処理(対象音Tの分離)が好適である。
The
音響加工部42は、対象楽器による目標音高Pの演奏音を表す音響信号(以下「変換信号」という)YCを生成する。具体的には、音響加工部42は、音源装置24が生成する参照信号Rに対する処理で目標音高Pの変換信号YCを生成する。図1に例示される通り、第1実施形態の音響加工部42は、参照音取得部52と音色変換部54とを包含する。参照音取得部52は、音源装置24が生成した参照信号Rを取得する。
The
音源装置24が生成する目標音高Pの参照音で音響信号XBの対象音Tを置換すれば、形式的には対象音Tを目標音高Pに変更した音響信号Zを生成することも可能である。しかし、音響信号XBには収録環境(例えばライブハウス等の音響空間)に固有の音響特性が付随するから、音源装置24が生成する参照音で音響信号XBの対象音Tを単純に置換しただけでは、音響信号XBの既存の演奏音と置換後の演奏音(参照音)とで音響特性が顕著に相違する。したがって、再生音の受聴者が聴覚的な違和感を知覚する可能性がある。以上の事情を考慮して、第1実施形態の音色変換部54は、参照音取得部52が取得した参照信号Rの音色を音響信号XBの対象音Tの音色に近付けた目標音高Pの変換信号YCを生成する。参照信号Rの音色を対象音Tの音色に変換する処理(以下「音色変換処理」という)の具体的な内容については後述する。
If the target sound T of the sound signal XB is replaced with a reference sound of the target pitch P generated by the
図1の混合処理部44は、音源分離部32が生成した歌唱音の音響信号XAと、成分抽出部40が生成した対象音T以外の分離信号YAと、音響加工部42(音色変換部54)が生成した変換信号YCとを混合(例えば加重和)することで音響信号Zを生成する。すなわち、音響信号Xのうち対象楽器の対象音Tの音高を目標音高Pに変更した音響信号Zが生成される。
1 includes a sound signal XA of the singing sound generated by the sound
第1実施形態の混合処理部44は、音響信号XAと分離信号YAと変換信号YCとの混合の前後に各種の音響処理を実行する。例えば、各信号の周波数特性を調整する調整処理(イコライジング)が実行される。なお、音響信号XAおよび分離信号YAと変換信号YCとでは残響の度合が相違し得る。したがって、混合前の各信号から残響成分を抑圧する残響抑圧処理と、混合後の音響信号Zに適度な残響成分を付与する残響付与処理とを順次に実行することで、残響感が統一された音響信号Zを生成することが可能である。混合処理部44が生成した音響信号Zの再生音が放音装置26から放音される。以上の説明から理解される通り、音響信号Xが表現する音響のうち利用者が指示した対象音Tの音高を目標音高Pに変更した再生音が放音装置26から放音される。
The mixing
図4は、演算処理装置10が音響信号Xから音響信号Zを生成する動作(以下「音響編集処理」という)のフローチャートである。入力装置16に対する利用者からの指示(音響処理の開始指示)を契機として音響編集処理が開始される。
FIG. 4 is a flowchart of an operation (hereinafter referred to as “acoustic editing process”) in which the
音響編集処理を開始すると、音源分離部32は、信号供給装置22が出力する音響信号Xから歌唱音の音響信号XAと対象楽器の演奏音の音響信号XBとを生成する(SA1)。音高解析部34は、記憶装置12に記憶された基底行列Bを教師情報とする非負値行列因子分解を音響信号XBの観測行列Wに対して実行することで音高系列S(係数行列G)を生成し(SA2)、表示制御部36は、音高系列Sを表象する音高遷移画像142を表示装置14に表示させる(SA3)。
When the sound editing process is started, the sound
音高遷移画像142に対する対象音Tおよび目標音高Pの指示を指示受付部38が利用者から受付けると(SA4:YES)、成分抽出部40は、音源分離部32が生成した音響信号XBから対象音T以外の分離信号YAと対象音Tの対象信号YBとを生成する(SA5)。音響加工部42は、音源装置24が生成する参照信号Rに対象音Tの音色に近付ける音色変換処理(モーフィング)で変換信号YCを生成する(SA6)。混合処理部44は、音響信号XAと分離信号YAと変換信号YCとの混合で音響信号Zを生成する(SA7)。
When the
<音響加工部42>
図5は、音響加工部42の具体的な構成図である。図5に例示される通り、第1実施形態における音響加工部42の音色変換部54は、解析処理部62と音響処理部64とを包含する。図6は、第1実施形態の音響加工部42(参照音取得部52,音色変換部54)が実行する音色変換処理SA6のフローチャートであり、図7は音色変換処理SA6の説明図である。
<
FIG. 5 is a specific configuration diagram of the
音色変換処理SA6を開始すると、参照音取得部52は、対象信号YBの対象音Tの音高を特定し(SB1)、対象音Tと同等の音高の参照音Q1を表す参照信号R1を音源装置24から取得する(SB2)。前述の通り、参照音Q1の音色は音響信号XBの対象音Tとは相違する。図5および図7に例示される通り、解析処理部62は、成分抽出部40が生成した対象信号YBと参照音取得部52がステップSB2で取得した参照信号R1とを利用して変換フィルタHを生成する(SB3)。変換フィルタHは、音源装置24が生成した参照音Q1の音色を対象音Tの音色に近付けるためのフィルタである。
When the tone color conversion process SA6 is started, the reference
具体的には、解析処理部62は、対象信号YBと参照信号R1との間で相互に対応する各フレーム(例えば音響的な特徴量が相互に類似するフレーム)の対毎に変換フィルタHを生成する。対象信号YBと参照信号R1との間の各フレームの対応の解析には動的計画法等の公知の技術が任意に採用される。第1実施形態の変換フィルタHは、周波数軸上に設定された複数の帯域(以下「解析帯域」という)の各々に対応する調整値(ゲイン)hの系列である。各解析帯域は、単純には相等しい帯域幅に設定されるが、人間の聴覚特性の傾向が反映されるように各解析帯域の帯域幅を対数的な関係に設定することも可能である。変換フィルタHのうち任意の1個の解析帯域の調整値hは、例えば、参照信号R1の強度VRに対する対象信号YBの強度VYの相対比(h=VY/VR)として算定される。参照信号R1の強度VRは、参照信号R1の強度スペクトルのうち解析帯域内の複数の周波数にわたる強度の総和であり、対象信号YBの強度VYは、対象信号YBの強度スペクトルのうち解析帯域内の複数の周波数にわたる強度の総和である。変換フィルタHを構成する複数の調整値hの平均がゼロとなるように(ゼロ平均)、各調整値hを調整する構成も採用され得る。
Specifically, the
以上に例示された手順で解析処理部62が変換フィルタHを生成すると、参照音取得部52は、目標音高P(対象音Tとは相違する音高)の参照音Q2を表す参照信号R2を音源装置24から取得する(SB4)。参照音Q2の音色は参照音Q1と同等である。図5および図7に例示される通り、音響処理部64は、解析処理部62がステップSB3で生成した変換フィルタHを参照信号R2に適用することで変換信号YCを生成する(SB5)。具体的には、音響処理部64は、参照信号R2の各フレームの強度スペクトルを周波数軸上で区分した各解析帯域に変換フィルタHの各調整値hを乗算する。前述の通り、変換フィルタHは、参照音Q1の音色を対象音Tの音色に近付けるように作用するから、変換フィルタHを参照信号R2に適用することで、対象音Tに近似した音色で目標音高Pの音響を表す変換信号YCが生成される。以上が音色変換処理SA6の具体的な内容である。
When the
以上の説明から理解される通り、第1実施形態では、音源装置24から取得した参照信号Rの加工で生成された目標音高Pの変換信号YCが対象音Tの抑圧後の分離信号YAに混合されるから、対象音Tの対象信号YBを目標音高Pに変換する構成と比較して音響信号Zの音質の低下を抑制することが可能である。成分抽出部40が生成する対象信号YBは、理想的には対象音のみで構成されるが、実際には対象音以外の音響(以下「残差成分」という)も含有する。対象信号YBの音高を目標音高Pに変換する構成では、音高の変更に起因して残差成分が特に顕在化する。他方、参照信号Rから生成された目標音高Pの変換信号YCを分離信号YAに混合する第1実施形態では、対象信号YBの音高の変更が不要であるから、成分抽出部40の処理精度が低い場合(対象信号YBに残差成分が含有される場合)でも高音質の音響信号Zを生成できるという利点がある。他方、音響信号XBとは無関係に生成された参照信号Rを単純に分離信号YAに混合する構成では、両者間の音色の相違に起因した聴覚的な違和感が問題となるが、第1実施形態では、参照信号Rの参照音が対象音Tの音色に変換されるから、音響信号XBの音色と参照音の音色との相違に起因した聴覚的な違和感を解消することが可能である。
As understood from the above description, in the first embodiment, the converted signal YC of the target pitch P generated by processing the reference signal R acquired from the
ところで、対象音Tと同等の音色で目標音高Pの音響を生成する構成としては、例えば、対象音Tの音高を目標音高Pに変更し、変更後に音色を対象音Tに近付ける構成(ピッチシフト→モーフィング)が想定され得る。しかし、前述の通り、対象音Tの音高の変更に起因して顕在化した残差成分が音色の変換で更に顕在化するという問題がある。以上の事情に対し、第1実施形態では、対象音Tと同等の音高の参照音Q1を対象音Tの音色に近付けるための変換フィルタHを対象信号YBと参照信号R1とから生成し、目標音高Pの参照音Q2の参照信号R2に変換フィルタHに適用することで変換信号YCを生成する。すなわち、対象音Tの音高の変換は原理的に不要である。したがって、第1実施形態によれば、対象音Tの音高の変更に起因した音質の低下を防止できるという利点がある。 By the way, as a structure which produces | generates the sound of the target pitch P by the timbre equivalent to the target sound T, for example, the structure which changes the pitch of the target sound T to the target pitch P and makes the timbre approach the target sound T after the change. (Pitch shift → morphing) can be assumed. However, as described above, there is a problem that the residual component that has become apparent due to the change in the pitch of the target sound T becomes more apparent due to the conversion of the timbre. For the above circumstances, in the first embodiment, a conversion filter H for making the reference sound Q1 having the same pitch as the target sound T close to the timbre of the target sound T is generated from the target signal YB and the reference signal R1, By applying the reference signal R2 of the reference sound Q2 having the target pitch P to the conversion filter H, the conversion signal YC is generated. That is, it is not necessary in principle to convert the pitch of the target sound T. Therefore, according to the first embodiment, there is an advantage that it is possible to prevent a decrease in sound quality due to a change in the pitch of the target sound T.
<第2実施形態>
本発明の第2実施形態を説明する。なお、以下に例示する各構成において作用や機能が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。
Second Embodiment
A second embodiment of the present invention will be described. In addition, about the element which an effect | action and function are the same as that of 1st Embodiment in each structure illustrated below, the code | symbol used by description of 1st Embodiment is diverted, and each detailed description is abbreviate | omitted suitably.
音高解析部34が生成する係数行列G(音高系列S)では、理想的には、対象楽器の実際の演奏音に対応する係数a[k,n]のみが有意な数値に設定されるが、現実的には、例えば対象楽器の演奏音に対して特定の関係(例えば5度の音程)にある音高の係数a[k,n]が、実際には当該音高が演奏されていないのに有意な数値となる可能性がある。すなわち、音響信号XBにおける対象楽器の演奏音の実際の音高が分布する音高範囲の外側にも、有意な数値の係数a[k,n]が存在し得る。利用者は、入力装置16を適宜に操作することで、図8に例示される通り、表示装置14に表示された音高遷移画像142のうち音響信号XBの音響(対象楽器の演奏音)が存在すると推測される時間軸上および音高軸上の範囲(以下「発音範囲」という)Aを指示することが可能である。例えば、対象楽器として鍵盤楽器(例えばピアノ)を想定すると、演奏者の右手で演奏される高域側の音高範囲と左手で演奏される低域側の音高範囲とが発音範囲Aとして指示される。第2実施形態の指示受付部38は、以上に説明した発音範囲Aの指示を利用者から受付ける。
In the coefficient matrix G (pitch series S) generated by the
第2実施形態の音高解析部34は、指示受付部38が受付けた発音範囲Aを加味して音高系列Sを再解析する。具体的には、音高解析部34は、図8に例示される通り、利用者から指示された発音範囲Aの外側の各係数a[k,n]がゼロに設定されるとともに発音範囲Aの内側の各係数a[k,n]がゼロ以外の有意な数値λに設定された行列を、係数行列Gの初期値(初期行列)として利用した非負値行列因子分解で音高系列Sを算定する。数値λは例えば乱数に設定される。表示制御部36は、音高解析部34が再解析した音高系列Sを表象する音高遷移画像142を表示装置14に表示させる。音高遷移画像142に対する利用者からの指示に応じて音響信号Zを生成する処理は第1実施形態と同様である。
The
第2実施形態においても第1実施形態と同様の効果が実現される。また、第2実施形態では、発音範囲Aの外側の各係数a[k,n]がゼロに設定された行列を係数行列Gの初期値として利用した非負値行列因子分解で音高系列Sが生成される。すなわち、利用者が指示した発音範囲Aが反映されるように音高系列Sが更新される。したがって、音高系列Sに発音範囲Aの指示を反映させない構成と比較して音高系列Sを高精度に生成できるという利点がある。 In the second embodiment, the same effect as in the first embodiment is realized. In the second embodiment, the pitch sequence S is generated by non-negative matrix factorization using a matrix in which each coefficient a [k, n] outside the sound generation range A is set to zero as an initial value of the coefficient matrix G. Generated. That is, the pitch series S is updated so that the sound generation range A instructed by the user is reflected. Therefore, there is an advantage that the pitch sequence S can be generated with higher accuracy than the configuration in which the instruction of the sound generation range A is not reflected in the pitch sequence S.
<第3実施形態>
図9は、第3実施形態の音響加工部42(参照音取得部52,音色変換部54)が実行する音色変換処理SA6のフローチャートである。第1実施形態では、対象音Tと参照音Q1とが同等の音高である場合を想定して対象信号YBと参照信号R1とに応じた変換フィルタHの生成を例示したが、実際には、例えば音響信号XBにおける対象楽器の調律や調弦の状況に起因して、対象音Tと参照音Q1とで音高が相違する可能性がある。以上の事情を考慮して、第3実施形態の参照音取得部52は、図9に例示される通り、対象音Tと参照音Q1とを同等の音高に調整する処理(SB10)を、参照信号R1の取得(SB2)と変換フィルタHの生成(SB3)との間に実行する。具体的には、第3実施形態の参照音取得部52は、参照音Q1の参照信号R1を処理することで参照音Q1を対象音Tの音高に調整する。参照信号R1の音高の変更には公知の技術(ピッチシフト)が任意に採用される。解析処理部62は、調整後の参照信号R1と対象音Tの対象信号YBとを利用して、第1実施形態と同様の方法で変換フィルタHを生成する(SB3)。
<Third Embodiment>
FIG. 9 is a flowchart of the timbre conversion process SA6 executed by the acoustic processing unit 42 (reference
第3実施形態においても第1実施形態と同様の効果が実現される。また、第3実施形態では、対象音Tと参照音Q1とを同等の音高に調整したうえで変換フィルタHを生成するから、対象音Tと参照音Q1とで音高が相違した状態で変換フィルタHを生成する場合と比較して、参照音Q1(ひいては参照音Q2)を対象音Tの音色に高精度に変換可能な変換フィルタHを生成できるという利点がある。なお、以上の説明では、参照音Q1を対象音Tの音高に調整する構成を例示したが、対象音Tを参照音Q1と同等の音高に調整することも可能である。ただし、前述の通り、対象音Tには対象音以外の残差成分が包含され、対象音Tの音高の変更に起因して残差成分が顕在化する可能性がある。以上の事情を考慮すると、参照信号R1の参照音Q1を対象音Tの音高に調整する構成が格別に好適である。 In the third embodiment, the same effect as in the first embodiment is realized. In the third embodiment, since the conversion filter H is generated after adjusting the target sound T and the reference sound Q1 to the same pitch, the target sound T and the reference sound Q1 have different pitches. Compared with the case where the conversion filter H is generated, there is an advantage that the conversion filter H that can convert the reference sound Q1 (and thus the reference sound Q2) into the timbre of the target sound T with high accuracy can be generated. In the above description, the configuration in which the reference sound Q1 is adjusted to the pitch of the target sound T is exemplified, but the target sound T can also be adjusted to a pitch equivalent to the reference sound Q1. However, as described above, the target sound T includes a residual component other than the target sound, and the residual component may become obvious due to a change in the pitch of the target sound T. Considering the above circumstances, a configuration in which the reference sound Q1 of the reference signal R1 is adjusted to the pitch of the target sound T is particularly suitable.
<変形例>
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様は適宜に併合され得る。
<Modification>
Each of the above forms can be variously modified. Specific modifications are exemplified below. Two or more aspects arbitrarily selected from the following examples can be appropriately combined.
(1)前述の各形態では、音響信号XBに対する非負値行列因子分解で音高系列Sを生成したた、音高系列Sを生成する方法は以上の例示に限定されない。例えば、自動採譜等の公知の解析技術を音高系列Sの生成に利用することも可能である。また、第2実施形態では、非負値行列因子分解以外の方法で暫定的な音高系列Sを生成し、当該音高系列Sの音高遷移画像142のうち発音範囲Aの外側に対応する各係数a[k,n]がゼロに設定された係数行列Gを初期値として観測行列Wの非負値行列因子分解を実行することで確定的な音高系列Sを再解析することも可能である。すなわち、発音範囲Aの指示前の暫定的な音高系列Sを生成する方法と発音範囲Aを反映した確定的な音高系列Sを生成する方法とは相違し得る。なお、発音範囲Aの指示と音高系列Sの再解析とを複数回にわたり反復することも可能である。
(1) In each of the above embodiments, the pitch sequence S generated by the non-negative matrix factorization for the acoustic signal XB is not limited to the above examples. For example, a well-known analysis technique such as automatic music transcription can be used to generate the pitch sequence S. In the second embodiment, a provisional pitch sequence S is generated by a method other than non-negative matrix factorization, and each of the
(2)前述の各形態では、対象楽器の相異なる音高の演奏音に対応するK個の基底行列Bを利用した観測行列Wの非負値行列因子分解で係数行列Gを算定したが、観測行列Wに対して実行される非負値行列因子分解の内容は適宜に変更され得る。例えば、各要素が乱数で初期化されたK個の基底ベクトル(以下「暫定基底ベクトル」という)で構成される基底行列Bを非負値行列因子分解の反復的な演算で係数行列Gとともに順次に更新する構成も採用される。 (2) In each of the above-described embodiments, the coefficient matrix G is calculated by non-negative matrix factorization of the observation matrix W using K basis matrices B corresponding to performance sounds of different pitches of the target musical instrument. The content of the non-negative matrix factorization performed on the matrix W can be changed as appropriate. For example, a basis matrix B composed of K basis vectors (hereinafter referred to as “provisional basis vectors”) in which each element is initialized with a random number is sequentially converted together with a coefficient matrix G by non-negative matrix factorization repetitive calculation. The structure to update is also employ | adopted.
また、対象楽器の演奏音について事前に用意された基底ベクトルと任意の暫定基底ベクトルとを混在させた基底行列Bを非負値行列因子分解に利用することも可能である。対象楽器の基底ベクトルと任意の暫定基底ベクトルとを基底行列Bに混在させた構成では、例えば対象楽器のほかに対象楽器以外の楽器(以下「他楽器」という)の演奏音が音響信号XBに包含される場合に、他楽器の演奏音が暫定基底ベクトルに反映されるように基底行列Bが順次に更新される。したがって、他楽器の演奏音が音響信号XBに包含される場合でも対象楽器の音高系列Sを高精度に特定できるという利点がある。なお、対象楽器の基底ベクトルと任意の暫定基底ベクトルとを基底行列Bに混在させた以上の構成に第2実施形態を適用する場合には、初期的な係数行列Gのうち対象楽器の各基底ベクトルに対応する係数ベクトルg[k]のみについて、発音範囲Aの外側の各係数a[k,n]をゼロに設定する構成(各暫定基底ベクトルに対応する係数ベクトルg[k]については各係数a[k,n]をゼロとしない構成)が好適である。また、観測行列Wの非負値行列因子分解には、例えば特開2013−033196号公報に例示された拘束条件を適用することも可能である。 It is also possible to use a base matrix B in which a base vector prepared in advance for a performance sound of the target musical instrument and an arbitrary provisional base vector are mixed for non-negative matrix factorization. In the configuration in which the base vector of the target instrument and an arbitrary provisional base vector are mixed in the base matrix B, for example, the performance sound of an instrument other than the target instrument (hereinafter referred to as “other instrument”) in addition to the target instrument is included in the acoustic signal XB. When included, the basis matrix B is sequentially updated so that the performance sound of the other musical instrument is reflected in the provisional basis vector. Therefore, there is an advantage that the pitch series S of the target musical instrument can be specified with high accuracy even when the performance sound of the other musical instrument is included in the acoustic signal XB. When the second embodiment is applied to the above configuration in which the base vector of the target instrument and an arbitrary provisional base vector are mixed in the base matrix B, each base of the target instrument in the initial coefficient matrix G is used. A configuration in which only the coefficient a [k, n] outside the sounding range A is set to zero for only the coefficient vector g [k] corresponding to the vector (each coefficient vector g [k] corresponding to each provisional base vector A configuration in which the coefficient a [k, n] is not zero) is preferable. In addition, for example, the constraint conditions exemplified in Japanese Patent Application Laid-Open No. 2013-033196 can be applied to the non-negative matrix factorization of the observation matrix W.
(3)音源装置24が複数種の楽器(同種だが音色が相違する楽器は別種と区別され得る)の演奏音の参照信号Rを生成可能な構成では、複数種の楽器のうち利用者が選択した楽器(音響信号Xの再生音から音響特性が近似すると推測される楽器)の演奏音の参照信号Rを参照音取得部52が取得することも可能である。
(3) In a configuration in which the
(4)第2実施形態では、利用者が発音範囲Aを指示する構成を例示したが、発音範囲Aを設定する方法は以上の例示に限定されない。例えば、音響信号Xの楽曲の演奏内容(音符の時系列)を指定する楽曲データ(例えばMIDI規格に準拠した時系列データ)を参照することで時間軸上および音高軸上の各音符の分布範囲を特定し、音高解析部34が当該範囲を発音範囲Aとして設定することも可能である。また、実際に演奏音が存在する地点の係数a[k,n]は相対的に大きい数値に設定されるという傾向を前提とすれば、係数行列G(音高系列S)のうち閾値を上回る係数a[k,n]が分布する範囲を発音範囲Aとして設定することも可能である。なお、第2実施形態では音高軸上の範囲および時間軸上の範囲の双方で発音範囲Aを画定したが、音高軸上の範囲(時間軸上は全範囲)を発音範囲Aとして設定する構成や、時間軸上の範囲(音高軸上は全範囲)を発音範囲Aとして設定する構成も採用され得る。
(4) In the second embodiment, the configuration in which the user instructs the sound generation range A is exemplified, but the method of setting the sound generation range A is not limited to the above illustration. For example, the distribution of each note on the time axis and the pitch axis by referring to music data (for example, time series data compliant with the MIDI standard) that specifies the musical performance of the music of the acoustic signal X (time series of notes) The range can be specified, and the
(5)前述の各形態では、対象音の音高を変更する場合を便宜的に例示したが、対象音の発音期間(始点および終点)を音高とともに変更することも可能である。例えば、参照音取得部52が取得した参照信号R2を音色変換部54(変換処理部64)が目標の継続長に伸縮したうえで変換フィルタHを適用する構成や、参照信号R2に対する変換フィルタHの適用で生成した変換信号YCを音色変換部54(変換処理部64)が目標の継続長に伸縮する構成が採用され得る。
(5) In each of the above-described embodiments, the case where the pitch of the target sound is changed is illustrated for convenience. However, the sound generation period (start point and end point) of the target sound can be changed together with the pitch. For example, a configuration in which the reference signal R2 acquired by the reference
(6)音高遷移画像142において対象音Tと目標音高Pとが暫定的に指示された場合に、変換信号YCを生成して放音装置26から放音することも可能である。以上の構成によれば、対象音Tの変更結果を利用者が事前に試聴できるという利点がある。
(6) When the target sound T and the target pitch P are tentatively indicated in the
(7)第3実施形態では対象信号YBおよび参照信号R1の一方を他方の音高に調整する構成を例示したが、対象信号YBおよび参照信号R1の音高を、事前に設定された複数の音高のうち最も近似する音高に変更(クオンタイズ)する構成も採用され得る。また、対象信号YBの対象音Tや参照信号R1の参照音Q1に音高の微小変動(揺れ)が存在する場合には、微小変動を抑制(理想的には除去)したうえで変換フィルタHを生成することも可能である。例えば、音声合成で生成された歌唱音の音響信号XBにはビブラート等の微小変動が付随し得るから、対象信号YBから音高の微小変動を抑制する構成が格別に好適である。また、残差成分や雑音成分を対象信号YBから除去したうえで変換フィルタHを生成することも可能である。 (7) In the third embodiment, the configuration in which one of the target signal YB and the reference signal R1 is adjusted to the other pitch is exemplified, but the pitches of the target signal YB and the reference signal R1 are set to a plurality of preset pitches. A configuration for changing (quantizing) the pitch to the closest pitch among the pitches may be employed. Further, if there is a minute pitch fluctuation (swing) in the target sound T of the target signal YB or the reference sound Q1 of the reference signal R1, the conversion filter H is suppressed after suppressing the minute fluctuation (ideally removed). Can also be generated. For example, since the acoustic signal XB of the singing sound generated by speech synthesis can be accompanied by minute fluctuations such as vibrato, a configuration that suppresses minute fluctuations in the pitch from the target signal YB is particularly suitable. It is also possible to generate the conversion filter H after removing residual components and noise components from the target signal YB.
(8)前述の各形態では、音源装置24が生成した参照信号Rを参照音取得部52が取得する構成を例示したが、音源装置24が生成した参照信号Rを事前に記憶装置12に格納し、参照音取得部52が記憶装置12から参照信号Rを取得する構成も採用され得る。また、音源装置24が生成した各音高の参照信号Rを周波数領域に変換することで基底行列B(各基底ベクトルb[k])を生成することも可能である。
(8) In each of the above-described embodiments, the reference
(9)前述の各形態では、音響信号Xを歌唱音の音響信号XAと対象楽器の演奏音の音響信号XBとに分離したが、歌唱音の音響信号XAを分離する構成は省略され得る。例えば、歌唱音を含まない音響信号Xを処理する構成では、音源分離部32が省略されるとともに、混合処理部44は、分離信号YAと変換信号YCとの混合で音響信号Zを生成する。
(9) In each of the above-described embodiments, the acoustic signal X is separated into the singing sound acoustic signal XA and the performance sound acoustic signal XB of the target instrument, but the configuration for separating the singing sound acoustic signal XA may be omitted. For example, in the configuration for processing the acoustic signal X that does not include the singing sound, the sound
(10)携帯電話機等の端末装置と通信するサーバ装置で音響処理装置100を実現することも可能である。例えば、音響処理装置100は、端末装置から受信した音響信号Xから音響信号Zを生成して端末装置に送信する。
(10) The
100……音響処理装置、10……演算処理装置、12……記憶装置、14……表示装置、16……入力装置、22……信号供給装置、24……音源装置、26……放音装置、32……音源分離部、34……音高解析部、36……表示制御部、38……指示受付部、40……成分抽出部、42……音響加工部、44……混合処理部、52……参照音取得部、54……音色変換部、62……解析処理部、64……音響処理部。
DESCRIPTION OF
Claims (3)
前記対象音を表す対象信号と前記第1参照信号とを利用して、前記第1参照音を前記対象音の音色に近付けるための変換フィルタを生成する解析処理手段と、
前記変換フィルタを前記第2参照信号に適用することで、前記対象音に近似した音色で前記目標音高の音響を表す変換信号を生成する音響処理手段と
を具備する音響処理装置。 A first reference signal representing a first reference sound having a tone different from the target sound and having a pitch equivalent to the target sound, and a target pitch different from the pitch of the target sound, equivalent to the first reference sound Reference sound acquisition means for acquiring a second reference signal representing the second reference sound of the timbre of
Analysis processing means for generating a conversion filter for bringing the first reference sound closer to the timbre of the target sound using the target signal representing the target sound and the first reference signal;
An acoustic processing device comprising: an acoustic processing unit configured to apply the conversion filter to the second reference signal to generate a converted signal representing the sound of the target pitch with a tone color approximate to the target sound.
請求項1の音響処理装置。 The sound processing apparatus according to claim 1, wherein the reference sound acquisition unit adjusts the pitch of one of the target signal and the first reference signal to the other pitch.
前記参照音取得手段は、前記第1参照信号を前記対象信号と同等の音高に調整する
請求項2の音響処理装置。
Comprising component extraction means for generating the target signal by suppressing sound other than the target sound from the acoustic signal;
The sound processing device according to claim 2, wherein the reference sound acquisition unit adjusts the first reference signal to a pitch equivalent to that of the target signal.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014175157A JP6409417B2 (en) | 2014-08-29 | 2014-08-29 | Sound processor |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014175157A JP6409417B2 (en) | 2014-08-29 | 2014-08-29 | Sound processor |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016050995A JP2016050995A (en) | 2016-04-11 |
JP6409417B2 true JP6409417B2 (en) | 2018-10-24 |
Family
ID=55658551
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014175157A Active JP6409417B2 (en) | 2014-08-29 | 2014-08-29 | Sound processor |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6409417B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11513107B2 (en) * | 2018-11-16 | 2022-11-29 | Nec Corporation | Gas feature vector decomposition |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3797283B2 (en) * | 2002-06-18 | 2006-07-12 | ヤマハ株式会社 | Performance sound control method and apparatus |
JP2009216724A (en) * | 2008-03-06 | 2009-09-24 | Advanced Telecommunication Research Institute International | Speech creation device and computer program |
US8831762B2 (en) * | 2009-02-17 | 2014-09-09 | Kyoto University | Music audio signal generating system |
JP5772739B2 (en) * | 2012-06-21 | 2015-09-02 | ヤマハ株式会社 | Audio processing device |
-
2014
- 2014-08-29 JP JP2014175157A patent/JP6409417B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016050995A (en) | 2016-04-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7945446B2 (en) | Sound processing apparatus and method, and program therefor | |
WO2020095951A1 (en) | Acoustic processing method and acoustic processing system | |
JP4207902B2 (en) | Speech synthesis apparatus and program | |
JP6347536B2 (en) | Sound synthesis method and sound synthesizer | |
JP6821970B2 (en) | Speech synthesizer and speech synthesizer | |
JP4654621B2 (en) | Voice processing apparatus and program | |
WO2019181767A1 (en) | Sound processing method, sound processing device, and program | |
JP6409417B2 (en) | Sound processor | |
JP6337698B2 (en) | Sound processor | |
JP2008072600A (en) | Acoustic signal processing apparatus, acoustic signal processing program, and acoustic signal processing method | |
JP6428256B2 (en) | Audio processing device | |
JP5282469B2 (en) | Voice processing apparatus and program | |
JP7443823B2 (en) | Sound processing method | |
WO2017135350A1 (en) | Recording medium, acoustic processing device, and acoustic processing method | |
JP7179079B2 (en) | SOUND EFFECT GENERATING METHOD AND INFORMATION PROCESSING DEVICE | |
WO2020241641A1 (en) | Generation model establishment method, generation model establishment system, program, and training data preparation method | |
EP2634769B1 (en) | Sound synthesizing apparatus and sound synthesizing method | |
JP2018072723A (en) | Acoustic processing method and sound processing apparatus | |
JP6930089B2 (en) | Sound processing method and sound processing equipment | |
WO2023170756A1 (en) | Acoustic processing method, acoustic processing system, and program | |
JP2021128252A (en) | Sound source separation program, sound source separation device, sound source separation method, and generation program | |
CN113348508A (en) | Electronic device, method, and computer program | |
JP5211437B2 (en) | Voice processing apparatus and program | |
JP2009237590A (en) | Vocal effect-providing device | |
JP7088403B2 (en) | Sound signal generation method, generative model training method, sound signal generation system and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170623 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180528 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180605 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180706 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180828 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180910 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6409417 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313532 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |