JP6872197B2 - Acoustic signal generation model learning device, acoustic signal generator, method, and program - Google Patents
Acoustic signal generation model learning device, acoustic signal generator, method, and program Download PDFInfo
- Publication number
- JP6872197B2 JP6872197B2 JP2018023296A JP2018023296A JP6872197B2 JP 6872197 B2 JP6872197 B2 JP 6872197B2 JP 2018023296 A JP2018023296 A JP 2018023296A JP 2018023296 A JP2018023296 A JP 2018023296A JP 6872197 B2 JP6872197 B2 JP 6872197B2
- Authority
- JP
- Japan
- Prior art keywords
- spectrogram
- signal
- acoustic signal
- generator
- complex
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 117
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 title claims description 87
- 238000013528 artificial neural network Methods 0.000 claims description 48
- 230000006870 function Effects 0.000 claims description 13
- 230000005236 sound signal Effects 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 description 28
- 239000013589 supplement Substances 0.000 description 22
- 238000002474 experimental method Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 9
- 238000012360 testing method Methods 0.000 description 8
- 238000011156 evaluation Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000009827 uniform distribution Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 241000522254 Cassia Species 0.000 description 1
- 235000014489 Cinnamomum aromaticum Nutrition 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003631 expected effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Landscapes
- Auxiliary Devices For Music (AREA)
Description
本発明は、音響信号生成モデル学習装置、音響信号生成装置、方法、及びプログラムに係り、音響信号を生成するための音響信号生成モデル学習装置、音響信号生成装置、方法、及びプログラムに関する。 The present invention relates to an acoustic signal generation model learning device, an acoustic signal generation device, a method, and a program, and relates to an acoustic signal generation model learning device, an acoustic signal generation device, a method, and a program for generating an acoustic signal.
音響信号処理において、短時間Fourier 変換(Short Time Fourier Transform; STFT) などにより得られる振幅スペクトログラムに対する加工処理(強調処理を含む)が有効な場面が多い。また、近年は音声合成においても、振幅スペクトログラムの合成を経て信号生成を行うアプローチの有効性が示されている。振幅スペクトログラムは位相情報を含まないため、振幅スペクトログラムから音響信号を再構成するには位相スペクトログラムの再構成が必要となる。従来、STFT の振幅スペクトログラムを対象とした位相再構成手法として、Griffin-Lim らによる信号処理をベースとした方法(非特許文献1)(以後、Griffin-Lim 法)が広く用いられてきた。この方法は、STFT によって得られる複素スペクトログラムが、時間領域信号の冗長表現となっていることを手がかりにした方法で、振幅スペクトログラムを入力とし、 In acoustic signal processing, there are many situations where processing (including emphasis processing) for the amplitude spectrogram obtained by short-time Fourier transform (STFT) is effective. Moreover, in recent years, the effectiveness of the approach of generating a signal through the synthesis of an amplitude spectrogram has been shown also in speech synthesis. Since the amplitude spectrogram does not contain phase information, it is necessary to reconstruct the phase spectrogram in order to reconstruct the acoustic signal from the amplitude spectrogram. Conventionally, a method based on signal processing by Griffin-Lim et al. (Non-Patent Document 1) (hereinafter, Griffin-Lim method) has been widely used as a phase reconstruction method for STFT amplitude spectrograms. This method is based on the fact that the complex spectrogram obtained by STFT is a redundant representation of the time domain signal, and uses the amplitude spectrogram as an input.
Step 0:位相スペクトログラムを初期設定する。
Step 1:入力振幅スペクトログラムと前段で得られる位相スペクトログラムから複素スペクトログラムを構成し、逆STFT により時間領域信号を算出する。
Step 2:上記Step 1 の時間領域信号にSTFT を行い、複素スペクトログラムを再計算する。
Step 3:上記Step 2 の複素スペクトログラムの偏角成分を新しい位相スペクトログラムの推定値とし、上記Step 1 に戻る。
という反復アルゴリズムにより振幅スペクトログラムから音響信号を再構成することができる。
Step 0: Initialize the phase spectrogram.
Step 1: Construct a complex spectrogram from the input amplitude spectrogram and the phase spectrogram obtained in the previous stage, and calculate the time domain signal by inverse STFT.
Step 2: Perform STFT on the time domain signal in Step 1 above and recalculate the complex spectrogram.
Step 3: The declination component of the complex spectrogram in
The acoustic signal can be reconstructed from the amplitude spectrogram by the iterative algorithm.
この方法では少ない反復回数では必ずしも品質の高い音響信号が再構成されるとは限らないことが知られており、質の高い音響信号を得るには多数の反復回数を要する場合が多い。このため実時間処理などには不向きという難点がある。 It is known that this method does not always reconstruct a high-quality acoustic signal with a small number of iterations, and it often takes a large number of iterations to obtain a high-quality acoustic signal. Therefore, there is a drawback that it is not suitable for real-time processing.
本発明は、上記課題を解決するためになされたものであり、音響信号を高品質に生成することができる音響信号生成モデル学習装置、音響信号生成装置、方法、及びプログラムを提供することを目的とする。 The present invention has been made to solve the above problems, and an object of the present invention is to provide an acoustic signal generation model learning device, an acoustic signal generation device, a method, and a program capable of generating an acoustic signal with high quality. And.
上記の目的を達成するために第1の発明に係る音響信号生成モデル学習装置は、音響信号を生成するためのニューラルネットワークである生成器を学習する音響信号生成モデル学習装置であって、教師音響信号の時間領域信号又は複素スペクトログラムと前記教師音響信号の振幅スペクトログラムとのペアに基づいて、振幅スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する前記生成器を、前記教師音響信号の時間領域信号又は複素スペクトログラムと、前記教師音響信号の振幅スペクトログラムを入力として前記生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように学習する学習部を含んで構成されている。 The acoustic signal generation model learning apparatus according to the first invention for achieving the above object is an acoustic signal generation model learning apparatus that learns a generator which is a neural network for generating an acoustic signal, and is a teacher sound. Based on the pair of the time region signal or complex spectrogram of the signal and the amplitude spectrogram of the teacher acoustic signal, the generator that takes the amplitude spectrogram as an input and outputs the time region signal or complex spectrogram of the acoustic signal is used as the teacher acoustic signal. Learning to reduce the learning criterion indicating the magnitude of the error between the time region signal or complex spectrogram of the above and the time region signal or complex spectrogram output by the generator by inputting the amplitude spectrogram of the teacher acoustic signal. It is composed of parts.
第2の発明に係る音響信号生成モデル学習装置は、音響信号を生成するためのニューラルネットワークである生成器を学習する音響信号生成モデル学習装置であって、前記教師音響信号の振幅スペクトログラムから、時間領域信号又は複素スペクトログラムを構成する入力生成部と、教師音響信号の時間領域信号又は複素スペクトログラムと前記教師音響信号の振幅スペクトログラムとのペアに基づいて、時間領域信号又は複素スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する前記生成器を、前記教師音響信号の時間領域信号又は複素スペクトログラムと、前記入力生成部により前記教師音響信号の振幅スペクトログラムから構成された時間領域信号又は複素スペクトログラムを入力として前記生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように学習する学習部を含んで構成されている。 The acoustic signal generation model learning device according to the second invention is an acoustic signal generation model learning device that learns a generator that is a neural network for generating acoustic signals, and is time from the spectrogram of the teacher acoustic signal. Based on the input generator that constitutes the region signal or complex spectrogram, and the pair of the time region signal or complex spectrogram of the teacher acoustic signal and the amplitude spectrogram of the teacher acoustic signal, the time region signal or complex spectrogram is input and the acoustic signal is used. The generator that outputs the time region signal or complex spectrogram of the teacher acoustic signal is composed of the time region signal or complex spectrogram of the teacher acoustic signal and the amplitude spectrogram of the teacher acoustic signal by the input generator. Is included as an input, and includes a learning unit that learns so as to reduce the learning standard indicating the magnitude of the error from the time region signal or the complex spectrogram output by the generator.
第3の発明に係る音響信号生成装置は、音響信号を生成するためのニューラルネットワークである生成器を用いて、振幅スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する生成部を含み、前記生成器は、教師音響信号の時間領域信号又は複素スペクトログラムと前記教師音響信号の振幅スペクトログラムとのペアに基づいて、前記教師音響信号の時間領域信号又は複素スペクトログラムと、前記教師音響信号の振幅スペクトログラムを入力として前記生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように予め学習された、振幅スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する前記生成器である。 The acoustic signal generator according to the third invention uses a generator, which is a neural network for generating acoustic signals, to input an amplitude spectrogram and output a time region signal or a complex spectrogram of the acoustic signal. The generator includes, based on a pair of a time region signal or complex spectrogram of the teacher acoustic signal and an amplitude spectrogram of the teacher acoustic signal, the time region signal or complex spectrogram of the teacher acoustic signal and the teacher acoustic signal. The time region signal of the acoustic signal, which is input to the amplitude spectrogram and has been trained in advance so as to reduce the learning criterion indicating the magnitude of the error from the time region signal or the complex spectrogram output by the generator with the amplitude spectrogram as the input. Or the generator that outputs a complex spectrogram.
第4の発明に係る音響信号生成装置は、入力された振幅スペクトログラムから、時間領域信号又は複素スペクトログラムを構成する入力生成部と、音響信号を生成するためのニューラルネットワークである生成器を用いて、前記入力生成部により構成された前記時間領域信号又は複素スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する生成部とを含み、前記生成器は、教師音響信号の時間領域信号又は複素スペクトログラムと前記教師音響信号の振幅スペクトログラムとのペアに基づいて、前記教師音響信号の時間領域信号又は複素スペクトログラムと、前記教師音響信号の振幅スペクトログラムから構成された時間領域信号又は複素スペクトログラムを入力として前記生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように学習された、時間領域信号又は複素スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する前記生成器である。 The acoustic signal generator according to the fourth invention uses an input generator that constitutes a time region signal or a complex spectrogram from the input amplitude spectrogram, and a generator that is a neural network for generating the acoustic signal. The generator includes a time region signal or a complex spectrogram composed of the input generation unit and outputs a time region signal or a complex spectrogram of an acoustic signal, and the generator is a time region signal of a teacher acoustic signal or a time region signal or a complex spectrogram. Based on the pair of the complex spectrogram and the amplitude spectrogram of the teacher acoustic signal, the time region signal or complex spectrogram composed of the time region signal or complex spectrogram of the teacher acoustic signal and the amplitude spectrogram of the teacher acoustic signal is input. The time region signal or complex spectrogram of the acoustic signal is input and the time region signal or complex is learned so as to reduce the learning criterion indicating the magnitude of the error from the time region signal or complex spectrogram output by the generator. The generator that outputs the spectrogram.
第5の発明に係る音響信号生成モデル学習方法は、音響信号を生成するためのニューラルネットワークである生成器を学習する音響信号生成モデル学習装置における音響信号生成モデル学習方法であって、学習部が、教師音響信号の時間領域信号又は複素スペクトログラムと前記教師音響信号の振幅スペクトログラムとのペアに基づいて、振幅スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する前記生成器を、前記教師音響信号の時間領域信号又は複素スペクトログラムと、前記教師音響信号の振幅スペクトログラムを入力として前記生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように学習する。 The acoustic signal generation model learning method according to the fifth invention is an acoustic signal generation model learning method in an acoustic signal generation model learning apparatus that learns a generator which is a neural network for generating an acoustic signal, and the learning unit The generator that takes an amplitude spectrogram as an input and outputs a time region signal or a complex spectrogram of an acoustic signal based on a pair of a time region signal or a complex spectrogram of the teacher acoustic signal and the amplitude spectrogram of the teacher acoustic signal. To reduce the learning criterion that represents the magnitude of the error between the time region signal or complex spectrogram of the teacher acoustic signal and the time region signal or complex spectrogram output by the generator with the amplitude spectrogram of the teacher acoustic signal as input. learn.
第6の発明に係る音響信号生成モデル学習方法は、音響信号を生成するためのニューラルネットワークである生成器を学習する音響信号生成モデル学習装置における音響信号生成モデル学習方法であって、入力生成部が、前記教師音響信号の振幅スペクトログラムから、時間領域信号又は複素スペクトログラムを構成し、学習部が、教師音響信号の時間領域信号又は複素スペクトログラムと前記教師音響信号の振幅スペクトログラムとのペアに基づいて、時間領域信号又は複素スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する前記生成器を、前記教師音響信号の時間領域信号又は複素スペクトログラムと、前記入力生成部により前記教師音響信号の振幅スペクトログラムから構成された時間領域信号又は複素スペクトログラムを入力として前記生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように学習する。 The acoustic signal generation model learning method according to the sixth invention is an acoustic signal generation model learning method in an acoustic signal generation model learning apparatus that learns a generator that is a neural network for generating an acoustic signal, and is an input generation unit. Constructs a time region signal or complex spectrogram from the amplitude spectrogram of the teacher acoustic signal, and the learning unit bases the time region signal or complex spectrogram of the teacher acoustic signal on the amplitude spectrogram of the teacher acoustic signal. The generator that takes the time region signal or complex spectrogram as input and outputs the time region signal or complex spectrogram of the acoustic signal is the time region signal or complex spectrogram of the teacher acoustic signal, and the teacher acoustic signal by the input generator. Learning is performed so as to reduce the learning criterion indicating the magnitude of the error from the time region signal or complex spectrogram output by the generator by inputting the time region signal or complex spectrogram composed of the amplitude spectrogram.
第7の発明に係るプログラムは、上記の音響信号生成モデル学習装置または音響信号生成装置の各部としてコンピュータを機能させるためのプログラムである。 The program according to the seventh invention is a program for operating a computer as each part of the above-mentioned acoustic signal generation model learning device or acoustic signal generation device.
以上説明したように、本発明の音響信号生成モデル学習装置、方法、及びプログラムによれば、音響信号を高品質に生成する生成器を学習することができる、という効果が得られる。 As described above, according to the acoustic signal generation model learning device, method, and program of the present invention, it is possible to obtain an effect that a generator that generates an acoustic signal with high quality can be learned.
また、本発明の音響信号生成装置及びプログラムによれば、音響信号を高品質に生成することができる、という効果が得られる。 Further, according to the acoustic signal generator and the program of the present invention, the effect that the acoustic signal can be generated with high quality can be obtained.
以下、図面を参照して本発明の実施の形態を詳細に説明する。本発明で提案する技術は、振幅スペクトログラムから音響信号を生成することを目的とした音響信号生成技術である。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. The technique proposed in the present invention is an acoustic signal generation technique for the purpose of generating an acoustic signal from an amplitude spectrogram.
<本発明の実施の形態の概要>
本発明の実施の形態の特徴は以下の通りである。
<Outline of Embodiment of the present invention>
The features of the embodiments of the present invention are as follows.
時間領域信号(または複素スペクトログラム)とその振幅スペクトログラムのペアを教師データとして、振幅スペクトログラムから時間領域信号(または複素スペクトログラム)を再構成するプロセスをニューラルネットワーク(生成器)でモデル化し、信号再構成(または位相再構成)プロセスそのものを学習により決定する。 Using a pair of the time region signal (or complex spectrogram) and its amplitude spectrogram as training data, the process of reconstructing the time region signal (or complex spectrogram) from the amplitude spectrogram is modeled by a neural network (generator), and the signal reconstruction (generator) Or phase reconstruction) The process itself is determined by learning.
教師信号(または教師複素スペクトログラム)と生成器により生成された信号(または複素スペクトログラム)の誤差を学習規準とする。 The error between the teacher signal (or teacher complex spectrogram) and the signal (or complex spectrogram) generated by the generator is used as the learning criterion.
誤差の測り方の例は下記のとおりである。 An example of how to measure the error is as follows.
(手法1) 教師信号(または教師複素スペクトログラム)と生成器により生成された信号(または複素スペクトログラム)の要素ごとの誤差の総和を、学習規準とする。 (Method 1) The sum of the errors of the teacher signal (or teacher complex spectrogram) and the signal generated by the generator (or complex spectrogram) for each element is used as the learning criterion.
(手法2) 生成器により生成された信号か実データの信号かを識別する識別器の中間層の出力値間で測る誤差を学習規準とする。 (Method 2) The learning standard is the error measured between the output values of the intermediate layer of the classifier that distinguishes between the signal generated by the generator and the signal of the actual data.
期待される効果は以下のとおりである。 The expected effects are as follows.
Griffin-Lim 法より高速に音響信号を生成できる。また、Griffin-Lim 法より高品質な音響信号を生成できる。 The acoustic signal can be generated faster than the Griffin-Lim method. In addition, it is possible to generate a higher quality acoustic signal than the Griffin-Lim method.
[第1の実施の形態]
<提案手法1>
既存手法では、複素スペクトログラムが時間領域信号の冗長表現となっていることを手掛かりに振幅スペクトログラムのみから位相スペクトログラムを再構成することを可能にしている。これに対し本発明の実施に形態に係る方法では、振幅スペクトログラムから時間領域信号または複素スペクトログラムへの変換関数をニューラルネットワーク(Neural Network; NN) によりモデル化し、振幅スペクトログラムから時間領域信号または複素スペクトログラムのペアを教師データとしてニューラルネットワーク のパラメータを学習により決定する。生成処理のフローを図1に示す。学習が完了したニューラルネットワーク を用いることで、入力された振幅スペクトログラムに対して時間領域信号または複素スペクトログラムを得ることができる。
[First Embodiment]
<Proposed method 1>
The existing method makes it possible to reconstruct the phase spectrogram from only the amplitude spectrogram, using the fact that the complex spectrogram is a redundant representation of the time domain signal. On the other hand, in the method according to the embodiment of the present invention, the conversion function from the amplitude spectrogram to the time domain signal or the complex spectrogram is modeled by a neural network (NN), and the amplitude spectrogram to the time domain signal or the complex spectrogram is modeled. Neural network parameters are determined by learning using pairs as training data. The flow of the generation process is shown in FIG. By using the trained neural network, it is possible to obtain a time domain signal or a complex spectrogram for the input amplitude spectrogram.
<学習方法1>
まず、学習データとして、音声や楽曲などの音響信号またはSTFT やウェーブレット変換などにより得られるその複素スペクトログラムx を用意する。このデータに対して、STFT やウェーブレット変換を行い、振幅スペクトログラム(複素スペクトログラムの振幅成分)fa を得る。この振幅スペクトログラムfa を入力として、x が再構成されるようニューラルネットワーク を学習する。具体的には、振幅スペクトログラムfa を入力したニューラルネットワーク の出力を~x とすると、x と~x を何らかの距離指標を小さくするようにニューラルネットワーク のパラメータを最適化する。距離指標の例としては、最小二乗誤差などが挙げられる。最小二乗誤差を距離指標として用いる場合、目的関数L2 は以下の式で表される。
<Learning method 1>
First, as training data, prepare an acoustic signal such as voice or music, or its complex spectrogram x obtained by STFT or wavelet transform. For this data, performs STFT and wavelet transform, to obtain an amplitude spectrogram (amplitude component of the complex spectrogram) f a. Taking this amplitude spectrogram f a as an input, the neural network is trained so that x is reconstructed. Specifically, when the output of the neural network input amplitude spectrogram f a and ~ x, to optimize the parameters of the neural network so as to reduce some distance index x and ~ x. An example of a distance index is a least squares error. When the least squares error is used as a distance index, the objective function L2 is expressed by the following equation.
図2に、学習処理フローを示す。 FIG. 2 shows a learning processing flow.
<学習方法補足1>
生成器に特に制約がない場合、生成器が出力する時間領域信号または複素スペクトログラムから算出される振幅スペクトログラムは、入力の振幅スペクトログラムと完全に一致するとは限らない。そこで、生成器が出力する時間領域信号または複素スペクトログラムから算出される振幅スペクトログラムが入力振幅スペクトログラムと一致することを強制するため、生成器の最終層に、時間領域信号または複素スペクトログラムの振幅スペクトログラムを入力振幅スペクトログラムに置き換える演算に相当する層を追加しても良い。
<Learning method supplement 1>
Unless the generator is specifically constrained, the amplitude spectrogram calculated from the time domain signal or complex spectrogram output by the generator does not always exactly match the input amplitude spectrogram. Therefore, in order to force the amplitude spectrogram calculated from the time region signal or complex spectrogram output by the generator to match the input amplitude spectrogram, the amplitude spectrogram of the time region signal or complex spectrogram is input to the final layer of the generator. A layer corresponding to the operation to be replaced with the amplitude spectrogram may be added.
<学習方法補足2>
実数信号のフーリエ変換は実部が偶関数、虚部が奇関数となるため、想定する時間周波数解析の方法によってはその対称性を利用することもできる。例えば、STFTのフレーム長を1024点とすると、得られる複素スペクトログラムの周波数ビン数は負の周波数も含めれば1024となるが、対称性を利用すれば、0からナイキスト周波数までの周波数に対応する513 点のみの情報さえあれば時間領域信号を構成するのに十分である。よって、生成器の出力を複素スペクトログラムとする場合、一部の周波数ビンに対応する複素スペクトログラムを出力としても良い。
<
Since the Fourier transform of a real number signal has an even function in the real part and an odd function in the imaginary part, its symmetry can be used depending on the assumed time-frequency analysis method. For example, if the frame length of the STFT is 1024 points, the number of frequency bins of the obtained complex spectrogram will be 1024 including negative frequencies, but if symmetry is used, it corresponds to the frequency from 0 to the Nyquist frequency 513. Only point information is sufficient to construct a time domain signal. Therefore, when the output of the generator is a complex spectrogram, the complex spectrogram corresponding to some frequency bins may be used as the output.
<生成方法>
学習が完了したニューラルネットワークに任意の振幅スペクトログラム系列faを入力することにより再構成信号または再構成複素スペクトログラム~x を得ることができる。
<Generation method>
It is possible to obtain a reconstructed signal or reconstructed complex spectrogram ~ x by inputting arbitrary amplitude spectrogram series f a neural network learning is completed.
<生成方法補足1>
生成器が出力する時間領域信号または複素スペクトログラムから算出される振幅スペクトログラムは、入力の振幅スペクトログラムと完全に一致するとは限らない。そこで、生成器から出力される時間領域信号または複素スペクトログラムの振幅スペクトログラムを入力振幅スペクトログラムに置き換えた上で時間領域信号を再計算する処理を追加しても良い。
<Generation method supplement 1>
The amplitude spectrogram calculated from the time domain signal or complex spectrogram output by the generator does not always exactly match the input amplitude spectrogram. Therefore, a process of recalculating the time domain signal after replacing the amplitude spectrogram of the time domain signal or the complex spectrogram output from the generator with the input amplitude spectrogram may be added.
<生成方法補足2>
学習方法補足2と同様に、想定する時間周波数解析の方法によって、その対称性を利用することもできる。
<
Similar to the
<システム構成>
<音響信号生成モデル学習装置の構成>
次に、音響信号を生成するためのニューラルネットワークである生成器を学習する音響信号生成モデル学習装置、及び学習された生成器を用いて音響信号を生成する音響信号生成装置に、本発明を適用した場合を例にして、本発明の実施の形態を説明する。
<System configuration>
<Configuration of acoustic signal generation model learning device>
Next, the present invention is applied to an acoustic signal generation model learning device that learns a generator that is a neural network for generating an acoustic signal, and an acoustic signal generator that generates an acoustic signal using the learned generator. An embodiment of the present invention will be described by taking the above case as an example.
図3に示すように、第1の実施の形態に係る音響信号生成モデル学習装置100は、CPUと、RAMと、後述する学習処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
As shown in FIG. 3, the acoustic signal generation
図3に示すように、音響信号生成モデル学習装置100は、入力部10と、演算部20と、出力部50とを備えている。
As shown in FIG. 3, the acoustic signal generation
入力部10は、教師音響信号の時間領域信号又は複素スペクトログラムと教師音響信号の振幅スペクトログラムとのペアを受け付ける。
The
演算部20は、学習部24を備えている。
The
学習部24は、教師音響信号の時間領域信号又は複素スペクトログラムと教師音響信号の振幅スペクトログラムとのペアに基づいて、振幅スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する生成器を、教師音響信号の時間領域信号又は複素スペクトログラムと、教師音響信号の振幅スペクトログラムを入力として生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように学習する。
The
学習規準は、例えば、教師音響信号の時間領域信号又は複素スペクトログラムと、教師音響信号の振幅スペクトログラムを入力として生成器により出力される時間領域信号又は複素スペクトログラムとの要素毎の誤差の総和を表す。 The learning criterion represents, for example, the sum of the elements of the time domain signal or complex spectrogram of the teacher acoustic signal and the time domain signal or complex spectrogram output by the generator with the amplitude spectrogram of the teacher acoustic signal as input.
学習部24により学習された生成器のパラメータが、出力部50により出力される。
The parameters of the generator learned by the
<音響信号生成装置の構成>
図4に示すように、第1の実施の形態に係る音響信号生成装置150は、CPUと、RAMと、後述する音響信号生成処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
<Configuration of acoustic signal generator>
As shown in FIG. 4, the acoustic
図4に示すように、音響信号生成装置150は、入力部60と、演算部70と、出力部90とを備えている。
As shown in FIG. 4, the acoustic
入力部60は、振幅スペクトログラムを受け付ける。 The input unit 60 receives the amplitude spectrogram.
演算部70は、生成部76を備えている。
The
生成部76は、音響信号生成モデル学習装置100により学習された、音響信号を生成するためのニューラルネットワークである生成器を用いて、入力された振幅スペクトログラムから、音響信号の時間領域信号又は複素スペクトログラムを生成し、出力部90により出力する。
The
<音響信号生成モデル学習装置の作用>
次に、第1の実施の形態に係る音響信号生成モデル学習装置100の作用について説明する。まず、教師音響信号の時間領域信号又は複素スペクトログラムと教師音響信号の振幅スペクトログラムとのペアが、音響信号生成モデル学習装置100に入力されると、音響信号生成モデル学習装置100において、学習処理ルーチンが実行される。学習処理ルーチンでは、学習部24が、教師音響信号の時間領域信号又は複素スペクトログラムと前記教師音響信号の振幅スペクトログラムとのペアに基づいて、生成器を学習する。そして、学習された生成器のパラメータが、出力部50により出力される。
<Operation of acoustic signal generation model learning device>
Next, the operation of the acoustic signal generation
<音響信号生成装置の作用>
次に、第1の実施の形態に係る音響信号生成装置150の作用について説明する。まず、音響信号生成モデル学習装置100によって学習された生成器のパラメータが、音響信号生成装置150に入力される。また、振幅スペクトログラムが、音響信号生成装置150に入力されると、音響信号生成装置150において、音響信号生成処理ルーチンが実行される。音響信号生成処理ルーチンでは、生成部76が、生成器を用いて、入力された振幅スペクトログラムから、音響信号の時間領域信号又は複素スペクトログラムを生成し、出力部90により出力する。
<Action of acoustic signal generator>
Next, the operation of the acoustic
以上説明したように、第1の実施の形態に係る音響信号生成モデル学習装置によれば、教師音響信号の時間領域信号又は複素スペクトログラムと教師音響信号の振幅スペクトログラムとのペアに基づいて、振幅スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力するニューラルネットワークである生成器を、教師音響信号の時間領域信号又は複素スペクトログラムと、教師音響信号の振幅スペクトログラムを入力として生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように学習することにより、音響信号を高品質に生成する生成器を学習することができる。 As described above, according to the acoustic signal generation model learning apparatus according to the first embodiment, the amplitude spectrogram is based on the time region signal or the complex spectrogram of the teacher acoustic signal and the amplitude spectrogram of the teacher acoustic signal. Is output by the generator as a neural network that outputs the time region signal or complex spectrogram of the acoustic signal, and the time region signal or complex spectrogram of the teacher acoustic signal and the amplitude spectrogram of the teacher acoustic signal as inputs. By learning to reduce the learning criteria that represent the magnitude of the error from the time region signal or the complex spectrogram, it is possible to learn a generator that produces an acoustic signal with high quality.
また、第1の実施の形態に係る音響信号生成装置によれば、教師音響信号の時間領域信号又は複素スペクトログラムと、教師音響信号の振幅スペクトログラムを入力として生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように予め学習された、振幅スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する生成器を用いることにより、音響信号を高品質に生成することができる。 Further, according to the acoustic signal generator according to the first embodiment, the time region signal or complex spectrogram of the teacher acoustic signal and the time region signal or complex spectrogram output by the generator with the amplitude spectrogram of the teacher acoustic signal as inputs. Higher acoustic signals by using a generator that takes an amplitude spectrogram as input and outputs a time region signal or complex spectrogram of the acoustic signal, which has been trained in advance to reduce the learning criteria that represent the magnitude of the error from the spectrogram. Can be produced to quality.
[第2の実施の形態]
次に、第2の実施の形態について説明する。なお、第2の実施の形態に係る音響信号生成モデル学習装置及び音響信号生成装置の構成は、第1の実施の形態と同様の構成となるため、同一符号を付して説明を省略する。
[Second Embodiment]
Next, the second embodiment will be described. Since the configurations of the acoustic signal generation model learning device and the acoustic signal generation device according to the second embodiment are the same as those of the first embodiment, the same reference numerals are given and the description thereof will be omitted.
<提案手法2>
上記提案手法1では、時間領域信号間または複素スペクトログラム間の要素ごとの誤差の総和を学習規準としたが、このような規準を用いた場合、ターゲットの時間領域信号または複素スペクトログラムに平均的にフィットするものを出力するよう生成器Gのパラメータが学習されることになる。このように学習された生成器Gからは、ランダムな成分が除去され、過剰に平滑化された時間領域信号または複素スペクトログラムしか生成されないようになる可能性が考えられる。実世界信号の多くは少なからずのランダム成分を含むものであり、ランダム成分が信号(または位相)再構成の過程で除去されることが再構成信号の聴感上の品質に限界を与える可能性がある。そこで、提案手法2では、生成器Gによる信号(または位相)再構成の過程で、実世界信号が本来もつ微細なランダム成分が失われないようにするため、提案手法1と異なる学習規準を用いて生成器G を学習する。具体的には、生成器Gにより生成された信号なのか実データの信号なのかを識別するニューラルネットワーク(以後、識別器D)を導入し、この識別器Dの中間層の出力値間で測る誤差を学習規準とする。提案手法2の処理のフローを図5に示す。
<
In the above proposed method 1, the sum of the errors for each element between the time domain signals or the complex spectrogram is used as the learning criterion, but when such a criterion is used, it fits the target time domain signal or the complex spectrogram on average. The parameters of the generator G will be learned to output what it does. It is possible that random components will be removed from the generator G learned in this way, resulting in the generation of only over-smoothed time domain signals or complex spectrograms. Many real-world signals contain a significant amount of random components, and the removal of random components during signal (or phase) reconstruction can limit the audible quality of the reconstructed signal. is there. Therefore, in the proposed
<学習方法>
図6に学習方法の処理フローを示す。まず、学習データとして、音声や楽曲などの音響信号またはSTFTやウェーブレット変換などにより得られるその複素スペクトログラムをベクトル化したものxを用意する。このデータに対して、STFT やウェーブレット変換を行い、振幅スペクトログラム(複素スペクトログラムの振幅成分)をベクトル化したものfa を得る。この振幅スペクトログラムfa とランダム源成分z を入力として、x が再構成されるよう生成器G を学習する。ここで、ランダム源成分z はある分布(例えば、一様分布) に従って生成した乱数ベクトルである。さらに、生成器G により生成された信号なのか実データの信号なのかを2クラス識別する(例えば0 か1 かを出力する)識別器D を導入し、これも生成器G と併せて学習する。振幅スペクトログラムfa とランダム源成分z を入力した生成器G の出力を~x とすると、x と~x を入力したときの識別器D の中間層におけるそれぞれの出力値の間で測る誤差を小さくするように生成器G のパラメータを学習する。一方、識別器D は、生成器G により生成された信号なのか実データの信号なのかを正しく識別するよう何らかの識別スコアを学習規準として学習する。
<Learning method>
FIG. 6 shows the processing flow of the learning method. First, as training data, a vectorized version x of an acoustic signal such as voice or music or its complex spectrogram obtained by STFT or wavelet transform is prepared. This data is subjected to STFT or wavelet transform to obtain a vectorized amplitude spectrogram (amplitude component of a complex spectrogram). Taking this amplitude spectrogram f a and the random source component z as inputs, we train the generator G so that x is reconstructed. Here, the random source component z is a random number vector generated according to a certain distribution (for example, uniform distribution). Furthermore, we introduce a classifier D that discriminates between two classes (for example, outputs 0 or 1) whether it is a signal generated by the generator G or a signal of actual data, and this is also learned together with the generator G. .. Assuming that the output of the generator G inputting the amplitude spectrogram f a and the random source component z is ~ x, the error measured between the output values in the intermediate layer of the classifier D when x and ~ x are input is small. Learn the parameters of generator G so that it does. On the other hand, the classifier D learns using some discriminant score as a learning criterion so as to correctly discriminate whether the signal is a signal generated by the generator G or a signal of actual data.
まず、式(2) のような規準を考える。式(2) において、G は生成器(Generator) を表し、D は識別器(Discriminator) を表す。この規準は、識別器D が入力の時間領域信号または複素スペクトログラムが実データなのか生成器G から生成されたものなのかを正しく識別できているかを表すクロスエントロピーと呼ぶ識別スコアを表す。よって、この規準をD に関して大きくすることは、識別器D が、入力の時間領域信号または複素スペクトログラムが実データなのか生成器G から生成されたものなのかを正しく識別できるようにすることを意味する。 First, consider the criteria such as equation (2). In equation (2), G stands for Generator and D stands for Discriminator. This criterion represents a discriminant score called cross-entropy, which indicates whether discriminator D is able to correctly discriminate whether the input time domain signal or complex spectrogram is real data or generated from generator G. Therefore, increasing this criterion with respect to D means that discriminator D can correctly discriminate whether the input time domain signal or complex spectrogram is real data or generated from generator G. To do.
一方、生成器G は、再構成した時間領域信号または複素スペクトログラムが、識別器D に(誤って)実データと識別されるように学習したい。これは上記規準をG に関して小さくすることにより達成される。加えて、生成器の出力~x がターゲットの信号x とできるだけ近くなるようにしたい。学習がある程度進んだ識別器D の中間層は、~x とx をできるだけ識別しやすいような(引き離すような)特徴量空間となっているはずのため、そのような空間で~x とx をできるだけ近づけることで、x との違いをより見分けられないような~x を得られるようになることが期待される。そこで、式(2) に加えて、~x とx の識別器D の中間層におけるそれぞれの出力値の誤差 Generator G, on the other hand, wants to learn that the reconstructed time domain signal or complex spectrogram is (incorrectly) identified by discriminator D as real data. This is achieved by reducing the above criteria with respect to G. In addition, we want the output ~ x of the generator to be as close as possible to the target signal x. The middle layer of discriminator D, which has been learned to some extent, should be a feature space that makes it as easy as possible to distinguish (separate) ~ x and x, so ~ x and x should be selected in such a space. It is expected that by getting as close as possible, it will be possible to obtain ~ x that makes the difference from x more indistinguishable. Therefore, in addition to Eq. (2), the error of each output value in the intermediate layer of the classifier D of ~ x and x.
を生成器G の学習規準として考える。ただし、Dh(・) は識別器D の第h層の出力値を表す。よって、D0(x) = x である。C(α,β)はαとβのベクトル間距離を表す関数であり、例えばp-ノルム As a learning criterion for generator G. However, D h (・) represents the output value of the h layer of the classifier D. Therefore, D 0 (x) = x. C (α, β) is a function that expresses the distance between the vectors of α and β, for example, the p-norm.
などが挙げられる。また、wh は非負の重み定数である。よって、第h層の出力値のみの距離を考慮する場合はwh′= 0 (h′≠h)とすれば良い。 And so on. Also, w h is a non-negative weight constant. Therefore, when considering the distance of only the output value of the hth layer, w h ′ = 0 (h ′ ≠ h) may be set.
以上より、識別器D に関しては
を、生成器G に関しては
をそれぞれ学習規準として識別器D と生成器G を競争させながら学習する。ただし、λは第二項の重みを表す定数で、0≦λ≦1 の範囲で適当に定めるものとする。
From the above, regarding the classifier D
For generator G
Are to be learned while competing the classifier D and the generator G, respectively, as learning criteria. However, λ is a constant representing the weight of the second term, and shall be appropriately determined within the range of 0 ≤ λ ≤ 1.
このように識別器と生成器を競争させることにより生成器を学習する方法論は、敵対的生成器(Generative Adversarial Network; GAN) と呼ばれる。本実施の形態はこの方法論を、以上のように信号(または位相)再構成問題に合った形に導入した点が新しい。式(2) に示した規準は、非特許文献2で提案されたものである。近年、GAN に関する研究は多岐に渡っており、非特許文献3や非特許文献4などを始めとして様々な改良が行われている。
The methodology for learning generators by competing discriminators and generators in this way is called Generative Adversarial Network (GAN). The present embodiment is new in that this methodology is introduced in a form suitable for the signal (or phase) reconstruction problem as described above. The criteria shown in equation (2) are those proposed in
[非特許文献2] Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, DavidWarde-Farley, Sherjil Ozairy, Aaron Courville and Yoshua Bengio: “Generative Adversarial Nets," arXiv:1406.2661, 2014. [Non-Patent Document 2] Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozairy, Aaron Courville and Yoshua Bengio: “Generative Adversarial Nets,” arXiv: 1406.2661, 2014.
[非特許文献3] MAO, Xudong, et al.: “Least squares generative adversarial networks," arXiv preprint ArXiv:1611.04076, 2016. [Non-Patent Document 3] MAO, Xudong, et al .: “Least squares generative adversarial networks,” arXiv preprint ArXiv: 1611.04076, 2016.
[非特許文献4] Martin Arjovsky, Soumith Chintala, and Leon Bottou: “Wasserstein GAN," arXiv preprint arXiv:1701.07875, 2017. [Non-Patent Document 4] Martin Arjovsky, Soumith Chintala, and Leon Bottou: “Wasserstein GAN,” arXiv preprint arXiv: 1701.07875, 2017.
本学習方法において設計すべき最適化関数として、式(2) に限る必要性はなく、非特許文献3や非特許文献4などで提案されているものを用いても良い。 As the optimization function to be designed in this learning method, it is not necessary to limit it to the equation (2), and those proposed in Non-Patent Document 3 and Non-Patent Document 4 may be used.
<学習方法補足1>
識別器D には、式(6) のように音声特徴量系列f′も入力させても良い。音声特徴量系列f′の例としては、声帯音源情報や振幅スペクトログラムなどが挙げられる。後者の場合はf′= faとなる。
<Learning method supplement 1>
The discriminator D may also input the voice feature sequence f'as in Eq. (6). Examples of the voice feature series f'include vocal cord sound source information and amplitude spectrogram. In the latter case, f ′ = f a .
<学習方法補足2>
本ニューラルネットワークを学習するときに、提案手法1を用いて、生成器Gを事前学習しても良い。
<
When learning this neural network, the generator G may be pre-learned by using the proposed method 1.
<学習方法補足3>
複素スペクトログラムにおいて、各周波数のフレーム間の位相差が同じであれば第一フレームの位相スペクトル(初期位相)が任意であったとしても、対応する時間領域信号は人間の聴覚的には同一と知覚されることが知られている。よって、人間にとって知覚できない違いを同一と見なすことにすれば、初期位相の任意性の分、それぞれの入力振幅スペクトログラムに対し正解となる時間領域信号または複素スペクトログラムは多数存在することになる。そこで、ターゲットの教師データを、それぞれの入力振幅スペクトログラムに対し初期位相を変えた時間領域信号または複素スペクトログラムを多数用意しても良い。
<Learning method supplement 3>
In a complex spectrogram, if the phase difference between frames of each frequency is the same, even if the phase spectrum (initial phase) of the first frame is arbitrary, the corresponding time domain signals are perceived as the same by human hearing. It is known to be done. Therefore, if the differences that cannot be perceived by humans are regarded as the same, there are many time domain signals or complex spectrograms that are correct for each input amplitude spectrogram due to the arbitraryness of the initial phase. Therefore, a large number of time domain signals or complex spectrograms in which the initial phase is changed for each input amplitude spectrogram may be prepared for the target teacher data.
<学習方法補足4>
生成器に特に制約がない場合、生成器が出力する時間領域信号または複素スペクトログラムから算出される振幅スペクトログラムは、入力の振幅スペクトログラムと完全に一致するとは限らない。そこで、生成器が出力する時間領域信号または複素スペクトログラムから算出される振幅スペクトログラムが入力振幅スペクトログラムと一致することを強制するため、生成器の最終層に、時間領域信号または複素スペクトログラムの振幅スペクトログラムを入力振幅スペクトログラムに置き換える演算に相当する層を追加しても良い。
<Learning method supplement 4>
Unless the generator is specifically constrained, the amplitude spectrogram calculated from the time domain signal or complex spectrogram output by the generator does not always exactly match the input amplitude spectrogram. Therefore, in order to force the amplitude spectrogram calculated from the time region signal or complex spectrogram output by the generator to match the input amplitude spectrogram, the amplitude spectrogram of the time region signal or complex spectrogram is input to the final layer of the generator. A layer corresponding to the operation to be replaced with the amplitude spectrogram may be added.
<学習方法補足5>
実数信号のフーリエ変換は実部が偶関数、虚部が奇関数となるため、想定する時間周波数解析の方法によってはその対称性を利用することもできる。例えば、STFTのフレーム長を1024点とすると、得られる複素スペクトログラムの周波数ビン数は負の周波数も含めれば1024となるが、対称性を利用すれば、0からナイキスト周波数までの周波数に対応する513点のみの情報さえあれば時間領域信号を構成するのに十分である。よって、生成器の出力を複素スペクトログラムとする場合、一部の周波数ビンに対応する複素スペクトログラムを出力としても良い。
<
Since the Fourier transform of a real number signal has an even function in the real part and an odd function in the imaginary part, its symmetry can be used depending on the assumed time-frequency analysis method. For example, if the frame length of the STFT is 1024 points, the number of frequency bins of the obtained complex spectrogram will be 1024 including negative frequencies, but if symmetry is used, it corresponds to the frequency from 0 to the Nyquist frequency 513. Only point information is sufficient to construct a time domain signal. Therefore, when the output of the generator is a complex spectrogram, the complex spectrogram corresponding to some frequency bins may be used as the output.
<学習方法補足6>
時間領域信号について、フーリエ変換を行って得られる複素スペクトログラムの位相成分に対して、 任意の値を足し合わせて新たな複素スペクトログラムを構築する。この新たな複素スペクトログラムを逆フーリエ変換で時間領域信号に変換しても、人間の聴覚的には元の時間領域信号と同一に知覚されることが知られている。この性質を利用して、学習方法補足3のように入力振幅スペクトログラムに対応する教師データ(時間領域信号ないし複素スペクトログラム) を多数用意しても良い。
<Learning method supplement 6>
A new complex spectrogram is constructed by adding arbitrary values to the phase components of the complex spectrogram obtained by performing the Fourier transform on the time domain signal. It is known that even if this new complex spectrogram is converted into a time domain signal by the inverse Fourier transform, it is perceived by human hearing as the same as the original time domain signal. Utilizing this property, a large number of teacher data (time domain signals or complex spectrograms) corresponding to the input amplitude spectrogram may be prepared as in Supplement 3 of the learning method.
<生成方法>
学習が完了したニューラルネットワークに任意の振幅スペクトログラム系列faを入力することにより再構成信号または再構成複素スペクトログラム~x を得ることができる。
<Generation method>
It is possible to obtain a reconstructed signal or reconstructed complex spectrogram ~ x by inputting arbitrary amplitude spectrogram series f a neural network learning is completed.
<生成方法補足1>
生成器が出力する時間領域信号または複素スペクトログラムから算出される振幅スペクトログラムは、入力の振幅スペクトログラムと完全に一致するとは限らない。そこで、生成器から出力される時間領域信号または複素スペクトログラムの振幅スペクトログラムを入力振幅スペクトログラムに置き換えた上で時間領域信号を再計算する処理を追加しても良い。
<Generation method supplement 1>
The amplitude spectrogram calculated from the time domain signal or complex spectrogram output by the generator does not always exactly match the input amplitude spectrogram. Therefore, a process of recalculating the time domain signal after replacing the amplitude spectrogram of the time domain signal or the complex spectrogram output from the generator with the input amplitude spectrogram may be added.
<生成方法補足2>
学習方法補足5と同様に、想定する時間周波数解析の方法によってはその対称性を利用することもできる。
<
Similar to the
<システム構成>
<音響信号生成モデル学習装置の構成>
第2の実施の形態に係る音響信号生成モデル学習装置100の学習部24は、教師音響信号の時間領域信号又は複素スペクトログラムと前記教師音響信号の振幅スペクトログラムとのペアに基づいて、振幅スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力するニューラルネットワークである生成器と、実データであるか否かを識別するためのニューラルネットワークである識別器とを、学習規準を小さくするように学習する。
<System configuration>
<Configuration of acoustic signal generation model learning device>
The
具体的には、学習規準は、教師音響信号の時間領域信号又は複素スペクトログラムを、識別器に入力したときの中間層の出力値と、教師音響信号の振幅スペクトログラムを入力として生成器により出力される時間領域信号又は複素スペクトログラムを、識別器に入力したときの中間層の出力値との誤差を表す。 Specifically, the learning criterion is output by the generator with the output value of the intermediate layer when the time region signal or complex spectrogram of the teacher acoustic signal is input to the classifier and the amplitude spectrogram of the teacher acoustic signal as inputs. Represents the error from the output value of the intermediate layer when a time region signal or complex spectrogram is input to the classifier.
学習部24により学習された生成器のパラメータが、出力部50により出力される。
The parameters of the generator learned by the
<音響信号生成装置の構成>
第2の実施の形態に係る音響信号生成装置150の生成部76は、音響信号生成モデル学習装置100により学習された、音響信号を生成するためのニューラルネットワークである生成器を用いて、入力された振幅スペクトログラムから、音響信号の時間領域信号又は複素スペクトログラムを生成し、出力部90により出力する。
<Configuration of acoustic signal generator>
The
なお、第2の実施の形態に係る音響信号生成モデル学習装置100及び音響信号生成装置150の他の構成及び作用については、第1の実施の形態と同様であるため、説明を省略する。
Since the other configurations and operations of the acoustic signal generation
以上説明したように、第2の実施の形態に係る音響信号生成モデル学習装置によれば、教師音響信号の時間領域信号又は複素スペクトログラムと教師音響信号の振幅スペクトログラムとのペアに基づいて、振幅スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力するニューラルネットワークである生成器、及び実データであるか否かを識別するためのニューラルネットワークである識別器を、教師音響信号の時間領域信号又は複素スペクトログラムを、識別器に入力したときの中間層の出力値と、教師音響信号の振幅スペクトログラムを入力として生成器により出力される時間領域信号又は複素スペクトログラムを、識別器に入力したときの中間層の出力値との誤差を表す学習規準を小さくするように学習することにより、音響信号を高品質に生成する生成器を学習することができる。 As described above, according to the acoustic signal generation model learning apparatus according to the second embodiment, the amplitude spectrogram is based on the time region signal or the complex spectrogram of the teacher acoustic signal and the amplitude spectrogram of the teacher acoustic signal. A generator that is a neural network that outputs a time region signal or complex spectrogram of an acoustic signal, and a classifier that is a neural network for discriminating whether or not it is actual data, in the time region of a teacher acoustic signal. When the output value of the intermediate layer when the signal or complex spectrogram is input to the discriminator and the time region signal or complex spectrogram output by the generator with the amplitude spectrogram of the teacher acoustic signal as the input are input to the discriminator. By learning so as to reduce the learning criterion representing the error from the output value of the intermediate layer, it is possible to learn a generator that generates an acoustic signal with high quality.
また、第2の実施の形態に係る音響信号生成装置によれば、教師音響信号の時間領域信号又は複素スペクトログラムを、識別器に入力したときの中間層の出力値と、教師音響信号の振幅スペクトログラムを入力として生成器により出力される時間領域信号又は複素スペクトログラムを、識別器に入力したときの中間層の出力値との誤差を表す学習規準を小さくするように予め学習された、振幅スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する生成器を用いることにより、音響信号を高品質に生成することができる。 Further, according to the acoustic signal generator according to the second embodiment, the output value of the intermediate layer when the time region signal or the complex spectrogram of the teacher acoustic signal is input to the classifier and the amplitude spectrogram of the teacher acoustic signal. Input an amplitude spectrogram pre-learned to reduce the learning criteria that represent the error between the time region signal or complex spectrogram output by the generator as input and the output value of the middle layer when input to the classifier. By using a generator that outputs a time region signal or a complex spectrogram of the acoustic signal, the acoustic signal can be generated with high quality.
[第3の実施の形態]
次に、第3の実施の形態について説明する。なお、第1の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。
[Third Embodiment]
Next, a third embodiment will be described. The parts having the same configuration as that of the first embodiment are designated by the same reference numerals and the description thereof will be omitted.
<提案手法3>
提案手法1、2では振幅スペクトログラムとランダム源成分を生成器の入力としていたが、提案手法3では入力振幅スペクトログラムと何らかの方法で生成した位相スペクトログラムを用いて構成される時間領域信号または複素スペクトログラムを生成器の入力とする。入力の時間領域信号または複素スペクトログラムは、入力振幅スペクトログラムとランダムに生成した位相スペクトログラムから構成しても良いし、Griffin-Lim法を適用することにより得たものを用いても良い。ただし、Griffin-Lim 法を用いる場合、アルゴリズムの反復回数を増やすと生成器の入力を算出する段階で計算時間がかかってしまう。従って、その場合には例えば反復回数を5回程度とする。図7に提案手法3の処理フローを示す。
<Proposed method 3>
In the proposed
<学習方法>
振幅スペクトログラムとランダム源成分を生成器の入力とするのではなく、入力振幅スペクトログラムと何らかの方法で生成した位相スペクトログラムを用いて構成される時間領域信号または複素スペクトログラムを生成器の入力とする点以外は、上記第2の実施の形態で説明した提案手法2の学習方法、学習方法補足1〜6と同様である。
<Learning method>
Except for the fact that instead of taking the amplitude spectrogram and the random source component as the generator input, the time domain signal or complex spectrogram constructed using the input amplitude spectrogram and the phase spectrogram generated in some way is taken as the generator input. , The same as the learning method and learning method supplements 1 to 6 of the proposed
<学習方法補足>
生成器に入力する位相スペクトログラムをランダム生成する際、あるフレームの位相スペクトルは固定しても良い。音響信号の位相成分について考えると、ある瞬間にどのような位相をもっているべきかは絶対的に決まるものではなく、前後の信号の位相との相対的な関係性からどのような位相をもつべきかは決まる。この性質を利用し、位相をランダムサンプリングする時に、例えば1 フレーム目の位相成分だけ固定しておくと、生成器は2 フレーム目以降の位相を再構成するにあたり1 フレーム目の位相成分との相対的な関係性を学習するだけで良いので効率的に学習が進む可能性がある。
<Supplementary learning method>
When randomly generating a phase spectrogram to be input to the generator, the phase spectrum of a certain frame may be fixed. Considering the phase component of an acoustic signal, what kind of phase should be held at a certain moment is not absolutely determined, but what kind of phase should be held from the relative relationship with the phases of the preceding and following signals. Is decided. Using this property, when random sampling of the phase, for example, if only the phase component of the first frame is fixed, the generator will reconstruct the phase of the second and subsequent frames relative to the phase component of the first frame. There is a possibility that learning will proceed efficiently because it is only necessary to learn the specific relationships.
<生成方法>
振幅スペクトログラムとランダム源成分を生成器の入力とするのではなく、入力振幅スペクトログラムと何らかの方法で生成した位相スペクトログラムを用いて構成される時間領域信号または複素スペクトログラムを生成器の入力とする点以外は、上記第2の実施の形態で説明した提案手法2の生成方法、生成方法補足1〜2と同様である。
<Generation method>
Except for the fact that instead of taking the amplitude spectrogram and the random source component as the generator input, the time domain signal or complex spectrogram constructed using the input amplitude spectrogram and the phase spectrogram generated in some way is taken as the generator input. , The generation method of the proposed
<システム構成>
<音響信号生成モデル学習装置の構成>
図8に示すように、第3の実施の形態に係る音響信号生成モデル学習装置100は、入力部10と、演算部320と、出力部50とを備えている。
<System configuration>
<Configuration of acoustic signal generation model learning device>
As shown in FIG. 8, the acoustic signal generation
入力部10は、教師音響信号の時間領域信号又は複素スペクトログラムと教師音響信号の振幅スペクトログラムとのペアを受け付ける。
The
演算部320は、入力生成部322と、学習部324とを備えている。
The
入力生成部322は、教師音響信号の振幅スペクトログラムから、時間領域信号又は複素スペクトログラムを構成する。例えば、入力振幅スペクトログラムと何らかの方法で生成した位相スペクトログラムを用いて、Griffin-Lim 法により、時間領域信号または複素スペクトログラムを構成する。
The
学習部324は、教師音響信号の時間領域信号又は複素スペクトログラムと教師音響信号の振幅スペクトログラムとのペアに基づいて、時間領域信号又は複素スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する生成器と、実データであるか否かを識別するためのニューラルネットワークである識別器とを、学習規準を小さくするように学習する。
The
学習規準は、例えば、教師音響信号の時間領域信号又は複素スペクトログラムを、識別器に入力したときの中間層の出力値と、入力生成部322により教師音響信号の振幅スペクトログラムから構成された時間領域信号又は複素スペクトログラムを入力として生成器により出力される時間領域信号又は複素スペクトログラムを、識別器に入力したときの中間層の出力値との誤差を表す。
The learning criterion is, for example, a time region signal composed of an output value of the intermediate layer when a time region signal or a complex spectrogram of the teacher acoustic signal is input to the classifier and an amplitude spectrogram of the teacher acoustic signal by the
学習部24により学習された生成器のパラメータが、出力部50により出力される。
The parameters of the generator learned by the
<音響信号生成装置の構成>
図9に示すように、第3の実施の形態に係る音響信号生成装置350は、入力部60と、演算部370と、出力部90とを備えている。
<Configuration of acoustic signal generator>
As shown in FIG. 9, the acoustic
入力部60は、振幅スペクトログラムを受け付ける。 The input unit 60 receives the amplitude spectrogram.
演算部370は、入力生成部372及び生成部376を備えている。
The
入力生成部372は、入力された振幅スペクトログラムから、時間領域信号又は複素スペクトログラムを構成する。
The
生成部376は、音響信号生成モデル学習装置300により学習された生成器を用いて、入力生成部372により構成された時間領域信号又は複素スペクトログラムから、音響信号の時間領域信号又は複素スペクトログラムを生成し、出力部90により出力する。
The
<音響信号生成モデル学習装置の作用>
次に、第3の実施の形態に係る音響信号生成モデル学習装置300の作用について説明する。まず、教師音響信号の時間領域信号又は複素スペクトログラムと教師音響信号の振幅スペクトログラムとのペアが、音響信号生成モデル学習装置300に入力されると、音響信号生成モデル学習装置300において、図10に示す学習処理ルーチンが実行される。
<Operation of acoustic signal generation model learning device>
Next, the operation of the acoustic signal generation
まず、ステップS300において、入力生成部322は、教師音響信号の振幅スペクトログラムから、時間領域信号又は複素スペクトログラムを構成する。
First, in step S300, the
そして、ステップS302において、学習部324は、教師音響信号の時間領域信号又は複素スペクトログラムと教師音響信号の振幅スペクトログラムとのペアに基づいて、生成器と識別器とを、学習規準を小さくするように学習する。そして、学習された生成器のパラメータが、出力部50により出力される。
Then, in step S302, the
<音響信号生成装置の作用>
次に、第3の実施の形態に係る音響信号生成装置350の作用について説明する。まず、音響信号生成モデル学習装置300によって学習された生成器のパラメータが、音響信号生成装置350に入力される。また、振幅スペクトログラムが、音響信号生成装置350に入力されると、音響信号生成装置150において、図11に示す音響信号生成処理ルーチンが実行される。
<Action of acoustic signal generator>
Next, the operation of the acoustic
まず、ステップS310において、入力生成部372は、入力された振幅スペクトログラムから、時間領域信号又は複素スペクトログラムを構成する。
First, in step S310, the
ステップS312では、生成部376が、音響信号生成モデル学習装置300により学習された生成器を用いて、上記ステップS310で構成された時間領域信号又は複素スペクトログラムから、音響信号の時間領域信号又は複素スペクトログラムを生成し、出力部90により出力する。
In step S312, the
以上説明したように、第3の実施の形態に係る音響信号生成モデル学習装置によれば、教師音響信号の時間領域信号又は複素スペクトログラムと教師音響信号の振幅スペクトログラムとのペアに基づいて、時間領域信号又は複素スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力するニューラルネットワークである生成器、及び実データであるか否かを識別するためのニューラルネットワークである識別器を、教師音響信号の時間領域信号又は複素スペクトログラムから構成された、時間領域信号又は複素スペクトログラムを、識別器に入力したときの中間層の出力値と、教師音響信号の振幅スペクトログラムから構成された、時間領域信号又は複素スペクトログラムを入力として生成器により出力される時間領域信号又は複素スペクトログラムを、識別器に入力したときの中間層の出力値との誤差を表す学習規準を小さくするように学習することにより、音響信号を高品質に生成する生成器を学習することができる。 As described above, according to the acoustic signal generation model learning apparatus according to the third embodiment, the time region is based on the time region signal of the teacher acoustic signal or the pair of the complex spectrogram and the amplitude spectrogram of the teacher acoustic signal. A teacher sound is a generator that is a neural network that takes a signal or a complex spectrogram as an input and outputs a time region signal or a complex spectrogram of an acoustic signal, and a classifier that is a neural network for discriminating whether or not it is real data. The output value of the intermediate layer when the time region signal or complex spectrogram composed of the time region signal or complex spectrogram of the signal is input to the classifier, and the time region signal or complex spectrogram composed of the amplitude spectrogram of the teacher acoustic signal. An acoustic signal by learning a time region signal or complex spectrogram output by the generator with the complex spectrogram as input to reduce the learning criteria that represent the error from the output value of the middle layer when input to the classifier. You can learn the generator that produces high quality.
また、第3の実施の形態に係る音響信号生成装置によれば、教師音響信号の時間領域信号又は複素スペクトログラムから構成された、時間領域信号又は複素スペクトログラムを、識別器に入力したときの中間層の出力値と、教師音響信号の振幅スペクトログラムから構成された、時間領域信号又は複素スペクトログラムを入力として生成器により出力される時間領域信号又は複素スペクトログラムを、識別器に入力したときの中間層の出力値との誤差を表す学習規準を小さくするように予め学習された生成器を用いることにより、音響信号を高品質に生成することができる。 Further, according to the acoustic signal generator according to the third embodiment, the intermediate layer when the time region signal or the complex spectrogram composed of the time region signal or the complex spectrogram of the teacher acoustic signal is input to the classifier. Output value of, and the output of the intermediate layer when the time region signal or complex spectrogram output by the generator with the time region signal or complex spectrogram composed of the amplitude spectrogram of the teacher acoustic signal is input to the discriminator. By using a generator trained in advance so as to reduce the learning criterion representing the error from the value, it is possible to generate an acoustic signal with high quality.
<実験>
本発明の第3の実施の形態で説明した提案手法3の有効性を示すために、一実現方法を用いて、実験を行った。
<Experiment>
In order to show the effectiveness of the proposed method 3 described in the third embodiment of the present invention, an experiment was conducted using one realization method.
<実験設定(品質に関して)>
<ニューラルネットワークの概要>
実験用のデータセットとして、非特許文献5を利用した。このデータセットには、ノイズを含んだ音声データとノイズを含まない音声データが存在するが、本実験ではノイズを含まない音声データのみを用いた。訓練データとテストデータは、すでにデータセット内で分割されているので、そのまま訓練用とテスト用として用いた。なお、音声信号のサンプリング周波数は16kHz とした。ただし、学習時は音声データを0.5 秒の重複を持たせつつ1 秒ごとに切り分けた。
<Experimental settings (with respect to quality)>
<Overview of neural network>
[非特許文献5] Cassia Valentini-Botinhao: “Noisy speech database for training speech enhancement algorithms and TTS models," [dataset]. University of Edinburgh. School of Informatics. Centre for Speech Technology Research (CSTR). http://dx.doi.org/10.7488/ds/1356. [Non-Patent Document 5] Cassia Valentini-Botinhao: “Noisy speech database for training speech enhancement algorithms and TTS models,” [dataset]. University of Edinburgh. School of Informatics. Center for Speech Technology Research (CSTR). Http: // dx.doi.org/10.7488/ds/1356.
提案手法3では、生成器(図7参照)の入力として、振幅スペクトログラムfa と乱数で与えられる位相成分z を用いて構成した複素スペクトログラムないし音響信号を用いている。本実験では、これらのうち複素スペクトログラムx′を用いた。生成器の出力は複素スペクトログラム^x とした。ただし、上記第2の実施の形態の学習方法補足5で述べた複素スペクトログラムの対称性を利用した。また、識別器(図6参照) の入力としては、音響信号xを用いた。ここで、識別器は音響信号を入力とし、生成器は複素スペクトログラムを出力としているため、生成器が出力する複素スペクトログラム^x に対して逆STFT を適用し音響信号~x に変換してから識別器に与えた。つまり、識別器は音響信号としての本物らしさを基準に、真のデータx と生成器の出力を逆STFT で変換した~x を分類すること目的とし、生成器は音響信号に変換した時に本物らしい複素スペクトログラムを生成することを目的とする。
In the proposed method 3, a complex spectrogram or an acoustic signal constructed by using an amplitude spectrogram fa and a phase component z given by a random number is used as an input of the generator (see FIG. 7). Of these, the complex spectrogram x'was used in this experiment. The output of the generator is a complex spectrogram ^ x. However, the symmetry of the complex spectrogram described in
<データの前処理>
ここでニューラルネットワークの学習に際して行った前処理について述べる。まず、音声データに対してSTFTを適用して、複素スペクトログラムに変換した。この時、フーリエ変換の窓幅は1024 点、シフト幅は512点、窓関数はブラックマン窓とした。次に、複素スペクトログラムの絶対値をとることで、振幅スペクトログラムを抽出した。また、音声データから変換された複素スペクトログラムについて、時系列方向に周波数方向の各次元の平均と分散を求めておく。この平均と分散は、学習および生成時に用いる。
<Data preprocessing>
Here, the preprocessing performed when learning the neural network will be described. First, STFT was applied to the speech data and converted into a complex spectrogram. At this time, the window width of the Fourier transform was 1024 points, the shift width was 512 points, and the window function was a Blackman window. Next, the amplitude spectrogram was extracted by taking the absolute value of the complex spectrogram. In addition, for the complex spectrogram converted from the voice data, the average and variance of each dimension in the frequency direction in the time series direction are obtained. This mean and variance are used during training and generation.
<学習方法>
次に、生成器に入力する複素スペクトログラムの構築を考える。前述のようにして得た振幅スペクトログラムに、反復回数を5回としたGriffin-Lim 法を適用し、生成器に入力する複素スペクトログラムを構築した。ただし、この複素スペクトログラムの構築は、学習と並行して行った。つまり、生成器に複素スペクトログラムを入力する時に毎回、Griffin-Lim 法により振幅スペクトログラムから複素スペクトログラムを構築した。このとき、Griffin-Lim 法で用いる位相成分の初期値は毎回一様分布からランダムサンプリングした。
<Learning method>
Next, consider the construction of a complex spectrogram to be input to the generator. The Griffin-Lim method with 5 iterations was applied to the amplitude spectrogram obtained as described above to construct a complex spectrogram to be input to the generator. However, the construction of this complex spectrogram was done in parallel with the learning. That is, every time a complex spectrogram was input to the generator, the complex spectrogram was constructed from the amplitude spectrogram by the Griffin-Lim method. At this time, the initial values of the phase components used in the Griffin-Lim method were randomly sampled from a uniform distribution each time.
また、構築した複素スペクトログラムを生成器に入力する時、データの前処理で求めた平均と分散を用いて、複素スペクトログラムの正規化を行う。ここで適用する正規化とは、データの平均が0、分散が1 になるような手法をさす。生成器に入力する複素スペクトログラムを構築する時に位相成分をランダムサンプリングするが、上記第3の実施の形態で説明した学習方法補足を適用して、1フレーム目の位相は固定した。 In addition, when the constructed complex spectrogram is input to the generator, the complex spectrogram is normalized using the mean and variance obtained in the data preprocessing. The normalization applied here refers to a method in which the mean of the data is 0 and the variance is 1. The phase components were randomly sampled when constructing the complex spectrogram to be input to the generator, but the phase of the first frame was fixed by applying the learning method supplement described in the third embodiment above.
なお、1 フレーム目の位相を固定するために、真の音声信号から得られる位相を用いた。 In order to fix the phase of the first frame, the phase obtained from the true audio signal was used.
生成器の出力について、上記第2の実施の形態で説明した学習方法補足4を適用した。つまり、生成器が出力した複素スペクトログラムの振幅成分を、生成器に入力した複素スペクトログラムの振幅成分に置き換える処理を適用した。なお、生成器へ入力された複素スペクトログラムは正規化が適用されているので、生成器が出力する複素スペクトログラムに対して、スケールを元に戻す処理を適用した。 For the output of the generator, the learning method supplement 4 described in the second embodiment was applied. That is, a process was applied in which the amplitude component of the complex spectrogram output by the generator was replaced with the amplitude component of the complex spectrogram input to the generator. Since the complex spectrogram input to the generator is normalized, the process of restoring the scale was applied to the complex spectrogram output by the generator.
識別器に入力する真の音声信号については、上記第2の実施の形態で説明した学習方法補足6を適用して位相の異なる音声信号を多数構築し、与えた。また、識別器に音声信号を与えるとき、16384 で割ったものを与えた。 As for the true audio signal to be input to the classifier, a large number of audio signals having different phases were constructed and given by applying the learning method supplement 6 described in the second embodiment. Also, when giving an audio signal to the classifier, it was divided by 16384.
生成器と識別器を競争させながら最適化を行う目的関数
としては、非特許文献3で提案されたものを用いた。また、識別器の中間層におけるターゲットの信号x と生成器が生成した信号~x の距離に関する学習規準
について、距離尺度はL2 ノルムを用いて、重み定数whはwh≠0=1、w0= 0とした。また、上記第2の実施の形態で説明した学習方法補足1にあるように、識別器には真のデータないし再構成されたデータと共に、音響特徴量系列f′を与えた。音響特徴量系列としては、振幅スペクトログラムfa を用いた。
Objective function that optimizes while competing generator and classifier
As, the one proposed in Non-Patent Document 3 was used. Also, a learning criterion for the distance between the target signal x and the generator-generated signal ~ x in the middle layer of the classifier.
As for the distance scale, the L2 norm was used, and the weight constant w h was set to w h ≠ 0 = 1 and w 0 = 0. Further, as described in the learning method supplement 1 described in the second embodiment, the discriminator is given the acoustic feature sequence f'along with the true data or the reconstructed data. The acoustic feature sequence, using amplitude spectrogram f a.
<生成方法>
本実験における生成方法を図12に示す。なお、ニューラルネットワークに入力する複素スペクトログラムは前処理で求めた平均・分散を用いて正規化し、出力はスケールを元に戻す処理を適用している。また、学習時には1 フレーム目の位相を固定しているが、テスト時は位相成分全てをランダムサンプリングした。
<Generation method>
The generation method in this experiment is shown in FIG. The complex spectrogram input to the neural network is normalized using the mean / variance obtained in the preprocessing, and the output is processed to restore the scale. In addition, the phase of the first frame was fixed at the time of learning, but all the phase components were randomly sampled at the time of the test.
<ネットワーク構造>
図13に本実験で構築したニューラルネットワーク を示す。今回は、非特許文献6を参考にニューラルネットワーク を構築した。
<Network structure>
FIG. 13 shows the neural network constructed in this experiment. This time, a neural network was constructed with reference to Non-Patent Document 6.
[非特許文献6] Christian Ledig et al.: “Photo-realistic single image super-resolution using a generative adversarial network," arXiv preprint arXiv:1609.04802, 2016. [Non-Patent Document 6] Christian Ledig et al .: “Photo-realistic single image super-resolution using a generative adversarial network,” arXiv preprint arXiv: 1609.04802, 2016.
生成器に複素スペクトログラムを入力する時に、実部と虚部を分けて2 チャンネル化した。図の右上がり斜線で示される層は畳み込みニューラルネットワーク(Convolutional Neural Network; CNN) を表す。CNN の上に記述されている記号(例:2D k11 s1 c64) は、CNN のハイパーパラメータを表す。D は、畳み込み演算の際の次元を示す。二次元の畳み込み演算を行った時は2D と示してある。k は、カーネルの大きさを表す。例えば、2D かつk5 の時、カーネルのサイズは52= 25 である。1D かつk32 の時は、カーネルのサイズは321 = 32 である。s は、カーネルのストライド幅を示す。s1 はストライド幅が1 を示す。c はカーネルの数を表す。c64 は畳み込み演算に64 つのカーネルを用いたことを示す。次に、ドットの層は活性化関数を示す。生成器は全てPReLU を用い、識別器は全てLeaky ReLUを用いた。また、右下がり斜線で示される層は線型結合を表し、上についている数字は出力の次元を示す。特に記号がついていない層は、前の層と同じ設定にしている。本実験で用いたニューラルネットワーク の構造は、一例に過ぎない。
When inputting the complex spectrogram to the generator, the real part and the imaginary part were separated into two channels. The layer shown by the upward slash in the figure represents a convolutional neural network (CNN). The symbols written above the CNN (
<評価方法>
本実験では、評価方法としてAB テストを用いた。反復回数を400 回としたGriffin-Lim 法と提案手法3で再構成した音声データのペアをつくり、5 人の被験者に評価させた。また、1 人の被験者につき10 つのペア音声を与え、1 ペアごとにどちらの方が品質が高いかを質問した。この時、非特許文献5のテストデータを用いたが、2-5 秒の長さのデータのみを評価対象とした。
<Evaluation method>
In this experiment, the AB test was used as the evaluation method. A pair of voice data reconstructed by the Griffin-Lim method with 400 iterations and the proposed method 3 was created and evaluated by 5 subjects. We also gave 10 pairs of voices to each subject and asked each pair which one had the higher quality. At this time, the test data of
<評価結果>
図14に品質に関する主観的評価実験の結果を示す。本実験では、50 ペア(10 ペア/人× 5 人) のうち、約76% のペアについて反復回数を400 回としたGriffin-Lim 法よりも提案手法で位相を復元させた音声信号の方が、不快感がなく自然な音声に聞こえると評価された。よって、Griffin-Lim 法よりも提案手法3の方が、自然な音声が得られるように位相を復元できていることが示された。
<Evaluation result>
FIG. 14 shows the results of a subjective evaluation experiment on quality. In this experiment, out of 50 pairs (10 pairs / person x 5 people), the voice signal whose phase was restored by the proposed method was better than the Griffin-Lim method in which the number of iterations was 400 for about 76% of the pairs. , It was evaluated that it sounds natural without any discomfort. Therefore, it was shown that the proposed method 3 can restore the phase so that a natural sound can be obtained, rather than the Griffin-Lim method.
<実験設定(位相復元処理の速度について)>
<ニューラルネットワーク の概要>
ニューラルネットワーク の実装に関しては、品質に関する実験と同様の設定とした。
<Experimental setting (speed of phase restoration processing)>
<Overview of neural network>
Regarding the implementation of the neural network, the settings were the same as in the quality experiment.
<評価方法>
本実験では、提案手法3と非特許文献1で位相復元を行なった場合の、処理速度に関する比較を行う。以下の2 つの状況それぞれについて、比較をした。
<Evaluation method>
In this experiment, the processing speeds of the proposed method 3 and the non-patent document 1 when phase restoration is performed are compared. A comparison was made for each of the following two situations.
・1秒に切り分けたテストデータを1000 サンプル与え、1 サンプルあたりの位相復元にかかる時間
・テストデータを切り分けずに全サンプル与え、1 サンプルあたりの位相復元にかかる時間
・ 1000 samples of test data divided into 1 second are given, and the time required for phase restoration per sample ・ All samples are given without dividing the test data, and the time required for phase restoration per sample
また、提案手法3はGPU を用いた時と、CPU のみを用いた時のそれぞれについて処理時間を計測した。実験に用いた計算機のCPU モデルは"Intel(R) Core(TM) i7-6850K CPU @ 3.60GHz"であり、コア数は12、クロック周波数は3799.968[MHz] である。また、GPU はNVIDIA(R)社製の"GeForce GTX 1080"を用いた。 In addition, the proposed method 3 measured the processing time when using the GPU and when using only the CPU. The CPU model of the computer used in the experiment is "Intel (R) Core (TM) i7-6850K CPU @ 3.60GHz", the number of cores is 12, and the clock frequency is 3799.968 [MHz]. The GPU used was "GeForce GTX 1080" manufactured by NVIDIA (R).
<評価結果>
まず、1 秒の音声信号に関して位相復元にかかる時間について比較する。表1 は処理時間の平均値と標準偏差を示す。括弧の中の数字が標準偏差である。提案手法3をGPU 上で実行した時が最も処理速度が速く、既存手法をCPU 上で実行した時と比較して、約10 倍の速度で位相復元処理が行えている。
<Evaluation result>
First, we compare the time required for phase restoration for a 1-second audio signal. Table 1 shows the average processing time and standard deviation. The number in parentheses is the standard deviation. The processing speed is the fastest when the proposed method 3 is executed on the GPU, and the phase restoration processing is performed about 10 times faster than when the existing method is executed on the CPU.
次に、テストデータを切り分けずに各手法に与え、1 サンプルごとに処理にかかる時間を計測した。 Next, the test data was given to each method without being separated, and the processing time was measured for each sample.
図15に結果を示す。与える音声を1 秒に切り分けた時と同様、提案手法3をGPU 上で実行した時が最も処理速度が速かった。 The results are shown in FIG. The processing speed was the fastest when the proposed method 3 was executed on the GPU, as in the case where the given voice was divided into 1 second.
以上説明したように、本発明の実施の形態の手法を用いることによって、振幅スペクトログラムから時間領域信号(または複素スペクトログラム)を再構成するプロセスをニューラルネットワーク(生成器)でモデル化することができるようになる。これにより、Griffin-Lim 法よりも高速かつ高品質に、振幅スペクトログラムから音響信号を再構成できる。また、GAN を用いた手法では、実世界信号がもつランダム性を考慮しており、自然な音響信号が得られる。 As described above, by using the method of the embodiment of the present invention, the process of reconstructing a time domain signal (or complex spectrogram) from an amplitude spectrogram can be modeled by a neural network (generator). become. This allows the acoustic signal to be reconstructed from the amplitude spectrogram faster and with higher quality than the Griffin-Lim method. In addition, the method using GAN takes into consideration the randomness of real-world signals, and a natural acoustic signal can be obtained.
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。 The present invention is not limited to the above-described embodiment, and various modifications and applications are possible without departing from the gist of the present invention.
例えば、上述した実施形態では、音響信号生成モデル学習装置及び音響信号生成装置を別々の装置として構成しているが、一つの装置として構成してもよい。 For example, in the above-described embodiment, the acoustic signal generation model learning device and the acoustic signal generation device are configured as separate devices, but they may be configured as one device.
また、上述の音響信号生成モデル学習装置、音響信号生成装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。 Further, the above-mentioned acoustic signal generation model learning device and acoustic signal generation device have a computer system inside, but if the "computer system" is using the WWW system, the homepage providing environment ( Alternatively, the display environment) shall also be included.
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。 Further, although described as an embodiment in which the program is pre-installed in the specification of the present application, it is also possible to provide the program by storing it in a computer-readable recording medium.
10、60 入力部
20、70、320、370 演算部
24、324 学習部
50、90 出力部
76、376 生成部
100、300 音響信号生成モデル学習装置
150、350 音響信号生成装置
322、372 入力生成部
10, 60
Claims (8)
教師音響信号の時間領域信号又は複素スペクトログラムと前記教師音響信号の振幅スペクトログラムとのペアに基づいて、
振幅スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する前記生成器を、
前記教師音響信号の時間領域信号又は複素スペクトログラムと、前記教師音響信号の振幅スペクトログラムを入力として前記生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように学習する学習部
を含み、
前記学習規準は、教師音響信号の時間領域信号又は複素スペクトログラムを、実データであるか否かを識別するためのニューラルネットワークである識別器に入力したときの中間層の出力値と、前記教師音響信号の振幅スペクトログラムを入力として前記生成器により出力される時間領域信号又は複素スペクトログラムを、前記識別器に入力したときの中間層の出力値との誤差を表す音響信号生成モデル学習装置。 An acoustic signal generation model learning device that learns a generator that is a neural network for generating acoustic signals.
Based on the time domain signal or complex spectrogram of the teacher acoustic signal and the amplitude spectrogram of the teacher acoustic signal.
The generator that takes an amplitude spectrogram as an input and outputs a time domain signal or a complex spectrogram of an acoustic signal.
To reduce the learning criterion that represents the magnitude of the error between the time region signal or complex spectrogram of the teacher acoustic signal and the time region signal or complex spectrogram output by the generator with the amplitude spectrogram of the teacher acoustic signal as input. look including a learning section for learning,
The learning criteria are the output value of the intermediate layer when the time region signal or the complex spectrogram of the teacher acoustic signal is input to the classifier, which is a neural network for discriminating whether or not it is real data, and the teacher acoustic. An acoustic signal generation model learning device that represents an error between a time region signal or a complex spectrogram output by the generator with a signal amplitude spectrogram as an input and an output value of an intermediate layer when the spectrogram is input to the classifier.
教師音響信号の振幅スペクトログラムから、時間領域信号又は複素スペクトログラムを構成する入力生成部と、
教師音響信号の時間領域信号又は複素スペクトログラムと前記教師音響信号の振幅スペクトログラムとのペアに基づいて、
時間領域信号又は複素スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する前記生成器を、
前記教師音響信号の時間領域信号又は複素スペクトログラムと、前記入力生成部により前記教師音響信号の振幅スペクトログラムから構成された時間領域信号又は複素スペクトログラムを入力として前記生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように学習する学習部
を含む音響信号生成モデル学習装置。 An acoustic signal generation model learning device that learns a generator that is a neural network for generating acoustic signals.
From the amplitude spectrogram of the teacher acoustic signal, the input generator that composes the time domain signal or complex spectrogram,
Based on the time domain signal or complex spectrogram of the teacher acoustic signal and the amplitude spectrogram of the teacher acoustic signal.
The generator that takes a time domain signal or a complex spectrogram as an input and outputs a time domain signal or a complex spectrogram of an acoustic signal.
The time domain signal or complex spectrogram composed of the time domain signal or complex spectrogram of the teacher acoustic signal and the amplitude spectrogram of the teacher acoustic signal by the input generator is input and the time domain signal or complex is output by the generator. An acoustic signal generation model learning device that includes a learning unit that learns to reduce the learning criteria that represent the magnitude of the error from the spectrogram.
前記生成器は、
教師音響信号の時間領域信号又は複素スペクトログラムと前記教師音響信号の振幅スペクトログラムとのペアに基づいて、
前記教師音響信号の時間領域信号又は複素スペクトログラムと、前記教師音響信号の振幅スペクトログラムを入力として前記生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように予め学習された、
振幅スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する前記生成器であり、
前記学習規準は、教師音響信号の時間領域信号又は複素スペクトログラムを、実データであるか否かを識別するためのニューラルネットワークである識別器に入力したときの中間層の出力値と、前記教師音響信号の振幅スペクトログラムを入力として前記生成器により出力される時間領域信号又は複素スペクトログラムを、前記識別器に入力したときの中間層の出力値との誤差を表す音響信号生成装置。 It contains a generator that takes an amplitude spectrogram as an input and outputs a time domain signal or a complex spectrogram of the acoustic signal using a generator that is a neural network for generating an acoustic signal.
The generator
Based on the time domain signal or complex spectrogram of the teacher acoustic signal and the amplitude spectrogram of the teacher acoustic signal.
To reduce the learning criterion that represents the magnitude of the error between the time region signal or complex spectrogram of the teacher acoustic signal and the time region signal or complex spectrogram output by the generator with the amplitude spectrogram of the teacher acoustic signal as input. Pre-learned in
An input amplitude spectrogram, Ri said generator der to output a time domain signal or complex spectrogram of the acoustic signal,
The learning criteria are the output value of the intermediate layer when the time region signal or the complex spectrogram of the teacher acoustic signal is input to the classifier, which is a neural network for discriminating whether or not it is real data, and the teacher acoustic. An acoustic signal generator that represents an error between a time region signal or a complex spectrogram output by the generator with a signal amplitude spectrogram as an input and an output value of an intermediate layer when the spectrogram is input to the classifier.
音響信号を生成するためのニューラルネットワークである生成器を用いて、 前記入力生成部により構成された前記時間領域信号又は複素スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する生成部とを含み、
前記生成器は、
教師音響信号の時間領域信号又は複素スペクトログラムと前記教師音響信号の振幅スペクトログラムとのペアに基づいて、
前記教師音響信号の時間領域信号又は複素スペクトログラムと、前記教師音響信号の振幅スペクトログラムから構成された時間領域信号又は複素スペクトログラムを入力として前記生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように学習された、
時間領域信号又は複素スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する前記生成器である音響信号生成装置。 An input generator that composes a time domain signal or complex spectrogram from the input amplitude spectrogram,
Using a generator that is a neural network for generating acoustic signals, a generator that takes the time region signal or complex spectrogram configured by the input generator as an input and outputs the time region signal or complex spectrogram of the acoustic signal. Including and
The generator
Based on the time domain signal or complex spectrogram of the teacher acoustic signal and the amplitude spectrogram of the teacher acoustic signal.
The error between the time region signal or complex spectrogram of the teacher acoustic signal and the time region signal or complex spectrogram output by the generator with the time region signal or complex spectrogram composed of the amplitude spectrogram of the teacher acoustic signal as input. Learned to reduce the size learning criteria,
An acoustic signal generator that is a generator that takes a time domain signal or a complex spectrogram as an input and outputs a time domain signal or a complex spectrogram of an acoustic signal.
学習部が、教師音響信号の時間領域信号又は複素スペクトログラムと前記教師音響信号の振幅スペクトログラムとのペアに基づいて、
振幅スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する前記生成器を、
前記教師音響信号の時間領域信号又は複素スペクトログラムと、前記教師音響信号の振幅スペクトログラムを入力として前記生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように学習することを含み、
前記学習規準は、教師音響信号の時間領域信号又は複素スペクトログラムを、実データであるか否かを識別するためのニューラルネットワークである識別器に入力したときの中間層の出力値と、前記教師音響信号の振幅スペクトログラムを入力として前記生成器により出力される時間領域信号又は複素スペクトログラムを、前記識別器に入力したときの中間層の出力値との誤差を表す
音響信号生成モデル学習方法。 It is an acoustic signal generation model learning method in an acoustic signal generation model learning device that learns a generator which is a neural network for generating an acoustic signal.
The learning unit is based on a pair of a time domain signal or a complex spectrogram of the teacher acoustic signal and an amplitude spectrogram of the teacher acoustic signal.
The generator that takes an amplitude spectrogram as an input and outputs a time domain signal or a complex spectrogram of an acoustic signal.
To reduce the learning criterion that represents the magnitude of the error between the time region signal or complex spectrogram of the teacher acoustic signal and the time region signal or complex spectrogram output by the generator with the amplitude spectrogram of the teacher acoustic signal as input. Including learning to
The learning criteria are the output value of the intermediate layer when the time region signal or complex spectrogram of the teacher acoustic signal is input to the classifier, which is a neural network for discriminating whether or not it is real data, and the teacher acoustic. A method for learning an acoustic signal generation model that represents an error between a time region signal or a complex spectrogram output by the generator with a signal amplitude spectrogram as an input and an output value of an intermediate layer when the spectrogram is input to the classifier.
入力生成部が、教師音響信号の振幅スペクトログラムから、時間領域信号又は複素スペクトログラムを構成し、
学習部が、教師音響信号の時間領域信号又は複素スペクトログラムと前記教師音響信号の振幅スペクトログラムとのペアに基づいて、
時間領域信号又は複素スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する前記生成器を、
前記教師音響信号の時間領域信号又は複素スペクトログラムと、前記入力生成部により前記教師音響信号の振幅スペクトログラムから構成された時間領域信号又は複素スペクトログラムを入力として前記生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように学習する
音響信号生成モデル学習方法。 It is an acoustic signal generation model learning method in an acoustic signal generation model learning device that learns a generator which is a neural network for generating an acoustic signal.
The input generator constructs a time domain signal or a complex spectrogram from the amplitude spectrogram of the teacher acoustic signal.
The learning unit is based on a pair of a time domain signal or a complex spectrogram of the teacher acoustic signal and an amplitude spectrogram of the teacher acoustic signal.
The generator that takes a time domain signal or a complex spectrogram as an input and outputs a time domain signal or a complex spectrogram of an acoustic signal.
The time region signal or complex spectrogram composed of the time region signal or complex spectrogram of the teacher acoustic signal and the amplitude spectrogram of the teacher acoustic signal by the input generator is input and the time region signal or complex is output by the generator. An acoustic signal generation model learning method that learns to reduce the learning criteria that represent the magnitude of the error from the spectrogram.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018023296A JP6872197B2 (en) | 2018-02-13 | 2018-02-13 | Acoustic signal generation model learning device, acoustic signal generator, method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018023296A JP6872197B2 (en) | 2018-02-13 | 2018-02-13 | Acoustic signal generation model learning device, acoustic signal generator, method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019139102A JP2019139102A (en) | 2019-08-22 |
JP6872197B2 true JP6872197B2 (en) | 2021-05-19 |
Family
ID=67693841
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018023296A Active JP6872197B2 (en) | 2018-02-13 | 2018-02-13 | Acoustic signal generation model learning device, acoustic signal generator, method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6872197B2 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7120573B2 (en) * | 2019-01-30 | 2022-08-17 | 日本電信電話株式会社 | Estimation device, its method, and program |
GB2609021B (en) * | 2021-07-16 | 2024-04-17 | Sony Interactive Entertainment Europe Ltd | Audio generation methods and systems |
GB2609605B (en) * | 2021-07-16 | 2024-04-17 | Sony Interactive Entertainment Europe Ltd | Audio generation methods and systems |
GB2609019A (en) * | 2021-07-16 | 2023-01-25 | Sony Interactive Entertainment Europe Ltd | Audio generation methods and systems |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0566795A (en) * | 1991-09-06 | 1993-03-19 | Gijutsu Kenkyu Kumiai Iryo Fukushi Kiki Kenkyusho | Noise suppressing device and its adjustment device |
US9881631B2 (en) * | 2014-10-21 | 2018-01-30 | Mitsubishi Electric Research Laboratories, Inc. | Method for enhancing audio signal using phase information |
US10460747B2 (en) * | 2016-05-10 | 2019-10-29 | Google Llc | Frequency based audio analysis using neural networks |
-
2018
- 2018-02-13 JP JP2018023296A patent/JP6872197B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2019139102A (en) | 2019-08-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wu et al. | Vqvc+: One-shot voice conversion by vector quantization and u-net architecture | |
Bhavan et al. | Bagged support vector machines for emotion recognition from speech | |
JP6872197B2 (en) | Acoustic signal generation model learning device, acoustic signal generator, method, and program | |
CN112634920B (en) | Training method and device of voice conversion model based on domain separation | |
US20200066260A1 (en) | Signal generation device, signal generation system, signal generation method, and computer program product | |
Su et al. | Bandwidth extension is all you need | |
US10008218B2 (en) | Blind bandwidth extension using K-means and a support vector machine | |
Jang et al. | Universal melgan: A robust neural vocoder for high-fidelity waveform generation in multiple domains | |
Chen et al. | Generative adversarial networks for unpaired voice transformation on impaired speech | |
US20230282202A1 (en) | Audio generator and methods for generating an audio signal and training an audio generator | |
JP7356005B2 (en) | Voice conversion device, voice conversion learning device, voice conversion method, voice conversion learning method, and computer program | |
US20230326476A1 (en) | Bandwidth extension and speech enhancement of audio | |
Mishra et al. | Variational mode decomposition based acoustic and entropy features for speech emotion recognition | |
JP7124373B2 (en) | LEARNING DEVICE, SOUND GENERATOR, METHOD AND PROGRAM | |
Majidnezhad | A novel hybrid of genetic algorithm and ANN for developing a high efficient method for vocal fold pathology diagnosis | |
JP2020140244A (en) | Data conversion leaning apparatus, data conversion apparatus, method and program | |
Patel et al. | Novel adaptive generative adversarial network for voice conversion | |
Kumar et al. | Towards building text-to-speech systems for the next billion users | |
JP2017134321A (en) | Signal processing method, signal processing device, and signal processing program | |
Shah et al. | Nonparallel emotional voice conversion for unseen speaker-emotion pairs using dual domain adversarial network & virtual domain pairing | |
Huang et al. | FastDiff 2: Revisiting and incorporating GANs and diffusion models in high-fidelity speech synthesis | |
Tobing et al. | Voice conversion with CycleRNN-based spectral mapping and finely tuned WaveNet vocoder | |
Yang et al. | A fast high-fidelity source-filter vocoder with lightweight neural modules | |
CN116705056A (en) | Audio generation method, vocoder, electronic device and storage medium | |
Shandiz et al. | Improving neural silent speech interface models by adversarial training |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200120 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201009 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201020 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201216 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210406 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210409 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6872197 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313117 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |