JP7021437B2 - 学習データ生成装置、学習データ生成方法、及びプログラム - Google Patents
学習データ生成装置、学習データ生成方法、及びプログラム Download PDFInfo
- Publication number
- JP7021437B2 JP7021437B2 JP2018152956A JP2018152956A JP7021437B2 JP 7021437 B2 JP7021437 B2 JP 7021437B2 JP 2018152956 A JP2018152956 A JP 2018152956A JP 2018152956 A JP2018152956 A JP 2018152956A JP 7021437 B2 JP7021437 B2 JP 7021437B2
- Authority
- JP
- Japan
- Prior art keywords
- probability distribution
- model
- learning data
- model parameter
- parameter group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims description 34
- 238000000034 method Methods 0.000 title claims description 23
- 238000009826 distribution Methods 0.000 claims description 67
- 230000013016 learning Effects 0.000 claims description 67
- 230000006870 function Effects 0.000 claims description 4
- 238000007476 Maximum Likelihood Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 7
- 238000013500 data storage Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 239000000470 constituent Substances 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Description
本発明は、音響モデル用の学習データを生成する学習データ生成装置、学習データ生成方法、及びプログラムに関する。
音声認識は、スマートフォン上やロボットなどを通して、様々な環境で利用されるようになってきている。このような実環境における音声認識の高度化においては、音響モデルが実環境の様々な音響的変動に頑健であることが求められる。音響的変動とは、雑音環境特性やマイク特性、話者特性などに起因する音声情報の様々な変動を表す。これらに頑健な音響モデルを構築するためには、これらの音響変動要因を含む音響モデル用の学習データを実環境で大量に集めて音響モデルを学習させることが有効である。ここで、音響モデル用の学習データは、音声の音響特徴量系列とそれに対応した音素系列の組を1つ以上含むデータ集合を表す。
しかしながら、実際に音声認識システムを構築する際に、収集できる学習データの量はコストの問題で限られることが多いため、様々な変動要因に十分に頑健な音響モデルを学習することが困難な場合がしばしばある。この課題に対応するためのアプローチとして、学習データの疑似生成が有効であることが知られている。例えば、雑音環境特性に頑健にするためには、静穏環境下で収集した学習データの音響特徴量系列に雑音を人工的に付加することにより、疑似的に雑音環境下で収集した学習データを作り出すことができる。
非特許文献1および非特許文献2には、音響変動要因を疑似的に加えて学習データを生成する技術が開示されている。これらの研究では、学習データの音響特徴量系列に対して、人手であらかじめモデル化したルールに従い音響変動要因を加えて疑似的に音響変動要因を加えた音響特徴量系列を作成し、対応する音素系列とペア化することで疑似的に作成した学習データとすることで、音響モデルの学習に利用している。
N. Jaitly and G. E. Hinton, "Vocal tract length perturbation (VTLP) improves speech recognition," In Proc. ICML. Workshop on Deep Learning for Audio, Speech and. Language, 2013.
N. Kanda, R. Takeda, and Y. Obuchi, "Elastic spectral distortion for low resource speech recognition with deep neural networks," In Proc. IEEE Automatic Speech Recognition and Understanding Workshop (ASRU), pp. 309-314, 2013.
しかしながら、従来の学習データを疑似生成する手法では、所定の音声変動ルールを人手で与えることが必要であり、学習データを自動で生成することができないという問題があった。
かかる事情に鑑みてなされた本発明の目的は、人手によるルールを設けることなく、学習データを自動で生成することが可能な学習データ生成装置、学習データ生成方法、及びプログラムを提供することにある。
上記課題を解決するため、本発明に係る学習データ生成装置は、音響モデル用の学習データを生成する学習データ生成装置であって、第1のモデルパラメータ群から、第1の確率分布に従い属性ラベルを生成する属性ラベル確率的生成モデルと、第2のモデルパラメータ群および前記属性ラベルから、第2の確率分布に従い音素系列を生成する音素系列確率的生成モデルと、第3のモデルパラメータ群、前記属性ラベル、および前記音素系列から、第3の確率分布に従い音響特徴量系列を生成する音響特徴量系列確率的生成モデルと、を備えることを特徴とする。
また、上記課題を解決するため、本発明に係る学習データ生成方法は、音響モデル用の学習データを生成する学習データ生成方法であって、第1のモデルパラメータ群から、第1の確率分布に従い属性ラベルを生成するステップと、第2のモデルパラメータ群および前記属性ラベルから、第2の確率分布に従い音素系列を生成するステップと、第3のモデルパラメータ群、前記属性ラベル、および前記音素系列から、第3の確率分布に従い音響特徴量系列を生成するステップと、を含むことを特徴とする。
また、上記課題を解決するため、本発明に係るプログラムは、コンピュータを、上記学習データ生成装置として機能させることを特徴とする。
本発明によれば、人手によるルールなしに学習データを自動生成する枠組みを提供することができる。
以下、本発明の一実施形態について、図面を参照して詳細に説明する。
図1は、本発明の一実施形態に係る学習データ生成装置を備える学習データ生成システム1の構成例を示すブロック図である。学習データ生成システム1は、モデルパラメータ学習装置10と、学習データ生成装置20とを備え、収集済の音響モデル用の属性ラベル付き学習データを用いて、該属性ラベル付き学習データには含まれない学習データを新たに自動生成する。音響モデルとは、ある音響特徴量系列が入力された場合の音素系列が出力される確率を定義するモデルである。
なお、本実施形態においては、モデルパラメータ学習装置10と学習データ生成装置20とを分けて記載しているが、これらの装置は一体的に形成されてもよい。したがって、学習データ生成装置20が、モデルパラメータ学習装置10が備える各部を備えていてもよい。
図2は、モデルパラメータ学習装置10の構成例を示すブロック図である。モデルパラメータ学習装置10は、学習データ記憶部11と、モデルパラメータ学習部12とを備える。
学習データ記憶部11は、収集した属性ラベル付き学習データを記憶する。収集した属性ラベル付き学習データは、音響特徴量系列Xn、音素系列Sn、および属性ラベルaの3つ組の集合であり、組の数をN(1≦n≦N、例えばN=10000)とすると、属性ラベル付き学習データは次式で表される。ここで、Tnは音響特徴量系列Xnや音素系列Snの長さであり、nによって異なる値となる。なお、音響特徴量としては、例えばメル周波数ケプストラム係数(MFCC)やそれに対して正規化等の変換をしたもの、時間的に前後する複数個の特徴量を結合したもの等の任意のものを含む。属性ラベルとしては、例えば男性か女性かを示す情報、日本人か外国人かを示す情報などの任意のものを含む。
モデルパラメータ学習部12は、学習データ記憶部11に記録された、収集済みの属性ラベル付き学習データを取得し、学習データ生成装置20が備える3つのモデルのモデルパラメータ群θ1,θ2,θ3を学習し、学習データ生成装置20に出力する。学習は次式に示す基準で行う。なお、これらの学習は、それぞれの確率分布の定義によって異なるが、どの場合でも下記の最尤基準で行うことができる。ここで、記号^が付されたθは、右辺を満たす(右辺により最尤基準で推定された)θであることを意味する。
図3は、学習データ生成装置20の構成例を示す図である。学習データ生成装置20は、音響モデル用の学習データを生成する装置であり、確率的に属性ラベルを決定する属性ラベル確率的生成モデル21と、属性ラベルから確率的に音素系列を決定する音素系列確率的生成モデル22と、属性ラベルおよび音素系列から確率的に音響特徴量系列を生成する音響特徴量系列確率的生成モデル23とを備える。
学習データ生成装置20は、学習データ生成装置20が備える3つのモデルのモデルパラメータ群θ1,θ2,θ3を入力し、疑似的な学習データとして、音響特徴量系列X=(x1,・・・,xT)および音素系列S=(s1,・・・,sT)を生成して出力する。ここで、Tは音響特徴量系列X、音素系列Sのフレーム長を表し、人手によりあらかじめ所定の値(例えば100)に決定しておくこともできるし、音素系列Sの生成時に自動決定することもできる。自動決定する場合は、特定の音素が生成されたタイミングをTとすればよく、例えば無音に対応した音素のタイミングに割り当てることができる。
属性ラベル確率的生成モデル21は、モデルパラメータ群θ1から第1の確率分布に従い確率的な施行により、生成したい音声に関する属性ラベルaを生成する。生成した属性ラベルaは、音素系列確率的生成モデル22および音響特徴量系列確率的生成モデル23に出力される。具体的には、属性ラベル確率的生成モデル21は次式により、第1の確率分布からランダムに1つの属性ラベルaを決定する。
第1の確率分布として、例えばカテゴリカル分布を用いることができる。この場合、モデルパラメータ群θ1の実体は、属性ラベルaについてのカテゴリカル分布のモデルパラメータである。~は確率分布に従い、ランダムに生成することを意味する。このランダムな生成は、例えば下記のSampleOneアルゴリズムに従う。なお、SampleOneアルゴリズムは、カテゴリカル分布からのランダムサンプリングにおいて公知の方法である。
SampleOneアルゴリズムは、確率分布からランダムに1つの値を決定するアルゴリズムであり、カテゴリカル分布を入力して、確率分布の実現値を出力する。具体的に説明するために、前述の例であるP(a|θ1)が入力である場合を扱う。P(a|θ1)はカテゴリカル分布と呼ばれる確率分布の形となっている。属性ラベルaの具体的な実現値の集合をJとし、Jに含まれる実現値の種類数を|J|とすると、属性ラベルaの取り得る値は、t1,t2,・・・,t|J|となる。すなわち、t1,t2,・・・,t|J|が具体的な実現値であり、この集合がJである。Jは、確率分布のモデルパラメータが与えられれば自動的に決まる。具体的に、この確率分布は、P(a=t1|θ1),P(a=t2|θ1),・・・,P(a=t|J||θ1)となっている。この時、P(a)は次の性質を有する。
この時、属性ラベルaのSampleOneは乱数に基づく。ここでは乱数値をrandとおく。P(a=t1|θ1),P(a=t2|θ1),・・・,P(a=t|J||θ1)は具体的な数値を持っている。rand-P(a=t1|θ1),rand-P(a=t1|θ1)-P(a=t2|θ1),rand-P(a=t1|θ1)-P(a=t2|θ1)-P(a=t3|θ1)と順番に値を算出し、その値が0より小さくなった場合の値を出力する。例えば、次式が成立する場合には、t2を出力する。このように、SampleOneアルゴリズムは、任意のカテゴリカル分布からのデータサンプルアルゴリズムといえる。
音素系列確率的生成モデル22は、モデルパラメータ群θ2および属性ラベル確率的生成モデル21により生成された属性ラベルaから、第2の確率分布に従い確率的な施行により、生成したい音声に関する音素系列S=(s1,・・・,sT)を生成する。生成した音素系列Sは、音響特徴量系列確率的生成モデル23に出力されるとともに、学習データ生成装置20の外部に出力される。
音素系列Sの生成は、音素ごとに行われる。第2の確率分布として、P(st|s1,・・・,st-1,a,θ2)を定義する分布(例えばカテゴリカル分布)を用いることができる。P(st|s1,・・・,st-1,a,θ2)には任意の構造が利用できるが、例えばn-gramモデルやリカレントニューラルネットワークを用いることで定義できる。モデルパラメータ群θ2は定義したモデルにより異なるが、s1,・・・,st-1,aを用いてstについてのカテゴリカル分布を定義することが可能なモデルパラメータとなる。音素stの生成は、次式に従う。
このランダムな生成は、前述のSampleOneアルゴリズムに従う。この処理は再帰的に行うことができ、音素st+1の生成時は生成した音素stを用いて次式に従う。
この処理をT回行うことによって、音素系列S=(s1,・・・,sT)を生成することができる。なお、Tは人手によって決定してもよいし、自動で決定する場合は、あらかじめ定義した音素(例えば、無音を表す音素)が生成した時間をTとしてもよい。
音響特徴量系列確率的生成モデル23は、モデルパラメータ群θ3、属性ラベル確率的生成モデル21により生成された属性ラベルa、および音素系列確率的生成モデル22により生成された音素系列S=(s1,・・・,sT)から、第3の確率分布に従い確率的な施行により、生成したい音声に関する音響特徴量系列X=(x1,・・・,xT)を生成する。生成した音響特徴量系列Xは、学習データ生成装置20の外部に出力される。
音響特徴量系列Xの生成は、音響特徴量ごとに行われる。第3の確率分布として、P(xt|s1,・・・,st,a,θ3)を定義する任意の連続空間の確率分布を利用でき、例えば正規分布を用いることができる。正規分布を用いる場合は、s1,・・・,sT,,a,θ3から正規分布のパラメータである平均ベクトルと共分散行列を求めればよく、例えば非参考文献4のようなMixture Density Networkを用いることができる。モデルパラメータ群θ3は、s1,・・・,sT,a,θ3から定義した分布のパラメータを算出することがモデルパラメータに相当する。音響特徴量xtの生成は次式に従う。
このランダムな生成は定義した確率分布により異なるが、例えば対角共分散行列を持つ正規分布の場合、次元ごとにボックス=ミュラー法を用いることで生成できる。ボックス=ミュラー法については公知の技術であるため、ここでは説明を省略する。この処理をt=1からTまで行うことにより、音響特徴量系列X=(x1,・・・,xT)を得ることができる。なお、Tは入力の音素系列の長さと一致することとする。
なお、学習データ生成装置20として機能させるためにコンピュータを用いることも可能である。そのようなコンピュータは、学習データ生成装置20の各機能を実現する処理内容を記述したプログラムを該コンピュータの記憶部に格納しておき、該コンピュータのCPUによってこのプログラムを読み出して実行させることで実現することができる。
また、このプログラムは、コンピュータ読取り可能媒体に記録されていてもよい。コンピュータ読取り可能媒体を用いれば、コンピュータにインストールすることが可能である。ここで、プログラムが記録されたコンピュータ読取り可能媒体は、非一過性の記録媒体であってもよい。非一過性の記録媒体は、特に限定されるものではないが、例えば、CD-ROMやDVD-ROMなどの記録媒体であってもよい。
次に、本発明の一実施形態に係る学習データ生成方法について、図4を参照して説明する。図4は、学習データ生成方法の手順の一例を示すフローチャートである。
まず、上述したモデルパラメータ学習部12により、属性ラベル付き学習データを取得し(ステップS101)、3つのモデルパラメータ群θ1,θ2,θ3を生成する(ステップS102)。次に、上述した属性ラベル確率的生成モデル21により、モデルパラメータ群θ1から、第1の確率分布に従い属性ラベルaを生成する(ステップS103)。次に、上述した音素系列確率的生成モデル22により、モデルパラメータ群θ2および属性ラベルaから、第2の確率分布に従い音素系列Sを学習データとして生成する(ステップS104)。次に、上述した音響特徴量系列確率的生成モデル23により、モデルパラメータ群θ3、属性ラベルa、および音素系列Sから、第3の確率分布に従い音響特徴量系列Xを学習データとして生成する(ステップS105)。
以上説明したように、本発明では、モデルパラメータ群θ1から、第1の確率分布に従い属性ラベルaを生成し、モデルパラメータ群θ2および属性ラベルaから、第2の確率分布に従い音素系列を生成し、モデルパラメータ群θ3、属性ラベルa、および音素系列Sから、第3の確率分布に従い音響特徴量系列Xを生成する。したがって、本発明によれば、音声変動ルールを人手で与えることなく、確率的なふるまいのみで、音響モデル用の学習データ(音素系列Sおよび音響特徴量系列X)を疑似的に生成することが可能となる。
また、音響モデル用の学習データを疑似生成する従来の手法では、収集済みの学習データの音響特徴量系列に対して、人手であらかじめモデル化したルールに従い疑似的に音響変動要因を加えた音響特徴量系列を作成し、対応する音素系列とペア化する方法であるため、収集済みの学習データに存在しない音素系列についての学習データを生成することができなかった。その点、本発明では、モデルパラメータ群θ1,θ2,θ3は、収集済みの属性ラベル付き学習データ(属性ラベル、音素系列、および音響特徴量系列)からそれぞれ最尤基準に基づいて生成される。したがって、本発明によれば、収集済みの属性ラベル付き学習データに存在しないような、学習データ(音素系列および音響特徴量系列)を生成することが可能となる。かくして、音声認識性能が高い音響モデルを構築することが可能となる。
ここで、第1の確率分布および第2の確率分布は、カテゴリカル分布とするのが好適である。その理由は、離散値の生成をモデル化した分布として一般的にカテゴリカル分布が用いられており、ソフトマックス層を出力としたニューラルネットワークを用いるなどの方法により、カテゴリカル分布のパラメータを出力することができるからである。また、第3の確率分布は、正規分布とするのが好適である。その理由は、連続値の生成をモデル化した分布として一般的に正規分布が用いられており、平均と分散を出力とするニューラルネットワークを用いるなどの方法により正規分布のパラメータを出力することができるからである。
上述の実施形態は代表的な例として説明したが、本発明の趣旨及び範囲内で、多くの変更及び置換ができることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。例えば、実施形態の構成図に記載の複数の構成ブロックを1つに組み合わせたり、あるいは1つの構成ブロックを分割したりすることが可能である。
1 学習データ生成システム
10 モデルパラメータ学習装置
11 学習データ記憶部
12 モデルパラメータ学習部
20 学習データ生成装置
21 属性ラベル確率的生成モデル
22 音素系列確率的生成モデル
23 音響特徴量系列確率的生成モデル
10 モデルパラメータ学習装置
11 学習データ記憶部
12 モデルパラメータ学習部
20 学習データ生成装置
21 属性ラベル確率的生成モデル
22 音素系列確率的生成モデル
23 音響特徴量系列確率的生成モデル
Claims (6)
- 音響モデル用の学習データを生成する学習データ生成装置であって、
第1のモデルパラメータ群から、第1の確率分布に従い属性ラベルを生成する属性ラベル確率的生成モデルと、
第2のモデルパラメータ群および前記属性ラベルから、第2の確率分布に従い音素系列を生成する音素系列確率的生成モデルと、
第3のモデルパラメータ群、前記属性ラベル、および前記音素系列から、第3の確率分布に従い音響特徴量系列を生成する音響特徴量系列確率的生成モデルと、
を備えることを特徴とする学習データ生成装置。 - 前記第1のモデルパラメータ群、前記第2のモデルパラメータ群、および前記第3のモデルパラメータ群は、収集済みの属性ラベル、音素系列、および音響特徴量系列からそれぞれ最尤基準に基づいて生成されることを特徴とする、請求項1に記載の学習データ生成装置。
- 前記属性ラベル確率的生成モデルは、前記第1の確率分布からランダムに1つの値を決定するアルゴリズムを用いて前記属性ラベルを生成し、
前記音素系列確率的生成モデルは、前記第2の確率分布からランダムに1つの値を決定するアルゴリズムを用いて前記音素系列を生成し、
前記音響特徴量系列確率的生成モデルは、前記第3の確率分布からランダムに1つの値を決定するアルゴリズムを用いて前記音響特徴量系列を生成することを特徴とする、請求項1又は2に記載の学習データ生成装置。 - 前記第1の確率分布および前記第2の確率分布はカテゴリカル分布であり、
前記第3の確率分布は正規分布であることを特徴とする、請求項1から3のいずれか一項に記載の学習データ生成装置。 - 音響モデル用の学習データを生成する学習データ生成方法であって、
第1のモデルパラメータ群から、第1の確率分布に従い属性ラベルを生成するステップと、
第2のモデルパラメータ群および前記属性ラベルから、第2の確率分布に従い音素系列を生成するステップと、
第3のモデルパラメータ群、前記属性ラベル、および前記音素系列から、第3の確率分布に従い音響特徴量系列を生成するステップと、
を含むことを特徴とする学習データ生成方法。 - コンピュータを、請求項1から4のいずれか一項に記載の学習データ生成装置として機能させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018152956A JP7021437B2 (ja) | 2018-08-15 | 2018-08-15 | 学習データ生成装置、学習データ生成方法、及びプログラム |
US17/267,867 US20210183368A1 (en) | 2018-08-15 | 2019-06-21 | Learning data generation device, learning data generation method, and program |
PCT/JP2019/024827 WO2020035999A1 (ja) | 2018-08-15 | 2019-06-21 | 学習データ生成装置、学習データ生成方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018152956A JP7021437B2 (ja) | 2018-08-15 | 2018-08-15 | 学習データ生成装置、学習データ生成方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020027211A JP2020027211A (ja) | 2020-02-20 |
JP7021437B2 true JP7021437B2 (ja) | 2022-02-17 |
Family
ID=69525449
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018152956A Active JP7021437B2 (ja) | 2018-08-15 | 2018-08-15 | 学習データ生成装置、学習データ生成方法、及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20210183368A1 (ja) |
JP (1) | JP7021437B2 (ja) |
WO (1) | WO2020035999A1 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3276198B2 (ja) | 1993-04-23 | 2002-04-22 | 旭光学工業株式会社 | 内視鏡用注射具 |
JP2015161927A (ja) | 2014-02-28 | 2015-09-07 | 国立研究開発法人情報通信研究機構 | 音響モデル生成装置、音響モデルの生産方法、およびプログラム |
US20170301347A1 (en) | 2016-04-13 | 2017-10-19 | Malaspina Labs (Barbados), Inc. | Phonotactic-Based Speech Recognition & Re-synthesis |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2961797B2 (ja) * | 1990-03-26 | 1999-10-12 | 三菱電機株式会社 | 音声認識装置 |
JP6031316B2 (ja) * | 2012-10-02 | 2016-11-24 | 日本放送協会 | 音声認識装置、誤り修正モデル学習方法、及びプログラム |
JP6189818B2 (ja) * | 2014-11-21 | 2017-08-30 | 日本電信電話株式会社 | 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、音響モデル適応方法、およびプログラム |
US10846589B2 (en) * | 2015-03-12 | 2020-11-24 | William Marsh Rice University | Automated compilation of probabilistic task description into executable neural network specification |
JP6622681B2 (ja) * | 2016-11-02 | 2019-12-18 | 日本電信電話株式会社 | 音素崩れ検出モデル学習装置、音素崩れ区間検出装置、音素崩れ検出モデル学習方法、音素崩れ区間検出方法、プログラム |
US20190213284A1 (en) * | 2018-01-11 | 2019-07-11 | International Business Machines Corporation | Semantic representation and realization for conversational systems |
US11830485B2 (en) * | 2018-12-11 | 2023-11-28 | Amazon Technologies, Inc. | Multiple speech processing system with synthesized speech styles |
US11335347B2 (en) * | 2019-06-03 | 2022-05-17 | Amazon Technologies, Inc. | Multiple classifications of audio data |
-
2018
- 2018-08-15 JP JP2018152956A patent/JP7021437B2/ja active Active
-
2019
- 2019-06-21 WO PCT/JP2019/024827 patent/WO2020035999A1/ja active Application Filing
- 2019-06-21 US US17/267,867 patent/US20210183368A1/en not_active Abandoned
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3276198B2 (ja) | 1993-04-23 | 2002-04-22 | 旭光学工業株式会社 | 内視鏡用注射具 |
JP2015161927A (ja) | 2014-02-28 | 2015-09-07 | 国立研究開発法人情報通信研究機構 | 音響モデル生成装置、音響モデルの生産方法、およびプログラム |
US20170301347A1 (en) | 2016-04-13 | 2017-10-19 | Malaspina Labs (Barbados), Inc. | Phonotactic-Based Speech Recognition & Re-synthesis |
Also Published As
Publication number | Publication date |
---|---|
JP2020027211A (ja) | 2020-02-20 |
US20210183368A1 (en) | 2021-06-17 |
WO2020035999A1 (ja) | 2020-02-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3857543B1 (en) | Conversational agent pipeline trained on synthetic data | |
JP7055630B2 (ja) | 音声認識のための学習方法、学習装置、コンピュータプログラム及び記憶媒体 | |
JP6437581B2 (ja) | 話者適応型の音声認識 | |
US12046226B2 (en) | Text-to-speech synthesis method and system, a method of training a text-to-speech synthesis system, and a method of calculating an expressivity score | |
JP6802958B2 (ja) | 音声合成システム、音声合成プログラムおよび音声合成方法 | |
JP2017228160A (ja) | 対話行為推定方法、対話行為推定装置及びプログラム | |
KR20160069329A (ko) | 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치 | |
JP5634959B2 (ja) | 雑音/残響除去装置とその方法とプログラム | |
JP7218601B2 (ja) | 学習データ取得装置、モデル学習装置、それらの方法、およびプログラム | |
JP2014157323A (ja) | 音声認識装置、音響モデル学習装置、その方法及びプログラム | |
KR20190032868A (ko) | 음성인식 방법 및 그 장치 | |
JPWO2017146073A1 (ja) | 声質変換装置、声質変換方法およびプログラム | |
JP2020034683A (ja) | 音声認識装置、音声認識プログラムおよび音声認識方法 | |
JP6499095B2 (ja) | 信号処理方法、信号処理装置及び信号処理プログラム | |
JP5997114B2 (ja) | 雑音抑圧装置、雑音抑圧方法、およびプログラム | |
JP6505346B1 (ja) | Dnn音声合成の教師無し話者適応を実現するコンピュータシステム、そのコンピュータシステムにおいて実行される方法およびプログラム | |
US8438029B1 (en) | Confidence tying for unsupervised synthetic speech adaptation | |
JP7021437B2 (ja) | 学習データ生成装置、学習データ生成方法、及びプログラム | |
CN106157948B (zh) | 一种基频建模方法及系统 | |
Reddy et al. | Inverse filter based excitation model for HMM‐based speech synthesis system | |
JP2017134197A (ja) | パラメータ調整システム、パラメータ調整方法、プログラム | |
JP7359028B2 (ja) | 学習装置、学習方法、および、学習プログラム | |
JP2016186516A (ja) | 疑似音声信号生成装置、音響モデル適応装置、疑似音声信号生成方法、およびプログラム | |
Mandel et al. | Learning a concatenative resynthesis system for noise suppression | |
JP6699945B2 (ja) | 音響モデル学習装置、その方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201201 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220104 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220117 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7021437 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |