JP6816047B2 - 目的発話推定モデル学習装置、目的発話判定装置、目的発話推定モデル学習方法、目的発話判定方法、プログラム - Google Patents
目的発話推定モデル学習装置、目的発話判定装置、目的発話推定モデル学習方法、目的発話判定方法、プログラム Download PDFInfo
- Publication number
- JP6816047B2 JP6816047B2 JP2018020773A JP2018020773A JP6816047B2 JP 6816047 B2 JP6816047 B2 JP 6816047B2 JP 2018020773 A JP2018020773 A JP 2018020773A JP 2018020773 A JP2018020773 A JP 2018020773A JP 6816047 B2 JP6816047 B2 JP 6816047B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- utterance
- recognition result
- estimation model
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 19
- 239000013598 vector Substances 0.000 claims description 73
- 238000001514 detection method Methods 0.000 claims description 17
- 239000000284 extract Substances 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 description 7
- 230000015654 memory Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000013179 statistical model Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
- G10L15/05—Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Description
本発明は、入力音声から検出した発話音声が所定の目的に適した音声であるか否かを判定する技術に関する。
発話音声を検出・認識する技術には多くの応用分野があるが、その1つに音声対話処理がある。音声対話処理の分野では、様々な方式が提案され、実用化されている(非特許文献1、非特許文献2)。
Diane Litman and Kate Forbes-Riley, "Evaluating a Spoken Dialogue System that Detects and Adapts to User Affective States", Proceedings of SIGDIAL 2014 Conference, Philadelpha, U.S.A., pp.181-185, 2014.
辻野孝輔,栄藤稔,礒田佳徳,飯塚真也,"実サービスにおける音声認識と自然言語インタフェース技術",人工知能学会誌,28巻1号,pp.75-81,2013.
従来の音声対話処理方式の中には、最初に検出した音声を音声認識し、対話処理を進めてしまうものもあり、このため、ちょっとした雑音を発話音声として検出した場合には、対話が破綻してしまうという問題がある。したがって、入力音声から検出した発話音声が所定の音声処理アプリケーションに用いるのに適した音声であるか否かを判定してから、各音声処理アプリケーションに用いることが重要になる。
そこで本発明は、入力音声から検出した発話音声が所定の目的に適した音声であるか否かを判定する技術を提供することを目的とする。
本発明の一態様は、話者が発話した音声と雑音を含む入力音声から、前記話者が発話した音声に対応する発話音声を検出し、前記発話音声の音響特徴を抽出する発話検出部と、前記発話音声から、認識スコア付き音声認識結果集合を生成する音声認識部と、前記認識スコア付き音声認識結果集合から、音声認識結果単語ベクトル表現集合、音声認識結果品詞ベクトル表現集合を生成するベクトル表現生成部と、前記音響特徴、前記認識スコア付き音声認識結果集合、前記音声認識結果単語ベクトル表現集合、前記音声認識結果品詞ベクトル表現集合、前記入力音声の正解である話者が発話した内容を用いて、入力音声から検出した発話音声が所定の目的に適した発話である確率を出力する目的発話推定モデルを学習する目的発話推定モデル学習部とを含む。
本発明の一態様は、話者が発話した音声と雑音を含む入力音声から、前記話者が発話した音声に対応する発話音声を検出し、前記発話音声の音響特徴を抽出する発話検出部と、前記発話音声から、認識スコア付き音声認識結果集合を生成する音声認識部と、前記認識スコア付き音声認識結果集合から、音声認識結果単語ベクトル表現集合、音声認識結果品詞ベクトル表現集合を生成するベクトル表現生成部と、入力音声から検出した発話音声が所定の目的に適した発話である確率を出力する目的発話推定モデルを用いて、前記発話音声、前記音響特徴、前記認識スコア付き音声認識結果集合、前記音声認識結果単語ベクトル表現集合、前記音声認識結果品詞ベクトル表現集合から、前記発話音声が所定の目的に適した発話であると判定された場合に、前記発話音声と前記認識スコア付き音声認識結果集合を出力する目的発話判定部とを含む。
本発明によれば、入力音声から検出した発話音声が所定の目的に適した音声であるか否かを判定することが可能となる。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
<第一実施形態>
[目的発話推定モデル学習装置100]
以下、図1〜図2を参照して目的発話推定モデル学習装置100について説明する。図1は、目的発話推定モデル学習装置100の構成を示すブロック図である。図2は、目的発話推定モデル学習装置100の動作を示すフローチャートである。図1に示すように目的発話推定モデル学習装置100は、発話検出部110、音声認識部120、ベクトル表現生成部130、目的発話推定モデル学習部140、記録部190を含む。記録部190は、目的発話推定モデル学習装置100の処理に必要な情報を適宜記録する構成部である。
[目的発話推定モデル学習装置100]
以下、図1〜図2を参照して目的発話推定モデル学習装置100について説明する。図1は、目的発話推定モデル学習装置100の構成を示すブロック図である。図2は、目的発話推定モデル学習装置100の動作を示すフローチャートである。図1に示すように目的発話推定モデル学習装置100は、発話検出部110、音声認識部120、ベクトル表現生成部130、目的発話推定モデル学習部140、記録部190を含む。記録部190は、目的発話推定モデル学習装置100の処理に必要な情報を適宜記録する構成部である。
目的発話推定モデル学習装置100は、入力音声から検出した発話音声が所定の目的に適した発話である確率を出力する目的発話推定モデルを学習する。目的発話推定モデルの入力や学習方法については、後述する。
図2に従い目的発話推定モデル学習装置100の動作について説明する。
S110において、発話検出部110は、話者が発話した音声と雑音を含む入力音声から、当該話者が発話した音声に対応する発話音声を検出し、当該発話音声の音響特徴を抽出する。ここで、入力音声は音声波形として入力され、発話音声は音声波形として検出される。また、音響特徴として、例えば、音声パワー、SN比を用いる。発話音声の検出には、例えば、参考特許文献1や参考非特許文献1に記載の方法を用いることができる。
(参考特許文献1:特開2014−29407号公報)
(参考非特許文献1:Masakiyo Fujimoto and Tomohiro Nakatani, “Feature enhancement based on generative-discriminative hybrid approach with GMMs and DNNs for noise robust speech recognition”, in Proceedings of ICASSP 2015, pp.5019-5023, 2015.)
(参考特許文献1:特開2014−29407号公報)
(参考非特許文献1:Masakiyo Fujimoto and Tomohiro Nakatani, “Feature enhancement based on generative-discriminative hybrid approach with GMMs and DNNs for noise robust speech recognition”, in Proceedings of ICASSP 2015, pp.5019-5023, 2015.)
なお、発話検出部110は、発話音声を音声認識部120に、音響特徴を目的発話推定モデル学習部140に出力する。
また、発話検出部110は、発話音声の検出に際して、発話開始時刻と発話終了時刻をあわせて検出するようにしてもよい。この場合、発話検出部110は、発話音声を音声認識部120に、発話開始時刻、発話終了時刻、音響特徴量を目的発話推定モデル学習部140に出力する。
S120において、音声認識部120は、S110で検出した発話音声から、認識スコア付き音声認識結果集合を生成する。一般に、発話音声を音声認識すると、複数の音声認識結果が候補として生成される。音声認識結果は、話者が発話したと推定される内容であり、例えば、テキストとして表現される。また、各音声認識結果に対して、その正しさの指標となる認識スコア(例えば、信頼度、音響スコア、言語スコア)もあわせて生成される。なお、認識スコアは、信頼度、音響スコア、言語スコアの何れか1つの数値でもよいし、これらの組合せでもよい。ここで、信頼度とは、音声認識エンジンである音声認識部120が認識結果の単語をどの程度自信をもって出力しているかを表す数値であり、認識結果の各単語について、候補が多くなるほど信頼度は低くなる傾向がある。また、音響スコアとは、音響モデルが出力するスコア、つまり、入力である発話音声の音響特徴と音響モデルの特性の類似度を表すものであり、両者が類似している場合に高い値となる。また、言語スコアとは、言語モデルが出力するスコア、つまり、認識結果の単語の系列と言語モデルの適合度を表すものであり、両者が適合する場合に高い値となる。
したがって、認識スコア付き音声認識結果集合とは、認識スコアが付与された音声認識結果(単語)の集合のことである。
S130において、ベクトル表現生成部130は、S120で生成した認識スコア付き音声認識結果集合から、音声認識結果単語ベクトル表現集合、音声認識結果品詞ベクトル表現集合を生成する。音声認識結果単語ベクトル表現集合とは、音声認識結果に含まれる単語をベクトルで表現したもの(以下、単語ベクトル表現という)を要素とする集合であり、音声認識結果品詞ベクトル表現集合とは、音声認識結果に含まれる単語の品詞をベクトルで表現したもの(以下、品詞ベクトル表現という)を要素とする集合である。具体的には、以下のように、各ベクトル表現を生成する。まず、ベクトル表現生成部130は、認識スコア付き音声認識結果集合に含まれる音声認識結果それぞれに対して、形態素解析を実行し、単語ごとに分かち書きを行う。この形態素解析により分かち書きされた各単語について、少なくとも品詞の情報が得られているものとする。次に、分かち書きされた単語に対して、例えば、参考非特許文献2に記載のword2vec(skip-gram)のような単語ベクトル表現生成技術を用いて、単語ベクトル表現を生成する。
(参考非特許文献2:T. Mikolov, I. Sutskever, K. Chen, G. Corrado, J. Dean, “Distributed Representations of Words and Phrases and their Compositionality”, Cornell University Library, arXiv:1310.4546[cs.CL], “https://arxiv.org/pdf/1310.4546v1.pdf”, 2013.)
(参考非特許文献2:T. Mikolov, I. Sutskever, K. Chen, G. Corrado, J. Dean, “Distributed Representations of Words and Phrases and their Compositionality”, Cornell University Library, arXiv:1310.4546[cs.CL], “https://arxiv.org/pdf/1310.4546v1.pdf”, 2013.)
また、分かち書きされた単語の品詞に対して、例えば、1-of-K表現を用いてベクトル表現に変換することにより、品詞ベクトル表現を生成する。
S140において、目的発話推定モデル学習部140は、S110で抽出した音響特徴、S120で生成した認識スコア付き音声認識結果集合、S130で生成した音声認識結果単語ベクトル表現集合、音声認識結果品詞ベクトル表現集合、S110で入力された入力音声の正解である話者が発話した内容を用いて、目的発話推定モデルを学習する。入力音声は時系列データであるので、目的発話推定モデルは、例えば、再帰的ニューラルネットワークRNN(Recurrnet Neural Networks)、LSTM(Long Short-Term Memory)、GRU(Gated Recurrent Unit)のような時系列データを扱うことができるニューラルネットワークにより、学習することができる。つまり、目的発話推定モデルは、時系列データを扱うことができるニューラルネットワークにより学習されるモデル(以下、時系列統計モデルという)となる。目的発話推定モデルの入力は、発話音声の内容を示すデータである認識スコア付き音声認識結果集合、音声認識結果単語ベクトル表現集合、音声認識結果品詞ベクトル表現集合と当該発話音声の音響特徴から生成された、単語ごとの認識スコア、単語ベクトル、品詞ベクトル、単語ごとの音響特徴の組の列である。ここで、単語ごとの音響特徴とは、単語ごとの音声波形が有する音響特徴を表す。また、単語ごとの音響特徴は、個々の音響特徴(音声パワー、SN比など)の組合せであってもよい。したがって、目的発話推定モデルは、入力音声から検出された発話音声から生成された、単語ごとの認識スコア、単語ベクトル、品詞ベクトル、単語ごとの音響特徴の組の列を入力とし、当該発話音声が所定の目的に適した発話である確率(以下、出力クラス事後確率という)を出力する時系列統計モデルである。
なお、出力クラス事後確率をpとして、棄却クラス事後確率を1-pとして計算する。つまり、棄却クラス事後確率は、入力音声から検出された発話音声を所定の目的に適した発話でないとして棄却する確率である。
先述の通り、S110において、発話検出部110が発話開始時刻、発話終了時刻をあわせて検出する場合は、発話開始時刻、発話終了時刻は、目的発話推定モデル学習部140の入力となる。つまり、S140において、目的発話推定モデル学習部140は、S110で抽出した音響特徴、S110で検出した発話開始時刻と発話終了時刻、S120で生成した認識スコア付き音声認識結果集合、S130で生成した音声認識結果単語ベクトル表現集合、音声認識結果品詞ベクトル表現集合、S110で入力された入力音声の正解である話者が発話した内容を用いて、目的発話推定モデルを学習する。このとき、発話終了時刻と発話開始時刻の差として計算される発話時間長も目的発話推定モデルの入力とする。つまり、目的発話推定モデルは、入力音声から検出された発話音声から生成された、単語ごとの認識スコア、単語ベクトル、品詞ベクトル、単語ごとの音響特徴の組の列と発話時間長を入力とし、出力クラス事後確率を出力する時系列統計モデルとなる。このように、発話時間長を目的発話推定モデルの入力に加えることにより、発話時間長の長さを考慮した目的発話推定モデルを学習することができるようになるため、例えば、突発的な雑音を(後述する目的発話判定装置200の)発話検出部110が発話時間長の短い発話音声として誤検知してしまった場合に、(目的発話判定部240は)目的発話推定モデルを用いて棄却できるようになる。
[目的発話判定装置200]
以下、図3〜図4を参照して目的発話判定装置200について説明する。図3は、目的発話判定装置200の構成を示すブロック図である。図4は、目的発話判定装置200の動作を示すフローチャートである。図3に示すように目的発話判定装置200は、発話検出部110、音声認識部120、ベクトル表現生成部130、目的発話判定部240、記録部190を含む。記録部190は、目的発話判定装置200の処理に必要な情報を適宜記録する構成部である。例えば、目的発話推定モデル学習装置100が学習した目的発話推定モデルを記録しておく。
以下、図3〜図4を参照して目的発話判定装置200について説明する。図3は、目的発話判定装置200の構成を示すブロック図である。図4は、目的発話判定装置200の動作を示すフローチャートである。図3に示すように目的発話判定装置200は、発話検出部110、音声認識部120、ベクトル表現生成部130、目的発話判定部240、記録部190を含む。記録部190は、目的発話判定装置200の処理に必要な情報を適宜記録する構成部である。例えば、目的発話推定モデル学習装置100が学習した目的発話推定モデルを記録しておく。
目的発話判定装置200は、目的発話推定モデルを用いて、入力音声から検出した発話音声が所定の目的に適した発話であるか否かを判定する。
図4に従い目的発話判定装置200の動作について説明する。以下、目的発話判定部240について説明する。
S240において、目的発話判定部240は、目的発話推定モデルを用いて、S110で検出した発話音声、S110で抽出した音響特徴、S120で生成した認識スコア付き音声認識結果集合、S130で生成した音声認識結果単語ベクトル表現集合、音声認識結果品詞ベクトル表現集合から、当該発話音声が所定の目的に適した発話であると判定された場合に、発話音声と認識スコア付き音声認識結果集合を出力する。具体的には、以下の手順にて処理する。まず、認識スコア付き音声認識結果集合、音声認識結果単語ベクトル表現集合、音声認識結果品詞ベクトル表現集合、音響特徴から生成された、単語ごとの認識スコア、単語ベクトル、品詞ベクトル、単語ごとの音響特徴の組の列を目的発話推定モデルに入力し、発話音声の出力クラス事後確率pを出力として得る。次に、出力クラス事後確率pと棄却クラス事後確率1-pの比p/(1-p)を計算する。最後に、出力クラス事後確率と棄却クラス事後確率の比p/(1-p)比と所定の閾値θを比較し、p/(1-p)>θ(またはp/(1-p)≧θ)が成り立つ場合は、当該発話音声が所定の目的に適した発話であると判定し、発話音声と認識スコア付き音声認識結果集合の組を出力する。一方、p/(1-p)≦θ(またはp/(1-p)<θ)が成り立つ場合は、当該発話音声は所定の目的に適した発話ではないと判定し、その旨出力する。
なお、目的発話推定モデル学習装置100の発話検出部110が発話開始時刻と発話終了時刻も検出する場合には、目的発話判定装置200の発話検出部110も発話開始時刻と発話終了時刻を検出し、目的発話判定部240に出力するものとする。
本実施形態の発明によれば、入力音声から検出した発話音声が所定の目的に適した音声であるか否かを判定することが可能となる。例えば、音声対話に適さない発話音声を棄却できるようになるため、円滑な音声対話が可能となる。棄却するか否かの判定に際して、発話音声の内容を示すデータを用いているため、想定する音声対話の用途に適しているか否か判定し、必要に応じて発話音声を棄却することができるようになる。また、発話音声の内容を示すデータと音響特徴の両方を用いているため、例えば、想定する音声対話の用途は類似するが、当該音声が背景雑音(例えば、テレビ音声などの雑音)である場合に、必要に応じて発話音声を棄却することができるようになる。
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
Claims (8)
- 話者が発話した音声と雑音を含む入力音声から、前記話者が発話した音声に対応する発話音声を検出し、前記発話音声の音響特徴を抽出する発話検出部と、
前記発話音声から、認識スコア付き音声認識結果集合を生成する音声認識部と、
前記認識スコア付き音声認識結果集合から、音声認識結果単語ベクトル表現集合、音声認識結果品詞ベクトル表現集合を生成するベクトル表現生成部と、
前記音響特徴、前記認識スコア付き音声認識結果集合、前記音声認識結果単語ベクトル表現集合、前記音声認識結果品詞ベクトル表現集合、前記入力音声の正解である話者が発話した内容を用いて、入力音声から検出した発話音声が所定の目的に適した発話である確率を出力する目的発話推定モデルを学習する目的発話推定モデル学習部と
を含む目的発話推定モデル学習装置。 - 請求項1に記載の目的発話推定モデル学習装置であって、
前記目的発話推定モデルの入力は、
発話音声の内容を示すデータである認識スコア付き音声認識結果集合、音声認識結果単語ベクトル表現集合、音声認識結果品詞ベクトル表現集合と当該発話音声の音響特徴から生成された、単語ごとの認識スコア、単語ベクトル、品詞ベクトル、単語ごとの音響特徴の組の列である
ことを特徴とする目的発話推定モデル学習装置。 - 請求項1または2に記載の目的発話推定モデル学習装置であって、
前記目的発話推定モデルは、
時系列データを扱うことができるニューラルネットワークにより学習されるモデルである
ことを特徴とする目的発話推定モデル学習装置。 - 話者が発話した音声と雑音を含む入力音声から、前記話者が発話した音声に対応する発話音声を検出し、前記発話音声の音響特徴を抽出する発話検出部と、
前記発話音声から、認識スコア付き音声認識結果集合を生成する音声認識部と、
前記認識スコア付き音声認識結果集合から、音声認識結果単語ベクトル表現集合、音声認識結果品詞ベクトル表現集合を生成するベクトル表現生成部と、
入力音声から検出した発話音声が所定の目的に適した発話である確率を出力する目的発話推定モデルを用いて、前記発話音声、前記音響特徴、前記認識スコア付き音声認識結果集合、前記音声認識結果単語ベクトル表現集合、前記音声認識結果品詞ベクトル表現集合から、前記発話音声が所定の目的に適した発話であると判定された場合に、前記発話音声と前記認識スコア付き音声認識結果集合を出力する目的発話判定部と
を含む目的発話判定装置。 - 目的発話推定モデル学習装置が、話者が発話した音声と雑音を含む入力音声から、前記話者が発話した音声に対応する発話音声を検出し、前記発話音声の音響特徴を抽出する発話検出ステップと、
前記目的発話推定モデル学習装置が、前記発話音声から、認識スコア付き音声認識結果集合を生成する音声認識ステップと、
前記目的発話推定モデル学習装置が、前記認識スコア付き音声認識結果集合から、音声認識結果単語ベクトル表現集合、音声認識結果品詞ベクトル表現集合を生成するベクトル表現生成ステップと、
前記目的発話推定モデル学習装置が、前記音響特徴、前記認識スコア付き音声認識結果集合、前記音声認識結果単語ベクトル表現集合、前記音声認識結果品詞ベクトル表現集合、前記入力音声の正解である話者が発話した内容を用いて、入力音声から検出した発話音声が所定の目的に適した発話である確率を出力する目的発話推定モデルを学習する目的発話推定モデル学習ステップと
を含む目的発話推定モデル学習方法。 - 請求項5に記載の目的発話推定モデル学習方法であって、
前記目的発話推定モデルの入力は、
発話音声の内容を示すデータである認識スコア付き音声認識結果集合、音声認識結果単語ベクトル表現集合、音声認識結果品詞ベクトル表現集合と当該発話音声の音響特徴から生成された、単語ごとの認識スコア、単語ベクトル、品詞ベクトル、単語ごとの音響特徴の組の列である
ことを特徴とする目的発話推定モデル学習方法。 - 目的発話判定装置が、話者が発話した音声と雑音を含む入力音声から、前記話者が発話した音声に対応する発話音声を検出し、前記発話音声の音響特徴を抽出する発話検出ステップと、
前記目的発話判定装置が、前記発話音声から、認識スコア付き音声認識結果集合を生成する音声認識ステップと、
前記目的発話判定装置が、前記認識スコア付き音声認識結果集合から、音声認識結果単語ベクトル表現集合、音声認識結果品詞ベクトル表現集合を生成するベクトル表現生成ステップと、
前記目的発話判定装置が、入力音声から検出した発話音声が所定の目的に適した発話である確率を出力する目的発話推定モデルを用いて、前記発話音声、前記音響特徴、前記認識スコア付き音声認識結果集合、前記音声認識結果単語ベクトル表現集合、前記音声認識結果品詞ベクトル表現集合から、前記発話音声が所定の目的に適した発話であると判定された場合に、前記発話音声と前記認識スコア付き音声認識結果集合を出力する目的発話判定ステップと
を含む目的発話判定方法。 - 請求項1ないし3の何れか1項に記載の目的発話推定モデル学習装置または請求項4に記載の目的発話判定装置としてコンピュータを機能させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018020773A JP6816047B2 (ja) | 2018-02-08 | 2018-02-08 | 目的発話推定モデル学習装置、目的発話判定装置、目的発話推定モデル学習方法、目的発話判定方法、プログラム |
US16/968,126 US11587553B2 (en) | 2018-02-08 | 2019-02-07 | Appropriate utterance estimate model learning apparatus, appropriate utterance judgement apparatus, appropriate utterance estimate model learning method, appropriate utterance judgement method, and program |
PCT/JP2019/004406 WO2019156162A1 (ja) | 2018-02-08 | 2019-02-07 | 目的発話推定モデル学習装置、目的発話判定装置、目的発話推定モデル学習方法、目的発話判定方法、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018020773A JP6816047B2 (ja) | 2018-02-08 | 2018-02-08 | 目的発話推定モデル学習装置、目的発話判定装置、目的発話推定モデル学習方法、目的発話判定方法、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019139000A JP2019139000A (ja) | 2019-08-22 |
JP6816047B2 true JP6816047B2 (ja) | 2021-01-20 |
Family
ID=67548286
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018020773A Active JP6816047B2 (ja) | 2018-02-08 | 2018-02-08 | 目的発話推定モデル学習装置、目的発話判定装置、目的発話推定モデル学習方法、目的発話判定方法、プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11587553B2 (ja) |
JP (1) | JP6816047B2 (ja) |
WO (1) | WO2019156162A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021051404A1 (en) * | 2019-09-20 | 2021-03-25 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for auxiliary reply |
CN110706707B (zh) | 2019-11-13 | 2020-09-18 | 百度在线网络技术(北京)有限公司 | 用于语音交互的方法、装置、设备和计算机可读存储介质 |
CN116364062B (zh) * | 2023-05-30 | 2023-08-25 | 广州小鹏汽车科技有限公司 | 语音识别方法、装置及车辆 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009025518A (ja) * | 2007-07-19 | 2009-02-05 | Nissan Motor Co Ltd | 音声対話装置 |
JP2014191029A (ja) * | 2013-03-26 | 2014-10-06 | Fuji Soft Inc | 音声認識システムおよび音声認識システムの制御方法 |
KR102305584B1 (ko) * | 2015-01-19 | 2021-09-27 | 삼성전자주식회사 | 언어 모델 학습 방법 및 장치, 언어 인식 방법 및 장치 |
US10192546B1 (en) * | 2015-03-30 | 2019-01-29 | Amazon Technologies, Inc. | Pre-wakeword speech processing |
US10332508B1 (en) * | 2016-03-31 | 2019-06-25 | Amazon Technologies, Inc. | Confidence checking for speech processing and query answering |
US10475471B2 (en) * | 2016-10-11 | 2019-11-12 | Cirrus Logic, Inc. | Detection of acoustic impulse events in voice applications using a neural network |
-
2018
- 2018-02-08 JP JP2018020773A patent/JP6816047B2/ja active Active
-
2019
- 2019-02-07 WO PCT/JP2019/004406 patent/WO2019156162A1/ja active Application Filing
- 2019-02-07 US US16/968,126 patent/US11587553B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US11587553B2 (en) | 2023-02-21 |
JP2019139000A (ja) | 2019-08-22 |
WO2019156162A1 (ja) | 2019-08-15 |
US20210035558A1 (en) | 2021-02-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110457432B (zh) | 面试评分方法、装置、设备及存储介质 | |
CN104903954A (zh) | 使用基于人工神经网络的亚语音单位区分的说话人验证及识别 | |
JP6816047B2 (ja) | 目的発話推定モデル学習装置、目的発話判定装置、目的発話推定モデル学習方法、目的発話判定方法、プログラム | |
JP6553015B2 (ja) | 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム | |
JP2017097188A (ja) | 話者らしさ評価装置、話者識別装置、話者照合装置、話者らしさ評価方法、プログラム | |
JP7409381B2 (ja) | 発話区間検出装置、発話区間検出方法、プログラム | |
JP2018147288A (ja) | 対話破壊特徴量抽出装置、対話破壊モデル学習装置、対話破壊力推定装置、対話破壊特徴量抽出方法、プログラム | |
JP6612277B2 (ja) | ターンテイキングタイミング識別装置、ターンテイキングタイミング識別方法、プログラム、記録媒体 | |
US20210398552A1 (en) | Paralinguistic information estimation apparatus, paralinguistic information estimation method, and program | |
JP2019204117A (ja) | 対話破壊特徴量抽出装置、対話破壊特徴量抽出方法、プログラム | |
Nguyen et al. | Resident identification in smart home by voice biometrics | |
JP7176629B2 (ja) | 識別モデル学習装置、識別装置、識別モデル学習方法、識別方法、プログラム | |
JP7111017B2 (ja) | パラ言語情報推定モデル学習装置、パラ言語情報推定装置、およびプログラム | |
JP7279800B2 (ja) | 学習装置、推定装置、それらの方法、およびプログラム | |
JP6804639B2 (ja) | 属性識別装置、属性識別方法、プログラム | |
JP7028203B2 (ja) | 音声認識装置、音声認識方法、プログラム | |
Shastri et al. | Adversarial Synthesis based Data Augmentation for Speech Classification | |
JP6852167B2 (ja) | コンフュージョンネットワーク分散表現生成装置、コンフュージョンネットワーク分類装置、コンフュージョンネットワーク分散表現生成方法、コンフュージョンネットワーク分類方法、プログラム | |
KR20110071742A (ko) | 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법 | |
Dharmatti et al. | Interview Practice-Voice-Based Chatbot | |
El Hajji et al. | Transfer Learning based Audio Classification for a noisy and speechless recordings detection task, in a classroom context. | |
Adma et al. | Conversational Speech Emotion Recognition From Indonesian Spoken Language Using Recurrent Neural Network-Based Model | |
Naibaho et al. | A Detailed Analysis for the Performance of Artificial Intelligence System in Voice Recognition and its Classifications | |
JP7218810B2 (ja) | 音声非音声判定装置、音声非音声判定用モデルパラメータ学習装置、音声非音声判定方法、音声非音声判定用モデルパラメータ学習方法、プログラム | |
US11462212B2 (en) | Document identification device, document identification method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200219 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201222 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201223 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6816047 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |