JP6816047B2

JP6816047B2 - 目的発話推定モデル学習装置、目的発話判定装置、目的発話推定モデル学習方法、目的発話判定方法、プログラム

Info

Publication number: JP6816047B2
Application number: JP2018020773A
Authority: JP
Inventors: 中村　孝; 孝中村; 隆朗福冨
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2018-02-08
Filing date: 2018-02-08
Publication date: 2021-01-20
Anticipated expiration: 2038-02-08
Also published as: US11587553B2; JP2019139000A; WO2019156162A1; US20210035558A1

Description

本発明は、入力音声から検出した発話音声が所定の目的に適した音声であるか否かを判定する技術に関する。

発話音声を検出・認識する技術には多くの応用分野があるが、その１つに音声対話処理がある。音声対話処理の分野では、様々な方式が提案され、実用化されている（非特許文献１、非特許文献２）。

Diane Litman and Kate Forbes-Riley, "Evaluating a Spoken Dialogue System that Detects and Adapts to User Affective States", Proceedings of SIGDIAL 2014 Conference, Philadelpha, U.S.A., pp.181-185, 2014. 辻野孝輔，栄藤稔，礒田佳徳，飯塚真也，"実サービスにおける音声認識と自然言語インタフェース技術"，人工知能学会誌，28巻1号，pp.75-81，2013．

従来の音声対話処理方式の中には、最初に検出した音声を音声認識し、対話処理を進めてしまうものもあり、このため、ちょっとした雑音を発話音声として検出した場合には、対話が破綻してしまうという問題がある。したがって、入力音声から検出した発話音声が所定の音声処理アプリケーションに用いるのに適した音声であるか否かを判定してから、各音声処理アプリケーションに用いることが重要になる。

そこで本発明は、入力音声から検出した発話音声が所定の目的に適した音声であるか否かを判定する技術を提供することを目的とする。

本発明の一態様は、話者が発話した音声と雑音を含む入力音声から、前記話者が発話した音声に対応する発話音声を検出し、前記発話音声の音響特徴を抽出する発話検出部と、前記発話音声から、認識スコア付き音声認識結果集合を生成する音声認識部と、前記認識スコア付き音声認識結果集合から、音声認識結果単語ベクトル表現集合、音声認識結果品詞ベクトル表現集合を生成するベクトル表現生成部と、前記音響特徴、前記認識スコア付き音声認識結果集合、前記音声認識結果単語ベクトル表現集合、前記音声認識結果品詞ベクトル表現集合、前記入力音声の正解である話者が発話した内容を用いて、入力音声から検出した発話音声が所定の目的に適した発話である確率を出力する目的発話推定モデルを学習する目的発話推定モデル学習部とを含む。

本発明の一態様は、話者が発話した音声と雑音を含む入力音声から、前記話者が発話した音声に対応する発話音声を検出し、前記発話音声の音響特徴を抽出する発話検出部と、前記発話音声から、認識スコア付き音声認識結果集合を生成する音声認識部と、前記認識スコア付き音声認識結果集合から、音声認識結果単語ベクトル表現集合、音声認識結果品詞ベクトル表現集合を生成するベクトル表現生成部と、入力音声から検出した発話音声が所定の目的に適した発話である確率を出力する目的発話推定モデルを用いて、前記発話音声、前記音響特徴、前記認識スコア付き音声認識結果集合、前記音声認識結果単語ベクトル表現集合、前記音声認識結果品詞ベクトル表現集合から、前記発話音声が所定の目的に適した発話であると判定された場合に、前記発話音声と前記認識スコア付き音声認識結果集合を出力する目的発話判定部とを含む。

本発明によれば、入力音声から検出した発話音声が所定の目的に適した音声であるか否かを判定することが可能となる。

目的発話推定モデル学習装置１００の構成の一例を示す図。目的発話推定モデル学習装置１００の動作の一例を示す図。目的発話判定装置２００の構成の一例を示す図。目的発話判定装置２００の動作の一例を示す図。

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

＜第一実施形態＞
［目的発話推定モデル学習装置１００］
以下、図１〜図２を参照して目的発話推定モデル学習装置１００について説明する。図１は、目的発話推定モデル学習装置１００の構成を示すブロック図である。図２は、目的発話推定モデル学習装置１００の動作を示すフローチャートである。図１に示すように目的発話推定モデル学習装置１００は、発話検出部１１０、音声認識部１２０、ベクトル表現生成部１３０、目的発話推定モデル学習部１４０、記録部１９０を含む。記録部１９０は、目的発話推定モデル学習装置１００の処理に必要な情報を適宜記録する構成部である。

目的発話推定モデル学習装置１００は、入力音声から検出した発話音声が所定の目的に適した発話である確率を出力する目的発話推定モデルを学習する。目的発話推定モデルの入力や学習方法については、後述する。

図２に従い目的発話推定モデル学習装置１００の動作について説明する。

Ｓ１１０において、発話検出部１１０は、話者が発話した音声と雑音を含む入力音声から、当該話者が発話した音声に対応する発話音声を検出し、当該発話音声の音響特徴を抽出する。ここで、入力音声は音声波形として入力され、発話音声は音声波形として検出される。また、音響特徴として、例えば、音声パワー、ＳＮ比を用いる。発話音声の検出には、例えば、参考特許文献１や参考非特許文献１に記載の方法を用いることができる。
（参考特許文献１：特開２０１４−２９４０７号公報）
（参考非特許文献１：Masakiyo Fujimoto and Tomohiro Nakatani, “Feature enhancement based on generative-discriminative hybrid approach with GMMs and DNNs for noise robust speech recognition”, in Proceedings of ICASSP 2015, pp.5019-5023, 2015.）

なお、発話検出部１１０は、発話音声を音声認識部１２０に、音響特徴を目的発話推定モデル学習部１４０に出力する。

また、発話検出部１１０は、発話音声の検出に際して、発話開始時刻と発話終了時刻をあわせて検出するようにしてもよい。この場合、発話検出部１１０は、発話音声を音声認識部１２０に、発話開始時刻、発話終了時刻、音響特徴量を目的発話推定モデル学習部１４０に出力する。

Ｓ１２０において、音声認識部１２０は、Ｓ１１０で検出した発話音声から、認識スコア付き音声認識結果集合を生成する。一般に、発話音声を音声認識すると、複数の音声認識結果が候補として生成される。音声認識結果は、話者が発話したと推定される内容であり、例えば、テキストとして表現される。また、各音声認識結果に対して、その正しさの指標となる認識スコア（例えば、信頼度、音響スコア、言語スコア）もあわせて生成される。なお、認識スコアは、信頼度、音響スコア、言語スコアの何れか１つの数値でもよいし、これらの組合せでもよい。ここで、信頼度とは、音声認識エンジンである音声認識部１２０が認識結果の単語をどの程度自信をもって出力しているかを表す数値であり、認識結果の各単語について、候補が多くなるほど信頼度は低くなる傾向がある。また、音響スコアとは、音響モデルが出力するスコア、つまり、入力である発話音声の音響特徴と音響モデルの特性の類似度を表すものであり、両者が類似している場合に高い値となる。また、言語スコアとは、言語モデルが出力するスコア、つまり、認識結果の単語の系列と言語モデルの適合度を表すものであり、両者が適合する場合に高い値となる。

したがって、認識スコア付き音声認識結果集合とは、認識スコアが付与された音声認識結果（単語）の集合のことである。

Ｓ１３０において、ベクトル表現生成部１３０は、Ｓ１２０で生成した認識スコア付き音声認識結果集合から、音声認識結果単語ベクトル表現集合、音声認識結果品詞ベクトル表現集合を生成する。音声認識結果単語ベクトル表現集合とは、音声認識結果に含まれる単語をベクトルで表現したもの（以下、単語ベクトル表現という）を要素とする集合であり、音声認識結果品詞ベクトル表現集合とは、音声認識結果に含まれる単語の品詞をベクトルで表現したもの（以下、品詞ベクトル表現という）を要素とする集合である。具体的には、以下のように、各ベクトル表現を生成する。まず、ベクトル表現生成部１３０は、認識スコア付き音声認識結果集合に含まれる音声認識結果それぞれに対して、形態素解析を実行し、単語ごとに分かち書きを行う。この形態素解析により分かち書きされた各単語について、少なくとも品詞の情報が得られているものとする。次に、分かち書きされた単語に対して、例えば、参考非特許文献２に記載のword2vec(skip-gram)のような単語ベクトル表現生成技術を用いて、単語ベクトル表現を生成する。
（参考非特許文献２：T. Mikolov, I. Sutskever, K. Chen, G. Corrado, J. Dean, “Distributed Representations of Words and Phrases and their Compositionality”, Cornell University Library, arXiv:1310.4546[cs.CL], “https://arxiv.org/pdf/1310.4546v1.pdf”, 2013.）

また、分かち書きされた単語の品詞に対して、例えば、1-of-K表現を用いてベクトル表現に変換することにより、品詞ベクトル表現を生成する。

Ｓ１４０において、目的発話推定モデル学習部１４０は、Ｓ１１０で抽出した音響特徴、Ｓ１２０で生成した認識スコア付き音声認識結果集合、Ｓ１３０で生成した音声認識結果単語ベクトル表現集合、音声認識結果品詞ベクトル表現集合、Ｓ１１０で入力された入力音声の正解である話者が発話した内容を用いて、目的発話推定モデルを学習する。入力音声は時系列データであるので、目的発話推定モデルは、例えば、再帰的ニューラルネットワークRNN(Recurrnet Neural Networks)、LSTM(Long Short-Term Memory)、GRU(Gated Recurrent Unit)のような時系列データを扱うことができるニューラルネットワークにより、学習することができる。つまり、目的発話推定モデルは、時系列データを扱うことができるニューラルネットワークにより学習されるモデル（以下、時系列統計モデルという）となる。目的発話推定モデルの入力は、発話音声の内容を示すデータである認識スコア付き音声認識結果集合、音声認識結果単語ベクトル表現集合、音声認識結果品詞ベクトル表現集合と当該発話音声の音響特徴から生成された、単語ごとの認識スコア、単語ベクトル、品詞ベクトル、単語ごとの音響特徴の組の列である。ここで、単語ごとの音響特徴とは、単語ごとの音声波形が有する音響特徴を表す。また、単語ごとの音響特徴は、個々の音響特徴（音声パワー、ＳＮ比など）の組合せであってもよい。したがって、目的発話推定モデルは、入力音声から検出された発話音声から生成された、単語ごとの認識スコア、単語ベクトル、品詞ベクトル、単語ごとの音響特徴の組の列を入力とし、当該発話音声が所定の目的に適した発話である確率（以下、出力クラス事後確率という）を出力する時系列統計モデルである。

なお、出力クラス事後確率をpとして、棄却クラス事後確率を1-pとして計算する。つまり、棄却クラス事後確率は、入力音声から検出された発話音声を所定の目的に適した発話でないとして棄却する確率である。

先述の通り、Ｓ１１０において、発話検出部１１０が発話開始時刻、発話終了時刻をあわせて検出する場合は、発話開始時刻、発話終了時刻は、目的発話推定モデル学習部１４０の入力となる。つまり、Ｓ１４０において、目的発話推定モデル学習部１４０は、Ｓ１１０で抽出した音響特徴、Ｓ１１０で検出した発話開始時刻と発話終了時刻、Ｓ１２０で生成した認識スコア付き音声認識結果集合、Ｓ１３０で生成した音声認識結果単語ベクトル表現集合、音声認識結果品詞ベクトル表現集合、Ｓ１１０で入力された入力音声の正解である話者が発話した内容を用いて、目的発話推定モデルを学習する。このとき、発話終了時刻と発話開始時刻の差として計算される発話時間長も目的発話推定モデルの入力とする。つまり、目的発話推定モデルは、入力音声から検出された発話音声から生成された、単語ごとの認識スコア、単語ベクトル、品詞ベクトル、単語ごとの音響特徴の組の列と発話時間長を入力とし、出力クラス事後確率を出力する時系列統計モデルとなる。このように、発話時間長を目的発話推定モデルの入力に加えることにより、発話時間長の長さを考慮した目的発話推定モデルを学習することができるようになるため、例えば、突発的な雑音を（後述する目的発話判定装置２００の）発話検出部１１０が発話時間長の短い発話音声として誤検知してしまった場合に、（目的発話判定部２４０は）目的発話推定モデルを用いて棄却できるようになる。

［目的発話判定装置２００］
以下、図３〜図４を参照して目的発話判定装置２００について説明する。図３は、目的発話判定装置２００の構成を示すブロック図である。図４は、目的発話判定装置２００の動作を示すフローチャートである。図３に示すように目的発話判定装置２００は、発話検出部１１０、音声認識部１２０、ベクトル表現生成部１３０、目的発話判定部２４０、記録部１９０を含む。記録部１９０は、目的発話判定装置２００の処理に必要な情報を適宜記録する構成部である。例えば、目的発話推定モデル学習装置１００が学習した目的発話推定モデルを記録しておく。

目的発話判定装置２００は、目的発話推定モデルを用いて、入力音声から検出した発話音声が所定の目的に適した発話であるか否かを判定する。

図４に従い目的発話判定装置２００の動作について説明する。以下、目的発話判定部２４０について説明する。

Ｓ２４０において、目的発話判定部２４０は、目的発話推定モデルを用いて、Ｓ１１０で検出した発話音声、Ｓ１１０で抽出した音響特徴、Ｓ１２０で生成した認識スコア付き音声認識結果集合、Ｓ１３０で生成した音声認識結果単語ベクトル表現集合、音声認識結果品詞ベクトル表現集合から、当該発話音声が所定の目的に適した発話であると判定された場合に、発話音声と認識スコア付き音声認識結果集合を出力する。具体的には、以下の手順にて処理する。まず、認識スコア付き音声認識結果集合、音声認識結果単語ベクトル表現集合、音声認識結果品詞ベクトル表現集合、音響特徴から生成された、単語ごとの認識スコア、単語ベクトル、品詞ベクトル、単語ごとの音響特徴の組の列を目的発話推定モデルに入力し、発話音声の出力クラス事後確率pを出力として得る。次に、出力クラス事後確率pと棄却クラス事後確率1-pの比p/(1-p)を計算する。最後に、出力クラス事後確率と棄却クラス事後確率の比p/(1-p)比と所定の閾値θを比較し、p/(1-p)>θ（またはp/(1-p)≧θ）が成り立つ場合は、当該発話音声が所定の目的に適した発話であると判定し、発話音声と認識スコア付き音声認識結果集合の組を出力する。一方、p/(1-p)≦θ（またはp/(1-p)<θ）が成り立つ場合は、当該発話音声は所定の目的に適した発話ではないと判定し、その旨出力する。

なお、目的発話推定モデル学習装置１００の発話検出部１１０が発話開始時刻と発話終了時刻も検出する場合には、目的発話判定装置２００の発話検出部１１０も発話開始時刻と発話終了時刻を検出し、目的発話判定部２４０に出力するものとする。

本実施形態の発明によれば、入力音声から検出した発話音声が所定の目的に適した音声であるか否かを判定することが可能となる。例えば、音声対話に適さない発話音声を棄却できるようになるため、円滑な音声対話が可能となる。棄却するか否かの判定に際して、発話音声の内容を示すデータを用いているため、想定する音声対話の用途に適しているか否か判定し、必要に応じて発話音声を棄却することができるようになる。また、発話音声の内容を示すデータと音響特徴の両方を用いているため、例えば、想定する音声対話の用途は類似するが、当該音声が背景雑音（例えば、テレビ音声などの雑音）である場合に、必要に応じて発話音声を棄却することができるようになる。

＜補記＞
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置（例えば通信ケーブル）が接続可能な通信部、ＣＰＵ（Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい）、メモリであるＲＡＭやＲＯＭ、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、ＣＤ−ＲＯＭなどの記録媒体を読み書きできる装置（ドライブ）などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている（外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくこととしてもよい）。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。

ハードウェアエンティティでは、外部記憶装置（あるいはＲＯＭなど）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にＣＰＵで解釈実行・処理される。その結果、ＣＰＵが所定の機能（上記、…部、…手段などと表した各構成要件）を実現する。

本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

既述のように、上記実施形態において説明したハードウェアエンティティ（本発明の装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

話者が発話した音声と雑音を含む入力音声から、前記話者が発話した音声に対応する発話音声を検出し、前記発話音声の音響特徴を抽出する発話検出部と、
前記発話音声から、認識スコア付き音声認識結果集合を生成する音声認識部と、
前記認識スコア付き音声認識結果集合から、音声認識結果単語ベクトル表現集合、音声認識結果品詞ベクトル表現集合を生成するベクトル表現生成部と、
前記音響特徴、前記認識スコア付き音声認識結果集合、前記音声認識結果単語ベクトル表現集合、前記音声認識結果品詞ベクトル表現集合、前記入力音声の正解である話者が発話した内容を用いて、入力音声から検出した発話音声が所定の目的に適した発話である確率を出力する目的発話推定モデルを学習する目的発話推定モデル学習部と
を含む目的発話推定モデル学習装置。
請求項１に記載の目的発話推定モデル学習装置であって、
前記目的発話推定モデルの入力は、
発話音声の内容を示すデータである認識スコア付き音声認識結果集合、音声認識結果単語ベクトル表現集合、音声認識結果品詞ベクトル表現集合と当該発話音声の音響特徴から生成された、単語ごとの認識スコア、単語ベクトル、品詞ベクトル、単語ごとの音響特徴の組の列である
ことを特徴とする目的発話推定モデル学習装置。
請求項１または２に記載の目的発話推定モデル学習装置であって、
前記目的発話推定モデルは、
時系列データを扱うことができるニューラルネットワークにより学習されるモデルである
ことを特徴とする目的発話推定モデル学習装置。
話者が発話した音声と雑音を含む入力音声から、前記話者が発話した音声に対応する発話音声を検出し、前記発話音声の音響特徴を抽出する発話検出部と、
前記発話音声から、認識スコア付き音声認識結果集合を生成する音声認識部と、
前記認識スコア付き音声認識結果集合から、音声認識結果単語ベクトル表現集合、音声認識結果品詞ベクトル表現集合を生成するベクトル表現生成部と、
入力音声から検出した発話音声が所定の目的に適した発話である確率を出力する目的発話推定モデルを用いて、前記発話音声、前記音響特徴、前記認識スコア付き音声認識結果集合、前記音声認識結果単語ベクトル表現集合、前記音声認識結果品詞ベクトル表現集合から、前記発話音声が所定の目的に適した発話であると判定された場合に、前記発話音声と前記認識スコア付き音声認識結果集合を出力する目的発話判定部と
を含む目的発話判定装置。
目的発話推定モデル学習装置が、話者が発話した音声と雑音を含む入力音声から、前記話者が発話した音声に対応する発話音声を検出し、前記発話音声の音響特徴を抽出する発話検出ステップと、
前記目的発話推定モデル学習装置が、前記発話音声から、認識スコア付き音声認識結果集合を生成する音声認識ステップと、
前記目的発話推定モデル学習装置が、前記認識スコア付き音声認識結果集合から、音声認識結果単語ベクトル表現集合、音声認識結果品詞ベクトル表現集合を生成するベクトル表現生成ステップと、
前記目的発話推定モデル学習装置が、前記音響特徴、前記認識スコア付き音声認識結果集合、前記音声認識結果単語ベクトル表現集合、前記音声認識結果品詞ベクトル表現集合、前記入力音声の正解である話者が発話した内容を用いて、入力音声から検出した発話音声が所定の目的に適した発話である確率を出力する目的発話推定モデルを学習する目的発話推定モデル学習ステップと
を含む目的発話推定モデル学習方法。
請求項５に記載の目的発話推定モデル学習方法であって、
前記目的発話推定モデルの入力は、
発話音声の内容を示すデータである認識スコア付き音声認識結果集合、音声認識結果単語ベクトル表現集合、音声認識結果品詞ベクトル表現集合と当該発話音声の音響特徴から生成された、単語ごとの認識スコア、単語ベクトル、品詞ベクトル、単語ごとの音響特徴の組の列である
ことを特徴とする目的発話推定モデル学習方法。
目的発話判定装置が、話者が発話した音声と雑音を含む入力音声から、前記話者が発話した音声に対応する発話音声を検出し、前記発話音声の音響特徴を抽出する発話検出ステップと、
前記目的発話判定装置が、前記発話音声から、認識スコア付き音声認識結果集合を生成する音声認識ステップと、
前記目的発話判定装置が、前記認識スコア付き音声認識結果集合から、音声認識結果単語ベクトル表現集合、音声認識結果品詞ベクトル表現集合を生成するベクトル表現生成ステップと、
前記目的発話判定装置が、入力音声から検出した発話音声が所定の目的に適した発話である確率を出力する目的発話推定モデルを用いて、前記発話音声、前記音響特徴、前記認識スコア付き音声認識結果集合、前記音声認識結果単語ベクトル表現集合、前記音声認識結果品詞ベクトル表現集合から、前記発話音声が所定の目的に適した発話であると判定された場合に、前記発話音声と前記認識スコア付き音声認識結果集合を出力する目的発話判定ステップと
を含む目的発話判定方法。
請求項１ないし３の何れか１項に記載の目的発話推定モデル学習装置または請求項４に記載の目的発話判定装置としてコンピュータを機能させるためのプログラム。