JP2021076818A

JP2021076818A - 音声対話するための方法、装置、デバイス及びコンピュータ読み取り可能な記憶媒体

Info

Publication number: JP2021076818A
Application number: JP2020098617A
Authority: JP
Inventors: ジージャンワン; Zhijian Wang; ジンフェンバイ; Jinfeng Bai; シェンチェン; Sheng Qian; レイジア; Lei Jia
Original assignee: Baidu Online Network Technology Beijing Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd
Priority date: 2019-11-13
Filing date: 2020-06-05
Publication date: 2021-05-20
Anticipated expiration: 2040-06-05
Also published as: JP7063937B2; US20210142819A1; US11393490B2; CN110706707B; CN110706707A

Abstract

【課題】複数の次元から音声対話デバイスが取得した音声信号に応答するか否かを決定することで、より正確で且つインテリジェントに音声対話制御を実現し、ユーザ体験を向上させる。【解決手段】音声対話方法は、受信した音声信号の音声特徴に基づいて、音声信号に対応するテキストを決定するステップと、音声特徴とテキストに基づき、テキストにおける要素の参照音声特徴と要素の目標音声特徴との間の類似度を決定するステップと、テキストに基づいて、音声信号が前記実行可能なコマンドである第１の可能性を判定するステップと、音声特徴に基づいて音声信号が実行可能なコマンドである第２の可能性を判定するステップと、類似度、第１の可能性および前記第２の可能性に基づいて、前記音声信号の処理に関する情報を決定するステップと、を備える。【選択図】図２

Description

本開示の実施例は主に人工知能分野に関し、さらに具体的には、音声対話をするための方法、装置、デバイス及びコンピュータ読み取り可能な記憶媒体に関する。

音声対話技術とは、人間が音声で機械と対話する技術であり、自然言語の対話に類似する音声対話体験を実現する。ヒューマンコンピュータインタラクションは、マウス及びキーボードとスクリーンとを協力させることによりインタラクションするコンピュータ時代から、タッチパネルで直接インタラクションするスマートフォン時代に進んで来る。マンマシンインタラクションの方式はますます簡単となり、対話の支障が少なくなる。人工知能及び移動インターネットの発展に伴い、人と人との間の自然言語に類似する音声対話は、徐ヒューマンコンピュータインタラクションの新型の方式になりつつある。音声対話は、入力帯域幅が大きいことと、正確性が高いことと、移動の便利性に優れることと、利用しやすいこと等の利点を兼ね、ヒューマンコンピュータインタラクションに最適な対話方式の一つである。

音声対話によってヒューマンコンピュータインタラクションを実現することで、情報の処理効率を向上させるとともに、ユーザと機械とのインタラクションがより便利になる。しかしながら、このようなインタラクションでは、多くの解決すべき問題がある。

本開示の実施例によれば、音声対話のための方案が提供される。

本開示の第１の態様においては、音声対話の方法を提供する。この方法は、音声対話するための方法であって、受信した音声信号の音声特徴に基づいて、音声信号に対応するテキストを決定するステップと、音声特徴とテキストに基づいて、テキストにおける要素の参照音声特徴と要素の目標音声特徴との間の類似度を決定するステップと、テキストに基づいて、音声信号が実行可能なコマンドである第１の可能性を判定するステップと、音声特徴に基づいて、音声信号が前記実行可能なコマンドである第２の可能性を判定するステップと、類似度と、第１の可能性と、第２の可能性とに基づいて、音声信号の処理に関する情報を決定するステップとを含む。

本開示の第２態様においては、音声対話のための装置を提供する。この装置は、受信した音声信号の音声特徴に基づいて、音声信号に対応するテキストを決定するように配置されるテキスト決定部と、音声特徴とテキストに基づいて、テキストにおける要素の参照音声特徴と要素の目標音声特徴との間の類似度を決定するように配置される第１の類似度決定部と、テキストに基づいて、前記音声信号が実行可能なコマンドである第１の可能性を判定するように配置される第１の可能性判定部と、音声特徴に基づいて、音声信号が実行可能なコマンドである第２の可能性を判定するように配置される第２の可能性判定部と、類似度と、第１の可能性と、第２の可能性とに基づいて、音声信号の処理に関する情報を決定するように配置される第１の情報決定部とを含む。

本開示の第３態様において、電子機器であって、１または複数のプロセッサと、１または複数のコンピュータプログラムを記憶した記憶装置と、を備え、前記１又は複数のコンピュータプログラムが前記１又は複数のプロセッサにより実行されと、前記１または複数のプロセッサに本開示の第１の態様に記載の方法を実現させる電子機器を提供する。

本開示の第４態様において、プロセッサにより実行されると、本開示の第１の態様に記載の方法を実現するコンピュータプログラムを記録したコンピュータ読み取り可能な記録媒体を提供する。

なお、本開示の発明の概要の記述内容は、本開示の実施例の肝要の特徴、又は重要な特徴を限定するためのものではなく、本開示の範囲を限定するためのものでもない。本発明の他の特徴は、以下の記述より容易に理解される。

以下に図面を参照しながら詳細に説明することにより、本開示の各実施例の上記の特徴及び他の特徴、利点はより明らかになる。図面における同様又は類似の符号が同様又は類似の素子を示す。
本開示の複数の実施例を実施可能な環境１００を示す模式図である。本発明の幾つかの実施例に係る音声対話の方法２００のフローチャートである。本発明の幾つかの実施例に係る音声対話の方法３００のフローチャートである。本開示の幾つかの実施例に係る音声対話に用いられる装置４００のブロック図である。本開示の複数の実施例を実施可能なデバイス５００のブロック図を示す。

以下は、本発明の実施例について、図面を参照して詳細に説明する。本開示の幾つかの実施例を図面に示したが、本開示は、様々な形態で実施されることが可能であり、また、本明細書に記述の実施例に限定されると解釈されるべきではない。逆に、これらの実施例は、本開示をより完全に理解するためのものである。本開示の図面及び実施例は、本開示の保護範囲を限定するものではなく、例示的なものである。

本開示の実施例の説明において、用語「…を含む」及び類似の用語は、開放的に含むと解釈すべきであり、即ち、「…を含むが、これに限られない」という意味である。用語「…に基づく」は、「…の少なくとも一部に基づく」と解釈されるべきである。また、用語「一実施例」または「当該実施例」は、「少なくとも一つの実施例」として解釈されるべきものである。「第１」、「第２」等の用語は、異なるオブジェクトを意味してもよいし、同一のオブジェクトを意味してもよい。また、以下に他の明確な定義を含む場合もある。

音声対話を実現する時、主に「一回のウェイクアップは、一回の対話」いう方式を採用する。該対話方式は、ウェイクアップワード検出の技術と製品ポリシーとの結合によるものであり、ユーザがデバイスを起動させるウェイクアップワードを発話すると、当該デバイス内蔵されたウェイクアップワード検出モジュールは、該ウェイクアップワード信号を検出し、すると、認識用のリスニングを起動する。音声尾点を検出した場合、又は予め設定された時間に達してリスニングが終了した場合、リスニング期間に受信した音声を認識して、ユーザの要求に応答することを主な特徴とする。

しかし、「一回のウェイクアップは一回のインタラクション」の方式には、様々な問題がある。第一、ユーザがデバイスと対話する度に、ウェイクアップワードを発話する必要があり、毎回の対話が複雑になる。第二、ユーザーがウェイクアップした直後にデバイスに発話しない場合、デバイスが誤応答する恐れがある。また、例えば夜間の休息時間等、適切でない時間に誤ってウェイクアップした場合、ユーザ体験が非常に悪い。

本開示の実施例に基づき、音声インタラクションの改善方法を提供する。この態様では、受信した音声信号の音声特徴に基づいて、音声信号に対応するテキストが決定される。そして、音声特徴とテキストとに基づいて、テキスト中の要素についての参照音声特徴と、要素についての音声特徴との類似度を決定する。また、テキストおよび音声の特徴に基づいて、音声信号が実行可能なコマンドである第１の可能性および第２の可能性を判定する。そして、類似度と、第１の可能性と、第２の可能性とに基づいて、音声信号の処理に関する情報を決定する。該方法により、複数の次元から音声対話デバイスが取得した音声信号に応答すべきか否か、及びどのように音声信号に応答するかを決定することができ、それによりより正確で、スマートに音声対話制御を実現し、ユーザ体験を向上させる。

図１は、本開示の複数の実施例が実施可能な環境１００の概略図である。該例示の環境１００では、マンマシンインタラクションを行う際に、得られた音声信号１１０が管理デバイス１２０に送信される。

音声信号１１０は、ユーザとの対話を実行する任意の音声対話デバイスにより取得することができる。幾つかの実施例において、ユーザが、音声対話デバイスに対し発話すると、音声１１０が取得されることができる。幾つかの実施例において、音声対話デバイスがユーザの周囲に存在する場合、ユーザが他の人と対話すると、音声対話デバイスは、音声信号１１０を取得することができる。幾つかの実施例において、音声信号１１０は、例えば、テレビ内の発話音声のような、音声対話デバイスにより受信された他の音声信号であってもよい。幾つかの実施例において、音声信号１１０は、一回のウェイクアップで、複数回の対話を実行する音声対話デバイスによって取得される。上記の例は、本開示を説明するためのものに過ぎず、本開示を具体的に限定するものではない。

音声対話デバイスは、ユーザの音声指示を収集するための、互いに関連する集音器（例えば、１つ又は複数のマイクロフォン）を有してもよい。音声対話デバイスは、音声を再生するための、互いに関連する音響再生装置（例えば、１または複数のスピーカ）をさらに備えてもよい。

音声対話デバイスは、音声信号を介して制御及び／又は対話を行う可能であれば、如何なる電子デバイスであってもよい。音声対話デバイスは、例として、スマートボックス、音声対話テレビボックス、スマート家電、音声個人指導機、スマートロボット、地図ナビゲーションデバイス、スマートウェアラブルデバイス等が挙げられるが、それらに限られまい。音声対話デバイスは、音声対話アプリケーションがインストールされた他の電子装置であってもよい。音声対話アプリケーションは、例えば、音声アシスタントアプリケーション、スマートカーシステム、情報検索アプリケーション、地図アプリケーション、ソーシャルプラットフォームアプリケーション、オーディオ・ビデオ再生アプリケーション、スマートアシスタントアプリケーションなどであってもよい。このような音声対話アプリケーションがインストールされる電子デバイスは、例として、スマートフォン、マルチメディアコンピュータ、マルチメディアタブレット端末、インターネットノード、通信装置、デスクトップコンピュータ、ノート型コンピュータ、インタネットにアクセス可能なノートブックコンピュータ、タブレットコンピュータ、パーソナルナビゲーション装置、パーソナルデジタルアシスタント（ＰＤＡ）、オーディオ／ビデオプレーヤ、デジタルカメラ／ビデオカメラ、測位装置、電子ブック装置、ゲーム装置又は上記各項目の任意の組み合わせが挙げられるが、それらに限られない。

例えば、音声対話デバイスがスマートボックスである場合、音声指令は「＊＊＊歌手の歌を再生してください」などであってもよく、音声対話デバイスは、音声信号が正しく認識された後に、対応する歌を検索してユーザのために再生することができる。

音声対話デバイスと対話する際に、一般的に、ウェイクアップワードを用いて、音声対話デバイスを対話状態とするようにウェイクアップする必要がある。音声対話デバイスは、一回のウェイクアップで複数回の対話をサポートすることができる。一回のウェイクアップで複数回の対話の場合では、一旦、音声対話デバイスがウェイクアップされた後、例えば音声を発しているなど、デバイスが動作状態にあれば、ユーザは、再びウェイクアップワードを発することなく、直接音声インタラクションデバイスと対話することができる。これにより、対話の支障が低減し、ユーザの対話の意欲が向上する。幾つかの実施例において、対話は、例えば、電気の問い合わせ等のような問い合わせのカテゴリに属する場合、音声対話デバイスの回答が完了してから一定の期間（例えば一日）内に、ユーザは、デバイスを再びウェイクアップすることなく、対話を継続することができる。

音声信号１１０は、管理デバイス１２０に送信され、処理される。管理デバイス１２０は、受信した音声信号１１０に基づいて、音声信号１１０が、ユーザにより発され、音声対話デバイスにより実行されるコマンドであるか否かを判断する。肯定である場合、管理デバイス１２０は、実行の指令を含む情報１３０、或いは、請求されるコンテンツを含む情報１３０を音声対話デバイスに処理させるように送信する。

幾つかの実施例において、管理デバイス１２０は、クラウド側に位置する計算装置であり、音声対話デバイスからアップロードされた音声データを処理するために用いられる。幾つかの実施例において、管理デバイス１２０は、音声対話デバイスと同一のデバイスである。これにより、音声信号１１０は、音声信号１１０を受信した音声対話デバイスにより処理されることも可能である。音声対話デバイスは、音声信号１１０により実行されるコマンドであるか否かを直接認識する。幾つかの実施例において、管理デバイス１２０は、パーソナルコンピュータ、サーバコンピュータ、携帯型又は膝上型のデバイス、モバイルデバイス（例えば携帯電話、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、メディアプレーヤ等）、マルチプロセッサシステム、消費電子製品、小型コンピュータ、大型コンピュータ、これらのシステム又はデバイスのうちのいずれかを含む分散計算環境等を含むがこれらに限られない。

なお、図１に示した環境は例示的なものに過ぎず、本発明を具体的に限定するものではないと理解されるべきである。

以上、図１に、本開示の複数の実施例が実施可能な環境１００の模式図が示される。次に、図２を参照しながら、本開示の幾つかの実施例に係る音声対話方法２００のフローチャートについて説明する。方法２００は、図１の管理デバイス１２０や他の任意の適切な装置で実施することができる。

ステップ２０２において、管理デバイス１２０は、受信した音声信号１１０の音声特徴に基づいて、音声信号１１０に対応するテキストを決定する。管理デバイス１２０は、受信した音声信号１１０に対して、音声認識器を用いて音声認識処理を行う。音声認識器により、受信した音声信号１１０を音声信号１１０に対応するテキストとして認識することができる。幾つかの実施例において、音声信号１１０は様々な音声特徴を含むことができ、音声特徴は、例えば、声紋特徴、イントネーション特徴、又は音声を記述する他の適切な特徴であってもよいが、それらに限らない。なお、上述した音声特徴の例は、本開示の実施の形態を説明するためのものであり、本開示の具体的な限定を表すものではない。

管理デバイス１２０は、音声信号１１０を受信する。幾つかの実施例において、管理デバイス１２０は、音声信号１１０を処理する装置である場合、管理デバイス１２０は、音声対話デバイスによりリアルタイムにアップロードされる音声信号１１０を受信するために用いられる。幾つかの実施例において、管理デバイス１２０は音声対話デバイスと同一のものであり、音声対話デバイスにおいて直接処理する。

また、管理デバイス１２０は、声認識器により、音受信した音声信号１１０から音声特徴を抽出する。音声認識器は、音声信号１１０に対応するテキストを生成する際にも、抽出される音声特徴を必要とする。幾つかの実施例において、該音声特徴はメルケプストラム係数ＭＦＣＣ特徴である。上記の例は、本開示を説明するためのものであり、本開示を具体的に限定するものではない。当業者は、どのようなパラメータで音声特徴を表すかについて、必要に応じて任意に設定することができる。

ボックス２０４では、管理デバイス１２０は、音声特徴とテキストとに基づいて、テキスト中の要素の参照音声特徴と、その要素に関する目標音声特徴との類似度を決定する。幾つかの実施例において、該要素は、テキスト中の字を指す。幾つかの実施例において、該要素はテキストにおける一つの音節を指す。幾つかの実施例において、当該要素はテキスト中の一つの文字を指す。上記の例は本開示を説明するためのものであり、本開示を具体的に限定するものではない。

幾つかの実施例において、管理デバイス１２０は音声特徴から、テキストにおける要素に対応する参照音声特徴を特定する。管理デバイス１２０内のアライメント識別器は、識別されたテキストを用いて、テキスト内の各要素に対応する音声特徴を特定する。

アライメント識別器は、各要素に対応する音声特徴を特定する際に、各要素に対応する基準の音声特徴を取得する。その後、取得された基準の音声特徴と音声特徴とを比較し、各要素に対応する目標音声特徴の開始時刻及び終了時刻を特定する。これにより、アライメント識別器は、テキスト中の要素に対応する開始時刻と終了時刻とから定まる所定時間を有する目標音声特徴を得ることができる。

管理デバイス１２０は、要素に対応する基準の音声特徴と目標音声特徴とに基づいて、基準の音声特徴と目標音声特徴との類似度を決定する。

管理デバイス１２０は、各要素に対応する目標音声特徴を取得した後、事前に訓練されたニューラルネットワークモデルに、目標音声特徴と基準音声特徴とを入力して、基準音声特徴と目標音声特徴との類似度を決定する。幾つかの実施例において、目標音声特徴と参照音声特徴との類似度が高い場合、認識された字が正確であることである。類似度が低い場合、認識されたワードが正確ではないことである。そして、要素毎の類似度に基づいて、取得されたテキスト内の要素全体の類似度を決定する。１つの実施形態において、要素全体の類似度は、各要素の類似度を合計し、そして平均化することにより決定することができる。

ステップ２０６において、管理デバイス１２０は、テキストに基づいて、音声信号１１０が実行可能なコマンドである第１の可能性を判定する。管理デバイス１２０は、テキスト全体に基づいて、受信した音声信号１１０が音声対話デバイスと対話しようとする音声信号であるか否かを判断する。

テキストによって音声信号が実行可能なコマンドであることを確定する処理も事前に訓練されたニューラルネットワークモデルによって実施される。該ニューラルネットワークモデルはニューラルネットワークＮＮ、コンボリューションニューラルネットワークＣＮＮ又は再帰的ニューラルネットワークＲＮＮ等であってもよい。

このニューラルネットワークモデルを訓練する際には、音声対話デバイスと音声対話するための音声のテキストをポジティブサンプルとし、音声対話デバイスと音声対話するのではない音声のテキストをネガティブサンプルとして訓練する。したがって、テキストを事前に訓練された当該ニューラルネットワークに入力することによって、音声信号が音声対話デバイスと対話するためものであることの信頼度値、即ち、第１の可能性を決定することができる。幾つかの実施例において、第１の可能性の値は０〜１の間である。

ステップ２０８において、管理デバイス１２０は、音声特徴に基づいて、音声信号１１０が実行可能なコマンドである第２の可能性を判定する。

音声特徴により音声信号１１０が実行可能なコマンドであることを確定する処理も事前に訓練されたニューラルネットワークモデルにより実施される。該ニューラルネットワークモデルはニューラルネットワークＮＮ、コンボリューションニューラルネットワークＣＮＮ又は再帰ニューラルネットワークＲＮＮ等であってもよい。幾つかの実施例において、使用される音声特徴はメルケプストラム係数ＭＦＣＣ特徴である。

このニューラルネットワークモデルを訓練する際に、音声対話デバイスと音声対話するための音声の音声特徴をポジティブサンプルとし、音声対話デバイスと音声対話するのではない音声の音声特徴をネガティブサンプルとして訓練する。したがって、音声特徴を事前に訓練された当該ニューラルネットワークに入力することによって、音声信号が音声対話デバイスと対話するためのものであることの信頼度値、即ち、第２の可能性を判定することができる。

ブロック２１０では、管理デバイス１２０は、類似度、第１の可能性、および第２の可能性に基づいて、音声信号１１０の処理に関する情報１３０を決定する。

管理デバイス１２０は、取得したテキスト要素との類似度、第１の可能性、第２の可能性を融合して、音声信号１１０が音声対話デバイスと対話する音声信号であるか否かを判定する。次に、図３を参照して、類似度、第１の可能性、および第２の可能性に基づいて、音声信号１１０の処理に関する情報を決定する処理の詳細について説明する。

該方法により、複数の次元から音声対話デバイスが取得した音声信号に応答すべきか否か、及びどのように音声信号に応答するかを決定することができ、それにより、さらに正確で且つスマートな音声対話制御を実現でき、ユーザ体験を向上させる。

以上、図２を参照しながら、本発明の幾つかの実施例に係る音声対話方法２００のフローチャートについて説明した。次に、図３を参照して、図２のブロック２１０における音声信号の処理に関する情報を決定する処理の詳細について説明する。図３は、本開示の幾つかの実施例に係る音声対話方法３００のフローチャートを示す。図３の方法３００は、図１の管理デバイス１２０や他の任意の適切な装置で実行することができる。

ステップ３０２において、管理デバイス１２０は、類似度、第１の可能性、第２の可能性に基づいて、音声信号１１０が実行可能なコマンドであるか否かを判定する。管理デバイス１２０は、類似度、第１の可能性、第２の可能性を取得する際に、類似度の第１の閾値、第１の可能性の第２の閾値、第２の可能性の第３の閾値を取得してもよい。幾つかの実施例において、第１の閾値は０．５とし、第２の閾値は０．３とし、第３の閾値は０.８とする。

幾つかの実施例において、類似度が第１の閾値より大きくなり、第１の可能性が第２の閾値より大きくなり、且つ、第２の可能性が第３の閾値より大きくなる場合、音声信号１１０が実行可能なコマンドであると判定し、即ち、音声信号１１０が音声対話デバイスと対話するためのものであると判定する。

幾つかの実施例において、類似度、第１の可能性、及び第２の可能性の三つのうちの二つの値が、対応する閾値より大きくなり、且つ閾値よりも所定の割合高い場合（例えば閾値より２０％高い場合）、該音声信号１１０が実行可能なコマンドであると判定し、即ち、音声信号１１０が音声対話デバイスと対話するためのものであると判定する。

音声信号１１０が実行可能なコマンドではないと判定された場合、即ち、音声信号１１０が音声対話デバイスと対話するものではないと判定された場合、該音声信号１１０に対して処理を行わない。

音声信号１１０が実行可能なコマンドであると判定された場合、ステップ３０４において、管理デバイス１２０は、音声信号１１０に対して意味解析を行う。音声信号１１０が音声対話デバイスと対話するためであると判定された場合、該音声信号１１０に対してさらに処理を行う必要がある。

ステップ３０６において、管理デバイス１２０は、意味解析の結果に基づいて、音声信号１１０に対応する処理モデルを決定する。

一実施例において、管理デバイス１２０は、意味解析の結果に基づいて、テキストに関連する分野を判定する。幾つかの実施例において、テキストに関連する分野を確定するプロセスも事前に訓練されたニューラルネットワークモデルによって実施される。このニューラルネットワークモデルを訓練する際に所定のテキスト及びその対応する分野を使用して訓練する。該ニューラルネットワークモデルを訓練した後、テキストをニューラルネットワークモデルに入力して、テキストに対応する分野を直接取得することができる。

管理デバイス１２０は、候補モデルのセットの中から、分野に対応する処理モデルを選出する。管理デバイス１２０は、テキストの分野を特定すると、候補モデルのセットの中から、その分野に対応するモデルを選択する。幾つかの実施例において、該モデルはニューラルネットワークモデルである。このモデルを訓練する際に、意味に応じてコマンドを実行する必要があると判断されたテキストをポジティブサンプルとし、意味に応じて実行する必要がないと判断されたテキストをネガティブサンプルとする。

ブロック３０８では、管理デバイス１２０は、処理モデルにより、テキストを用いて、音声信号１１０の処理に関する情報１３０を決定し、情報１３０は、音声信号１１０を処理するか否かを示す。

テキストがニューラルネットワークモデルに入力すると、その意味から、当該テキストが、実行されるコマンドである可能性を判定することができる。一実施例において、可能性の値は０〜１の間である。可能性が１に近い場合は、実行可能なコマンドであることである、０に近い場合は、実行可能なコマンドではないことである。

実行されるコマンドであるか否かの判定は、必要に応じて所定の閾値を設定することにより行うことができる。実行されるコマンドであれば、対応する動作を実行する。実行されるコマンドではない場合、何の動作もしない。

上述した方法によれば、音声対話デバイスと対話する音声であるか否かを判定した後、さらに意味に基づいて動作するか否かを決定することができる。これにより、音声対話時の音声コマンドの実行の正確性が向上し、音声コマンドを誤って実行してしまうことを抑制し、ユーザ体験を改善することができる。

図４は、本開示の実施例に係る音声対話装置４００の概略ブロック図である。図４に示すように、装置４００は、受信した音声信号の音声特徴に基づいて、当該音声信号に対応するテキストを決定するテキスト決定部４０２を備えてもよい。また、装置４００は、前記音声特徴と前記テキストとに基づいて、前記テキスト中の要素の基準音声特徴と前記音声特徴中の要素の目標音声特徴との類似度を判定する第１の類似度判定部４０４をさらに備えていてもよい。また、装置４００は、テキストに基づいて、音声信号が実行可能なコマンドである第１の可能性を判定する第１の可能性判定部４０６をさらに備えていてもよい。また、装置４００は、前記音声特徴に基づいて、前記音声信号が実行可能なコマンドである第２の可能性を判定する第２の可能性判定部４０８をさらに備えていてもよい。また、装置４００は、類似度、第１の可能性、および第２の可能性に基づいて、音声信号の処理に関する情報を決定する第１の情報決定部４１０をさらに備えていてもよい。

幾つかの実施形態では、第１の類似度判定部４０４は、音声特徴の中から、テキスト中の要素に対応する参照用音声特徴を特定する参照用音声特徴判定部と、要素に対する参照用音声特徴と目標音声特徴とに基づいて、参照用音声特徴と目標音声特徴との類似度を判定する第２の類似度判定部とを含む。

第１の情報判定部４１０は、類似度、第１の可能性、第２の可能性に基づいて、音声信号が実行可能なコマンドであるか否かを判定する第１の実行可能コマンド判定部と、音声信号が実行可能なコマンドであると判定された場合に、当該音声信号に対して意味解析を行う意味解析部と、意味解析の結果に基づいて、当該音声信号に対応する処理モデルを決定する第１の処理モデル決定部と、処理モデルにより、テキストを用いることにより、当該音声信号に対する処理に関する情報を決定する第２の情報判定部とを含む。当該情報は、当該音声信号を処理するか否かを示すものである。

幾つかの実施例において、第１の実行可能コマンド判定部は、類似度が第１の閾値より大きくなり、第１の可能性が第２の閾値より大きくなり、且つ第２の可能性が第３の閾値より大きくなることに応答し、音声信号が前記実行可能なコマンドであると判定する第２の実行可能コマンド判定部を含む。

幾つかの実施例では、前記第１の処理モデル決定部は分野決定部を含み、それは意味解析の結果に基づき、テキストに関連する分野を決定するように構成される。及び第２の処理モデル決定部であって、それは一組の候補モデルから分野の処理モデルを選択するように構成される。

ある実施形態において、音声対話装置４００は、音声信号を受信する受信部と、受信した音声信号から音声特徴を抽出する抽出部とをさらに備える。

図５は、本開示の一実施形態に係る電子デバイス５００の概略構成を示すブロック図である。電子デバイス５００は、図１の管理デバイス１２０を実現するために利用することができる。同図に示すように、この装置５００は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）５０２に記憶されているコンピュータプログラム指令、または記憶部５０８からＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）５０３にロードされたコンピュータプログラム指令に基づいて、各種の動作および処理を実行可能な演算部５０１を備えている。また、ＲＡＭ５０３には、装置５００の動作に必要な各種プログラムやデータが記憶されている。演算部５０１、ＲＯＭ５０２、およびＲＡＭ５０３は、バス５０４を介して相互に接続されている。バス５０４には、入出力（Ｉ／Ｏ）インタフェース５０５も接続されている。

Ｉ／Ｏインタフェース５０５には、例えば、キーボード、マウスなどの入力部５０６と、例えば、各種のディスプレイ、スピーカなどの出力部５０７と、例えば、磁気ディスク、光ディスクなどの記憶部５０８と、例えば、ネットワークカード、モデム、無線通信送受信機などの通信部５０９とを含むデバイス５００の複数の部分が接続されている。通信部５０９は、インターネット等のコンピュータネットワークや各種の電気通信網を介して他の装置と情報／データのやり取りを行うに用いられる。

演算部５０１は、様々な処理や演算機能を有する汎用的及び／又は専用的な処理コンポーネントであってよい。演算部５０１の例としては、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、各種専用のＡＩ（ＡｓｙｍｍｅｔｒｉｃＩｎｔｅｌｌｉｔｅ）演算チップ、各種動作機械学習モデルアルゴリズムの演算部、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、および、プロセッサ、コントローラ、マイクロコントローラなどが挙げられるが、上記に限定されるものではない。演算部５０１は、上述した方法２００、３００等の各方法、処理を実行する。例えば、実施形態において、方法２００及び３００は、記憶部５０８等の機械可読媒体に格納されたコンピュータソフトウェアプログラムとして実現されてもよい。また、コンピュータプログラムの一部または全部を、ＲＯＭ５０２や通信部５０９を介して装置５００にロードしたり、装置５００にインストールしたりすることも可能である。コンピュータプログラムをＲＡＭ５０３にロードして演算装置５０１で実行することにより、上述した方法２００、３００の各ステップを実行することができる。また、他の実施形態において、演算部５０１は、実行方法５００として、例えばファームウェアを利用するなど、他の任意の方法により構成されてもよい。

なお、上述した各機能の少なくとも一部は、１または複数のハードウェア・ロジックによって実現されてもよい。例えば、限定的ではなく、使用可能な例示的なハードウェアロジック部品は、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、専用集積回路（ＡＳＩＣ）、専用標準製品（ＡＳＳＰ）、オンチップシステムのシステム（ＳＯＣ）、負荷プログラマブルロジックデバイス（ＣＰＬＤ）などを含む。

本発明の方法を実施するためのプログラムコードは、１または複数のプログラミング言語の組み合わせで記述されていてもよい。これらのプログラムコードを汎用コンピュータや専用コンピュータ等のプログラマブルデータ処理装置のプロセッサやコントローラに供給し、プロセッサやコントローラで実行することにより、フローチャート及び／又はブロック図で規定された機能・動作を実現することができる。また、プログラムコードは、機械上で完全に実行されるものであってもよいし、機械上で部分的に実行されるものであってもよいし、リモートマシン上で部分的に実行されるものであってもよいし、リモートマシンまたはサーバ上で完全に実行されるものであってもよい。

本発明において、機械可読媒体は、コマンド実行システム、装置又は装置が使用する、又はコマンド実行システム、装置又は装置と組み合わせて使用するプログラムを含む、又は記憶した有形の媒体であってもよい。機械可読媒体は、機械可読信号媒体であってもよいし、機械可読記憶媒体であってもよい。機械可読媒体としては、電子的、磁気的、光学的、電磁的、赤外線的、半導体システム、装置、装置、またはこれらの任意の適切な組み合わせが挙げられるが、これらに限定されるものではない。機械的に読み取り可能な記憶媒体のより具体的な例としては、１又は複数のラインに基づく電気的接続、可搬型コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、消去及び書換可能なリードオンリメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、携帯可能なＣＤ−ＲＯＭ、光記憶装置、磁気記憶装置、又はこれらの任意の適切な組み合わせが挙げられる。

また、各動作は、ある順序で描画されているが、図示した順序、順序で実行されてもよいし、所望の結果が得られるように、全ての動作が実行されてもよい。ある環境において、マルチタスク及び並列処理が有利であると考えられる。同様に、上記において幾つかの具体的な実現詳細を含むが、これらは本開示の範囲を限定するものと解釈されるべきではない。また、各実施の形態の中で説明されている特徴のうち、一部の特徴を組み合わせて１つの実施の形態としてもよい。逆に、１つの実装形態で記述された様々な特徴は、単独でもよいし、任意の適切なサブコンビネーションで複数の実装形態で実装されてもよい。

以上、本発明の実施の形態について説明したが、本発明は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。逆に、上述した特定の特徴や作用は、あくまでも特許請求の範囲を実現するための例示的なものに過ぎない。

本開示の第５態様において、プロセッサにより実行されると、本開示の第１の態様に記載の方法を実現するコンピュータプログラムを提供する。

Claims

音声対話するための方法であって、
受信した音声信号の音声特徴に基づいて、前記音声信号に対応するテキストを決定するステップと、
前記音声特徴と前記テキストとに基づいて、前記テキストにおける要素の参照音声特徴と前記音声特徴における前記要素の目標音声特徴との間の類似度を決定するステップと、
前記テキストに基づいて、前記音声信号が実行可能なコマンドである第１の可能性を判定するステップと、
前記音声特徴に基づいて、前記音声信号が前記実行可能なコマンドである第２の可能性を判定するステップと、
前記類似度と、前記第１の可能性と、前記第２の可能性とに基づいて、前記音声信号の処理に関する情報を決定するステップと、
を含む方法。
前記類似度を決定するステップは、
前記音声特徴から、前記テキスト中の前記要素に対応する前記参照音声特徴を特定するステップと、
前記要素に対する前記参照音声特徴と前記目標音声特徴とに基づいて、前記類似度を決定するステップと、
を含む、請求項１に記載の方法。
前記音声信号の処理に関する情報を決定するステップは、
前記類似度と、前記第１の可能性と、前記第２の可能性とに基づいて、前記音声信号が前記実行可能なコマンドであるか否かを判定するステップと、
前記音声信号が実行可能なコマンドであると判定された場合に、前記音声信号に対して意味解析を行うステップと、
前記意味解析の結果に基づいて、前記音声信号に対応する処理モデルを決定するステップと、
前記処理モデルにおいて、前記テキストを用いることより、前記音声信号の処理に関する情報を決定するステップであって、前記情報は、前記音声信号を処理するか否かを示す情報であるステップと、
を含む、請求項１に記載の方法。
前記音声信号が前記実行可能なコマンドであるか否かを判定するステップは、
前記類似度が第１の閾値より大きく、前記第１の可能性が第２の閾値より大きく、前記第２の可能性が第３の閾値より大きいことに応答し、前記音声信号が前記実行可能なコマンドであると判定するステップを含む、請求項３に記載の方法。
前記音声信号に対応する処理モデルを決定するステップは、
前記意味解析の結果に基づき、前記テキストに関連する分野を決定するステップ、
候補モデルのセットの中から、前記分野に対応する前記処理モデルを選出するステップと
を含む、請求項３に記載の方法。
前記音声信号を受信するステップと、
受信した前記音声信号から前記音声特徴を抽出するステップと、
をさらに含む、請求項１に記載の方法。
前記音声特徴は、声紋特徴を含む、請求項１に記載の方法。
音声対話するための装置であって、
受信した音声信号の音声特徴に基づいて、前記音声信号に対応するテキストを決定するように配置されるテキスト決定部と、
前記音声特徴と前記テキストに基づいて、前記テキストにおける要素の参照音声特徴と前記音声特徴における前記要素の目標音声特徴との間の類似度を決定するように配置される第１の類似度決定部と、
前記テキストに基づいて、前記音声信号が実行可能なコマンドである第１の可能性を判定するように配置される第１の可能性判定部と、
前記音声特徴に基づいて、前記音声信号が前記実行可能なコマンドである第２の可能性を判定するように配置される第２の可能性判定部と、
前記類似度と、前記第１の可能性と、前記第２の可能性とに基づいて、前記音声信号の処理に関する情報を決定するように配置される第１の情報決定部と、
を含む、装置。
前記第１の類似度決定部は、
前記音声特徴から、前記テキスト中の前記要素に対応する前記参照音声特徴を特定するように配置される参照音声特徴決定部と、
前記要素に対する前記参照音声特徴と前記目標音声特徴とに基づいて、前記類似度を決定するように配置される第２の類似度決定部と、
を含む、請求項８に記載の装置。
前記第１の情報決定部は、
前記類似度と、前記第１の可能性と、前記第２の可能性とに基づいて、前記音声信号が前記実行可能なコマンドであるか否かを判定するように配置される第１の実行可能コマンド判定部と、
前記音声信号が実行可能なコマンドであると判定された場合に、前記音声信号に対して意味解析を行うように配置される意味解析部と、
前記意味解析の結果に基づいて、前記音声信号に対応する処理モデルを決定するように配置される第１の処理モデル決定部と、
前記処理モデルにおいて、前記テキストを用いることより、前記音声信号の処理に関する情報を決定するように配置される第２の情報判定部であって、前記情報は、前記音声信号を処理するか否かを示す情報である第２の情報判定部と、
を含む、請求項８に記載の装置。
前記第１の実行可能コマンド判定部は、
前記類似度が第１の閾値より大きく、前記第１の可能性が第２の閾値より大きく、前記第２の可能性が第３の閾値より大きいことに応答し、前記音声信号が前記実行可能なコマンドであると判定するように配置される第２の実行可能コマンド判定部と、
を含む、請求項１０に記載の装置。
前記第１の処理モデル決定部は、
前記意味解析の結果に基づき、前記テキストに関連する分野を決定するように配置される分野決定部と、
候補モデルのセットの中から、前記分野に対応する前記処理モデルを選出するように配置される第２の処理モデル決定部と、
を含む、請求項１０に記載の装置。
前記音声信号を受信するように配置される受信部と、
前記受信した音声信号から前記音声特徴を抽出するように配置される抽出部と、
をさらに含む、請求項８に記載の装置。
前記音声特徴は声紋特徴を含む、請求項８に記載の装置。
電子機器であって、
１または複数のプロセッサと、
１または複数のコンピュータプログラムを記憶した記憶装置と、を備え、
前記１又は複数のコンピュータプログラムが前記１又は複数のプロセッサにより実行されと、前記１または複数のプロセッサに請求項１〜７のいずれかに記載の方法を実現させる電子機器。
プロセッサにより実行されると、請求項１〜６のいずれか１項に記載の方法を実現するコンピュータプログラムを記録したコンピュータ読み取り可能な記録媒体。