JP7178394B2

JP7178394B2 - 音声信号を処理するための方法、装置、機器、および媒体

Info

Publication number: JP7178394B2
Application number: JP2020185936A
Authority: JP
Inventors: ヂァィ，チゥァンレイ; チェン，シュー; パイ，ヂンファン; ヂィア，レイ
Original assignee: バイドゥオンラインネットワークテクノロジー（ペキン）カンパニーリミテッド
Priority date: 2019-11-21
Filing date: 2020-11-06
Publication date: 2022-11-25
Anticipated expiration: 2040-11-06
Also published as: JP2021081713A; CN110827799A; US11322151B2; CN110827799B; US20210158823A1

Description

本開示の実施例は、主に人工知能の分野に関し、より具体的には、音声信号を処理するための方法、装置、機器、およびコンピュータ読み取り可能な記憶媒体に関する。

音声インタラクション技術は、人間と機械とが音声でインタラクションする技術であり、自然な対話と類似の音声インタラクション体験を実現する。人間と機械とのインタラクションは、コンピューター時代のマウスおよびキーボードを画面に合わせたインタラクションから、スマートフォン時代のタッチスクリーンとの直接インタラクションまで発展してきている。人間と機械とのインタラクション方式は、ますます簡単になり、インタラクションの敷居はますます低くなっている。人工知能およびモバイルインターネットの活発な発展に伴い、人間と人間との対話と類似の自然な音声インタラクションは、徐々に人間と機械とのインタラクションの新しい方式になる。音声インタラクションは、入力帯域幅が広く、高精度、移動性が良く、使用敷居が低いなどの利点を兼ね備えるため、人間と機械とのインタラクションの最優先インタラクション方式の１つである。

音声インタラクションで人間と機械とのインタラクションを実現することにより、情報処理の効率を向上させることができるとともに、ユーザーと機械とのインタラクションも容易になる。しかしながら、音声信号を処理するプロセスでは解決すべき問題が依然として多く存在している。

本開示の例示的な実施例によれば、音声信号を処理するための技術案が提供される。

本開示の第１の態様では、受信された音声信号の音声特徴表現セットを取得するステップと、音声信号から認識されたテキストに基づいて、ソーステキスト特徴表現セットを生成するステップであって、各ソーステキスト特徴表現は、テキスト内の１つの要素に対応するステップと、音声特徴表現セットおよびソーステキスト特徴表現セットに基づいて、ターゲットテキスト特徴表現セットを生成するステップと、ターゲットテキスト特徴表現セットと、テキストについて事前定義された参照テキスト特徴表現セットとのマッチング度合いを決定するステップであって、マッチング度合いは、テキストの認識の正確さを示すステップと、を含む、音声信号を処理するための方法が提供される。

本開示の第２の態様では、受信された音声信号の音声特徴表現セットを取得するように構成される取得モジュールと、音声信号から認識されたテキストに基づいて、ソーステキスト特徴表現セットを生成するように構成されるソーステキスト特徴表現セット生成モジュールであって、各ソーステキスト特徴表現は、テキスト内の１つの要素に対応するソーステキスト特徴表現セット生成モジュールと、音声特徴表現セットおよびソーステキスト特徴表現セットに基づいて、ターゲットテキスト特徴表現セットを生成するように構成されるターゲットテキスト特徴表現セット生成モジュールと、ターゲットテキスト特徴表現セットと、テキストについて事前定義された参照テキスト特徴表現セットとのマッチング度合いを決定するように構成される第１のマッチング度合い決定モジュールであって、マッチング度合いは、テキストの認識の正確さを示す第１のマッチング度合い決定モジュールと、を含む、音声信号を処理するための装置が提供される。

本開示の第３の態様では、一つまたは複数のプロセッサと、一つまたは複数のプログラムを記憶するための記憶装置とを含む電子機器であって、一つまたは複数のプログラムが一つまたは複数のプロセッサによって実行される場合、一つまたは複数のプロセッサが、本開示の第１の態様に係る方法を実現する電子機器が提供される。

本開示の第４の態様では、コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、当該プログラムがプロセッサによって実行される場合、本開示の第１の態様に係る方法が実現されるコンピュータ読み取り可能な記憶媒体が提供される。
本開示の第５の態様では、コンピュータ読み取り可能な記憶媒体に記憶されているコンピュータプログラムを提供し、前記コンピュータプログラムにおける命令が実行された場合に、第１の態様の実施例に記載の方法が実行される。

なお、発明の概要に説明された内容は、本開示の実施例の肝心または重要な特徴を限定することを意図しておらず、本開示の範囲を限定することも意図していない。本開示の他の特徴は、以下の説明により理解されやすくなる。

本開示の各実施例の上記および他の特徴、利点および態様は、図面を参照した以下の詳細な説明により、より明らかになる。図面では、同一または類似の符号は、同一または類似の要素を表す。
本開示の複数の実施例を実現可能な環境１００の概略図を示す。本開示のいくつかの実施例に係る音声信号を処理するための方法２００のフローチャートを示す。本開示のいくつかの実施例に係るターゲットテキスト特徴表現セットを生成するための方法３００のフローチャートを示す。本開示のいくつかの実施例に係る音声信号を処理するための装置４００のブロック図を示す。本開示の複数の実施例を実施可能な機器５００のブロック図を示す。

本開示の実施例を図面を参照して以下により詳細に説明する。図面に本開示のいくつかの実施例が示されているが、本発明は様々な形態で実現することができ、本明細書に記載の実施例に限定されると解釈されるべきではないことを理解されたい。逆に、これらの実施例を提供する目的は、本開示がより明確かつ完全で理解されることである。なお、本開示の図面および実施例は例示するものに過ぎず、本開示の保護範囲を限定するものではないと理解されたい。

本開示の実施例の説明において、「含む」という用語およびその類似の用語が、開放的な含む、すなわち「含むがこれに限定されない」と理解されるべきである。「に基づく」という用語は、「少なくとも部分的に基づく」ことを意味すると理解されるべきである。「一実施例」または「当該実施例」という用語は、「少なくとも一実施例」として理解されるべきである。「第１」、「第２」などの用語は、異なる対象または同一対象を指すことができる。以下の説明では、他の明示的および暗黙的な定義も含まれ得る。

音響信頼度技術は、自動音声認識（ＡＳＲ）システムの認識結果の信頼度を評価する技術である。音響信頼度技術により、認識結果に対応する音声が音声であるか非音声であるか、および音声とテキストとが厳密に対応しているか否かを区別することができる。音声インタラクションのプロセスでは、ＡＳＲシステムには環境ノイズなどの非音声入力を判別する効果的なメカニズムがないため、誤認識が発生する場合がある。一方、音響信頼度技術は、２次的な確認プロセスであり、オーディオと認識結果とのマッチング度合いに信頼度のスコアを付与することにより、音声を適切に分類することができる。

音声信頼度を計算する方式は、通常２種類ある。１つは、フルセンテンスのオーディオに基づいて２分類を行う方式である。この方式は、音声の認識結果に依存せず、オーディオの何らかの形態の特徴を抽出することでオーディオを分類するものである。ただし、フルセンテンスの音声に基づく音声分類方式では、フルセンテンスを１つの単位とするため、粒度が大きすぎて詳細な情報を提供することができない。また、この技術ではテキスト情報を利用できないため、計算結果の面でニーズに応えることができない。

もう１つは、アラインメントとＶＧＧとの２レベルのモデルに基づく音響信頼度技術である。この技術では、まず、オーディオと認識結果とを音響的に強制的にアラインメントさせることにより、認識結果内の各モデリングユニットに対応するセグメントを見つける。次に、ＶＧＧネットワークを介してセグメントにスコアを付与し、対応するモデリングユニットのスコアによって当該セグメントとモデリングユニットとのマッチング度合いを判断する。最後に、現在のオーディオを受け入れる必要があるか否かをある意思決定方式で判断する。ただし、アラインメントとＶＧＧとの２レベルのモデルに基づく信頼度技術では、ＶＧＧモデルによって信頼度にスコアリングすることができる前に、オーディオと認識結果とを強制的にアラインメントさせる必要がある。このようなカスケードの形態について、トレーニング段階では二者をうまく共同トレーニングすることができない。さらに、この技術は、オーディオと認識結果との完全な情報をうまく活用することができず、しかもオーディオとテキストとを強制的にアライメントさせるため、この技術はフルセンテンスのオーディとテキスト情報とを完全に活用することができない。

本開示の実施例によれば、音声インタラクションするための改良された技術案が提供される。この技術策では、まず、受信された音声信号の音声特徴表現セットを取得し、音声信号から認識されたテキストに対応するソーステキスト特徴表現セットを取得する。音声特徴表現セットおよびソーステキスト特徴表現セットに基づいて、ターゲットテキスト特徴表現セットを生成して、当該テキストについて事前定義された参照テキスト特徴表現セットとのマッチング度合いを決定することができる。これにより、音声信号から認識されたテキストの正確さを判定することができる。この方法により、音声信号の判定結果をより正確にすることができるとともに、人間と機械とのインタラクションをよりスムーズにし、人間と機械とのインタラクション体験を向上させることができる。

図１は、本開示の複数の実施例を実現可能な環境１００の概略図を示す。この例示的な環境１００では、人間と機械とのインタラクション中に、音声信号１１０を取得することができる。音声信号１１０から、音声特徴表現セット１２０を取得することができる。いくつかの実施例では、音声特徴表現セット１２０内の音声特徴は、音響特徴フレームなどの１つの音声特徴フレームとして表される。音声特徴フレームは、所定時間長さのオーディオから得られるベクトルである。

図１において、テキスト１３０は、音声信号１１０から得られたテキスト情報である。例えば、テキスト１３０は、自動音声認識システムによって音声信号１１０を認識することによって得られる。代替的または追加的に、テキスト１３０は、自動音声認識システムによって音声特徴表現セット１２０から生成されてもよい。

音声信号１１０は、ユーザーインタラクションを実行する任意の音声インタラクション機器によって取得することができる。いくつかの実施例では、ユーザが音声インタラクション機器に話しかけると、音声信号１１０を取得することができる。いくつかの実施例では、音声インタラクション機器がユーザの周りに存在する場合、ユーザが他の人とインタラクションするとき、音声インタラクション機器は、音声信号１１０を取得することができる。いくつかの実施例では、音声信号１１０は、テレビ内の話し声など、音声インタラクション機器によって受信される他の音声信号であってもよい。いくつかの実施例では、音声信号１１０は、一度にウェークアップして複数のインタラクションを実行する音声インタラクション機器によって得られる。上記の例は、単に本開示を説明するためのものであり、本開示を具体的に限定するものではない。

音声インタラクション機器は、ユーザーの音声指示を収集するための関連付けられた集音器（例えば、1つまたは複数のマイクロフォン）を有してもよい。音声インタラクション機器は、サウンドを再生するための関連付けられたサウンドプレーヤー（例えば、１つまたは複数のスピーカー）を有してもよい。

音声インタラクション機器は、音声信号１１０を介して制御および/またはインタラクションすることができる任意の電子機器であってもよい。音声インタラクティブ機器の例は、スマートスピーカー、音声インタラクションテレビボックス、スマート家電デバイス、音声チューター、スマートロボット、マップナビゲーションデバイス、スマートウェアラブルデバイスなどを含むが、これらに限定されない。音声インタラクション機器は、音声アシスタントアプリケーション、スマートカーマシンシステム、情報検索アプリケーション、地図アプリケーション、ソーシャルプラットフォームアプリケーション、オーディオおよびビデオ再生アプリケーション、スマートアシスタントアプリケーションなどの音声インタラクションアプリケーションがインストールされた任意の他の電子機器であってもよい。このような音声インタラクションアプリケーションをインストール可能な電子デバイスの例は、スマートフォン、マルチメディアコンピュータ、マルチメディアタブレット、インターネットノード、コミュニケーター、デスクトップコンピュータ、ラップトップコンピュータ、ノートブックコンピュータ、ネットブックコンピュータ、タブレットコンピュータ、パーソナルナビゲーションデバイス、パーソナルデジタルアシスタント（ＰＤＡ）、オーディオ/ビデオプレーヤー、デジタルカメラ/撮像機、測位デバイス、電子書籍デバイス、ゲームデバイス、またはこれらの組み合わせを含むが、これらに限定されない。

図１では、音声特徴表現セット１２０およびテキスト１３０は、管理機器１４０に転送されて処理される。代替的または追加的に、管理機器１４０は、音声信号１１０を受信し、その後、管理機器１４０は、音声信号１１０に基づいて、音声特徴表現セット１２０およびテキスト１３０を生成することができる。

管理機器１４０は、音声特徴表現セット１２０に基づいて、音声信号１１０から認識されたテキスト１３０の信頼度を計算して、認識結果の正確さを決定する。

図１に示す実施例では、管理機器１４０は、ネットワーク（例えば、クラウド）上に配置されたコンピューティング機器であってもよく、音声インタラクション機器によってアップロードされた音声信号１１０を直接処理して、音声特徴表現セット１２０およびテキスト１３０を取得することにより、本開示の実施例に係るさらなる処理を実行することができる。また、音声インタラクション機器が管理機器１４０にアップロードするのが音声特徴表現セット１２０およびテキスト１３０である場合、管理機器１４０は、音声特徴表現セット１２０およびテキスト１３０に対してさらなる処理を直接実行することもできる。

いくつかの実施例では、管理機器１４０は、パーソナルコンピュータ、サーバーコンピュータ、ハンドヘルドまたはラップトップデバイス、モバイルデバイス（携帯電話、携帯情報端末（ＰＤＡ）、メディアプレーヤーなど）、マルチプロセッサシステム、家庭用電化製品、小型コンピュータ、大型コンピュータ、上記のシステムまたはデバイスのうちのいずれかの分散コンピューティング環境などを含むが、これらに限定されない。

図１に示される環境は、単に例示するものであり、本開示を具体的に限定するものではないことを理解されたい。いくつかの実施例では、管理機器１４０は、必ずしもネットワークに配置される必要はなく、例えば、ユーザとインタラクションする音声インタラクション機器として実現されてもよい。この場合、管理機器１４０は、ユーザから音声信号１１０を受信し、音声信号１１０を処理して、音声特徴表現セット１２０およびテキスト１３０を取得し、その後、音声特徴表現セット１２０およびテキスト１３０に対してさらなる処理を実行することができる。

上記の図１は、本開示の複数の実施例を実現可能な環境１００の概略図を示す。以下では、図２を参照して、本開示のいくつかの実施例に係る音声信号を処理するための方法２００のフローチャートを説明する。方法２００は、図１の管理機器１４０または他の任意の適切な機器によって実現することができる。

ブロック２０２において、管理機器１４０は、受信した音声信号１１０の音声特徴表現セット１２０を取得する。音声信号１１０の認識結果の信頼度を決定するときに、管理機器１４０は、音声信号１１０の音声特徴表現セット１２０を取得する必要がある。

いくつかの実施例では、音声特徴表現セット１２０の音声特徴は、音響特徴フレームなどの１つの音声特徴フレームとして表される。音声特徴フレームは、所定時間長さのオーディオから得られるベクトルである。例えば、音声信号１１０の時間長さが１秒であり、音声信号１１０の１０ミリ秒ごとに音声特徴フレームが生成される場合、当該音声信号１１０について１００の音声特徴フレームがある。

いくつかの実施例では、管理機器１４０は、音声信号１１０を受信し、音声信号１１０から音声特徴表現セット１２０を生成する。いくつかの実施例では、音声特徴表現セット１２０は、受信された音声信号１１０から他のコンピューティングデバイスによって生成される。上記の例は、単に本開示を説明するためのものであり、本開示を具体的に限定するものではない。

いくつかの実施例では、管理機器１４０は、音声特徴表現セット１２０内の音声特徴表現に対して非線形変換を実行することができる。その後、管理機器１４０は、変換された音声特徴表現を用いて音声特徴表現セット１２０内の音声特徴表現を置き換える。

例えば、管理機器１４０は、音声特徴表現セット１２０をニューラルネットワークモデルによって構成される音声認識結果信頼度モデルに送信し、音声特徴表現セット１２０をニューラルネットワークモデルにおいて非線形変換を実行することにより、更新された音声特徴表現セット１２０を取得する。音声認識結果信頼度モデルがｅｎｃｏｄｅｒーｄｅｃｏｄｅｒ（エンコーダーデコーダ）モデルである場合、音声特徴表現セット１２０をｅｎｃｏｄｅｒに入力して、更新された音声特徴表現セット１２０を生成する。具体的には、音声特徴表現セット１２０内の１つの音声特徴表現について、当該１つの音声特徴表現および音声特徴表現セット１２０内の他の音声特徴表現を用いて、更新された音声特徴表現を生成する。その後、更新された各音声特徴表現を用いて音声特徴表現セット１２０内の各音声特徴表現を置き換える。

一部の実施例では、ｅｎｃｏｄｅｒプロセスは、双方向ｅｎｃｏｄｅｒプロセスであり、ｓｅｌｆーａｔｔｅｎｔｉｏｎ、双方向ＬＳＴＭ、双方向ＧＲＵなどを含むが、これらに限定されない。

ブロック２０４において、管理機器１４０は、音声信号１１０から認識されたテキスト１３０に基づいて、ソーステキスト特徴表現セットを生成し、各ソーステキスト特徴表現は、テキスト１３０内の１つの要素に対応する。

いくつかの実施例では、管理機器１４０は、音声信号１１０から認識されたテキスト１３０を他のコンピューティング機器または音声処理機器から直接受信する。いくつかの実施例では、管理機器１４０は、音声信号１１０を受信し、音声信号１１０からテキスト１３０を認識する。いくつかの実施例では、テキスト１３０は、自動音声認識システムによって音声信号１１０から認識される。いくつかの実施例では、テキスト１３０は、音声特徴表現セット１２０から決定される。上記の例は、単に本開示を説明するためのものであり、本開示を具体的に限定するものではない。

いくつかの実施例では、テキスト１３０は、ニューラルネットワークによって形成される音声認識結果信頼度モデルに送信されて、生成に使用される。例えば、音声認識結果信頼度モデルがｅｎｃｏｄｅｒーｄｅｃｏｄｅｒモデルである場合、、テキスト１３０をｄｅｃｏｄｅｒに送信して、テキスト１３０に対応するソーステキスト特徴表現セットを生成する。各ソーステキスト特徴表現は、テキスト１３０内の１つの要素に対応する。

一部の実施例では、１つの要素は１つの文字である。いくつかの実施例では、１つの要素は１つの音節である。いくつかの実施例では、１つの要素は１つのアルファベットである。上記の例は、単に本開示を説明するためのものであり、本開示を具体的に限定するものではない。当業者は、必要に応じて要素の内容を設定することができる。

いくつかの実施例では、ｄｅｃｏｄｅｒプロセスは、双方向ｄｅｃｏｄｅｒプロセスであり、ｓｅｌｆーａｔｔｅｎｔｉｏｎ、双方向ＬＳＴＭ、双方向ＧＲＵなどを含むが、これらに限定されない。双方向ｄｅｃｏｄｅｒプロセスは、適切な処理によって一方向のｄｅｃｏｄｅｒプロセスにも変更することができる。

ブロック２０６において、管理機器１４０は、音声特徴表現セット１２０およびソーステキスト特徴表現セットに基づいて、ターゲットテキスト特徴表現セットを生成する。管理機器１４０が音声特徴表現セット１２０およびソーステキスト特徴表現セットを用いてターゲットテキスト特徴表現セットを生成するプロセスについて、図３を参照して以下に詳細に説明する。

ブロック２０８において、管理機器１４０は、ターゲットテキスト特徴表現セットと、テキストについて事前定義された参照テキスト特徴表現セットとのマッチング度合いを決定し、マッチング度合いは、テキストの認識の正確さを示す。管理機器１４０がマッチング度合いを決定するプロセスを以下の例に示す。

いくつかの実施例では、管理機器１４０は、ターゲットテキスト特徴表現セット内の複数のターゲットテキスト特徴表現と、参照テキスト特徴表現セット内の、複数のターゲットテキスト特徴表現に対応する複数の参照テキスト特徴表現との複数の類似度を決定する。

その後、管理機器１４０は、これらの類似度の平均値に基づいてマッチング度合いを決定することができる。いくつかの実施例では、管理機器１４０は、これらの類似度に重み付けて平均値を求めて、マッチング度合いを決定する。上記の例は、単に本開示を説明するためのものであり、本開示を具体的に限定するものではない。当業者は、必要に応じて、任意の適切な方式で複数の類似度からマッチング度合いを決定することができる。

いくつかの実施例では、管理機器１４０は、ターゲットテキスト特徴表現セットを取得した後、実行中の音声認識結果信頼度モデルにおいて複数のターゲットテキスト特徴表現のそれぞれとその対応する参照テキスト特徴表現との類似度を決定する。音声認識結果信頼度モデルのニューラルネットワークにおいて、ターゲットテキスト特徴表現およびテキスト１３０内の対応する要素をニューラルネットワークモデルに入力し、ニューラルネットワークモデルは、要素に対応する参照テキスト特徴表現に基づいて、ターゲットテキスト特徴表現と参照テキスト特徴表現との類似度を決定する。

いくつかの実施例では、管理機器１４０は、マッチング度合いと閾値度合いとを比較する。管理機器１４０は、マッチング度合いが閾値度合いより高いとの判定に基づいて、テキスト１３０によって示される動作を実行する。マッチング度合いが閾値度合い未満であると判定された場合、上記テキスト１３０によって示される動作を実行しない。

いくつかの実施例では、音声認識結果信頼度モデル（例えば、ｅｎｃｏｄｅｒーｄｅｃｏｄｅｒモデル）は、入力された音声特徴表現セット１２０およびテキスト１３０に基づいて、テキスト１３０内の各要素に対応する類似度を決定することにより、複数の類似度を取得する。音声認識結果信頼度モデルは、モデルトレーニングデータによってトレーニングされる。トレーニングサンプルにおける負の例には２つのソースがある。１つは環境ノイズデータであり、そのフルセンテンスが負の例として使用される。もう１つは、トレーニングサンプルにおける誤認識（誤挿入、誤置き換え、誤削除など）されたモデリングユニットであり、これも負の例のサンプルとして使用される。トレーニングサンプルにおける正確に認識されたユニットは、信頼的モデルの正の例のサンプルとして使用される。

上記の方法により、例えば、フルセンテンスのオーディオおよび認識結果情報を同時に用いて判定することができるため、音声の判断結果をより正確にすることができるとともに、人間と機械とのインタラクションをスムーズにし、人間と機械とのインタラクション体験を向上させることができる。

本開示のいくつかの実施例に係る音声信号を処理するための方法２００のフローチャートについて、図２を参照して上記で説明しました。以下、図２のブロック２６０でターゲットテキスト特徴表現セットを生成するプロセスについて、図３を参照して詳細に説明する。図３は、本開示のいくつかの実施例に係るターゲットテキスト特徴表現セットを生成するための方法３００のフローチャートを示す。図３の方法３００は、図１の管理機器１４０または他の任意の適切な機器によって実行されもよい。

ブロック３０２において、管理機器１４０は、ソーステキスト特徴表現セット内の１つのソーステキスト特徴表現と、音声特徴表現セット１２０内の複数の音声特徴表現との複数の類似度を決定する。

ターゲットテキスト特徴表現セットを生成するとき、管理機器１４０は、ソーステキスト特徴表現セット内の各ソーステキスト特徴表現について、音声特徴表現セット１２０内の複数の音声特徴のそれぞれとの類似度を計算する。したがって、各ソーステキスト特徴表現と複数の音声特徴表現との複数の類似度を決定することができる。

ブロック３０４において、管理機器１４０は、上述の複数の類似度を複数の音声特徴表現に適用することによって、複数の中間音声特徴表現を生成する。いくつかの実施例では、管理機器１４０は、当該複数の類似度を重みとしてそれらの対応する音声特徴に適用して、複数の中間音声特徴表現を生成する。

ブロック３０６において、管理機器１４０は、複数の中間音声特徴表現を組み合わせることにより、ソーステキスト特徴表現に対応するターゲットテキスト特徴表現を生成する。いくつかの実施例では、管理機器１４０は、重みをつけて処理された複数の中間音声特徴表現を合計して、ソーステキスト特徴表現に対応するターゲットテキスト特徴表現を生成する。

いくつかの実施例では、上記のプロセスは、音声認識結果信頼度モデルにおいて実現されてもよい。

この方法により、ソーステキスト特徴表現に対応するターゲットテキスト特徴表現を迅速に決定することができるので、音声特徴表現セット全体に基づいて認識結果の信頼度の値を決定することができ、音声コマンドを正確に実行し、ユーザー体験を向上させることができる。

図４は、本開示の実施例に係る音声信号を処理するための装置４００の概略ブロック図を示す。図４に示すように、装置４００は、受信された音声信号の音声特徴表現セットを取得するように構成される取得モジュール４０２を含んでもよい。装置４００は、音声信号から認識されたテキストに基づいて、ソーステキスト特徴表現セットを生成するように構成されるソーステキスト特徴表現セット生成モジュール４０４であって、各ソーステキスト特徴表現は、テキスト内の１つの要素に対応するソーステキスト特徴表現セット生成モジュール４０４をさらに含む。装置４００は、音声特徴表現セットおよびソーステキスト特徴表現セットに基づいて、ターゲットテキスト特徴表現セットを生成するように構成されるターゲットテキスト特徴表現セット生成モジュール４０６をさらに含む。装置４００は、ターゲットテキスト特徴表現セットと、テキストについて事前定義された参照テキスト特徴表現セットとのマッチング度合いを決定するように構成される第１のマッチング度合い決定モジュール４０８であって、マッチング度合いはテキストの認識の正確さを示す第１のマッチング度合い決定モジュール４０８をさらに含む。

いくつかの実施例では、装置４００は、音声特徴表現セット内の音声特徴表現に対して非線形変換を実行するように構成される非線形変換モジュールと、変換された音声特徴表現を用いて音声特徴表現セット内の音声特徴表現を置き換えるように構成される置き換えモジュールと、をさらに含む。

いくつかの実施例では、ターゲットテキスト特徴表現セット生成モジュール４０６は、ソーステキスト特徴表現セット内の１つのソーステキスト特徴表現と、音声特徴表現セット内の複数の音声特徴表現との複数の類似度を決定するように構成される第１の類似度決定モジュールと、複数の類似度を複数の音声特徴表現に適用することによって複数の中間音声特徴表現を生成するように構成される中間音声特徴表現生成モジュールと、複数の中間音声特徴表現を組み合わせることによってソーステキスト特徴表現に対応するターゲットテキスト特徴表現を生成するように構成される組み合わせモジュールと、を含む。

いくつかの実施例では、第１のマッチング度合い決定モジュール４０８は、ターゲットテキスト特徴表現セット内の複数のターゲットテキスト特徴表現と、参照テキスト特徴表現セット内の、複数のターゲットテキスト特徴表現に対応する複数の参照テキスト特徴表現との複数の類似度を決定するように構成される第２の類似度決定モジュールと、複数の類似度の平均値に基づいてマッチング度合いを決定するように構成される第２のマッチング度合い決定モジュールと、を含む。

いくつかの実施例では、装置４００は、マッチング度合いと閾値度合いとを比較するように構成される比較モジュールと、マッチング度合いが閾値度合いより高いとの判定に基づいて、テキストによって示された動作を実行するように構成される実行モジュールと、をさらに含む。
本開示の実施例によれば、コンピュータ読み取り可能な記憶媒体に記憶されているコンピュータプログラムが提供される。当該コンピュータプログラムにおける命令が実行された場合に、上記音声信号を処理するための方法が実行される。

図５は、本開示の実施例を実施可能な電子機器５００を示す概略ブロック図である。機器５００は、図１の管理機器１４０の実現に使用されてもよい。図に示すように、機器５００は、リードオンリーメモリ（ＲＯＭ）５０２に記憶されたコンピュータプログラム命令、または記憶ユニット５０８からランダムアクセスメモリ（ＲＡＭ）５０３にローディングされたコンピュータプログラム命令に基づいて、各種の適切な動作および処理を実行することができるコンピューティングユニット５０１を含む。ＲＡＭ５０３には、機器５００の動作に必要な各種のプログラムおよびデータが記憶されてもよい。コンピューティングユニット５０１と、ＲＯＭ５０２と、ＲＡＭ５０３とは、バス５０４を介して互いに接続されている。入力／出力（Ｉ／Ｏ）インターフェース５０５もバス５０４に接続されている。

機器５００における複数のコンポーネントは、Ｉ／Ｏインターフェース５０５に接続されており、キーボードやマウスなどの入力ユニット５０６と、種々なディスプレイやスピーカーなどの出力ユニット５０７と、磁気ディスクや光学ディスクなどの記憶ユニット５０８と、ネットワークカード、モデム、無線通信トランシーバーなどの通信ユニット５０９と、を含む。通信ユニット５０９は、機器５００がインターネットのようなコンピュータネットおよび／または種々なキャリアネットワークを介してその他の機器と情報／データを交換することを許可する。

コンピューティングユニット５０１は、処理及び計算能力を有する様々な汎用及び/又は専用処理コンポーネントであってよい。コンピューティングユニット５０１のいくつかの例は、中央処理装置(ＣＰＵ)、グラフィック処理装置 (ＧＰＵ)、様々な専用人工知能(ＡＩ)計算チップ、機械学習モデルアルゴリズムを実行する様々なコンピューティングユニット、デジタル信号プロセッサ(ＤＳＰ)、および任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。コンピューティングユニット５０１は、上述の各方法および処理、例えば、方法２００および３００、を実行する。例えば、いくつかの実施例では、方法２００および３００は、記憶ユニット５０８のような機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウエアプログラムとして実現することができる。いくつかの実施例では、コンピュータプログラムの一部または全ては、ＲＯＭ５０２および／または通信ユニット５０９を介して、機器５００にロードおよび／またはインストールすることができる。コンピュータプログラムがＲＡＭ５０３にロードされてコンピューティングユニット５０１によって実行される場合、上述の方法２００および３００の一つまたは複数のステップを実行することができる。代替可能に、他の実施例では、コンピューティングユニット５０１は、他の任意の適切な方式（例えば、ファームウェアを借りる）により方法２００および３００を実行するように構成される。

本明細書で上述された機能は、少なくとも部分的に一つまたは複数のハードウェアロジックコンポーネントによって実現することができる。例えば、使用可能なハードウェアロジックコンポーネントは、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、コンプレックスプログラマブルロジックデバイス（ＣＰＬＤ）などを含むが、これらに限定されない。

本開示の方法を実施するためのプログラムコードは、一つまたは複数のプログラミング言語の任意の組み合わせを用いて作成することができる。これらのプログラムコードは、汎用コンピュータ、専門コンピュータまたはその他のプログラミングデータ処理装置のプロセッサまたはコントローラに提供されることにより、プログラムコードがプロセッサまたはコントローラによって実行されるとき、フローチャートおよび／またはブロック図に規定された機能／動作を実行することができる。プログラムコードは、完全にマシンで実行されてもよく、部分的にマシンで実行されてもよく、独立したソフトパッケージとして部分的にマシンで実行されるとともに、部分的にリモートマシンで実行されてもよく、または完全にリモートマシンまたはサーバで実行されてもよい。

本開示の説明において、機械読み取り可能な媒体は、有形な媒体であってもよく、命令実行システム、装置または機器によって、または命令実行システム、装置または機器と合わせて使用されるプログラムを含み、または記憶する。機械読み取り可能な媒体は、機械読み取り可能な信号媒体または機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子、磁気、光学、電磁、赤外線、または半導体システム、装置、またはデバイス、または上述された内容の任意の適切な組み合わせを含んでもよいが、これらに限定されない。機械読み取り可能な記憶媒体のさらなる具体例として、ポータブルコンピュータディスクカートリッジ、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能なプログラマブルリードオンリーメモリ（ＥＰＲＯＭまたはフラッシュメモリ）、ポータブルコンパクトディスクリードオンリーメモリ（ＣＤ－ＲＯＭ）、光学記憶装置、磁気記憶装置、または上述された内容の任意の組み合わせを含む。

また、特定の順番で各動作を説明したが、このような動作を、示される特定の順番または順次実行することが求められ、または図示した動作の全てを実行して所望の結果を取得することが求められることを理解されたい。一定の環境において、複数のタスクおよび並列処理が有利である可能性がある。同様に、以上の説明には、いくつかの具体的な実現の詳細が含まれたが、それが本開示の範囲を限定するものと理解されてはならない。個別の実施例に説明された一部の特徴は、組み合わせて一つの実現で実現されてもよい。逆に、一つの実施例に説明された種々な特徴は、個別または任意の適切なサブ組み合わせの方式で複数の実現で実現されてもよい。

構成の特徴および／または方法の論理動作に特有の言語で本テーマを説明したが、特許請求の範囲で限定される本題は、上記の特定の特徴または動作に限定されない。逆に、上記の特定の特徴および動作は、特許請求の範囲を実現する例示的な形態に過ぎない。

Claims

音声信号を処理するための方法であって、
受信された音声信号の音声特徴表現セットを取得するステップと、
前記音声信号から認識されたテキストに基づいて、ソーステキスト特徴表現セットを生成するステップであって、各ソーステキスト特徴表現は、前記テキスト内の１つの要素に対応し、前記テキストを、ニューラルネットワークによって形成される音声認識結果信頼度モデルに送信することで、前記テキストに対応するソーステキスト特徴表現セットを生成し、前記１つの要素は１つの文字、１つの音節、または１つのアルファベットであるステップと、
前記音声特徴表現セットおよび前記ソーステキスト特徴表現セットに基づいて、ターゲットテキスト特徴表現セットを生成するステップと、
前記ターゲットテキスト特徴表現セットと、前記テキストについて事前定義された参照テキスト特徴表現セットとのマッチング度合いを決定するステップであって、前記マッチング度合いは、前記テキストの認識の正確さを示すステップと、を含み、
ターゲットテキスト特徴表現セットを生成するステップは、
前記ソーステキスト特徴表現セット内の１つのソーステキスト特徴表現と、前記音声特徴表現セット内の複数の音声特徴表現との複数の類似度を決定するステップと、
前記複数の類似度を前記複数の音声特徴表現に適用することによって、複数の中間音声特徴表現を生成するステップと、
前記複数の中間音声特徴表現を組み合わせることによって、前記ソーステキスト特徴表現に対応するターゲットテキスト特徴表現を生成するステップと、を含む、
ことを特徴とする音声信号を処理するための方法。
前記方法は、
前記音声特徴表現セット内の音声特徴表現に対して非線形変換を実行するステップと、
変換された前記音声特徴表現を用いて前記音声特徴表現セット内の前記音声特徴表現を置き換えるステップと、をさらに含む、
ことを特徴とする請求項１に記載の方法。
前記マッチング度合いを決定するステップは、
前記ターゲットテキスト特徴表現セット内の複数のターゲットテキスト特徴表現と、前記参照テキスト特徴表現セット内の、複数のターゲットテキスト特徴表現に対応する複数の参照テキスト特徴表現との複数の類似度を決定するステップと、
前記複数の類似度の平均値に基づいて前記マッチング度合いを決定するステップと、を含む、
ことを特徴とする請求項１に記載の方法。
前記方法は、
前記マッチング度合いと閾値度合いとを比較するステップと、
前記マッチング度合いが前記閾値度合いより高いとの判定に基づいて、前記テキストによって示された動作を実行するステップと、をさらに含む、
ことを特徴とする請求項１に記載の方法。
音声信号を処理するための装置であって、
受信された音声信号の音声特徴表現セットを取得するように構成される取得モジュールと、
前記音声信号から認識されたテキストに基づいて、ソーステキスト特徴表現セットを生成するように構成されるソーステキスト特徴表現セット生成モジュールであって、各ソーステキスト特徴表現は、前記テキスト内の１つの要素に対応し、前記テキストを、ニューラルネットワークによって形成される音声認識結果信頼度モデルに送信することで、前記テキストに対応するソーステキスト特徴表現セットを生成し、前記１つの要素は１つの文字、１つの音節、または１つのアルファベットであるソーステキスト特徴表現セット生成モジュールと、
前記音声特徴表現セットおよび前記ソーステキスト特徴表現セットに基づいて、ターゲットテキスト特徴表現セットを生成するように構成されるターゲットテキスト特徴表現セット生成モジュールと、
前記ターゲットテキスト特徴表現セットと、前記テキストについて事前定義された参照テキスト特徴表現セットとのマッチング度合いを決定するように構成される第１のマッチング度合い決定モジュールであって、前記マッチング度合いは、前記テキストの認識の正確さを示す第１のマッチング度合い決定モジュールと、を含み、
前記ターゲットテキスト特徴表現セット生成モジュールは、
前記ソーステキスト特徴表現セット内の１つのソーステキスト特徴表現と、前記音声特徴表現セット内の複数の音声特徴表現との複数の類似度を決定するように構成される第１の類似度決定モジュールと、
前記複数の類似度を前記複数の音声特徴表現に適用することによって、複数の中間音声特徴表現を生成するように構成される中間音声特徴表現生成モジュールと、
前記複数の中間音声特徴表現を組み合わせることによって、前記ソーステキスト特徴表現に対応するターゲットテキスト特徴表現を生成するように構成される組み合わせモジュールと、を含む、
ことを特徴とする音声信号を処理するための装置。
前記装置は、
前記音声特徴表現セット内の音声特徴表現に対して非線形変換を実行するように構成される非線形変換モジュールと、
変換された前記音声特徴表現を用いて前記音声特徴表現セット内の音声特徴表現を置き換えるように構成される置き換えモジュールと、をさらに含む、
ことを特徴とする請求項５に記載の装置。
前記第１のマッチング度合い決定モジュールは、
前記ターゲットテキスト特徴表現セット内の複数のターゲットテキスト特徴表現と、前記参照テキスト特徴表現セット内の、複数のターゲットテキスト特徴表現に対応する複数の参照テキスト特徴表現との複数の類似度を決定するように構成される第２の類似度決定モジュールと、
前記複数の類似度の平均値に基づいて前記マッチング度合いを決定するように構成される第２のマッチング度合い決定モジュールと、を含む、
ことを特徴とする請求項５に記載の装置。
前記装置は、
前記マッチング度合いと閾値度合いとを比較するように構成される比較モジュールと、
前記マッチング度合いが閾値度合いより高いとの判定に基づいて、前記テキストによって示された動作を実行するように構成される実行モジュールと、をさらに含む、
ことを特徴とする請求項５に記載の装置。
一つまたは複数のプロセッサと、
一つまたは複数のプログラムを記憶するための記憶装置と、を含む電子機器であって、
前記一つまたは複数のプログラムが前記一つまたは複数のプロセッサによって実行される場合、前記一つまたは複数のプロセッサが、請求項１～４のいずれかに記載の方法を実現する、
ことを特徴とする電子機器。
コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であっ
て、
前記プログラムがプロセッサによって実行される場合、請求項１～４のいずれかに記載の方法が実現される、
ことを特徴とするコンピュータ読み取り可能な記憶媒体。
コンピュータ読み取り可能な記憶媒体に記憶されているコンピュータプログラムであって、
前記コンピュータプログラムにおける命令が実行された場合に、請求項１～４のいずれかに記載の方法が実行される、
ことを特徴とするコンピュータ読み取り可能な記憶媒体に記憶されているコンピュータプログラム。