JP2020115206A

JP2020115206A - システム及び方法

Info

Publication number: JP2020115206A
Application number: JP2019235490A
Authority: JP
Inventors: フランチェスコネスタ; Nesta Francesco; アリレザマスナディ−シラジ; Alireza Masnadi-Shirazi
Original assignee: Synaptics Inc
Current assignee: Synaptics Inc
Priority date: 2019-01-07
Filing date: 2019-12-26
Publication date: 2020-07-30
Anticipated expiration: 2039-12-26
Also published as: CN111415686A; JP7498560B2; US20200219530A1; US11257512B2

Abstract

【課題】ノイズの多い環境で音声区間を検出するための改善されたシステムと方法を開示する。【解決手段】システム１００は、マルチチャネルオーディオ入力信号１１０の各チャネルを複数の周波数サブバンドに分割するサブバンド解析１２０と、マルチチャネルオーディオ入力信号のフレーム内の発話を検出して発話決定を出力するように作動できる入力ＶＡＤ１３０と、マルチチャネルオーディオ入力信号と発話決定とを受信し、フィルタの出力における信号分散を最小化してこれにより等化された対象発話信号を生成するように作動できる拘束付最小分散適応フィルタ１４０と、等化された対象発話信号と発話決定とを受信してノイズと干渉発話とから対象発話を区別するスペクトル−時間マスクを生成するように作動できるＴＦ−マスク推定部１５２と、発話区別信号のフレーム内の音声を検出するように作動できるＶＡＤ１５４を含む。【選択図】図１

Description

本明細書は、１以上の実施の形態に従い、全般的にオーディオ信号の検出と処理についてのシステムと方法とに関し、より詳細には、例えば音声区間検出（voice activity detection）システムと方法とに関する。

音声区間検出（Voice Activity Detection；ＶＡＤ）は、音声認識システム、ノイズ低減システム、音源探査システムのような様々な音声通信システムに用いられている。多くの用途において、オーディオ信号は、ノイズの多い環境での音響活性を感知する１以上のマイクロフォンを介して受信される。感知されたオーディオ信号は、検出されるべき発話と、発話の明瞭度を低下させ、かつ／または、ＶＡＤ性能を低下させるさまざまなノイズ信号（非対象発話を含む）とを含み得る。また、従来のＶＡＤ技術では、携帯電話、スマートスピーカ、ラップトップコンピュータなどの低電力、低コストのデバイスでのリアルタイム音声区間検出において、実用的でない比較的大きな処理またはメモリリソースが必要になる場合がある。上記に鑑みて、改善されたＶＡＤシステムと方法とが当技術分野において必要とされ続けている。

雑音の多いオーディオ信号の中で対象者の声などの対象オーディオ信号を検出するための改善されたシステムと方法とが本明細書に開示される。１以上の実施の形態において、システムは、サブバンド解析モジュールと、入力音声区間検出部と、拘束付最小分散適用フィルタと、マスク推定部と、空間ＶＡＤとを含む。

本開示の範囲は、特許請求の範囲により定義され、特許請求の範囲は参照によりここに組み込まれる。以下の１以上の実施の形態の詳細な説明を考慮することで、その追加の利点の実現とともに、当業者は発明の実施の形態をより完全に理解できよう。最初に簡潔に記載された図面の添付シートを参照されよう。

本開示の態様とそれらの利点は、以下の図面と後述の詳細な説明とを参照してよく理解することができる。類似の参照番号は１以上の図に示される類似の要素を識別するために使用され、その中の表示は、本開示の実施の形態を示すことを目的とし、その限定を目的とするものではないことは理解されよう。図面内のコンポーネントは必ずしも縮尺通りでなく、代わりに本開示の原理を明確に示すことに重点を置いている。

本開示の１以上の実施の形態において、適応空間音声区間検出システムの例示的なシステム構成を示す。

本開示の１以上の実施の形態において、適応空間音声区間検出システムのコンポーネントにより生成された例示的なオーディオ信号を示す。

本開示の１以上の実施の形態において、到来方位を含む例示的な対象発話処理を示す。

本開示の１以上の実施の形態における、適応空間音声検出の実装を含む例示的なシステムを示す。

本開示の１以上の実施の形態における、適応空間音声検出を実装した例示的なオーディオ信号処理システムを示す。

本開示の１以上の実施の形態における例示的な音声区間検出方法を示す。

本明細書では、ノイズの多い環境で音声区間を検出するための改善されたシステムと方法とを開示する。

最近の進歩にも関わらず、ノイズの多い状態での音声認識は未だ困難な課題である。マルチマイクロフォンの設定において、適応および非適応ビームフォーミング、独立成分分析または独立ベクトル分析に基づいたブラインド信号源分離、マルチチャネル非負値行列分解などのアルゴリズムを含む、いくつかのマルチチャネル音声強調アルゴリズムが提案されている。自動音声認識の分野における有望な方法の１つは、一般化固有値（ＧＥＶ）ビームフォーマとも呼ばれる信号雑音比（ＳＮＲ）最大化ビームフォーマであり、これは出力ＳＮＲを最大化するようにマルチチャネルフィルタを最適化することを目的とする。オンラインＳＮ比最大ビームフォーマアルゴリズムを実装するために用いられる要素の１つは、ノイズと入力との共分分散行列の推定部である。推定は、一般に、音声区間検出によって、または、発話活性に相関するスペクトル‐時間マスクを予測するディープニューラルネットワーク（ＤＮＮ）を通じて指示される。ＶＡＤ（またはＤＮＮマスク）には、ノイズを単独で観測する信頼性が高い信号の部分を識別し、ノイズ共分散行列を更新するという目標がある。入力ノイズ共分散行列を更新できるように、ノイズが対象の発話と重なる信号の部分を識別することも要求される。

既存システムの欠点の１つは、ＶＡＤとＤＮＮマスク推定部が「非発話」ノイズから発話を区別するように設計されていることである。しかしながら、多くの現実世界のシナリオにおいて、ノイズ源（例えばテレビ、または、ラジオ）は、誤検出を発生させ、ついにはノイズ低減の全体性能を低下させるような発話部分を含んだ音も発し得る。本開示では、マルチチャネルＶＡＤ予測と、スペクトル‐時間マスクとを生成して、対象の発話とノイズ源により発せられる干渉発話とを区別する改善されたシステムと方法とが開示されている。例えば、干渉ノイズは、映画、ショー、またはオーディオコンテンツを含む他の番組を再生するテレビにより生成され得る。このシナリオにおけるノイズは、多くの場合、音楽やその他のオーディオ効果などの非発話音と発話との混合を含まれ得る。

様々な実施の形態において、音声区間検出の方法は、対象発話方向を明示的に定義することなく出力分散の最小化を目的とする拘束付適応フィルタを推定することを含む。
このフィルタは、音が「発話」クラスに属しないと高い確信があるとき、トレーニングされる。この指示は、非発話音から発話を区別するようにトレーニングされたディープニューラルネットワークに基づく音声区間検出部を通じて取得され得る。このマルチチャネルフィルタの推定は、相対伝達関数（ＲＴＦ）の推定に相当し得る。このフィルタ出力は、同じノイズ源により発せられた音について最小化されるため、ノイズ内に発話があるときも最小化され得る。したがって、対象発話と干渉発話との区別は可能である。いくつかの実施の形態において、この方法は、適応フィルタの出力においてパワーに基づくＶＡＤを実行することを含む。このフィルタの出力を、時間周波数ポイントを識別するサブバンドマスクを推測するためにも用いる場合があり、さらにノイズ低減方法を指示するために使用することができる。

本明細書で開示される方法は、テレビのノイズはいくつかの発話を含む映画を再生して、‐１０ｄＢＳＮＲの大音量のテレビでトリガーワードを発するスピーカなどの困難なノイズシナリオにおいて２チャネル音声強調（ＳＳＰ）における観測にうまく適用されている。キーワード認識性能の改善により、平均ヒット率スコアが約３０％（空間ＶＡＤなし）から８０％以上（空間ＶＡＤあり）への変化が測定された。さらに、本明細書で開示される方法は、到来方位（ＤＯＡ）推定の観測にうまく使用され、高い非定常ノイズを有する‐１０ｄＢＳＮＲ状況での対象スピーカの位置追跡を可能にしている。

ここで、他の解決策に比較した技術的な違いと利点とを説明する。既存のシングルチャネルに基づいた方法は、入力フレームが発話を含むか、非発話ノイズのみを含むかの予測を生成するために、オーディオ信号内の音自体の性質に依存する。これらの方法は、対象発話と干渉発話とが同じサウンドクラスに属するため、対象発話と干渉発話とを区別できない。検出された任意の発話は、音声コマンドを提供する対象ユーザからであろうと干渉発話であろうと、これらのシステムでは発話としてクラス分けされ得る。

既存のマルチチャネルに基づく方法は、従来、対象スピーカの位置の強い幾何学的仮定に基づいている。例えば、対象スピーカが、（ｉ）１つのマイクロフォンの近くに、（ｉｉ）予め決められた空間領域にあり、および／または、（ｉｉｉ）よりコヒーレントな発話を生成すると仮定され得る。これらの仮定は、３６０度の遠距離音声制御や、コヒーレントなノイズ（例えばテレビやラジオからの発話）のある環境に置かれ得るスマートスピーカーアプリケーションなどの多くの用途では実用的でない。

既存の音声区間検出と対照的に本明細書で開示されるシステムと方法とは、サウンドの性質と、３Ｄ空間での固有の空間フィンガープリント（unique spatial fingerprint）を活用して、高い発話／ノイズの区別を行う。加えて、本開示のシステムと方法とは、幾何学またはスピーカの位置に関する事前の仮定を必要とせず、既存のシステムよりも遠距離の用途に対して高い柔軟性を有する。様々な実施の形態において、教師付き適応空間音声区間検出部は、使用され、ノイズ源から発せられる発話音により引き起こされる誤検知の除去に特に適用される。

ここで、図１を参照して、様々な実施形態における例示的なシステム１００を説明する。システム１００は、サブバンド解析モジュール１２０を通じて処理されたマルチチャネルオーディオ入力信号１１０を受信する。いくつかの実施形態では、マルチチャネルオーディオ入力信号１１０は、複数のオーディオセンサ（例えばマイクロフォンアレイ）とオーディオ入力処理回路とを含むオーディオ入力コンポーネントから生成される。マルチチャネルオーディオ入力信号１１０は、フレームｌのストリームに分割された複数のオーディオチャネルＭを含む。サブバンド解析モジュール１２０は、オーディオチャネルの周波数スペクトルを複数の周波数サブバンドＸ_ｉ（ｋ、ｌ）に（例えばフーリエ変換処理を使用して）分割する。さらに、システム１００は、入力音声区間検出（ＶＡＤ）１３０と、拘束付最小分散適応フィルタ１４０と、時間周波数（ＴＦ）マスク推定部１５２と、空間音声区間検出ＶＡＤ１５４とを含む。

入力ＶＡＤ１３０は、サブバンド解析モジュール１２０の出力Ｘ_ｉ（ｋ，ｌ）を受信して、ノイズのような非発話が単独で（例えば発話なしで）検出される瞬間（例えばオーディオフレーム）を識別する。いくつかの実施形態において、入力ＶＡＤ１３０は、発話活性の誤棄却よりも誤検出を発生させるように調整される。言い換えると、入力ＶＡＤ１３０の目的は、発話が存在しないという決定が高い信頼度でなされるフレームを識別することである。様々な実施の形態において、入力ＶＡＤ１３０は、パワーに基づく発話検出技術を含んでもよく、この技術は、発話と非発話とを区別するようにトレーニングされたディープニューラルネットワーク、サポートベクターマシン、および／または、ガウス混合モデルのような機械学習データに基づいた分類部を含み得る。ある実施の形態では、入力ＶＡＤ１３０は、同時出願継続中の出願番号１５／８３２，７０９、名称「ＶＯＩＣＥＡＣＴＩＶＩＴＹＤＥＴＥＣＴＩＯＮＳＹＳＴＥＭＳＡＮＤＭＥＴＨＯＤＳ」で提案された方法の実施の形態を実装されてもよく、そのすべてを参照によりここに取り込む。

入力ＶＡＤ１３０は、観測されたフレームｌに対する入力ＶＡＤ１３０の状態を定義する変数ｖ（ｌ）を出力する。ある実施の形態において、観測されたフレームに発話が含まれると決定されたことが「１」に等しい値で示され、観測されたフレームにおいて発話の不存在が「０」に等しい値で示される。他の実施の形態において、入力ＶＡＤ１３０は、時間に基づく音声区間決定（voice activity determinations）を行うように作動できる他の従来のＶＡＤシステムと方法とを含んでもよく、このシステムと方法とは１以上のチャネル、サブバンド、および／または、マルチチャネル信号のフレームに基づいて音声区別決定の解析と実施とを行うＶＡＤを含む。

拘束付最小分散適応フィルタ１４０は、マルチチャネルサブバンド信号Ｘ_ｉ（ｋ，ｌ）と発話決定ｖ（ｌ）を受信し、出力するときの信号の分散を最小化する適応フィルタの推定を実施できる。本明細書において、周波数領域の実装を簡略化と有効化とのために開示するが、本開示はこのアプローチに限定されない。図示された実施の形態において、各チャネルｉについて、本実施の形態の時間領域信号ｘ_ｉ（ｔ）は、サブバンド解析モジュール１２０によりアンダーサンプリングされた時間周波数領域の表現に変換される。これは、サブバンド解析または短時間フーリエ変換を適用することで得ることができる。

ここで、Ｍは入力チャネルの数（Ｍ＞１）を表す。サブバンドｋについて、フィルタの出力は次のように定義される。

ここで、Ｇ（ｋ）は、ノイズ源がアクティブのときのみに（例えばｖ（ｌ）が発話を検知していないことを示すときに）、出力変数Ｅ［｜Ｙ（ｋ）｜^２］を最小化するように最適化される。

ここで、｜Ｇ^Ｈ（ｋ）ｅ_１｜＝１、ｅ１＝［１，・・・，０］^Ｔで拘束され、これは、いくつかの実施の形態において、

がすべてゼロのベクトルになることを回避するために使用される。最適化のための閉形式の解は次のようになる。

ここで、Ｒ_ｎ（ｋ）は算出されたノイズの共分散であり、次のようになる。

オンライン実装において、共分散行列は、フレームｌで更新され、一次再帰的平滑化（first-order recursive smoothing）で次のように推定され得る。

ここで、α（ｌ）＝ｍａｘ（α，ｖ（ｌ））であり、α（＜１）は平滑化定数である。

いくつかの実施の形態において、フィルタＧ（ｋ）を推定する他の方法は、適応について一切の拘束を課すことなく、次の拘束付フィルタ構造を課して、

次式により最適化する。

この最適化問題に適応する解は、次のように定式化できる正規化最小平均二乗法（ＮＬＭＳ）を使用して取得できる。

ここで、μは適応ステップサイズであり、Ｚ（ｋ，ｌ）＝［Ｘ_２（ｋ，ｌ），・・・，Ｘ_Ｍ（ｋ，ｌ）］^Ｔとβ｜Ｙ（ｋ，ｌ）｜^２（β＞１）とは学習を安定させ数値の発散を避けるために追加される。

拘束付最小分散適応フィルタ｜Ｙ（ｋ，ｌ）｜^２の出力変数は、ノイズ源により発せられた音を含むフレームについて最小化される。フィルタの減衰は、音の性質に関係せず、空間共分散行列にのみに依存するため、干渉発話を含むノイズ部分に対する出力も小さくなり得る。一方、空間内の異なる点から発せられた音は、異なる空間共分散行列を持ち得るため、ノイズ源ほど減衰しない。ＮＬＭＳ公式に従って、Ｍ＝２および１つのコヒーレンスノイズ源の場合、推定されるフィルタＧ_ｉ（ｋ）（ｉ＞２）は、第１マイクロフォンと第ｉマイクロフォンとの間の相対伝達関数とみなすことができる。

共分散Ｒ_ｎ（ｋ）のノイズは出力Ｙ（ｋ，ｌ）で減衰され、開示される実施の形態において、この信号は対象発話の強調バージョンとして直接使用されない。様々な実施の形態において、対象スピーカ方向やそのＲＴＦが事前に知られていないため、最小分散無歪応答（ＭＶＤＲ）ビームフォーマで通常行われているような「無歪み」の拘束は課されない。したがって、図示された実施の形態において、Ｙ（ｋ，ｌ）は、対象発話の空間共分散とノイズの空間共分散との類似性に依存するスペクトル歪みを有する対象発話の等化バージョンを含み得る。出力Ｙ（ｋ，ｌ）におけるＳＮＲ改善は、明示的に対象発話分散の推定に対処することなく、ＴＦマスク推定部１５２を通じて発話関連ＴＦ活性マスクの推定を可能にするため十分大きい。

最初に、各サブバンドｋについて、次のように｜Ｘ_１（ｋ，ｌ）｜と｜Ｙ（ｋ，ｌ）｜から基準特徴信号が算出される。

様々な実施の形態において、Ｆ（ｋ，ｌ）についての可能な定式化は次のようにできる。

これは、実際には、フィルタの振幅伝達関数（magnitude transfer function）により重みづけされた出力振幅である。ただし、他の公式化も可能である。

各サブバンドｋについて、対象発話の活性は、信号Ｆ（ｋ，ｌ）のパワーレベルを追跡し、非定常信号部分を検出することで、決定され得る。そこで、シングルチャネルのパワーに基づくＶＡＤを、各信号Ｆ（ｋ，ｌ）に適用してマスクを生成できる。

この実施の形態において、例示的なサブバンドＶＡＤが示されているが、多くの他のアルゴリズムを利用可能であり、本開示がこの定式化に限定されるとみなされるべきでない。

各サブバンドｋについて、ノイズフロアは、次のようなデュアルレート平滑化により推定され得る。

ここで、ｒ_ｕｐ＞＞ｒ_ｄｏｗｎとなる平滑化定数である。

次に対象発話マスクは、次のように算出される。

ここで、ＳＮＲ＿thresholdは、調整可能なパラメータである。図示された実施の形態において、適応フィルタはノイズフロアの下でノイズ出力分散を減少できると仮定され、かくして安定的なノイズ残差が生成される。これは、ノイズがコヒーレントであり、かつ、サブバンドのシングル表現が正確に音響反射をモデル化するのに十分高い解像度を有している場合に可能である。他の実施の形態において、この仮定は緩和され、Ying，Dongwenなどによる「Voice activity detection based on an unsupervised learning framework」 IEEE Transactions on Audio，Speech and Language Processing １９．８（２０１１）：２６２４‐２６３３に記載されたような、相対パワーレベルの分布の追跡に基づく方法が採用される。この文献を参照によりここに取り込む。

フレームに基づく空間ＶＡＤは、特徴信号Ｆ（ｋ，ｌ）（例えばＴＦマスク推定部１５２から）をシングル信号Ｆ（ｌ）に統合することで算出され得る。

ここで、Ｋは周波数のサブセットであり、Ｆ（ｌ）にシングルチャネルＶＡＤ判断基準を適用して、バイナリフレームに基づく決定Ｖ（ｌ）を得る。いくつかの実施の形態においてＶ（ｋ，ｌ）も次のように各サブバンドに直接適用できる。

他の実施の形態において、全信号Ｆ（ｋ，ｌ）は予想Ｖ（ｌ）を生成するために使用される場合があり、例えばＦ（ｋ，ｌ）から抽出されたハードエンジニアリング機能を使用するか、または、データに基づく最尤法（例えばディープニューラルネットワーク、ガウス混合モデル、サポートベクターマシンなど）を使用する。

ここで、図２を参照して、本開示の１以上の実施形態において、適応空間音声区間検出システムのコンポーネントにより生成される例示的なオーディオ信号２００を説明する。動作中、マルチチャネルオーディオ信号は複数の入力センサを介して受信される。入力オーディオ信号２１０の第１チャネルは、図示され、対象発話とノイズ（非対象発話と非発話ノイズとの両方）とを含み得る。入力音声区間検出部（例えば入力ＶＡＤ１３０）は、発話が存在しない尤度が高いフレームを検出し、例えば、信号２２０に図示されるように、非発話フレームに対して「０」を、発話フレームに対して「１」を出力する。次に、オーディオ処理は、非対象発話活性から対象発話活性を検出して、信号２３０に図示されるように、対象発話のない場合「０」の指標を、対象発話を検出した場合「１」の指標を出力するように行われる。いくつかの実施の形態において、オーディオ信号は、本明細書で前述したような空間ＶＡＤにより非対称発話として認識され得る大音量の非定常ノイズ源（例えばテレビ信号）を含んでもよい。次に、入力オーディオ信号２１０は、強調された対象発話信号２４０を生成するように空間ＶＡＤ（例えば信号２３０）からの検出情報を用いて処理される。

図３は、本開示の１以上の実施の形態において、到来方位処理を含む例示的な対象発話処理を示す。チャート３００は、ニューラルネットワークに基づく音声区間検出を使用する各フレームにおける発話源についての例示的な推定された到来方位を示す。発話の到来方位は、チャート３１０に図示され、対象発話（例えば音声コマンドを発する人）とノイズ源により生成される他の発話（例えばテレビから検出される発話）との両方を示す。ＶＡＤは、チャート３２０に示されるように対応する音声区間決定を出力し、例えば、対象発話および／またはテレビにより生成される発話を含むすべての時間フレームにおいて検出された発話を示す。下部のチャート３５０は、大音量ノイズ（例えばテレビノイズ）が存在するときの対象発話の到来方位（ＤＯＡ）推定のタスクに空間音声区間検出部を適用した例を示す。この場合、チャート３６０における対象発話は、非対称発話（例えばテレビノイズ）が無視されて検出され、例えばチャート３７０に示すように、改善された音声区間検出を提供する。

図４は、本開示の様々な実施の形態による空間音声区間検出を含むオーディオ処理デバイス４００を示す。オーディオ処理デバイス４００は、オーディオセンサアレイ４０５と、オーディオ信号処理装置４２０と、ホストシステムコンポーネント４５０についての入力を含む。

オーディオセンサアレイ４０５は、１以上のセンサを備え、センサの各々は音波をオーディオ信号に変換し得る。図示された環境において、オーディオセンサアレイ４０５は複数のマイクロフォン４０５ａ〜４０５ｎを備え、各々がマルチチャネルオーディオ信号の１つのオーディオチャネルを生成する。

オーディオ信号プロセッサ４２０は、オーディオ入力回路部４２２と、デジタル信号プロセッサ４２４と、オプションのオーディオ出力回路部４２６とを含む。様々な実施の形態において、オーディオ信号プロセッサ４２０は、アナログ回路を備える集積回路と、デジタル回路部と、ファームウェアに記録されたプログラム指示を実行するように動作できるデジタル信号プロセッサ４２４として実装されてもよい。オーディオ入力回路部４２２は、例えば、オーディオセンサアレイ４０５と、アンチエイリアシングフィルタと、アナログ‐デジタル変換回路部と、エコーキャンセル回路部と、他のオーディオ処理回路部と、ここで開示されたような部品とのインタフェースを含んでもよい。デジタル信号プロセッサ４２４は、マルチチャネルデジタルオーディオ信号を処理して、強調されたオーディオ信号を生成して、オーディオ信号を１以上のホストシステムコンポーネント４５０に出力するように作動できる。様々な実施の形態において、マルチチャネルオーディオ信号は、ノイズ信号と少なくとも１つの所望の対象オーディオ信号（例えば人の発話）との混合を含み、デジタル信号プロセッサ４２４は、不要のノイズ信号を減少させつつ、所望の対象信号を隔離または強調するように作動できる。デジタル信号プロセッサ４２４は、エコーキャンセルと、ノイズキャンセルと、対象信号の強調と、ポストフィルタリングと、他のオーディオ信号処理機能とを実行できるように作動できてもよい。デジタル信号プロセッサ４２４は、図１〜３、５〜６において本明細書で開示されたシステムと方法との１以上の実施の形態を実装するように作動可能な、適応空間対象活性検出部（adaptive spatial target activity detector）と、マスク推定モジュール４３０とをさらに含んでもよい。

デジタル信号プロセッサ４２４は、プロセッサ、マイクロプロセッサ、シングルコアプロセッサ、マルチコアプロセッサ、マイクロコントローラ、プログラマブルロジックデバイス（Programmable Logic Device；ＰＬＤ）（例えばＦＰＧＡ（Field Programmable Gate Array））、デジタルシグナルプロセッサ（Digital Signa Processing；ＤＳＰ）デバイス、または他の論理デバイスを１以上備えてもよく、これらは、ハードウェア、ソフトウェア命令の実行、または、それらの組み合わせにより、本開示の実施の形態について本明細書で説明された様々な動作を実行するように構成されてもよい。デジタル信号プロセッサ４２４は、バスまたは他の電気通信インタフェースなどを通じて、ホストシステムコンポーネント４５０とインタフェースで接続し、通信するように作動できる。

オプションのオーディオ出力回路部４２６は、デジタル信号プロセッサ４２４から受信されたオーディオ信号をスピーカ４１０ａと４１０ｂのような少なくとも１つのスピーカに出力するように処理する。様々な実施の形態において、オーディオ出力回路部４２６は、１以上のデジタルオーディオ信号を対応するアナログ信号に変換するデジタル−アナログ変換部と、スピーカ４１０ａ〜４１０ｂを駆動する１以上のアンプを含んでもよい。

オーディオ処理デバイス４００は、対象オーディオデータを受信し検出することができる任意のデバイス、例えばモバイルフォン、スマートスピーカ、タブレット、ラップトップパソコン、デスクトップパソコン、ボイスコントローラアプライアンス、自動車などに実装されてもよい。ホストシステムコンポーネント４５０は、オーディオ処理デバイス４００を作動するための様々なハードウェアコンポーネントとソフトウェアコンポーネントとを備えてもよい。図示された実施の形態において、システムコンポーネント４５０は、プロセッサ４５２と、ユーザインタフェースコンポーネント４５４と、ネットワーク４８０（例えばインターネット、クラウド、ローカルエリアネットワーク、またはセルラーネットワーク）とモバイルデバイス４８４のような外部デバイスとネットワークと通信するための通信インタフェース４５６と、メモリ４５８とを含む。

プロセッサ４５２は、プロセッサ、マイクロプロセッサ、シングルコアプロセッサ、マルチコアプロセッサ、マイクロコントローラ、プログラマブルロジックデバイス（ＰＬＤ）（例えばＦＰＧＡ（Field Programmable Gate Array））、デジタルシグナルプロセッサ（ＤＳＰ）デバイス、または他の論理デバイスを１以上備えてもよく、これらは、ハードウェア、ソフトウェア命令の実行、またはそれらの組み合わせにより、本開示の実施の形態について本明細書で開示された様々な動作を実行するように構成されてもよい。ホストシステムコンポーネント４５０は、オーディオ信号プロセッサ４２０と、バスまたは他の電気通信インタフェースなどを通じて、他のシステムコンポーネント４５０とインタフェースで接続し、通信するように作動できる。

オーディオ信号プロセッサ４２０とホストシステムコンポーネント４５０とは、いくつかの実施の形態において、ハードウェアコンポーネント、回路部、ソフトウェアの組み合わせを統合するように示されているにもかかわらず、ハードウェアコンポーネントと回路部とが実行するように作動できる少なくとも一部またはすべての機能性が、メモリ４５８またはデジタル信号プロセッサ４２４のファームウェアに格納されたソフトウェア命令および／または構成データに応じて、プロセッサ４５２および／またはデジタル信号プロセッサ４２４により実行されるソフトウェアモジュールとして、実装され得ることを理解できよう。

メモリ４５８は、オーディオデータとプログラム命令とを含むデータと情報とを格納するように作動可能な１以上のメモリデバイスとして実装されてもよい。メモリ４５８は、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read-Only Memory）、ＥＥＰＲＯＭ（Electrically-Erasable Read-Only Memory）、フラッシュメモリ、ハードディスクドライブ、および／または他のタイプのメモリのような１以上の様々なタイプを備えてもよい。

プロセッサ４５２はメモリ４５８に格納されたソフトウェア命令を実行するように作動できてもよい。様々な実施の形態において、音声認識エンジン４６０は、音声コマンドの認識と実行とを含み、オーディオ信号プロセッサ４２０から受信された強調されたオーディオ信号を処理するように作動できる。音声通信コンポーネント４６２は、モバイルネットワークまたはセルラー電話ネットワークを経由した通話、またはＩＰ（Internet protocol）ネットワークを経由したＶｏＩＰ通話などを通じて、モバイルデバイス４８４またはユーザデバイス４８６のような１以上の外部デバイスとの音声通信を容易するように作動できてもよい。様々な実施の形態において、音声通信は、外部通信デバイスへの強調されたオーディオ信号の送信を含む。

ユーザインタフェースコンポーネント４５４は、ユーザがオーディオ処理デバイス４００と直接情報を交換できるように作動可能なディスプレイ、タッチディスプレイ、キーボード、１以上のボタン、および／または、他の入力／出力コンポーネントを含んでもよい。

通信インタフェース４５６は、オーディオ処理デバイス４００と外部デバイスとの通信を容易にする。例えば、通信インタフェース４５６は、オーディオ処理デバイス４００と、ネットワーク４８０などを通じてリモートサーバ４８２へのネットワークアクセスを提供するワイヤレスルータ、またはモバイルデバイス４８４などの１以上のローカルデバイスとのＷｉ−Ｆｉ（例えば、８０２．１１）またはブルートゥース（登録商標）接続を可能にし得る。様々な実施の形態において、通信インタフェース４５６は、オーディオ処理デバイス４００と１以上の他のデバイスとの間の直接または間接通信を容易にする他の有線と無線との通信コンポーネントを含んでもよい。

図５は、本開示の様々な実施形態におけるオーディオ信号プロセッサ５００を示す。いくつかの実施の形態において、オーディオ信号プロセッサ５００は、図４のデジタル信号プロセッサ４２４のようなデジタル信号プロセッサによって実装されるアナログ回路とデジタル回路とファームウェア論理とを含む１以上の集積回路として具現化される。図示されるように、オーディオ信号プロセッサ５００は、オーディオ入力回路部５１５と、サブバンド周波数解析部５２０と、適応空間対象活性検出部およびマスク推定モジュール５３０と、合成部５３５と含む。

オーディオ信号プロセッサ５００は、少なくとも１つのオーディオセンサ５０５ａ〜ｎを備えるセンサアレイ５０５のような複数のオーディオセンサからマルチチャネル入力を受信する。オーディオセンサ５０５ａ〜５０５ｎは、図４のオーディオ処理デバイス４００またはこれに接続された外部コンポーネントのようなオーディオ処理デバイスと一体化されたマイクロフォンを含んでもよい。

オーディオ信号はオーディオ入力回路部５１５により最初に処理されてもよく、オーディオ入力回路部５１５はアンチアイリアシングフィルタ、アナログ‐デジタル変換部、および／または、オーディオ入力回路部を含んでもよい。様々な実施の形態において、オーディオ入力回路部５１５はＭチャネルを有するデジタルのマルチチャネルの時間領域オーディオ信号を出力し、ここでＭはセンサ（例えばマイクロフォン）入力の数である。マルチチャネルオーディオ信号はサブバンド周波数解析部５２０に入力され、サブバンド周波数解析部５２０は、マルチオーディオ信号を連続するフレームに分割し、各チャネルの各フレームを複数の周波数サブバンドに分解する。様々な実施の形態において、サブバンド周波数解析部５２０はフーリエ変換処理を含む。次に、分解されたオーディオ信号は、適応空間対象活性検出部およびマスク推定モジュール５３０に提供される。

適応空間対象活性検出部およびマスク推定モジュール５３０は、１以上のオーディオチャネルのフレームを解析し、対象オーディオが現在のフレームに存在するかを示す信号を生成するように作動できる。本明細書で記載したように、対象オーディオは人の発話（例えば音声コマンドによる処理）でよく、適応空間対象活性検出部およびマスク推定モジュール５３０は非対象発話を含むノイズの多い環境で発話を検出し、さらなる処理、例えばホストシステムによる処理において強調された対象オーディオ信号を生成するように作動してもよい。いくつかの実施の形態において、強調された対象オーディオ信号は、１以上のチャネルのサブバンドを組み合わせることで各フレームを基準に再構成され、ホストシステム、他のシステムコンポーネント、または、音声コマンド処理のようなさらなる処理のための外部デバイスに送信される強調された時間領域オーディオ信号を形成する。

ここで、図６を参照して、本明細書で開示されたシステムを用いて対象音声活性を検出する方法６００の実施の形態を説明する。ステップ６１０において、システムはマルチチャネルオーディオ信号を受信し、マルチチャネルオーディオ信号を複数のサブバンドに分解する。マルチチャネル入力信号は、例えば、対応する複数のオーディオセンサ（例えばマイクロフォンアレイ）により生成されてもよく、オーディオセンサはオーディオ入力回路部を通じて処理されるセンサ信号を生成する。いくつかの実施の形態において、各チャネルは複数の周波数サブバンドに分解される。ステップ６２０において、マルチチャネルオーディオ信号はフレームごとに解析され、音声活性を検出し、発話の検出または発話の不存在を示す各フレームにおける発話決定を生成する。ステップ６３０において、マルチチャネルオーディオ信号と対応する発話決定とを入力として用いて、拘束付最小分散適応フィルタが推定される。様々な実施の形態では、ステップ６４０において、最小分散適応フィルタは、出力において信号分散を最小化するための適応フィルタを推定し、等化された対象発話信号を生成する。ステップ６５０において、マルチチャネルオーディオ信号と等化された対象発話信号とのチャネルから特徴信号とノイズフロアとが算出される。ステップ６６０において、特徴信号とノイズフロアとを用いて、対象発話マスクが算出される。

適用可能な場合、本開示により提供される様々な実施の形態は、ハードウェア、ソフトウェア、または、ハードウェアとソフトウェアとの組み合わせを用いて実装されてもよい。また、適用可能な場合、本明細書で説明した様々なハードウェアコンポーネント、および／または、ソフトウェアコンポーネントは、本開示の趣旨から逸脱することなくソフトウェア、ハードウェア、および／または、両方を備える複合コンポーネントに組み合わされてもよい。適用可能な場合、本明細書で説明した様々なハードウェアコンポーネント、および／または、ソフトウェアコンポーネントは、本開示の範囲を逸脱することなく、ソフトウェア、ハードウェア、または、両方を備えるサブコンポーネントに分けられてもよい。加えて、適用可能な場合、ソフトウェアコンポーネントはハードウェアコンポーネントとして実装されてもよく、その逆でもよいことは予期される。

プログラムコードおよび／またはデータのような本開示によるソフトウェアは１以上の計算機の読み取り可能な媒体に格納されてもよい。また、本明細書で特定されるソフトウェアは１以上の一般用途または特定用途のコンピュータおよび／またはコンピュータシステム、ネットワーク化されたシステム、および／またはその他のシステムを用いて実装されてもよいことが予期される。適用可能な場合、本開示で説明された様々なステップの順番は変更され、複合ステップに組み合わされ、および／または、サブステップに分割されて、本明細書で説明された特徴を提供してもよい。

前述の開示において、開示された厳密な形態または特定の使用分野に本開示を限定する意図はない。したがって、本開示に対する様々な他の実施の形態、および／または、変形が予期される。このように本開示の実施の形態を説明したが、本開示の範囲を逸脱することなく、形態および詳細に変更され得ることを当業者は認識されよう。よって、本開示は、特許請求の範囲のみに限定される。

Claims

マルチチャネルオーディオ入力信号のフレーム内の発話を検出し、発話決定を出力するように作動できる第１音声区間検出部と、
前記マルチチャネルオーディオ入力信号と前記発話決定とを受信し、前記フィルタの出力における信号分散を最小化し、これにより等化された対象発話信号を提供するように作動できる拘束付最小分散適応フィルタと、
前記等化された対象発話信号と前記発話決定とを受信し、ノイズと非対象発話とから対象発話を区別できるスペクトル−時間マスクを生成するように作動できるマスク推定部と、
発話区別信号のフレーム内の音声を検出するように作動できる第２音声区間検出部と、
を備えるシステム。
複数のマイクロフォンを含むオーディオ入力センサアレイをさらに備え、各マイクロフォンが前記マルチチャネルオーディオ入力信号のチャネルを生成する請求項１に記載のシステム。
各チャネルを複数の周波数サブバンドに分割するように作動できるサブバンド解析モジュールをさらに備える請求項２に記載のシステム。
前記第１音声区間検出部は前記マルチチャネルオーディオ入力信号の前記フレーム内の発話を認識するようにトレーニングされたニューラルネットワークを備える請求項１に記載のシステム。
前記拘束付最小分散適応フィルタは、前記フレーム内において発話決定が発話の不存在を示すとき出力分散を最小化するように作動できる請求項１に記載のシステム。
拘束付最小分散適応フィルタは正規化最小平均二乗法を備える請求項１に記載のシステム。
前記マスク推定部は、前記マルチチャネルオーディオ入力信号の選択されたチャネルの各サブバンドとフレームとにおいて基準特徴信号を生成するようにさらに作動できる請求項１に記載のシステム。
前記第２音声区間検出部は、各信号に適用して対象発話マスクを生成するシングルチャネルのパワーに基づく音声区間検出部を含む請求項１に記載のシステム。
前記システムはスピーカ、タブレット、モバイルフォン、および／または、ラップトップコンピュータを備える請求項１に記載のシステム。
マルチチャネルオーディオ入力信号を受信することと、
第１音声区間検出部を用いて、前記マルチチャネルオーディオ入力信号のフレーム内の音声活性を検出して、発話決定を生成することと、
前記マルチチャネルオーディオ入力信号と前記発話決定とを拘束付最小分散適応フィルタを適用し、前記フィルタの出力における信号分散を最小化し、これにより等化された対象発話信号を生成することと、
フィルタされた前記マルチチャネルオーディオ入力信号と前記発話決定とを用いてスペクトルマスクを推定し、ノイズと干渉発話から対象発話を区別することと、
第２音声区間検出部を用いて、前記発話区別信号のフレーム内の音声活性を検出することと、
を含む方法。
マルチチャネルオーディオ入力信号を受信することは、各マイクロフォンが前記マルチチャネルオーディオ入力信号の対応するチャネルを生成する複数のマイクロフォンを用いて前記マルチチャネルオーディオ入力信号を生成することを含む請求項１０に記載の方法。
サブバンド解析モジュールを用いて、前記チャネルの各々を複数の周波数サブバンドに分割することをさらに備える請求項１１に記載の方法。
第１音声区間検出部を用いて音声活性を検出することは、前記フレーム内の発話を認識するようにトレーニングされたニューラルネットワークを通じて前記マルチチャネルオーディオ入力信号の前記フレームを処理することを備える請求項１０に記載の方法。
前記拘束付最小分散適応フィルタを適用することは、前記フレームにおいて前記発話決定が前記発話の不存在を示すときに前記出力分散を最小化することを備える請求項１０に記載の方法。
前記拘束付最小分散適応フィルタを適用することは、正規化最小平均二乗法を行うことを備える請求項１０に記載の方法。
前記マルチチャネルオーディオ信号の選択されたチャネルの各サブバンドとフレームとにおいて基準特徴信号を生成することをさらに備える請求項１０に記載の方法。
前記第２音声区間検出部は、各信号に適用して対象発話マスクを生成するシングルチャネルのパワーに基づく音声区間検出部を含み請求項１０に記載の方法。
方法はスピーカ、タブレット、モバイルフォン、および／または、ラップトップコンピュータにより実装される請求項１０に記載の方法。