Nothing Special   »   [go: up one dir, main page]

JP2020115206A - システム及び方法 - Google Patents

システム及び方法 Download PDF

Info

Publication number
JP2020115206A
JP2020115206A JP2019235490A JP2019235490A JP2020115206A JP 2020115206 A JP2020115206 A JP 2020115206A JP 2019235490 A JP2019235490 A JP 2019235490A JP 2019235490 A JP2019235490 A JP 2019235490A JP 2020115206 A JP2020115206 A JP 2020115206A
Authority
JP
Japan
Prior art keywords
speech
signal
utterance
audio input
channel audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019235490A
Other languages
English (en)
Other versions
JP7498560B2 (ja
JP2020115206A5 (ja
Inventor
フランチェスコ ネスタ
Nesta Francesco
フランチェスコ ネスタ
アリレザ マスナディ−シラジ
Alireza Masnadi-Shirazi
アリレザ マスナディ−シラジ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Synaptics Inc
Original Assignee
Synaptics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Synaptics Inc filed Critical Synaptics Inc
Publication of JP2020115206A publication Critical patent/JP2020115206A/ja
Publication of JP2020115206A5 publication Critical patent/JP2020115206A5/ja
Application granted granted Critical
Publication of JP7498560B2 publication Critical patent/JP7498560B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/027Spatial or constructional arrangements of microphones, e.g. in dummy heads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/07Applications of wireless loudspeakers or wireless microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/03Synergistic effects of band splitting and sub-band processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Otolaryngology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】ノイズの多い環境で音声区間を検出するための改善されたシステムと方法を開示する。【解決手段】システム100は、マルチチャネルオーディオ入力信号110の各チャネルを複数の周波数サブバンドに分割するサブバンド解析120と、マルチチャネルオーディオ入力信号のフレーム内の発話を検出して発話決定を出力するように作動できる入力VAD130と、マルチチャネルオーディオ入力信号と発話決定とを受信し、フィルタの出力における信号分散を最小化してこれにより等化された対象発話信号を生成するように作動できる拘束付最小分散適応フィルタ140と、等化された対象発話信号と発話決定とを受信してノイズと干渉発話とから対象発話を区別するスペクトル−時間マスクを生成するように作動できるTF−マスク推定部152と、発話区別信号のフレーム内の音声を検出するように作動できるVAD154を含む。【選択図】図1

Description

本明細書は、1以上の実施の形態に従い、全般的にオーディオ信号の検出と処理についてのシステムと方法とに関し、より詳細には、例えば音声区間検出(voice activity detection)システムと方法とに関する。
音声区間検出(Voice Activity Detection;VAD)は、音声認識システム、ノイズ低減システム、音源探査システムのような様々な音声通信システムに用いられている。多くの用途において、オーディオ信号は、ノイズの多い環境での音響活性を感知する1以上のマイクロフォンを介して受信される。感知されたオーディオ信号は、検出されるべき発話と、発話の明瞭度を低下させ、かつ/または、VAD性能を低下させるさまざまなノイズ信号(非対象発話を含む)とを含み得る。また、従来のVAD技術では、携帯電話、スマートスピーカ、ラップトップコンピュータなどの低電力、低コストのデバイスでのリアルタイム音声区間検出において、実用的でない比較的大きな処理またはメモリリソースが必要になる場合がある。上記に鑑みて、改善されたVADシステムと方法とが当技術分野において必要とされ続けている。
雑音の多いオーディオ信号の中で対象者の声などの対象オーディオ信号を検出するための改善されたシステムと方法とが本明細書に開示される。1以上の実施の形態において、システムは、サブバンド解析モジュールと、入力音声区間検出部と、拘束付最小分散適用フィルタと、マスク推定部と、空間VADとを含む。
本開示の範囲は、特許請求の範囲により定義され、特許請求の範囲は参照によりここに組み込まれる。以下の1以上の実施の形態の詳細な説明を考慮することで、その追加の利点の実現とともに、当業者は発明の実施の形態をより完全に理解できよう。最初に簡潔に記載された図面の添付シートを参照されよう。
本開示の態様とそれらの利点は、以下の図面と後述の詳細な説明とを参照してよく理解することができる。類似の参照番号は1以上の図に示される類似の要素を識別するために使用され、その中の表示は、本開示の実施の形態を示すことを目的とし、その限定を目的とするものではないことは理解されよう。図面内のコンポーネントは必ずしも縮尺通りでなく、代わりに本開示の原理を明確に示すことに重点を置いている。
本開示の1以上の実施の形態において、適応空間音声区間検出システムの例示的なシステム構成を示す。
本開示の1以上の実施の形態において、適応空間音声区間検出システムのコンポーネントにより生成された例示的なオーディオ信号を示す。
本開示の1以上の実施の形態において、到来方位を含む例示的な対象発話処理を示す。
本開示の1以上の実施の形態における、適応空間音声検出の実装を含む例示的なシステムを示す。
本開示の1以上の実施の形態における、適応空間音声検出を実装した例示的なオーディオ信号処理システムを示す。
本開示の1以上の実施の形態における例示的な音声区間検出方法を示す。
本明細書では、ノイズの多い環境で音声区間を検出するための改善されたシステムと方法とを開示する。
最近の進歩にも関わらず、ノイズの多い状態での音声認識は未だ困難な課題である。マルチマイクロフォンの設定において、適応および非適応ビームフォーミング、独立成分分析または独立ベクトル分析に基づいたブラインド信号源分離、マルチチャネル非負値行列分解などのアルゴリズムを含む、いくつかのマルチチャネル音声強調アルゴリズムが提案されている。自動音声認識の分野における有望な方法の1つは、一般化固有値(GEV)ビームフォーマとも呼ばれる信号雑音比(SNR)最大化ビームフォーマであり、これは出力SNRを最大化するようにマルチチャネルフィルタを最適化することを目的とする。オンラインSN比最大ビームフォーマアルゴリズムを実装するために用いられる要素の1つは、ノイズと入力との共分分散行列の推定部である。推定は、一般に、音声区間検出によって、または、発話活性に相関するスペクトル‐時間マスクを予測するディープニューラルネットワーク(DNN)を通じて指示される。VAD(またはDNNマスク)には、ノイズを単独で観測する信頼性が高い信号の部分を識別し、ノイズ共分散行列を更新するという目標がある。入力ノイズ共分散行列を更新できるように、ノイズが対象の発話と重なる信号の部分を識別することも要求される。
既存システムの欠点の1つは、VADとDNNマスク推定部が「非発話」ノイズから発話を区別するように設計されていることである。しかしながら、多くの現実世界のシナリオにおいて、ノイズ源(例えばテレビ、または、ラジオ)は、誤検出を発生させ、ついにはノイズ低減の全体性能を低下させるような発話部分を含んだ音も発し得る。本開示では、マルチチャネルVAD予測と、スペクトル‐時間マスクとを生成して、対象の発話とノイズ源により発せられる干渉発話とを区別する改善されたシステムと方法とが開示されている。例えば、干渉ノイズは、映画、ショー、またはオーディオコンテンツを含む他の番組を再生するテレビにより生成され得る。このシナリオにおけるノイズは、多くの場合、音楽やその他のオーディオ効果などの非発話音と発話との混合を含まれ得る。
様々な実施の形態において、音声区間検出の方法は、対象発話方向を明示的に定義することなく出力分散の最小化を目的とする拘束付適応フィルタを推定することを含む。
このフィルタは、音が「発話」クラスに属しないと高い確信があるとき、トレーニングされる。この指示は、非発話音から発話を区別するようにトレーニングされたディープニューラルネットワークに基づく音声区間検出部を通じて取得され得る。このマルチチャネルフィルタの推定は、相対伝達関数(RTF)の推定に相当し得る。このフィルタ出力は、同じノイズ源により発せられた音について最小化されるため、ノイズ内に発話があるときも最小化され得る。したがって、対象発話と干渉発話との区別は可能である。いくつかの実施の形態において、この方法は、適応フィルタの出力においてパワーに基づくVADを実行することを含む。このフィルタの出力を、時間周波数ポイントを識別するサブバンドマスクを推測するためにも用いる場合があり、さらにノイズ低減方法を指示するために使用することができる。
本明細書で開示される方法は、テレビのノイズはいくつかの発話を含む映画を再生して、‐10dB SNRの大音量のテレビでトリガーワードを発するスピーカなどの困難なノイズシナリオにおいて2チャネル音声強調(SSP)における観測にうまく適用されている。キーワード認識性能の改善により、平均ヒット率スコアが約30%(空間VADなし)から80%以上(空間VADあり)への変化が測定された。さらに、本明細書で開示される方法は、到来方位(DOA)推定の観測にうまく使用され、高い非定常ノイズを有する‐10dB SNR状況での対象スピーカの位置追跡を可能にしている。
ここで、他の解決策に比較した技術的な違いと利点とを説明する。既存のシングルチャネルに基づいた方法は、入力フレームが発話を含むか、非発話ノイズのみを含むかの予測を生成するために、オーディオ信号内の音自体の性質に依存する。これらの方法は、対象発話と干渉発話とが同じサウンドクラスに属するため、対象発話と干渉発話とを区別できない。検出された任意の発話は、音声コマンドを提供する対象ユーザからであろうと干渉発話であろうと、これらのシステムでは発話としてクラス分けされ得る。
既存のマルチチャネルに基づく方法は、従来、対象スピーカの位置の強い幾何学的仮定に基づいている。例えば、対象スピーカが、(i)1つのマイクロフォンの近くに、(ii)予め決められた空間領域にあり、および/または、(iii)よりコヒーレントな発話を生成すると仮定され得る。これらの仮定は、360度の遠距離音声制御や、コヒーレントなノイズ(例えばテレビやラジオからの発話)のある環境に置かれ得るスマートスピーカーアプリケーションなどの多くの用途では実用的でない。
既存の音声区間検出と対照的に本明細書で開示されるシステムと方法とは、サウンドの性質と、3D空間での固有の空間フィンガープリント(unique spatial fingerprint)を活用して、高い発話/ノイズの区別を行う。加えて、本開示のシステムと方法とは、幾何学またはスピーカの位置に関する事前の仮定を必要とせず、既存のシステムよりも遠距離の用途に対して高い柔軟性を有する。様々な実施の形態において、教師付き適応空間音声区間検出部は、使用され、ノイズ源から発せられる発話音により引き起こされる誤検知の除去に特に適用される。
ここで、図1を参照して、様々な実施形態における例示的なシステム100を説明する。システム100は、サブバンド解析モジュール120を通じて処理されたマルチチャネルオーディオ入力信号110を受信する。いくつかの実施形態では、マルチチャネルオーディオ入力信号110は、複数のオーディオセンサ(例えばマイクロフォンアレイ)とオーディオ入力処理回路とを含むオーディオ入力コンポーネントから生成される。マルチチャネルオーディオ入力信号110は、フレームlのストリームに分割された複数のオーディオチャネルMを含む。サブバンド解析モジュール120は、オーディオチャネルの周波数スペクトルを複数の周波数サブバンドX(k、l)に(例えばフーリエ変換処理を使用して)分割する。さらに、システム100は、入力音声区間検出(VAD)130と、拘束付最小分散適応フィルタ140と、時間周波数(TF)マスク推定部152と、空間音声区間検出VAD154とを含む。
入力VAD130は、サブバンド解析モジュール120の出力X(k,l)を受信して、ノイズのような非発話が単独で(例えば発話なしで)検出される瞬間(例えばオーディオフレーム)を識別する。いくつかの実施形態において、入力VAD130は、発話活性の誤棄却よりも誤検出を発生させるように調整される。言い換えると、入力VAD130の目的は、発話が存在しないという決定が高い信頼度でなされるフレームを識別することである。様々な実施の形態において、入力VAD130は、パワーに基づく発話検出技術を含んでもよく、この技術は、発話と非発話とを区別するようにトレーニングされたディープニューラルネットワーク、サポートベクターマシン、および/または、ガウス混合モデルのような機械学習データに基づいた分類部を含み得る。ある実施の形態では、入力VAD130は、同時出願継続中の出願番号15/832,709、名称「VOICE ACTIVITY DETECTION SYSTEMS AND METHODS」で提案された方法の実施の形態を実装されてもよく、そのすべてを参照によりここに取り込む。
入力VAD130は、観測されたフレームlに対する入力VAD130の状態を定義する変数v(l)を出力する。ある実施の形態において、観測されたフレームに発話が含まれると決定されたことが「1」に等しい値で示され、観測されたフレームにおいて発話の不存在が「0」に等しい値で示される。他の実施の形態において、入力VAD130は、時間に基づく音声区間決定(voice activity determinations)を行うように作動できる他の従来のVADシステムと方法とを含んでもよく、このシステムと方法とは1以上のチャネル、サブバンド、および/または、マルチチャネル信号のフレームに基づいて音声区別決定の解析と実施とを行うVADを含む。
拘束付最小分散適応フィルタ140は、マルチチャネルサブバンド信号X(k,l)と発話決定v(l)を受信し、出力するときの信号の分散を最小化する適応フィルタの推定を実施できる。本明細書において、周波数領域の実装を簡略化と有効化とのために開示するが、本開示はこのアプローチに限定されない。図示された実施の形態において、各チャネルiについて、本実施の形態の時間領域信号x(t)は、サブバンド解析モジュール120によりアンダーサンプリングされた時間周波数領域の表現に変換される。これは、サブバンド解析または短時間フーリエ変換を適用することで得ることができる。
Figure 2020115206
ここで、Mは入力チャネルの数(M>1)を表す。サブバンドkについて、フィルタの出力は次のように定義される。
Figure 2020115206
ここで、G(k)は、ノイズ源がアクティブのときのみに(例えばv(l)が発話を検知していないことを示すときに)、出力変数E[|Y(k)|]を最小化するように最適化される。
Figure 2020115206
ここで、|G(k)e|=1、e1=[1,・・・,0]で拘束され、これは、いくつかの実施の形態において、
Figure 2020115206
がすべてゼロのベクトルになることを回避するために使用される。最適化のための閉形式の解は次のようになる。
Figure 2020115206
ここで、R(k)は算出されたノイズの共分散であり、次のようになる。
Figure 2020115206
オンライン実装において、共分散行列は、フレームlで更新され、一次再帰的平滑化(first-order recursive smoothing)で次のように推定され得る。
Figure 2020115206
ここで、α(l)=max(α,v(l))であり、α(<1)は平滑化定数である。
いくつかの実施の形態において、フィルタG(k)を推定する他の方法は、適応について一切の拘束を課すことなく、次の拘束付フィルタ構造を課して、
Figure 2020115206
次式により最適化する。
Figure 2020115206
この最適化問題に適応する解は、次のように定式化できる正規化最小平均二乗法(NLMS)を使用して取得できる。
Figure 2020115206
ここで、μは適応ステップサイズであり、Z(k,l)=[X(k,l),・・・,X(k,l)]とβ|Y(k,l)|(β>1)とは学習を安定させ数値の発散を避けるために追加される。
拘束付最小分散適応フィルタ|Y(k,l)|の出力変数は、ノイズ源により発せられた音を含むフレームについて最小化される。フィルタの減衰は、音の性質に関係せず、空間共分散行列にのみに依存するため、干渉発話を含むノイズ部分に対する出力も小さくなり得る。一方、空間内の異なる点から発せられた音は、異なる空間共分散行列を持ち得るため、ノイズ源ほど減衰しない。NLMS公式に従って、M=2および1つのコヒーレンスノイズ源の場合、推定されるフィルタG(k)(i>2)は、第1マイクロフォンと第iマイクロフォンとの間の相対伝達関数とみなすことができる。
共分散R(k)のノイズは出力Y(k,l)で減衰され、開示される実施の形態において、この信号は対象発話の強調バージョンとして直接使用されない。様々な実施の形態において、対象スピーカ方向やそのRTFが事前に知られていないため、最小分散無歪応答(MVDR)ビームフォーマで通常行われているような「無歪み」の拘束は課されない。したがって、図示された実施の形態において、Y(k,l)は、対象発話の空間共分散とノイズの空間共分散との類似性に依存するスペクトル歪みを有する対象発話の等化バージョンを含み得る。出力Y(k,l)におけるSNR改善は、明示的に対象発話分散の推定に対処することなく、TFマスク推定部152を通じて発話関連TF活性マスクの推定を可能にするため十分大きい。
最初に、各サブバンドkについて、次のように|X(k,l)|と|Y(k,l)|から基準特徴信号が算出される。
Figure 2020115206
様々な実施の形態において、F(k,l)についての可能な定式化は次のようにできる。
Figure 2020115206
これは、実際には、フィルタの振幅伝達関数(magnitude transfer function)により重みづけされた出力振幅である。ただし、他の公式化も可能である。
各サブバンドkについて、対象発話の活性は、信号F(k,l)のパワーレベルを追跡し、非定常信号部分を検出することで、決定され得る。そこで、シングルチャネルのパワーに基づくVADを、各信号F(k,l)に適用してマスクを生成できる。
Figure 2020115206
この実施の形態において、例示的なサブバンドVADが示されているが、多くの他のアルゴリズムを利用可能であり、本開示がこの定式化に限定されるとみなされるべきでない。
各サブバンドkについて、ノイズフロアは、次のようなデュアルレート平滑化により推定され得る。
Figure 2020115206
ここで、rup>>rdownとなる平滑化定数である。
次に対象発話マスクは、次のように算出される。
Figure 2020115206
ここで、SNR_thresholdは、調整可能なパラメータである。図示された実施の形態において、適応フィルタはノイズフロアの下でノイズ出力分散を減少できると仮定され、かくして安定的なノイズ残差が生成される。これは、ノイズがコヒーレントであり、かつ、サブバンドのシングル表現が正確に音響反射をモデル化するのに十分高い解像度を有している場合に可能である。他の実施の形態において、この仮定は緩和され、Ying,Dongwenなどによる「Voice activity detection based on an unsupervised learning framework」 IEEE Transactions on Audio,Speech and Language Processing 19.8(2011):2624‐2633に記載されたような、相対パワーレベルの分布の追跡に基づく方法が採用される。この文献を参照によりここに取り込む。
フレームに基づく空間VADは、特徴信号F(k,l)(例えばTFマスク推定部152から)をシングル信号F(l)に統合することで算出され得る。
Figure 2020115206
ここで、Kは周波数のサブセットであり、F(l)にシングルチャネルVAD判断基準を適用して、バイナリフレームに基づく決定V(l)を得る。いくつかの実施の形態においてV(k,l)も次のように各サブバンドに直接適用できる。
Figure 2020115206
他の実施の形態において、全信号F(k,l)は予想V(l)を生成するために使用される場合があり、例えばF(k,l)から抽出されたハードエンジニアリング機能を使用するか、または、データに基づく最尤法(例えばディープニューラルネットワーク、ガウス混合モデル、サポートベクターマシンなど)を使用する。
ここで、図2を参照して、本開示の1以上の実施形態において、適応空間音声区間検出システムのコンポーネントにより生成される例示的なオーディオ信号200を説明する。動作中、マルチチャネルオーディオ信号は複数の入力センサを介して受信される。入力オーディオ信号210の第1チャネルは、図示され、対象発話とノイズ(非対象発話と非発話ノイズとの両方)とを含み得る。入力音声区間検出部(例えば入力VAD130)は、発話が存在しない尤度が高いフレームを検出し、例えば、信号220に図示されるように、非発話フレームに対して「0」を、発話フレームに対して「1」を出力する。次に、オーディオ処理は、非対象発話活性から対象発話活性を検出して、信号230に図示されるように、対象発話のない場合「0」の指標を、対象発話を検出した場合「1」の指標を出力するように行われる。いくつかの実施の形態において、オーディオ信号は、本明細書で前述したような空間VADにより非対称発話として認識され得る大音量の非定常ノイズ源(例えばテレビ信号)を含んでもよい。次に、入力オーディオ信号210は、強調された対象発話信号240を生成するように空間VAD(例えば信号230)からの検出情報を用いて処理される。
図3は、本開示の1以上の実施の形態において、到来方位処理を含む例示的な対象発話処理を示す。チャート300は、ニューラルネットワークに基づく音声区間検出を使用する各フレームにおける発話源についての例示的な推定された到来方位を示す。発話の到来方位は、チャート310に図示され、対象発話(例えば音声コマンドを発する人)とノイズ源により生成される他の発話(例えばテレビから検出される発話)との両方を示す。VADは、チャート320に示されるように対応する音声区間決定を出力し、例えば、対象発話および/またはテレビにより生成される発話を含むすべての時間フレームにおいて検出された発話を示す。下部のチャート350は、大音量ノイズ(例えばテレビノイズ)が存在するときの対象発話の到来方位(DOA)推定のタスクに空間音声区間検出部を適用した例を示す。この場合、チャート360における対象発話は、非対称発話(例えばテレビノイズ)が無視されて検出され、例えばチャート370に示すように、改善された音声区間検出を提供する。
図4は、本開示の様々な実施の形態による空間音声区間検出を含むオーディオ処理デバイス400を示す。オーディオ処理デバイス400は、オーディオセンサアレイ405と、オーディオ信号処理装置420と、ホストシステムコンポーネント450についての入力を含む。
オーディオセンサアレイ405は、1以上のセンサを備え、センサの各々は音波をオーディオ信号に変換し得る。図示された環境において、オーディオセンサアレイ405は複数のマイクロフォン405a〜405nを備え、各々がマルチチャネルオーディオ信号の1つのオーディオチャネルを生成する。
オーディオ信号プロセッサ420は、オーディオ入力回路部422と、デジタル信号プロセッサ424と、オプションのオーディオ出力回路部426とを含む。様々な実施の形態において、オーディオ信号プロセッサ420は、アナログ回路を備える集積回路と、デジタル回路部と、ファームウェアに記録されたプログラム指示を実行するように動作できるデジタル信号プロセッサ424として実装されてもよい。オーディオ入力回路部422は、例えば、オーディオセンサアレイ405と、アンチエイリアシングフィルタと、アナログ‐デジタル変換回路部と、エコーキャンセル回路部と、他のオーディオ処理回路部と、ここで開示されたような部品とのインタフェースを含んでもよい。デジタル信号プロセッサ424は、マルチチャネルデジタルオーディオ信号を処理して、強調されたオーディオ信号を生成して、オーディオ信号を1以上のホストシステムコンポーネント450に出力するように作動できる。様々な実施の形態において、マルチチャネルオーディオ信号は、ノイズ信号と少なくとも1つの所望の対象オーディオ信号(例えば人の発話)との混合を含み、デジタル信号プロセッサ424は、不要のノイズ信号を減少させつつ、所望の対象信号を隔離または強調するように作動できる。デジタル信号プロセッサ424は、エコーキャンセルと、ノイズキャンセルと、対象信号の強調と、ポストフィルタリングと、他のオーディオ信号処理機能とを実行できるように作動できてもよい。デジタル信号プロセッサ424は、図1〜3、5〜6において本明細書で開示されたシステムと方法との1以上の実施の形態を実装するように作動可能な、適応空間対象活性検出部(adaptive spatial target activity detector)と、マスク推定モジュール430とをさらに含んでもよい。
デジタル信号プロセッサ424は、プロセッサ、マイクロプロセッサ、シングルコアプロセッサ、マルチコアプロセッサ、マイクロコントローラ、プログラマブルロジックデバイス(Programmable Logic Device;PLD)(例えばFPGA(Field Programmable Gate Array))、デジタルシグナルプロセッサ(Digital Signa Processing;DSP)デバイス、または他の論理デバイスを1以上備えてもよく、これらは、ハードウェア、ソフトウェア命令の実行、または、それらの組み合わせにより、本開示の実施の形態について本明細書で説明された様々な動作を実行するように構成されてもよい。デジタル信号プロセッサ424は、バスまたは他の電気通信インタフェースなどを通じて、ホストシステムコンポーネント450とインタフェースで接続し、通信するように作動できる。
オプションのオーディオ出力回路部426は、デジタル信号プロセッサ424から受信されたオーディオ信号をスピーカ410aと410bのような少なくとも1つのスピーカに出力するように処理する。様々な実施の形態において、オーディオ出力回路部426は、1以上のデジタルオーディオ信号を対応するアナログ信号に変換するデジタル−アナログ変換部と、スピーカ410a〜410bを駆動する1以上のアンプを含んでもよい。
オーディオ処理デバイス400は、対象オーディオデータを受信し検出することができる任意のデバイス、例えばモバイルフォン、スマートスピーカ、タブレット、ラップトップパソコン、デスクトップパソコン、ボイスコントローラアプライアンス、自動車などに実装されてもよい。ホストシステムコンポーネント450は、オーディオ処理デバイス400を作動するための様々なハードウェアコンポーネントとソフトウェアコンポーネントとを備えてもよい。図示された実施の形態において、システムコンポーネント450は、プロセッサ452と、ユーザインタフェースコンポーネント454と、ネットワーク480(例えばインターネット、クラウド、ローカルエリアネットワーク、またはセルラーネットワーク)とモバイルデバイス484のような外部デバイスとネットワークと通信するための通信インタフェース456と、メモリ458とを含む。
プロセッサ452は、プロセッサ、マイクロプロセッサ、シングルコアプロセッサ、マルチコアプロセッサ、マイクロコントローラ、プログラマブルロジックデバイス(PLD)(例えばFPGA(Field Programmable Gate Array))、デジタルシグナルプロセッサ(DSP)デバイス、または他の論理デバイスを1以上備えてもよく、これらは、ハードウェア、ソフトウェア命令の実行、またはそれらの組み合わせにより、本開示の実施の形態について本明細書で開示された様々な動作を実行するように構成されてもよい。ホストシステムコンポーネント450は、オーディオ信号プロセッサ420と、バスまたは他の電気通信インタフェースなどを通じて、他のシステムコンポーネント450とインタフェースで接続し、通信するように作動できる。
オーディオ信号プロセッサ420とホストシステムコンポーネント450とは、いくつかの実施の形態において、ハードウェアコンポーネント、回路部、ソフトウェアの組み合わせを統合するように示されているにもかかわらず、ハードウェアコンポーネントと回路部とが実行するように作動できる少なくとも一部またはすべての機能性が、メモリ458またはデジタル信号プロセッサ424のファームウェアに格納されたソフトウェア命令および/または構成データに応じて、プロセッサ452および/またはデジタル信号プロセッサ424により実行されるソフトウェアモジュールとして、実装され得ることを理解できよう。
メモリ458は、オーディオデータとプログラム命令とを含むデータと情報とを格納するように作動可能な1以上のメモリデバイスとして実装されてもよい。メモリ458は、RAM(Random Access Memory)、ROM(Read-Only Memory)、EEPROM(Electrically-Erasable Read-Only Memory)、フラッシュメモリ、ハードディスクドライブ、および/または他のタイプのメモリのような1以上の様々なタイプを備えてもよい。
プロセッサ452はメモリ458に格納されたソフトウェア命令を実行するように作動できてもよい。様々な実施の形態において、音声認識エンジン460は、音声コマンドの認識と実行とを含み、オーディオ信号プロセッサ420から受信された強調されたオーディオ信号を処理するように作動できる。音声通信コンポーネント462は、モバイルネットワークまたはセルラー電話ネットワークを経由した通話、またはIP(Internet protocol)ネットワークを経由したVoIP通話などを通じて、モバイルデバイス484またはユーザデバイス486のような1以上の外部デバイスとの音声通信を容易するように作動できてもよい。様々な実施の形態において、音声通信は、外部通信デバイスへの強調されたオーディオ信号の送信を含む。
ユーザインタフェースコンポーネント454は、ユーザがオーディオ処理デバイス400と直接情報を交換できるように作動可能なディスプレイ、タッチディスプレイ、キーボード、1以上のボタン、および/または、他の入力/出力コンポーネントを含んでもよい。
通信インタフェース456は、オーディオ処理デバイス400と外部デバイスとの通信を容易にする。例えば、通信インタフェース456は、オーディオ処理デバイス400と、ネットワーク480などを通じてリモートサーバ482へのネットワークアクセスを提供するワイヤレスルータ、またはモバイルデバイス484などの1以上のローカルデバイスとのWi−Fi(例えば、802.11)またはブルートゥース(登録商標)接続を可能にし得る。様々な実施の形態において、通信インタフェース456は、オーディオ処理デバイス400と1以上の他のデバイスとの間の直接または間接通信を容易にする他の有線と無線との通信コンポーネントを含んでもよい。
図5は、本開示の様々な実施形態におけるオーディオ信号プロセッサ500を示す。いくつかの実施の形態において、オーディオ信号プロセッサ500は、図4のデジタル信号プロセッサ424のようなデジタル信号プロセッサによって実装されるアナログ回路とデジタル回路とファームウェア論理とを含む1以上の集積回路として具現化される。図示されるように、オーディオ信号プロセッサ500は、オーディオ入力回路部515と、サブバンド周波数解析部520と、適応空間対象活性検出部およびマスク推定モジュール530と、合成部535と含む。
オーディオ信号プロセッサ500は、少なくとも1つのオーディオセンサ505a〜nを備えるセンサアレイ505のような複数のオーディオセンサからマルチチャネル入力を受信する。オーディオセンサ505a〜505nは、図4のオーディオ処理デバイス400またはこれに接続された外部コンポーネントのようなオーディオ処理デバイスと一体化されたマイクロフォンを含んでもよい。
オーディオ信号はオーディオ入力回路部515により最初に処理されてもよく、オーディオ入力回路部515はアンチアイリアシングフィルタ、アナログ‐デジタル変換部、および/または、オーディオ入力回路部を含んでもよい。様々な実施の形態において、オーディオ入力回路部515はMチャネルを有するデジタルのマルチチャネルの時間領域オーディオ信号を出力し、ここでMはセンサ(例えばマイクロフォン)入力の数である。マルチチャネルオーディオ信号はサブバンド周波数解析部520に入力され、サブバンド周波数解析部520は、マルチオーディオ信号を連続するフレームに分割し、各チャネルの各フレームを複数の周波数サブバンドに分解する。様々な実施の形態において、サブバンド周波数解析部520はフーリエ変換処理を含む。次に、分解されたオーディオ信号は、適応空間対象活性検出部およびマスク推定モジュール530に提供される。
適応空間対象活性検出部およびマスク推定モジュール530は、1以上のオーディオチャネルのフレームを解析し、対象オーディオが現在のフレームに存在するかを示す信号を生成するように作動できる。本明細書で記載したように、対象オーディオは人の発話(例えば音声コマンドによる処理)でよく、適応空間対象活性検出部およびマスク推定モジュール530は非対象発話を含むノイズの多い環境で発話を検出し、さらなる処理、例えばホストシステムによる処理において強調された対象オーディオ信号を生成するように作動してもよい。いくつかの実施の形態において、強調された対象オーディオ信号は、1以上のチャネルのサブバンドを組み合わせることで各フレームを基準に再構成され、ホストシステム、他のシステムコンポーネント、または、音声コマンド処理のようなさらなる処理のための外部デバイスに送信される強調された時間領域オーディオ信号を形成する。
ここで、図6を参照して、本明細書で開示されたシステムを用いて対象音声活性を検出する方法600の実施の形態を説明する。ステップ610において、システムはマルチチャネルオーディオ信号を受信し、マルチチャネルオーディオ信号を複数のサブバンドに分解する。マルチチャネル入力信号は、例えば、対応する複数のオーディオセンサ(例えばマイクロフォンアレイ)により生成されてもよく、オーディオセンサはオーディオ入力回路部を通じて処理されるセンサ信号を生成する。いくつかの実施の形態において、各チャネルは複数の周波数サブバンドに分解される。ステップ620において、マルチチャネルオーディオ信号はフレームごとに解析され、音声活性を検出し、発話の検出または発話の不存在を示す各フレームにおける発話決定を生成する。ステップ630において、マルチチャネルオーディオ信号と対応する発話決定とを入力として用いて、拘束付最小分散適応フィルタが推定される。様々な実施の形態では、ステップ640において、最小分散適応フィルタは、出力において信号分散を最小化するための適応フィルタを推定し、等化された対象発話信号を生成する。ステップ650において、マルチチャネルオーディオ信号と等化された対象発話信号とのチャネルから特徴信号とノイズフロアとが算出される。ステップ660において、特徴信号とノイズフロアとを用いて、対象発話マスクが算出される。
適用可能な場合、本開示により提供される様々な実施の形態は、ハードウェア、ソフトウェア、または、ハードウェアとソフトウェアとの組み合わせを用いて実装されてもよい。また、適用可能な場合、本明細書で説明した様々なハードウェアコンポーネント、および/または、ソフトウェアコンポーネントは、本開示の趣旨から逸脱することなくソフトウェア、ハードウェア、および/または、両方を備える複合コンポーネントに組み合わされてもよい。適用可能な場合、本明細書で説明した様々なハードウェアコンポーネント、および/または、ソフトウェアコンポーネントは、本開示の範囲を逸脱することなく、ソフトウェア、ハードウェア、または、両方を備えるサブコンポーネントに分けられてもよい。加えて、適用可能な場合、ソフトウェアコンポーネントはハードウェアコンポーネントとして実装されてもよく、その逆でもよいことは予期される。
プログラムコードおよび/またはデータのような本開示によるソフトウェアは1以上の計算機の読み取り可能な媒体に格納されてもよい。また、本明細書で特定されるソフトウェアは1以上の一般用途または特定用途のコンピュータおよび/またはコンピュータシステム、ネットワーク化されたシステム、および/またはその他のシステムを用いて実装されてもよいことが予期される。適用可能な場合、本開示で説明された様々なステップの順番は変更され、複合ステップに組み合わされ、および/または、サブステップに分割されて、本明細書で説明された特徴を提供してもよい。
前述の開示において、開示された厳密な形態または特定の使用分野に本開示を限定する意図はない。したがって、本開示に対する様々な他の実施の形態、および/または、変形が予期される。このように本開示の実施の形態を説明したが、本開示の範囲を逸脱することなく、形態および詳細に変更され得ることを当業者は認識されよう。よって、本開示は、特許請求の範囲のみに限定される。

Claims (18)

  1. マルチチャネルオーディオ入力信号のフレーム内の発話を検出し、発話決定を出力するように作動できる第1音声区間検出部と、
    前記マルチチャネルオーディオ入力信号と前記発話決定とを受信し、前記フィルタの出力における信号分散を最小化し、これにより等化された対象発話信号を提供するように作動できる拘束付最小分散適応フィルタと、
    前記等化された対象発話信号と前記発話決定とを受信し、ノイズと非対象発話とから対象発話を区別できるスペクトル−時間マスクを生成するように作動できるマスク推定部と、
    発話区別信号のフレーム内の音声を検出するように作動できる第2音声区間検出部と、
    を備えるシステム。
  2. 複数のマイクロフォンを含むオーディオ入力センサアレイをさらに備え、各マイクロフォンが前記マルチチャネルオーディオ入力信号のチャネルを生成する請求項1に記載のシステム。
  3. 各チャネルを複数の周波数サブバンドに分割するように作動できるサブバンド解析モジュールをさらに備える請求項2に記載のシステム。
  4. 前記第1音声区間検出部は前記マルチチャネルオーディオ入力信号の前記フレーム内の発話を認識するようにトレーニングされたニューラルネットワークを備える請求項1に記載のシステム。
  5. 前記拘束付最小分散適応フィルタは、前記フレーム内において発話決定が発話の不存在を示すとき出力分散を最小化するように作動できる請求項1に記載のシステム。
  6. 拘束付最小分散適応フィルタは正規化最小平均二乗法を備える請求項1に記載のシステム。
  7. 前記マスク推定部は、前記マルチチャネルオーディオ入力信号の選択されたチャネルの各サブバンドとフレームとにおいて基準特徴信号を生成するようにさらに作動できる請求項1に記載のシステム。
  8. 前記第2音声区間検出部は、各信号に適用して対象発話マスクを生成するシングルチャネルのパワーに基づく音声区間検出部を含む請求項1に記載のシステム。
  9. 前記システムはスピーカ、タブレット、モバイルフォン、および/または、ラップトップコンピュータを備える請求項1に記載のシステム。
  10. マルチチャネルオーディオ入力信号を受信することと、
    第1音声区間検出部を用いて、前記マルチチャネルオーディオ入力信号のフレーム内の音声活性を検出して、発話決定を生成することと、
    前記マルチチャネルオーディオ入力信号と前記発話決定とを拘束付最小分散適応フィルタを適用し、前記フィルタの出力における信号分散を最小化し、これにより等化された対象発話信号を生成することと、
    フィルタされた前記マルチチャネルオーディオ入力信号と前記発話決定とを用いてスペクトルマスクを推定し、ノイズと干渉発話から対象発話を区別することと、
    第2音声区間検出部を用いて、前記発話区別信号のフレーム内の音声活性を検出することと、
    を含む方法。
  11. マルチチャネルオーディオ入力信号を受信することは、各マイクロフォンが前記マルチチャネルオーディオ入力信号の対応するチャネルを生成する複数のマイクロフォンを用いて前記マルチチャネルオーディオ入力信号を生成することを含む請求項10に記載の方法。
  12. サブバンド解析モジュールを用いて、前記チャネルの各々を複数の周波数サブバンドに分割することをさらに備える請求項11に記載の方法。
  13. 第1音声区間検出部を用いて音声活性を検出することは、前記フレーム内の発話を認識するようにトレーニングされたニューラルネットワークを通じて前記マルチチャネルオーディオ入力信号の前記フレームを処理することを備える請求項10に記載の方法。
  14. 前記拘束付最小分散適応フィルタを適用することは、前記フレームにおいて前記発話決定が前記発話の不存在を示すときに前記出力分散を最小化することを備える請求項10に記載の方法。
  15. 前記拘束付最小分散適応フィルタを適用することは、正規化最小平均二乗法を行うことを備える請求項10に記載の方法。
  16. 前記マルチチャネルオーディオ信号の選択されたチャネルの各サブバンドとフレームとにおいて基準特徴信号を生成することをさらに備える請求項10に記載の方法。
  17. 前記第2音声区間検出部は、各信号に適用して対象発話マスクを生成するシングルチャネルのパワーに基づく音声区間検出部を含み請求項10に記載の方法。
  18. 方法はスピーカ、タブレット、モバイルフォン、および/または、ラップトップコンピュータにより実装される請求項10に記載の方法。

JP2019235490A 2019-01-07 2019-12-26 システム及び方法 Active JP7498560B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201962789491P 2019-01-07 2019-01-07
US62/789,491 2019-01-07

Publications (3)

Publication Number Publication Date
JP2020115206A true JP2020115206A (ja) 2020-07-30
JP2020115206A5 JP2020115206A5 (ja) 2022-12-27
JP7498560B2 JP7498560B2 (ja) 2024-06-12

Family

ID=71404521

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019235490A Active JP7498560B2 (ja) 2019-01-07 2019-12-26 システム及び方法

Country Status (3)

Country Link
US (1) US11257512B2 (ja)
JP (1) JP7498560B2 (ja)
CN (1) CN111415686A (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI719385B (zh) * 2019-01-11 2021-02-21 緯創資通股份有限公司 電子裝置及其語音指令辨識方法
EP3800900B1 (en) * 2019-10-04 2024-11-06 GN Audio A/S A wearable electronic device for emitting a masking signal
CN111986693B (zh) * 2020-08-10 2024-07-09 北京小米松果电子有限公司 音频信号的处理方法及装置、终端设备和存储介质
CN112731291B (zh) * 2020-10-14 2024-02-20 深港产学研基地(北京大学香港科技大学深圳研修院) 协同双通道时频掩码估计任务学习的双耳声源定位方法及系统
CN112700786B (zh) * 2020-12-29 2024-03-12 西安讯飞超脑信息科技有限公司 语音增强方法、装置、电子设备和存储介质
CN113077808B (zh) * 2021-03-22 2024-04-26 北京搜狗科技发展有限公司 一种语音处理方法、装置和用于语音处理的装置
CN113270108B (zh) * 2021-04-27 2024-04-02 维沃移动通信有限公司 语音活动检测方法、装置、电子设备及介质
US11930333B2 (en) * 2021-10-26 2024-03-12 Bestechnic (Shanghai) Co., Ltd. Noise suppression method and system for personal sound amplification product
CN114171029A (zh) * 2021-12-07 2022-03-11 广州虎牙科技有限公司 音频识别方法、装置、电子设备和可读存储介质
JP2023135203A (ja) * 2022-03-15 2023-09-28 株式会社東芝 音声区間検出装置、学習装置及び音声区間検出プログラム
CN114783431B (zh) * 2022-03-18 2024-10-29 腾讯科技(深圳)有限公司 针对语音识别系统的对抗音频生成的方法和装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017090853A (ja) * 2015-11-17 2017-05-25 株式会社東芝 情報処理装置、情報処理方法およびプログラム

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6370500B1 (en) 1999-09-30 2002-04-09 Motorola, Inc. Method and apparatus for non-speech activity reduction of a low bit rate digital voice message
AUPS270902A0 (en) 2002-05-31 2002-06-20 Canon Kabushiki Kaisha Robust detection and classification of objects in audio using limited training data
CN1303582C (zh) 2003-09-09 2007-03-07 摩托罗拉公司 自动语音归类方法
US7464029B2 (en) 2005-07-22 2008-12-09 Qualcomm Incorporated Robust separation of speech signals in a noisy environment
KR100821177B1 (ko) 2006-09-29 2008-04-14 한국전자통신연구원 통계적 모델에 기반한 선험적 음성 부재 확률 추정 방법
KR100964402B1 (ko) 2006-12-14 2010-06-17 삼성전자주식회사 오디오 신호의 부호화 모드 결정 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치
KR20100006492A (ko) 2008-07-09 2010-01-19 삼성전자주식회사 부호화 방식 결정 방법 및 장치
US8898058B2 (en) * 2010-10-25 2014-11-25 Qualcomm Incorporated Systems, methods, and apparatus for voice activity detection
CN102956230B (zh) 2011-08-19 2017-03-01 杜比实验室特许公司 对音频信号进行歌曲检测的方法和设备
CN103999150B (zh) 2011-12-12 2016-10-19 杜比实验室特许公司 媒体数据中的低复杂度重复检测
US9173025B2 (en) * 2012-02-08 2015-10-27 Dolby Laboratories Licensing Corporation Combined suppression of noise, echo, and out-of-location signals
CN103325386B (zh) 2012-03-23 2016-12-21 杜比实验室特许公司 用于信号传输控制的方法和系统
US9183849B2 (en) 2012-12-21 2015-11-10 The Nielsen Company (Us), Llc Audio matching with semantic audio recognition and report generation
US9158760B2 (en) 2012-12-21 2015-10-13 The Nielsen Company (Us), Llc Audio decoding with supplemental semantic audio recognition and report generation
CN104078050A (zh) 2013-03-26 2014-10-01 杜比实验室特许公司 用于音频分类和音频处理的设备和方法
CN104217729A (zh) 2013-05-31 2014-12-17 杜比实验室特许公司 音频处理方法和音频处理装置以及训练方法
GB2518663A (en) 2013-09-27 2015-04-01 Nokia Corp Audio analysis apparatus
US9953661B2 (en) * 2014-09-26 2018-04-24 Cirrus Logic Inc. Neural network voice activity detection employing running range normalization
US9530400B2 (en) 2014-09-29 2016-12-27 Nuance Communications, Inc. System and method for compressed domain language identification
US10229700B2 (en) 2015-09-24 2019-03-12 Google Llc Voice activity detection
US9668073B2 (en) 2015-10-07 2017-05-30 Robert Bosch Gmbh System and method for audio scene understanding of physical object sound sources
US9947323B2 (en) 2016-04-01 2018-04-17 Intel Corporation Synthetic oversampling to enhance speaker identification or verification
FR3054362B1 (fr) 2016-07-22 2022-02-04 Dolphin Integration Sa Circuit et procede de reconnaissance de parole
WO2018106971A1 (en) 2016-12-07 2018-06-14 Interactive Intelligence Group, Inc. System and method for neural network based speaker classification
US10546575B2 (en) 2016-12-14 2020-01-28 International Business Machines Corporation Using recurrent neural network for partitioning of audio data into segments that each correspond to a speech feature cluster identifier
WO2018119467A1 (en) * 2016-12-23 2018-06-28 Synaptics Incorporated Multiple input multiple output (mimo) audio signal processing for speech de-reverberation

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017090853A (ja) * 2015-11-17 2017-05-25 株式会社東芝 情報処理装置、情報処理方法およびプログラム

Also Published As

Publication number Publication date
CN111415686A (zh) 2020-07-14
JP7498560B2 (ja) 2024-06-12
US20200219530A1 (en) 2020-07-09
US11257512B2 (en) 2022-02-22

Similar Documents

Publication Publication Date Title
JP7498560B2 (ja) システム及び方法
JP7407580B2 (ja) システム、及び、方法
US10504539B2 (en) Voice activity detection systems and methods
US9305567B2 (en) Systems and methods for audio signal processing
US20210035563A1 (en) Per-epoch data augmentation for training acoustic models
EP2715725B1 (en) Processing audio signals
JP7324753B2 (ja) 修正された一般化固有値ビームフォーマーを用いた音声信号のボイス強調
US11380326B2 (en) Method and apparatus for performing speech recognition with wake on voice (WoV)
JP2020505648A (ja) オーディオデバイスフィルタの変更
WO2021139327A1 (zh) 一种音频信号处理方法、模型训练方法以及相关装置
US11264017B2 (en) Robust speaker localization in presence of strong noise interference systems and methods
JP2024507916A (ja) オーディオ信号の処理方法、装置、電子機器、及びコンピュータプログラム
JP7383122B2 (ja) 信号認識または修正のために音声データから抽出した特徴を正規化するための方法および装置
US20230298612A1 (en) Microphone Array Configuration Invariant, Streaming, Multichannel Neural Enhancement Frontend for Automatic Speech Recognition
US20230223033A1 (en) Method of Noise Reduction for Intelligent Network Communication

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221219

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221219

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240301

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240507

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240531

R150 Certificate of patent or registration of utility model

Ref document number: 7498560

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150