JP6839333B2 - 呼び出しフレーズの検出における雑音低減技術の選択的適応および利用 - Google Patents
呼び出しフレーズの検出における雑音低減技術の選択的適応および利用 Download PDFInfo
- Publication number
- JP6839333B2 JP6839333B2 JP2020540546A JP2020540546A JP6839333B2 JP 6839333 B2 JP6839333 B2 JP 6839333B2 JP 2020540546 A JP2020540546 A JP 2020540546A JP 2020540546 A JP2020540546 A JP 2020540546A JP 6839333 B2 JP6839333 B2 JP 6839333B2
- Authority
- JP
- Japan
- Prior art keywords
- audio data
- data frame
- case
- buffer
- data frames
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 155
- 230000009467 reduction Effects 0.000 title claims description 77
- 230000006978 adaptation Effects 0.000 title description 20
- 238000001514 detection method Methods 0.000 title description 8
- 239000000872 buffer Substances 0.000 claims description 154
- 238000012545 processing Methods 0.000 claims description 75
- 238000010801 machine learning Methods 0.000 claims description 51
- 230000008569 process Effects 0.000 claims description 39
- 230000004044 response Effects 0.000 claims description 24
- 230000002452 interceptive effect Effects 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 13
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 description 18
- 230000009471 action Effects 0.000 description 12
- 230000003044 adaptive effect Effects 0.000 description 11
- 230000003993 interaction Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000003213 activating effect Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 230000026676 system process Effects 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000009118 appropriate response Effects 0.000 description 2
- 238000013475 authorization Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 241000699670 Mus sp. Species 0.000 description 1
- 230000002730 additional effect Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02165—Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- User Interface Of Digital Computer (AREA)
- Machine Translation (AREA)
Description
ズがさらなる機械学習モデル内に存在するかどうかを判定するためにさらなる訓練された機械学習モデルを使用して処理されることが可能である。一部の実装において、トリガ出力インジケーションが存在するときのバッファのオーディオデータフレームは、追加的にまたは代替的に、フィルタリングされたデータフレームを生成するために最も新しく適応された適応的な雑音低減技術を使用して処理され得る--およびそのようなフレームは、呼び出しフレーズが存在するかどうかを判定するためにさらなる訓練された機械学習モデルを使用して処理され得る。
ル128によって処理され得る。
れたオーディオデータフレームを生成する。
110 1つまたは複数のローカルエリアおよび/または広域ネットワーク
1121〜N オーディオデータフレーム
1131〜N フィルタリングされたデータフレーム
1141〜N ラベル
120 自動化されたアシスタントクライアント
122 ローカルエンジン
124 呼び出しエンジン
125 分類モジュール
126 コントローラモジュール
127 雑音低減(NR)適応モジュール
128 呼び出しフレーズモジュール
129 NRモジュール
130 クラウドに基づく自動化されたアシスタント構成要素
131 クラウドに基づくTTSモジュール
132 クラウドに基づくSTTモジュール
133 自然言語プロセッサ
134 対話状態トラッカ
135 対話マネージャ
140 自動化されたアシスタント
160A 訓練された音響モデル
160B 訓練された音響モデル
162 バッファ
164 NRフィルタ
200 方法
402 ユーザ
403 口で言われた発話
404 テレビ
405 背景雑音
406 クライアントデバイス
500 方法
610 コンピューティングデバイス
612 バスサブシステム
614 プロセッサ
616 ネットワークインターフェースサブシステム
620 ユーザインターフェース出力デバイス
622 ユーザインターフェース入力デバイス
624 ストレージサブシステム
625 メモリサブシステム
626 ファイルストレージサブシステム
630 主ランダムアクセスメモリ(RAM)
632 読み出し専用メモリ(ROM)
Claims (15)
- 自動化されたアシスタントのための呼び出しフレーズを検出する方法であって、前記方法が、クライアントデバイスの1つまたは複数のプロセッサによって実行され、
前記クライアントデバイスの1つまたは複数のマイクロフォンからの出力に基づくオーディオデータフレームのストリームを受信するステップと、
1つまたは複数の対応する呼び出し音素の存在の1つまたは複数の対応する確率を示すそれぞれの出力を生成するために訓練された機械学習モデルを使用して前記ストリームの前記オーディオデータフレームの各々を処理するステップと、
前記ストリームの前記オーディオデータフレームを、前記オーディオデータフレームに関する出力インジケーションと一緒にバッファに記憶するステップであって、前記出力インジケーションの各々が、前記オーディオデータフレームのうちのそれぞれのオーディオデータフレームに関するものであり、前記訓練された機械学習モデルを使用する前記オーディオデータフレームのうちの前記それぞれのオーディオデータフレームの処理に基づいて生成された対応する出力に基づく、ステップと、
第1の場合に、前記第1の場合の前記バッファ内の前記出力インジケーションが、前記第1の場合の前記バッファ内の前記オーディオデータフレームがすべて前記1つまたは複数の対応する呼び出し音素のいずれも含み得ないことを示すと判定するステップと、
前記第1の場合の前記判定に応じて、
雑音低減フィルタを適応させるために前記第1の場合の前記バッファ内の前記オーディオデータフレームのうちの少なくとも1つを使用するステップと、
前記第1の場合の後の第2の場合に、前記第2の場合の前記バッファ内の前記出力インジケーションが、前記第2の場合の前記バッファ内の前記オーディオデータフレームのうちの少なくとも1つが前記1つまたは複数の対応する呼び出し音素のうちの少なくとも1つを潜在的に含むことを示すと判定するステップと、
前記第2の場合の前記判定に応じて、
少なくとも部分的に前記第1の場合の前記判定に応じて適応された前記雑音低減フィルタを使用する前記第2の場合の前記バッファ内の複数の前記オーディオデータフレームの処理に基づいてフィルタリングされたデータフレームを生成するステップと、
前記訓練された機械学習モデルまたはさらなる訓練された機械学習モデルを使用して前記フィルタリングされたデータフレームを処理することに基づいて、前記フィルタリングされたデータフレームが前記呼び出しフレーズの存在を示すかどうかを判定するステップと、
前記フィルタリングされたデータフレームが前記呼び出しフレーズの存在を示すとの判定に応じて、
前記自動化されたアシスタントの少なくとも1つの機能がアクティブ化されるようにするステップとを含む、
方法。 - 前記自動化されたアシスタントの前記少なくとも1つの機能がアクティブ化されるようにするステップが、
前記ストリームのその後受け取られたオーディオデータフレームがさらなる処理のために1つまたは複数のリモートの自動化されたアシスタントサーバに送信されるようにするステップを含む、
請求項1に記載の方法。 - 前記さらなる処理が、スピーチトゥテキスト変換、意味処理、および対話状態追跡のうちの1つまたは複数を含む、
請求項2に記載の方法。 - 前記雑音低減フィルタを適応させるために前記第1の場合の前記バッファ内の前記オーディオデータフレームのうちの前記少なくとも1つを使用するステップが、
前記バッファから単一のデータフレームを取り出すステップと、
前記雑音低減フィルタを適応させるために前記単一のデータフレームを使用するステップとを含む、
請求項1に記載の方法。 - 前記ストリームの前記オーディオデータフレームが、少なくとも、前記1つまたは複数のマイクロフォンのうちの第1のマイクロフォンに基づく第1のチャネルと、前記1つまたは複数のマイクロフォンのうちの第2のマイクロフォンに基づく第2のチャネルとを含む、
請求項1に記載の方法。 - 前記それぞれの出力を生成するために前記訓練された機械学習モデルを使用して前記ストリームの前記オーディオデータフレームの各々を処理するステップが、
前記訓練された機械学習モデルを使用して前記オーディオデータフレームの各々の前記第1のチャネルのみを処理するステップを含む、
請求項5に記載の方法。 - 前記雑音低減フィルタが、マルチチャネル雑音低減フィルタであり、
前記雑音低減フィルタを適応させるために前記第1の場合の前記バッファ内の前記オーディオデータフレームのうちの少なくとも1つを使用するステップが、
前記雑音低減フィルタを適応させるために前記第1の場合の前記バッファ内の前記オーディオデータフレームのうちの少なくとも1つの前記第1のチャネルと前記第2のチャネルとの両方を使用するステップを含む、
請求項5に記載の方法。 - 前記雑音低減フィルタを適応させるために前記第1の場合の前記バッファ内の前記オーディオデータフレームのうちの少なくとも1つの前記第1のチャネルと前記第2のチャネルとの両方を使用するステップが、
前記雑音低減フィルタを更新するために誤差を決定する際に前記第1のチャネルを信号源として使用し、前記第2のチャネルを雑音源として使用するステップを含む、
請求項7に記載の方法。 - 少なくとも部分的に前記第1の場合の前記判定に応じて適応された前記雑音低減フィルタを使用する前記第2の場合の前記バッファ内の複数の前記オーディオデータフレームの処理に基づいてフィルタリングされたデータフレームを生成するステップが、
前記フィルタリングされたデータフレームを生成する際に複数の前記オーディオデータフレームの前記第1のチャネルと前記第2のチャネルとの両方を使用するステップを含む、
請求項5に記載の方法。 - 前記第2の場合の前記バッファ内の前記出力インジケーションが、前記対応する出力が第1の閾値を満たすが、第2の閾値を満たし得ないことに基づいて、前記第2の場合の前記バッファ内の前記オーディオデータフレームのうちの少なくとも1つが前記1つまたは複数の対応する呼び出し音素のうちの少なくとも1つを潜在的に含むことを示す、
請求項1に記載の方法。 - 自動化されたアシスタントに向けられた口で言われた発話内の特徴を検出する方法であって、前記方法が、1つまたは複数のプロセッサによって実行され、
クライアントデバイスの1つまたは複数のマイクロフォンからの出力に基づくオーディオデータフレームのストリームを受信するステップと、
1つまたは複数の対応する特徴の存在の1つまたは複数の対応する確率を示すそれぞれの出力を生成するために訓練された機械学習モデルを使用して前記ストリームの前記オーディオデータフレームの各々を処理するステップと、
前記ストリームの前記オーディオデータフレームを、前記オーディオデータフレームに関する出力インジケーションと一緒にバッファに記憶するステップであって、前記出力インジケーションの各々が、前記オーディオデータフレームのうちのそれぞれのオーディオデータフレームに関するものであり、前記訓練された機械学習モデルを使用する前記オーディオデータフレームのうちの前記それぞれのオーディオデータフレームの処理に基づいて生成された対応する出力に基づく、ステップと、
第1の場合に、前記第1の場合の前記バッファ内の前記出力インジケーションが、前記第1の場合の前記バッファ内の前記オーディオデータフレームがすべて前記1つまたは複数の対応する特徴のいずれも含み得ないことを示すと判定するステップと、
前記第1の場合の前記判定に応じて、
雑音低減フィルタを適応させるために前記第1の場合の前記バッファ内の前記オーディオデータフレームのうちの少なくとも1つを使用するステップと、
前記第1の場合の後の第2の場合に、前記第2の場合の前記バッファ内の前記出力インジケーションが、前記第2の場合の前記バッファ内の前記オーディオデータフレームのうちの少なくとも1つが前記1つまたは複数の対応する特徴のうちの少なくとも1つを潜在的に含むことを示すと判定するステップと、
前記第2の場合の前記判定に応じて、
少なくとも部分的に前記第1の場合の前記判定に応じて適応された前記雑音低減フィルタを使用する前記第2の場合の前記バッファ内の複数の前記オーディオデータフレームの処理に基づいてフィルタリングされたデータフレームを生成するステップと、
前記訓練された機械学習モデルまたはさらなる訓練された機械学習モデルを使用して前記フィルタリングされたデータフレームを処理することに基づいて、前記フィルタリングされたデータフレームが前記特徴の存在を示すかどうかを判定するステップと、
前記フィルタリングされたデータフレームが前記特徴の存在を示すとの判定に応じて前記自動化されたアシスタントによって実行される処理を適応させるステップとを含む、
方法。 - 前記特徴が、プロファイルに関連して記憶された音声特性を含み、前記自動化されたアシスタントによって実行される処理を適応させるステップが、
前記自動化されたアシスタントによってレンダリングされるべき内容を前記プロファイルに基づいて生成するステップを含み、前記内容が、前記フィルタリングされたデータフレームが前記特徴の存在を示すことおよび前記特徴が前記プロファイルに関連して記憶されることに応じて前記プロファイルに基づいて生成される、
請求項11に記載の方法。 - 前記自動化されたアシスタントによって実行される処理を適応させるステップが、
前記自動化されたアシスタントの少なくとも1つの非アクティブな機能がアクティブ化されるようにするステップを含む、
請求項11に記載の方法。 - 前記1つの非アクティブな機能が、自然言語処理または対話状態追跡である、
請求項13に記載の方法。 - 自動化されたアシスタントのための呼び出しフレーズを検出する方法であって、前記方法が、クライアントデバイスの1つまたは複数のプロセッサによって実行され、
前記クライアントデバイスの1つまたは複数のマイクロフォンからの出力に基づくオーディオデータフレームのストリームを受信するステップと、
1つまたは複数の対応する呼び出し音素の存在の1つまたは複数の対応する確率を示すそれぞれの出力を生成するために訓練された機械学習モデルを使用して前記ストリームの前記オーディオデータフレームの各々を処理するステップと、
第1の場合に、前記オーディオデータフレームのうちの所与のオーディオデータフレームに関して生成された前記それぞれの出力が前記所与のオーディオデータフレームが前記1つまたは複数の対応する呼び出し音素のいずれも含み得ないことを示すと判定するステップと、
前記第1の場合の前記判定に応じて、
雑音低減フィルタを適応させるために前記所与のオーディオデータフレームを使用するステップと、
前記第1の場合の後の第2の場合に、前記所与のオーディオデータフレームの後に受け取られた前記オーディオデータフレームのうちの1つまたは複数のうちの少なくとも1つが前記1つまたは複数の対応する呼び出し音素のうちの少なくとも1つを潜在的に含むと判定するステップと、
前記第2の場合の前記判定に応じて、
少なくとも部分的に前記第1の場合の前記判定に応じて適応された前記雑音低減フィルタを使用する前記オーディオデータフレームのうちの前記1つまたは複数の処理に基づいてフィルタリングされたデータフレームを生成するステップと、
前記訓練された機械学習モデルまたはさらなる訓練された機械学習モデルを使用して前記フィルタリングされたデータフレームを処理することに基づいて、前記フィルタリングされたデータフレームが前記呼び出しフレーズの存在を示すかどうかを判定するステップと、
前記フィルタリングされたデータフレームが前記呼び出しフレーズの存在を示すとの判定応じて、
前記自動化されたアシスタントの少なくとも1つの機能がアクティブ化されるようにするステップとを含む、
方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862620885P | 2018-01-23 | 2018-01-23 | |
US62/620,885 | 2018-01-23 | ||
PCT/US2019/013479 WO2019147427A1 (en) | 2018-01-23 | 2019-01-14 | Selective adaptation and utilization of noise reduction technique in invocation phrase detection |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021019793A Division JP7196214B2 (ja) | 2018-01-23 | 2021-02-10 | 呼び出しフレーズの検出における雑音低減技術の選択的適応および利用 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021507315A JP2021507315A (ja) | 2021-02-22 |
JP6839333B2 true JP6839333B2 (ja) | 2021-03-03 |
Family
ID=65444326
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020540546A Active JP6839333B2 (ja) | 2018-01-23 | 2019-01-14 | 呼び出しフレーズの検出における雑音低減技術の選択的適応および利用 |
JP2021019793A Active JP7196214B2 (ja) | 2018-01-23 | 2021-02-10 | 呼び出しフレーズの検出における雑音低減技術の選択的適応および利用 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021019793A Active JP7196214B2 (ja) | 2018-01-23 | 2021-02-10 | 呼び出しフレーズの検出における雑音低減技術の選択的適応および利用 |
Country Status (6)
Country | Link |
---|---|
US (4) | US10706842B2 (ja) |
EP (2) | EP3555881B1 (ja) |
JP (2) | JP6839333B2 (ja) |
KR (2) | KR102609430B1 (ja) |
CN (2) | CN111742362B (ja) |
WO (1) | WO2019147427A1 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019070230A1 (en) * | 2017-10-03 | 2019-04-11 | Google Llc | COORDINATION OF MULTIPLE DIGITAL ASSISTANT IN VEHICULAR ENVIRONMENTS |
JP6839333B2 (ja) | 2018-01-23 | 2021-03-03 | グーグル エルエルシーGoogle LLC | 呼び出しフレーズの検出における雑音低減技術の選択的適応および利用 |
CN112037773B (zh) * | 2020-11-05 | 2021-01-29 | 北京淇瑀信息科技有限公司 | 一种n最优口语语义识别方法、装置及电子设备 |
CN112331186B (zh) * | 2020-11-19 | 2022-03-25 | 思必驰科技股份有限公司 | 语音唤醒方法及装置 |
EP4226369A4 (en) * | 2021-03-31 | 2024-03-06 | Samsung Electronics Co., Ltd. | METHOD AND ELECTRONIC DEVICE FOR SUPPRESSING PARTS OF NOISE FROM A MULTIMEDIA EVENT |
US11798533B2 (en) * | 2021-04-02 | 2023-10-24 | Google Llc | Context aware beamforming of audio data |
DE102021005206B3 (de) * | 2021-10-19 | 2022-11-03 | Mercedes-Benz Group AG | Verfahren und Vorrichtung zur Bestimmung eines mehrteiligen Schlüsselwortes |
US20240046925A1 (en) * | 2022-08-08 | 2024-02-08 | Google Llc | Dynamically determining whether to perform candidate automated assistant action determined from spoken utterance |
Family Cites Families (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6633846B1 (en) * | 1999-11-12 | 2003-10-14 | Phoenix Solutions, Inc. | Distributed realtime speech recognition system |
US7606714B2 (en) * | 2003-02-11 | 2009-10-20 | Microsoft Corporation | Natural language classification within an automated response system |
US7742914B2 (en) * | 2005-03-07 | 2010-06-22 | Daniel A. Kosek | Audio spectral noise reduction method and apparatus |
US7464029B2 (en) | 2005-07-22 | 2008-12-09 | Qualcomm Incorporated | Robust separation of speech signals in a noisy environment |
US8175291B2 (en) * | 2007-12-19 | 2012-05-08 | Qualcomm Incorporated | Systems, methods, and apparatus for multi-microphone based speech enhancement |
US8995625B2 (en) * | 2009-09-30 | 2015-03-31 | T-Mobile Usa, Inc. | Unified interface and routing module for handling audio input |
US9053697B2 (en) * | 2010-06-01 | 2015-06-09 | Qualcomm Incorporated | Systems, methods, devices, apparatus, and computer program products for audio equalization |
US8234111B2 (en) * | 2010-06-14 | 2012-07-31 | Google Inc. | Speech and noise models for speech recognition |
WO2012069973A1 (en) * | 2010-11-24 | 2012-05-31 | Koninklijke Philips Electronics N.V. | A device comprising a plurality of audio sensors and a method of operating the same |
US20140278389A1 (en) * | 2013-03-12 | 2014-09-18 | Motorola Mobility Llc | Method and Apparatus for Adjusting Trigger Parameters for Voice Recognition Processing Based on Noise Characteristics |
US10229697B2 (en) * | 2013-03-12 | 2019-03-12 | Google Technology Holdings LLC | Apparatus and method for beamforming to obtain voice and noise signals |
US9552825B2 (en) * | 2013-04-17 | 2017-01-24 | Honeywell International Inc. | Noise cancellation for voice activation |
US9697831B2 (en) * | 2013-06-26 | 2017-07-04 | Cirrus Logic, Inc. | Speech recognition |
US9418651B2 (en) * | 2013-07-31 | 2016-08-16 | Google Technology Holdings LLC | Method and apparatus for mitigating false accepts of trigger phrases |
US9548047B2 (en) * | 2013-07-31 | 2017-01-17 | Google Technology Holdings LLC | Method and apparatus for evaluating trigger phrase enrollment |
US9286897B2 (en) * | 2013-09-27 | 2016-03-15 | Amazon Technologies, Inc. | Speech recognizer with multi-directional decoding |
US10405786B2 (en) * | 2013-10-09 | 2019-09-10 | Nedim T. SAHIN | Systems, environment and methods for evaluation and management of autism spectrum disorder using a wearable data collection device |
US9936916B2 (en) * | 2013-10-09 | 2018-04-10 | Nedim T. SAHIN | Systems, environment and methods for identification and analysis of recurring transitory physiological states and events using a portable data collection device |
GB2523984B (en) * | 2013-12-18 | 2017-07-26 | Cirrus Logic Int Semiconductor Ltd | Processing received speech data |
GB2524222B (en) | 2013-12-18 | 2018-07-18 | Cirrus Logic Int Semiconductor Ltd | Activating speech processing |
WO2015142877A1 (en) * | 2014-03-17 | 2015-09-24 | Core Sports Technology Group | Method and system for delivering biomechanical feedback to human and object motion |
US20160012827A1 (en) * | 2014-07-10 | 2016-01-14 | Cambridge Silicon Radio Limited | Smart speakerphone |
KR102246900B1 (ko) * | 2014-07-29 | 2021-04-30 | 삼성전자주식회사 | 전자 장치 및 이의 음성 인식 방법 |
US9830925B2 (en) | 2014-10-22 | 2017-11-28 | GM Global Technology Operations LLC | Selective noise suppression during automatic speech recognition |
JP6754184B2 (ja) * | 2014-12-26 | 2020-09-09 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 音声認識装置及び音声認識方法 |
KR102476600B1 (ko) * | 2015-10-21 | 2022-12-12 | 삼성전자주식회사 | 전자 장치, 그의 음성 인식 방법 및 비일시적 컴퓨터 판독가능 기록매체 |
EP3739574B1 (en) * | 2016-03-23 | 2023-09-13 | Google LLC | Adaptive audio enhancement for multichannel speech recognition |
KR102297394B1 (ko) * | 2016-04-18 | 2021-09-02 | 구글 엘엘씨 | 적절한 에이전트의 자동화된 어시스턴트 호출 |
EP3574499B1 (en) * | 2017-01-26 | 2022-01-05 | Cerence Operating Company | Methods and apparatus for asr with embedded noise reduction |
JP6839333B2 (ja) | 2018-01-23 | 2021-03-03 | グーグル エルエルシーGoogle LLC | 呼び出しフレーズの検出における雑音低減技術の選択的適応および利用 |
-
2019
- 2019-01-14 JP JP2020540546A patent/JP6839333B2/ja active Active
- 2019-01-14 WO PCT/US2019/013479 patent/WO2019147427A1/en unknown
- 2019-01-14 CN CN201980014370.1A patent/CN111742362B/zh active Active
- 2019-01-14 CN CN202410329455.1A patent/CN118314883A/zh active Pending
- 2019-01-14 KR KR1020207035933A patent/KR102609430B1/ko active IP Right Grant
- 2019-01-14 EP EP19705844.9A patent/EP3555881B1/en active Active
- 2019-01-14 EP EP20161038.3A patent/EP3680895B1/en active Active
- 2019-01-14 KR KR1020207023713A patent/KR102193629B1/ko active IP Right Grant
- 2019-01-14 US US16/609,619 patent/US10706842B2/en active Active
-
2020
- 2020-05-28 US US16/886,139 patent/US11417324B2/en active Active
-
2021
- 2021-02-10 JP JP2021019793A patent/JP7196214B2/ja active Active
-
2022
- 2022-08-12 US US17/886,726 patent/US11984117B2/en active Active
-
2024
- 2024-05-13 US US18/662,334 patent/US20240304187A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
CN111742362B (zh) | 2024-04-09 |
KR20200142122A (ko) | 2020-12-21 |
US20200294496A1 (en) | 2020-09-17 |
KR20200103846A (ko) | 2020-09-02 |
EP3555881B1 (en) | 2020-04-22 |
CN111742362A (zh) | 2020-10-02 |
US20220392441A1 (en) | 2022-12-08 |
US10706842B2 (en) | 2020-07-07 |
US11984117B2 (en) | 2024-05-14 |
JP7196214B2 (ja) | 2022-12-26 |
CN118314883A (zh) | 2024-07-09 |
US20200066263A1 (en) | 2020-02-27 |
WO2019147427A1 (en) | 2019-08-01 |
JP2021507315A (ja) | 2021-02-22 |
EP3680895B1 (en) | 2021-08-11 |
US20240304187A1 (en) | 2024-09-12 |
KR102609430B1 (ko) | 2023-12-04 |
KR102193629B1 (ko) | 2020-12-21 |
JP2021089438A (ja) | 2021-06-10 |
EP3555881A1 (en) | 2019-10-23 |
EP3680895A1 (en) | 2020-07-15 |
US11417324B2 (en) | 2022-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6839333B2 (ja) | 呼び出しフレーズの検出における雑音低減技術の選択的適応および利用 | |
KR102535338B1 (ko) | 화자 임베딩(들)과 트레이닝된 생성 모델을 이용한 화자 분리 | |
CN114041283B (zh) | 利用事件前和事件后输入流来接洽自动化助理 | |
EP3857544B1 (en) | Speaker awareness using speaker dependent speech model(s) | |
US12125477B2 (en) | Hot-word free pre-emption of automated assistant response presentation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200918 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200918 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20200918 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20201119 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210112 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210212 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6839333 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |