JP2020115206A - システム及び方法 - Google Patents
システム及び方法 Download PDFInfo
- Publication number
- JP2020115206A JP2020115206A JP2019235490A JP2019235490A JP2020115206A JP 2020115206 A JP2020115206 A JP 2020115206A JP 2019235490 A JP2019235490 A JP 2019235490A JP 2019235490 A JP2019235490 A JP 2019235490A JP 2020115206 A JP2020115206 A JP 2020115206A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- signal
- utterance
- audio input
- channel audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000003044 adaptive effect Effects 0.000 claims abstract description 32
- 238000004458 analytical method Methods 0.000 claims abstract description 13
- 230000002452 interceptive effect Effects 0.000 claims abstract description 4
- 230000005236 sound signal Effects 0.000 claims description 48
- 230000000694 effects Effects 0.000 claims description 29
- 238000012545 processing Methods 0.000 claims description 26
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 230000003595 spectral effect Effects 0.000 claims description 2
- 238000001514 detection method Methods 0.000 description 26
- 238000004891 communication Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 8
- 239000000203 mixture Substances 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000009499 grossing Methods 0.000 description 4
- 230000003466 anti-cipated effect Effects 0.000 description 3
- 230000001427 coherent effect Effects 0.000 description 3
- 238000009472 formulation Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 230000002238 attenuated effect Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/027—Spatial or constructional arrangements of microphones, e.g. in dummy heads
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2420/00—Details of connection covered by H04R, not provided for in its groups
- H04R2420/07—Applications of wireless loudspeakers or wireless microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/03—Synergistic effects of band splitting and sub-band processing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Otolaryngology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
このフィルタは、音が「発話」クラスに属しないと高い確信があるとき、トレーニングされる。この指示は、非発話音から発話を区別するようにトレーニングされたディープニューラルネットワークに基づく音声区間検出部を通じて取得され得る。このマルチチャネルフィルタの推定は、相対伝達関数(RTF)の推定に相当し得る。このフィルタ出力は、同じノイズ源により発せられた音について最小化されるため、ノイズ内に発話があるときも最小化され得る。したがって、対象発話と干渉発話との区別は可能である。いくつかの実施の形態において、この方法は、適応フィルタの出力においてパワーに基づくVADを実行することを含む。このフィルタの出力を、時間周波数ポイントを識別するサブバンドマスクを推測するためにも用いる場合があり、さらにノイズ低減方法を指示するために使用することができる。
Claims (18)
- マルチチャネルオーディオ入力信号のフレーム内の発話を検出し、発話決定を出力するように作動できる第1音声区間検出部と、
前記マルチチャネルオーディオ入力信号と前記発話決定とを受信し、前記フィルタの出力における信号分散を最小化し、これにより等化された対象発話信号を提供するように作動できる拘束付最小分散適応フィルタと、
前記等化された対象発話信号と前記発話決定とを受信し、ノイズと非対象発話とから対象発話を区別できるスペクトル−時間マスクを生成するように作動できるマスク推定部と、
発話区別信号のフレーム内の音声を検出するように作動できる第2音声区間検出部と、
を備えるシステム。 - 複数のマイクロフォンを含むオーディオ入力センサアレイをさらに備え、各マイクロフォンが前記マルチチャネルオーディオ入力信号のチャネルを生成する請求項1に記載のシステム。
- 各チャネルを複数の周波数サブバンドに分割するように作動できるサブバンド解析モジュールをさらに備える請求項2に記載のシステム。
- 前記第1音声区間検出部は前記マルチチャネルオーディオ入力信号の前記フレーム内の発話を認識するようにトレーニングされたニューラルネットワークを備える請求項1に記載のシステム。
- 前記拘束付最小分散適応フィルタは、前記フレーム内において発話決定が発話の不存在を示すとき出力分散を最小化するように作動できる請求項1に記載のシステム。
- 拘束付最小分散適応フィルタは正規化最小平均二乗法を備える請求項1に記載のシステム。
- 前記マスク推定部は、前記マルチチャネルオーディオ入力信号の選択されたチャネルの各サブバンドとフレームとにおいて基準特徴信号を生成するようにさらに作動できる請求項1に記載のシステム。
- 前記第2音声区間検出部は、各信号に適用して対象発話マスクを生成するシングルチャネルのパワーに基づく音声区間検出部を含む請求項1に記載のシステム。
- 前記システムはスピーカ、タブレット、モバイルフォン、および/または、ラップトップコンピュータを備える請求項1に記載のシステム。
- マルチチャネルオーディオ入力信号を受信することと、
第1音声区間検出部を用いて、前記マルチチャネルオーディオ入力信号のフレーム内の音声活性を検出して、発話決定を生成することと、
前記マルチチャネルオーディオ入力信号と前記発話決定とを拘束付最小分散適応フィルタを適用し、前記フィルタの出力における信号分散を最小化し、これにより等化された対象発話信号を生成することと、
フィルタされた前記マルチチャネルオーディオ入力信号と前記発話決定とを用いてスペクトルマスクを推定し、ノイズと干渉発話から対象発話を区別することと、
第2音声区間検出部を用いて、前記発話区別信号のフレーム内の音声活性を検出することと、
を含む方法。 - マルチチャネルオーディオ入力信号を受信することは、各マイクロフォンが前記マルチチャネルオーディオ入力信号の対応するチャネルを生成する複数のマイクロフォンを用いて前記マルチチャネルオーディオ入力信号を生成することを含む請求項10に記載の方法。
- サブバンド解析モジュールを用いて、前記チャネルの各々を複数の周波数サブバンドに分割することをさらに備える請求項11に記載の方法。
- 第1音声区間検出部を用いて音声活性を検出することは、前記フレーム内の発話を認識するようにトレーニングされたニューラルネットワークを通じて前記マルチチャネルオーディオ入力信号の前記フレームを処理することを備える請求項10に記載の方法。
- 前記拘束付最小分散適応フィルタを適用することは、前記フレームにおいて前記発話決定が前記発話の不存在を示すときに前記出力分散を最小化することを備える請求項10に記載の方法。
- 前記拘束付最小分散適応フィルタを適用することは、正規化最小平均二乗法を行うことを備える請求項10に記載の方法。
- 前記マルチチャネルオーディオ信号の選択されたチャネルの各サブバンドとフレームとにおいて基準特徴信号を生成することをさらに備える請求項10に記載の方法。
- 前記第2音声区間検出部は、各信号に適用して対象発話マスクを生成するシングルチャネルのパワーに基づく音声区間検出部を含み請求項10に記載の方法。
- 方法はスピーカ、タブレット、モバイルフォン、および/または、ラップトップコンピュータにより実装される請求項10に記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962789491P | 2019-01-07 | 2019-01-07 | |
US62/789,491 | 2019-01-07 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2020115206A true JP2020115206A (ja) | 2020-07-30 |
JP2020115206A5 JP2020115206A5 (ja) | 2022-12-27 |
JP7498560B2 JP7498560B2 (ja) | 2024-06-12 |
Family
ID=71404521
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019235490A Active JP7498560B2 (ja) | 2019-01-07 | 2019-12-26 | システム及び方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11257512B2 (ja) |
JP (1) | JP7498560B2 (ja) |
CN (1) | CN111415686A (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI719385B (zh) * | 2019-01-11 | 2021-02-21 | 緯創資通股份有限公司 | 電子裝置及其語音指令辨識方法 |
EP3800900B1 (en) * | 2019-10-04 | 2024-11-06 | GN Audio A/S | A wearable electronic device for emitting a masking signal |
CN111986693B (zh) * | 2020-08-10 | 2024-07-09 | 北京小米松果电子有限公司 | 音频信号的处理方法及装置、终端设备和存储介质 |
CN112731291B (zh) * | 2020-10-14 | 2024-02-20 | 深港产学研基地(北京大学香港科技大学深圳研修院) | 协同双通道时频掩码估计任务学习的双耳声源定位方法及系统 |
CN112700786B (zh) * | 2020-12-29 | 2024-03-12 | 西安讯飞超脑信息科技有限公司 | 语音增强方法、装置、电子设备和存储介质 |
CN113077808B (zh) * | 2021-03-22 | 2024-04-26 | 北京搜狗科技发展有限公司 | 一种语音处理方法、装置和用于语音处理的装置 |
CN113270108B (zh) * | 2021-04-27 | 2024-04-02 | 维沃移动通信有限公司 | 语音活动检测方法、装置、电子设备及介质 |
US11930333B2 (en) * | 2021-10-26 | 2024-03-12 | Bestechnic (Shanghai) Co., Ltd. | Noise suppression method and system for personal sound amplification product |
CN114171029A (zh) * | 2021-12-07 | 2022-03-11 | 广州虎牙科技有限公司 | 音频识别方法、装置、电子设备和可读存储介质 |
JP2023135203A (ja) * | 2022-03-15 | 2023-09-28 | 株式会社東芝 | 音声区間検出装置、学習装置及び音声区間検出プログラム |
CN114783431B (zh) * | 2022-03-18 | 2024-10-29 | 腾讯科技(深圳)有限公司 | 针对语音识别系统的对抗音频生成的方法和装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017090853A (ja) * | 2015-11-17 | 2017-05-25 | 株式会社東芝 | 情報処理装置、情報処理方法およびプログラム |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6370500B1 (en) | 1999-09-30 | 2002-04-09 | Motorola, Inc. | Method and apparatus for non-speech activity reduction of a low bit rate digital voice message |
AUPS270902A0 (en) | 2002-05-31 | 2002-06-20 | Canon Kabushiki Kaisha | Robust detection and classification of objects in audio using limited training data |
CN1303582C (zh) | 2003-09-09 | 2007-03-07 | 摩托罗拉公司 | 自动语音归类方法 |
US7464029B2 (en) | 2005-07-22 | 2008-12-09 | Qualcomm Incorporated | Robust separation of speech signals in a noisy environment |
KR100821177B1 (ko) | 2006-09-29 | 2008-04-14 | 한국전자통신연구원 | 통계적 모델에 기반한 선험적 음성 부재 확률 추정 방법 |
KR100964402B1 (ko) | 2006-12-14 | 2010-06-17 | 삼성전자주식회사 | 오디오 신호의 부호화 모드 결정 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치 |
KR20100006492A (ko) | 2008-07-09 | 2010-01-19 | 삼성전자주식회사 | 부호화 방식 결정 방법 및 장치 |
US8898058B2 (en) * | 2010-10-25 | 2014-11-25 | Qualcomm Incorporated | Systems, methods, and apparatus for voice activity detection |
CN102956230B (zh) | 2011-08-19 | 2017-03-01 | 杜比实验室特许公司 | 对音频信号进行歌曲检测的方法和设备 |
CN103999150B (zh) | 2011-12-12 | 2016-10-19 | 杜比实验室特许公司 | 媒体数据中的低复杂度重复检测 |
US9173025B2 (en) * | 2012-02-08 | 2015-10-27 | Dolby Laboratories Licensing Corporation | Combined suppression of noise, echo, and out-of-location signals |
CN103325386B (zh) | 2012-03-23 | 2016-12-21 | 杜比实验室特许公司 | 用于信号传输控制的方法和系统 |
US9183849B2 (en) | 2012-12-21 | 2015-11-10 | The Nielsen Company (Us), Llc | Audio matching with semantic audio recognition and report generation |
US9158760B2 (en) | 2012-12-21 | 2015-10-13 | The Nielsen Company (Us), Llc | Audio decoding with supplemental semantic audio recognition and report generation |
CN104078050A (zh) | 2013-03-26 | 2014-10-01 | 杜比实验室特许公司 | 用于音频分类和音频处理的设备和方法 |
CN104217729A (zh) | 2013-05-31 | 2014-12-17 | 杜比实验室特许公司 | 音频处理方法和音频处理装置以及训练方法 |
GB2518663A (en) | 2013-09-27 | 2015-04-01 | Nokia Corp | Audio analysis apparatus |
US9953661B2 (en) * | 2014-09-26 | 2018-04-24 | Cirrus Logic Inc. | Neural network voice activity detection employing running range normalization |
US9530400B2 (en) | 2014-09-29 | 2016-12-27 | Nuance Communications, Inc. | System and method for compressed domain language identification |
US10229700B2 (en) | 2015-09-24 | 2019-03-12 | Google Llc | Voice activity detection |
US9668073B2 (en) | 2015-10-07 | 2017-05-30 | Robert Bosch Gmbh | System and method for audio scene understanding of physical object sound sources |
US9947323B2 (en) | 2016-04-01 | 2018-04-17 | Intel Corporation | Synthetic oversampling to enhance speaker identification or verification |
FR3054362B1 (fr) | 2016-07-22 | 2022-02-04 | Dolphin Integration Sa | Circuit et procede de reconnaissance de parole |
WO2018106971A1 (en) | 2016-12-07 | 2018-06-14 | Interactive Intelligence Group, Inc. | System and method for neural network based speaker classification |
US10546575B2 (en) | 2016-12-14 | 2020-01-28 | International Business Machines Corporation | Using recurrent neural network for partitioning of audio data into segments that each correspond to a speech feature cluster identifier |
WO2018119467A1 (en) * | 2016-12-23 | 2018-06-28 | Synaptics Incorporated | Multiple input multiple output (mimo) audio signal processing for speech de-reverberation |
-
2019
- 2019-12-26 JP JP2019235490A patent/JP7498560B2/ja active Active
-
2020
- 2020-01-06 US US16/735,575 patent/US11257512B2/en active Active
- 2020-01-07 CN CN202010013763.5A patent/CN111415686A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017090853A (ja) * | 2015-11-17 | 2017-05-25 | 株式会社東芝 | 情報処理装置、情報処理方法およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
CN111415686A (zh) | 2020-07-14 |
JP7498560B2 (ja) | 2024-06-12 |
US20200219530A1 (en) | 2020-07-09 |
US11257512B2 (en) | 2022-02-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7498560B2 (ja) | システム及び方法 | |
JP7407580B2 (ja) | システム、及び、方法 | |
US10504539B2 (en) | Voice activity detection systems and methods | |
US9305567B2 (en) | Systems and methods for audio signal processing | |
US20210035563A1 (en) | Per-epoch data augmentation for training acoustic models | |
EP2715725B1 (en) | Processing audio signals | |
JP7324753B2 (ja) | 修正された一般化固有値ビームフォーマーを用いた音声信号のボイス強調 | |
US11380326B2 (en) | Method and apparatus for performing speech recognition with wake on voice (WoV) | |
JP2020505648A (ja) | オーディオデバイスフィルタの変更 | |
WO2021139327A1 (zh) | 一种音频信号处理方法、模型训练方法以及相关装置 | |
US11264017B2 (en) | Robust speaker localization in presence of strong noise interference systems and methods | |
JP2024507916A (ja) | オーディオ信号の処理方法、装置、電子機器、及びコンピュータプログラム | |
JP7383122B2 (ja) | 信号認識または修正のために音声データから抽出した特徴を正規化するための方法および装置 | |
US20230298612A1 (en) | Microphone Array Configuration Invariant, Streaming, Multichannel Neural Enhancement Frontend for Automatic Speech Recognition | |
US20230223033A1 (en) | Method of Noise Reduction for Intelligent Network Communication |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221219 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221219 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231124 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231206 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240301 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240507 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240531 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7498560 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |