CN110428853A - 语音活性检测方法、语音活性检测装置以及电子设备 - Google Patents
语音活性检测方法、语音活性检测装置以及电子设备 Download PDFInfo
- Publication number
- CN110428853A CN110428853A CN201910811556.1A CN201910811556A CN110428853A CN 110428853 A CN110428853 A CN 110428853A CN 201910811556 A CN201910811556 A CN 201910811556A CN 110428853 A CN110428853 A CN 110428853A
- Authority
- CN
- China
- Prior art keywords
- data
- voice
- noise
- sound data
- classifier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 44
- 230000000694 effects Effects 0.000 title claims abstract description 44
- 238000000034 method Methods 0.000 claims description 33
- 238000000605 extraction Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 18
- 238000005516 engineering process Methods 0.000 abstract description 6
- 230000006870 function Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 230000003993 interaction Effects 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提供了一种语音活性检测方法、语音活性检测装置及电子设备。语音活性检测方法包括:获取声音数据;提取所述声音数据中的能量值数据;提取所述声音数据中的第二特征;根据声音数据中的能量值数据,判断所述声音数据是否满足第一预设条件;当满足所述第一预设条件后,根据所述第二特征,判断所述声音数据是否为语音数据。本发明的语音活性检测方法通过两次判断的方式进行判断,相对于现有技术,具有更高的准确度,本发明不仅能实现传统方案的检测效果,在遇到能量值较大、持续时间较长或者偶发性噪音时仍可以检测是否为人的声音,是否为是环境热噪声;此外,本发明方案使语音活动检测有效率提高了30%,提高了语音活动检测的准确性以及实用性。
Description
技术领域
本发明涉及语音活性检测技术,特别涉及一种语音活性检测方法、语音活性检测装置、以及采用了该语音活性检测方法的电子设备。
背景技术
VAD(Voice Activity Detection,语音活性检测)是智能语音交互中的重要技术。在智能语音交互中,检测到活动语音之后,再向后将语音转成文字,最后将文字送给智能引擎进行处理。在智能语音处理中,VAD主要起到两个作用:
1)检测到是人的语音之后,再将其发给ASR(Automatic Speech Recognition,自动语音识别)处理,可以极大的节省带宽、节省ASR的使用费用;
2)可以避免环境噪音导致的ASR误识别,进而导致流程引擎的错误处理动作。
传统的VAD检测技术,主要有两种方案:方案1是简单设定声音的能量值与持续时间作为阈值,对噪声进行检测。该方案的问题是当遇到能量值较大或持续时间较长的噪音时无能为力;方案2是利用信号处理(如高斯分布等算法),对噪音进行检测。该方案的代表方案是WebRTC,而WebRTC中的VAD模块能较好的处理一定特征的背景噪声,但对于偶发性的噪声无能为力。
上述两种方案一致存在的问题,是无法判断是否是人的声音。两种方案更多用于传统电话人人交互领域,而非人机交互领域的场景设计。对于智能语音交互,需要突出检测是否是人的声音,这两种方案存在的诸多不足,无法满足这一要求。
因此,希望有一种技术方案来克服或至少减轻现有技术的至少一个上述缺陷。
发明内容
本发明目的在于提供语音活性检测方法、设备以及电子设备来克服或至少减轻现有技术的至少一个上述缺陷。
为实现上述目的,本发明提供一种语音活性检测方法,所述语音活性检测方法包括:获取声音数据;提取所述声音数据中的能量值数据;提取所述声音数据中的第二特征;根据声音数据中的能量值数据,判断所述声音数据是否满足第一预设条件;当满足所述第一预设条件后,根据所述第二特征,判断所述声音数据是否为语音数据。
可选地,所述第二特征包括所述声音数据中的声音数据特征以及所述声音数据中的频域数据特征;
所述当满足所述第一预设条件后,根据所述第二特征,判断所述声音数据是否为语音数据包括:
当满足所述第一预设条件后,根据所述声音数据中的频域数据,对所述声音数据进行识别,判断所述声音数据是否为非杂音数据;
当满足所述第一预设条件以及判断所述声音数据为非杂音数据后,根据所述声音数据特征,识别所述声音数据中是否具有文字信息;
若所述声音数据中具有文字信息,则确定所述声音数据为语音数据。
可选地,所述第一预设条件包括能量阈值以及持续时间阈值;
所述根据声音数据中的能量值数据,判断所述声音数据是否满足第一预设条件包括:
判断所述声音数据中的能量值数据是否超过所述能量阈值且超过所述能量阈值的声音数据的持续时间是否超过所述持续时间阈值,
若是,则判断所述声音数据满足第一预设条件。
可选地,所述当满足所述第一预设条件后,根据所述声音数据中的频域数据,对所述声音数据进行识别,判断所述声音数据是否为非杂音数据包括:
获取杂音分类器,所述杂音分类器包括非杂音标签以及至少一个杂音标签;
将所述声音数据中的频域数据特征输入至所述杂音分类器,当所述杂音分类器输出非杂音标签时,判断所述声音数据为非杂音数据。
可选地,所述根据所述声音特征数据,识别所述声音数据中是否具有文字信息包括:
获取文字分类器,所述文字分类器包括未识别文字标签以及至少一个识别文字标签;
将所述声音数据中的声音特征数据特征输入至所述文字分类器,当所述文字分类器输出任意一个识别文字标签时,判断所述声音数据中具有文字信息。
本发明还提供了一种语音活性检测装置,所述语音活性检测装置包括:
声音数据获取模块,所述声音数据获取模块用于获取声音数据;
能量值提取模块,所述能量值提取模块用于提取所述声音数据中的能量值数据;
第二特征提取模块,所述第二特征提取模块用于提取所述声音数据中的第二特征;
第一判断模块,所述第一判断模块用于根据声音数据中的能量值数据,判断所述声音数据是否满足第一预设条件;
第二判断模块,所述第二判断模块用于当满足所述第一预设条件后,根据所述第二特征,判断所述声音数据是否为语音数据。
可选地,所述第二特征提取模块包括:
声音数据特征提取模块,所述声音数据特征提取模块用于提取声音数据中的声音数据特征;
频域数据特征提取模块,所述频域数据特征提取模块用于提取声音数据中的频域数据特征;
所述第二判断模块包括:
频域数据判断模块,所述频域数据判断模块用于当满足所述第一预设条件后,根据所述声音数据中的频域数据,对所述声音数据进行识别,判断所述声音数据是否为非杂音数据;
文字判断模块,所述文字判断模块用于当满足所述第一预设条件以及判断所述声音数据为非杂音数据后,根据所述声音数据特征,识别所述声音数据中是否具有文字信息;
语音数据确定模块,所述确定模块用于若所述声音数据中具有文字信息,则确定所述声音数据为语音数据。
可选地,所述频域数据判断模块包括:
杂音分类器获取模块,所述杂音分类器获取模块用于获取杂音分类器,所述杂音分类器包括非杂音标签以及至少一个杂音标签;
杂音分类器输入模块,所述杂音分类器输入模块用于将所述声音数据中的频域数据特征输入至所述杂音分类器;
杂音分类器标签获取模块,所述杂音分类器标签获取模块用于获取所述杂音分类器输出的标签;
非杂音判断模块,所述非杂音判断模块用于当所述杂音分类器标签获取模块获取的杂音分类器输出的标签为非杂音标签时,判断所述声音数据为非杂音。
可选地,所述文字判断模块包括:
文字分类器获取模块,所述文字分类器获取模块用于获取文字分类器,所述文字分类器包括未识别文字标签以及至少一个识别文字标签;
文字分类器输入模块,所述文字分类器输入模块用于将所述声音数据中的声音特征数据特征输入至所述文字分类器;
文字分类器标签获取模块,所述文字分类器标签获取模块用于获取所述文字分类器输出的标签;
文字判断模块,所述文字判断模块用于当所述文字分类器标签获取模块获取的文字分类器输出的标签为识别文字标签时,判断所述声音数据中具有文字信息。
本发明还提供了一种电子设备,包括存储器、处理器以及存储在所述存储器中并能够在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的语音活性检测方法。
根据本发明的技术方案,通过两次判断的方式进行判断,相对于现有技术,具有更高的准确度,本发明不仅能实现传统方案的检测效果,在遇到能量值较大、持续时间较长或者偶发性噪音时仍可以检测是否为人的声音,是否为是环境热噪声;此外,本发明方案使语音活动检测有效率提高了30%,提高了语音活动检测的准确性以及实用性。
附图说明
图1是本发明一实施例的语音活性检测方法的流程示意图。
图2是本发明一实施例中的语音活性检测装置的结构示意图。
图3是应用本发明一实施例的语音活性检测方法的电子设备的结构示意图。
具体实施方式
为使本发明实施的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行更加详细的描述。在附图中,自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。所描述的实施例是本发明一部分实施例,而不是全部的实施例。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。下面结合附图对本发明的实施例进行详细说明。
需要说明的是,在本发明的描述中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
如图1所示的语音活性检测方法包括:
步骤101:获取声音数据;
步骤102:提取所述声音数据中的能量值数据;
步骤103:提取所述声音数据中的第二特征;
步骤104:根据声音数据中的能量值数据,判断所述声音数据是否满足第一预设条件;
步骤105:当满足所述第一预设条件后,根据所述第二特征,判断所述声音数据是否为语音数据。
可以理解的是,获取声音数据可以是从语音采集模块获取,例如,通过麦克风等将使用者的语音输入,并获取。
还可以是直接从存储装置或者外部设备通过数据通信的方式获取。
在本实施例中,一个声音数据可以包括一帧或者多帧语音信号。
在本实施例中,步骤102:提取所述声音数据中的能量值数据包括按照时间的顺序依次提取声音数据中的各帧语音信号中的能量值数据。
可以理解的是,可以通过如下公式提取:
其中,
M表示帧长,l表示第l帧语音,X(n,l)表示第l帧语音中的第n个点的幅度。
在本实施例中,每帧通常为20ms的语音片段。
在本实施例中,第一预设条件包括能量阈值以及持续时间阈值。
在本实施例中,步骤104:根据声音数据中的能量值数据,判断声音数据是否满足第一预设条件包括:
步骤1041:判断声音数据中的能量值数据是否超过能量阈值且超过能量阈值的声音数据的持续时间是否超过持续时间阈值,
步骤1042:若是,则判断声音数据满足第一预设条件。
可以理解的是,当判断声音数据不满足第一预设条件时,则可以认定该声音数据不符合要求,不属于语音数据。
具体地,在本实施例中,判断声音数据中的能量值数据是否超过能量阈值且超过能量阈值的声音数据的持续时间是否超过持续时间阈值包括:
按照时间顺序分别获取每一帧的能量值,判断该帧的能量值是否超过能量阈值,若是,则自该帧开始计数,并对该帧之后的各帧按照时间顺序分别进行能量值的判断,若这种判断一直为是,直至在时间上满足持续时间阈值,则认为该声音数据满足第一预设条件。
举例来说,假设一个声音数据具有100帧语音片段,本发明首先按照时间顺序,从第一帧开始获取能量值,假设第一帧的能量值没有超过能量阈值,采用相同的方法判断第二帧、第三帧…..第n帧;
假设在第十帧时,超过能量阈值,则开始计数。
假设本发明的持续时间阈值为200ms,且每一帧的时间为20ms。
也就是说,如果从第十帧开始,连续有十帧满足能量阈值,即满足持续时间阈值,即从第十帧至第二十帧,每一帧得能量值都满足能量值阈值,此时,该声音数据即满足第一预设条件。
假如中间有一帧没有满足,则认为没有满足第一预设条件,此时,从没满足的一帧开始,重新进行上述步骤。例如,第十五帧没有满足能量阈值,则从第十六帧重新开始上述的判断方法,例如,第十六帧满足能量值阈值,则从第十六帧开始重新计数,假设第十六帧到第二十六帧都满足能量阈值,且同时达到了持续时间阈值,则仍然认为该声音数据满足第一预设条件。
即在本发明中,需要同时满足上述的每帧的能量值阈值以及持续时间长度阈值。
在本实施例中,步骤103:提取声音数据中的第二特征可以跟步骤102:提取声音数据中的能量值数据同时进行,也可以分步进行。
步骤103:提取声音数据中的第二特征可以在步骤104:根据声音数据中的能量值数据,判断所述声音数据是否满足第一预设条件之前进行也可以在该步骤104之后进行。
在本实施例中,第二特征包括声音数据中的声音数据特征以及声音数据中的频域数据特征。
步骤105:当满足第一预设条件后,根据所第二特征,判断声音数据是否为语音数据包括:
步骤1051:当满足第一预设条件后,根据声音数据中的频域数据,对声音数据进行识别,判断声音数据是否为非杂音数据;
步骤1052:当满足第一预设条件以及判断声音数据为非杂音数据后,根据所述声音数据特征,识别所述声音数据中是否具有文字信息;
步骤1053:若声音数据中具有文字信息,则确定声音数据为语音数据。
可以理解的是,当判断声音数据为杂音数据时,则可以认定该声音数据不符合要求,不属于语音数据。
在其他备选实施例中,第二特征可以仅包括声音数据中的声音数据特征或者声音数据中的频域数据特征。
在仅包括声音数据中的声音数据特征时,本发明的步骤105:当满足第一预设条件后,根据所第二特征,判断声音数据是否为语音数据包括:
当满足第一预设条件后,根据声音数据特征,识别声音数据中是否具有文字信息;
若声音数据中具有文字信息,则确定声音数据为语音数据。
可以理解的是,若声音数据中不具有文字信息,则可以认定该声音数据不符合要求,不属于语音数据。
在仅包括声音数据中的频域数据特征时,本发明的步骤105:当满足第一预设条件后,根据所第二特征,判断声音数据是否为语音数据包括:
当满足第一预设条件后,根据频域数据特征,对所述声音数据进行识别,判断所述声音数据是否为非杂音数据;
若声音数据为非杂音数据,则确定声音数据为语音数据。
可以理解的是,当判断声音数据为杂音数据时,则可以认定该声音数据不符合要求,不属于语音数据。
在本实施例中,步骤1051:当满足所述第一预设条件后,根据所述声音数据中的频域数据,对所述声音数据进行识别,判断所述声音数据是否为非杂音数据包括:
步骤10511:获取杂音分类器,杂音分类器包括非杂音标签以及至少一个杂音标签;
步骤10512:将声音数据中的频域数据特征输入至杂音分类器,当杂音分类器输出非杂音标签时,判断声音数据为非杂音数据。
可以理解的是,步骤10511中获取的杂音分类器为已经经过训练的杂音分类器。
可以理解的是,在使用已经训练的杂音分类器可以根据使用者的需要进行更新,例如,当一个数据判断为非杂音数据后,使用者如果在实际听该声音数据时,发现该声音数据实际上是杂音数据,则可以将类似该声音数据的声音作为训练集,对杂音分类器进行更新训练。
在本实施例中,步骤1052:根据声音特征数据,识别声音数据中是否具有文字信息包括:
步骤10521:获取文字分类器,文字分类器包括未识别文字标签以及至少一个识别文字标签;
步骤10522:将声音数据中的声音特征数据特征输入至文字分类器,当文字分类器输出任意一个识别文字标签时,判断声音数据中具有文字信息。
可以理解的是,步骤10512中获取的文字分类器为已经经过训练的文字分类器。
可以理解的是,在使用已经训练的文字分类器可以根据使用者的需要进行更新,例如,当一个语音数据没有识别出文字时,使用者如果在实际听该声音数据时,发现该声音数据实际上为语音数据,即应该能够识别出文字,则可以将类似该声音数据的声音作为训练集,对文字分类器进行更新训练。
可以理解的是,可以首先对声音数据进行是否满足第一预设条件的判断,继而在根据第二特征判断所述声音数据是否为语音数据。
也可以是同时对声音数据进行是否满足第一预设条件的判断以及在根据第二特征判断所述声音数据是否为语音数据,只不过在没有满足第一预设条件之前,根据第二特征判断所述声音数据是否为语音数据的判断结果不输出,即必须满足第一预设条件,才有根据第二特征判断所述声音数据是否为语音数据的判断结果。
在实施例中,根据频域数据特征,对所述声音数据进行识别可以采用下述方法,可以理解的是,该方法仅仅是一个示例性方法,并不构成对本发明的任何限制。
下面,说明本发明的一具体实施例。
获取声音数据中当前帧在预设的多个频域子带中的特征值。在带噪情况下,为了提高鲁棒性,同时降低方案的复杂度,可以基于目标语音数据中的每一帧在频域上进行分带处理,从而可以把音频帧的特征维度降低到比较低的维度。针对当前待检测的语音帧,即当前帧,可以获取当前帧在预设的多个频域子带中的特征值。其中的频域子带的具体划分方式以及频域子带的数量等均可以根据需求进行预先设置,所述特征值可以包括但不限于幅度均值和幅度方差值等。
例如,可以先将当前帧转换至频域,进而对当前帧对应的频域信号取绝对值,得到当前帧在频域在幅度信息,然后分别基于幅度信息,获取当前帧在各个频域子带中的幅度均值。
为了加入一些基音周期和谐波方面的信息,还可以对当前帧对应在每个频域子带上的幅度值计算当前帧对应在每个频域子带中的幅度方差值,用这个幅度方差值间接表示基音周期和谐波的信息。
另外,由于一般情况下低频范围的音频对语音活动检测的影响比较大,因此为了减少计算量以提高语音活动检测效率,可以只选择频率范围较低的前N个频域子带计算当前帧的幅度方差。特征值所包含的具体内容可以根据需求进行预先设置。
基于特征值,通过预设的分类方法确定当前帧的语音后验概率。在获取得到当前帧的特征值之后,可以基于特征值,通过预设的分类方法确定当前帧的语音后验概率。
其中的分类方法可以根据需求进行预先设置。例如,可以设置分类方法包括但不限于基GMM(Gaussian Mixture Model,高斯混合模型)的分类方法、基于神经网络的分类方法、基于SVM(Support Vector Machine,支持向量机)的分类方法等。
而且针对不同的分类方法,都可以基于相应的样本音频数据预先训练或者设置相应方法中涉及的参数。其中的样本音频数据可以包括但不限于样本语音音频数据或样本噪声音频数据等。
在语音后验概率大于等于预设的语音门限概率的情况下,确认当前帧为语音帧。
在语音帧的判断上,我们可以通过设置几个关键参数来进行判断,例如,可以设置如下关键参数:
1)最小说话时间:连续几个语音帧,认为说话开始。在开始说话前,进行此项检测。如定义连续说话时间达到200毫秒,即认为说话开始。
2)最大停顿时长:连续几个静音帧,认为用户说话停止。在用户说话开始后,开始检测这个数据。如连续400毫秒,没有检测到语音帧,则认为用户说话停止。
在获取得到当前帧的语音后验概率之后,可以进而确定当前帧的语音后验概率是否大于等于预设的语音门限概率,那么在当前帧的语音后验概率大于等于预设的语音门限概率的情况下,则可以确认当前帧为语音帧,而在当前帧的语音后验概率小于预设的语音门限概率的情况下,则可以确认当前帧为噪声帧。其中,语音门限概率的具体取值可以根据需求进行预先设置。
例如,可以设置语音门限概率为0.9或0.95等。通过获取目标音频数据中当前帧在预设的多个频域子带中的特征值;基于特征值,通过预设的分类方法确定所述当前帧的语音后验概率;在语音后验概率大于等于预设的语音门限概率的情况下,确认当前帧为语音帧。
确认当前帧为语音帧后,则可以认为语音数据为非杂音数据。
在本实施例中,当满足第一预设条件以及判断声音数据为非杂音数据后,根据声音数据特征,识别声音数据中是否具有文字信息可以采用下述方法,可以理解的是,该方法仅仅是一个示例性方法,并不构成对本发明的任何限制。
采用ASR的流式识别引擎,持续识别。直到声音数据结束或者持续时间达到阈值(可配置),停止识别。
对接收到的语音帧进行识别,将识别后语音帧进行解码得到对应的文本内容。
ASR系统通常包括用于接收语音的设备(如麦克风),以及声学界面(如具有模数转换器以将语音数字化为声学数据的无线通信设备的声卡)。ASR系统还包括用于存储声学数据并存储语音识别软件和数据库的存储器,以及用于处理声学数据的处理器。
ASR系统还可以从麦克风或任何其他合适的音频源接收语音,该语音可以直接与预处理器软件模块通信或者通过声学界面通信与其间接通信。
首先,从人类语音中提取声学数据,其中,将话语转换成电信号并将这些信号传送到声学界面。声学界面接收模拟电信号,该模拟电信号首先被采样,使得模拟信号的值在离散的时刻被捕获,然后被量化,使得模拟信号的幅度在每个采样时刻被转换成连续的数字语音数据流。换句话说,声学界面将模拟电信号转换为数字电信号。数字数据是二进制位,其被缓冲在无线通信设备的存储器中,然后由无线通信设备的处理器处理,或者可以在它们最初由处理器实时接收时进行处理。
第二,预处理器模块将连续的数字语音数据流变换为离散的声学参数序列。更具体地,处理器执行预处理器模块以将数字语音数据分段成例如20毫秒(ms)的持续时间的重叠的语音或语音帧。
预处理器模块还执行语音分析以从每个帧内的语音中提取声学参数,比如,时变特征向量。语音中的话语可以表示为这些特征向量的序列。例如,并且如本领域技术人员所知,可以提取特征向量,并且可以包括例如可以通过执行帧的傅里叶变换获得的声音音调、能量分布、频谱属性和/或倒谱系数和使用余弦变换去相关的声谱。将覆盖特定语音持续时间的语音帧和相应参数级联成要解码的未知语音测试图案。
第三,处理器执行解码器模块以处理每个测试图案的传入特征向量。解码器模块也称为识别发动机或分类器,并使用存储的已知语音参考图案。与测试图案一样,参考图案被定义为相关语音帧和相应参数的级联。解码器模块将要识别的子词测试图案的声学特征向量与存储的子词参考图案进行比较和对比、评估其间的差异或相似性的大小,并最终使用决策逻辑来选择最佳匹配子词作为识别的子词。通常,最佳匹配子词是对应于存储的已知参考图案的子词,该存储的已知参考图案具有与由本领域技术人员用以分析和识别子词的任何已知的各种技术确定的测试图案的最小不相似性或最高概率。这些技术可以包括动态时间扭曲分类器、人工智能技术、神经网络、自由音素识别器和/或概率模式匹配器,比如,隐马尔可夫模型(HMM)发动机。
一个或多个模块或模型可以用作解码器模块的输入。首先,语法和/或词典模型可以提供管理哪些单词可以在逻辑上遵循其他单词以形成有效句子的规则。
从广义上讲,语法可以定义系统在任何给定ASR模式中的任何给定时间所期望的词汇量。例如,如果ASR系统处于用于训练命令的训练模式,则语法模型可以包括ASR系统已知和使用本领域技术人员已知HMM发动机用于产生声学输入的多个语音识别模型假设。
在最终识别和选择识别输出时考虑假设,该识别输出表示通过语音的特征分析对声学输入的最可能的正确解码。
更具体地,HMM发动机以“N个最佳”子词模型假设列表的形式生成统计模型,所述子词模型假设列表根据HMM计算的置信度值或比如,通过贝叶斯定理的应用给定的一个或另一个子词的观察到的声学数据的概率排序。
通过上述进行文字识别,若识别结果返回文字,则判断声音数据中具有文字信息。
本发明发明还提供了一种语音活性检测装置,所述语音活性检测装置包括声音数据获取模块1,能量值提取模块2,第二特征提取模块3、第一判断模块4以及第二判断模块5,其中,
声音数据获取模块1用于获取声音数据;能量值提取模块2用于提取所述声音数据中的能量值数据;第二特征提取模块3用于提取声音数据中的第二特征;第一判断模块4用于根据声音数据中的能量值数据,判断声音数据是否满足第一预设条件;第二判断模块5用于当满足所述第一预设条件后,根据所述第二特征,判断所述声音数据是否为语音数据。
在本实施例中,第二特征提取模块包括声音数据特征提取模块以及频域数据特征提取模块,其中,声音数据特征提取模块用于提取声音数据中的声音数据特征;频域数据特征提取模块用于提取声音数据中的频域数据特征。
第二判断模块包括频域数据判断模块、文字判断模块以及语音数据确定模块,频域数据判断模块用于当满足第一预设条件后,根据声音数据中的频域数据,对声音数据进行识别,判断声音数据是否为非杂音数据;文字判断模块用于当满足第一预设条件以及判断声音数据为非杂音数据后,根据声音数据特征,识别声音数据中是否具有文字信息;确定模块用于若声音数据中具有文字信息,则确定声音数据为语音数据。
在本实施例中,频域数据判断模块包括杂音分类器获取模块、杂音分类器输入模块、杂音分类器标签获取模块以及非杂音判断模块,其中,杂音分类器获取模块用于获取杂音分类器,杂音分类器包括非杂音标签以及至少一个杂音标签;杂音分类器输入模块用于将声音数据中的频域数据特征输入至杂音分类器;杂音分类器标签获取模块用于获取杂音分类器输出的标签;非杂音判断模块用于当杂音分类器标签获取模块获取的杂音分类器输出的标签为非杂音标签时,判断声音数据为非杂音。
在本实施例中,文字判断模块包括文字分类器获取模块、文字分类器输入模块、文字分类器标签获取模块以及文字判断模块,其中,文字分类器获取模块用于获取文字分类器,文字分类器包括未识别文字标签以及至少一个识别文字标签;文字分类器输入模块用于将声音数据中的声音特征数据特征输入至文字分类器;文字分类器标签获取模块用于获取文字分类器输出的标签;文字判断模块用于当文字分类器标签获取模块获取的文字分类器输出的标签为识别文字标签时,判断声音数据中具有文字信息。
可以理解的是,上述对于方法的叙述,同样适用于装置。
参见图3,本发明还提供了一种电子设备,包括存储器、处理器以及存储在存储器中并能够在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的语音活性检测方法。
图3是能够实现根据本发明一个实施例提供的语音活性检测方法的电子设备的示例性结构图。
如图3所示,电子设备500包括输入设备501、输入接口502、中央处理器503、存储器504、输出接口505以及输出设备506。其中,输入接口502、中央处理器503、存储器504以及输出接口505通过总线507相互连接,输入设备501和输出设备506分别通过输入接口502和输出接口505与总线507连接,进而与计算设备500的其他组件连接。具体地,输入设备504接收来自外部的输入信息,并通过输入接口502将输入信息传送到中央处理器503;中央处理器503基于存储器504中存储的计算机可执行指令对输入信息进行处理以生成输出信息,将输出信息临时或者永久地存储在存储器504中,然后通过输出接口505将输出信息传送到输出设备506;输出设备506将输出信息输出到计算设备500的外部供用户使用。
也就是说,图3所示的电子设备也可以被实现为包括:存储有计算机可执行指令的存储器;以及一个或多个处理器,该一个或多个处理器在执行计算机可执行指令时可以实现结合图1描述的语音活性检测方法。
在一个实施例中,图3所示的电子设备可以被实现为包括:存储器504,被配置为存储可执行程序代码;一个或多个处理器503,被配置为运行存储器504中存储的可执行程序代码,以执行上述实施例中的语音活性检测方法。
本发明虽然以较佳实施例公开如上,但其实并不是用来限定本发明,任何本领域技术人员在不脱离本发明的精神和范围内,都可以做出可能的变动和修改,因此,本发明的保护范围应当以本发明权利要求所界定的范围为准。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动,媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数据多功能光盘(DVD)或其他光学存储、磁盒式磁带、磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
本领域技术人员应明白,本发明的实施例可提供为方法、系统或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
此外,显然“包括”一词不排除其他单元或步骤。装置权利要求中陈述的多个单元、模块或装置也可以由一个单元或总装置通过软件或硬件来实现。第一、第二等词语用来标识名称,而不标识任何特定的顺序。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,模块、程序段、或代码的一部分包括一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地标识的方框实际上可以基本并行地执行,他们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或总流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,处理器是本发明的上述装置/终端设备的控制中心,利用各种接口和线路连接整个本发明的上述装置/终端设备的各个部分。
存储器可用于存储计算机程序和/或模块,处理器通过运行或执行存储在存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现装置/终端设备的各种功能。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
本发明的装置/终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
最后需要指出的是:以上实施例仅用以说明本发明的技术方案,而非对其限制。尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种语音活性检测方法,其特征在于,所述语音活性检测方法包括:
获取声音数据;
提取所述声音数据中的能量值数据;
提取所述声音数据中的第二特征;
根据声音数据中的能量值数据,判断所述声音数据是否满足第一预设条件;
当满足所述第一预设条件后,根据所述第二特征,判断所述声音数据是否为语音数据。
2.如权利要求1所述的语音活性检测方法,其特征在于,所述第二特征包括所述声音数据中的声音数据特征以及所述声音数据中的频域数据特征;
所述当满足所述第一预设条件后,根据所述第二特征,判断所述声音数据是否为语音数据包括:
当满足所述第一预设条件后,根据所述声音数据中的频域数据特征,对所述声音数据进行识别,判断所述声音数据是否为非杂音数据;
当满足所述第一预设条件以及判断所述声音数据为非杂音数据后,根据所述声音数据特征,识别所述声音数据中是否具有文字信息;
若所述声音数据中具有文字信息,则确定所述声音数据为语音数据。
3.如权利要求1或2所述的语音活性检测方法,其特征在于,
所述第一预设条件包括能量阈值以及持续时间阈值;
所述根据声音数据中的能量值数据,判断所述声音数据是否满足第一预设条件包括:
判断所述声音数据中的能量值数据是否超过所述能量阈值且超过所述能量阈值的声音数据的持续时间是否超过所述持续时间阈值,
若是,则判断所述声音数据满足第一预设条件。
4.如权利要求2所述的语音活性检测方法,其特征在于,
所述当满足所述第一预设条件后,根据所述声音数据中的频域数据,对所述声音数据进行识别,判断所述声音数据是否为非杂音数据包括:
获取杂音分类器,所述杂音分类器包括非杂音标签以及至少一个杂音标签;
将所述声音数据中的频域数据特征输入至所述杂音分类器,当所述杂音分类器输出非杂音标签时,判断所述声音数据为非杂音数据。
5.如权利要求2所述的语音活性检测方法,其特征在于,所述根据所述声音特征数据,识别所述声音数据中是否具有文字信息包括:
获取文字分类器,所述文字分类器包括未识别文字标签以及至少一个识别文字标签;
将所述声音数据中的声音特征数据特征输入至所述文字分类器,当所述文字分类器输出任意一个识别文字标签时,判断所述声音数据中具有文字信息。
6.一种语音活性检测装置,其特征在于,所述语音活性检测装置包括:
声音数据获取模块,所述声音数据获取模块用于获取声音数据;
能量值提取模块,所述能量值提取模块用于提取所述声音数据中的能量值数据;
第二特征提取模块,所述第二特征提取模块用于提取所述声音数据中的第二特征;
第一判断模块,所述第一判断模块用于根据声音数据中的能量值数据,判断所述声音数据是否满足第一预设条件;
第二判断模块,所述第二判断模块用于当满足所述第一预设条件后,根据所述第二特征,判断所述声音数据是否为语音数据。
7.如权利要求6所述的语音活性检测装置,其特征在于,所述第二特征提取模块包括:
声音数据特征提取模块,所述声音数据特征提取模块用于提取声音数据中的声音数据特征;
频域数据特征提取模块,所述频域数据特征提取模块用于提取声音数据中的频域数据特征;
所述第二判断模块包括:
频域数据判断模块,所述频域数据判断模块用于当满足所述第一预设条件后,根据所述声音数据中的频域数据,对所述声音数据进行识别,判断所述声音数据是否为非杂音数据;
文字判断模块,所述文字判断模块用于当满足所述第一预设条件以及判断所述声音数据为非杂音数据后,根据所述声音数据特征,识别所述声音数据中是否具有文字信息;
语音数据确定模块,所述确定模块用于若所述声音数据中具有文字信息,则确定所述声音数据为语音数据。
8.如权利要求7所述的语音活性检测装置,其特征在于,所述频域数据判断模块包括:
杂音分类器获取模块,所述杂音分类器获取模块用于获取杂音分类器,所述杂音分类器包括非杂音标签以及至少一个杂音标签;
杂音分类器输入模块,所述杂音分类器输入模块用于将所述声音数据中的频域数据特征输入至所述杂音分类器;
杂音分类器标签获取模块,所述杂音分类器标签获取模块用于获取所述杂音分类器输出的标签;
非杂音判断模块,所述非杂音判断模块用于当所述杂音分类器标签获取模块获取的杂音分类器输出的标签为非杂音标签时,判断所述声音数据为非杂音。
9.如权利要求7所述的语音活性检测装置,其特征在于,所述文字判断模块包括:
文字分类器获取模块,所述文字分类器获取模块用于获取文字分类器,所述文字分类器包括未识别文字标签以及至少一个识别文字标签;
文字分类器输入模块,所述文字分类器输入模块用于将所述声音数据中的声音特征数据特征输入至所述文字分类器;
文字分类器标签获取模块,所述文字分类器标签获取模块用于获取所述文字分类器输出的标签;
文字判断模块,所述文字判断模块用于当所述文字分类器标签获取模块获取的文字分类器输出的标签为识别文字标签时,判断所述声音数据中具有文字信息。
10.一种电子设备,包括存储器、处理器以及存储在所述存储器中并能够在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5中任意一项所述的语音活性检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910811556.1A CN110428853A (zh) | 2019-08-30 | 2019-08-30 | 语音活性检测方法、语音活性检测装置以及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910811556.1A CN110428853A (zh) | 2019-08-30 | 2019-08-30 | 语音活性检测方法、语音活性检测装置以及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110428853A true CN110428853A (zh) | 2019-11-08 |
Family
ID=68416650
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910811556.1A Pending CN110428853A (zh) | 2019-08-30 | 2019-08-30 | 语音活性检测方法、语音活性检测装置以及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110428853A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110910906A (zh) * | 2019-11-12 | 2020-03-24 | 国网山东省电力公司临沂供电公司 | 基于电力内网的音频端点检测及降噪方法 |
CN110992754A (zh) * | 2019-12-02 | 2020-04-10 | 王言之 | 一种英语口语的高效备考、自学和教学方法 |
CN111402914A (zh) * | 2020-03-11 | 2020-07-10 | 广州虎牙科技有限公司 | 噪声消除方法、装置、电子设备和存储介质 |
CN112511785A (zh) * | 2020-11-03 | 2021-03-16 | 视联动力信息技术股份有限公司 | 一种发言方的切换方法、装置、终端设备和存储介质 |
CN113257283A (zh) * | 2021-03-29 | 2021-08-13 | 北京字节跳动网络技术有限公司 | 音频信号的处理方法、装置、电子设备和存储介质 |
CN115019835A (zh) * | 2022-05-27 | 2022-09-06 | 江西省天轴通讯有限公司 | 一种设备智能管理方法、系统、存储介质及设备 |
CN115547312A (zh) * | 2022-11-30 | 2022-12-30 | 深圳时识科技有限公司 | 带活动检测的预处理器、芯片和电子设备 |
CN116825109A (zh) * | 2023-08-30 | 2023-09-29 | 深圳市友杰智新科技有限公司 | 语音命令误识别的处理方法、装置、设备和介质 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102324229A (zh) * | 2011-09-08 | 2012-01-18 | 中国科学院自动化研究所 | 语音输入设备使用异常的检测方法及系统 |
CN105810214A (zh) * | 2014-12-31 | 2016-07-27 | 展讯通信(上海)有限公司 | 语音激活检测方法及装置 |
CN106340298A (zh) * | 2015-07-06 | 2017-01-18 | 南京理工大学 | 融合内容识别和话者识别的声纹解锁方法 |
CN107689225A (zh) * | 2017-09-29 | 2018-02-13 | 福建实达电脑设备有限公司 | 一种自动生成会议记录的方法 |
CN108053822A (zh) * | 2017-11-03 | 2018-05-18 | 深圳和而泰智能控制股份有限公司 | 一种语音信号处理方法、装置、终端设备及介质 |
CN108198547A (zh) * | 2018-01-18 | 2018-06-22 | 深圳市北科瑞声科技股份有限公司 | 语音端点检测方法、装置、计算机设备和存储介质 |
CN108257616A (zh) * | 2017-12-05 | 2018-07-06 | 苏州车萝卜汽车电子科技有限公司 | 人机对话的检测方法以及装置 |
CN108597524A (zh) * | 2018-05-02 | 2018-09-28 | 福建省汽车工业集团云度新能源汽车股份有限公司 | 一种汽车人声识别提示装置及方法 |
CN108806696A (zh) * | 2018-05-08 | 2018-11-13 | 平安科技(深圳)有限公司 | 建立声纹模型的方法、装置、计算机设备和存储介质 |
CN108922561A (zh) * | 2018-06-04 | 2018-11-30 | 平安科技(深圳)有限公司 | 语音区分方法、装置、计算机设备及存储介质 |
CN109087632A (zh) * | 2018-08-17 | 2018-12-25 | 平安科技(深圳)有限公司 | 语音处理方法、装置、计算机设备及存储介质 |
CN109243497A (zh) * | 2018-11-02 | 2019-01-18 | 钟祥博谦信息科技有限公司 | 语音唤醒的控制方法及装置 |
CN109377982A (zh) * | 2018-08-21 | 2019-02-22 | 广州市保伦电子有限公司 | 一种有效语音获取方法 |
CN109616098A (zh) * | 2019-02-15 | 2019-04-12 | 北京嘉楠捷思信息技术有限公司 | 基于频域能量的语音端点检测方法和装置 |
CN110085251A (zh) * | 2019-04-26 | 2019-08-02 | 腾讯音乐娱乐科技(深圳)有限公司 | 人声提取方法、人声提取装置及相关产品 |
-
2019
- 2019-08-30 CN CN201910811556.1A patent/CN110428853A/zh active Pending
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102324229A (zh) * | 2011-09-08 | 2012-01-18 | 中国科学院自动化研究所 | 语音输入设备使用异常的检测方法及系统 |
CN105810214A (zh) * | 2014-12-31 | 2016-07-27 | 展讯通信(上海)有限公司 | 语音激活检测方法及装置 |
CN106340298A (zh) * | 2015-07-06 | 2017-01-18 | 南京理工大学 | 融合内容识别和话者识别的声纹解锁方法 |
CN107689225A (zh) * | 2017-09-29 | 2018-02-13 | 福建实达电脑设备有限公司 | 一种自动生成会议记录的方法 |
CN108053822A (zh) * | 2017-11-03 | 2018-05-18 | 深圳和而泰智能控制股份有限公司 | 一种语音信号处理方法、装置、终端设备及介质 |
CN108257616A (zh) * | 2017-12-05 | 2018-07-06 | 苏州车萝卜汽车电子科技有限公司 | 人机对话的检测方法以及装置 |
CN108198547A (zh) * | 2018-01-18 | 2018-06-22 | 深圳市北科瑞声科技股份有限公司 | 语音端点检测方法、装置、计算机设备和存储介质 |
CN108597524A (zh) * | 2018-05-02 | 2018-09-28 | 福建省汽车工业集团云度新能源汽车股份有限公司 | 一种汽车人声识别提示装置及方法 |
CN108806696A (zh) * | 2018-05-08 | 2018-11-13 | 平安科技(深圳)有限公司 | 建立声纹模型的方法、装置、计算机设备和存储介质 |
CN108922561A (zh) * | 2018-06-04 | 2018-11-30 | 平安科技(深圳)有限公司 | 语音区分方法、装置、计算机设备及存储介质 |
CN109087632A (zh) * | 2018-08-17 | 2018-12-25 | 平安科技(深圳)有限公司 | 语音处理方法、装置、计算机设备及存储介质 |
CN109377982A (zh) * | 2018-08-21 | 2019-02-22 | 广州市保伦电子有限公司 | 一种有效语音获取方法 |
CN109243497A (zh) * | 2018-11-02 | 2019-01-18 | 钟祥博谦信息科技有限公司 | 语音唤醒的控制方法及装置 |
CN109616098A (zh) * | 2019-02-15 | 2019-04-12 | 北京嘉楠捷思信息技术有限公司 | 基于频域能量的语音端点检测方法和装置 |
CN110085251A (zh) * | 2019-04-26 | 2019-08-02 | 腾讯音乐娱乐科技(深圳)有限公司 | 人声提取方法、人声提取装置及相关产品 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110910906A (zh) * | 2019-11-12 | 2020-03-24 | 国网山东省电力公司临沂供电公司 | 基于电力内网的音频端点检测及降噪方法 |
CN110992754A (zh) * | 2019-12-02 | 2020-04-10 | 王言之 | 一种英语口语的高效备考、自学和教学方法 |
CN110992754B (zh) * | 2019-12-02 | 2021-09-28 | 王言之 | 一种英语口语的高效备考、自学和教学方法 |
CN111402914A (zh) * | 2020-03-11 | 2020-07-10 | 广州虎牙科技有限公司 | 噪声消除方法、装置、电子设备和存储介质 |
CN112511785A (zh) * | 2020-11-03 | 2021-03-16 | 视联动力信息技术股份有限公司 | 一种发言方的切换方法、装置、终端设备和存储介质 |
CN113257283A (zh) * | 2021-03-29 | 2021-08-13 | 北京字节跳动网络技术有限公司 | 音频信号的处理方法、装置、电子设备和存储介质 |
CN113257283B (zh) * | 2021-03-29 | 2023-09-26 | 北京字节跳动网络技术有限公司 | 音频信号的处理方法、装置、电子设备和存储介质 |
CN115019835A (zh) * | 2022-05-27 | 2022-09-06 | 江西省天轴通讯有限公司 | 一种设备智能管理方法、系统、存储介质及设备 |
CN115547312A (zh) * | 2022-11-30 | 2022-12-30 | 深圳时识科技有限公司 | 带活动检测的预处理器、芯片和电子设备 |
CN115547312B (zh) * | 2022-11-30 | 2023-03-21 | 深圳时识科技有限公司 | 带活动检测的预处理器、芯片和电子设备 |
CN116825109A (zh) * | 2023-08-30 | 2023-09-29 | 深圳市友杰智新科技有限公司 | 语音命令误识别的处理方法、装置、设备和介质 |
CN116825109B (zh) * | 2023-08-30 | 2023-12-08 | 深圳市友杰智新科技有限公司 | 语音命令误识别的处理方法、装置、设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110428853A (zh) | 语音活性检测方法、语音活性检测装置以及电子设备 | |
CN110364143B (zh) | 语音唤醒方法、装置及其智能电子设备 | |
CN108198547B (zh) | 语音端点检测方法、装置、计算机设备和存储介质 | |
RU2393549C2 (ru) | Способ и устройство для распознавания речи | |
CN111145786A (zh) | 语音情感识别方法和装置、服务器、计算机可读存储介质 | |
Evangelopoulos et al. | Multiband modulation energy tracking for noisy speech detection | |
JP2000507714A (ja) | 言語処理 | |
WO1996013828A1 (en) | Method and system for identifying spoken sounds in continuous speech by comparing classifier outputs | |
CN106548775B (zh) | 一种语音识别方法和系统 | |
US11763801B2 (en) | Method and system for outputting target audio, readable storage medium, and electronic device | |
JP4643011B2 (ja) | 音声認識除去方式 | |
Wu et al. | An efficient voice activity detection algorithm by combining statistical model and energy detection | |
CN108091340B (zh) | 声纹识别方法、声纹识别系统和计算机可读存储介质 | |
CN111179910A (zh) | 语速识别方法和装置、服务器、计算机可读存储介质 | |
KR101122590B1 (ko) | 음성 데이터 분할에 의한 음성 인식 장치 및 방법 | |
CN109065026B (zh) | 一种录音控制方法及装置 | |
Fuchs et al. | Unsupervised word segmentation using k nearest neighbors | |
Maazouzi et al. | MFCC and similarity measurements for speaker identification systems | |
Principi et al. | Power normalized cepstral coefficients based supervectors and i-vectors for small vocabulary speech recognition | |
JP2996019B2 (ja) | 音声認識装置 | |
KR101041035B1 (ko) | 고속 화자 인식 방법 및 장치, 고속 화자 인식을 위한 등록방법 및 장치 | |
JP4666129B2 (ja) | 発声速度正規化分析を用いた音声認識装置 | |
CN114155882B (zh) | 一种基于语音识别的“路怒”情绪判断方法和装置 | |
Khaing et al. | Myanmar continuous speech recognition system based on DTW and HMM | |
Kyriakides et al. | Isolated word endpoint detection using time-frequency variance kernels |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Dai Jian Inventor after: Zhou Weidong Inventor after: Liu Hua Inventor after: Liu Kai Inventor after: Yu Ling Inventor before: Dai Jian |
|
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191108 |