CN106782565A - 一种声纹特征识别方法及系统 - Google Patents
一种声纹特征识别方法及系统 Download PDFInfo
- Publication number
- CN106782565A CN106782565A CN201611075677.7A CN201611075677A CN106782565A CN 106782565 A CN106782565 A CN 106782565A CN 201611075677 A CN201611075677 A CN 201611075677A CN 106782565 A CN106782565 A CN 106782565A
- Authority
- CN
- China
- Prior art keywords
- vocal print
- frequency
- print feature
- signal
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000001755 vocal effect Effects 0.000 title claims abstract description 56
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000000926 separation method Methods 0.000 claims abstract description 43
- 230000004927 fusion Effects 0.000 claims abstract description 21
- 230000008569 process Effects 0.000 claims abstract description 10
- 239000000284 extract Substances 0.000 claims abstract description 9
- 230000008447 perception Effects 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 20
- 210000005069 ears Anatomy 0.000 claims description 11
- 238000009432 framing Methods 0.000 claims description 8
- 238000001514 detection method Methods 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 6
- 230000000873 masking effect Effects 0.000 claims description 3
- 230000033764 rhythmic process Effects 0.000 claims description 2
- 230000001360 synchronised effect Effects 0.000 claims description 2
- 238000000354 decomposition reaction Methods 0.000 claims 3
- 230000009467 reduction Effects 0.000 abstract description 4
- 235000001968 nicotinic acid Nutrition 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 8
- 230000015654 memory Effects 0.000 description 7
- 238000011160 research Methods 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000006798 recombination Effects 0.000 description 3
- 238000005215 recombination Methods 0.000 description 3
- 210000000721 basilar membrane Anatomy 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 240000006409 Acacia auriculiformis Species 0.000 description 1
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 241000746998 Tragus Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 210000003477 cochlea Anatomy 0.000 description 1
- 210000000860 cochlear nerve Anatomy 0.000 description 1
- 210000003027 ear inner Anatomy 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000035939 shock Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Collating Specific Patterns (AREA)
Abstract
本发明实施例提供一种声纹特征识别方法及系统,其中,该方法的具体实现过程为,对经预处理的含噪混合噪声进行基于听觉特性的语音分离处理后,提取信号的频率倒谱系数和感知线性预测系数,并利用噪声背景区分度,在不同噪声环境下对频率倒谱系数和感知线性预测系数进行分析完成特征融合,最后在预先建立的声纹特征模板库中,采用高斯混合模型‑通用背景模型对已完成融合的特征进行模式匹配,实现声纹特征识别。该种声纹特征识别方法将人类听觉系统特性与传统声纹识别方法相结合,从仿生学角度解决噪声下声纹识别率降低的问题,有效提升了噪声环境下声纹特征识别的准确率和系统的鲁棒性。
Description
技术领域
本发明涉及声音识别技术领域,具体而言,涉及一种声纹特征识别方法及系统。
背景技术
早在20世纪30年代,声纹识别的研究就已经在信息科研工作者中展开了。在早期研究中,人耳听辨(Aural)实验和听音识别可行性验证是声纹识别领域的重点。随着计算机科技在硬件和算法中的突破,声纹识别的研究不再仅仅局限于单一的人耳听辨。美国Bell实验室在语音识别领域长期处于领先位置,实验室成员L G.Kesta通过对语音频谱图的分析完成识别,并由他首先提出了“声纹识别”这个概念。随着科研工作者在声纹识别领域不断的探索和创新,使机器自动分析并识别人类语音信号变成可能。但是,目前已有的声纹特征识别方法在噪声环境下的识别准确率都普遍较低,系统鲁棒性差,应用效果不佳。
发明内容
本发明的目的在于提供一种声纹特征识别方法及系统,以改善上述问题。
本发明较佳实施例提供一种声纹特征识别方法,该方法包括:
对输入的原始语音信号进行预处理,所述预处理包括预加重、分帧加窗以及端点检测;
对预处理后得到的含噪混合信号进行基于听觉特性的语音分离处理;
提取经语音分离处理后的信号的频率倒谱系数和感知线性预测系数;
利用噪声背景区分度,在不同噪声环境下对频率倒谱系数和感知线性预测系数进行分析以完成特征融合;及
在预先建立的声纹特征模板库中,采用高斯混合模型-通用背景模型对已完成融合的特征进行模式匹配,实现声纹特征识别。
本发明另一实施例提供一种声纹特征识别系统,该系统包括:
预处理模块,用于对输入的原始语音信号进行预处理,所述预处理包括预加重、分帧加窗以及端点检测;
语音分离模块,用于对预处理后得到的含噪混合信号进行基于听觉特性的语音分离处理;
特征提取模块,用于提取经语音分离处理后的信号的频率倒谱系数和感知线性预测系数;
特征融合模块,用于利用噪声背景区分度,在不同噪声环境下对频率倒谱系数和感知线性预测系数进行分析以完成特征融合;及
特征识别模块,用于在预先建立的声纹特征模板库中,采用高斯混合模型-通用背景模型对已完成融合的特征进行模式匹配,实现声纹特征识别。
本发明实施例提供的声纹特征识别方法及系统,将人类听觉系统特性与传统声纹识别方法相结合,从仿生学角度解决噪声下声纹识别率降低的问题,有效提升了噪声环境下声纹识别的准确率和系统的鲁棒性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例提供的一种语音识别设备的方框示意图;
图2为本发明实施例提供的一种声纹特征识别方法的流程图;
图3为本发明实施例提供的双耳时间差的几何原理图;
图4为本发明实施例提供的一种声纹特征识别系统的功能模块框图。
图标:100-语音识别设备;110-声纹特征识别系统;120-存储器;130-处理器;1102-预处理模块;1104-语音分离模块;1106-特征提取模块;1108-特征融合模块;1110-特征识别模块。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,是本发明实施例提供的一种语音识别设备100的方框示意图。所述语音识别设备100包括声纹特征识别系统110、存储器120以及处理器130。其中,所述存储器120与处理器130之间直接或间接地电性连接,以进行数据传输或交互。所述声纹特征识别系统110包括至少一个可以软件或固件的形式存储于所述存储器120中或固化在所述语音识别设备100的操作系统中的软件功能模块。所述处理器130在存储控制器的控制下访问所述存储器120,以用于执行所述存储器120中存储的可执行模块,例如所述声纹特征识别系统110所包括的软件功能模块及计算机程序等。
如图2所示,是本发明实施例提供的一种应用于图1所示的语音识别设备100中的声纹特征识别方法的流程示意图。所应说明的是,本发明提供的方法不以图2及以下所述的具体顺序为限制。下面将对图2所示的各步骤进行详细阐述。
步骤S101,对输入的原始语音信号进行预处理,所述预处理包括预加重、分帧加窗以及端点检测。
本实施例中,输入所述语音识别设备100的原始语音信号,首先过一阶FIR高通数字滤波器实现预加重,其传递函数为:
H(Z)=1-μZ-1
其中,系数μ取值为0至1之间,其取值可根据先验规律确定,通常可取0.94。
然后,将预加重后得到的语音信号进行分帧,并乘以幅度为k的移动窗w(n-m)。k可以按一定函数取值,对分帧的各个取样值将有一定的加成。经分帧加窗处理后,得到的语音信号可表示为:
其中,T[·]代表一种函数变换,x(m)表示语音信号序列,Q(n)表示各段经过处理后得到的时间序列。
最后,检测语音信号的端点。本实施例中,主要通过短时能量和短时过零率实现语音信号的端点检测。
具体地,短时能量表示为:
其中,N表示分析窗宽度,S(n)表示第t帧语音信号中的第n个点的信号取样值。
短时过零率表示为:
其中,Sgn[·]表示过零率函数。
步骤S103,对预处理后得到的含噪混合信号进行基于听觉特性的语音分离处理。
本实施例中,对语音信号进行基于听觉特性的仿生分离处理的过程为,基于外围听觉模型将含噪混合信号进行分解处理得到时频单元后,依据语音分离线索对时频单元聚类,最终通过语音重构模型输出分离后的语音。语音重构模型完成时频单元的聚类和语音流合成,主要包括二值掩码聚类和重组合模型两部分。
对于第i频率通道与第j时间帧的掩蔽模型可定义为下式:
其中,fc=1500Hz表示高频和中低频的临界频率,fi表示第i频率通道的频率,τ(i,j)表示第i频率通道与第j时间帧的一个分离线索,L(i,j)表示第i频率通道与第j时间帧的另一个分离线索,Tτ(i,j)和Tl(i,j)分别表示上述两个分离线索的阈值。
为了提高重构语音的还原度,首先要对待合成的信号进行韵律调整。所述韵律调整包括对语音的幅度、长度、基音等信息的调整。其中,对语音信号的幅度调整可通过加权的方式实现,权值公式表示为:
式中的τ为信号帧长,n为帧移。
重构公式为:
式中的为得到的重组合信号,tj为重组合的同步标志,hj(n)为外围听觉模型中的窗函数,为短时语音信号,幅度的调整则由上述权值公式中的权值g实现。
另外,本实施例中,所述语音分离线索可以是两耳时差(Interaural TimeDifference,ITD)或两耳声级差(Interaural Level Difference,ILD)。从人耳听声辨位的角度出发,模拟人耳分辨声音的过程,将反映声音空间方位信息的语音分离线索ITD和ILD用于语音分离将有效提升语音分离效率。下面,对ITD和ILD的实现原理进行简要说明。
在人类听觉系统进行语音分离的过程中,ITD主要用于对中低频语音信号的处理。为简便起见,本段将以单一声源为例说明ITD的产生原理。假定某一声源更靠近左耳,则可用αsin2πft来表示语音信号到达左耳的过程。而距离较远的右耳则为(α-Δα)sin2πf(t+Δt),其中f为频率,Δt为时间差信息,代表声音传播至双耳的时间差,即ITD,Δα为强度差信息,代表声音传播到双耳的声压强度差,即ILD。根据这两种信息,可以通过声源位置的差异对混叠语音进行分离。
如图3所示,为双耳时间差的几何原理图。图3中,S为声源位置,A和B为左右耳,D为它们之间距离,角C代表声源与大脑正中的夹角,d为声音到达两耳之间的距离差,表示为d=Dsinα。
ITD值的计算结构图,把输入的语音信号首先进行加窗处理,一般情况下将窗函数看作为滤波器的单位冲激响应。本实施例中选用汉明窗,以保证语音信号在短时分析中是平稳的。汉明窗的表达式为:
式中,N表示窗长。经过加窗的信号被经过傅里叶变换转化到频域,如下述两式所示:
到达左耳和右耳的语音信号的互相关,可以表示为:
通常地,每个传输函数hl(t)和hr(t)都可被一振幅的衰减因子和一时间延迟来近似表示,因此互相关的公式可以表示为:
式中,α代表衰减因子,D代表ITD的值。根据上述分析,ITD只对低频的语音信号的分离起作用,自相关函数Rss在τ=0时达到最大值,因此ITD的值D可以表示为:
互功率谱被定义为两个信号的互相关的傅里叶计算,如下式:
该式的具体计算用式为:
代表Xr(ω)的复共轭,对该式做Fourier变换,可得接收信号的功率谱为:
从上式可以看出,ITD的D值仅与互功率谱的相位有关,将互相关进行标准变化可得:
由此,ITD的D值可以被精确计算为:
ILD代表声源信号到达两耳的声压差异。当声音传递到左右耳的距离产生差异时,将造成声压差异,而这种信息为语音分离提供了另一个线索—ILD。研究表明,在高频区域,ILD将会发挥更多的作用。当语音信号频率超过1500Hz以后,由于人类听觉外围如耳廓的遮蔽效应,语音信号将会产生较强的声影效应而阻碍语音信号传递到内耳。产生这种结果的主要因素是低频的语音信号波长较短,难以发生衍射穿过耳廓,而高频的声音则可以绕过耳廓,因此为了分离高频的语音信号,需提取双耳声级差。
计算ILD需要谱线索,在忽略回声的情况下,左耳和右耳接收到的信号的能量谱可以由下述两式表达:
Pl(ω)=S(ω)|Hl(ω)|2
Pr(ω)=S(ω)|Hr(ω)|2
式中,S(ω)是声源的功率谱,并且Hl(ω)和Hr(ω)分别代表左耳和右耳的传输函数。因此,左耳和右耳的强度差可以表示为:
Il(ω)=10log10Pl(ω)=10log10S(ω)+20log10|Hl(ω)|
以及
Ir(ω)=10log10Pr(ω)=10log10S(ω)+20log10|Hr(ω)|
通常地,双耳声级差可以用于提取高频语音信号的分离信息,而且在提取双耳声级差信息时,声源和通道关系由相乘变为简单的相加。简单的相加关系有助于后续计算ILD提取通道信息。
当计算出强度后,语音信号将通过耳蜗滤波器。仅在高频部分提取ILD信息,不仅减少了特征空间的尺寸,而且可以模拟耳蜗在人类听觉中枢系统中频率选择的谐振性。
由于ILD仅对高于1500Hz的语音信号起作用,所以存在双耳声级差提取的中断频率fcut,其计算公式:
式中,C代表语音信号在空气中的传播速度,dα代表物理尺寸的孔径,只有在子带达到中断频率fcut以后才能计算ILD线索。
因此对于每个达到中断频率的子带i,有下式成立:
式中,Ωi是子带i的频率范围,Wi(ω)是耳蜗滤波器的权重。
因此每个子带i的ILD定义为:
步骤S105,提取经语音分离处理后的信号的频率倒谱系数和感知线性预测系数。
众所周知,声纹识别研究中已采用过的特征参数主要为倒谱系数。倒谱系数反映人类声道发声原理,提取过程中滤波器组反映人耳听觉特性。本实施例中,对梅尔频率倒谱系数(MFCC)进行改进,基于Gammatone滤波器组提取频率倒谱系数。
Gammatone滤波器组在语音信号处理中功能与人耳听觉外周类似,能较好地模拟耳蜗基底膜特性,对语音信号分频处理;Meddis模型能很好地完成对内耳毛细胞特性的模拟,可以较准确地描述听觉神经的发放速率,两者组成完整的听觉外周模型。
语音信号进入人耳时,首先经过耳蜗基底膜分频,由Gammatone滤波器组模拟,滤波器组时域表达式如下:
式中,N为滤波器的个数,i为序数,n为滤波器阶数,取n=4,φi为滤波器的初始相位,fi为每个滤波器的中心频率,bi为衰减因子。
Gammatone滤波器组中单个滤波器带宽与人耳听觉临界频带相关,听觉临界频带用等效矩形带宽度量为:
EBR(f)=24.7*(4.37f/1000+1)
对于中心频率fi,可得对应衰减因子bi:
bi=1.019EBR(fi)
对式进行拉氏变换得:
并转换到Z变换,最终再进行反变换可得Gammatone滤波器组的离散冲击响应:
步骤S107,利用噪声背景区分度,在不同噪声环境下对频率倒谱系数和感知线性预测系数进行分析以完成特征融合。
DR为特征的类间离散度和类内离散度之比,反映了声纹特征模板库中各特征间区分度,这种区分度可有效表征声纹特征是否适应噪声环境。求出声纹特征在不同信噪比环境下的DR值,进一步分析特征在噪声环境下的鲁棒性。DR的表达式如下:
式中μ为声纹特征模板库内所有说话人的平均特征值,μi为第i个说话人的平均特征值,M为声纹特征模板库中说话人个数,N为单个说话人语音信号帧数。
语音特征在提取后通常以矩阵的形式存储,可以用多维特征向量来表示,对各维特征向量进行类间区分度研究可知每一维特征参数在噪声环境下的鲁棒性,以此为依据就可实现对不同声纹特征的数据融合。假定特征A与特征B分别由X维和Y维特征向量表示:
A={α1,α2,......αX}'
B={β1,β2,.......βY}'
对两种声纹特征进行类间区分度分析,特征A与特征B的DR矩阵如下:
为研究在噪声环境中两种声纹特征每一维的表现,在多种信噪比环境下,对声纹特征模板库中说话人提取特征A与B,并统计DR的最大值DR max在特征矩阵中每一维的次数P:
为保证融合特征矩阵各向量权重适当,根据统计情况设置阈值Pth,Pth由具体结果选定,对Px,Py规整后并求:
ε=max{Px,Py,Pth}
得到融合特征特征参数C,表达式如下:
C={γ1,γ2,.......γZ}'
步骤S109,在预先建立的声纹特征模板库中,采用高斯混合模型-通用背景模型对已完成融合的特征进行模式匹配,实现声纹特征识别。
本实施例中,模式匹配的模型为高斯混合模型-通用背景模型(GMM-OUM模型)。高斯混合模型(GMM模型)的实质是多维度的概率密度函数,对于d维且混合度为M的GMM模型,可通过高斯函数的加权和表达为:
式中,∑i为协方差矩阵,pi为GMM模型第i个分量d维的高斯函数,x为d维的观测矢量,wi为混合权值,并符合μi为均值矢量。
如图4所示,是本发明实施例提供的一种声纹特征识别系统110的功能模块框图。该声纹特征识别系统110包括预处理模块1102、语音分离模块1104、特征提取模块1106、特征融合模块1108以及特征识别模块1110。
所述预处理模块1102,用于对输入的原始语音信号进行预处理,所述预处理包括预加重、分帧加窗以及端点检测;
所述语音分离模块1104,用于对预处理后得到的含噪混合信号进行基于听觉特性的语音分离处理;
所述特征提取模块1106,用于提取经语音分离处理后的信号的频率倒谱系数和感知线性预测系数;
所述特征融合模块1108,用于利用噪声背景区分度,在不同噪声环境下对频率倒谱系数和感知线性预测系数进行分析以完成特征融合;
所述特征识别模块1110,用于在预先建立的声纹特征模板库中,采用高斯混合模型-通用背景模型对已完成融合的特征进行模式匹配,实现声纹特征识别。
本实施例中所描述的各功能模块的具体操作方法可参照图2所示的相应步骤的详细阐述,在此不再重复赘述。
综上所述,本发明实施例提供的声纹特征识别方法及系统,从仿生学角度解决噪声下声纹识别率降低的问题,有效提升了噪声环境下声纹识别的准确率和系统的鲁棒性。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种声纹特征识别方法,其特征在于,该方法包括:
对输入的原始语音信号进行预处理,所述预处理包括预加重、分帧加窗以及端点检测;
对预处理后得到的含噪混合信号进行基于听觉特性的语音分离处理;
提取经语音分离处理后的信号的频率倒谱系数和感知线性预测系数;
利用噪声背景区分度,在不同噪声环境下对频率倒谱系数和感知线性预测系数进行分析以完成特征融合;
在预先建立的声纹特征模板库中,采用高斯混合模型-通用背景模型对已完成融合的特征进行模式匹配,实现声纹特征识别。
2.根据权利要求1所述的声纹特征识别方法,其特征在于,对预处理后得到的含噪混合信号进行基于听觉特性的语音分离处理的步骤包括:
将所述含噪混合信号进行分解,得到多个时频单元;
依据语音分离线索对分解得到的所述多个时频单元进行聚类;
对聚类后的待合成信号进行语音重构,输出分离后的语音。
3.根据权利要求2所述的声纹特征识别方法,其特征在于,所述语音分离线索包括两耳时差和两耳声级差。
4.根据权利要求2或3所述的声纹特征识别方法,其特征在于,依据语音分离线索对分解得到的所述多个时频单元进行聚类的步骤包括:
依据掩蔽模型对所述多个时频单元进行二值掩码聚类,其中,fi表示第i频率通道的频率,fc表示高频与中低频间的临界频率,τ(i,j)表示第i频率通道与第j时间帧的一个分离线索,L(i,j)表示第i频率通道与第j时间帧的另一个分离线索,Tτ(i,j)和Tl(i,j)分别表示两个分离线索的阈值。
5.根据权利要求2所述的声纹特征识别方法,其特征在于,对聚类后的待合成信号进行语音重构的步骤包括:
对所述待合成信号进行韵律调整,所述韵律包括幅度、长度和基音;
依据重构公式:对经韵律调整后的信号进行语音重构,其中,tj表示重构的同步标志,hj(n)表示窗函数,表示短时语音信号,gj表示幅度调整的权值。
6.根据权利要求1所述的声纹特征识别方法,其特征在于,提取经语音分离处理后的信号的频率倒谱系数和感知线性预测系数的步骤包括:
基于Gammatone滤波器组提取所述经语音分离处理后的信号的频率倒谱系数。
7.一种声纹特征识别系统,其特征在于,该系统包括:
预处理模块,用于对输入的原始语音信号进行预处理,所述预处理包括预加重、分帧加窗以及端点检测;
语音分离模块,用于对预处理后得到的含噪混合信号进行基于听觉特性的语音分离处理;
特征提取模块,用于提取经语音分离处理后的信号的频率倒谱系数和感知线性预测系数;
特征融合模块,用于利用噪声背景区分度,在不同噪声环境下对频率倒谱系数和感知线性预测系数进行分析以完成特征融合;
特征识别模块,用于在预先建立的声纹特征模板库中,采用高斯混合模型-通用背景模型对已完成融合的特征进行模式匹配,实现声纹特征识别。
8.根据权利要求7所述的声纹特征识别系统,其特征在于,所述语音分离模块对预处理后得到的含噪混合信号进行基于听觉特性的语音分离处理的方式包括:
将所述含噪混合信号进行分解,得到多个时频单元;
依据语音分离线索对分解得到的所述多个时频单元进行聚类;
对聚类后的待合成信号进行语音重构,输出分离后的语音。
9.根据权利要求8所述的声纹特征识别系统,其特征在于,所述语音分离模块依据语音分离线索对分解得到的所述多个时频单元进行聚类的方式包括:
依据掩蔽模型对所述多个时频单元进行二值掩码聚类,其中,fi表示第i频率通道的频率,fc表示高频与中低频间的临界频率,τ(i,j)表示第i频率通道与第j时间帧的一个分离线索,L(i,j)表示第i频率通道与第j时间帧的另一个分离线索,Tτ(i,j)和Tl(i,j)分别表示两个分离线索的阈值。
10.根据权利要求7所述的声纹特征识别系统,其特征在于,所述特征提取模块提取经语音分离处理后的信号的频率倒谱系数和感知线性预测系数的方式包括:
基于Gammatone滤波器组提取所述经语音分离处理后的信号的频率倒谱系数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611075677.7A CN106782565A (zh) | 2016-11-29 | 2016-11-29 | 一种声纹特征识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611075677.7A CN106782565A (zh) | 2016-11-29 | 2016-11-29 | 一种声纹特征识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106782565A true CN106782565A (zh) | 2017-05-31 |
Family
ID=58900777
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611075677.7A Pending CN106782565A (zh) | 2016-11-29 | 2016-11-29 | 一种声纹特征识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106782565A (zh) |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107782548A (zh) * | 2017-10-20 | 2018-03-09 | 韦彩霞 | 一种基于对轨道交通工具零部件检测系统 |
CN108124488A (zh) * | 2017-12-12 | 2018-06-05 | 福建联迪商用设备有限公司 | 一种基于人脸和声纹的支付认证方法及终端 |
CN108182945A (zh) * | 2018-03-12 | 2018-06-19 | 广州势必可赢网络科技有限公司 | 一种基于声纹特征的多人声音分离方法及装置 |
CN108231082A (zh) * | 2017-12-29 | 2018-06-29 | 广州势必可赢网络科技有限公司 | 一种自学习声纹识别的更新方法和装置 |
CN108564956A (zh) * | 2018-03-26 | 2018-09-21 | 京北方信息技术股份有限公司 | 一种声纹识别方法和装置、服务器、存储介质 |
CN108615532A (zh) * | 2018-05-03 | 2018-10-02 | 张晓雷 | 一种应用于声场景的分类方法及装置 |
CN108847253A (zh) * | 2018-09-05 | 2018-11-20 | 平安科技(深圳)有限公司 | 车辆型号识别方法、装置、计算机设备及存储介质 |
WO2018223727A1 (zh) * | 2017-06-09 | 2018-12-13 | 平安科技(深圳)有限公司 | 识别声纹的方法、装置、设备及介质 |
CN109031202A (zh) * | 2018-06-03 | 2018-12-18 | 桂林电子科技大学 | 基于听觉场景分析的室内环境区域定位系统及方法 |
CN109192216A (zh) * | 2018-08-08 | 2019-01-11 | 联智科技(天津)有限责任公司 | 一种声纹识别用训练数据集仿真获取方法及其获取装置 |
WO2019037426A1 (zh) * | 2017-08-23 | 2019-02-28 | 武汉斗鱼网络科技有限公司 | Mfcc语音识别方法、存储介质、电子设备及系统 |
CN109410976A (zh) * | 2018-11-01 | 2019-03-01 | 北京工业大学 | 双耳助听器中基于双耳声源定位和深度学习的语音增强方法 |
CN110299143A (zh) * | 2018-03-21 | 2019-10-01 | 现代摩比斯株式会社 | 用于识别语音说话人的装置及其方法 |
CN110364168A (zh) * | 2019-07-22 | 2019-10-22 | 南京拓灵智能科技有限公司 | 一种基于环境感知的声纹识别方法及系统 |
CN110473566A (zh) * | 2019-07-25 | 2019-11-19 | 深圳壹账通智能科技有限公司 | 音频分离方法、装置、电子设备及计算机可读存储介质 |
CN110473553A (zh) * | 2019-08-29 | 2019-11-19 | 南京理工大学 | 基于听觉系统模型的老年人及残障人士说话人的识别方法 |
CN110648553A (zh) * | 2019-09-26 | 2020-01-03 | 北京声智科技有限公司 | 一种站点提醒方法、电子设备及计算机可读存储介质 |
CN111083284A (zh) * | 2019-12-09 | 2020-04-28 | Oppo广东移动通信有限公司 | 车辆到站提示方法及相关产品 |
WO2020083110A1 (zh) * | 2018-10-25 | 2020-04-30 | 腾讯科技(深圳)有限公司 | 一种语音识别、及语音识别模型训练方法及装置 |
CN111477235A (zh) * | 2020-04-15 | 2020-07-31 | 厦门快商通科技股份有限公司 | 一种声纹采集方法和装置以及设备 |
WO2021042537A1 (zh) * | 2019-09-04 | 2021-03-11 | 平安科技(深圳)有限公司 | 语音识别认证方法及系统 |
CN112767949A (zh) * | 2021-01-18 | 2021-05-07 | 东南大学 | 一种基于二值权重卷积神经网络的声纹识别系统 |
CN112863546A (zh) * | 2021-01-21 | 2021-05-28 | 安徽理工大学 | 音频特征决策的带式运输机健康分析方法 |
CN113011506A (zh) * | 2021-03-24 | 2021-06-22 | 华南理工大学 | 一种基于深度重分形频谱网络的纹理图像分类方法 |
CN113257266A (zh) * | 2021-05-21 | 2021-08-13 | 特斯联科技集团有限公司 | 基于声纹多特征融合的复杂环境门禁方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103456312A (zh) * | 2013-08-29 | 2013-12-18 | 太原理工大学 | 一种基于计算听觉场景分析的单通道语音盲分离方法 |
US9131295B2 (en) * | 2012-08-07 | 2015-09-08 | Microsoft Technology Licensing, Llc | Multi-microphone audio source separation based on combined statistical angle distributions |
CN105609099A (zh) * | 2015-12-25 | 2016-05-25 | 重庆邮电大学 | 基于人耳听觉特性的语音识别预处理方法 |
-
2016
- 2016-11-29 CN CN201611075677.7A patent/CN106782565A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9131295B2 (en) * | 2012-08-07 | 2015-09-08 | Microsoft Technology Licensing, Llc | Multi-microphone audio source separation based on combined statistical angle distributions |
CN103456312A (zh) * | 2013-08-29 | 2013-12-18 | 太原理工大学 | 一种基于计算听觉场景分析的单通道语音盲分离方法 |
CN105609099A (zh) * | 2015-12-25 | 2016-05-25 | 重庆邮电大学 | 基于人耳听觉特性的语音识别预处理方法 |
Non-Patent Citations (5)
Title |
---|
NICOLETA ROMAN等: ""speech segregation based on sound localization"", 《IEEE》 * |
刘继芳: ""基于计算听觉场景分析的混合语音分离研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
徐鹤: ""城市交通环境下声纹识别算法研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
罗元 等: ""一种新的鲁棒声纹特征提取与融合方法"", 《计算机科学》 * |
陆虎敏: "《飞机座舱显示与控制技术》", 31 December 2015, 航空工业出版社 * |
Cited By (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018223727A1 (zh) * | 2017-06-09 | 2018-12-13 | 平安科技(深圳)有限公司 | 识别声纹的方法、装置、设备及介质 |
WO2019037426A1 (zh) * | 2017-08-23 | 2019-02-28 | 武汉斗鱼网络科技有限公司 | Mfcc语音识别方法、存储介质、电子设备及系统 |
CN107782548A (zh) * | 2017-10-20 | 2018-03-09 | 韦彩霞 | 一种基于对轨道交通工具零部件检测系统 |
CN107782548B (zh) * | 2017-10-20 | 2020-07-07 | 亚太空列(河南)轨道交通有限公司 | 一种基于对轨道交通工具零部件检测系统 |
CN108124488A (zh) * | 2017-12-12 | 2018-06-05 | 福建联迪商用设备有限公司 | 一种基于人脸和声纹的支付认证方法及终端 |
CN108231082A (zh) * | 2017-12-29 | 2018-06-29 | 广州势必可赢网络科技有限公司 | 一种自学习声纹识别的更新方法和装置 |
CN108182945A (zh) * | 2018-03-12 | 2018-06-19 | 广州势必可赢网络科技有限公司 | 一种基于声纹特征的多人声音分离方法及装置 |
CN110299143B (zh) * | 2018-03-21 | 2023-04-11 | 现代摩比斯株式会社 | 用于识别语音说话人的装置及其方法 |
CN110299143A (zh) * | 2018-03-21 | 2019-10-01 | 现代摩比斯株式会社 | 用于识别语音说话人的装置及其方法 |
CN108564956A (zh) * | 2018-03-26 | 2018-09-21 | 京北方信息技术股份有限公司 | 一种声纹识别方法和装置、服务器、存储介质 |
CN108564956B (zh) * | 2018-03-26 | 2021-04-20 | 京北方信息技术股份有限公司 | 一种声纹识别方法和装置、服务器、存储介质 |
CN108615532B (zh) * | 2018-05-03 | 2021-12-07 | 张晓雷 | 一种应用于声场景的分类方法及装置 |
CN108615532A (zh) * | 2018-05-03 | 2018-10-02 | 张晓雷 | 一种应用于声场景的分类方法及装置 |
CN109031202B (zh) * | 2018-06-03 | 2022-10-04 | 桂林电子科技大学 | 基于听觉场景分析的室内环境区域定位系统及方法 |
CN109031202A (zh) * | 2018-06-03 | 2018-12-18 | 桂林电子科技大学 | 基于听觉场景分析的室内环境区域定位系统及方法 |
CN109192216A (zh) * | 2018-08-08 | 2019-01-11 | 联智科技(天津)有限责任公司 | 一种声纹识别用训练数据集仿真获取方法及其获取装置 |
CN108847253A (zh) * | 2018-09-05 | 2018-11-20 | 平安科技(深圳)有限公司 | 车辆型号识别方法、装置、计算机设备及存储介质 |
US11798531B2 (en) | 2018-10-25 | 2023-10-24 | Tencent Technology (Shenzhen) Company Limited | Speech recognition method and apparatus, and method and apparatus for training speech recognition model |
WO2020083110A1 (zh) * | 2018-10-25 | 2020-04-30 | 腾讯科技(深圳)有限公司 | 一种语音识别、及语音识别模型训练方法及装置 |
CN109410976B (zh) * | 2018-11-01 | 2022-12-16 | 北京工业大学 | 双耳助听器中基于双耳声源定位和深度学习的语音增强方法 |
CN109410976A (zh) * | 2018-11-01 | 2019-03-01 | 北京工业大学 | 双耳助听器中基于双耳声源定位和深度学习的语音增强方法 |
CN110364168A (zh) * | 2019-07-22 | 2019-10-22 | 南京拓灵智能科技有限公司 | 一种基于环境感知的声纹识别方法及系统 |
CN110364168B (zh) * | 2019-07-22 | 2021-09-14 | 北京拓灵新声科技有限公司 | 一种基于环境感知的声纹识别方法及系统 |
CN110473566A (zh) * | 2019-07-25 | 2019-11-19 | 深圳壹账通智能科技有限公司 | 音频分离方法、装置、电子设备及计算机可读存储介质 |
CN110473553A (zh) * | 2019-08-29 | 2019-11-19 | 南京理工大学 | 基于听觉系统模型的老年人及残障人士说话人的识别方法 |
WO2021042537A1 (zh) * | 2019-09-04 | 2021-03-11 | 平安科技(深圳)有限公司 | 语音识别认证方法及系统 |
CN110648553A (zh) * | 2019-09-26 | 2020-01-03 | 北京声智科技有限公司 | 一种站点提醒方法、电子设备及计算机可读存储介质 |
CN111083284B (zh) * | 2019-12-09 | 2021-06-11 | Oppo广东移动通信有限公司 | 车辆到站提示方法、装置、电子设备以及计算机可读存储介质 |
CN111083284A (zh) * | 2019-12-09 | 2020-04-28 | Oppo广东移动通信有限公司 | 车辆到站提示方法及相关产品 |
CN111477235A (zh) * | 2020-04-15 | 2020-07-31 | 厦门快商通科技股份有限公司 | 一种声纹采集方法和装置以及设备 |
CN112767949A (zh) * | 2021-01-18 | 2021-05-07 | 东南大学 | 一种基于二值权重卷积神经网络的声纹识别系统 |
CN112863546A (zh) * | 2021-01-21 | 2021-05-28 | 安徽理工大学 | 音频特征决策的带式运输机健康分析方法 |
CN113011506A (zh) * | 2021-03-24 | 2021-06-22 | 华南理工大学 | 一种基于深度重分形频谱网络的纹理图像分类方法 |
CN113011506B (zh) * | 2021-03-24 | 2023-08-25 | 华南理工大学 | 一种基于深度重分形频谱网络的纹理图像分类方法 |
CN113257266A (zh) * | 2021-05-21 | 2021-08-13 | 特斯联科技集团有限公司 | 基于声纹多特征融合的复杂环境门禁方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106782565A (zh) | 一种声纹特征识别方法及系统 | |
CN109830245B (zh) | 一种基于波束成形的多说话者语音分离方法及系统 | |
Zhang et al. | Deep learning based binaural speech separation in reverberant environments | |
CN105845127B (zh) | 语音识别方法及其系统 | |
CN110970053B (zh) | 一种基于深度聚类的多通道与说话人无关语音分离方法 | |
CN103456312B (zh) | 一种基于计算听觉场景分析的单通道语音盲分离方法 | |
CN109427328B (zh) | 一种基于滤波网络声学模型的多通道语音识别方法 | |
CN106057210B (zh) | 双耳间距下基于频点选择的快速语音盲源分离方法 | |
CN110047478B (zh) | 基于空间特征补偿的多通道语音识别声学建模方法及装置 | |
CN107346664A (zh) | 一种基于临界频带的双耳语音分离方法 | |
CN110111769A (zh) | 一种电子耳蜗控制方法、装置、可读存储介质及电子耳蜗 | |
CN108122559A (zh) | 一种数字助听器中基于深度学习的双耳声源定位方法 | |
CN108091345A (zh) | 一种基于支持向量机的双耳语音分离方法 | |
CN105225672A (zh) | 融合基频信息的双麦克风定向噪音抑制的系统及方法 | |
CN103903632A (zh) | 一种多声源环境下的基于听觉中枢系统的语音分离方法 | |
CN107274887A (zh) | 基于融合特征mgfcc的说话人二次特征提取方法 | |
CN108520756A (zh) | 一种说话人语音分离的方法及装置 | |
CN106019230B (zh) | 一种基于i-vector说话人识别的声源定位方法 | |
CN111145726A (zh) | 基于深度学习的声场景分类方法、系统、装置及存储介质 | |
Sainath et al. | Reducing the Computational Complexity of Multimicrophone Acoustic Models with Integrated Feature Extraction. | |
CN104778948A (zh) | 一种基于弯折倒谱特征的抗噪语音识别方法 | |
CN105609099A (zh) | 基于人耳听觉特性的语音识别预处理方法 | |
CN109448702A (zh) | 人工耳蜗听觉场景识别方法 | |
CN105845143A (zh) | 基于支持向量机的说话人确认方法及其系统 | |
Li et al. | Speaker and direction inferred dual-channel speech separation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170531 |
|
RJ01 | Rejection of invention patent application after publication |