CN106782565A

CN106782565A - 一种声纹特征识别方法及系统

Info

Publication number: CN106782565A
Application number: CN201611075677.7A
Authority: CN
Inventors: 徐晓东; 张程; 张毅
Original assignee: Chongqing Heavy Chi Robot Research Institute Co Ltd
Current assignee: Chongqing Heavy Chi Robot Research Institute Co Ltd
Priority date: 2016-11-29
Filing date: 2016-11-29
Publication date: 2017-05-31

Abstract

本发明实施例提供一种声纹特征识别方法及系统，其中，该方法的具体实现过程为，对经预处理的含噪混合噪声进行基于听觉特性的语音分离处理后，提取信号的频率倒谱系数和感知线性预测系数，并利用噪声背景区分度，在不同噪声环境下对频率倒谱系数和感知线性预测系数进行分析完成特征融合，最后在预先建立的声纹特征模板库中，采用高斯混合模型‑通用背景模型对已完成融合的特征进行模式匹配，实现声纹特征识别。该种声纹特征识别方法将人类听觉系统特性与传统声纹识别方法相结合，从仿生学角度解决噪声下声纹识别率降低的问题，有效提升了噪声环境下声纹特征识别的准确率和系统的鲁棒性。

Description

一种声纹特征识别方法及系统

技术领域

本发明涉及声音识别技术领域，具体而言，涉及一种声纹特征识别方法及系统。

背景技术

早在20世纪30年代，声纹识别的研究就已经在信息科研工作者中展开了。在早期研究中，人耳听辨(Aural)实验和听音识别可行性验证是声纹识别领域的重点。随着计算机科技在硬件和算法中的突破，声纹识别的研究不再仅仅局限于单一的人耳听辨。美国Bell实验室在语音识别领域长期处于领先位置，实验室成员L G.Kesta通过对语音频谱图的分析完成识别，并由他首先提出了“声纹识别”这个概念。随着科研工作者在声纹识别领域不断的探索和创新，使机器自动分析并识别人类语音信号变成可能。但是，目前已有的声纹特征识别方法在噪声环境下的识别准确率都普遍较低，系统鲁棒性差，应用效果不佳。

发明内容

本发明的目的在于提供一种声纹特征识别方法及系统，以改善上述问题。

本发明较佳实施例提供一种声纹特征识别方法，该方法包括：

对输入的原始语音信号进行预处理，所述预处理包括预加重、分帧加窗以及端点检测；

对预处理后得到的含噪混合信号进行基于听觉特性的语音分离处理；

提取经语音分离处理后的信号的频率倒谱系数和感知线性预测系数；

利用噪声背景区分度，在不同噪声环境下对频率倒谱系数和感知线性预测系数进行分析以完成特征融合；及

在预先建立的声纹特征模板库中，采用高斯混合模型-通用背景模型对已完成融合的特征进行模式匹配，实现声纹特征识别。

本发明另一实施例提供一种声纹特征识别系统，该系统包括:

预处理模块，用于对输入的原始语音信号进行预处理，所述预处理包括预加重、分帧加窗以及端点检测；

语音分离模块，用于对预处理后得到的含噪混合信号进行基于听觉特性的语音分离处理；

特征提取模块，用于提取经语音分离处理后的信号的频率倒谱系数和感知线性预测系数；

特征融合模块，用于利用噪声背景区分度，在不同噪声环境下对频率倒谱系数和感知线性预测系数进行分析以完成特征融合；及

特征识别模块，用于在预先建立的声纹特征模板库中，采用高斯混合模型-通用背景模型对已完成融合的特征进行模式匹配，实现声纹特征识别。

本发明实施例提供的声纹特征识别方法及系统，将人类听觉系统特性与传统声纹识别方法相结合，从仿生学角度解决噪声下声纹识别率降低的问题，有效提升了噪声环境下声纹识别的准确率和系统的鲁棒性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提供的一种语音识别设备的方框示意图；

图2为本发明实施例提供的一种声纹特征识别方法的流程图；

图3为本发明实施例提供的双耳时间差的几何原理图；

图4为本发明实施例提供的一种声纹特征识别系统的功能模块框图。

图标：100-语音识别设备；110-声纹特征识别系统；120-存储器；130-处理器；1102-预处理模块；1104-语音分离模块；1106-特征提取模块；1108-特征融合模块；1110-特征识别模块。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，是本发明实施例提供的一种语音识别设备100的方框示意图。所述语音识别设备100包括声纹特征识别系统110、存储器120以及处理器130。其中，所述存储器120与处理器130之间直接或间接地电性连接，以进行数据传输或交互。所述声纹特征识别系统110包括至少一个可以软件或固件的形式存储于所述存储器120中或固化在所述语音识别设备100的操作系统中的软件功能模块。所述处理器130在存储控制器的控制下访问所述存储器120，以用于执行所述存储器120中存储的可执行模块，例如所述声纹特征识别系统110所包括的软件功能模块及计算机程序等。

如图2所示，是本发明实施例提供的一种应用于图1所示的语音识别设备100中的声纹特征识别方法的流程示意图。所应说明的是，本发明提供的方法不以图2及以下所述的具体顺序为限制。下面将对图2所示的各步骤进行详细阐述。

步骤S101，对输入的原始语音信号进行预处理，所述预处理包括预加重、分帧加窗以及端点检测。

本实施例中，输入所述语音识别设备100的原始语音信号，首先过一阶FIR高通数字滤波器实现预加重，其传递函数为：

H(Z)＝1-μZ^-1

其中，系数μ取值为0至1之间，其取值可根据先验规律确定，通常可取0.94。

然后，将预加重后得到的语音信号进行分帧，并乘以幅度为k的移动窗w(n-m)。k可以按一定函数取值，对分帧的各个取样值将有一定的加成。经分帧加窗处理后，得到的语音信号可表示为：

其中，T[·]代表一种函数变换，x(m)表示语音信号序列，Q(n)表示各段经过处理后得到的时间序列。

最后，检测语音信号的端点。本实施例中，主要通过短时能量和短时过零率实现语音信号的端点检测。

具体地，短时能量表示为：

其中，N表示分析窗宽度，S(n)表示第t帧语音信号中的第n个点的信号取样值。

短时过零率表示为：

其中，Sgn[·]表示过零率函数。

步骤S103，对预处理后得到的含噪混合信号进行基于听觉特性的语音分离处理。

本实施例中，对语音信号进行基于听觉特性的仿生分离处理的过程为，基于外围听觉模型将含噪混合信号进行分解处理得到时频单元后，依据语音分离线索对时频单元聚类，最终通过语音重构模型输出分离后的语音。语音重构模型完成时频单元的聚类和语音流合成，主要包括二值掩码聚类和重组合模型两部分。

对于第i频率通道与第j时间帧的掩蔽模型可定义为下式：

其中，f_c＝1500Hz表示高频和中低频的临界频率，f_i表示第i频率通道的频率，τ(i,j)表示第i频率通道与第j时间帧的一个分离线索，L(i,j)表示第i频率通道与第j时间帧的另一个分离线索，T^τ(i,j)和T^l(i,j)分别表示上述两个分离线索的阈值。

为了提高重构语音的还原度，首先要对待合成的信号进行韵律调整。所述韵律调整包括对语音的幅度、长度、基音等信息的调整。其中，对语音信号的幅度调整可通过加权的方式实现，权值公式表示为：

式中的τ为信号帧长，n为帧移。

重构公式为：

式中的为得到的重组合信号，t_j为重组合的同步标志，h_j(n)为外围听觉模型中的窗函数，为短时语音信号，幅度的调整则由上述权值公式中的权值g实现。

另外，本实施例中，所述语音分离线索可以是两耳时差(Interaural TimeDifference，ITD)或两耳声级差(Interaural Level Difference，ILD)。从人耳听声辨位的角度出发，模拟人耳分辨声音的过程，将反映声音空间方位信息的语音分离线索ITD和ILD用于语音分离将有效提升语音分离效率。下面，对ITD和ILD的实现原理进行简要说明。

在人类听觉系统进行语音分离的过程中，ITD主要用于对中低频语音信号的处理。为简便起见，本段将以单一声源为例说明ITD的产生原理。假定某一声源更靠近左耳，则可用αsin2πft来表示语音信号到达左耳的过程。而距离较远的右耳则为(α-Δα)sin2πf(t+Δt)，其中f为频率，Δt为时间差信息，代表声音传播至双耳的时间差，即ITD，Δα为强度差信息，代表声音传播到双耳的声压强度差，即ILD。根据这两种信息，可以通过声源位置的差异对混叠语音进行分离。

如图3所示，为双耳时间差的几何原理图。图3中，S为声源位置，A和B为左右耳，D为它们之间距离，角C代表声源与大脑正中的夹角，d为声音到达两耳之间的距离差，表示为d＝Dsinα。

ITD值的计算结构图，把输入的语音信号首先进行加窗处理，一般情况下将窗函数看作为滤波器的单位冲激响应。本实施例中选用汉明窗，以保证语音信号在短时分析中是平稳的。汉明窗的表达式为：

式中，N表示窗长。经过加窗的信号被经过傅里叶变换转化到频域，如下述两式所示：

到达左耳和右耳的语音信号的互相关，可以表示为：

通常地，每个传输函数h_l(t)和h_r(t)都可被一振幅的衰减因子和一时间延迟来近似表示，因此互相关的公式可以表示为：

式中，α代表衰减因子，D代表ITD的值。根据上述分析，ITD只对低频的语音信号的分离起作用，自相关函数R_ss在τ＝0时达到最大值，因此ITD的值D可以表示为：

互功率谱被定义为两个信号的互相关的傅里叶计算，如下式：

该式的具体计算用式为：

代表X_r(ω)的复共轭，对该式做Fourier变换，可得接收信号的功率谱为：

从上式可以看出，ITD的D值仅与互功率谱的相位有关，将互相关进行标准变化可得：

由此，ITD的D值可以被精确计算为：

ILD代表声源信号到达两耳的声压差异。当声音传递到左右耳的距离产生差异时，将造成声压差异，而这种信息为语音分离提供了另一个线索—ILD。研究表明，在高频区域，ILD将会发挥更多的作用。当语音信号频率超过1500Hz以后，由于人类听觉外围如耳廓的遮蔽效应，语音信号将会产生较强的声影效应而阻碍语音信号传递到内耳。产生这种结果的主要因素是低频的语音信号波长较短，难以发生衍射穿过耳廓，而高频的声音则可以绕过耳廓，因此为了分离高频的语音信号，需提取双耳声级差。

计算ILD需要谱线索，在忽略回声的情况下，左耳和右耳接收到的信号的能量谱可以由下述两式表达：

P_l(ω)＝S(ω)|H_l(ω)|²

P_r(ω)＝S(ω)|H_r(ω)|²

式中，S(ω)是声源的功率谱，并且H_l(ω)和H_r(ω)分别代表左耳和右耳的传输函数。因此，左耳和右耳的强度差可以表示为：

I_l(ω)＝10log₁₀P_l(ω)＝10log₁₀S(ω)+20log₁₀|H_l(ω)|

以及

I_r(ω)＝10log₁₀P_r(ω)＝10log₁₀S(ω)+20log₁₀|H_r(ω)|

通常地，双耳声级差可以用于提取高频语音信号的分离信息，而且在提取双耳声级差信息时，声源和通道关系由相乘变为简单的相加。简单的相加关系有助于后续计算ILD提取通道信息。

当计算出强度后，语音信号将通过耳蜗滤波器。仅在高频部分提取ILD信息，不仅减少了特征空间的尺寸，而且可以模拟耳蜗在人类听觉中枢系统中频率选择的谐振性。

由于ILD仅对高于1500Hz的语音信号起作用，所以存在双耳声级差提取的中断频率f_cut，其计算公式：

式中，C代表语音信号在空气中的传播速度，d_α代表物理尺寸的孔径，只有在子带达到中断频率f_cut以后才能计算ILD线索。

因此对于每个达到中断频率的子带i，有下式成立：

式中，Ω_i是子带i的频率范围，W_i(ω)是耳蜗滤波器的权重。

因此每个子带i的ILD定义为：

步骤S105，提取经语音分离处理后的信号的频率倒谱系数和感知线性预测系数。

众所周知，声纹识别研究中已采用过的特征参数主要为倒谱系数。倒谱系数反映人类声道发声原理，提取过程中滤波器组反映人耳听觉特性。本实施例中，对梅尔频率倒谱系数(MFCC)进行改进，基于Gammatone滤波器组提取频率倒谱系数。

Gammatone滤波器组在语音信号处理中功能与人耳听觉外周类似，能较好地模拟耳蜗基底膜特性，对语音信号分频处理；Meddis模型能很好地完成对内耳毛细胞特性的模拟，可以较准确地描述听觉神经的发放速率，两者组成完整的听觉外周模型。

语音信号进入人耳时，首先经过耳蜗基底膜分频，由Gammatone滤波器组模拟，滤波器组时域表达式如下：

式中，N为滤波器的个数，i为序数，n为滤波器阶数，取n＝4，φ_i为滤波器的初始相位，f_i为每个滤波器的中心频率，b_i为衰减因子。

Gammatone滤波器组中单个滤波器带宽与人耳听觉临界频带相关，听觉临界频带用等效矩形带宽度量为：

EBR(f)＝24.7*(4.37f/1000+1)

对于中心频率f_i，可得对应衰减因子b_i：

b_i＝1.019EBR(f_i)

对式进行拉氏变换得：

并转换到Z变换，最终再进行反变换可得Gammatone滤波器组的离散冲击响应：

步骤S107，利用噪声背景区分度，在不同噪声环境下对频率倒谱系数和感知线性预测系数进行分析以完成特征融合。

D_R为特征的类间离散度和类内离散度之比，反映了声纹特征模板库中各特征间区分度，这种区分度可有效表征声纹特征是否适应噪声环境。求出声纹特征在不同信噪比环境下的D_R值，进一步分析特征在噪声环境下的鲁棒性。D_R的表达式如下：

式中μ为声纹特征模板库内所有说话人的平均特征值，μ_i为第i个说话人的平均特征值，M为声纹特征模板库中说话人个数，N为单个说话人语音信号帧数。

语音特征在提取后通常以矩阵的形式存储，可以用多维特征向量来表示，对各维特征向量进行类间区分度研究可知每一维特征参数在噪声环境下的鲁棒性，以此为依据就可实现对不同声纹特征的数据融合。假定特征A与特征B分别由X维和Y维特征向量表示：

A＝{α₁,α₂,......α_X}'

B＝{β₁,β₂,.......β_Y}'

对两种声纹特征进行类间区分度分析，特征A与特征B的D_R矩阵如下：

为研究在噪声环境中两种声纹特征每一维的表现，在多种信噪比环境下，对声纹特征模板库中说话人提取特征A与B，并统计D_R的最大值D_R max在特征矩阵中每一维的次数P：

为保证融合特征矩阵各向量权重适当，根据统计情况设置阈值P_th，P_th由具体结果选定，对P_x，P_y规整后并求：

ε＝max{P_x,P_y,P_th}

得到融合特征特征参数C，表达式如下：

C＝{γ₁,γ₂,.......γ_Z}'

步骤S109，在预先建立的声纹特征模板库中，采用高斯混合模型-通用背景模型对已完成融合的特征进行模式匹配，实现声纹特征识别。

本实施例中，模式匹配的模型为高斯混合模型-通用背景模型(GMM-OUM模型)。高斯混合模型(GMM模型)的实质是多维度的概率密度函数，对于d维且混合度为M的GMM模型，可通过高斯函数的加权和表达为：

式中，∑_i为协方差矩阵，p_i为GMM模型第i个分量d维的高斯函数，x为d维的观测矢量，w_i为混合权值，并符合μ_i为均值矢量。

如图4所示，是本发明实施例提供的一种声纹特征识别系统110的功能模块框图。该声纹特征识别系统110包括预处理模块1102、语音分离模块1104、特征提取模块1106、特征融合模块1108以及特征识别模块1110。

所述预处理模块1102，用于对输入的原始语音信号进行预处理，所述预处理包括预加重、分帧加窗以及端点检测；

所述语音分离模块1104，用于对预处理后得到的含噪混合信号进行基于听觉特性的语音分离处理；

所述特征提取模块1106，用于提取经语音分离处理后的信号的频率倒谱系数和感知线性预测系数；

所述特征融合模块1108，用于利用噪声背景区分度，在不同噪声环境下对频率倒谱系数和感知线性预测系数进行分析以完成特征融合；

所述特征识别模块1110，用于在预先建立的声纹特征模板库中，采用高斯混合模型-通用背景模型对已完成融合的特征进行模式匹配，实现声纹特征识别。

本实施例中所描述的各功能模块的具体操作方法可参照图2所示的相应步骤的详细阐述，在此不再重复赘述。

综上所述，本发明实施例提供的声纹特征识别方法及系统，从仿生学角度解决噪声下声纹识别率降低的问题，有效提升了噪声环境下声纹识别的准确率和系统的鲁棒性。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种声纹特征识别方法，其特征在于，该方法包括：

利用噪声背景区分度，在不同噪声环境下对频率倒谱系数和感知线性预测系数进行分析以完成特征融合；

2.根据权利要求1所述的声纹特征识别方法，其特征在于，对预处理后得到的含噪混合信号进行基于听觉特性的语音分离处理的步骤包括：

将所述含噪混合信号进行分解，得到多个时频单元；

依据语音分离线索对分解得到的所述多个时频单元进行聚类；

对聚类后的待合成信号进行语音重构，输出分离后的语音。

3.根据权利要求2所述的声纹特征识别方法，其特征在于，所述语音分离线索包括两耳时差和两耳声级差。

4.根据权利要求2或3所述的声纹特征识别方法，其特征在于，依据语音分离线索对分解得到的所述多个时频单元进行聚类的步骤包括：

依据掩蔽模型对所述多个时频单元进行二值掩码聚类，其中，f_i表示第i频率通道的频率，f_c表示高频与中低频间的临界频率，τ(i,j)表示第i频率通道与第j时间帧的一个分离线索，L(i,j)表示第i频率通道与第j时间帧的另一个分离线索，T^τ(i,j)和T^l(i,j)分别表示两个分离线索的阈值。

5.根据权利要求2所述的声纹特征识别方法，其特征在于，对聚类后的待合成信号进行语音重构的步骤包括：

对所述待合成信号进行韵律调整，所述韵律包括幅度、长度和基音；

依据重构公式：对经韵律调整后的信号进行语音重构，其中，t_j表示重构的同步标志，h_j(n)表示窗函数，表示短时语音信号，g_j表示幅度调整的权值。

6.根据权利要求1所述的声纹特征识别方法，其特征在于，提取经语音分离处理后的信号的频率倒谱系数和感知线性预测系数的步骤包括：

基于Gammatone滤波器组提取所述经语音分离处理后的信号的频率倒谱系数。

7.一种声纹特征识别系统，其特征在于，该系统包括:

特征融合模块，用于利用噪声背景区分度，在不同噪声环境下对频率倒谱系数和感知线性预测系数进行分析以完成特征融合；

8.根据权利要求7所述的声纹特征识别系统，其特征在于，所述语音分离模块对预处理后得到的含噪混合信号进行基于听觉特性的语音分离处理的方式包括：

将所述含噪混合信号进行分解，得到多个时频单元；

对聚类后的待合成信号进行语音重构，输出分离后的语音。

9.根据权利要求8所述的声纹特征识别系统，其特征在于，所述语音分离模块依据语音分离线索对分解得到的所述多个时频单元进行聚类的方式包括：

10.根据权利要求7所述的声纹特征识别系统，其特征在于，所述特征提取模块提取经语音分离处理后的信号的频率倒谱系数和感知线性预测系数的方式包括：