CN118098247A - 一种基于并行特征提取模型的声纹识别方法和系统 - Google Patents
一种基于并行特征提取模型的声纹识别方法和系统 Download PDFInfo
- Publication number
- CN118098247A CN118098247A CN202410009893.XA CN202410009893A CN118098247A CN 118098247 A CN118098247 A CN 118098247A CN 202410009893 A CN202410009893 A CN 202410009893A CN 118098247 A CN118098247 A CN 118098247A
- Authority
- CN
- China
- Prior art keywords
- voiceprint
- features
- fbank
- classification model
- mfcc
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 39
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000013145 classification model Methods 0.000 claims abstract description 46
- 230000004927 fusion Effects 0.000 claims abstract description 36
- 238000012545 processing Methods 0.000 claims abstract description 29
- 238000012952 Resampling Methods 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims description 38
- 238000001228 spectrum Methods 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 5
- 230000000873 masking effect Effects 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 5
- 230000006870 function Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000005070 sampling Methods 0.000 description 6
- 239000013598 vector Substances 0.000 description 5
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000005654 stationary process Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了一种基于并行特征提取的声纹识别方法和系统,所述方法包括:对待识别声纹进行重采样,对重采样后的待识别声纹进行特征提取,得到FBANK特征和MFCC特征;将所述FBANK特征和所述MFCC特征输入到预训练好的并行特征分类模型中进行并行处理,输出得到融合声纹特征;并将用户的原始注册声纹输入到所述并行特征分类模型中,输出得到比对声纹特征;计算所述融合声纹特征和所述比对声纹特征的余弦相似度,当所述余弦相似度大于第一阈值时,确定所述待识别声纹来自注册人员。所述系统包括:提取模块、处理模块、对比模块。实现声纹的准确识别。
Description
技术领域
本发明涉及声纹识别技术领域,尤其涉及一种基于并行特征提取模型的声纹识别方法和系统。
背景技术
如今,随着计算机硬件的快速发展,各类技术也得到广泛的推广。其中,基于深度学习的声纹识别技术在安全认证,个性化场景中得到广泛的应用。例如,智能锁的开门辅助认证,智能家居中对不同成员认证,进行个性化定制服务等等。
声纹识别算法一般需要音频特征提取,模型搭建,评分决策三个方面。第一步特征提取有FBANK、MFCC、LogFBank、LPCC、LPC、LSF等,而声纹识别常用的为FBANK,MFCC。深度模型一般搭建分类网络,架构通常为改进的TDNN网络,并采用AAM-SOFTMAX为损失函数,最后评分决策将成为判断两个模型得到的特征余弦值是否大于设定阈值来判定是否属于认证成员。
对于输入通常为MFCC特征或者FBANK特征等等的模型,这样单特征输入模型,考虑的音频特征有限,在实际应用中,算法效果鲁棒性差。而对于将特征人为的处理拼接融合作为输入,可能会导致处理过程中,一些特征的丢失,或在模型训练中对于拼接特征的处理能力有限。
针对上述的现有技术存在的问题设计一种基于并行特征提取模型的声纹识别方法和系统是本发明研究的目的。
发明内容
有鉴于此,本发明的目的在于提出一种基于并行特征提取模型的声纹识别方法和系统,能够解决上述的问题。
本发明提供一种基于并行特征提取模型的声纹识别方法,包括:
对待识别声纹进行重采样,对重采样后的待识别声纹进行特征提取,得到FBANK特征和MFCC特征;
将所述FBANK特征和所述MFCC特征输入到预训练好的并行特征分类模型中进行并行处理,输出得到融合声纹特征;并将用户的原始注册声纹输入到所述并行特征分类模型中,输出得到比对声纹特征;
计算所述融合声纹特征和所述比对声纹特征的余弦相似度,当所述余弦相似度大于第一阈值时,确定所述待识别声纹来自注册人员。
进一步,所述对待识别声纹进行重采样,对重采样后的待识别声纹进行特征提取,得到FBANK特征和MFCC特征,包括:
对所述待识别声纹进行的高频部分进行加重,得到加重后的所述待识别声纹;
对加重后的所述待识别声纹分为若干短时帧,将每帧短时帧代入汉明窗函数,得到连续的短时帧;
对每帧短时帧进行离散傅里叶变换,得到每帧短时帧的频谱,将每帧短时帧的频谱取模平方得到所述待识别声纹的功率谱;
通过梅尔滤波器组对所述待识别声纹的功率谱进行滤波得到FBANK特征;
将所述FBANK特征通过离散余弦变换得到MFCC特征。
进一步,所述并行特征分类模型的预训练过程具体包括:
收集和标记训练声纹,构建声纹训练集;对所述训练声纹进行数据增强,得到增强声纹,并将所述增强声纹加入所述声纹训练集;
构建FBANK特征提取网络和MFCC特征提取网络,作为并行特征分类模型的前端输入网络;构建融合声纹网络,作为并行特征分类模型的后端输出网络;
利用所述声纹训练集训练得到所述并行特征分类模型。
进一步,所述对所述训练声纹进行数据增强,得到增强后的训练声纹,包括:
使用开源数据集对训练声纹进行混响生成带有人声和噪声的声纹;
对带有人声和噪声的声纹在时域进行随机掩码0-5帧,得到掩码后的声纹。
进一步,所述FBANK声纹特征提取网络包括两层1*1卷积块和三层残差通道注意力模块;
所述MFCC声纹特征提取网络包括两层有1*1卷积块和二层残差通道注意力模块。
进一步,所述残差通道注意力模块的包括两层1*1卷积块、通道注意力模块、add模块。
进一步,所述将所述FBANK特征和所述MFCC特征输入到预训练好的并行特征分类模型中进行并行处理,输出得到融合声纹特征,包括:
通过FBANK特征提取网络提取所述FBANK特征的声纹特征,得到FBANK声纹特征;
通过MFCC声纹特征提取网络提取所述MFCC特征的声纹特征,得到MFCC声纹特征;
通过融合声纹网络将所述FBANK声纹特征和MFCC声纹特征处理得到融合声纹特征。
进一步,所述通过融合声纹网络将所述FBANK声纹特征和MFCC声纹特征处理得到融合声纹特征包括:
将所述FBANK声纹特征和MFCC声纹特征叠加得到叠加声纹特征;对所述叠加声纹特征赋予不同权值,得到融合声纹特征。
进一步,所述对所述叠加声纹特征赋予不同权值,得到融合声纹特征包括:
计算所述叠加声纹特征的每帧特征维度的均值和标准差;
将所述叠加声纹特征及其每帧特征维度的均值和标准差进行堆叠串联得到所述叠加声纹特征的全局特征;
对所述叠加声纹特征的全局特征进行注意力加权计算得到其每帧均值和标准差,将所述叠加声纹特征的全局特征的每帧均值和标准差堆叠得到融合声纹特征。
本发明提供一种基于并行特征分类模型的声纹识别系统,包括:
提取模块,用于对待识别声纹进行重采样,对重采样后的待识别声纹进行特征提取,得到FBANK特征和MFCC特征;
处理模块,用于将所述FBANK特征和所述MFCC特征输入到预训练好的并行特征分类模型中进行并行处理,输出得到融合声纹特征;并将用户的原始注册声纹输入到所述并行特征分类模型中,输出得到比对声纹特征;
对比模块,用于计算融合声纹特征和比对声纹特征的余弦相似度,当所述余弦相似度大于第一阈值时,确定待识别声纹来自注册人员。
本发明的有益效果:
一是选取FBANK特征和MFCC特征作为人声纹提取特征,FBANK特征相关性较高,MFCC特征判别度较高,结合两种特征的优点,可以有效比对声纹中的有效特征,提高整体的鲁棒性,使得后续注册声纹比对更为准确。
二是引入声纹提取并行架构,将两个提取的音频特征并行处理,不需要通过人工进行融合,充分利用音频信息,并且其中采用了金字塔多尺度融合结合残差结构,注意力机制以及统计池化层,将MFCC与FBANK特征在模型中,实现并行处理,并且最终在模型中实现特征的融合,并且得到声纹特征;这样做避免了人工处理特征和单特征输入的可能带来的影响,提高模型识别的性能,提高模型识别准确性。
三是通过SE-block通过重新缩放信道来扩展帧层的时间上下文,以更好的对通道进行依赖进行建模,聚合和传播不同层次的SE-Res2Blocks,将输出特征映射连接起来,并且采用了信道依赖框架注意的统计池模块,这也使得网络能够在信道的统计估计过程中关注不同的帧子集,注意全局的特征。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的方法流程图。
图2是并行特征提取模型示意图。
图3是SE-Res2Block模块计算流程图。
图4是注意力统计层计算流程图。
图5是本发明的系统模块图。
具体实施方式
为了便于本领域技术人员理解,现将实施例结合附图对本发明的结构作进一步详细描述,应了解到,在本实施例中所提及的步骤,除特别说明其顺序的,均可依实际需要调整其前后顺序,甚至可同时或部分同时执行。
如图1所示,本发明实施例提供一种基于并行特征提取模型的声纹识别方法,包括:
S1对待识别声纹进行重采样,对重采样后的待识别声纹进行特征提取,得到FBANK特征和MFCC特征;
在本步骤中,统一采用16K单通道16BIT人声音频采样声纹,因此不同人声音频使用重采样技术进行采样,确保采样的声纹信息符合采样要求,确保后续声纹提取的准确性。由于FBANK特征相关性较高,MFCC特征判别度较高,所以采用这两个特征作为待识别声纹的特征。
FBANK(FilterBank),由于人耳对声音频谱的响应是非线性的,FBANK是一种前端处理算法,以类似于人耳的方式对音频进行处理,可以提高语音识别的性能。获得语音信号的fbank特征的一般步骤是:预加重、分帧、加窗、短时傅里叶变换(STFT)、mel滤波、去均值等。对Fbank做离散余弦变换(DCT)即可获得MFCC特征。
MFCC(Mel-frequency cepstral coefficients),梅尔频率倒谱系数是基于人耳听觉特性提出来的,与Hz频率成非线性对应关系。MFCC则是利用它们之间的这种关系,计算得到的Hz频谱特征。主要用于语音数据特征提取和降低运算维度。
具体步骤如下:
S101对所述待识别声纹进行的高频部分进行加重,得到加重后的所述待识别声纹;
在本步骤中,对待识别人声音频进行预加重操作,以减小低频分量的能量,同时增强相对高频分量。一方面是为了平衡频谱,因为高频通常与较低频率相比具有较小的幅度,提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的噪声比(SNR)求频谱。另一方面也是为了消除发生过程中声带和嘴唇的效应,来补偿语音信号受到发音系统所抑制的高频部分,也为了突出高频的共振峰。实际通过一个高通滤波器进行预加重计算为:
y[n]=x[n]-ax[(n-1)];
其中,x[n]为原始采样值,y[n]为预加重的采样值,a为滤波器系数,其中,a=0.97。
S102对加重后的所述待识别声纹分为若干短时帧,将每帧短时帧代入汉明窗函数,得到连续的短时帧;
在本步骤中,由于语音信号是一个非平稳态过程,不能用处理平稳信号的信号处理技术对其进行分析处理。语音信号是短时平稳信号。因此在做傅里叶变换之前需要进行分帧处理,将预加重后的人声音频信号切分成多个帧,这里采用每帧长25ms,帧移10ms。为了抑制信号频谱泄露,消除各个帧两端可能会造成的信号不连续性,采用汉明窗口函数,对边界进行平滑。汉明窗函数计算公式为:
W(n)=0.54-0.46cos[(2πn)/(N-1)];
其中,n为采样点位置,N表示为采样点总数,W(n)表示为窗口值。
S103对每帧短时帧进行离散傅里叶变换,得到每帧短时帧的频谱,将每帧短时帧的频谱取模平方得到所述待识别声纹的功率谱;
在本步骤中,由于信号在时域上的变换通常很难看出信号的特性,所以通常将它转换为频域上的能量分布来观察,不同的能量分布,就能代表不同语音的特性。频域上不同的能量分布能代表不同语音的特性。设语音信号的DFT为:
其中,X(n)为输入的语音信号,n_fft表示傅里叶变换的点数,K代表频率索引。
将每一帧进行傅里叶变换,由于正频率和负频率共轭,各占一半。所以只需要保存成[1+n_fft/2,frames]数组,将其表示为X。
S104通过梅尔滤波器组对所述待识别声纹的功率谱进行滤波得到FBANK特征;
在本步骤中,由于人耳针对低频敏感,高频不太敏感,最后采用梅尔滤波器组对傅里叶变换后的待识别声纹进行滤波得到FBANK特征。由于采样率16000HZ,根据奈奎斯特采样定理,设置最大频率为8000HZ,并且这里设置80个梅尔滤波器进行滤波,则滤波器数组可以表示为Y,shape=[80,1+n_fft/2],则FBANK特征为Y*X,shape=[80,frames],即得到80维的FBANK特征。
S105将所述FBANK特征通过离散余弦变换得到MFCC特征。
在本步骤中,由于上一步梅尔滤波器组之间有重叠,利用DCT(离散余弦变换)去相关,设置离散余弦变换的阶数为13,并结合一阶差分,二阶差分,得到了40维MFCC特征,(13维MFCC系数+13维一阶差分参数+13维二阶差分参数+1维帧能量)。
S2将所述FBANK特征和所述MFCC特征输入到预训练好的并行特征分类模型中进行并行处理,输出得到融合声纹特征;
进一步,所述并行特征分类模型的预训练过程具体包括:
收集和标记训练声纹,构建声纹训练集;对所述训练声纹进行数据增强,得到增强声纹,并将所述增强声纹加入所述声纹训练集;
具体的,使用开源数据集对训练声纹进行混响生成带有人声和噪声的声纹;对带有人声和噪声的声纹在时域进行随机掩码0-5帧,得到掩码后的声纹。
在本步骤中,在训练时,使用带有5000个说话人数据集作为声纹训练集,将250个数据被作为验证集,250个数据作为测试集。对于原始数据进行额外的数据增强:结合开源数据集MUSAN进行混响生成带有人声,噪声的音频;进行随机掩码,在时域随机掩码0-5帧。增强后的声纹训练集可以提升训练精度。构建FBANK特征提取网络和MFCC特征提取网络,作为并行特征分类模型的前端输入网络;构建融合声纹网络,作为并行特征分类模型的后端输出网络;在本步骤中,如图2所示,所述FBANK声纹特征提取网络包括两层1*1卷积块和三层残差通道注意力模块;所述MFCC声纹特征提取网络包括两层有1*1卷积块和二层残差通道注意力模块。其中,Conv1D为一维卷积,ReLu为激活函数,BN为正则化处理。K为卷积核大小,d为膨胀大小,C1,C2为通道数,本发明采用C1=512,C2=256,用于提取声纹特征,通过FBANK声纹特征提取网络到的FBANK声纹特征为(3×C1)×T,通过MFCC声纹提取网络得到的MFCC声纹特征为(2×C2)×T,其中,T为帧数。
如图3所示,所述残差通道注意力模块的包括两层1*1卷积块、通道注意力模块、add模块。使用两个1*1卷积块的参数都为k=1,d=1并且加入了SE-BLOCK(通道注意力模块),重新缩放信道来扩展帧层的时间上下文,通过时间建立特征之间的联系,整体形成残差结构。
利用所述声纹训练集训练得到所述并行特征分类模型。
在本步骤中,并行特征分类模型实际训练过程中,输入特征是来自25毫秒窗口的80维FBANK和40维MFCC,帧移10MS,结合使用Adam优化器,将初始学习率设置为1e-3-1e-8进行周期训练,一个周期1K次迭代,为了防止过拟合,对模型进行权值衰减。最后训练批量使用128次,最终损失函数趋近平稳时,得到训练后的并行特征分类模型,本申请中损失函数选择AAM-Softmax,AAM-Softmax计算公式如下:
其中,取s=64,t=0.2,m为bs(batch size)批量,n为s的分类个数,yi代表对应正确类别,t为角度间隔,为最后一层全连接层矩阵W的yi列向量,输出向量的夹角,θj为最后一层全连接层矩阵W的j列向量,与输出向量的夹角。相比正常Softmax通过该损失加上角度间隔t惩罚深度特征与其对应权值之间的角度,从而减小了类内差距,增加了类间差距。由于损失函数特性,认为类内间距小,抛弃AAM-Softmax中的网络架构,只取上一层中得到192维向量,作为最终融合声纹特征。
S201通过FBANK特征提取网络提取所述FBANK特征的声纹特征,得到FBANK声纹特征;
S202通过MFCC声纹特征提取网络提取所述MFCC特征的声纹特征,得到MFCC声纹特征;
S203通过融合声纹网络将所述FBANK声纹特征和MFCC声纹特征处理得到融合声纹特征。
S2031将所述FBANK声纹特征和MFCC声纹特征叠加得到叠加声纹特征;
在本步骤中,如图2所示,将FBANK声纹特征(3×C1)×T和MFCC声纹特征(2×C2)×T叠加得到((3×C1)+(2×C2))×T。
S2032对所述叠加声纹特征的每帧赋予不同权值,得到融合声纹特征。S20321计算所述叠加声纹特征的每帧特征维度的均值和标准差,计算公式如下:
S20322将所述叠加声纹特征及其每帧特征维度的均值和标准差进行堆叠串联得到所述叠加声纹特征的全局特征;
S20323对所述叠加声纹特征的全局特征进行注意力加权计算得到其每帧均值和标准差,将所述叠加声纹特征的全局特征的每帧均值和标准差堆叠得到融合声纹特征,计算公式如下:
在本步骤中,先将所述FBANK声纹特征和MFCC声纹特征进行叠加融合,进一步考虑全局帧,因为其中某些帧级特征可能比其他帧级特征更加重要,所以引入注意力统计层对每帧赋予不同权值,且它的输出与输入帧数无关。如图4所示,根据公式1所示,计算所述叠加声纹特征的每帧特征维度的均值和标准差,得到((3×C1)+(2×C2),1);将所述叠加声纹特征及其每帧特征维度的均值和标准差进行堆叠串联得到所述叠加声纹特征的全局特征,所述叠加声纹特征的全局特征维度恢复至((3×C1)+(2×C2),T),记为H;使用激活函数tanh优化所述叠加声纹特征的全局特征,如图4所示,其中,W和b为网络参数,更有利于权重更新;使用激活函数softmax优化激活所述叠加声纹特征的全局特征,其中V为网络参数;根据公式二进行所述叠加声纹特征的全局特征的注意力加权计算得到其每帧均值和标准差,堆叠到原有的叠加声纹特征,得到((3×C1)+(2×C2)×2,1)。
并将用户的原始注册声纹输入到所述并行特征分类模型中,输出得到比对声纹特征;
在本步骤中,对用户的原始注册声纹特征提取和融合步骤同待识别声纹的声纹提取和融合步骤,此处不进行赘述。提取人员A有效音频3-4s,进行注册;对应音频将进行训练阶段音频预处理阶段,并通过并行特征分类模型,提取出192维声纹特征进行保存。
S3计算所述融合声纹特征和所述比对声纹特征的余弦相似度,当所述余弦相似度大于第一阈值时,确定所述待识别声纹来自注册人员。
在本步骤中,用户的原始注册声纹通过并行特征分类模型提取出192维的比对声纹特征x,待识别声纹通过并行特征分类模型提取出192维的融合声纹特征y,计算x和y的对应余弦相似度,similarity=(||x*y||)/(||x||*||y||),其中||.||为L2范数,0≤similarity≤1;本发明第一阈值可以为0.6;若similarity>0.6则认为待识别声纹来自注册人员,否则为未注册人员。需要说明的是,若声纹数据库人员多,则进行遍历取similarity>0.6的人员,若存在多个similarity>0.6的人,则选取similarity最大的人员。
下表为本发明方法实际识别效果对比:
使用设备进行实际简单测试,运行时间为140MS左右,具体效果如下:
相同环境下,不同距离因素的影响:
初步结论:测试距离3m内,识别准确率最高,随着距离的增长,音频质量下降,效果不佳。
相同距离下,不同环境因素的影响:
初步结论:环境因素带人声音乐的干扰相对影响较大,识别成功率仅64%。
由于音频随着距离质量下降,效果不佳,但可以发现在3米内,成功率可以达到90%以上。本发明声纹识别方法应用于智能家居中对不同成员认证,以及在播放轻音乐时,成功率较高。但对于人声干扰,由于声纹识别就是提取声纹特征,多人说话的情况下,效果还是受到一定影响。
如图5所示,基于相同的构思,本申请实施例还提供一种基于并行特征分类模型的声纹识别系统,包括:
提取模块,用于对待识别声纹进行重采样,对重采样后的待识别声纹进行特征提取,得到FBANK特征和MFCC特征;
处理模块,用于将所述FBANK特征和所述MFCC特征输入到预训练好的并行特征分类模型中进行并行处理,输出得到融合声纹特征;并将用户的原始注册声纹输入到所述并行特征分类模型中,输出得到比对声纹特征;
对比模块,用于计算融合声纹特征和比对声纹特征的余弦相似度,当所述余弦相似度大于第一阈值时,确定待识别声纹来自注册人员。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
应当注意的是,在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不应理解为必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
Claims (10)
1.一种基于并行特征分类模型的声纹识别方法,其特征在于,包括:
对待识别声纹进行重采样,对重采样后的待识别声纹进行特征提取,得到FBANK特征和MFCC特征;
将所述FBANK特征和所述MFCC特征输入到预训练好的并行特征分类模型中进行并行处理,输出得到融合声纹特征;并将用户的原始注册声纹输入到所述并行特征分类模型中,输出得到比对声纹特征;
计算所述融合声纹特征和所述比对声纹特征的余弦相似度,当所述余弦相似度大于第一阈值时,确定所述待识别声纹来自注册人员。
2.根据权利要求1所述的基于并行特征分类模型的声纹识别方法,其特征在于,所述对待识别声纹进行重采样,对重采样后的待识别声纹进行特征提取,得到FBANK特征和MFCC特征,包括:
对所述待识别声纹进行的高频部分进行加重,得到加重后的所述待识别声纹;
对加重后的所述待识别声纹分为若干短时帧,将每帧短时帧代入汉明窗函数,得到连续的短时帧;
对每帧短时帧进行离散傅里叶变换,得到每帧短时帧的频谱,将每帧短时帧的频谱取模平方得到所述待识别声纹的功率谱;
通过梅尔滤波器组对所述待识别声纹的功率谱进行滤波得到FBANK特征;
将所述FBANK特征通过离散余弦变换得到MFCC特征。
3.根据权利要求1所述的基于并行特征分类模型的声纹识别方法,其特征在于,所述并行特征分类模型的预训练过程具体包括:
收集和标记训练声纹,构建声纹训练集;对所述训练声纹进行数据增强,得到增强声纹,并将所述增强声纹加入所述声纹训练集;
构建FBANK特征提取网络和MFCC特征提取网络,作为并行特征分类模型的前端输入网络;构建融合声纹网络,作为并行特征分类模型的后端输出网络;
利用所述声纹训练集训练得到所述并行特征分类模型。
4.根据权利要求3所述的基于并行特征分类模型的声纹识别方法,其特征在于,所述对所述训练声纹进行数据增强,得到增强后的训练声纹,包括:
使用开源数据集对训练声纹进行混响生成带有人声和噪声的声纹;
对带有人声和噪声的声纹在时域进行随机掩码0-5帧,得到掩码后的声纹。
5.根据权利要求3所述的基于并行特征分类模型的声纹识别方法,其特征在于,所述FBANK声纹特征提取网络包括两层1*1卷积块和三层残差通道注意力模块;
所述MFCC声纹特征提取网络包括两层有1*1卷积块和二层残差通道注意力模块。
6.根据权利要求5所述的基于并行特征分类模型的声纹识别方法,其特征在于,所述残差通道注意力模块的包括两层1*1卷积块、通道注意力模块、add模块。
7.根据权利要求1或3所述的基于并行特征分类模型的声纹识别方法,其特征在于,所述将所述FBANK特征和所述MFCC特征输入到预训练好的并行特征分类模型中进行并行处理,输出得到融合声纹特征,包括:
通过FBANK特征提取网络提取所述FBANK特征的声纹特征,得到FBANK声纹特征;
通过MFCC声纹特征提取网络提取所述MFCC特征的声纹特征,得到MFCC声纹特征;
通过融合声纹网络将所述FBANK声纹特征和MFCC声纹特征处理得到融合声纹特征。
8.根据权利要求7所述的基于并行特征分类模型的声纹识别方法,其特征在于,所述通过融合声纹网络将所述FBANK声纹特征和MFCC声纹特征处理得到融合声纹特征包括:
将所述FBANK声纹特征和MFCC声纹特征叠加得到叠加声纹特征;对所述叠加声纹特征赋予不同权值,得到融合声纹特征。
9.根据权利要求8所述的基于并行特征分类模型的声纹识别方法,其特征在于,所述对所述叠加声纹特征赋予不同权值,得到融合声纹特征包括:
计算所述叠加声纹特征的每帧特征维度的均值和标准差;
将所述叠加声纹特征及其每帧特征维度的均值和标准差进行堆叠串联得到所述叠加声纹特征的全局特征;
对所述叠加声纹特征的全局特征进行注意力加权计算得到其每帧均值和标准差,将所述叠加声纹特征的全局特征的每帧均值和标准差堆叠得到融合声纹特征。
10.一种基于并行特征分类模型的声纹识别系统,其特征在于,根据权利要求1-9任意一条所述的基于并行特征分类模型的声纹识别方法,包括:
提取模块,用于对待识别声纹进行重采样,对重采样后的待识别声纹进行特征提取,得到FBANK特征和MFCC特征;
处理模块,用于将所述FBANK特征和所述MFCC特征输入到预训练好的并行特征分类模型中进行并行处理,输出得到融合声纹特征;并将用户的原始注册声纹输入到所述并行特征分类模型中,输出得到比对声纹特征;
对比模块,用于计算融合声纹特征和比对声纹特征的余弦相似度,当所述余弦相似度大于第一阈值时,确定待识别声纹来自注册人员。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410009893.XA CN118098247A (zh) | 2024-01-02 | 2024-01-02 | 一种基于并行特征提取模型的声纹识别方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410009893.XA CN118098247A (zh) | 2024-01-02 | 2024-01-02 | 一种基于并行特征提取模型的声纹识别方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118098247A true CN118098247A (zh) | 2024-05-28 |
Family
ID=91160821
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410009893.XA Pending CN118098247A (zh) | 2024-01-02 | 2024-01-02 | 一种基于并行特征提取模型的声纹识别方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118098247A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118335092A (zh) * | 2024-06-12 | 2024-07-12 | 山东省计算中心(国家超级计算济南中心) | 基于多尺度残差注意力的语音压缩方法及系统 |
-
2024
- 2024-01-02 CN CN202410009893.XA patent/CN118098247A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118335092A (zh) * | 2024-06-12 | 2024-07-12 | 山东省计算中心(国家超级计算济南中心) | 基于多尺度残差注意力的语音压缩方法及系统 |
CN118335092B (zh) * | 2024-06-12 | 2024-08-30 | 山东省计算中心(国家超级计算济南中心) | 基于多尺度残差注意力的语音压缩方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tirumala et al. | Speaker identification features extraction methods: A systematic review | |
Kumar et al. | Design of an automatic speaker recognition system using MFCC, vector quantization and LBG algorithm | |
Mashao et al. | Combining classifier decisions for robust speaker identification | |
CN110942766A (zh) | 音频事件检测方法、系统、移动终端及存储介质 | |
WO2023070874A1 (zh) | 一种声纹识别方法 | |
CN111785262B (zh) | 一种基于残差网络及融合特征的说话人年龄性别分类方法 | |
CN111986679A (zh) | 一种应对复杂声学环境的说话人确认方法、系统及存储介质 | |
CN111899757A (zh) | 针对目标说话人提取的单通道语音分离方法及系统 | |
CN113763966B (zh) | 一种端到端的文本无关声纹识别方法及系统 | |
Najnin et al. | Speech recognition using cepstral articulatory features | |
CN113571095A (zh) | 基于嵌套深度神经网络的语音情感识别方法和系统 | |
CN110268471A (zh) | 具有嵌入式降噪的asr的方法和设备 | |
CN118098247A (zh) | 一种基于并行特征提取模型的声纹识别方法和系统 | |
Cheng et al. | DNN-based speech enhancement with self-attention on feature dimension | |
Praveen et al. | Text dependent speaker recognition using MFCC features and BPANN | |
Shofiyah et al. | Voice recognition system for home security keys with Mel-frequency cepstral coefficient method and backpropagation artificial neural network | |
Kamaruddin et al. | Speech emotion verification system (SEVS) based on MFCC for real time applications | |
CN115620731A (zh) | 一种语音特征提取与检测方法 | |
Zailan et al. | Comparative analysis of LPC and MFCC for male speaker recognition in text-independent context | |
Komlen et al. | Text independent speaker recognition using LBG vector quantization | |
Tzudir et al. | Low-resource dialect identification in Ao using noise robust mean Hilbert envelope coefficients | |
Satla et al. | Dialect Identification in Telugu Language Speech Utterance Using Modified Features with Deep Neural Network. | |
CN114512133A (zh) | 发声对象识别方法、装置、服务器及存储介质 | |
Upadhyay et al. | Analysis of different classifier using feature extraction in speaker identification and verification under adverse acoustic condition for different scenario | |
CN118675533B (zh) | 一种融合GMM和ResNext的说话人确认方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |