Nothing Special   »   [go: up one dir, main page]

CN111785281A - 一种基于信道补偿的声纹识别方法及系统 - Google Patents

一种基于信道补偿的声纹识别方法及系统 Download PDF

Info

Publication number
CN111785281A
CN111785281A CN202010554305.2A CN202010554305A CN111785281A CN 111785281 A CN111785281 A CN 111785281A CN 202010554305 A CN202010554305 A CN 202010554305A CN 111785281 A CN111785281 A CN 111785281A
Authority
CN
China
Prior art keywords
network
audio
denoising
discrimination
gdec
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010554305.2A
Other languages
English (en)
Inventor
沈亮
万辛
李鹏
倪江帆
高圣翔
冯象雷
孙旭东
占建波
宁珊
孙晓晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Computer Network and Information Security Management Center
Iflytek Information Technology Co Ltd
Original Assignee
National Computer Network and Information Security Management Center
Iflytek Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Computer Network and Information Security Management Center, Iflytek Information Technology Co Ltd filed Critical National Computer Network and Information Security Management Center
Priority to CN202010554305.2A priority Critical patent/CN111785281A/zh
Publication of CN111785281A publication Critical patent/CN111785281A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Game Theory and Decision Science (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

本发明公开了一种基于信道补偿的声纹识别方法及系统,该方法包括如下步骤:步骤SS1:初始化去噪网络G和判别网络D;步骤SS2:输入噪声音频到去噪网络G,生成fake音频,将所述fake音频和真实的干净音频送入到判别网络D进行训练,更新判别网络D的网络参数,得到新一代判别网络D1;步骤SS3:冻结判别网络D1的参数,在去噪网络G中输入噪声音频,同时将对应的判别标签设为True,来欺骗判别网络D1;步骤SS4:重复步骤SS2至步骤SS3,直至判别网络D收敛,转入步骤SS5;步骤SS5:去噪网络G输出增强音频信号。本发明对于声纹识别大幅提高了整体准确率。

Description

一种基于信道补偿的声纹识别方法及系统
技术领域
本发明涉及一种基于信道补偿的声纹识别方法及系统,属于声纹识别技术领域。
背景技术
传统的说话人识别技术,在低信噪比和DB、CDB等复杂噪声环境下,其性能将大幅下降。这种情况下,常用的方法是先对音频进行降噪增强,再进行说话人识别,然而,增强模块会导致语音失真,与训练不匹配,有时会降低识别性能,并且先降噪增强后进行说话人识别的效率不高。
近几年基于语音识别的输入法和语义理解被大幅应用于智能手机,车载设备,可穿戴设备以及智能家居的各个电器设备中,这些设备通常都在比较复杂的声学环境中被用户所用。而复杂的噪声环境通常让语音的识别率显著下降,识别率的下降意味着这些设备无法准确理解用户的指令,这就会大幅降低用户的体验。因此,前端语音增强技术就可以确保把语音从带噪信号中分离出来,以便后端识别模型能正确识别语音的内容。
发明内容
本发明的目的在于,克服现有技术存在的技术缺陷,解决上述技术问题,提出一种基于信道补偿的声纹识别方法及系统。
本发明采用如下方案:一种基于信道补偿的声纹识别方法,其特征在于,包括如下步骤:
步骤SS1:初始化去噪网络G和判别网络D;
步骤SS2:输入噪声音频到去噪网络G,生成fake音频,将所述fake音频和真实的干净音频送入到判别网络D进行训练,更新判别网络D的网络参数,得到新一代判别网络D1;
步骤SS3:冻结判别网络D1的参数,在去噪网络G中输入噪声音频,同时将对应的判别标签设为True,来欺骗判别网络D1;
步骤SS4:重复步骤SS2至步骤SS3,直至判别网络D收敛,转入步骤SS5;
步骤SS5:去噪网络G输出增强音频信号。
作为一种较佳的实施例,所述去噪网络G包括编码器Genc、解码器Gdec,所述编码器Genc与所述解码器Gdec通讯连接。
作为一种较佳的实施例,输入噪声音频,经过所述编码器Genc对音频提取深层次特征z,然后经过解码器Gdec对特征z进行解码,输出增强之后的音频。
本发明还提出一种基于信道补偿的声纹识别系统,包括:
去噪网络G,用于对噪声音频进行去噪增强;
音素分类网络,用于对音素分类,输出音素分类后验概率;
判别网络D,输出0或者1,用于判别输入到判别网络D的音频是来自真实数据,还是由去噪网络G生成的假数据;
所述去噪网络G与所述判别网络D构成去噪深度神经网络,所述去噪网络G的输出端分别通讯连接所述音素分类网络的输入端、所述判别网络D的输入端。
作为一种较佳的实施例,所述去噪网络G包括编码器Genc、解码器Gdec,所述编码器Genc与所述解码器Gdec通讯连接。
作为一种较佳的实施例,输入噪声音频,经过所述编码器Genc对音频提取深层次特征z,然后经过解码器Gdec对特征z进行解码,输出增强之后的音频。
作为一种较佳的实施例,所述音素分类网络采用全连接神经网络。
作为一种较佳的实施例,所述去噪深度神经网络的损失L包括音素分类网络损失Ly和去噪深度神经网络损失Lz,如下式即:
L=Ly+λLz
其中,λ>0是权重系数,用于控制去噪深度神经网络损失所占的比例。
本发明所达到的有益效果:第一,本发明针对如何解决复杂的噪声环境通常让语音的识别率显著下降,识别率的下降意味着这些设备无法准确理解用户的指令,导致大幅降低用户的体验的技术缺陷,通过将音素分类网络和去噪深度神经网络联合训练,对特征进行补偿,从而使得提取出的瓶颈特征Z,对噪声有很好的鲁棒性;第二,通过本发明提出的一种基于信道补偿的声纹识别方法及系统,初始化去噪网络G和判别网络D;输入噪声音频到去噪网络G,生成fake音频,将所述fake音频和真实的干净音频送入到判别网络D进行训练,更新判别网络D的网络参数,得到新一代判别网络D1;冻结判别网络D1的参数,在去噪网络G中输入噪声音频,同时将对应的判别标签设为True,来欺骗判别网络D1;重复以上步骤直至判别网络D收敛;去噪网络G输出增强后的音频;前端语音增强技术就可以确保把语音从带噪信号中分离出来,以便后端识别模型能正确识别语音的内容,对于声纹识别的大幅提高了整体准确率。
附图说明
图1是本发明的一种基于信道补偿的声纹识别系统的拓扑原理图。
图2是本发明的去噪深度神经网络的拓扑流程图;
图3是本发明的去噪网络G的拓扑结构示意图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例1:如图1、图2和图3所示,一种基于信道补偿的声纹识别方法,其特征在于,包括如下步骤:
步骤SS1:初始化去噪网络G和判别网络D;
步骤SS2:输入噪声音频到去噪网络G,生成fake音频,将所述fake音频和真实的干净音频送入到判别网络D进行训练,更新判别网络D的网络参数,得到新一代判别网络D1;
步骤SS3:冻结判别网络D1的参数,在去噪网络G中输入噪声音频,同时将对应的判别标签设为True,来欺骗判别网络D1;
步骤SS4:重复步骤SS2至步骤SS3,直至判别网络D收敛,转入步骤SS5;
步骤SS5:去噪网络G输出增强后的音频。
通过上述训练,去噪网络G尽可能的学习较好的网络参数,生成增强后的音频信号,尽可能的欺骗判别网络D;而判别网络D尽可能的学习网络参数,从而更好的区分真实干净音频和去噪网络G生成的假冒音频;经过不断地博弈,最终网络收敛,去噪网络G能够很好的生成增强后的音频信号。
可选的,所述去噪网络G包括编码器Genc、解码器Gdec,所述编码器Genc与所述解码器Gdec通讯连接。
可选的,输入噪声音频,经过所述编码器Genc对音频提取深层次特征z,然后经过解码器Gdec对特征z进行解码,输出增强之后的音频。
实施例2:本发明还提出一种基于信道补偿的声纹识别系统,包括:
去噪网络G,用于对噪声音频进行去噪增强;
音素分类网络,用于对音素分类,输出音素分类后验概率;
判别网络D,输出0或者1,用于判别输入到判别网络D的音频是来自真实数据,还是由去噪网络G生成的假数据;
所述去噪网络G与所述判别网络D构成去噪深度神经网络,所述去噪网络G的输出端分别通讯连接所述音素分类网络的输入端、所述判别网络D的输入端。
可选的,所述去噪网络G包括编码器Genc、解码器Gdec,所述编码器Genc与所述解码器Gdec通讯连接。
可选的,输入噪声音频,经过所述编码器Genc对音频提取深层次特征z,然后经过解码器Gdec对特征z进行解码,输出增强之后的音频。
可选的,所述音素分类网络采用全连接神经网络,也可以加入部分卷积神经网络模块(CNN),为了防止神经网络过拟合,可以适当的在全连接层的输出(除了最后的输出层)加上Dropout,为了加速网络的收敛,可以适当地加入批归一化(Batch Normalization)。
可选的,所述去噪深度神经网络的损失L包括音素分类网络损失Ly和去噪深度神经网络损失Lz,如下式即:
L=Ly+λLz
其中,λ>0是权重系数,用于控制去噪深度神经网络损失所占的比例。可以采用SGD、Adam或其他优化器对网络参数进行更新。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (8)

1.一种基于信道补偿的声纹识别方法,其特征在于,包括如下步骤:
步骤SS1:初始化去噪网络G和判别网络D;
步骤SS2:输入噪声音频到去噪网络G,生成fake音频,将所述fake音频和真实的干净音频送入到判别网络D进行训练,更新判别网络D的网络参数,得到新一代判别网络D1;
步骤SS3:冻结判别网络D1的参数,在去噪网络G中输入噪声音频,同时将对应的判别标签设为True,来欺骗判别网络D1;
步骤SS4:重复步骤SS2至步骤SS3,直至判别网络D收敛,转入步骤SS5;
步骤SS5:去噪网络G输出增强音频信号。
2.根据权利要求1所述的一种基于信道补偿的声纹识别方法,其特征在于,所述去噪网络G包括编码器Genc、解码器Gdec,所述编码器Genc与所述解码器Gdec通讯连接。
3.根据权利要求2所述的一种基于信道补偿的声纹识别方法,其特征在于,输入噪声音频,经过所述编码器Genc对音频提取深层次特征z,然后经过解码器Gdec对特征z进行解码,输出增强之后的音频。
4.一种基于信道补偿的声纹识别系统,其特征在于,包括:
去噪网络G,用于对噪声音频进行去噪增强;
音素分类网络,用于对音素分类,输出音素分类后验概率;
判别网络D,输出0或者1,用于判别输入到判别网络D的音频是来自真实数据,还是由去噪网络G生成的假数据;
所述去噪网络G与所述判别网络D构成去噪深度神经网络,所述去噪网络G的输出端分别通讯连接所述音素分类网络的输入端、所述判别网络D的输入端。
5.根据权利要求4所述的一种基于信道补偿的声纹识别系统,其特征在于,所述去噪网络G包括编码器Genc、解码器Gdec,所述编码器Genc与所述解码器Gdec通讯连接。
6.根据权利要求5所述的一种基于信道补偿的声纹识别系统,其特征在于,输入噪声音频,经过所述编码器Genc对音频提取深层次特征z,然后经过解码器Gdec对特征z进行解码,输出增强之后的音频。
7.根据权利要求4所述的一种基于信道补偿的声纹识别系统,其特征在于,所述音素分类网络采用全连接神经网络。
8.根据权利要求4所述的一种基于信道补偿的声纹识别系统,其特征在于,所述去噪深度神经网络的损失L包括音素分类网络损失Ly和去噪深度神经网络损失Lz,如下式即:
L=Ly+λLz
其中,λ>0是权重系数,用于控制去噪深度神经网络损失所占的比例。
CN202010554305.2A 2020-06-17 2020-06-17 一种基于信道补偿的声纹识别方法及系统 Pending CN111785281A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010554305.2A CN111785281A (zh) 2020-06-17 2020-06-17 一种基于信道补偿的声纹识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010554305.2A CN111785281A (zh) 2020-06-17 2020-06-17 一种基于信道补偿的声纹识别方法及系统

Publications (1)

Publication Number Publication Date
CN111785281A true CN111785281A (zh) 2020-10-16

Family

ID=72757146

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010554305.2A Pending CN111785281A (zh) 2020-06-17 2020-06-17 一种基于信道补偿的声纹识别方法及系统

Country Status (1)

Country Link
CN (1) CN111785281A (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108711436A (zh) * 2018-05-17 2018-10-26 哈尔滨工业大学 基于高频和瓶颈特征的说话人验证系统重放攻击检测方法
CN109326302A (zh) * 2018-11-14 2019-02-12 桂林电子科技大学 一种基于声纹比对和生成对抗网络的语音增强方法
CN109346087A (zh) * 2018-09-17 2019-02-15 平安科技(深圳)有限公司 对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法和装置
CN109887489A (zh) * 2019-02-23 2019-06-14 天津大学 基于生成对抗网络的深度特征的语音去混响方法
CN110110337A (zh) * 2019-05-08 2019-08-09 网易有道信息技术(北京)有限公司 翻译模型训练方法、介质、装置和计算设备
WO2019171415A1 (en) * 2018-03-05 2019-09-12 Nec Corporation Speech feature compensation apparatus, method, and program
CN110428849A (zh) * 2019-07-30 2019-11-08 珠海亿智电子科技有限公司 一种基于生成对抗网络的语音增强方法
CN110600017A (zh) * 2019-09-12 2019-12-20 腾讯科技(深圳)有限公司 语音处理模型的训练方法、语音识别方法、系统及装置
CN110619885A (zh) * 2019-08-15 2019-12-27 西北工业大学 基于深度完全卷积神经网络的生成对抗网络语音增强方法
CN111128197A (zh) * 2019-12-25 2020-05-08 北京邮电大学 基于声纹特征与生成对抗学习的多说话人语音分离方法
US10650306B1 (en) * 2017-09-29 2020-05-12 Amazon Technologies, Inc. User representation using a generative adversarial network

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10650306B1 (en) * 2017-09-29 2020-05-12 Amazon Technologies, Inc. User representation using a generative adversarial network
WO2019171415A1 (en) * 2018-03-05 2019-09-12 Nec Corporation Speech feature compensation apparatus, method, and program
CN108711436A (zh) * 2018-05-17 2018-10-26 哈尔滨工业大学 基于高频和瓶颈特征的说话人验证系统重放攻击检测方法
CN109346087A (zh) * 2018-09-17 2019-02-15 平安科技(深圳)有限公司 对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法和装置
CN109326302A (zh) * 2018-11-14 2019-02-12 桂林电子科技大学 一种基于声纹比对和生成对抗网络的语音增强方法
CN109887489A (zh) * 2019-02-23 2019-06-14 天津大学 基于生成对抗网络的深度特征的语音去混响方法
CN110110337A (zh) * 2019-05-08 2019-08-09 网易有道信息技术(北京)有限公司 翻译模型训练方法、介质、装置和计算设备
CN110428849A (zh) * 2019-07-30 2019-11-08 珠海亿智电子科技有限公司 一种基于生成对抗网络的语音增强方法
CN110619885A (zh) * 2019-08-15 2019-12-27 西北工业大学 基于深度完全卷积神经网络的生成对抗网络语音增强方法
CN110600017A (zh) * 2019-09-12 2019-12-20 腾讯科技(深圳)有限公司 语音处理模型的训练方法、语音识别方法、系统及装置
CN111128197A (zh) * 2019-12-25 2020-05-08 北京邮电大学 基于声纹特征与生成对抗学习的多说话人语音分离方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZHONG MENG等: "Adversarial Feature-Mapping for Speech Enhancement", ARXIV:1809.02251V2 [EESS.AS], pages 3 *
罗韦尔·阿蒂恩扎 著: "《Keras高级深度学习》", 北京:机械工业出版社, pages: 93 *

Similar Documents

Publication Publication Date Title
CN111128197B (zh) 基于声纹特征与生成对抗学习的多说话人语音分离方法
CN1284133C (zh) 使用声学特征矢量修正进行语音识别的设备和方法
Ramírez et al. An effective subband OSF-based VAD with noise reduction for robust speech recognition
CN106157953B (zh) 连续语音识别方法及系统
US8180635B2 (en) Weighted sequential variance adaptation with prior knowledge for noise robust speech recognition
CN103456305A (zh) 终端和基于多个声音采集单元的语音处理方法
CN110189746B (zh) 一种应用于地空通信的话音识别方法
CN105427870A (zh) 一种针对停顿的语音识别方法和装置
CN111477219A (zh) 关键词区分方法、装置、电子设备和可读存储介质
KR100911429B1 (ko) 환경 이동을 위한 잡음 적응형 음향 모델 생성 방법 및 장치
CN112017632A (zh) 一种自动化会议记录生成方法
CN113192535B (zh) 一种语音关键词检索方法、系统和电子装置
CN113362822A (zh) 一种具有听觉隐蔽性的黑盒语音对抗样本生成方法
Gupta et al. Speech feature extraction and recognition using genetic algorithm
CN113763965A (zh) 一种多重注意力特征融合的说话人识别方法
CN115588436A (zh) 基于变分自编码器生成对抗网络的语音增强方法
Ramirez et al. Voice activity detection with noise reduction and long-term spectral divergence estimation
CN111341351A (zh) 基于自注意力机制的语音活动检测方法、装置及存储介质
CN111785281A (zh) 一种基于信道补偿的声纹识别方法及系统
CN109192197A (zh) 基于互联网的大数据语音识别系统
CN101533642B (zh) 一种语音信号处理方法及装置
CN114495909B (zh) 一种端到端的骨气导语音联合识别方法
US20080228477A1 (en) Method and Device For Processing a Voice Signal For Robust Speech Recognition
Wang et al. Robust speech recognition from ratio masks
CN106373576B (zh) 一种基于vq和svm算法的说话人确认方法及其系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20201016