CN111785281A - 一种基于信道补偿的声纹识别方法及系统 - Google Patents
一种基于信道补偿的声纹识别方法及系统 Download PDFInfo
- Publication number
- CN111785281A CN111785281A CN202010554305.2A CN202010554305A CN111785281A CN 111785281 A CN111785281 A CN 111785281A CN 202010554305 A CN202010554305 A CN 202010554305A CN 111785281 A CN111785281 A CN 111785281A
- Authority
- CN
- China
- Prior art keywords
- network
- audio
- denoising
- discrimination
- gdec
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 16
- 102100036788 Tubulin beta-4A chain Human genes 0.000 claims abstract description 8
- 230000008014 freezing Effects 0.000 claims abstract description 5
- 238000007710 freezing Methods 0.000 claims abstract description 5
- 230000005236 sound signal Effects 0.000 claims abstract description 5
- 102100036790 Tubulin beta-3 chain Human genes 0.000 claims abstract description 4
- 238000013528 artificial neural network Methods 0.000 claims description 18
- 238000004891 communication Methods 0.000 claims description 8
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
本发明公开了一种基于信道补偿的声纹识别方法及系统,该方法包括如下步骤:步骤SS1:初始化去噪网络G和判别网络D;步骤SS2:输入噪声音频到去噪网络G,生成fake音频,将所述fake音频和真实的干净音频送入到判别网络D进行训练,更新判别网络D的网络参数,得到新一代判别网络D1;步骤SS3:冻结判别网络D1的参数,在去噪网络G中输入噪声音频,同时将对应的判别标签设为True,来欺骗判别网络D1;步骤SS4:重复步骤SS2至步骤SS3,直至判别网络D收敛,转入步骤SS5;步骤SS5:去噪网络G输出增强音频信号。本发明对于声纹识别大幅提高了整体准确率。
Description
技术领域
本发明涉及一种基于信道补偿的声纹识别方法及系统,属于声纹识别技术领域。
背景技术
传统的说话人识别技术,在低信噪比和DB、CDB等复杂噪声环境下,其性能将大幅下降。这种情况下,常用的方法是先对音频进行降噪增强,再进行说话人识别,然而,增强模块会导致语音失真,与训练不匹配,有时会降低识别性能,并且先降噪增强后进行说话人识别的效率不高。
近几年基于语音识别的输入法和语义理解被大幅应用于智能手机,车载设备,可穿戴设备以及智能家居的各个电器设备中,这些设备通常都在比较复杂的声学环境中被用户所用。而复杂的噪声环境通常让语音的识别率显著下降,识别率的下降意味着这些设备无法准确理解用户的指令,这就会大幅降低用户的体验。因此,前端语音增强技术就可以确保把语音从带噪信号中分离出来,以便后端识别模型能正确识别语音的内容。
发明内容
本发明的目的在于,克服现有技术存在的技术缺陷,解决上述技术问题,提出一种基于信道补偿的声纹识别方法及系统。
本发明采用如下方案:一种基于信道补偿的声纹识别方法,其特征在于,包括如下步骤:
步骤SS1:初始化去噪网络G和判别网络D;
步骤SS2:输入噪声音频到去噪网络G,生成fake音频,将所述fake音频和真实的干净音频送入到判别网络D进行训练,更新判别网络D的网络参数,得到新一代判别网络D1;
步骤SS3:冻结判别网络D1的参数,在去噪网络G中输入噪声音频,同时将对应的判别标签设为True,来欺骗判别网络D1;
步骤SS4:重复步骤SS2至步骤SS3,直至判别网络D收敛,转入步骤SS5;
步骤SS5:去噪网络G输出增强音频信号。
作为一种较佳的实施例,所述去噪网络G包括编码器Genc、解码器Gdec,所述编码器Genc与所述解码器Gdec通讯连接。
作为一种较佳的实施例,输入噪声音频,经过所述编码器Genc对音频提取深层次特征z,然后经过解码器Gdec对特征z进行解码,输出增强之后的音频。
本发明还提出一种基于信道补偿的声纹识别系统,包括:
去噪网络G,用于对噪声音频进行去噪增强;
音素分类网络,用于对音素分类,输出音素分类后验概率;
判别网络D,输出0或者1,用于判别输入到判别网络D的音频是来自真实数据,还是由去噪网络G生成的假数据;
所述去噪网络G与所述判别网络D构成去噪深度神经网络,所述去噪网络G的输出端分别通讯连接所述音素分类网络的输入端、所述判别网络D的输入端。
作为一种较佳的实施例,所述去噪网络G包括编码器Genc、解码器Gdec,所述编码器Genc与所述解码器Gdec通讯连接。
作为一种较佳的实施例,输入噪声音频,经过所述编码器Genc对音频提取深层次特征z,然后经过解码器Gdec对特征z进行解码,输出增强之后的音频。
作为一种较佳的实施例,所述音素分类网络采用全连接神经网络。
作为一种较佳的实施例,所述去噪深度神经网络的损失L包括音素分类网络损失Ly和去噪深度神经网络损失Lz,如下式即:
L=Ly+λLz;
其中,λ>0是权重系数,用于控制去噪深度神经网络损失所占的比例。
本发明所达到的有益效果:第一,本发明针对如何解决复杂的噪声环境通常让语音的识别率显著下降,识别率的下降意味着这些设备无法准确理解用户的指令,导致大幅降低用户的体验的技术缺陷,通过将音素分类网络和去噪深度神经网络联合训练,对特征进行补偿,从而使得提取出的瓶颈特征Z,对噪声有很好的鲁棒性;第二,通过本发明提出的一种基于信道补偿的声纹识别方法及系统,初始化去噪网络G和判别网络D;输入噪声音频到去噪网络G,生成fake音频,将所述fake音频和真实的干净音频送入到判别网络D进行训练,更新判别网络D的网络参数,得到新一代判别网络D1;冻结判别网络D1的参数,在去噪网络G中输入噪声音频,同时将对应的判别标签设为True,来欺骗判别网络D1;重复以上步骤直至判别网络D收敛;去噪网络G输出增强后的音频;前端语音增强技术就可以确保把语音从带噪信号中分离出来,以便后端识别模型能正确识别语音的内容,对于声纹识别的大幅提高了整体准确率。
附图说明
图1是本发明的一种基于信道补偿的声纹识别系统的拓扑原理图。
图2是本发明的去噪深度神经网络的拓扑流程图;
图3是本发明的去噪网络G的拓扑结构示意图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例1:如图1、图2和图3所示,一种基于信道补偿的声纹识别方法,其特征在于,包括如下步骤:
步骤SS1:初始化去噪网络G和判别网络D;
步骤SS2:输入噪声音频到去噪网络G,生成fake音频,将所述fake音频和真实的干净音频送入到判别网络D进行训练,更新判别网络D的网络参数,得到新一代判别网络D1;
步骤SS3:冻结判别网络D1的参数,在去噪网络G中输入噪声音频,同时将对应的判别标签设为True,来欺骗判别网络D1;
步骤SS4:重复步骤SS2至步骤SS3,直至判别网络D收敛,转入步骤SS5;
步骤SS5:去噪网络G输出增强后的音频。
通过上述训练,去噪网络G尽可能的学习较好的网络参数,生成增强后的音频信号,尽可能的欺骗判别网络D;而判别网络D尽可能的学习网络参数,从而更好的区分真实干净音频和去噪网络G生成的假冒音频;经过不断地博弈,最终网络收敛,去噪网络G能够很好的生成增强后的音频信号。
可选的,所述去噪网络G包括编码器Genc、解码器Gdec,所述编码器Genc与所述解码器Gdec通讯连接。
可选的,输入噪声音频,经过所述编码器Genc对音频提取深层次特征z,然后经过解码器Gdec对特征z进行解码,输出增强之后的音频。
实施例2:本发明还提出一种基于信道补偿的声纹识别系统,包括:
去噪网络G,用于对噪声音频进行去噪增强;
音素分类网络,用于对音素分类,输出音素分类后验概率;
判别网络D,输出0或者1,用于判别输入到判别网络D的音频是来自真实数据,还是由去噪网络G生成的假数据;
所述去噪网络G与所述判别网络D构成去噪深度神经网络,所述去噪网络G的输出端分别通讯连接所述音素分类网络的输入端、所述判别网络D的输入端。
可选的,所述去噪网络G包括编码器Genc、解码器Gdec,所述编码器Genc与所述解码器Gdec通讯连接。
可选的,输入噪声音频,经过所述编码器Genc对音频提取深层次特征z,然后经过解码器Gdec对特征z进行解码,输出增强之后的音频。
可选的,所述音素分类网络采用全连接神经网络,也可以加入部分卷积神经网络模块(CNN),为了防止神经网络过拟合,可以适当的在全连接层的输出(除了最后的输出层)加上Dropout,为了加速网络的收敛,可以适当地加入批归一化(Batch Normalization)。
可选的,所述去噪深度神经网络的损失L包括音素分类网络损失Ly和去噪深度神经网络损失Lz,如下式即:
L=Ly+λLz;
其中,λ>0是权重系数,用于控制去噪深度神经网络损失所占的比例。可以采用SGD、Adam或其他优化器对网络参数进行更新。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (8)
1.一种基于信道补偿的声纹识别方法,其特征在于,包括如下步骤:
步骤SS1:初始化去噪网络G和判别网络D;
步骤SS2:输入噪声音频到去噪网络G,生成fake音频,将所述fake音频和真实的干净音频送入到判别网络D进行训练,更新判别网络D的网络参数,得到新一代判别网络D1;
步骤SS3:冻结判别网络D1的参数,在去噪网络G中输入噪声音频,同时将对应的判别标签设为True,来欺骗判别网络D1;
步骤SS4:重复步骤SS2至步骤SS3,直至判别网络D收敛,转入步骤SS5;
步骤SS5:去噪网络G输出增强音频信号。
2.根据权利要求1所述的一种基于信道补偿的声纹识别方法,其特征在于,所述去噪网络G包括编码器Genc、解码器Gdec,所述编码器Genc与所述解码器Gdec通讯连接。
3.根据权利要求2所述的一种基于信道补偿的声纹识别方法,其特征在于,输入噪声音频,经过所述编码器Genc对音频提取深层次特征z,然后经过解码器Gdec对特征z进行解码,输出增强之后的音频。
4.一种基于信道补偿的声纹识别系统,其特征在于,包括:
去噪网络G,用于对噪声音频进行去噪增强;
音素分类网络,用于对音素分类,输出音素分类后验概率;
判别网络D,输出0或者1,用于判别输入到判别网络D的音频是来自真实数据,还是由去噪网络G生成的假数据;
所述去噪网络G与所述判别网络D构成去噪深度神经网络,所述去噪网络G的输出端分别通讯连接所述音素分类网络的输入端、所述判别网络D的输入端。
5.根据权利要求4所述的一种基于信道补偿的声纹识别系统,其特征在于,所述去噪网络G包括编码器Genc、解码器Gdec,所述编码器Genc与所述解码器Gdec通讯连接。
6.根据权利要求5所述的一种基于信道补偿的声纹识别系统,其特征在于,输入噪声音频,经过所述编码器Genc对音频提取深层次特征z,然后经过解码器Gdec对特征z进行解码,输出增强之后的音频。
7.根据权利要求4所述的一种基于信道补偿的声纹识别系统,其特征在于,所述音素分类网络采用全连接神经网络。
8.根据权利要求4所述的一种基于信道补偿的声纹识别系统,其特征在于,所述去噪深度神经网络的损失L包括音素分类网络损失Ly和去噪深度神经网络损失Lz,如下式即:
L=Ly+λLz;
其中,λ>0是权重系数,用于控制去噪深度神经网络损失所占的比例。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010554305.2A CN111785281A (zh) | 2020-06-17 | 2020-06-17 | 一种基于信道补偿的声纹识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010554305.2A CN111785281A (zh) | 2020-06-17 | 2020-06-17 | 一种基于信道补偿的声纹识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111785281A true CN111785281A (zh) | 2020-10-16 |
Family
ID=72757146
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010554305.2A Pending CN111785281A (zh) | 2020-06-17 | 2020-06-17 | 一种基于信道补偿的声纹识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111785281A (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108711436A (zh) * | 2018-05-17 | 2018-10-26 | 哈尔滨工业大学 | 基于高频和瓶颈特征的说话人验证系统重放攻击检测方法 |
CN109326302A (zh) * | 2018-11-14 | 2019-02-12 | 桂林电子科技大学 | 一种基于声纹比对和生成对抗网络的语音增强方法 |
CN109346087A (zh) * | 2018-09-17 | 2019-02-15 | 平安科技(深圳)有限公司 | 对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法和装置 |
CN109887489A (zh) * | 2019-02-23 | 2019-06-14 | 天津大学 | 基于生成对抗网络的深度特征的语音去混响方法 |
CN110110337A (zh) * | 2019-05-08 | 2019-08-09 | 网易有道信息技术(北京)有限公司 | 翻译模型训练方法、介质、装置和计算设备 |
WO2019171415A1 (en) * | 2018-03-05 | 2019-09-12 | Nec Corporation | Speech feature compensation apparatus, method, and program |
CN110428849A (zh) * | 2019-07-30 | 2019-11-08 | 珠海亿智电子科技有限公司 | 一种基于生成对抗网络的语音增强方法 |
CN110600017A (zh) * | 2019-09-12 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 语音处理模型的训练方法、语音识别方法、系统及装置 |
CN110619885A (zh) * | 2019-08-15 | 2019-12-27 | 西北工业大学 | 基于深度完全卷积神经网络的生成对抗网络语音增强方法 |
CN111128197A (zh) * | 2019-12-25 | 2020-05-08 | 北京邮电大学 | 基于声纹特征与生成对抗学习的多说话人语音分离方法 |
US10650306B1 (en) * | 2017-09-29 | 2020-05-12 | Amazon Technologies, Inc. | User representation using a generative adversarial network |
-
2020
- 2020-06-17 CN CN202010554305.2A patent/CN111785281A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10650306B1 (en) * | 2017-09-29 | 2020-05-12 | Amazon Technologies, Inc. | User representation using a generative adversarial network |
WO2019171415A1 (en) * | 2018-03-05 | 2019-09-12 | Nec Corporation | Speech feature compensation apparatus, method, and program |
CN108711436A (zh) * | 2018-05-17 | 2018-10-26 | 哈尔滨工业大学 | 基于高频和瓶颈特征的说话人验证系统重放攻击检测方法 |
CN109346087A (zh) * | 2018-09-17 | 2019-02-15 | 平安科技(深圳)有限公司 | 对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法和装置 |
CN109326302A (zh) * | 2018-11-14 | 2019-02-12 | 桂林电子科技大学 | 一种基于声纹比对和生成对抗网络的语音增强方法 |
CN109887489A (zh) * | 2019-02-23 | 2019-06-14 | 天津大学 | 基于生成对抗网络的深度特征的语音去混响方法 |
CN110110337A (zh) * | 2019-05-08 | 2019-08-09 | 网易有道信息技术(北京)有限公司 | 翻译模型训练方法、介质、装置和计算设备 |
CN110428849A (zh) * | 2019-07-30 | 2019-11-08 | 珠海亿智电子科技有限公司 | 一种基于生成对抗网络的语音增强方法 |
CN110619885A (zh) * | 2019-08-15 | 2019-12-27 | 西北工业大学 | 基于深度完全卷积神经网络的生成对抗网络语音增强方法 |
CN110600017A (zh) * | 2019-09-12 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 语音处理模型的训练方法、语音识别方法、系统及装置 |
CN111128197A (zh) * | 2019-12-25 | 2020-05-08 | 北京邮电大学 | 基于声纹特征与生成对抗学习的多说话人语音分离方法 |
Non-Patent Citations (2)
Title |
---|
ZHONG MENG等: "Adversarial Feature-Mapping for Speech Enhancement", ARXIV:1809.02251V2 [EESS.AS], pages 3 * |
罗韦尔·阿蒂恩扎 著: "《Keras高级深度学习》", 北京:机械工业出版社, pages: 93 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111128197B (zh) | 基于声纹特征与生成对抗学习的多说话人语音分离方法 | |
CN1284133C (zh) | 使用声学特征矢量修正进行语音识别的设备和方法 | |
Ramírez et al. | An effective subband OSF-based VAD with noise reduction for robust speech recognition | |
CN106157953B (zh) | 连续语音识别方法及系统 | |
US8180635B2 (en) | Weighted sequential variance adaptation with prior knowledge for noise robust speech recognition | |
CN103456305A (zh) | 终端和基于多个声音采集单元的语音处理方法 | |
CN110189746B (zh) | 一种应用于地空通信的话音识别方法 | |
CN105427870A (zh) | 一种针对停顿的语音识别方法和装置 | |
CN111477219A (zh) | 关键词区分方法、装置、电子设备和可读存储介质 | |
KR100911429B1 (ko) | 환경 이동을 위한 잡음 적응형 음향 모델 생성 방법 및 장치 | |
CN112017632A (zh) | 一种自动化会议记录生成方法 | |
CN113192535B (zh) | 一种语音关键词检索方法、系统和电子装置 | |
CN113362822A (zh) | 一种具有听觉隐蔽性的黑盒语音对抗样本生成方法 | |
Gupta et al. | Speech feature extraction and recognition using genetic algorithm | |
CN113763965A (zh) | 一种多重注意力特征融合的说话人识别方法 | |
CN115588436A (zh) | 基于变分自编码器生成对抗网络的语音增强方法 | |
Ramirez et al. | Voice activity detection with noise reduction and long-term spectral divergence estimation | |
CN111341351A (zh) | 基于自注意力机制的语音活动检测方法、装置及存储介质 | |
CN111785281A (zh) | 一种基于信道补偿的声纹识别方法及系统 | |
CN109192197A (zh) | 基于互联网的大数据语音识别系统 | |
CN101533642B (zh) | 一种语音信号处理方法及装置 | |
CN114495909B (zh) | 一种端到端的骨气导语音联合识别方法 | |
US20080228477A1 (en) | Method and Device For Processing a Voice Signal For Robust Speech Recognition | |
Wang et al. | Robust speech recognition from ratio masks | |
CN106373576B (zh) | 一种基于vq和svm算法的说话人确认方法及其系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20201016 |