Nothing Special   »   [go: up one dir, main page]

CN107068167A - 融合多种端到端神经网络结构的说话人感冒症状识别方法 - Google Patents

融合多种端到端神经网络结构的说话人感冒症状识别方法 Download PDF

Info

Publication number
CN107068167A
CN107068167A CN201710146957.0A CN201710146957A CN107068167A CN 107068167 A CN107068167 A CN 107068167A CN 201710146957 A CN201710146957 A CN 201710146957A CN 107068167 A CN107068167 A CN 107068167A
Authority
CN
China
Prior art keywords
network
speaker
neutral net
layer
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710146957.0A
Other languages
English (en)
Inventor
李明
倪志东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
SYSU CMU Shunde International Joint Research Institute
Original Assignee
Sun Yat Sen University
SYSU CMU Shunde International Joint Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University, SYSU CMU Shunde International Joint Research Institute filed Critical Sun Yat Sen University
Priority to CN201710146957.0A priority Critical patent/CN107068167A/zh
Publication of CN107068167A publication Critical patent/CN107068167A/zh
Priority to PCT/CN2018/076272 priority patent/WO2018166316A1/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/66Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种融合多种端到端神经网络结构的说话人感冒症状识别方法,包括以下步骤:S1.构建及训练输入为语音,识别网络为卷积神经网络和长短期记忆网络的端到端神经网络A;S2.构建及训练输入为语音频谱,识别网络为卷积神经网络和长短期记忆网络的端到端神经网络B;S3.构建及训练输入为语音频谱,识别网络为卷积神经网络和全连接网络的端到端神经网络C;S4.构建及训练输入为语音MFCC特征/CQCC特征,识别网络为长短期记忆网络的端到端神经网络D;S5.融合以上四种训练好的端到端神经网络进行说话人感冒症状识别。

Description

融合多种端到端神经网络结构的说话人感冒症状识别方法
技术领域
本发明涉及声纹识别领域,更具体地,涉及一种融合多种端到端神经网络结构的说话人感冒症状识别方法。
背景技术
说话人识别又称声纹识别,是利用模式识别技术自动识别说话人的技术。当前的说话人识别技术在实验条件中取得很好的性能,但是在实际中,受识别的语音会受到环境噪声和说话人健康条件的影响,使得已有说话人识别技术的鲁棒性降低。现有的说话人识别方法主要用于说话人身份确定方面,目前还没有相关的应用于说话人感冒症状的识别方法。
在语音技术研究中,研究者总是希望能找到表示目标类型的特征,从识别目标语音中找到明显区别正常语音的特性进行描述,语音特征提取是提取说话人的语音特征和声道特征,目前,主流的特征参数包括MFCC、LPCC、CQCC等,都是以单个特征为主,表征说话人感冒症状的信息不足,影响识别精度。同时需要大量区分分类目标语音的知识,而在识别算法中,起步较早的是基于声道模型和语音模型的方法,但是因为模型的复杂性,没有取得很好的实用效果。而模型匹配方法如动态时间规整、隐马尔可夫模型、矢量量化等技术等开始发挥良好的识别效果。把特征提取和模式分类分开研究是识别研究的常用方法,但是存在特征和模型不匹配、训练困难、特征不易寻找的问题,经典的识别框架存在上述的问题。
近年来随着深度学习的发展,基于深层神经网络在图像和语音的识别已显示出巨大的能量,一系列的神经网络结构也被提出,比如自动编码网络、卷积神经网络和循环神经网络等。有很多学者发现,通过神经网络对语音进行学习,可以得到更好描述语音的隐藏结构特征,端到端的识别方法就是通过尽量少的先验知识,同时对特征学习和特征识别进行处理,具有很好的识别效果。
发明内容
本发明为解决现有技术提供的识别技术将特征提取和模式分类分开导致的特征和模型不匹配、训练困难,特征不易寻找等问题,提供了一种融合多种端到端神经网络结构的说话人感冒症状识别方法,该方法通过把特征学习和模式分类统一在一起,使得整个说话人感冒症状识别过程更加简单快速,具有广泛的应用前景。
为实现以上发明目的,采用的技术方案是:
融合多种端到端神经网络结构的说话人感冒症状识别方法,包括以下步骤:
S1.构建及训练输入为语音,识别网络为卷积神经网络和长短期记忆网络的端到端神经网络A;
S2.构建及训练输入为语音频谱,识别网络为卷积神经网络和长短期记忆网络的端到端神经网络B;
S3.构建及训练输入为语音频谱,识别网络为卷积神经网络和全连接网络的端到端神经网络C;
S4.构建及训练输入为语音MFCC特征/CQCC特征,识别网络为长短期记忆网络的端到端神经网络D;
S5.融合以上四种训练好的端到端神经网络进行说话人感冒症状识别。
优选地,所述端到端神经网络A的卷积神经网络包括8个模块,每个模块均包括一维卷积层、ReLU激活层和一维最大池化层,其中一维卷积层的卷积核的大小为32,一维最大池化层的池化核的大小为2,池化步长为2。
优选地,所述端到端神经网络B的卷积神经网络包括6个模块,每个模块包括二维卷积层、ReLU激活层和二维最大池化层;其中第一个卷积层使用7*7的卷积核,第二层使用5*5的卷积核,剩下4层使用3*3的卷积核;所有的最大池化层均使用3*3的池化核,池化步长为2。
优选地,所述端到端神经网络C的卷积神经网络包括6个模块,每个模块包括二维卷积层、ReLU激活层和二维最大池化层;其中第一个卷积层使用7*7的卷积核,第二层使用5*5的卷积核,剩下4层使用3*3的卷积核;所有的最大池化层均使用3*3的池化核,池化步长为2。
与现有技术相比,本发明的有益效果是:
现有识别技术都是把特征和模式分类分开研究,存在特征和模型不匹配、训练困难,特征不易寻找等问题。而本发明提供的方法通过融合四种不同的端到端神经网络把特征学习和模式分类统一在一起,使得整个说话人感冒症状识别过程更加简单快速,具有广泛的应用前景。
附图说明
图1为方法的具体实施示意图。
图2为语音提取梅尔倒谱系数(MFCC)的流程图。
图3为语音提取常数Q倒谱系数(CQCC)的流程图。
图4为端到端神经网络A的示意图。
图5为端到端神经网络B的示意图。
图6为端到端神经网络C的示意图。
图7为端到端神经网络D的示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
以下结合附图和实施例对本发明做进一步的阐述。
实施例1
图1为本发明提供的方法的具体实施过程图,如图1所示,本发明提供的融合多种端到端神经网络结构的说话人感冒症状识别方法,包括以下步骤:
S1.构建及训练输入为语音,识别网络为卷积神经网络和长短期记忆网络的端到端神经网络A;
S2.构建及训练输入为语音频谱,识别网络为卷积神经网络和长短期记忆网络的端到端神经网络B;
S3.构建及训练输入为语音频谱,识别网络为卷积神经网络和全连接网络的端到端神经网络C;
S4.构建及训练输入为语音MFCC特征/CQCC特征,识别网络为长短期记忆网络的端到端神经网络D,具体如图7所示;
S5.融合以上四种训练好的端到端神经网络进行说话人感冒症状识别。
其中,如图2、3所示,步骤S4中的MFCC特征通过对语音进行预加重,加窗分帧、快速傅里叶变换、计算能量谱密度、梅尔刻度三角滤波器组滤波、取对数运算、离散余弦变换后最终得到的,而CQCC特征是通过对语音进行常数Q变换、求能量谱密度、取对数操作、离散余弦变换得到的。
在具体的实施过程中,如图4所示,所述端到端神经网络A的卷积神经网络包括8个模块,每个模块均包括一维卷积层、ReLU激活层和一维最大池化层,其中一维卷积层的卷积核的大小为32,一维最大池化层的池化核的大小为2,池化步长为2。
在具体的实施过程中,如图5所示,所述端到端神经网络B的卷积神经网络包括6个模块,每个模块包括二维卷积层、ReLU激活层和二维最大池化层;其中第一个卷积层使用7*7的卷积核,第二层使用5*5的卷积核,剩下4层使用3*3的卷积核;所有的最大池化层均使用3*3的池化核,池化步长为2。
在具体的实施过程中,如图6所示,所述端到端神经网络C的卷积神经网络包括6个模块,每个模块包括二维卷积层、ReLU激活层和二维最大池化层;其中第一个卷积层使用7*7的卷积核,第二层使用5*5的卷积核,剩下4层使用3*3的卷积核;所有的最大池化层均使用3*3的池化核,池化步长为2。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (4)

1.融合多种端到端神经网络结构的说话人感冒症状识别方法,其特征在于:包括以下步骤:
S1.构建及训练输入为语音,识别网络为卷积神经网络和长短期记忆网络的端到端神经网络A;
S2.构建及训练输入为语音频谱,识别网络为卷积神经网络和长短期记忆网络的端到端神经网络B;
S3.构建及训练输入为语音频谱,识别网络为卷积神经网络和全连接网络的端到端神经网络C;
S4.构建及训练输入为语音MFCC特征/CQCC特征,识别网络为长短期记忆网络的端到端神经网络D;
S5.融合以上四种训练好的端到端神经网络进行说话人感冒症状识别。
2.根据权利要求1所述的融合多种端到端神经网络结构的说话人感冒症状识别方法,其特征在于:所述端到端神经网络A的卷积神经网络包括8个模块,每个模块均包括一维卷积层、ReLU激活层和一维最大池化层,其中一维卷积层的卷积核的大小为32,一维最大池化层的池化核的大小为2,池化步长为2。
3.根据权利要求1所述的融合多种端到端神经网络结构的说话人感冒症状识别方法,其特征在于:所述端到端神经网络B的卷积神经网络包括6个模块,每个模块包括二维卷积层、ReLU激活层和二维最大池化层;其中第一个卷积层使用7*7的卷积核,第二层使用5*5的卷积核,剩下4层使用3*3的卷积核;所有的最大池化层均使用3*3的池化核,池化步长为2。
4.根据权利要求1所述的融合多种端到端神经网络结构的说话人感冒症状识别方法,其特征在于:所述端到端神经网络C的卷积神经网络包括6个模块,每个模块包括二维卷积层、ReLU激活层和二维最大池化层;其中第一个卷积层使用7*7的卷积核,第二层使用5*5的卷积核,剩下4层使用3*3的卷积核;所有的最大池化层均使用3*3的池化核,池化步长为2。
CN201710146957.0A 2017-03-13 2017-03-13 融合多种端到端神经网络结构的说话人感冒症状识别方法 Pending CN107068167A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710146957.0A CN107068167A (zh) 2017-03-13 2017-03-13 融合多种端到端神经网络结构的说话人感冒症状识别方法
PCT/CN2018/076272 WO2018166316A1 (zh) 2017-03-13 2018-02-11 融合多种端到端神经网络结构的说话人感冒症状识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710146957.0A CN107068167A (zh) 2017-03-13 2017-03-13 融合多种端到端神经网络结构的说话人感冒症状识别方法

Publications (1)

Publication Number Publication Date
CN107068167A true CN107068167A (zh) 2017-08-18

Family

ID=59621946

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710146957.0A Pending CN107068167A (zh) 2017-03-13 2017-03-13 融合多种端到端神经网络结构的说话人感冒症状识别方法

Country Status (2)

Country Link
CN (1) CN107068167A (zh)
WO (1) WO2018166316A1 (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108053841A (zh) * 2017-10-23 2018-05-18 平安科技(深圳)有限公司 利用语音进行疾病预测的方法及应用服务器
WO2018166316A1 (zh) * 2017-03-13 2018-09-20 佛山市顺德区中山大学研究院 融合多种端到端神经网络结构的说话人感冒症状识别方法
CN108899051A (zh) * 2018-06-26 2018-11-27 北京大学深圳研究生院 一种基于联合特征表示的语音情感识别模型及识别方法
CN109086892A (zh) * 2018-06-15 2018-12-25 中山大学 一种基于一般依赖树的视觉问题推理模型及系统
CN109192226A (zh) * 2018-06-26 2019-01-11 深圳大学 一种信号处理方法及装置
CN109256118A (zh) * 2018-10-22 2019-01-22 江苏师范大学 基于生成式听觉模型的端到端汉语方言识别系统和方法
CN109282837A (zh) * 2018-10-24 2019-01-29 福州大学 基于lstm网络的布拉格光纤光栅交错光谱的解调方法
CN109960910A (zh) * 2017-12-14 2019-07-02 广东欧珀移动通信有限公司 语音处理方法、装置、存储介质及终端设备
CN111028859A (zh) * 2019-12-15 2020-04-17 中北大学 一种基于音频特征融合的杂交神经网络车型识别方法
CN116110437A (zh) * 2023-04-14 2023-05-12 天津大学 基于语音特征和说话人特征融合的病理嗓音质量评价方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3054063A1 (en) 2017-03-03 2018-09-07 Pindrop Security, Inc. Method and apparatus for detecting spoofing conditions

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5214743A (en) * 1989-10-25 1993-05-25 Hitachi, Ltd. Information processing apparatus
CN105139864A (zh) * 2015-08-17 2015-12-09 北京天诚盛业科技有限公司 语音识别方法和装置
CN106328122A (zh) * 2016-08-19 2017-01-11 深圳市唯特视科技有限公司 一种利用长短期记忆模型递归神经网络的语音识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107068167A (zh) * 2017-03-13 2017-08-18 广东顺德中山大学卡内基梅隆大学国际联合研究院 融合多种端到端神经网络结构的说话人感冒症状识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5214743A (en) * 1989-10-25 1993-05-25 Hitachi, Ltd. Information processing apparatus
CN105139864A (zh) * 2015-08-17 2015-12-09 北京天诚盛业科技有限公司 语音识别方法和装置
CN106328122A (zh) * 2016-08-19 2017-01-11 深圳市唯特视科技有限公司 一种利用长短期记忆模型递归神经网络的语音识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TARA N. SAINATH等: "Convolutional, Long Short-Term Memory, fully connected Deep Neural Networks", 《ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), 2015 IEEE INTERNATIONAL CONFERENCE ON》 *
杜朦旭: "感冒病人嗓音的特征提取与识别研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018166316A1 (zh) * 2017-03-13 2018-09-20 佛山市顺德区中山大学研究院 融合多种端到端神经网络结构的说话人感冒症状识别方法
CN108053841A (zh) * 2017-10-23 2018-05-18 平安科技(深圳)有限公司 利用语音进行疾病预测的方法及应用服务器
CN109960910A (zh) * 2017-12-14 2019-07-02 广东欧珀移动通信有限公司 语音处理方法、装置、存储介质及终端设备
CN109960910B (zh) * 2017-12-14 2021-06-08 Oppo广东移动通信有限公司 语音处理方法、装置、存储介质及终端设备
CN109086892B (zh) * 2018-06-15 2022-02-18 中山大学 一种基于一般依赖树的视觉问题推理模型及系统
CN109086892A (zh) * 2018-06-15 2018-12-25 中山大学 一种基于一般依赖树的视觉问题推理模型及系统
CN108899051B (zh) * 2018-06-26 2020-06-16 北京大学深圳研究生院 一种基于联合特征表示的语音情感识别模型及识别方法
CN109192226A (zh) * 2018-06-26 2019-01-11 深圳大学 一种信号处理方法及装置
CN108899051A (zh) * 2018-06-26 2018-11-27 北京大学深圳研究生院 一种基于联合特征表示的语音情感识别模型及识别方法
CN109256118A (zh) * 2018-10-22 2019-01-22 江苏师范大学 基于生成式听觉模型的端到端汉语方言识别系统和方法
CN109256118B (zh) * 2018-10-22 2021-06-25 江苏师范大学 基于生成式听觉模型的端到端汉语方言识别系统和方法
CN109282837A (zh) * 2018-10-24 2019-01-29 福州大学 基于lstm网络的布拉格光纤光栅交错光谱的解调方法
CN111028859A (zh) * 2019-12-15 2020-04-17 中北大学 一种基于音频特征融合的杂交神经网络车型识别方法
CN116110437A (zh) * 2023-04-14 2023-05-12 天津大学 基于语音特征和说话人特征融合的病理嗓音质量评价方法

Also Published As

Publication number Publication date
WO2018166316A1 (zh) 2018-09-20

Similar Documents

Publication Publication Date Title
CN107068167A (zh) 融合多种端到端神经网络结构的说话人感冒症状识别方法
Qian et al. Very deep convolutional neural networks for noise robust speech recognition
CN109243467B (zh) 声纹模型构建方法、声纹识别方法及系统
CN109272988B (zh) 基于多路卷积神经网络的语音识别方法
CN104732978B (zh) 基于联合深度学习的文本相关的说话人识别方法
CN104157290B (zh) 一种基于深度学习的说话人识别方法
CN106847309A (zh) 一种语音情感识别方法
CN105321525B (zh) 一种降低voip通信资源开销的系统和方法
CN106952649A (zh) 基于卷积神经网络和频谱图的说话人识别方法
CN111048097B (zh) 一种基于3d卷积的孪生网络声纹识别方法
CN106952643A (zh) 一种基于高斯均值超矢量与谱聚类的录音设备聚类方法
CN108847244A (zh) 基于mfcc和改进bp神经网络的声纹识别方法及系统
CN106782511A (zh) 修正线性深度自编码网络语音识别方法
CN109785852A (zh) 一种增强说话人语音的方法及系统
CN109346084A (zh) 基于深度堆栈自编码网络的说话人识别方法
CN110544482B (zh) 一种单通道语音分离系统
CN112017682A (zh) 一种单通道语音同时降噪和去混响系统
CN107039036A (zh) 一种基于自动编码深度置信网络的高质量说话人识别方法
CN108986798A (zh) 语音数据的处理方法、装置及设备
CN113763965A (zh) 一种多重注意力特征融合的说话人识别方法
Sukhwal et al. Comparative study of different classifiers based speaker recognition system using modified MFCC for noisy environment
CN114299986A (zh) 一种基于跨域迁移学习的小样本声音识别方法及系统
Zheng et al. MSRANet: Learning discriminative embeddings for speaker verification via channel and spatial attention mechanism in alterable scenarios
CN110189766A (zh) 一种基于神经网络的语音风格转移方法
CN114220438B (zh) 基于bottleneck和通道切分的轻量级说话人识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170818

RJ01 Rejection of invention patent application after publication