CN110931022A - 基于高低频动静特征的声纹识别方法 - Google Patents
基于高低频动静特征的声纹识别方法 Download PDFInfo
- Publication number
- CN110931022A CN110931022A CN201911137708.0A CN201911137708A CN110931022A CN 110931022 A CN110931022 A CN 110931022A CN 201911137708 A CN201911137708 A CN 201911137708A CN 110931022 A CN110931022 A CN 110931022A
- Authority
- CN
- China
- Prior art keywords
- frequency
- low
- filter
- dynamic
- voiceprint recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000003068 static effect Effects 0.000 title claims abstract description 32
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000001228 spectrum Methods 0.000 claims abstract description 10
- 238000000605 extraction Methods 0.000 claims description 23
- 238000012549 training Methods 0.000 claims description 14
- 230000000694 effects Effects 0.000 claims description 10
- 238000001514 detection method Methods 0.000 claims description 7
- 238000009432 framing Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 5
- 238000002360 preparation method Methods 0.000 claims description 5
- 238000012795 verification Methods 0.000 claims description 5
- 238000013145 classification model Methods 0.000 claims description 4
- 239000000203 mixture Substances 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 3
- 238000003909 pattern recognition Methods 0.000 abstract description 2
- 238000001914 filtration Methods 0.000 description 8
- 238000002474 experimental method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 210000003026 hypopharynx Anatomy 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/20—Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Complex Calculations (AREA)
Abstract
本发明涉及模式识别、声纹识别,为提出一种针对声音信号进行更为鲁棒的声纹识别方法,所提供的发明可以更好的提取包含更为鲁棒的个性化特征,最终在说话人识别任务上得到更好的识别结果。为此,本发明采取的技术方案是,基于高低频动静特征的声纹识别方法,定义高低频的分界频率2.5kHz,在线性倒谱频率系数LFCC(Linear‑frequency cepstral coefficients)和对数能量谱基础流程上,针对高频和低频,分别设计两种梯形滤波器,分别提取低频的静态特征、提取高频的动态特征,并将其作为声纹识别分类器的输入,最终输出声纹识别认证结果。本发明主要应用于声音识别场合。
Description
技术领域
本发明涉及模式识别,声纹识别领域,具体是涉及一种基于高低频特征的声纹识别方法,用于更高效的针对不同声音识别对应说话人。
背景技术
声纹识别,也称作说话人识别,是通过声音来判别说话人身份的技术。虽然不像面部、指纹的个体性差异如此明显可见,但人的声纹都具有独特的特征,通过该特征能够将不同人的身份进行有效区分。然而目前在高混响、强噪声、多信道、多语种等真实复杂应用场景下,导致语音信号传输信号在不断发生变化,说话人识别技术仍无法满足实际应用性能要求,而这又对人机语音交互及信息安全领域技术进一步取得突破至关重要。
在特征层面,和语音识别一样,声纹识别中广泛使用的特征主要是基于Mel域的梅尔倒谱频率系数(Mel-frequency cepstral coefficients,MFCC)和Fbank特征,即针对人耳的感知特性,在低频具有较高的频率分辨率。但是对于声纹识别任务,使用Mel域的特征是有问题的,Mel域可以很好地提取低频信息,而大多数的文本信息也存在于低频,对于声纹识别来说,文本内容信息应该被抑制。
而很多感知实验表明,人的静态个性化特征主要集中在2.5k Hz以上,尤其是下咽腔中的喉前庭和梨状窝引起的共振。而动态特征则主要是由于相对舌体大小导致的低频范围上共振峰的变化,集中于低频。
通过本发明可以更具有针对性的提取说话人的个性化特征,大大提高了特征提取的针对性和声纹识别的鲁棒性。
发明内容
为克服现有技术的不足,本发明旨在基于言语生成的基础理论,提出一种针对声音信号,在频域范围内对高频和低频分别进行提取静态和动态特征,从而进行更为鲁棒的声纹识别方法,所提供的发明可以更好的提取包含更为鲁棒的个性化特征,最终在说话人识别任务上得到更好的识别结果。为此,本发明采取的技术方案是,基于高低频动静特征的声纹识别方法,定义高低频的分界频率2.5kHz,在线性倒谱频率系数LFCC(Linear-frequency cepstral coefficients)和对数能量谱基础流程上,针对高频和低频,分别设计两种梯形滤波器,分别提取低频的静态特征、提取高频的动态特征,并将其作为声纹识别分类器的输入,最终输出声纹识别认证结果。
具体步骤如下:
(1)特征提取前的数据准备步骤:
对数据库中的语音信号进行数据准备,划分训练集、验证集、测试集;
并进行语音活动检测VAD(Voice Activity Detection)和倒谱均值归一化CMN(Cepstral Mean Normalization)处理;
(2)特征提取步骤:
对语音信号分帧、加窗、短时傅里叶变换;
设计高低频滤波器,提出高低频滤波器振幅特征提取方法;
对于高频特征提取静态特征,对于低频提取动态信息;
(3)说话人分类模型训练步骤;
将训练集中的音频提取特征作为输入,训练基于高斯混合模型和通用背景模型GMM-UBM(Gaussian Mixture Model-Universal Background Model)的i-vector模型和概率线性判别分析程序PLDA(Probabilistic Linear Discriminant Analysis)打分模型;
(4)说话人确认打分步骤。
其中,特征提取具体包含三个步骤
1)数据预处理:把每一段语音信号经过预加重、分帧、加窗、快速傅里叶变换,其中,窗函数为Povey窗;
FFT点数设置为512,窗长25ms,窗移10ms;
2)静态特征提取:
设置高低频滤波器,滤波器由一组40维的三角滤波器组成,整体形状为梯形,高频滤波器对高频进行加强,低频进行抑制,低频滤波器对低频进行加强,高频进行抑制;
将滤波器Ψi(k)应用到经过快速傅里叶变换FFT(Fast Fourier Transform)变换的音频上,得到40维的高频对数滤波能量谱Hi-LFBE(high-emphasis on log filterbankenergies),和低频对数滤波能量谱Lo-LFBE(low-emphasis on log filterbankenergies).
其中,i是滤波器序号,e(i)是第i个滤波器的能量,X(k)是语音信号经过FFT变换之后的结果,Ψi(k)是第i个滤波器;
最后进行离散余弦变换DCT(Discrete Cosine Transform)操作,保留前19维,舍弃第0维,得到高频线性率倒谱系数Hi-LFCC(high-emphasis on linear frequencycepstral coefficients)和低频线性倒谱系数Lo-LFCC(low-emphasis on linearfrequency cepstral coefficients):
其中,cm是m个倒谱系数,Q是滤波器总个数。
3)动态特征提取:
在静态特征基础上采用delta方法对一阶动态和二阶动态进行特征提取。
本发明的特点及有益效果是:
本发明使用针对高低频设计滤波器的方法,分别对高频和低频进行特征提取,并抉择更合适的静态动态特征,从而提取更适用于说话人任务的个性化特征,解决了说话人个性化特征不鲁棒的问题。
结果表明,该方法达到了良好的声纹识别效果。错误率得到了一定降低。这表明高频范围的静态特征更为有效。
附图说明:
图1为基于高低频动静特征的提取流程图。
图2为基于高低频动静特征的高低频滤波器示意图。
具体实施方式
实现本发明目的的技术解决方案为:
基于言语生成理论和感知实验,定义高低频的分界频率2.5kHz。在线性倒谱频率系数(Linear-frequency cepstral coefficients,LFCC)和对数能量谱(linear logfilterbank energies)基础流程上,针对高频和低频,分别设计两种梯形滤波器。提取低频的静态特征,提取高频的动态特征,并将其作为声纹识别分类器的输入,最终输出声纹识别认证结果。
本发明提出一种基于高低频动静特征的声纹识别方法,包括以下步骤:
步骤一,数据准备:
对数据库中的语音信号进行数据准备,划分训练集、验证集、测试集。
并进行语音活动检测VAD和倒谱均值归一化CMN处理。
步骤二,特征提取:
对语音信号分帧、加窗、短时傅里叶变换。
基于先验知识找到分界频率,设计高低频滤波器,提出高低频滤波器振幅特征提取方法对于高频特征提取静态特征,对于低频提取动态信息。
步骤三,说话人分类模型训练
将训练集中的音频提取特征作为输入,训练基于GMM-UBM的i-vector模型和PLDA打分模型。
步骤四,将等错误率(Equal Error rate,EER)和最小检测代价(MinimumDetection Cost Function,minDCF)作为评判指标,进行说话人确认打分
下面结合附图来描述本发明实施的基于高低频动静特征的声纹识别方法,主要包含以下步骤:
步骤一,数据准备:为了验证本发明的效果,在TIMIT数据库上进行声纹识别中的说话人确认实验。TIMIT数据库中共有来自8个地区的630个说话人,其中训练集462人,测试集168人。每人具有十句话。所有句子采样频率为16KHz。
步骤二,特征提取
如图1基于高低频动静特征的提取流程图所示,包含三个主要步骤
3)数据预处理:把每一段语音信号经过预加重、分帧、加窗、快速傅里叶变换。其中,窗函数为Povey窗。
FFT点数设置为512,窗长25ms,窗移10ms。
4)静态特征提取:
设置如图2所示的高低频滤波器,滤波器由一组40维的三角滤波器组成,整体形状为梯形。高频滤波器对高频进行加强,低频进行抑制,低频滤波器对低频进行加强,高频进行抑制。
将滤波器Ψi(k)应用到经过FFT变换的音频上,得到40维的高频对数滤波能量谱Hi-LFBE(high-emphasis on log filterbank energies),和低频对数滤波能量谱Lo-LFBE(low-emphasis on log filterbank energies).
其中,i是滤波器序号,e(i)是第i个滤波器的能量,X(k)是语音信号经过FFT变换之后的结果,Ψi(k)是第i个滤波器。
最后进行DCT操作,保留前19维,舍弃第0维。得到高频线性率倒谱系数Hi-LFCC(high-emphasis on linear frequency cepstral coefficients)和低频线性倒谱系数Lo-LFCC(low-emphasis on linear frequency cepstral coefficients)。
其中,cm是第m个倒谱系数,Q是滤波器总个数。
3)动态特征提取:
在静态特征基础上采用delta方法对一阶动态和二阶动态进行特征提取。公式如下,其中其中yt(j)表示第t帧,第j维的倒谱系数,p=2。
步骤三,分类模型训练:
利用kaldi工具箱,训练基于GMM-UBM的i-vector模型,并进行PLDA打分模型的训练。其中UBM为256,i-vector维度为100。在采用PLDA方法之前用LDA降维至50。
步骤四,说话人确认打分:
采用等错误率EER和最小检测代价minDCF来对模型进行评判。
本发明确认效果数据表如下:
表1静态特征上的识别结果
Feature | EER(%) | min DCF<sub>p=0.01</sub> | min DCF<sub>p=0.001</sub> |
MFCC | 0.5952 | 0.0864 | 0.1733 |
IMFCC | 0.5952 | 0.1007 | 0.2056 |
LFCC | 0.6803 | 0.0767 | 0.1784 |
Hi-LFCC | 0.5102 | 0.0810 | 0.1844 |
Lo-LFCC | 0.6803 | 0.0797 | 0.1751 |
Hi-LFBE | 0.5952 | 0.1001 | 0.2098 |
Lo-LFBE | 0.6803 | 0.1018 | 0.2380 |
表2一阶动态特征上的识别结果
Feature | EER(%) | min DCF<sub>p=0.01</sub> | min DCF<sub>p=0.001</sub> |
△MFCC | 1.7010 | 0.2061 | 0.3484 |
△IMFCC | 1.7010 | 0.2421 | 0.4181 |
△LFCC | 1.2760 | 0.1576 | 0.3075 |
△Hi-LFBE | 1.7010 | 0.2405 | 0.4502 |
△Lo-LFBE | 1.8710 | 0.2471 | 0.4503 |
表3二阶动态特征上的识别结果
Feature | EER(%) | min DCF<sub>p=0.01</sub> | min DCF<sub>p=0.001</sub> |
△△MFCC | 3.0610 | 0.3040 | 0.5200 |
△△IMFCC | 2.5510 | 0.3566 | 0.6702 |
△△LFCC | 2.0410 | 0.2705 | 0.4929 |
△△Hi-LFBE | 2.8060 | 0.3758 | 0.6645 |
△△Lo-LFBE | 2.8910 | 0.3671 | 0.6569 |
表1列出了静态特征在TIMIT数据库上的说话人确认效果,表2和表3列出了动态特征在TIIMT数据库上的说话人确认效果。
Claims (3)
1.一种基于高低频动静特征的声纹识别方法,其特征是,定义高低频的分界频率2.5kHz,在线性倒谱频率系数LFCC(Linear-frequency cepstral coefficients)和对数能量谱基础流程上,针对高频和低频,分别设计两种梯形滤波器,分别提取低频的静态特征、提取高频的动态特征,并将其作为声纹识别分类器的输入,最终输出声纹识别认证结果。
2.如权利要求1所述的基于高低频动静特征的声纹识别方法,其特征是,具体步骤如下:
特征提取前的数据准备步骤:
对数据库中的语音信号进行数据准备,划分训练集、验证集、测试集;
并进行语音活动检测VAD(Voice Activity Detection)和倒谱均值归一化CMN(Cepstral Mean Normalization)处理;
特征提取步骤:
对语音信号分帧、加窗、短时傅里叶变换;
设计高低频滤波器,提出高低频滤波器振幅特征提取方法;
对于高频特征提取静态特征,对于低频提取动态信息;
说话人分类模型训练步骤;
将训练集中的音频提取特征作为输入,训练基于高斯混合模型和通用背景模型GMM-UBM(Gaussian Mixture Model-Universal Background Model)的i-vector模型和概率线性判别分析程序PLDA(Probabilistic Linear Discriminant Analysis)打分模型;
说话人确认打分步骤。
3.如权利要求1所述的基于高低频动静特征的声纹识别方法,其特征是,特征提取具体包含三个步骤:
1)数据预处理:把每一段语音信号经过预加重、分帧、加窗、快速傅里叶变换,其中,窗函数为Povey窗;
FFT点数设置为512,窗长25ms,窗移10ms;
2)静态特征提取:
设置高低频滤波器,滤波器由一组40维的三角滤波器组成,整体形状为梯形,高频滤波器对高频进行加强,低频进行抑制,低频滤波器对低频进行加强,高频进行抑制;
将滤波器Ψi(k)应用到经过快速傅里叶变换FFT(Fast Fourier Transform)变换的音频上,得到40维的高频对数滤波能量谱Hi-LFBE(high-emphasis on log filterbankenergies),和低频对数滤波能量谱Lo-LFBE(low-emphasis on log filterbankenergies).
其中,i是滤波器序号,e(i)是第i个滤波器的能量,X(k)是语音信号经过FFT变换之后的结果,Ψi(k)是第i个滤波器;
最后进行离散余弦变换DCT(Discrete Cosine Transform)操作,保留前19维,舍弃第0维,得到高频线性率倒谱系数Hi-LFCC(high-emphasis on linear frequency cepstralcoefficients)和低频线性倒谱系数Lo-LFCC(low-emphasis on linear frequencycepstral coefficients):
其中,cm是m个倒谱系数,Q是滤波器总个数。
3)动态特征提取:
在静态特征基础上采用delta方法对一阶动态和二阶动态进行特征提取。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911137708.0A CN110931022B (zh) | 2019-11-19 | 2019-11-19 | 基于高低频动静特征的声纹识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911137708.0A CN110931022B (zh) | 2019-11-19 | 2019-11-19 | 基于高低频动静特征的声纹识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110931022A true CN110931022A (zh) | 2020-03-27 |
CN110931022B CN110931022B (zh) | 2023-09-15 |
Family
ID=69851231
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911137708.0A Active CN110931022B (zh) | 2019-11-19 | 2019-11-19 | 基于高低频动静特征的声纹识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110931022B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111524523A (zh) * | 2020-04-26 | 2020-08-11 | 中南民族大学 | 基于声纹识别技术的仪器设备状态检测系统及其方法 |
CN111564163A (zh) * | 2020-05-08 | 2020-08-21 | 宁波大学 | 一种基于rnn的多种伪造操作语音检测方法 |
CN112349267A (zh) * | 2020-10-28 | 2021-02-09 | 天津大学 | 基于注意力机制特征的合成语音检测方法 |
CN113035227A (zh) * | 2021-03-12 | 2021-06-25 | 山东大学 | 一种多模态语音分离方法及系统 |
CN113933658A (zh) * | 2021-08-27 | 2022-01-14 | 国网湖南省电力有限公司 | 基于可听声分析的干式变压器放电检测方法及系统 |
CN115120247A (zh) * | 2022-07-19 | 2022-09-30 | 天津工业大学 | 一种实现多生理信号联合分析的系统 |
CN116072141A (zh) * | 2023-04-06 | 2023-05-05 | 深圳市阿尔泰车载娱乐系统有限公司 | 具有语音识别功能的车载通信系统及方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1758332A (zh) * | 2005-10-31 | 2006-04-12 | 浙江大学 | 基于倒谱特征线性情感补偿的说话人识别方法 |
CN103207961A (zh) * | 2013-04-23 | 2013-07-17 | 曙光信息产业(北京)有限公司 | 用户验证方法和装置 |
US20130238334A1 (en) * | 2010-12-10 | 2013-09-12 | Panasonic Corporation | Device and method for pass-phrase modeling for speaker verification, and verification system |
CN108900725A (zh) * | 2018-05-29 | 2018-11-27 | 平安科技(深圳)有限公司 | 一种声纹识别方法、装置、终端设备及存储介质 |
CN108922538A (zh) * | 2018-05-29 | 2018-11-30 | 平安科技(深圳)有限公司 | 会议信息记录方法、装置、计算机设备及存储介质 |
CN108922514A (zh) * | 2018-09-19 | 2018-11-30 | 河海大学 | 一种基于低频对数谱的鲁棒特征提取方法 |
CN110265049A (zh) * | 2019-05-27 | 2019-09-20 | 重庆高开清芯科技产业发展有限公司 | 一种语音识别方法及语音识别系统 |
US20190325880A1 (en) * | 2018-04-24 | 2019-10-24 | ID R&D, Inc. | System for text-dependent speaker recognition and method thereof |
-
2019
- 2019-11-19 CN CN201911137708.0A patent/CN110931022B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1758332A (zh) * | 2005-10-31 | 2006-04-12 | 浙江大学 | 基于倒谱特征线性情感补偿的说话人识别方法 |
US20130238334A1 (en) * | 2010-12-10 | 2013-09-12 | Panasonic Corporation | Device and method for pass-phrase modeling for speaker verification, and verification system |
CN103207961A (zh) * | 2013-04-23 | 2013-07-17 | 曙光信息产业(北京)有限公司 | 用户验证方法和装置 |
US20190325880A1 (en) * | 2018-04-24 | 2019-10-24 | ID R&D, Inc. | System for text-dependent speaker recognition and method thereof |
CN108900725A (zh) * | 2018-05-29 | 2018-11-27 | 平安科技(深圳)有限公司 | 一种声纹识别方法、装置、终端设备及存储介质 |
CN108922538A (zh) * | 2018-05-29 | 2018-11-30 | 平安科技(深圳)有限公司 | 会议信息记录方法、装置、计算机设备及存储介质 |
CN108922514A (zh) * | 2018-09-19 | 2018-11-30 | 河海大学 | 一种基于低频对数谱的鲁棒特征提取方法 |
CN110265049A (zh) * | 2019-05-27 | 2019-09-20 | 重庆高开清芯科技产业发展有限公司 | 一种语音识别方法及语音识别系统 |
Non-Patent Citations (1)
Title |
---|
XING FANG ETC: "Speaker identification with whispered speech based on modified LFCC parameters and feature mapping" * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111524523A (zh) * | 2020-04-26 | 2020-08-11 | 中南民族大学 | 基于声纹识别技术的仪器设备状态检测系统及其方法 |
CN111564163A (zh) * | 2020-05-08 | 2020-08-21 | 宁波大学 | 一种基于rnn的多种伪造操作语音检测方法 |
CN111564163B (zh) * | 2020-05-08 | 2023-12-15 | 宁波大学 | 一种基于rnn的多种伪造操作语音检测方法 |
CN112349267A (zh) * | 2020-10-28 | 2021-02-09 | 天津大学 | 基于注意力机制特征的合成语音检测方法 |
CN112349267B (zh) * | 2020-10-28 | 2023-03-21 | 天津大学 | 基于注意力机制特征的合成语音检测方法 |
CN113035227A (zh) * | 2021-03-12 | 2021-06-25 | 山东大学 | 一种多模态语音分离方法及系统 |
CN113933658A (zh) * | 2021-08-27 | 2022-01-14 | 国网湖南省电力有限公司 | 基于可听声分析的干式变压器放电检测方法及系统 |
CN113933658B (zh) * | 2021-08-27 | 2023-08-29 | 国网湖南省电力有限公司 | 基于可听声分析的干式变压器放电检测方法及系统 |
CN115120247A (zh) * | 2022-07-19 | 2022-09-30 | 天津工业大学 | 一种实现多生理信号联合分析的系统 |
CN116072141A (zh) * | 2023-04-06 | 2023-05-05 | 深圳市阿尔泰车载娱乐系统有限公司 | 具有语音识别功能的车载通信系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110931022B (zh) | 2023-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110931022B (zh) | 基于高低频动静特征的声纹识别方法 | |
Mitra et al. | Medium-duration modulation cepstral feature for robust speech recognition | |
US20130297299A1 (en) | Sparse Auditory Reproducing Kernel (SPARK) Features for Noise-Robust Speech and Speaker Recognition | |
CN103646649A (zh) | 一种高效的语音检测方法 | |
CN108922541A (zh) | 基于dtw和gmm模型的多维特征参数声纹识别方法 | |
CN112542174A (zh) | 基于vad的多维特征参数声纹识别方法 | |
Alam et al. | Tandem Features for Text-Dependent Speaker Verification on the RedDots Corpus. | |
CN111816203A (zh) | 基于音素级分析抑制音素影响的合成语音检测方法 | |
Riazati Seresht et al. | Spectro-temporal power spectrum features for noise robust ASR | |
CN112466276A (zh) | 一种语音合成系统训练方法、装置以及可读存储介质 | |
CN105845143A (zh) | 基于支持向量机的说话人确认方法及其系统 | |
CN107103913A (zh) | 一种基于功率谱Gabor特征序列递归模型的语音识别方法 | |
Kumar et al. | Hybrid of wavelet and MFCC features for speaker verification | |
Rathor et al. | Text indpendent speaker recognition using wavelet cepstral coefficient and butter worth filter | |
Sahu et al. | Significance of filterbank structure for capturing dysarthric information through cepstral coefficients | |
Samal et al. | On the use of MFCC feature vector clustering for efficient text dependent speaker recognition | |
Wang et al. | Robust Text-independent Speaker Identification in a Time-varying Noisy Environment. | |
Kumar et al. | Text dependent speaker identification in noisy environment | |
Dai et al. | An improved feature fusion for speaker recognition | |
Chandra et al. | Spectral-subtraction based features for speaker identification | |
Komlen et al. | Text independent speaker recognition using LBG vector quantization | |
Zailan et al. | Comparative analysis of LPC and MFCC for male speaker recognition in text-independent context | |
Khanna et al. | Application of vector quantization in emotion recognition from human speech | |
Chiu et al. | Analysis of physiologically-motivated signal processing for robust speech recognition. | |
Jana et al. | Replay Attack Detection for Speaker Verification Using Different Features Level Fusion System |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |