CN111243621A - 一种用于合成语音检测的gru-svm深度学习模型的构造方法 - Google Patents
一种用于合成语音检测的gru-svm深度学习模型的构造方法 Download PDFInfo
- Publication number
- CN111243621A CN111243621A CN202010034132.1A CN202010034132A CN111243621A CN 111243621 A CN111243621 A CN 111243621A CN 202010034132 A CN202010034132 A CN 202010034132A CN 111243621 A CN111243621 A CN 111243621A
- Authority
- CN
- China
- Prior art keywords
- gru
- svm
- speech
- feature
- deep learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 20
- 238000013136 deep learning model Methods 0.000 title claims abstract description 19
- 238000010276 construction Methods 0.000 title description 3
- 238000012549 training Methods 0.000 claims abstract description 33
- 239000011159 matrix material Substances 0.000 claims abstract description 25
- 238000000034 method Methods 0.000 claims abstract description 20
- 238000013528 artificial neural network Methods 0.000 claims abstract description 11
- 238000007781 pre-processing Methods 0.000 claims description 7
- 230000003595 spectral effect Effects 0.000 claims description 4
- 238000009432 framing Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims 1
- 238000012706 support-vector machine Methods 0.000 abstract description 16
- 230000000306 recurrent effect Effects 0.000 abstract description 4
- 230000007774 longterm Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 7
- 239000000284 extract Substances 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Theoretical Computer Science (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种用于合成语音检测的GRU‑SVM深度学习模型的构造方法,包括步骤:提取训练语音每一帧的特征参数;构造训练语音的特征矩阵;构造GRU‑SVM深度学习模型;对GRU‑SVM深度学习模型进行softmax的回归。门控循环单元(GRU)神经网络用于克服循环神经网络(RNN)学习信息长期依赖时产生的梯度消失和爆炸问题。结合支持向量机(SVM)在softmax层进行分类之前起回归作用,本发明提出的GRU‑SVM深度学习模型能进一步提高合成语音的检测率。
Description
技术领域
本发明涉及语音取证技术领域,特别是一种用于合成语音检测的GRU-SVM深度学习模型的构造方法。
背景技术
随着人工智能时代的到来,人与人的交流方式逐渐多样化。数字音频作为最常用的交流媒介应用于日常工作和学习中。通过各种移动设备,人们可以完成对音频的传输和接收来完成信息交换。与此同时,语音合成技术的不断发展。语音合成技术,即将任意文本转换成语音的技术。该技术如果结合深度学习方法的合成技术能够很容易地合成出与某个目标说话人相同说话特征的语音。目前许多识别技术都不能识别出这类合成语音与真实说话人说出的自然语音,并容易将合成的语音认作自然语音,从而发生验证错误。若犯罪分子将该技术应用到实际场景中,将造成人员伤害与经济损失。为了解决这一问题人们提出了自动说话人验证系统,通过计算机利用人体所固有的生理特征或行为特征来进行个人身份鉴定,是一种对收到的说话人语音信号进行分析和提取,自动地确定说话人是否在所建立的说话人集合里面,并确定说话人是谁的过程。
文献“Speaker verification using Gaussian mixture model”(Jagtap,S.S.,Bhalke,D.G,International Conference on Pervasive Computing,pp.1–5,2015)提出了一种主流的机器学习分类器,该分类器使用高斯混合模型(GMM)进行特征分类。文献“Artificial neural networks as speech recognisers for dysarthric speech”(Shahamiri,S.R.,Salim,S.S.B.,Advanced Engineering Informatics 28(1),102-110,2014),Shahamiri等人已经成功地将基于人工神经网络(ANN)的分类算法应用于语音识别。以GMM为代表的机器学习分类器的平均识别错误率始终保持在1%左右。基于神经网络模型的分类检测算法在检测已知攻击时表现较好,但在检测为止攻击时表现稍差。
发明内容
本发明的目的是提供一种用于合成语音检测的GRU-SVM深度学习模型的构造方法,以进一步提高合成语音检测的准确性。
实现本发明目的的技术方案为:
一种用于合成语音检测的GRU-SVM深度学习模型的构造方法,包括:
步骤一:提取训练语音每一帧的特征参数,包括
1.1将训练语音解码后进行预处理,所述预处理包括预加重、分帧和加窗;
1.2通过快速傅里叶变换,将时域信号转换为频域信号,再取模后平方得到谱线能量;
1.3放入m维的Mel滤波器组,计算出通过Mel滤波器的能量;
1.4取对数倒谱后DCT变换,得到MFCC特征;
1.5提取MFCC特征的一阶差分系数ΔMFCC,与MFCC特征组成2m维特征参数CC,
CC={(C1,C2,...Cm),(ΔC1,ΔC2,...ΔCm)},
其中,Cm表示第m维Mel滤波器输出的MFCC特征,ΔCm表示第m维ΔMFCC;
步骤二:构造训练语音的特征矩阵,包括
2.1将每一个训练语音的所有帧的2m维特征参数CC构成一个特征矩阵;其中,帧数最大的那个训练语音的特征矩阵为L行2m列,L为其帧数;
2.2将帧数小于L的训练语音的特征矩阵,进行补0操作,使其特征矩阵为L行2m列;
步骤三:构造GRU-SVM深度学习模型,包括
3.1将每一个训练语音的特征序列(x1,x2...xt-1,xt)输入到具有3层隐藏层的GRU神经网络,依次计算相应的隐藏层,得到输出向量(y1,y2,...yt-1,yt);所述训练语音的特征序列(x1,x2...xt-1,xt)中,x1为训练语音的特征矩阵的第一行,x2为训练语音的特征矩阵的第二行,…,xt为训练语音的特征矩阵的第L行;
3.2将GRU的输出向量(y1,y2,...yt-1,yt)的yt输入到SVM,完成SVM回归,得到GRU-SVM深度学习模型;
步骤四:对GRU-SVM深度学习模型进行softmax的回归,对回归后的输出进行交叉熵损失的计算,并通过最小化损失的方法进行优化,得到优化后的GRU-SVM深度学习模型。
选择合适的分类器从语音特征中学习相关信息是一个关键的问题,门控循环单元(GRU)神经网络用于克服循环神经网络(RNN)学习信息长期依赖时产生的梯度消失和爆炸问题。结合支持向量机(SVM)在softmax层进行分类之前起回归作用,本发明提出的GRU-SVM深度学习模型能进一步提高合成语音的检测率。
附图说明
图1为说话人识别系统流程图。
图2为GRU-SVM原理图。
图3为MFCC语音特征流程图。
图4为MFCC特征矩阵。
图5为训练过程中的预测准确率与损失率。
具体实施方式
典型的自动说话人识别系统主要包括语音预处理、特征提取、使用分类器训练出模型并识别检测的过程,如图1。
本发明利用基于GRU的模型能从大量语音功能中提取有用特征信息的方法,设计了一种GRU-SVM模型来检测合成语音的算法。在GRU的隐藏层输出数据之后,SVM在进行回归,softmax函数输出最终分类结果。本发明包括语音特征提取和GRU-SVM合成语音检测算法分类结果两个部分。
语音特征提取部分,主要步骤如下:
利用倒谱特征来进行说话人识别是目前最流行的方法之一,Mel频率倒谱分析是基于人的听觉机理,是常用的说话人识别并且优于其他倒谱系数的特征。MFCC先将线性频谱映射到基于听觉感知的Mel非线性频谱上,再转换到倒谱上。MFCC特征参数提取原理框图如图3所示。
步骤1:将语音编码解码后的每一帧数据进行预处理,预处理包括预加重、分帧、加窗等步骤。经过预处理后得到信号xi,每一帧信号进行快速傅里叶变换,此步将时域信号转换为频域信号,再将其取模后平方得到谱线能量;然后放入20维(取20维时效果好)的Mel滤波器组,计算出通过Mel滤波器的能量,滤波器输出能量后再取对数倒谱后DCT变换,输出MFCC。输出的MFCC特征可由公式(1)表示:
公式(1)中,S(i,m)是Mel滤波器能量;m是指第m个Mel滤波器;i是指第i帧;n是DCT后的谱线。
步骤2:由于语音信号是时域连续的,分帧提取的特征信息只反映了本帧语音的特性,为了使特征更能体现时域连续性,可以在特征维度中增加前后帧信息的维度,本发明提取了MFCC的一阶差分系数ΔMFCC。
提取MFCC与ΔMFCC组成的40维特征参数形式:
CC={(C1,C2,...Cm),(ΔC1,ΔC2,...ΔCm)} (2)
CC表示本发明提取的特征参数;m是指第m个Mel滤波器,本发明中m=20。
步骤3:将所有语音通过叠加的方式组合形成一个L*40维的语音特征矩阵,L是所有训练音频样本中的最大帧长,40是MFCC特征维度。根据上述所得到的语音特征矩阵,进行GRU-SVM模型,特征输入需要进行处理。
对于得到的语音矩阵进行调整,如果音频样本中有样本的帧长短于L帧,将为该音频特征矩阵提供补0的操作。确保每个特征都是同样大小的矩阵。如图4所示。
通过上述所获特征集进行GRU-SVM深度学习模型生成,步骤如下:
步骤1:构建训练集(Xt)使用输入为批次和分帧数量(序列号),通过GRU的门控机制学习特征参数。输入特征序列(x1,x2...xt-1,xt),GRU计算相应的隐藏层(h1,h2...ht-1,ht),并输出向量(y1,y2,...yt-1,yt),门控机制由以下函数实现。
zt=σ(Wz·[ht-1,xt]) (3)
ut=σ(Wr·[ht-1,xt]) (4)
重置门,更新门和隐藏状态分别为等式(3),(4)和(5)。其中σ(·)是Sigmoid函数。Wz是重置门的矩阵权重,Wr是更新门的矩阵权重,zt表示重置门,ut表示更新门。由此可构建GRU神经网络架构,本算法采用3层隐藏GRU神经网络层。
由于相对于LSTM的输入门,遗忘门,输出门,GRU的门函数比LSTM少,所以这里取神经网络输出的最后一层的输出。
步骤2:使用SVM模型接收上一步的输出,使用下面公式完成SVM回归,得到预测值模型。
步骤3:对预测模型进行softmax的回归,对回归后的输出进行交叉熵损失的计算,进行优化。(在应用中,损失函数通常作为学习准则与优化问题相联系,即通过最小化损失函数求解和评估模型。)
为了验证所提出模型的性能,我们使用了LJ语音数据集。该数据集是一个公共领域的语音数据集,由来自单个发言人的13,100个简短音频片段组成,每个剪辑的长度从1到10秒不等,总长度约为24小时。另外关于合成语音数据库,我们使用了WaveGlow,一种基于流的可以从梅尔谱图生成高质量语音的网络,并且由于能够从Mel频谱图生成高质量语音。WaveGlow将Glow与WaveNet相结合,以提供快速,高效和高质量的音频合成,不需要使用自回归。WaveGlow训练过程简单而稳定。
在实验中,自然语音样本和合成语音样本的采样频率均为22.05kHz,均为标准单声道。我们使用python和tensorflow来提供所有模型并调整超参数。表1显示了实验环境的详细构造。
表1实验网络参数
在定义实验网络的超参数后,我们从两个数据库中一共选取16000个语音样本作为训练样本,并将其放入所提出的GRU-SVM网络训练方法中,然后保存训练好的模型。最后,从数据库中剩余的语音中选择8000个语音样本作为测试样本进行测试。
1.本发明方法的效果可以用过一些性能指标表现,主要包括:检测率(Accuracy)表示正负样本被正确分类的比例,虚警率(False alarm)(FPR)表示负类样本被分为正类样本在所有负类样本中的比例。漏警率(Missing alarm)(FNR)表示表示正类样本被分为负类样本在所有正类样本中的比例。
TP表示阳性样本具有正确的分类。TN表示分类正确的阴性样品。FP表示分类错误的阳性样本,FN表示分类错误的阴性样本。通常,检测率越高,FPR和FNR得分越低,分类器效果越好。
2.本发明报告了不同训练模型的检测率,如表2所示。在我们开发的数据库中,GRU网络和GRU-SVM网络的性能表现始终比以上的其他网络更出色。这表明我们基于GRU的模型更适用于合成语音检测。与其他方法相比,GRU-SVM模型的性能更好。平均检测率是指自然语音和合成语音的平均检测值,GRU-SVM为99.63%,GRU是99.55%,LSTM是99.28%,RNN是50.11%,线性SVM是97.40%。SVM在分类方面也具有良好的性能,这是由于SVM中具有核函数,对于线性不可分的数据具有强大的分类能力。随着时间步长的增加,RNN无法再连接特征信息,存在梯度爆炸的问题。所以RNN几乎将所有测试样本错误地分类为自然语音,这就是为什么RNN是自然语音中最好的。另外,因为合成语音是使用Mel频谱图功能合成的,这使得合成语音的特征比自然语音的更加有规律。虽然LSTM在检测合成语音方面是最好的,但在检测自然语音方面却不如GRU和GRU-SVM有效。在表3中也看到了相同的问题,除去RNN,GRU-SVM在众模型中,虚警率中表现最好。除LSTM外,GRU-SVM在漏检率这个指标中表现也最好。
3.图5(a)和图5(b)所示的是训练过程中的准确率和损失率,我们进一步将GRU和GRU-SVM进行比较。我们选择前4,000次迭代并进行统计。对于训练过程中的准确率如图5(a),GRU-SVM比GRU早达到峰值,且GRU-SVM收敛过程更稳定。对于损失率,如图5(b)中所示,GRU-SVM也比GRU先到最低点,且GRU损失率的范围变化较大,尤其是在2000至2500次迭代之间。结果证明,GRU-SVM的收敛速度比GRU快。以上实验结果表明,该方法在合成语音检测中是可行和有效的。在GRU输出的隐藏层之后,SVM执行回归以控制特定特征空间中的整个特征数据,从而增强了特征并促进了后续分类。这是GRU-SVM模型成功的主要原因。
表2不同模型的准确率(%)
表3不同模型的虚警率与漏检率(%)
Claims (1)
1.一种用于合成语音检测的GRU-SVM深度学习模型的构造方法,其特征在于,包括:
步骤一:提取训练语音每一帧的特征参数,包括
1.1将训练语音解码后进行预处理,所述预处理包括预加重、分帧和加窗;
1.2通过快速傅里叶变换,将时域信号转换为频域信号,再取模后平方得到谱线能量;
1.3放入m维的Mel滤波器组,计算出通过Mel滤波器的能量;
1.4取对数倒谱后DCT变换,得到MFCC特征;
1.5提取MFCC特征的一阶差分系数ΔMFCC,与MFCC特征组成2m维特征参数CC,CC={(C1,C2,...Cm),(ΔC1,ΔC2,...ΔCm)},
其中,Cm表示第m维Mel滤波器输出的MFCC特征,ΔCm表示第m维ΔMFCC;
步骤二:构造训练语音的特征矩阵,包括
2.1将每一个训练语音的所有帧的2m维特征参数CC构成一个特征矩阵;其中,帧数最大的那个训练语音的特征矩阵为L行2m列,L为其帧数;
2.2将帧数小于L的训练语音的特征矩阵,进行补0操作,使其特征矩阵为L行2m列;
步骤三:构造GRU-SVM深度学习模型,包括
3.1将每一个训练语音的特征序列(x1,x2...xt-1,xt)输入到具有3层隐藏层的GRU神经网络,依次计算相应的隐藏层,得到输出向量(y1,y2,...yt-1,yt);所述训练语音的特征序列(x1,x2...xt-1,xt)中,x1为训练语音的特征矩阵的第一行,x2为训练语音的特征矩阵的第二行,…,xt为训练语音的特征矩阵的第L行;
3.2将GRU的输出向量(y1,y2,...yt-1,yt)的yt输入到SVM,完成SVM回归,得到GRU-SVM深度学习模型;
步骤四:对GRU-SVM深度学习模型进行softmax的回归,对回归后的输出进行交叉熵损失的计算,并通过最小化损失的方法进行优化,得到优化后的GRU-SVM深度学习模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010034132.1A CN111243621A (zh) | 2020-01-14 | 2020-01-14 | 一种用于合成语音检测的gru-svm深度学习模型的构造方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010034132.1A CN111243621A (zh) | 2020-01-14 | 2020-01-14 | 一种用于合成语音检测的gru-svm深度学习模型的构造方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111243621A true CN111243621A (zh) | 2020-06-05 |
Family
ID=70877797
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010034132.1A Pending CN111243621A (zh) | 2020-01-14 | 2020-01-14 | 一种用于合成语音检测的gru-svm深度学习模型的构造方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111243621A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112185417A (zh) * | 2020-10-21 | 2021-01-05 | 平安科技(深圳)有限公司 | 人工合成语音检测方法、装置、计算机设备及存储介质 |
CN112967712A (zh) * | 2021-02-25 | 2021-06-15 | 中山大学 | 一种基于自回归模型系数的合成语音检测方法 |
CN113098707A (zh) * | 2021-03-16 | 2021-07-09 | 重庆邮电大学 | 边缘网络中一种虚拟网络功能需求预测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105869630A (zh) * | 2016-06-27 | 2016-08-17 | 上海交通大学 | 基于深度学习的说话人语音欺骗攻击检测方法及系统 |
US20170200451A1 (en) * | 2014-07-04 | 2017-07-13 | Intel Corporation | Replay attack detection in automatic speaker verification systems |
US20180254046A1 (en) * | 2017-03-03 | 2018-09-06 | Pindrop Security, Inc. | Method and apparatus for detecting spoofing conditions |
CN109767776A (zh) * | 2019-01-14 | 2019-05-17 | 广东技术师范学院 | 一种基于密集神经网络的欺骗语音检测方法 |
CN110491391A (zh) * | 2019-07-02 | 2019-11-22 | 厦门大学 | 一种基于深度神经网络的欺骗语音检测方法 |
-
2020
- 2020-01-14 CN CN202010034132.1A patent/CN111243621A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170200451A1 (en) * | 2014-07-04 | 2017-07-13 | Intel Corporation | Replay attack detection in automatic speaker verification systems |
CN105869630A (zh) * | 2016-06-27 | 2016-08-17 | 上海交通大学 | 基于深度学习的说话人语音欺骗攻击检测方法及系统 |
US20180254046A1 (en) * | 2017-03-03 | 2018-09-06 | Pindrop Security, Inc. | Method and apparatus for detecting spoofing conditions |
CN109767776A (zh) * | 2019-01-14 | 2019-05-17 | 广东技术师范学院 | 一种基于密集神经网络的欺骗语音检测方法 |
CN110491391A (zh) * | 2019-07-02 | 2019-11-22 | 厦门大学 | 一种基于深度神经网络的欺骗语音检测方法 |
Non-Patent Citations (5)
Title |
---|
AGARAP A F M: ""A Neural Network Architecture Combining Gated Recurrent Unit (GRU) and Support Vector Machine (SVM) for Intrusion Detection in Network Traffic Data"", 《ICMLC》 * |
ALALSHEKMUBARAK A: ""A novel approach combining recurrent neural network and support vector machines for time series classification"", 《 INNOVATIONS IN INFORMATION TECHNOLOGY 》 * |
SOORA N R: ""A neural network model for attacker detection using GRU and modified kernel of SVM"", 《INTERNATIONAL JOURNAL OF RECENT TECHNOLOGY AND ENGINEERING》 * |
ZHUXIN CHEN: ""recurrent neural networks for automatic replay spoofing attack detection"", 《ICASSP》 * |
李山路: ""重录语音检测算法"", 《信号处理》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112185417A (zh) * | 2020-10-21 | 2021-01-05 | 平安科技(深圳)有限公司 | 人工合成语音检测方法、装置、计算机设备及存储介质 |
CN112185417B (zh) * | 2020-10-21 | 2024-05-10 | 平安科技(深圳)有限公司 | 人工合成语音检测方法、装置、计算机设备及存储介质 |
CN112967712A (zh) * | 2021-02-25 | 2021-06-15 | 中山大学 | 一种基于自回归模型系数的合成语音检测方法 |
CN113098707A (zh) * | 2021-03-16 | 2021-07-09 | 重庆邮电大学 | 边缘网络中一种虚拟网络功能需求预测方法 |
CN113098707B (zh) * | 2021-03-16 | 2022-05-03 | 重庆邮电大学 | 边缘网络中一种虚拟网络功能需求预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3719798B1 (en) | Voiceprint recognition method and device based on memorability bottleneck feature | |
CN102800316B (zh) | 基于神经网络的声纹识别系统的最优码本设计方法 | |
CN102509547B (zh) | 基于矢量量化的声纹识别方法及系统 | |
CN102820033B (zh) | 一种声纹识别方法 | |
CN105096955B (zh) | 一种基于模型生长聚类的说话人快速识别方法及系统 | |
CN113488058A (zh) | 一种基于短语音的声纹识别方法 | |
CN103794207A (zh) | 一种双模语音身份识别方法 | |
CN109346084A (zh) | 基于深度堆栈自编码网络的说话人识别方法 | |
Todkar et al. | Speaker recognition techniques: A review | |
CN111785262B (zh) | 一种基于残差网络及融合特征的说话人年龄性别分类方法 | |
Poorjam et al. | Multitask speaker profiling for estimating age, height, weight and smoking habits from spontaneous telephone speech signals | |
CN112270931A (zh) | 一种基于孪生卷积神经网络进行欺骗性语音检测的方法 | |
CN111243621A (zh) | 一种用于合成语音检测的gru-svm深度学习模型的构造方法 | |
CN113539293B (zh) | 基于卷积神经网络和联合优化的单通道语音分离方法 | |
Zheng et al. | MSRANet: Learning discriminative embeddings for speaker verification via channel and spatial attention mechanism in alterable scenarios | |
Xue et al. | Cross-modal information fusion for voice spoofing detection | |
CN111968652A (zh) | 一种基于3dcnn-lstm的说话人识别方法及存储介质 | |
Awais et al. | Speaker recognition using mel frequency cepstral coefficient and locality sensitive hashing | |
Rudresh et al. | Performance analysis of speech digit recognition using cepstrum and vector quantization | |
CN102496366B (zh) | 一种与文本无关的说话人识别方法 | |
Omar et al. | Training Universal Background Models for Speaker Recognition. | |
CN103544953B (zh) | 一种基于背景噪声最小统计量特征的声音环境识别方法 | |
CN118098247A (zh) | 一种基于并行特征提取模型的声纹识别方法和系统 | |
CN100570712C (zh) | 基于锚模型空间投影序数比较的快速说话人确认方法 | |
CN116403598A (zh) | 一种基于深度嵌入特征聚类的多说话人语音分离方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200605 |