CN111816203A - 基于音素级分析抑制音素影响的合成语音检测方法 - Google Patents
基于音素级分析抑制音素影响的合成语音检测方法 Download PDFInfo
- Publication number
- CN111816203A CN111816203A CN202010572748.4A CN202010572748A CN111816203A CN 111816203 A CN111816203 A CN 111816203A CN 202010572748 A CN202010572748 A CN 202010572748A CN 111816203 A CN111816203 A CN 111816203A
- Authority
- CN
- China
- Prior art keywords
- phoneme
- speech
- ratio
- voice
- fraudulent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 15
- 238000004458 analytical method Methods 0.000 title claims description 21
- 230000002401 inhibitory effect Effects 0.000 title claims description 9
- 238000012545 processing Methods 0.000 claims abstract description 10
- 238000007476 Maximum Likelihood Methods 0.000 claims abstract description 8
- 230000000694 effects Effects 0.000 claims abstract description 7
- 239000000203 mixture Substances 0.000 claims abstract description 7
- 230000002349 favourable effect Effects 0.000 claims abstract description 4
- 238000000034 method Methods 0.000 claims description 36
- 238000012549 training Methods 0.000 claims description 17
- 238000009826 distribution Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 9
- 238000009432 framing Methods 0.000 claims description 7
- 238000007405 data analysis Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 5
- 238000012790 confirmation Methods 0.000 claims description 4
- 238000002360 preparation method Methods 0.000 claims description 4
- 230000003595 spectral effect Effects 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 2
- 239000000284 extract Substances 0.000 abstract 1
- 230000009897 systematic effect Effects 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 9
- 238000011160 research Methods 0.000 description 7
- 238000011161 development Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000007123 defense Effects 0.000 description 2
- 210000000554 iris Anatomy 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/69—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/08—Network architectures or network communication protocols for network security for authentication of entities
- H04L63/0861—Network architectures or network communication protocols for network security for authentication of entities using biometrical features, e.g. fingerprint, retina-scan
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及语音信号处理,为研究真实语音和欺诈语音在不同音素上的区别,提高自动说话人系统欺诈攻击检测的效果,本发明,基于音素级分析抑制音素影响的合成语音检测方法,使用F‑ratio对不同真实语音和欺诈语音中的不同音素的各个频段进行分析,找出更有利于鉴别真实语音和欺诈语音的频率范围,增加该频段上的滤波器密度,得到新的特征,并用该特征分别训练真实语音和欺诈语音的高斯混合模型GMM,将待识别的音频提取特征后分别输入两个模型,最后将两个模型的结果用最大似然比打分,得到最终的识别结果。本发明主要应用于语音信号处理场合。
Description
技术领域
本发明涉及模式识别,语音信号处理领域,具体是一种使用F-ratio对真实语音和合成语音的音素特征进行分析的方法,用于更高效地鉴别语音的真假。
背景技术
利用人的个性化生物特征进行个人身份鉴别如今已经被广泛地应用于生产和生活当中。个性化生物特征是指包括指纹、虹膜以及声纹在内的在一定时间内具有持续的唯一性的,且能够反映出个体与个体之间差异的生理特性。其中声纹识别(VoiceprintRecognition)技术也被称为说话人识别(Speaker Recognition)技术,它可以根据一段音频来判断音频中说话人的身份信息。声纹识别技术相较于指纹识别、人脸识别和虹膜识别等技术具有一定的优势。例如,实现成本低、操作简单等。声纹识别既不需要像指纹识别那样要用到专用的设备,也不需要像人脸识别那样要进行特定的动作,只需要简单地说一句话就可以进行身份鉴别。因此,声纹识别技术具有较高的用户认可度,市场占有率已经达到了15.8%,并且不断呈现出上升的趋势。
但是最近随着语音合成(Speech Synthetic)技术和语音转换(VoiceConversion)技术的日益成熟,很多不法分子可以利用这些技术轻易地模仿出目标说话人声学特征,进而攻破声纹识别系统的防御,盗取他人的信息和财产等。为了保护声纹识别系统不受到合成语音或转换语音的攻击,对于这些欺诈攻击的检测(Spoofing AttackDetection)技术的需求变得日益强烈起来。这项技术的研究对于声纹识别系统的推广和使用起着至关重要的作用。
目前,语音方面的国际顶级会议Interspeech每隔两年会举办针对自动说话人识别欺诈攻击与防御对策的挑战赛(Automatic Speaker Verification Spoofing andCountermeasures Challenge)。分析各支参赛队伍的策略,可以发现国内外对于这一课题的研究主要分为两个方面,分别是基于前端语音特征分析方面的研究以及基于后端分类器方面的研究。在特征方面,目前比较常用的特征包括经过常数Q变换得到的常数Q倒谱系数(Constant Q Cepstral Coefficients,CQCC)和使用线性滤波器处理得到的线性滤波器倒谱系数(Linear-Frequency Cepstral Coefficient,LFCC)等;在分类器方面,除了高斯混合模型(Gaussian Mixture Model,GMM)、线性判别分析(Linear Discriminant Analysis,LDA)以及支持向量机(Support Vector Machine,SVM)等传统的机器学习中经典的分类器之外,一些目前比较热门的深度神经网络模型也被应用于这项任务当中,比如卷积神经网络(Convolutional Neural Networks,CNN)以及循环神经网络(Recurrent NeuralNetwork,RNN)等。
Gajan Suthokumar等人在2019年的一篇研究中表明,语音发音过程中的不同音素在进行欺诈攻击鉴别时,具有不同的辨别能力,其中轻音音素的鉴别能力普遍高于浊音音素。
发明内容
为克服现有技术的不足,本发明旨在研究真实语音和欺诈语音在不同音素上的区别,提高自动说话人系统欺诈攻击检测的效果。为此,本发明采取的技术方案是,基于音素级分析抑制音素影响的合成语音检测方法,使用F-ratio对不同真实语音和欺诈语音中的不同音素的各个频段进行分析,F-ratio称为方差比检验,是通过比较类内和类间的方差,来发现各分类中的差异分布情况,通过所述分析找出更有利于鉴别真实语音和欺诈语音的频率范围,增加该频段上的滤波器密度,得到新的特征,并用该特征分别训练真实语音和欺诈语音的高斯混合模型GMM,将待识别的音频提取特征后分别输入两个模型,最后将两个模型的结果用最大似然比打分,得到最终的识别结果。
具体步骤如下:
步骤一,数据准备:
首先,对语音数据进行标注,即获取音频中的每个音素以及它们的起始时间信息,然后分别对真实语音和欺诈语音中的各个音素进行研究,使用均匀的子带滤波器来处理语音音频中的每一帧,进而获得不同音素的每一帧上各个频带的数据;
步骤二,数据分析:
对上一步获取到的数据使用音素级的F-ratio方法进行分析,某个频段上的F-ratio值用来表征该频段在鉴别真实语音和欺诈语音时的能力,F-ratio的值越大,表示这一频道上携带的可供鉴别的信息更多,鉴别能力越强,之后根据所有频道上的F-ratio值,对结果做归一化,然后以各个音素的帧数为权值,对音素的每个频带上归一化的数据做加权平均,最终得到抑制了音素影响后各个频带上的鉴别能力,结果越大表示鉴别能力越强;
步骤三,提取特征:
根据第二步的实验结果,在鉴别能力较强的区域,增加滤波器的个数,起到增加滤波器在这些区域中的密度的作用,再使用这些滤波器对经过分帧、加窗和短时傅里叶变换后的语音信号进行滤波,最后经过离散余弦变换DCT得到抑制音素影响的新特征;
步骤四,模型训练
将训练集中的音频提取特征作为输入,分别训练真实语音和欺诈语音的高斯混合模型GMM;
步骤五,打分确认
将待测语音提取到的特征分别输入进真实语音和欺诈语音的模型中进行打分,再用最大似然比分类法得出最终的结果。
步骤二,数据分析具体步骤如下:
使用基于音素的F-ratio分析方法PF(Phoneme F-ratio)对不同音素中的各个频段进行分析,PF的分析思路为计算某一音素k在第l个滤波器上不同方法之间的方差与同一方法内部的方差之比,值越高就说明不同方法在这一区域的差异性越大,PF的具体计算公式如下:
其中,T表示方法种类,Ntk表示第t个类型中第k个音素的帧数;表示第t个类型第k个音素第j帧中第l个滤波器上的数据;表示第t个类型第k个音素的每一帧第l个滤波器上的数据平均值;uk表示所有类型第k个音素的每一帧第l个滤波器上的数据平均值,和uk的公式如下:
之后对得到的PF值进行归一化处理,即可得到第l个滤波器频带上音素的F-ratio贡献率PFC(Phoneme F-ratio Contribution),其计算公式如下:
其中L为均匀的子带滤波器个数;计算得到的PFC可以反映出不同音素中,用于鉴别欺诈语音的信息的频率分布,接下来对各音素的PFC根据其帧数进行加权平均,得到整体F-ratio值GF(General F-ratio),其计算公式如下:
其中P是所有音素的总数,N为所有音素的总帧数,N的计算公式如下:
对计算出的GF再进行归一化处理,可以得到抑制音素影响的欺诈攻击信息分布PESSDID(Phoneme Effect Suppressed Spoof Detection Information Distribution),其计算公式如下:
这里滤波器l的PESSDID的值越高,说明该滤波器的频段上的可以用于鉴别欺诈攻击的信息越多。
步骤三,提取特征步骤中:
除了滤波器分布的区别外,其他特征提取的过程包括:使用滤波器前的步骤包括预加重、分帧和加窗,再经过短时傅里叶变化,得到每一帧的频谱特征,之后用滤波器对频谱特征进行处理,处理后再经过DCT变换,得到最终的特征。
本发明的特点及有益效果是:
本发明使用F-ratio的方法,对声纹识别系统面对的欺诈攻击语音与真实语音在不同音素上的差异进行了分析,找到了有助于鉴别欺诈语音的信息在频率上的分布。根据分析结果,通过改进滤波器设计出了一个可以抑制不同音素在识别任务中的影响的新特征。在ASVspoof2019的测试集上进行初步实验,得到的等错误率(Equal Error Rate,EER)为4.16%,相较于常用的LFCC特征(基线系统EER为8.09%)在错误率上有了48.58%的提升。
附图说明:
图1为基于F-ratio分析的抑制音素影响的欺诈攻击检测特征提取流程图。
图2为基于F-ratio分析得到的抑制音素影响的滤波器分布示意图。
具体实施方式
本发明的目的在于研究真实语音和欺诈语音在不同音素上的区别,使用F-ratio的方法对每个因素的不同频段进行对比分析,找出每个因素更有利于鉴别欺诈语音的频段,进而加大特征提取是在这些频段上的滤波器密度,最后得到一个更为鲁棒的个性化特征,提高自动说话人系统欺诈攻击检测的效果。
实现本发明目的的技术解决方案为:
基于F-ratio分析的抑制音素影响的合成语音检测方法。使用F-ratio对不同真实语音和欺诈语音中的不同音素的各个频段进行分析,找出更有利于鉴别真实语音和欺诈语音的频率范围,增加该频段上的滤波器密度,得到新的特征,并用该特征分别训练真实语音和欺诈语音的高斯混合模型(GMM),将待识别的音频提取特征后分别输入两个模型,最后将两个模型的结果用最大似然比打分,得到最终的识别结果。
系统的实现包括以下步骤:
步骤一,数据准备:
首先,对语音数据进行标注,即获取音频中的每个音素以及它们的起始时间等信息。然后分别对真实语音和欺诈语音中的各个音素进行研究。使用均匀的子带滤波器来处理语音音频中的每一帧,进而获得不同音素的每一帧上各个频带的数据。
步骤二,数据分析:
对上一步获取到的数据使用F-ratio的方法进行分析,某个频段上的F-ratio值可以用来表征该频段在鉴别真实语音和欺诈语音时的能力,F-ratio的值越大,表示这一频道上携带的可供鉴别的信息更多,鉴别能力越强。之后根据所有频道上的F-ratio值,对结果做归一化,然后以各个音素的帧数为权值,对音素的每个频带上归一化的数据做加权平均,最终得到抑制了音素影响后各个频带上的鉴别能力,结果越大表示鉴别能力越强。
步骤三,提取特征:
根据第二步的实验结果,在鉴别能力较强的区域,适当增加滤波器的个数,起到增加滤波器在这些区域中的密度的作用。再使用这些滤波器对经过分帧、加窗和短时傅里叶变换后的语音信号进行滤波,最后经过离散余弦变换(DCT)得到抑制音素影响的新特征。
步骤四,模型训练
将训练集中的音频提取特征作为输入,分别训练真实语音和欺诈语音的GMM模型。
步骤五,打分确认
将待测语音提取到的特征分别输入进真实语音和欺诈语音的模型中进行打分,再用最大似然比分类法得出最终的结果。
下面结合附图来描述本发明实施的基于F-ratio分析的抑制音素影响的合成语音检测方法,主要包含以下步骤:
步骤一,数据准备:
为了验证本发明的效果,在ASVSpoof2019比赛的数据库上进行欺诈攻击检测实验。ASVSpoof2019数据库,包括训练集,开发集和测试集三部分,其中训练集和开发集中包括了7种语音合成和语音转换的欺诈攻击算法,而测试集中包括了12种与训练集和开发集中不同的欺诈攻算法。数据库中所有音频的采样率均为16KHz。由于赛方并未提供数据库中音频对应的文本信息,这里我们使用了一套语音识别系统,对训练集中的25380个音频中的说话内容进行了识别。之后通过语音标注的工具,对这些音频中的音素信息进行了提取。然后使用均匀的子带滤波器来处理语音音频中的每一帧,进而获得不同音素的每一帧上各个频带的数据。
步骤二,数据分析:
这里使用基于音素级F-ratio(Phoneme F-ratio,PF)的方法对不同音素中的各个频段进行分析,PF的分析思路为计算某一音素k在第l个滤波器上不同方法之间的方差与同一方法内部的方差之比,值越高就说明不同方法在这一区域的差异性越大,PF的具体计算公式如下:
其中,T表示方法种类,这里只分成了真实语音和欺诈语音两种,所以T为2;Ntk表示第t个类型中第k个音素的帧数;表示第t个类型第k个音素第j帧中第l个滤波器上的数据;表示第t个类型第k个音素的每一帧第l个滤波器上的数据平均值;uk表示所有类型第k个音素的每一帧第l个滤波器上的数据平均值。和uk的公式如下:
之后对得到的PF值进行归一化处理,即可得到第l个滤波器频带上音素的F-ratio贡献率(Phoneme F-ratio Contribution,PFC),其计算公式如下:
其中L为均匀的子带滤波器个数;计算得到的PFC可以反映出不同音素中,用于鉴别欺诈语音的信息的频率分布。接下来为了抑制不同音素的差异在说话人识别过程中影响,对各音素的PFC根据其帧数进行加权平均,得到整体F-ratio值(General F-ratio,GF),其计算公式如下:
其中P是所有音素的总数,N为所有音素的总帧数,N的计算公式如下:
对计算出的GF再进行归一化处理,可以得到抑制音素影响的欺诈攻击信息分布(Phoneme Effect Suppressed Spoof Detection Information Distribution,PESSDID),其计算公式如下:
这里滤波器l的PESSDID的值越高,说明该滤波器的频段上的可以用于鉴别欺诈攻击的信息越多。
步骤三,提取特征:
根据上一步得到的分布情况,我们进行本发明提出的新特征的滤波器设计,其中在信息较多的频段适当增加滤波器的个数,在信息较少的频段,适当减少滤波器的个数,调整后的滤波器可见附图-2。除了滤波器分布的区别外,其他特征提取的过程与传统方法相同,使用滤波器前的步骤包括预加重、分帧和加窗,再经过短时傅里叶变化,得到每一帧的频谱特征,之后用滤波器对频谱特征进行处理,处理后再经过DCT变换等,可以得到最终的特征。
步骤四,模型训练
训练模型时,对于训练集中的语音,不再需要进行语音标注,直接用新的特征提取方法对原始音频进行处理即可。根据训练集中音频的真假标签,将得到的特征分别用于训练真实语音的GMM模型和欺诈语音的GMM模型。
步骤五,打分确认
将待测音频进行分帧等处理后提取出新的特征后,将特征分别输入到真实语音和欺诈语音的GMM模型中进行打分。具体方法是,将一个音频的每一帧逐个输入给一个GMM模型,得到一个相似度的打分,然后将所有帧的结果取平均,作为该音频在该GMM模型中的打分结果。最后用最大似然比的方法,计算待测音频在两个模型中的得分,然后得出最终的结果。
实验的结果采用等错误率(EER)进行评估,等错误率表示错误接收率(FAR)与错误拒绝率(FRR)相等时的错误率。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种基于音素级分析抑制音素影响的合成语音检测方法,其特征是,使用F-ratio对不同真实语音和欺诈语音中的不同音素的各个频段进行分析,F-ratio称为方差比检验,是通过比较类内和类间的方差,来发现各分类中的差异分布情况,通过所述分析找出更有利于鉴别真实语音和欺诈语音的频率范围,增加该频段上的滤波器密度,得到新的特征,并用该特征分别训练真实语音和欺诈语音的高斯混合模型GMM,将待识别的音频提取特征后分别输入两个模型,最后将两个模型的结果用最大似然比打分,得到最终的识别结果。
2.如权利要求1所述的基于音素级分析抑制音素影响的合成语音检测方法,其特征是,具体步骤如下:
步骤一,数据准备:
首先,对语音数据进行标注,即获取音频中的每个音素以及它们的起始时间信息,然后分别对真实语音和欺诈语音中的各个音素进行研究,使用均匀的子带滤波器来处理语音音频中的每一帧,进而获得不同音素的每一帧上各个频带的数据;
步骤二,数据分析:
对上一步获取到的数据使用音素级的F-ratio方法进行分析,某个频段上的F-ratio值用来表征该频段在鉴别真实语音和欺诈语音时的能力,F-ratio的值越大,表示这一频道上携带的可供鉴别的信息更多,鉴别能力越强,之后根据所有频道上的F-ratio值,对结果做归一化,然后以各个音素的帧数为权值,对音素的每个频带上归一化的数据做加权平均,最终得到抑制了音素影响后各个频带上的鉴别能力,结果越大表示鉴别能力越强;
步骤三,提取特征:
根据第二步的实验结果,在鉴别能力较强的区域,增加滤波器的个数,起到增加滤波器在这些区域中的密度的作用,再使用这些滤波器对经过分帧、加窗和短时傅里叶变换后的语音信号进行滤波,最后经过离散余弦变换DCT得到抑制音素影响的新特征;
步骤四,模型训练
将训练集中的音频提取特征作为输入,分别训练真实语音和欺诈语音的高斯混合模型GMM;
步骤五,打分确认
将待测语音提取到的特征分别输入进真实语音和欺诈语音的模型中进行打分,再用最大似然比分类法得出最终的结果。
3.如权利要求2所述的基于音素级分析抑制音素影响的合成语音检测方法,其特征是,步骤二,数据分析具体步骤如下:
使用基于音素的F-ratio分析方法PF(Phoneme F-ratio)对不同音素中的各个频段进行分析,PF的分析思路为计算某一音素k在第l个滤波器上不同方法之间的方差与同一方法内部的方差之比,值越高就说明不同方法在这一区域的差异性越大,PF的具体计算公式如下:
其中,T表示方法种类,Ntk表示第t个类型中第k个音素的帧数;表示第t个类型第k个音素第j帧中第l个滤波器上的数据;表示第t个类型第k个音素的每一帧第l个滤波器上的数据平均值;uk表示所有类型第k个音素的每一帧第l个滤波器上的数据平均值,和uk的公式如下:
之后对得到的PF值进行归一化处理,即可得到第l个滤波器频带上音素的F-ratio贡献率PFC(Phoneme F-ratio Contribution),其计算公式如下:
其中L为均匀的子带滤波器个数;计算得到的PFC可以反映出不同音素中,用于鉴别欺诈语音的信息的频率分布,接下来对各音素的PFC根据其帧数进行加权平均,得到整体F-ratio值GF(General F-ratio),其计算公式如下:
其中P是所有音素的总数,N为所有音素的总帧数,N的计算公式如下:
对计算出的GF再进行归一化处理,可以得到抑制音素影响的欺诈攻击信息分布PESSDID(Phoneme Effect Suppressed Spoof Detection Information Distribution),其计算公式如下:
这里滤波器l的PESSDID的值越高,说明该滤波器的频段上的可以用于鉴别欺诈攻击的信息越多。
4.如权利要求2所述的基于音素级分析抑制音素影响的合成语音检测方法,其特征是,步骤三,提取特征步骤中:除了滤波器分布的区别外,其他特征提取的过程包括:使用滤波器前的步骤包括预加重、分帧和加窗,再经过短时傅里叶变化,得到每一帧的频谱特征,之后用滤波器对频谱特征进行处理,处理后再经过DCT变换,得到最终的特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010572748.4A CN111816203A (zh) | 2020-06-22 | 2020-06-22 | 基于音素级分析抑制音素影响的合成语音检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010572748.4A CN111816203A (zh) | 2020-06-22 | 2020-06-22 | 基于音素级分析抑制音素影响的合成语音检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111816203A true CN111816203A (zh) | 2020-10-23 |
Family
ID=72845402
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010572748.4A Pending CN111816203A (zh) | 2020-06-22 | 2020-06-22 | 基于音素级分析抑制音素影响的合成语音检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111816203A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112349267A (zh) * | 2020-10-28 | 2021-02-09 | 天津大学 | 基于注意力机制特征的合成语音检测方法 |
CN113257255A (zh) * | 2021-07-06 | 2021-08-13 | 北京远鉴信息技术有限公司 | 一种伪造语音的识别方法、装置、电子设备及存储介质 |
CN113362814A (zh) * | 2021-08-09 | 2021-09-07 | 中国科学院自动化研究所 | 一种融合组合模型信息的语音鉴别模型压缩方法 |
CN113488074A (zh) * | 2021-08-20 | 2021-10-08 | 四川大学 | 一种音频信号的长时变q时频转换算法及其应用 |
CN114550704A (zh) * | 2022-01-26 | 2022-05-27 | 浙江大学 | 一种语音对抗样本识别模型训练方法及系统 |
CN114822587A (zh) * | 2021-01-19 | 2022-07-29 | 四川大学 | 一种基于常数q变换的音频特征压缩方法 |
CN114550704B (zh) * | 2022-01-26 | 2024-11-19 | 浙江大学 | 一种语音对抗样本识别模型训练方法及系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4829572A (en) * | 1987-11-05 | 1989-05-09 | Andrew Ho Chung | Speech recognition system |
JPH02252000A (ja) * | 1989-03-27 | 1990-10-09 | Nippon Telegr & Teleph Corp <Ntt> | 波形素片作成方法 |
GB9709696D0 (en) * | 1996-05-15 | 1997-07-02 | Atr Intrepreting Telecommunica | Speech synthesizer apparatus |
US6173263B1 (en) * | 1998-08-31 | 2001-01-09 | At&T Corp. | Method and system for performing concatenative speech synthesis using half-phonemes |
AU2001285721A1 (en) * | 2000-09-06 | 2002-03-22 | Pharmexa A/S | Method for down-regulating IgE |
US6366883B1 (en) * | 1996-05-15 | 2002-04-02 | Atr Interpreting Telecommunications | Concatenation of speech segments by use of a speech synthesizer |
GB0219870D0 (en) * | 2002-08-27 | 2002-10-02 | 20 20 Speech Ltd | Speech synthesis apparatus and method |
KR20030081537A (ko) * | 2002-04-11 | 2003-10-22 | 주식회사 언어과학 | 음소별 오류유형 검출시스템 및 방법과 이를 적용한발음교정 시스템 및 방법 |
CN101930733A (zh) * | 2010-09-03 | 2010-12-29 | 中国科学院声学研究所 | 一种用于语音情感识别的语音情感特征提取方法 |
CN107680602A (zh) * | 2017-08-24 | 2018-02-09 | 平安科技(深圳)有限公司 | 语音欺诈识别方法、装置、终端设备及存储介质 |
CN109448759A (zh) * | 2018-12-28 | 2019-03-08 | 武汉大学 | 一种基于气爆音的抗语音认证欺骗攻击检测方法 |
-
2020
- 2020-06-22 CN CN202010572748.4A patent/CN111816203A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4829572A (en) * | 1987-11-05 | 1989-05-09 | Andrew Ho Chung | Speech recognition system |
JPH02252000A (ja) * | 1989-03-27 | 1990-10-09 | Nippon Telegr & Teleph Corp <Ntt> | 波形素片作成方法 |
GB9709696D0 (en) * | 1996-05-15 | 1997-07-02 | Atr Intrepreting Telecommunica | Speech synthesizer apparatus |
US6366883B1 (en) * | 1996-05-15 | 2002-04-02 | Atr Interpreting Telecommunications | Concatenation of speech segments by use of a speech synthesizer |
US6173263B1 (en) * | 1998-08-31 | 2001-01-09 | At&T Corp. | Method and system for performing concatenative speech synthesis using half-phonemes |
AU2001285721A1 (en) * | 2000-09-06 | 2002-03-22 | Pharmexa A/S | Method for down-regulating IgE |
KR20030081537A (ko) * | 2002-04-11 | 2003-10-22 | 주식회사 언어과학 | 음소별 오류유형 검출시스템 및 방법과 이를 적용한발음교정 시스템 및 방법 |
GB0219870D0 (en) * | 2002-08-27 | 2002-10-02 | 20 20 Speech Ltd | Speech synthesis apparatus and method |
CN101930733A (zh) * | 2010-09-03 | 2010-12-29 | 中国科学院声学研究所 | 一种用于语音情感识别的语音情感特征提取方法 |
CN107680602A (zh) * | 2017-08-24 | 2018-02-09 | 平安科技(深圳)有限公司 | 语音欺诈识别方法、装置、终端设备及存储介质 |
CN109448759A (zh) * | 2018-12-28 | 2019-03-08 | 武汉大学 | 一种基于气爆音的抗语音认证欺骗攻击检测方法 |
Non-Patent Citations (4)
Title |
---|
GAJAN SUTHOKUMAR ET AL.: "PHONEME SPECIFIC MODELLING AND SCORING TECHNIQUES FOR ANTI SPOOFING SYSTEM", 《2019 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》, pages 6106 - 6110 * |
张健;徐杰;包秀国;周若华;颜永红;: "应用于语种识别的加权音素对数似然比特征", 清华大学学报(自然科学版), no. 10 * |
玄成君: "基于语音频率特性抑制音素影响的说话人特征提取", 《中国博士学位论文全文数据库信息科技辑(月刊)》, pages 38 - 51 * |
陈霄鹏;彭亚雄;贺松;: "基于PLDA的说话人识别时变鲁棒性问题研究", 微型机与应用, no. 05 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112349267A (zh) * | 2020-10-28 | 2021-02-09 | 天津大学 | 基于注意力机制特征的合成语音检测方法 |
CN112349267B (zh) * | 2020-10-28 | 2023-03-21 | 天津大学 | 基于注意力机制特征的合成语音检测方法 |
CN114822587A (zh) * | 2021-01-19 | 2022-07-29 | 四川大学 | 一种基于常数q变换的音频特征压缩方法 |
CN114822587B (zh) * | 2021-01-19 | 2023-07-14 | 四川大学 | 一种基于常数q变换的音频特征压缩方法 |
CN113257255A (zh) * | 2021-07-06 | 2021-08-13 | 北京远鉴信息技术有限公司 | 一种伪造语音的识别方法、装置、电子设备及存储介质 |
CN113362814A (zh) * | 2021-08-09 | 2021-09-07 | 中国科学院自动化研究所 | 一种融合组合模型信息的语音鉴别模型压缩方法 |
CN113362814B (zh) * | 2021-08-09 | 2021-11-09 | 中国科学院自动化研究所 | 一种融合组合模型信息的语音鉴别模型压缩方法 |
CN113488074A (zh) * | 2021-08-20 | 2021-10-08 | 四川大学 | 一种音频信号的长时变q时频转换算法及其应用 |
CN113488074B (zh) * | 2021-08-20 | 2023-06-23 | 四川大学 | 一种用于检测合成语音的二维时频特征生成方法 |
CN114550704A (zh) * | 2022-01-26 | 2022-05-27 | 浙江大学 | 一种语音对抗样本识别模型训练方法及系统 |
CN114550704B (zh) * | 2022-01-26 | 2024-11-19 | 浙江大学 | 一种语音对抗样本识别模型训练方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111816203A (zh) | 基于音素级分析抑制音素影响的合成语音检测方法 | |
CN108986824B (zh) | 一种回放语音检测方法 | |
EP0822539B1 (en) | Two-staged cohort selection for speaker verification system | |
CN108922541B (zh) | 基于dtw和gmm模型的多维特征参数声纹识别方法 | |
WO2006024117A1 (en) | Method for automatic speaker recognition | |
CN111429935B (zh) | 一种语音话者分离方法和装置 | |
JPH11507443A (ja) | 話者確認システム | |
WO1998038632A1 (en) | Method and system for establishing handset-dependent normalizing models for speaker recognition | |
CN110931022A (zh) | 基于高低频动静特征的声纹识别方法 | |
Wang et al. | Speaker segmentation using deep speaker vectors for fast speaker change scenarios | |
Wildermoth et al. | GMM based speaker recognition on readily available databases | |
CN112349267B (zh) | 基于注意力机制特征的合成语音检测方法 | |
US20220108702A1 (en) | Speaker recognition method | |
Dutta | Dynamic time warping based approach to text-dependent speaker identification using spectrograms | |
Jayanna et al. | Multiple frame size and rate analysis for speaker recognition under limited data condition | |
Jayanna et al. | Fuzzy vector quantization for speaker recognition under limited data conditions | |
Zeinali et al. | Spoken pass-phrase verification in the i-vector space | |
Wang et al. | Robust Text-independent Speaker Identification in a Time-varying Noisy Environment. | |
Piotrowski et al. | Subscriber authentication using GMM and TMS320C6713DSP | |
Hu et al. | Fusion of two classifiers for speaker identification: removing and not removing silence | |
Komlen et al. | Text independent speaker recognition using LBG vector quantization | |
US11615800B2 (en) | Speaker recognition method and system | |
PS et al. | Text independent speaker identification: a review | |
Phyu et al. | Building Speaker Identification Dataset for Noisy Conditions | |
Phyu et al. | Text Independent Speaker Identification for Myanmar Speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201023 |
|
RJ01 | Rejection of invention patent application after publication |