CN116705063B - 一种基于流形测度的多模型融合的语音鉴伪识别方法 - Google Patents
一种基于流形测度的多模型融合的语音鉴伪识别方法 Download PDFInfo
- Publication number
- CN116705063B CN116705063B CN202310979700.9A CN202310979700A CN116705063B CN 116705063 B CN116705063 B CN 116705063B CN 202310979700 A CN202310979700 A CN 202310979700A CN 116705063 B CN116705063 B CN 116705063B
- Authority
- CN
- China
- Prior art keywords
- fake
- manifold
- voice
- training
- models
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000004927 fusion Effects 0.000 title claims abstract description 26
- 238000005259 measurement Methods 0.000 title claims description 13
- 238000012360 testing method Methods 0.000 claims abstract description 72
- 238000007781 pre-processing Methods 0.000 claims abstract description 29
- 238000006243 chemical reaction Methods 0.000 claims abstract description 17
- 238000012549 training Methods 0.000 claims description 101
- 238000012795 verification Methods 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000012952 Resampling Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 2
- 238000012850 discrimination method Methods 0.000 claims 1
- 238000001514 detection method Methods 0.000 abstract description 8
- 230000006872 improvement Effects 0.000 abstract description 4
- 230000000295 complement effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000005242 forging Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Collating Specific Patterns (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
本发明提出了一种基于流形测度的多模型融合的语音鉴伪识别方法,方法包括:对测试语音进行预处理;再将测试语音输入到至少两个鉴伪模型,并获取输出的与鉴伪模型数量匹配的鉴伪特征;将鉴伪特征串联后进行ONPE变换,构建得到测试语音的流形空间;度量测试语音的流形空间与预先配置的用于表征不同伪造手段的语音流形空间之间的测地线距离,作为识别相似度得分;将识别相似度得分与预先配置的判别阈值进行比对,根据比对结果确定鉴伪结果。本发明通过融合多模型的深层嵌入特征、构建不同手段伪造语音的流形空间、度量不同空间的测地线距离作为识别相似度得分,从而实现鉴伪模型泛化性能的提升、以及开集条件下的语音真伪检测及伪造手段识别。
Description
技术领域
本发明涉及语音识别技术领域,尤其涉及一种基于流形测度的多模型融合的语音鉴伪识别方法。
背景技术
当前,语音深度伪造技术手段日新月异、伪造水平愈发成熟,且为了提升伪造语音的抗鉴别检测能力以及伪造语音的逼真度,伪造语音中往往掺杂着一些背景环境声音。近几年的语音鉴伪相关的国际比赛中也模拟发布了相关的挑战内容,如在ASVSpoof2021 LA赛道中,评估数据集中包含了编解码方式、传输信道等方面的泛化挑战;在ADD2023Track1.2 语音真伪检测和Track 3伪造手段识别的评估数据集中,包含了音乐、流水、多人说话、鸣笛、混响等多种复杂噪声背景干扰。这样的现状,一方面,在鉴伪模型训练阶段难以获取到所有可能的伪造手段下的数据,导致出现开集识别问题;另一方面,伪造时添加的背景环境声也大大降低了训练数据与测试数据的匹配度,导致鉴伪模型在实际应用中的泛化应用问题。由此出现在训练阶段由验证数据集测试的模型性能很好,而在实际应用的测试数据集下模型性能却较差。
发明内容
本发明要解决的技术问题是,如何克服干扰,实现开集条件下的语音真伪检测及伪造手段识别,并提升鉴伪模型的泛化能力。有鉴于此,本发明提供一种基于流形测度的多模型融合的语音鉴伪识别方法。
本发明采用的技术方案是,所述一种基于流形测度的多模型融合的语音鉴伪识别方法,包括:
步骤S1,对测试语音进行预处理;
步骤S2,将预处理后的测试语音输入到至少两个鉴伪模型,并获取输出的与鉴伪模型数量匹配的至少两组鉴伪特征;
步骤S3,将所述鉴伪特征串联后进行ONPE变换,构建得到测试语音的流形空间;
步骤S4,度量所述测试语音的流形空间与预先配置的用于表征不同伪造手段的语音流形空间之间的测地线距离,作为识别相似度得分;
步骤S5,将得到的识别相似度得分与预先配置的判别阈值进行比对,根据比对结果确定鉴伪结果。
在一个实施方式中,所述对测试语音进行预处理,包括:将测试语音依次进行如下操作:重采样到16kHz、去零偏、幅值归一化、加重、分段。
在一个实施方式中,所述至少两个鉴伪模型具体包括两种类型:以LFCC特征为输入、SE-Res2Net50为学习网络的鉴伪模型,和以原始信号为输入、预训练模型HuBERT为学习网络的鉴伪模型。
在一个实施方式中,所述以LFCC特征为输入、SE-Res2Net50为学习网络的鉴伪模型,具体通过以下步骤训练得到:
对预先获取的的C种伪造手段下的训练语音数据进行预处理操作;
对预处理后的训练语音数据提取LFCC特征;
将提取的LFCC特征输入给SE-Res2Net50网络,输出256维的鉴伪特征;
将所述鉴伪特征依次输入给(256,C)的全连接层、softmax层,输出识别的伪造手段标签;
以交叉熵作为训练损失函数进行W轮训练,得到W个鉴伪模型。
在一个实施方式中,所述以原始信号为输入、预训练模型HuBERT为学习网络的鉴伪模型,具体通过以下步骤训练得到:
对事先准备好的C种伪造手段下的训练语音数据进行预处理操作;
将预处理后的训练语音数据作为预训练模型HuBERT的输入,并通过一个(1024,256)的全连接层,输出256维的鉴伪特征;
将鉴伪特征依次输入给(256,C)的全连接层、softmax层,输出识别的伪造手段标签;
以交叉熵作为训练损失函数进行V轮训练,得到V个鉴伪模型。
在一个实施方式中,所述至少两个鉴伪模型,是从W+V个鉴伪模型中通过以下步骤优选得到:
对事先准备好的C种伪造手段下的验证语音数据进行预处理操作;
将预处理后的验证语音数据依次作为训练后的W+V个模型的输入,输出识别标签;
根据验证语音数据的真实标签和识别标签,依次计算W+V个模型的F1-score指标并降序排序;
取前M个F1-score对应的模型,作为M个优选的鉴伪模型。
在一个实施方式中,所述预先配置的用于表征不同伪造手段的语音流形空间,通过以下步骤得到:
对预先配置的C种伪造手段下的训练语音数据进行预处理操作;
对每种伪造手段下预处理后的训练语音数据依次作为M个优选的鉴伪模型的输入,输出M组鉴伪特征;
将每种伪造手段下的M组鉴伪特征串联后作为ONPE变换的输入特征矩阵,输出该伪造手段的流形空间。
在一个实施方式中,所述识别相似度得分,通过以下步骤计算得到:
确定测试数据流形空间与训练数据各个流形空间之间的测地线距离,并通过以下公式计算得到最终的相似度得分:
公式中,为测试数据x与伪造手段i的识别相似度,/>代表测试数据流形空间与伪造手段i的流形空间的测地线距离。
在一个实施方式中,所述判别阈值通过下述步骤确定:
对事先准备好的C种伪造手段下的语音数据,每次随机抽取一种伪造手段下的数据作为未知伪造手段,使用余下的C-1种已知伪造手段下的语音数据训练得到鉴伪模型;
将C种伪造手段下的语音数据输入给训练好的鉴伪模型,输出对应的识别相似度得分;
设判别阈值为T,当输入语音数据的识别相似度得分小于T时,判定其识别标签为未知伪造数据;而当输入语音数据的识别相似度得分大于T时,判定相似度得分对应的类别标签即为识别标签;
调整判别阈值T,使得模型对C-1种已知伪造手段和未知伪造手段下的音频识别的F1-score值最佳。
本发明的另一方面还提供了一种电子设备,所述电子设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上任一项所述的基于流形测度的多模型融合的语音鉴伪识别方法的步骤。
采用上述技术方案,本发明至少具有下列优点:
本发明提供的基于流形测度的多模型融合的语音鉴伪识别方法,通过融合多模型的深层嵌入特征、构建不同手段伪造语音的流形空间、度量不同空间的测地线距离作为识别相似度得分,从而实现鉴伪模型泛化性能的提升、以及开集条件下的语音真伪检测及伪造手段识别。
附图说明
图1为根据本发明实施例的基于流形测度的多模型融合的语音鉴伪识别方法流程图;
图2为根据本发明实施例的语音鉴伪及伪造手段鉴别器训练的流程示意图;
图3为根据本发明实施例的语音鉴伪及伪造手段鉴别的流程示意图;
图4为根据本发明实施例的HuBERT类和SE-Res2Net50类模型提取的嵌入特征的散点图;
图5为根据本发明实施例的基于流形测度的多模型融合的语音鉴伪识别装置的组成结构示意图;
图6为根据本发明实施例的电子设备构成示意图。
具体实施方式
为更进一步阐述本发明为达成预定目的所采取的技术手段及功效,以下结合附图及较佳实施例,对本发明进行详细说明如后。
应理解,用语“包括”、“包括有”、“具有”、“包含”和/或“包含有”,当在本说明书中使用时表示存在所陈述的特征、整体、步骤、操作、元件和/或部件,但不排除存在或附加有一个或多个其它特征、整体、步骤、操作、元件、部件和/或它们的组合。此外,当诸如“...中的至少一个”的表述出现在所列特征的列表之后时,修饰整个所列特征,而不是修饰列表中的单独元件。此外,当描述本申请的实施方式时,使用“可以”表示“本申请的一个或多个实施方式”。并且,用语“示例性的”旨在指代示例或举例说明。
如在本文中使用的,用语“基本上”、“大约”以及类似的用语用作表近似的用语,而不用作表程度的用语,并且旨在说明将由本领域普通技术人员认识到的、测量值或计算值中的固有偏差。
除非另外限定,否则本文中使用的所有用语(包括技术用语和科学用语)均具有与本申请所属领域普通技术人员的通常理解相同的含义。还应理解的是,用语(例如在常用词典中定义的用语)应被解释为具有与它们在相关技术的上下文中的含义一致的含义,并且将不被以理想化或过度正式意义解释,除非本文中明确如此限定。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。本发明中说明书中对方法流程的描述及本发明说明书附图中流程图的步骤并非必须按步骤标号严格执行,方法步骤是可以改变执行顺序的。而且,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
本发明中说明书中对方法流程的描述及本发明说明书附图中流程图的步骤并非必须按步骤标号严格执行,方法步骤是可以改变执行顺序的。而且,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
本发明第一实施例,一种基于流形测度的多模型融合的语音鉴伪识别方法,包括以下具体步骤:
步骤S1,对测试语音进行预处理;
步骤S2,将预处理后的测试语音输入到至少两个鉴伪模型,并获取输出的与鉴伪模型数量匹配的至少两组鉴伪特征;
步骤S3,将鉴伪特征串联后进行ONPE变换,构建得到测试语音的流形空间;
步骤S4,度量测试语音的流形空间与预先配置的用于表征不同伪造手段的语音流形空间之间的测地线距离,作为识别相似度得分;
步骤S5,将得到的识别相似度得分与预先配置的判别阈值进行比对,根据比对结果确定鉴伪结果。
为了便于理解,本实施例所提供方法的整体思路为:在模型训练阶段,基于C种伪造手段下的语音数据训练两种类型的鉴伪模型:以LFCC特征为输入、SE-Res2Net50为学习网络的鉴伪模型,和以原始信号为输入、预训练模型HuBERT为学习网络的鉴伪模型;并从训练得到的众多模型中优选出性能最佳的M个鉴伪模型;以鉴伪模型中间层的输出作为鉴伪特征,通过将不同鉴伪模型输出的鉴伪特征串联后进行ONPE变换,得到多模型融合后的流形空间。对C种伪造手段的语音数据分别构建C个流形空间。在模型应用时,首先,将测试数据输入给训练阶段优选出的M个鉴伪模型,得到测试数据的鉴伪特征,而后进行ONPE变换得到测试数据的流形空间,分别计算该流形空间与训练数据的C个流形空间的测地线距离,并通过距离变换得到测试数据与C种伪造手段间的相似度得分,通过与判定阈值比对,得到测试数据的鉴伪结果:真或假,如果判定为假,还可继续确认具体的伪造手段标签。
下面将基于图1,对本实施例所提供的方法进行详细说明。
S1,对测试语音进行预处理;
由于在实际应用中,待鉴别的测试语音的采样率、零偏情况、幅值大小、音频时长等属性均存在不确定性,为了保证鉴伪模型的通用性,首先对测试语音进行规整、分段等操作,将所有测试语音统一到同样的格式,以便于模型后续的处理。本发明中,将采样率统一到16kHz,并进行去零偏、幅值归一化、加重、分段操作。在具体应用场景下,分段的段长和段移可根据实际情况调整,在本实施例中以段长3秒,段移1.5秒为例说明。
S2,将预处理后的测试语音输入到至少两个鉴伪模型,并获取输出的与鉴伪模型数量匹配的至少两组鉴伪特征;
为了便于说明,下文将以M指代鉴伪模型的数量,其中M不小于2。
在具体应用场景下,M个鉴伪模型具体包括两种类型:以LFCC特征为输入、SE-Res2Net50为学习网络的鉴伪模型,和以原始信号为输入、预训练模型HuBERT为学习网络的鉴伪模型。
选取这两种类型模型的原因主要在于:在语音鉴伪领域,语音特征往往会影响鉴伪模型的性能。常用的特征包括线性频率倒谱系数(LFCC, Linear Frequency CepstralCoefficient)、常数Q变换倒谱系数(CQCC, Constant-Q Cepstral Coefficient)、梅尔倒谱系数(MFCC,Mel-FrequencyCepstral Coefficient)等,不同特征对后端分类器的搭配效果也不同,其中,我们在前期研究中验证了LFCC特征与残差网络SE-Res2Net50的结合具有良好的鉴伪性能,相比于其他手工特征,LFCC特征在捕捉真实语音与伪造语音高频段的差异性方面具有明显优势。SE-Res2Net50网络由SE模块和Res2Net50网络融合而成。由于实际应用的场景环境开放,存在很多训练阶段难以预知的背景噪声,因此,基于大规模数据预训练特征提取器成为语音识别等应用中一种新兴的解决方案。典型的预训练特征提取器包括Wav2Vec2.0、WavLM、HuBERT等。其中,预训练模型HuBERT(Hidden-Unit BERT),是一个基于BERT的自监督语音表示学习模型,由Facebook提出,在ASR任务中性能表现优异。作为一种自监督模型,HuBERT在预训练过程中没有固定标签,由模型自助学习映射关系,也因此,相对于传统模型训练过程中以语音的单词、因素或说话人信息等作为标签,HuBERT预训练模型的泛化能力比较强。由此,为了综合利用LFCC特征和预训练特征的鉴伪信息,本公开提出了LFCC+SE-Res2Net50与预训练模型HuBERT相结合的鉴伪路线。
在具体应用场景下,所述预训练模型HuBERT可以选择chinese-hubert-large模型,该模型基于WenetSpeech train L数据集训练得到,该数据集以1万小时中文数据作为无监督预训练数据。
在具体应用场景下,以LFCC特征为输入、SE-Res2Net50为学习网络的鉴伪模型,具体通过以下步骤训练得到,参见图2左侧流程图:
对事先准备好的C种伪造手段下的训练语音数据进行预处理操作;
对预处理后的训练语音数据提取LFCC特征;
将提取的LFCC特征输入给SE-Res2Net50网络,输出256维的鉴伪特征;
将鉴伪特征依次输入给(256,C)的全连接层、softmax层,输出识别的伪造手段标签;
以交叉熵作为训练损失函数进行W轮训练,得到W个鉴伪模型。
在具体应用场景下,所述以原始信号为输入、预训练模型HuBERT为学习网络的鉴伪模型,具体通过以下步骤训练得到,参见图2右侧流程图:
对事先准备好的C种伪造手段下的训练语音数据进行预处理操作;
将预处理后的训练语音数据作为预训练模型HuBERT的输入,并通过一个(1024,256)的全连接层,输出256维的鉴伪特征;
将鉴伪特征依次输入给(256,C)的全连接层、softmax层,输出识别的伪造手段标签;
以交叉熵作为训练损失函数进行V轮训练,得到V个鉴伪模型。
在具体应用场景下,训练和验证语音数据集由C种不同的伪造语音数据构成,包括真实语音数据和C-1种不同伪造语音数据构成。
在具体应用场景下,所述M个优选的鉴伪模型通过以下步骤优选得到:
对事先准备好的C种伪造手段下的验证语音数据进行预处理操作;
将预处理后的验证语音数据依次作为训练后的(W+V)个模型的输入,输出识别标签;
根据验证语音数据的真实标签和识别标签,依次计算(W+V)个模型的F1-score指标并降序排序;
取前M个F1-score对应的模型,作为所述M个优选的鉴伪模型。
其中,,/>,/>,TP、FP、FN分别代表真阳性、假阳性和假阴性样本的数量。
步骤S3,将鉴伪特征串联后进行ONPE变换,构建得到测试语音的流形空间。
在具体应用场景下,参见图3左半部分流程图,所述训练阶段构建好的不同伪造手段语音流形空间,通过以下步骤得到:
对事先准备好的C种伪造手段下的训练语音数据进行预处理操作;
对每种伪造手段下预处理后的训练语音数据依次作为M个优选的鉴伪模型的输入,输出M组鉴伪特征;
将每种伪造手段下的M组鉴伪特征串联后作为ONPE变换的输入特征矩阵,输出该伪造手段的流形空间。
正交邻域保持嵌入ONPE是一种流形学习方法,本质上是正交化的邻域保持嵌入(NPE)方法,目前主要在人脸识别问题中用于特征提取与维数约减。与NPE算法相比最大的区别是,OPNE算法可以基于待处理的特征数据分析获得数据的正交子空间表示。此外,ONPE方法通过保持局部邻域数据间的结构特性,能够挖掘出原始数据的非线性流形结构,从而在低维子空间中有效保留数据的本征特征;并在局部子空间中,通过利用正交基向量代替保持向量,避免了空间结构的失真,从而使ONPE方法具有比局部保持投影(localitypreserving projection,LPP)等算法更好的分类能力。基于以上这些考虑,本公开采用基于流形学习方法ONPE的子空间构建方法。
步骤S4,度量所述测试语音的流形空间与预先配置的用于表征不同伪造手段的语音流形空间之间的测地线距离,作为识别相似度得分。
在具体应用场景下,参见图3右半部分流程图,所述识别相似度得分,通过以下步骤计算得到:
对测试数据进行预处理操作;
将预处理后的测试数据作为M个优选的鉴伪模型的输入,输出M组鉴伪特征;
将测试数据的M组鉴伪特征串联后作为ONPE变换的输入特征矩阵,输出测试数据的流形空间;
计算测试数据流形空间与训练数据各个流形空间之间的测地线距离,并通过以下公式计算得到最终的相似度得分:
公式中,为测试数据x与伪造手段i的识别相似度,/>代表测试数据流形空间与伪造手段i的流形空间的测地线距离。
测地线距离是一种流形空间距离,是由Grassmann流形的本征几何结构推导而来的,反映的是两个子空间沿着Grassmann流形表面上的测地线曲线的长度。测地线距离定义为:,其中,/>,/>是两个子空间的主角度值。
步骤S5,将得到的识别相似度得分与预先配置的判别阈值进行比对,根据比对结果确定鉴伪结果。
在具体应用场景下,所述判别阈值通过下述步骤确定:
对事先准备好的C种伪造手段下的语音数据,每次随机抽取一种伪造手段下的数据作为未知伪造手段,使用余下的C-1种已知伪造手段下的语音数据训练得到鉴伪模型;
将C种伪造手段下的语音数据输入给训练好的鉴伪模型,输出对应的识别相似度得分;
设判别阈值为T,当输入语音数据的识别相似度得分小于T时,判定其识别标签为未知伪造数据;而当输入语音数据的识别相似度得分大于T时,判定相似度得分对应的类别标签即为识别标签;
调整判别阈值T,使得模型对C-1种已知伪造手段和未知伪造手段下的音频识别的F1-score值最佳。
在本实施例中,以国际语音深度合成检测比赛ADD(Audio Deepfake Detection)2023中track3提供的数据集为例说明本发明方法的有效性。ADD2023 track3训练和验证数据中包含7 个类别(真实语音和6种不同伪造手段的伪造语音),7个类别分别标记为0、1、2、3、4、5、6;测试数据集包括8个类别(训练和验证数据集中的7个类别以及一个未知伪造手段下的语音数据)。训练语音共有22400条,验证语音共有8400条,测试语音79490条。
在鉴伪模型训练阶段,对训练语音和验证语音进行预处理操作,而后参照图2所示流程,基于训练语音分别训练SE-Res2Net50类鉴伪模型和HuBERT类鉴伪模型。其中,SE-Res2Net50类鉴伪模型共训练了40个epoch,batch-size设置为48,学习率设置为0.0002;HuBERT类鉴伪模型共训练了40个epoch,其他参数按照HuBERT预训练模型的官方参数设置。模型训练完成后,基于验证语音数据对80个鉴伪模型进行测试,从两类模型中分别选取F1-score分数最高的3个模型作为优选模型(即M这里取6)。
参考图4,将验证语音数据输入为性能最佳的SE-Res2Net50类鉴伪模型和HuBERT类鉴伪模型,输出鉴伪特征;采用t-sne方法可视化两类模型输出的鉴伪特征,图4中不同标号代表不同伪造手段下的特征。从图中可以看到,两类模型得到的鉴伪特征间具有一定的互补特性(如SE-Res2Net50类鉴伪模型输出的③、④、⑥三种类别间存在重叠,而HuBERT类模型输出的这种类别间具有明显区分性)。基于这样的互补特性,通过有效融合两类模型的鉴伪特征,即可提升整个方案的鉴伪性能。同时,通过训练语音和验证语音确定未知手段伪造语音的判别阈值为0.935。
此外,鉴伪该比赛中测试语音与训练或验证语音的背景噪声环境差异比较大,我们采用了数据扩充方式对训练和验证数据集进行了处理。
在鉴伪模型测试阶段,对测试语音数据进行预处理后:
一,在模型决策层融合:输入给优选出的6个鉴伪模型,参见图2所示,直接输出79490条测试语音的识别结果(包括标签和置信度分数),而后将6个模型输出的置信度分数求平均,再以0.935作为未知手段伪造语音的判别阈值,输出79490条测试语音的识别结果(标签);
二,在模型特征层融合:输入给优选出的6个鉴伪模型,参见图3所示,6个鉴伪模型输出鉴伪特征,串联后进行ONPE变换,而后计算测试语音流形空间与训练语音流形空间之间的测地线距离并计算相似性得分,最终以0.935作为未知手段伪造语音的判别阈值,输出79490条测试语音的识别结果(标签)。
下表详细示出了不同方法的F1-score分数值,从表中可以看出,LFCC+Se-Res2Net50的鉴伪模型性能(表中M1和M2所示)逊于HuBERT类(表中M3和M4所示)的鉴伪模型,且数据扩充并非一直有效,对不同模型的影响也不同。在模型融合中,本公开提出的基于鉴伪特征的融合方法(表中M6和M8所示),性能要好于目前常用的基于模型决策层分数融合的方法(表中M5和M7所示)。
表1 不同鉴伪模型的性能列表
相较于现有技术,本实施例通过融合多模型的深层嵌入特征、构建不同手段伪造语音的流形空间、度量不同空间的测地线距离作为识别相似度得分,从而实现鉴伪模型泛化性能的提升、以及开集条件下的语音真伪检测及伪造手段识别。具体地,至少具备以下优点:
1)本实施例提供的一种基于流形测度的多模型融合的语音鉴伪识别方法,基于LFCC特征训练SE-Res2Net50鉴伪模型,基于原始语音信号和预训练的HuBERT模型训练鉴伪模型,通过融合两类模型中间层输出的鉴伪特征,提升鉴伪模型的泛化能力。
2)本实施例针对语音鉴伪在实际场景下的开集识别需求(存在未知手段伪造语音),通过将多模型输出的鉴伪特征进行ONPE变换构建不同手段伪造语音的流形空间,度量测试数据流形空间与训练语音流形空间之间的测地线距离,计算相似度得分,并根据判别阈值确认测试语音的真伪及具体的伪造手段类别。
3)本实施例通过融合多模型的深层嵌入特征、构建不同手段伪造语音的流形空间、度量不同空间的测地线距离,实现鉴伪模型泛化性能的提升、以及开集条件下的语音真伪检测及伪造手段识别。
本发明第二实施例,与第一实施例对应,本实施例介绍一种基于流形测度的多模型融合的语音鉴伪识别装置,如图5所示,包括以下组成部分:
预处理单元,被配置为对测试语音进行预处理;
特征获取单元,被配置为将预处理后的测试语音输入到至少两个鉴伪模型,并获取输出的与鉴伪模型数量匹配的至少两组鉴伪特征;
流形空间单元,被配置为将所述鉴伪特征串联后进行ONPE变换,构建得到测试语音的流形空间;
识别单元,被配置为度量所述测试语音的流形空间与预先配置的用于表征不同伪造手段的语音流形空间之间的测地线距离,作为识别相似度得分;
比对单元,被配置为将得到的识别相似度得分与预先配置的判别阈值进行比对,根据比对结果确定鉴伪结果。
在一个实施方式中,预处理单元被进一步配置为:将测试语音依次进行如下操作:重采样到16kHz、去零偏、幅值归一化、加重、分段。
在一个实施方式中,所述至少两个鉴伪模型具体包括两种类型:以LFCC特征为输入、SE-Res2Net50为学习网络的鉴伪模型,和以原始信号为输入、预训练模型HuBERT为学习网络的鉴伪模型。
在一个实施方式中,所述以LFCC特征为输入、SE-Res2Net50为学习网络的鉴伪模型,具体通过以下步骤训练得到:
对预先获取的的C种伪造手段下的训练语音数据进行预处理操作;
对预处理后的训练语音数据提取LFCC特征;
将提取的LFCC特征输入给SE-Res2Net50网络,输出256维的鉴伪特征;
将所述鉴伪特征依次输入给(256,C)的全连接层、softmax层,输出识别的伪造手段标签;
以交叉熵作为训练损失函数进行W轮训练,得到W个鉴伪模型。
在一个实施方式中,所述以原始信号为输入、预训练模型HuBERT为学习网络的鉴伪模型,具体通过以下步骤训练得到:
对事先准备好的C种伪造手段下的训练语音数据进行预处理操作;
将预处理后的训练语音数据作为预训练模型HuBERT的输入,并通过一个(1024,256)的全连接层,输出256维的鉴伪特征;
将鉴伪特征依次输入给(256,C)的全连接层、softmax层,输出识别的伪造手段标签;
以交叉熵作为训练损失函数进行V轮训练,得到V个鉴伪模型。
在一个实施方式中,所述至少两个鉴伪模型,是从W+V个鉴伪模型中通过以下步骤优选得到:
对事先准备好的C种伪造手段下的验证语音数据进行预处理操作;
将预处理后的验证语音数据依次作为训练后的W+V个模型的输入,输出识别标签;
根据验证语音数据的真实标签和识别标签,依次计算W+V个模型的F1-score指标并降序排序;
取前M个F1-score对应的模型,作为M个优选的鉴伪模型。
在一个实施方式中,所述预先配置的用于表征不同伪造手段的语音流形空间,通过以下步骤得到:
对预先配置的C种伪造手段下的训练语音数据进行预处理操作;
对每种伪造手段下预处理后的训练语音数据依次作为M个优选的鉴伪模型的输入,输出M组鉴伪特征;
将每种伪造手段下的M组鉴伪特征串联后作为ONPE变换的输入特征矩阵,输出该伪造手段的流形空间。
在一个实施方式中,所述识别相似度得分,通过以下步骤计算得到:
确定测试数据流形空间与训练数据各个流形空间之间的测地线距离,并通过以下公式计算得到最终的相似度得分:
公式中,为测试数据x与伪造手段i的识别相似度,/>代表测试数据流形空间与伪造手段i的流形空间的测地线距离。
在一个实施方式中,所述判别阈值通过下述步骤确定:
对事先准备好的C种伪造手段下的语音数据,每次随机抽取一种伪造手段下的数据作为未知伪造手段,使用余下的C-1种已知伪造手段下的语音数据训练得到鉴伪模型;
将C种伪造手段下的语音数据输入给训练好的鉴伪模型,输出对应的识别相似度得分;
设判别阈值为T,当输入语音数据的识别相似度得分小于T时,判定其识别标签为未知伪造数据;而当输入语音数据的识别相似度得分大于T时,判定相似度得分对应的类别标签即为识别标签;
调整判别阈值T,使得模型对C-1种已知伪造手段和未知伪造手段下的音频识别的F1-score值最佳。
本发明第三实施例,一种电子设备,如图6,可以作为实体装置来理解,包括处理器以及存储有所述处理器可执行指令的存储器,当所述指令被处理器执行时,执行如下操作:
步骤S1,对测试语音进行预处理;
步骤S2,将预处理后的测试语音输入到至少两个鉴伪模型,并获取输出的与鉴伪模型数量匹配的至少两组鉴伪特征;
步骤S3,将所述鉴伪特征串联后进行ONPE变换,构建得到测试语音的流形空间;
步骤S4,度量所述测试语音的流形空间与预先配置的用于表征不同伪造手段的语音流形空间之间的测地线距离,作为识别相似度得分;
步骤S5,将得到的识别相似度得分与预先配置的判别阈值进行比对,根据比对结果确定鉴伪结果。
本发明第四实施例,本实施例的方法的流程与第一、二或三实施例相同,区别在于,在工程实现上,本实施例可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的所述方法可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台设备执行本发明实施例所述的方法。
通过具体实施方式的说明,应当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解,然而所附图示仅是提供参考与说明之用,并非用来对本发明加以限制。
Claims (10)
1.一种基于流形测度的多模型融合的语音鉴伪识别方法,其特征在于,所述方法包括:
步骤S1,对测试语音进行预处理;
步骤S2,将预处理后的测试语音输入到至少两个鉴伪模型,并获取输出的与鉴伪模型数量匹配的至少两组鉴伪特征;
步骤S3,将所述鉴伪特征串联后进行ONPE变换,构建得到测试语音的流形空间;
步骤S4,度量所述测试语音的流形空间与预先配置的用于表征不同伪造手段的语音流形空间之间的测地线距离,作为识别相似度得分;
步骤S5,将得到的识别相似度得分与预先配置的判别阈值进行比对,根据比对结果确定鉴伪结果。
2.根据权利要求1所述的基于流形测度的多模型融合的语音鉴伪识别方法,其特征在于,所述对测试语音进行预处理,包括:将测试语音依次进行如下操作:重采样到16kHz、去零偏、幅值归一化、加重、分段。
3.根据权利要求1所述的基于流形测度的多模型融合的语音鉴伪识别方法,其特征在于,所述至少两个鉴伪模型具体包括两种类型:以LFCC特征为输入、SE-Res2Net50为学习网络的鉴伪模型,和以原始信号为输入、预训练模型HuBERT为学习网络的鉴伪模型。
4.根据权利要求3所述的基于流形测度的多模型融合的语音鉴伪识别方法,其特征在于,所述以LFCC特征为输入、SE-Res2Net50为学习网络的鉴伪模型,具体通过以下步骤训练得到:
对预先获取的C种伪造手段下的训练语音数据进行预处理操作;
对预处理后的训练语音数据提取LFCC特征;
将提取的LFCC特征输入给SE-Res2Net50网络,输出256维的鉴伪特征;
将所述鉴伪特征依次输入给(256,C)的全连接层、softmax层,输出识别的伪造手段标签;
以交叉熵作为训练损失函数进行W轮训练,得到W个鉴伪模型。
5.根据权利要求4所述的基于流形测度的多模型融合的语音鉴伪识别方法,其特征在于,所述以原始信号为输入、预训练模型HuBERT为学习网络的鉴伪模型,具体通过以下步骤训练得到:
对事先准备好的C种伪造手段下的训练语音数据进行预处理操作;
将预处理后的训练语音数据作为预训练模型HuBERT的输入,并通过一个(1024,256)的全连接层,输出256维的鉴伪特征;
将鉴伪特征依次输入给(256,C)的全连接层、softmax层,输出识别的伪造手段标签;
以交叉熵作为训练损失函数进行V轮训练,得到V个鉴伪模型。
6.根据权利要求5所述的基于流形测度的多模型融合的语音鉴伪识别方法,其特征在于,所述至少两个鉴伪模型,是从W+V个鉴伪模型中通过以下步骤优选得到:
对事先准备好的C种伪造手段下的验证语音数据进行预处理操作;
将预处理后的验证语音数据依次作为训练后的W+V个模型的输入,输出识别标签;
根据验证语音数据的真实标签和识别标签,依次计算W+V个模型的F1-score指标并降序排序;
取前M个F1-score对应的模型,作为M个优选的鉴伪模型。
7.根据权利要求6所述的基于流形测度的多模型融合的语音鉴伪识别方法,其特征在于,所述预先配置的用于表征不同伪造手段的语音流形空间,通过以下步骤得到:
对预先配置的C种伪造手段下的训练语音数据进行预处理操作;
对每种伪造手段下预处理后的训练语音数据依次作为M个优选的鉴伪模型的输入,输出M组鉴伪特征;
将每种伪造手段下的M组鉴伪特征串联后作为ONPE变换的输入特征矩阵,输出该伪造手段的流形空间。
8.根据权利要求7所述的基于流形测度的多模型融合的语音鉴伪识别方法,其特征在于,所述识别相似度得分,通过以下步骤计算得到:
确定测试数据流形空间与训练数据各个流形空间之间的测地线距离,并通过以下公式计算得到最终的相似度得分:
公式中,
为测试数据x与伪造手段i的识别相似度,/>代表测试数据流形空间与伪造手段i的流形空间/>的测地线距离。
9.根据权利要求8所述的基于流形测度的多模型融合的语音鉴伪识别方法,其特征在于,所述判别阈值通过下述步骤确定:
对事先准备好的C种伪造手段下的语音数据,每次随机抽取一种伪造手段下的数据作为未知伪造手段,使用余下的C-1种已知伪造手段下的语音数据训练得到鉴伪模型;
将C种伪造手段下的语音数据输入给训练好的鉴伪模型,输出对应的识别相似度得分;
设判别阈值为T,当输入语音数据的识别相似度得分小于T时,判定其识别标签为未知伪造数据;而当输入语音数据的识别相似度得分大于T时,判定相似度得分对应的类别标签即为识别标签;
调整判别阈值T,使得模型对C-1种已知伪造手段和未知伪造手段下的音频识别的F1-score值最佳。
10.一种电子设备,其特征在于,所述电子设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至9中任一项所述基于流形测度的多模型融合的语音鉴伪识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310979700.9A CN116705063B (zh) | 2023-08-07 | 2023-08-07 | 一种基于流形测度的多模型融合的语音鉴伪识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310979700.9A CN116705063B (zh) | 2023-08-07 | 2023-08-07 | 一种基于流形测度的多模型融合的语音鉴伪识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116705063A CN116705063A (zh) | 2023-09-05 |
CN116705063B true CN116705063B (zh) | 2023-10-20 |
Family
ID=87843673
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310979700.9A Active CN116705063B (zh) | 2023-08-07 | 2023-08-07 | 一种基于流形测度的多模型融合的语音鉴伪识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116705063B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118016051B (zh) * | 2024-04-07 | 2024-07-19 | 中国科学院自动化研究所 | 基于模型指纹聚类的生成语音溯源方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20010026288A (ko) * | 1999-09-04 | 2001-04-06 | 윤장진 | 유사 음소에 기반한 화자 종속형 음성 인식 장치 및 그 방법 |
CN114997266A (zh) * | 2022-04-22 | 2022-09-02 | 苏州大学 | 一种面向语音识别的特征迁移学习方法及系统 |
CN115497481A (zh) * | 2022-11-17 | 2022-12-20 | 北京远鉴信息技术有限公司 | 一种虚假语音的识别方法、装置、电子设备及存储介质 |
-
2023
- 2023-08-07 CN CN202310979700.9A patent/CN116705063B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20010026288A (ko) * | 1999-09-04 | 2001-04-06 | 윤장진 | 유사 음소에 기반한 화자 종속형 음성 인식 장치 및 그 방법 |
CN114997266A (zh) * | 2022-04-22 | 2022-09-02 | 苏州大学 | 一种面向语音识别的特征迁移学习方法及系统 |
CN115497481A (zh) * | 2022-11-17 | 2022-12-20 | 北京远鉴信息技术有限公司 | 一种虚假语音的识别方法、装置、电子设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
一种基于流形与特征融合的说话人识别方法;徐玉龙;王金明;吴文;陈志伟;;军事通信技术(03);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116705063A (zh) | 2023-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hansen et al. | Speaker recognition by machines and humans: A tutorial review | |
US9792912B2 (en) | Method for verifying the identity of a speaker, system therefore and computer readable medium | |
CN108231067A (zh) | 基于卷积神经网络与随机森林分类的声音场景识别方法 | |
CN107731233B (zh) | 一种基于rnn的声纹识别方法 | |
CN108986824B (zh) | 一种回放语音检测方法 | |
CN107610707A (zh) | 一种声纹识别方法及装置 | |
CN111243602A (zh) | 基于性别、国籍和情感信息的声纹识别方法 | |
CN108198561A (zh) | 一种基于卷积神经网络的翻录语音检测方法 | |
CN112712809B (zh) | 一种语音检测方法、装置、电子设备及存储介质 | |
CN110111798B (zh) | 一种识别说话人的方法、终端及计算机可读存储介质 | |
CN116705063B (zh) | 一种基于流形测度的多模型融合的语音鉴伪识别方法 | |
CN110534101A (zh) | 一种基于多模融合深度特征的移动设备源识别方法及系统 | |
CN110459226A (zh) | 一种通过声纹引擎检测人声或机器音进行身份核验的方法 | |
CN113284513B (zh) | 基于音素时长特征的虚假语音检测方法及装置 | |
CN116153337B (zh) | 合成语音溯源取证方法及装置、电子设备及存储介质 | |
Gomez-Alanis et al. | Adversarial transformation of spoofing attacks for voice biometrics | |
Mohammed et al. | Advantages and disadvantages of automatic speaker recognition systems | |
CN113555023B (zh) | 一种语音鉴伪与说话人识别联合建模的方法 | |
Ali et al. | Fake audio detection using hierarchical representations learning and spectrogram features | |
Efanov et al. | The BiLSTM-based synthesized speech recognition | |
Alex et al. | Variational autoencoder for prosody‐based speaker recognition | |
CN116665649A (zh) | 基于韵律特征的合成语音检测方法 | |
CN116844567A (zh) | 一种基于多特征重建融合的深度合成音频检测方法及系统 | |
Yerramreddy et al. | Speaker Identification Using MFCC Feature Extraction: A Comparative Study Using GMM, CNN, RNN, KNN and Random Forest Classifier | |
CN115881093A (zh) | 一种目标说话人语音获取方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |