Nothing Special   »   [go: up one dir, main page]

CN115881093A - 一种目标说话人语音获取方法和系统 - Google Patents

一种目标说话人语音获取方法和系统 Download PDF

Info

Publication number
CN115881093A
CN115881093A CN202211316572.1A CN202211316572A CN115881093A CN 115881093 A CN115881093 A CN 115881093A CN 202211316572 A CN202211316572 A CN 202211316572A CN 115881093 A CN115881093 A CN 115881093A
Authority
CN
China
Prior art keywords
voice
speaker
target speaker
mixed
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211316572.1A
Other languages
English (en)
Inventor
叶林勇
肖龙源
李海洲
李稀敏
叶志坚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Kuaishangtong Technology Co Ltd
Original Assignee
Xiamen Kuaishangtong Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Kuaishangtong Technology Co Ltd filed Critical Xiamen Kuaishangtong Technology Co Ltd
Priority to CN202211316572.1A priority Critical patent/CN115881093A/zh
Publication of CN115881093A publication Critical patent/CN115881093A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Stereophonic System (AREA)

Abstract

本发明实施例提供一种目标说话人语音获取方法,包括:获取混合语料、参考语料以及多个单人语料,语音编码模块获取混合语料的混合声学特征,说话人提取模块分离出混合声学特征中不同说话人的单人声学特征;说话人编码模块获取参考语料中的参考声学特征,得到参考声学特征集;说话人比对模块将得到的单人声学特征分别到参考声学特征集中进行一对一特征打分,确定出目标说话人;根据目标人声学特征还原为目标人说话语音,得到训练好的目标说话人语音获取模型;将目标说话人的参考语音和含有目标说话人的混合语音,输入到训练好的目标说话人语音获取模型中,得到目标说话人语音;本发明提供的方法,能够有效提升多说话人场景下的声纹识别准确率。

Description

一种目标说话人语音获取方法和系统
技术领域
本发明涉及语音识别领域,特别是指一种目标说话人语音获取方法和系统。
背景技术
每个人的声音都蕴涵着特有的生物特征,声纹识别是指利用说话人的声音来识别说话人的一种技术手段。声纹识别同指纹识别等技术一样具有高度的安全可靠性,可以应用在所有需要做身份识别的场合。如在刑侦、银行、证券、保险等金融领域。与传统的身份识别技术相比,声纹识别的优势在于,声纹提取过程简单,成本低,且具有唯一性,不易伪造和假冒。近几年,随着深度学习技术的发展,声纹识别技术也得到了较大的提升,已经成功应用在很多场景。但是在某些应用场景中也存在很大的挑战,比如说在多说话人场景中,人类可以准确的从多说话人里面辨识出某个人的声音,但是声纹识别模型的表现就会比较差,无法从多说话人场景里面正确的识别出目标说话人,给声纹识别系统的推广应用带来了一定的阻碍。
发明内容
本发明的主要目的在于克服现有技术中的上述缺陷,提出一种目标说话人语音获取方法,用于多说话人场景下目标说话人声纹识别,有效提升多说话人场景下的声纹识别准确率,且能够拓展声纹识别的应用场景。
本发明采用如下技术方案:
一种目标说话人语音获取方法,包括:
获取混合语料、参考语料以及多个单人语料,其中,混合语料是由不少于两人的说话人语料混合得到的,参考语料为包含所有单个说话人语料;
将混合语料输入目标说话人语音获取模型中混合语音接口模块,语音编码模块获取混合语料的混合声学特征,说话人提取模块分离出混合声学特征中不同说话人的单人声学特征;
将参考语料输入目标说话人获取模型中参考语音接口模块,说话人编码模块获取参考语料中的参考声学特征,得到参考声学特征集;
说话人比对模块将得到的单人声学特征分别到参考声学特征集中进行一对一特征打分,确定出目标说话人;
将目标人声学特征语音解码模块,根据目标人声学特征还原为目标人说话语音,完成目标说话人语音获取模型的训练,得到训练好的目标说话人语音获取模型;
将目标说话人的参考语音和含有目标说话人的混合语音,输入到训练好的目标说话人语音获取模型中,得到含有目标说话人的混合语音中目标说话人语音。
所述混合语料的合成方法,设定为两个说话人混合,具体为:
Figure BDA0003909557610000021
Figure BDA0003909557610000022
s1=w1*fsource1
s2=w2*fsource2
m=s1+s2
fsource1为第一说话人的原始语音信号,fsource2为第二说话人的原始语音信号,snr为信噪比参数,随机生成,数值大小在0~5db之间,w1为第一说话人权重,w2为第二说话人权重,s1作为语音合并前干净的说话人1语音信号,为主要说话人,s2为语音合并前干净的说话人2语音信号,为次要说话人,m为合成的含有两个说话人声音的语音信号。
具体地,所述说话人提取模块包括:多维度卷积层、卷积合并层、归一化层以及掩膜层,所述多维卷积层包括低维卷积层、中维卷积层以及高维卷积层,所述卷积合并层用于合并卷积计算,所述归一化层用于归一化计算,所述掩膜层用于过滤到无关说话人的语音信号。
具体地,所述掩膜层依次包括卷积层、归一化层、卷积层、归一化层、激活函数以及线性连接层。
具体地,说话人编码模块依次包括梅尔倒谱特征层、归一化层、多个深度残差模块、归一化层、线性连接层以及分类层;所述梅尔倒谱特征层用于提取语音信号的声学特征,并将时域信号转化为频域信号,所述归一化层用于归一化计算,所述深度残差模块用于残差计算,对说话人的语音信号进行建模,提取声学特征;所述线性连接层用于将提取的声学特征综合并输出。
具体地,训练的损失函数包括:交叉熵损失函数L1和源失真比损失函数L2:
Figure BDA0003909557610000023
Figure BDA0003909557610000024
Figure BDA0003909557610000025
XT+XE=X*
其中,其中,y为数据标签,值为0或者1,
Figure BDA0003909557610000026
为模型预测输出;
Figure BDA0003909557610000027
为原始声音信号,X*为待测信号,XE和XT为源失真比损失函数计算过程中的中间变量。
具体地,所述特征打分具体,具体为:
Figure BDA0003909557610000028
其中,Similarity声纹特征A和声纹特征B的相似度,θ为特征A和B之间的夹角,A和B为声纹特征,Ai为特征A的第i个矢量,Bi特征B的第i个矢量,n为声纹特征中矢量个数,||A||为特征A的模长,||B||为特征B的模长。
本发明实施例另一方面提供一种目标说话人语音获取系统,包括:
语料获取单元:获取混合语料、参考语料以及多个单人语料,其中,混合语料是由不少于两人的说话人语料混合得到的,参考语料为包含所有单个说话人语料;
混合语料特征处理单元:将混合语料输入目标说话人语音获取模型中混合语音接口模块,语音编码模块获取混合语料的混合声学特征,说话人提取模块分离出混合声学特征中不同说话人的单人声学特征;
参考语料特征处理单元:将参考语料输入目标说话人获取模型中参考语音接口模块,说话人编码模块获取参考语料中的参考声学特征,得到参考声学特征集;
特征比对单元:说话人比对模块将得到的单人声学特征分别到参考声学特征集中进行一对一特征打分,确定出目标说话人;
语音解码单元:将目标人声学特征语音解码模块,根据目标人声学特征还原为目标人说话语音,完成目标说话人语音获取模型的训练,得到训练好的目标说话人语音获取模型;
检测单元:将目标说话人的参考语音和含有目标说话人的混合语音,输入到训练好的目标说话人语音获取模型中,得到含有目标说话人的混合语音中目标说话人语音本发明实施例再一方面提供一种电子设备,包括:存储器,处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现上述一种目标说话人语音获取方法步骤。
本发明实施例又一方面提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述一种目标说话人语音获取方法步骤。
由上述对本发明的描述可知,与现有技术相比,本发明具有如下有益效果:
本发明实施例提供一种目标说话人语音获取方法,包括:获取混合语料、参考语料以及多个单人语料,其中,混合语料是由不少于两人的说话人语料混合得到的,参考语料为包含所有单个说话人语料;将混合语料输入目标说话人语音获取模型中混合语音接口模块,语音编码模块获取混合语料的混合声学特征,说话人提取模块分离出混合声学特征中不同说话人的单人声学特征;将参考语料输入目标说话人获取模型中参考语音接口模块,说话人编码模块获取参考语料中的参考声学特征,得到参考声学特征集;说话人比对模块将得到的单人声学特征分别到参考声学特征集中进行一对一特征打分,确定出目标说话人;将目标人声学特征语音解码模块,根据目标人声学特征还原为目标人说话语音,完成目标说话人语音获取模型的训练,得到训练好的目标说话人语音获取模型;将目标说话人的参考语音和含有目标说话人的混合语音,输入到训练好的目标说话人语音获取模型中,得到含有目标说话人的混合语音中目标说话人语音;本发明提供的方法,用于多说话人场景下目标说话人声纹识别,有效提升多说话人场景下的声纹识别准确率,且能够拓展声纹识别的应用场景。
附图说明
图1为本发明实施例提供的一种目标说话人语音获取方法流程图;
图2为本发明实施例提供的说话人提取模块的结构图;
图3为本发明实施例提供的掩膜层的结构图;
图4为本发明实施例提供的说话人编码模块的结构图;
图5为本发明实施例提供的一种目标说话人语音获取系统架构图;
图6为本发明实施例提供的一种电子设备示意图;
图7为本发明实施例提供的一种计算机可读存储介质的实施例示意图。
以下结合附图和具体实施例对本发明作进一步详述。
具体实施方式
本发明提供的一种目标说话人语音获取方法,用于多说话人场景下目标说话人声纹识别,有效提升多说话人场景下的声纹识别准确率,且能够拓展声纹识别的应用场景
如图1,为本发明实施例提供的一种目标说话人语音获取方法流程图,包括:
S101:获取混合语料、参考语料以及多个单人语料,其中,混合语料是由不少于两人的说话人语料混合得到的,参考语料为包含所有单个说话人语料;
所述混合语料的合成方法,设定为两个说话人混合,具体为:
Figure BDA0003909557610000041
Figure BDA0003909557610000042
s1=w1*fsource1
s2=w2*fsource2
m=s1+s2
fsource1为第一说话人的原始语音信号,fsource2为第二说话人的原始语音信号,snr为信噪比参数,随机生成,数值大小在0~5db之间,w1为第一说话人权重,w2为第二说话人权重,s1作为语音合并前干净的说话人1语音信号,为主要说话人,s2为语音合并前干净的说话人2语音信号,为次要说话人,m为合成的含有两个说话人声音的语音信号。
混合数据集由合成后的m1~mx组成,共x条。第一说话人数据集由s11~s1x组成,共x条。第二说话人数据集由s21~s2x组成,共x条。参考数据集为随机抽取的包含有第一说话人1和第二说话人2声音的语音数据,总共k人
本发明实施例中共需合成20000条训练数据,6000条验证数据。
S102:将混合语料输入目标说话人语音获取模型中混合语音接口模块,语音编码模块获取混合语料的混合声学特征,说话人提取模块分离出混合声学特征中不同说话人的单人声学特征;
说话人提取模块是改进的模型结构,如图2所示,实验证明取得了良好的效果,可以加速模型训练的收敛速度,说话人提取SDR指标可以提升10%以上;
具体地,所述说话人提取模块包括:多维度卷积层、卷积合并层、归一化层以及掩膜层,所述多维卷积层包括低维卷积层、中维卷积层以及高维卷积层,所述卷积合并层用于合并卷积计算,所述归一化层用于归一化计算,所述掩膜层用于过滤到无关说话人的语音信号。个模型有低维、中维、高维三个维度的卷积层,可以从各个角度提取时域语音信号,有助于提升源失真比(SDR)指标。
具体地,如图3所示,掩膜层依次包括卷积层、归一化层、卷积层、归一化层、激活函数以及线性连接层。
掩膜层可以将无关说话人的语音信号过滤掉,只留下目标说话人的语音信号,提高识别准确率。
S103:将参考语料输入目标说话人获取模型中参考语音接口模块,说话人编码模块获取参考语料中的参考声学特征,得到参考声学特征集;
S104:说话人比对模块将得到的单人声学特征分别到参考声学特征集中进行一对一特征打分,确定出目标说话人;
具体地,所述特征打分具体,具体为:
Figure BDA0003909557610000051
其中,Similarity声纹特征A和声纹特征B的相似度,θ为特征A和B之间的夹角,A和B为声纹特征,Ai为特征A的第i个矢量,Bi特征B的第i个矢量,n为声纹特征中矢量个数,||A||为特征A的模长,||B||为特征B的模长。
当打分高于阈值的时候,认为为同一说话人,当打分高于阈值,认为不是同一说话人。
S105:将目标人声学特征语音解码模块,根据目标人声学特征还原为目标人说话语音,完成目标说话人语音获取模型的训练,得到训练好的目标说话人语音获取模型;
如图4为说话人编码模块示意图,采用改进网络结构,基于ResNet Block,改进后的网络结构可以提升模型的鲁棒性,提高声纹识别准确率;
具体地,说话人编码模块依次包括梅尔倒谱特征层、归一化层、多个深度残差模块、归一化层、线性连接层以及分类层;所述梅尔倒谱特征层用于提取语音信号的声学特征,并将时域信号转化为频域信号,所述归一化层用于归一化计算,所述深度残差模块用于残差计算,对说话人的语音信号进行建模,提取声学特征;所述线性连接层用于将提取的声学特征综合并输出。
S106:将目标说话人的参考语音和含有目标说话人的混合语音,输入到训练好的目标说话人语音获取模型中,得到含有目标说话人的混合语音中目标说话人语音。
本发明实施例提供的损失函数改进了说话人编码模块和语音解码模块的输出权重,加快模型训练的收敛速度,声纹识别准确率可以提升10%以上。
具体地,训练的损失函数包括:交叉熵损失函数L1和源失真比损失函数L2:
Figure BDA0003909557610000061
Figure BDA0003909557610000062
Figure BDA0003909557610000063
XT+XE=X*
其中,其中,y为数据标签,值为0或者1,
Figure BDA0003909557610000064
为模型预测输出;
Figure BDA0003909557610000065
为原始声音信号,X*为待测信号,XE和XT为源失真比损失函数计算过程中的中间变量。
如图5,本发明实施例另一方面提供一种目标说话人语音获取系统,包括:
语料获取单元:获取混合语料、参考语料以及多个单人语料,其中,混合语料是由不少于两人的说话人语料混合得到的,参考语料为包含所有单个说话人语料;
混合语料特征处理单元:将混合语料输入目标说话人语音获取模型中混合语音接口模块,语音编码模块获取混合语料的混合声学特征,说话人提取模块分离出混合声学特征中不同说话人的单人声学特征;
参考语料特征处理单元:将参考语料输入目标说话人获取模型中参考语音接口模块,说话人编码模块获取参考语料中的参考声学特征,得到参考声学特征集;
特征比对单元:说话人比对模块将得到的单人声学特征分别到参考声学特征集中进行一对一特征打分,确定出目标说话人;
语音解码单元:将目标人声学特征语音解码模块,根据目标人声学特征还原为目标人说话语音,完成目标说话人语音获取模型的训练,得到训练好的目标说话人语音获取模型;
检测单元:将目标说话人的参考语音和含有目标说话人的混合语音,输入到训练好的目标说话人语音获取模型中,得到含有目标说话人的混合语音中目标说话人语音。
图6所示,本发明实施例提供了一种电子设备600,包括存储器610、处理器620及存储在存储器620上并可在处理器620上运行的计算机程序611,处理器620执行计算机程序611时实现本发明实施例提供的一种目标说话人语音获取方法。
由于本实施例所介绍的电子设备为实施本发明实施例中所采用的设备,故而基于本发明实施例中所介绍的方法,本领域所属技术人员能够了解本实施例的电子设备的具体实施方式以及其各种变化形式,所以在此对于该电子设备如何实现本发明实施例中的方法不再详细介绍,只要本领域所属技术人员实施本发明实施例中的方法所采用的设备,都属于本发明所欲保护的范围。
请参阅图7,图7为本发明实施例提供的一种计算机可读存储介质的实施例示意图。
如图7所示,本实施例提供了一种计算机可读存储介质700,其上存储有计算机程序711,该计算机程序711被处理器执行时实现本发明实施例提供一种目标说话人语音获取方法;
需要说明的是,在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其它实施例的相关描述。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例提供一种目标说话人语音获取方法,包括:获取混合语料、参考语料以及多个单人语料,其中,混合语料是由不少于两人的说话人语料混合得到的,参考语料为包含所有单个说话人语料;将混合语料输入目标说话人语音获取模型中混合语音接口模块,语音编码模块获取混合语料的混合声学特征,说话人提取模块分离出混合声学特征中不同说话人的单人声学特征;将参考语料输入目标说话人获取模型中参考语音接口模块,说话人编码模块获取参考语料中的参考声学特征,得到参考声学特征集;说话人比对模块将得到的单人声学特征分别到参考声学特征集中进行一对一特征打分,确定出目标说话人;将目标人声学特征语音解码模块,根据目标人声学特征还原为目标人说话语音,完成目标说话人语音获取模型的训练,得到训练好的目标说话人语音获取模型;将目标说话人的参考语音和含有目标说话人的混合语音,输入到训练好的目标说话人语音获取模型中,得到含有目标说话人的混合语音中目标说话人语音;本发明提供的方法,用于多说话人场景下目标说话人声纹识别,有效提升多说话人场景下的声纹识别准确率,且能够拓展声纹识别的应用场景。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
上述仅为本发明的具体实施方式,但本发明的设计构思并不局限于此,凡利用此构思对本发明进行非实质性的改动,均应属于侵犯本发明保护范围的行为。

Claims (10)

1.一种目标说话人语音获取方法,其特征在于,包括:
获取混合语料、参考语料以及多个单人语料,其中,混合语料是由不少于两人的说话人语料混合得到的,参考语料为包含所有单个说话人语料;
将混合语料输入目标说话人语音获取模型中混合语音接口模块,语音编码模块获取混合语料的混合声学特征,说话人提取模块分离出混合声学特征中不同说话人的单人声学特征;
将参考语料输入目标说话人获取模型中参考语音接口模块,说话人编码模块获取参考语料中的参考声学特征,得到参考声学特征集;
说话人比对模块将得到的单人声学特征分别到参考声学特征集中进行一对一特征打分,确定出目标说话人;
将目标人声学特征输入语音解码模块,根据目标人声学特征还原为目标人说话语音,完成目标说话人语音获取模型的训练,得到训练好的目标说话人语音获取模型;
将目标说话人的参考语音和含有目标说话人的混合语音,输入到训练好的目标说话人语音获取模型中,得到含有目标说话人的混合语音中目标说话人语音。
2.根据权利要求1所述的一种目标说话人语音获取方法,其特征在于,所述混合语料的合成方法,设定为两个说话人混合,具体为:
Figure FDA0003909557600000011
Figure FDA0003909557600000012
s1=w1*fsource1
s2=w2*fsource2
m=s1+s2
fsource1为第一说话人的原始语音信号,fsource2为第二说话人的原始语音信号,snr为信噪比参数,随机生成,数值大小在0~5db之间,w1为第一说话人权重,w2为第二说话人权重,s1作为语音合并前干净的说话人1语音信号,为主要说话人,s2为语音合并前干净的说话人2语音信号,为次要说话人,m为合成的含有两个说话人声音的语音信号。
3.根据权利要求1所述的一种目标说话人语音获取方法,其特征在于,所述说话人提取模块包括:多维度卷积层、卷积合并层、归一化层以及掩膜层,所述多维卷积层包括低维卷积层、中维卷积层以及高维卷积层,所述卷积合并层用于合并卷积计算,所述归一化层用于归一化计算,所述掩膜层用于过滤到无关说话人的语音信号。
4.根据权利要求3所述的一种目标说话人语音获取方法,其特征在于,所述掩膜层依次包括卷积层、归一化层、卷积层、归一化层、激活函数以及线性连接层。
5.根据权利要求1所述的一种目标说话人语音获取方法,其特征在于,说话人编码模块依次包括梅尔倒谱特征层、归一化层、多个深度残差模块、归一化层、线性连接层以及分类层;所述梅尔倒谱特征层用于提取语音信号的声学特征,并将时域信号转化为频域信号,所述归一化层用于归一化计算,所述深度残差模块用于残差计算,对说话人的语音信号进行建模,提取声学特征;所述线性连接层用于将提取的声学特征综合并输出。
6.根据权利要求1所述的一种目标说话人语音获取方法,其特征在于,训练的损失函数包括:交叉熵损失函数L1和源失真比损失函数L2:
Figure FDA0003909557600000021
Figure FDA0003909557600000022
Figure FDA0003909557600000023
XT+XE=X*
其中,其中,y为数据标签,值为0或者1,
Figure FDA0003909557600000024
为模型预测输出;
Figure FDA0003909557600000025
为原始声音信号,X*为待测信号,XE和XT为源失真比损失函数计算过程中的中间变量。
7.根据权利要求1所述的一种目标说话人语音获取方法,其特征在于,所述特征打分具体,具体为:
Figure FDA0003909557600000026
其中,Similarity声纹特征A和声纹特征B的相似度,θ为特征A和B之间的夹角,A和B为声纹特征,Ai为特征A的第i个矢量,Bi特征B的第i个矢量,n为声纹特征中矢量个数,||A||为特征A的模长,||B||为特征B的模长。
8.一种目标说话人语音获取系统,其特征在于,包括:
语料获取单元:获取混合语料、参考语料以及多个单人语料,其中,混合语料是由不少于两人的说话人语料混合得到的,参考语料为包含所有单个说话人语料;
混合语料特征处理单元:将混合语料输入目标说话人语音获取模型中混合语音接口模块,语音编码模块获取混合语料的混合声学特征,说话人提取模块分离出混合声学特征中不同说话人的单人声学特征;
参考语料特征处理单元:将参考语料输入目标说话人获取模型中参考语音接口模块,说话人编码模块获取参考语料中的参考声学特征,得到参考声学特征集;
特征比对单元:说话人比对模块将得到的单人声学特征分别到参考声学特征集中进行一对一特征打分,确定出目标说话人;
语音解码单元:将目标人声学特征输入语音解码模块,根据目标人声学特征还原为目标人说话语音,完成目标说话人语音获取模型的训练,得到训练好的目标说话人语音获取模型;
检测单元:将目标说话人的参考语音和含有目标说话人的混合语音,输入到训练好的目标说话人语音获取模型中,得到含有目标说话人的混合语音中目标说话人语音。
9.一种电子设备,其特征在于,包括:存储器,处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现权利要求1至7任一所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法步骤。
CN202211316572.1A 2022-10-26 2022-10-26 一种目标说话人语音获取方法和系统 Pending CN115881093A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211316572.1A CN115881093A (zh) 2022-10-26 2022-10-26 一种目标说话人语音获取方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211316572.1A CN115881093A (zh) 2022-10-26 2022-10-26 一种目标说话人语音获取方法和系统

Publications (1)

Publication Number Publication Date
CN115881093A true CN115881093A (zh) 2023-03-31

Family

ID=85758970

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211316572.1A Pending CN115881093A (zh) 2022-10-26 2022-10-26 一种目标说话人语音获取方法和系统

Country Status (1)

Country Link
CN (1) CN115881093A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117953881A (zh) * 2024-02-18 2024-04-30 暗物质(北京)智能科技有限公司 一种特定人语音识别系统及方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117953881A (zh) * 2024-02-18 2024-04-30 暗物质(北京)智能科技有限公司 一种特定人语音识别系统及方法

Similar Documents

Publication Publication Date Title
Villalba et al. State-of-the-art speaker recognition with neural network embeddings in NIST SRE18 and speakers in the wild evaluations
Chen et al. Robust deep feature for spoofing detection—The SJTU system for ASVspoof 2015 challenge
CN105139857B (zh) 一种自动说话人识别中针对语音欺骗的对抗方法
CN110473566A (zh) 音频分离方法、装置、电子设备及计算机可读存储介质
Zhang et al. X-tasnet: Robust and accurate time-domain speaker extraction network
Tan et al. A survey on presentation attack detection for automatic speaker verification systems: State-of-the-art, taxonomy, issues and future direction
CN112507311A (zh) 一种基于多模态特征融合的高安全性身份验证方法
CN115881093A (zh) 一种目标说话人语音获取方法和系统
Efanov et al. The BiLSTM-based synthesized speech recognition
CN116705063B (zh) 一种基于流形测度的多模型融合的语音鉴伪识别方法
CN107103913A (zh) 一种基于功率谱Gabor特征序列递归模型的语音识别方法
Li et al. Few-shot speaker identification using lightweight prototypical network with feature grouping and interaction
Jin et al. Speaker verification based on single channel speech separation
Ali et al. Fake audio detection using hierarchical representations learning and spectrogram features
Pan et al. Attentive Merging of Hidden Embeddings from Pre-trained Speech Model for Anti-spoofing Detection
CN116844567A (zh) 一种基于多特征重建融合的深度合成音频检测方法及系统
Lin et al. Haha-POD: An Attempt for Laughter-Based Non-Verbal Speaker Verification
CN116469396A (zh) 基于时频域掩蔽效应的跨域语音鉴伪方法和系统
Chakroun et al. A hybrid system based on GMM-SVM for speaker identification
Alam On the use of fisher vector encoding for voice spoofing detection
CN115620731A (zh) 一种语音特征提取与检测方法
CN114038469B (zh) 一种基于多类谱图特征注意力融合网络的说话人识别方法
Shen et al. Attentional multi-feature fusion for spoofing-aware speaker verification
Lou et al. A Deep One-Class Learning Method for Replay Attack Detection.
Hu et al. Fusion of two classifiers for speaker identification: removing and not removing silence

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination