CN115881093A - 一种目标说话人语音获取方法和系统 - Google Patents
一种目标说话人语音获取方法和系统 Download PDFInfo
- Publication number
- CN115881093A CN115881093A CN202211316572.1A CN202211316572A CN115881093A CN 115881093 A CN115881093 A CN 115881093A CN 202211316572 A CN202211316572 A CN 202211316572A CN 115881093 A CN115881093 A CN 115881093A
- Authority
- CN
- China
- Prior art keywords
- voice
- speaker
- target speaker
- mixed
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000000605 extraction Methods 0.000 claims abstract description 15
- 238000010606 normalization Methods 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 11
- 239000000463 material Substances 0.000 claims description 10
- 238000002156 mixing Methods 0.000 claims description 10
- 239000013598 vector Substances 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 239000000203 mixture Substances 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 230000005236 sound signal Effects 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 8
- 230000009471 action Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000001308 synthesis method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011840 criminal investigation Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Landscapes
- Stereophonic System (AREA)
Abstract
本发明实施例提供一种目标说话人语音获取方法,包括:获取混合语料、参考语料以及多个单人语料,语音编码模块获取混合语料的混合声学特征,说话人提取模块分离出混合声学特征中不同说话人的单人声学特征;说话人编码模块获取参考语料中的参考声学特征,得到参考声学特征集;说话人比对模块将得到的单人声学特征分别到参考声学特征集中进行一对一特征打分,确定出目标说话人;根据目标人声学特征还原为目标人说话语音,得到训练好的目标说话人语音获取模型;将目标说话人的参考语音和含有目标说话人的混合语音,输入到训练好的目标说话人语音获取模型中,得到目标说话人语音;本发明提供的方法,能够有效提升多说话人场景下的声纹识别准确率。
Description
技术领域
本发明涉及语音识别领域,特别是指一种目标说话人语音获取方法和系统。
背景技术
每个人的声音都蕴涵着特有的生物特征,声纹识别是指利用说话人的声音来识别说话人的一种技术手段。声纹识别同指纹识别等技术一样具有高度的安全可靠性,可以应用在所有需要做身份识别的场合。如在刑侦、银行、证券、保险等金融领域。与传统的身份识别技术相比,声纹识别的优势在于,声纹提取过程简单,成本低,且具有唯一性,不易伪造和假冒。近几年,随着深度学习技术的发展,声纹识别技术也得到了较大的提升,已经成功应用在很多场景。但是在某些应用场景中也存在很大的挑战,比如说在多说话人场景中,人类可以准确的从多说话人里面辨识出某个人的声音,但是声纹识别模型的表现就会比较差,无法从多说话人场景里面正确的识别出目标说话人,给声纹识别系统的推广应用带来了一定的阻碍。
发明内容
本发明的主要目的在于克服现有技术中的上述缺陷,提出一种目标说话人语音获取方法,用于多说话人场景下目标说话人声纹识别,有效提升多说话人场景下的声纹识别准确率,且能够拓展声纹识别的应用场景。
本发明采用如下技术方案:
一种目标说话人语音获取方法,包括:
获取混合语料、参考语料以及多个单人语料,其中,混合语料是由不少于两人的说话人语料混合得到的,参考语料为包含所有单个说话人语料;
将混合语料输入目标说话人语音获取模型中混合语音接口模块,语音编码模块获取混合语料的混合声学特征,说话人提取模块分离出混合声学特征中不同说话人的单人声学特征;
将参考语料输入目标说话人获取模型中参考语音接口模块,说话人编码模块获取参考语料中的参考声学特征,得到参考声学特征集;
说话人比对模块将得到的单人声学特征分别到参考声学特征集中进行一对一特征打分,确定出目标说话人;
将目标人声学特征语音解码模块,根据目标人声学特征还原为目标人说话语音,完成目标说话人语音获取模型的训练,得到训练好的目标说话人语音获取模型;
将目标说话人的参考语音和含有目标说话人的混合语音,输入到训练好的目标说话人语音获取模型中,得到含有目标说话人的混合语音中目标说话人语音。
所述混合语料的合成方法,设定为两个说话人混合,具体为:
s1=w1*fsource1
s2=w2*fsource2
m=s1+s2
fsource1为第一说话人的原始语音信号,fsource2为第二说话人的原始语音信号,snr为信噪比参数,随机生成,数值大小在0~5db之间,w1为第一说话人权重,w2为第二说话人权重,s1作为语音合并前干净的说话人1语音信号,为主要说话人,s2为语音合并前干净的说话人2语音信号,为次要说话人,m为合成的含有两个说话人声音的语音信号。
具体地,所述说话人提取模块包括:多维度卷积层、卷积合并层、归一化层以及掩膜层,所述多维卷积层包括低维卷积层、中维卷积层以及高维卷积层,所述卷积合并层用于合并卷积计算,所述归一化层用于归一化计算,所述掩膜层用于过滤到无关说话人的语音信号。
具体地,所述掩膜层依次包括卷积层、归一化层、卷积层、归一化层、激活函数以及线性连接层。
具体地,说话人编码模块依次包括梅尔倒谱特征层、归一化层、多个深度残差模块、归一化层、线性连接层以及分类层;所述梅尔倒谱特征层用于提取语音信号的声学特征,并将时域信号转化为频域信号,所述归一化层用于归一化计算,所述深度残差模块用于残差计算,对说话人的语音信号进行建模,提取声学特征;所述线性连接层用于将提取的声学特征综合并输出。
具体地,训练的损失函数包括:交叉熵损失函数L1和源失真比损失函数L2:
XT+XE=X*
具体地,所述特征打分具体,具体为:
其中,Similarity声纹特征A和声纹特征B的相似度,θ为特征A和B之间的夹角,A和B为声纹特征,Ai为特征A的第i个矢量,Bi特征B的第i个矢量,n为声纹特征中矢量个数,||A||为特征A的模长,||B||为特征B的模长。
本发明实施例另一方面提供一种目标说话人语音获取系统,包括:
语料获取单元:获取混合语料、参考语料以及多个单人语料,其中,混合语料是由不少于两人的说话人语料混合得到的,参考语料为包含所有单个说话人语料;
混合语料特征处理单元:将混合语料输入目标说话人语音获取模型中混合语音接口模块,语音编码模块获取混合语料的混合声学特征,说话人提取模块分离出混合声学特征中不同说话人的单人声学特征;
参考语料特征处理单元:将参考语料输入目标说话人获取模型中参考语音接口模块,说话人编码模块获取参考语料中的参考声学特征,得到参考声学特征集;
特征比对单元:说话人比对模块将得到的单人声学特征分别到参考声学特征集中进行一对一特征打分,确定出目标说话人;
语音解码单元:将目标人声学特征语音解码模块,根据目标人声学特征还原为目标人说话语音,完成目标说话人语音获取模型的训练,得到训练好的目标说话人语音获取模型;
检测单元:将目标说话人的参考语音和含有目标说话人的混合语音,输入到训练好的目标说话人语音获取模型中,得到含有目标说话人的混合语音中目标说话人语音本发明实施例再一方面提供一种电子设备,包括:存储器,处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现上述一种目标说话人语音获取方法步骤。
本发明实施例又一方面提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述一种目标说话人语音获取方法步骤。
由上述对本发明的描述可知,与现有技术相比,本发明具有如下有益效果:
本发明实施例提供一种目标说话人语音获取方法,包括:获取混合语料、参考语料以及多个单人语料,其中,混合语料是由不少于两人的说话人语料混合得到的,参考语料为包含所有单个说话人语料;将混合语料输入目标说话人语音获取模型中混合语音接口模块,语音编码模块获取混合语料的混合声学特征,说话人提取模块分离出混合声学特征中不同说话人的单人声学特征;将参考语料输入目标说话人获取模型中参考语音接口模块,说话人编码模块获取参考语料中的参考声学特征,得到参考声学特征集;说话人比对模块将得到的单人声学特征分别到参考声学特征集中进行一对一特征打分,确定出目标说话人;将目标人声学特征语音解码模块,根据目标人声学特征还原为目标人说话语音,完成目标说话人语音获取模型的训练,得到训练好的目标说话人语音获取模型;将目标说话人的参考语音和含有目标说话人的混合语音,输入到训练好的目标说话人语音获取模型中,得到含有目标说话人的混合语音中目标说话人语音;本发明提供的方法,用于多说话人场景下目标说话人声纹识别,有效提升多说话人场景下的声纹识别准确率,且能够拓展声纹识别的应用场景。
附图说明
图1为本发明实施例提供的一种目标说话人语音获取方法流程图;
图2为本发明实施例提供的说话人提取模块的结构图;
图3为本发明实施例提供的掩膜层的结构图;
图4为本发明实施例提供的说话人编码模块的结构图;
图5为本发明实施例提供的一种目标说话人语音获取系统架构图;
图6为本发明实施例提供的一种电子设备示意图;
图7为本发明实施例提供的一种计算机可读存储介质的实施例示意图。
以下结合附图和具体实施例对本发明作进一步详述。
具体实施方式
本发明提供的一种目标说话人语音获取方法,用于多说话人场景下目标说话人声纹识别,有效提升多说话人场景下的声纹识别准确率,且能够拓展声纹识别的应用场景
如图1,为本发明实施例提供的一种目标说话人语音获取方法流程图,包括:
S101:获取混合语料、参考语料以及多个单人语料,其中,混合语料是由不少于两人的说话人语料混合得到的,参考语料为包含所有单个说话人语料;
所述混合语料的合成方法,设定为两个说话人混合,具体为:
s1=w1*fsource1
s2=w2*fsource2
m=s1+s2
fsource1为第一说话人的原始语音信号,fsource2为第二说话人的原始语音信号,snr为信噪比参数,随机生成,数值大小在0~5db之间,w1为第一说话人权重,w2为第二说话人权重,s1作为语音合并前干净的说话人1语音信号,为主要说话人,s2为语音合并前干净的说话人2语音信号,为次要说话人,m为合成的含有两个说话人声音的语音信号。
混合数据集由合成后的m1~mx组成,共x条。第一说话人数据集由s11~s1x组成,共x条。第二说话人数据集由s21~s2x组成,共x条。参考数据集为随机抽取的包含有第一说话人1和第二说话人2声音的语音数据,总共k人
本发明实施例中共需合成20000条训练数据,6000条验证数据。
S102:将混合语料输入目标说话人语音获取模型中混合语音接口模块,语音编码模块获取混合语料的混合声学特征,说话人提取模块分离出混合声学特征中不同说话人的单人声学特征;
说话人提取模块是改进的模型结构,如图2所示,实验证明取得了良好的效果,可以加速模型训练的收敛速度,说话人提取SDR指标可以提升10%以上;
具体地,所述说话人提取模块包括:多维度卷积层、卷积合并层、归一化层以及掩膜层,所述多维卷积层包括低维卷积层、中维卷积层以及高维卷积层,所述卷积合并层用于合并卷积计算,所述归一化层用于归一化计算,所述掩膜层用于过滤到无关说话人的语音信号。个模型有低维、中维、高维三个维度的卷积层,可以从各个角度提取时域语音信号,有助于提升源失真比(SDR)指标。
具体地,如图3所示,掩膜层依次包括卷积层、归一化层、卷积层、归一化层、激活函数以及线性连接层。
掩膜层可以将无关说话人的语音信号过滤掉,只留下目标说话人的语音信号,提高识别准确率。
S103:将参考语料输入目标说话人获取模型中参考语音接口模块,说话人编码模块获取参考语料中的参考声学特征,得到参考声学特征集;
S104:说话人比对模块将得到的单人声学特征分别到参考声学特征集中进行一对一特征打分,确定出目标说话人;
具体地,所述特征打分具体,具体为:
其中,Similarity声纹特征A和声纹特征B的相似度,θ为特征A和B之间的夹角,A和B为声纹特征,Ai为特征A的第i个矢量,Bi特征B的第i个矢量,n为声纹特征中矢量个数,||A||为特征A的模长,||B||为特征B的模长。
当打分高于阈值的时候,认为为同一说话人,当打分高于阈值,认为不是同一说话人。
S105:将目标人声学特征语音解码模块,根据目标人声学特征还原为目标人说话语音,完成目标说话人语音获取模型的训练,得到训练好的目标说话人语音获取模型;
如图4为说话人编码模块示意图,采用改进网络结构,基于ResNet Block,改进后的网络结构可以提升模型的鲁棒性,提高声纹识别准确率;
具体地,说话人编码模块依次包括梅尔倒谱特征层、归一化层、多个深度残差模块、归一化层、线性连接层以及分类层;所述梅尔倒谱特征层用于提取语音信号的声学特征,并将时域信号转化为频域信号,所述归一化层用于归一化计算,所述深度残差模块用于残差计算,对说话人的语音信号进行建模,提取声学特征;所述线性连接层用于将提取的声学特征综合并输出。
S106:将目标说话人的参考语音和含有目标说话人的混合语音,输入到训练好的目标说话人语音获取模型中,得到含有目标说话人的混合语音中目标说话人语音。
本发明实施例提供的损失函数改进了说话人编码模块和语音解码模块的输出权重,加快模型训练的收敛速度,声纹识别准确率可以提升10%以上。
具体地,训练的损失函数包括:交叉熵损失函数L1和源失真比损失函数L2:
XT+XE=X*
如图5,本发明实施例另一方面提供一种目标说话人语音获取系统,包括:
语料获取单元:获取混合语料、参考语料以及多个单人语料,其中,混合语料是由不少于两人的说话人语料混合得到的,参考语料为包含所有单个说话人语料;
混合语料特征处理单元:将混合语料输入目标说话人语音获取模型中混合语音接口模块,语音编码模块获取混合语料的混合声学特征,说话人提取模块分离出混合声学特征中不同说话人的单人声学特征;
参考语料特征处理单元:将参考语料输入目标说话人获取模型中参考语音接口模块,说话人编码模块获取参考语料中的参考声学特征,得到参考声学特征集;
特征比对单元:说话人比对模块将得到的单人声学特征分别到参考声学特征集中进行一对一特征打分,确定出目标说话人;
语音解码单元:将目标人声学特征语音解码模块,根据目标人声学特征还原为目标人说话语音,完成目标说话人语音获取模型的训练,得到训练好的目标说话人语音获取模型;
检测单元:将目标说话人的参考语音和含有目标说话人的混合语音,输入到训练好的目标说话人语音获取模型中,得到含有目标说话人的混合语音中目标说话人语音。
图6所示,本发明实施例提供了一种电子设备600,包括存储器610、处理器620及存储在存储器620上并可在处理器620上运行的计算机程序611,处理器620执行计算机程序611时实现本发明实施例提供的一种目标说话人语音获取方法。
由于本实施例所介绍的电子设备为实施本发明实施例中所采用的设备,故而基于本发明实施例中所介绍的方法,本领域所属技术人员能够了解本实施例的电子设备的具体实施方式以及其各种变化形式,所以在此对于该电子设备如何实现本发明实施例中的方法不再详细介绍,只要本领域所属技术人员实施本发明实施例中的方法所采用的设备,都属于本发明所欲保护的范围。
请参阅图7,图7为本发明实施例提供的一种计算机可读存储介质的实施例示意图。
如图7所示,本实施例提供了一种计算机可读存储介质700,其上存储有计算机程序711,该计算机程序711被处理器执行时实现本发明实施例提供一种目标说话人语音获取方法;
需要说明的是,在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其它实施例的相关描述。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例提供一种目标说话人语音获取方法,包括:获取混合语料、参考语料以及多个单人语料,其中,混合语料是由不少于两人的说话人语料混合得到的,参考语料为包含所有单个说话人语料;将混合语料输入目标说话人语音获取模型中混合语音接口模块,语音编码模块获取混合语料的混合声学特征,说话人提取模块分离出混合声学特征中不同说话人的单人声学特征;将参考语料输入目标说话人获取模型中参考语音接口模块,说话人编码模块获取参考语料中的参考声学特征,得到参考声学特征集;说话人比对模块将得到的单人声学特征分别到参考声学特征集中进行一对一特征打分,确定出目标说话人;将目标人声学特征语音解码模块,根据目标人声学特征还原为目标人说话语音,完成目标说话人语音获取模型的训练,得到训练好的目标说话人语音获取模型;将目标说话人的参考语音和含有目标说话人的混合语音,输入到训练好的目标说话人语音获取模型中,得到含有目标说话人的混合语音中目标说话人语音;本发明提供的方法,用于多说话人场景下目标说话人声纹识别,有效提升多说话人场景下的声纹识别准确率,且能够拓展声纹识别的应用场景。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
上述仅为本发明的具体实施方式,但本发明的设计构思并不局限于此,凡利用此构思对本发明进行非实质性的改动,均应属于侵犯本发明保护范围的行为。
Claims (10)
1.一种目标说话人语音获取方法,其特征在于,包括:
获取混合语料、参考语料以及多个单人语料,其中,混合语料是由不少于两人的说话人语料混合得到的,参考语料为包含所有单个说话人语料;
将混合语料输入目标说话人语音获取模型中混合语音接口模块,语音编码模块获取混合语料的混合声学特征,说话人提取模块分离出混合声学特征中不同说话人的单人声学特征;
将参考语料输入目标说话人获取模型中参考语音接口模块,说话人编码模块获取参考语料中的参考声学特征,得到参考声学特征集;
说话人比对模块将得到的单人声学特征分别到参考声学特征集中进行一对一特征打分,确定出目标说话人;
将目标人声学特征输入语音解码模块,根据目标人声学特征还原为目标人说话语音,完成目标说话人语音获取模型的训练,得到训练好的目标说话人语音获取模型;
将目标说话人的参考语音和含有目标说话人的混合语音,输入到训练好的目标说话人语音获取模型中,得到含有目标说话人的混合语音中目标说话人语音。
3.根据权利要求1所述的一种目标说话人语音获取方法,其特征在于,所述说话人提取模块包括:多维度卷积层、卷积合并层、归一化层以及掩膜层,所述多维卷积层包括低维卷积层、中维卷积层以及高维卷积层,所述卷积合并层用于合并卷积计算,所述归一化层用于归一化计算,所述掩膜层用于过滤到无关说话人的语音信号。
4.根据权利要求3所述的一种目标说话人语音获取方法,其特征在于,所述掩膜层依次包括卷积层、归一化层、卷积层、归一化层、激活函数以及线性连接层。
5.根据权利要求1所述的一种目标说话人语音获取方法,其特征在于,说话人编码模块依次包括梅尔倒谱特征层、归一化层、多个深度残差模块、归一化层、线性连接层以及分类层;所述梅尔倒谱特征层用于提取语音信号的声学特征,并将时域信号转化为频域信号,所述归一化层用于归一化计算,所述深度残差模块用于残差计算,对说话人的语音信号进行建模,提取声学特征;所述线性连接层用于将提取的声学特征综合并输出。
8.一种目标说话人语音获取系统,其特征在于,包括:
语料获取单元:获取混合语料、参考语料以及多个单人语料,其中,混合语料是由不少于两人的说话人语料混合得到的,参考语料为包含所有单个说话人语料;
混合语料特征处理单元:将混合语料输入目标说话人语音获取模型中混合语音接口模块,语音编码模块获取混合语料的混合声学特征,说话人提取模块分离出混合声学特征中不同说话人的单人声学特征;
参考语料特征处理单元:将参考语料输入目标说话人获取模型中参考语音接口模块,说话人编码模块获取参考语料中的参考声学特征,得到参考声学特征集;
特征比对单元:说话人比对模块将得到的单人声学特征分别到参考声学特征集中进行一对一特征打分,确定出目标说话人;
语音解码单元:将目标人声学特征输入语音解码模块,根据目标人声学特征还原为目标人说话语音,完成目标说话人语音获取模型的训练,得到训练好的目标说话人语音获取模型;
检测单元:将目标说话人的参考语音和含有目标说话人的混合语音,输入到训练好的目标说话人语音获取模型中,得到含有目标说话人的混合语音中目标说话人语音。
9.一种电子设备,其特征在于,包括:存储器,处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现权利要求1至7任一所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211316572.1A CN115881093A (zh) | 2022-10-26 | 2022-10-26 | 一种目标说话人语音获取方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211316572.1A CN115881093A (zh) | 2022-10-26 | 2022-10-26 | 一种目标说话人语音获取方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115881093A true CN115881093A (zh) | 2023-03-31 |
Family
ID=85758970
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211316572.1A Pending CN115881093A (zh) | 2022-10-26 | 2022-10-26 | 一种目标说话人语音获取方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115881093A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117953881A (zh) * | 2024-02-18 | 2024-04-30 | 暗物质(北京)智能科技有限公司 | 一种特定人语音识别系统及方法 |
-
2022
- 2022-10-26 CN CN202211316572.1A patent/CN115881093A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117953881A (zh) * | 2024-02-18 | 2024-04-30 | 暗物质(北京)智能科技有限公司 | 一种特定人语音识别系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Villalba et al. | State-of-the-art speaker recognition with neural network embeddings in NIST SRE18 and speakers in the wild evaluations | |
Chen et al. | Robust deep feature for spoofing detection—The SJTU system for ASVspoof 2015 challenge | |
CN105139857B (zh) | 一种自动说话人识别中针对语音欺骗的对抗方法 | |
CN110473566A (zh) | 音频分离方法、装置、电子设备及计算机可读存储介质 | |
Zhang et al. | X-tasnet: Robust and accurate time-domain speaker extraction network | |
Tan et al. | A survey on presentation attack detection for automatic speaker verification systems: State-of-the-art, taxonomy, issues and future direction | |
CN112507311A (zh) | 一种基于多模态特征融合的高安全性身份验证方法 | |
CN115881093A (zh) | 一种目标说话人语音获取方法和系统 | |
Efanov et al. | The BiLSTM-based synthesized speech recognition | |
CN116705063B (zh) | 一种基于流形测度的多模型融合的语音鉴伪识别方法 | |
CN107103913A (zh) | 一种基于功率谱Gabor特征序列递归模型的语音识别方法 | |
Li et al. | Few-shot speaker identification using lightweight prototypical network with feature grouping and interaction | |
Jin et al. | Speaker verification based on single channel speech separation | |
Ali et al. | Fake audio detection using hierarchical representations learning and spectrogram features | |
Pan et al. | Attentive Merging of Hidden Embeddings from Pre-trained Speech Model for Anti-spoofing Detection | |
CN116844567A (zh) | 一种基于多特征重建融合的深度合成音频检测方法及系统 | |
Lin et al. | Haha-POD: An Attempt for Laughter-Based Non-Verbal Speaker Verification | |
CN116469396A (zh) | 基于时频域掩蔽效应的跨域语音鉴伪方法和系统 | |
Chakroun et al. | A hybrid system based on GMM-SVM for speaker identification | |
Alam | On the use of fisher vector encoding for voice spoofing detection | |
CN115620731A (zh) | 一种语音特征提取与检测方法 | |
CN114038469B (zh) | 一种基于多类谱图特征注意力融合网络的说话人识别方法 | |
Shen et al. | Attentional multi-feature fusion for spoofing-aware speaker verification | |
Lou et al. | A Deep One-Class Learning Method for Replay Attack Detection. | |
Hu et al. | Fusion of two classifiers for speaker identification: removing and not removing silence |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |