CN111429938B - 一种单通道语音分离方法、装置及电子设备 - Google Patents
一种单通道语音分离方法、装置及电子设备 Download PDFInfo
- Publication number
- CN111429938B CN111429938B CN202010388103.5A CN202010388103A CN111429938B CN 111429938 B CN111429938 B CN 111429938B CN 202010388103 A CN202010388103 A CN 202010388103A CN 111429938 B CN111429938 B CN 111429938B
- Authority
- CN
- China
- Prior art keywords
- voice
- module
- voice signal
- tensor
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000926 separation method Methods 0.000 title claims abstract description 52
- 238000013528 artificial neural network Methods 0.000 claims abstract description 48
- 230000007246 mechanism Effects 0.000 claims abstract description 33
- 238000000034 method Methods 0.000 claims description 20
- 238000010606 normalization Methods 0.000 claims description 17
- 230000000306 recurrent effect Effects 0.000 claims description 17
- 125000004122 cyclic group Chemical group 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000002457 bidirectional effect Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 239000000203 mixture Substances 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract 1
- 238000012549 training Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提供了一种单通道语音分离方法、装置及电子设备,使用编码器提取混合语音信号特征,分割提取到的语音信号特征并将其重新拼接成3‑D的张量;利用融合了自注意力机制的双路循环神经网络对拼接好的3‑D张量进行建模,学习语音信号之间的长时间依赖关系;将建模后的3‑D张量进行交叠相加,还原为序列语音信号特征;使用解码器将序列语音信号特征重构为纯净语音信号,得到分离的语音信号。本发明以提升语音分离性能为目的对长时间的语音信号进行建模,充分挖掘了语音信号之间的长时间依赖关系,分离效果较好,有效地降低了语音的失真率,同时提高了分离语音的可懂性。
Description
技术领域
本发明涉及语音信号处理、模式识别等领域,特别涉及一种单通道语音分离方法、装置及电子设备。
背景技术
单通道语音分离是指从一个多人说话的混合语音中,分离出每一个人的纯净语音,是信号处理领域的一个重要分支。其在现实世界中有许多实际应用,例如:从混合噪声语音中分离出纯净语音信号来提升语音识别和说话人识别的准确性。在视频会议转录、听力辅助、移动通信等领域,单通道语音分离都有着广阔的应用前景和实际意义。
传统的单通道语音分离主要是采用非负矩阵分解法和听觉场景分析法。非负矩阵分解法通过非负词典将混合语音信号的频谱特征解耦为与说话人相关的特定表示,然后从这些特定表示中得到每一个人的纯净语音。听觉场景分析法则是先将频谱特征分解为时间-频率分块,再通过将分块归组的方式提取特定说话人的语音信号。然而,这些传统方法只能处理已知说话人的语音分离任务,无法泛化到未知说话人混合语音的分离上,应用场景大大受限。进入深度学习时代以后,基于频谱特征的神经网络解决了泛化问题,并且在一定程度上提升了分离性能。但是基于频谱特征的神经网络仍然使用频谱特征作为神经网络的输入,大多数情况下只对幅度特征进行了分离,并没有处理相位信息;导致神经网络分离出的语音中存在伪像,使得其存在性能上限,无法最大化地提升分离性能。为了克服这一问题,时域分离法通过卷积-反卷积的方式提取语音信号特征和恢复语音信号,从原理上避免了伪像的产生,大大提升了语音分离的性能。然而,时域分离系统通常需要对极长的输入序列进行建模,需要挖掘输入序列中帧与帧之间关系,这对于时域分离法来说是一个巨大的挑战。
发明内容
针对现有技术中存在不足,本发明提供了一种单通道语音分离方法、装置及电子设备,与现有方法相比,充分挖掘了语音信号之间的长时间依赖关系,分离效果更好,有效地降低了语音的失真率,同时提高了分离语音的可懂性。
本发明是通过以下技术手段实现上述技术目的的。
一种单通道语音分离方法,分割提取的语音信号特征并将其重新拼接成3-D张量,利用融合了自注意力机制的双路循环神经网络对拼接的3-D张量进行建模,学习语音信号之间的长时间依赖关系,将建模后的3-D张量还原为序列语音信号特征,将序列语音信号特征重构为纯净语音信号,得到分离的语音信号。
进一步,所述自注意力机制融合循环神经网络,把由多个查询query组成的Q、多个键值对(keys,values)组成的(K,V)映射到一个指定的输出。
更进一步,所述自注意力机制包括点乘注意力模块、多头注意力模块、残差归一化模块和循环神经网络模块。
更进一步,所述循环神经网络模块采用双向循环神经网络。
更进一步,所述融合循环神经网络的自注意力机制再融合到双路网络中。
更进一步,所述双路网络包括块内模块和块际模块。
更进一步,所述双路网络的计算方式为:
IntraD=LN([MultiHead(D[:,:,s],D[:,:,s],D[:,:,s]),s=1,...,H])
Intrablock(D)=[BiLSTM(IntraD[:,:,s]),s=1,...,H]
其中,IntraD指块内模块中经多头注意力模块、残差归一化模块处理后的输出,指块际模块中经多头注意力模块、残差归一化模块处理后的输出,Intrablock(D)、分别为块内模块、块际模块的输出,BiLSTM为双向长短期记忆单元,MultiHead为多头注意力模块,D为张量,P为单位对长度,H为语音信号特征的块数。
一种单通道分离语音分离装置,包括依次连接的语音采集模块、语音分离模块和语音播放模块;
所述语音采集模块采集单通道混合语音信号;
所述语音分离模块基于自注意力机制和双路循环神经网络对混合语音信号进行分离,得到分离的语音信号;
所述语音播放模块播放从语音分离模块得到的语音信号。
上述技术方案中,所述基于自注意力机制和双路循环神经网络对混合语音信号进行分离,具体为:
分割提取的语音信号特征并将其重新拼接成3-D张量,利用融合了自注意力机制的双路循环神经网络对拼接的3-D张量进行建模,学习语音信号之间的长时间依赖关系,将建模后的3-D张量还原为序列语音信号特征,将序列语音信号特征重构为纯净语音信号,得到分离的语音信号。
一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行:分割提取的语音信号特征并将其重新拼接成3-D张量,利用融合了自注意力机制的双路循环神经网络对拼接的3-D张量进行建模,学习语音信号之间的长时间依赖关系,将建模后的3-D张量还原为序列语音信号特征,将序列语音信号特征重构为纯净语音信号,得到分离的语音信号。
本发明具有有益效果为:本发明利用基于自注意力机制的双路循环神经网络对长时间的语音信号进行建模,充分挖掘了语音信号之间的长时间依赖关系,将建模后的3-D张量还原为序列语音信号特征,将序列语音信号特征重构为纯净语音信号,得到分离的语音信号;有效地降低了语音的失真率,同时提高了分离语音的可懂性。
附图说明
图1为本发明单通道语音分离方法流程图;
图2为本发明融合循环神经网络的自注意力机制说明示意图;
图3为本发明融合自注意力机制的双路循环神经网络说明示意图;
图4为本发明单通道分离语音分离装置的结构示意图;
图5为本发明电子设备结构示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都是本发明保护的范围。
参见图1,一种基于自注意力机制和双路循环神经网络的单通道语音分离方法,该方法包括如下步骤:
步骤一,编码器接收多人说话的混合语音信号,并提取混合语音信号特征:
使用一维卷积神经网络作为编码器,从多人说话的混合语音信号当中提取特征X∈RN×L,该特征是一个2-D的张量,其中,R表示实数集,L为提取到的语音信号特征的时间步数目,N为提取到的语音信号特征的维度。
步骤二,分割提取的语音信号特征并将其重新拼接成3-D的张量:
以P为单位对长度对L的语音信号特征进行分块,得到H个分块;其中块与块之间有重叠部分,即存在块内重叠;然后再将所有的块拼接在一起,形成一个3-D的张量D∈RN×P×H。
步骤三,利用融合了自注意力机制的双路循环神经网络对拼接好的3-D张量进行建模,学习语音信号之间的长时间依赖关系:
如图2所示,自注意力机制融合循环神经网络,把由多个查询query组成的Q、多个键值对(keys,values)组成的(K,V)映射到一个指定的输出。
自注意力机制包括点乘注意力模块、多头注意力模块、残差归一化模块和循环神经网络模块。
点乘注意力模块首先通过Q和对应的K来计算权重,然后根据该权重对V进行加权求和,以此来得到输出。其计算公式如下:
其中,dmodel为输入序列的维度,在本发明中等于语音信号特征的维度N;KT表示矩阵K的转置,SoftMax为激活函数;在SoftMax之前设有归一化层。
多头注意力模块由多个点乘注意力模块组合而成。多头注意力模块首先对Q、K、V进行线性映射,然后再将映射之后的结果送入多个点乘注意力模块进行运算,最后将多个点乘注意力模块的运算结果进行拼接,得到多头注意力模块的输出。其计算公式如下:
MultiHead(Q,K,V)=Concat(head1,...,headh)WO (3)
其中,都为全连接层的参数;h为并行的点乘注意力模块的个数;且h、dmodel、dk、dV之间存在如下关系:dk=dV=dmodel/h,dk为的维度,dV为的维度。多头注意力模块参数较少,且能够有效学习语音信号之间的长时间依赖关系,有利于提升最终的语音分离性能。
残差归一化模块则是将多头注意力模块的输出与起始的输入(Q、K、V)进行相加,然后再对其进行层归一化操作。设需要进行归一化的对象为U∈RN×P×H,则此处归一化的计算方式为:
其中:μ(U)、σ(U)分别为U的均值和方差;LN表示层归一化;z、r是归一化因子,ε是一个防止分母为0的极小正数。残差归一化有利于神经网络参数的收敛,防止神经网络在训练过程中出现梯度爆炸或梯度消失现象。
循环神经网络模块是一个双向长短期记忆单元BiLSTM。其计算方式如下:
Γu=σ(Wu[a<t-1>;x<t>]+bu) (7)
Γf=σ(Wf[a<t-1>;x<t>]+bf) (8)
Γo=σ(Wo[a<t-1>;x<t>]+bo) (9)
~c<t>=tanh(Wc[a<t-1>;x<t>]+bc) (10)
c<t>=Γu*~c<t>+Γf*c<t-1> (11)
a<t>=Γo*tanh(c<t>) (12)
其中,Γu、Γf、Γo分别为更新门、遗忘门、输出门;Wu、bu为更新门的参数,Wf、bf为遗忘门的参数,Wo、bo为输出门的参数,Wc、bc为记忆单元的参数;x<t>为当前时刻的输入,a<t>为当前时刻的输出,c<t>和~c<t>为模块中的记忆单元。双向循环神经网络可以进一步学习语音信号中帧与帧之间的长时间依赖关系,促进最终语音分离性能的提升。此外,双向循环神经网络还可以为自注意力机制提供位置信息。
如图3所示,将融合循环神经网络的自注意力机制融合到一个双路网络中去。双路网络分为两个模块:块内模块和块际模块。双路网络需要处理的对象为3-D张量D∈RN×P×H,根据融合循环神经网络的自注意力机制过程,得到双路网络的计算方式为:
IntraD=LN([MultiHead(D[:,:,s],D[:,:,s],D[:,:,s]),s=1,...,H]) (13)
Intrablock(D)=[BiLSTM(IntraD[:,:,s]),s=1,...,H] (14)
使用块内、块际两个模块可以指数倍地减少所需要处理的语音信号特征的时间步数目,解决了对极长的时间序列信号建模难的问题,使得神经网络可以充分挖掘语音信号之间的长时间依赖关系,极大地提升语音分离的性能。
此步骤用融合了自注意力机制的双路循环神经网络对步骤二中拼接好的3-D张量D∈RN×P×H进行建模,使用块内模块学习语音信号的局部信息、块际模块学习语音信号的全局信息,从而学习语音信号之间的长时间依赖关系;然后使用一个二维卷积神经网络将建模后的语音信号映射为多个人纯净语音的掩码D'∈R(S×N)×P×H,再将此掩码与原始的3-D张量D∈RN×P×H进行点乘,得到多个人的纯净语音信号特征D”∈R(S×N)×P×H;其中,S为混合语音中说话人的数目。
步骤四,将建模后的3-D张量进行交叠相加,还原为序列语音信号特征:
对多个人的纯净语音信号特征D”∈R(S×N)×P×H进行交叠相加操作,将其还原为多个人的纯净语音信号特征X'∈R(S×N)×L。
步骤五,使用解码器将序列语音信号特征重构为纯净语音信号,得到分离的语音信号:
使用一维反卷积神经网络作为解码器,将每个人的纯净语音信号特征恢复为各自的纯净语音信号,得到分离结果。
如图4所示,一种单通道分离语音分离装置,包括依次连接的语音采集模块、语音分离模块和语音播放模块;语音采集模块采集单通道混合语音信号;语音分离模块基于自注意力机制和双路循环神经网络对混合语音信号进行分离,得到分离的语音信号;语音播放模块播放从语音分离模块得到的语音信号。
基于自注意力机制和双路循环神经网络对混合语音信号进行分离,具体为:分割提取的语音信号特征并将其重新拼接成3-D张量,利用融合了自注意力机制的双路循环神经网络对拼接的3-D张量进行建模,学习语音信号之间的长时间依赖关系,将建模后的3-D张量还原为序列语音信号特征,将序列语音信号特征重构为纯净语音信号,得到分离的语音信号。
如图5所示,一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行。
其中,存储器可以是高速随机存取存储器(Random-Access Memory,RAM)或者是非易失性存储器(non-vloatile memory),例如三星860EVO磁盘存储器等。存储器用于存放程序,包括本发明单通道语音分离方法的程序代码。存储器还包含内存,用来向处理器提供指令和数据。
处理器可为英特尔酷睿i5-4200U处理器。处理器从存储器中读取对应的程序代码到内存中运行,形成本发明的单通道语音分离方法。处理器执行存储器所存放的程序,并具体用于执行以下操作:分割提取的语音信号特征并将其重新拼接成3-D张量,利用融合了自注意力机制的双路循环神经网络对拼接的3-D张量进行建模,学习语音信号之间的长时间依赖关系,将建模后的3-D张量还原为序列语音信号特征,将序列语音信号特征重构为纯净语音信号,得到分离的语音信号。
存储器和处理器可以通过内部总线相互连接,该内部总线可以是ISA(IdustryStandard Architecture,工业标准体系结构)总线、PCI(Peripheral ComponentInterconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等;图5中用双向箭头表示总线。
上述双路循环神经网络在训练过程中以归一化信噪比(SI-SNR)为损失函数进行训练,其公式为:
实施例选用广泛使用的单通道语音分离基准数据集TIMIT来进行实验评估。为比较实施例方法与其他方法的性能,在TIMIT数据集上,将实施例方法与当下最先进的几个方法(语音级置换不变方法uPIT、时序卷积网络Conv-Tasnet、双路循环神经网络DPRNN)进行对比,从而证明实施例所提方法的有效性和优越性。在所有实验当中,实施例采用信号失真比(SDR)作为评价指标,该指标数值越大,则代表语音的失真率越低。
TIMIT数据集总共包含了6300条语音,来自630个人,每个人10条语音。TIMIT数据集中的每一条语音都只源自一个说话人,因此需要将这些纯净语音进行混合来得到混合语音。从TIMIT数据集当中随机抽取两条纯净语音,然后以0dB~5dB之间的一个随机数作为信噪比将这两条语音进行混合,得到混合语音,并将此作为训练集中的一个样本;重复上述操作以得到整个训练集。验证集和测试集也按照上述操作获得,获取验证集和测试集的过程中保证所抽取的语音都为未知说话人的语音。最终,训练集、验证集、测试集各包含样本约10000、1000、1000个。实施例使用混合而成的训练集、验证集、测试集来评估提出的方法的性能。
表1不同方法在TIMIT数据集上的SDR指标
方法 | SDR(dB) |
uPIT | 7.9 |
Conv-Tasnet | 12.4 |
DPRNN | 15.1 |
本发明方法 | 18.0 |
从表1的实验结果中,可以明显地看出,在单通道语音分离任务上,在TIMIT数据集上本发明SDR指标达到18.0,远高于其他现有方法,本发明基于自注意力机制和双路循环神经网络的单通道语音分离方法优于所有的现有先进方法。
由此,本发明基于自注意力机制和双路循环神经网络的单通道语音分离方法,可以充分挖掘语音信号之间的长时间依赖关系,提升语音分离性能,有效降低语音的失真率,同时提高分离语音的可懂性,在理论研究和实际应用领域都具有很好的借鉴意义。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (3)
1.一种单通道语音分离方法,其特征在于,包括以下步骤:编码器接收多人说话的混合语音信号,并提取混合语音信号特征;分割提取的混合语音信号特征,并将其重新拼接成3-D张量;利用融合了自注意力机制的双路循环神经网络对拼接的3-D张量进行建模,学习语音信号之间的长时间依赖关系;将建模后的3-D张量进行交替叠加还原为序列语音信号特征;使用编码器将序列语音信号特征重构为纯净语音信号,得到分离的语音信号;其中,所述自注意力机制包括点乘注意力模块、多头注意力模块、残差归一化模块和循环神经网络模块;且所述循环神经网络模块采用双向循环神经网络;
其中,所述利用融合了自注意力机制的双路循环神经网络,是指将采用双向循环网络的自制力机制融合到双路网络中;
所述双路网络包括块内模块和块际模块;
所述双路网络的计算方式为:
IntraD=LN([MultiHead(D[:,:,s],D[:,:,s],D[:,:,s]),s=1,...,H])
Intrablock(D)=[BiLSTM(IntraD[:,:,s]),s=1,...,H]
2.一种单通道语音分离装置,其特征在于,包括依次连接的语音采集模块、语音分离模块和语音播放模块;
所述语音采集模块采集单通道混合语音信号;
所述语音分离模块基于自注意力机制和双路网络对混合语音信号进行分离,得到分离的语音信号;所述基于自注意力机制和双路网络对混合语音信号进行分离,具体为:分割提取的语音信号特征,并将其重新拼接成3-D张量;利用融合了自注意力机制的双路循环神经网络对拼接的3-D张量进行建模,学习语音信号之间的长时间依赖关系;将建模后的3-D张量进行交替叠加还原为序列语音信号特征,将序列语音信号特征重构为纯净语音信号,得到分离的语音信号;
所述语音播放模块播放从语音分离模块得到的语音信号。
3.一种电子设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行,使所述处理器执行如权利要求1所述的方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2020101507926 | 2020-03-06 | ||
CN202010150792 | 2020-03-06 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111429938A CN111429938A (zh) | 2020-07-17 |
CN111429938B true CN111429938B (zh) | 2022-09-13 |
Family
ID=71558683
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010388103.5A Active CN111429938B (zh) | 2020-03-06 | 2020-05-09 | 一种单通道语音分离方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111429938B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112071329B (zh) * | 2020-09-16 | 2022-09-16 | 腾讯科技(深圳)有限公司 | 一种多人的语音分离方法、装置、电子设备和存储介质 |
CN111899757B (zh) * | 2020-09-29 | 2021-01-12 | 南京蕴智科技有限公司 | 针对目标说话人提取的单通道语音分离方法及系统 |
CN112289338B (zh) * | 2020-10-15 | 2024-03-12 | 腾讯科技(深圳)有限公司 | 信号处理方法及装置、计算机设备以及可读存储介质 |
CN112331182B (zh) * | 2020-10-26 | 2024-07-09 | 平安科技(深圳)有限公司 | 语音数据生成方法、装置、计算机设备及存储介质 |
CN112992121B (zh) * | 2021-03-01 | 2022-07-12 | 德鲁动力科技(成都)有限公司 | 基于注意力残差学习的语音增强方法 |
CN113380262B (zh) * | 2021-05-13 | 2022-10-18 | 重庆邮电大学 | 一种基于注意力机制与扰动感知的声音分离方法 |
CN113345464B (zh) * | 2021-05-31 | 2024-07-12 | 平安科技(深圳)有限公司 | 语音提取方法、系统、设备及存储介质 |
CN113744753B (zh) * | 2021-08-11 | 2023-09-08 | 清华大学苏州汽车研究院(相城) | 一种多人语音分离方法及语音分离模型的训练方法 |
CN113782045B (zh) * | 2021-08-30 | 2024-01-05 | 江苏大学 | 一种多尺度时延采样的单通道语音分离方法 |
CN113707167A (zh) * | 2021-08-31 | 2021-11-26 | 北京地平线信息技术有限公司 | 残留回声抑制模型的训练方法和训练装置 |
CN114429609B (zh) * | 2022-01-27 | 2024-08-09 | 西安交通大学 | 基于动作与其共现特征重组的时序动作定位方法及系统 |
CN114783459B (zh) * | 2022-03-28 | 2024-04-09 | 腾讯科技(深圳)有限公司 | 一种语音分离方法、装置、电子设备和存储介质 |
CN116564351B (zh) * | 2023-04-03 | 2024-01-23 | 湖北经济学院 | 一种语音对话质量评价方法、系统与便携式电子设备 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104538028B (zh) * | 2014-12-25 | 2017-10-17 | 清华大学 | 一种基于深度长短期记忆循环神经网络的连续语音识别方法 |
CN104700828B (zh) * | 2015-03-19 | 2018-01-12 | 清华大学 | 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法 |
CN108109619B (zh) * | 2017-11-15 | 2021-07-06 | 中国科学院自动化研究所 | 基于记忆和注意力模型的听觉选择方法和装置 |
US11145293B2 (en) * | 2018-07-20 | 2021-10-12 | Google Llc | Speech recognition with sequence-to-sequence models |
CN110085249B (zh) * | 2019-05-09 | 2021-03-16 | 南京工程学院 | 基于注意力门控的循环神经网络的单通道语音增强方法 |
CN110634502B (zh) * | 2019-09-06 | 2022-02-11 | 南京邮电大学 | 基于深度神经网络的单通道语音分离算法 |
CN110675860A (zh) * | 2019-09-24 | 2020-01-10 | 山东大学 | 基于改进注意力机制并结合语义的语音信息识别方法及系统 |
-
2020
- 2020-05-09 CN CN202010388103.5A patent/CN111429938B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111429938A (zh) | 2020-07-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111429938B (zh) | 一种单通道语音分离方法、装置及电子设备 | |
CN110600017B (zh) | 语音处理模型的训练方法、语音识别方法、系统及装置 | |
CN110060690B (zh) | 基于STARGAN和ResNet的多对多说话人转换方法 | |
CN103345923B (zh) | 一种基于稀疏表示的短语音说话人识别方法 | |
Lu et al. | Ensemble modeling of denoising autoencoder for speech spectrum restoration. | |
CN110459225B (zh) | 一种基于cnn融合特征的说话人辨认系统 | |
US20160189730A1 (en) | Speech separation method and system | |
CN111627429B (zh) | 一种基于CycleGAN的语音识别模型的防御方法及装置 | |
CN102664010B (zh) | 一种基于多因素频率位移不变特征的鲁棒说话人辨别方法 | |
CN104538035B (zh) | 一种基于Fisher超向量的说话人识别方法及系统 | |
CN108922559A (zh) | 基于语音时频变换特征和整数线性规划的录音终端聚类方法 | |
CN108520753A (zh) | 基于卷积双向长短时记忆网络的语音测谎方法 | |
CN110060657B (zh) | 基于sn的多对多说话人转换方法 | |
CN111048097B (zh) | 一种基于3d卷积的孪生网络声纹识别方法 | |
CN113129908B (zh) | 基于循环帧级特征融合的端到端猕猴声纹验证方法及系统 | |
CN111899757A (zh) | 针对目标说话人提取的单通道语音分离方法及系统 | |
CN109378014A (zh) | 一种基于卷积神经网络的移动设备源识别方法及系统 | |
KR102026226B1 (ko) | 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법 및 시스템 | |
CN114613387A (zh) | 语音分离方法、装置、电子设备与存储介质 | |
Wang et al. | Residual-guided personalized speech synthesis based on face image | |
Zheng et al. | MSRANet: Learning discriminative embeddings for speaker verification via channel and spatial attention mechanism in alterable scenarios | |
Wang et al. | Robust speaker identification of iot based on stacked sparse denoising auto-encoders | |
CN111243621A (zh) | 一种用于合成语音检测的gru-svm深度学习模型的构造方法 | |
CN111785262B (zh) | 一种基于残差网络及融合特征的说话人年龄性别分类方法 | |
Meng et al. | Noisy training for deep neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |