CN108109619B - 基于记忆和注意力模型的听觉选择方法和装置 - Google Patents
基于记忆和注意力模型的听觉选择方法和装置 Download PDFInfo
- Publication number
- CN108109619B CN108109619B CN201711127669.7A CN201711127669A CN108109619B CN 108109619 B CN108109619 B CN 108109619B CN 201711127669 A CN201711127669 A CN 201711127669A CN 108109619 B CN108109619 B CN 108109619B
- Authority
- CN
- China
- Prior art keywords
- vector
- voice
- speaker
- hidden layer
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000015654 memory Effects 0.000 title claims abstract description 34
- 238000010187 selection method Methods 0.000 title claims abstract description 15
- 239000013598 vector Substances 0.000 claims abstract description 196
- 238000000034 method Methods 0.000 claims abstract description 90
- 239000011159 matrix material Substances 0.000 claims abstract description 72
- 230000007787 long-term memory Effects 0.000 claims abstract description 44
- 238000010586 diagram Methods 0.000 claims description 18
- 238000013507 mapping Methods 0.000 claims description 11
- 230000002441 reversible effect Effects 0.000 claims description 10
- 230000000873 masking effect Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 5
- 230000001131 transforming effect Effects 0.000 claims description 5
- 238000012952 Resampling Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 4
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000000926 separation method Methods 0.000 abstract description 11
- 238000012360 testing method Methods 0.000 description 18
- 238000012549 training Methods 0.000 description 14
- 238000013528 artificial neural network Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 10
- 238000002474 experimental method Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000000306 recurrent effect Effects 0.000 description 4
- XXQGYGJZNMSSFD-UHFFFAOYSA-N 2-[2-(dimethylcarbamoyl)phenoxy]acetic acid Chemical compound CN(C)C(=O)C1=CC=CC=C1OCC(O)=O XXQGYGJZNMSSFD-UHFFFAOYSA-N 0.000 description 3
- 102100022443 CXADR-like membrane protein Human genes 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000000638 stimulation Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000012733 comparative method Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000012467 final product Substances 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0017—Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02087—Noise filtering the noise being separate speech, e.g. cocktail party
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明属于语音分离技术领域,具体涉及基于记忆和注意力模型的听觉选择方法和装置。旨在解决现有技术中监督标签的排列、说话人混叠数目不确定以及记忆单元维度固定的问题。本发明提供一种基于记忆和注意力模型的听觉选择方法,包括将原始语音信号编码为时频矩阵,对时频矩阵进行编码和变换,将其转化为语音向量,利用长时记忆单元存储说话人以及其对应的语音向量,获取目标说话人的语音向量,通过注意力选择模型从原始语音信号中分离出目标语音。本发明提供的方法能够不需要固定或者指定说话人的数目,从原始语音信号中分离出目标语音。
Description
技术领域
本发明属于语音分离技术领域,具体涉及基于记忆和注意力模型的听觉选择方法和装置。
背景技术
近年来,电子设备和人工智能飞速发展,人机语音交互作为人工智能领域重要的组成部分,其重要性日益凸显,人机语音交互在现实生活中得到广泛的应用。人机语音交互是机器识别并分析提取语音信号语义特征信息,与标准信息库中语义特征相对比,输出相应文字或转化为我们想要的输出结果。但在实际应用中,现实环境存在大量的干扰,机器识别并分析提取语音信号语义特征信息这一过程无法令人满意。自从“鸡尾酒会问题”被提出后,语音分离技术作为人机语音交互的一个重要方法。
现有的语音分离技术采用监督学习的方法,但是现实环境中说话人混叠数目不确定以及监督学习方法的监督标签的排列不确定等因素,导致现有技术在实际应用场景中应用效果差,可靠性不高。此外,现有的监督学习的方法中记忆单元的维度固定,导致难以对未登录的说话人,或者较少出现的说话人的声纹信息进行有效地存储,也就无法做到准确的语音分离。
因此,如何提出一种解决上述问题的方案是本领域技术人员目前需要解决的问题。
发明内容
为了解决现有技术中的上述问题,即为了解决现有技术中监督标签的排列、说话人混叠数目不确定以及记忆单元维度固定的问题,本发明的一方面提供了一种基于记忆和注意力模型的听觉选择方法,包括:
将原始语音信号编码为包含时间-频率维度的矩阵;
对所述矩阵进行编码和变换,将其转化为语音向量;
利用长时记忆单元存储说话人以及与其对应的语音向量;
从所述长时记忆单元中获取目标说话人对应的语音向量,根据所述目标说话人对应的语音向量,通过注意力选择模型从所述原始语音信号中分离出目标语音。
在上述方法的优选技术方案中,所述“将原始语音信号编码为包含时间-频率维度的矩阵”之前,该方法还包括:
对所述原始语音信号进行重采样,并对重采样后的语音信号进行滤波操作以便降低所述原始语音信号的采样率。
在上述方法的优选技术方案中,所述“对所述矩阵进行编码和变换,将其转化为语音向量”,其方法为:
利用双向长短时记忆网络模型BiLSTM分别从顺序和逆序两个方向对所述矩阵进行编码,分别得到第一隐层向量和第二隐层向量;
将所述第一隐层向量和与其对应时刻的所述第二隐层向量进行融合,得到第三隐层向量;
将所述第三隐层向量通过全连接层转化为语音向量;
其中,矩阵按顺序编号排列的时刻与矩阵按逆序排列相同编号的时刻互为对应时刻。
在上述方法的优选技术方案中,利用BiLSTM对所述矩阵进行编码得到隐层向量,其公式为:
其中,i、f、c、o、h分别表示BiLSTM的输入门、遗忘门、存储单元、输出门以及隐层向量,σ表示Sigmoid函数,x表示输入量,t表示时刻;
其中,Wxi、Whi、Wci分别表示当前时刻输入量xt、上一时刻的隐层向量ht-1、上一时刻记忆单元ct-1在输入门中的编码矩阵参数;bi表示输入门中的信息偏置参数;
其中,Wxf、Whf、Wcf分别表示当前时刻输入量xt、上一时刻的隐层向量ht-1、上一时刻记忆单元ct-1在遗忘门中的编码矩阵参数;bf表示遗忘门中的信息偏置参数;
其中,Wxc、Whc分别表示当前时刻输入量xt、上一时刻的隐层向量ht-1在存储单元中的编码矩阵参数;bc表示存储单元中的信息偏置参数;
其中,Wxo、Who、Wco分别表示当前时刻输入量xt、上一时刻的隐层向量ht-1、上一时刻记忆单元ct-1在输出门中的编码矩阵参数;bo表示输出门中的信息偏置参数。
在上述方法的优选技术方案中,所述“将所述第一隐层向量和与其对应时刻的所述第二隐层向量进行融合”,融合方法包括将所述第一隐层向量与所述第二隐层向量相加、或者求解所述第一隐层向量与所述第二隐层向量的平均值、或者将所述第一隐层向量与所述第二隐层向量首尾拼接。
在上述方法的优选技术方案中,所述“利用长时记忆单元存储说话人以及与其对应的语音向量”,其方法为:
采用Key-Value形式将说话人与其对应的语音向量存储在所述长时记忆单元中,其中,Key存储说话人的索引,Value存储该说话人对应的语音向量。
在上述方法的优选技术方案中,所述“利用长时记忆单元存储说话人以及与其对应的语音向量”之后,该方法还包括:
当所述长时记忆单元中存储的说话人产生新的语音时,提取该说话人的语音向量,并更新该说话人在所述长时记忆单元中存储的语音向量,使其替换该说话人原有的语音向量。
在上述方法的优选技术方案中,所述“更新该说话人的语音向量”,其方法为:
提取说话人的语音向量后,将其与所述长时记忆单元中该说话人原有的语音向量相加,将得到的结果进行幅值归一化处理,具体公式为:
其中,q表示所述说话人产生的新的语音向量,v1表示所述说话人原有的语音向量,v表示所述说话人更新后的语音向量。
在上述方法的优选技术方案中,所述“从所述长时记忆单元中获取目标说话人对应的语音向量”,其方法为:
在所述说话人和与其对应的语音向量之间建立映射矩阵,根据所述映射矩阵,由目标说话人查询得到对应的语音向量;
或者将目标说话人的语音输入BiLSTM,在时间维度上求解所述BiLSTM输出的平均值,将其作为所述目标说话人对应的语音向量。
在上述方法的优选技术方案中,所述“通过注意力选择模型从所述原始语音信号中分离出目标语音”,其方法为:
将所述目标说话人对应的语音向量与原始语音信号转化的语音向量进行相似度计算,得到所述目标语音的信息掩蔽;
计算所述目标语音的信息掩蔽与原始语音信号中对应点的加权值,得到目标语音的输出时频图;
通过逆快速傅里叶变化iSTFT将所述输出时频图转化为目标语音。
在上述方法的优选技术方案中,所述“将原始语音信号编码为包含时间-频率维度的矩阵”,其方法为:
将所述原始语音信号通过短时快速傅里叶变换STFT编码为包含时间-频率维度的矩阵。
本发明的第二方面提供一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行如上述所述的基于记忆和注意力模型的听觉选择方法。
本发明的第三方面提供一种处理装置,包括处理器、存储设备;处理器,适于执行各条程序;存储设备,适于存储多条程序;所述程序适于由处理器加载并执行如上述所述的基于记忆和注意力模型的听觉选择方法。
本发明提供的基于记忆和注意力模型的听觉选择方法,针对语音信号时序性、短时稳定性的特点,采用循环神经网络对语音信号进行有效地编码以及对编码后得到的语音向量进行筛选、分离。
同时,本发明设计并配置一种外置长时记忆单元的网络对语音数据进行编码存储和记忆,能够保存并固化更长的历史数据信息,既可以利用训练数据中学习到的存储在记忆中的声源信息进行较高准确度地选择和语音分离,也可以灵活地识别并记录未出现过的罕见声源信息。因此本发明的方法不需要固定或者指定说话人的数目,可以直接对混叠语音进行测试。
附图说明
图1为本发明一种实施例基于记忆和注意力模型的听觉选择方法的流程示意图;
图2为本发明实施例中将原始语音信号转换为时频维度矩阵的示意图;
图3为本发明实施例中将时频维度矩阵拓展为语音向量的示意图;
图4为本发明实施例中记忆单元存储过程的示意图;
图5为本发明实施例中不同驱动方式下听觉选择的流程示意图;
图6为本发明实施例中将目标语音的时频图转换为目标语音的示意图;
图7为本发明实施例中基于记忆和注意力模型的听觉选择方法的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
如图1所示,为本发明一种实施例基于记忆和注意力模型的听觉选择方法的流程示意图,包括:
步骤S1:将原始语音信号编码为包含时间-频率维度的矩阵;
在本发明实施例的一种优选实施例中,“将原始语音信号编码为包含时间-频率两个维度的矩阵”之前,该方法还包括:
对原始语音信号进行重采样,并对重采样后的语音信号进行滤波操作以便降低原始语音信号的采样率。
进一步地,将原始语音信号通过短时快速傅里叶变换STFT编码为包含时间-频率维度的矩阵。
具体地,如图2所示,图2为本发明实施例中将原始语音信号转换为时频维度矩阵的示意图,原始语音信号是一种时域信号,包含时间和幅值两个维度的信息,在实际场景中往往存在较多的干扰,需要从被干扰的语音信号中分离出有用的信号,本发明通过STFT(Short-Time Fourier Transform,短时快速傅里叶变换)将输入的原始语音信号分解为二维的时间-频率维度矩阵,不仅能够有利于排除干扰,而且时间-频率维度的矩阵表示有利于对语音信号的分析。其中,STFT是通过时间窗内一段信号来表示某一时刻的信号特征,能够用以确定时变信号其局部区域正弦波的频率和相位。
在实际应用中,为了降低整个方法的计算复杂度和在计算机上的内存开销,在将原始语音信号编码为包含时间-频率维度的矩阵之前,先对原始语音数据在时间维度上,以一定的固定间隔进行抽样,并用低通滤波器提前进行滤波操作,以原始语音信号的采样率为16Khz为例,对原始语音信号进行重采样之后,可以将其采样率降低到8Khz。
步骤S2:对矩阵进行编码和变换,将其转化为语音向量;
如图3所示,图3为本发明实施例中将时频维度矩阵拓展为语音向量的示意图,在步骤S1得到时间-频率维度矩阵的基础上,对其进行编码和变换,将每一个时间-频率矩阵拓展为一个向量表示,将整个语音的时间-频率矩阵拓展为包含时间、频率和Embedding三个维度的编码。其中,在神经网络中Embedding是指将一个具体的数据中的每一个点,拓展为一个多维数据,以词向量为例,将每一个词汇从其简单的一维序号表示映射称为一个多维向量。在本发明中,Embedding是将原来的时间-频率两个维度的每一个点,通过神经网络扩充为一个多维向量,故,将原来的时间-频率的二维矩阵变成了时间、频率以及Embedding三维的数据,即语音向量。
在本发明实施例的一种优选实施例中,“对矩阵进行编码和变换,将其转化为语音向量”,其方法为:
利用双向长短时记忆网络模型BiLSTM分别从顺序和逆序两个方向对矩阵进行编码,分别得到第一隐层向量和第二隐层向量;
将第一隐层向量和与其对应时刻的第二隐层向量进行融合,得到第三隐层向量;
将第三隐层向量通过全连接层转化为语音向量;
其中,矩阵按顺序编号排列的时刻与矩阵按逆序排列相同编号的时刻互为对应时刻。
通过BiLSTM(Bi-directional Long Short-Term Memory,双向长短时记忆网络模型)从顺序和逆序两个方向对矩阵进行编码,分别将其编码为大小的二维矩阵,其中,为BiLSTM中统一的隐层节点的数目,也即隐层向量维度的大小。在实际应用中,BiLSTM是神经网络中用以处理类似语音等时序信号的一种有效的网络结构模型,循环神经网络被广泛地用于解决长度可变的输入序列问题,长距离的历史信息被存储在一个循环的综合当前时刻和以往时刻信息的隐层向量当中,而BiLSTM是循环神经网络中能够在一定程度上解决循环神经网络中常见的梯度消失问题的一种模型。
在实际应用中,给定一个输入序列x=(x1,x2,...,xn),其中xt是在t时刻的输入向量,在本发明中,可以将xt视为输入BiLSTM的矩阵,求解能够存储综合当前时刻和以往时刻信息的隐层向量,具体如公式(1)所示:
其中,i、f、c、o、h分别表示BiLSTM的输入门、遗忘门、存储单元、输出门以及隐层向量,σ表示Sigmoid函数,x表示输入量,t表示时刻;
其中,Wxi、Whi、Wci分别表示当前时刻输入量xt、上一时刻的隐层向量ht-1、上一时刻记忆单元ct-1在输入门中的编码矩阵参数;bi表示输入门中的信息偏置参数;
其中,Wxf、Whf、Wcf分别表示当前时刻输入量xt、上一时刻的隐层向量ht-1、上一时刻记忆单元ct-1在遗忘门中的编码矩阵参数;bf表示遗忘门中的信息偏置参数;
其中,Wxc、Whc分别表示当前时刻输入量xt、上一时刻的隐层向量ht-1在存储单元中的编码矩阵参数;bc表示存储单元中的信息偏置参数;
其中,Wxo、Who、Wco分别表示当前时刻输入量xt、上一时刻的隐层向量ht-1、上一时刻记忆单元ct-1在输出门中的编码矩阵参数;bo表示输出门中的信息偏置参数。
在BiLSTM的结构中,包含三个门,分别为输入门i、遗忘门f、输出门c以及一个存储单元o,其中,输入门可以决定输入向量如何改变存储单元的状态,输出门决定存储单元对于输出产生何种影响,遗忘门起到决定存储单元记住或者忘记多少其前一时刻状态的作用。
经典的长短时记忆网络模型只有一个方向,无法利用后续输出的信息,而本发明采用的BiLSTM能够从顺序和逆序两个方向分别对输入序列执行循环处理,同时利用到了目标时刻之前和之后的信息。另外,BiLSTM能够将上一层网络的输出直接给下一层网络作为其输入,多层的设置使得网络能够更好地表征能力,学习出更为复杂的隐层特征。
在本发明实施例的一种优选实施例中,“将第一隐层向量和与其对应时刻的第二隐层向量进行融合”,融合方法包括将第一隐层向量与第二隐层向量相加、或者求解第一隐层向量与第二隐层向量的平均值、或者将第一隐层向量与第二隐层向量首尾拼接。
BiLSTM从顺序和逆序两个方向分别对矩阵进行编码后,将得到两个隐层向量,将其分别记为第一隐层向量和第二隐层向量,通过融合的方式将第一隐层向量和第二隐层向量合并为第三向量,其中,融合的方式可以是将两个隐层向量相加、求平均值或者直接拼接。以输入向量为x=(x1,x2,...,xn)为例,从顺序方向对输入向量进行编码后得到从逆序方向对输入向量进行编码后得到其中,和为对应时刻。相加的融合方式为两个方向对应时刻的向量直接相加,得到类似地,求解两个向量的平均值为求解每个对应时刻向量的平均值。拼接是指将每个对应时刻的向量首尾相连,则原有的两个大小为的二维矩阵变为
将进行融合后的隐层向量进行再次编码和尺度变换,从的二维矩阵通过一个全连接层转化为(t,F*Embedding)的二维特征,并进一步转化尺度变为(t,F,Embedding)的三维特征表示,即将语音中的每个时间-频率点的表示由一个数变为一个向量。
步骤S3:利用长时记忆单元存储说话人以及与其对应的语音向量;
在本发明实施例的一种优选实施例中,采用Key-Value形式将说话人与其对应的语音向量存储在长时记忆单元中,其中,Key存储说话人的索引,Value存储该说话人对应的语音向量。
如图4所示,图4为本发明实施例中记忆单元存储过程的示意图,在记忆空间容量为Memory-Size的长时记忆单元中,存储的是从模型训练或测试过程中记录下来的说话人和其对应的语音信息特征。每个单元以Key-Value的形式存储数据,其中,Key存储说话人的索引,Value存储该说话人对应的语音向量。为了能够更好地记忆语音信息,每个单元中还有一个Age记录当前记忆单元所存储的信息的时长信息。
需要说明的是,当长时记忆单元中存储的说话人产生新的语音时,提取说话人的语音向量,并更新该说话人的语音向量,使其替换长时记忆单元中该说话人原有的语音向量。
在实际应用中,在长时记忆单元中已经存在的说话人的信息也会依照数据进行更新,类似在对一个不熟悉的人的声音进行记忆时,需要经过反复多听几次该说话人的声音而固化记忆的过程。以长时记忆单元中存在的说话人Spk的语音向量为v1为例,当该说话人产生新的语音时,提取该说话人的语音向量,并更新该说话人的语音向量,将其替换掉原有的语音向量。在本发明实施例中,以Spk表示确定的说话人,以Unk表示没有确定的说话人。
具体地,提取说话人的语音向量后,将其与长时记忆单元中该说话人原有的语音向量相加,将得到的结果进行幅值归一化处理,具体如公式(2)所示:
其中,q表示说话人产生的新的语音向量,v1表示说话人原有的语音向量,v表示说话人更新后的语音向量。
其中,除了上述更新方式外,还可以进行全局平均以及累加等操作完成更新。
步骤S4:从长时记忆单元中获取目标说话人对应的语音向量,根据目标说话人对应的语音向量,通过注意力选择模型从原始语音信号中分离出目标语音;
长时记忆单元存储目标说话人及其对应的语音向量后,当想要从原始语音信号中分离出目标语音后,只需要明确目标说话人,在根据目标说话人从长时记忆单元中获取其对应的语音信号,通过注意力选择模型从原始语音信号中分离出目标语音。利用融合在神经网络中的长时记忆单元,可以保存一些罕见的信息,可以有效地解决传统神经网络中训练数据和测试数据必须独立分布才能工作的问题。
在本发明的实施例的一种优选的实施例中,“从长时记忆单元中获取目标说话人对应的语音向量”,其方法为:
在说话人与其对应的语音向量之间建立映射矩阵,根据映射矩阵,由目标说话人查询得到对应的语音向量,或者将目标说话人的语音输入BiLSTM,在时间维度上求解BiLSTM输出的平均值,将其作为目标说话人对应的语音向量。
在实际应用中,将目标语音从混杂语音中分离出来,需要将环境中目标说话人从混杂人群中分离出来,找到目标说话人之后,从事先建立的说话人和与其对应的语音向量的关系中,找到目标语音向量。在本发明实施例中,采用两种方式从长时记忆单元中获取目标说话人对应的语音向量。
第一种方式,在说话人和与其对应的语音向量之间建立映射矩阵,当确定目标说话人之后,从映射矩阵中通过查表的方式,得到其对应的语音向量。建立映射矩阵的方式简单,但是实际查询过程中速度较慢;
第二种方式,将确定目标说话人之后,将其语音输入BiLSTM,BiLSTM通过计算之后输出,再在时间维度上求解其模型输出的平均值,并将该平均值作为目标说话人对应的语音向量。该方式不需要建立说话人和与其对应的语音向量之间的关系,可以直接通过说话人的语音计算出其语音向量,能够快速地得出结果,但是对系统的计算能力要求较高。
本发明实施例的一种优选实施例中,说话人的语音通过不同的驱动方式与长时记忆单元发生读取或者写入的行为,再从长时记忆单元中输出目标说话人的目标语音。
如图5所示,图5为本发明实施例中不同驱动方式下听觉选择的流程示意图,在具体的应用场景中,驱动方式包括任务驱动型和刺激驱动型,其中,在任务驱动型的听觉注意场景中,目标说话人的信息存储在长时记忆单元中,并且目标说话人的身份已经明确,长时记忆单元直接通过事先存储的目标说话人的编号提取对应目标语音向量;在刺激驱动型的听觉注意场景中,长时记忆单元中没有存储目标说话人的信息,则需要通过事先训练好的BiLSTM对当前时刻引起注意的显著音进行声纹特征提取,并在线更新到长时记忆单元中,然后利用该声纹特征从原始语音中进行听觉注意选择,分离出目标语音。
本发明实施例的一种优选实施例中,“通过注意力选择模型从原始语音信号中分离出目标语音”,其方法为:
将目标说话人对应的语音向量与原始语音信号转化的语音向量进行相似度计算,得到目标语音的信息掩蔽;
计算目标语音的信息掩蔽与原始语音信号中对应点的加权值,得到输出时频图;
通过逆快速傅里叶变化iSTFT将输出时频图转化为目标语音。
如图6所示,图6为本发明实施例中将目标语音的时频图转换为目标语音的示意图,在本发明中,得到目标说话人对应的语音向量后,将其与原始语音信号转化的原始语音向量通过相似度计算方法进行度量,得到目标语音的信息掩蔽。其中,语音掩蔽是指语音分离中理想的时频浮值掩蔽Ms∈Rt*f,t表示该语音不同时间,对应采样过后的不同帧,f表示频率,对应经过快速傅里叶变换之后的各个频率段。得到目标语音的浮值掩蔽后,将其与原始语音在时频谱上的每一个点进行乘积运算,即可得到目标语音的时频图。得到目标语音的时频图后,通过iSTFT(inverse Short-Time Fourier Transform,逆快速傅里叶变化)将目标语音的时频图转化为目标语音。其中,相似度计算方法具体如公式(3)所示:
αt,f=sigmod(gTtanh(Wv+Uht,f)) (3)
其中,v表示目标用户的语音向量,ht,f表示原始语音中的时频点的编码向量,αt,f表示原始语音时频点的掩蔽值大小,W表示与目标用户作用的空间转换矩阵、U表示与原始语音每个时频点的编码向量相作用的空间转换矩阵,g表示在前二者转换到相同空间之后的相似度度量矩阵。
如图7所示,图7为本发明实施例中基于记忆和注意力模型的听觉选择方法的结构示意图,本发明将原始语音信号编码为包含时间-频率维度的矩阵,对得到的矩阵进行编码和变换,将其转化为语音向量,利用长时记忆单元存储说话人以及与其对应的语音向量,从长时记忆单元中获取目标说话人对应的语音向量,根据目标说话人对应的语音向量,通过注意力选择模型从原始语音信号中分离出目标语音。相比现有技术,本发明不需要固定或者指定说话人的数目,可以直接对混叠语音进行测试。
至此,通过上述方式可以从原始语音中分离出特定说话人的目标语音,为了准确评估本发明方法的听觉选择及目标语音分离的性能,本发明采用语音分离中的BSS_EVAL(blind source separation,盲源信号分离评测)工具中的GNSDR(global signal-to-distortion improvement,全局信号失真改善)作为衡量指标,测试输出的听觉选择或语音分离的性能。
如表1所示,为本发明实验中采用的参数设置表,本发明的实验中分别采用英文语音数据集Wall Street Journal和中文语音数据集Tsinghua Chinese 30hour构造原始语音数据和目标分离语音数据,并按照一定的规模分成训练、验证和测试数据集。
表1实验数据集设置结果表
具体地,参照表1,从两种数据集中选取了10个说话人(每个人包含多条不同的语音)用以构建步骤任务驱动型数据,其中WSJ0中10个人包括4男6女,THCHS-30中包括2男8女。将选出的10个人中随机两人的随机一条语音进行两两混合之后,构造出规模为4410、810、2250的训练、验证和测试混合语音数据样本。另外,从之前的10个说话人以外随机选取5个说话人(每个人包含多条不同的语音),分别按照与上述方式同样的方式混合出各自500条语音数据样本,用来在测试任务驱动型训练好之后的网络模型在刺激驱动的情况下的表现。
为了能够进行公平、合理的对比,在本发明的方法和对比方法的所有实验中,均采用相同的参数设置,采用的相同参数具体如下:
重采样率为8Khz,STFT的窗口长度为32ms,采用正弦窗函数,跳跃大小长度为16ms,BiLSTM的层数为2层,隐层单元的大小为300,,输出维度为40,Embedding为40。
如表2所示,为本发明任务驱动型与对比方法的对比结果表,本方法与对比方法在训练完成之后,在WSJ0和THCHS-30任务驱动型测试数据集上的对比结果如表2所示,表中数据是采用了不同方法之后的GNSDR,每个实验都重复了五次计算其平均结果。
表2任务驱动型与对比方法的对比结果表
其中,对比的深度聚类方法包括原始方法和其各种不同设置的变种。具体地,DC(-40)是指在深度聚类方法中,把需要忽略的背景噪音的阈值设定为-40dB,即忽略掉比原始语音的时频信号的最高值小40dB以下的时频点的值(设置为0)。DC(-60)和DC(-80)方法与上述DC(-40)原理相同,原始DC方法则不忽略背景噪声点。ASAM-spk方法是在说话人和与其对应的语音向量之间建立映射矩阵,ASAM方法是将说话人语音输入BiLSTM后,求解其输出的平均值。
在表2中的测试实验数据中,两说话人是指原始二条不同说话人的语音混合后得到的测试数据,三说话人是在原始测试数据的基础上另外添加一条其他人的说话语音,两人+噪音是在原始测试数据的基础上增加了额外的从街边交叉路口环境下采集到的噪音。添加了另外一个人及噪音是为了对比本发明中的方法可以灵活地应对训练和测试数据中说话人个数不一致的问题,并有良好的抗噪性能。
实验结果显示,在任务驱动型的设置下,尽管只从两个说话人的混叠语音信号中进行训练,本发明的方法也可以很好地解决测试数据说话人的数目不固定的情况,且不需要告知说话人的数目。本方法中的ASAM-spk在大部分的设置下都取得了最好的结果,ASAM方法与目前最好的DC(-40)方法也大致可比。在添加了噪音之后,本方法也显示出很好的抗噪性能。另外,深度聚类的方法需要人为设定一个背景噪音阈值从而才能得到更好的性能,本发明方法则不需要,可以通过网络自行学习。
表3为本发明刺激驱动型与对比方法的对比结果表,本方法与对比方法在训练完成之后在WSJ0和THCHS-30刺激驱动型的测试数据集上的对比结果如下,表中数据是采用了不同方法之后的GNSDR。
表3刺激驱动型与对比方法的对比结果表
方法 | WSJ0 | THCHS-30 |
DC | 3.45 | 1.56 |
DC(-40) | 5.84 | 5.34 |
DC(-60) | 5.23 | 5.17 |
DC(-80) | 4.98 | 4.56 |
ASAM | 6.17 | 5.44 |
刺激驱动型的实验是在之前训练中没有听过的说话人的混叠语音中选择出其中一个人的声音,该人通过另外一段显著音的刺激作为其声纹提取的原始数据。从实验结果上看,即便在面对从来没听过的混叠语音时,本发明的方法依旧能够较好地完成对其中某个特定说话人的声音的选择。相比较传统的神经网络的方法对于集外训练数据完全无法正确使用的情况,本方法利用了一个融合在网络当中的长时记忆单元,有效地保存了罕见信息,解决了传统神经网络方法中训练和测试数据必须是独立同分布才能有效工作的问题。这表明本发明中的方法具有非常好的适应性和通用性,是一种对于语音声纹信息选择的有效方法。
所属技术领域的技术人员可以清楚地了解到,为了描述的方便和简洁,本发明实施例的存储装置的具体工作过程以及相关说明,可以参考前述基于记忆和注意力模型的听觉选择方法实施例中的对应过程,且与上述方法具有相同的有益效果,在此不再赘述。
所属技术领域的技术人员可以清楚地了解到,为了描述的方便和简洁,本发明实施例的处理装置的具体工作过程以及相关说明,可以参考前述基于记忆和注意力模型的听觉选择方法实施例中的对应过程,且与上述方法具有相同的有益效果,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (8)
1.一种基于记忆和注意力模型的听觉选择方法,其特征在于,所述方法包括:
将原始语音信号编码为包含时间-频率维度的矩阵;
对所述矩阵进行编码和变换,将其转化为语音向量;
利用长时记忆单元存储说话人以及与其对应的语音向量;
从所述长时记忆单元中获取目标说话人对应的语音向量,根据所述目标说话人对应的语音向量,通过注意力选择模型从所述原始语音信号中分离出目标语音;
其中,所述“将原始语音信号编码为包含时间-频率维度的矩阵”的方法为:
将所述原始语音信号通过短时快速傅里叶变换STFT编码为包含时间-频率维度的矩阵;
其中,所述“对所述矩阵进行编码和变换,将其转化为语音向量”的方法为:
利用双向长短时记忆网络模型BiLSTM分别从顺序和逆序两个方向对所述矩阵进行编码,分别得到第一隐层向量和第二隐层向量;
将所述第一隐层向量和与其对应时刻的第二隐层向量进行融合,得到第三隐层向量;
将所述第三隐层向量通过全连接层转化为语音向量;
其中,矩阵按顺序编号排列的时刻与矩阵按逆序排列相同编号的时刻互为对应时刻;
其中,所述“从所述长时记忆单元中获取目标说话人对应的语音向量”的方法为:
在所述说话人和与其对应的语音向量之间建立映射矩阵,根据所述映射矩阵,由目标说话人查询得到对应的语音向量;
或者将目标说话人的语音输入BiLSTM,在时间维度上求解所述BiLSTM输出的平均值,将其作为所述目标说话人对应的语音向量;
其中,所述“通过注意力选择模型从所述原始语音信号中分离出目标语音”的方法为:
将所述目标说话人对应的语音向量与原始语音信号转化的语音向量进行相似度计算,得到所述目标语音的信息掩蔽;
计算所述目标语音的信息掩蔽与原始语音信号中对应点的加权值,得到目标语音的输出时频图;
通过逆快速傅里叶变化iSTFT将所述输出时频图转化为目标语音;
其中,所述“利用长时记忆单元存储说话人以及与其对应的语音向量”,其方法为:
采用Key-Value形式将说话人与其对应的语音向量存储在所述长时记忆单元中,其中,Key存储说话人的索引,Value存储该说话人对应的语音向量。
2.根据权利要求1所述的方法,其特征在于,所述“将原始语音信号编码为包含时间-频率维度的矩阵”之前,该方法还包括:
对所述原始语音信号进行重采样,对重采样后的语音信号进行滤波操作以便降低所述原始语音信号的采样率。
3.根据权利要求1所述的方法,其特征在于,利用BiLSTM对所述矩阵进行编码得到隐层向量,其公式为:
it=σ(Wxixt+Whiht-1+Wcict-1+bi)
ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf)
ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc),
ot=σ(Wxoxt+Whoht-1+Wcoct-1+bo)
ht=ottanh(ct)
其中,i、f、c、o、h分别表示BiLSTM的输入门、遗忘门、存储单元、输出门以及隐层向量,σ表示Sigmoid函数,x表示输入量,t表示时刻;
其中,Wxi、Whi、Wci分别表示当前时刻输入量xt、上一时刻的隐层向量ht-1、上一时刻记忆单元ct-1在输入门中的编码矩阵参数;bi表示输入门中的信息偏置参数;
其中,Wxf、Whf、Wcf分别表示当前时刻输入量xt、上一时刻的隐层向量ht-1、上一时刻记忆单元ct-1在遗忘门中的编码矩阵参数;bf表示遗忘门中的信息偏置参数;
其中,Wxc、Whc分别表示当前时刻输入量xt、上一时刻的隐层向量ht-1在存储单元中的编码矩阵参数;bc表示存储单元中的信息偏置参数;
其中,Wxo、Who、Wco分别表示当前时刻输入量xt、上一时刻的隐层向量ht-1、上一时刻记忆单元ct-1在输出门中的编码矩阵参数;bo表示输出门中的信息偏置参数。
4.根据权利要求1所述的方法,其特征在于,所述“将所述第一隐层向量和与其对应时刻的所述第二隐层向量进行融合”,融合方法包括将所述第一隐层向量与所述第二隐层向量相加、或者求解所述第一隐层向量与所述第二隐层向量的平均值、或者将所述第一隐层向量与所述第二隐层向量首尾拼接。
5.根据权利要求1所述的方法,其特征在于,所述“利用长时记忆单元存储说话人以及与其对应的语音向量”之后,该方法还包括:
当所述长时记忆单元中存储的说话人产生新的语音时,提取该说话人的语音向量,并更新该说话人在所述长时记忆单元中存储的语音向量,使其替换该说话人原有的语音向量。
7.一种存储装置,其中存储有多条程序,其特征在于,所述程序适于由处理器加载并执行如权利要求1-6任一项所述的基于记忆和注意力模型的听觉选择方法。
8.一种处理装置,包括处理器、存储设备;处理器,适于执行各条程序;存储设备,适于存储多条程序;其特征在于,所述程序适于由处理器加载并执行如权利要求1-6任一项所述的基于记忆和注意力模型的听觉选择方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711127669.7A CN108109619B (zh) | 2017-11-15 | 2017-11-15 | 基于记忆和注意力模型的听觉选择方法和装置 |
US16/632,373 US10818311B2 (en) | 2017-11-15 | 2018-11-14 | Auditory selection method and device based on memory and attention model |
PCT/CN2018/115351 WO2019096149A1 (zh) | 2017-11-15 | 2018-11-14 | 基于记忆和注意力模型的听觉选择方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711127669.7A CN108109619B (zh) | 2017-11-15 | 2017-11-15 | 基于记忆和注意力模型的听觉选择方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108109619A CN108109619A (zh) | 2018-06-01 |
CN108109619B true CN108109619B (zh) | 2021-07-06 |
Family
ID=62207524
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711127669.7A Active CN108109619B (zh) | 2017-11-15 | 2017-11-15 | 基于记忆和注意力模型的听觉选择方法和装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10818311B2 (zh) |
CN (1) | CN108109619B (zh) |
WO (1) | WO2019096149A1 (zh) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108109619B (zh) | 2017-11-15 | 2021-07-06 | 中国科学院自动化研究所 | 基于记忆和注意力模型的听觉选择方法和装置 |
CN107945815B (zh) * | 2017-11-27 | 2021-09-07 | 歌尔科技有限公司 | 语音信号降噪方法及设备 |
CN110544488B (zh) * | 2018-08-09 | 2022-01-28 | 腾讯科技(深圳)有限公司 | 一种多人语音的分离方法和装置 |
CN110867191B (zh) * | 2018-08-28 | 2024-06-25 | 洞见未来科技股份有限公司 | 语音处理方法、信息装置与计算机程序产品 |
US20200125958A1 (en) * | 2018-10-19 | 2020-04-23 | Preferred Networks, Inc. | Training apparatus, training method, inference apparatus, inference method, and non-transitory computer readable medium |
CN109448749B (zh) * | 2018-12-19 | 2022-02-15 | 中国科学院自动化研究所 | 基于有监督学习听觉注意的语音提取方法、系统、装置 |
US11217254B2 (en) * | 2018-12-24 | 2022-01-04 | Google Llc | Targeted voice separation by speaker conditioned on spectrogram masking |
CN110197665B (zh) * | 2019-06-25 | 2021-07-09 | 广东工业大学 | 一种用于公安刑侦监听的语音分离与跟踪方法 |
CN110675891B (zh) * | 2019-09-25 | 2020-09-18 | 电子科技大学 | 一种基于多层注意力机制的语音分离方法、模块 |
CN111063365B (zh) * | 2019-12-13 | 2022-06-07 | 北京搜狗科技发展有限公司 | 一种语音处理方法、装置和电子设备 |
CN111341341B (zh) * | 2020-02-11 | 2021-08-17 | 腾讯科技(深圳)有限公司 | 音频分离网络的训练方法、音频分离方法、装置及介质 |
CN111429938B (zh) * | 2020-03-06 | 2022-09-13 | 江苏大学 | 一种单通道语音分离方法、装置及电子设备 |
CN111933115B (zh) * | 2020-10-12 | 2021-02-09 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、设备以及存储介质 |
CN112464281B (zh) * | 2020-11-29 | 2022-11-18 | 深圳市索迪统计科技有限公司 | 基于隐私分组和情感识别的网络信息分析方法 |
CN112562706B (zh) * | 2020-11-30 | 2023-05-05 | 哈尔滨工程大学 | 一种基于时间潜在域特定说话人信息的目标语音提取方法 |
CN112562686B (zh) * | 2020-12-10 | 2022-07-15 | 青海民族大学 | 一种使用神经网络的零样本语音转换语料预处理方法 |
CN113593600B (zh) * | 2021-01-26 | 2024-03-15 | 腾讯科技(深圳)有限公司 | 混合语音分离方法和装置、存储介质及电子设备 |
CN112992172B (zh) * | 2021-01-28 | 2023-09-15 | 广州大学 | 一种基于注意力机制的单通道时域鸟鸣声分离方法 |
CN112820279B (zh) * | 2021-03-12 | 2024-02-09 | 深圳市臻络科技有限公司 | 基于语音上下文动态特征的帕金森检测模型构建方法 |
CN113571050A (zh) * | 2021-07-28 | 2021-10-29 | 复旦大学 | 一种基于Attention与Bi-LSTM的语音抑郁状态识别方法 |
CN113889149B (zh) * | 2021-10-15 | 2023-08-29 | 北京工业大学 | 语音情感识别方法及装置 |
CN115035907B (zh) | 2022-05-30 | 2023-03-17 | 中国科学院自动化研究所 | 一种目标说话人分离系统、设备及存储介质 |
CN117133275B (zh) * | 2023-08-25 | 2024-03-22 | 长春理工大学 | 基于单元点积相似度特征的并行化语音识别模型建立方法 |
CN118053443A (zh) * | 2024-01-11 | 2024-05-17 | 北京科技大学 | 一种具有选择性听觉的目标说话人追踪方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105096961A (zh) * | 2014-05-06 | 2015-11-25 | 华为技术有限公司 | 语音分离方法和装置 |
CN106653056A (zh) * | 2016-11-16 | 2017-05-10 | 中国科学院自动化研究所 | 基于lstm循环神经网络的基频提取模型及训练方法 |
Family Cites Families (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6161086A (en) * | 1997-07-29 | 2000-12-12 | Texas Instruments Incorporated | Low-complexity speech coding with backward and inverse filtered target matching and a tree structured mutitap adaptive codebook search |
US6453284B1 (en) * | 1999-07-26 | 2002-09-17 | Texas Tech University Health Sciences Center | Multiple voice tracking system and method |
US8682018B2 (en) * | 2000-07-19 | 2014-03-25 | Aliphcom | Microphone array with rear venting |
US7533017B2 (en) * | 2004-08-31 | 2009-05-12 | Kitakyushu Foundation For The Advancement Of Industry, Science And Technology | Method for recovering target speech based on speech segment detection under a stationary noise |
US7409346B2 (en) * | 2004-11-05 | 2008-08-05 | Microsoft Corporation | Two-stage implementation for phonetic recognition using a bi-directional target-filtering model of speech coarticulation and reduction |
US20070263823A1 (en) * | 2006-03-31 | 2007-11-15 | Nokia Corporation | Automatic participant placement in conferencing |
US9947340B2 (en) * | 2008-12-10 | 2018-04-17 | Skype | Regeneration of wideband speech |
JP4906908B2 (ja) * | 2009-11-30 | 2012-03-28 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 目的音声抽出方法、目的音声抽出装置、及び目的音声抽出プログラム |
US9111542B1 (en) * | 2012-03-26 | 2015-08-18 | Amazon Technologies, Inc. | Audio signal transmission techniques |
US20130294611A1 (en) * | 2012-05-04 | 2013-11-07 | Sony Computer Entertainment Inc. | Source separation by independent component analysis in conjuction with optimization of acoustic echo cancellation |
JP6203003B2 (ja) * | 2012-12-20 | 2017-09-27 | 株式会社東芝 | 信号処理装置、信号処理方法およびプログラム |
CN103903632A (zh) * | 2014-04-02 | 2014-07-02 | 重庆邮电大学 | 一种多声源环境下的基于听觉中枢系统的语音分离方法 |
US20160071526A1 (en) * | 2014-09-09 | 2016-03-10 | Analog Devices, Inc. | Acoustic source tracking and selection |
US10783900B2 (en) * | 2014-10-03 | 2020-09-22 | Google Llc | Convolutional, long short-term memory, fully connected deep neural networks |
US9881631B2 (en) * | 2014-10-21 | 2018-01-30 | Mitsubishi Electric Research Laboratories, Inc. | Method for enhancing audio signal using phase information |
KR102167719B1 (ko) * | 2014-12-08 | 2020-10-19 | 삼성전자주식회사 | 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치 |
US20160189730A1 (en) * | 2014-12-30 | 2016-06-30 | Iflytek Co., Ltd. | Speech separation method and system |
US9972315B2 (en) * | 2015-01-14 | 2018-05-15 | Honda Motor Co., Ltd. | Speech processing device, speech processing method, and speech processing system |
CN104952448A (zh) * | 2015-05-04 | 2015-09-30 | 张爱英 | 一种双向长短时记忆递归神经网络的特征增强方法及系统 |
CN106297820A (zh) * | 2015-05-14 | 2017-01-04 | 杜比实验室特许公司 | 具有基于迭代加权的源方向确定的音频源分离 |
US9782586B2 (en) * | 2015-08-27 | 2017-10-10 | iMEDI PLUS Inc. | Signal processing method in cochlear implant |
US10733979B2 (en) * | 2015-10-09 | 2020-08-04 | Google Llc | Latency constraints for acoustic modeling |
CN107016999B (zh) * | 2015-10-16 | 2022-06-14 | 谷歌有限责任公司 | 热词识别 |
CN106683661B (zh) * | 2015-11-05 | 2021-02-05 | 阿里巴巴集团控股有限公司 | 基于语音的角色分离方法及装置 |
US10366687B2 (en) * | 2015-12-10 | 2019-07-30 | Nuance Communications, Inc. | System and methods for adapting neural network acoustic models |
US9818431B2 (en) * | 2015-12-21 | 2017-11-14 | Microsoft Technoloogy Licensing, LLC | Multi-speaker speech separation |
EP3411876B1 (en) * | 2016-02-05 | 2021-12-15 | Cerence Operating Company | Babble noise suppression |
CN105938485B (zh) * | 2016-04-14 | 2019-06-14 | 北京工业大学 | 一种基于卷积循环混合模型的图像描述方法 |
US10249305B2 (en) * | 2016-05-19 | 2019-04-02 | Microsoft Technology Licensing, Llc | Permutation invariant training for talker-independent multi-talker speech separation |
EP3510505B1 (en) * | 2016-09-07 | 2024-11-06 | Koninklijke Philips N.V. | Systems, methods, and apparatus for diagnostic inferencing with a multimodal deep memory network |
CN106683666B (zh) | 2016-12-23 | 2019-11-08 | 云知声(上海)智能科技有限公司 | 一种基于深度神经网络的领域自适应方法 |
CN107239446B (zh) * | 2017-05-27 | 2019-12-03 | 中国矿业大学 | 一种基于神经网络与注意力机制的情报关系提取方法 |
JP6686977B2 (ja) * | 2017-06-23 | 2020-04-22 | カシオ計算機株式会社 | 音源分離情報検出装置、ロボット、音源分離情報検出方法及びプログラム |
US10839822B2 (en) * | 2017-11-06 | 2020-11-17 | Microsoft Technology Licensing, Llc | Multi-channel speech separation |
CN108109619B (zh) | 2017-11-15 | 2021-07-06 | 中国科学院自动化研究所 | 基于记忆和注意力模型的听觉选择方法和装置 |
-
2017
- 2017-11-15 CN CN201711127669.7A patent/CN108109619B/zh active Active
-
2018
- 2018-11-14 US US16/632,373 patent/US10818311B2/en active Active
- 2018-11-14 WO PCT/CN2018/115351 patent/WO2019096149A1/zh active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105096961A (zh) * | 2014-05-06 | 2015-11-25 | 华为技术有限公司 | 语音分离方法和装置 |
CN106653056A (zh) * | 2016-11-16 | 2017-05-10 | 中国科学院自动化研究所 | 基于lstm循环神经网络的基频提取模型及训练方法 |
Also Published As
Publication number | Publication date |
---|---|
US10818311B2 (en) | 2020-10-27 |
WO2019096149A1 (zh) | 2019-05-23 |
US20200227064A1 (en) | 2020-07-16 |
CN108109619A (zh) | 2018-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108109619B (zh) | 基于记忆和注意力模型的听觉选择方法和装置 | |
CN110600017B (zh) | 语音处理模型的训练方法、语音识别方法、系统及装置 | |
Tong et al. | A comparative study of robustness of deep learning approaches for VAD | |
CN109065032B (zh) | 一种基于深度卷积神经网络的外部语料库语音识别方法 | |
KR20180091903A (ko) | 숫자 음성 인식에 있어서 음성 복호화 네트워크를 구성하기 위한 방법, 장치, 및 저장 매체 | |
CN106294331A (zh) | 音频信息检索方法及装置 | |
CN101154379A (zh) | 定位语音中的关键词的方法和设备以及语音识别系统 | |
CN111341319A (zh) | 一种基于局部纹理特征的音频场景识别方法及系统 | |
CN110910891A (zh) | 基于长短时记忆神经网络的说话人分段标注方法及装置 | |
CN113205820B (zh) | 一种用于声音事件检测的声音编码器的生成方法 | |
Basak et al. | Challenges and Limitations in Speech Recognition Technology: A Critical Review of Speech Signal Processing Algorithms, Tools and Systems. | |
CN113823323B (zh) | 一种基于卷积神经网络的音频处理方法、装置及相关设备 | |
CN112071308A (zh) | 一种基于语音合成数据增强的唤醒词训练方法 | |
CN116110405B (zh) | 一种基于半监督学习的陆空通话说话人识别方法及设备 | |
Zhang et al. | Learning audio sequence representations for acoustic event classification | |
CN111488486B (zh) | 一种基于多音源分离的电子音乐分类方法及系统 | |
Kherdekar et al. | Convolution neural network model for recognition of speech for words used in mathematical expression | |
Gupta et al. | Automatic speech recognition technique for voice command | |
CN104199545A (zh) | 一种基于口型执行预设操作的方法及装置 | |
JP2003524218A (ja) | Tesparパラメータでトレーニングされたhmmを用いる発話処理 | |
KR20190021421A (ko) | 오디오 인식을 위한 방법 및 디바이스 | |
CN113823265A (zh) | 一种语音识别方法、装置和计算机设备 | |
Kamble et al. | Emotion recognition for instantaneous Marathi spoken words | |
KR101925248B1 (ko) | 음성 인증 최적화를 위해 음성 특징벡터를 활용하는 방법 및 장치 | |
EP2887347B1 (en) | Phoneme signature candidates for speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |