CN104700828B - 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法 - Google Patents
基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法 Download PDFInfo
- Publication number
- CN104700828B CN104700828B CN201510122982.6A CN201510122982A CN104700828B CN 104700828 B CN104700828 B CN 104700828B CN 201510122982 A CN201510122982 A CN 201510122982A CN 104700828 B CN104700828 B CN 104700828B
- Authority
- CN
- China
- Prior art keywords
- neural network
- input
- recurrent neural
- long term
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 62
- 230000000306 recurrent effect Effects 0.000 title claims abstract description 59
- 230000007787 long-term memory Effects 0.000 title claims abstract description 34
- 230000010332 selective attention Effects 0.000 title claims abstract description 26
- 238000010276 construction Methods 0.000 title claims abstract description 7
- 230000003935 attention Effects 0.000 claims abstract description 41
- 230000006870 function Effects 0.000 claims abstract description 22
- 230000007774 longterm Effects 0.000 claims abstract description 15
- 230000007935 neutral effect Effects 0.000 claims abstract description 5
- 230000015654 memory Effects 0.000 claims description 32
- 230000006403 short-term memory Effects 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 2
- 230000005236 sound signal Effects 0.000 claims 1
- 210000004027 cell Anatomy 0.000 abstract description 34
- 238000000034 method Methods 0.000 abstract description 10
- 210000003926 auditory cortex Anatomy 0.000 abstract description 6
- 230000000694 effects Effects 0.000 abstract description 6
- 238000000605 extraction Methods 0.000 abstract description 4
- 238000010801 machine learning Methods 0.000 abstract description 3
- 210000002569 neuron Anatomy 0.000 abstract description 3
- 241001269238 Data Species 0.000 abstract description 2
- 230000003993 interaction Effects 0.000 abstract 1
- 238000012545 processing Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000002708 enhancing effect Effects 0.000 description 4
- 210000004556 brain Anatomy 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 210000004218 nerve net Anatomy 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
Abstract
一种基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法,通过在深度长短期记忆循环神经网络声学模型中增加注意门单元,来表征听觉皮层神经元的瞬时功能改变,注意门单元与其他门单元不同之处在于,其他门单元与时间序列一一对应,而注意门单元体现的是短期可塑性效应,因此在时间序列上存在间隔;通过对包含Cross‑talk噪声的大量语音数据进行训练获得的上述神经网络声学模型,可以实现对Cross‑talk噪声的鲁棒特征提取和鲁棒声学模型的构建,通过抑制非目标流对特征提取的影响可以达到提高声学模型的鲁棒性的目的;该方法可广泛应用于涉及语音识别的说话人识别、关键词识别、人机交互等多种机器学习领域。
Description
技术领域
本发明属于音频技术领域,特别涉及一种基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法。
背景技术
随着信息技术的迅速发展,语音识别技术已经具备大规模商业化的条件。目前语音识别主要采用基于统计模型的连续语音识别技术,其主要目标是通过给定的语音序列寻找其所代表的概率最大的词序列。基于统计模型的连续语音识别系统的任务是根据给定的语音序列寻找其所代表的概率最大的词序列,通常包括构建声学模型和语言模型及其对应的搜索解码方法。随着声学模型和语言模型的快速发展,语音识别系统的性能在理想声学环境下已经大为改善,现有的深度神经网络-隐马尔科夫模型(Deep Neural Network-Hidden Markov Model,DNN-HMM)初步成熟,通过机器学习的方法可以自动提取有效特征,并能对多帧语音对应的上下文信息建模,但是此类模型每一层都有百万量级的参数,且下一层的输入是上一次的输出,因此需要使用GPU设备来训练DNN声学模型,训练时间长;高度非线性以及参数共享的特性也使得DNN难以进行参数自适应。
循环神经网络(Recurrent Neural Network,RNN)是一种单元之间存在有向循环来表达网络内部动态时间特性的神经网络,在手写体识别和语言模型等方面得到广泛应用。语音信号是复杂的时变信号,在不同时间尺度上具有复杂的相关性,因此相比于深度神经网络而言,循环神经网络具有的循环连接功能更适合处理这类复杂时序数据。
作为循环神经网络的一种,长短期记忆(Long Short-Term Memory,LSTM)模型比循环神经网络更适合处理和预测事件滞后且时间不定的长时序列。多伦多大学提出的增加了记忆模块(memory block)的深度LSTM-RNN声学模型则将深度神经网络的多层次表征能力与循环神经网络灵活利用长跨度上下文的能力结合,使得基于TIMIT库的音素识别错误率降至17.1%。
但是循环神经网络中使用的梯度下降法存在梯度消散(vanishing gradient)问题,也就是在对网络的权重进行调整的过程中,随着网络层数增加,梯度逐层消散,致使其对权重调整的作用越来越小。谷歌提出的两层深度LSTM-RNN声学模型,在以前的深度LSTM-RNN模型中增加了线性循环投影层(Recurrent Projection Layer),用于解决梯度消散问题。对比实验表明,RNN的帧正确率(Frame Accuracy)及其收敛速度明显逊于LSTM-RNN和DNN;在词错误率及其收敛速度方面,最好的DNN在训练数周后的词错误率为11.3%;而两层深度LSTM-RNN模型在训练48小时后词错误率降低至10.9%,训练100/200小时后,词错误率降低至10.7/10.5(%)。
慕尼黑大学提出的深度双向长短期记忆循环神经网络(Deep BidirectionalLong Short-Term Memory Recurrent Neural Networks,DBLSTM-RNN)声学模型,在神经网络的每个循环层中定义了相互独立的前向层和后向层,并使用多隐藏层对输入的声学特征进行更高层表征,同时对噪声和混响进行有监督学习实现特征投影和增强。此方法在2013PASCAL CHiME数据集上,在信噪比[-6dB,9dB]范围内实现了词错误率从基线的55%降低到22%。
但实际声学环境的复杂性仍然严重影响和干扰连续语音识别系统的性能,即使利用目前主流的DNN声学模型方法,在包括噪声、音乐、口语、重复等复杂环境条件下的连续语音识别数据集上也只能获得70%左右的识别率,连续语音识别系统中声学模型的抗噪性和鲁棒性仍有待改进。
随着声学模型和语言模型的快速发展,语音识别系统的性能在理想声学环境下已经大为改善,现有的DNN-HMM模型初步成熟,通过机器学习的方法可以自动提取有效特征,并能对多帧语音对应的上下文信息建模。然而大多数识别系统对于声学环境的改变仍然十分敏感,特别是在cross-talk噪声(两人或多人同时说话)干扰下不能满足实用性能的要求。与深度神经网络声学模型相比,循环神经网络声学模型中的单元之间存在有向循环,可以有效的描述神经网络内部的动态时间特性,更适合处理具有复杂时序的语音数据。而长短期记忆神经网络比循环神经网络更适合处理和预测事件滞后且时间不定的长时序列,因此用于构建语音识别的声学模型能够取得更好的效果。
人脑在处理复杂场景的语音时存在选择性注意的现象,其主要原理为:人脑具有听觉选择性注意的能力,在听觉皮层区域通过自上而下的控制机制,来实现抑制非目标流和增强目标流的目的。研究表明,在选择性注意的过程中,听觉皮层的短期可塑性(Short-Term Plasticity)效应增加了对声音的区分能力。在注意力非常集中时,在初级听觉皮层可以在50毫秒内开始对声音目标进行增强处理。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法,建立了基于选择性注意原理的深度长短期记忆循环神经网络声学模型,通过在深度长短期记忆循环神经网络声学模型中增加注意门单元,来表征听觉皮层神经元的瞬时功能改变,注意门单元与其他门单元不同之处在于,其他门单元与时间序列一一对应,而注意门单元体现的是短期可塑性效应,因此在时间序列上存在间隔。通过对包含Cross-talk噪声的大量语音数据进行训练获得的上述神经网络声学模型,可以实现对Cross-talk噪声的鲁棒特征提取和鲁棒声学模型的构建,通过抑制非目标流对特征提取的影响可以达到提高声学模型的鲁棒性的目的。
为了实现上述目的,本发明采用的技术方案是:
一种基于选择性注意原理的连续语音识别方法,包括如下步骤:
第一步,构建基于选择性注意原理的深度长短期记忆循环神经网络
从输入到隐藏层定义为一个长短期记忆循环神经网络,深度指的是每个长短期记忆循环神经网络的输出为下一个长短期记忆循环神经网络的输入,如此重复,最后一个长短期记忆循环神经网络的输出作为整个系统的输出;在每一个长短期记忆循环神经网络中,语音信号xt为t时刻的输入,xt-1为t-1时刻的输入,以此类推,总时间长度上的输入为x=[x1,...,xT]其中t∈[1,T],T为语音信号的总时间长度;t时刻的长短期记忆循环神经网络由注意门、输入门、输出门、遗忘门、记忆细胞、tanh函数、隐藏层、乘法器组成,t-1时刻的长短期记忆循环神经网络由输入门、输出门、遗忘门、记忆细胞、tanh函数、隐藏层、乘法器组成;总时间长度上的隐藏层输出为y=[y1,...,yT];
第二步,构建基于选择性注意原理的深度长短期记忆循环神经网络声学模型
在第一步的基础上,每间隔s时刻对应的深度长短期记忆循环神经网络存在注意门,其他时刻的深度长短期记忆循环神经网络不存在注意门,即,基于选择性注意原理的深度长短期记忆循环神经网络声学模型由间隔存在注意门的深度长短期记忆循环神经网络组成。
如何在复杂环境干扰,特别是在cross-talk噪声干扰下进行识别,一直是语音识别的难点之一,阻碍了语音识别的大规模应用。与现有技术相比,本发明借鉴人脑在处理复杂场景的语音时存在选择性注意的现象来实现抑制非目标流和增强目标流,通过在深度长短期记忆递归神经网络声学模型中增加注意门单元,来表征听觉皮层神经元的瞬时功能改变,注意门单元与其他门单元不同之处在于,其他门单元与时间序列一一对应,而注意门单元体现的是短期可塑性效应,因此在时间序列上存在间隔。在一些包含Cross-talk噪声的连续语音识别数据集上采用这种方法,可以获得比深度神经网络方法更好的性能。
附图说明
图1是本发明的基于选择性注意原理的深度长短期记忆循环神经网络流程图。
图2是本发明的基于选择性注意原理的深度长短期记忆神经网络声学模型流程图。
具体实施方式
下面结合附图和实施例详细说明本发明的实施方式。
本发明利用基于选择性注意原理的深度长短期记忆循环神经网络声学模型,实现了连续语音识别。但本发明提供的模型及方法不局限于连续语音识别,也可以是任何与语音识别有关的方法和装置。
本发明主要包括如下步骤:
第一步,构建基于选择性注意原理的深度长短期记忆循环神经网络
如图1所示,输入101和输入102为t时刻和t-1时刻语音信号输入xt和xt-1(t∈[1,T],T为语音信号的总时间长度);t时刻的长短期记忆循环神经网络由注意门103、输入门104、遗忘门105、记忆细胞106、输出门107、tanh函数108、tanh函数109、隐藏层110、乘法器122以及乘法器123组成;t-1时刻的长短期记忆循环神经网络由输入门112、遗忘门113、记忆细胞114、输出门115、tanh函数116、tanh函数117、隐藏层118、乘法器120以及乘法器121组成。t时刻和t-1时刻隐藏层输出分别为输出111和输出119。
其中,输入102同时作为输入门112、遗忘门113、输出门115以及tanh函数116的输入,输入门112的输出与tanh函数116的输出送入乘法器120,运算后的输出作为记忆细胞114的输入,记忆细胞114的输出作为tanh函数117的输入,tanh函数117的输出和输出门115的输出送入乘法器121,运算后的输出作为隐藏层118的输入,隐藏层118的输出即为输出119。
输入101、记忆细胞114的输出以及乘法器121的输出共同作为注意门103的输入,注意门103的输出和乘法器121的输出共同作为tanh函数108的输入,注意门103的输出、记忆细胞114的输出和乘法器121的输出分别共同作为输入门104、遗忘门105以及输出门107的输入,遗忘门105的输出和记忆细胞114的输出送入乘法器124,输入门104的输出与tanh函数108的输出送入乘法器122,乘法器124的输出和乘法器122的输出作为记忆细胞106的输入,记忆细胞106的输出作为tanh函数109的输入,tanh函数109的输出和输出门107的输出送入乘法器123,乘法器123的输出作为隐藏层110的输入,隐藏层110的输出即为输出111。
即:在t∈[1,T]时刻的参数按照如下公式计算:
Gatten_t=sigmoid(Waxxt+Wam mt-1+Wac Cellt-1+ba)
Ginput_t=sigmoid(Wia Gatten_t+Wim mt-1+Wic Cellt-1+bi)
Gforget_t=sigmoid(Wfa Gatten_t+Wfm mt-1+Wfc Cellt-1+bf)
Cellt=Gforget_t⊙Cellt-1+Ginput_t⊙tanh(Wca Gatten_t+Wcm mt-1+bc)
Goutput_t=sigmoid(Woa Gatten_t+Wom mt-1+Woc Cellt-1+bo)
mt=Goutput_t⊙tanh(Cellt)
yt=softmaxk(Wym mt+by)
其中Gatten_t为t时刻注意门103的输出,Ginput_t为t时刻输入门104的输出,Gforget_t为t时刻遗忘门105的输出,Cellt为t时刻记忆细胞106的输出,Goutput_t为t时刻输出门107的输出,mt为t时刻隐藏层110的输入,yt为t时刻的输出111;xt为t时刻的输入101,mt-1为t-1时刻隐藏层118的输入,Cellt-1为t-1时刻记忆细胞114的输出;Wax为t时刻注意门a与t时刻输入x之间的权重,Wam为t时刻注意门a与t-1时刻隐藏层输入m之间的权重,Wac为t时刻注意门a与t-1时刻记忆细胞c之间的权重,Wia为t时刻输入门i与t时刻注意门a之间的权重,Wim为t时刻输入门i与t-1时刻隐藏层输入m之间的权重,Wic为t时刻输入门i与t-1时刻记忆细胞c之间的权重,Wfa为t时刻遗忘门f与t时刻注意门a之间的权重,Wfm为t时刻遗忘门f与t-1时刻隐藏层输入m之间的权重,Wfc为t时刻遗忘门f与t-1时刻记忆细胞c之间的权重,Wca为t时刻记忆细胞c与t时刻注意门a之间的权重,Wcm为t时刻记忆细胞c与t-1时刻隐藏层输入m之间的权重,Woa为t时刻输出门o与t时刻注意门a之间的权重,Wom为t时刻输出门o与t-1时刻隐藏层输入m之间的权重,Woc为t时刻输出门o与t-1时刻记忆细胞c之间的权重;ba为注意门a的偏差量,bi为输入门i的偏差量,bf为遗忘门f的偏差量,bc为记忆细胞c的偏差量,bo为输出门o的偏差量,by为输出y的偏差量,不同的b代表不同的偏差量;且有 其中xk表示第k∈[1,K]个softmax函数的输入,,l∈[1,K],表示对全部求和;⊙代表矩阵元素相乘。
第二步,构建基于选择性注意原理的深度长短期记忆循环神经网络声学模型
在第一步的基础上,每间隔s(s=5)时刻对应的深度长短期记忆循环神经网络存在注意门,其他时刻的深度长短期记忆循环神经网络不存在注意门,即,基于选择性注意原理的深度长短期记忆循环神经网络声学模型由间隔存在注意门的深度长短期记忆循环神经网络组成。如图2所示为所建立的基于选择性注意原理的深度长短期记忆循环神经网络声学模型,t时刻的深度长短期记忆循环神经网络存在注意门201,t-s时刻的深度长短期记忆循环神经网络存在注意门202,如此循环。
Claims (2)
1.一种基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法,包括如下步骤:
第一步,构建基于选择性注意原理的深度长短期记忆循环神经网络
从输入到隐藏层定义为一个长短期记忆循环神经网络,深度指的是每个长短期记忆循环神经网络的输出为下一个长短期记忆循环神经网络的输入,如此重复,最后一个长短期记忆循环神经网络的输出作为整个系统的输出;在每一个长短期记忆循环神经网络中,语音信号xt为t时刻的输入,xt-1为t-1时刻的输入,以此类推,总时间长度上的输入为x=[x1,...,xT]其中t∈[1,T],T为语音信号的总时间长度;t时刻的长短期记忆循环神经网络由注意门、输入门、输出门、遗忘门、记忆细胞、tanh函数、隐藏层、乘法器组成,t-1时刻的长短期记忆循环神经网络由输入门、输出门、遗忘门、记忆细胞、tanh函数、隐藏层、乘法器组成;总时间长度上的隐藏层输出为y=[y1,...,yT];
在t∈[1,T]时刻的参数按照如下公式计算:
Gatten_t=sigmoid(Waxxt+Wammt-1+WacCellt-1+ba)
Ginput_t=sigmoid(WiaGatten_t+Wimmt-1+WicCellt-1+bi)
Gforget_t=sigmoid(WfaGatten_t+Wfmmt-1+WfcCellt-1+bf)
Cellt=Gforget_t⊙Cellt-1+Ginput_t⊙tanh(WcaGatten_t+Wcmmt-1+bc)
Goutput_t=sigmoid(WoaGatten_t+Wommt-1+WocCellt-1+bo)
mt=Goutput_t⊙tanh(Cellt)
yt=softmaxk(Wymmt+by)
其中Gatten_t为t时刻注意门的输出,Ginput_t为t时刻输入门的输出,Gforget_t为t时刻遗忘门的输出,Cellt为t时刻记忆细胞的输出,Goutput_t为t时刻输出门的输出,mt为t时刻隐藏层的输入,yt为t时刻的输出;xt为t时刻的输入,mt-1为t-1时刻隐藏层的输入,Cellt-1为t-1时刻记忆细胞的输出;Wax为t时刻注意门a与t时刻输入x之间的权重,Wam为t时刻注意门a与t-1时刻隐藏层输入m之间的权重,Wac为t时刻注意门a与t-1时刻记忆细胞c之间的权重,Wia为t时刻输入门i与t时刻注意门a之间的权重,Wim为t时刻输入门i与t-1时刻隐藏层输入m之间的权重,Wic为t时刻输入门i与t-1时刻记忆细胞c之间的权重,Wfa为t时刻遗忘门f与t时刻注意门a之间的权重,Wfm为t时刻遗忘门f与t-1时刻隐藏层输入m之间的权重,Wfc为t时刻遗忘门f与t-1时刻记忆细胞c之间的权重,Wca为t时刻记忆细胞c与t时刻注意门a之间的权重,Wcm为t时刻记忆细胞c与t-1时刻隐藏层输入m之间的权重,Woa为t时刻输出门o与t时刻注意门a之间的权重,Wom为t时刻输出门o与t-1时刻隐藏层输入m之间的权重,Woc为t时刻输出门o与t-1时刻记忆细胞c之间的权重;ba为注意门a的偏差量,bi为输入门i的偏差量,bf为遗忘门f的偏差量,bc为记忆细胞c的偏差量,bo为输出门o的偏差量,by为输出y的偏差量,不同的b代表不同的偏差量;且有其中xk表示第k∈[1,K]个softmax函数的输入,l∈[1,K],表示对全部求和;⊙代表矩阵元素相乘;
第二步,构建基于选择性注意原理的深度长短期记忆循环神经网络声学模型
在第一步的基础上,每间隔s时刻对应的深度长短期记忆循环神经网络存在注意门,其他时刻的深度长短期记忆循环神经网络不存在注意门,即,基于选择性注意原理的深度长短期记忆循环神经网络声学模型由间隔存在注意门的深度长短期记忆循环神经网络组成。
2.根据权利要求1所述基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法,其特征在于,所述s=5。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510122982.6A CN104700828B (zh) | 2015-03-19 | 2015-03-19 | 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法 |
PCT/CN2015/092381 WO2016145850A1 (zh) | 2015-03-19 | 2015-10-21 | 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510122982.6A CN104700828B (zh) | 2015-03-19 | 2015-03-19 | 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104700828A CN104700828A (zh) | 2015-06-10 |
CN104700828B true CN104700828B (zh) | 2018-01-12 |
Family
ID=53347887
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510122982.6A Active CN104700828B (zh) | 2015-03-19 | 2015-03-19 | 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN104700828B (zh) |
WO (1) | WO2016145850A1 (zh) |
Families Citing this family (57)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104700828B (zh) * | 2015-03-19 | 2018-01-12 | 清华大学 | 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法 |
CN105185374B (zh) * | 2015-09-11 | 2017-03-29 | 百度在线网络技术(北京)有限公司 | 韵律层级标注方法和装置 |
KR102313028B1 (ko) * | 2015-10-29 | 2021-10-13 | 삼성에스디에스 주식회사 | 음성 인식 시스템 및 방법 |
CN105354277B (zh) * | 2015-10-30 | 2020-11-06 | 中国船舶重工集团公司第七0九研究所 | 一种基于递归神经网络的推荐方法及系统 |
KR102494139B1 (ko) * | 2015-11-06 | 2023-01-31 | 삼성전자주식회사 | 뉴럴 네트워크 학습 장치 및 방법과, 음성 인식 장치 및 방법 |
CN108475505B (zh) * | 2015-11-12 | 2023-03-17 | 谷歌有限责任公司 | 使用部分条件从输入序列生成目标序列 |
CN105513591B (zh) * | 2015-12-21 | 2019-09-03 | 百度在线网络技术(北京)有限公司 | 用lstm循环神经网络模型进行语音识别的方法和装置 |
JP6706326B2 (ja) * | 2016-02-03 | 2020-06-03 | グーグル エルエルシー | リカレントニューラルネットワークモデルの圧縮 |
US11010663B2 (en) * | 2016-02-04 | 2021-05-18 | Deepmind Technologies Limited | Associative long short-term memory neural network layers |
US9799327B1 (en) | 2016-02-26 | 2017-10-24 | Google Inc. | Speech recognition with attention-based recurrent neural networks |
US10373612B2 (en) * | 2016-03-21 | 2019-08-06 | Amazon Technologies, Inc. | Anchored speech detection and speech recognition |
RU2698153C1 (ru) * | 2016-03-23 | 2019-08-22 | ГУГЛ ЭлЭлСи | Адаптивное улучшение аудио для распознавания многоканальной речи |
CN107293291B (zh) * | 2016-03-30 | 2021-03-16 | 中国科学院声学研究所 | 一种基于自适应学习率的端到端的语音识别方法 |
CN105956469B (zh) * | 2016-04-27 | 2019-04-26 | 百度在线网络技术(北京)有限公司 | 文件安全性识别方法和装置 |
CN106096729B (zh) * | 2016-06-06 | 2018-11-20 | 天津科技大学 | 一种面向大规模环境中复杂任务的深度策略学习方法 |
US11042796B2 (en) | 2016-11-03 | 2021-06-22 | Salesforce.Com, Inc. | Training a joint many-task neural network model using successive regularization |
CN108062505B (zh) | 2016-11-09 | 2022-03-18 | 微软技术许可有限责任公司 | 用于基于神经网络的动作检测的方法和设备 |
CN106650789B (zh) * | 2016-11-16 | 2023-04-07 | 同济大学 | 一种基于深度lstm网络的图像描述生成方法 |
KR102692670B1 (ko) * | 2017-01-04 | 2024-08-06 | 삼성전자주식회사 | 음성 인식 방법 및 음성 인식 장치 |
US10241684B2 (en) * | 2017-01-12 | 2019-03-26 | Samsung Electronics Co., Ltd | System and method for higher order long short-term memory (LSTM) network |
US10769522B2 (en) | 2017-02-17 | 2020-09-08 | Wipro Limited | Method and system for determining classification of text |
CN107293288B (zh) * | 2017-06-09 | 2020-04-21 | 清华大学 | 一种残差长短期记忆循环神经网络的声学模型建模方法 |
CN107492121B (zh) * | 2017-07-03 | 2020-12-29 | 广州新节奏智能科技股份有限公司 | 一种单目深度视频的二维人体骨骼点定位方法 |
CN107484017B (zh) * | 2017-07-25 | 2020-05-26 | 天津大学 | 基于注意力模型的有监督视频摘要生成方法 |
CN109460812B (zh) * | 2017-09-06 | 2021-09-14 | 富士通株式会社 | 神经网络的中间信息分析装置、优化装置、特征可视化装置 |
CN107563122B (zh) * | 2017-09-20 | 2020-05-19 | 长沙学院 | 基于交织时间序列局部连接循环神经网络的犯罪预测方法 |
CN107993636B (zh) * | 2017-11-01 | 2021-12-31 | 天津大学 | 基于递归神经网络的乐谱建模与生成方法 |
CN109243493B (zh) * | 2018-10-30 | 2022-09-16 | 南京工程学院 | 基于改进长短时记忆网络的婴儿哭声情感识别方法 |
CN109243494B (zh) * | 2018-10-30 | 2022-10-11 | 南京工程学院 | 基于多重注意力机制长短时记忆网络的儿童情感识别方法 |
CN109614485B (zh) * | 2018-11-19 | 2023-03-14 | 中山大学 | 一种基于语法结构的分层Attention的句子匹配方法及装置 |
CN109543165B (zh) * | 2018-11-21 | 2022-09-23 | 中国人民解放军战略支援部队信息工程大学 | 基于循环卷积注意力模型的文本生成方法及装置 |
CN109523995B (zh) * | 2018-12-26 | 2019-07-09 | 出门问问信息科技有限公司 | 语音识别方法、语音识别装置、可读存储介质和电子设备 |
CN109866713A (zh) * | 2019-03-21 | 2019-06-11 | 斑马网络技术有限公司 | 安全检测方法及装置、车辆 |
CN110135634B (zh) * | 2019-04-29 | 2022-01-25 | 广东电网有限责任公司电网规划研究中心 | 中长期电力负荷预测装置 |
CN110085249B (zh) * | 2019-05-09 | 2021-03-16 | 南京工程学院 | 基于注意力门控的循环神经网络的单通道语音增强方法 |
CN110473554B (zh) * | 2019-08-08 | 2022-01-25 | Oppo广东移动通信有限公司 | 音频校验方法、装置、存储介质及电子设备 |
CN110473529B (zh) * | 2019-09-09 | 2021-11-05 | 北京中科智极科技有限公司 | 一种基于自注意力机制的流式语音转写系统 |
CN111079906B (zh) * | 2019-12-30 | 2023-05-05 | 燕山大学 | 基于长短时记忆网络的水泥成品比表面积预测方法及系统 |
CN111314345B (zh) * | 2020-02-19 | 2022-09-16 | 安徽大学 | 一种保护序列数据隐私方法、装置、计算机设备及存储介质 |
CN111311009B (zh) * | 2020-02-24 | 2023-05-26 | 广东工业大学 | 一种基于长短期记忆的行人轨迹预测方法 |
CN111429938B (zh) * | 2020-03-06 | 2022-09-13 | 江苏大学 | 一种单通道语音分离方法、装置及电子设备 |
CN111709754B (zh) * | 2020-06-12 | 2023-08-25 | 中国建设银行股份有限公司 | 一种用户行为特征提取方法、装置、设备及系统 |
CN111814849B (zh) * | 2020-06-22 | 2024-02-06 | 浙江大学 | 一种基于da-rnn的风电机组关键组件故障预警方法 |
CN111985610B (zh) * | 2020-07-15 | 2024-05-07 | 中国石油大学(北京) | 一种基于时序数据的抽油机井泵效预测系统和方法 |
CN111930602B (zh) * | 2020-08-13 | 2023-09-22 | 中国工商银行股份有限公司 | 性能指标预测方法及装置 |
CN112001482B (zh) * | 2020-08-14 | 2024-05-24 | 佳都科技集团股份有限公司 | 振动预测及模型训练方法、装置、计算机设备和存储介质 |
CN112214852B (zh) * | 2020-10-09 | 2022-10-14 | 电子科技大学 | 一种考虑衰退率的透平机械性能衰退预测方法 |
CN112382265B (zh) * | 2020-10-21 | 2024-05-28 | 西安交通大学 | 基于深度循环神经网络的主动降噪方法、存储介质及系统 |
CN112434784A (zh) * | 2020-10-22 | 2021-03-02 | 暨南大学 | 一种基于多层lstm的深度学生表现预测方法 |
CN112906291B (zh) * | 2021-01-25 | 2023-05-19 | 武汉纺织大学 | 一种基于神经网络的建模方法及装置 |
CN112784472B (zh) * | 2021-01-27 | 2023-03-24 | 电子科技大学 | 循环神经网络模拟量子输运过程中的量子条件主方程的模拟方法 |
CN113792772B (zh) * | 2021-09-01 | 2023-11-03 | 中国船舶重工集团公司第七一六研究所 | 一种用于数据分级混合存储的冷热数据识别方法 |
CN114511067A (zh) * | 2022-02-02 | 2022-05-17 | 上海图灵智算量子科技有限公司 | 基于量子实现长短期记忆的方法及系统 |
CN115034129B (zh) * | 2022-05-17 | 2024-08-20 | 齐鲁工业大学 | 一种面向火电厂脱硝装置的NOx排放浓度软测量方法 |
US11995658B2 (en) * | 2022-05-25 | 2024-05-28 | Dell Products L.P. | Machine learning-based detection of potentially malicious behavior on an e-commerce platform |
CN115563475A (zh) * | 2022-10-25 | 2023-01-03 | 南京工业大学 | 一种挖掘机液压系统的压力软传感器 |
CN117849628B (zh) * | 2024-03-08 | 2024-05-10 | 河南科技学院 | 基于时序变换记忆网络的锂离子电池健康状态估计方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102983819A (zh) * | 2012-11-08 | 2013-03-20 | 南京航空航天大学 | 一种功率放大器的模拟方法及功率放大器模拟装置 |
CN103049792A (zh) * | 2011-11-26 | 2013-04-17 | 微软公司 | 深层神经网络的辨别预训练 |
CN103680496A (zh) * | 2013-12-19 | 2014-03-26 | 百度在线网络技术(北京)有限公司 | 基于深层神经网络的声学模型训练方法、主机和系统 |
CN104217226A (zh) * | 2014-09-09 | 2014-12-17 | 天津大学 | 基于深度神经网络与条件随机场的对话行为识别方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7647284B2 (en) * | 2007-01-12 | 2010-01-12 | Toyota Motor Engineering & Manufacturing North America, Inc. | Fixed-weight recurrent neural network controller with fixed long-term and adaptive short-term memory |
CN104700828B (zh) * | 2015-03-19 | 2018-01-12 | 清华大学 | 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法 |
-
2015
- 2015-03-19 CN CN201510122982.6A patent/CN104700828B/zh active Active
- 2015-10-21 WO PCT/CN2015/092381 patent/WO2016145850A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103049792A (zh) * | 2011-11-26 | 2013-04-17 | 微软公司 | 深层神经网络的辨别预训练 |
CN102983819A (zh) * | 2012-11-08 | 2013-03-20 | 南京航空航天大学 | 一种功率放大器的模拟方法及功率放大器模拟装置 |
CN103680496A (zh) * | 2013-12-19 | 2014-03-26 | 百度在线网络技术(北京)有限公司 | 基于深层神经网络的声学模型训练方法、主机和系统 |
CN104217226A (zh) * | 2014-09-09 | 2014-12-17 | 天津大学 | 基于深度神经网络与条件随机场的对话行为识别方法 |
Non-Patent Citations (1)
Title |
---|
"Towards end-to-end speech recognition with recurrent neural networks";Alex Graves等;《Proceedings of the 31st International Conference on Machine》;20141231;全文 * |
Also Published As
Publication number | Publication date |
---|---|
WO2016145850A1 (zh) | 2016-09-22 |
CN104700828A (zh) | 2015-06-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104700828B (zh) | 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法 | |
Nakkiran et al. | Compressing deep neural networks using a rank-constrained topology. | |
CN104538028B (zh) | 一种基于深度长短期记忆循环神经网络的连续语音识别方法 | |
DE102019122180B4 (de) | Verfahren und system zur schlüsselausdruckserkennung auf der grundlage eines neuronalen netzes | |
JP7337953B2 (ja) | 音声認識方法及び装置、ニューラルネットワークの訓練方法及び装置、並びにコンピュータープログラム | |
Sainath et al. | Auto-encoder bottleneck features using deep belief networks | |
Zhang et al. | Study on CNN in the recognition of emotion in audio and images | |
CN108269569A (zh) | 语音识别方法和设备 | |
Guiming et al. | Speech recognition based on convolutional neural networks | |
Gaurav et al. | Performance of deer hunting optimization based deep learning algorithm for speech emotion recognition | |
CN106919977A (zh) | 一种前馈序列记忆神经网络及其构建方法和系统 | |
Guo et al. | Time-delayed bottleneck highway networks using a DFT feature for keyword spotting | |
CN107301864A (zh) | 一种基于Maxout神经元的深度双向LSTM声学模型 | |
WO2022048239A1 (zh) | 音频的处理方法和装置 | |
CN110223714A (zh) | 一种基于语音的情绪识别方法 | |
CN107068167A (zh) | 融合多种端到端神经网络结构的说话人感冒症状识别方法 | |
Wand et al. | Domain-Adversarial Training for Session Independent EMG-based Speech Recognition. | |
Zhang et al. | Temporal convolutional network with frequency dimension adaptive attention for speech enhancement | |
Zhang et al. | High order recurrent neural networks for acoustic modelling | |
Atkar et al. | Speech emotion recognition using dialogue emotion decoder and CNN Classifier | |
CN110544482A (zh) | 一种单通道语音分离系统 | |
Cai et al. | Convolutional maxout neural networks for low-resource speech recognition | |
Yook et al. | Voice conversion using conditional CycleGAN | |
CN110223699A (zh) | 一种说话人身份确认方法、装置及存储介质 | |
CN110363074B (zh) | 一种针对复杂抽象化事物的类人化识别交互方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |