Nothing Special   »   [go: up one dir, main page]

CN108492820A - 基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法 - Google Patents

基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法 Download PDF

Info

Publication number
CN108492820A
CN108492820A CN201810228555.XA CN201810228555A CN108492820A CN 108492820 A CN108492820 A CN 108492820A CN 201810228555 A CN201810228555 A CN 201810228555A CN 108492820 A CN108492820 A CN 108492820A
Authority
CN
China
Prior art keywords
neural network
model
language model
training
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810228555.XA
Other languages
English (en)
Other versions
CN108492820B (zh
Inventor
贺前华
吴俊峰
汪星
庞文丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201810228555.XA priority Critical patent/CN108492820B/zh
Publication of CN108492820A publication Critical patent/CN108492820A/zh
Application granted granted Critical
Publication of CN108492820B publication Critical patent/CN108492820B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法,主要包括下述步骤:S1.训练基于循环神经网络的语言模型;S2.训练基于深度神经网络的声学模型;S3.基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法的解码器采用维特比搜索方案。本发明结合循环神经网络的准确性和深度神经网络的低时延性,解决了现有n‑gram语言模型准确度低和长短时记忆网络声学模型高时延性的缺点,实现低时延较高准确度的中文语音识别。

Description

基于循环神经网络语言模型和深度神经网络声学模型的中文 语音识别方法
技术领域
本发明涉及语音识别技术和深度学习技术,具体涉及一种基于循环神经网络语言模型和深度神经网络声学模型的语音识别方法。
背景技术
随着Amazon Echo智能音箱等智能硬件产品的火热,作为其中最重要的人机交互手段,语音识别的市场也水涨船高。据国际知名市场研究公司Research and Markets 2016年发布的《2015-2020全球及中国语音产业报告》,随着语音在智能产业的应用不断加深,到2020年,全球语音市场规模预计将达到191.7亿美元。
传统连续语音识别技术的主流代表是GMM-HMM,2011年前后,微软、谷歌等公司开始将深度神经网络应用到语音识别中,取得了十年来最大的识别率提升,使其成为现代语音识别的主流技术。
现有的语音识别系统一般分为:
(1)基于n-gram语言模型和DNN-HMM声学模型的语音识别系统;
(2)基于n-gram语言模型和LSTM声学模型的语音识别系统;
(3)基于RNN语言模型和LSTM声学模型的语音识别系统;
(4)无单独语言模型的端到端语音识别系统;
现有语音识别系统的不足之处在于:
(1)无单独语言模型的端到端语音识别系统技术尚未实用,识别率尚未达到语言模型配合声学模型架构的效果;
(2)n-gram语言模型是目前语音识别系统中语言模型的主流,但是其困惑度(PPL)性能目前已经被RNN语言模型超越;
(3)DNN-HMM声学模型和LSTM声学模型相比,速度快,但是精度没有LSTM声学模型高;
近年来,随着计算能力的提升,循环神经网络语言模型技术得到了很好的发展,困惑度(perplexity,PPL)已经低于传统n-gram,在机器翻译、对话生成等领域的应用效果也超出了传统的n-gram方案的效果。所以本发明将会使用循环神经网络语言模型取代n-gram语言模型来改进传统语音识别方法。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供一种基于循环神经网络语言模型和深度神经网络声学模型的语音识别方法,结合循环神经网络的准确性和深度神经网络的低时延性,解决了现有n-gram语言模型准确度低和长短时记忆网络(LSTM)声学模型高时延性的缺点。
为了达到上述目的,本发明采用以下技术方案:
本发明一种基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法,包括下述步骤:
S1.训练基于循环神经网络的语言模型:
S1.1利用srcapy网络爬虫脚本爬取中文互联网文本;
S1.2用BeautifulSoup工具包解析所爬取互联网文本,删除文本中的英文字母、乱码符号、书名号、花括号、括号、尖括号、方括号、空格、逗号、顿号、双引号、单引号内容,将句号、分号、问号、感叹号置换为回车符,留下纯汉字文本;
S1.3利用Jieba中文分词工具对纯汉字文本进行分词;
S1.4统计训练文本语料中不重复词汇总数,设为V;
S1.5将分词后的中文文本输入循环神经网络RNN进行训练,将网络输入层设置为个节点,隐层若干个节点,隐层若干层,输出层个节点,输出层每个节点表示一组预测情况输出概率,训练得到RNN语言模型,该语言模型的作用是输入上文词汇,输出在上文出现了这些词汇的情况下最有可能在此处出现的词汇;
S2.训练基于深度神经网络的声学模型:
S2.1读入音频流,并提取40维Fbank特征,然后进行倒谱均值方差归一化计算,去除带噪特征与纯净特征之间的偏差,降低信道影响,提升语音特征的鲁棒性;
S2.2单音素模型训练:训练单音素基础GMM-HMM模型,HMM模型为3状态HMM,迭代若干次,采用维特比方法按照realign_iters中规定好的次数进行数据对齐,使音频帧的特征和音素ID对齐,以备下一步骤使用;
S2.3三音素模型训练:以对齐后的单音素模型为输入,训练上下文相关的三音素GMM-HMM模型,迭代N次,采用维特比方法进行数据对齐,使音频帧的特征和音素ID对齐;
S2.4对步骤S2.3对齐后的数据利用基于特征空间的最大似然线性回归方法去除说话人差异对语音识别系统的影响,然后进行数据对齐,包括训练集和交叉验证集;
S2.5利用GMM-HMM,经过S2.1到S2.4的步骤后,已经得到了一个音频帧的特征到音素ID的映射对data+label,将该数据输入深度神经网络DNN进行训练,该DNN含4个隐层,每个隐层若干个节点,输出层若干个节点,使用交叉熵规则训练,优化准则为随机梯度下降,最小批次设置为256,初始学习率设置为0.008;
S3.基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法的解码器采用维特比搜索方案:
S3.1基于加权有限状态转换器构建解码空间:将HMM模型(H)、三音素模型(C)、词典(L)和语言模型(G)四个模型转换成WFST形式,然后依次进行WFST网络的合并和压缩,从而得到完整的语音识别静态搜索空间,这四个模型相当于四个串联的子系统,前一子系统的输出作为下一子系统的输入,使用HMM的状态序列作为这个WFST的输入时,WFST系统将输出词序列及其得分;
S3.2提取特征:对待识别语音提取40维Fbank特征;
S3.3局部似然:计算观察矢量在词模型所有状态下的概率;
S3.4词内解码:在前向搜索中完成Viterbi解码;
S3.5语法级解码:根据WFST网络的词法限制在每个语法节点进行路径合并;
S3.6回溯:解码出最佳侯选词序列。
作为优选的技术方案,步骤S1.5中,将输入层节点数和输出层节点数设置为个,最后一层隐层到输出层的具体操作是:
根据词频将V个词分成组,先通过次判断,看下一个词属于哪个组,再组内遍历查找,判断其为组内哪个元素,计算复杂度为
作为优选的技术方案,步骤S1.5中,隐层节点数和隐层数视计算机计算能力而定,隐层节点设置数十个,隐层节点数越多,性能越好,所需的计算量也更大。
作为优选的技术方案,步骤S2.2中,realign_iters="1 2 3 4 5 6 7 8 9 10 1214 16 18 20 23 26 29 32 35 38"。
作为优选的技术方案,步骤S2.5中,音频帧的特征到音素ID的映射中使用到了发音词典,该发音词典中记录了汉语字词和他们的发音的对应关系,发音按“声母韵母+声调”的形式标注,声韵母加声调也是本套语音识别方案的识别基元。
作为优选的技术方案,步骤S3.4到S3.6中,采用维特比解码步骤伪代码如下:
a)初始化:设D(t;st;w)表示第t帧到达词w的状态st的最优路径得分,H(t;st;w)
表示第t帧到达词w的状态st的回溯指针,对于所有可能是句子开始的语法词的状态w,令
D(0;I(w);w)=0,H(0;I(w);w)=null
b)循环:
对帧t=1到t=T循环
对所有活动节点
在词内转移执行:
H(t;st;w)=H(t-1;bmin(t;st;w);w)
对所有活动词的终止状态,执行词间转移:
H(t;η;w)=<vmin,t>::H(t;F(vmin);vmin)
If D(t;η;w)<D(t;I(w);w):
D(t;I(w);w)=D(t;η;w);H(t;I(w);w)=H(t;η;w)
剪枝:找到最优路径并设置阈值,剪掉没有意义的路径;
c)终止:在T时刻选出所有可能终止状态中最好的路径,并对H(t;η;w)回溯;
其中,
d(ot,st|st-1;w)=-logP(st|st-1;w)-logP(ot|st;w)
F(v)表示词的终止状态,η表示伪起始状态,::表示增加一个链接操作,P则是由RNN语言模型提供的后验概率,即出现前面几个词的情况下,下一个词为某个词的概率。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明结合循环神经网络的准确性和深度神经网络的低时延性,解决了现有n-gram语言模型准确度低和长短时记忆网络(LSTM)声学模型高时延性的缺点,使得本发明同时具备低时延和较高准确度的优点。
2、本发明循环神经网络等神经网络技术在人工智能时代的发展速度快,未来在语言模型性能上还能去的比现有传统n-gram方案更多的提升,更符合技术发展潮流;
3、比起端到端语音识别方案,本发明的语言模型和声学模型是单独训练的,而语音识别领域的语言模型,与自然语义理解、机器翻译、对话生成等领域的语言模型通用性强,能更方便去利用这些领域的语音模型新技术。
4、本发明声学模型采用DNN-HMM,实时性比LSTM声学模型好。
5、本发明语言模型采用循环神经网络,精度比n-gram语言模型高,能利用更长时间的序列相关性信息,而不是像n-gram那样只能往前看n个词。
附图说明
图1是本发明的方法流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
如图1所示,本发明主要分为:步骤101~步骤105的循环神经网络语言模型训练、步骤201~步骤206的深度神经网络声学模型训练、步骤301~步骤303的识别解码三部分。
1.训练基于循环神经网络的语言模型:
步骤101,利用srcapy等网络爬虫脚本爬取大量中文互联网文本;
步骤102,用BeautifulSoup工具包解析所爬取互联网文本,删除文本中的英文字母、乱码符号、书名号、花括号、括号、尖括号、方括号、空格、逗号、顿号、双引号、单引号等内容,将句号、分号、问号、感叹号置换为回车符,留下纯汉字文本;
步骤103,利用Jieba中文分词工具对纯汉字文本进行分词;
步骤104,统计训练文本语料中不重复词汇总数,设为V;
步骤105,将分词后的中文文本输入循环神经网络(RNN)进行训练,由于词汇量巨大,若按照不重复词汇总数V设置输入层节点,将导致计算量过大,所以稍微牺牲一些精度,将网络输入层设置为个节点,隐层若干个节点,隐层若干层,输出层个节点,训练得到RNN语言模型;
在上述步骤S105中,将输入层节点数和输出层节点数设置为个,最后一层隐层到输出层的具体操作是:根据词频将V个词分成组,先通过次判断,看下一个词属于哪个组,再组内遍历查找,判断其为组内哪个元素,计算复杂度约为
进一步的,步骤S1.5中,隐层节点数和隐层数视计算机计算能力而定,一般隐层节点设置数十个,隐层节点数越多,性能越好,所需的计算量也更大。
2.训练基于深度神经网络的声学模型:
步骤201、步骤202,读入音频流,并提取40维Fbank特征,然后进行倒谱均值方差归一化(CMVN)计算,去除带噪特征与纯净特征之间的偏差,降低信道影响,提升语音特征的鲁棒性;
步骤203,单音素模型训练:训练单音素基础GMM-HMM模型,HMM模型为3状态HMM,迭代40次,采用维特比(Viterbi)方法按照realign_iters中规定好的次数进行数据对齐,使音频帧的特征和音素ID对齐,以备下一步骤使用;其中,realign_iters="1 2 3 4 5 6 78 9 10 12 14 16 18 20 23 26 29 32 35 38"。
步骤204,三音素模型训练:以对齐后的单音素模型为输入,训练上下文相关的三音素GMM-HMM模型,迭代35次,采用维特比(Viterbi)方法,进行数据对齐,使音频帧的特征和音素ID对齐;所述音频帧的特征到音素ID的映射中使用到了发音词典(lexicon),该发音词典中记录了汉语字词和他们的发音的对应关系,发音按“声母韵母+声调”的形式标注,例如“好h ao3”,声韵母加声调也是本套语音识别方案的识别基元。
步骤205,对步骤S2.3对齐后的数据利用基于特征空间的最大似然线性回归(fMLLR)方法去除说话人差异对语音识别系统的影响,然后进行数据对齐,包括训练集和交叉验证(cross validation)集;
步骤206,利用GMM-HMM,经过S2.1到S2.4的步骤后,已经得到了一个音频帧的特征到音素ID的映射对(data+label),将该数据输入深度神经网络(DNN)进行训练,该DNN含4个隐层,每个隐层1200个节点,输出层3386个节点,使用交叉熵(cross entropy)规则训练,优化准则为随机梯度下降(SGD),最小批次(mini batch)设置为256,初始学习率设置为0.008;
步骤S205-步骤S206的伪代码如下:
a)初始化:设D(t;st;w)表示第t帧到达词w的状态st的最优路径得分,H(t;st;w)
表示第t帧到达词w的状态st的回溯指针,对于所有可能是句子开始的语法词的状态w,令
D(0;I(w);w)=0,H(0;I(w);w)=null
b)循环:
对帧t=1到t=T循环
对所有活动节点
在词内转移执行:
H(t;st;w)=H(t-1;bmin(t;st;w);w)
对所有活动词的终止状态,执行词间转移:
H(t;η;w)=<vmin,t>::H(t;F(vmin);vmin)
If D(t;η;w)<D(t;I(w);w):
D(t;I(w);w)=D(t;η;w);H(t;I(w);w)=H(t;η;w)
剪枝:找到最优路径并设置阈值,剪掉没有意义的路径
c)终止:在T时刻选出所有可能终止状态中最好的路径,并对H(t;η;w)回溯;
其中,
d(ot,st|st-1;w)=-logP(st|st-1;w)-logP(ot|st;w)
F(v)表示词的终止状态,η表示伪起始状态,::表示增加一个链接操作,P则是由RNN语言模型提供的后验概率,即出现前面几个词的情况下,下一个词为某个词的概率。
3.基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法的解码器采用维特比(Viterbi)搜索方案:
步骤301、步骤302,读入音频流,并提取40维Fbank特征;
步骤303,基于加权有限状态转换器(weighted finite-state transducer,WFST)构建解码空间:将HMM模型(H)、三音素模型(C)、词典(L)和语言模型(G)四个模型转换成WFST形式,然后依次进行WFST网络的合并和压缩,从而得到完整的语音识别静态搜索空间(HCLG网络),这四个模型相当于四个串联的子系统,前一子系统的输出作为下一子系统的输入,使用HMM的状态序列作为这个WFST的输入时,WFST系统将输出词序列及其得分;局部似然:计算观察矢量在词模型所有状态下的概率;词内解码:在前向搜索中完成Viterbi解码;语法级解码:根据WFST网络的词法限制在每个语法节点进行路径合并;回溯(backtracking):解码出最佳侯选词序列,即为所需识别结果。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (6)

1.一种基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法,其特征在于,包括下述步骤:
S1.训练基于循环神经网络的语言模型:
S1.1利用srcapy网络爬虫脚本爬取中文互联网文本;
S1.2用BeautifulSoup工具包解析所爬取互联网文本,删除文本中的英文字母、乱码符号、书名号、花括号、括号、尖括号、方括号、空格、逗号、顿号、双引号、单引号内容,将句号、分号、问号、感叹号置换为回车符,留下纯汉字文本;
S1.3利用Jieba中文分词工具对纯汉字文本进行分词;
S1.4统计训练文本语料中不重复词汇总数,设为V;
S1.5将分词后的中文文本输入循环神经网络RNN进行训练,将网络输入层设置为个节点,隐层若干个节点,隐层若干层,输出层个节点,输出层每个节点表示一组预测情况输出概率,训练得到RNN语言模型,该语言模型的作用是输入上文词汇,输出在上文出现了这些词汇的情况下最有可能在此处出现的词汇;
S2.训练基于深度神经网络的声学模型:
S2.1读入音频流,并提取40维Fbank特征,然后进行倒谱均值方差归一化计算,去除带噪特征与纯净特征之间的偏差,降低信道影响,提升语音特征的鲁棒性;
S2.2单音素模型训练:训练单音素基础GMM-HMM模型,HMM模型为3状态HMM,迭代若干次,采用维特比方法按照realign_iters中规定好的次数进行数据对齐,使音频帧的特征和音素ID对齐,以备下一步骤使用;
S2.3三音素模型训练:以对齐后的单音素模型为输入,训练上下文相关的三音素GMM-HMM模型,迭代N次,采用维特比方法进行数据对齐,使音频帧的特征和音素ID对齐;
S2.4对步骤S2.3对齐后的数据利用基于特征空间的最大似然线性回归方法去除说话人差异对语音识别系统的影响,然后进行数据对齐,包括训练集和交叉验证集;
S2.5利用GMM-HMM,经过S2.1到S2.4的步骤后,已经得到了一个音频帧的特征到音素ID的映射对data+label,将该数据输入深度神经网络DNN进行训练,该DNN含4个隐层,每个隐层若干个节点,输出层若干个节点,使用交叉熵规则训练,优化准则为随机梯度下降,最小批次设置为256,初始学习率设置为0.008;
S3.基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法的解码器采用维特比搜索方案:
S3.1基于加权有限状态转换器构建解码空间:将HMM模型(H)、三音素模型(C)、词典(L)和语言模型(G)四个模型转换成WFST形式,然后依次进行WFST网络的合并和压缩,从而得到完整的语音识别静态搜索空间,这四个模型相当于四个串联的子系统,前一子系统的输出作为下一子系统的输入,使用HMM的状态序列作为这个WFST的输入时,WFST系统将输出词序列及其得分;
S3.2提取特征:对待识别语音提取40维Fbank特征;
S3.3局部似然:计算观察矢量在词模型所有状态下的概率;
S3.4词内解码:在前向搜索中完成Viterbi解码;
S3.5语法级解码:根据WFST网络的词法限制在每个语法节点进行路径合并;
S3.6回溯:解码出最佳侯选词序列。
2.根据权利要求1所述基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法,其特征在于,步骤S1.5中,将输入层节点数和输出层节点数设置为个,最后一层隐层到输出层的具体操作是:
根据词频将V个词分成组,先通过次判断,看下一个词属于哪个组,再组内遍历查找,判断其为组内哪个元素,计算复杂度为
3.根据权利要求1所述基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法,其特征在于,步骤S1.5中,隐层节点数和隐层数视计算机计算能力而定,隐层节点设置数十个,隐层节点数越多,性能越好,所需的计算量也更大。
4.根据权利要求1所述基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法,其特征在于,步骤S2.2中,realign_iters="1 2 3 4 5 6 7 8 9 10 12 1416 18 20 23 26 29 32 35 38"。
5.根据权利要求1所述基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法,其特征在于,步骤S2.5中,音频帧的特征到音素ID的映射中使用到了发音词典,该发音词典中记录了汉语字词和他们的发音的对应关系,发音按“声母韵母+声调”的形式标注,声韵母加声调也是本套语音识别方案的识别基元。
6.根据权利要求1所述基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法,其特征在于,步骤S3.4到S3.6中,采用维特比解码步骤伪代码如下:
a)初始化:设D(t;st;w)表示第t帧到达词w的状态st的最优路径得分,H(t;st;w)表示第t帧到达词w的状态st的回溯指针,对于所有可能是句子开始的语法词的状态w,令
D(0;I(w);w)=0,H(0;I(w);w)=null
b)循环:
对帧t=1到t=T循环
对所有活动节点
在词内转移执行:
H(t;st;w)=H(t-1;bmin(t;st;w);w)
对所有活动词的终止状态,执行词间转移:
H(t;η;w)=<vmin,t>::H(t;F(vmin);vmin)
If D(t;η;w)<D(t;I(w);w):
D(t;I(w);w)=D(t;η;w);H(t;I(w);w)=H(t;η;w)
剪枝:找到最优路径并设置阈值,剪掉没有意义的路径
c)终止:在T时刻选出所有可能终止状态中最好的路径,并对H(t;η;w)回溯;
其中,
d(ot,st|st-1;w)=-logP(st|st-1;w)-logP(ot|st;w)
F(v)表示词的终止状态,η表示伪起始状态,::表示增加一个链接操作,P则是由RNN语言模型提供的后验概率,即出现前面几个词的情况下,下一个词为某个词的概率。
CN201810228555.XA 2018-03-20 2018-03-20 基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法 Active CN108492820B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810228555.XA CN108492820B (zh) 2018-03-20 2018-03-20 基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810228555.XA CN108492820B (zh) 2018-03-20 2018-03-20 基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法

Publications (2)

Publication Number Publication Date
CN108492820A true CN108492820A (zh) 2018-09-04
CN108492820B CN108492820B (zh) 2021-08-10

Family

ID=63318534

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810228555.XA Active CN108492820B (zh) 2018-03-20 2018-03-20 基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法

Country Status (1)

Country Link
CN (1) CN108492820B (zh)

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109065033A (zh) * 2018-09-19 2018-12-21 华南理工大学 一种基于随机深度时延神经网络模型的自动语音识别方法
CN109119072A (zh) * 2018-09-28 2019-01-01 中国民航大学 基于dnn-hmm的民航陆空通话声学模型构建方法
CN109360554A (zh) * 2018-12-10 2019-02-19 广东潮庭集团有限公司 一种基于语深度神经网络的语言识别方法
CN109815476A (zh) * 2018-12-03 2019-05-28 国网浙江省电力有限公司杭州供电公司 一种基于中文语素和拼音联合统计的词向量表示方法
CN110047468A (zh) * 2019-05-20 2019-07-23 北京达佳互联信息技术有限公司 语音识别方法、装置及存储介质
CN110287325A (zh) * 2019-06-28 2019-09-27 南方电网科学研究院有限责任公司 一种基于智能语音分析的电网客服业务推荐方法及装置
CN110349597A (zh) * 2019-07-03 2019-10-18 山东师范大学 一种语音检测方法及装置
CN110379416A (zh) * 2019-08-15 2019-10-25 腾讯科技(深圳)有限公司 一种神经网络语言模型训练方法、装置、设备及存储介质
CN110415697A (zh) * 2019-08-29 2019-11-05 的卢技术有限公司 一种基于深度学习的车载语音控制方法及其系统
CN110427459A (zh) * 2019-08-05 2019-11-08 苏州思必驰信息科技有限公司 语音识别网络的可视化生成方法、系统及平台
CN110556099A (zh) * 2019-09-12 2019-12-10 出门问问信息科技有限公司 一种命令词控制方法及设备
WO2020057624A1 (zh) * 2018-09-20 2020-03-26 杭州海康威视数字技术股份有限公司 语音识别的方法和装置
CN110992939A (zh) * 2019-12-18 2020-04-10 广州市百果园信息技术有限公司 语言模型训练方法、解码方法、装置、存储介质及设备
CN111091817A (zh) * 2018-10-24 2020-05-01 中国科学院声学研究所 一种基于窗口输入的双向回馈神经网络的语音识别方法
CN111340006A (zh) * 2020-04-16 2020-06-26 深圳市康鸿泰科技有限公司 一种手语识别方法及系统
CN111489735A (zh) * 2020-04-22 2020-08-04 北京声智科技有限公司 语音识别模型训练方法及装置
CN111554272A (zh) * 2020-04-27 2020-08-18 天津大学 一种面向中文语音识别的语言模型建模方法
CN111783431A (zh) * 2019-04-02 2020-10-16 北京地平线机器人技术研发有限公司 利用语言模型预测词出现概率及语言模型训练方法和装置
WO2020238045A1 (zh) * 2019-05-29 2020-12-03 平安科技(深圳)有限公司 智能语音识别方法、装置及计算机可读存储介质
CN112489622A (zh) * 2019-08-23 2021-03-12 中国科学院声学研究所 一种多语言连续语音流语音内容识别方法及系统
CN112632977A (zh) * 2020-12-23 2021-04-09 昆明学院 一种彝语语音数据自动标注方法
CN112862100A (zh) * 2021-01-29 2021-05-28 网易有道信息技术(北京)有限公司 用于优化神经网络模型推理的方法及设备
CN113096648A (zh) * 2021-03-20 2021-07-09 杭州知存智能科技有限公司 用于语音识别的实时解码方法和装置
CN114420132A (zh) * 2022-03-28 2022-04-29 天津市北海通信技术有限公司 一种列车语音播报内容校验方法、系统和存储介质
CN115132209A (zh) * 2022-09-01 2022-09-30 北京百度网讯科技有限公司 语音识别方法、装置、设备和介质
CN112002308B (zh) * 2020-10-30 2024-01-09 腾讯科技(深圳)有限公司 一种语音识别方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104143327A (zh) * 2013-07-10 2014-11-12 腾讯科技(深圳)有限公司 一种声学模型训练方法和装置
CN105590625A (zh) * 2016-03-18 2016-05-18 上海语知义信息技术有限公司 声学模型自适应方法及系统
US20160260428A1 (en) * 2013-11-27 2016-09-08 National Institute Of Information And Communications Technology Statistical acoustic model adaptation method, acoustic model learning method suitable for statistical acoustic model adaptation, storage medium storing parameters for building deep neural network, and computer program for adapting statistical acoustic model
CN106448661A (zh) * 2016-09-23 2017-02-22 华南理工大学 基于纯净语音与背景噪声两极建模的音频类型检测方法
CN106782518A (zh) * 2016-11-25 2017-05-31 深圳市唯特视科技有限公司 一种基于分层循环神经网络语言模型的语音识别方法
KR20170086233A (ko) * 2016-01-18 2017-07-26 한국전자통신연구원 라이프 음성 로그 및 라이프 영상 로그를 이용한 점증적 음향 모델 및 언어 모델 학습 방법
CN107195296A (zh) * 2016-03-15 2017-09-22 阿里巴巴集团控股有限公司 一种语音识别方法、装置、终端及系统
CN107331384A (zh) * 2017-06-12 2017-11-07 平安科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质
US20180068652A1 (en) * 2016-09-05 2018-03-08 Kabushiki Kaisha Toshiba Apparatus and method for training a neural network language model, speech recognition apparatus and method

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104143327A (zh) * 2013-07-10 2014-11-12 腾讯科技(深圳)有限公司 一种声学模型训练方法和装置
US20160260428A1 (en) * 2013-11-27 2016-09-08 National Institute Of Information And Communications Technology Statistical acoustic model adaptation method, acoustic model learning method suitable for statistical acoustic model adaptation, storage medium storing parameters for building deep neural network, and computer program for adapting statistical acoustic model
KR20170086233A (ko) * 2016-01-18 2017-07-26 한국전자통신연구원 라이프 음성 로그 및 라이프 영상 로그를 이용한 점증적 음향 모델 및 언어 모델 학습 방법
CN107195296A (zh) * 2016-03-15 2017-09-22 阿里巴巴集团控股有限公司 一种语音识别方法、装置、终端及系统
CN105590625A (zh) * 2016-03-18 2016-05-18 上海语知义信息技术有限公司 声学模型自适应方法及系统
US20180068652A1 (en) * 2016-09-05 2018-03-08 Kabushiki Kaisha Toshiba Apparatus and method for training a neural network language model, speech recognition apparatus and method
CN106448661A (zh) * 2016-09-23 2017-02-22 华南理工大学 基于纯净语音与背景噪声两极建模的音频类型检测方法
CN106782518A (zh) * 2016-11-25 2017-05-31 深圳市唯特视科技有限公司 一种基于分层循环神经网络语言模型的语音识别方法
CN107331384A (zh) * 2017-06-12 2017-11-07 平安科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
HE WEIJUN: "Adaptively Reserved Likelihood Ratio-based Robust Voice Activity Detection with Sub-band Double Features", 《JOURNAL OF ELECTRONICS AND INFORMATION TECHNOLOGY》 *
YAJIE MIAO: "EESEN: End-to-end speech recognition using deep RNN models and WFST-based decoding", 《2015 IEEE WORKSHOP ON AUTOMATIC SPEECH RECOGNITION AND UNDERSTANDING (ASRU)》 *
张仕良: "基于深度神经网络的语音识别模型研究", 《中国博士学位论文全文数据库》 *
张德良: "深度神经网络在中文语音识别系统中的实现", 《中国优秀硕士学位论文全文数据库》 *
李杰: "基于深度学习的语音识别声学模型建模方法研究", 《万方数据知识服务平台》 *
王龙: "基于循环神经网络的汉语语言模型建模方法", 《声学技术》 *

Cited By (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109065033B (zh) * 2018-09-19 2021-03-30 华南理工大学 一种基于随机深度时延神经网络模型的自动语音识别方法
CN109065033A (zh) * 2018-09-19 2018-12-21 华南理工大学 一种基于随机深度时延神经网络模型的自动语音识别方法
WO2020057624A1 (zh) * 2018-09-20 2020-03-26 杭州海康威视数字技术股份有限公司 语音识别的方法和装置
CN109119072A (zh) * 2018-09-28 2019-01-01 中国民航大学 基于dnn-hmm的民航陆空通话声学模型构建方法
CN111091817A (zh) * 2018-10-24 2020-05-01 中国科学院声学研究所 一种基于窗口输入的双向回馈神经网络的语音识别方法
CN111091817B (zh) * 2018-10-24 2022-10-11 中国科学院声学研究所 一种基于窗口输入的双向回馈神经网络的语音识别方法
CN109815476A (zh) * 2018-12-03 2019-05-28 国网浙江省电力有限公司杭州供电公司 一种基于中文语素和拼音联合统计的词向量表示方法
CN109360554A (zh) * 2018-12-10 2019-02-19 广东潮庭集团有限公司 一种基于语深度神经网络的语言识别方法
CN111783431B (zh) * 2019-04-02 2024-05-24 北京地平线机器人技术研发有限公司 利用语言模型预测词出现概率及语言模型训练方法和装置
CN111783431A (zh) * 2019-04-02 2020-10-16 北京地平线机器人技术研发有限公司 利用语言模型预测词出现概率及语言模型训练方法和装置
CN110047468A (zh) * 2019-05-20 2019-07-23 北京达佳互联信息技术有限公司 语音识别方法、装置及存储介质
CN110047468B (zh) * 2019-05-20 2022-01-25 北京达佳互联信息技术有限公司 语音识别方法、装置及存储介质
WO2020238045A1 (zh) * 2019-05-29 2020-12-03 平安科技(深圳)有限公司 智能语音识别方法、装置及计算机可读存储介质
CN110287325A (zh) * 2019-06-28 2019-09-27 南方电网科学研究院有限责任公司 一种基于智能语音分析的电网客服业务推荐方法及装置
CN110349597B (zh) * 2019-07-03 2021-06-25 山东师范大学 一种语音检测方法及装置
CN110349597A (zh) * 2019-07-03 2019-10-18 山东师范大学 一种语音检测方法及装置
CN110427459A (zh) * 2019-08-05 2019-11-08 苏州思必驰信息科技有限公司 语音识别网络的可视化生成方法、系统及平台
CN110427459B (zh) * 2019-08-05 2021-09-17 思必驰科技股份有限公司 语音识别网络的可视化生成方法、系统及平台
CN110379416A (zh) * 2019-08-15 2019-10-25 腾讯科技(深圳)有限公司 一种神经网络语言模型训练方法、装置、设备及存储介质
CN110379416B (zh) * 2019-08-15 2021-10-22 腾讯科技(深圳)有限公司 一种神经网络语言模型训练方法、装置、设备及存储介质
CN112489622A (zh) * 2019-08-23 2021-03-12 中国科学院声学研究所 一种多语言连续语音流语音内容识别方法及系统
CN112489622B (zh) * 2019-08-23 2024-03-19 中国科学院声学研究所 一种多语言连续语音流语音内容识别方法及系统
CN110415697A (zh) * 2019-08-29 2019-11-05 的卢技术有限公司 一种基于深度学习的车载语音控制方法及其系统
CN110556099A (zh) * 2019-09-12 2019-12-10 出门问问信息科技有限公司 一种命令词控制方法及设备
CN110992939A (zh) * 2019-12-18 2020-04-10 广州市百果园信息技术有限公司 语言模型训练方法、解码方法、装置、存储介质及设备
CN111340006B (zh) * 2020-04-16 2024-06-11 深圳市康鸿泰科技有限公司 一种手语识别方法及系统
CN111340006A (zh) * 2020-04-16 2020-06-26 深圳市康鸿泰科技有限公司 一种手语识别方法及系统
CN111489735B (zh) * 2020-04-22 2023-05-16 北京声智科技有限公司 语音识别模型训练方法及装置
CN111489735A (zh) * 2020-04-22 2020-08-04 北京声智科技有限公司 语音识别模型训练方法及装置
CN111554272A (zh) * 2020-04-27 2020-08-18 天津大学 一种面向中文语音识别的语言模型建模方法
CN112002308B (zh) * 2020-10-30 2024-01-09 腾讯科技(深圳)有限公司 一种语音识别方法及装置
CN112632977B (zh) * 2020-12-23 2023-06-06 昆明学院 一种彝语语音数据自动标注方法
CN112632977A (zh) * 2020-12-23 2021-04-09 昆明学院 一种彝语语音数据自动标注方法
CN112862100A (zh) * 2021-01-29 2021-05-28 网易有道信息技术(北京)有限公司 用于优化神经网络模型推理的方法及设备
CN113096648A (zh) * 2021-03-20 2021-07-09 杭州知存智能科技有限公司 用于语音识别的实时解码方法和装置
CN114420132A (zh) * 2022-03-28 2022-04-29 天津市北海通信技术有限公司 一种列车语音播报内容校验方法、系统和存储介质
CN115132209B (zh) * 2022-09-01 2022-11-08 北京百度网讯科技有限公司 语音识别方法、装置、设备和介质
CN115132209A (zh) * 2022-09-01 2022-09-30 北京百度网讯科技有限公司 语音识别方法、装置、设备和介质

Also Published As

Publication number Publication date
CN108492820B (zh) 2021-08-10

Similar Documents

Publication Publication Date Title
CN108492820B (zh) 基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法
CN109410914B (zh) 一种赣方言语音和方言点识别方法
Rao et al. Exploring architectures, data and units for streaming end-to-end speech recognition with rnn-transducer
Le et al. Deep shallow fusion for RNN-T personalization
Chan et al. Listen, attend and spell: A neural network for large vocabulary conversational speech recognition
JP7070894B2 (ja) 時系列情報の学習システム、方法およびニューラルネットワークモデル
CN111429889A (zh) 基于截断注意力的实时语音识别的方法、装置、设备以及计算机可读存储介质
KR20230147685A (ko) 서브 워드 엔드-투-엔드 자동 스피치 인식을 위한 워드 레벨 신뢰도 학습
CN107705787A (zh) 一种语音识别方法及装置
Hori et al. Speech recognition algorithms using weighted finite-state transducers
Kadyan et al. Refinement of HMM model parameters for Punjabi automatic speech recognition (PASR) system
Lee et al. Joint learning of phonetic units and word pronunciations for ASR
Wang et al. Exploring rnn-transducer for chinese speech recognition
KR20230158608A (ko) 종단 간 자동 음성 인식 신뢰도 및 삭제 추정을 위한 멀티태스크 학습
Ahmed et al. End-to-end lexicon free arabic speech recognition using recurrent neural networks
CN107123419A (zh) Sphinx语速识别中背景降噪的优化方法
Quintanilha et al. An open-source end-to-end ASR system for Brazilian Portuguese using DNNs built from newly assembled corpora
Ali Multi-dialect Arabic speech recognition
Ananthakrishnan et al. Improved speech recognition using acoustic and lexical correlates of pitch accent in a n-best rescoring framework
Collobert et al. Word-level speech recognition with a letter to word encoder
Sainath et al. Improving contextual biasing with text injection
Razavi et al. Acoustic data-driven grapheme-to-phoneme conversion in the probabilistic lexical modeling framework
Tran et al. Joint modeling of text and acoustic-prosodic cues for neural parsing
KR100573870B1 (ko) 대화체 연속음성인식을 위한 의사형태소 기반다중발음사전 구축 방법 및 그 시스템과 이를 이용한대화체 음성인식 방법
Rasipuram et al. Grapheme and multilingual posterior features for under-resourced speech recognition: a study on scottish gaelic

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant