Nothing Special   »   [go: up one dir, main page]

CN107195295A - 基于中英文混合词典的语音识别方法及装置 - Google Patents

基于中英文混合词典的语音识别方法及装置 Download PDF

Info

Publication number
CN107195295A
CN107195295A CN201710317337.9A CN201710317337A CN107195295A CN 107195295 A CN107195295 A CN 107195295A CN 201710317337 A CN201710317337 A CN 201710317337A CN 107195295 A CN107195295 A CN 107195295A
Authority
CN
China
Prior art keywords
english
dictionary
chinglish
chinese
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710317337.9A
Other languages
English (en)
Other versions
CN107195295B (zh
Inventor
李先刚
张雪薇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201710317337.9A priority Critical patent/CN107195295B/zh
Publication of CN107195295A publication Critical patent/CN107195295A/zh
Priority to US15/859,796 priority patent/US10586533B2/en
Application granted granted Critical
Publication of CN107195295B publication Critical patent/CN107195295B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/193Formal grammars, e.g. finite state automata, context free grammars or word networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提出一种基于中英文混合词典的语音识别方法及装置,其中,方法包括:获取国际音标IPA标注的中英文混合词典,中英文混合词典包括:中文词典和经过中式英语修正的英文词典;将中英文混合词典作为训练词典,以一层卷积神经网络CNN加上五层时间递归神经网络LSTM为模型,以国际音标的状态为目标,以联结主义时间分类器CTC为训练准则对模型进行训练,得到训练后的CTC声学模型;结合训练后的CTC声学模型对中英文混合语言进行语音识别。本实施例中,采用包括中文词典和经过中式英语修正的英文词典的中英文混合词典进行训练,其中英文单词覆盖全面且能识别中式英文,结合CTC声学模型的使用进一步提高了中英文混合语言识别的准确度。

Description

基于中英文混合词典的语音识别方法及装置
技术领域
本发明涉及语音识别技术领域,尤其涉及一种基于中英文混合词典的语音识别方法及装置。
背景技术
目前,随着生活的全球化,使用混合语言交流的现象已经成为一种普遍现象。据统计,讲多语言的人要多于讲单语言的人。混合语言之间的声学和语言之间的复杂性给语音识别带来挑战。因此,混合语言声学模型的研究是一个重要的研究方向。
混合语音识别技术是指利用中英文混合词典,对混合语言声学模型进行训练,得到语音识别模型。目前,中英文混合词典的获取方式是,获取包括声韵母标注的音素集的中文词典,将一些英文按照声韵母标注的方式加入到中文词典中,形成中英文混合词典。其中,英文单词标注覆盖不全面,采用人工标注,费时费力。混合语言声学模型为深度神经网络(Deep Neural Networks,DNN)DNN,卷积神经网络(deep convolutional neuralnetworks,CNN),时间递归神经网络(Long Short-Term Memory,LSTM)声学模型等,准确度不够高。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种基于中英文混合词典的语音识别方法,用于解决现有技术中语音识别准确度低的问题。
本发明的第二个目的在于提出一种基于中英文混合词典的语音识别装置。
本发明的第三个目的在于提出另一种基于中英文混合词典的语音识别装置。
本发明的第四个目的在于提出一种非临时性计算机可读存储介质。
本发明的第五个目的在于提出一种计算机程序产品。
为达上述目的,本发明第一方面实施例提出了一种基于中英文混合词典的语音识别方法,包括:
获取国际音标IPA标注的中英文混合词典,所述中英文混合词典包括:中文词典和经过中式英语修正的英文词典;
将所述中英文混合词典作为训练词典,以一层卷积神经网络CNN加上五层时间递归神经网络LSTM为模型,以国际音标的状态为目标,以联结主义时间分类器CTC为训练准则对所述模型进行训练,得到训练后的CTC声学模型;
结合训练后的CTC声学模型对中英文混合语言进行语音识别。
本发明实施例的基于中英文混合词典的语音识别方法,通过获取国际音标IPA标注的中英文混合词典,中英文混合词典包括:中文词典和经过中式英语修正的英文词典;将中英文混合词典作为训练词典,以一层卷积神经网络CNN加上五层时间递归神经网络LSTM为模型,以国际音标的状态为目标,以联结主义时间分类器CTC为训练准则对所述模型进行训练,得到训练后的CTC声学模型;结合训练后的CTC声学模型对中英文混合语言进行语音识别。本实施例中,采用包括中文词典和经过中式英语修正的英文词典的中英文混合词典进行训练,其中英文单词覆盖全面且能识别中式英文,结合CTC声学模型的使用进一步提高了中英文混合语言识别的准确度。
为达上述目的,本发明第二方面实施例提出了一种基于中英文混合词典的语音识别装置,包括:
获取模块,用于获取国际音标IPA标注的中英文混合词典,所述中英文混合词典包括:中文词典和经过中式英语修正的英文词典;
训练模块,用于将所述中英文混合词典作为训练词典,以一层卷积神经网络CNN加上五层时间递归神经网络LSTM为模型,以国际音标的状态为目标,以联结主义时间分类器CTC为训练准则对所述模型进行训练,得到训练后的CTC声学模型;
语音识别模块,用于结合训练后的CTC声学模型对中英文混合语言进行语音识别。
本发明实施例的基于中英文混合词典的语音识别装置,通过获取国际音标IPA标注的中英文混合词典,中英文混合词典包括:中文词典和经过中式英语修正的英文词典;将中英文混合词典作为训练词典,以一层卷积神经网络CNN加上五层时间递归神经网络LSTM为模型,以国际音标的状态为目标,以联结主义时间分类器CTC为训练准则对所述模型进行训练,得到训练后的CTC声学模型;结合训练后的CTC声学模型对中英文混合语言进行语音识别。本实施例中,采用包括中文词典和经过中式英语修正的英文词典的中英文混合词典进行训练,其中英文单词覆盖全面且能识别中式英文,结合CTC声学模型的使用进一步提高了中英文混合语言识别的准确度。
为达上述目的,本发明第三方面实施例提出了另一种基于中英文混合词典的语音识别装置,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为:
获取国际音标IPA标注的中英文混合词典,所述中英文混合词典包括:中文词典和经过中式英语修正的英文词典;
将所述中英文混合词典作为训练词典,以一层卷积神经网络CNN加上五层时间递归神经网络LSTM为模型,以国际音标的状态为目标,以联结主义时间分类器CTC为训练准则对所述模型进行训练,得到训练后的CTC声学模型;
结合训练后的CTC声学模型对中英文混合语言进行语音识别。
为了实现上述目的,本发明第四方面实施例提出了一种非临时性计算机可读存储介质,当所述存储介质中的指令由服务器端的处理器被执行时,使得服务器端能够执行一种基于中英文混合词典的语音识别方法,所述方法包括:
获取国际音标IPA标注的中英文混合词典,所述中英文混合词典包括:中文词典和经过中式英语修正的英文词典;
将所述中英文混合词典作为训练词典,以一层卷积神经网络CNN加上五层时间递归神经网络LSTM为模型,以国际音标的状态为目标,以联结主义时间分类器CTC为训练准则对所述模型进行训练,得到训练后的CTC声学模型;
结合训练后的CTC声学模型对中英文混合语言进行语音识别。
为了实现上述目的,本发明第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,执行一种基于中英文混合词典的语音识别方法,所述方法包括:
获取国际音标IPA标注的中英文混合词典,所述中英文混合词典包括:中文词典和经过中式英语修正的英文词典;
将所述中英文混合词典作为训练词典,以一层卷积神经网络CNN加上五层时间递归神经网络LSTM为模型,以国际音标的状态为目标,以联结主义时间分类器CTC为训练准则对所述模型进行训练,得到训练后的CTC声学模型;
结合训练后的CTC声学模型对中英文混合语言进行语音识别。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例提供的一种基于中英文混合词典的语音识别方法的流程示意图;
图2为本发明实施例提供的另一种基于中英文混合词典的语音识别方法的流程示意图;
图3为本发明实施例提供的另一种基于中英文混合词典的语音识别方法的流程示意图;
图4为本发明实施例提供的一种基于中英文混合词典的语音识别装置的结构示意图;
图5为本发明实施例提供的另一种基于中英文混合词典的语音识别装置的结构示意图;
图6为本发明实施例提供的另一种基于中英文混合词典的语音识别装置的结构示意图;
图7为本发明实施例提供的另一种基于中英文混合词典的语音识别装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的基于中英文混合词典的语音识别方法及装置。
图1为本发明实施例提供的一种基于中英文混合词典的语音识别方法的流程示意图。如图1所示,该基于中英文混合词典的语音识别方法包括以下步骤:
S101、获取国际音标IPA标注的中英文混合词典,中英文混合词典包括:中文词典和经过中式英语修正的英文词典。
本实施例中,中文词典可以为常用的新华词典等等词典,上述词典中包括各个汉字、各个汉字对应的国际音标。经过中式英语修正前的英文词典可以为卡内基梅隆大学CMU发音词典。其中,部分中文和英文的音素可以是共享的。音标是记录音素的符号,是音素的标写符号,它的制定原则是:一个音素只用一个音标表示,一个音标只表示一个音素。因此部分中文和英文的音标可以是共享的。
S102、将中英文混合词典作为训练词典,以一层卷积神经网络CNN加上五层时间递归神经网络LSTM为模型,以国际音标的状态为目标,以联结主义时间分类器CTC为训练准则对所述模型进行训练,得到训练后的CTC声学模型。
具体地,在S102中,基于中英文混合词典的语音识别装置具体可以先采用滤波器组(filter bank,FBANK)提取中式英语句子中的特征点,以一层卷积神经网络(Convolutional Neural Network,CNN)加上五层时间递归神经网络(Long Short-TermMemory,LSTM)为模型,以中式英语句子对应的对齐文件为目标,以交叉熵(Cross entropy,CE)为训练准则,对模型进行训练,得到初始模型;然后将中英文混合词典作为训练词典,以初始模型为模型,以音节或词为目标,以联结主义时间分类器(Connectionist temporalclassification,CTC)为训练准则对初始模型进行训练,得到训练后的CTC声学模型。
本实施例中,对一层卷积神经网络CNN加上五层时间递归神经网络LSTM形成的模型进行预训练,是为了使该模型更快更好的收敛,从而进一步提高中英文混合语言识别的准确度。
具体地,中式英语句子对应的对齐文件的获取方式为,采用39维梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)提取中式英语句子中的特征点,训练基于纯中文和中式英文数据的高斯混合模型(Gaussian Mixture Model,GMM),得到中式英语句子对应的对齐文件。39维MFCC特征是通过13维MFCC特征加上二阶差分得到的。
S103、结合训练后的CTC声学模型对中英文混合语言进行语音识别。
其中,基于中英文混合词典的语音识别装置结合训练后的CTC声学模型对中英文混合语言进行语音识别的过程具体可以为,获取待识别的音频数据,将待识别的音频数据输入CTC声学模型,则得到待识别的音频数据对应的包括汉字和/或英文单词的句子。
本实施例提供的基于中英文混合词典的语音识别方法,通过获取国际音标IPA标注的中英文混合词典,中英文混合词典包括:中文词典和经过中式英语修正的英文词典;将中英文混合词典作为训练词典,以一层卷积神经网络CNN加上五层时间递归神经网络LSTM为模型,以国际音标的状态为目标,以联结主义时间分类器CTC为训练准则对所述模型进行训练,得到训练后的CTC声学模型;结合训练后的CTC声学模型对中英文混合语言进行语音识别。本实施例中,采用包括中文词典和经过中式英语修正的英文词典的中英文混合词典进行训练,其中英文单词覆盖全面且能识别中式英文,结合CTC声学模型的使用进一步提高了中英文混合语言识别的准确度。
图2为本发明实施例提供的另一种基于中英文混合词典的语音识别方法的流程示意图。如图2所示,该基于中英文混合词典的语音识别方法包括以下步骤:
S201、获取国际音标IPA标注的中文词典以及IPA标注的英文词典。
其中,国际音标的状态可以指国际音标的起始、结束、音调变化等状态。
S202、获取音频训练数据,音频训练数据中包括:多个中式英语句子。
本实施例中,中式英语句子指的是既包括汉字又包括英文单词的句子,例如“google一下这个关键词”、“这种食物相当good”、“你很nice”等等。
S203、获取中式英语句子中的英文单词以及英文单词对应的中式发音;中式发音中包括:至少一个音标。
其中,基于中英文混合词典的语音识别装置可以获取到与音频训练数据对应的文字数据,将音频训练数据以及与音频训练数据对应的文字数据提供给用户或者其他设备等进行分析,得到中式英语句子中的英文单词以及英文单词对应的中式发音。
S204、将英文单词以及英文单词对应的中式发音添加到英文词典中,得到经过中式英语修正的英文词典。
本实施例中,经过中式英语修正的英文词典中,每个英文单词可以对应多个发音,例如,英文单词可以对应一个标准发音、对应一个美式发音、对应一个或者多个中式发音等。
S205、将中英文混合词典作为训练词典,以一层卷积神经网络CNN加上五层时间递归神经网络LSTM为模型,以国际音标的状态为目标,以联结主义时间分类器CTC为训练准则对所述模型进行训练,得到训练后的CTC声学模型。
其中,中英文混合词典包括:中文词典和经过中式英语修正的英文词典。
本实施例中模型的具体训练过程可以参考图1所示实施例中模型的训练过程,此处不再进行详细描述。
S206、结合训练后的CTC声学模型对中英文混合语言进行语音识别。
本实施例提供的基于中英文混合词典的语音识别方法,通过获取国际音标IPA标注的中文词典以及IPA标注的英文词典;获取音频训练数据,音频训练数据中包括:多个中式英语句子;获取中式英语句子中的英文单词以及英文单词对应的中式发音;将英文单词以及英文单词对应的中式发音添加到英文词典中,得到经过中式英语修正的英文词典;将中文词典和经过中式英语修正的英文词典进行合并,得到国际音标IPA标注的中英文混合词典;将中英文混合词典作为训练词典,以一层卷积神经网络CNN加上五层时间递归神经网络LSTM为模型,以国际音标的状态为目标,以联结主义时间分类器CTC为训练准则对所述模型进行训练,得到训练后的CTC声学模型;结合训练后的CTC声学模型对中英文混合语言进行语音识别。本实施例中,采用包括中文词典和经过中式英语修正的英文词典的中英文混合词典进行训练,其中英文单词覆盖全面且能识别中式英文,结合CTC声学模型的使用进一步提高了中英文混合语言识别的准确度。
图3为本发明实施例提供的另一种基于中英文混合词典的语音识别方法的流程示意图。该基于中英文混合词典的语音识别方法包括以下步骤:
S301、获取国际音标IPA标注的中文词典以及IPA标注的英文词典。
S302、获取音频训练数据,音频训练数据中包括:多个中式英语句子。
S303、结合IPA标注的英文词典对中式英语句子进行音素解码以及对齐文件切分,得到中式英语句子中的英文单词以及英文单词对应的中式发音;中式发音中包括:至少一个音标。
其中,基于中英文混合词典的语音识别装置执行步骤303的过程可以为,结合IPA标注的英文词典对中式英语句子进行音素解码,找到解码中的最优路径,获取中式英语句子中音素对应的帧位置;获取中式英语句子对应的对齐文件,对齐文件中包括:中式英语句子中每个音素的位置,以及英文单词所对应的音素;结合对齐文件以及中式英语句子中音素对应的帧位置,确定中式英语句子中每个英文单词的位置,进行切分,得到中式英语句子中的英文单词以及英文单词对应的中式发音。
S304、结合所述中式英语句子中的英文单词、英文单词对应的中式发音以及IPA标注的英文词典,生成经过中式英语修正的英文词典。
进一步地,为了保证添加到英文词典中的英文单词及其中式发音的准确度,S304之前,所述的基于中英文混合词典的语音识别方法还可以包括:针对中式英语句子中的每个英文单词,获取英文单词中每个音素的词频;获取对应的词频大于预设词频的高频音素以及包括高频音素的高频英文单词。
对应的,S304具体可以为,结合中式英语句子中的高频英文单词、高频英文单词对应的中式发音以及IPA标注的英文词典,生成经过中式英语修正的英文词典。
另外,还需要进行说明的是,为了保证添加到英文词典中的英文单词及其中式发音的准确度,S304之前,所述的基于中英文混合词典的语音识别方法还可以包括:针对中式英语句子中的每个英文单词,获取英文单词的各种发音的数量,将发音数量与英文单词数量的比值超过预设比值的发音确定为高频发音,将高频发音以及对应的英文单词添加到英文词典中,得到经过中式英语修正的英文词典。
进一步地,为了保证音频训练数据中的英文单词及其中式发音尽可能多的添加到英文词典中,在S304之后,所述的基于中英文混合词典的语音识别方法还可以包括:结合经过中式英语修正的英文词典对中式英语句子进行音素解码以及对齐文件切分,得到中式英语句子中的英文单词以及英文单词对应的中式发音;结合中式英语句子中的英文单词、英文单词对应的中式发音以及经过中式英语修正的英文词典,更新经过中式英语修正的英文词典。另外,为了进一步保证音频训练数据中的英文单词及其中式发音尽可能多的添加到英文词典中,可以重复执行上述过程。
S305、将中英文混合词典作为训练词典,以一层卷积神经网络CNN加上五层时间递归神经网络LSTM为模型,以国际音标的状态为目标,以联结主义时间分类器CTC为训练准则对所述模型进行训练,得到训练后的CTC声学模型。
本实施例中模型的具体训练过程可以参考图1所示实施例中模型的训练过程,此处不再进行详细描述。
S306、结合训练后的CTC声学模型对中英文混合语言进行语音识别。
本实施例中,采用包括中文词典和经过中式英语修正的英文词典的中英文混合词典进行训练,其中英文单词覆盖全面且能识别中式英文,结合CTC声学模型的使用进一步提高了中英文混合语言识别的准确度。同时,对中式英语句子的解码以及切分,能够尽可能多的将中式英语句子中的英文单词及其中式发音提取出来添加到英文词典中,从而更进一步地提高了中英文混合语言识别的准确度。
图4为本发明实施例提供的一种基于中英文混合词典的语音识别装置的结构示意图。如图4所示,该基于中英文混合词典的语音识别装置包括:获取模块41、训练模块42和语音识别模块43。
其中,获取模块41,用于获取国际音标IPA标注的中英文混合词典,中英文混合词典包括:中文词典和经过中式英语修正的英文词典;
训练模块42,用于将中英文混合词典作为训练词典,以一层卷积神经网络CNN加上五层时间递归神经网络LSTM为模型,以国际音标的状态为目标,以联结主义时间分类器CTC为训练准则对所述模型进行训练,得到训练后的CTC声学模型;
语音识别模块43,用于结合训练后的CTC声学模型对中英文混合语言进行语音识别。
本实施例中,中文词典可以为常用的新华词典等等词典,上述词典中包括各个汉字、各个汉字对应的国际音标。经过中式英语修正前的英文词典可以为卡内基梅隆大学CMU发音词典。其中,部分中文和英文的音素可以是共享的。音标是记录音素的符号,是音素的标写符号,它的制定原则是:一个音素只用一个音标表示,一个音标只表示一个音素。因此部分中文和英文的音标可以是共享的。
进一步地,所述训练模块42包括:第一训练单元和第二训练单元。
其中,第一训练单元,用于采用滤波器组FBANK提取中式英语句子中的特征点,以一层卷积神经网络CNN加上五层时间递归神经网络LSTM为模型,以中式英语句子对应的对齐文件为目标,以交叉熵CE为训练准则,对所述模型进行训练,得到初始模型;
第二训练单元,用于将所述中英文混合词典作为训练词典,以所述初始模型为模型,以国际音标的状态为目标,以联结主义时间分类器CTC为训练准则对所述初始模型进行训练,得到训练后的CTC声学模型。
本实施例中,对一层卷积神经网络CNN加上五层时间递归神经网络LSTM形成的模型进行预训练,是为了使该模型更快更好的收敛,从而进一步提高中英文混合语言识别的准确度。
具体地,中式英语句子对应的对齐文件的获取方式为,采用39维梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)提取中式英语句子中的特征点,训练基于纯中文和中式英文数据的高斯混合模型(Gaussian Mixture Model,GMM),得到中式英语句子对应的对齐文件。39维MFCC特征是通过13维MFCC特征加上二阶差分得到的。
本实施例提供的基于中英文混合词典的语音识别装置,通过获取国际音标IPA标注的中英文混合词典,中英文混合词典包括:中文词典和经过中式英语修正的英文词典;将中英文混合词典作为训练词典,以一层卷积神经网络CNN加上五层时间递归神经网络LSTM为模型,以国际音标的状态为目标,以联结主义时间分类器CTC为训练准则对所述模型进行训练,得到训练后的CTC声学模型;结合训练后的CTC声学模型对中英文混合语言进行语音识别。本实施例中,采用包括中文词典和经过中式英语修正的英文词典的中英文混合词典进行训练,其中英文单词覆盖全面且能识别中式英文,结合CTC声学模型的使用进一步提高了中英文混合语言识别的准确度。
图5为本发明实施例提供的另一种基于中英文混合词典的语音识别装置的结构示意图,如图5所示,在图4所示实施例的基础上,所述获取模块41包括:第一获取单元411、第二获取单元412、第三获取单元413和添加单元414;
其中,第一获取单元411,用于获取国际音标IPA标注的中文词典以及IPA标注的英文词典;
第二获取单元412,用于获取音频训练数据,所述音频训练数据中包括:多个中式英语句子;
第三获取单元413,用于获取所述中式英语句子中的英文单词以及英文单词对应的中式发音;中式发音中包括:至少一个音标;
添加单元414,用于将所述英文单词以及英文单词对应的中式发音添加到所述英文词典中,得到经过中式英语修正的英文词典。
本实施例中,经过中式英语修正的英文词典中,每个英文单词可以对应多个发音,例如,英文单词可以对应一个标准发音、对应一个美式发音、对应一个或者多个中式发音等。
图6为本发明实施例提供的另一种基于中英文混合词典的语音识别装置的结构示意图,如图6所示,在图4所示实施例的基础上,所述获取模块41包括:第四获取单元415、第五获取单元416、解码以及切分单元417和生成单元418。
其中,第四获取单元415,用于获取国际音标IPA标注的中文词典以及IPA标注的英文词典;
第五获取单元416,用于获取音频训练数据,所述音频训练数据中包括:多个中式英语句子;
解码以及切分单元417,用于结合IPA标注的英文词典对所述中式英语句子进行音素解码以及对齐文件切分,得到所述中式英语句子中的英文单词以及英文单词对应的中式发音;中式发音中包括:至少一个音标;
生成单元418,用于结合所述中式英语句子中的英文单词、英文单词对应的中式发音以及IPA标注的英文词典,生成经过中式英语修正的英文词典。
具体地,所述解码以及切分单元417可以包括:解码子单元、第一获取子单元和切分子单元。
其中,解码子单元,用于结合IPA标注的英文词典对所述中式英语句子进行音素解码,找到解码中的最优路径,获取所述中式英语句子中音素对应的帧位置;
第一获取子单元,用于获取所述中式英语句子对应的对齐文件,所述对齐文件中包括:中式英语句子中每个音素的位置,以及英文单词所对应的音素;
切分子单元,用于结合所述对齐文件以及所述中式英语句子中音素对应的帧位置,确定所述中式英语句子中每个英文单词的位置,进行切分,得到所述中式英语句子中的英文单词以及英文单词对应的中式发音。
进一步地,为了保证添加到英文词典中的英文单词及其中式发音的准确度,所述解码以及切分单元417,还包括:第二获取子单元和第三获取子单元。
其中,第二获取子单元,用于针对所述中式英语句子中的每个英文单词,获取所述英文单词中每个音素的词频;
第三获取子单元,用于获取对应的词频大于预设词频的高频音素以及包括所述高频音素的高频英文单词;
对应的,生成单元418具体用于,结合所述中式英语句子中的高频英文单词、高频英文单词对应的中式发音以及IPA标注的英文词典,生成经过中式英语修正的英文词典。
另外,还需要进行说明的是,为了保证添加到英文词典中的英文单词及其中式发音的准确度,解码以及切分单元417具体可以用于,针对中式英语句子中的每个英文单词,获取英文单词的各种发音的数量,将发音数量与英文单词数量的比值超过预设比值的发音确定为高频发音,以便将高频发音以及对应的英文单词添加到英文词典中,得到经过中式英语修正的英文词典。
更进一步地,为了保证音频训练数据中的英文单词及其中式发音尽可能多的添加到英文词典中,所述获取模块41还包括:重新解码以及切分单元和更新单元。
其中,重新解码以及切分单元,用于结合经过中式英语修正的英文词典对所述中式英语句子进行音素解码以及对齐文件切分,得到所述中式英语句子中的英文单词以及英文单词对应的中式发音;
更新单元,用于结合所述中式英语句子中的英文单词、英文单词对应的中式发音以及经过中式英语修正的英文词典,更新所述经过中式英语修正的英文词典。
另外,为了进一步保证音频训练数据中的英文单词及其中式发音尽可能多的添加到英文词典中,可以重复执行重新解码以及切分单元以及更新单元。
本实施例中,采用包括中文词典和经过中式英语修正的英文词典的中英文混合词典进行训练,其中英文单词覆盖全面且能识别中式英文,结合CTC声学模型的使用进一步提高了中英文混合语言识别的准确度。同时,对中式英语句子的解码以及切分,能够尽可能多的将中式英语句子中的英文单词及其中式发音提取出来添加到英文词典中,从而更进一步地提高了中英文混合语言识别的准确度。
图7为本发明实施例提供的另一种基于中英文混合词典的语音识别装置的结构示意图。该基于中英文混合词典的语音识别装置包括:
存储器71、处理器72及存储在存储器71上并可在处理器72上运行的计算机程序。
处理器72执行所述程序时实现上述实施例中提供的基于中英文混合词典的语音识别方法。
进一步地,基于中英文混合词典的语音识别装置还包括:
通信接口73,用于存储器71和处理器72之间的通信。
存储器71,用于存放可在处理器72上运行的计算机程序。
存储器71可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
处理器72,用于执行所述程序时实现上述实施例所述的基于中英文混合词典的语音识别方法。
如果存储器71、处理器72和通信接口73独立实现,则通信接口73、存储器71和处理器72可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(Industry Standard Architecture,简称为ISA)总线、外部设备互连(PeripheralComponent,简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture,简称为EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器71、处理器72及通信接口73,集成在一块芯片上实现,则存储器71、处理器72及通信接口73可以通过内部接口完成相互间的通信。
处理器72可能是一个中央处理器(Central Processing Unit,简称为CPU),或者是特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者是被配置成实施本发明实施例的一个或多个集成电路。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (16)

1.一种基于中英文混合词典的语音识别方法,其特征在于,包括:
获取国际音标IPA标注的中英文混合词典,所述中英文混合词典包括:中文词典和经过中式英语修正的英文词典;
将所述中英文混合词典作为训练词典,以一层卷积神经网络CNN加上五层时间递归神经网络LSTM为模型,以国际音标的状态为目标,以联结主义时间分类器CTC为训练准则对所述模型进行训练,得到训练后的CTC声学模型;
结合训练后的CTC声学模型对中英文混合语言进行语音识别。
2.根据权利要求1所述的方法,其特征在于,所述获取国际音标IPA标注的中英文混合词典,包括:
获取国际音标IPA标注的中文词典以及IPA标注的英文词典;
获取音频训练数据,所述音频训练数据中包括:多个中式英语句子;
获取所述中式英语句子中的英文单词以及英文单词对应的中式发音;所述中式发音中包括:至少一个音标;
将所述英文单词以及英文单词对应的中式发音添加到所述英文词典中,得到经过中式英语修正的英文词典。
3.根据权利要求1所述的方法,其特征在于,所述获取国际音标IPA标注的中英文混合词典,包括:
获取国际音标IPA标注的中文词典以及IPA标注的英文词典;
获取音频训练数据,所述音频训练数据中包括:多个中式英语句子;
结合IPA标注的英文词典对所述中式英语句子进行音素解码以及对齐文件切分,得到所述中式英语句子中的英文单词以及英文单词对应的中式发音;所述中式发音中包括:至少一个音标;
结合所述中式英语句子中的英文单词、英文单词对应的中式发音以及IPA标注的英文词典,生成经过中式英语修正的英文词典。
4.根据权利要求3所述的方法,其特征在于,所述结合IPA标注的英文词典对所述中式英语句子进行音素解码以及对齐文件切分,得到所述中式英语句子中的英文单词以及英文单词对应的中式发音,包括:
结合IPA标注的英文词典对所述中式英语句子进行音素解码,找到解码中的最优路径,获取所述中式英语句子中音素对应的帧位置;
获取所述中式英语句子对应的对齐文件,所述对齐文件中包括:中式英语句子中每个音素的位置,以及英文单词所对应的音素;
结合所述对齐文件以及所述中式英语句子中音素对应的帧位置,确定所述中式英语句子中每个英文单词的位置,进行切分,得到所述中式英语句子中的英文单词以及英文单词对应的中式发音。
5.根据权利要求3或4所述的方法,其特征在于,结合所述中式英语句子中的英文单词、英文单词对应的中式发音以及IPA标注的英文词典,生成经过中式英语修正的英文词典之前,还包括:
针对所述中式英语句子中的每个英文单词,获取所述英文单词中每个音素的词频;
获取对应的词频大于预设词频的高频音素以及包括所述高频音素的高频英文单词;
结合所述中式英语句子中的英文单词、英文单词对应的中式发音以及IPA标注的英文词典,生成经过中式英语修正的英文词典,包括:
结合所述中式英语句子中的高频英文单词、高频英文单词对应的中式发音以及IPA标注的英文词典,生成经过中式英语修正的英文词典。
6.根据权利要求3所述的方法,其特征在于,所述结合所述中式英语句子中的英文单词、英文单词对应的中式发音以及IPA标注的英文词典,生成经过中式英语修正的英文词典之后,还包括:
结合经过中式英语修正的英文词典对所述中式英语句子进行音素解码以及对齐文件切分,得到所述中式英语句子中的英文单词以及英文单词对应的中式发音;
结合所述中式英语句子中的英文单词、英文单词对应的中式发音以及经过中式英语修正的英文词典,更新所述经过中式英语修正的英文词典。
7.根据权利要求1所述的方法,其特征在于,所述将所述中英文混合词典作为训练词典,以一层卷积神经网络CNN加上五层时间递归神经网络LSTM为模型,以国际音标的状态为目标,以联结主义时间分类器CTC为训练准则对所述模型进行训练,得到训练后的CTC声学模型,包括:
采用滤波器组FBANK提取中式英语句子中的特征点,以一层卷积神经网络CNN加上五层时间递归神经网络LSTM为模型,以中式英语句子对应的对齐文件为目标,以交叉熵CE为训练准则,对所述模型进行训练,得到初始模型;
将所述中英文混合词典作为训练词典,以所述初始模型为模型,以国际音标的状态为目标,以联结主义时间分类器CTC为训练准则对所述初始模型进行训练,得到训练后的CTC声学模型。
8.一种基于中英文混合词典的语音识别装置,其特征在于,包括:
获取模块,用于获取国际音标IPA标注的中英文混合词典,所述中英文混合词典包括:中文词典和经过中式英语修正的英文词典;
训练模块,用于将所述中英文混合词典作为训练词典,以一层卷积神经网络CNN加上五层时间递归神经网络LSTM为模型,以国际音标的状态为目标,以联结主义时间分类器CTC为训练准则对所述模型进行训练,得到训练后的CTC声学模型;
语音识别模块,用于结合训练后的CTC声学模型对中英文混合语言进行语音识别。
9.根据权利要求8所述的装置,其特征在于,所述获取模块包括:
第一获取单元,用于获取国际音标IPA标注的中文词典以及IPA标注的英文词典;
第二获取单元,用于获取音频训练数据,所述音频训练数据中包括:多个中式英语句子;
第三获取单元,用于获取所述中式英语句子中的英文单词以及英文单词对应的中式发音;所述中式发音中包括:至少一个音标;
添加单元,用于将所述英文单词以及英文单词对应的中式发音添加到所述英文词典中,得到经过中式英语修正的英文词典。
10.根据权利要求8所述的装置,其特征在于,所述获取模块包括:
第四获取单元,用于获取国际音标IPA标注的中文词典以及IPA标注的英文词典;
第五获取单元,用于获取音频训练数据,所述音频训练数据中包括:多个中式英语句子;
解码以及切分单元,用于结合IPA标注的英文词典对所述中式英语句子进行音素解码以及对齐文件切分,得到所述中式英语句子中的英文单词以及英文单词对应的中式发音;所述中式发音中包括:至少一个音标;
生成单元,用于结合所述中式英语句子中的英文单词、英文单词对应的中式发音以及IPA标注的英文词典,生成经过中式英语修正的英文词典。
11.根据权利要求10所述的装置,其特征在于,所述解码以及切分单元包括:
解码子单元,用于结合IPA标注的英文词典对所述中式英语句子进行音素解码,找到解码中的最优路径,获取所述中式英语句子中音素对应的帧位置;
第一获取子单元,用于获取所述中式英语句子对应的对齐文件,所述对齐文件中包括:中式英语句子中每个音素的位置,以及英文单词所对应的音素;
切分子单元,用于结合所述对齐文件以及所述中式英语句子中音素对应的帧位置,确定所述中式英语句子中每个英文单词的位置,进行切分,得到所述中式英语句子中的英文单词以及英文单词对应的中式发音。
12.根据权利要求10或11所述的装置,其特征在于,所述解码以及切分单元,还包括:
第二获取子单元,用于针对所述中式英语句子中的每个英文单词,获取所述英文单词中每个音素的词频;
第三获取子单元,用于获取对应的词频大于预设词频的高频音素以及包括所述高频音素的高频英文单词;
对应的,生成单元具体用于,结合所述中式英语句子中的高频英文单词、高频英文单词对应的中式发音以及IPA标注的英文词典,生成经过中式英语修正的英文词典。
13.根据权利要求10所述的装置,其特征在于,所述获取模块还包括:
重新解码以及切分单元,用于结合经过中式英语修正的英文词典对所述中式英语句子进行音素解码以及对齐文件切分,得到所述中式英语句子中的英文单词以及英文单词对应的中式发音;
更新单元,用于结合所述中式英语句子中的英文单词、英文单词对应的中式发音以及经过中式英语修正的英文词典,更新所述经过中式英语修正的英文词典。
14.根据权利要求8所述的装置,其特征在于,所述训练模块包括:
第一训练单元,用于采用滤波器组FBANK提取中式英语句子中的特征点,以一层卷积神经网络CNN加上五层时间递归神经网络LSTM为模型,以中式英语句子对应的对齐文件为目标,以交叉熵CE为训练准则,对所述模型进行训练,得到初始模型;
第二训练单元,用于将所述中英文混合词典作为训练词典,以所述初始模型为模型,以国际音标的状态为目标,以联结主义时间分类器CTC为训练准则对所述初始模型进行训练,得到训练后的CTC声学模型。
15.一种基于中英文混合词典的语音识别装置,其特征在于,包括:
存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一所述的基于中英文混合词典的语音识别方法。
16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的基于中英文混合词典的语音识别方法。
CN201710317337.9A 2017-05-04 2017-05-04 基于中英文混合词典的语音识别方法及装置 Active CN107195295B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710317337.9A CN107195295B (zh) 2017-05-04 2017-05-04 基于中英文混合词典的语音识别方法及装置
US15/859,796 US10586533B2 (en) 2017-05-04 2018-01-02 Method and device for recognizing speech based on Chinese-English mixed dictionary

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710317337.9A CN107195295B (zh) 2017-05-04 2017-05-04 基于中英文混合词典的语音识别方法及装置

Publications (2)

Publication Number Publication Date
CN107195295A true CN107195295A (zh) 2017-09-22
CN107195295B CN107195295B (zh) 2020-06-23

Family

ID=59874052

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710317337.9A Active CN107195295B (zh) 2017-05-04 2017-05-04 基于中英文混合词典的语音识别方法及装置

Country Status (2)

Country Link
US (1) US10586533B2 (zh)
CN (1) CN107195295B (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108053836A (zh) * 2018-01-18 2018-05-18 成都嗨翻屋文化传播有限公司 一种基于深度学习的音频自动化标注方法
CN109616103A (zh) * 2019-01-09 2019-04-12 百度在线网络技术(北京)有限公司 声学模型的训练方法、装置及存储介质
CN109918677A (zh) * 2019-03-21 2019-06-21 广东小天才科技有限公司 一种英文单词语义解析的方法及系统
CN110189748A (zh) * 2019-05-31 2019-08-30 百度在线网络技术(北京)有限公司 模型构建方法和装置
CN110223673A (zh) * 2019-06-21 2019-09-10 龙马智芯(珠海横琴)科技有限公司 语音的处理方法及装置、存储介质、电子设备
CN110534115A (zh) * 2019-10-14 2019-12-03 上海企创信息科技有限公司 多方言混合语音的识别方法、装置、系统和存储介质
CN110675854A (zh) * 2019-08-22 2020-01-10 厦门快商通科技股份有限公司 一种中英文混合语音识别方法及装置
CN110808035A (zh) * 2019-11-06 2020-02-18 百度在线网络技术(北京)有限公司 用于训练混合语言识别模型的方法和装置
CN111009235A (zh) * 2019-11-20 2020-04-14 武汉水象电子科技有限公司 一种基于cldnn+ctc声学模型的语音识别方法
WO2020083110A1 (zh) * 2018-10-25 2020-04-30 腾讯科技(深圳)有限公司 一种语音识别、及语音识别模型训练方法及装置
CN111369978A (zh) * 2018-12-26 2020-07-03 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
CN111402862A (zh) * 2020-02-28 2020-07-10 问问智能信息科技有限公司 语音识别方法、装置、存储介质及设备
CN111489742A (zh) * 2019-01-28 2020-08-04 北京猎户星空科技有限公司 声学模型训练方法、语音识别方法、装置及电子设备
CN111489735A (zh) * 2020-04-22 2020-08-04 北京声智科技有限公司 语音识别模型训练方法及装置
CN111916063A (zh) * 2020-06-01 2020-11-10 华南理工大学 基于bpe编码的序列化方法、训练方法、系统及存储介质
CN112071299A (zh) * 2020-09-09 2020-12-11 腾讯音乐娱乐科技(深圳)有限公司 神经网络模型训练方法、音频生成方法及装置和电子设备
CN112382278A (zh) * 2020-11-18 2021-02-19 北京百度网讯科技有限公司 流式语音识别结果显示方法、装置、电子设备和存储介质
CN113836305A (zh) * 2021-09-29 2021-12-24 有米科技股份有限公司 基于文本的行业类别识别方法及装置
CN115331658A (zh) * 2022-10-13 2022-11-11 山东商业职业技术学院 一种语音识别方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107301860B (zh) * 2017-05-04 2020-06-23 百度在线网络技术(北京)有限公司 基于中英文混合词典的语音识别方法及装置
US10629193B2 (en) * 2018-03-09 2020-04-21 Microsoft Technology Licensing, Llc Advancing word-based speech recognition processing
CN110675865B (zh) * 2019-11-06 2021-09-28 百度在线网络技术(北京)有限公司 用于训练混合语言识别模型的方法和装置
CN113362813B (zh) * 2021-06-30 2024-05-28 北京搜狗科技发展有限公司 一种语音识别方法、装置和电子设备
CN113299282B (zh) * 2021-07-23 2021-11-26 北京世纪好未来教育科技有限公司 一种语音识别方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101447184A (zh) * 2007-11-28 2009-06-03 中国科学院声学研究所 基于音素混淆的中英文双语语音识别方法
CN101826325A (zh) * 2010-03-10 2010-09-08 华为终端有限公司 对中英文语音信号进行识别的方法和装置
CN103400577A (zh) * 2013-08-01 2013-11-20 百度在线网络技术(北京)有限公司 多语种语音识别的声学模型建立方法和装置
KR101536328B1 (ko) * 2014-04-18 2015-07-15 세영정보통신(주) 듀얼밴드 무선 송수신기를 이용한 다국어 통역 및 학습 시스템
WO2016197381A1 (en) * 2015-06-12 2016-12-15 Sensetime Group Limited Methods and apparatus for recognizing text in an image
CN106297773A (zh) * 2015-05-29 2017-01-04 中国科学院声学研究所 一种神经网络声学模型训练方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004003887A2 (en) * 2002-06-28 2004-01-08 Conceptual Speech, Llc Multi-phoneme streamer and knowledge representation speech recognition system and method
US8296127B2 (en) * 2004-03-23 2012-10-23 University Of Southern California Discovery of parallel text portions in comparable collections of corpora and training using comparable texts
US8666725B2 (en) * 2004-04-16 2014-03-04 University Of Southern California Selection and use of nonstatistical translation components in a statistical machine translation framework
US8943080B2 (en) * 2006-04-07 2015-01-27 University Of Southern California Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections
US8694303B2 (en) * 2011-06-15 2014-04-08 Language Weaver, Inc. Systems and methods for tuning parameters in statistical machine translation
US9152622B2 (en) * 2012-11-26 2015-10-06 Language Weaver, Inc. Personalized machine translation via online adaptation
CN107301860B (zh) * 2017-05-04 2020-06-23 百度在线网络技术(北京)有限公司 基于中英文混合词典的语音识别方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101447184A (zh) * 2007-11-28 2009-06-03 中国科学院声学研究所 基于音素混淆的中英文双语语音识别方法
CN101826325A (zh) * 2010-03-10 2010-09-08 华为终端有限公司 对中英文语音信号进行识别的方法和装置
CN103400577A (zh) * 2013-08-01 2013-11-20 百度在线网络技术(北京)有限公司 多语种语音识别的声学模型建立方法和装置
KR101536328B1 (ko) * 2014-04-18 2015-07-15 세영정보통신(주) 듀얼밴드 무선 송수신기를 이용한 다국어 통역 및 학습 시스템
CN106297773A (zh) * 2015-05-29 2017-01-04 中国科学院声学研究所 一种神经网络声学模型训练方法
WO2016197381A1 (en) * 2015-06-12 2016-12-15 Sensetime Group Limited Methods and apparatus for recognizing text in an image

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
于胜民等: "汉英双语混合声学建模方法研究", 《中文信息学报》 *
张晴晴: "混合双语语音识别的研究", 《声学学报》 *
赵云峰等: "百度语音识别技术负责人李先刚:如何利用Deep CNN大幅提升识别准确率", 《CSDN博客》 *

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108053836A (zh) * 2018-01-18 2018-05-18 成都嗨翻屋文化传播有限公司 一种基于深度学习的音频自动化标注方法
CN108053836B (zh) * 2018-01-18 2021-03-23 成都嗨翻屋科技有限公司 一种基于深度学习的音频自动化标注方法
US11798531B2 (en) 2018-10-25 2023-10-24 Tencent Technology (Shenzhen) Company Limited Speech recognition method and apparatus, and method and apparatus for training speech recognition model
WO2020083110A1 (zh) * 2018-10-25 2020-04-30 腾讯科技(深圳)有限公司 一种语音识别、及语音识别模型训练方法及装置
CN111369978B (zh) * 2018-12-26 2024-05-17 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
CN111369978A (zh) * 2018-12-26 2020-07-03 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
CN109616103A (zh) * 2019-01-09 2019-04-12 百度在线网络技术(北京)有限公司 声学模型的训练方法、装置及存储介质
CN109616103B (zh) * 2019-01-09 2022-03-22 百度在线网络技术(北京)有限公司 声学模型的训练方法、装置及存储介质
CN111489742A (zh) * 2019-01-28 2020-08-04 北京猎户星空科技有限公司 声学模型训练方法、语音识别方法、装置及电子设备
CN109918677A (zh) * 2019-03-21 2019-06-21 广东小天才科技有限公司 一种英文单词语义解析的方法及系统
CN110189748A (zh) * 2019-05-31 2019-08-30 百度在线网络技术(北京)有限公司 模型构建方法和装置
CN110189748B (zh) * 2019-05-31 2021-06-11 百度在线网络技术(北京)有限公司 模型构建方法和装置
CN110223673B (zh) * 2019-06-21 2020-01-17 龙马智芯(珠海横琴)科技有限公司 语音的处理方法及装置、存储介质、电子设备
CN110223673A (zh) * 2019-06-21 2019-09-10 龙马智芯(珠海横琴)科技有限公司 语音的处理方法及装置、存储介质、电子设备
CN110675854A (zh) * 2019-08-22 2020-01-10 厦门快商通科技股份有限公司 一种中英文混合语音识别方法及装置
CN110675854B (zh) * 2019-08-22 2022-10-28 厦门快商通科技股份有限公司 一种中英文混合语音识别方法及装置
CN110534115A (zh) * 2019-10-14 2019-12-03 上海企创信息科技有限公司 多方言混合语音的识别方法、装置、系统和存储介质
CN110534115B (zh) * 2019-10-14 2021-11-26 上海企创信息科技有限公司 多方言混合语音的识别方法、装置、系统和存储介质
CN110808035A (zh) * 2019-11-06 2020-02-18 百度在线网络技术(北京)有限公司 用于训练混合语言识别模型的方法和装置
CN110808035B (zh) * 2019-11-06 2021-11-26 百度在线网络技术(北京)有限公司 用于训练混合语言识别模型的方法和装置
CN111009235A (zh) * 2019-11-20 2020-04-14 武汉水象电子科技有限公司 一种基于cldnn+ctc声学模型的语音识别方法
CN111402862B (zh) * 2020-02-28 2023-06-20 出门问问创新科技有限公司 语音识别方法、装置、存储介质及设备
CN111402862A (zh) * 2020-02-28 2020-07-10 问问智能信息科技有限公司 语音识别方法、装置、存储介质及设备
CN111489735A (zh) * 2020-04-22 2020-08-04 北京声智科技有限公司 语音识别模型训练方法及装置
CN111489735B (zh) * 2020-04-22 2023-05-16 北京声智科技有限公司 语音识别模型训练方法及装置
CN111916063A (zh) * 2020-06-01 2020-11-10 华南理工大学 基于bpe编码的序列化方法、训练方法、系统及存储介质
CN112071299A (zh) * 2020-09-09 2020-12-11 腾讯音乐娱乐科技(深圳)有限公司 神经网络模型训练方法、音频生成方法及装置和电子设备
CN112382278A (zh) * 2020-11-18 2021-02-19 北京百度网讯科技有限公司 流式语音识别结果显示方法、装置、电子设备和存储介质
CN112382278B (zh) * 2020-11-18 2021-08-17 北京百度网讯科技有限公司 流式语音识别结果显示方法、装置、电子设备和存储介质
CN113836305A (zh) * 2021-09-29 2021-12-24 有米科技股份有限公司 基于文本的行业类别识别方法及装置
CN113836305B (zh) * 2021-09-29 2024-03-22 有米科技股份有限公司 基于文本的行业类别识别方法及装置
CN115331658A (zh) * 2022-10-13 2022-11-11 山东商业职业技术学院 一种语音识别方法

Also Published As

Publication number Publication date
US10586533B2 (en) 2020-03-10
CN107195295B (zh) 2020-06-23
US20180322866A1 (en) 2018-11-08

Similar Documents

Publication Publication Date Title
CN107195295A (zh) 基于中英文混合词典的语音识别方法及装置
CN107301860A (zh) 基于中英文混合词典的语音识别方法及装置
CN105336322B (zh) 多音字模型训练方法、语音合成方法及装置
CN108510976B (zh) 一种多语言混合语音识别方法
CN108711420B (zh) 多语言混杂模型建立、数据获取方法及装置、电子设备
CN105529027B (zh) 语音识别方法和装置
CN104934028B (zh) 用于语音合成的深度神经网络模型的训练方法及装置
CN107039034B (zh) 一种韵律预测方法及系统
CN110264991A (zh) 语音合成模型的训练方法、语音合成方法、装置、设备及存储介质
CN105185372A (zh) 个性化多声学模型的训练方法、语音合成方法及装置
CN107679033A (zh) 文本断句位置识别方法和装置
CN104765996B (zh) 声纹密码认证方法及系统
CN104978963A (zh) 语音识别装置、方法以及电子设备
WO2018192186A1 (zh) 语音识别方法及装置
CN106057192A (zh) 一种实时语音转换方法和装置
CN112463942B (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN111816210B (zh) 一种语音评分的方法及装置
KR102094935B1 (ko) 음성 인식 시스템 및 방법
CN108932941A (zh) 语音识别方法、装置及计算机设备、存储介质及程序产品
CN110264992A (zh) 语音合成处理方法、装置、设备和存储介质
CN113035169B (zh) 一种可在线训练个性化音色库的语音合成方法和系统
CN106843523A (zh) 基于人工智能的文字输入方法和装置
Zheng et al. Improving Prosodic Boundaries Prediction for Mandarin Speech Synthesis by Using Enhanced Embedding Feature and Model Fusion Approach.
CN110415725A (zh) 使用第一语言数据评估第二语言发音质量的方法及系统
CN111951781A (zh) 一种基于图到序列的中文韵律边界预测的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant