CN106782560A - 确定目标识别文本的方法及装置 - Google Patents
确定目标识别文本的方法及装置 Download PDFInfo
- Publication number
- CN106782560A CN106782560A CN201710127503.9A CN201710127503A CN106782560A CN 106782560 A CN106782560 A CN 106782560A CN 201710127503 A CN201710127503 A CN 201710127503A CN 106782560 A CN106782560 A CN 106782560A
- Authority
- CN
- China
- Prior art keywords
- text
- identification
- determined
- identification text
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 239000000203 mixture Substances 0.000 claims abstract description 8
- 239000013598 vector Substances 0.000 claims description 35
- 239000003550 marker Substances 0.000 claims description 4
- 230000006870 function Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 239000000463 material Substances 0.000 description 4
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 235000013399 edible fruits Nutrition 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 235000021152 breakfast Nutrition 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 235000013305 food Nutrition 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007407 health benefit Effects 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 239000008267 milk Substances 0.000 description 1
- 210000004080 milk Anatomy 0.000 description 1
- 235000013336 milk Nutrition 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种确定目标识别文本的方法及装置,该方法包括:确定待识别语音数据对应的至少两个候选识别文本中的确定识别文本和待确定识别文本,其中,确定识别文本为至少两个候选识别文本中相同的部分,待确定识别文本为至少两个候选识别文本中不相同的部分;计算待确定识别文本与目标对比文本的对应位置的文本之间的相似度,目标对比文本为预设文本库中与候选识别文本的句型结构一致的文本,且目标对比文本包括确定识别文本;进而将相似度中的最大值对应的待确定识别文本与确定识别文本组成的候选识别文本,配置为目标识别文本;实现了从候选识别文本中进一步筛选目标识别文本,提高了目标识别文本的准确性。
Description
技术领域
本申请涉及语音识别技术,尤其涉及一种确定目标识别文本的方法及装置。
背景技术
随着语音控制技术的发展,目前越来越多的智能设备具备语音识别功能,示例的,具备语音控制功能的智能电视、智能冰箱、智能空调等和具备语音输入功能的智能手机智能电脑等。
目前的语音识别主要包含语音预处理、声学模型解码、发音词典解析、语言模型解码等过程,其中,语音预处理是将收到的语音信号进行简单的处理,得到语音的特征文件等;声学模型解码的输入是语音的特征文件,通过声学模型解码获取概率最高的音素文件;进而,通过查询发音词典,将音素信息转为成可能的文字组合,再通过语言模型的上下文关联信息,从文字组合中获取概率较高的文字组合信息作为候选识别结果。由于语言模型中语料来源较为广泛,候选识别结果无法保证识别结果的准确性,因此需要通过一些方法从中甄别出准确的识别结果。
但是,现有技术中并没有合适的甄选方法。
申请内容
本申请提供一种确定目标识别文本的方法及装置,用于在待识别语音数据的候选识别结果中甄选出准确的识别结果。
本申请第一方面提供一种从至少两个候选识别文本中确定目标识别文本的方法,包括:
确定待识别语音数据对应的至少两个候选识别文本中的确定识别文本和待确定识别文本,其中,所述确定识别文本为至少两个所述候选识别文本中相同的部分,所述待确定识别文本为至少两个所述候选识别文本中不相同的部分;
计算所述待确定识别文本与目标对比文本的对应位置的文本之间的相似度,其中,所述目标对比文本为预设文本库中与所述候选识别文本的句型结构一致的文本,且所述目标对比文本包括所述确定识别文本;
将所述相似度中的最大值对应的所述待确定识别文本与所述确定识别文本组成的所述候选识别文本,配置为目标识别文本。
本申请第二方面提供一种从候选识别文本中确定目标识别文本的装置,包括:
第一确定模块,用于确定待识别语音数据对应的至少两个候选识别文本中的确定识别文本和待确定识别文本,其中,所述确定识别文本为至少两个所述候选识别文本中相同的部分,所述待确定识别文本为至少两个所述候选识别文本中不相同的部分;
计算模块,用于计算所述待确定识别文本与目标对比文本的对应位置的文本之间的相似度,其中,所述目标对比文本为预设文本库中与所述候选识别文本的句型结构一致的文本,且所述目标对比文本包括所述确定识别文本;
第二确定模块,用于将所述相似度中的最大值对应的所述待确定识别文本与所述确定识别文本组成的所述候选识别文本,配置为目标识别文本。
本申请的有益效果如下:
本申请提供的确定目标识别文本的方法中,首先确定待识别语音数据对应的至少两个候选识别文本中的确定识别文本和待确定识别文本,然后针对待确定识别文本,计算待确定识别文本与目标对比文本的对应位置的文本之间的相似度,将相似度中的最大值对应的待确定识别文本确定为待识别语音数据对应的正确结果,进而将该待确定识别文本与确定识别文本组成的候选识别文本,配置为目标识别文本,实现了在获取到多个概率接近的候选识别文本时,根据与其句型结构一致的目标对比文本,进一步根据待确定识别文本与目标对比文本中对应位置的文本之间的相似度,确定出与用户输入的语音数据最接近的待确定识别文本,进而将该待确定识别文本和确定识别文本一起组成目标识别文本,反馈给用户,即通过参照目标对比文本,对多个概率接近的候选识别文本中的不同部分进一步甄选,提高了识别待识别语音数据的准确性,提高了语音识别的用户体验性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一实施例提供的从至少两个候选识别文本中确定目标识别文本的方法流程示意图;
图2为本申请另一实施例提供的从至少两个候选识别文本中确定目标识别文本的方法流程示意图;
图3为本申请一实施例提供的从至少两个候选识别文本中确定目标识别文本的装置结构示意图;
图4为本申请另一实施例提供的从至少两个候选识别文本中确定目标识别文本的装置结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在对本发明实施例进行详细地解释说明之前,先对本发明实施例的应用环境予以介绍。本发明实施例提供的用于显示语音输入控制指令的显示方法应用于终端,示例的,该终端可以是具有Android操作系统或IOS操作系统的智能电视、智能手机、平板电脑等,该终端还可以是具有Window操作系统或Ios操作系统的计算机、PDA(Personal DigitalAssistant,个人数字助理)等,本发明实施例对此不做具体限定。
本申请中提供一从至少两个候选识别文本中确定目标识别文本的方法,在语音识别获取多个识别结果的基础上,进一步在多个识别结果中分析选择最终的语音识别文本,以提高语音识别的准确性。
图1为本申请一实施例提供的从至少两个候选识别文本中确定目标识别文本的方法流程示意图,如图1所示,该方法包括:
S101、确定待识别语音数据对应的至少两个候选识别文本中的确定识别文本和待确定识别文本。
具体实现过程中,当用户输入待识别语音数据后,由于发音的接近或识别精度等原因,可能识别到多个语音识别文本。
例如用户说了一句“我想听高胜美的歌曲”,可能得到“我想听高盛美的歌曲”、“我想听高兴美的歌曲”、“我想听高胜美的歌曲”等多个语音识别文本。
从这多个语音识别文本中先确定候选识别文本,进一步甄选准确的识别结果。
候选识别文本由确定识别文本和待确定识别文本组成。其中,确定识别文本为至少两个候选识别文本中相同的部分,待确定识别文本为至少两个候选识别文本中不相同的部分。例如“我想听高兴美的歌曲”和“我想听高胜美的歌曲”中,“我想听”、“的歌曲”是确定识别文本,“高胜美”和“高兴美”是待确定识别文本。
即可以认为多个候选识别文本中相同的部分是准确的结果,而不相同的部分是需要进一步确定的待确定识别文本,也即待确定识别文本还需要进一步进行识别,以便得到更准确的结果。
S102、计算待确定识别文本与目标对比文本的对应位置的文本之间的相似度。
其中,目标对比文本为预设文本库中与候选识别文本的句型结构一致的文本,且目标对比文本包括上述确定识别文本。
预设文本库中可以包括大量预存的语句、词汇组合等,可以通过词义、词性(名词、动词)等,在预设文本库中匹配与候选识别文本句型一致的目标对比文本。例如“我想听高兴美的歌曲”可能匹配到目标对比文本“我想听周杰伦的歌曲”等。又例如“请给我一杯咖啡”可能匹配到目标对比文本“请给我一杯牛奶”。
举例说明,目标对比文本包括上述确定识别文本,即“我想听周杰伦的歌曲”包含确定识别文本“我想听”、“的歌曲”。
S103、将相似度中的最大值对应的待确定识别文本与确定识别文本组成的候选识别文本,配置为目标识别文本。
可选地,分别计算确定待确定识别文本与目标对比文本的对应位置的文本之间的相似度。例如分别确定“高盛美”与“周杰伦”之间的相似度、“高胜美”与“周杰伦”之间的相似度等。
若“高胜美”与“周杰伦”的相似度最大,那么将“我想听高胜美的歌曲”配置为目标识别文本。
其中,上述相似度可以指语义相似度,也可以是所属类型相似度、词性相似度等,在此不作限制。
本实施例中,首先确定待识别语音数据对应的至少两个候选识别文本中的确定识别文本和待确定识别文本,然后针对待确定识别文本,计算待确定识别文本与目标对比文本的对应位置的文本之间的相似度,将相似度中的最大值对应的待确定识别文本确定为待识别语音数据对应的正确结果,进而将该待确定识别文本与确定识别文本组成的候选识别文本,配置为目标识别文本,实现了在获取到多个概率接近的候选识别文本时,根据与其句型结构一致的目标对比文本,进一步根据待确定识别文本与目标对比文本中对应位置的文本之间的相似度,确定出与用户输入的语音数据最接近的待确定识别文本,进而将该待确定识别文本和确定识别文本一起组成目标识别文本,反馈给用户,即通过参照目标对比文本,对多个概率接近的候选识别文本中的不同部分进一步甄选,提高了识别待识别语音数据的准确性,提高了语音识别的用户体验性。
图2为本申请另一实施例提供的从候选识别文本中确定目标识别文本的方法流程示意图。如图2所示,在图1的基础上,在S101之前还包括:
S201、获取待识别语音数据对应的多个语音识别文本。
当用户输入一段语音后,终端根据预设语音识别解码器,可以得到多个结果,一般地,预设语音识别解码器可以包括一个或多个用于语音识别的模型,对待识别语音数据进行识别。由于语音信息中有些发音模糊或者本身同音、发音相近词汇较多,可能识别到多个语音识别文本。
具体地:获取到待识别语音数据后,可以先将待识别语音数据进行前端信号处理、端点检测处理等一些预处理后,逐帧提取语音特征,将提取好的特征送至预设语音识别解码器,预设语音识别解码器可以包括:声学模型、语言模型、以及发音词典等相关的解码模型,在解码器中结合声学模型、语言模型、以及发音词典,得到多个语音识别文本。
其中,声学模型主要描述发音模型下特征的似然概率,声学模型可以采用隐马尔科夫模型(HMM)。语言模型主要描述词间的连续出现概率,语言模型采用可以n-gram模型,对中文而言,我们称之为汉语语言模型(CLM,Chinese Language Model),其中可以包含大量的语料,这些语料可以是大量的句子、词汇等,可以根据前后词之间共现的统计概率来约束文字搜索的结果。发音词典主要是完成词和音之间的转换。具体转换时,声学模型解码是将声音信号的特征文件在声学模型搜索,产生最优的音素识别结果,其中音素可以标识字母。通过查询发音词典,将音素识别结果转化成文字。最后,语言模型解码的目标是从查询发音词典得到的文字组合中选取最有可能的文字组合结果,作为语音识别文本。
需要说明的是,对待识别语音数据识别得到其对应的语音识别文本的操作可以参考相关技术,本发明实施例对此不再进行一一赘述。
示例的,可以通过下述公式依次实现对待识别语音数据识别得到其对应的语音识别文本的操作。
W1=argmaxP(W|X) (1)
其中,在上述公式(1)中,W表示数据库中存储的任一文字序列,该文字序列包括词或字,该数据库可以是用于做语音识别的语料库;X表示用户输入的语音数据,W1表示从存储文字序列中获得的可与待识别语音数据匹配的文字序列,P(W|X)表示该待识别语音数据可以变成文字的概率。在上述公式(2)中,W2表示该待识别语音数据与该文字序列之间的匹配程度,P(X|W)表示该文字序列可以发音的概率,P(W)表示该文字序列为词或字的概率,P(X)表示待识别语音数据为音频信息的概率。
需要说明的是,在上述的识别过程中,可以通过语言模型确定P(W),通过声学模型确定P(X|W),从而完成对该待识别语音数据的语音识别,得到待识别语音数据对应的语音识别文本。下述将分别对语言模型和声学模型进行简单介绍。
语言模型
语言模型通常利用链式法则,把文字序列为词或字的概率拆解成其中每个词或字的概率之积,也即是,将W拆解成w1、w2、w3、....wn-1、wn,并通过下述公式(3)确定P(W)。
P(W)=P(w1)P(w2|w1)P(w3|w1,w2)...P(wn|w1,w2,...,wn-1) (3)
其中,在上述公式(3)中,P(W)中的每一项都是在表示已知之前所有文字序列都为词或字的条件下当前文字序列为词或字的概率。
由于在通过上述公式(3)确定P(W)时,如果条件太长,则确定P(W)的效率将会较低,从而影响后续的语音识别。因此,为了提高确定P(W)的效率,通常会通过语言模型中的n-gram语言模型确定P(W)。在通过n-gram语言模型确定P(W)时,第n个词的概率只依赖于位于该词前面的第n-1个词,此时可以通过下述公式(4)确定P(W)。
P(W)=P(w1)P(w2|w1)P(w3|w2)...P(wn|wn-1) (4)
声学模型
由于在确定每个词时还需要确定每个词的发音,而确定每个词的发音则需要通过词典实现。其中,词典是与声学模型和语言模块并列的模型,且该词典可以把单个词转换成音素串。声学模型可以通过词典确定用户输入的语音数据中的文字该依次发哪些音,并通过诸如维特比(Viterbi)算法的动态规则算法找到各个音素的分界点,从而确定每个音素的起止时间,进而确定用户输入的语音数据与音素串的匹配程度,也即是,确定P(X|W)。
通常情况下,可以通过诸如高斯混合模型的分类器估计出每个音素的特征向量的分布,并在语音识别阶段,确定用户输入的语音数据中每一帧的特征向量xt由相应音素si产生的概率P(xt|si),把每一帧的概率相乘,就得到P(X|W)。
其中,分类器可以事先训练得到,具体操作为:通过频率倒谱系数(Mel FrequencyCepstrum Coefficient,MFCC)从训练数据中提取大量的特征向量,以及每个特征向量对应的音素,从而训练从特征到音素的分类器。
需要说明的是,在实际应用中,不仅可以通过上述方式确定P(X|W),还可以包括其他方式,比如,通过神经网络直接给出P(si|xt),用贝叶斯公式可以转换成P(xt|si),再相乘得到P(X|W),当然,此处仅是举例说明,并不代表本发明实施例局限于此。
S202、确定多个语音识别文本对应的概率值中最大概率值和第二大概率值。
可以根据每个语音识别文本的文字组合,采用预设算法计算每个语音识别文本的识别概率。
可选地,可以采用公式计算每个语音识别文本的概率值Prec,其中是声学模型的解码率,是发音词典的解码率,是语言模型的解码率。表示待识别语音数据的特征文件,为识别出的文字组合,为音素序列。
可见,代入每一个语音识别文本的文字组合、音素序列,以及待识别语音数据的特征文件,可以得到每一个语音识别文本对应的 进而得到每一个语音识别文本对应的概率值。
假设总共有N个语音识别文本,每个语音识别文本的概率值记为Pn,其中,n=1,2,……,N。还可以进一步选出最大概率值Pmax和第二大概率值P2max。
S203、确定最大概率值和第二大概率值间的差值是否大于预设的概率阈值。
进一步地,可以获取最大概率值和第二大概率值间的差值,如果差值大于或等于预设的概率阈值,说明最大概率值对应的语音识别文本准确率本身就较高,可以直接确定最大概率值对应的语音识别文本为目标识别文本。
具体实现时,可以依次计算最大的概率值Pmax与其他概率值Pn的差值,可选地,采用公式计算绝对值均值作为声学概率值差EP,EP反映语音识别文本的分布情况,衡量了最优语音识别文本与其余语音识别文本直接的差距。EP大于预设阈值时,可以直接将最大的概率值Pmax对应的语音识别文本确定为目标识别文本,而无需进一步进行语义分析。
进一步地,在最大概率值和第二大概率值间的差值小于预设的概率阈值时,从多个语音识别文本中确定至少两个候选识别文本。
可选地,从多个语音识别文本中确定至少两个候选识别文本,可以是:获取多个语音识别文本中概率值与最大概率值的差值小于预设的概率阈值的第一语音识别文本,将该第一语音识别文本和最大概率值对应的语音识别文本确定为至少两个候选识别文本。
即将最大概率值与其他概率值进行比较,差值小于预设的概率阈值时,就将所比较的概率值对应的语音识别文本作为候选识别文本。如果差值大于或等于预设的概率阈值,说明所比较的概率值对应的语音识别文本成为目标识别文本的几率很低,不再进一步分析。
可选地,可以将多个语音识别文本的概率值进行排序,选择概率值最高的预设个数语音识别文本作为候选识别文本。也可以从高到底,根据相邻两个语音识别文本的概率值差值依次选择候选识别文本,例如,最大的概率值与第二高概率值的差值大于预设阈值,那么就直接将概率值最高的语音识别文本作为目标识别文本,不再继续比较;否则,将概率值最高的语音识别文本与概率值第二高的语音识别文本都先作为候选识别文本,在依次确定第二高概率值和下一个概率值的差值,并确定候选识别文本,依次类推,到某个差值大于预设阈值时,就不再比较。当然,并不以这些方式为限,可以灵活根据需要确定候选识别文本,也可以采用公式或算法获取。
如果只确定出一个候选语音识别文本,可以将这个候选语音识别文本直接配置为目标语音识别文本。如果有多个候选语音识别文本,则进一步确定与实际情况最符合的结果作为目标语音识别文本。
可选地,计算待确定识别文本与目标对比文本的对应位置的文本之间的相似度,可以包括:采用预设词向量模型,确定待确定识别文本与目标对比文本的对应位置的文本之间的语义相似度。
其中,预设词向量模型用于通过词向量距离标识词汇间的语义相似度。
预设词向量模型可以通过词向量训练获取,具体可以是将文字内容转化成有限低维度的实数向量,维度以50维和100维比较常见。向量的距离可以用最传统的欧氏距离来衡量,也可以用余弦夹角来衡量,在此不作限制。向量的距离反映词语语义的远近,即词语间的语义相似度可以用向量的距离表示。可以采用一些词向量的训练工具进行词向量训练,首先获取能够全面覆盖汉语中的基本词的训练语料,并进行相应预处理;然后调用词向量的训练工具进行训练,生成向量表示形式,例如语料中每个词语都有一个对应的50维的向量表示,在此不作限制。向量距离越大,词之间的语义距离较远,反之,语义距离较近。
具体地,候选识别文本的待确定识别文本与目标对比文本的对应位置的文本,出现在同样的句型中,且位置一样,那么是同一类事物的可能性非常大,那么再进一步根据词向量距离确定相似度。
以表1为例说明:
表1
可见,“高胜美”与“周杰伦”的词向量距离最近,那么将“我想听高胜美的歌曲”配置为目标识别文本,并将目标识别文本输出显示给用户,如果是控制指令类的语音信息,可以根据目标识别文本执行相关的指令,在此不一一赘述。
可选地,采用预设词向量模型,确定待确定识别文本与目标对比文本的对应位置的文本之间的语义相似度,可以为:在待确定识别文本中包括至少两个词汇时,采用预设词向量模型,分别确定待确定识别文本中各个词汇与目标对比文本中对应位置的词汇之间的语义相似度。
即分别对不同位置的词汇进行比较,例如比较待确定识别文本“早餐吃水果有益身体健康”与目标对比文本“晚餐吃粗粮有益身体健康”的对应位置的文本之间的语义相似度,可以分别确定“早餐”和“晚餐”之间的语义相似度,以及“粗粮”和“水果”之间的语义相似度。
图3为本申请一实施例提供的从至少两个候选识别文本中确定目标识别文本的装置结构示意图,如图3所示,该装置包括:第一确定模块301、计算模块302、以及第二确定模块303,其中:
第一确定模块301,用于确定待识别语音数据对应的至少两个候选识别文本中的确定识别文本和待确定识别文本。
其中,所述确定识别文本为至少两个所述候选识别文本中相同的部分,所述待确定识别文本为至少两个所述候选识别文本中不相同的部分。
计算模块302,用于计算所述待确定识别文本与目标对比文本的对应位置的文本之间的相似度。
其中,所述目标对比文本为预设文本库中与所述候选识别文本的句型结构一致的文本,且所述目标对比文本包括所述确定识别文本。
第二确定模块303,用于将所述相似度中的最大值对应的所述待确定识别文本与所述确定识别文本组成的所述候选识别文本,配置为目标识别文本。
本实施例中,首先第一确定模块301确定待识别语音数据对应的至少两个候选识别文本中的确定识别文本和待确定识别文本,然后计算模块302针对待确定识别文本,计算待确定识别文本与目标对比文本的对应位置的文本之间的相似度,将相似度中的最大值对应的待确定识别文本确定为待识别语音数据对应的正确结果,进而第二确定模块302将该待确定识别文本与确定识别文本组成的候选识别文本,配置为目标识别文本,实现了在获取到多个概率接近的候选识别文本时,根据与其句型结构一致的目标对比文本,进一步根据待确定识别文本与目标对比文本中对应位置的文本之间的相似度,确定出与用户输入的语音数据最接近的待确定识别文本,进而将该待确定识别文本和确定识别文本一起组成目标识别文本,反馈给用户,即通过参照目标对比文本,对多个概率接近的候选识别文本中的不同部分进一步甄选,提高了识别待识别语音数据的准确性,提高了语音识别的用户体验性。
图4为本申请另一实施例提供的从至少两个候选识别文本中确定目标识别文本的装置结构示意图,如图4所示,在图3的基础上,该装置还包括:第三确定模块401,其中:
第三确定模块401,用于在第一确定模块301确定待识别语音数据对应的至少两个候选识别文本中的确定识别文本和待确定识别文本之前,确定所述待识别语音数据对应的多个语音识别文本中的最大概率值和第二大概率值。
本实施例中,第一确定模块301,在所述最大概率值和所述第二大概率值之间的差值小于预设的概率阈值时,从所述多个语音识别文本中确定至少两个候选识别文本。
可选地,第一确定模块301,具体用于获取所述多个语音识别文本中概率值与所述最大概率值的差值小于预设的概率阈值的第一语音识别文本;将所述第一语音识别文本和所述最大概率值对应的语音识别文本确定为所述至少两个候选识别文本。
进一步地,计算模块302,具体用于采用预设词向量模型,确定所述待确定识别文本与所述目标对比文本中对应位置的文本之间的语义相似度。其中,所述预设词向量模型用于通过词向量距离标识词汇间的语义相似度。
可选地,计算模块302,具体用于在所述待确定识别文本包括至少两个词汇时,采用所述预设词向量模型,分别确定所述待确定识别文本中各个词汇与目标对比文本中对应位置的词汇之间的语义相似度。
需要说明的是:上述实施例提供的确定目标识别文本的装置在从至少两个候选识别文本中确定目标识别文本时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的确定目标识别文本的装置与确定目标识别文本的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取存储器(英文:Random Access Memory,简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
Claims (10)
1.一种从至少两个候选识别文本中确定目标识别文本的方法,其特征在于,包括:
确定待识别语音数据对应的至少两个候选识别文本中的确定识别文本和待确定识别文本,其中,所述确定识别文本为至少两个所述候选识别文本中相同的部分,所述待确定识别文本为至少两个所述候选识别文本中不相同的部分;
计算所述待确定识别文本与目标对比文本的对应位置的文本之间的相似度,其中,所述目标对比文本为预设文本库中与所述候选识别文本的句型结构一致的文本,且所述目标对比文本包括所述确定识别文本;
将所述相似度中的最大值对应的所述待确定识别文本与所述确定识别文本组成的所述候选识别文本,配置为目标识别文本。
2.根据权利要求1所述的方法,其特征在于,所述确定待识别语音数据对应的至少两个候选识别文本中的确定识别文本和待确定识别文本之前,所述方法还包括:
确定所述待识别语音数据对应的多个语音识别文本中的最大概率值和第二大概率值;
当所述最大概率值和所述第二大概率值之间的差值小于预设的概率阈值时,从所述多个语音识别文本中确定至少两个候选识别文本。
3.根据权利要求1或2所述的方法,其特征在于,所述从所述多个语音识别文本中确定至少两个候选识别文本,包括:
获取所述多个语音识别文本中概率值与所述最大概率值的差值小于预设的概率阈值的第一语音识别文本;
将所述第一语音识别文本和所述最大概率值对应的语音识别文本确定为所述至少两个候选识别文本。
4.根据权利要求1所述的方法,其特征在于,所述计算所述待确定识别文本与目标对比文本的对应位置的文本之间的相似度,具体为:
采用预设词向量模型,确定所述待确定识别文本与所述目标对比文本的对应位置的文本之间的语义相似度,其中,所述预设词向量模型用于通过词向量距离标识词汇间的语义相似度。
5.根据权利要求4所述的方法,其特征在于,所述采用预设词向量模型,确定所述待确定识别文本与所述目标对比文本中对应位置的文本之间的语义相似度,具体为:
当所述待确定识别文本包括至少两个词汇,采用所述预设词向量模型,分别确定所述待确定识别文本中各个词汇与目标对比文本中对应位置的词汇之间的语义相似度。
6.一种从至少两个候选识别文本中确定目标识别文本的装置,其特征在于,包括:
第一确定模块,用于确定待识别语音数据对应的至少两个候选识别文本中的确定识别文本和待确定识别文本,其中,所述确定识别文本为至少两个所述候选识别文本中相同的部分,所述待确定识别文本为至少两个所述候选识别文本中不相同的部分;
计算模块,用于计算所述待确定识别文本与目标对比文本的对应位置的文本之间的相似度,其中,所述目标对比文本为预设文本库中与所述候选识别文本的句型结构一致的文本,且所述目标对比文本包括所述确定识别文本;
第二确定模块,用于将所述相似度中的最大值对应的所述待确定识别文本与所述确定识别文本组成的所述候选识别文本,配置为目标识别文本。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:第三确定模块;
所述第三确定模块,用于在所述第一确定模块确定待识别语音数据对应的至少两个候选识别文本中的确定识别文本和待确定识别文本之前,确定所述待识别语音数据对应的多个语音识别文本中的最大概率值和第二大概率值;
所述第一确定模块,具体用于在所述最大概率值和所述第二大概率值之间的差值小于预设的概率阈值时,从所述多个语音识别文本中确定至少两个候选识别文本。
8.根据权利要求6或7所述的装置,其特征在于,所述第一确定模块,具体用于获取所述多个语音识别文本中概率值与所述最大概率值的差值小于预设的概率阈值的第一语音识别文本;将所述第一语音识别文本和所述最大概率值对应的语音识别文本确定为所述至少两个候选识别文本。
9.根据权利要求6所述的装置,其特征在于,所述计算模块,具体用于采用预设词向量模型,确定所述待确定识别文本与所述目标对比文本中对应位置的文本之间的语义相似度,其中,所述预设词向量模型用于通过词向量距离标识词汇间的语义相似度。
10.根据权利要求9所述的装置,其特征在于,所述计算模块,具体用于在所述待确定识别文本包括至少两个词汇时,采用所述预设词向量模型,分别确定所述待确定识别文本中各个词汇与目标对比文本中对应位置的词汇之间的语义相似度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710127503.9A CN106782560B (zh) | 2017-03-06 | 2017-03-06 | 确定目标识别文本的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710127503.9A CN106782560B (zh) | 2017-03-06 | 2017-03-06 | 确定目标识别文本的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106782560A true CN106782560A (zh) | 2017-05-31 |
CN106782560B CN106782560B (zh) | 2020-06-16 |
Family
ID=58962349
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710127503.9A Active CN106782560B (zh) | 2017-03-06 | 2017-03-06 | 确定目标识别文本的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106782560B (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107277645A (zh) * | 2017-07-27 | 2017-10-20 | 广东小天才科技有限公司 | 一种字幕内容的纠错方法和装置 |
CN107329843A (zh) * | 2017-06-30 | 2017-11-07 | 百度在线网络技术(北京)有限公司 | 应用程序语音控制方法、装置、设备以及存储介质 |
CN107680585A (zh) * | 2017-08-23 | 2018-02-09 | 海信集团有限公司 | 一种中文分词方法、中文分词装置和终端 |
CN108197102A (zh) * | 2017-12-26 | 2018-06-22 | 百度在线网络技术(北京)有限公司 | 一种文本数据统计方法、装置和服务器 |
CN108364655A (zh) * | 2018-01-31 | 2018-08-03 | 网易乐得科技有限公司 | 语音处理方法、介质、装置和计算设备 |
CN108417210A (zh) * | 2018-01-10 | 2018-08-17 | 苏州思必驰信息科技有限公司 | 一种词嵌入语言模型训练方法、词语识别方法及系统 |
CN109829704A (zh) * | 2018-12-07 | 2019-05-31 | 创发科技有限责任公司 | 支付通道配置方法、装置及计算机可读存储介质 |
CN109918680A (zh) * | 2019-03-28 | 2019-06-21 | 腾讯科技(上海)有限公司 | 实体识别方法、装置及计算机设备 |
CN110188338A (zh) * | 2018-02-23 | 2019-08-30 | 富士通株式会社 | 文本相关的说话人确认方法和设备 |
CN110706707A (zh) * | 2019-11-13 | 2020-01-17 | 百度在线网络技术(北京)有限公司 | 用于语音交互的方法、装置、设备和计算机可读存储介质 |
CN110705274A (zh) * | 2019-09-06 | 2020-01-17 | 电子科技大学 | 基于实时学习的融合型词义嵌入方法 |
CN110853635A (zh) * | 2019-10-14 | 2020-02-28 | 广东美的白色家电技术创新中心有限公司 | 语音识别方法、音频标注方法、计算机设备、存储装置 |
CN111667821A (zh) * | 2020-05-27 | 2020-09-15 | 山西东易园智能家居科技有限公司 | 一种语音识别系统及识别方法 |
CN111681670A (zh) * | 2019-02-25 | 2020-09-18 | 北京嘀嘀无限科技发展有限公司 | 信息识别方法、装置、电子设备及存储介质 |
CN112614263A (zh) * | 2020-12-30 | 2021-04-06 | 浙江大华技术股份有限公司 | 一种控制闸机的方法、装置、计算机设备及存储介质 |
CN113158631A (zh) * | 2019-12-20 | 2021-07-23 | 佳能株式会社 | 信息处理装置和信息处理方法 |
CN113177114A (zh) * | 2021-05-28 | 2021-07-27 | 重庆电子工程职业学院 | 一种基于深度学习的自然语言语义理解方法 |
CN113539270A (zh) * | 2021-07-22 | 2021-10-22 | 阳光保险集团股份有限公司 | 一种位置识别方法、装置、电子设备和存储介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003308094A (ja) * | 2002-02-12 | 2003-10-31 | Advanced Telecommunication Research Institute International | 音声認識における認識誤り箇所の訂正方法 |
US20070118357A1 (en) * | 2005-11-21 | 2007-05-24 | Kas Kasravi | Word recognition using ontologies |
CN101655837A (zh) * | 2009-09-08 | 2010-02-24 | 北京邮电大学 | 一种对语音识别后文本进行检错并纠错的方法 |
CN102999483A (zh) * | 2011-09-16 | 2013-03-27 | 北京百度网讯科技有限公司 | 一种文本矫正的方法和装置 |
CN103699530A (zh) * | 2012-09-27 | 2014-04-02 | 百度在线网络技术(北京)有限公司 | 根据语音输入信息在目标应用中输入文本的方法与设备 |
CN104021786A (zh) * | 2014-05-15 | 2014-09-03 | 北京中科汇联信息技术有限公司 | 一种语音识别的方法和装置 |
CN105374351A (zh) * | 2014-08-12 | 2016-03-02 | 霍尼韦尔国际公司 | 用于使用语音识别解释接收的语音数据的方法和装置 |
CN105513586A (zh) * | 2015-12-18 | 2016-04-20 | 百度在线网络技术(北京)有限公司 | 语音识别结果的显示方法和装置 |
CN105654946A (zh) * | 2014-12-02 | 2016-06-08 | 三星电子株式会社 | 用于语音识别的设备和方法 |
CN105869642A (zh) * | 2016-03-25 | 2016-08-17 | 海信集团有限公司 | 一种语音文本的纠错方法及装置 |
CN106326303A (zh) * | 2015-06-30 | 2017-01-11 | 芋头科技(杭州)有限公司 | 一种口语语义解析系统及方法 |
CN106469554A (zh) * | 2015-08-21 | 2017-03-01 | 科大讯飞股份有限公司 | 一种自适应的识别方法及系统 |
-
2017
- 2017-03-06 CN CN201710127503.9A patent/CN106782560B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003308094A (ja) * | 2002-02-12 | 2003-10-31 | Advanced Telecommunication Research Institute International | 音声認識における認識誤り箇所の訂正方法 |
US20070118357A1 (en) * | 2005-11-21 | 2007-05-24 | Kas Kasravi | Word recognition using ontologies |
CN101655837A (zh) * | 2009-09-08 | 2010-02-24 | 北京邮电大学 | 一种对语音识别后文本进行检错并纠错的方法 |
CN102999483A (zh) * | 2011-09-16 | 2013-03-27 | 北京百度网讯科技有限公司 | 一种文本矫正的方法和装置 |
CN103699530A (zh) * | 2012-09-27 | 2014-04-02 | 百度在线网络技术(北京)有限公司 | 根据语音输入信息在目标应用中输入文本的方法与设备 |
CN104021786A (zh) * | 2014-05-15 | 2014-09-03 | 北京中科汇联信息技术有限公司 | 一种语音识别的方法和装置 |
CN105374351A (zh) * | 2014-08-12 | 2016-03-02 | 霍尼韦尔国际公司 | 用于使用语音识别解释接收的语音数据的方法和装置 |
CN105654946A (zh) * | 2014-12-02 | 2016-06-08 | 三星电子株式会社 | 用于语音识别的设备和方法 |
CN106326303A (zh) * | 2015-06-30 | 2017-01-11 | 芋头科技(杭州)有限公司 | 一种口语语义解析系统及方法 |
CN106469554A (zh) * | 2015-08-21 | 2017-03-01 | 科大讯飞股份有限公司 | 一种自适应的识别方法及系统 |
CN105513586A (zh) * | 2015-12-18 | 2016-04-20 | 百度在线网络技术(北京)有限公司 | 语音识别结果的显示方法和装置 |
CN105869642A (zh) * | 2016-03-25 | 2016-08-17 | 海信集团有限公司 | 一种语音文本的纠错方法及装置 |
Non-Patent Citations (1)
Title |
---|
马刚: "《基于语义的Web数据挖掘》", 31 January 2014, 东北财经大学出版社 * |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107329843A (zh) * | 2017-06-30 | 2017-11-07 | 百度在线网络技术(北京)有限公司 | 应用程序语音控制方法、装置、设备以及存储介质 |
CN107277645A (zh) * | 2017-07-27 | 2017-10-20 | 广东小天才科技有限公司 | 一种字幕内容的纠错方法和装置 |
CN107680585A (zh) * | 2017-08-23 | 2018-02-09 | 海信集团有限公司 | 一种中文分词方法、中文分词装置和终端 |
CN108197102A (zh) * | 2017-12-26 | 2018-06-22 | 百度在线网络技术(北京)有限公司 | 一种文本数据统计方法、装置和服务器 |
US10984031B2 (en) | 2017-12-26 | 2021-04-20 | Baidu Online Network Technology (Beijing) Co., Ltd. | Text analyzing method and device, server and computer-readable storage medium |
CN108417210B (zh) * | 2018-01-10 | 2020-06-26 | 苏州思必驰信息科技有限公司 | 一种词嵌入语言模型训练方法、词语识别方法及系统 |
CN108417210A (zh) * | 2018-01-10 | 2018-08-17 | 苏州思必驰信息科技有限公司 | 一种词嵌入语言模型训练方法、词语识别方法及系统 |
CN108364655A (zh) * | 2018-01-31 | 2018-08-03 | 网易乐得科技有限公司 | 语音处理方法、介质、装置和计算设备 |
CN108364655B (zh) * | 2018-01-31 | 2021-03-09 | 网易乐得科技有限公司 | 语音处理方法、介质、装置和计算设备 |
CN110188338B (zh) * | 2018-02-23 | 2023-02-21 | 富士通株式会社 | 文本相关的说话人确认方法和设备 |
CN110188338A (zh) * | 2018-02-23 | 2019-08-30 | 富士通株式会社 | 文本相关的说话人确认方法和设备 |
CN109829704A (zh) * | 2018-12-07 | 2019-05-31 | 创发科技有限责任公司 | 支付通道配置方法、装置及计算机可读存储介质 |
CN111681670B (zh) * | 2019-02-25 | 2023-05-12 | 北京嘀嘀无限科技发展有限公司 | 信息识别方法、装置、电子设备及存储介质 |
CN111681670A (zh) * | 2019-02-25 | 2020-09-18 | 北京嘀嘀无限科技发展有限公司 | 信息识别方法、装置、电子设备及存储介质 |
CN109918680A (zh) * | 2019-03-28 | 2019-06-21 | 腾讯科技(上海)有限公司 | 实体识别方法、装置及计算机设备 |
CN110705274A (zh) * | 2019-09-06 | 2020-01-17 | 电子科技大学 | 基于实时学习的融合型词义嵌入方法 |
CN110705274B (zh) * | 2019-09-06 | 2023-03-24 | 电子科技大学 | 基于实时学习的融合型词义嵌入方法 |
CN110853635B (zh) * | 2019-10-14 | 2022-04-01 | 广东美的白色家电技术创新中心有限公司 | 语音识别方法、音频标注方法、计算机设备、存储装置 |
CN110853635A (zh) * | 2019-10-14 | 2020-02-28 | 广东美的白色家电技术创新中心有限公司 | 语音识别方法、音频标注方法、计算机设备、存储装置 |
US11393490B2 (en) | 2019-11-13 | 2022-07-19 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method, apparatus, device and computer-readable storage medium for voice interaction |
CN110706707A (zh) * | 2019-11-13 | 2020-01-17 | 百度在线网络技术(北京)有限公司 | 用于语音交互的方法、装置、设备和计算机可读存储介质 |
CN113158631A (zh) * | 2019-12-20 | 2021-07-23 | 佳能株式会社 | 信息处理装置和信息处理方法 |
CN111667821A (zh) * | 2020-05-27 | 2020-09-15 | 山西东易园智能家居科技有限公司 | 一种语音识别系统及识别方法 |
CN112614263A (zh) * | 2020-12-30 | 2021-04-06 | 浙江大华技术股份有限公司 | 一种控制闸机的方法、装置、计算机设备及存储介质 |
CN113177114A (zh) * | 2021-05-28 | 2021-07-27 | 重庆电子工程职业学院 | 一种基于深度学习的自然语言语义理解方法 |
CN113539270A (zh) * | 2021-07-22 | 2021-10-22 | 阳光保险集团股份有限公司 | 一种位置识别方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN106782560B (zh) | 2020-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106782560A (zh) | 确定目标识别文本的方法及装置 | |
JP7280382B2 (ja) | 数字列のエンドツーエンド自動音声認識 | |
Audhkhasi et al. | Direct acoustics-to-word models for english conversational speech recognition | |
CN109410914B (zh) | 一种赣方言语音和方言点识别方法 | |
US10134388B1 (en) | Word generation for speech recognition | |
CN104681036B (zh) | 一种语言音频的检测系统及方法 | |
Kim et al. | Two-stage multi-intent detection for spoken language understanding | |
EP4018437B1 (en) | Optimizing a keyword spotting system | |
US20240153505A1 (en) | Proactive command framework | |
CN109637537B (zh) | 一种自动获取标注数据优化自定义唤醒模型的方法 | |
CN111191016A (zh) | 一种多轮对话处理方法、装置及计算设备 | |
US20020120447A1 (en) | Speech processing system | |
CN108510985A (zh) | 用于减小生产语音模型中的原则性偏差的系统和方法 | |
CN111210807B (zh) | 语音识别模型训练方法、系统、移动终端及存储介质 | |
US11093110B1 (en) | Messaging feedback mechanism | |
US20170032781A1 (en) | Collaborative language model biasing | |
CN104166462A (zh) | 一种文字的输入方法和系统 | |
Deena et al. | Recurrent neural network language model adaptation for multi-genre broadcast speech recognition and alignment | |
Deng et al. | Improving accent identification and accented speech recognition under a framework of self-supervised learning | |
Carvalho et al. | A critical survey on the use of fuzzy sets in speech and natural language processing | |
Ahmed et al. | End-to-end lexicon free arabic speech recognition using recurrent neural networks | |
Yu et al. | Sequential labeling using deep-structured conditional random fields | |
JP7544989B2 (ja) | ルックアップテーブルリカレント言語モデル | |
Karunanayake et al. | Sinhala and tamil speech intent identification from english phoneme based asr | |
CN111508497B (zh) | 语音识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |