CN103165129A - 一种优化语音识别声学模型的方法及系统 - Google Patents
一种优化语音识别声学模型的方法及系统 Download PDFInfo
- Publication number
- CN103165129A CN103165129A CN2011104152160A CN201110415216A CN103165129A CN 103165129 A CN103165129 A CN 103165129A CN 2011104152160 A CN2011104152160 A CN 2011104152160A CN 201110415216 A CN201110415216 A CN 201110415216A CN 103165129 A CN103165129 A CN 103165129A
- Authority
- CN
- China
- Prior art keywords
- voice
- acoustic model
- data
- segment
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000013515 script Methods 0.000 claims abstract description 50
- 238000001914 filtration Methods 0.000 claims description 23
- 238000001514 detection method Methods 0.000 claims description 14
- 238000002372 labelling Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 12
- 238000005516 engineering process Methods 0.000 abstract description 7
- 238000005457 optimization Methods 0.000 abstract description 5
- 230000008859 change Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 5
- 230000000717 retained effect Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Landscapes
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种优化语音识别声学模型的方法及系统,涉及计算机技术领域,用以解决现有的优化语音识别声学模型的效率低下问题。方法包括:A1、采用语音识别声学模型对输入的语音段进行识别得到识别结果,以及获取所述输入的语音段的标注脚本;A2、将所述识别结果和标注脚本进行比对,获取被识别错误的语音段;A3、以所述被识别错误的语音段及其标注脚本更新语音识别声学模型的训练数据;A4、以更新后的训练数据对所述语音识别声学模型进行重训练。系统包括:获取单元、对比单元、更新单元和训练单元。本发明优化了语音识别声学模型的训练数据,提高了训练数据的质量,从而提高了对语音识别声学模型的优化效率。
Description
技术领域
本发明涉及计算机技术领域,特别涉及一种优化语音识别声学模型的方法及相应的系统。
背景技术
语音识别是一门交叉学科,语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。目前语音识别的几种基本方法包括:基于声道声学和语音知识的方法、模板匹配的方法以及利用人工神经网络的方法。
在语音搜索或语音输入系统中,用户不断输入语音数据,语音识别得出的识别结果有时会有所偏差,甚至无法正常识别、阅读或理解,因此需要不断对语音识别声学模型进行优化,通常采用的方式是对语音识别声学模型进行重训练。
现有技术中采用的优化语音识别声学模型的方式为:对训练数据中的所有语音数据进行人工标注,采用人工标注的结果重训练语音识别声学模型。然而,由于训练数据的更新规模通常非常庞大,如果都采用人工标注的形式显然效率十分低下。
发明内容
本发明提供了一种优化语音识别声学模型的方法及系统,用以解决现有的优化语音识别声学模型的效率低下问题。
具体技术方案如下:
一种优化语音识别声学模型的方法,包括下列步骤:A1、采用语音识别声学模型对输入的语音段进行识别得到识别结果,以及获取所述输入的语音段的标注脚本;A2、将所述识别结果和标注脚本进行比对,获取被识别错误的语音段;A3、以所述被识别错误的语音段及其标注脚本更新语音识别声学模型的训练数据;A4、以更新后的训练数据对所述语音识别声学模型进行重训练。
根据本发明一优选实施例,步骤A3中包括:以全部被识别错误的语音段及其标注脚本更新语音识别声学模型的训练数据。或者,对所述被识别错误的语音段进行过滤,以过滤后的语音段及其标注脚本更新语音识别声学模型的训练数据,过滤过程具体包括:A31、以所述标注脚本为依据,将被识别错误的语音段与其标注脚本强制对齐,并获取强制对齐后的语音段中的静音数据时长;A32、如果获取的所述静音数据时长大于预设的阈值,则过滤上述语音段。
根据本发明一优选实施例,步骤A31之前,还包括:A30、检测所述语音段中语音数据的端点,以及在所述语音数据的前后端各保留预设时长的静音数据。
根据本发明一优选实施例,步骤A32中所述的静音数据时长为强制对齐后的语音段中前端静音数据时长,或者为强制对齐后的语音段中后端静音数据时长,或者为强制对齐后的语音段中前、后端静音数据时长之和。
根据本发明一优选实施例,在步骤A2中确定被识别错误的语音段的权重;以及在步骤A4中根据所述权重和更新后的训练数据对所述语音识别声学模型进行重训练。
一种优化语音识别声学模型的系统,包括:获取单元,用于采用语音识别声学模型对输入的语音段进行识别得到识别结果,以及获取所述输入的语音段的标注脚本;对比单元,用于将所述识别结果和标注脚本进行比对,获取被识别错误的语音段;更新单元,用于以所述被识别错误的语音段及其标注脚本更新语音识别声学模型的训练数据;训练单元,用于以更新后的训练数据对所述语音识别声学模型进行重训练。
根据本发明一优选实施例,更新单元中包括:强制对齐子单元,用于以所述标注脚本为依据,将被识别错误的语音段与其标注脚本强制对齐,并获取强制对齐后的语音段中的静音数据时长;过滤子单元,用于在判定强制对齐子单元获取的静音数据时长大于预设的阈值时,过滤上述语音段。还包括:端点检测子单元,用于在强制对齐子单元完成强制对齐操作之前,检测所述语音段中语音数据的端点,以及在所述语音数据的前后端各保留预设时长的静音数据。过滤子单元所依据的静音数据时长为强制对齐后的语音段中前端静音数据时长,或者为强制对齐后的语音段中后端静音数据时长,或者为强制对齐后的语音段中前、后端静音数据时长之和。
根据本发明一优选实施例,对比单元还确定被识别错误的语音段的权重;以及训练单元根据所述权重和更新后的训练数据对所述语音识别声学模型进行重训练。
由以上技术方案可以看出,本发明通过获取语音识别结果和其标注脚本,将二者进行对比,并以被识别错误的语音段更新语音识别声学模型的训练数据,从而优化了语音识别声学模型的训练数据,提高了训练数据的质量。之后,再以更新后的训练数据对语音识别声学模型进行重训练,从而提高了对语音识别声学模型的优化效率。
附图说明
图1为本发明实施例一的方法流程图;
图2为本发明实施例二的方法流程图;
图3为本发明实施例的强制对齐的示意图;
图4为本发明实施例三的系统结构图;
图5为本发明实施例四的系统结构图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
实施例一、本实施例提供了一种优化语音识别声学模型的方法,应用于但不限于语音搜索或语音输入系统,参见图1所示,包括下列步骤:
S11、采用语音识别声学模型对输入的语音段进行识别得到识别结果,以及获取所述输入的语音段的标注脚本。
本实施例中,用户不断输入语音进行语音搜索操作,其中包括若干语音段,每一语音段中又包含了代表语音分量的语音数据和代表噪音(静音)分量的静音数据。
本实施例中,以一个语音段的处理过程为例,其它语音段执行相同处理即可,不再赘述,例如:用户语音输入一个查询语句“如何更改微信界面”,服务器接收和存储该语音段后,进行自动语音识别,识别结果为“如何更改回信见面”。该段语音的标注脚本为“如何更改微信界面”。
S12、将识别结果和标注脚本进行比对,获取被识别错误的语音段。
继续上述实例,将“如何更改微信界面”与“如何更改微信界面”进行对比,判断该段语音是否识别错误,本例中得出的对比结果为识别错误。由此可见语音识别声学模型对该语音段的识别能力较差,需要利用该语音段以及该语音段的正确结果(即标注脚本)对语音识别声学模型进行调整。根据对比结果,获取应识别为“如何更改微信界面”而被识别为“如何更改回信见面”的语音段。
S13、以被识别错误的语音段更新语音识别声学模型的训练数据。
本实施例中,可以以全部被识别错误的语音段以及各语音段对应的标注脚本更新语音识别声学模型的训练数据。
S14、以更新后的训练数据对语音识别声学模型进行重训练。
具体的,可将被识别错误的语音段及其标注脚本加入训练数据集合,利用该语音段及其标注脚本与相应的原有语音识别声学模型参数组合进行声学模型的重训练或自适应。
可见,本实施例中通过获取语音识别结果和其标注脚本,将二者进行对比,并以被识别错误的语音段更新语音识别声学模型的训练数据,从而优化了语音识别声学模型的训练数据,提高了训练数据的质量。之后,再以更新后的训练数据对语音识别声学模型进行重训练,从而提高了对语音识别声学模型的优化效率。在具体实现中,将一段语音的识别结果与该段语音的标注脚本对比可使数据规模减小约1倍。
实施例二、本实施例提供了一种优化语音识别声学模型的方法,应用于但不限于语音搜索或语音输入系统,参见图2所示,包括下列步骤:
S21、采用语音识别声学模型对输入的语音段进行识别得到识别结果,以及获取所述输入的语音段的标注脚本。
具体描述与S11一致,不再赘述。
S22、将识别结果和标注脚本进行比对,获取被识别错误的语音段。
具体描述与S12一致,不再赘述。
S23、以被识别错误的语音段更新语音识别声学模型的训练数据。
本实施例中,对步骤S22获取的语音段进一步过滤,以过滤后的语音段更新语音识别声学模型的训练数据。具体包括下列子步骤:
S230、检测语音段中语音数据的端点,以及在语音数据的前后端各保留预设时长的静音数据。
具体的,可采用基于特征或基于模型的方法对被识别错误的语音段进行语音端点检测,端点检测的作用是用于切除该语音段中前后两端较长(明显)的静音数据。接续上述实例,如经过端点检测后,在该语音段前后两端各保留0.5秒静音数据。
S231、以标注脚本为依据,将被识别错误的语音段与其标注脚本强制对齐,并获取强制对齐后的语音段中的静音数据时长。
具体可对经端点检测后的语音段进行基于Viterbi的强制对齐,得出语音段中各子段语音数据时长(即各单位发音的时长信息),并判断前后静音数据的时长。接续上述实例,强制对齐的示意图参见图3所示,其中,<s>和</s>分别为前端和后端静音数据标志。本步骤中获取静音数据时长为强制对齐后的语音段中前端静音数据时长,或者为强制对齐后的语音段中后端静音数据时长,或者为强制对齐后的语音段中前、后端静音数据时长之和。
S232、获取的静音数据时长大于预设的阈值,则过滤上述语音段。
接续上述实例,本步骤中预设的阈值为2秒,如果静音数据时长小于等于2秒,则保留该段语音;如果大于2秒,则判定该段语音的噪音较大,质量较差,并剔除该段语音。
S24、以更新后的训练数据对语音识别声学模型进行重训练。
具体的,可将被识别错误的语音段加入训练数据集合,利用该语音段与相应的原有语音识别声学模型参数组合进行声学模型的重训练或自适应。在进行声学模型的重训练、自适应的过程中,进一步还可依据该语音段的权重信息来确定其在重训练、自适应过程中所占的比重,所述权重信息可在提取被识别错误语音段的过程中根据该段语音被识别错误的程度来确定。接续上述实例,该语音段包括8个字,被识别错误2个字,则可确定该语音段的权重为0.25,在后续的重训练、自适应过程中可以依据下述公式得出新的声学模型:
GMM_New=α×GMM_Old+β×GMM_Temp;
其中,GMM_New为新的声学模型,GMM_Old原有声学模型,GMM_Temp为利用识别错误的语音段训练的临时声学模型,α和β为预设的插值参数,在训练临时模型GMM_Temp的过程中可以加入各语音段的权重信息。
可见,本实施例具有实施例一的优点,并且还增加了端点检测子步骤、强制对齐子步骤和过滤子步骤,在强制对齐步骤之前,先将语音段前后端明显的静音数据切除,提高了后续过滤步骤的准确性,进一步再进行强制对齐以及过滤步骤可使数据规模更小。
实施例三、本实施例提供了一种优化语音识别声学模型的系统,应用于但不限于语音搜索或语音输入领域,参见图4所示,包括:获取单元31、对比单元32、更新单元33和训练单元34。
其中,获取单元31,用于采用语音识别声学模型对输入的语音段进行识别得到识别结果,以及获取所述输入的语音段的标注脚本。
本实施例中,用户不断向优化语音识别声学模型的系统输入语音进行语音搜索操作,其中包括若干语音段,每一语音段中又包含了代表音频分量的语音数据和代表噪音(静音)分量的静音数据。
本实施例中,以一个语音段的处理过程为例,其它语音段采用相同处理即可,不再赘述,例如:用户通过语音输入一个查询语句“如何更改微信界面”,接收和存储该语音段后,进行自动语音识别,识别结果为“如何更改回信见面”。该段语音的标注脚本为“如何更改微信界面”。
对比单元32,用于将识别结果和标注脚本进行比对,获取被识别错误的语音段。
具体的,对比单元32将“如何更改微信界面”与“如何更改微信界面”进行对比,判断该段语音是否识别错误,本例中得出的对比结果为识别错误。对比单元32根据对比结果,获取应识别为“如何更改微信界面”而被识别为“如何更改回信见面”的语音段。
更新单元33,用于以所述被识别错误的语音段及其标注脚本更新语音识别声学模型的训练数据。本实施例中,更新单元33以对比单元32获取的全部被识别错误的语音段以及各语音段的标注脚本更新语音识别声学模型的训练数据。
训练单元34,用于以更新后的训练数据对所述语音识别声学模型进行重训练。具体的,可将被识别错误的语音段加入训练数据集合,利用该语音段与相应的原有语音识别声学模型参数组合进行声学模型的重训练或自适应。
可见,本实施例中通过获取单元31、对比单元32和更新单元33优化了语音识别声学模型的训练数据,提高了训练数据的质量。之后,再通过训练单元34提高了对语音识别声学模型的优化效率。在具体实现中,获取单元31和对比单元32的操作可使数据规模减小约1倍。
实施例四、本实施例提供了一种优化语音识别声学模型的系统,应用于但不限于语音搜索或语音输入领域,参见图5所示,包括:获取单元41、对比单元42、更新单元43和训练单元44;更新单元43中包括:端点检测子单元430、强制对齐子单元431和过滤子单元432。
其中,获取单元41和对比单元42的具体描述与实施例三的获取单元31和对比单元32一致,不再赘述。
更新单元43,用于以被识别错误的语音段及其标注脚本更新语音识别声学模型的训练数据。本实施例中,对对比单元42获取的语音段进一步过滤,以过滤后的语音段更新语音识别声学模型的训练数据。具体采用:
端点检测子单元430,用于在强制对齐子单元431完成强制对齐操作之前,检测所述语音段中语音数据的端点,以及在所述语音数据的前后端各保留预设时长的静音数据。可采用基于特征或基于模型的方法对被识别错误的语音段进行语音端点检测,端点检测的作用是切除该语音段中前后两端较长(明显)的静音数据。接续上述实例,如经过端点检测后,在该语音段前后两端各保留0.5秒静音数据。
强制对齐子单元431,用于以所述标注脚本为依据,将被识别错误的语音段与其标注脚本强制对齐,并获取强制对齐后的语音段中的静音数据时长。具体的,强制对齐子单元431对经端点检测子单元430进行了端点检测后的语音段进行基于Viterbi的强制对齐,得出语音段中各子段语音数据时长(即各单位发音的时长信息),并判断前后静音数据的时长。接续上述实例,强制对齐的示意图参见图3所示,其中,<s>和</s>分别为前端和端后静音数据标志。强制对齐子单元431获取静音数据时长为强制对齐后的语音段中前端静音数据时长,或者为强制对齐后的语音段中后端静音数据时长,或者为强制对齐后的语音段中前、后端静音数据时长之和。
过滤子单元432,用于在判定强制对齐子单元431获取的静音数据时长大于预设的阈值时,过滤上述语音段。接续上述实例,过滤子单元432预设的阈值为2秒,如果静音数据时长小于等于2秒,则保留该段语音;如果大于2秒,则判定该段语音的噪音较大,质量较差,过滤子单元432将剔除该段语音。
训练单元44,用于以更新后的训练数据对所述语音识别声学模型进行重训练。具体的,可将被识别错误的语音段加入训练数据集合,利用该语音段与相应的原有语音识别声学模型参数组合进行声学模型的重训练或自适应。具体的,可将被识别错误的语音段加入训练数据集合,利用该语音段与相应的原有语音识别声学模型参数组合进行声学模型的重训练或自适应。在进行声学模型的重训练、自适应的过程中,进一步还可依据该语音段的权重信息来确定其在重训练、自适应过程中所占的比重,所述权重信息可由对比单元42在获取被识别错误语音段的过程中根据该段语音被识别错误的程度来确定。接续上述实例,该语音段包括8个字,被识别错误2个字,则可确定该语音段的权重为0.25,在后续的重训练、自适应过程中可以依据下述公式得出新的声学模型:
GMM_New=α×GMM_Old+β×GMM_Temp;
其中,GMM_New为新的声学模型,GMM_Old原有声学模型,GMM_Temp为利用识别错误的语音段训练的临时声学模型,α和β为预设的插值参数,在训练临时模型GMM_Temp的过程中可以加入各语音段的权重信息。
可见,本实施例具有实施例三的优点,并且还增加了端点检测子单元430、强制对齐子单元431和过滤子单元432,在强制对齐之前,先将语音段前后端明显的静音数据切除,提高了后续过滤操作的准确性;进一步再进行强制对齐以及过滤操作可使数据规模更小。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (10)
1.一种优化语音识别声学模型的方法,其特征在于,包括下列步骤:
A1、采用语音识别声学模型对输入的语音段进行识别得到识别结果,以及获取所述输入的语音段的标注脚本;
A2、将所述识别结果和标注脚本进行比对,获取被识别错误的语音段;
A3、以所述被识别错误的语音段及其标注脚本更新语音识别声学模型的训练数据;
A4、以更新后的训练数据对所述语音识别声学模型进行重训练。
2.根据权利要求1所述的方法,其特征在于,所述步骤A3中包括:
以全部被识别错误的语音段及其标注脚本更新语音识别声学模型的训练数据;或者,
对所述被识别错误的语音段进行过滤,以过滤后的语音段及其标注脚本更新语音识别声学模型的训练数据,过滤过程具体包括:
A31、以所述标注脚本为依据,将被识别错误的语音段与其标注脚本强制对齐,并获取强制对齐后的语音段中的静音数据时长;
A32、如果获取的所述静音数据时长大于预设的阈值,则过滤上述语音段。
3.根据权利要求2所述的方法,其特征在于,所述步骤A31之前,还包括:
A30、检测所述语音段中语音数据的端点,以及在所述语音数据的前后端各保留预设时长的静音数据。
4.根据权利要求2所述的方法,其特征在于,步骤A32中所述的静音数据时长为强制对齐后的语音段中前端静音数据时长,或者为强制对齐后的语音段中后端静音数据时长,或者为强制对齐后的语音段中前、后端静音数据时长之和。
5.根据权利要求1所述的方法,其特征在于,在步骤A2中确定被识别错误的语音段的权重;以及在步骤A4中根据所述权重和更新后的训练数据对所述语音识别声学模型进行重训练。
6.一种优化语音识别声学模型的系统,其特征在于,包括:
获取单元,用于采用语音识别声学模型对输入的语音段进行识别得到识别结果,以及获取所述输入的语音段的标注脚本;
对比单元,用于将所述识别结果和标注脚本进行比对,获取被识别错误的语音段;
更新单元,用于以所述被识别错误的语音段及其标注脚本更新语音识别声学模型的训练数据;
训练单元,用于以更新后的训练数据对所述语音识别声学模型进行重训练。
7.根据权利要求6所述的系统,其特征在于,所述更新单元中包括:
强制对齐子单元,用于以所述标注脚本为依据,将被识别错误的语音段与其标注脚本强制对齐,并获取强制对齐后的语音段中的静音数据时长;
过滤子单元,用于在判定强制对齐子单元获取的静音数据时长大于预设的阈值时,过滤上述语音段。
8.根据权利要求7所述的系统,其特征在于,所述更新单元中还包括:
端点检测子单元,用于在强制对齐子单元完成强制对齐操作之前,检测所述语音段中语音数据的端点,以及在所述语音数据的前后端各保留预设时长的静音数据。
9.根据权利要求7所述的系统,其特征在于,过滤子单元所依据的静音数据时长为强制对齐后的语音段中前端静音数据时长,或者为强制对齐后的语音段中后端静音数据时长,或者为强制对齐后的语音段中前、后端静音数据时长之和。
10.根据权利要求6所述的系统,其特征在于,对比单元还确定被识别错误的语音段的权重;以及训练单元根据所述权重和更新后的训练数据对所述语音识别声学模型进行重训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110415216.0A CN103165129B (zh) | 2011-12-13 | 2011-12-13 | 一种优化语音识别声学模型的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110415216.0A CN103165129B (zh) | 2011-12-13 | 2011-12-13 | 一种优化语音识别声学模型的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103165129A true CN103165129A (zh) | 2013-06-19 |
CN103165129B CN103165129B (zh) | 2015-07-01 |
Family
ID=48588153
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110415216.0A Active CN103165129B (zh) | 2011-12-13 | 2011-12-13 | 一种优化语音识别声学模型的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103165129B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105427870A (zh) * | 2015-12-23 | 2016-03-23 | 北京奇虎科技有限公司 | 一种针对停顿的语音识别方法和装置 |
CN105869624A (zh) * | 2016-03-29 | 2016-08-17 | 腾讯科技(深圳)有限公司 | 数字语音识别中语音解码网络的构建方法及装置 |
CN106971741A (zh) * | 2016-01-14 | 2017-07-21 | 芋头科技(杭州)有限公司 | 实时将语音进行分离的语音降噪的方法及系统 |
CN107342086A (zh) * | 2017-06-16 | 2017-11-10 | 北京云知声信息技术有限公司 | 语音处理方法及装置 |
CN108039168A (zh) * | 2017-12-12 | 2018-05-15 | 科大讯飞股份有限公司 | 声学模型优化方法及装置 |
CN108389577A (zh) * | 2018-02-12 | 2018-08-10 | 广州视源电子科技股份有限公司 | 优化语音识别声学模型的方法、系统、设备及存储介质 |
CN108831441A (zh) * | 2018-05-08 | 2018-11-16 | 上海依图网络科技有限公司 | 一种语音识别模型的训练方法和装置 |
CN109119067A (zh) * | 2018-11-19 | 2019-01-01 | 苏州思必驰信息科技有限公司 | 语音合成方法及装置 |
CN109599096A (zh) * | 2019-01-25 | 2019-04-09 | 科大讯飞股份有限公司 | 一种数据筛选方法及装置 |
CN109919235A (zh) * | 2019-03-13 | 2019-06-21 | 北京邮电大学 | 一种基于人工干预样本集权重的深度学习图像分类模型训练方法 |
WO2020030018A1 (en) * | 2018-08-08 | 2020-02-13 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Method for updating a speech recognition model, electronic device and storage medium |
CN112712795A (zh) * | 2020-12-29 | 2021-04-27 | 北京有竹居网络技术有限公司 | 标注数据确定方法、装置、介质及电子设备 |
CN113539245A (zh) * | 2021-07-05 | 2021-10-22 | 思必驰科技股份有限公司 | 语言模型自动训练方法及系统 |
CN115512696A (zh) * | 2022-09-20 | 2022-12-23 | 中国第一汽车股份有限公司 | 模拟训练方法及车辆 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1645477A (zh) * | 2004-01-20 | 2005-07-27 | 微软公司 | 使用用户纠正的自动语音识别学习 |
CN101432801A (zh) * | 2006-02-23 | 2009-05-13 | 日本电气株式会社 | 语音识别词典制作支持系统、语音识别词典制作支持方法以及语音识别词典制作支持用程序 |
US20090150139A1 (en) * | 2007-12-10 | 2009-06-11 | Kabushiki Kaisha Toshiba | Method and apparatus for translating a speech |
US20100145699A1 (en) * | 2008-12-09 | 2010-06-10 | Nokia Corporation | Adaptation of automatic speech recognition acoustic models |
CN101923854A (zh) * | 2010-08-31 | 2010-12-22 | 中国科学院计算技术研究所 | 一种交互式语音识别系统和方法 |
-
2011
- 2011-12-13 CN CN201110415216.0A patent/CN103165129B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1645477A (zh) * | 2004-01-20 | 2005-07-27 | 微软公司 | 使用用户纠正的自动语音识别学习 |
CN101432801A (zh) * | 2006-02-23 | 2009-05-13 | 日本电气株式会社 | 语音识别词典制作支持系统、语音识别词典制作支持方法以及语音识别词典制作支持用程序 |
US20090150139A1 (en) * | 2007-12-10 | 2009-06-11 | Kabushiki Kaisha Toshiba | Method and apparatus for translating a speech |
US20100145699A1 (en) * | 2008-12-09 | 2010-06-10 | Nokia Corporation | Adaptation of automatic speech recognition acoustic models |
CN101923854A (zh) * | 2010-08-31 | 2010-12-22 | 中国科学院计算技术研究所 | 一种交互式语音识别系统和方法 |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105427870A (zh) * | 2015-12-23 | 2016-03-23 | 北京奇虎科技有限公司 | 一种针对停顿的语音识别方法和装置 |
CN106971741A (zh) * | 2016-01-14 | 2017-07-21 | 芋头科技(杭州)有限公司 | 实时将语音进行分离的语音降噪的方法及系统 |
CN105869624B (zh) * | 2016-03-29 | 2019-05-10 | 腾讯科技(深圳)有限公司 | 数字语音识别中语音解码网络的构建方法及装置 |
CN105869624A (zh) * | 2016-03-29 | 2016-08-17 | 腾讯科技(深圳)有限公司 | 数字语音识别中语音解码网络的构建方法及装置 |
CN107342086A (zh) * | 2017-06-16 | 2017-11-10 | 北京云知声信息技术有限公司 | 语音处理方法及装置 |
CN108039168A (zh) * | 2017-12-12 | 2018-05-15 | 科大讯飞股份有限公司 | 声学模型优化方法及装置 |
CN108039168B (zh) * | 2017-12-12 | 2020-09-11 | 科大讯飞股份有限公司 | 声学模型优化方法及装置 |
CN108389577A (zh) * | 2018-02-12 | 2018-08-10 | 广州视源电子科技股份有限公司 | 优化语音识别声学模型的方法、系统、设备及存储介质 |
CN108831441A (zh) * | 2018-05-08 | 2018-11-16 | 上海依图网络科技有限公司 | 一种语音识别模型的训练方法和装置 |
CN108831441B (zh) * | 2018-05-08 | 2019-08-13 | 上海依图网络科技有限公司 | 一种语音识别模型的训练方法和装置 |
WO2020030018A1 (en) * | 2018-08-08 | 2020-02-13 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Method for updating a speech recognition model, electronic device and storage medium |
US11423880B2 (en) | 2018-08-08 | 2022-08-23 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Method for updating a speech recognition model, electronic device and storage medium |
CN109119067A (zh) * | 2018-11-19 | 2019-01-01 | 苏州思必驰信息科技有限公司 | 语音合成方法及装置 |
CN109599096A (zh) * | 2019-01-25 | 2019-04-09 | 科大讯飞股份有限公司 | 一种数据筛选方法及装置 |
CN109599096B (zh) * | 2019-01-25 | 2021-12-07 | 科大讯飞股份有限公司 | 一种数据筛选方法及装置 |
CN109919235A (zh) * | 2019-03-13 | 2019-06-21 | 北京邮电大学 | 一种基于人工干预样本集权重的深度学习图像分类模型训练方法 |
CN112712795A (zh) * | 2020-12-29 | 2021-04-27 | 北京有竹居网络技术有限公司 | 标注数据确定方法、装置、介质及电子设备 |
CN112712795B (zh) * | 2020-12-29 | 2024-04-02 | 北京有竹居网络技术有限公司 | 标注数据确定方法、装置、介质及电子设备 |
CN113539245A (zh) * | 2021-07-05 | 2021-10-22 | 思必驰科技股份有限公司 | 语言模型自动训练方法及系统 |
CN113539245B (zh) * | 2021-07-05 | 2024-03-15 | 思必驰科技股份有限公司 | 语言模型自动训练方法及系统 |
CN115512696A (zh) * | 2022-09-20 | 2022-12-23 | 中国第一汽车股份有限公司 | 模拟训练方法及车辆 |
CN115512696B (zh) * | 2022-09-20 | 2024-09-13 | 中国第一汽车股份有限公司 | 模拟训练方法及车辆 |
Also Published As
Publication number | Publication date |
---|---|
CN103165129B (zh) | 2015-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103165129B (zh) | 一种优化语音识别声学模型的方法及系统 | |
CN110263322B (zh) | 用于语音识别的音频语料筛选方法、装置及计算机设备 | |
EP4068280A1 (en) | Speech recognition error correction method, related devices, and readable storage medium | |
CN107680582B (zh) | 声学模型训练方法、语音识别方法、装置、设备及介质 | |
CN105869634B (zh) | 一种基于领域的带反馈语音识别后文本纠错方法及系统 | |
KR101417975B1 (ko) | 오디오 레코드의 엔드포인트를 자동 감지하는 방법 및 시스템 | |
CN102682763B (zh) | 修正语音输入文本中命名实体词汇的方法、装置及终端 | |
CN111341305B (zh) | 一种音频数据标注方法、装置及系统 | |
WO2018145584A1 (zh) | 一种语音端点检测方法及语音识别方法 | |
JP2007512608A (ja) | テキストフォーマッティング及びスピーチ認識のためのトピック特有のモデル | |
US11100932B2 (en) | Robust start-end point detection algorithm using neural network | |
CN106847259B (zh) | 一种音频关键词模板的筛选和优化方法 | |
CN111833902B (zh) | 唤醒模型训练方法、唤醒词识别方法、装置及电子设备 | |
US9251808B2 (en) | Apparatus and method for clustering speakers, and a non-transitory computer readable medium thereof | |
CN103680493A (zh) | 区分地域性口音的语音数据识别方法和装置 | |
CN112509566B (zh) | 一种语音识别方法、装置、设备、存储介质及程序产品 | |
US20150058005A1 (en) | Automatic Collection of Speaker Name Pronunciations | |
CN112466287B (zh) | 一种语音分割方法、装置以及计算机可读存储介质 | |
CN111951825A (zh) | 一种发音测评方法、介质、装置和计算设备 | |
CN108231063A (zh) | 一种语音控制指令的识别方法及装置 | |
WO2014173325A1 (zh) | 喉音识别方法及装置 | |
CN111477219A (zh) | 关键词区分方法、装置、电子设备和可读存储介质 | |
CN106782517A (zh) | 一种语音音频关键词过滤方法及装置 | |
CN114333828A (zh) | 用于数码产品的快速语音识别系统 | |
CN112309398B (zh) | 工作时长监控方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |