CN115862604A - 语音唤醒模型训练及语音唤醒方法、装置及计算机设备 - Google Patents
语音唤醒模型训练及语音唤醒方法、装置及计算机设备 Download PDFInfo
- Publication number
- CN115862604A CN115862604A CN202211481741.7A CN202211481741A CN115862604A CN 115862604 A CN115862604 A CN 115862604A CN 202211481741 A CN202211481741 A CN 202211481741A CN 115862604 A CN115862604 A CN 115862604A
- Authority
- CN
- China
- Prior art keywords
- awakening
- voice
- model
- sample data
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 125
- 238000000034 method Methods 0.000 title claims abstract description 74
- 238000002864 sequence alignment Methods 0.000 claims abstract description 51
- 238000002372 labelling Methods 0.000 claims abstract description 26
- 230000015654 memory Effects 0.000 claims description 25
- 230000008569 process Effects 0.000 claims description 8
- 230000010354 integration Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 6
- 238000012935 Averaging Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 4
- 238000004821 distillation Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002085 persistent effect Effects 0.000 description 2
- 238000010845 search algorithm Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000002618 waking effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000005059 dormancy Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
Images
Landscapes
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明提供语音唤醒模型训练及语音唤醒方法、装置及计算机设备,该方法包括:获取语音样本数据,语音样本数据中带有与唤醒词相关的标签;基于语音样本数据对由编码器和解码器构成的唤醒模型同步进行语音唤醒分类、序列对齐标注及音素识别的多任务学习训练,得到目标语音唤醒模型。通过本发明,能够利用多任务训练学习,使得唤醒模型同步学习不同对唤醒有用的信息,进一步实现信息之间的互补。通过对唤醒有用的信息之间的互补,提升语音唤醒模型对语音识别的准确性,最大程度上避免了误唤醒的发生,使得语音唤醒模型实现误唤醒与误拒识之间的平衡,在保证唤醒率的情况下最大程度降低了误唤醒的发生,进而提高了用户体验。
Description
技术领域
本发明涉及计算机技术领域,具体涉及语音唤醒模型训练及语音唤醒方法、装置及计算机设备。
背景技术
语音交互前,设备需要先被唤醒,从休眠状态进入工作状态,才能正常的处理用户的指令。把设备从休眠状态叫醒到工作状态就叫唤醒,常见的有触摸唤醒(锁屏键),定时唤醒(闹钟),被动唤醒(电话)等,而语音唤醒就是:通过语音的方式将设备从休眠状态切换到工作状态。
相关技术中,语音唤醒技术的一个主要难点在于平衡误唤醒和误拒识,即在保证较低的误唤醒率的情况下提升唤醒效果,目前主流的方案为了达成较低的误唤醒往往会牺牲唤醒率,增加较多的误拒识,而唤醒率低会影响用户的使用体验。
发明内容
因此,本发明要解决的技术问题在于克服现有技术中的缺陷,从而提供语音唤醒模型训练及语音唤醒方法、装置及计算机设备。
根据第一方面,本发明提供一种语音唤醒模型训练方法,所述方法包括:
获取语音样本数据,所述语音样本数据中带有与唤醒词相关的标签;
基于所述语音样本数据对由编码器和解码器构成的唤醒模型同步进行语音唤醒分类、序列对齐标注及音素识别的多任务学习训练,得到目标语音唤醒模型。
在该方式中,能够利用多任务训练学习,使得唤醒模型同步学习不同对唤醒有用的信息,进一步实现信息之间的互补。通过对唤醒有用的信息之间的互补,提升语音唤醒模型对语音识别的准确性,最大程度上避免了误唤醒的发生,使得语音唤醒模型实现误唤醒与误拒识之间的平衡,在保证唤醒率的情况下最大程度降低了误唤醒的发生,进而提高了用户体验。
结合第一方面,在第一方面的第一实施例中,所述基于所述语音样本数据对由编码器和解码器构成的唤醒模型进行语音唤醒分类的学习训练,包括:
将所述语音样本数据输入所述编码器,得到输出特征;
将所述输出特征在时序维度进行平均后输入一层全连接网络进行第一分类,并利用所述语音样本数据中带有与唤醒词相关的标签进行有监督训练,所述第一分类的类别包括:全部唤醒词和一个代表非唤醒词的类别。
结合第一方面,在第一方面的第二实施例中,所述基于所述语音样本数据对由编码器和解码器构成的唤醒模型进行序列对齐标注的学习训练,包括:
将所述语音样本数据输入所述编码器,得到输出特征;
将所述输出特征输入一层全连接网络进行第二分类,并利用所述语音样本数据中带有与唤醒词相关的标签进行有监督训练,所述第二分类的类别包括:唤醒词中包含的音素、静音类、其他发音类。
结合第一方面,在第一方面的第三实施例中,所述基于所述语音样本数据对由编码器和解码器构成的唤醒模型进行音素识别的学习训练,包括:
将所述语音样本数据输入所述编码器,得到输出特征;
将所述输出特征输入所述解码器进行声学单元整合和第三分类,并利用所述语音样本数据中带有与唤醒词相关的标签进行有监督训练,所述第三分类的类别包括:唤醒词中包含的音素、静音类、其他发音类。
结合第一方面,在第一方面的第四实施例中,所述语音样本数据包括:原始语音样本数据和增强语音样本数据,所述增强语音样本数据是对所述原始语音样本数据进行语音增强处理后得到的语音样本数据,所述方法还包括:
分别计算所述原始语音样本数据与所述增强语音样本数据在所述唤醒模型进行语音唤醒分类、序列对齐标注的学习训练过程中的对应的模型输出分布;
基于所述原始语音样本数据与所述增强语音样本数据分布对应的模型输出分布,计算KL散度损失;
基于所述KL散度损失对所述唤醒模型进行训练。
根据第二方面,本发明还提供一种语音唤醒方法,包括:
将目标语音输入采用如第一方面及其可选实施方式中任一项语音唤醒模型训练方法训练得到的目标语音唤醒模型进行语音唤醒分类,得到第一唤醒词;
将目标语音输入采用如第一方面及其可选实施方式中任一项语音唤醒模型训练方法训练得到的目标语音唤醒模型进行序列对齐标注;
比较序列对齐标注结果中是否包含所述第一唤醒词;
在序列对齐标注结果中包含所述第一唤醒词时,将序列对齐标注结果中唤醒词位置对应的目标语音唤醒模型编码器的输出特征输入解码器中进行音素识别;
比较音素识别结果中唤醒词中包含的音素、静音类、其他发音类与所述第一唤醒词是否一致;
在音素识别结果中唤醒词中包含的音素、静音类、其他发音类与所述第一唤醒词一致时,基于所述第一唤醒词对目标对象进行唤醒操作。
在该方式中,通过利用不同任务相结合训练得到的语音唤醒模型,结合不同任务之间的各自优势进行多阶段的唤醒流程,可以实现以最小的误拒识代价对误唤醒进行控制,进而大幅度降低了误拒识及误唤醒率,实现了误拒识与误唤醒的平衡,进一步提高了用户的使用体验。
结合第二方面,在第二方面的第一实施例中,在语音唤醒分类结果为非唤醒词类别时,或是,在序列对齐标注结果中不包含所述第一唤醒词时,或者,在音素识别结果中唤醒词中包含的音素、静音类、其他发音类与所述第一唤醒词不一致时,拒绝对所述目标对象进行唤醒操作。
根据第三方面,本发明还提供一种语音唤醒模型训练装置,所述装置包括:
获取单元,用于获取语音样本数据,所述语音样本数据中带有与唤醒词相关的标签;
训练单元,用于基于所述语音样本数据对由编码器和解码器构成的唤醒模型同步进行语音唤醒分类、序列对齐标注及音素识别的多任务学习训练,得到目标语音唤醒模型。
结合第三方面,在第三方面的第一实施例中,所述训练单元,包括:
第一输入单元,用于将所述语音样本数据输入所述编码器,得到输出特征;
第一训练单元,用于将所述输出特征在时序维度进行平均后输入一层全连接网络进行第一分类,并利用所述语音样本数据中带有与唤醒词相关的标签进行有监督训练,所述第一分类的类别包括:全部唤醒词和一个代表非唤醒词的类别。
结合第三方面,在第三方面的第二实施例中,所述训练单元,包括:
第二输入单元,用于将所述语音样本数据输入所述编码器,得到输出特征;
第二训练单元,用于将所述输出特征输入一层全连接网络进行第二分类,并利用所述语音样本数据中带有与唤醒词相关的标签进行有监督训练,所述第二分类的类别包括:唤醒词中包含的音素、静音类、其他发音类。
结合第二方面,在第二方面的第三实施例中,所述训练单元,包括:
第三输入单元,用于将所述语音样本数据输入所述编码器,得到输出特征;
第三训练单元,用于将所述输出特征输入所述解码器进行声学单元整合和第三分类,并利用所述语音样本数据中带有与唤醒词相关的标签进行有监督训练,所述第三分类的类别包括:唤醒词中包含的音素、静音类、其他发音类。
结合第三方面,在第三方面的第四实施例中,所述训练单元还包括:
第一计算单元,用于分别计算所述原始语音样本数据与所述增强语音样本数据在所述唤醒模型进行语音唤醒分类、序列对齐标注的学习训练过程中的对应的模型输出分布;
第二计算单元,用于基于所述原始语音样本数据与所述增强语音样本数据分布对应的模型输出分布,计算KL散度损失;
第四训练单元,用于基于所述KL散度损失对所述唤醒模型进行训练。
根据第四方面,本发明还提供一种语音唤醒装置,所述装置包括:
语音唤醒分类单元,用于将目标语音输入采用第一方面及其可选实施方式中任一项语音唤醒模型训练方法训练得到的目标语音唤醒模型进行语音唤醒分类,得到第一唤醒词;
序列对齐标注单元,用于将目标语音输入采用如第一方面及其可选实施方式中任一项语音唤醒模型训练方法训练得到的目标语音唤醒模型进行序列对齐标注;
第一比较单元,用于比较序列对齐标注结果中是否包含所述第一唤醒词;
音素识别单元,用于在序列对齐标注结果中包含所述第一唤醒词时,将序列对齐标注结果中唤醒词位置对应的目标语音唤醒模型编码器的输出特征输入解码器中进行音素识别;
第二比较单元,用于比较音素识别结果中唤醒词中包含的音素、静音类、其他发音类与所述第一唤醒词是否一致;
唤醒单元,用于在音素识别结果中唤醒词中包含的音素、静音类、其他发音类与所述第一唤醒词一致时,基于所述第一唤醒词对目标对象进行唤醒操作。
结合第四方面,在第四方面的第一实施例中,所述装置还包括:
拒识单元,用于在语音唤醒分类结果为非唤醒词类别时,或是,在序列对齐标注结果中不包含所述第一唤醒词时,或者,在音素识别结果中唤醒词中包含的音素、静音类、其他发音类与所述第一唤醒词不一致时,拒绝对所述目标对象进行唤醒操作。
根据第五方面,本发明还提供一种计算机设备,包括存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行第一方面及其可选实施方式中任一项的语音唤醒模型训练方法与第二方面及其可选方式中任一项的语音唤醒方法。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据一示例性实施例提出的一种语音唤醒模型训练方法的流程图。
图2是根据一示例性实施例提出的一种语音唤醒方法的流程图。
图3是根据一示例性实施例提出的一种语音唤醒模型训练装置的结构框图。
图4是根据一示例性实施例提出的一种语音唤醒装置的结构框图。
图5是根据一示例性实施例提出的一种计算机设备的硬件结构示意图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
相关技术中,语音唤醒技术的一个主要难点在于平衡误唤醒和误拒识,即在保证较低的误唤醒率的情况下提升唤醒效果,目前主流的方案为了达成较低的误唤醒往往会牺牲唤醒率,增加较多的误拒识。
为解决上述问题,本发明实施例中提供一种语音唤醒模型训练方法,用于计算机设备中,需要说明的是,其执行主体可以是语音唤醒模型训练装置,该装置可以通过软件、硬件或者软硬件结合的方式实现成为计算机设备的部分或者全部,其中,该计算机设备可以是终端或客户端或服务器,服务器可以是一台服务器,也可以为由多台服务器组成的服务器集群,本申请实施例中的终端可以是智能手机、个人电脑、平板电脑、可穿戴设备以及智能机器人等其他智能硬件设备。下述方法实施例中,均以执行主体是计算机设备为例来进行说明。
本实施例中的计算机设备,适用于语音唤醒的使用场景。通过本发明提供的语音唤醒模型训练方法,能够利用多任务训练学习,使得唤醒模型同步学习不同对唤醒有用的信息,进一步实现信息之间的互补。通过对唤醒有用的信息之间的互补,提升语音唤醒模型的准确性;通过三阶段的唤醒流程,最大程度上避免了误拒识和误唤醒的发生,使得语音唤醒模型实现误唤醒与误拒识之间的平衡,在保证高唤醒率的情况下最大程度减少误唤醒,进而提高了用户体验。
图1是根据一示例性实施例提出的一种语音唤醒模型训练方法的流程图。如图1所示,语音唤醒模型训练方法包括如下步骤S101至步骤S102。
在步骤S101中,获取语音样本数据。
在本发明实施例中,语音样本数据中带有与唤醒词相关的标签,该标签可以包括:唤醒词标签及唤醒词中包含的音素、静音类、其他发音类等标签。
在步骤S102中,基于语音样本数据对由编码器和解码器构成的唤醒模型同步进行语音唤醒分类、序列对齐标注及音素识别的多任务学习训练,得到目标语音唤醒模型。
在本发明实施例中,在接收到语音样本数据后,为便于对目标对象进行准确唤醒,通过多任务学习的方法对多阶段语音唤醒模型进行训练。其中,唤醒模型由编码器和解码器构成。在一示例中,唤醒模型主干结构分为编码器、解码器两部分,编码器为12层的gMPL模型,解码器由CIF连续整合发放模块和一层的transformer解码器构成。
在本发明实施例中,基于语音样本数据对由编码器和解码器构成的唤醒模型进行语音唤醒分类的学习训练,包括:将语音样本数据输入编码器,得到输出特征;将输出特征在时序维度进行平均后输入一层全连接网络进行第一分类,并利用语音样本数据中带有与唤醒词相关的标签进行有监督训练,第一分类的类别包括:全部唤醒词和一个代表非唤醒词的类别。
在一示例中,在将语音样本数据输入编码器,得到输出特征之后,进行语音唤醒分类学习任务可以包括:对通过编码器得到的语音样本输出特征在时序维度进行平均,平均后将语音样本输出特征输入一层全连接网络,采用交叉熵损失对唤醒模型进行有监督训练,得到的第一分类类别包括全部唤醒词和一个代表非唤醒词的类别。
在本发明实施例中,基于语音样本数据对由编码器和解码器构成的唤醒模型进行序列对齐标注的学习训练,包括:将语音样本数据输入编码器,得到输出特征;将输出特征输入一层全连接网络进行第二分类,并利用语音样本数据中带有与唤醒词相关的标签进行有监督训练,第二分类的类别包括:唤醒词中包含的音素、静音类、其他发音类。
在一示例中,在将语音样本数据输入编码器,得到输出特征之后,进行序列对齐标注学习任务可以包括:将通过编码器得到的语音样本输出特征输入一层全连接网络进行第二分类,对输入全连接网络得到的语音样本每一帧的结果采用交叉熵损失对唤醒模型进行有监督训练,第二分类的类别包括唤醒词中包含的音素、静音类、其他发音类。
在本发明实施例中,基于语音样本数据对由编码器和解码器构成的唤醒模型进行音素识别的学习训练,包括:将语音样本数据输入编码器,得到输出特征;将输出特征输入解码器进行声学单元整合和第三分类,并利用语音样本数据中带有与唤醒词相关的标签进行有监督训练,第三分类的类别包括:唤醒词中包含的音素、静音类、其他发音类。
在一示例中,在将语音样本数据输入编码器,得到输出特征之后,进行音素识别学习任务可以包括:将通过编码器得到的语音样本输出特征输入连续整合发放CIF模块,得到整合后的声学单元特征;再将声学单元特征输入transformer解码器进行预测,得到声学单元特征对应的音素标签;音素识别任务的损失采用交叉熵损失进行有监督训练得到,类别包括唤醒词包含的音素、静音类、其他发音类。
通过上述实施例,能够利用多任务训练学习,使得唤醒模型同步学习不同对唤醒有用的信息,进一步实现信息之间的互补。通过对唤醒有用的信息之间的互补,提升语音唤醒模型的准确性。
在一实施例中,为使目标语音唤醒模型具有鲁棒性,则通过对目标语音模型进行自蒸馏任务训练。通过自蒸馏任务训练,使得目标语音唤醒模型能够适应噪声,提升了目标语音唤醒模型的抗干扰能力,进一步提高了目标语音唤醒模型的鲁棒性,进而提升目标语音唤醒模型在噪声环境下的语音唤醒性能。在一示例中,获取增强语音样本数据方法可以包括:对语音训练样本音频进行语音增强处理,增强方法为音量扰动、音调扰动、加噪声、加混响等。
在本发明实施例中,自蒸馏任务训练方法可以包括:分别计算原始语音样本数据与增强语音样本数据在唤醒模型进行语音唤醒分类、序列对齐标注的学习训练过程中的对应的模型输出分布;基于原始语音样本数据与增强语音样本数据分布对应的模型输出分布,计算KL散度损失;基于KL散度损失对唤醒模型进行训练。
在一示例中,自蒸馏训练方法可以包括:分别计算原始语音样本数据与增强语音样本数据在唤醒模型进行语音唤醒分类、序列对齐标注的学习训练过程中的对应的模型输出分布;基于原始语音样本数据与增强语音样本数据分布对应的模型输出分布,计算KL散度损失;基于KL散度损失对唤醒模型进行训练。
图2是根据一示例性实施例提出的一种语音唤醒方法的流程图。如图2所示,语音唤醒方法包括如下步骤。
在步骤S201中,将目标语音输入采用上述实施例任一项语音唤醒模型训练方法训练得到的目标语音唤醒模型进行语音唤醒分类,得到第一唤醒词;
在步骤S202中,将目标语音输入采用上述实施例任一项语音唤醒模型训练方法训练得到的目标语音唤醒模型进行序列对齐标注;
在步骤S203中,比较序列对齐标注结果中是否包含第一唤醒词;
在步骤S204中,在序列对齐标注结果中唤醒词中包含第一唤醒词时,将序列对齐标注结果中唤醒词位置对应的目标语音唤醒模型编码器的输出特征输入解码器中进行音素识别;
在步骤S205中,比较音素识别结果中唤醒词中包含的音素、静音类、其他发音类与第一唤醒词是否一致;
在步骤S206中,在音素识别结果中唤醒词中包含的音素、静音类、其他发音类与第一唤醒词一致时,基于第一唤醒词对目标对象进行唤醒操作。
在本发明实施例中,在语音唤醒分类结果为非唤醒词类别时,或是,在序列对齐标注结果中不包含第一唤醒词时,或者,在音素识别结果中唤醒词中包含的音素、静音类、其他发音类与第一唤醒词不一致时,拒绝对目标对象进行唤醒操作。
在一示例中,语音唤醒方法可以分为三个阶段,包括:
阶段一、基于采用上述语音唤醒模型训练方法训练得到的目标语音唤醒模型快速进行拒识,特点为快速高效,无解码和后处理流程,唤醒率高,误唤醒高。具体实现方法为:通过语音唤醒分类学习训练,得到语音样本数据所对应的唤醒类别,若唤醒类别为唤醒词之一,则进行相对应的唤醒;否则进行拒识。
阶段二、基于采用上述语音唤醒模型训练方法训练得到的目标语音唤醒模型进行序列对齐标注,通过使用beamsearch算法进行解码,得到语音序列对应的音素序列;若在该音素序列中包含唤醒词,则记录唤醒词发音的开始和结束位置,继续进入第三阶段,否则拒识。
阶段三、将第二阶段唤醒词位置所对应的编码器输出特征输入音素识别任务模块,使用beamsearch算法进行解码,得到对应位置最终精准音素序列,若获得的音素序列包含唤醒词,则进行最终唤醒,否则拒识。
通过上述实施例,通过利用不同任务相结合训练得到的语音唤醒模型,结合不同任务之间的各自优势进行多阶段的唤醒流程,可以实现以最小的误拒识代价对误唤醒进行控制,大幅度降低了误唤醒率,实现了误拒识与误唤醒的平衡,进一步提高了用户的使用体验。
基于相同发明构思,本发明还提供一种语音唤醒模型训练装置。
图3是根据一示例性实施例提出的一种语音唤醒模型训练装置的结构框图。如图3所示,语音唤醒模型训练装置包括获取单元301与训练单元302。
获取单元301,用于获取语音样本数据,语音样本数据中带有与唤醒词相关的标签;
训练单元302,用于基于语音样本数据对由编码器和解码器构成的唤醒模型同步进行语音唤醒分类、序列对齐标注及音素识别的多任务学习训练,得到目标语音唤醒模型。
在一实施例中,训练单元302,包括:第一输入单元,用于将语音样本数据输入编码器,得到输出特征;第一训练单元,用于将输出特征在时序维度进行平均后输入一层全连接网络进行第一分类,并利用语音样本数据中带有与唤醒词相关的标签进行有监督训练,第一分类的类别包括:全部唤醒词和一个代表非唤醒词的类别。
在另一实施例中,训练单元302,包括:第二输入单元,用于将语音样本数据输入编码器,得到输出特征;第二训练单元,用于将输出特征输入一层全连接网络进行第二分类,并利用语音样本数据中带有与唤醒词相关的标签进行有监督训练,第二分类的类别包括:唤醒词中包含的音素、静音类、其他发音类。
在又一实施例中,训练单元302,包括:第三输入单元,用于将语音样本数据输入编码器,得到输出特征;第三训练单元,用于将输出特征输入解码器进行声学单元整合和第三分类,并利用语音样本数据中带有与唤醒词相关的标签进行有监督训练,第三分类的类别包括:唤醒词中包含的音素、静音类、其他发音类。
在又一实施例中,训练单元302还包括:第一计算单元,用于分别计算原始语音样本数据与增强语音样本数据在唤醒模型进行语音唤醒分类、序列对齐标注的学习训练过程中的对应的模型输出分布;第二计算单元,用于基于原始语音样本数据与增强语音样本数据分布对应的模型输出分布,计算KL散度损失;第四训练单元,用于基于KL散度损失对唤醒模型进行训练。
上述语音唤醒模型训练装置的具体限定以及有益效果可以参见上文中对于语音唤醒模型训练方法的限定,在此不再赘述。上述各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
图4是根据一示例性实施例提出的一种语音唤醒装置的结构框图。如图4所示,语音唤醒模型训练装置包括语音唤醒分类单元401、序列对齐标注单元402、第一比较单元403、音素识别单元404、第二比较单元405及唤醒单元406。
语音唤醒分类单元401,用于将目标语音输入采用上述任一项语音唤醒模型训练方法训练得到的目标语音唤醒模型进行语音唤醒分类,得到第一唤醒词;
序列对齐标注单元402,用于将目标语音输入采用上述任一项语音唤醒模型训练方法训练得到的目标语音唤醒模型进行序列对齐标注;
第一比较单元403,用于比较序列对齐标注结果中是否包含第一唤醒词;
音素识别单元404,用于在序列对齐标注结果中包含第一唤醒词时,将序列对齐标注结果中唤醒词位置对应的目标语音唤醒模型编码器的输出特征输入解码器中进行音素识别;
第二比较单元405,用于比较音素识别结果中唤醒词中包含的音素、静音类、其他发音类与第一唤醒词是否一致;
唤醒单元406,用于在音素识别结果中唤醒词中包含的音素、静音类、其他发音类与第一唤醒词一致时,基于第一唤醒词对目标对象进行唤醒操作。
在一实施例中,装置还包括:拒识单元,用于在语音唤醒分类结果为非唤醒词类别时,或是,在序列对齐标注结果中不包含第一唤醒词时,或者,在音素识别结果中唤醒词中包含的音素、静音类、其他发音类与第一唤醒词不一致时,拒绝对目标对象进行唤醒操作。
上述语音唤醒装置的具体限定以及有益效果可以参见上文中对于语音唤醒方法的限定,在此不再赘述。上述各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
图5是根据一示例性实施例提出的一种计算机设备的硬件结构示意图。如图5所示,该设备包括一个或多个处理器510以及存储器520,存储器520包括持久内存、易失内存和硬盘,图5中以一个处理器510为例。该设备还可以包括:输入装置530和输出装置540。
处理器510、存储器520、输入装置530和输出装置540可以通过总线或者其他方式连接,图5中以通过总线连接为例。
处理器510可以为中央处理器(Central Processing Unit,CPU)。处理器510还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器520作为一种非暂态计算机可读存储介质,包括持久内存、易失内存和硬盘,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本申请实施例中的业务管理方法对应的程序指令/模块。处理器510通过运行存储在存储器520中的非暂态软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述任意一种语音唤醒模型训练方法及语音唤醒方法。
存储器520可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据、需要使用的数据等。此外,存储器520可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器520可选包括相对于处理器510远程设置的存储器,这些远程存储器可以通过网络连接至数据处理装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置530可接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键信号输入。输出装置540可包括显示屏等显示设备。
一个或者多个模块存储在存储器520中,当被一个或者多个处理器510执行时,执行如图1-图2所示的方法。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,具体可参见如图1-图2所示的实施例中的相关描述。
本发明实施例还提供了一种非暂态计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的认证方法。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(RandomAccess Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;存储介质还可以包括上述种类的存储器的组合。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
Claims (10)
1.一种语音唤醒模型训练方法,其特征在于,所述方法包括:
获取语音样本数据,所述语音样本数据中带有与唤醒词相关的标签;
基于所述语音样本数据对由编码器和解码器构成的唤醒模型同步进行语音唤醒分类、序列对齐标注及音素识别的多任务学习训练,得到目标语音唤醒模型。
2.根据权利要求1所述的方法,其特征在于,所述基于所述语音样本数据对由编码器和解码器构成的唤醒模型进行语音唤醒分类的学习训练,包括:
将所述语音样本数据输入所述编码器,得到输出特征;
将所述输出特征在时序维度进行平均后输入一层全连接网络进行第一分类,并利用所述语音样本数据中带有与唤醒词相关的标签进行有监督训练,所述第一分类的类别包括:全部唤醒词和一个代表非唤醒词的类别。
3.根据权利要求1所述的方法,其特征在于,所述基于所述语音样本数据对由编码器和解码器构成的唤醒模型进行序列对齐标注的学习训练,包括:
将所述语音样本数据输入所述编码器,得到输出特征;
将所述输出特征输入一层全连接网络进行第二分类,并利用所述语音样本数据中带有与唤醒词相关的标签进行有监督训练,所述第二分类的类别包括:唤醒词中包含的音素、静音类、其他发音类。
4.根据权利要求1所述的方法,其特征在于,所述基于所述语音样本数据对由编码器和解码器构成的唤醒模型进行音素识别的学习训练,包括:
将所述语音样本数据输入所述编码器,得到输出特征;
将所述输出特征输入所述解码器进行声学单元整合和第三分类,并利用所述语音样本数据中带有与唤醒词相关的标签进行有监督训练,所述第三分类的类别包括:唤醒词中包含的音素、静音类、其他发音类。
5.根据权利要求1所述的方法,其特征在于,所述语音样本数据包括:原始语音样本数据和增强语音样本数据,所述增强语音样本数据是对所述原始语音样本数据进行语音增强处理后得到的语音样本数据,所述方法还包括:
分别计算所述原始语音样本数据与所述增强语音样本数据在所述唤醒模型进行语音唤醒分类、序列对齐标注的学习训练过程中的对应的模型输出分布;
基于所述原始语音样本数据与所述增强语音样本数据分布对应的模型输出分布,计算KL散度损失;
基于所述KL散度损失对所述唤醒模型进行训练。
6.一种语音唤醒方法,其特征在于,包括:
将目标语音输入采用如权利要求1-5任一项语音唤醒模型训练方法训练得到的目标语音唤醒模型进行语音唤醒分类,得到第一唤醒词;
将目标语音输入采用如权利要求1-5任一项语音唤醒模型训练方法训练得到的目标语音唤醒模型进行序列对齐标注;
比较序列对齐标注结果中是否包含所述第一唤醒词;
在序列对齐标注结果中包含所述第一唤醒词时,将序列对齐标注结果中唤醒词位置对应的目标语音唤醒模型编码器的输出特征输入解码器中进行音素识别;
比较音素识别结果中唤醒词中包含的音素、静音类、其他发音类与所述第一唤醒词是否一致;
在音素识别结果中唤醒词中包含的音素、静音类、其他发音类与所述第一唤醒词一致时,基于所述第一唤醒词对目标对象进行唤醒操作。
7.根据权利要求6所述的方法,其特征在于,
在语音唤醒分类结果为非唤醒词类别时,或是,在序列对齐标注结果中不包含所述第一唤醒词时,或者,在音素识别结果中唤醒词中包含的音素、静音类、其他发音类与所述第一唤醒词不一致时,拒绝对所述目标对象进行唤醒操作。
8.一种语音唤醒模型训练装置,其特征在于,所述装置包括:
获取单元,用于获取语音样本数据,所述语音样本数据中带有与唤醒词相关的标签;
训练单元,用于基于所述语音样本数据对由编码器和解码器构成的唤醒模型同步进行语音唤醒分类、序列对齐标注及音素识别的多任务学习训练,得到目标语音唤醒模型。
9.一种语音唤醒模型训练装置,其特征在于,所述装置包括:
语音唤醒分类单元,用于将目标语音输入采用如权利要求1-5任一项语音唤醒模型训练方法训练得到的目标语音唤醒模型进行语音唤醒分类,得到第一唤醒词;
序列对齐标注单元,用于将目标语音输入采用如权利要求1-5任一项语音唤醒模型训练方法训练得到的目标语音唤醒模型进行序列对齐标注;
第一比较单元,用于比较序列对齐标注结果中唤醒词中包含的音素、静音类、其他发音类与所述第一唤醒词是否一致;
音素识别单元,用于在序列对齐标注结果中唤醒词中包含的音素、静音类、其他发音类与所述第一唤醒词一致时,将序列对齐标注结果中唤醒词位置对应的目标语音唤醒模型编码器的输出特征输入解码器中进行音素识别;
第二比较单元,用于比较音素识别结果中唤醒词中包含的音素、静音类、其他发音类与所述第一唤醒词是否一致;
唤醒单元,用于在音素识别结果中唤醒词中包含的音素、静音类、其他发音类与所述第一唤醒词一致时,基于所述第一唤醒词对目标对象进行唤醒操作。
10.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行权利要求1-5中任一项所述的语音唤醒模型训练方法或者执行权利要求6-7中任一项所述的语音唤醒方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211481741.7A CN115862604B (zh) | 2022-11-24 | 2022-11-24 | 语音唤醒模型训练及语音唤醒方法、装置及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211481741.7A CN115862604B (zh) | 2022-11-24 | 2022-11-24 | 语音唤醒模型训练及语音唤醒方法、装置及计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115862604A true CN115862604A (zh) | 2023-03-28 |
CN115862604B CN115862604B (zh) | 2024-02-20 |
Family
ID=85665818
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211481741.7A Active CN115862604B (zh) | 2022-11-24 | 2022-11-24 | 语音唤醒模型训练及语音唤醒方法、装置及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115862604B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117475998A (zh) * | 2023-12-28 | 2024-01-30 | 慧言科技(天津)有限公司 | 基于lora微调辅助的语音唤醒快速自适应方法 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106098059A (zh) * | 2016-06-23 | 2016-11-09 | 上海交通大学 | 可定制语音唤醒方法及系统 |
CN107767861A (zh) * | 2016-08-22 | 2018-03-06 | 科大讯飞股份有限公司 | 语音唤醒方法、系统及智能终端 |
CN108281137A (zh) * | 2017-01-03 | 2018-07-13 | 中国科学院声学研究所 | 一种全音素框架下的通用语音唤醒识别方法及系统 |
WO2019001428A1 (zh) * | 2017-06-29 | 2019-01-03 | 阿里巴巴集团控股有限公司 | 一种语音唤醒方法、装置以及电子设备 |
US10229672B1 (en) * | 2015-12-31 | 2019-03-12 | Google Llc | Training acoustic models using connectionist temporal classification |
CN110033758A (zh) * | 2019-04-24 | 2019-07-19 | 武汉水象电子科技有限公司 | 一种基于小训练集优化解码网络的语音唤醒实现方法 |
CN110600008A (zh) * | 2019-09-23 | 2019-12-20 | 苏州思必驰信息科技有限公司 | 语音唤醒的优化方法及系统 |
US20200117996A1 (en) * | 2017-06-06 | 2020-04-16 | Google Llc | Unified Endpointer Using Multitask and Multidomain Learning |
CN111933112A (zh) * | 2020-09-21 | 2020-11-13 | 北京声智科技有限公司 | 唤醒语音确定方法、装置、设备及介质 |
CN112259089A (zh) * | 2019-07-04 | 2021-01-22 | 阿里巴巴集团控股有限公司 | 语音识别方法及装置 |
CN113035231A (zh) * | 2021-03-18 | 2021-06-25 | 三星(中国)半导体有限公司 | 关键词检测方法及装置 |
CN113838462A (zh) * | 2021-09-09 | 2021-12-24 | 北京捷通华声科技股份有限公司 | 语音唤醒方法、装置、电子设备及计算机可读存储介质 |
CN113963688A (zh) * | 2021-12-23 | 2022-01-21 | 深圳市友杰智新科技有限公司 | 语音唤醒模型的训练方法、唤醒词的检测方法和相关设备 |
CN114694637A (zh) * | 2020-12-30 | 2022-07-01 | 北大方正集团有限公司 | 混合语音识别方法、装置、电子设备及存储介质 |
CN115116433A (zh) * | 2022-06-17 | 2022-09-27 | 新疆大学 | 一种基于音素嵌入的语音识别方法 |
WO2023029615A1 (zh) * | 2021-08-30 | 2023-03-09 | 华为技术有限公司 | 语音唤醒的方法、装置、设备、存储介质及程序产品 |
-
2022
- 2022-11-24 CN CN202211481741.7A patent/CN115862604B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10229672B1 (en) * | 2015-12-31 | 2019-03-12 | Google Llc | Training acoustic models using connectionist temporal classification |
CN106098059A (zh) * | 2016-06-23 | 2016-11-09 | 上海交通大学 | 可定制语音唤醒方法及系统 |
CN107767861A (zh) * | 2016-08-22 | 2018-03-06 | 科大讯飞股份有限公司 | 语音唤醒方法、系统及智能终端 |
CN108281137A (zh) * | 2017-01-03 | 2018-07-13 | 中国科学院声学研究所 | 一种全音素框架下的通用语音唤醒识别方法及系统 |
US20200117996A1 (en) * | 2017-06-06 | 2020-04-16 | Google Llc | Unified Endpointer Using Multitask and Multidomain Learning |
WO2019001428A1 (zh) * | 2017-06-29 | 2019-01-03 | 阿里巴巴集团控股有限公司 | 一种语音唤醒方法、装置以及电子设备 |
CN110033758A (zh) * | 2019-04-24 | 2019-07-19 | 武汉水象电子科技有限公司 | 一种基于小训练集优化解码网络的语音唤醒实现方法 |
CN112259089A (zh) * | 2019-07-04 | 2021-01-22 | 阿里巴巴集团控股有限公司 | 语音识别方法及装置 |
CN110600008A (zh) * | 2019-09-23 | 2019-12-20 | 苏州思必驰信息科技有限公司 | 语音唤醒的优化方法及系统 |
CN111933112A (zh) * | 2020-09-21 | 2020-11-13 | 北京声智科技有限公司 | 唤醒语音确定方法、装置、设备及介质 |
CN114694637A (zh) * | 2020-12-30 | 2022-07-01 | 北大方正集团有限公司 | 混合语音识别方法、装置、电子设备及存储介质 |
CN113035231A (zh) * | 2021-03-18 | 2021-06-25 | 三星(中国)半导体有限公司 | 关键词检测方法及装置 |
WO2023029615A1 (zh) * | 2021-08-30 | 2023-03-09 | 华为技术有限公司 | 语音唤醒的方法、装置、设备、存储介质及程序产品 |
CN113838462A (zh) * | 2021-09-09 | 2021-12-24 | 北京捷通华声科技股份有限公司 | 语音唤醒方法、装置、电子设备及计算机可读存储介质 |
CN113963688A (zh) * | 2021-12-23 | 2022-01-21 | 深圳市友杰智新科技有限公司 | 语音唤醒模型的训练方法、唤醒词的检测方法和相关设备 |
CN115116433A (zh) * | 2022-06-17 | 2022-09-27 | 新疆大学 | 一种基于音素嵌入的语音识别方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117475998A (zh) * | 2023-12-28 | 2024-01-30 | 慧言科技(天津)有限公司 | 基于lora微调辅助的语音唤醒快速自适应方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115862604B (zh) | 2024-02-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10943582B2 (en) | Method and apparatus of training acoustic feature extracting model, device and computer storage medium | |
CN107134279B (zh) | 一种语音唤醒方法、装置、终端和存储介质 | |
WO2021093449A1 (zh) | 基于人工智能的唤醒词检测方法、装置、设备及介质 | |
CN108595406B (zh) | 一种用户状态的提醒方法、装置、电子设备及存储介质 | |
CN113674746B (zh) | 人机交互方法、装置、设备以及存储介质 | |
CN110706707B (zh) | 用于语音交互的方法、装置、设备和计算机可读存储介质 | |
CN114242065A (zh) | 语音唤醒方法及装置、语音唤醒模块的训练方法及装置 | |
CN113160819B (zh) | 用于输出动画的方法、装置、设备、介质和产品 | |
CN111625649A (zh) | 文本处理方法、装置、电子设备及介质 | |
CN113611316A (zh) | 人机交互方法、装置、设备以及存储介质 | |
CN112767916A (zh) | 智能语音设备的语音交互方法、装置、设备、介质及产品 | |
CN110428052B (zh) | 深度神经网络模型的构建方法、装置、介质及电子设备 | |
CN113838462B (zh) | 语音唤醒方法、装置、电子设备及计算机可读存储介质 | |
CN115862604B (zh) | 语音唤醒模型训练及语音唤醒方法、装置及计算机设备 | |
CN111625636A (zh) | 一种人机对话的拒绝识别方法、装置、设备、介质 | |
CN111276127A (zh) | 语音唤醒方法、装置、存储介质及电子设备 | |
CN113470646B (zh) | 一种语音唤醒方法、装置及设备 | |
CN115457938A (zh) | 识别唤醒词的方法、装置、存储介质及电子装置 | |
CN114842855A (zh) | 语音唤醒模型的训练、唤醒方法、装置、设备及存储介质 | |
CN112306560B (zh) | 用于唤醒电子设备的方法和装置 | |
CN113160823A (zh) | 基于脉冲神经网络的语音唤醒方法、装置及电子设备 | |
CN117037772A (zh) | 语音音频分割方法、装置、计算机设备、存储介质 | |
CN117275466A (zh) | 一种业务意图识别方法、装置、设备及其存储介质 | |
CN113707154B (zh) | 模型训练方法、装置、电子设备和可读存储介质 | |
CN111048068A (zh) | 语音唤醒方法、装置、系统及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |