CN112863496B

CN112863496B - 一种语音端点检测方法以及装置

Info

Publication number: CN112863496B
Application number: CN201911181820.4A
Authority: CN
Inventors: 袁斌
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-11-27
Filing date: 2019-11-27
Publication date: 2024-04-02
Anticipated expiration: 2039-11-27
Also published as: CN112863496A

Abstract

本申请公开了一种语音端点检测方法以及装置，该方法包括：获得目标语音数据；获得语音识别解码器针对目标语音数据进行语音识别后所生成的中间语音识别结果；基于语音后端点判别模型对目标语音数据进行解码，获得目标语音单元序列；根据中间语音识别结果，调整语音后端点检测参数，获得目标检测参数；根据目标检测参数，对目标语音单元序列的后端点进行判别，获得语音后端点判别结果。通过使用本方法，可基于语音识别过程中输出的中间语音识别结果实时调整语音后端点检测参数，实现语音后端点的动态检测，避免现有的语音端点检测过程因过于依赖语音识别结果而具有局限性。

Description

一种语音端点检测方法以及装置

技术领域

本申请涉及计算机技术领域，具体涉及一种语音端点检测方法。本申请同时涉及一种语音端点检测装置以及一种电子设备。

背景技术

语音端点指的是静音和有效语音信号变化临界点，语音端点检测(VoiceActivity Detection，VAD)又称语音活动检测或语音边界检测，目的是从语音信号中识别和消除长时间的静音期，用于确定语音的起点和终点，语音端点检测的正确与否对语音识别的性能有很大影响。尤其在人机交互类场景应用中，端点检测的效果直接影响用户体验。

例如，在语音学习软件中，用户录音评测时进行端点检测，检测到语音结束时，自动停止录音，省去了用户点击停止录音按钮的繁琐操作，可提升用户体验。再例如，在某些录音场景下，需要用户朗读完完整的文本内容后停止录音，如果用户朗读了一半文本内容后停留了较长时间，现有的端点检测技术可能根据检测出的该段静音过早的确定出语音结束点，并停止录音，无法满足预订的录音需求，降低用户体验。

现有的语音端点检测方法主要基于语音识别解码器实现，在对输入的语音数据进行语音识别的同时进行语音端点检测，然而，在该语音端点检测方法的实施过程中，语音端点检测的效果过于依赖语音识别结果，例如，需在语音识别解码器的标签(Token)走到用于标识语音结束的标记</s>时获取对应的识别结果，即，根据该标记所对应的状态节点上携带的回溯信息进行语音端点判停，如果语音识别解码器没有上述识别结果，则无法进行语音端点判停，使得语音端点检测过程因过于依赖语音识别结果而具有局限性。

发明内容

本申请实施例提供一种语音端点检测方法，以解决现有的语音端点检测过程因过于依赖语音识别结果而具有局限性的问题。本申请另外提供一种语音端点检测装置以及一种电子设备。

本申请实施例提供一种语音端点检测方法，包括：

获得目标语音数据；

获得语音识别解码器针对所述目标语音数据进行语音识别后所生成的中间语音识别结果；

基于语音后端点判别模型对所述目标语音数据进行解码，获得目标语音单元序列；

根据所述中间语音识别结果，调整语音后端点检测参数，获得目标检测参数；

根据所述目标检测参数，对所述目标语音单元序列的后端点进行判别，获得语音后端点判别结果。

可选的，所述基于语音后端点判别模型对所述目标语音数据进行解码，获得目标语音单元序列，包括：

将语音识别解码器中的上下文相关的建模单元映射为上下文不相关的建模单元；

基于所述上下文不相关的建模单元建立语音后端点判别模型；

基于所述语音后端点判别模型对所述目标语音数据进行识别，获得目标语音单元序列。

可选的，所述建模单元为音素，所述将所述语音识别解码器中的上下文相关的建模单元映射为上下文不相关的建模单元，包括：

获得所述语音识别解码器中的每个目标音素的左相关音素和右相关音素；

获得所述目标音素的状态转移概率值和所述目标音素对应的每个状态输出观测序列的概率值，获得所述左相关音素的状态转移概率值和所述左相关音素对应的每个状态输出观测序列的概率值，以及获得所述右相关音素的状态转移概率值和所述右相关音素对应的每个状态输出观测序列的概率值；

对所述目标音素的状态转移概率值、所述左相关音素的状态转移概率值、以及所述右相关音素的状态转移概率值求取平均值，获得状态转移概率均值；并且对所述目标音素对应的每个状态输出观测序列的概率值、所述左相关音素对应的每个状态输出观测序列的概率值、以及所述右相关音素对应的每个状态输出观测序列的概率值求取平均值，获得状态输出观测序列的概率均值；

将所述状态转移概率均值确定为所述目标音素的目标状态转移概率值，并将所述状态输出观测序列的概率均值确定为所述目标音素的目标状态输出观测序列的概率值。

可选的，所述基于所述语音后端点判别模型对所述目标语音数据进行识别，获得目标语音单元序列，包括：获得所述目标语音数据的目标观测序列；根据所述目标观测序列在所述语音后端点判别模型中出现的先后顺序，依次递推计算输出目标观测序列的概率值；采用令牌传递算法，利用所述语音后端点判别模型对所述目标语音数据进行解码，获得输出目标观测序列的概率值最大时所对应的目标状态路径；将所述目标状态路径所对应的语音单元序列确定为所述目标语音单元序列。

可选的，所述采用令牌传递算法，利用所述语音后端点判别模型对所述目标语音数据进行解码，包括：对所述目标语音数据进行预处理，获得音频帧；对所述音频帧进行特征提取，获得目标音频特征；将所述目标音频特征输入所述语音后端点判别模型，采用令牌传递算法进行解码。

可选的，所述根据所述中间语音识别结果，调整语音后端点检测参数，获得目标检测参数，包括：根据所述中间语音识别结果，调整语音后端点的静音检测时间，获得目标静音检测时间；

对应的，所述根据所述目标检测参数，对所述目标语音单元序列的后端点进行判别，获得语音后端点判别结果，包括：根据所述目标静音检测时间，对所述目标语音单元序列的后端点进行判别，获得语音后端点判别结果。

可选的，所述根据所述中间语音识别结果，调整语音后端点的静音检测时间，获得目标静音检测时间，包括：如果所述中间语音识别结果在第一预定时间段内未发生变化，则缩短语音后端点的静音检测时间，获得用于判别语音后端点的目标静音检测时间。

可选的，还包括：如果所述中间语音识别结果在第二预定时间段内未发生变化，则对目标语音数据进行语义识别，获得目标语义识别结果；判断所述目标语义识别结果是否与预定的用于判别语音后端点的目标语义信息相匹配；

所述基于语音后端点判别模型对所述目标语音数据进行解码，获得目标语音单元序列，包括：如果所述目标语义识别结果与所述用于判别语音后端点的目标语义信息不匹配，则基于语音后端点判别模型对所述目标语音数据进行解码，获得目标语音单元序列。

可选的，还包括：如果目标语义识别结果与预定的用于判别语音后端点的目标语义信息相匹配，则确定当前时间点为所述目标语音数据的语音后端点。

可选的，所述获得目标语音数据，包括：如果所述目标语音数据的语音输入端未检测获得所述目标语音数据的语音后端点，则接收所述语音输入端发送的所述目标语音数据。

可选的，还包括：如果所述语音后端点判别结果表示已检测出所述目标语音数据的语音后端点，则输出所述语音后端点对应的标识信息。

可选的，还包括：输出语音后端点核准信息，所述语音后端点核准信息用于供用户确认所述语音后端点是否为真实语音后端点；获得用户针对所述语音后端点核准信息的反馈信息。

本申请实施例还提供一种语音端点检测方法，包括：

在客户端未检测获得目标语音数据的语音后端点之后，接收所述客户端发送的所述目标语音数据；获得语音识别解码器针对所述目标语音数据进行语音识别后所生成的中间语音识别结果；基于语音后端点判别模型对所述目标语音数据进行解码，获得目标语音单元序列；根据所述中间语音识别结果，调整语音后端点检测参数，获得目标检测参数；根据所述目标检测参数，对所述目标语音单元序列的后端点进行判别，获得语音后端点判别结果；将所述语音后端点判别结果发送给所述客户端。

可选的，所述将所述语音后端点判别结果发送给所述客户端，包括：如果所述语音后端点判别结果表示已检测出所述目标语音数据的语音后端点，则将所述语音后端点判别结果发送给所述客户端。

本申请实施例还提供一种语音端点检测系统，包括：第一语音端点检测模块、语义检测模块以及第二语音端点检测模块；

所述第一语音端点检测模块用于，通过语音识别解码器对目标语音数据进行语音后端点检测，在未检测获得所述目标语音数据的语音后端点之后，将所述目标语音数据发送给所述语义检测模块；

所述语义检测模块用于，对所述目标语音数据进行语义识别，获得目标语义识别结果；判断所述目标语义识别结果是否与预定的用于判别语音后端点的目标语义信息相匹配；如果所述目标语义识别结果与预定的用于判别语音后端点的目标语义信息相匹配，则确定当前时间点为所述目标语音数据的语音后端点；如果所述目标语义识别结果与预定的用于判别语音后端点的目标语义信息不匹配，则将所述目标语音数据发送给所述第二语音端点检测模块；

所述第二语音端点检测模块用于，获得语音识别解码器针对所述目标语音数据进行语音识别后所生成的中间语音识别结果；基于语音后端点判别模型对所述目标语音数据进行解码，获得目标语音单元序列；根据所述中间语音识别结果，调整语音后端点检测参数，获得目标检测参数；根据所述目标检测参数，对所述目标语音单元序列的后端点进行判别，获得语音后端点判别结果。

可选的，所述第一语音端点检测模块设置于客户端，所述语义检测模块和所述第二语音端点检测模块设置于服务器。

本申请实施例还提供一种语音端点检测系统，包括：目标语音数据分发模块、第一语音端点检测模块、语义检测模块、第二语音端点检测模块以及语音后端点确认模块；

所述目标语音数据分发模块用于将目标语音数据分发至所述第一语音端点检测模块、所述语义检测模块、以及所述第二语音端点检测模块；

所述第一语音端点检测模块用于，通过语音识别解码器对所述目标语音数据进行语音后端点检测，获得第一语音后端点判别结果；

所述语义检测模块用于，对所述目标语音数据进行语义识别，获得目标语义识别结果；判断所述目标语义识别结果是否与预定的用于判别语音后端点的目标语义信息相匹配，获得语义匹配结果；根据所述语义匹配结果获得第二语音后端点判别结果；

所述第二语音端点检测模块用于，获得语音识别解码器针对所述目标语音数据进行语音识别后所生成的中间语音识别结果；基于语音后端点判别模型对所述目标语音数据进行解码，获得目标语音单元序列；根据所述中间语音识别结果，调整语音后端点检测参数，获得目标检测参数；根据所述目标检测参数，对所述目标语音单元序列的后端点进行判别，获得第三语音后端点判别结果；

所述语音后端点确认模块用于，根据所述第一语音后端点判别结果、所述第二语音后端点判别结果以及所述第三语音后端点判别结果中的至少两种判别结果，确认出针对所述目标语音数据的目标语音后端点判别结果。

可选的，所述根据所述第一语音后端点判别结果、所述第二语音后端点判别结果以及所述第三语音后端点判别结果中的至少两种判别结果，确认出针对所述目标语音数据的目标语音后端点判别结果，包括：根据获得所述第一语音后端点判别结果、所述第二语音后端点判别结果或者所述第三语音后端点判别结果中的至少两种判别结果的时间先后顺序，将最先获得的判别结果确定为针对所述目标语音数据的目标语音后端点判别结果。

本申请实施例还提供一种语音后端点检测装置，包括：

目标语音数据获得单元，用于获得目标语音数据；

中间语音识别结果获得单元，用于获得语音识别解码器针对所述目标语音数据进行语音识别后所生成的中间语音识别结果；

目标语音单元序列获得单元，用于基于语音后端点判别模型对所述目标语音数据进行解码，获得目标语音单元序列；

目标静音检测时间获得单元，用于根据所述中间语音识别结果，调整语音后端点检测参数，获得目标检测参数；

语音后端点判别单元，用于根据所述目标检测参数，对所述目标语音单元序列的语音后端点进行判别，获得语音后端点判别结果。

本申请实施例还提供一种电子设备，包括：处理器以及存储器，存储器用于存储语音后端点检测程序，所述程序在被所述处理器读取执行时，执行如下操作：获得目标语音数据；获得语音识别解码器针对所述目标语音数据进行语音识别后所生成的中间语音识别结果；基于语音后端点判别模型对所述目标语音数据进行解码，获得目标语音单元序列；根据所述中间语音识别结果，调整语音后端点检测参数，获得目标检测参数；根据所述目标检测参数，对所述目标语音单元序列的语音后端点进行判别，获得语音后端点判别结果。

与现有技术相比，本申请实施例具有以下优点：

本申请实施例提供的语音端点检测方法通过使用语音后端点判别模型对目标语音数据进行解码，获得目标语音单元序列，根据中间语音识别结果调整语音后端点检测参数，并根据调整后的检测参数对目标语音单元序列的后端点进行判别，获得语音后端点判别结果，该方法将语音后端点检测过程与语音识别过程同步进行，并通过本方法提供的端点检测链路将语音端点检测与语音识别过程进行解耦合处理，将语音后端点检测过程与当前语音的适用场景相结合，基于语音识别过程中输出的中间语音识别结果实时调整语音后端点检测参数，实现语音后端点的动态检测，避免现有的语音端点检测过程中因过于依赖语音识别结果而具有局限性的问题。

附图说明

图1是本申请第一实施例提供的语音端点检测方法的流程图；

图2是本申请第二实施例提供的语音端点检测方法的流程图；

图3是本申请第三实施例提供的语音端点检测系统的示意图；

图4是本申请第四实施例提供的语音端点检测系统的示意图；

图5是本申请第五实施例提供的语音端点检测装置的单元框图；

图6是本申请第六实施例提供的电子设备的逻辑结构示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

针对语音端点检测场景，为了提升语音端点检测的适用性，本申请提供了一种语音端点检测方法、与该方法相对应的语音端点检测装置以及电子设备。以下提供实施例对所述方法、装置以及电子设备进行详细说明。

本申请第一实施例提供一种语音端点检测方法，该方法的应用主体可以为用于进行语音端点检测的计算设备应用，图1为本申请第一实施例提供的语音端点检测方法的流程图，以下结合图1对本实施例提供的方法进行详细描述。以下描述所涉及的实施例是用来解释说明方法原理，不是实际使用的限定。

如图1所示，本实施例提供的语音端点检测方法包括如下步骤：

S101，获得目标语音数据。

目标语音数据指的是需进行语音后端点检测的语音数据，例如在车载环境下驾驶人员的导航语音。

所述获得目标语音数据，可以是指在所述目标语音数据的语音输入端未检测获得所述目标语音数据的语音后端点后，接收所述语音输入端发送的所述目标语音数据。该语音输入端可以是指用户所使用的智能移动终端或者设置于发声用户本地的终端，例如车载导航设备。

S102，获得语音识别解码器针对所述目标语音数据进行语音识别后所生成的中间语音识别结果。

在本实施例中，针对目标语音数据进行语音识别的过程与语音端点检测的过程同步进行。本方法的实现需基于语音识别解码器而实现，即，在获得语音识别解码器的中间语音识别结果之后，才可进行目标语音数据的后端点检测。在本实施例中，该中间语音识别结果优选为中间语音的静音帧的个数。

S103，基于语音后端点判别模型对所述目标语音数据进行解码，获得目标语音单元序列。

本步骤的实施过程不同于现有的语音识别解码器的解码过程，其为在现有的语音识别解码器的解码过程的基础上的简化操作。本步骤基于语音后端点判别模型对目标语音数据进行解码，该语音后端点判别模型的建模单元为针对上述语音识别解码器的建模单元进行映射后所获得的解码单元，即，将上下文相关的建模单元映射为上下文不相关的建模单元，上下文不相关的建模单元所对应的状态节点的数量大大少于上下文相关的建模单元所对应的状态节点的数量，因此，该映射的目的在于减少模型的状态节点的数量，从而减少解码过程的计算量。其原因在于：针对目标语音数据进行语音端点检测的过程相对于语音识别的过程，其对识别结果的精度要求更低，即，语音端点检测过程只需判别出声音和静音，而对于声音的具体内容，则无要求，因此其路径搜索过程可相对简单。

在本实施例中，上述基于语音后端点判别模型对所述目标语音数据进行解码，获得目标语音单元序列的过程可以包括如下内容：

首先，将上述语音识别解码器中的上下文相关的建模单元映射为上下文不相关的建模单元；

其次，基于所述上下文不相关的建模单元，获得所述语音后端点判别模型；

最后，基于所述语音后端点判别模型对所述目标语音数据进行识别，获得目标语音单元序列。

上述将语音识别解码器中的上下文相关的建模单元映射为上下文不相关的建模单元，指的是对语音识别解码器的声学模型中的建模单元进行简化映射，以此减少模型中的状态节点的数量，该声学模型优选的为隐马尔可夫网络(HMM)模型，在本实施例中，语音识别解码器中的上下文相关的建模单元可以为音素，对应的，简化映射后的上下文不相关的建模单元同样为音素，该过程具体包括如下内容：

首先，获得所述语音识别解码器中的每个目标音素的左相关音素和右相关音素；此处的左相关音素和右相关音素均为目标音素的上下文相关音素。例如，语音识别解码器的声学模型中包含26个音素(建模单元)，则该26个音素均为上述目标音素。

其次，获得所述目标音素的状态转移概率值和所述目标音素对应的每个状态输出观测序列的概率值，获得所述左相关音素的状态转移概率值和所述左相关音素对应的每个状态输出观测序列的概率值，以及获得所述右相关音素的状态转移概率值和所述右相关音素对应的每个状态输出观测序列的概率值；

然后，对所述目标音素的状态转移概率值、所述左相关音素的状态转移概率值、以及所述右相关音素的状态转移概率值求取平均值，获得状态转移概率均值，并且对所述目标音素对应的每个状态输出观测序列的概率值、所述左相关音素对应的每个状态输出观测序列的概率值、以及所述右相关音素对应的每个状态输出观测序列的概率值求取平均值，获得状态输出观测序列的概率均值；

最后，将上述状态转移概率均值确定为所述目标音素的目标状态转移概率值，并将上述状态输出观测序列的概率均值确定为所述目标音素的目标状态输出观测序列的概率值。

经过上述映射之后，每个建模单元仅对应一个状态节点，即，以音素作为语音后端点判别模型的声学模型的节点，上述目标音素的目标状态转移概率值和目标状态输出观测序列的概率值即为该网络节点所对应的概率值。例如，针对上述26个音素(建模单元)进行映射后，所获得的语音后端点判别模型为包含26个状态节点的隐马尔可夫网络(HMM)模型。

在本实施例中，上述基于所述语音后端点判别模型对所述目标语音数据进行识别，获得目标语音单元序列，具体可以为：获得所述目标语音数据所对应的目标观测序列；根据所述目标观测序列在所述语音后端点判别模型中出现的先后顺序，依次递推计算输出目标观测序列的概率值；采用令牌传递算法，利用所述语音后端点判别模型对所述目标语音数据进行解码，获得输出目标观测序列的概率值最大时所对应的目标状态路径；将所述目标状态路径所对应的语音单元序列确定为所述目标语音单元序列。

上述采用令牌传递算法，利用所述语音后端点判别模型对所述目标语音数据进行解码的过程具体包括如下内容：

首先，对所述目标语音数据进行预处理，获得音频帧；该过程具体为：通过A/D转换把模拟语音信号转化为数字信号，对该数字信号进行预加重处理，提高数字信号的高频部分，随后进行分帧加窗处理，以此将非平稳的语音信号数据点分成以音频帧为单位的短时信号。

其次，对所述音频帧进行特征提取，获得目标音频特征；在本实施例中，音频特征为MFCC语音特征，提取特征的过程为将声音信号转化为Mel频率。

最后，将所述目标音频特征输入所述语音后端点判别模型，采用令牌传递算法进行解码。语音后端点判别模型中每个状态节点的最大概率路径都被记录在对应的模型节点中，最大概率路径入弧节点被记录在模型节点变量中。令牌随着目标音频特征的输入而发生传递，在传递终止时，基于令牌中存储的回溯信息，通过计算每个状态路径产生目标语音数据的观测序列的最大似然值(概率值)的大小判断是否优先路径，对数似然值越大，则该路径越可能是优先路径。路径的对数似然值等于路径经过的所有跳转弧的对数似然值(跳转概率值)加上它经过的所有HMM的节点状态相关联的观测序列的对数概率密度(观测序列输出概率值)之和。采用令牌传递算法进行解码，其减少了语音后端点判别模型的搜索网络中的冗余，不仅空间复杂度和计算资源的开销大大降低，而且提高了语音后端点判别模型的解码效率。

需要说明的是，上述步骤S102和S103的实施顺序并未限定，即，也可在基于语音后端点判别模型对目标语音数据进行解码，且获得目标语音单元序列之后，再获得语音识别解码器针对目标语音数据进行语音识别后所生成的中间语音识别结果。

S104，根据所述中间语音识别结果调整语音后端点检测参数，获得目标检测参数。

在上述步骤获得语音识别解码器针对目标语音数据进行语音识别后所生成的中间语音识别结果、以及基于语音后端点判别模型对目标语音数据进行解码后所获得的目标语音单元序列之后，本步骤用于根据上述中间语音识别结果调整目标语音单元序列所对应的语音后端点检测参数，获得目标检测参数。

在本实施例中，根据上述中间语音识别结果调整语音后端点检测参数，获得目标检测参数，具体可以是指：根据中间语音识别结果，调整语音后端点的静音检测时间，获得目标静音检测时间，例如，如果中间语音识别结果在第一预定时间段内未发生变化，则缩短语音后端点的静音检测时间，获得用于判别语音后端点的目标静音检测时间。例如，预设的语音后端点的静音检测时间为800ms，当中间语音识别结果在300ms内未发生变化，则将语音后端点的静音检测时间缩短为600ms。根据中间语音识别结果调整语音后端点的静音检测时间，可将语音后端点检测过程实时地与当前语音的适用场景相结合，实现语音后端点的动态检测。例如，用户A的说话方式是说话中途习惯性地暂停一段时间，因此，在针对其语音信息进行语音后端点检测时，可根据A说话中途暂停时间的长短实时调整静音检测时间，如果暂停时间较长，则缩短静音检测时间，以快速确定出语音后端点。

需要说明的是，如果上述中间语音识别结果在上述300ms到600ms的时间区间内发生变化，则可将语音后端点的静音检测时间恢复为预设的800ms，其原因在于：如果中间语音识别结果在300ms到600ms的时间区间内发生变化，则表明语音输入未结束，将语音后端点的静音检测时间恢复为预设的静音检测时间，可避免过早确定语音后端点的情况发生。在本实施例中，在获得语音识别解码器针对所述目标语音数据进行语音识别后所生成的中间语音识别结果之后，还包括如下内容：

A、如果所述中间语音识别结果在第二预定时间段内未发生变化，则对目标语音数据进行语义识别，获得目标语义识别结果。具体为对所述语音识别解码器所识别的结果进行语义解析，具体可通过自然语言理解技术(Natural Language Understanding，简称NLU)进行语义解析。此处第二预定时间段用于与上述第一预定时间段进行区分，用于表示中间语音识别结果在该两种场景中的功能有所不同。

本实施例中之所以在所述中间语音识别结果在第二预定时间段内未发生变化之后对目标语音数据进行语义识别，而不是逐帧都进行语义解析，其目的是为了节约计算量，当语音识别解码器的中间语音识别结果在规定时限内不发生变化(可认为此时的结果为稳定结果)，才会通过自然语言理解技术(Natural Language Understanding，简称NLU)对语音识别解码器的识别结果进行语义解析。

B、判断所述目标语义识别结果是否与预定的用于判别语音后端点的目标语义信息相匹配；例如，该用于判别语音后端点的目标语义信息可以为导航命令词。

C、如果所述目标语义识别结果与预定的用于判别语音后端点的目标语义信息不匹配，则执行上述步骤S103的操作，即，基于语音后端点判别模型对所述目标语音数据进行解码，获得目标语音单元序列。

D、如果所述目标语义识别结果与预定的用于判别语音后端点的目标语义信息相匹配，则确定当前时间点为所述目标语音数据的语音后端点。例如对于预设的导航命令词，如果检测出该导航命令词的语义后，可以不执行上述“基于语音后端点判别模型对所述目标语音数据进行解码，获得目标语音单元序列”的操作，直接确定语音后端点，以此缩小语音交互上的延迟。对于车载场景，当用户说出离线命令词后，只需等待语义解析模块是否命中预先定义的命令词，如果命中，则立即返回语音结束点事件。

S105，根据所述目标检测参数，对所述目标语音单元序列的语音后端点进行判别，获得语音后端点判别结果。

在上述步骤获得目标检测参数后，本步骤用于根据上述目标检测参数对目标语音单元序列的语音后端点进行判别，获得语音后端点判别结果。例如，根据目标静音检测时间对目标语音单元序列的语音后端点进行判别，在确定目标语音单元序列的静音帧的数量所对应的时间达到上述目标静音检测时间时，确定当前时间点为目标语音单元序列的语音后端点。

在本实施例中，如果上述语音后端点判别结果表示已检测出目标语音数据的语音后端点，则输出语音后端点对应的标识信息，例如，通过在目标语音数据对应的文本输出界面的相应位置处显示标点符号，通过该标点符号对目标语音数据进行断句处理，以此对语音后端点进行可视化展示。与此同时，还可输出语音后端点核准信息，该核准信息用于供用户确认上述可视化展示的语音后端点是否为真实的语音后端点，并且获得用户针对该语音后端点核准信息的反馈信息，例如，在文本输出界面展示“当前位置是否为语音尾点？”的提示信息，并展示相应的语音后端点确认控件和否认控件，在检测到用户针对该语音后端点确认控件或否认控件的触控操作后，获得用户针对所述语音后端点核准信息的反馈信息。后续可将该反馈信息作为调整语音后端点检测参数的指标之一进行学习，以此优化语音后端点判别结果。

需要说明的是，本实施例提供的语音端点检测方法的应用主体还可以为客户端，也可以为服务器，该客户端可以为用户使用的智能手机或者车载导航设备等。当应用主体为服务器时，上述步骤S101中的获得目标语音数据，可以是指：在所述目标语音数据的语音输入端(客户端)未检测获得所述目标语音数据的语音后端点后，接收所述语音输入端发送的所述目标语音数据。例如，手机端或车载导航设备的语音检测过程由于受到硬件限制，语音端点检测的效果不好，因此，在手机端或车载导航设备未检测获得目标语音数据的语音后端点时，将目标语音数据发送至本实施例的应用主体端(可以为服务器)，由本实施例的应用主体端利用其维护的声学模型(语音识别解码器以及语音后端点判别模型)及优良的硬件资源进行语音端点检测，达到良好的语音端点检测效果。

本实施例提供的语音端点检测方法，通过使用语音后端点判别模型对目标语音数据进行解码，获得目标语音单元序列，根据中间语音识别结果调整语音后端点检测参数，并根据调整后的检测参数对目标语音单元序列的后端点进行判别，获得语音后端点判别结果，该方法将语音后端点检测过程与语音识别过程同步进行，并通过本方法提供的独立运行的端点检测链路将语音端点检测与语音识别过程进行解耦合处理，将语音后端点检测过程与当前语音的适用场景相结合，基于语音识别过程中输出的中间语音识别结果实时调整语音后端点检测参数，实现语音后端点的动态检测，避免现有的语音端点检测过程因过于依赖语音识别结果而具有局限性。

并且，由于针对目标语音数据进行语音端点检测的过程相对于语音识别的过程，其对识别结果的精度要求更低，即，语音端点检测过程只需判别出声音和静音，而对于语音的具体内容，则无要求，因此，语音端点检测过程中的路径搜索环节可相对简单，基于此，本实施例中的语音后端点判别模型的建模单元为针对语音识别解码器的建模单元进行映射后所获得的解码单元，即，将上下文相关的建模单元映射为上下文不相关的建模单元，上下文不相关的建模单元所对应的状态节点的数量大大少于上下文相关的建模单元所对应的状态节点的数量，因此，通过该映射过程可减少语音后端点判别模型的状态节点的数量，从而减少解码过程的计算量。

本申请第二实施例另外提供一种语音端点检测方法，该方法的应用主体为构建有语音识别解码器和语音后端点判别模型的服务器，如图2所示，该方法具体包括如下步骤：

S201，接收客户端发送的所述目标语音数据，例如，在客户端未检测获得目标语音数据的语音后端点之后，接收所述客户端发送的所述目标语音数据；

S202，获得语音识别解码器针对所述目标语音数据进行语音识别后所生成的中间语音识别结果；

S203，基于语音后端点判别模型对所述目标语音数据进行解码，获得目标语音单元序列；

S204，根据所述中间语音识别结果，调整语音后端点检测参数，获得目标检测参数；

S205，根据所述目标检测参数，对所述目标语音单元序列的后端点进行判别，获得语音后端点判别结果；

S206，将所述语音后端点判别结果发送给所述客户端。例如，如果所述语音后端点判别结果表示已检测出所述目标语音数据的语音后端点，则将所述语音后端点判别结果发送给所述客户端。

本实施例提供的语音端点检测方法，通过客户端与服务器之间的配合实现针对目标语音数据的语音端点检测。并且，服务器通过使用语音后端点判别模型对目标语音数据进行解码，获得目标语音单元序列，根据中间语音识别结果调整语音后端点检测参数，并根据调整后的检测参数对目标语音单元序列的后端点进行判别，获得语音后端点判别结果，该方法将语音后端点检测过程与语音识别过程同步进行，并通过本方法提供的独立运行的端点检测链路将语音端点检测与语音识别过程进行解耦合处理，将语音后端点检测过程与当前语音的适用场景相结合，基于语音识别过程中输出的中间语音识别结果实时调整语音后端点检测参数，实现语音后端点的动态检测，避免现有的语音端点检测过程因过于依赖语音识别结果而具有局限性的问题。

本申请第三实施例提供一种语音端点检测系统，如图3所示，该系统包括：第一语音端点检测模块301、语义检测模块302以及第二语音端点检测模块303；

所述第一语音端点检测模块301用于，通过语音识别解码器对目标语音数据进行语音后端点检测，在未检测获得所述目标语音数据的语音后端点之后，将所述目标语音数据发送给所述语义检测模块302；例如，通过语音识别解码器在对输入的目标语音数据进行语音识别的同时进行语音端点检测，在语音识别解码器的标签(Token)走到用于标识语音结束的标记</s>时获取对应的识别结果，即，根据该标记所对应的状态节点上携带的回溯信息进行语音端点检测，在未获取上述识别结果时，将目标语音数据发送给语义检测模块302。

所述语义检测模块302用于，对所述目标语音数据进行语义识别，获得目标语义识别结果；判断所述目标语义识别结果是否与预定的用于判别语音后端点的目标语义信息相匹配；如果所述目标语义识别结果与预定的用于判别语音后端点的目标语义信息相匹配，则确定当前时间点为所述目标语音数据的语音后端点；如果所述目标语义识别结果与预定的用于判别语音后端点的目标语义信息不匹配，则将所述目标语音数据发送给所述第二语音端点检测模块303。

所述第二语音端点检测模块303用于，获得语音识别解码器针对所述目标语音数据进行语音识别后所生成的中间语音识别结果；基于语音后端点判别模型对所述目标语音数据进行解码，获得目标语音单元序列；根据所述中间语音识别结果，调整语音后端点检测参数，获得目标检测参数；根据所述目标检测参数，对所述目标语音单元序列的后端点进行判别，获得语音后端点判别结果。该过程请参考本申请第一实施例的相关内容，在此不再赘述。

在本实施例中，所述第一语音端点检测模块可设置于客户端，所述语义检测模块和所述第二语音端点检测模块可设置于服务器。

本实施例提供的语音端点检测系统，可通过使用多种端点检测方法依次针对目标语音数据进行语音端点检测，增加了语音端点检测过程的可靠性。

本申请第四实施例另外提供一种语音端点检测系统，如图4所示，该系统包括：目标语音数据分发模块401、第一语音端点检测模块402、语义检测模块403、第二语音端点检测模块404以及语音后端点确认模块405；

目标语音数据分发模块401用于将目标语音数据分发至第一语音端点检测模块402、语义检测模块403、以及第二语音端点检测模块404；

第一语音端点检测模块402用于通过语音识别解码器对目标语音数据进行语音后端点检测，获得第一语音后端点判别结果。

语义检测模块403用于，对目标语音数据进行语义识别，获得目标语义识别结果；判断目标语义识别结果是否与预定的用于判别语音后端点的目标语义信息相匹配，获得语义匹配结果；根据语义匹配结果获得第二语音后端点判别结果。

第二语音端点检测模块404用于，获得语音识别解码器针对目标语音数据进行语音识别后所生成的中间语音识别结果；基于语音后端点判别模型对目标语音数据进行解码，获得目标语音单元序列；根据中间语音识别结果，调整语音后端点检测参数，获得目标检测参数；根据目标检测参数，对目标语音单元序列的后端点进行判别，获得第三语音后端点判别结果。

语音后端点确认模块405用于，根据第一语音后端点判别结果、第二语音后端点判别结果以及第三语音后端点判别结果中的至少两种判别结果，确认出针对目标语音数据的目标语音后端点判别结果。例如，根据获得第一语音后端点判别结果、第二语音后端点判别结果或者第三语音后端点判别结果中的至少两种判别结果的时间先后顺序，将最先获得的判别结果确定为针对目标语音数据的目标语音后端点判别结果，或者，根据预定的优先级顺序，从同一时间获得的至少两种判别结果中选取可信度最高的判别结果作为针对所述目标语音数据的目标语音后端点判别结果。

本实施例提供的语音端点检测系统，可通过同时使用多种端点检测方法针对目标语音数据进行语音端点检测，获得多种语音后端点判别结果，并基于预定的语音后端点确认规则确定出最终可信度最高的目标语音后端点判别结果，提高了语音后端点检测效率，且增加了语音端点检测过程的可靠性。

上述第一实施例提供了一种语音端点检测方法，与之相对应的，本申请第五实施例还提供了一种语音端点检测装置，由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关的技术特征的细节部分请参见上述提供的方法实施例的对应说明即可，下述对装置实施例的描述仅仅是示意性的。

请参考图5理解该实施例，图5为本实施例提供的装置的单元框图，如图5所示，本实施例提供的装置包括：

目标语音数据获得单元501，用于获得目标语音数据；

中间语音识别结果获得单元502，用于获得语音识别解码器针对所述目标语音数据进行语音识别后所生成的中间语音识别结果；

目标语音单元序列获得单元503，用于基于语音后端点判别模型对所述目标语音数据进行解码，获得目标语音单元序列；

目标检测参数获得单元504，用于根据所述中间语音识别结果，调整语音后端点检测参数，获得目标检测参数；

语音后端点判别单元505，用于根据所述目标检测参数，对所述目标语音单元序列的语音后端点进行判别，获得语音后端点判别结果。

在上述的实施例中，提供了一种语音端点检测方法以及一种语音端点检测装置，此外，本申请第六实施例还提供一种电子设备，由于电子设备实施例基本相似于方法实施例，所以描述得比较简单，相关的技术特征的细节部分请参见上述提供的方法实施例的对应说明即可，下述对电子设备实施例的描述仅仅是示意性的。该电子设备实施例如下：

请参考图6理解本实施例，图6为本实施例提供的电子设备的示意图。

如图6所示，所述电子设备包括：处理器601；存储器602；

所述存储器602，用于存储语音端点检测的程序，所述程序在被所述处理器读取执行时，执行如下操作：

获得目标语音数据；

根据所述目标检测参数，对所述目标语音单元序列的语音后端点进行判别，获得语音后端点判别结果。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

2、本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请虽然以较佳实施例公开如上，但其并不是用来限定本申请，任何本领域技术人员在不脱离本申请的精神和范围内，都可以做出可能的变动和修改，因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

Claims

1.一种语音端点检测方法，其特征在于，包括：

获得目标语音数据；

2.根据权利要求1所述的方法，其特征在于，所述基于语音后端点判别模型对所述目标语音数据进行解码，获得目标语音单元序列，包括：

3.根据权利要求2所述的方法，其特征在于，所述建模单元为音素，所述将所述语音识别解码器中的上下文相关的建模单元映射为上下文不相关的建模单元，包括：

4.根据权利要求2所述的方法，其特征在于，所述基于所述语音后端点判别模型对所述目标语音数据进行识别，获得目标语音单元序列，包括：

获得所述目标语音数据的目标观测序列；

根据所述目标观测序列在所述语音后端点判别模型中出现的先后顺序，依次递推计算输出目标观测序列的概率值；

采用令牌传递算法，利用所述语音后端点判别模型对所述目标语音数据进行解码，获得输出目标观测序列的概率值最大时所对应的目标状态路径；

将所述目标状态路径所对应的语音单元序列确定为所述目标语音单元序列。

5.根据权利要求4所述的方法，其特征在于，所述采用令牌传递算法，利用所述语音后端点判别模型对所述目标语音数据进行解码，包括：

对所述目标语音数据进行预处理，获得音频帧；

对所述音频帧进行特征提取，获得目标音频特征；

将所述目标音频特征输入所述语音后端点判别模型，采用令牌传递算法进行解码。

6.根据权利要求1所述的方法，其特征在于，所述根据所述中间语音识别结果，调整语音后端点检测参数，获得目标检测参数，包括：

根据所述中间语音识别结果，调整语音后端点的静音检测时间，获得目标静音检测时间；

对应的，所述根据所述目标检测参数，对所述目标语音单元序列的后端点进行判别，获得语音后端点判别结果，包括：

根据所述目标静音检测时间，对所述目标语音单元序列的后端点进行判别，获得语音后端点判别结果。

7.根据权利要求6所述的方法，其特征在于，所述根据所述中间语音识别结果，调整语音后端点的静音检测时间，获得目标静音检测时间，包括：

如果所述中间语音识别结果在第一预定时间段内未发生变化，则缩短语音后端点的静音检测时间，获得用于判别语音后端点的目标静音检测时间。

8.根据权利要求1所述的方法，其特征在于，还包括：如果所述中间语音识别结果在第二预定时间段内未发生变化，则对目标语音数据进行语义识别，获得目标语义识别结果；

判断所述目标语义识别结果是否与预定的用于判别语音后端点的目标语义信息相匹配；

所述基于语音后端点判别模型对所述目标语音数据进行解码，获得目标语音单元序列，包括：

如果所述目标语义识别结果与所述用于判别语音后端点的目标语义信息不匹配，则基于语音后端点判别模型对所述目标语音数据进行解码，获得目标语音单元序列。

9.根据权利要求8所述的方法，其特征在于，还包括：如果所述目标语义识别结果与预定的用于判别语音后端点的目标语义信息相匹配，则确定当前时间点为所述目标语音数据的语音后端点。

10.根据权利要求1所述的方法，其特征在于，所述获得目标语音数据，包括：

如果所述目标语音数据的语音输入端未检测获得所述目标语音数据的语音后端点，则接收所述语音输入端发送的所述目标语音数据。

11.根据权利要求1所述的方法，其特征在于，还包括：

如果所述语音后端点判别结果表示已检测出所述目标语音数据的语音后端点，则输出所述语音后端点对应的标识信息。

12.根据权利要求11所述的方法，其特征在于，还包括：

输出语音后端点核准信息，所述语音后端点核准信息用于供用户确认所述语音后端点是否为真实语音后端点；

获得用户针对所述语音后端点核准信息的反馈信息。

13.一种语音端点检测方法，其特征在于，包括：

接收客户端发送的目标语音数据；

根据所述目标检测参数，对所述目标语音单元序列的后端点进行判别，获得语音后端点判别结果；

将所述语音后端点判别结果发送给所述客户端。

14.根据权利要求13所述的方法，其特征在于，所述将所述语音后端点判别结果发送给所述客户端，包括：

如果所述语音后端点判别结果表示已检测出所述目标语音数据的语音后端点，则将所述语音后端点判别结果发送给所述客户端。

15.一种语音端点检测系统，其特征在于，包括：第一语音端点检测模块、语义检测模块以及第二语音端点检测模块；

16.根据权利要求15所述的系统，其特征在于，所述第一语音端点检测模块设置于客户端，所述语义检测模块和所述第二语音端点检测模块设置于服务器。

17.一种语音端点检测系统，其特征在于，包括：目标语音数据分发模块、第一语音端点检测模块、语义检测模块、第二语音端点检测模块以及语音后端点确认模块；

所述语音后端点确认模块用于，根据所述第一语音后端点判别结果、所述第二语音后端点判别结果以及所述第三语音后端点判别结果，确认出针对所述目标语音数据的目标语音后端点判别结果。

18.根据权利要求17所述的系统，其特征在于，所述根据所述第一语音后端点判别结果、所述第二语音后端点判别结果以及所述第三语音后端点判别结果，确认出针对所述目标语音数据的目标语音后端点判别结果，包括：根据获得所述第一语音后端点判别结果、所述第二语音后端点判别结果或者所述第三语音后端点判别结果中的至少两种判别结果的时间先后顺序，将最先获得的判别结果确定为针对所述目标语音数据的目标语音后端点判别结果。

19.根据权利要求17所述的系统，其特征在于，所述根据所述第一语音后端点判别结果、所述第二语音后端点判别结果以及所述第三语音后端点判别结果，确认出针对所述目标语音数据的目标语音后端点判别结果，包括：

根据预定的优先级顺序，从同一时间获得的至少两种判别结果中选取可信度最高的判别结果作为针对所述目标语音数据的目标语音后端点判别结果。

20.一种语音后端点检测装置，其特征在于，包括：

目标语音数据获得单元，用于获得目标语音数据；

目标检测参数获得单元，用于根据所述中间语音识别结果，调整语音后端点检测参数，获得目标检测参数；

21.一种电子设备，其特征在于，包括：

处理器；

存储器，用于存储语音后端点检测程序，所述程序在被所述处理器读取执行时，执行如下操作：

获得目标语音数据；