CN108320738A

CN108320738A - 语音数据处理方法及装置、存储介质、电子设备

Info

Publication number: CN108320738A
Application number: CN201711365485.4A
Authority: CN
Inventors: 周维; 陈志刚; 胡国平; 胡郁
Original assignee: Iflytek Shanghai Mdt Infotech Ltd
Current assignee: Iflytek Shanghai Mdt Infotech Ltd
Priority date: 2017-12-18
Filing date: 2017-12-18
Publication date: 2018-07-24
Anticipated expiration: 2037-12-18
Also published as: CN108320738B

Abstract

本公开提供一种语音数据处理方法及装置、存储介质、电子设备。该方法包括：获取当前语音数据以及所述当前语音数据对应的历史语音数据；提取对话环境特征，所述对话环境特征用于表示所述当前语音数据与所述历史语音数据形成对话的可能性；由预先构建的语音判别模型，基于所述对话环境特征、所述当前语音数据的文本特征、以及所述历史语音数据的文本特征进行模型处理，确定所述当前语音数据是否为真实业务交互请求。如此方案，有助于防止智能设备被误触发。

Description

语音数据处理方法及装置、存储介质、电子设备

技术领域

本公开涉及语音信号处理技术领域，具体地，涉及一种语音数据处理方法及装置、存储介质、电子设备。

背景技术

随着人工智能技术的进步，智能人机交互已逐渐进入普及阶段，语音作为人机之间最自然的交互方式，被广泛应用于智能人机交互过程中。具体地，智能设备可以从环境中拾取语音数据，通过语音识别理解出用户意图，并生成用户意图对应的响应。

为了提高用户体验，智能设备从单轮指令方式开始向多轮自由对话方式发展，即，通过单次指令识别用户意图，逐渐发展为通过多轮人机对话识别用户意图，使设备更为智能化、交互更为自由，与此同时又不希望设备在不需要时被误触发。

结合实际应用，智能设备从环境中拾取的语音数据主要有四种类型，下面以视频点播为例，对四种类型的语言数据进行举例说明：

前3种类型的语音数据均与视频点播业务没有关系，属于干扰，如果被智能设备接收并响应，则属于误触发。

为了防止误触发，目前主要采用以下两种方案：

方案一，先唤醒后触发。用户每次与智能设备交互，需要先说出唤醒词或者先按下唤醒键，以此唤醒智能设备之后，再发出表示用户意图的交互指令，触发设备执行相关操作。如此方案，虽可在一定程度上解决误触发问题，但却需要用户频繁进行唤醒操作，智能化程度较低，用户体验较差。

方案二，多模态交互方式。在拾取语音数据的同时，还可以通过图像采集设备拍摄用户图像，如果经图像分析确定用户在发出指令时是面向智能设备的，则可判定该指令是用户发出的真实业务交互请求，并非误触发。如此方案，需要用户姿态上进行相应配合，限制了用户自由度，用户体验较差；此外，在某些场景下，例如被遮挡、黑暗环境等，这种方案的识别效果并不理想。

发明内容

本公开的主要目的是提供一种语音数据处理方法及装置、存储介质、电子设备，有助于防止智能设备被误触发。

为了实现上述目的，本公开提供一种语音数据处理方法，所述方法包括：

获取当前语音数据以及所述当前语音数据对应的历史语音数据；

提取对话环境特征，所述对话环境特征用于表示所述当前语音数据与所述历史语音数据形成对话的可能性；

由预先构建的语音判别模型，基于所述对话环境特征、所述当前语音数据的文本特征、以及所述历史语音数据的文本特征进行模型处理，确定所述当前语音数据是否为真实业务交互请求。

可选地，获取所述当前语音数据对应的历史语音数据，包括：

本次唤醒持续期间，在所述当前语音数据之前采集到的未被智能设备响应的至少一条语音数据，确定为所述当前语音数据对应的历史语音数据；

和/或，

本次唤醒持续期间，在所述当前语音数据之前采集到的、未被智能设备响应且与所述当前语音数据的采集时间之差符合预设时长的至少一条语音数据，确定为所述当前语音数据对应的历史语音数据；

和/或，

本次唤醒持续期间，在所述当前语音数据之前采集到的、未被智能设备响应且与所述当前语音数据的交互轮次之差符合预设轮次的至少一条语音数据，确定为所述当前语音数据对应的历史语音数据。

可选地，所述对话环境特征包括声纹匹配特征，则提取所述对话环境特征包括：提取所述当前语音数据的声纹特征，以及所述历史语音数据的声纹特征；计算所述当前语音数据的声纹特征与所述历史语音数据的声纹特征之间的相似度，作为所述声纹匹配特征；

和/或，

所述对话环境特征包括时间间隔特征，则提取所述对话环境特征包括：获取所述当前语音数据的采集时间、以及所述历史语音数据的采集时间；计算所述当前语音数据的采集时间与所述历史语音数据的采集时间之间的时间差，作为所述时间间隔特征；

和/或，

所述对话环境特征包括轮次间隔特征，则提取所述对话环境特征包括：获取所述当前语音数据在本次交互过程中的交互轮次、以及所述历史语音数据在本次交互过程中的交互轮次；计算所述当前语音数据的交互轮次与所述历史语音数据的交互轮次之间的轮次差，作为所述轮次间隔特征。

可选地，所述由预先构建的语音判别模型，基于所述对话环境特征、所述当前语音数据的文本特征、以及所述历史语音数据的文本特征进行模型处理，确定所述当前语音数据是否为真实业务交互请求，包括：

所述语音判别模型获取所述对话环境特征、所述当前语音数据的文本特征、以及所述历史语音数据的文本特征；

所述语音判别模型对所述当前语音数据的文本特征以及所述历史语音数据的文本特征进行编码处理，获得每条历史语音数据对应的联合编码特征；并利用所述对话环境特征计算每条历史语音数据对应的权重值；

所述语音判别模型利用每条历史语音数据对应的联合编码特征以及权重值进行加权和计算；

所述语音判别模型利用加权和计算结果，确定所述当前语音数据是否为真实业务交互请求。

可选地，获取所述当前语音数据的文本特征的方式为：

将所述当前语音数据转换为当前文本，提取所述当前文本的句子向量，作为所述当前语音数据的文本特征。

可选地，获取所述历史语音数据的文本特征的方式为：

从记忆队列中读取预先保存的所述历史语音数据的文本特征。

可选地，所述方法还包括：

判断所述当前语音数据是否为有效语音数据；

如果所述当前语音数据为有效语音数据，再执行所述提取对话环境特征的步骤。

本公开提供一种语音数据处理装置，所述装置包括：

语音数据获取模块，用于获取当前语音数据以及所述当前语音数据对应的历史语音数据；

对话环境特征提取模块，用于提取对话环境特征，所述对话环境特征用于表示所述当前语音数据与所述历史语音数据形成对话的可能性；

模型处理模块，用于由预先构建的语音判别模型，基于所述对话环境特征、所述当前语音数据的文本特征、以及所述历史语音数据的文本特征进行模型处理，确定所述当前语音数据是否为真实业务交互请求。

可选地，所述语音数据获取模块，用于将本次唤醒持续期间，在所述当前语音数据之前采集到的未被智能设备响应的至少一条语音数据，确定为所述当前语音数据对应的历史语音数据；和/或，本次唤醒持续期间，在所述当前语音数据之前采集到的、未被智能设备响应且与所述当前语音数据的采集时间之差符合预设时长的至少一条语音数据，确定为所述当前语音数据对应的历史语音数据；和/或，本次唤醒持续期间，在所述当前语音数据之前采集到的、未被智能设备响应且与所述当前语音数据的交互轮次之差符合预设轮次的至少一条语音数据，确定为所述当前语音数据对应的历史语音数据。

可选地，所述对话环境特征包括声纹匹配特征，则所述对话环境特征提取模块，用于提取所述当前语音数据的声纹特征，以及所述历史语音数据的声纹特征；计算所述当前语音数据的声纹特征与所述历史语音数据的声纹特征之间的相似度，作为所述声纹匹配特征；

和/或，

所述对话环境特征包括时间间隔特征，则所述对话环境特征提取模块，用于获取所述当前语音数据的采集时间、以及所述历史语音数据的采集时间；计算所述当前语音数据的采集时间与所述历史语音数据的采集时间之间的时间差，作为所述时间间隔特征；

和/或，

所述对话环境特征包括轮次间隔特征，则所述对话环境特征提取模块，用于获取所述当前语音数据在本次交互过程中的交互轮次、以及所述历史语音数据在本次交互过程中的交互轮次；计算所述当前语音数据的交互轮次与所述历史语音数据的交互轮次之间的轮次差，作为所述轮次间隔特征。

可选地，所述模型处理模块包括：

特征获取模块，用于获取所述对话环境特征、所述当前语音数据的文本特征、以及所述历史语音数据的文本特征；

编码处理模块，用于对所述当前语音数据的文本特征以及所述历史语音数据的文本特征进行编码处理，获得每条历史语音数据对应的联合编码特征；

权重值计算模块，用于利用所述对话环境特征计算每条历史语音数据对应的权重值；

加权和计算模块，用于利用每条历史语音数据对应的联合编码特征以及权重值进行加权和计算；

交互请求确定模块，用于利用加权和计算结果，确定所述当前语音数据是否为真实业务交互请求。

可选地，所述特征获取模块，用于将所述当前语音数据转换为当前文本，提取所述当前文本的句子向量，作为所述当前语音数据的文本特征。

可选地，所述特征获取模块，用于从记忆队列中读取预先保存的所述历史语音数据的文本特征。

可选地，所述装置还包括：

有效语音判断模块，用于判断所述当前语音数据是否为有效语音数据；

所述对话环境特征提取模块，用于在所述当前语音数据为有效语音数据时，提取所述对话环境特征。

本公开提供一种存储设备，其中存储有多条指令，所述指令由处理器加载，执行上述语音数据处理方法的步骤。

本公开提供一种电子设备，所述电子设备包括；

上述的存储设备；以及

处理器，用于执行所述存储设备中的指令。

本公开方案中，可以将从环境中拾取到的语音数据作为当前语音数据，为了判断该当前语音数据是否为用户发出的真实业务交互请求，可以获取当前语音数据对应的历史语音数据，并提取对话环境特征，以此表示当前语音数据与历史语音数据组成对话可能性；然后，可以通过预先构建的语音识别模型基于对话环境特征、当前语音数据的文本特征、以及历史语音数据的文本特征进行模型处理，输出识别结果，即确定出当前语音数据是否为真实业务交互请求。如此方案，有助于防止智能设备被误触发。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1为本公开方案语音数据处理方法的流程示意图；

图2为本公开方案中模型处理的流程示意图；

图3为本公开方案中语音判别模型的构成示意图；

图4为本公开方案语音数据处理装置的构成示意图；

图5为本公开方案用于语音数据处理的电子设备的结构示意图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

参见图1，示出了本公开语音数据处理方法的流程示意图。可以包括以下步骤：

S101，获取当前语音数据以及所述当前语音数据对应的历史语音数据。

本公开方案中，智能设备可以持续监听，判断是否从环境中拾取到语音数据，如果拾取到，则将其作为当前语音数据，判断该当前语音数据是用户发出的真实业务交互请求，还是误触发数据。如果是真实业务交互请求，智能设备则可对当前语音数据进行语义理解，并根据语义理解结果进行响应；如果是误触发数据，智能设备则可视其为干扰，不进行响应。

作为一种示例，可以通过智能设备的麦克风拾取环境中的语音数据，举例来说，智能设备可以为手机、个人电脑、平板电脑、智能电器等，本公开方案对此可不做具体限定。

本公开方案中，可以结合当前语音数据对应的历史语音数据，判断当前语音数据是否为人机对话，若为人机对话，则可视为是用户发出的真实业务交互请求。如此，只针对人机对话的语音数据进行语义理解，有助于减少使用过程中的误触发，提升用户体验。

可以理解地，当前语音数据对应的历史语音数据指的是，在当前语音数据之前拾取到的未被智能设备响应的语音数据，可以体现为以下情况中的至少一种：

(1)本次唤醒持续期间，在当前语音数据之前采集到的未被智能设备响应的至少一条语音数据，可以确定为当前语音数据对应的历史语音数据。

可以理解地，在一次唤醒持续期间进行的交互，大多针对同一业务请求，故，可以将该唤醒持续期间内采集的未被智能设备响应的至少一条语音数据，确定为当前语音数据对应的历史语音数据。例如，当前语音数据为时间t采集到的语音数据q_t，可以将本次唤醒采集的未被智能设备响应的语音数据{q_t-1，q_t-2，…，q₁}中的至少一条确定为当前语音数据对应的历史语音数据，举例来说，可以将与q_t在采集时间和/或交互轮次上比较靠近的{q_t-1，q_t-2}确定为当前语音数据对应的历史语音数据，本公开方案对此可不做具体限定。

(2)本次唤醒持续期间，在当前语音数据之前采集到的、未被智能设备响应且与当前语音数据的采集时间之差符合预设时长的至少一条语音数据，可以确定为当前语音数据对应的历史语音数据。例如，符合预设时长可以是不超过3min。

可以理解地，在一次唤醒持续期间进行的交互，可能针对不同业务请求，但在采集时间上距离当前语音数据越近，针对同一业务请求的可能性就越大，故，可以将该唤醒持续期间内采集的、未被智能设备响应且与当前语音数据的采集时间相比不超过预设时长T的至少一条语音数据，确定为当前语音数据对应的历史语音数据。例如，当前语音数据为时间t采集到的语音数据q_t，可以将本次唤醒采集的未被智能设备响应的语音数据{q_t-1，q_t-2，…，q_t-i，…，q_t-T}中的至少一条确定为当前语音数据对应的历史语音数据。

(3)本次唤醒持续期间，在当前语音数据之前采集到的、未被智能设备响应且与当前语音数据的交互轮次之差符合预设轮次的至少一条语音数据，可以确定为当前语音数据对应的历史语音数据。例如，符合预设轮次可以是不超过20轮。

交互轮次与采集时间的处理相似，具体实现过程可参照上文针对采集时间所做介绍，此处不再举例说明。

关于语音数据的交互轮次，可作如下解释说明。

本公开方案中，可以将人机交互过程中每一次用户输入请求(可能是真实业务交互请求，也可能是伪业务交互请求)、或者智能设备对应给出的响应结果都视为一个交互轮次，例如，用户A与智能设备的人机交互过程如下：

用户A：播放音乐

智能设备：播放谁的歌曲

用户A：咱们听刘德华的歌怎么样

用户B：好的

用户A：播放刘德华的歌

该用户A与智能设备的人机交互示例中，共采集到5个轮次的语音数据，以“播放刘德华的歌”作为当前语音数据，未被智能设备响应的“咱们听刘德华的歌怎么样”、“好的”这2个轮次的语音数据均可视为当前语音数据对应的历史语音数据。

在实际应该过程中，可以设置智能设备的唤醒持续时长，例如，智能设备的唤醒持续时长为5min。也就是说，与最近一轮人机交互相比，如果超过5min未进行下轮人机交互，智能设备可以关闭唤醒状态；如果在5min之内进行了下轮人机交互，智能设备可以维持唤醒状态，直接被触发。

本公开方案对确定历史语音数据的方式、预设时长、预设轮次、唤醒持续时长等可不做限定，具体可结合实际应用而定。可以理解地，如果当前语音数据之前未拾取到任何语音数据，则当前语音数据对应的历史语音数据为空。

S102，提取对话环境特征，所述对话环境特征用于表示所述当前语音数据与所述历史语音数据形成对话的可能性。

作为一种示例，为了表征当前语音数据与历史语音数据形成对话的可能性，本公开方案可以提取以下特征中的至少一个，作为对话环境特征：

(1)声纹匹配特征

作为一种示例，可以提取当前语音数据的声纹特征，以及历史语音数据的声纹特征；然后计算当前语音数据的声纹特征与历史语音数据的声纹特征之间的相似度，作为声纹匹配特征。

举例来说，声纹特征可以是ivector特征；或者，可以是神经网络提取的其他声纹特征，例如MFCC(Mel-Frequency Cepstral Coefficients，MFCC)特征，本公开方案对此可不做具体限定。

举例来说，当前语音数据的声纹特征与历史语音数据的声纹特征之间的相似度，可以体现为计算二者的余弦相似度；或者，可以利用预先构建的回归模型预测二者的相似度，本公开方案对此可不做限定，具体可参照相关技术实现，此处不做详述。

以上文用户A与智能设备的人机交互过程为例，提取声纹匹配特征可以是，分别计算当前语音数据“播放刘德华的歌”与2条历史语音数据之间的声纹特征相似度。

(2)时间间隔特征

作为一种示例，可以获取当前语音数据的采集时间、以及历史语音数据的采集时间；然后计算当前语音数据的采集时间与历史语音数据的采集时间之间的时间差，作为时间间隔特征。

以上文用户A与智能设备的人机交互过程为例，提取时间间隔特征可以是，分别计算当前语音数据“播放刘德华的歌”与2条历史语音数据之间的采集时间差。例如，当前语音数据“播放刘德华的歌”的采集时间是T₅，历史语音数据“好的”的采集时间是T₄，则二者的时间差是(T₅-T₄)；历史语音数据“咱们听刘德华的歌怎么样”的采集时间是T₃，则二者的时间差是(T₅-T₃)。

(3)轮次间隔特征

作为一种示例，可以获取当前语音数据在本次交互过程中的交互轮次、以及历史语音数据在本次交互过程中的交互轮次；然后计算当前语音数据的交互轮次与历史语音数据的交互轮次之间的轮次差，作为轮次间隔特征。

以上文用户A与智能设备的人机交互过程为例，提取轮次间隔特征可以是，分别计算当前语音数据“播放刘德华的歌”与2条历史语音数据之间的交互轮次差。例如，当前语音数据“播放刘德华的歌”的交互轮次是第5轮，历史语音数据“好的”的交互轮次是第4轮，则二者的轮次差是(5-4)；历史语音数据“咱们听刘德华的歌怎么样”的交互轮次是第3轮，则二者的轮次差是(5-3)。

综上，可以提取到当前语音数据与历史语音数据之间的对话环境特征。

作为一种示例，在提取对话环境特征之前，本公开方案还可作如下处理：判断当前语音数据是否为有效语音数据；如果当前语音数据为有效语音数据，再执行提取对话环境特征的步骤。

也就是说，可以对采集到的当前语音数据进行有效语音检测，判断其中是否包含语音，还是纯噪声。如果当前语音数据为纯噪声，则可停止语音数据处理过程，不进行响应；如果当前语音数据中包含语音，则可按照本公开方案进行语音数据处理。

在实际应用过程中，可以在获取到当前语音数据后即进行有效语音检测；或者，可以在获取到历史语音数据后再进行有效语音检测，本公开方案对此可不做具体限定，只要在提取对话环境特征之前完成有效语音检测即可。

作为一种示例，可以通过VAD(英文：VoiceActivity Detection，中文：语音活动检测)进行有效语音检测；或者，可以预先构建神经网络模型，通过模型处理方式进行有效语音检测。

本公开方案对有效语音检测的时机、有效语音检测的方案、神经网络模型的构建过程等可不做限定，具体可参照相关技术实现，此处不做详述。

S103，由预先构建的语音判别模型，基于所述对话环境特征、所述当前语音数据的文本特征、以及所述历史语音数据的文本特征进行模型处理，确定所述当前语音数据是否为真实业务交互请求。

作为一种示例，本公开方案提供如下模型处理方案，具体可参照图2所示流程示意图。可以包括以下步骤：

S201，所述语音判别模型获取所述对话环境特征、所述当前语音数据的文本特征、以及所述历史语音数据的文本特征。

作为一种示例，当前语音数据的文本特征可以由模型提取，即，将当前语音数据作为模型输入，由模型提取出对应的文本特征；或者，可以在步骤S103之前完成文本特征提取，即，将当前语音数据的文本特征作为模型输入。本公开方案对获取当前语音数据的文本特征的时机可不做限定，具体可结合实际应用需求而定。

作为一种示例，当前语音数据的文本特征可以体现为当前语音数据的词向量。例如，可以将当前语音数据转换为当前文本，对当前文本进行分词处理，得到当前文本对应的单词序列，提取每个单词的词向量。

作为一种示例，为了更准确的表达当前语音数据的含义，当前语音数据的文本特征可以体现为当前语音数据的句子向量。例如，可以将当前语音数据转换为当前文本，提取当前文本的句子向量。具体地，可以对当前文本进行分词处理，得到当前文本对应的单词序列，将单词序列作为输入，经由预先构建的模型处理后得到句子向量。其中，提取句子向量的模型的构建方式可参照相关技术实现，此处不做详述。

本公开方案对当前语音数据的文本特征的表现形式、获取方式等可不做限定，具体可结合实际应用需求而定。

关于历史语音数据的文本特征，其获取时机、表现形式、获取方式等可参照上文所做介绍，此处不再赘述。此处需要说明的是，历史语音数据的文本特征可以在需要时，从历史语音数据中提取；或者，可以预先保存在模型中，在需要时直接从中读取，如图3所示示例，模型中设置有记忆队列，可以将历史语音数据的文本特征保存在记忆队列中。

S202，所述语音判别模型对所述当前语音数据的文本特征以及所述历史语音数据的文本特征进行编码处理，获得每条历史语音数据对应的联合编码特征；并利用所述对话环境特征计算每条历史语音数据对应的权重值。

作为一种示例，可以拼接当前语音数据的文本特征以及历史语音数据的文本特征，然后对拼接后的文本特征进行编码处理，即进行向量化处理，获得该条历史语音数据对应的联合编码特征。例如，当前语音数据q_t的文本特征m_t、与历史语音数据q_t-1的文本特征m_t-1进行编码处理，得到的联合编码特征可以表示为g_t-1，t。

作为一种示例，可以利用对话环境特征计算每条历史语音数据对应的权重值。通常，当前语音数据与历史语音数据的声纹匹配特征的相似度越高，该条历史语音数据的权重值越大；当前语音数据与历史语音数据的时间间隔特征的时间差越小，该条历史语音数据的权重值越大；当前语音数据与历史语音数据的轮次间隔特征的轮次差越小，该条历史语音数据的权重值越大。

举例来说，可以将对话环境特征作为输入，经预先训练的浅层神经网络后处理后，得到每条历史语音数据对应的权重值；或者，可以基于上述计算权重值的原则，通过线性回归得到每条历史语音数据对应的权重值，本公开方案对此可不做具体限定。例如，当前语音数据q_t针对历史语音数据q_t-1的对话环境特征为p_t-1，该对话环境特征对应的权重值可以表示为α_t-1。

S203，所述语音判别模型利用每条历史语音数据对应的联合编码特征以及权重值进行加权和计算。

S204，所述语音判别模型利用加权和计算结果，确定所述当前语音数据是否为真实业务交互请求。

获得每条历史语音数据对应的联合编码以及权重值后，可以进行加权和计算，并基于加权和计算结果确定出当前语音数据是否为用户发出的真实业务交互请求。可以理解地，加权和计算结果可以在一定程度上反映当前语音数据与每条历史语音数据组成对话的可能性。

作为一种示例，语音判别模型的输出可以包含2个输出节点，分别代表真实业务交互请求、误触发数据，例如，可以用“0”表示真实业务交互请求，用“1”表示误触发数据。或者，语音判别模型的输出可以包含1个输出节点，表示当前语音数据被确定为真实业务交互请求的概率。本公开方案对语音判别模型的输出结果的表现形式可不做具体限定。

下面以语音判别模型划分为输入层、对话特征编码层、对话交互识别层为例，对本公开方案的模型处理过程进行举例说明。

1.语音判别模型的输入层

例如，当前语音数据为q_t，对应的历史语音数据为{q_t-1，q_t-2，…，q_t-i，…，q_t-T}。记忆队列中保存有历史语音数据的文本特征{m_t-1，m_t-2，…，m_t-i，…，m_t-T}，故，可以直接从记忆队列中读取历史语音数据的文本特征，送入对话特征编码层进行编码处理。

获得当前语音数据q_t后，可以先经过一个编码层E1对当前语音数据的识别文本进行编码，即向量化处理，得到当前语音数据q_t的文本特征m_t，送入对话特征编码层进行编码处理。

此外，当前语音数据q_t对应的对话环境特征{p_t-1，p_t-2，…，p_t-i，…，p_t-T}经输入层被送到对话特征编码层。

2.语音判别模型的对话特征编码层

经过编码层E2，当前语音数据q_t的文本特征m_t分别与每条历史语音数据的文本特征{m_t-1，m_t-2，…，m_t-i，…，m_t-T}拼接后进行编码，得到每条历史语音数据对应的联合编码特征{g_t-1，t，g_t-2，t，…，g_t-i，t，…，g_t-T，t}。

经过浅层神经网络，可以计算出对话环境特征{p_t-1，p_t-2，…，p_t-i，…，p_t-T}对应的每条历史语音数据的权重值{α_t-1，α_t-2，…，α_t-i，…，α_t-T}。

利用每条历史语音数据对应的联合编码特征、权重值进行加权和计算，将加权和计算结果送入对话交互识别层。

3.语音判别模型的对话交互识别层

将加权和计算结果作为对话交互识别层的输入，识别当前语音数据的对话状态，从而识别出当前语音数据是否为真实业务交互请求。参照上文所举示例，若当前语音数据为真实业务交互请求，对话交互识别层的输出可以为“0”。

在实际应用过程中，对话特征编码层、对话交互识别层可以包含一层或多层隐层，各层可以采用神经网络结构，例如，CNN(英文：Convolutional Neural Network，中文：卷积神经网络)、RNN(英文：Recurrent neural Network，中文：循环神经网络)等，本公开方案对此可不做具体限定。

需要说明的是，本公开方案可以基于预先采集的样本语音数据，构建语音判别模型，样本语音数据可以体现为人机交互语音数据和/或人人交互语音数据。获得样本语音数据后，可以做如下标注：每条样本语音数据作为当前样本语音数据时，是否为真实业务交互请求。可以理解地，当前样本语音数据的历史样本语音数据为本次唤醒持续期间，当前样本语音数据之前未被智能设备响应的样本语音数据。如此，便可基于样本对话环境特征、当前样本语音数据的文本特征、以及历史样本语音数据的文本特征进行模型训练，直至模型输出的当前样本语音数据的预测结果与标注结果相同为止。

参见图4，示出了本公开语音数据处理装置的构成示意图。所述装置可以包括：

语音数据获取模块301，用于获取当前语音数据以及所述当前语音数据对应的历史语音数据；

对话环境特征提取模块302，用于提取对话环境特征，所述对话环境特征用于表示所述当前语音数据与所述历史语音数据形成对话的可能性；

模型处理模块303，用于由预先构建的语音判别模型，基于所述对话环境特征、所述当前语音数据的文本特征、以及所述历史语音数据的文本特征进行模型处理，确定所述当前语音数据是否为真实业务交互请求。

和/或，

可选地，所述模型处理模块包括：

可选地，所述装置还包括：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

参见图5，示出了本公开用于语音数据处理的电子设备400的结构示意图。参照图5，电子设备400包括处理组件401，其进一步包括一个或多个处理器，以及由存储介质402所代表的存储设备资源，用于存储可由处理组件401的执行的指令，例如应用程序。存储介质402中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件401被配置为执行指令，以执行上述语音数据处理方法。

电子设备400还可以包括一个电源组件403，被配置为执行电子设备400的电源管理；一个有线或无线网络接口404，被配置为将电子设备400连接到网络；和一个输入输出(I/O)接口405。电子设备400可以操作基于存储在存储介质402的操作系统，例如WindowsServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种语音数据处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，获取所述当前语音数据对应的历史语音数据，包括：

和/或，

3.根据权利要求1所述的方法，其特征在于，

所述对话环境特征包括声纹匹配特征，则提取所述对话环境特征包括：提取所述当前语音数据的声纹特征，以及所述历史语音数据的声纹特征；计算所述当前语音数据的声纹特征与所述历史语音数据的声纹特征之间的相似度，作为所述声纹匹配特征；

和/或，

4.根据权利要求1所述的方法，其特征在于，所述由预先构建的语音判别模型，基于所述对话环境特征、所述当前语音数据的文本特征、以及所述历史语音数据的文本特征进行模型处理，确定所述当前语音数据是否为真实业务交互请求，包括：

5.根据权利要求4所述的方法，其特征在于，获取所述当前语音数据的文本特征的方式为：

6.根据权利要求4所述的方法，其特征在于，获取所述历史语音数据的文本特征的方式为：

7.根据权利要求1至6任一项所述的方法，其特征在于，所述方法还包括：

判断所述当前语音数据是否为有效语音数据；

8.一种语音数据处理装置，其特征在于，所述装置包括：

9.根据权利要求8所述的装置，其特征在于，

所述语音数据获取模块，用于将本次唤醒持续期间，在所述当前语音数据之前采集到的未被智能设备响应的至少一条语音数据，确定为所述当前语音数据对应的历史语音数据；和/或，本次唤醒持续期间，在所述当前语音数据之前采集到的、未被智能设备响应且与所述当前语音数据的采集时间之差符合预设时长的至少一条语音数据，确定为所述当前语音数据对应的历史语音数据；和/或，本次唤醒持续期间，在所述当前语音数据之前采集到的、未被智能设备响应且与所述当前语音数据的交互轮次之差符合预设轮次的至少一条语音数据，确定为所述当前语音数据对应的历史语音数据。

10.根据权利要求8所述的装置，其特征在于，

所述对话环境特征包括声纹匹配特征，则所述对话环境特征提取模块，用于提取所述当前语音数据的声纹特征，以及所述历史语音数据的声纹特征；计算所述当前语音数据的声纹特征与所述历史语音数据的声纹特征之间的相似度，作为所述声纹匹配特征；

和/或，

11.根据权利要求8所述的装置，其特征在于，所述模型处理模块包括：

12.根据权利要求11所述的装置，其特征在于，

所述特征获取模块，用于将所述当前语音数据转换为当前文本，提取所述当前文本的句子向量，作为所述当前语音数据的文本特征。

13.根据权利要求11所述的装置，其特征在于，

所述特征获取模块，用于从记忆队列中读取预先保存的所述历史语音数据的文本特征。

14.根据权利要求8至13任一项所述的装置，其特征在于，所述装置还包括：

15.一种存储设备，其中存储有多条指令，其特征在于，所述指令由处理器加载，执行权利要求1至7任一项所述方法的步骤。

16.一种电子设备，其特征在于，所述电子设备包括；

权利要求15所述的存储设备；以及

处理器，用于执行所述存储设备中的指令。