CN110377716A

CN110377716A - 对话的交互方法、装置及计算机可读存储介质

Info

Publication number: CN110377716A
Application number: CN201910666945.XA
Authority: CN
Inventors: 许云飞; 陈果果
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Shanghai Xiaodu Technology Co Ltd
Priority date: 2019-07-23
Filing date: 2019-07-23
Publication date: 2019-10-25
Anticipated expiration: 2039-07-23
Also published as: JP7150770B2; US11322153B2; US20210027788A1; JP2021018797A; CN110377716B

Abstract

本发明实施例提出一种对话的交互方法、装置及计算机可读存储介质，所述方法包括将待识别语音转换为第一文本；将所述第一文本输入语义分析模型，得出第一文本的意图信息和词槽信息；将所述第一文本的意图信息和词槽信息输入对话状态机，得出所述第一文本对应的交互信息。本发明实施例利用语义分析模型直接从第一文本得出第一文本的意图信息和词槽信息。减少了现有技术语义分析模型需要连接在语言模型后的步骤，由此缩短了时间，可以更快响应用户。同时，上述方案减小计算复杂度，降低整体系统的成本。

Description

对话的交互方法、装置及计算机可读存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种对话的交互方法、装置及计算机可读存储介质。

背景技术

近几年，人工智能技术得到迅速地发展，与智能语音技术相关的产品已经进入到千家万户中。人们逐渐习惯了与机器对话，并且对机器的理解与应答能力有了更高的期待。

主流的基于语音的对话系统框架采用自动语音识别(ASR，Automatic SpeechRecognition)模型和自然语言理解(NLU，Natural Language Understanding)模型。工作流程包括：首先通过ASR模型将用户的声音转换为文字，然后利用NLU模型进行语义解析，最终得到用户的意图。

现有方法的主要问题在于：工作流程分为两段，一旦ASR模型识别出现误差，在采用NLU模型的时候就会将误差放大。另外，当模型较大的时候，NLU的计算量大，整体负责成本较高，且识别过程会出现延迟。

发明内容

本发明实施例提供一种对话的交互方法、装置及计算机可读存储介质，以解决现有技术中的一个或多个技术问题。

第一方面，本发明实施例提供了一种对话的交互方法，包括：

将待识别语音转换为第一文本；

将所述第一文本输入语义分析模型，得出第一文本的意图信息和词槽信息；

将所述第一文本的意图信息和词槽信息输入对话状态机，得出所述第一文本对应的交互信息。

在一种实施方式中，还包括：

将所述第一文本输入语言模型，得出多个候选文本及其对应的第一置信度，所述语言模型是自动语音识别ASR模型；

将第一置信度最高的候选文本作为所述第二文本。

在一种实施方式中，将所述第一文本输入语义分析模型，得出第一文本的意图信息和词槽信息，包括：

将所述第一文本输入语义分析模型，得出多个候选意图信息及其对应的第二置信度，所述语义分析模型是自然语言理解NLU模型；

将第二置信度最高的候选意图信息作为所述第一文本的意图信息；

获取所述第一文本中包括的与所述第一文本的意图信息对应的词槽信息。

在一种实施方式中，将所述第一文本的意图信息和词槽信息输入对话状态机，得出所述第一文本对应的交互信息，包括：

将所述第一文本的意图信息和词槽信息输入所述对话状态机的初始节点；

筛选出所述对话状态机中符合所述第一文本的意图信息的对话路径；

根据所述第一文本的词槽信息，在符合所述第一文本的意图信息的对话路径中，查找需要跳转到的下一个中间节点；

利用中间节点返回交互信息。

在一种实施方式中，将所述第一文本的意图信息和词槽信息输入对话状态机，得出所述第一文本对应的交互信息，还包括：

在收到所述交互信息的应答信息的情况下，利用语义分析模型得出所述应答信息的词槽信息；

将所述应答信息的词槽信息输入对话状态机的所述中间节点的下一节点。

在一种实施方式中，所述对话状态机的构建包括：

利用语义分析模型得出所述训练样本的意图信息；

确定所述训练样本的意图信息所对应的各词槽信息；

根据意图信息所对应的各词槽信息，构建意图信息包括的对话路径。

在一种实施方式中，所述根据意图信息所对应的各词槽信息，构建意图信息包括的对话路径，包括：

利用语义分析模型，提取与所述训练样本的意图信息对应的各词槽信息；

根据各词槽信息，确定对话状态机包括的初始节点、中间节点和结束节点；

根据各词槽信息，确定各节点之间的跳转关系；

根据各节点及其之间的跳转关系，构建所述训练样本的意图信息包括的对话路径。

第二方面，本发明实施例提供了一种对话的交互装置，包括：

语音转换模块，用于将待识别语音转换为第一文本；

意图信息和词槽信息获取模块，用于将所述第一文本输入语义分析模型，得出第一文本的意图信息和词槽信息；

交互信息获取模块，用于将所述第一文本的意图信息和词槽信息输入对话状态机，得出所述第一文本对应的交互信息。

在一种实施方式中，该装置还包括：

候选文本及置信度获取模块，用于将所述第一文本输入语言模型，得出多个候选文本及其对应的第一置信度，所述语言模型是自动语音识别ASR模型；

第二文本获取模块，用于将第一置信度最高的候选文本作为所述第二文本。

在一种实施方式中，所述意图信息和词槽信息获取模块，包括：

候选意图信息及置信度获取子模块，用于将所述第一文本输入语义分析模型，得出多个候选意图信息及其对应的第二置信度，所述语义分析模型是自然语言理解NLU模型；

第一文本意图信息获取子模块，用于将第二置信度最高的候选意图信息作为所述第一文本的意图信息；

第一词槽信息获取子模块，用于获取所述第一文本中包括的与所述第一文本的意图信息对应的词槽信息。

在一种实施方式中，所述交互信息获取模块，包括：

意图信息和词槽信息输入子模块，用于将所述第一文本的意图信息和词槽信息输入所述对话状态机的初始节点；

对话路径筛选子模块，用于筛选出所述对话状态机中符合所述第一文本的意图信息的对话路径；

跳转节点查找子模块，用于根据所述第一文本的词槽信息，在符合所述第一文本的意图信息的对话路径中，查找需要跳转到的下一个中间节点；

交互信息返回子模块，用于利用中间节点返回交互信息。

在一种实施方式中，所述交互信息获取模块，还包括：

第二词槽信息获取子模块，用于在收到所述交互信息的应答信息的情况下，利用语义分析模型得出所述应答信息的词槽信息；

第二词槽信息输入子模块，用于将所述应答信息的词槽信息输入对话状态机的所述中间节点的下一节点。

在一种实施方式中，构建所述对话状态机包括：

训练样本意图信息获取模块，用于利用语义分析模型得出所述训练样本的意图信息；

词槽信息确定模块，用于确定所述训练样本的意图信息所对应的各词槽信息；

对话路径构建模块，用于根据意图信息所对应的各词槽信息，构建意图信息包括的对话路径。

在一种实施方式中，所述对话路径构建模块，包括：

信息提取模块，用于利用语义分析模型，提取与所述训练样本的意图信息对应的各词槽信息；

节点确定子模块，用于根据各词槽信息，确定对话状态机包括的初始节点、中间节点和结束节点；

跳转关系确定子模块，用于根据各词槽信息，确定各节点之间的跳转关系；

构建执行子模块，用于根据各节点及其之间的跳转关系，构建所述训练样本的意图信息包括的对话路径。

第三方面，本发明实施例提供了一种对话的交互装置，所述装置的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

在一个可能的设计中，所述装置的结构中包括处理器和存储器，所述存储器用于存储支持所述装置执行上述对话的交互的程序，所述处理器被配置为用于执行所述存储器中存储的程序。所述装置还可以包括通信接口，用于与其他设备或通信网络通信。

第四方面，本发明实施例提供了一种计算机可读存储介质，用于存储对话的交互装置所用的计算机软件指令，其包括用于执行上述对话的交互方法所涉及的程序。

上述技术方案中的一个技术方案具有如下优点或有益效果：利用语义分析模型直接从第一文本得出第一文本的意图信息和词槽信息。减少了现有技术语义分析模型需要连接在语言模型后的步骤，由此缩短了时间，可以更快响应用户。同时，上述方案减小计算复杂度，降低整体系统的成本。

上述技术方案中的另一个技术方案具有如下优点或有益效果：将自动语音识别ASR模型和自然语言理解NLU模型集成在一起。采用整体思想对待识别语音进行处理，可以同时输出置信度最高的候选文本和候选意图信息。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本发明进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本发明公开的一些实施方式，而不应将其视为是对本发明范围的限制。

图1示出根据本发明实施例的对话的交互方法的流程图。

图2示出根据本发明实施例的对话的交互方法的流程图。

图3示出根据本发明实施例的对话的交互方法的流程图。

图4示出根据本发明实施例的对话的交互方法的流程图。

图5示出根据本发明实施例的对话状态机的示意图。

图6示出根据本发明实施例的对话的交互方法的流程图。

图7示出根据本发明实施例的对话的交互方法的流程图。

图8示出根据本发明实施例的对话的交互方法的流程图。

图9示出根据本发明实施例的对话的交互装置的结构框图。

图10示出根据本发明实施例的对话的交互装置的结构框图。

图11示出根据本发明实施例的对话的交互装置的结构框图。

图12示出根据本发明实施例的对话的交互装置的结构框图。

图13示出根据本发明实施例的对话的交互装置的结构框图。

图14示出根据本发明实施例的对话的交互装置的结构框图。

图15示出根据本发明实施例的对话的交互装置的结构框图。

图16示出根据本发明实施例的对话的交互装置的结构框图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

图1示出根据本发明实施例的对话的生成方法的流程图。如图1所示，该方法包括以下步骤：

S101：将待识别语音转换为第一文本。

对话终端接收待识别语音后，可以利用声学模型将待识别语音识别为第一文本。对话终端可以包括智能音箱、智能机器人、智能手机等具有人机交互功能的装置。

S102：将所述第一文本输入语义分析模型，得出第一文本的意图信息和词槽信息。

语义分析模型可以用于提取第一文本中所包括的句子的意图信息。意图信息可以是一句话想要达到的目的。第一文本中可以包括与意图信息对应的一个或多个词槽信息。例如第一文本可以是“明天天气怎么样”、“查一下天气”、“查一下北京天气”、“查一下北京明天的天气”中的一种。上述第一文本的意图信息均可以对应为“查询天气”。而“查询天气”对应的词槽信息可以包括“时间”和“地点”。例如第一文本为“明天天气怎么样”，则第一文本包括的词槽信息“时间”为明天，“地点”为空。如果第一文本为“查一下天气”，则第一文本包括的词槽信息“时间”、“地点”均为空。如果第一文本为“查一下北京天气”，则第一文本包括的词槽信息“时间”为空，“地点”为北京。如果第一文本为“查一下北京明天的天气”，则第一文本包括的词槽信息“时间”为明天，“地点”为北京。

在确定了第一文本的词槽信息“时间”和“地点”后，便可以查询到对应的天气信息。

S103：将所述第一文本的意图信息和词槽信息输入对话状态机，得出所述第一文本对应的交互信息。

对话状态机可以是根据当前的对话状态生成交互信息。交互信息可以是对应第一文本得出的查询结果信息，也可以是针对第一文本提出的询问信息。

例如在第一文本是“查一下北京明天的天气”的情况下，第一文本中所包括的词槽信息齐全，由此对话状态机得出的第一文本对应的交互信息可以是直接得出北京明天天气情况的查询结果。查询结果可以通过云服务器获取，例如，对话终端在确定第一文本的意图后，可以与云服务器通信以获取到北京明天天气情况，将其作为交互信息输出给用户。输出的形式包括语音输出和/或文字输出。

例如在第一文本是“明天天气怎么样”的情况下，第一文本中包括的词槽信息“地点”为空，则对话状态机可以生成一询问“地点”的交互信息。例如交互信息可以是“请问查哪里的天气”，将其作为交互信息输出给用户。

如图2所示，在一种实施方式中，该方法还包括：

S201：将所述第一文本输入语言模型，得出多个候选文本及其对应的第一置信度，所述语言模型是自动语音识别ASR模型。

S202：将第一置信度最高的候选文本作为所述第二文本。

语言模型可以用于计算一个句子出现概率的模型。例如，第一文本是“今天天气怎么样”这一句话，利用语言模型进行计算可以包括：先将这句话进行分词，得到“今天”、“天气”、“怎么样”三个分词。

得出的第一候选文本可以是“今天/今天:0.1天气/天气:0.2怎么样/怎么样:0.6”。得出的第二候选文本可以是“今天/今天:0.1天气/天意:0.08怎么样/咋样:0.4”。第一置信度可以采用搜索路径累积代价表示，以搜索路径累积代价为搜索路径总权重的负对数和为例：第一候选文本的搜索路径累积代价表示为-lg(0.1)-lg(0.2)-lg(0.6)≈0.91。第二候选文本的搜索路径累积代价表示为-lg(0.1)-lg(0.08)-lg(0.4)≈2.49。

通过比较可以得出，第一候选文本的搜索路径累积代价相比较小，其置信度较高，因此可以选择第一候选文本作为所述第二文本。第二文本可以显示在对话终端的显示装置上。用户可以通过查看第二文本，验证对话终端的识别结果。

语言模型可以是自动语音识别ASR模型。该ASR模型还可以包括声学模型，从而可以对接收的语音进行识别，得出多个候选文本及其对应的第一置信度。

如图3所示，在一种实施方式中，步骤S102包括：

S1021：将所述第一文本输入语义分析模型，得出多个候选意图信息及其对应的第二置信度，所述语义分析模型是自然语言理解NLU模型。

S1022：将第二置信度最高的候选意图信息作为所述第一文本的意图信息。

S1023：获取所述第一文本中包括的与所述第一文本的意图信息对应的词槽信息。

语义分析模型首先在第一文本中提取出关键信息。可以采用训练好的深度神经网络(DNN，Deep Neural Network)或正则表达式(Regular Expression)等模型得出基于关键信息所对应的意图信息，以及该意图信息的置信度。

例如，第一文本是“今天天气怎么样”这一句话。提取出的关键信息可以包括“今天”“天气”、“怎么样”等关键信息。将上述关键信息输入训练好的模型，可以得出候选意图信息是“查询天气”的置信度为0.6，得出候选意图信息是“查询时间”的置信度为0.2。

通过比较置信度，可以将候选意图信息是“查询天气”作为第一文本的意图信息。获取“查询天气”对应的词槽信息，例如可以是“时间”和“地点”。

意图信息与词槽信息的对应关系可以通过人工标注，或者在训练模型时进行关联，从而可以确定不同意图信息所对应的词槽信息。

在一个实施方式中，可以将自动语音识别ASR模型和自然语言理解NLU模型集成在一起。对待识别语音进行处理可以包括：利用自动语音识别ASR模型中的声学模型将待识别语音转换为第一文本后，可以将第一文本分别输入自动语音识别ASR模型中的语言模型和自然语言理解NLU模型，以得出置信度最高的第二文本和第一文本的意图信息。

得出置信度最高的第二文本和第一文本的意图信息可以包括：将所述第一文本输入语言模型，得出多个候选文本及其对应的第一置信度。将所述第一文本输入语义分析模型，得出多个候选意图信息及其对应的第二置信度。将每个第一置信度逐一与第二置信度进行乘法运算。确定出乘法运算的最大值所对应的第一置信度和第二置信度。将确定出的第一置信度所对应的候选文本和确定出的第二置信度所对应的候选意图信息输出。

通过上述方案，自然语言理解NLU模型无需根据自动语音识别ASR模型的输出进行后续识别，而是将自动语音识别ASR模型和自然语言理解NLU模型集成在一起。采用整体思想对待识别语音进行处理，可以同时输出置信度最高的候选文本和候选意图信息。

结合图4、图5所示，在一种实施方式中，步骤S103包括：

S1031：将所述第一文本的意图信息和词槽信息输入所述对话状态机的初始节点。

S1032：筛选出所述对话状态机中符合所述第一文本的意图信息的对话路径。

S1033：根据所述第一文本的词槽信息，在符合所述第一文本的意图信息的对话路径中，查找需要跳转到的下一个中间节点。

S1034：利用中间节点返回交互信息。

例如第一文本可以是“明天天气怎么样”、“查一下天气”、“查一下北京天气”、“查一下北京明天的天气”中的一种。通过语义分析模型可以得出第一文本的意图信息是“查询天气”。

结合图5所示，对话状态机中实线可以对应意图是“查询天气”的对话路径。对话状态机中虚线可以对应意图是“查询时间”的对话路径。将所述第一文本的意图信息和词槽信息输入所述对话状态机的初始节点(图5中的节点0)。基于对第一文本意图的识别，可以筛选出符合意图是“查询天气”的对话路径。即将对话路径限定在节点0-节点1、节点0-节点2、节点0-节点3、节点0-节点4。例如通过语义分析模型得出第一文本的意图信息是“查询时间”，则将对话路径限定在节点0-节点9、节点0-节点10。

对话状态机根据第一文本的词槽信息缺失情况在对话路径的节点中进行跳转。例如“明天天气怎么样”对应的词槽信息是“时间”，缺失的词槽信息是“地点”。在节点2是输出向用户获取“地点”的交互信息。因此在在符合所述第一文本的意图信息的对话路径中查找到节点2，从初始节点0跳转至中间节点2。中间节点2向用户返回交互信息“请问查哪里的天气”。向用户返回的交互信息可以采用语音、文字、图像等多种形式。

结合图5、图6所示，在一种实施方式中，步骤S103还包括：

S1034：在收到所述交互信息的应答信息的情况下，利用语义分析模型得出所述应答信息的词槽信息。

S1035：将所述应答信息的词槽信息输入对话状态机的所述中间节点的下一节点。

对话终端每次在返回交互信息后，都可以对对话进行跟踪以实现对话记录。在用户针对交互信息进行应答的情况下，对话终端接收应答的语音后利用语义分析模型得出所述应答信息的词槽信息。利用词槽信息在对话状态机中进行跳转。例如中间节点2向用户返回交互信息“请问查哪里的天气”后。用户的应答信息为“北京”，则语义分析模型得出“北京”对应的词槽信息是“地点”。结合对话记录可以确定在“查询天气”的意图下，两个词槽信息均已获取，则跳转至节点4。节点4对应词槽信息齐全的情况，可以跳转至结束节点8，最终输出天气查询信息。

如图7所示，在一种实施方式中，所述对话状态机的构建包括：

S301：利用语义分析模型得出所述训练样本的意图信息。

S302：确定所述训练样本的意图信息所对应的各词槽信息。

S303：根据意图信息所对应的各词槽信息，构建意图信息包括的对话路径。

确定所述训练样本的意图信息时，可以采用表达相同意图的不同样本进行训练。例如“明天天气如何”、“明天多少度”，“北京热不热”等都可以表达相同的“查询天气”的意图。

意图信息所对应的各词槽信息可以通过人工设定，也可以通过模型训练设定。构建意图信息包括的对话路径的目的在于：根据接收的语音生成交互信息，利用交互信息引导用户补全当前意图下的所有词槽信息，使得对话状态机最终可以提供查询结果。

如图8所示，在一种实施方式中，步骤S303包括：

S3031：利用语义分析模型，提取与所述训练样本的意图信息对应的各词槽信息。

S3032：根据所述各词槽信息，确定对话状态机包括的初始节点、中间节点和结束节点。

S3033：根据所述各词槽信息，确定各节点之间的跳转关系。

S3034：根据各节点及其之间的跳转关系，构建所述训练样本的意图信息包括的对话路径。

例如，在意图为“查询天气”的情况下，对应的词槽信息可以是“时间”、“地点”。可以用四个状态进行表示，分别是：

初始节点0-中间节点4，表示词槽信息有“时间”，有“地点”；

初始节点0-中间节点2，表示词槽信息有“时间”，无“地点”；中间节点2-中间节点7，表示生产交互信息，询问“地点”；中间节点7-中间节点4，表示词槽信息有“时间”，有“地点”；

初始节点0-中间节点3，表示词槽信息无“时间”，有“地点”；中间节点3-中间节点6，表示生产交互信息，询问“时间”；中间节点6-中间节点4，表示词槽信息有“时间”，有“地点”；

初始节点0-中间节点1，表示词槽信息无“时间”，无“时间”；中间节点1-中间节点5，表示生产交互信息，询问“时间”；中间节点5-中间节点2，表示词槽信息有“时间”，无“时间”。中间节点2-中间节点7，表示生产交互信息，询问“地点”；中间节点7-中间节点4，表示词槽信息有“时间”，有“地点”。

结束节点8可以作为查询天气结果的最终节点。

图9示出根据本发明实施例的对话的交互装置的结构框图。如图9所示，该装置包括：

语音转换模块901，用于将待识别语音转换为第一文本。

意图信息和词槽信息获取模块902，用于将所述第一文本输入语义分析模型，得出第一文本的意图信息和词槽信息。

交互信息获取模块903，用于将所述第一文本的意图信息和词槽信息输入对话状态机，得出所述第一文本对应的交互信息。

如图10所示，在一种实施方式中，该装置还包括：

候选文本及置信度获取模块1001，用于将所述第一文本输入语言模型，得出多个候选文本及其对应的第一置信度，所述语言模型是自动语音识别ASR模型。

第二文本获取模块1002，用于将第一置信度最高的候选文本作为所述第二文本。

如图11所示，在一种实施方式中，所述意图信息和词槽信息获取模块902，包括：

候选意图信息及置信度获取子模块9021，用于将所述第一文本输入语义分析模型，得出多个候选意图信息及其对应的第二置信度，所述语义分析模型是自然语言理解NLU模型。

第一文本意图信息获取子模块9022，用于将第二置信度最高的候选意图信息作为所述第一文本的意图信息。

第一词槽信息获取子模块9023，用于获取所述第一文本中包括的与所述第一文本的意图信息对应的词槽信息。

如图12所示，在一种实施方式中，所述交互信息获取模块903，包括：

意图信息和词槽信息输入子模块9031，用于将所述第一文本的意图信息和词槽信息输入所述对话状态机的初始节点。

对话路径筛选子模块9032，用于筛选出所述对话状态机中符合所述第一文本的意图信息的对话路径。

跳转节点查找子模块9033，用于根据所述第一文本的词槽信息，在符合所述第一文本的意图信息的对话路径中，查找需要跳转到的下一个中间节点。

交互信息返回子模块9034，用于利用中间节点返回交互信息。

如图13所示，在一种实施方式中，所述交互信息获取模块903，还包括：

第二词槽信息获取子模块9031，用于在收到所述交互信息的应答信息的情况下，利用语义分析模型得出所述应答信息的词槽信息。

第二词槽信息输入子模块9032，用于将所述应答信息的词槽信息输入对话状态机的所述中间节点的下一节点。

如图14所示，在一种实施方式中，构建所述对话状态机包括：

训练样本意图信息获取模块1401，用于利用语义分析模型得出所述训练样本的意图信息。

词槽信息确定模块1402，用于确定所述训练样本的意图信息所对应的各词槽信息。

对话路径构建模块1403，用于根据意图信息所对应的各词槽信息，构建意图信息包括的对话路径。

如图15所示，在一种实施方式中，所述对话路径构建模块1403，包括：

信息提取模块14031，用于利用语义分析模型，提取与所述训练样本的意图信息对应的各词槽信息。

节点确定子模块14032，用于根据各词槽信息，确定对话状态机包括的初始节点、中间节点和结束节点。

跳转关系确定子模块14033，用于根据各词槽信息，确定各节点之间的跳转关系。

构建执行子模块14034，用于根据各节点及其之间的跳转关系，构建所述训练样本的意图信息包括的对话路径。

图16示出根据本发明实施例的对话的交互装置的结构框图。如图16所示，该装置包括：存储器1610和处理器1620，存储器1610内存储有可在处理器1620上运行的计算机程序。所述处理器1620执行所述计算机程序时实现上述实施例中的对话的交互方法。所述存储器1610和处理器1620的数量可以为一个或多个。

该装置还包括：

通信接口1630，用于与外界设备进行通信，进行数据交互传输。

存储器1610可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

如果存储器1610、处理器1620和通信接口1630独立实现，则存储器1610、处理器1620和通信接口1630可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，Peripheral Component Interconnect)总线或扩展工业标准体系结构(EISA，ExtendedIndustry Standard Architecture)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图16中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器1610、处理器1620及通信接口1630集成在一块芯片上，则存储器1610、处理器1620及通信接口1630可以通过内部接口完成相互间的通信。

本发明实施例提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现上述实施例中任一所述的方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种对话的交互方法，其特征在于，包括：

将待识别语音转换为第一文本；

2.根据权利要求1所述的方法，其特征在于，还包括：

将第一置信度最高的候选文本作为第二文本。

3.根据权利要求1所述的方法，其特征在于，将所述第一文本输入语义分析模型，得出第一文本的意图信息和词槽信息，包括：

4.根据权利要求1所述的方法，其特征在于，将所述第一文本的意图信息和词槽信息输入对话状态机，得出所述第一文本对应的交互信息，包括：

利用中间节点返回交互信息。

5.根据权利要求1所述的方法，其特征在于，将所述第一文本的意图信息和词槽信息输入对话状态机，得出所述第一文本对应的交互信息，还包括：

6.根据权利要求1所述的方法，其特征在于，所述对话状态机的构建包括：

利用语义分析模型得出训练样本的意图信息；

确定所述训练样本的意图信息所对应的各词槽信息；

7.根据权利要求6所述的方法，其特征在于，所述根据意图信息所对应的各词槽信息，构建意图信息包括的对话路径，包括：

根据所述各词槽信息，确定对话状态机包括的初始节点、中间节点和结束节点；

根据所述各词槽信息，确定各节点之间的跳转关系；

8.一种对话的交互装置，其特征在于，包括：

语音转换模块，用于将待识别语音转换为第一文本；

9.根据权利要求8所述的装置，其特征在于，还包括：

10.根据权利要求8所述的装置，其特征在于，所述意图信息和词槽信息获取模块，包括：

11.根据权利要求8所述的装置，其特征在于，所述交互信息获取模块，包括：

交互信息返回子模块，用于利用中间节点返回交互信息。

12.根据权利要求8所述的装置，其特征在于，所述交互信息获取模块，还包括：

13.根据权利要求8所述的装置，其特征在于，构建所述对话状态机包括：

14.根据权利要求13所述的装置，其特征在于，所述对话路径构建模块，包括：

15.一种对话的交互装置，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至7中任一项所述的方法。

16.一种计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至7中任一项所述的方法。