CN109189894B - 一种答案抽取方法及装置 - Google Patents
一种答案抽取方法及装置 Download PDFInfo
- Publication number
- CN109189894B CN109189894B CN201811101470.1A CN201811101470A CN109189894B CN 109189894 B CN109189894 B CN 109189894B CN 201811101470 A CN201811101470 A CN 201811101470A CN 109189894 B CN109189894 B CN 109189894B
- Authority
- CN
- China
- Prior art keywords
- document
- target
- text
- feature vector
- matched
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种答案抽取方法及装置,该方法包括:利用一个预先构建的文档匹配模型,预测各个待匹配文档分别作为问题答案所属文档时的第二匹配度,在此过程中,便已经预测了每一待匹配文档的每一单位文本作为问题答案时的第一匹配度,基于此,当根据各个第二匹配度,确定出问题答案实际所属的目标文档后,便可以直接利用该目标文档的每一单位文本与问题答案的第一匹配度,从目标文档中抽取答案。可见,本申请只需要一个文档匹配模型便可以实现答案的抽取,不存在文档检索模型和答案抽取模型导致的误差叠加问题,从而提高了答案抽取结果的正确性。
Description
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种答案抽取方法及装置。
背景技术
随着人工智能技术的逐渐发展,制造业向着“智造”方向发展,越来越多的智能电子设备进入用户的生活,许多设备的说明书(比如行车手册等)都从纸质说明书变成了电子说明书,这使得用户对说明书的查询可以直接依靠人机交互来完成,即,用户向机器提出问题,机器从电子说明书中抽取该问题的答案并将答案反馈给用户。
目前,根据问题进行答案抽取的方法,都是依赖于自然语言处理技术中的阅读理解技术,一般通过以下两个步骤完成:
一、在文档库中进行检索,检索出问题答案所属的文档,其中,文档库中的每一文档可以是对上述电子说明书进行划分后的每一文档;
二、在检索到的文档中,抽取出问题的答案。
对于这两个步骤,目前的方法是分别训练两个有监督模型,这两个步骤需要在这两个模型中进行数据输入和输出,但这两个模型的输出误差会叠加在一起,从而影响答案抽取结果的正确性。
发明内容
本申请实施例的主要目的在于提供一种答案抽取方法及装置,能够提高答案抽取结果的正确性。
本申请实施例提供了一种答案抽取方法,包括:
获取目标问题,所述目标问题对应于至少两个待匹配文档;
利用预先构建的文档匹配模型,预测所述待匹配文档中每一单位文本分别作为目标答案时的第一匹配度,并预测所述待匹配文档作为所述目标答案所属文档时的第二匹配度,所述目标答案为所述目标问题的答案;
根据所述至少两个待匹配文档分别对应的第二匹配度,从所述至少两个待匹配文档中选择所述目标答案所属的目标文档;
根据所述目标文档中每一单位文本分别对应的第一匹配度,从所述目标文档中抽取至少一个单位文本作为所述目标答案。
可选的,所述预测所述待匹配文档作为所述目标答案所属文档时的第二匹配度,包括:
根据所述待匹配文档中每一单位文本分别作为目标答案时的第一匹配度,预测所述待匹配文档作为所述目标答案所属文档时的第二匹配度。
可选的,所述预测所述待匹配文档中每一单位文本分别作为目标答案时的第一匹配度,包括:
生成所述目标问题的问题特征向量以及所述待匹配文档中每一单位文本的文本特征向量,所述问题特征向量携带了所述目标问题的语义信息,所述文本特征向量携带了所述单位文本的语义信息以及所述单位文本与所述目标问题之间的相关度;
根据所述问题特征向量以及各个所述文本特征向量,预测所述待匹配文档中每一单位文本分别作为目标答案时的第一匹配度。
可选的,所述生成所述目标问题的问题特征向量,包括:
将所述目标问题进行切分,得到各个第一文本元素;
生成所述第一文本元素的第一特征向量,所述第一特征向量携带了所述第一文本元素的语义信息;
为所述第一文本元素分配第一权重值,所述第一权重值表征了所述第一文本元素对所述目标问题的贡献度;
利用各个第一文本元素对应的第一特征向量以及第一权重值,生成所述目标问题的问题特征向量。
可选的,所述生成所述待匹配文档中每一单位文本的文本特征向量,包括:
将所述待匹配文档中的每一单位文本进行切分,得到各个第二文本元素;
生成所述第二文本元素的第二特征向量,所述第二特征向量携带了所述第二文本元素的语义信息;
为所述第二文本元素分配第二权重值,所述第二权重值表征了所述第二文本元素与所述目标问题之间的相关度;
利用各个第二文本元素对应的第二特征向量以及第二权重值,生成所述单位文本的文本特征向量。
可选的,所述根据所述待匹配文档中每一单位文本分别作为目标答案时的第一匹配度,预测所述待匹配文档作为所述目标答案所属文档时的第二匹配度,包括:
根据所述待匹配文档中每一单位文本分别对应的文本特征向量以及第一匹配度,确定所述待匹配文档的文档特征向量;
根据所述问题特征向量与所述文档特征向量,确定所述待匹配文档作为所述目标答案所属文档时的第二匹配度。
可选的,所述根据所述问题特征向量与所述文档特征向量,确定所述待匹配文档作为所述目标答案所属文档时的第二匹配度,包括:
生成所述待匹配文档的文档标题的标题特征向量,所述标题特征向量携带了所述文档标题的语义信息以及所述文档标题与所述目标问题之间的相关度;
根据所述问题特征向量、所述文档特征向量以及所述标题特征向量,确定所述待匹配文档作为所述目标答案所属文档时的第二匹配度。
可选的,所述生成所述待匹配文档的文档标题的标题特征向量,包括:
将所述文档标题进行切分,得到各个第三文本元素;
生成所述第三文本元素的第三特征向量,所述第三特征向量携带了所述第三文本元素的语义信息;
为所述第三文本元素分配第三权重值,所述第三权重值表征了所述第三文本元素与所述目标问题之间的相关度;
利用各个第三文本元素对应的第三特征向量以及第三权重值,生成所述文档标题的标题特征向量。
可选的,所述根据所述至少两个待匹配文档分别对应的第二匹配度,从所述至少两个待匹配文档中选择所述目标答案所属的目标文档,包括:
分别确定所述至少两个待匹配文档中的每一待匹配文档与所述目标问题之间的匹配得分,所述匹配得分表征了所述待匹配文档作为所述目标答案所属文档时的第二匹配度;
从各个匹配得分中选择最高得分;
若所述最高得分大于第一得分阈值,则将所述最高得分对应的待匹配文档,作为所述目标答案所属的目标文档。
可选的,所述根据所述目标文档中每一单位文本分别对应第一匹配度,从所述目标文档中抽取至少一个单位文本作为所述目标答案,包括:
分别确定所述目标文档中的每一单位文本与所述目标问题之间的匹配得分,所述匹配得分表征了所述单位文本作为所述目标答案时的第一匹配度;
从所述目标文档中抽取所述目标答案,所述目标答案是由所述目标文档中的连续单位文本组成的、且所述连续单位文本中包括大于第二得分阈值的各个匹配得分对应的单位文本。
本申请实施例还提供了一种答案抽取装置,包括:
目标问题获取单元,用于获取目标问题,所述目标问题对应于至少两个待匹配文档;
第一匹配度预测单元,用于利用预先构建的文档匹配模型,预测所述待匹配文档中每一单位文本分别作为目标答案时的第一匹配度;
第二匹配度预测单元,用于利用预先构建的文档匹配模型,预测所述待匹配文档作为所述目标答案所属文档时的第二匹配度,所述目标答案为所述目标问题的答案;
目标文档选择单元,用于根据所述至少两个待匹配文档分别对应的第二匹配度,从所述至少两个待匹配文档中选择所述目标答案所属的目标文档;
目标答案抽取单元,用于根据所述目标文档中每一单位文本分别对应的第一匹配度,从所述目标文档中抽取至少一个单位文本作为所述目标答案。
可选的,所述第二匹配度预测单元,具体用于根据所述待匹配文档中每一单位文本分别作为目标答案时的第一匹配度,预测所述待匹配文档作为所述目标答案所属文档时的第二匹配度。
可选的,所述第一匹配度预测单元包括:
问题向量生成子单元,用于生成所述目标问题的问题特征向量,所述问题特征向量携带了所述目标问题的语义信息;
文本向量生成子单元,用于生成所述待匹配文档中每一单位文本的文本特征向量,所述文本特征向量携带了所述单位文本的语义信息以及所述单位文本与所述目标问题之间的相关度;
第一匹配度预测子单元,用于根据所述问题特征向量以及各个所述文本特征向量,预测所述待匹配文档中每一单位文本分别作为目标答案时的第一匹配度。
可选的,所述问题向量生成子单元包括:
第一元素获得子单元,用于将所述目标问题进行切分,得到各个第一文本元素;
第一特征生成子单元,用于生成所述第一文本元素的第一特征向量,所述第一特征向量携带了所述第一文本元素的语义信息;
第一权重分配子单元,用于为所述第一文本元素分配第一权重值,所述第一权重值表征了所述第一文本元素对所述目标问题的贡献度;
第一向量生成子单元,用于利用各个第一文本元素对应的第一特征向量以及第一权重值,生成所述目标问题的问题特征向量。
可选的,所述文本向量生成子单元包括:
第二元素获得子单元,用于将所述待匹配文档中的每一单位文本进行切分,得到各个第二文本元素;
第二特征生成子单元,用于生成所述第二文本元素的第二特征向量,所述第二特征向量携带了所述第二文本元素的语义信息;
第二权重分配子单元,用于为所述第二文本元素分配第二权重值,所述第二权重值表征了所述第二文本元素与所述目标问题之间的相关度;
第二向量生成子单元,用于利用各个第二文本元素对应的第二特征向量以及第二权重值,生成所述单位文本的文本特征向量。
可选的,所述第二匹配度预测单元包括:
文档向量确定子单元,用于根据所述待匹配文档中每一单位文本分别对应的文本特征向量以及第一匹配度,确定所述待匹配文档的文档特征向量;
第二匹配度预测子单元,用于根据所述问题特征向量与所述文档特征向量,确定所述待匹配文档作为所述目标答案所属文档时的第二匹配度。
可选的,所述第二匹配度预测子单元包括:
标题向量生成子单元,用于生成所述待匹配文档的文档标题的标题特征向量,所述标题特征向量携带了所述文档标题的语义信息以及所述文档标题与所述目标问题之间的相关度;
第二匹配度确定子单元,用于根据所述问题特征向量、所述文档特征向量以及所述标题特征向量,确定所述待匹配文档作为所述目标答案所属文档时的第二匹配度。
可选的,所述标题向量生成子单元包括:
第三元素获得子单元,用于将所述文档标题进行切分,得到各个第三文本元素;
第三特征生成子单元,用于生成所述第三文本元素的第三特征向量,所述第三特征向量携带了所述第三文本元素的语义信息;
第三权重分配子单元,用于为所述第三文本元素分配第三权重值,所述第三权重值表征了所述第三文本元素与所述目标问题之间的相关度;
第三向量生成子单元,用于利用各个第三文本元素对应的第三特征向量以及第三权重值,生成所述文档标题的标题特征向量。
可选的,所述目标文档选择单元包括:
第一得分确定子单元,用于分别确定所述至少两个待匹配文档中的每一待匹配文档与所述目标问题之间的匹配得分,所述匹配得分表征了所述待匹配文档作为所述目标答案所属文档时的第二匹配度;
最高得分选择子单元,用于从各个匹配得分中选择最高得分;
目标文档确定子单元,用于若所述最高得分大于第一得分阈值,则将所述最高得分对应的待匹配文档,作为所述目标答案所属的目标文档。
可选的,所述目标答案抽取单元包括:
第二得分确定子单元,用于分别确定所述目标文档中的每一单位文本与所述目标问题之间的匹配得分,所述匹配得分表征了所述单位文本作为所述目标答案时的第一匹配度;
目标答案抽取子单元,用于从所述目标文档中抽取所述目标答案,所述目标答案是由所述目标文档中的连续单位文本组成的、且所述连续单位文本中包括大于第二得分阈值的各个匹配得分对应的单位文本。
本申请实施例还提供了一种答案抽取装置,包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述答案抽取方法中的任意一种实现方式。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述答案抽取方法中的任意一种实现方式。
本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述答案抽取方法中的任意一种实现方式。
本申请实施例提供的一种答案抽取方法及装置,利用一个预先构建的文档匹配模型,预测各个待匹配文档分别作为问题答案所属文档时的第二匹配度,在此过程中,便已经预测了每一待匹配文档的每一单位文本作为问题答案时的第一匹配度,基于此,当根据各个第二匹配度,确定出问题答案实际所属的目标文档后,便可以直接利用该目标文档的每一单位文本与问题答案的第一匹配度,从目标文档中抽取答案,可见,本申请实施例只需要一个文档匹配模型便可以实现答案的抽取,不存在上述文档检索模型和答案抽取模型导致的误差叠加问题,从而提高了答案抽取结果的正确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种答案抽取方法的流程示意图;
图2为本申请实施例提供的匹配得分的示意图之一;
图3为本申请实施例提供的匹配得分的示意图之二;
图4为本申请实施例提供的预测待匹配文档中每一单位文本分别作为目标答案时的第一匹配度的流程示意图;
图5为本申请实施例提供的文档匹配模型的结构示意图;
图6为本申请实施例提供的预测待匹配文档作为目标答案所属文档时的第二匹配度的流程示意图;
图7为本申请实施例提供的构建文档匹配模型的流程示意图;
图8为本申请实施例提供的一种答案抽取装置的组成示意图。
具体实施方式
在一些答案抽取方法中,通常是利用人工标注的大量数据来分别训练两个有监督模型,即文档检索模型和答案抽取模型,然后,利用文档检索模型根据输入问题在文档库中进行检索,检索出问题答案所属的正确文档;接着,再通过答案抽取模型在检索出的正确文档中抽取输入问题的答案部分,并进行输出。但是,这种答案抽取方式,需要在这两个模型中进行数据输入和输出,会导致这两个模型的输出误差叠加在一起,从而影响答案抽取结果的正确性。
为解决上述缺陷,本申请实施例提供了一种答案抽取方法,在获取到一个问题后,不再利用上述文档检索模型和答案抽取模型来分步骤完成答案的抽取,而是仅利用一个预先构建的文档匹配模型,预测各个待匹配文档分别作为问题答案所属文档时的匹配度,在此过程中,便已经预测了每一待匹配文档的每一单位文本(比如每一句子)作为问题答案时的匹配度,基于此,当根据各个待匹配文档分别作为问题答案所属文档时的匹配度,确定出问题答案实际所属的正确文档后,便可以直接利用该正确文档的每一单位文本与问题答案的匹配度,从正确文档中抽取答案,可见,本申请实施例只需要一个文档匹配模型便可以实现答案的抽取,不存在上述文档检索模型和答案抽取模型导致的误差叠加问题,从而提高了答案抽取结果的正确性。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
第一实施例
参见图1,为本实施例提供的一种答案抽取方法的流程示意图,该方法包括以下步骤:
S101:获取目标问题,该目标问题对应于至少两个待匹配文档。
在本实施例中,将采用本实施例实现答案抽取的任一问题定义为目标问题,目标问题指的是用户针对电子化的非结构化文本(比如电子版的行车手册等)提出的问题。并且,本实施例不限制目标问题的语种类型,比如,目标问题可以是中文构成的问题、或英文构成的问题等;本实施例也不限制目标问题的形式,比如,目标问题可以是语音形式,也可以是文字形式。
在本实施例中,目标问题对应于至少两个待匹配文档,在一些人机交互场景中,用户可以向人机交互设备(比如智能手机等电子产品)提出问题,即目标问题,人机交互设备会通过后续步骤,根据该目标问题检索到问题答案所属的待匹配文档并抽取其中的答案片段反馈给用户。例如:若某汽车的行车手册为电子手册,可以预先将该电子行车手册划分为多个文档块,一个文档块可以是电子行车手册目录下一个子目录对应的篇章级文本,每一划分出的文档块即为待匹配文档,用户可以向人机交互设备提出问题,比如“请问如何打开空调?”,此时,人机交互设备可将该问题作为目标问题,并根据该目标问题检索到问题答案所属的待匹配文档并抽取其中的答案片段反馈给用户。
S102:利用预先构建的文档匹配模型,预测待匹配文档中每一单位文本分别作为目标答案时的第一匹配度,并预测待匹配文档作为目标答案所属文档时的第二匹配度,其中,目标答案为目标问题的答案。
其中,目标答案为目标问题的答案。
在本实施例中,通过步骤S101,获取到目标问题及其对应的至少两个待匹配的文档后,可以利用预先构建的文档匹配模型,对获取到的各个待匹配文档进行数据分析,即,当待匹配文档中每一单位文本分别作为目标答案时,预测该单位文本作为目标答案时的匹配度,本实施例将该匹配度定义为第一匹配度。其中,第一匹配度表征了对应单位文本作为目标答案的可能性,若某一单位文本作为目标答案时的第一匹配度越高,则表明该单位文本作为目标答案的可能性越大,反之亦然。其中,每一单位文本指的是组成待匹配文档的每一文本单元,比如,待匹配文档正文的每个句子或者由多个句子组成的每一段文本均可以作为单位文本,此外,待匹配文档的标题也可以作为单位文本。
同时,还可以利用预先构建的文档匹配模型,对获取到的各个待匹配文档进行数据分析,预测出当每一待匹配文档作为目标答案所属文档时的匹配度,本实施例将该匹配度定义为第二匹配度。其中,第二匹配度表征了对应待匹配文档作为目标答案所属文档的可能性,若某一待匹配文档作为目标答案所属文档时的第二匹配度越高,则表明该待匹配文档作为目标答案所属文档的可能性越大,反之亦然。
在本实施例中,一种可选的实现方式是,步骤S102中“预测待匹配文档作为目标答案所属文档时的第二匹配度”可以包括:
根据待匹配文档中每一单位文本分别作为目标答案时的第一匹配度,预测所述待匹配文档作为所述目标答案所属文档时的第二匹配度。
在本实现方式中,可以根据所有待匹配文档中每一单位文本对应的第一匹配度,利用预先构建的文档匹配模型,确定出各个待匹配文档作为目标答案所属文档时的第二匹配度。
可见,在本步骤S102中,可以利用文档匹配模型得到中间输出结果(即各个第一匹配度)以及最终输出结果(即各个第二匹配度),文档匹配模型的具体工作过程可参见后续第二实施例的相关介绍。并且,为实现本步骤S102,需要先构建一个文档匹配模型,具体构建过程可参见后续第三实施例的相关介绍。
S103:根据上述至少两个待匹配文档分别对应的第二匹配度,从所述至少两个待匹配文档中选择目标答案所属的目标文档。
通过步骤S102,确定出上述至少两个待匹配文档分别作为目标答案所属文档时的第二匹配度后,进一步可根据各个第二匹配度的高低,从所有待匹配文档中选择目标答案所属的正确文档,本实施例将该正确文档称为目标文档。由于第二匹配度表征了对应待匹配文档作为目标文档的可能性大小,因此,应从各个第二匹配度中找出最高匹配度,该最高匹配度对应的待匹配文档即为目标答案所属的目标文档。
在本实施例的一种实现方式中,S103具体可以包括步骤A-C:
步骤A:分别确定上述至少两个待匹配文档中的每一待匹配文档与目标问题之间的匹配得分,该匹配得分表征了待匹配文档作为目标答案所属文档时的第二匹配度。
在本实现方式中,可以利用匹配得分来表征待匹配文档作为目标答案所属文档时的第二匹配度,这样,每一待匹配文档分别对应一个匹配得分,匹配得分越高,表明对应的第二匹配度越高,进而表明对应待匹配文档作为目标答案所属文档的可能性越大,反之亦然。
举例说明:如图2所示,假设目标问题为:“怎样清理车内后视镜?”,并假设有两个待匹配文档,文档名称分别为“车内后视镜”和“自动防炫目后视镜”,可以通过步骤A确定出这两个待匹配文档与目标问题之间的匹配得分,其中,文档“车内后视镜”对应的文档匹配得分为0.95,而文档“自动防炫目后视镜”对应的文档匹配得分为0.63。
步骤B:从各个匹配得分中选择最高得分。
在本实现方式中,通过步骤A确定出每一待匹配文档与目标问题之间的匹配得分后,可以从各个匹配得分中选择出最高得分,例如,文档“车内后视镜”对应的文档匹配得分最高,为0.95。
步骤C:若最高得分大于第一得分阈值,则将最高得分对应的待匹配文档,作为目标答案所属的目标文档。
在本实现方式中,通过步骤B从各个匹配得分中选择出最高得分后,可以判断该最高得分是否大于第一得分阈值,若大于第一得分阈值,则可以将该最高得分对应的待匹配文档,作为目标答案所属的目标文档;若不大于第一得分阈值,则可以确定出所有待匹配文档均不能作为目标文档。
其中,第一得分阈值是预先设置的,用以表示待匹配文档与目标问题之间相互匹配的临界值,若待匹配文档对应的匹配得分超过该临界值,则表明待匹配文档有可能是目标问题所属的文档,若不超过该临界值,则表明待匹配文档不可能是目标问题所属的文档。可以理解的是,若所有待匹配文档中最高匹配得分不大于第一得分阈值,则说明所有待匹配文档均无法作为目标文档。
例如,如图2所示,从两个匹配得分中选择最高的文档匹配得分为0.95,对应的文档为“车内后视镜”,若该得分高于预先设置的第一得分阈值,比如0.6,则可以将文档“车内后视镜”作为目标答案所属的目标文档。
S104:根据目标文档中每一单位文本分别对应第一匹配度,从目标文档中抽取至少一个单位文本作为目标答案。
在本实施例中,通过步骤S103,选择出目标答案所属的目标文档后,可以从S102的预测结果中,获取目标文档中每一单位文本分别对应第一匹配度,进一步可以根据各个第一匹配度的高低,从目标文档中抽取至少一个单位文本作为目标答案。由于第一匹配度表征了对应单位文本作为目标答案的可能性大小,且问题答案可能是一句话、也可能是一段话、甚至可能是一篇文章,因此,目标文档中满足匹配要求的各个单位文本均可组成目标答案。
在本实施例的一种实现方式中,S104具体可以包括步骤D-E:
步骤D:分别确定目标文档中的每一单位文本与目标问题之间的匹配得分,该匹配得分表征了单位文本作为目标答案时的第一匹配度。
在本实现方式中,可以利用匹配得分来表征单位文本作为目标答案时的第一匹配度,这样,目标文档中的每一单位文本分别对应一个匹配得分,其中,匹配得分越高,表明对应的第一匹配度越高,进而表明对应单位文本作为目标答案的可能性越大,反之亦然。
举例说明:如图2所示,假设目标问题为:“怎样清理车内后视镜?”,且目标文档的文档名称为“车内后视镜”,以目标文档中的单位文本为句子进行说明,目标文档“车内后视镜”中每个句子与目标问题之间的匹配得分为图2所示的“问答匹配得分”,其中,句子“调节后视镜以清晰地看到车辆的后方区域”对应的匹配得分为0.2,句子“请勿将玻璃清洁剂直接喷到后视镜上”对应的匹配得分为0.3,句子“使用潮湿的软布清洁”对应的匹配得分为0.92。
步骤E:从目标文档中抽取目标答案,该目标答案是由目标文档中的连续单位文本组成的、且连续单位文本中包括大于第二得分阈值的各个匹配得分对应的单位文本。
在本实现方式中,通过步骤D分别确定出目标文档中的每一单位文本与目标问题之间的匹配得分后,可以根据各个匹配得分的大小,从目标文档中抽取目标答案。可以理解的是,假设单位文本为句子,则目标答案通常是由连续的句子组成,而这些句子中应大部分与目标问题强相关,因此,可以通过第二得分阈值筛选出这些强相关的句子,并将这些句子及其相邻的弱相关句子一起组成目标答案,使目标答案由连续句子组成,以便用户阅读。
其中,第二得分阈值是预先设置的,用以表示目标文档中每一单位文本与目标问题之间相互匹配的临界值,若单位文本对应的匹配得分超过该临界值,则表明单位文本有可能是目标答案的一部分,若不超过该临界值,则表明单位文本不可能是目标答案的一部分。
例如,如图2所示,假设第二得分阈值为0.7,则句子“使用潮湿的软布清洁”的匹配得分为0.92,超过了第二得分阈值,可将该句子标注为“1”,否则标注为0,而标注为1的句子即为目标答案。
又例如:假设第二得分阈值为0.7,如图3所示,假设目标问题为:“我要怎么加油啊?”,且目标文档的文档名称为“加油口”,从图3可以看出,目标文档“加油口”中的大部分句子与目标问题之间的匹配得分(问答匹配得分)都比较高,基本超过了第二得分阈值,对应的结果标注为1,仅有句子“将整车电源置与OFF档”与目标问题之间的匹配得分(问答匹配得分)较低,未超过第二得分阈值,对应的结果标注为0,但由于只有这个句子的匹配得分不大于第二得分阈值,其他大部分句子与目标问题之间的匹配得分均大于第二得分阈值,因此,可以将所有单位文本合并组成目标答案,即,将整个目标文档“加油口”作为目标答案。
需要说明的是,当通过上述步骤未抽取到目标问题的答案时,还可以采取一些相关方式向用户提醒,比如,对用户进行语音提醒,提醒语音可以为“我没理解您的意思,请换一种说法”等,或者,也可以在系统后台,转为人工来做进一步处理等。
综上,本实施例提供的一种答案抽取方法,利用一个预先构建的文档匹配模型,预测各个待匹配文档分别作为问题答案所属文档时的第二匹配度,在此过程中,便已经预测了每一待匹配文档的每一单位文本作为问题答案时的第一匹配度,基于此,当根据各个第二匹配度,确定出问题答案实际所属的目标文档后,便可以直接利用该目标文档的每一单位文本与问题答案的第一匹配度,从目标文档中抽取答案,可见,本实施例只需要一个文档匹配模型便可以实现答案的抽取,不存在上述文档检索模型和答案抽取模型导致的误差叠加问题,从而提高了答案抽取结果的正确性。
第二实施例
需要说明的是,目前的答案抽取方法通常是由两个模型来完成:首先,由文档检索模型,根据输入问题在文档库中进行检索,检索出问题答案所属的正确文档;然后,由答案抽取模型,在正确文档中抽取出输入问题的答案。因此,需要预先训练得到文档检索模型和答案抽取模型,在训练每个模型之前均需要人工标注数据,即人工标注问题答案所属的文档以及答案在所属文档中的位置等大量的数据,会消耗大量人力成本。而且,人工标注数据将导致两个模型的迁移能力比较弱,这是因为,在进行模型迁移时,需要重新标注两组大量数据,以便重新进行模型训练,不便于推广使用,比如,在空调电子说明书上训练两组模型后,当任务迁移到电子行车手册时,又需要对电子行车手册数据进行两组数据的标注,然后重新训练两组模型,会消耗大量人力、物力成本。
基于此,本实施例提出了构建文档匹配模型,可以利用文档匹配模型实现第一实施例中的步骤S102,即,先预测待匹配文档中每一单位文本分别作为目标答案时的第一匹配度,再根据各个第一匹配度预测待匹配文档作为目标答案所属文档时的第二匹配度,这样,当第二匹配度作为模型的最终输出结果时,在对文档匹配模型进行训练之前,仅需要对收集的问题与其答案所属的文档进行人工标注,而不需要人工对文档中的答案进行标注,这样既可以节省人力成本,也减少了任务迁移的复杂度。
需要说明的是,本实施例将通过下述步骤S401-S402,对第一实施例S102中“预测待匹配文档中每一单位文本分别作为目标答案时的第一匹配度”的具体实施方式进行介绍;并通过步骤S601-S602,对第一实施例S102中“根据待匹配文档中每一单位文本分别作为目标答案时的第一匹配度,预测待匹配文档作为目标答案所属文档时的第二匹配度”的具体实施方式进行介绍。
图5为本实施例提供的文档匹配模型的结构示意图,下面将结合图5对步骤S401-S402以及步骤S601-S602进行具体介绍。其中,在构建文档匹配模型的过程中,可以将该模型结构划分为三类子结构,分别为问题模型子结构、文档模型子结构以及文档标题模型子结构,并且每类模型子结构均为分层结构,具体可以分为输入层、注意力层、句子层、文档层以及输出层。
参见图4,其示出了本实施例提供的预测待匹配文档中每一单位文本分别作为目标答案时的第一匹配度的流程示意图,该流程包括以下步骤:
S401:生成目标问题的问题特征向量以及待匹配文档中每一单位文本的文本特征向量,其中,问题特征向量携带了目标问题的语义信息,文本特征向量携带了单位文本的语义信息以及单位文本与目标问题之间的相关度。
在本实施例中,当将目标问题以及待匹配文档的每一单位文本的相关信息输入至图5所示的文档匹配模型后,该模型会生成目标问题的问题特征向量,该问题特征向量携带了目标问题的语义信息;同时,该模型也会生成待匹配文档中每一单位文本分别对应的文本特征向量,其中,每一单位文本对应的文本特征向量携带了该单位文本的语义信息以及该单位文本与目标问题之间的相关度信息,相关度越大,则该单位文本作为目标答案的可能性越大。
在本实施例的一种实现方式中,S401中“生成目标问题的问题特征向量”的过程,具体可以包括步骤S4011-S4014:
S4011:将目标问题进行切分,得到各个第一文本元素。
其中,第一文本元素指的是构成目标问题的组成元素,比如可以是构成目标问题的字或词,本实现方式后续将以字为例进行说明,也就是说,可以将目标问题进行按字切分,得到目标问题中的各个字。
S4012:生成第一文本元素的第一特征向量,而第一特征向量携带了第一文本元素的语义信息。
在本实现方式中,通过步骤S4011获取到目标问题的各个第一文本元素后,可将各个第一文本元素进行向量化,得到各个第一文本元素向量,再将其输入至图5所示的文档匹配模型,以生成第一文本元素的第一特征向量,其中,第一特征向量携带了第一文本元素的语义信息、以及第一文本元素与目标问题中其他第一文本元素在语义上的关联信息。
具体地,如图5所示,以各个第一文本元素为目标问题的各个字为例,在通过步骤S4011获取到目标问题包含的各个字后,可以利用字向量化方法或用来产生字向量的相关模型,对目标问题包含的各个字进行字向量化,得到每个字的字向量,再将其作为输入数据输入至图5所示的文档匹配模型的问题模型子结构的输入层中,通过BiLSTM可以得到每个字的第一特征向量,该第一特征向量携带有该字的语义信息以及该字与问题中其他字在语义上的关联关系。
S4013:为第一文本元素分配第一权重值,而第一权重值表征了第一文本元素对目标问题的贡献度。
在本实现方式中,由于每个第一文本元素在目标问题中的重要性不同,因此,可以为第一文本元素分配第一权重值,而第一权重值则表征了第一文本元素对目标问题的贡献度,比如,第一权值越大,则越表明对应的第一文本元素是目标问题的主要问题成分。
具体地,如图5所示,仍以各个第一文本元素为目标问题的各个字为例,可以利用文档匹配模型,通过注意力层的自注意力模型(Self Attention)分别得到目标问题中每个字的注意力权重,该权重表征了其对应的每个字对目标问题的贡献度。
S4014:利用各个第一文本元素对应的第一特征向量以及第一权重值,生成所述目标问题的问题特征向量。
在本实现方式中,通过步骤S4013为第一文本元素分配第一权重值后,可以利用各个第一文本元素对应的第一特征向量以及第一权重值,生成目标问题的问题特征向量。
具体地,如图5所示,利用文档匹配模型中的自注意力模型分别得到目标问题中每个字的注意力权重后,进而可以使用这些权重对目标问题中每个字的第一特征向量进行加权,在句子层生成表征目标问题语义信息的问题特征向量。
在本实施例的一种实现方式中,S401中“生成待匹配文档中每一单位文本的文本特征向量”的过程,具体可以包括步骤S4015-S4018:
S4015:将待匹配文档中的每一单位文本进行切分,得到各个第二文本元素。
其中,第二文本元素指的是构成待匹配文档的每一单位文本的组成元素,与第一文本元素相类似,可以是构成待匹配文档的每个句子的字或词,本实现方式后续将以字为例进行说明,也就是说,可以将待匹配文档中的每个句子进行按字切分,得到每个句子中的各个字。需要说明的是,待匹配文档中的第二文本元素类型应与目标问题中的第一文本元素类型相同,比如,可以都是字或都是词。
S4016:生成第二文本元素的第二特征向量,而第二特征向量携带了第二文本元素的语义信息。
在本实现方式中,通过步骤S4015获取到待匹配文档的每一单位文本的各个第二文本元素后,可将各个第二文本元素进行向量化,得到各个第二文本元素向量,再将其输入至图5所示的文档匹配模型,以生成第二文本元素的第二特征向量,其中,第二特征向量携带了第二文本元素的语义信息、以及第二文本元素与同一单位文本中其他第二文本元素在语义上的关联信息。
具体地,如图5所示,以待匹配文档的每一单位文本为各个句子、且以各个第二文本元素为每一句子的各个字为例,对于待匹配文档的第1个句子来讲,在通过步骤S4015获取到待匹配文档的第1个句子包含的各个字后,可以利用字向量化方法或用来产生字向量的相关模型,对各个字进行字向量化,得到每个字的字向量,再将其作为输入数据输入至图5所示的文档匹配模型的文档模型子结构的输入层中,通过BiLSTM可以得到每个字的第二特征向量,该第二特征向量携带有字的语义信息以及该字与第1个句子中其他字在语义上的关联关系。此外,待匹配文档的其它句子也按照上述方式进行处理,此处不再赘述。
S4017:为第二文本元素分配第二权重值,而第二权重值表征了第二文本元素与目标问题之间的相关度。
在本实现方式中,由于每个第二文本元素在其所属单位文本中的重要性不同,因此,可以为第二文本元素分配第二权重值,而第二权重值则表征了第二文本元素与目标问题之间的相关度,比如,第二权重值越大,则表明对应的第二文本元素作为目标答案的可能性越大。
具体地,如图5所示,可以利用文档匹配模型,通过注意力层的交互注意力模型,再结合获取到的目标问题的问题特征向量共同作用,得到待匹配文档的各个句子中每个第二文本元素的注意力权重,该权重表征了其对应的第二文本元素与目标问题之间的相关度。
S4018:利用各个第二文本元素对应的第二特征向量以及第二权重值,生成单位文本的文本特征向量。
在本实现方式中,通过步骤S4017为单位文本的第二文本元素分配第二权重值后,可以利用各个第二文本元素对应的第二特征向量以及第二权重值,生成单位文本的文本特征向量。
具体地,如图5所示,仍以待匹配文档的每一单位文本为各个句子、且以各个第二文本元素为每一句子的各个字为例,利用文档匹配模型中的交互注意力模型分别得到待匹配文档中各个句子的每个字的注意力权重后,进而可以使用这些权重对待匹配文档的各个句子中每个字的第二特征向量进行加权,生成表征待匹配文档的各个句子语义信息的各个句子的文本特征向量。
S402:根据问题特征向量以及各个文本特征向量,预测待匹配文档中每一单位文本分别作为目标答案时的第一匹配度。
在本实施例中,通过步骤S401生成目标问题的问题特征向量、以及待匹配文档中每一单位文本的文本特征向量后,如图5所示,可以将各个单位文本(比如各个句子)分别对应的文本特征向量进一步输入至文档层的BiLSTM中,以便通过BiLSTM对待匹配文档中每一单位文本进行语义表达,得到待匹配文档中每一单位文本的最终特征向量,该最终特征向量表征了对应单位文本的自身语义信息以及其与文档中其他单位文本在语义上的关联关系,再结合目标问题的问题特征向量以及交互注意力模型共同作用,得到待匹配文档中每一单位文本的注意力权重,该权重值表征了其对应的单位文本与目标问题之间的相关度,可以利用该权重值表征该单位文本作为目标答案时的第一匹配度,权重值越大,则第一匹配度越高,进而表明该单位文本作为目标答案的可能性越大,反之亦然。
参见图6,其示出了本实施例提供的根据各个第一匹配度预测待匹配文档作为目标答案所属文档时的第二匹配度的流程示意图,该流程包括以下步骤:
S601:根据待匹配文档中每一单位文本分别对应的文本特征向量以及第一匹配度,确定待匹配文档的文档特征向量。
参见图5,如S402中所介绍的,将待匹配文档中每一单位文本分别对应的文本特征向量输入至BiLSTM中,可以得到待匹配文档中每一单位文本的最终特征向量。由于待匹配文档中每一单位文本在文档中的重要性不同,可以将各个最终特征向量以及目标问题的问题特征向量输入至交互注意力模型,得到文档中每一单位文本的注意力权重,该注意力权重即为对应单位文本作为目标答案时的第一匹配度。再使用这些权重对待匹配文档中每一单位文本的最终特征向量进行加权,生成表征待匹配文档语义信息的文档特征向量。
S602:根据问题特征向量与文档特征向量,确定待匹配文档作为目标答案所属文档时的第二匹配度。
如图5所示,当将目标问题的问题特征向量与待匹配文档的文档特征向量进行特征拼接,将拼接后的特征向量输入一个具有S型阈值函数sigmoid的输出层,可以得到目标问题与待匹配文档的匹配得分,可以利用该匹配得分表征待匹配文档作为目标答案所属文档时的第二匹配度,匹配得分越高,则第二匹配度越高,进而表明该待匹配文档作为目标答案所属文档的可能性越大,反之亦然。
在本实施例的一种实现方式中,S602具体可以包括步骤S6011-S6012:
S6011:生成待匹配文档的文档标题的标题特征向量,而标题特征向量携带了文档标题的语义信息以及文档标题与目标问题之间的相关度。
在本实现方式中,为了更准确的确定待匹配文档作为目标答案所属文档时的第二匹配度,不仅需要生成目标问题的问题特征向量和待匹配文档的文档特征向量,还可以进一步生成待匹配文档的文档标题的标题特征向量。
在本实施例的一种实现方式中,S6011具体可以包括步骤F-I:
步骤F:将文档标题进行切分,得到各个第三文本元素。
其中,第三文本元素指的是构成文档标题的组成元素,比如可以是构成文档标题的字或词,本实施例后续将以字为第三文本元素进行示例说明,也就是说,可以将文档标题进行按字切分,得到文档标题中的各个字。需要说明的是,待匹配文档的文档标题中的各个第三文本元素,应与目标问题中的第一文本元素以及待匹配文档中的各个第二文本元素具有相同的类型,比如,可以都是字或都是词。
步骤G:生成第三文本元素的第三特征向量,而第三特征向量携带了第三文本元素的语义信息。
在本实现方式中,通过步骤F获取到文档标题的各个第三文本元素后,可将各个第三文本元素进行向量化,得到各个第三文本元素向量,再将其输入至图5所示的文档匹配模型,以生成第三文本元素的第三特征向量,其中,第三特征向量携带了第三文本元素的语义信息以及第三文本元素与文档标题中其他第三文本元素在语义上的关联信息。
具体地,如图5所示,以各个第三文本元素为各个字为例,在通过步骤F获取到文档标题包含的各个字后,可以进一步得到每个字的字向量,再将其输入至图5所示的文档匹配模型的文档标题模型子结构的输入层中,通过BiLSTM可以得到每个字的第三特征向量,该第三特征向量携带有字的语义信息以及该字与文档标题中其他字在语义上的关联关系。
步骤H:为第三文本元素分配第三权重值,其中,第三权重值表征了第三文本元素与目标问题之间的相关度。
在本实现方式中,由于每个第三文本元素在文档标题中的重要性不同,因此,可以为第三文本元素分配第三权重值,而第三权重值则表征了第三文本元素与目标问题之间的相关度。
具体地,如图5所示,可以利用文档匹配模型,通过注意力层的交互注意力模型,再结合目标问题的问题特征向量共同作用,得到文档标题中每个第三文本元素的注意力权重,该权重表征了其对应的第三文本元素与目标问题之间的相关度。
步骤I:利用各个第三文本元素对应的第三特征向量以及第三权重值,生成所述文档标题的标题特征向量。
在本实现方式中,通过步骤H为第三文本元素分配第三权重值后,可以利用各个第三文本元素对应的第三特征向量以及第三权重值,生成文档标题的标题特征向量。
具体地,如图5所示,仍以各个第三文本元素为各个字为例,利用文档匹配模型中的自注意力模型分别得到文档标题中每个字的注意力权重后,进而可以使用这些权重对文档标题中每个字的第三特征向量进行加权,生成表征文档标题语义信息的标题特征向量。
S6012:根据问题特征向量、文档特征向量以及标题特征向量,确定待匹配文档作为目标答案所属文档时的第二匹配度。
如图5所示,可以将问题特征向量、文档特征向量以及标题特征向量这三个特征向量进行特征拼接,形成一个特征向量,接着,将拼接后的特征向量输入具有S型阈值函数sigmoid的输出层,可以得到目标问题与待匹配文档的匹配得分,该匹配得分可以为区间[0,1]中的一个数值,并且,该匹配得分表征了待匹配文档作为目标答案所属文档时的第二匹配度,匹配得分越高,代表第二匹配度越高,进而表征待匹配文档作为目标答案所属文档的可能性越大。
综上,本实施例在获取到目标问题后,利用预先构建的文档匹配模型,预测各个待匹配文档分别作为问题答案所属文档时的匹配度,在此过程中,已经预测了每一待匹配文档的每一单位文本作为问题答案时的匹配度,因此,仅需文档匹配模型的中间输出结果以及最终输出结果,便可实现目标答案的抽取以及检索出目标答案所属的文档,避免了多模型输出导致的误差叠加,从而提高了答案抽取结果的正确性。
第三实施例
本实施例将对上述实施例中提及的文档匹配模型的构建过程进行介绍。
参见图7,其示出了本实施例提供的构建文档匹配模型的流程示意图,该流程包括以下步骤:
S701:预先收集大量问题与文档数据,并对其进行处理得到模型训练数据。
在本实施例中,为了构建文档匹配模型,需要预先进行大量的准备工作,首先,需要收集大量的问题与文档数据,比如,可以预先收集用户对电子行车手册提出的有关行车的各个问题,并将电子行车手册划分成多个文档,将每一问题以及每一文档数据作为样本数据。
进一步的,在收集到大量问题与文档数据后,本实施例将由人工根据具体的实际情况,对数据进行整理、分类和标注,将这些样本数据分为不同的正例数据对以及不同的负例数据对,以构成模型训练数据。
其中,正例数据对包括第一样本问题与第一样本文档,而第一样本文档被标注为第一样本问题的答案所属的文档。例如,假设第一样本问题为“怎样清理车内后视镜?”,则文档“车内后视镜”可以被标注为该问题答案所属的文档,即第一样本文档,这样,问题“怎样清理车内后视镜?”与文档“车内后视镜”可以构成一对正例数据对。
其中,负例数据对包括第二样本问题与第二样本文档,而第二样本文档被标注为第二样本问题的答案所不属的文档。例如,假设第二样本问题为“怎样清理车内后视镜?”,则文档“车门”可以被标注为该问题答案所不属的文档,即第二样本文档,这样,问题“怎样清理车内后视镜?”与文档“车门”可以构成一对负例数据对,同理,文档“手动防眩目后视镜”、文档“控制装置”等均可分别与问题“怎样清理车内后视镜?”构成一对负例数据对。
需要说明的是,第一样本问题与第二样本问题可以相同也可以不同。例如,基于上述举例,样本问题“怎样清理车内后视镜?”,其可以与样本文档“车内后视镜”构成一对正例数据对,也可以与样本文档“车门”可以构成一对负例数据对。
S702:构建文档匹配模型。
在本实施例中,通过步骤S701收集了大量的问题与文档数据并作为样本数据,以及将其分为不同的正例数据对以及不同的负例数据对以构成模型训练数据后,进一步的,可以构建一个初始的文档匹配模型,并初始化模型参数,进而可通过后续步骤S703利用预先收集的模型训练数据对初始构建的文档匹配模型进行训练。
S703:利用预先收集的模型训练数据,对文档匹配模型进行训练。
在本实施例中,依次从模型训练数据中提取一组样本数据(可以是正例数据对或负例数据对),进行多轮模型训练,直到满足训练结束条件为止,此时,即训练得到文档匹配模型。
具体地,在进行本轮训练时,本轮训练使用的样本数据包括样本问题和样本文档,可以将第二实施例中的目标问题替换为该样本问题,并将第二实施例中的待匹配文档替换为该样本文档,通过当前的文档匹配模型,按照第二实施例中的执行过程,便可以预测得到该样本文档作为该样本问题的答案的所属文档时的匹配度,该匹配度可以以问题与文档的匹配得分这种方式来体现,这里,将该匹配得分定义为预测匹配得分,该预测匹配得分可以是区间[0,1]中的一个数值。
然后,再根据该预测匹配得分与期望匹配得分之间的差值,对文档匹配模型的模型参数进行更新,其目的是使预测匹配得分逼近期望匹配得分,从而完成本轮的模型训练。需要说明的是,当预测匹配得分在区间[0,1]内时,期望匹配得分为0或1,其中,当样本问题的答案实际属于该样本文档时,期望匹配得分为1,否则,期望匹配得分为0。
第四实施例
本实施例将对一种答案抽取装置进行介绍,相关内容请参见上述方法实施例。
参见图8,为本实施例提供的一种答案抽取装置的组成示意图,该装置800包括:
目标问题获取单元801,用于获取目标问题,所述目标问题对应于至少两个待匹配文档;
第一匹配度预测单元802,用于利用预先构建的文档匹配模型,预测所述待匹配文档中每一单位文本分别作为目标答案时的第一匹配度;
第二匹配度预测单元803,用于利用预先构建的文档匹配模型,预测所述待匹配文档作为所述目标答案所属文档时的第二匹配度,所述目标答案为所述目标问题的答案;
目标文档选择单元804,用于根据所述至少两个待匹配文档分别对应的第二匹配度,从所述至少两个待匹配文档中选择所述目标答案所属的目标文档;
目标答案抽取单元805,用于根据所述目标文档中每一单位文本分别对应的第一匹配度,从所述目标文档中抽取至少一个单位文本作为所述目标答案。
在本实施例的一种实现方式中,所述第二匹配度预测单元803,具体用于根据所述待匹配文档中每一单位文本分别作为目标答案时的第一匹配度,预测所述待匹配文档作为所述目标答案所属文档时的第二匹配度。
在本实施例的一种实现方式中,所述第一匹配度预测单元802包括:
问题向量生成子单元,用于生成所述目标问题的问题特征向量,所述问题特征向量携带了所述目标问题的语义信息;
文本向量生成子单元,用于生成所述待匹配文档中每一单位文本的文本特征向量,所述文本特征向量携带了所述单位文本的语义信息以及所述单位文本与所述目标问题之间的相关度;
第一匹配度预测子单元,用于根据所述问题特征向量以及各个所述文本特征向量,预测所述待匹配文档中每一单位文本分别作为目标答案时的第一匹配度。
在本实施例的一种实现方式中,所述问题向量生成子单元包括:
第一元素获得子单元,用于将所述目标问题进行切分,得到各个第一文本元素;
第一特征生成子单元,用于生成所述第一文本元素的第一特征向量,所述第一特征向量携带了所述第一文本元素的语义信息;
第一权重分配子单元,用于为所述第一文本元素分配第一权重值,所述第一权重值表征了所述第一文本元素对所述目标问题的贡献度;
第一向量生成子单元,用于利用各个第一文本元素对应的第一特征向量以及第一权重值,生成所述目标问题的问题特征向量。
在本实施例的一种实现方式中,所述文本向量生成子单元包括:
第二元素获得子单元,用于将所述待匹配文档中的每一单位文本进行切分,得到各个第二文本元素;
第二特征生成子单元,用于生成所述第二文本元素的第二特征向量,所述第二特征向量携带了所述第二文本元素的语义信息;
第二权重分配子单元,用于为所述第二文本元素分配第二权重值,所述第二权重值表征了所述第二文本元素与所述目标问题之间的相关度;
第二向量生成子单元,用于利用各个第二文本元素对应的第二特征向量以及第二权重值,生成所述单位文本的文本特征向量。
在本实施例的一种实现方式中,所述第二匹配度预测单元803包括:
文档向量确定子单元,用于根据所述待匹配文档中每一单位文本分别对应的文本特征向量以及第一匹配度,确定所述待匹配文档的文档特征向量;
第二匹配度预测子单元,用于根据所述问题特征向量与所述文档特征向量,确定所述待匹配文档作为所述目标答案所属文档时的第二匹配度。
在本实施例的一种实现方式中,所述第二匹配度预测子单元包括:
标题向量生成子单元,用于生成所述待匹配文档的文档标题的标题特征向量,所述标题特征向量携带了所述文档标题的语义信息以及所述文档标题与所述目标问题之间的相关度;
第二匹配度确定子单元,用于根据所述问题特征向量、所述文档特征向量以及所述标题特征向量,确定所述待匹配文档作为所述目标答案所属文档时的第二匹配度。
在本实施例的一种实现方式中,所述标题向量生成子单元包括:
第三元素获得子单元,用于将所述文档标题进行切分,得到各个第三文本元素;
第三特征生成子单元,用于生成所述第三文本元素的第三特征向量,所述第三特征向量携带了所述第三文本元素的语义信息;
第三权重分配子单元,用于为所述第三文本元素分配第三权重值,所述第三权重值表征了所述第三文本元素与所述目标问题之间的相关度;
第三向量生成子单元,用于利用各个第三文本元素对应的第三特征向量以及第三权重值,生成所述文档标题的标题特征向量。
在本实施例的一种实现方式中,所述目标文档选择单元804包括:
第一得分确定子单元,用于分别确定所述至少两个待匹配文档中的每一待匹配文档与所述目标问题之间的匹配得分,所述匹配得分表征了所述待匹配文档作为所述目标答案所属文档时的第二匹配度;
最高得分选择子单元,用于从各个匹配得分中选择最高得分;
目标文档确定子单元,用于若所述最高得分大于第一得分阈值,则将所述最高得分对应的待匹配文档,作为所述目标答案所属的目标文档。
在本实施例的一种实现方式中,所述目标答案抽取单元805包括:
第二得分确定子单元,用于分别确定所述目标文档中的每一单位文本与所述目标问题之间的匹配得分,所述匹配得分表征了所述单位文本作为所述目标答案时的第一匹配度;
目标答案抽取子单元,用于从所述目标文档中抽取所述目标答案,所述目标答案是由所述目标文档中的连续单位文本组成的、且所述连续单位文本中包括大于第二得分阈值的各个匹配得分对应的单位文本。
进一步地,本申请实施例还提供了一种答案抽取装置,包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述答案抽取方法的任一种实现方法。
进一步地,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述答案抽取方法的任一种实现方法。
进一步地,本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述答案抽取方法的任一种实现方法。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如媒体网关等网络通信设备,等等)执行本申请各个实施例或者实施例的某些部分所述的方法。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (22)
1.一种答案抽取方法,其特征在于,包括:
获取目标问题,所述目标问题对应于至少两个待匹配文档;
利用预先构建的文档匹配模型,预测所述待匹配文档中每一单位文本分别作为目标答案时的第一匹配度,并预测所述待匹配文档作为所述目标答案所属文档时的第二匹配度,所述目标答案为所述目标问题的答案;
根据所述至少两个待匹配文档分别对应的第二匹配度,从所述至少两个待匹配文档中选择所述目标答案所属的目标文档;
根据所述目标文档中每一单位文本分别对应的第一匹配度,从所述目标文档中抽取至少一个单位文本作为所述目标答案。
2.根据权利要求1所述的方法,其特征在于,所述预测所述待匹配文档作为所述目标答案所属文档时的第二匹配度,包括:
根据所述待匹配文档中每一单位文本分别作为目标答案时的第一匹配度,预测所述待匹配文档作为所述目标答案所属文档时的第二匹配度。
3.根据权利要求1所述的方法,其特征在于,所述预测所述待匹配文档中每一单位文本分别作为目标答案时的第一匹配度,包括:
生成所述目标问题的问题特征向量以及所述待匹配文档中每一单位文本的文本特征向量,所述问题特征向量携带了所述目标问题的语义信息,所述文本特征向量携带了所述单位文本的语义信息以及所述单位文本与所述目标问题之间的相关度;
根据所述问题特征向量以及各个所述文本特征向量,预测所述待匹配文档中每一单位文本分别作为目标答案时的第一匹配度。
4.根据权利要求3所述的方法,其特征在于,所述生成所述目标问题的问题特征向量,包括:
将所述目标问题进行切分,得到各个第一文本元素;
生成所述第一文本元素的第一特征向量,所述第一特征向量携带了所述第一文本元素的语义信息;
为所述第一文本元素分配第一权重值,所述第一权重值表征了所述第一文本元素对所述目标问题的贡献度;
利用各个第一文本元素对应的第一特征向量以及第一权重值,生成所述目标问题的问题特征向量。
5.根据权利要求3所述的方法,其特征在于,所述生成所述待匹配文档中每一单位文本的文本特征向量,包括:
将所述待匹配文档中的每一单位文本进行切分,得到各个第二文本元素;
生成所述第二文本元素的第二特征向量,所述第二特征向量携带了所述第二文本元素的语义信息;
为所述第二文本元素分配第二权重值,所述第二权重值表征了所述第二文本元素与所述目标问题之间的相关度;
利用各个第二文本元素对应的第二特征向量以及第二权重值,生成所述单位文本的文本特征向量。
6.根据权利要求2所述的方法,其特征在于,所述根据所述待匹配文档中每一单位文本分别作为目标答案时的第一匹配度,预测所述待匹配文档作为所述目标答案所属文档时的第二匹配度,包括:
根据所述待匹配文档中每一单位文本分别对应的文本特征向量以及第一匹配度,确定所述待匹配文档的文档特征向量;
根据问题特征向量与所述文档特征向量,确定所述待匹配文档作为所述目标答案所属文档时的第二匹配度;其中,所述问题特征向量携带了所述目标问题的语义信息。
7.根据权利要求6所述的方法,其特征在于,所述根据问题特征向量与所述文档特征向量,确定所述待匹配文档作为所述目标答案所属文档时的第二匹配度,包括:
生成所述待匹配文档的文档标题的标题特征向量,所述标题特征向量携带了所述文档标题的语义信息以及所述文档标题与所述目标问题之间的相关度;
根据所述问题特征向量、所述文档特征向量以及所述标题特征向量,确定所述待匹配文档作为所述目标答案所属文档时的第二匹配度。
8.根据权利要求7所述的方法,其特征在于,所述生成所述待匹配文档的文档标题的标题特征向量,包括:
将所述文档标题进行切分,得到各个第三文本元素;
生成所述第三文本元素的第三特征向量,所述第三特征向量携带了所述第三文本元素的语义信息;
为所述第三文本元素分配第三权重值,所述第三权重值表征了所述第三文本元素与所述目标问题之间的相关度;
利用各个第三文本元素对应的第三特征向量以及第三权重值,生成所述文档标题的标题特征向量。
9.根据权利要求1至8任一项所述的方法,其特征在于,所述根据所述至少两个待匹配文档分别对应的第二匹配度,从所述至少两个待匹配文档中选择所述目标答案所属的目标文档,包括:
分别确定所述至少两个待匹配文档中的每一待匹配文档与所述目标问题之间的匹配得分,所述匹配得分表征了所述待匹配文档作为所述目标答案所属文档时的第二匹配度;
从各个匹配得分中选择最高得分;
若所述最高得分大于第一得分阈值,则将所述最高得分对应的待匹配文档,作为所述目标答案所属的目标文档。
10.根据权利要求1至8任一项所述的方法,其特征在于,所述根据所述目标文档中每一单位文本分别对应第一匹配度,从所述目标文档中抽取至少一个单位文本作为所述目标答案,包括:
分别确定所述目标文档中的每一单位文本与所述目标问题之间的匹配得分,所述匹配得分表征了所述单位文本作为所述目标答案时的第一匹配度;
从所述目标文档中抽取所述目标答案,所述目标答案是由所述目标文档中的连续单位文本组成的、且所述连续单位文本中包括大于第二得分阈值的各个匹配得分对应的单位文本。
11.一种答案抽取装置,其特征在于,包括:
目标问题获取单元,用于获取目标问题,所述目标问题对应于至少两个待匹配文档;
第一匹配度预测单元,用于利用预先构建的文档匹配模型,预测所述待匹配文档中每一单位文本分别作为目标答案时的第一匹配度;
第二匹配度预测单元,用于利用预先构建的文档匹配模型,预测所述待匹配文档作为所述目标答案所属文档时的第二匹配度,所述目标答案为所述目标问题的答案;
目标文档选择单元,用于根据所述至少两个待匹配文档分别对应的第二匹配度,从所述至少两个待匹配文档中选择所述目标答案所属的目标文档;
目标答案抽取单元,用于根据所述目标文档中每一单位文本分别对应的第一匹配度,从所述目标文档中抽取至少一个单位文本作为所述目标答案。
12.根据权利要求11所述的装置,其特征在于,所述第二匹配度预测单元,具体用于根据所述待匹配文档中每一单位文本分别作为目标答案时的第一匹配度,预测所述待匹配文档作为所述目标答案所属文档时的第二匹配度。
13.根据权利要求11所述的装置,其特征在于,所述第一匹配度预测单元包括:
问题向量生成子单元,用于生成所述目标问题的问题特征向量,所述问题特征向量携带了所述目标问题的语义信息;
文本向量生成子单元,用于生成所述待匹配文档中每一单位文本的文本特征向量,所述文本特征向量携带了所述单位文本的语义信息以及所述单位文本与所述目标问题之间的相关度;
第一匹配度预测子单元,用于根据所述问题特征向量以及各个所述文本特征向量,预测所述待匹配文档中每一单位文本分别作为目标答案时的第一匹配度。
14.根据权利要求13所述的装置,其特征在于,所述问题向量生成子单元包括:
第一元素获得子单元,用于将所述目标问题进行切分,得到各个第一文本元素;
第一特征生成子单元,用于生成所述第一文本元素的第一特征向量,所述第一特征向量携带了所述第一文本元素的语义信息;
第一权重分配子单元,用于为所述第一文本元素分配第一权重值,所述第一权重值表征了所述第一文本元素对所述目标问题的贡献度;
第一向量生成子单元,用于利用各个第一文本元素对应的第一特征向量以及第一权重值,生成所述目标问题的问题特征向量。
15.根据权利要求13所述的装置,其特征在于,所述文本向量生成子单元包括:
第二元素获得子单元,用于将所述待匹配文档中的每一单位文本进行切分,得到各个第二文本元素;
第二特征生成子单元,用于生成所述第二文本元素的第二特征向量,所述第二特征向量携带了所述第二文本元素的语义信息;
第二权重分配子单元,用于为所述第二文本元素分配第二权重值,所述第二权重值表征了所述第二文本元素与所述目标问题之间的相关度;
第二向量生成子单元,用于利用各个第二文本元素对应的第二特征向量以及第二权重值,生成所述单位文本的文本特征向量。
16.根据权利要求12所述的装置,其特征在于,所述第二匹配度预测单元包括:
文档向量确定子单元,用于根据所述待匹配文档中每一单位文本分别对应的文本特征向量以及第一匹配度,确定所述待匹配文档的文档特征向量;
第二匹配度预测子单元,用于根据问题特征向量与所述文档特征向量,确定所述待匹配文档作为所述目标答案所属文档时的第二匹配度;其中,所述问题特征向量携带了所述目标问题的语义信息。
17.根据权利要求16所述的装置,其特征在于,所述第二匹配度预测子单元包括:
标题向量生成子单元,用于生成所述待匹配文档的文档标题的标题特征向量,所述标题特征向量携带了所述文档标题的语义信息以及所述文档标题与所述目标问题之间的相关度;
第二匹配度确定子单元,用于根据所述问题特征向量、所述文档特征向量以及所述标题特征向量,确定所述待匹配文档作为所述目标答案所属文档时的第二匹配度。
18.根据权利要求17所述的装置,其特征在于,所述标题向量生成子单元包括:
第三元素获得子单元,用于将所述文档标题进行切分,得到各个第三文本元素;
第三特征生成子单元,用于生成所述第三文本元素的第三特征向量,所述第三特征向量携带了所述第三文本元素的语义信息;
第三权重分配子单元,用于为所述第三文本元素分配第三权重值,所述第三权重值表征了所述第三文本元素与所述目标问题之间的相关度;
第三向量生成子单元,用于利用各个第三文本元素对应的第三特征向量以及第三权重值,生成所述文档标题的标题特征向量。
19.根据权利要求11至18任一项所述的装置,其特征在于,所述目标文档选择单元包括:
第一得分确定子单元,用于分别确定所述至少两个待匹配文档中的每一待匹配文档与所述目标问题之间的匹配得分,所述匹配得分表征了所述待匹配文档作为所述目标答案所属文档时的第二匹配度;
最高得分选择子单元,用于从各个匹配得分中选择最高得分;
目标文档确定子单元,用于若所述最高得分大于第一得分阈值,则将所述最高得分对应的待匹配文档,作为所述目标答案所属的目标文档。
20.根据权利要求11至18任一项所述的装置,其特征在于,所述目标答案抽取单元包括:
第二得分确定子单元,用于分别确定所述目标文档中的每一单位文本与所述目标问题之间的匹配得分,所述匹配得分表征了所述单位文本作为所述目标答案时的第一匹配度;
目标答案抽取子单元,用于从所述目标文档中抽取所述目标答案,所述目标答案是由所述目标文档中的连续单位文本组成的、且所述连续单位文本中包括大于第二得分阈值的各个匹配得分对应的单位文本。
21.一种答案抽取装置,其特征在于,包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行权利要求1-10任一项所述的方法。
22.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行权利要求1-10任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811101470.1A CN109189894B (zh) | 2018-09-20 | 2018-09-20 | 一种答案抽取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811101470.1A CN109189894B (zh) | 2018-09-20 | 2018-09-20 | 一种答案抽取方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109189894A CN109189894A (zh) | 2019-01-11 |
CN109189894B true CN109189894B (zh) | 2021-03-23 |
Family
ID=64909015
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811101470.1A Active CN109189894B (zh) | 2018-09-20 | 2018-09-20 | 一种答案抽取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109189894B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109766427B (zh) * | 2019-01-15 | 2021-04-06 | 重庆邮电大学 | 一种基于协同注意力的虚拟学习环境智能问答方法 |
CN109815325B (zh) * | 2019-01-18 | 2021-12-10 | 北京百度网讯科技有限公司 | 答案抽取方法、装置、服务器及存储介质 |
CN110334199A (zh) | 2019-07-09 | 2019-10-15 | 北京百度网讯科技有限公司 | 获得问题答案的方法和装置、电子设备、计算机可读介质 |
CN110413783B (zh) * | 2019-07-23 | 2021-12-03 | 银江技术股份有限公司 | 一种基于注意力机制的司法文本分类方法及系统 |
CN111078854B (zh) * | 2019-12-13 | 2023-10-27 | 北京金山数字娱乐科技有限公司 | 问答预测模型的训练方法及装置、问答预测方法及装置 |
CN111858869B (zh) * | 2020-01-03 | 2024-06-04 | 北京嘀嘀无限科技发展有限公司 | 一种数据匹配方法、装置、电子设备和存储介质 |
CN111597314B (zh) * | 2020-04-20 | 2023-01-17 | 科大讯飞股份有限公司 | 推理问答方法、装置以及设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105912629A (zh) * | 2016-04-07 | 2016-08-31 | 上海智臻智能网络科技股份有限公司 | 一种智能问答方法及装置 |
CN106991161A (zh) * | 2017-03-31 | 2017-07-28 | 北京字节跳动科技有限公司 | 一种自动生成开放式问题答案的方法 |
CN107688608A (zh) * | 2017-07-28 | 2018-02-13 | 合肥美的智能科技有限公司 | 智能语音问答方法、装置、计算机设备和可读存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103425640A (zh) * | 2012-05-14 | 2013-12-04 | 华为技术有限公司 | 一种多媒体问答系统及方法 |
CN108536708A (zh) * | 2017-03-03 | 2018-09-14 | 腾讯科技(深圳)有限公司 | 一种自动问答处理方法及自动问答系统 |
CN107329995B (zh) * | 2017-06-08 | 2018-03-23 | 北京神州泰岳软件股份有限公司 | 一种语义受控的答案生成方法、装置及系统 |
CN108304437B (zh) * | 2017-09-25 | 2020-01-31 | 腾讯科技(深圳)有限公司 | 一种自动问答方法、装置及存储介质 |
-
2018
- 2018-09-20 CN CN201811101470.1A patent/CN109189894B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105912629A (zh) * | 2016-04-07 | 2016-08-31 | 上海智臻智能网络科技股份有限公司 | 一种智能问答方法及装置 |
CN106991161A (zh) * | 2017-03-31 | 2017-07-28 | 北京字节跳动科技有限公司 | 一种自动生成开放式问题答案的方法 |
CN107688608A (zh) * | 2017-07-28 | 2018-02-13 | 合肥美的智能科技有限公司 | 智能语音问答方法、装置、计算机设备和可读存储介质 |
Non-Patent Citations (1)
Title |
---|
中文问答系统中答案抽取的研究和实现;黄波;《中国优秀硕士学位论文全文数据库》;20101231(第8期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109189894A (zh) | 2019-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109189894B (zh) | 一种答案抽取方法及装置 | |
CN111753060A (zh) | 信息检索方法、装置、设备及计算机可读存储介质 | |
US10783877B2 (en) | Word clustering and categorization | |
CN104298776B (zh) | 基于lda模型的搜索引擎结果优化系统 | |
CN111783993A (zh) | 智能标注方法、装置、智能平台及存储介质 | |
CN107291840B (zh) | 一种用户属性预测模型构建方法和装置 | |
CN110929038A (zh) | 基于知识图谱的实体链接方法、装置、设备和存储介质 | |
CN111522886B (zh) | 一种信息推荐方法、终端及存储介质 | |
CN114841164A (zh) | 一种实体链接方法、装置、设备及存储介质 | |
CN116541493A (zh) | 基于意图识别的交互应答方法、装置、设备、存储介质 | |
JP2020512651A (ja) | 検索方法、装置及び非一時的コンピュータ読取可能記憶媒体 | |
CN112580896A (zh) | 知识点预测方法、装置、设备及存储介质 | |
CN111368093A (zh) | 信息获取方法、装置、电子设备及计算机可读存储介质 | |
CN111524043A (zh) | 诉讼风险评估问卷自动生成的方法和装置 | |
CN114896382A (zh) | 人工智能问答模型生成方法、问答方法、装置及存储介质 | |
CN113946668A (zh) | 基于边缘节点的语义处理方法、系统、装置及存储介质 | |
CN108959268A (zh) | 一种文本情感分析方法及装置 | |
CN113822039A (zh) | 近义词挖掘方法及相关设备 | |
CN118312167A (zh) | 基于低代码平台的套件机制实现方法及系统 | |
CN117827674A (zh) | 缺陷与测试用例的匹配方法、装置、电子设备和存储介质 | |
CN110895924B (zh) | 一种文档内容朗读方法、装置、电子设备及可读存储介质 | |
CN117725895A (zh) | 文档生成方法、装置、设备及介质 | |
CN110929526A (zh) | 样本生成方法、装置以及电子设备 | |
CN117633162A (zh) | 机器学习任务模板生成方法、训练方法、微调方法及设备 | |
CN112560500B (zh) | 文本处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |