CN109992651B - 一种问题目标特征自动识别和抽取方法 - Google Patents
一种问题目标特征自动识别和抽取方法 Download PDFInfo
- Publication number
- CN109992651B CN109992651B CN201910192494.0A CN201910192494A CN109992651B CN 109992651 B CN109992651 B CN 109992651B CN 201910192494 A CN201910192494 A CN 201910192494A CN 109992651 B CN109992651 B CN 109992651B
- Authority
- CN
- China
- Prior art keywords
- chain
- dependency
- text
- semantic
- analyzed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 7
- 238000000034 method Methods 0.000 claims abstract description 39
- 238000012216 screening Methods 0.000 claims abstract description 28
- 238000002372 labelling Methods 0.000 claims description 11
- 238000012549 training Methods 0.000 description 29
- 238000010586 diagram Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000002344 surface layer Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种问题目标特征自动识别和抽取方法。该方法包括:根据预设的生成规则生成至少一个依存关系链样本;根据预设的匹配规则,从所述至少一个依存关系样本,匹配所述待分析问题文本匹配的候选依存关系链;根据预设的筛选规则,从所述候选依存关系链中,筛选出所述待分析问题文本的问题目标词。本发明的效果在于,通过本发明提供的问题目标词识别方法,从待分析文本中识别出于用户提问意图相关词汇,从而能够更加精确地识别用户的意图。
Description
技术领域
本发明实施例涉及计算机技术领域,特别是涉及一种问题目标特征自动识别和抽取方法。
背景技术
目前,随着人工智能技术和大数据技术的发展,问答系统作为信息检索系统的一种高级应用形式,普遍存在于专业服务、教育、生活等各个研究领域。其中,对用户所提出问题的目标进行精准识别与分类对于问答系统准确识别用户信息需求、过滤候选答案、提高用户对答案的满意度具有直接影响。
然而,现有问答系统提供的候选答案不够准确,分析其原因,主要是现有问答系统通过筛选用户问题的主题词来进行问题主题识别和分类,而忽视了问题目标识别和分类的重要性。而问题主题与问题目标的识别和分类并不相同,问题主题侧重于描述问题内容的主要对象,而问题目标则侧重描述用户期望答案的类型,故通通过筛选用户问题的主题词来进行问题主题识别和分类的问答系统并不能针对用户提出问题的意图而给出精确的答案。
发明内容
本发明的目的旨在至少在一定程度上解决上述的技术问题之一。
为此,本发明的第一个目的在于提出一种问题目标特征自动识别和抽取方法,该方法基于什么背景,能够从用户问题的文本信息中识别出反映用户意图的问题目标特征词,进而根据问题目标特征词,从海量的数据中搜索与问题目标特征有关的信息,从而为用户提供更加准确的、满意的答案。
本发明第一方面提供一种基于问题目标特征识别和抽取方法,其中,该方法包括:
根据预设的生成规则生成至少一个依存关系链样本;
根据预设的匹配规则从所述至少一个依存关系样本匹配所述待分析问题文本匹配的候选依存关系链;
根据预设的筛选规则从所述候选依存关系链中筛选出所述待分析问题文本的问题目标词。
可选地,所述根据预设的生成规则生成至少一个依存关系链样本,包括:
标注出问题样本文本中的问题目标特征词汇及与所述问题目标特征词相关的词汇,形成标注数据集;
标注出所述问题样本文本中的问题目标特征词汇的词性,形成词性样本集;使用句法分析算法对所述标注数据集进行句法分析,生成至少一个句法依存关系链样本;
使用语义依存算法对所述标注数据集进行语义分析,生成至少一个语义依存关系样本。
可选地,所述根据预设的匹配规则从所述至少一个依存关系样本匹配所述待分析问题文本匹配的候选依存关系链,包括:
按照预设频度值,从所述至少一个句法依存关系链样本中筛选出频度大于所述预设频度值的句法依存关系链样本;
基于筛选出的所述句法依存关系链样本,生成所述待分析问题文本的主要句法依存关系链样本集,所述主要句法依存关系链样本集包括至少一个主要句法依存关系链样本;
对所述待分析问题文本进行句法分析,生成所述待分析问题文本的句法依存关系链集,所述句法依存关系链集包括至少一个句法依存关系链;
将所述句法依存关系链集与所述主要句法依存关系链样本集进行比较,筛选出至少一个共有的句法依存关系链;
基于所述至少一个共有的句法依存关系链,生成所述待分析问题文本的至少一个候选句法依存关系链。
可选地,所述方法还包括:
按照预设频度值,从所述至少一个语义依存关系链样本中筛选出频度大于所述预设频度值的语义依存关系链样本;
基于筛选出的所述语义依存关系链样本标,生成所述待分析问题文本的主要语义依存关系链样本集,所述主要语义依存关系链样本集包括至少一个主要语义依存关系链样本。
可选地,所述方法还包括:
对所述待分析问题文本进行语义分析,生成所述待分析问题文本的语义依存关系链集,所述语义依存关系链集包括至少一个语义依存关系链;
将所述语义依存关系链集与所述主要语义依存关系链样本集进行比较,筛选出至少一个共有的语义依存关系链;
基于所述至少一个共有的语义依存关系链,生成所述待分析问题文本的至少一个候选语义依存关系链。
可选地,所述根据预设的筛选规则从所述候选依存关系链中筛选出所述待分析问题文本的问题目标词,包括:
截取所述至少一个候选句法依存关系链中每一个候选句法依存关系链的首节点词汇,生成所述待分析问题文本的候选问题目标词;
将所述候选问题目标词与问题目标词样本集进行比较,生成所述待分析问题文本的问题目标词。
可选地,所述方法还包括:
截取所述至少一个候选语义依存关系链中每一个候选语义依存关系链的首节点词汇,生成所述待分析问题文本的至少一个候选问题目标词;
将所述至少一个候选问题目标词的词性与词性样本集进行比较,生成所述待分析问题文本的问题目标词。
可选地,所述方法还包括:
截取所述至少一个候选语义依存关系链与所述至少一个候选语义依存关系链共有的词汇,将所述共有的词汇标记为所述待分析问题文本的问题目标词。
需要说明的本发明中提到的“问题目标词”是指能够反映提问者意图的关键信息、关键数据。
本发明第二方面提供一种问题目标词识别装置,述装置包括:
至少1个存储单元;
与所述至少1个存储单元耦合的处理单元;
其中,所述至少1个存储单元用于存储计算机指令;
所述处理单元用于调用所述计算机指令,以执行本发明第一方面所述的方法。
本发明第三方面提供一种计算机存储介质,所述计算机存储介质存储有计算机指令,所述计算机指令被调用时,用于执行本发明第一方面所述的方法。
与现有技术相比,本发明具有如下有益效果:
现有的问答系统是从问题文本中提取与用户意图有关的关键字信息,但是现有的问答系统的提取的关键字信息反映的是整个问题文本中主题信息,虽然主题信息在一定条件下能够包含用户的意图信息,但是这种情况的发生概率不稳定且低。进一步的现有的技术的训练样本也是基于问题的主题词信息形成的样本,而不是针对问题中的用户意图信息形成的样本,故在使用基于问题的主题词信息形成的样本分析问题,不能针对用户的意图分析。
而本发明基于人工标注出问题文本中能够反映出用户意图的问题目标特征词和词性,对问题文本进行依存关系分析,生成问题文本的依存关系链集,进而依存关系链集中,找到问题文本的候选依存关系链,最后从候选依存关系链抽取问题文本的问题目标词,从而确保抽取出的问题文本问题目标词是针对用户意图信息而形成的,即该问题目标词能够最大限度反映用户的提问意图。
需要说明地是的,本发明提供的一种问题目标特征自动识别和抽取方法不仅可以运用在人工智能客服问答系统,也可以运用在搜索应用场景下的问题系统、或者用户需求分析系统中。例如,在用户需求分析系统中,运用本发明的技术方案,可提高用户需求分析额准确地。本发明技术方案虽在搜索问题问答系统应用场景下提出的,但不对本发明技术方案的应用场景做任何限定。本领域的技术人员应该知道,本发明的技术方案可运用在多个场景中。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的一种问题目标特征自动识别和抽取方法的流程示意图;
图2是本发明实施例二提供的一种问题目标特征自动识别和抽取方法的流程示意图;
图3是本发明实施例三提供的一种问题目标特征自动识别和抽取方法的流程示意图;
图4a是本发明实施例二提供的句法依存关系树示意;
图4b是本发明实施例三提供的语义依存关系树示意图;
图5a是本发明实施例的词性标注示意图;
图5b是本发明实施例的句法依存关系示意图;
图5c是本发明实施例的语义依存关系示意图;
图6是本发明实施例六提供的一种问题目标词识别装置结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了便于理解本发明实施例所提供的技术方案,下面对本发明实施例所涉及的应用场景进行介绍。
随着人工智能技术和大数据技术的发展,问答系统作为信息检索系统的一种高级应用形式,普遍存在于专业服务、教育、生活等各个研究领域。其中,对用户所提出问题的目标进行精准识别与分类对于问答系统准确识别用户信息需求、过滤候选答案、提高用户对答案的满意度具有直接影响。
本发明提出了一种问题目标特征自动识别和抽取方法,能够从问题文本中抽取出更为精确的、能够放映用户提问意图的问题目标词。
下面结合附图,对本发明实施例进行介绍。
请参阅图1,本发明实施例一提供一种问题目标特征自动识别和抽取方法,该方法可问题目标特征自动识别和抽取装置执行,如图1所示,该方法至少包括以下步骤,
步骤S101,根据预设的生成规则生成至少一个依存关系链样本。
步骤S102,根据预设的匹配规则,从所述至少一个依存关系样本,匹配所述待分析问题文本匹配的候选依存关系链。
步骤S103,根据预设的筛选规则,从所述候选依存关系链中,筛选出所述待分析问题文本的问题目标词。
请参阅图2,本发明实施例二提供另一种问题目标特征自动识别和抽取方法,其包括
步骤S201,标注出问题样本文本中的问题目标特征词汇及与所述问题目标特征词相关的词汇,形成标注数据集。
步骤S202,标注出所述问题样本文本中的问题目标特征词汇的词性,形成词性样本集。
步骤S203,对所述标注数据集进行句法分析,生成至少一个句法依存关系链样本。
步骤S204,按照预设频度值,从所述至少一个句法依存关系链样本中筛选出频度大于所述预设频度值的句法依存关系链样本。
步骤S205,基于筛选出的所述句法依存关系链样本,生成所述待分析问题文本的主要句法依存关系链样本集,所述主要句法依存关系链样本集包括至少一个主要句法依存关系链样本。
步骤206,对所述待分析问题文本进行句法分析,生成所述待分析问题文本的句法依存关系链集,所述句法依存关系链集包括至少一个句法依存关系链。
步骤207,将所述句法依存关系链集与所述主要句法依存关系链样本集进行比较,筛选出至少一个共有的句法依存关系链。
步骤208,基于所述至少一个共有的句法依存关系链,生成所述待分析问题文本的至少一个候选句法依存关系链。
步骤209,截取所述至少一个候选句法依存关系链中每一个候选句法依存关系链的首节点词汇,生成所述待分析问题文本的候选问题目标词。
步骤210,将所述候选问题目标词与问题目标词样本集进行比较,生成所述待分析问题文本的问题目标词。
句法依存分析(Dependency Parsing,DP)通过分析语言单位内成分之间的依存关系揭示其句法结构。直观来讲,依存句法分析识别句子中的“主谓宾”、“定状补”这些依存句法关系,进而分析语言单位各成分之间的关系。图5b是本发明实施例提供的句法依存关系示意图。
可选地,获取训练问题文本之后,对训练问题文本进行分词。对于训练问题文本“在番禺区哪里可以租房”,分词后产生问题词汇集,该文本的问题词汇集为{“在”,“番禺区”,“哪里”,“可以”“租房”}。
示例性地,获取训练问题文本“在番禺区哪里可以租房”,使用句法依存算法对训练问题文本“在番禺区哪里可以租房”进行句法分析,生成至少一个训练问题文本数据的句法依存关系树,句法依存关系树如图4a所示。基于句法依存关系树,选取与训练问题文本的问题目标特征词相关的句法依存关系,即词“哪里”与“租房”、词“哪里”与词“可以”之间的句法关系,进而基于句法依存关系,定义句法依存关系链,句法依存关系链用表达式LinkSD{“wi←Dk←wj”}表达,其中符号“wi”代表的句法依存关系链的首节点词,符号“wj”代表的语义依存关系链的末端点词,符号“Dk”表示词“wi”与词“wj”之间的句法关系,故词“可以”与词“番禺区”、词“可以”与词“租房”之间的句法依存关系用句法依存关系链可定义为LinkD1{“哪里←ADV←租房”}、LinkD2{“哪里←ADV←可以”},即基于训练问题文本生成句法依存关系链样本为LinkD1{“哪里←ADV←租房”}、LinkD2{“哪里←ADV←可以”}。
可选地,从一个训练问题文本的多个句法依存关系链样本中,按照预定的规则对多个句法依存关系链样本进行筛选,预定的规则是基于程序对多个句法依存关系链样本进行统计、分析、拟合的结果而设置的。
示例性地,统计训练问题文本“在番禺区哪里可以租房”的句法依存关系链样本,根据机器自学习程序对样本的统计、分析、拟合,其结果为句法依存关系链LinkD1{“哪里←ADV←租房”}频度大于70%,故选取句法依存关系链LinkD1作为训练问题文本“在番禺区哪里可以租房”的句法依存关系链样本。
示例性,根据统计,主谓关系(SBV)、状中关系(ADV)、定中关系(ATT)作为优选分析的依存句法关系,在本实施例中,选择状中关系(ADV)作为优选分析的依存句法关系,即分析词“哪里”与“租房”之间的ADV句法关系,词“可以”与词“租房”之间ADV句法关系。
本发明实施例基于人工标注出问题文本样本中的问题目标词,对问题文本样本进行句法分析,并基于句法分析生成的句法关系树,针对中文句法特点,生成了新的句法依存关系链样本,该句法依存关系链能够将更加精确地将问题文本样本中与用户意图相关的词汇与问题文本样本中的其他词汇关联起来。本发明实施例在基于句法依存关系链样本,对待分析问题文本的句法依存关系链进行筛选,从而从句法依存关系链样本中筛选出相关性更高的句法依存关系链,使得能够基于相关性更高的句法依存关系链,抽取出与用户提问意图相关性更高问题目标词。
如图3,本发明实施例三提供另一种问题目标特征自动识别和抽取方法,其包括以下步骤,
步骤S301,标注出问题样本文本中的问题目标特征词汇及与所述问题目标特征词相关的词汇,形成标注数据集。
步骤S302,标注出所述问题样本文本中的问题目标特征词汇的词性,形成词性样本集。
步骤S303,按照预设频度值,从所述至少一个语义依存关系链样本中筛选出频度大于所述预设频度值的语义依存关系链样本。
步骤S304,基于筛选出的所述语义依存关系链样本标,生成所述待分析问题文本的主要语义依存关系链样本集,所述主要语义依存关系链样本集包括至少一个主要语义依存关系链样本。
步骤S305,基于所述至少一个句法依存关系样本,定义至少一个句法依存关系样本。
步骤S306,对所述待分析问题文本进行语义分析,生成所述待分析问题文本的语义依存关系链集,所述语义依存关系链集包括至少一个语义依存关系链。
步骤S307,将所述语义依存关系链集与所述主要语义依存关系链样本集进行比较,筛选出至少一个共有的语义依存关系链。
步骤S308,基于所述至少一个共有的语义依存关系链,生成所述待分析问题文本的至少一个候选语义依存关系链。
步骤S309,截取所述至少一个候选语义依存关系链中每一个候选语义依存关系链的首节点词汇,生成所述待分析问题文本的至少一个候选问题目标词。
步骤S310,将所述至少一个候选问题目标词的词性与词性样本集进行比较,生成所述待分析问题文本的问题目标词。
语义依存分析目标是跨越句子表层句法结构的束缚,直接获取深层的语义信息,其分析不受句法结构的影响,将具有直接语义关联的语言单元直接连接依存弧并标记上相应的语义关系。如图5c是本发明实施例的语义依存关系示意图。
词性作为对词的一种泛化,在本实施例中对训练问题文本的每一个词汇进行词性标注,能够有利于依存句法分析、依存语义分析,提高依存句法分析的精确度,提高依存语义分析的精确度。图5a为本发明提供的词性标注示意图,在本实施例中,通过人工标注出训练问题文本中能够反映用户意图的问题目标特征词和问题目标特征词的词性,能够构建更准确地、与用户意图相关联的训练样本库。
示例性地,在本发明实施例中,标记训练问题文本“在番禺区哪里可以租房”的问题目标特征词为“哪里”及词“哪里”的词性为代词(Pronoun,pron)、副词(Adverb,adv)、连词(Conjugate,conj)。
示例性,如图4b所示,是待分析问题文本“在番禺区哪里可以租房”通过语义分析,产生的语义依存关系树。该语义依存关系树包含多语义依存关系树。
示例性地,获取训练问题文本“在番禺区哪里可以租房”,使用语义依存算法对至少一个训练问题文本数据“在番禺区哪里可以租房”进行语义分析,生成至少一个训练问题文本数据的语义依存关系树,基于语义依存关系树,选取与与训练问题文本的问题目标特征词相关的语义依存关系,即词“可以”与词“番禺区”、词“可以”与词“租房”之间的语义关系,进而基于语义依存关系树,定义语义依存关系链,语义依存关系链用表达式LinkSD{“wi—POSwi:SDk:POSwj—wj”}表达,其中符号“wi”代表的语义依存关系链的首节点词,符号“wj”代表的语义依存关系链的末端点词,符号“SDk:”表示的语义依存关系,符号“POSwi”表示的词“wi”的词性,符号“POSwj”表示的词“wj”的词性。故词“可以”与词“番禺区”、词“可以”与词“租房”之间的语义关系用语义关系链来表达为LinkSD1{“可以—VV:prep:NN—番禺区”、LinkSD2{“可以—VV:nsubj:PN—哪里”};
具体地,如果一个训练问题文本有两条以上语义依存关系链,并且链a的末端点词wj和链b的首节点词wi若相等,则对合并链a和链b。
示例性地,将语义关系链“可以—VV:prep:NN—番禺区”与语义关系链“可以—VV:nsubj:PN—哪里”合并,合并结果为训练问题文本“在番禺区哪里可以租房”的语义关系链为LinkSD{“哪里—PN:nsubj:VV—可以—VV:prep:NN—番禺区”}。
本发明实施例基于人工标注出问题文本样本中的问题目标词,对问题文本样本进行语义分析,并基于句法分析生成的语义关系树,针对中文句法特点,生成了新的语义依存关系链样本,该语义依存关系链能够将更加精确地将问题文本样本中与用户意图相关的词汇与问题文本样本中的其他词汇关联起来。本发明实施例在基于语义依存关系链样本,对待分析问题文本的语义依存关系链进行筛选,从而从语义依存关系链样本中筛选出相关性更高的语义依存关系链,使得能够基于相关性更高的语义依存关系链,抽取出与用户提问意图相关性更高问题目标词。
本发明实施例四提供另一种问题目标特征自动识别和抽取方法,其包括本发明实施例二与本发明实施例三中所有步骤以外,还包括步骤,截取所述至少一个候选语义依存关系链与所述至少一个候选语义依存关系链共有的词汇,将所述共有的词汇标记为所述待分析问题文本的问题目标词。
示例性地,对于另一个训练问题文本“定义一下生物医学”,基于这个问题生成的候选语义依存关系链Q_LinkSD为{生物←ATT←医学},候选句法依存关系链Q_LinkD为{定义—VV:advmod:AD—一下},Q_LinkSD和Q_LinkD中不存在相同的词汇,因此分别遍历这两个依存关系链集,提取每个关系链的首节点词,得到候选问题目标特征词集为{生物,定义},对应的词性为{NN,VV},并根据预先统计生成目标词词性集{PN,VV,DT,WP,WDT,WRB,NR,NT},选取词性VV对应的候选问题目标特征词“定义”。
示例性,可从移动客户端、PC端或者数据储存服务器中获取待分析问题文本,需要说明的是待分析问题文本的数据类型不限于文本格式,还可以是其他格式,本发明实施例不对待分析问题文本的格式进行限制。
具体地,至少一个依存关系包括至少一个句法依存关系、至少一个语义依存关系。通过对待分析问题文本句法依存分析,能够生成包含至少一个句法依存关系的句法依存关系树,通过对待分析问题文本语义依存分析,能够产生包括至少一个语义依存关系的语义依存关系树。
需要说明是,本发明实施例采用的依存句法分析可以为PCFG算法、Lexical PCFG、Transition-based Parsing算法。在本实施例中,具体的句法依存分析,下文将对其进一步说明。
具体地,至少一个问题训练样本包括至少一个句法依存关系链样本、至少一个语义依存关系链样本、至少一个问题目标特征词词性样本。
具体地,在使用句法分析算法对待分析问题文本的各个词汇之间的关系进行分析之前还包括:标注出至少一个训练问题文本数据的问题目标特征词及至少一个训练问题文本数据的问题目标特征词的词性数据。
需要说明的是,词性标注(Part-of-speech Tagging,POS)是给句子中每个词一个词性类别的任务。这里的词性类别可能是名词、动词、形容词或其他词性类别。其中,v代表动词、n代表名词、c代表连词、d代表副词、wp代表标点符号。具体的词性标注指代如图5a所示。
需要说明的是,人工标注出训练问题文本的问题目标特征词有多种方式,例如,标注问题文本中的疑问词作为训练问题文本的问题目标特征词,或当问题文本中疑问词不能够反映用户意图时,可按照与疑问词有关的句法关系和/或语义关系,并从中得到准确的问题目标特征词。
需要说明的,一个词汇可以对应多个词性,即一词多性。例如,词汇“租房”对应的词性可以是一个动词,也可以是一个名词。在本实施例中,在一词多性的情况下,按照预设的优选规则,对训练问题样本的目标词性集进行筛选,形成优选目标词性集。同时,在同一个词汇的不同词性能够生成不同的依存关系链。
本发明实施例五提供一种问题目标词识别装置,下面结合图6对一种问题目标词识别装置进行说明。
请参阅图6,图6为本发明实施例提供的一种物品价值的评估装置的结构示意图。该装置60可以包括至少1个存储单元601,至少1个处理单元603、至少1个通信接口602,当然该装置还可以包括输入输出装置等通用装置,在此不予限定。
其中,至少1个存储单元601可以分别用于存储计算机指令、程序、功能模块、事件、数据库等,在此不予限定。其中,至少1个存储单元601可以集成在一个存储设备中,或者独立配置在装置60中,在此不予限定。
至少1个处理单元603可以由计算机、服务器、中央处理单元、微处理单元、数据处理单元、或大数据专用处理单元等实现。
在本实施例中,一种问题目标词识别装置执行以下方法:
根据预设的生成规则生成至少一个依存关系链样本;
根据预设的匹配规则,从所述至少一个依存关系样本,匹配所述待分析问题文本匹配的候选依存关系链;
根据预设的筛选规则,从所述候选依存关系链中,筛选出所述待分析问题文本的问题目标词。
本发明实施五提供一种问题目标词识别装置除了执行本发明实施例一提供的一种问题目标特征自动识别和抽取方法以外,还用于执行本发明实施二、本发明实施三、本发明实施四提供的一种问题目标特征自动识别和抽取方法。
本发明实施六提供一种问题目标词识别终端,其可与用户交互,用于接收用户的指令,并根据用户的指令返回结果,其执行本发明实施例一提供的一种问题目标特征自动识别和抽取方法:
根据预设的生成规则生成至少一个依存关系链样本;
根据预设的匹配规则,从所述至少一个依存关系样本,匹配所述待分析问题文本匹配的候选依存关系链;
根据预设的筛选规则,从所述候选依存关系链中,筛选出所述待分析问题文本的问题目标词。
本发明实施六提供一种问题目标词识别终端除了执行本发明实施例一提供的一种问题目标特征自动识别和抽取方法以外,还用于执行本发明实施二、本发明实施三、本发明实施四提供的一种问题目标特征自动识别和抽取方法。
为了实现上述实施例,本发明还提出一种问题目标词识别终端、非临时性计算机可读存储介质,其通过功能模块执行步骤:
根据预设的生成规则生成至少一个依存关系链样本;
根据预设的匹配规则,从所述至少一个依存关系样本,匹配所述待分析问题文本匹配的候选依存关系链;
根据预设的筛选规则,从所述候选依存关系链中,筛选出所述待分析问题文本的问题目标词。
为了实现上述实施例,本发明实施例七还提出了一种计算机程序产品,当计算机程序产品中的指令被处理器执行时,执行本发明第一方面实施例提出的一种问题目标特征自动识别和抽取方法。本发明实施七提供的一种计算机程序产品除了执行本发明实施例一提供的一种问题目标特征自动识别和抽取方法以外,还用于执行本发明实施二、本发明实施三、本发明实施四提供的一种问题目标特征自动识别和抽取方法。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。
以上对本发明实施例进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率。
本实施例的词性集还有利于语义依存关系分析、句法有依存分析。
Claims (1)
1.一种问题目标特征自动识别和抽取方法,其特征在于,包括:
根据预设的生成规则生成至少一个依存关系链样本,包括:
标注出问题样本文本中的问题目标特征词汇及与所述问题目标特征词相关的词汇,形成标注数据集;
标注出所述问题样本文本中的问题目标特征词汇的词性,形成词性样本集;
使用句法分析算法对所述标注数据集进行句法分析,生成至少一个句法依存关系链样本;
使用语义依存算法对所述标注数据集进行语义分析,生成至少一个语义依存关系样本;
根据预设的匹配规则从所述至少一个依存关系样本匹配与待分析问题文本匹配的候选依存关系链,包括:
按照预设频度值,从所述至少一个句法依存关系链样本中筛选出频度大于所述预设频度值的句法依存关系链样本;
基于筛选出的所述句法依存关系链样本,生成所述待分析问题文本的主要句法依存关系链样本集,所述主要句法依存关系链样本集包括至少一个主要句法依存关系链样本;
对所述待分析问题文本进行句法分析,生成所述待分析问题文本的句法依存关系链集,所述句法依存关系链集包括至少一个句法依存关系链;
将所述句法依存关系链集与所述主要句法依存关系链样本集进行比较,筛选出至少一个共有的句法依存关系链;
基于所述至少一个共有的句法依存关系链,生成所述待分析问题文本的至少一个候选句法依存关系链;
所述方法还包括:
按照预设频度值,从所述至少一个语义依存关系链样本中筛选出频度大于所述预设频度值的语义依存关系链样本;
基于筛选出的所述语义依存关系链样本标,生成所述待分析问题文本的主要语义依存关系链样本集,所述主要语义依存关系链样本集包括至少一个主要语义依存关系链样本;
所述方法还包括:
对所述待分析问题文本进行语义分析,生成所述待分析问题文本的语义依存关系链集,所述语义依存关系链集包括至少一个语义依存关系链;
将所述语义依存关系链集与所述主要语义依存关系链样本集进行比较,筛选出至少一个共有的语义依存关系链;
基于所述至少一个共有的语义依存关系链,生成所述待分析问题文本的至少一个候选语义依存关系链;
根据预设的筛选规则从所述候选依存关系链中筛选出所述待分析问题文本的问题目标词;
所述根据预设的筛选规则从所述候选依存关系链中筛选出所述待分析问题文本的问题目标词,包括:
截取所述至少一个候选句法依存关系链中每一个候选句法依存关系链的首节点词汇,生成所述待分析问题文本的候选问题目标词;
将所述候选问题目标词与问题目标词样本集进行比较,生成所述待分析问题文本的问题目标词;
所述方法还包括:
截取所述至少一个候选语义依存关系链中每一个候选语义依存关系链的首节点词汇,生成所述待分析问题文本的至少一个候选问题目标词;
将所述至少一个候选问题目标词的词性与词性样本集进行比较,生成所述待分析问题文本的问题目标词;
所述方法还包括:
截取所述至少一个候选语义依存关系链与至少另一个候选语义依存关系链共有的词汇,将所述共有的词汇标记为所述待分析问题文本的问题目标词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910192494.0A CN109992651B (zh) | 2019-03-14 | 2019-03-14 | 一种问题目标特征自动识别和抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910192494.0A CN109992651B (zh) | 2019-03-14 | 2019-03-14 | 一种问题目标特征自动识别和抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109992651A CN109992651A (zh) | 2019-07-09 |
CN109992651B true CN109992651B (zh) | 2024-01-02 |
Family
ID=67130423
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910192494.0A Active CN109992651B (zh) | 2019-03-14 | 2019-03-14 | 一种问题目标特征自动识别和抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109992651B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110765759B (zh) * | 2019-10-21 | 2023-05-19 | 普信恒业科技发展(北京)有限公司 | 意图识别方法及装置 |
CN112613311A (zh) * | 2021-01-07 | 2021-04-06 | 北京捷通华声科技股份有限公司 | 一种信息处理方法及装置 |
CN116050412B (zh) * | 2023-03-07 | 2024-01-26 | 江西风向标智能科技有限公司 | 基于数学语义逻辑关系的高中数学题目的分割方法和系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102866989A (zh) * | 2012-08-30 | 2013-01-09 | 北京航空航天大学 | 基于词语依存关系的观点抽取方法 |
CN103646112A (zh) * | 2013-12-26 | 2014-03-19 | 中国科学院自动化研究所 | 利用了网络搜索的依存句法的领域自适应方法 |
US20140114649A1 (en) * | 2006-10-10 | 2014-04-24 | Abbyy Infopoisk Llc | Method and system for semantic searching |
CN105005557A (zh) * | 2015-08-06 | 2015-10-28 | 电子科技大学 | 一种基于依存分析的中文兼类词处理方法 |
CN108304466A (zh) * | 2017-12-27 | 2018-07-20 | 中国银联股份有限公司 | 一种用户意图识别方法以及用户意图识别系统 |
CN109241538A (zh) * | 2018-09-26 | 2019-01-18 | 上海德拓信息技术股份有限公司 | 基于关键词和动词依存的中文实体关系抽取方法 |
-
2019
- 2019-03-14 CN CN201910192494.0A patent/CN109992651B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140114649A1 (en) * | 2006-10-10 | 2014-04-24 | Abbyy Infopoisk Llc | Method and system for semantic searching |
CN102866989A (zh) * | 2012-08-30 | 2013-01-09 | 北京航空航天大学 | 基于词语依存关系的观点抽取方法 |
CN103646112A (zh) * | 2013-12-26 | 2014-03-19 | 中国科学院自动化研究所 | 利用了网络搜索的依存句法的领域自适应方法 |
CN105005557A (zh) * | 2015-08-06 | 2015-10-28 | 电子科技大学 | 一种基于依存分析的中文兼类词处理方法 |
CN108304466A (zh) * | 2017-12-27 | 2018-07-20 | 中国银联股份有限公司 | 一种用户意图识别方法以及用户意图识别系统 |
CN109241538A (zh) * | 2018-09-26 | 2019-01-18 | 上海德拓信息技术股份有限公司 | 基于关键词和动词依存的中文实体关系抽取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109992651A (zh) | 2019-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Harabagiu et al. | Topic themes for multi-document summarization | |
KR102256240B1 (ko) | 논팩토이드형 질의 응답 시스템 및 방법 | |
CN111046656B (zh) | 文本处理方法、装置、电子设备及可读存储介质 | |
CN100371927C (zh) | 使用机器翻译技术标识释义的方法和系统 | |
US10169489B2 (en) | Query disambiguation in a question-answering environment | |
CN110597952A (zh) | 信息处理方法、服务器及计算机存储介质 | |
US9652452B2 (en) | Method and system for constructing a language model | |
CN111339751A (zh) | 一种文本关键词处理方法、装置及设备 | |
CN110222045A (zh) | 一种数据报表获取方法、装置及计算机设备、存储介质 | |
US11699034B2 (en) | Hybrid artificial intelligence system for semi-automatic patent infringement analysis | |
GB2555207A (en) | System and method for identifying passages in electronic documents | |
CN106649778A (zh) | 基于深度问答的交互方法和装置 | |
CN109992651B (zh) | 一种问题目标特征自动识别和抽取方法 | |
CN111881297A (zh) | 语音识别文本的校正方法及装置 | |
US10740570B2 (en) | Contextual analogy representation | |
CN113392305A (zh) | 关键词的提取方法及装置、电子设备、计算机存储介质 | |
CN112380848B (zh) | 文本生成方法、装置、设备及存储介质 | |
CN111488737B (zh) | 文本识别方法、装置及设备 | |
CN111680493B (zh) | 英语文本分析方法、装置、可读存储介质及计算机设备 | |
CN110489740B (zh) | 语义解析方法及相关产品 | |
CN110008314B (zh) | 一种意图解析方法及装置 | |
CN110457691A (zh) | 基于剧本角色的情感曲线分析方法和装置 | |
CN111949781B (zh) | 一种基于自然语句句法分析的智能交互方法及装置 | |
CN110276001B (zh) | 盘点页识别方法、装置、计算设备和介质 | |
Quarteroni et al. | Evaluating Multi-focus Natural Language Queries over Data Services. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |