CN113486189B - 一种开放性知识图谱挖掘方法及系统 - Google Patents
一种开放性知识图谱挖掘方法及系统 Download PDFInfo
- Publication number
- CN113486189B CN113486189B CN202110649339.4A CN202110649339A CN113486189B CN 113486189 B CN113486189 B CN 113486189B CN 202110649339 A CN202110649339 A CN 202110649339A CN 113486189 B CN113486189 B CN 113486189B
- Authority
- CN
- China
- Prior art keywords
- entity
- knowledge
- triplet
- extracting
- relation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000005065 mining Methods 0.000 title claims abstract description 23
- 230000004927 fusion Effects 0.000 claims abstract description 35
- 239000000284 extract Substances 0.000 claims abstract description 4
- 238000000605 extraction Methods 0.000 claims description 35
- 238000012549 training Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 238000002372 labelling Methods 0.000 description 5
- 230000006399 behavior Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种开放性知识图谱挖掘方法及系统,方法包括:输入待分析的自然语言文本;从自然语言文本提取出与分析对象相关的命名实体,得到实体列表;对所述实体列表进行开放域关系抽取,当实体在文本中作主语时,提取出相关的谓语和宾语,当实体在文本中作宾语时,提取出相关的主语和谓语,得到第一知识三元组;对所述实体列表进行限定域关系抽取,提取出具有指定关系的实体对,得到第二知识三元组;将第一知识三元组和第二知识三元组进行知识融合将融合后的结果存储到图数据库中,得到知识图谱。本发明对实体列表信息抽取更全面,同时提高了知识准确率和召回率。
Description
技术领域
本发明涉及计算机文本处理技术领域,更具体地,涉及一种开放性知识图谱挖掘方法及系统。
背景技术
知识图谱是通用的知识可视化和存储工具。知识图谱可通过结构化、半结构化信息生成,但存在结构化和半结构化的信息相对较少,且更新较慢的问题。知识图谱亦可通过解析非结构化的文本信息生成,但将存在知识准确率和召回率相关的问题。
现有技术中,公开号为CN111061832A的中国发明专利公开了一种基于开放域信息抽取的人物行为抽取方法,包括步骤:a、使用CoreNLP工具的Open IE功能生成三元组,三元组对应有元素,元素包括主语、谓语、宾语、时间、地点、间接宾语和其他;其中,t的下标代表三元组的分组号,t的上标代表三元组在组内的序号;b、将表示同一元素的三元组聚合到一起形成分组;c、从分组后的三元组中获取最佳三元组代表其描述的元素;d、将剩余的三元组进行二次分组;e、将三元组的宾语进行分类;f、构建行为链。该方案仅限于使人物行为的抽取,仅利用了开放域的抽取,信息抽取不够全面。
发明内容
本发明为克服现有技术中通过解析非结构化的文本信息生成知识图谱的方法存在知识准确率和召回率低的相关的问题,提供一种开放性知识图谱挖掘方法及系统。
本发明的首要目的是为解决上述技术问题,本发明的技术方案如下:
本发明第一方面提供了一种开放性知识图谱挖掘方法,包括以下步骤:
输入待分析的自然语言文本;
从自然语言文本提取出与分析对象相关的命名实体,得到实体列表;
对所述实体列表进行开放域关系抽取,当实体在文本中作主语时,提取出相关的谓语和宾语,当实体在文本中作宾语时,提取出相关的主语和谓语,得到第一知识三元组;
对所述实体列表进行限定域关系抽取,提取出具有指定关系的实体对,得到第二知识三元组;
将第一知识三元组和第二知识三元组进行知识融合;
将融合后的结果存储到图数据库中,得到知识图谱。
进一步的,所述实体列表中每个实体均包括有实体名称和实体类型。
进一步的,开放域关系抽取采用的算法模型通过大规模预训练模型的fine-tune模式对标注数据进行训练得到,标注数据由文本、文本中的实体及其类型组成。
进一步的,开放域关系抽取以实体列表中的实体作为输入,分别提取出各个实体的在原文中的知识三元组,当实体在原文句子中作主语时,提取出相关的谓语和宾语,组成知识三元组;当实体在原文句子中作宾语时,提取出相关的主语和谓语,组成知识三元组。
进一步的,第一知识三元组包括:主语、谓语、宾语、主语的实体类型、宾语的实体类型和知识三元组的置信度;当主语或宾语存在于实体列表中时,取实体列表中对应的实体类型;否则,将实体类型暂定为其他。
进一步的,限定域关系抽取,需事先定义指定关系列表,指定关系列表由若干个指定关系组成,每个指定关系需定义实体对中,起始实体的类型、结束实体的类型和指定关系名称。
进一步的,限定域关系抽取中,提取出的实体对同时满足的条件包括:
条件1:实体对在原文中存在语义关系;
条件2:实体对的关系在指定关系列表中;
条件3:实体对起始实体的类型和结束实体的类型满足条件2中匹配到的指定关系要求。
进一步的,限定域关系抽取所输出的第二知识三元组中以实体对中起始实体作为主语、指定关系名称作为谓语,实体对中结束实体作为宾语,包括主语、某指定关系名称、宾语、主语的实体类型、宾语的实体类型和知识三元组的置信度。
进一步的,所述知识融合包括对实体融合和对关系融合;
将第一知识三元组和第二知识三元组进行知识融合的具体过程为:
先进行实体融合,将实体进行存储,再进行关系融合,将关系进行存储,最后以实体的关系的置信度计算实体的置信度;
在实体融合中,第一知识三元组和第二知识三元组的主语和宾语均为实体融合的对象,当某个知识三元组中,主语或宾语的实体类型为其他时,遍历实体列表中的实体,统计实体名称与主语或宾语相同的实体的实体类型,取出现次数最多的实体类型,作为主语或宾语的实体类型;
在实体融合中同一实体存在多种写法,需将实体名称作繁简转换、大小写转换完成后,对实体进行存储;
在关系融合中,需同时对第一知识三元组和第二知识三元组进行融合,具体关系融合的步骤为:
对开放域关系抽取结果中的谓语作归一化,开放域关系抽取中,表达同一意思的谓语可能存在多种表达方式,需将不同的表达方式以相对正规的写法代替;
遍历谓语归一化之后的知识三元组,统计知识三元组一致出现的个数,即主语、谓语、宾语均一致出现个数及其最大置信度,其中,将限定域关系抽取的知识三元组中的指定关系名称看作是谓语;
根据一致的知识三元组出现个数及其最大置信度,计算关系的置信度;
对关系进行存储。
本发明第二方面提供了一种开放性知识图谱挖掘系统,所述系统包括存储器和处理器,所述存储器中包括开放性知识图谱挖掘方法程序,所述开放性知识图谱挖掘方法程序被所述处理器执行时实现如下步骤:
输入待分析的自然语言文本;
从自然语言文本提取出与分析对象相关的命名实体,得到实体列表;
对所述实体列表进行开放域关系抽取,当实体在文本中作主语时,提取出相关的谓语和宾语,当实体在文本中作宾语时,提取出相关的主语和谓语,得到第一知识三元组;
对所述实体列表进行限定域关系抽取,提取出具有指定关系的实体对,得到第二知识三元组;
将第一知识三元组和第二知识三元组进行知识融合;
将融合后的结果存储到图数据库中,得到知识图谱。
与现有技术相比,本发明技术方案的有益效果是:
本发明通过对得到的实体列表分别进行开放域关系抽取和限定域关系抽取,使信息抽取更全面,然后将抽取结果进行进一步的知识融合进而得到知识图谱,提高了知识准确率和召回率。
附图说明
图1为本发明一种开放性知识图谱挖掘方法流程图。
图2为本发明实施例中开放域关系抽取算法标注数据示例图。
图3为本发明实施例中限定域关系抽取算法标注数据示例图。
图4为本发明中关系融合流程图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
实施例1
如图1所示,本发明第一方面提供了一种开放性知识图谱挖掘方法,包括以下步骤:
S1,输入待分析的自然语言文本;
需要说明的是,若针对某特定事件或分析对象进行知识图谱挖掘,需对文本进行降噪处理。
S2,从自然语言文本提取出与分析对象相关的命名实体,得到实体列表;
需要说明的是,在进行命名实体提取的时候,可以选用公开的命名实体提取算法,亦可训练专门的算法,只要命名实体识别算法能提取出分析对象相关的命名实体即可。所述实体列表中每个实体均包括有实体名称和实体类型。
S3,对所述实体列表进行开放域关系抽取,当实体在文本中作主语时,提取出相关的谓语和宾语,当实体在文本中作宾语时,提取出相关的主语和谓语,得到第一知识三元组;
需要说明的是,在进行开放域关系抽取前,需要训练开放域关系抽取算法。选取部分文本,依次输入从文本中提取出来的实体列表,进行标注。并对标注数据进行模型训练。
其中,同一条文本,需要对文本里面的出现的不同实体各标注一次,一条标注数据由一条文本加上标注实体的类型和名称组成。
其中,当实体在文本中充当主语时,标注出对应的谓语和宾语。
其中,当实体在文本中充当宾语时,标注出对应的谓语和主语。
其中,以大规模预训练模型的fine-tune模式对标注数据进行训练,并得到算法模型,算法模型可以复用,所述标注数据由文本、文本中的实体及其类型组成。标注数据示例如图2所示。
在得到开放域关系抽取算法模型后,运用其进行对所述实体列表进行开放域关系抽取,将全部文本,整理成图2中标注输入示例的格式,输入到开放域关系抽取算法模型中,算法模型会输出实体相关的谓语和宾语,或主语和谓语,输出结果与输入实体一同组成知识三元组,记为第一知识三元组,更具体的,当实体在原文句子中作主语时,提取出相关的谓语和宾语,组成知识三元组;当实体在原文句子中作宾语时,提取出相关的主语和谓语,组成知识三元组。
其中,算法模型会一同输出谓语和宾语,或主语和谓语结果的置信度,也就说第一知识三元组包括:主语、谓语、宾语、主语的实体类型、宾语的实体类型和知识三元组的置信度。
其中,当文本的实体列表中包含提取出来的主语(或宾语)时,以实体列表中的实体类型作为主语(或宾语)的实体类型,否则,以“其他”作为实体类型。
S4,对所述实体列表进行限定域关系抽取,提取出具有指定关系的实体对,得到第二知识三元组;
需要说明的是,在进行限定域关系抽取前,需要训练限定域关系抽取算法模型,首先制定指定关系列表,指定关系列表由若干个指定关系组成,每个指定关系需定义好起始实体的类型、结束实体的类型和指定关系名称。选取部分文本,同时输入从文本中提取出来的实体列表,进行标注。并对标注数据进行模型训练。
其中,指定关系列表示例见表1。
表1指定关系列表示例
其中,对文本进行标注时,标注出的内容应为实体对。标注出的实体对应在文本中存在语义关系,并满足指定关系的类型要求。标注数据示例详见图3。
得到限定域关系抽取算法模型后,利用限定域关系抽取算法模型进行限定域关系抽取,将全部文本,整理成图3中标注输入示例的格式,输入到限定域关系抽取算法模型中,算法模型会输出满足指定关系列表的实体对,实体对的起始实体、指定关系的名称、实体对的结束实体一同组成知识三元组,记为第二知识三元组。
在限定域关系抽取中,提取出的实体对同时满足的条件包括:
条件1:实体对在原文中存在语义关系;
条件2:实体对的关系在指定关系列表中;
条件3:实体对起始实体的类型和结束实体的类型满足条件2中匹配到的指定关系要求。
其中,算法模型会一同输出每个实体对的置信度,该置信度应视为知识三元组的置信度。
综上限定域关系抽取所输出的第二知识三元组中以实体对中起始实体作为主语、指定关系名称作为谓语,实体对中结束实体作为宾语,包括主语、某指定关系名称、宾语、主语的实体类型、宾语的实体类型和知识三元组的置信度。
S5,将第一知识三元组和第二知识三元组进行知识融合;
将第一知识三元组和第二知识三元组进行知识融合的具体过程为:
先进行实体融合,将实体进行存储,再进行关系融合,将关系进行存储,最后以实体的关系的置信度计算实体的置信度;
需要说明的是,在进行融合前先进行实体类型推断。合并第一知识三元组和第二知识三元组,当某个知识三元组中,主语(或宾语)的实体类型为“其他”时,遍历实体列表中的实体,取实体名称与主语(或宾语)相同时,出现次数最多的实体类型,作为主语(或宾语)的实体类型。
在实体融合中同一实体存在多种写法,需将实体名称作繁简转换、大小写转换;
遍历所有知识三元组的主语和宾语,作为实体,当其实体名称和实体类型均相同时,视为一个实体。将所有实体进行存储,存储的内容包括实体名称、实体类型、实体出现的次数,存储的形式是将实体以节点的形式保存到图数据库中。
其中,遍历所有三元组时,需统计同一实体出现的次数。
在关系融合中,需同时对第一知识三元组和第二知识三元组进行融合,如图4所示,具体关系融合的步骤为:
S501,对开放域关系抽取结果中的谓语作归一化,开放域关系抽取中,表达同一意思的谓语可能存在多种表达方式,需将不同的表达方式以相对正规的写法代替;
S502,遍历谓语归一化之后的知识三元组,统计知识三元组一致出现的个数,即主语、谓语、宾语均一致出现个数及其最大置信度,其中,将限定域关系抽取的知识三元组中的指定关系名称看作是谓语;
S503,根据一致的知识三元组出现个数及其最大置信度,计算关系的置信度;
S504,对关系进行存储。
需要说明的是,遍历知识三元组时,某个知识三元组的置信度低于10%时,将其过滤,不参与后续计算,亦不参与出现次数的统计。
其中,存储是指将知识三元组中的谓语以边的形式,保存到图数据库中。边的起始节点应为知识三元组中主语在图数据库中的节点,边的结束节点应为知识三元组中宾语在图数据库中的节点。
其中,关系的置信度通过知识出现的次数及其最大置信度计算:
关系置信度=70%*最大知识三元组置信度+30%*max(ln(知识三元组出现次数)/10,1) (1)
公式(1)中,ln指自然对数,max指取最大值。
利用关系的置信度计算实体的置信度具体如下:
遍历图数据库中的实体,查询其关系的置信度。当实体的关系个数大于或等于三个时,实体的置信度为置信度最高的3个关系的平均值,当实体的关系个数为1个时,实体置信度计算方式如下:
实体置信度=关系置信度/3 (2)
当实体的关系个数为2时,实体置信度计算方式如下:
实体置信度=(关系1置信度+关系2置信度)/3 (3)
S6,将融合后的结果存储到图数据库中,得到知识图谱。
本发明第二方面提供了一种开放性知识图谱挖掘系统,所述系统包括存储器和处理器,所述存储器中包括开放性知识图谱挖掘方法程序,所述开放性知识图谱挖掘方法程序被所述处理器执行时实现如下步骤:
输入待分析的自然语言文本;
从自然语言文本提取出与分析对象相关的命名实体,得到实体列表;
对所述实体列表进行开放域关系抽取,当实体在文本中作主语时,提取出相关的谓语和宾语,当实体在文本中作宾语时,提取出相关的主语和谓语,得到第一知识三元组;
对所述实体列表进行限定域关系抽取,提取出具有指定关系的实体对,得到第二知识三元组;
将第一知识三元组和第二知识三元组进行知识融合;
将融合后的结果存储到图数据库中,得到知识图谱。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (9)
1.一种开放性知识图谱挖掘方法,其特征在于,包括以下步骤:
输入待分析的自然语言文本;
从自然语言文本提取出与分析对象相关的命名实体,得到实体列表;
对所述实体列表进行开放域关系抽取,当实体在文本中作主语时,提取出相关的谓语和宾语,当实体在文本中作宾语时,提取出相关的主语和谓语,得到第一知识三元组;
对所述实体列表进行限定域关系抽取,提取出具有指定关系的实体对,得到第二知识三元组;
将第一知识三元组和第二知识三元组进行知识融合;
将第一知识三元组和第二知识三元组进行知识融合的具体过程为:
先进行实体融合,将实体进行存储,再进行关系融合,将关系进行存储,最后以实体的关系的置信度计算实体的置信度;
在实体融合中,第一知识三元组和第二知识三元组的主语和宾语均为实体融合的对象,当某个知识三元组中,主语或宾语的实体类型为其他时,遍历实体列表中的实体,统计实体名称与主语或宾语相同的实体的实体类型,取出现次数最多的实体类型,作为主语或宾语的实体类型;
在实体融合中同一实体存在多种写法,需将实体名称作繁简转换、大小写转换完成后,对实体进行存储;
在关系融合中,需同时对第一知识三元组和第二知识三元组进行融合,具体关系融合的步骤为:
对开放域关系抽取结果中的谓语作归一化,开放域关系抽取中,表达同一意思的谓语可能存在多种表达方式,需将不同的表达方式以相对正规的写法代替;
遍历谓语归一化之后的知识三元组,统计知识三元组一致出现的个数,即主语、谓语、宾语均一致出现个数及其最大置信度,其中,将限定域关系抽取的知识三元组中的指定关系名称看作是谓语;
根据一致的知识三元组出现个数及其最大置信度,计算关系的置信度;
对关系进行存储;
将融合后的结果存储到图数据库中,得到知识图谱。
2.根据权利要求1所述的一种开放性知识图谱挖掘方法,其特征在于,所述实体列表中每个实体均包括有实体名称和实体类型。
3.根据权利要求1所述的一种开放性知识图谱挖掘方法,其特征在于,开放域关系抽取采用的算法模型通过大规模预训练模型的fine-tune模式对标注数据进行训练得到,标注数据由文本、文本中的实体及其类型组成。
4.根据权利要求1所述的一种开放性知识图谱挖掘方法,其特征在于,开放域关系抽取以实体列表中的实体作为输入,分别提取出各个实体的在原文中的知识三元组,当实体在原文句子中作主语时,提取出相关的谓语和宾语,组成知识三元组;当实体在原文句子中作宾语时,提取出相关的主语和谓语,组成知识三元组。
5.根据权利要求1所述的一种开放性知识图谱挖掘方法,其特征在于,第一知识三元组包括:主语、谓语、宾语、主语的实体类型、宾语的实体类型和知识三元组的置信度;当主语或宾语存在于实体列表中时,取实体列表中对应的实体类型;否则,将实体类型暂定为其他。
6.根据权利要求1所述的一种开放性知识图谱挖掘方法,其特征在于,限定域关系抽取,需事先定义指定关系列表,指定关系列表由若干个指定关系组成,每个指定关系需定义实体对中,起始实体的类型、结束实体的类型和指定关系名称。
7.根据权利要求1所述的一种开放性知识图谱挖掘方法,其特征在于,限定域关系抽取中,提取出的实体对同时满足的条件包括:
条件1:实体对在原文中存在语义关系;
条件2:实体对的关系在指定关系列表中;
条件3:实体对起始实体的类型和结束实体的类型满足条件2中匹配到的指定关系要求。
8.根据权利要求1所述的一种开放性知识图谱挖掘方法,其特征在于,限定域关系抽取所输出的第二知识三元组中以实体对中起始实体作为主语、指定关系名称作为谓语,实体对中结束实体作为宾语,包括主语、某指定关系名称、宾语、主语的实体类型、宾语的实体类型和知识三元组的置信度。
9.一种开放性知识图谱挖掘系统,其特征在于,所述系统包括存储器和处理器,所述存储器中包括开放性知识图谱挖掘方法程序,所述开放性知识图谱挖掘方法程序被所述处理器执行时实现如下步骤:
输入待分析的自然语言文本;
从自然语言文本提取出与分析对象相关的命名实体,得到实体列表;
对所述实体列表进行开放域关系抽取,当实体在文本中作主语时,提取出相关的谓语和宾语,当实体在文本中作宾语时,提取出相关的主语和谓语,得到第一知识三元组;
对所述实体列表进行限定域关系抽取,提取出具有指定关系的实体对,得到第二知识三元组;
将第一知识三元组和第二知识三元组进行知识融合;
将融合后的结果存储到图数据库中,得到知识图谱。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110649339.4A CN113486189B (zh) | 2021-06-08 | 2021-06-08 | 一种开放性知识图谱挖掘方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110649339.4A CN113486189B (zh) | 2021-06-08 | 2021-06-08 | 一种开放性知识图谱挖掘方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113486189A CN113486189A (zh) | 2021-10-08 |
CN113486189B true CN113486189B (zh) | 2024-10-18 |
Family
ID=77934614
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110649339.4A Active CN113486189B (zh) | 2021-06-08 | 2021-06-08 | 一种开放性知识图谱挖掘方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113486189B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114328951B (zh) * | 2021-12-15 | 2024-08-27 | 广东工业大学 | 一种融合信息获取和三元组抽取的知识图谱构建方法 |
CN114266258B (zh) * | 2021-12-30 | 2023-06-23 | 北京百度网讯科技有限公司 | 一种语义关系提取方法、装置、电子设备及存储介质 |
CN114330281B (zh) * | 2022-03-08 | 2022-06-07 | 北京京东方技术开发有限公司 | 自然语言处理模型的训练方法、文本处理方法和装置 |
CN114661918A (zh) * | 2022-03-17 | 2022-06-24 | 北京百度网讯科技有限公司 | 知识图谱构建方法、装置、存储介质及电子设备 |
CN115017335A (zh) * | 2022-06-16 | 2022-09-06 | 特赞(上海)信息科技有限公司 | 知识图谱构建方法和系统 |
CN116992959B (zh) * | 2023-06-02 | 2024-03-15 | 广州数说故事信息科技有限公司 | 一种基于知识图谱的食品类产品创意概念生成验证方法 |
CN116881467A (zh) * | 2023-06-20 | 2023-10-13 | 东软集团(广州)有限公司 | 一种文本三元组抽取方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108875051A (zh) * | 2018-06-28 | 2018-11-23 | 中译语通科技股份有限公司 | 面向海量非结构化文本的知识图谱自动构建方法及系统 |
CN111291185A (zh) * | 2020-01-21 | 2020-06-16 | 京东方科技集团股份有限公司 | 信息抽取方法、装置、电子设备及存储介质 |
CN112612899A (zh) * | 2020-11-24 | 2021-04-06 | 中国传媒大学 | 知识图谱的构建方法、装置、存储介质和电子设备 |
CN114385812A (zh) * | 2021-12-24 | 2022-04-22 | 思必驰科技股份有限公司 | 用于文本的关系抽取方法及系统 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107368468B (zh) * | 2017-06-06 | 2020-11-24 | 广东广业开元科技有限公司 | 一种运维知识图谱的生成方法及系统 |
CN108021682A (zh) * | 2017-12-11 | 2018-05-11 | 西安交通大学 | 开放式信息抽取背景下一种基于维基百科的实体语义化方法 |
CN108984661A (zh) * | 2018-06-28 | 2018-12-11 | 上海海乂知信息科技有限公司 | 一种知识图谱中实体对齐方法和装置 |
CN109062894A (zh) * | 2018-07-19 | 2018-12-21 | 南京源成语义软件科技有限公司 | 中文自然语言实体语义关系的自动辨识算法 |
CN110263324B (zh) * | 2019-05-16 | 2021-02-12 | 华为技术有限公司 | 文本处理方法、模型训练方法和装置 |
CN111611399A (zh) * | 2020-04-15 | 2020-09-01 | 广发证券股份有限公司 | 一种基于自然语言处理的资讯事件图谱化系统及方法 |
CN111597351A (zh) * | 2020-05-14 | 2020-08-28 | 上海德拓信息技术股份有限公司 | 可视化文档图谱构建方法 |
CN111898636B (zh) * | 2020-06-28 | 2024-05-14 | 华为技术有限公司 | 一种数据处理方法及装置 |
CN112084376A (zh) * | 2020-09-04 | 2020-12-15 | 北京明略昭辉科技有限公司 | 基于图谱知识的推荐方法、推荐系统及电子装置 |
CN112183747B (zh) * | 2020-09-29 | 2024-07-02 | 华为技术有限公司 | 神经网络训练的方法、神经网络的压缩方法以及相关设备 |
CN112417891B (zh) * | 2020-11-29 | 2023-08-22 | 中国科学院电子学研究所苏州研究院 | 一种基于开放式信息抽取的文本关系自动标注方法 |
CN112818138B (zh) * | 2021-04-19 | 2021-10-15 | 中译语通科技股份有限公司 | 知识图谱本体构建方法、装置、终端设备及可读存储介质 |
-
2021
- 2021-06-08 CN CN202110649339.4A patent/CN113486189B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108875051A (zh) * | 2018-06-28 | 2018-11-23 | 中译语通科技股份有限公司 | 面向海量非结构化文本的知识图谱自动构建方法及系统 |
CN111291185A (zh) * | 2020-01-21 | 2020-06-16 | 京东方科技集团股份有限公司 | 信息抽取方法、装置、电子设备及存储介质 |
CN112612899A (zh) * | 2020-11-24 | 2021-04-06 | 中国传媒大学 | 知识图谱的构建方法、装置、存储介质和电子设备 |
CN114385812A (zh) * | 2021-12-24 | 2022-04-22 | 思必驰科技股份有限公司 | 用于文本的关系抽取方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113486189A (zh) | 2021-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113486189B (zh) | 一种开放性知识图谱挖掘方法及系统 | |
JP6618735B2 (ja) | 質問応答システムの訓練装置及びそのためのコンピュータプログラム | |
CN104636466B (zh) | 一种面向开放网页的实体属性抽取方法和系统 | |
Furlan et al. | Semantic similarity of short texts in languages with a deficient natural language processing support | |
CN108255813B (zh) | 一种基于词频-逆文档与crf的文本匹配方法 | |
CN110765235B (zh) | 训练数据的生成方法、装置、终端及可读介质 | |
Alsaqer et al. | Movie review summarization and sentiment analysis using rapidminer | |
CN106778878B (zh) | 一种人物关系分类方法及装置 | |
JP6729095B2 (ja) | 情報処理装置及びプログラム | |
TW201826145A (zh) | 從中文語料庫提取知識的方法和系統 | |
CN116227466B (zh) | 一种语义不同措辞相似的句子生成方法、装置及设备 | |
Thakur et al. | A review on text based emotion recognition system | |
Mazurets et al. | Practical Implementation of Neural Network Method for Stress Features Detection by Social Internet Networks Posts | |
CN111951079A (zh) | 一种基于知识图谱的信用评级方法、装置及电子设备 | |
Mohamed et al. | Exploring the potential of schemes in building NLP tools for Arabic language. | |
Amato et al. | An application of semantic techniques for forensic analysis | |
US11599580B2 (en) | Method and system to extract domain concepts to create domain dictionaries and ontologies | |
CN112818693A (zh) | 一种电子元器件型号词的自动提取方法及系统 | |
Haghdoost et al. | Building a morphological network for persian on top of a morpheme-segmented lexicon | |
Al-Abri et al. | A scheme for extracting information from collaborative social interaction tools for personalized educational environments | |
Suresh | An innovative and efficient method for Twitter sentiment analysis | |
CN111341404B (zh) | 一种基于ernie模型的电子病历数据组解析方法及系统 | |
JP6375367B2 (ja) | 反論生成方法,反論生成システム | |
CN114418014A (zh) | 一种避免试题相似的试卷生成系统 | |
CN113901793A (zh) | 结合rpa和ai的事件抽取方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |