CN114372454A - 文本信息抽取方法、模型训练方法、装置及存储介质 - Google Patents
文本信息抽取方法、模型训练方法、装置及存储介质 Download PDFInfo
- Publication number
- CN114372454A CN114372454A CN202011098112.7A CN202011098112A CN114372454A CN 114372454 A CN114372454 A CN 114372454A CN 202011098112 A CN202011098112 A CN 202011098112A CN 114372454 A CN114372454 A CN 114372454A
- Authority
- CN
- China
- Prior art keywords
- data
- text
- processed
- relation
- main body
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 210
- 238000012549 training Methods 0.000 title claims abstract description 92
- 238000000034 method Methods 0.000 title claims abstract description 74
- 230000015654 memory Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 abstract description 7
- 238000013473 artificial intelligence Methods 0.000 description 30
- 238000005516 engineering process Methods 0.000 description 17
- 230000006870 function Effects 0.000 description 15
- 238000003058 natural language processing Methods 0.000 description 15
- 238000004422 calculation algorithm Methods 0.000 description 14
- 238000010801 machine learning Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 11
- 239000013598 vector Substances 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000012360 testing method Methods 0.000 description 8
- 241000282414 Homo sapiens Species 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000011160 research Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 5
- 238000013145 classification model Methods 0.000 description 4
- 230000000052 comparative effect Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 239000003205 fragrance Substances 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 239000000243 solution Substances 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000003796 beauty Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013075 data extraction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000001939 inductive effect Effects 0.000 description 2
- 238000002347 injection Methods 0.000 description 2
- 239000007924 injection Substances 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000013526 transfer learning Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 235000015961 tonic Nutrition 0.000 description 1
- 230000001256 tonic effect Effects 0.000 description 1
- 229960000716 tonics Drugs 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biophysics (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本申请公开了一种文本信息抽取方法、模型训练方法、文本信息抽取装置、模型训练装置及存储介质,通过对所获取的待处理文本进行识别处理,得到所述待处理文本中的主体数据以及与所述主体数据关联的关系数据,然后所述待处理文本、所述主体数据以及所述关系数据输入至客体抽取模型,对所述待处理文本中的客体进行识别,得到与所述主体数据和所述关系数据对应的客体数据,再根据所述主体数据、所述关系数据和所述客体数据生成三元组数据,本申请是先识别主体和对应关系,再根据所识别的主体和关系提取待处理文本中的客体,对待处理文本中的关系识别更加全面,客体的识别更加准确,能够应对多样化的对象类型问题,提高三元组数据的精准推荐。
Description
技术领域
本申请涉及自然语言处理技术,尤其是一种文本信息抽取方法、模型训练方法、装置及存储介质。
背景技术
随着人工智能(Artificial Intelligen\ce,AI)技术的发展和具体领域的应用需求的不断增长,将人工智能技术应用到诸如医疗领域等具体领域的研究得到了发展。其中,自然语言处理(Natural Language Processing,NLP)技术为人工智能技术的重要分支。其中,在自然语言处理技术中,知识图谱(Knowledge Graph)的构建对人工智能应用有着重要的作用。例如人工智能可以利用知识图谱完成检索和问答等工作。
知识图谱由多个实体对之间的关系所构成,例如SPO三元组数据,是指实体对(主体S-客体O)与他们间的关系(P)构成的三元组。知识图谱中的SPO三元组数据可广泛应用于知识问答、搜索和推荐产品中。对于构建知识图谱的工作而言,从海量文本中抽取SPO三元组数据是重要的基础工作。
现有的SPO三元组抽取模型通常基于word2vec、openAI-GPT、语义表示模型(Embeddings from Language Models,ELMo)、双向转换编码器(Bidirectional EncoderRepresentation from Transformer,BERT)模型等预测训练模型,这些训练模型是先提取实体再确定实体之间的关系,从而在文本中提取出三元组,上述的训练模型可以在短句的实体关系抽取中取得较好的效果,但是随着文本长度的增加,文本中的实体类型的多样性也相应增加,同时文本中的一个实体可以有多个关系,现有技术在处理实体长文本的SPO三元组数据抽取中性能较差。
发明内容
为解决上述技术问题的至少之一,本申请提供了一种文本信息抽取方法、模型训练方法、文本信息抽取装置、模型训练装置及计算机可读存储介质,以提高文本的三元组信息抽取的准确性。
根据本申请的第一方面,提供了一种文本信息抽取方法,包括以下步骤:
获取待处理文本;
对所述待处理文本进行识别处理,得到所述待处理文本中的主体数据以及与所述主体数据关联的关系数据;
将所述待处理文本、所述主体数据以及所述关系数据输入至客体抽取模型,对所述待处理文本中的客体进行识别,得到与所述主体数据和所述关系数据对应的客体数据;
根据所述主体数据、所述关系数据和所述客体数据生成三元组数据。
根据本申请的第二方面,提供了一种模型训练方法,包括以下步骤:
获取训练文本数据,确定所述训练文本数据的三元组信息,所述三元组信息包括第三主体数据、第三客体数据和第三关系数据,所述第三关系数据为所述第三主体数据和所述第三客体数据的关系属性;
将所述训练文本数据以及所述第三主体数据和所述第三关系数据输入客体抽取模型,对所述训练文本数据中的客体进行识别,得到客体识别结果,根据所述客体识别结果和所述第三客体数据,对所述客体抽取模型的参数进行修正。
根据本申请的第三方面,提供了一种文本信息抽取装置,包括:
第一获取单元,用于获取待处理文本;
第一识别单元,用于对所述待处理文本进行识别处理,得到所述待处理文本中的主体数据以及与所述主体数据关联的关系数据;
第一客体识别单元,用于将所述待处理文本、所述主体数据以及所述关系数据输入至客体抽取模型,对所述待处理文本中的客体进行识别,得到与所述主体数据和所述关系数据对应的客体数据;
生成装置,用于根据所述主体数据、所述关系数据和所述客体数据生成三元组数据。
根据本申请的第四方面,提供了一种模型训练装置,包括:
第二获取单元,用于获取训练文本数据,确定所述训练文本数据的三元组信息,所述三元组信息包括第三主体数据、第三客体数据和第三关系数据,所述第三关系数据为所述第三主体数据和所述第三客体数据的关系属性;
模型训练单元,用于将所述训练文本数据以及所述第三主体数据和所述第三关系数据输入客体抽取模型,对所述训练文本数据中的客体进行识别,得到客体识别结果,根据所述客体识别结果和所述第三客体数据,对所述客体抽取模型的参数进行修正。
根据本申请的第五方面,提供了一种文本信息抽取装置,包括:
至少一个存储器,用于存储程序;
至少一个处理器,用于加载所述程序以执行上述的文本信息抽取方法。
根据本申请的第六方面,提供了一种模型训练装置,包括:
至少一个存储器,用于存储程序;
至少一个处理器,用于加载所述程序以执行上述的模型训练方法。
根据本申请的第七方面,提供了一种存储介质,其存储有程序,所述程序被处理器执行时实现上述的信息抽取方法或者实现上述的模型训练方法。
本申请实施例的有益效果是:
通过对所获取的待处理文本进行识别处理,得到所述待处理文本中的主体数据以及与所述主体数据关联的关系数据,然后所述待处理文本、所述主体数据以及所述关系数据输入至客体抽取模型,对所述待处理文本中的客体进行识别,得到与所述主体数据和所述关系数据对应的客体数据,再根据所述主体数据、所述关系数据和所述客体数据生成三元组数据,本申请实施例与以往先识别实体再预测实体对之间的关系不同,本申请是先识别主体和对应关系,再根据所识别的主体和关系提取待处理文本中的客体,对待处理文本中的关系识别更加全面,客体的识别更加准确,能够应对多样化的对象类型问题,提高三元组数据识别的准确性和高三元组数据的精准推荐。
附图说明
图1是现有技术中卷积神经网络算法的原理图;
图2是本申请实施例提供的一种实施环境的示意图;
图3是本申请实施例提供的一种文本信息抽取方法的流程图;
图4是图3中步骤320一个实施例的具体方法流程图;
图5是图4中步骤420的具体方法流程图;
图6是图3中步骤330一个实施例的具体方法流程图;
图7是图3中步骤320一个实施例的具体方法流程图;
图8是图7中步骤710的具体方法流程图;
图9是图3中步骤330的一个实施例的具体方法流程图;
图10是图9中步骤910的具体方法流程图;
图11是RSO模型的结构示意图;
图12是SRO模型的结构示意图;
图13待处理文本的分类示意图;
图14是本申请实施例提供的一种信息抽取系统示意图;
图15是本申请实施例提供的一种文本信息抽取方法的流程图;
图16是本申请实施例提供的一种模型训练方法的流程图;
图17是本申请实施例提供的知识图谱抽取系统的抽取界面的示意图;
图18是本申请实施例提供的知识图谱抽取系统的抽取结果界面的示意图;
图19是本申请实施例提供的知识图谱抽取系统的知识编辑界面的示意图。
具体实施方式
下面结合说明书附图和具体的实施例对本申请进行进一步的说明。所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)实体:现实世界中具有可区别性且独立存在的某种事物,例如:人名、地名、游戏名称等。
2)实体的类型:是指具有相同属性的实体的集合,例如在旅游领域中,可以将实体分为:景点级别、景点适宜季节、景点所在位置、景点名称和景点开放时间等。比方说,“故宫”是属于“景点名称”这个类型的实体;“北京市”是属于“景点所在位置”这个类型的实体。
3)关系抽取:关系定义为两个或多个实体之间的联系,关系抽取就是通过学习文本中多实体之间的语义联系,来识别其关系。关系抽取的输入是一段或者一句文本,输出通常是一个三元组:<实体1,关系,实体2>。例如,待处理文本“举世闻名的故宫位于北京市”,经过关系抽取后,输出的三元组为<故宫,地址,北京市>,亦可以用以“地址(故宫,北京市)”来进行表示。当然,在一些情况中,两个实体可能是没有关系的,这时候可以用<实体1,NA,实体2>来表示。
4)SPO三元组,知识图谱以三元组的形式存储知识,也即“Subject主体,Predicate关系,Object客体”的形式,其中主体和客体通常为命名实体,而关系通常为属性。知识图谱问答数据由问题和对应的答案组成,问题中包括头实体和关系,答案中包括尾实体,因此,三元组信息可以表示为<主体,关系,客体>。从问题中识别出对应知识图谱的关系的过程称为关系匹配。开放领域的关系匹配数据集(Q-R)即为开放领域中,由问答数据的问题Q和对应的知识图谱的关系R匹配而成的数据集合。由于开放领域具有较完善的数据积累,通过获取开放领域的关系匹配数据集,为后续构造游戏领域的知识图谱关系匹配模型提供数据基础。
5)知识图谱:图数据结构表示的知识载体,描述着客观世界的事物及其互相关系,节点代表客观世界的事物,边代表事物间的关系,一条知识通过一个三元组SPO表示。
6)word2vec、OpenAI-GPT、循环神经网络(Recurrent Neural Networks,RNN)、长短期记忆网络(Long Short-Term Memory,LSTM)、语义表示模型(Embeddings fromLanguage Models,ELMo)、双向转换编码器(Bidirectional Encoder Representationfrom Transformer,BERT),为自然语言技术领域常见的模型。
7)命名实体识别(Name Entity Recognition,NER),也称为实体识别、实体分块和实体提取,是信息提取的一个子任务,旨在将文本中的命名实体定位并分类为预先定义的类别,如人员、组织、位置、时间表达式、数量、货币值、百分比等。
8)自然语言处理NLP(Natural Language Processing),是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言处理包括多方面和步骤,基本有认知、理解、生成等部分。自然语言认知和理解是让电脑把输入的语言变成有意思的符号和关系,然后根据目的再处理。自然语言生成系统则是把计算机数据转化为自然语言。
9)结构化数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。
10)非结构化数据,指未经预定义的数据模型或模式进行结构化的数据。典型的非结构化数据包括文本文件、电子邮件、社交媒体、网站数据、移动数据、通信数据等。
11)半结构化数据,指的是具有一定的数据结构、需要进一步分析才能获取的数据,比如百科数据、网页数据等。
12)错误传播,如果在一个函数内部发生了错误,它自身没有捕获,错误就会被抛到外层调用函数,如果外层函数也没有捕获,该错误会一直沿着函数调用链向上抛出,直到被高级编程引擎捕获,代码终止执行。
本申请实施例所提供的文本的文本信息抽取方法和模型训练方法均可以应用于人工智能之中。人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
人工智能云服务,一般也被称作是AIaaS(AIas a Service,中文为“AI即服务”)。这是目前主流的一种人工智能平台的服务方式,具体来说AIaaS平台会把几类常见的AI服务进行拆分,并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城:所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务,部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。
自然语言处理(Nature Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
知识图谱是一种揭示实体之间关系的语义网络,对现实世界的事物及其相互关系进行形式化地描述。现在的知识图谱已被用来泛指各种大规模的知识库,具有强大的语义处理能力与开放互联能力,在自然语言处理、人工智能等领域展现了巨大潜力。知识图谱为互联网上海量、异构、动态的大数据表达、组织、管理以及利用提供了一种更为有效的方式,使得网络的智能化水平更高,更加接近于人类的认知思维。要形成高质量的知识,还需要对知识图谱进行质量评估,其意义在于,通过对知识的可信度进行量化,保留置信度较高的,舍弃置信度较低的,来有效确保知识的质量。
目前,知识图谱已在智能搜索、深度问答、社交网络以及一些垂直行业中有所应用,成为支撑这些应用发展的动力源泉。在医疗、金融、电商等垂直行业中,依靠特定行业的数据,构建行业知识图谱,使得知识图谱具有特定的行业意义。
信息抽取的数据源有三类,结构化数据、半结构化数据、非结构化数据。现实世界中大量数据是以非结构化的形式存在的,如:历史书籍、政府文件、百科介绍、新闻报道等,想要机器更智能的进行问答、对话、检索,需要转化这些信息为结构化知识,而这一转化过程离不开信息抽取技术的强力支持。所谓非结构化知识抽取,就是自动化地从纯文本数据中发现和抽取结构化信息的过程,该过程是构建大规模知识图谱的重要环节。在对外开放知识图谱构建能力时,数据收集是非常困难的事,由于信息混杂,运营方能快速提供的结构化、半结构化数据有限,大量类似百科简介的非结构化文本又需要大量人力标注知识,自动化抽取能力十分重要,换言之,需要提供能提取非结构化文本里隐藏的三元组数据的工具。非结构化文本信息抽取任务的目的是从实体对应的大量文本里抽取其所有的三元组数据。
目前行业内的一种做法是,通过设计规则对待处理文本中的实体关系进行提取,例如X是Y;Y包括X,通过设置规则能准确作用于垂直场景,语言的穷举是穷举不完的,规则方法覆盖率低,易发生规则冲突或冗余,整体表现就是会有效果但效果远远不够。
目前也有统计机器学习方法,这类性能得高低取决于提取特征的好坏。特征工程对整体模型的影响因子是非常大的。特征提取又取决于现存NLP系统的输出,依赖NLP工具的词性标注、句法分析等,该方法下错误积累传递不可避免。以卷积神经网络(Convolutional Neural Networks,CNN)为例:参照图1所示,CNN算法包括三层结构:词表示(Word Representation)、特征抽取(Feature Extraction)和输出(Output)。首先,第一层是词表示层,词标记通过词表示层转化成词向量。例如可以采用半监督词表示方法提取,或者使用神经网络模型word2vec替换上述的CNN算法。接着,第二层是特征提取层,提取词汇级别和句子级别特征,将两者直接串联作为最终的特征。最后,第三层是输出层,将特征通过一层逻辑回归模型softmax分类器,得到各种关系的置信度,置信度高的就是两个标记名词的关系。可见,上述方法是首先对所有实体进行标记,然后预测实体对之间的关系,这可能存在错误传播的问题。
本申请实施例提供的方案涉及人工智能的知识图谱、机器学习、深度学习等技术,具体通过如下实施例进行说明。
图2是本申请实施例提供的一种实施环境的示意图。参见图2,该实施环境包括服务器201和终端202。
服务器201可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。
服务器201至少具有知识图谱的质量评估功能,能够对知识图谱中知识元组的可信程度进行量化,得到知识元组的置信度,通过保留置信度较高的,舍弃置信度较低的,来确保知识图谱的准确性。另外,知识图谱的构建功能、基于知识图谱为终端202提供后台服务的功能可以由服务器201实现,也可以由与服务器201关联的其他服务器实现。在本申请实施例中,以服务器201具有知识图谱的构建功能、质量评估功能以及基于知识图谱提供后台服务的功能为例进行说明。
终端202可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。可选地,终端202上运行有客户端,如浏览器客户端、医疗类客户端或者购物类客户端等。终端202以及服务器201可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。可选地,服务器201基于知识图谱为终端202上运行的客户端提供后台服务。
在一种可选的实现方式中,服务器201基于景点知识图谱为终端202上运行的导游类客户端提供例如景点介绍、景点信息搜索、导游等服务。以景点信息搜索为例,用户通过终端202上的导游类客户端,输入搜索信息,执行搜索操作;终端202响应于搜索操作,获取搜索信息,向服务器201发送携带该搜索信息的搜索请求;服务器201基于接收到的搜索请求中的搜索信息,从景点知识图谱中查询该搜索信息对应的实体、实体之间的关系以及实体的属性等,得到搜索结果,向终端202返回该搜索结果。
在另一种可选的实现方式中,服务器201基于商品知识图谱为终端202上运行的购物类客户端提供例如智能客服、智能商品推荐等服务。以智能客服为例,用户通过终端202上的购物类客户端,进行客服聊天界面,输入问题信息,执行客服询问操作;终端202响应于客服询问操作,获取问题信息,向服务器201发送携带问题信息的问答请求;服务器201基于接收到的问答请求中的问题信息,从商品知识图谱中查询该问题信息对应的实体、实体之间的关系以及实体的属性等,得到回答结果,向终端202返回该回答结果。
图3是本申请实施例提供的一种文本信息抽取方法的流程图。在本申请实施例中,以服务器为执行主体为例进行说明,参见图3,该实施例包括以下步骤310至步骤340。
步骤310,获取待处理文本。
在本步骤中,待处理文本可以只包括一个句子,也可以包括由多个句子组成的语段,甚至是由多个语段组成的文章。所述待处理文本可以从互联网获取、由本地输入装置输入或者从存储器读取,例如,可以从互联网中自动搜索并抓取待处理文本。
步骤320,对待处理文本进行识别处理,得到待处理文本中的主体数据以及与主体数据关联的关系数据。
本步骤中,可以采用训练模型对待处理文本的主体数据和关系数据进行识别命名实体识别NER。例如可以采用现有的BERT预测模型识别待处理文本的主体数据及其关系数据。另外,可以同时对主体数据和关系数据进行识别,也可以通过两个预测模型分别识别待处理文本的主体数据和关系数据,例如可以通过NER工具对实体和实体类型进行识别,再通过BERT预测模型对实体的关系进行识别。例如,对于待处理文本“张三的出生地点是香港”,则识别出的主体数据和关系数据有:<张三,出生地>,再例如,对于待处理文本“举世闻名的故宫位于北京市,这座城市也是中国的首都”,则识别出的主体数据和关系数据有:<故宫,地址>,<北京市,所在国家>。
步骤330,将待处理文本、主体数据以及关系数据输入至客体抽取模型,对待处理文本中的客体进行识别,得到与主体数据和关系数据对应的客体数据。
本步骤中,客体抽取模型为预先训练好的机器学习模型,用于对待处理文本中的客体进行识别。一实施例中,可以采用BERT预测模型作为客体抽取模型,通过将待处理文本、主体数据以及关系数据输入至BERT预测模型,得到对应所输入的主体数据和关系数据对应的客体数据。例如,将待处理文本“张三的出生地点是香港”和步骤320识别出的主体数据和关系数据<张三,出生地>输入到BERT预测模型中进行计算,BERT预测模型识别出对应关系数据<张三,出生地>的客体数据“香港”。在例如,将待处理文本“举世闻名的故宫位于北京市,这座城市也是中国的首都”、主体和关系数据<故宫,地址>,<北京市,所在国家>输入到BERT预测模型,识别出与主体和关系数据<故宫,地址>对应的客体数据“北京市”,识别出与主体和关系数据<北京市,所在国家>对应的客体数据“中国”。
步骤340,根据所述主体数据、所述关系数据和所述客体数据生成三元组数据。
本步骤中,由于上述步骤320识别了待处理文本的主体数据和关系数据,步骤330识别了待处理文本的客体数据,因此可以基于所识别的主体数据、关系数据和客体数据构建并生成三元组数据。例如对于待处理文本“张三的出生地点是香港”所述识别到的主体数据、关系数据和客体生成三元组信息为<张三,出生地,香港>;对于待处理文本“举世闻名的故宫位于北京市,这座城市也是中国的首都”,生成三元组信息包括:<故宫,地址,北京市>和<北京市,所在国家,中国>。生成的三元组信息可以输出或存储至知识图谱抽取系统的数据库或图2所示的服务器201或终端202,也可以在知识图谱抽取系统中的显示界面中显示。
本申请实施例提供的技术方案,通过对所获取的待处理文本进行识别处理,得到所述待处理文本中的主体数据以及与所述主体数据关联的关系数据,然后所述待处理文本、所述主体数据以及所述关系数据输入至客体抽取模型,对所述待处理文本中的客体进行识别,得到与所述主体数据和所述关系数据对应的客体数据,再根据所述主体数据、所述关系数据和所述客体数据生成三元组数据,本申请实施例与以往先识别实体再预测实体对之间的关系不同,本申请是先识别主体和对应关系,再根据所识别的主体和关系提取待处理文本中的客体,对待处理文本中的关系识别更加全面,客体的识别更加准确,能够应对多样化的对象类型问题,提高三元组数据识别的准确性和高三元组数据的精准推荐。
参照图4所示,本申请的一个实施例,对步骤320进行进一步的说明,所述步骤320具体包括步骤410至步骤420。本实施例中的步骤410至步骤420,首先识别待处理文本的关系数据,再识别待处理文本中的主体数据,具体包括:
步骤410,将待处理文本输入关系抽取模型,对待处理文本中各个实体之间存在的关系进行识别,确定待处理文本中存在的关系数据。
本步骤中,采用BERT预测模型做关系判断的基础,为了节省训练资源,本实施例中利用谷歌发布的BERT-Base,Chinese预训练的模型进行fine-tuning(一种迁移学习的手段,针对自己的应用对别人预训练好的模型上进行二次训练)。BERT预测模型采用归一化指数(softmax)分类器实现,该softmax分类器由一个输入层、第一隐层、第二隐层和输出层所构成。通过该softmax分类器对n+m维的向量进行归一化处理,最终将n+m维的向量映射为一个z维的输出向量。该softmax分类器实际上的作用是将输入的向量映射到分类结果中。通过softmax分类器将输出结果归一化后对标签进行one_hot编码,从待处理文本中标记出的一个或以上多个的主体,形成关系数据。例如可以使用激活函数获取各个标签概率,然后预测标记和正式标记之间的距离,作为损失项对待处理文本的关系数据进行预测。例如,对于待处理文本“《AAAA》是BBBB写的网络小说连载于CCCC”,经过BERT预测模型识别后及分类后,标记或者输出该待处理文本对应的关系数据为“作者”。
步骤420,将待处理文本和关系数据输入至主体抽取模型,对待处理文本中的主体进行识别,得到与关系数据对应的主体数据。
本步骤中,与上述步骤410类似,将待处理文本和关系数据输入至BERT预测模型中,使用softmax分类器输出结果归一化后对标签进行one_hot编码,从待处理文本中标记出的一个或以上多个的主体,形成主体数据,例如,将待处理文本“《AAAA》是BBBB写的网络小说连载于CCCC”和“作者”输入至BERT预测模型,经过BERT预测模型识别后及分类后,标记或者输出该待处理文本对应的主体数据为“AAAA”。
本申请实施例提供的技术方案,通过关系抽取模型和主体抽取模型分别对待处理文本的关系数据和主体数据进行抽取,由于每个模型训练的抽取对象不同,对主体和关系识别的性能较好,能提高识别的准确性,另外,本实施例中首先对待处理文本中的关系进行分类,再根据抽取的关系数据提取主体数据,最后根据关系数据和主体数据提取客体数据,这种模型降低了遍历关系集的成本,在大量的候选关系集中找到与文本相关的关系。在指定关系后,主体和客体的提取变得更加明确。
参照图5所示,本申请的一个实施例,对步骤420进行进一步的说明,所述步骤420具体包括步骤510至步骤520。
步骤510,将所述关系数据合并至所述待处理文本中生成第二文本。
本步骤中,将步骤410识别得到的关系数据合并至待处理文本中,可以将关系数据添加至待处理文本的开头或者结尾,也可以融入到待处理文本的中间。本实施例中,将所识别到的关系数据合并到待处理文本的结尾生成第二文本,即关系数据拼接到待处理文本的结尾。例如上述步骤410所识别的待处理文本“《AAAA》是BBBB写的网络小说连载于CCCC”的关系数据“作者”添加到待处理文本的结尾,形成第二文本“《AAAA》是BBBB写的网络小说连载于CCCC作者”。
步骤520,将所述第二文本输入至所述主体抽取模型,对所述第二文本中的主体进行识别,得到与所述关系数据对应的主体数据。
本实施例中,将步骤510生成的第二文本作为注入输入到主体抽取模型,例如采用预先训练好的BERT预测模型对第二文本中的主体进行识别,使用softmax分类器输出结果归一化后对标签进行one_hot编码,从待处理文本中标记出的一个或以上多个的主体。其中,可以采用向量化文本工具Tokenizer对数据进行处理,Tokenizer生成了一个字典,并且统计了词频等信息,通过向量进行表示。可以对Tokenizer进行定义,以对文本进行标记,例如,预定义token_labels:
token_labels:["[Padding]","[##WordPiece]","[CLS]","[SEP]","B-SUB","I-SUB","O"];
其中[Padding]对应0位置,主体Subject起始位是B-SUB,后续位是I-SUB,[CLS]对应句首,[SEP]对应句尾,[##WordPiece]用于标注被tokenizer拆分的词,一般这类词以“##”开头。例如上述第二文本的识别结果生成如下token标识句:
0B-SUB I-SUB I-SUB I-SUB 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0;
因此,根据上述标识结果能够确定BERT预测模型所识别的主体数据为“AAAA”.
一实施例中,待处理文本可以被上述步骤410识别出多个关系数据,例如对于待处理文本“古往今来,能饰演古龙小说人物“楚留香”的无一不是娱乐圈公认的美男子,2011年,36岁的张某某在《楚留香新传》里饰演楚留香,依旧帅得让人无法自拔”,在上述步骤410中可以被识别出多个关系数据:主演,所在作品,饰演人物。当待处理文本被识别出多个关系时,针对每个关系都会生成一个第二文本。即上述步骤510进一步包括:将各个关系数据分别与所述待处理文本组合生成多个第二文本。例如对于上述说识别的多个关系数据:主演,所在作品,饰演人物,每个关系数据均会生成一个第二文本,即总共生成以下三个文本:
1)古往今来,能饰演古龙小说人物“楚留香”的无一不是娱乐圈公认的美男子,2011年,36岁的张某某在《楚留香新传》里饰演楚留香,依旧帅得让人无法自拔主演;
2)古往今来,能饰演古龙小说人物“楚留香”的无一不是娱乐圈公认的美男子,2011年,36岁的张某某在《楚留香新传》里饰演楚留香,依旧帅得让人无法自拔所在作品;
3)古往今来,能饰演古龙小说人物“楚留香”的无一不是娱乐圈公认的美男子,2011年,36岁的张某某在《楚留香新传》里饰演楚留香,依旧帅得让人无法自拔饰演人物。
将上述的所有第二文本分别执行上述步骤520,对应得到多个主体数据,输出如下token标识句:
1)0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0B-SUB I-SUB I-SUB 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0;
2)0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0 0 0 0 B-SUB I-SUB I-SUB I-SUB I-SUB 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0 0;
3)0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 B-SUB I-SUB I-SUB 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0 0 0。
可见,针对不同的第二文本识别标记的主体数据位置不同,上述第1)项token标识句在第二文本中的位置对应的主体数据为“张某某”,上述第2)项token标识句在第二文本中的位置对应的主体数据为“楚留香新传”,上述第3)项token标识句在第二文本中的位置对应的主体数据为“楚留香”,通过预定义Tokenizer,可以对输出结构进行识别,抽取出各个第二文本的主体数据。
参照图6所示,申请的一个实施例,对步骤330进行进一步的说明,所述步骤330具体包括步骤610至步骤620。
步骤610,将主体数据和关系数据合并至待处理文本中生成第一文本。
本步骤中,将步骤320中识别的主体数据和关系数据合并至待处理文本中生成第一文本,可以将关系数据添加至待处理文本的开头或者结尾,也可以融入到待处理文本的中间。一实施例中,可以将上述步骤410识别的关系数据和上述步骤420识别的主体数据输入到待处理文本中生成第一文本。也可以在步骤510中的第二文本基础上增加步骤520中所识别的主体数据生成第一文本。
例如,上述实施例中的待处理文本“《AAAA》是BBBB写的网络小说连载于CCCC”在步骤510中形成第二文本,“《AAAA》是BBBB写的网络小说连载于CCCC作者”,步骤520对该第二文本进行识别,得到主体数据“AAAA”,将主体数据“AAAA”合并到该第二文本中,生成第一文本“《AAAA》是BBBB写的网络小说连载于CCCC作者AAAA”。
步骤620,将第一文本输入至客体抽取模型,对第一文本中的客体进行识别,得到与主体数据和关系数据对应的客体数据。
本实施例中,将步骤610生成的第一文本作为注入输入到客体抽取模型,例如采用预先训练好的BERT预测模型对第一文本中的主体进行识别,使用softmax分类器输出结果归一化后对标签进行one_hot编码,从待处理文本中标记出的一个或以上多个的主体。其中,可以采用向量化文本工具Tokenizer对数据进行处理,Tokenizer定义为:预定义token_labels:
token_labels:["[Padding]","[##WordPiece]","[CLS]","[SEP]","B-OBJ","I-OBJ","O"];
其中,[Padding]对应0位置,主体起始位是B-OBJ,后续位是I-OBJ,[CLS]对应句首,[SEP]对应句尾,[##WordPiece]用于标注被tokenizer拆分的词,一般这类词以“##”开头。
例如上述步骤610中的第一文本识别结果生成进行如下token标识句:
0 0 0 0 0 0 0B-OBJ I-OBJ I-OBJ I-OBJ 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0;
因此,根据上述标识结果能够确定BERT预测模型所识别的客体数据为“BBBB”。
上述的步骤620、步骤520中使用的BERT预测模型在训练时会根据训练数据中的主体和关系逐一转换为上述的token标识句,并在句尾加入主体名、“,”、属性名的拼接句,每一个主体属性对都会生成一行客体token标识句。另外BERT预测模型可以采用以下公式,以获得最优序列标注结果:
上述实施例中,每个子模型的结果都将作为索引信息输入到后续模型中,例如关系抽取模型的识别结果输入至主体抽取模型中,主体抽取模型的识别结果和关系抽取模型的识别结果输入到客体抽取模型中。两个关于实体提取(主体、客体)的模型使用上下文和索引信息在一个单一的包装序列中,由[SEP]token分隔的标记。这里,[CLS]token设置在每个序列的开头,作为关系分类器的集合序列表示。此外,一个句子中可能存在多个关系,因此可以将关系分类视为多标签学习任务,并可以使用损失函数focal loss来解决正向和负样本不平衡。这种方法降低了遍历关系集的成本,能快速在大量的候选关系集中找到与文本相关的关系。在指定关系后,主体和客体的提取变得更加明确。
参照图7所示,本申请的一个实施例,对步骤320进行进一步的说明,所述步骤320具体包括步骤710至步骤720。本实施例中的步骤710至步骤720,首先识别待处理文本的实体数据,再识别待处理文本中的关系数据,具体包括:
步骤710,将待处理文本输入主体抽取模型,对待处理文本的主体进行识别,确定待处理文本中存在的主体数据。
本步骤中,通过预先训练好的主体抽取模型识别待处理文本中的主体数据,其中,可采用BERT预测模型进行预测及识别,可以采用NER(Named Entity Recognition)工具进行识别,例如可以采用NER工具Stanford NLP实现,或者,也可以采用BERT预测模型的机器阅读理解(Machine Reading Comprehension)MRC模型进行识别。例如对于待处理文本“张三的出生地点是香港”,通过MRC模型识别出主体数据“张三”。
步骤720,将主体数据输入至关系抽取模型,对主体数据中各个主体的关系进行识别,得到关系数据。
本步骤中,将步骤710识别出来的主体数据输入至关系抽取模型中对个各个主体的关系进行识别,该关系抽取模型可以是分类模型,可以采用分类的方式得到各个实体之间可能的关系。
参照图8所示,本申请的一个实施例,对步骤710进行进一步的说明,所述步骤710具体包括步骤810至步骤820。
步骤810,获取实体问题集,实体问题集包括多个预设的实体问题,实体问题用于查询待处理文本中存在的实体。
本步骤中,预设有实体问题集,实体问题集包括T个不同的问题Q={Q1,Q2,...,QT},其中T为正整数。这些问题用于查询实体。问题可以构造成像{哪些词是人的实体?},{哪些词是景点的实体?}等。
步骤820,将待处理文本和实体问题集中各个实体问题输入主体抽取模型中,识别待处理文本中与实体问题对应的实体,将所识别的实体作为主体,得到主体数据。
本实施例中,采用MRC模型进行识别,将待处理文本输入至MRC模型,并基于MRC模型依次回答实体问题集中的问题。通过MRC模型依次回答实体问题,从输入语境中定位出主体实体群,最后可以使用加权投票策略选择最终的主体,其公式如下:
本申请的一个实施例,对步骤720进行进一步的说明,所述步骤720具体包括:将所述主体数据输入至关系抽取模型,通过所述关系抽取模型对所述主体数据中的各个主体进行分类,确定各个主体中存在的关系,得到所述关系数据。本步骤中,将步骤710识别出来的主体数据输入至关系抽取模型中对个各个主体的关系进行识别,该关系抽取模型可以是分类模型,可以采用分类的方式得到各个实体之间可能的关系。例如,步骤710中识别出待处理文本“张三的出生地点是香港”的实体包括“张三”和“香港”,通过分类模型识别两个实体之间的关系为“出生地”。分类模型可以采用以下公式:Pr(relation=rk|ei)=σ(Wr·hi+br),该公式期望在主体ei条件下获得大于阈值的所有属性关系集合,W是权重矩阵,b是偏置向量。
参照图9所示,本申请的一个实施例,对步骤330进行进一步的说明,所述步骤330具体包括步骤910至步骤920。
步骤910,根据主体数据和关系数据组合生成第三文本。
本步骤中,将主体数据和关系数据进行组合,一种实施方式中,可以将上述步骤710识别的实体数据和上述步骤720识别的关系数据进行组合,本实施例中主体数据和关系数据依据预设格式的模板组合成第三文本。
步骤920,将待处理文本和第三文本输入至客体抽取模型,根据第三文本对待处理文本中的客体进行识别,得到与主体数据和关系数据对应的客体数据。
本步骤中,可以采用MRC模型进行识别,即将待处理文本输入至MRC模型,并基于MRC模型依次第三文本识别对应的客体数据。
参照图10所示,本申请一个实施例,对步骤910进行进一步的说明,所述步骤910具体包括步骤1010至步骤1020。
步骤1010,获取与所述关系数据对应的问题模板,其中所述问题模板包括与所述关系数据对应的主体标记位置。
本步骤中,针对所识别的主体数据和关系数据确定对应的问题模板,其中,当所述关系数据在预设关系数据集中,在预设问题模板集中获取与所述关系数据对应的所述问题模板。预设关系数据集中预设有问题模板,通过关系数据进行查询,例如,上述步骤识别的主体数据和关系数据为<张三,出生地>,其中出生地在预设关系数据集存在对应的问题模板{[人物名]出生在哪座城市?},则获取该问题模板。当所述关系数据不在所述预设关系数据集中,获取通用问题模板,所述通用问题模板包括主体标记位置和关系标记位置,将所述关系数据填入所述通用问题模板的关系标记位置,生成所述问题模板。例如,上述识别的主体数据和关系数据为<故宫,地址>,关系数据地址在预设关系数据集没有对应的问题模板,则获取通用问题模板,该通用问题模板表示模糊问题,例如,{找出[主体名]的[属性名]是什么?},其中的[主体名]为主体标记位置,[属性名]关系标记位置,将关系数据代入通用问题模板,生成问题模板,即{找出[主体名]的地址是什么?}。
一实施例中,当所识别的关系数据在预设关系数据集中没有对应的问题模板,可以提示并让用户就该关系数据输入自定义问题模板,一种方式是在执行步骤1010的过程中给用户进行提示,例如通过在终端出窗口提示没有对应问题模板的关系数据,让用户输入自定义问题模板,以提高当次识别的准确性,另一种方式是将非预设问题模板对应的关系数据存储起来,让用户以后根据所存储的关系数据填写自定义问题模板或者在预设关系数据集中补充对应的问题模板。例如,有非预定义关系“出版社”,则可以用以上方法额外增加自定义问题模板,{[主体名]是哪家出版社出版的?}{[主体名]这部小说的出版单位是?}。
步骤1020,将所述主体数据填入所述问题模板的所述主体标记位置,生成所述自然语言问题。
本步骤中,将主体数据填入问题模板的主体标记位置,可以采用插入或替换的方式,如主体标记位置为问题模板的第几个字符,则采用插入的方式,如主体标记位置为问题模板中的特定标记,则采用替换的方式。例如问题模板{[人物名]出生在哪座城市?},其中[人物名]为标记,则将主体数据替换[人物名],例如主体数据和关系数据为<张三,出生地>,则填入问题模板,生成自然语言问题{张三出生在哪座城市?}。再例如,步骤1010中,将主体数据和关系数据为<故宫,地址>中的主体数据故宫填入问题模板{找出[主体名]的地址是什么?},生成自然语言问题{找出故宫的地址是什么?}。
一实施例中,参照图10所示,上述步骤920具体包括以下步骤:
步骤1030,将待处理文本和自然语言问题输入至客体抽取模型,根据自然语言问题从待处理文本中识别出与所体数据和关系数据对应的客体数据。
本步骤中,客体抽取模型为机器阅读理解(Machine Reading Comprehension)MRC模型,该MRC模型在大量的开放领域语料上进行了训练,不仅可以处理预定义关系的提取,还可以处理非预定义属性的提取,将待处理文本和上述步骤1020所确定的自然语言问题输入MRC模型中进行识别,使MRC模型基于自然语言问题从待处理文本中抽取出客体数据。例如,对于自然语言问题{张三出生在哪座城市?},从对应的待处理文本“张三的出生地点是香港”中识别出客体数据为“香港”,对于自然语言问题{找出故宫的地址是什么?},从对应的待处理文本“举世闻名的故宫位于北京市”中识别出客体数据“北京市”。
本实施例中,基于主体、关系数据提取和问题模板利用,实现了非预设关系提取。提高了对待处理文本的非预设关系的识别性能。
参见图11所示,为本申请实施例提供的一种信息抽取模型,该模型依次由关系(R、Relationship)子模型、主体(S、Subject)子模型和客体(O、Object)子模型连接组成,简称RSO模型,一实施例中,上述每个子模型都有特征生成层和特征融合及增强层,用于执行预测模型算法。
其中RSO模型执行上述实施例的图4中步骤410至步骤420,图5中步骤510至520,图6中步骤610至620中的任一实施例的文本信息抽取方法。其中关系子模型为图4中执行步骤410的关系抽取模型,主体子模型为图4中执行步骤420的主体抽取模型,客体子模型为图6中执行步骤620的客体抽取模型。通过RSO模型,在压缩句子的关系集后,依次进行主体提取和客体提取,解决了重叠问题。
参见图12所示,为本申请实施例提供的一种信息抽取模型,该模型依次由主体(S、Subject)子模型、关系(R、Relationship)子模型、和客体(O、Object)子模型连接组成,简称SRO模型,一实施例中,上述每个子模型都有特征生成层和特征融合及增强层,用于执行预测模型算法。
其中SRO模型执行上述实施例的图7中的步骤710至步骤720,图8中的步骤810至820,步骤9中的步骤910至920,图10中的步骤1010至1030中任一实施例的文本信息抽取方法。其中主体子模型为图7中执行步骤710的主体抽取模型,关系子模型为图7中执行步骤720的关系抽取模型,客体子模型为图9中执行步骤920的客体抽取模型。SRO模型基于主体提取和问题模板利用,实现了预设关系和非预设关系的提取。
RSO模型和SRO模型这两种模型也都支持多样化的对象抽取,通过设置RSO模型和SRO模型的参数,使两种模型在最后一步都以长答案形式实现提取任务进行客体提取,因此对多样化的对象类型有较强的适应性。
参见图13所示,为三种类型的待处理文本,包括一般类型文本、实体垂直文本EPO(EntityPairOverlap)文本和单个实体重叠SEO(SingleEntityOverlap)文本,EPO文本指同一实体对有多个关系,例如对于待处理文本“电影A的导演是张三,也是这部动画的配音演员”包括两组三元组信息<电影A,导演,张三>,<电影A,配音演员,张三>。SEO文本指一个实体在一个句子的多个三联中重复,例如对于待处理文本“举世闻名的故宫位于北京市,这座城市也是中国的首都”,包括两组三元组信息<故宫,地址,北京市>,<北京市,所在国家,中国>。其余都是一般类型文本,例如“张三的出生的地点是香港”,包括一组三元组信息<张三,出生地,香港>。本实施例中提供的方案,主体提取和关系预测结果为前提,自然而然地处理了重叠问题。对于RSO模型,会先进行关系分类,然后用序列标签模式依次提取主体数据和客体数据。RSO模型降低了遍历关系集的成本,在大量的候选关系集中找到与文本相关的关系。在指定关系后,主体和客体的提取变得更加明确,对于处理待处理文本的重叠问题效果较佳。对于SRO模型,首先提取主体数据,然后结合多样化的提问机制完成关系和对象的提取。该模型利用自然语言问题来增强模型对关系的理解,并利用问题模板为上述场景下的非预设关系提取提供可能。
为了提高三元组信息生成的准确性,也可以将RSO模型和SRO模型集成在一个大的系统中,参见图14所示的一种信息抽取系统,包括RSO模型和SRO模型,两个模型是并行运行的,需要说明的是,这里说的并行只是说RSO模型和SRO模型是独立运行的模型,并非限定两个模型是同时运行的,RSO模型和SRO模型可以是同时运行,也可以先后运行,例如先运行RSO模型,再运行SRO模型,反之亦可。待处理文本输入如图14所示的信息抽取系统,分别被RSO模型和SRO模型并行处理,执行如上述实施例的文本信息抽取方法。其中如图14所示,RSO模型的每个子模型(依次为关系子模型、主体子模型和客体子模型)和SRO模型中的每个子模型(依次为主体子模型、关系子模型和客体子模型)都有特征生成层和特征融合及增强层,用于执行预测模型算法。其中,特征生成层可以采用双向转换编码器(BidirectionalEncoder Representation from Transformer,BERT)进行处理,也可以采用词性标签POStag进行处理,POStag和BERT为自然语言技术领域常见的模型。其中,特征融合及增强层包括HighWay层,通过HighWay层对特征生成层生成的特征向量进行映射处理,得到待处理文本的映射向量,可以设置一层以上的HighWay层,如图14所示,设置有两层的HighWay层。特征融合及增强层还包括BiLSTM+CRF模型,BiLSTM-CRF模型主要包括BiLSTM(Bi-directional Long Short-Term Memory,双向长短时记忆网络)层、以及CRF(ConditionalRandom Field,条件随机场)层。将待处理文本的字对应的字向量作为该模型的输入,通过该模型的BiLSTM层可以预测出每个字的类别的概率,然后,将每个字在各个类别标签上的预测概率作为CRF层的输入,CRF层基于预测概率采用动态规划算法如维特比算法(ViterbiAlgorithm),确定并标注出每个字最终所属的类别。参见图14所示,训练数据分别输入至RSO模型和SRO模型中进行训练,测试用例用于对训练后的RSO模型和SRO模型进行测试,直至RSO模型和SRO模型的识别率达到要求。而对于SRO模型,由于采用实体问题的方式查询待处理文本中存在的实体因此还需要设置有实体问题集。
采用图14所示的信息抽取系统,会得到由RSO模型处理得到的第一三元组数据和被SRO模型处理的第二三元组数据,若第一三元组数据和第二三元组数据完全相同,则保留其中一个三元组数据,例如将第一三元组数据作为最终的生成结果,若第一三元组数据和第二三元组数据不同,则会同时生成第一三元组数据和第二三元组数据,将第一三元组数据和第二三元组数据作为目标三元组数据。目标三元组数据输出至知识图谱中,其中也可以先由人工对目标三元组数据进行复核后在输入至知识图谱中。
参照图15所示,为本实施例提供的一种文本信息抽取方法,该方法并行使用了上述的RSO模型和SRO模型,该实施例包括以下步骤1510至步骤15100。
步骤1510,获取待处理文本。
在本步骤中,获取待处理文本的方式可以和上述的实施例相同,例如可以从互联网获取、由本地输入装置输入或者从存储器读取待处理文本。该待处理文本为并行的RSO模型和SRO模型的共同输入,也就是说下文所述的RSO模型和SRO模型输入的待处理文本是相同的。
步骤1520,通过第一关系抽取模型识别待处理文本中各个实体之间存在的关系,得到第一关系数据。
在本步骤中,第一关系抽取模型为RSO模型中的关系子模型,第一关系数据可以为上述RSO模型对待处理文本识别的关系数据。例如可以执行上述实施例中图4所示的步骤410。
步骤1530,基于第一关系数据,通过第一主体抽取模型对待处理文本中的主体进行识别,得到第一主体数据。
在本步骤中,第一主体抽取模型为RSO模型中的主体子模型,第一主体数据可以为上述RSO模型对待处理文本进行主体识别的主体数据。例如可以执行上述实施例中图4所示的步骤420,或者,如图5所示步骤510至步骤520。
步骤1540,基于第一关系数据和第一主体数据,通过第一客体抽取模型对待处理文本中的客体进行识别,得到第一客体数据。
在本步骤中,第一客体抽取模型为RSO模型中的客体子模型,第一客体数据可以为上述RSO模型对待处理文本进行客体识别的客体数据。例如可以执行上述实施例中图3所示的步骤330,或者,如图6所示步骤610至步骤620。
步骤1550,根据第一关系数据、第一主体数据和第一客体数据生成第一三元组数据。
步骤1560,通过第二主体抽取模型识别所述待处理文本中的主体,得到第二主体数据。
在本步骤中,第二主体抽取模型为SRO模型中的主体子模型,第二主体数据可以为上述SRO模型对待处理文本识别的主体数据。例如可以执行上述实施例图7所述的步骤710,或者,如图8所示的步骤810至步骤820。
步骤1570,基于第二主体数据,通过第二关系抽取模型对待处理文本中的关系进行识别,得到第二关系数据。
本步骤中,第二关系抽取模型为SRO模型中的关系子模型,第二关系数据可以为上述SRO模型对待处理文本识别的关系数据。例如可以执行上述实施例图7所述的步骤720。
步骤1580,基于第二关系数据和第二主体数据,通过第二客体抽取模型对待处理文本中的客体进行识别,得到第二客体数据。
本步骤中,第二客体抽取模型为SRO模型中的客体子模型,第二客体数据可以为上述SRO模型对待处理文本识别的客体数据。例如可以执行上述实施例中图3所示的步骤330,或者,如图9所示步骤910至步骤920。
步骤1590,根据所述第二关系数据、所述第二主体数据和所述第二客体数据生成第二三元组数据。
步骤15100,根据所述第一三元组数据和所述第二三元组数据生成目标三元组数据。
本步骤中,对第一三元组数据和所述第二三元组数据进一步处理生成目标三元组数据,其中,第一三元组数据是RSO模型的输出结果,第二三元组数据是SRO模型的输出结果,可以采用如下策略进行目标三元组数据的处理,例如,若第一三元组数据和第二三元组数据完全相同,则保留其中一个三元组数据,将第一三元组数据作为最终的生成结果。例如,若第一三元组数据和第二三元组数据不同,则会同时生成第一三元组数据和第二三元组数据,将第一三元组数据和第二三元组数据作为目标三元组数据。
参照图16是本实施例提供的一种模型训练方法的流程图。通过该方法进行训练的模型,可以应用于如图3所示的文本信息抽取方法中,其中,该模型可以是图12所示的RSO模型或者图13所示的SRO模型。在本申请实施例中,以服务器为执行主体为例子进行说明,参见图16,该实施例包括以下步骤1610至1620。
步骤1610,获取训练文本数据,确定所述训练文本数据的三元组信息,所述三元组信息包括第三主体数据、第三客体数据和第三关系数据,所述第三关系数据为所述第三主体数据和所述第三客体数据的关系属性。
本步骤中,训练数据包括训练文本数据及其对应的三元组信息,其中训练文本所述可以是上述实施例中的一般类型文本、EPO文本或者SEO文本,其中三元组信息由人工预先对该训练文本数据解读得出,例如训练文本数据“举世闻名的故宫位于北京市,这座城市也是中国的首都”,对应的三元组信息<故宫,地址,北京市>,<北京市,所在国家,中国>,构成一组训练数据。
步骤1620,将所述训练文本数据以及所述第三主体数据和所述第三关系数据输入客体抽取模型,对所述训练文本数据中的客体进行识别,得到客体识别结果,根据所述客体识别结果和所述第三客体数据,对所述客体抽取模型的参数进行修正
本步骤中,采用训练文本数据和第三主体数据、第三关系数据对客体抽取模型进行训练。其中训练的模型可以图12所示的RSO模型中的客体子模型,或者如图13所示SRO模型的客体子模型。例如,将训练文本数据“举世闻名的故宫位于北京市,这座城市也是中国的首都”及其对应的第三主体数据、第三关系数据作为训练数据,即<故宫,地址>,<北京市,所在国家>与训练文本数据构成训练数据对客体抽取模型进行训练,将识别结果与第三客体数据进行对比,修正客体抽取模型的参数。
一实施例中,图16所示的模型训练方法还包括以下步骤:
将所述训练文本数据输入关系抽取模型,对所述训练文本数据中各个实体之间存在的关系进行识别,得到关系识别结果,根据所述关系识别结果和所述第三关系数据,对所述关系抽取模型的参数进行修正。
本步骤中,采用训练文本数据对关系抽取模型进行训练,其中训练的模型可以是图12所示RSO模型中的关系子模型。例如,将训练文本数据“举世闻名的故宫位于北京市,这座城市也是中国的首都”作为训练数据对关系抽取模型进行训练,将识别结果与第三关系数据进行对比,修正关系抽取模型的参数。
一实施例中,图16所示的模型训练方法还包括以下步骤:
将所述训练文本数据和所述第三关系数据输入主体抽取模型,根据所述第三关系数据对所述训练文本数据中的主体进行识别,得到主体识别结果,根据所述主体识别结果和所述第三主体数据,对所述主体抽取模型的参数进行修正。
本步骤中,采用训练文本数据和第三关系数据对主体抽取模型进行训练,其中训练的模型可以是图12所示RSO模型中的主体子模型。例如,将训练文本数据“举世闻名的故宫位于北京市,这座城市也是中国的首都”,第三关系数据“地址”“国家”,作为训练数据对主体抽取模型进行训练,将识别结果与第三主体数据进行对比,修正主体抽取模型的参数。
一实施例中,图16所示的模型训练方法还包括以下步骤:
将所述训练文本数据输入主体抽取模型,对所述训练文本数据中的主体进行识别,得到主体识别结果,根据所述主体识别结果和所述第三主体数据,对所述主体抽取模型的参数进行修正。
本步骤中,采用训练文本数据对主体抽取模型进行训练,其中训练的模型可以是图13所示SRO模型中的主体子模型。例如,将训练文本数据“举世闻名的故宫位于北京市,这座城市也是中国的首都”作为训练数据对主体抽取模型进行训练,将识别结果与第三主体数据进行对比,修正主体抽取模型的参数。
一实施例中,图16所示的模型训练方法还包括以下步骤:
将所述第三主体数据输入关系抽取模型,对所述第三主体数据中实体之间的关系进行识别,得到关系识别结果,根据所述关系识别结果和所述第三关系数据,对所述关系抽取模型的参数进行修正。
本步骤中,采用第三主体数据对关系抽取模型进行训练,其中训练的模型可以是图13所示SRO模型中的关系子模型。例如,将第三主体数据“故宫”、“北京市”、“中国”作为训练数据对主体抽取模型进行训练,将识别结果与第三关系数据进行对比,修正关系抽取模型的参数。
本申请实施提供的文本信息抽取方法相对于现有的类似算法识别性能更好。本申请实施提供的信息抽取模型根据子任务的顺序不同,对应RSO模型和SRO模型两种模式,分别可以高效解决重叠问题和非预设关系提取问题。本申请实施提供的信息抽取模型将对象扩展为文本片段,支持各种数值,这种设置使得知识提取系统的适用范围更加广泛。
以下为本申请实施例提供的信息抽取模型和其他现有算法模型的性能对比测试。
表1数据集测试结果1
参见表1所示的数据集测试结果,采用了4个中文和英文数据集上进行比较实验,针对综合性能、一般文本、EPO文本和SEO文本进行测试,其中,P为查准率(Precision),是在预测当中查找准确个数的比例;R为查全率(Recall),在预测中看看真正预测对的占全有对的比率。F1为对查准率和查全率的综合考量参数,其计算公式为:F1=2*P*R/(P+R)。MHE为实现滚动时域估计算法,ERNIE Tagging为语义训练模型算法。从表1可以看出RSO模型抽取性能的优越性,特别是RSO模型在解决重叠问题上的优越性。
表2数据集测试结果2
表2是在英文ACE05和CoNLL04数据集上的对比实验,MTQA、MHE是对比算法。ACE05和CoNLL04这两个数据集重叠问题出现的次数较少,实验结果说明了SRO模型对简单三元组抽取任务的优越性。
行动 | P | R | F1 |
SRO模型+QP | 59.7 | 48.7 | 53.6 |
SRO模型+S | 85.5 | 75.4 | 80.1 |
SRO模型+S+NLQ | 90.3 | 86.2 | 88.2 |
表3 SRO模型数据测试结果
表3是在Scene20数据集上的对比实验,依次为SRO模型提供句子模板(QP)、主语(S)、以及主语+符合自然语言的提问(S+NLQ),实验说明了SRO模型对非预定义属性三元组的抽取能力较佳。
本实施例提供的一种知识图谱构建方法,获取上述任意实施例文本信息抽取方法所生成的三元组数据,并根据所获取的三元组数据构建知识图谱。
本实施例提供的一种知识图谱抽取系统,用于执行上述任意实施例文本信息抽取方法。用户可以通过该知识图谱抽取系统实现待处理文本的上传和三元组数据抽取结果的显示。参照图17所示,为知识图谱抽取系统的抽取界面,用户可以点击1710上传按钮上传如1720列表所示待抽取文本数据,待抽取文本上传后并完成三元组数据抽取后,进入如图18所示的抽取结果界面,用户可以在图19所示的知识编辑界面对识别的知识图谱进行编辑。
本实施例公开一种开文本信息抽取装置,包括:
第一获取单元,用于获取待处理文本;
第一识别单元,用于对所述待处理文本进行识别处理,得到所述待处理文本中的主体数据以及与所述主体数据关联的关系数据;
第一客体识别单元,用于将所述待处理文本、所述主体数据以及所述关系数据输入至客体抽取模型,对所述待处理文本中的客体进行识别,得到与所述主体数据和所述关系数据对应的客体数据;
生成装置,,用于根据所述主体数据、所述关系数据和所述客体数据生成三元组数据。
本实施例公开一种模型训练装置,包括:
第二获取单元,用于获取训练文本数据,确定所述训练文本数据的三元组信息,所述三元组信息包括第一主体数据、第一客体数据和第一关系数据,所述第一关系数据为所述第一主体数据和所述第一客体数据的关系属性;
模型训练单元,用于将所述训练文本数据以及所述第一主体数据和所述第一关系数据输入客体抽取模型,对所述训练文本数据中的客体进行识别,得到客体识别结果,根据所述客体识别结果和所述第一客体数据,对所述客体抽取模型的参数进行修正。
本实施例公开一种文本信息抽取装置,包括:
至少一个存储器,用于存储程序;
至少一个处理器,用于加载所述程序以执行上述任意实施例所述的文本信息抽取方法。
本实施例公开一种模型训练装置,包括:
至少一个存储器,用于存储程序;
至少一个处理器,用于加载所述程序以执行上述任意实施例的模型训练方法。
本实施例公开一种存储介质,其存储有程序,所述程序被处理器执行时实现上述任意实施例的信息抽取方法或者实现上述任意实施例的模型训练方法。
本实施例公开一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述任意实施例的信息抽取方法或者实现上述任意实施例的模型训练方法。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或装置不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或装置固有的其他步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其他的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
对于上述方法实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
以上是对本申请的较佳实施进行了具体说明,但本申请并不限于所述实施例,熟悉本领域的技术人员在不违背本申请精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (15)
1.一种文本信息抽取方法,其特征在于,包括以下步骤:
获取待处理文本;
对所述待处理文本进行识别处理,得到所述待处理文本中的主体数据以及与所述主体数据关联的关系数据;
将所述待处理文本、所述主体数据以及所述关系数据输入至客体抽取模型,对所述待处理文本中的客体进行识别,得到与所述主体数据和所述关系数据对应的客体数据;
根据所述主体数据、所述关系数据和所述客体数据生成三元组数据。
2.根据权利要求1所述的一种文本信息抽取方法,其特征在于,所述将所述待处理文本、所述主体数据以及所述关系数据输入至客体抽取模型,对所述待处理文本中的客体进行识别,得到与所述主体数据和所述关系数据对应的客体数据,包括:
将所述主体数据和所述关系数据合并至所述待处理文本中生成第一文本;
将所述第一文本输入至所述客体抽取模型,对所述第一文本中的客体进行识别,得到与所述主体数据和所述关系数据对应的所述客体数据。
3.根据权利要求1或2所述的一种文本信息抽取方法,其特征在于,所述对所述待处理文本进行识别处理,得到所述待处理文本中的主体数据以及与所述主体数据关联的关系数据,包括:
将所述待处理文本输入关系抽取模型,对所述待处理文本中各个实体之间存在的关系进行识别,确定所述待处理文本中存在的关系数据;
将所述待处理文本和所述关系数据输入至主体抽取模型,对所述待处理文本中的主体进行识别,得到与所述关系数据对应的主体数据。
4.根据权利要求3所述的一种文本信息抽取方法,其特征在于:所述将所述待处理文本和所述关系数据输入至主体抽取模型,对所述待处理文本中的主体进行识别,得到与所述关系数据对应的主体数据,包括:
将所述关系数据合并至所述待处理文本中生成第二文本;
将所述第二文本输入至所述主体抽取模型,对所述第二文本中的主体进行识别,得到与所述关系数据对应的主体数据。
5.根据权利要求1所述的一种文本信息抽取方法,其特征在于,所述将所述待处理文本、所述主体数据以及所述关系数据输入至客体抽取模型,对所述待处理文本中的客体进行识别,得到与所述主体数据和所述关系数据对应的客体数据,包括:
根据所述主体数据和所述关系数据组合生成第三文本;
将所述待处理文本和所述第三文本输入至客体抽取模型,根据所述第三文本对所述待处理文本中的客体进行识别,得到与所述主体数据和所述关系数据对应的所述客体数据。
6.根据权利要求5所述的一种文本信息抽取方法,其特征在于,所述第三文本为自然语言问题;所述根据所述主体数据和所述关系数据组合生成第三文本,包括:
获取与所述关系数据对应的问题模板,其中所述问题模板包括与所述关系数据对应的主体标记位置;
将所述主体数据填入所述问题模板的所述主体标记位置,生成所述自然语言问题;
所述将所述待处理文本和所述第三文本输入至客体抽取模型,根据所述第三文本对所述待处理文本中的客体进行识别,得到与所述主体数据和所述关系数据对应的所述客体数据,包括:
将所述待处理文本和所述自然语言问题输入至所述客体抽取模型,根据所述自然语言问题从所述待处理文本中识别出与所述主体数据和所述关系数据对应的所述客体数据。
7.根据权利要求6所述的一种文本信息抽取方法,其特征在于,所述获取与所述关系数据对应的问题模板,包括以下之一:
当所述关系数据在预设关系数据集中,在预设问题模板集中获取与所述关系数据对应的所述问题模板;
或者,当所述关系数据不在所述预设关系数据集中,获取通用问题模板,所述通用问题模板包括主体标记位置和关系标记位置,将所述关系数据填入所述通用问题模板的关系标记位置,生成所述问题模板。
8.根据权利要求1、5、6、7中至任意一项所述的一种文本信息抽取方法,其特征在于,所述对所述待处理文本进行识别处理,得到所述待处理文本中的主体数据以及与所述主体数据关联的关系数据,包括:
将所述待处理文本输入主体抽取模型,对所述待处理文本的主体进行识别,确定所述待处理文本中存在的所述主体数据;
将所述主体数据输入至关系抽取模型,对所述主体数据中各个主体的关系进行识别,得到所述关系数据。
9.根据权利要求8所述的一种文本信息抽取方法,其特征在于,所述将所述待处理文本输入主体抽取模型,对所述待处理文本的主体进行识别,确定所述待处理文本中存在的主体数据,包括:
获取实体问题集,所述实体问题集包括多个预设的实体问题,所述实体问题用于查询所述待处理文本中存在的实体;
所述待处理文本和所述实体问题集中各个实体问题输入主体抽取模型中,识别所述待处理文本中与所述实体问题对应的实体,将所识别的实体作为主体,得到所述主体数据。
10.一种文本信息抽取方法,其特征在于,包括以下步骤:
获取待处理文本;
通过第一关系抽取模型识别所述待处理文本中各个实体之间存在的关系,得到第一关系数据;基于所述第一关系数据,通过第一主体抽取模型对所述待处理文本中的主体进行识别,得到第一主体数据;基于所述第一关系数据和所述第一主体数据,通过第一客体抽取模型对所述待处理文本中的客体进行识别,得到第一客体数据;根据所述第一关系数据、所述第一主体数据和所述第一客体数据生成第一三元组数据;
通过第二主体抽取模型识别所述待处理文本中的主体,得到第二主体数据;基于所述第二主体数据,通过第二关系抽取模型对所述待处理文本中的关系进行识别,得到第二关系数据;基于所述第二关系数据和所述第二主体数据,通过第二客体抽取模型对所述待处理文本中的客体进行识别,得到第二客体数据;根据所述第二关系数据、所述第二主体数据和所述第二客体数据生成第二三元组数据;
根据所述第一三元组数据和所述第二三元组数据生成目标三元组数据。
11.一种模型训练方法,其特征在于,包括以下步骤:
获取训练文本数据,确定所述训练文本数据的三元组信息,所述三元组信息包括第三主体数据、第三客体数据和第三关系数据,所述第三关系数据为所述第三主体数据和所述第三客体数据的关系属性;
将所述训练文本数据以及所述第三主体数据和所述第三关系数据输入客体抽取模型,对所述训练文本数据中的客体进行识别,得到客体识别结果,根据所述客体识别结果和所述第三客体数据,对所述客体抽取模型的参数进行修正。
12.根据权利要求11所述的一种模型训练方法,其特征在于,还包括以下步骤之一:
将所述训练文本数据输入关系抽取模型,对所述训练文本数据中各个实体之间存在的关系进行识别,得到关系识别结果,根据所述关系识别结果和所述第三关系数据,对所述关系抽取模型的参数进行修正;
或者,将所述训练文本数据和所述第三关系数据输入主体抽取模型,根据所述第三关系数据对所述训练文本数据中的主体进行识别,得到主体识别结果,根据所述主体识别结果和所述第三主体数据,对所述主体抽取模型的参数进行修正;
或者,将所述训练文本数据输入主体抽取模型,对所述训练文本数据中的主体进行识别,得到主体识别结果,根据所述主体识别结果和所述第三主体数据,对所述主体抽取模型的参数进行修正;
或者,将所述第三主体数据输入关系抽取模型,对所述第三主体数据中实体之间的关系进行识别,得到关系识别结果,根据所述关系识别结果和所述第三关系数据,对所述关系抽取模型的参数进行修正。
13.一种文本信息抽取装置,其特征在于,包括:
第一获取单元,用于获取待处理文本;
第一识别单元,用于对所述待处理文本进行识别处理,得到所述待处理文本中的主体数据以及与所述主体数据关联的关系数据;
第一客体识别单元,用于将所述待处理文本、所述主体数据以及所述关系数据输入至客体抽取模型,对所述待处理文本中的客体进行识别,得到与所述主体数据和所述关系数据对应的客体数据;
生成装置,用于根据所述主体数据、所述关系数据和所述客体数据生成三元组数据。
14.一种文本信息抽取装置,其特征在于,包括:
至少一个存储器,用于存储程序;
至少一个处理器,用于加载所述程序以执行上述权利要求1至10任意一项所述的文本信息抽取方法。
15.一种计算机可读存储介质,存储有计算机可执行指令,其特征在于:所述计算机可执行指令用于执行权利要求1至10任意一项所述的信息抽取方法,或者,用于执行权利要求11或12所述的模型训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011098112.7A CN114372454B (zh) | 2020-10-14 | 2020-10-14 | 文本信息抽取方法、模型训练方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011098112.7A CN114372454B (zh) | 2020-10-14 | 2020-10-14 | 文本信息抽取方法、模型训练方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114372454A true CN114372454A (zh) | 2022-04-19 |
CN114372454B CN114372454B (zh) | 2024-08-16 |
Family
ID=81137805
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011098112.7A Active CN114372454B (zh) | 2020-10-14 | 2020-10-14 | 文本信息抽取方法、模型训练方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114372454B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114528418A (zh) * | 2022-04-24 | 2022-05-24 | 杭州同花顺数据开发有限公司 | 一种文本处理方法、系统和存储介质 |
CN114816577A (zh) * | 2022-05-11 | 2022-07-29 | 平安普惠企业管理有限公司 | 配置业务平台功能的方法、装置、电子设备及介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090125542A1 (en) * | 2007-11-14 | 2009-05-14 | Sap Ag | Systems and Methods for Modular Information Extraction |
US20140280194A1 (en) * | 2013-03-15 | 2014-09-18 | Thomson Reuters Global Resources | Method and system for generating and using a master entity associative data network |
CN110413746A (zh) * | 2019-06-25 | 2019-11-05 | 阿里巴巴集团控股有限公司 | 对用户问题进行意图识别的方法及装置 |
CN110795543A (zh) * | 2019-09-03 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 基于深度学习的非结构化数据抽取方法、装置及存储介质 |
CN111143536A (zh) * | 2019-12-30 | 2020-05-12 | 腾讯科技(深圳)有限公司 | 基于人工智能的信息抽取方法及存储介质和相关装置 |
CN111192692A (zh) * | 2020-01-02 | 2020-05-22 | 上海联影智能医疗科技有限公司 | 一种实体关系的确定方法、装置、电子设备及存储介质 |
CN111241209A (zh) * | 2020-01-03 | 2020-06-05 | 北京百度网讯科技有限公司 | 用于生成信息的方法和装置 |
CN111291172A (zh) * | 2020-03-05 | 2020-06-16 | 支付宝(杭州)信息技术有限公司 | 用于处理文本的方法和装置 |
CN111309921A (zh) * | 2020-01-19 | 2020-06-19 | 上海方立数码科技有限公司 | 一种文本三元组抽取方法及抽取系统 |
CN111339774A (zh) * | 2020-02-07 | 2020-06-26 | 腾讯科技(深圳)有限公司 | 文本的实体关系抽取方法和模型训练方法 |
CN111708899A (zh) * | 2020-06-13 | 2020-09-25 | 广州华建工智慧科技有限公司 | 一种基于自然语言和知识图谱工程信息智能搜索方法 |
-
2020
- 2020-10-14 CN CN202011098112.7A patent/CN114372454B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090125542A1 (en) * | 2007-11-14 | 2009-05-14 | Sap Ag | Systems and Methods for Modular Information Extraction |
US20140280194A1 (en) * | 2013-03-15 | 2014-09-18 | Thomson Reuters Global Resources | Method and system for generating and using a master entity associative data network |
CN110413746A (zh) * | 2019-06-25 | 2019-11-05 | 阿里巴巴集团控股有限公司 | 对用户问题进行意图识别的方法及装置 |
CN110795543A (zh) * | 2019-09-03 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 基于深度学习的非结构化数据抽取方法、装置及存储介质 |
CN111143536A (zh) * | 2019-12-30 | 2020-05-12 | 腾讯科技(深圳)有限公司 | 基于人工智能的信息抽取方法及存储介质和相关装置 |
CN111192692A (zh) * | 2020-01-02 | 2020-05-22 | 上海联影智能医疗科技有限公司 | 一种实体关系的确定方法、装置、电子设备及存储介质 |
CN111241209A (zh) * | 2020-01-03 | 2020-06-05 | 北京百度网讯科技有限公司 | 用于生成信息的方法和装置 |
CN111309921A (zh) * | 2020-01-19 | 2020-06-19 | 上海方立数码科技有限公司 | 一种文本三元组抽取方法及抽取系统 |
CN111339774A (zh) * | 2020-02-07 | 2020-06-26 | 腾讯科技(深圳)有限公司 | 文本的实体关系抽取方法和模型训练方法 |
CN111291172A (zh) * | 2020-03-05 | 2020-06-16 | 支付宝(杭州)信息技术有限公司 | 用于处理文本的方法和装置 |
CN111708899A (zh) * | 2020-06-13 | 2020-09-25 | 广州华建工智慧科技有限公司 | 一种基于自然语言和知识图谱工程信息智能搜索方法 |
Non-Patent Citations (1)
Title |
---|
BENGIO Y.: "A Neural Probabilistic Language Model", JOURNAL OF MACHINE LEARNING RESEARCH, vol. 3, 31 December 2003 (2003-12-31), pages 1137 - 1155 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114528418A (zh) * | 2022-04-24 | 2022-05-24 | 杭州同花顺数据开发有限公司 | 一种文本处理方法、系统和存储介质 |
CN114816577A (zh) * | 2022-05-11 | 2022-07-29 | 平安普惠企业管理有限公司 | 配置业务平台功能的方法、装置、电子设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114372454B (zh) | 2024-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110121706B (zh) | 提供会话中的响应 | |
CN111767368B (zh) | 一种基于实体链接的问答知识图谱构建方法及存储介质 | |
CN111259127B (zh) | 一种基于迁移学习句向量的长文本答案选择方法 | |
CN110110054A (zh) | 一种基于深度学习的从非结构化文本中获取问答对的方法 | |
CN110175227A (zh) | 一种基于组队学习和层级推理的对话辅助系统 | |
CN112214593A (zh) | 问答处理方法、装置、电子设备及存储介质 | |
CN112307351A (zh) | 用户行为的模型训练、推荐方法、装置和设备 | |
CN113392209B (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN113282711B (zh) | 一种车联网文本匹配方法、装置、电子设备及存储介质 | |
CN111078837A (zh) | 智能问答信息处理方法、电子设备及计算机可读存储介质 | |
CN115964459B (zh) | 基于食品安全认知图谱的多跳推理问答方法及系统 | |
CN110457585B (zh) | 负面文本的推送方法、装置、系统及计算机设备 | |
CN115438674B (zh) | 实体数据处理、实体链接方法、装置和计算机设备 | |
CN113392179A (zh) | 文本标注方法及装置、电子设备、存储介质 | |
CN116010581A (zh) | 一种基于电网隐患排查场景的知识图谱问答方法及系统 | |
CN114372454B (zh) | 文本信息抽取方法、模型训练方法、装置及存储介质 | |
CN110909174B (zh) | 一种基于知识图谱的简单问答中实体链接的改进方法 | |
CN114492661B (zh) | 文本数据分类方法和装置、计算机设备、存储介质 | |
CN113741759B (zh) | 评论信息的展示方法、装置、计算机设备和存储介质 | |
CN115203388A (zh) | 机器阅读理解方法、装置、计算机设备和存储介质 | |
CN114281934A (zh) | 文本识别方法、装置、设备及存储介质 | |
CN117828024A (zh) | 一种插件检索方法、装置、存储介质及设备 | |
CN117035077A (zh) | 一种基于软模板和反事实推理的难度可控问题生成方法 | |
CN114398903B (zh) | 意图识别方法、装置、电子设备及存储介质 | |
CN114003708B (zh) | 基于人工智能的自动问答方法、装置、存储介质及服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |