CN112328812A - 基于自调参数的领域知识抽取方法与系统、电子设备 - Google Patents
基于自调参数的领域知识抽取方法与系统、电子设备 Download PDFInfo
- Publication number
- CN112328812A CN112328812A CN202110006928.0A CN202110006928A CN112328812A CN 112328812 A CN112328812 A CN 112328812A CN 202110006928 A CN202110006928 A CN 202110006928A CN 112328812 A CN112328812 A CN 112328812A
- Authority
- CN
- China
- Prior art keywords
- data
- domain
- model
- training
- knowledge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于自调参数的领域知识抽取方法与系统、电子设备,包括以下步骤:通过采集的领域数据构建领域本体知识库,所述领域本体知识库包括领域实体库、领域关系库、领域属性库;将构建的领域本体知识库向量化处理后,作为预训练模型的输入,对预训练模型进行训练,得到知识抽取模型;获取知识抽取模型中的可调参数,根据业务数据调整可调参数,对业务数据进行预处理后,将预处理后的业务数据和调整后的可调参数输入所述知识抽取模型,从而得到业务数据的抽取结果;所述抽取结果为<实体,关系,属性>的三元组列表。本方案能够完备知识库,统一抽取实体、关系、属性,快速响应不同的业务需求。
Description
技术领域
本发明涉及知识图谱技术领域,特别涉及一种基于自调参数的领域知识抽取方法与系统、电子设备。
背景技术
知识图谱(Knowledge Graph),在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。知识抽取是知识图谱构建的前置步骤,知识抽取结果的数量、质量直接影响到生成知识图谱的质量,特别对于非结构化数据成图,知识抽取则是必不可少的重要环节。
知识抽取的内容包括实体抽取、关系抽取、属性抽取。在工业领域,知识抽取的应用主要集中在实体抽取,比如在文本数据领域,主要应用在命名体识别技术,对人名、组织名称、机构名称等进行识别;在图像数据领域,主要应用在利用OCR技术上,并结合模板生成知识图谱。而关系抽取、属性抽取则主要基于领域生成相应的规则来进行知识抽取。
但目前的知识抽取还存在以下问题:
一、公开知识库难以完备
知识抽取的准确性与知识库的完整性、标准性具有较强的依赖关系,而开源的公共知识库只对通用概念进行了收集,对于具体业务领域的知识是不完备的,这就造成了开源的知识库没有办法直接用于实际业务场景。
二、知识抽取割裂
实体抽取、关系抽取、属性抽取被划分为不同的子任务,且需要顺序执行,目前没有一个完整的知识抽取模型能够同时满足实体抽取、关系抽取、属性抽取,但是在知识图谱中实体、关系、属性是有依赖关联的,将其任务划分必然会导致局部信息丢失。
三、难以快速响应变化
目前的知识抽取模型很难进行复用,每次进行知识抽取时都需要根据具体的业务数据进行重新训练、验证、测试,知识抽取模型建设周期很长,难以应对业务需求的快速变化。
发明内容
本发明的目的在于解决上述三个问题,即第一完备领域本体知识库,第二能够统一抽取实体、关系、属性,第三快速响应不同的业务需求,提供一种基于自调参数的领域知识抽取方法与系统、电子设备。
为了实现上述三个问题的发明目的,本发明实施例提供了以下技术方案:
基于自调参数的领域知识抽取方法,其特征在于:包括以下步骤:
依据开源知识库,对采集的领域数据进行预处理,通过预处理后的领域数据构建领域本体知识库,所述领域本体知识库包括领域本体,所述领域本体包括领域实体库、领域关系库、领域属性库;
将构建的领域本体知识库向量化处理后,作为预训练模型的输入,对预训练模型进行训练,得到知识抽取模型;
获取知识抽取模型中的可调参数,根据业务数据调整可调参数,对业务数据进行预处理后,将预处理后的业务数据和调整后的可调参数输入所述知识抽取模型,从而得到业务数据的抽取结果;所述抽取结果为<实体,关系,属性>的三元组列表。
在上述方案中,可以将本方法内置在任何基于知识抽取的平台上,依据开源知识库构建领域本体知识库,补充知识数据表示的语义特征,从而得到富含更多语义信息的知识库,解决现有的开源知识库在表示业务数据时存在的语义稀疏的问题,实现完备领域本体知识库的目的。对不同的领域,构建领域本体知识库,并训练同属该领域的知识抽取模型,当接入该领域的业务数据进行抽取时,只需要更改知识抽取模型中的可调参数,即可得到抽取结果,解决了在同一领域内,针对变化的业务数据需要重复训练知识抽取的模型,从而造成的计算资源浪费的问题,比如构建金融领域的领域本体知识库和知识抽取模型后,在金融业务场景下的例如金融信贷业务数据、金融欺诈业务数据等同一领域的业务数据,只需要设置一些可调参数,就可以得到当前业务数据的抽取结果了,并且能够统一抽取实体、关系、属性,不再需要将其划分为三个模块进行,保证了数据的完整性。同时也很大程度上提高了整体业务数据的开发实现周期,快速响应不同的业务数据,加快了知识应用落地过程,更好的服务于业务线,从而实现知识真正的价值应用。
所述依据开源知识库,对采集的领域数据进行预处理,通过预处理后的领域数据构建领域本体知识库的步骤,包括:
基于领域关键词采集领域数据;
结合开源知识库,对采集的领域数据进行分词、清洗处理;
将分词、清洗处理后的领域数据输入标注模型,对领域数据进行标注,得到标注数据;标注的内容包括对领域数据标记为实体、关系、属性的一条或若干条领域数据,并对每条标记后的领域数据添加唯一ID;
将被标记为实体的领域数据载入所述领域实体库,将被标记为关系的领域数据载入所述领域关系库,将被标记为属性的领域数据载入所述领域属性库,从而构建领域本体知识库。
在上述方案中,对采集的领域数据进行标注前,结合领域关键词对应的开源知识库,对领域数据进行分词、清洗处理,更加丰富领域数据的语义信息,弥补现有的开源知识库表示的语义稀疏问题。标注后的领域数据为<实体、关系、属性>形式的一条或若干条领域数据,对每一条标记后的领域数据添加唯一ID,在以后调取时,直接根据该唯一ID搜索,即可得到一条完整的领域数据,解决了现有技术需要对实体、关系、属性分开抽取,所导致的数据信息丢失的问题。
所述标注模型为<实体,关系,属性1,属性2,...,属性n>的领域数据模板,其中n为实体的属性个数,且n≥1;或为<实体1,实体2,...,实体i,关系,属性1,属性2,...,属性j>的领域数据模板,其中i为实体的个数,且i≥2,j为关系的属性个数,且j≥1。
在上述方案中,将领域数据按照标注模型的模板方式进行标注,有以上两种模板,即可得到一条或若干条被标记的领域数据,每条领域数据中都包含了实体、关系、属性的数据信息,因此保证了数据的完整性,解决了现有技术需要对实体、关系、属性分开抽取,所导致的数据信息丢失的问题。
所述结合开源知识库,对采集的领域数据进行分词、清洗处理的步骤,包括:
结合开源知识库,对采集的领域数据进行分词处理,得到分词处理后的领域数据;
利用公共停用表对分词处理后的领域数据进行清洗,过滤停用词,形成词汇表形式的领域数据。
在上述方案中,结合现有的开源知识库对领域数据进行分词处理,可以丰富领域数据的语义信息,弥补现有的开源知识库表示的语义稀疏问题。利用公共停用表过滤领域数据中的停用词,使得领域数据更加有效。
所述将构建的领域本体知识库向量化处理后,作为预训练模型的输入,对预训练模型进行训练,得到知识抽取模型的步骤,包括:
将构建的领域本体知识库输入word2vec模型,得到知识的向量化表示;
将知识的向量化表示作为预训练模型的输入,对预训练模型进行迭代训练,完成迭代训练后,对预训练模型进行测试,得到知识抽取模型。
在上述方案中,构建的领域本体知识库已经是非常完备的知识了,将知识向量化表示,输入预训练模型进行训练、测试,最后得到该领域可通用的知识抽取模型。
所述将知识的向量化表示作为预训练模型的输入,对预训练模型进行迭代训练,完成迭代训练后,对预训练模型进行测试,得到知识抽取模型的步骤,包括:
将知识的向量化表示作为基于Bi-LSTM模型、Attention模型、CRF模型结合的预训练模型的输入,对预训练模型进行迭代批次训练;
在完成一个周期的迭代训练后对预训练模型进行验证,利用BP算法和Adam优化器对预训练模型内部的神经元之间连接的权重参数进行优化;再对预训练模型重复训练、验证的过程,直到完成迭代训练;
通过准确率、召回率、F1值对完成迭代训练的预训练模型进行测试,从而生成知识抽取模型。
在上述方案中,即是预训练模型的具体训练过程,最后得到该领域可通用的知识抽取模型。
获取的知识抽取模型中的所述可调参数包括:批大小-batch_size、学习率-learn_rate、Bi-LSTM层数-r_layer、Bi-LSTM每层的神经元个数-r_nums、Attention层数-a_layer。
在上述方案中,将可调参数以列表的形式收集展示,在后续业务数据输入时,能够更快捷的更改可调参数。
所述对业务数据进行预处理的步骤,包括:
结合构建的领域本体知识库,对业务数据进行分词处理,得到分词处理后的业务数据;
利用公共停用表对分词处理后的业务数据进行清洗,过滤停用词,得到预处理后的业务数据。
在上述方案中,由于构建的领域本体知识库已经非常完备了,因此对接入的业务数据可以仅使用领域本体知识库对其进行分词、清洗的预处理,最后将预处理后的业务数据和调整后的可调参数输入知识抽取模型,即可得到本次业务数据的抽取结果。当输入同一领域的任何不同业务数据时,只需要更改可调参数,即可得到抽取结果,不再需要对每一次不同的业务数据都进行一次知识抽取模型的训练了,使得模型得以复用,解决了计算资源浪费的问题。
基于自调参数的领域知识抽取系统,包括:
知识库构建系统,用于依据开源知识库对采集的领域数据进行预处理,通过预处理后的领域数据构建领域本体知识库;构建的所述领域本体知识库包括领域本体,所述领域本体包括领域实体库、领域关系库、领域属性库;
抽取模型训练系统,其数据输入端与所述知识库构建系统的数据输出端连接,用于将构建的领域本体知识库向量化处理后,作为预训练模型的输入,对预训练模型进行训练,得到知识抽取模型;
业务应用系统,其数据输入端与所述抽取模型训练系统的数据输出端连接,用于获取所述知识抽取模型中的可调参数,根据业务数据调整可调参数,并对业务数据进行预处理后,将预处理后的业务数据和调整后的可调参数输入所述知识抽取模型,从而得到业务数据的抽取结果;所述抽取结果为<实体,关系,属性>的三元组列表。
所述知识库构建系统包括数据采集单元、第一预处理单元、标注单元,其中,
数据采集单元用于基于领域关键词采集领域数据;
第一预处理单元的数据输入端与数据采集单元的数据输出端连接,第一预处理单元用于对采集的领域数据进行分词、清洗处理;
标注单元的数据输入端与第一预处理单元的数据输出端连接,标注单元用于将进行分词、清洗处理的领域数据输入标注模型,得到标注数据;标注的内容包括对领域数据标记为实体、关系、属性的一条或若干条领域数据,并对每条标记后的领域数据添加唯一ID;以及将被标记为实体的领域数据载入所述领域实体库,将被标记为关系的领域数据载入所述领域关系库,将被标记为属性的领域数据载入所述领域属性库,从而构建领域本体知识库;
所述标注模型为<实体,关系,属性1,属性2,...,属性n>的领域数据模板,其中n为实体的属性个数,且n≥1;或为<实体1,实体2,...,实体i,关系,属性1,属性2,...,属性j>的领域数据模板,其中i为实体的个数,且i≥2,j为关系的属性个数,且j≥1。
所述第一预处理单元在对采集的领域数据进行分词处理时,结合开源知识库对采集的领域数据进行分词处理,以得到分词处理后的领域数据;所述第一预处理单元在对采集的领域数据进行清洗处理时,利用公共停用表对分词处理后的领域数据进行清洗,过滤停用词,以形成词汇表形式的领域数据。
所述抽取模型训练系统包括向量处理单元、训练单元、测试单元,其中,
向量处理单元用于将构建的领域本体知识库输入word2vec模型,得到知识的向量化表示;
训练单元的数据输入端与所述向量处理单元的数据输出端连接,训练单元用于将知识的向量化表示作为预训练模型的输入,对预训练模型进行迭代训练;
测试单元的数据输入端与所述训练单元的数据输出端连接,测试单元用于对完成迭代训练的预训练模型进行测试,得到知识抽取模型。
所述训练单元在对预训练模型进行训练时,将知识的向量化表示作为基于Bi-LSTM模型、Attention模型、CRF模型结合的预训练模型的输入,对预训练模型进行迭代批次训练;在完成一个周期的迭代训练后对预训练模型进行验证,利用BP算法和Adam优化器对预训练模型内部的神经元之间连接的权重参数进行优化;再对预训练模型重复训练、验证的过程,直到完成迭代训练。
所述测试单元在对完成迭代训练的预训练模型进行测试时,通过准确率、召回率、F1值对完成迭代训练的预训练模型进行测试,从而生成知识抽取模型。
所述业务应用系统包括第二预处理单元、调参单元、抽取单元,其中,
第二预处理单元的数据输入端接入业务数据,用于对业务数据进行预处理;
调参单元的数据输入端与所述第二预处理单元的数据输出端连接,调参单元用于获取所述知识抽取模型中的可调参数,根据业务数据调整可调参数;所述可调参数包括:批大小-batch_size、学习率-learn_rate、Bi-LSTM层数-r_layer、Bi-LSTM每层的神经元个数-r_nums、Attention层数-a_layer;
抽取单元的数据输入端分别与第二预处理单元和调参单元的数据输出端连接,抽取单元用于将预处理后的业务数据和调整后的可调参数输入所述知识抽取模型,从而得到业务数据的抽取结果;所述抽取结果为<实体,关系,属性>的三元组列表。
所述第二预处理单元在对接入的业务数据进行预处理时,结合构建的领域本体知识库,对业务数据进行分词处理,得到分词处理后的业务数据;以及利用公共停用表对分词处理后的业务数据进行清洗,过滤停用词,得到预处理后的业务数据。
一种电子设备,包括:
存储器,存储程序指令;
处理器,与所述存储器相连接,执行存储器中的程序指令,实现本发明实施例中任一实施方式所述的基于自调参数的领域知识抽取方法中的步骤。
与现有技术相比,本发明的有益效果:
(1)可以将本方案内置在任何基于知识抽取的平台上,依据开源知识库构建领域本体知识库,补充知识数据表示的语义特征,从而得到富含更多语义信息的知识库,解决现有的开源知识库在表示业务数据时存在的语义稀疏的问题,实现完备领域本体知识库的目的。
(2)对不同的领域,构建领域本体知识库,并训练同属该领域的知识抽取模型,当接入该领域的业务数据进行抽取时,只需要更改知识抽取模型中的可调参数,即可得到抽取结果,解决了在同一领域内,针对变化的业务数据需要重复训练知识抽取的模型,从而造成的计算资源浪费的问题,比如构建金融领域的领域本体知识库和知识抽取模型后,在金融业务场景下的例如金融信贷业务数据、金融欺诈业务数据等同一领域的业务数据,只需要设置一些可调参数,就可以得到当前业务数据的抽取结果了,并且能够统一抽取实体、关系、属性,不再需要将其划分为三个模块进行,保证了数据的完整性。
(3)本方案同时也很大程度上提高了整体业务数据的开发实现周期,快速响应不同的业务数据,加快了知识应用落地过程,更好的服务于业务线,从而实现知识真正的价值应用。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍, 应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明知识抽取方法的流程图;
图2为本发明实施例对预训练模型进行训练的示意图;
图3为本发明知识抽取系统的框图;
图4为本发明实施例电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
本发明通过下述技术方案实现,如图1所示,基于自调参数的领域知识抽取方法,该方法包括三个步骤:
步骤S1:通过采集的领域数据构建领域本体知识库。
构建的领域本体知识库包括领域实体库、领域关系库、领域属性库。
可以利用爬虫技术通过领域关键词爬取领域对应的数据采集源作为领域数据,比如,金融领域的数据采集源包括但不限于证券日报、蓝鲸财经、网贷之家、华夏时报等金融财经类新闻网站;再比如,可以采集教育领域的数据、体育领域的数据、服装领域的数据等等。
结合开源知识库,对采集的领域数据进行分词处理,得到分词处理后的领域数据。再利用公共停用表对分词处理后的领域数据进行清洗,过滤停用词,形成词汇表形式的领域数据。
将分词、清洗处理后的领域数据输入标注模型,对领域数据进行标注,得到标注数据;标注的内容包括对领域数据标记为实体、关系、属性的一条或若干条领域数据,并对每条标记后的领域数据添加唯一ID。标注模型的模板包括两种:
1.<实体,关系,属性1,属性2,...,属性n>
2.<实体1,实体2,...,实体i,关系,属性1,属性2,...,属性j>
比如对一条金融数据进行标注,标注后可得到<企业1,企业2,合作关系,2020年12月4日,成都>这样一条领域数据,即对该条领域数据添加唯一ID。
然后将被标记为实体的领域数据载入所述领域实体库,将被标记为关系的领域数据载入所述领域关系库,将被标记为属性的领域数据载入所述领域属性库,从而构建领域本体知识库。
步骤S2:将构建的领域本体知识库向量化处理后,作为预训练模型的输入,对预训练模型进行训练,得到知识抽取模型。
将构建的领域本体知识库输入word2vec模型,得到知识的向量化表示,该word2vec模型中的可调参数包括:词向量维度-vec_size。
请参见图2,将知识的向量化表示作为基于Bi-LSTM模型、Attention模型、CRF模型结合的预训练模型的输入,对预训练模型进行迭代批次训练;在完成一个周期的迭代训练后对预训练模型进行验证,利用BP算法和Adam优化器对预训练模型内部的神经元之间连接的权重参数进行优化;再对预训练模型重复训练、验证的过程,直到完成迭代训练;通过准确率、召回率、F1值对完成迭代训练的预训练模型进行测试,从而生成知识抽取模型。
知识抽取模型可调参数包括:批大小-batch_size、学习率-learn_rate、Bi-LSTM层数-r_layer、Bi-LSTM每层的神经元个数-r_nums、Attention层数-a_layer等,将这些可调参数以列表的形式收集展现。
步骤S3:获取知识抽取模型中的可调参数,根据业务数据调整可调参数,对业务数据进行预处理后,将预处理后的业务数据和调整后的可调参数输入所述知识抽取模型,从而得到业务数据的抽取结果。
在对业务数据的知识抽取过程之前,需要对业务数据进行预处理,结合构建的领域本体知识库,对业务数据进行分词处理,得到分词处理后的业务数据;利用公共停用表对分词处理后的业务数据进行清洗,过滤停用词,得到预处理后的业务数据。
领域本体知识库在一定程度上能够优化分词的结果,比如领域实体库中有实体“上市公司”,如果不结合领域实体库的话,分词结果为“上市”、“公司”,会将“上市公司”拆成两个词。因此结合领域本体知识库会使得领域内特有的词汇的分析效果有明显提升。
由于同一领域的业务数据是不断更新变化的,但这些业务数据又具有其领域的公有特征,因此通过对知识抽取模型中的可调参数进行调整,即可实现对业务数据快速变化的敏捷响应,简化知识抽取的构建过程。
比如现输出业务数据1、业务数据2、...业务数据n,将业务数据预处理后输入知识抽取模型,再对可调参数列表中相应或所需的可调参数进行调整,以符合当前业务数据的要求。最后从知识抽取模型输出以<实体,关系,属性>的三元组列表形式的抽取结果。
本实施例还提出一种基于自调参数的领域知识抽取系统,请参见图3,包括:
知识库构建系统,用于依据开源知识库对采集的领域数据进行预处理,通过预处理后的领域数据构建领域本体知识库;构建的所述领域本体知识库包括领域本体,所述领域本体包括领域实体库、领域关系库、领域属性库;
抽取模型训练系统,其数据输入端与所述知识库构建系统的数据输出端连接,用于将构建的领域本体知识库向量化处理后,作为预训练模型的输入,对预训练模型进行训练,得到知识抽取模型;
业务应用系统,其数据输入端与所述抽取模型训练系统的数据输出端连接,用于获取所述知识抽取模型中的可调参数,根据业务数据调整可调参数,并对业务数据进行预处理后,将预处理后的业务数据和调整后的可调参数输入所述知识抽取模型,从而得到业务数据的抽取结果;所述抽取结果为<实体,关系,属性>的三元组列表。
所述知识库构建系统包括数据采集单元、第一预处理单元、标注单元,其中,
数据采集单元用于基于领域关键词采集领域数据;
第一预处理单元的数据输入端与数据采集单元的数据输出端连接,第一预处理单元用于对采集的领域数据进行分词、清洗处理。
所述第一预处理单元在对采集的领域数据进行分词处理时,结合开源知识库对采集的领域数据进行分词处理,以得到分词处理后的领域数据;所述第一预处理单元在对采集的领域数据进行清洗处理时,利用公共停用表对分词处理后的领域数据进行清洗,过滤停用词,以形成词汇表形式的领域数据。
标注单元的数据输入端与第一预处理单元的数据输出端连接,标注单元用于将进行分词、清洗处理的领域数据输入标注模型,得到标注数据;标注的内容包括对领域数据标记为实体、关系、属性的一条或若干条领域数据,并对每条标记后的领域数据添加唯一ID;以及将被标记为实体的领域数据载入所述领域实体库,将被标记为关系的领域数据载入所述领域关系库,将被标记为属性的领域数据载入所述领域属性库,从而构建领域本体知识库;
所述标注模型为<实体,关系,属性1,属性2,...,属性n>的领域数据模板,其中n为实体的属性个数,且n≥1;或为<实体1,实体2,...,实体i,关系,属性1,属性2,...,属性j>的领域数据模板,其中i为实体的个数,且i≥2,j为关系的属性个数,且j≥1。
所述抽取模型训练系统包括向量处理单元、训练单元、测试单元,其中,
向量处理单元用于将构建的领域本体知识库输入word2vec模型,得到知识的向量化表示;
训练单元的数据输入端与所述向量处理单元的数据输出端连接,训练单元用于将知识的向量化表示作为预训练模型的输入,对预训练模型进行迭代训练。
所述训练单元在对预训练模型进行训练时,将知识的向量化表示作为基于Bi-LSTM模型、Attention模型、CRF模型结合的预训练模型的输入,对预训练模型进行迭代批次训练;在完成一个周期的迭代训练后对预训练模型进行验证,利用BP算法和Adam优化器对预训练模型内部的神经元之间连接的权重参数进行优化;再对预训练模型重复训练、验证的过程,直到完成迭代训练。
测试单元的数据输入端与所述训练单元的数据输出端连接,测试单元用于对完成迭代训练的预训练模型进行测试,得到知识抽取模型。
所述测试单元在对完成迭代训练的预训练模型进行测试时,通过准确率、召回率、F1值对完成迭代训练的预训练模型进行测试,从而生成知识抽取模型。
所述业务应用系统包括第二预处理单元、调参单元、抽取单元,其中,
第二预处理单元的数据输入端接入业务数据,用于对业务数据进行预处理。
所述第二预处理单元在对接入的业务数据进行预处理时,结合构建的领域本体知识库,对业务数据进行分词处理,得到分词处理后的业务数据;以及利用公共停用表对分词处理后的业务数据进行清洗,过滤停用词,得到预处理后的业务数据。
调参单元的数据输入端与所述第二预处理单元的数据输出端连接,调参单元用于获取所述知识抽取模型中的可调参数,根据业务数据调整可调参数;所述可调参数包括:批大小-batch_size、学习率-learn_rate、Bi-LSTM层数-r_layer、Bi-LSTM每层的神经元个数-r_nums、Attention层数-a_layer;
抽取单元的数据输入端分别与第二预处理单元和调参单元的数据输出端连接,抽取单元用于将预处理后的业务数据和调整后的可调参数输入所述知识抽取模型,从而得到业务数据的抽取结果;所述抽取结果为<实体,关系,属性>的三元组列表。
请参见图4,本实施例同时提供了一种电子设备,该电子设备可以包括处理器71和存储器72,其中存储器72耦合至处理器71。值得注意的是,该图是示例性的,还可以使用其他类型的结构来补充或替代该结构。
如图4所示,该电子设备还可以包括:输入单元73、显示单元74和电源75。值得注意的是,该电子设备也并不是必须要包括图4中显示的所有部件。此外,电子设备还可以包括图4中没有示出的部件,可以参考现有技术。
处理器71有时也称控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该处理器71接收输入并控制电子设备的各个部件的操作。
其中,存储器72例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其他合适装置中的一种或多种,可存储上述处理器71的配置信息、处理器71执行的指令、记录的表格数据等信息。处理器71可以执行存储器72存储的程序,以实现信息存储或处理等。在一个实施例中,存储器72中还包括缓冲存储器,即缓冲器,以存储中间信息。
输入单元73例如用于向处理器71提供本体的数据或者数据持有方所拥有的数据。显示单元74用于显示处理过程中的各种结果,例如页面中展示的实体、关系、属性等等,该显示单元例如可以为LCD显示器,但本发明并不限于此。电源75用于为电子设备提供电力。
本发明实施例还提供一种计算机可读指令,其中当在电子设备中执行所述指令时,所述程序使得电子设备执行本发明方法所包含的操作步骤。
本发明实施例还提供一种存储有计算机可读指令的存储介质,其中所述计算机可读指令使得电子设备执行本发明方法所包含的操作步骤。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (17)
1.基于自调参数的领域知识抽取方法,其特征在于:包括以下步骤:
依据开源知识库,对采集的领域数据进行预处理,通过预处理后的领域数据构建领域本体知识库,所述领域本体知识库包括领域本体,所述领域本体包括领域实体库、领域关系库、领域属性库;
将构建的领域本体知识库向量化处理后,作为预训练模型的输入,对预训练模型进行训练,得到知识抽取模型;
获取知识抽取模型中的可调参数,根据业务数据调整可调参数,对业务数据进行预处理后,将预处理后的业务数据和调整后的可调参数输入所述知识抽取模型,从而得到业务数据的抽取结果;所述抽取结果为<实体,关系,属性>的三元组列表。
2.根据权利要求1所述的基于自调参数的领域知识抽取方法,其特征在于:所述依据开源知识库,对采集的领域数据进行预处理,通过预处理后的领域数据构建领域本体知识库的步骤,包括:
基于领域关键词采集领域数据;
结合开源知识库,对采集的领域数据进行分词、清洗处理;
将分词、清洗处理后的领域数据输入标注模型,对领域数据进行标注,得到标注数据;标注的内容包括对领域数据标记为实体、关系、属性的一条或若干条领域数据,并对每条标记后的领域数据添加唯一ID;
将被标记为实体的领域数据载入所述领域实体库,将被标记为关系的领域数据载入所述领域关系库,将被标记为属性的领域数据载入所述领域属性库,从而构建领域本体知识库。
3.根据权利要求2所述的基于自调参数的领域知识抽取方法,其特征在于:所述标注模型为<实体,关系,属性1,属性2,...,属性n>的领域数据模板,其中n为实体的属性个数,且n≥1;或为<实体1,实体2,...,实体i,关系,属性1,属性2,...,属性j>的领域数据模板,其中i为实体的个数,且i≥2,j为关系的属性个数,且j≥1。
4.根据权利要求3所述的基于自调参数的领域知识抽取方法,其特征在于:所述结合开源知识库,对采集的领域数据进行分词、清洗处理的步骤,包括:
结合开源知识库,对采集的领域数据进行分词处理,得到分词处理后的领域数据;
利用公共停用表对分词处理后的领域数据进行清洗,过滤停用词,形成词汇表形式的领域数据。
5.根据权利要求1所述的基于自调参数的领域知识抽取方法,其特征在于:所述将构建的领域本体知识库向量化处理后,作为预训练模型的输入,对预训练模型进行训练,得到知识抽取模型的步骤,包括:
将构建的领域本体知识库输入word2vec模型,得到知识的向量化表示;
将知识的向量化表示作为预训练模型的输入,对预训练模型进行迭代训练,完成迭代训练后,对预训练模型进行测试,得到知识抽取模型。
6.根据权利要求5所述的基于自调参数的领域知识抽取方法,其特征在于:所述将知识的向量化表示作为预训练模型的输入,对预训练模型进行迭代训练,完成迭代训练后,对预训练模型进行测试,得到知识抽取模型的步骤,包括:
将知识的向量化表示作为基于Bi-LSTM模型、Attention模型、CRF模型结合的预训练模型的输入,对预训练模型进行迭代批次训练;
在完成一个周期的迭代训练后对预训练模型进行验证,利用BP算法和Adam优化器对预训练模型内部的神经元之间连接的权重参数进行优化;再对预训练模型重复训练、验证的过程,直到完成迭代训练;
通过准确率、召回率、F1值对完成迭代训练的预训练模型进行测试,从而生成知识抽取模型。
7.根据权利要求1所述的基于自调参数的领域知识抽取方法,其特征在于:获取的知识抽取模型中的所述可调参数包括:批大小-batch_size、学习率-learn_rate、Bi-LSTM层数-r_layer、Bi-LSTM每层的神经元个数-r_nums、Attention层数-a_layer。
8.根据权利要求1所述的基于自调参数的领域知识抽取方法,其特征在于:所述对业务数据进行预处理的步骤,包括:
结合构建的领域本体知识库,对业务数据进行分词处理,得到分词处理后的业务数据;
利用公共停用表对分词处理后的业务数据进行清洗,过滤停用词,得到预处理后的业务数据。
9.基于自调参数的领域知识抽取系统,其特征在于:包括:
知识库构建系统,用于依据开源知识库对采集的领域数据进行预处理,通过预处理后的领域数据构建领域本体知识库;构建的所述领域本体知识库包括领域本体,所述领域本体包括领域实体库、领域关系库、领域属性库;
抽取模型训练系统,其数据输入端与所述知识库构建系统的数据输出端连接,用于将构建的领域本体知识库向量化处理后,作为预训练模型的输入,对预训练模型进行训练,得到知识抽取模型;
业务应用系统,其数据输入端与所述抽取模型训练系统的数据输出端连接,用于获取所述知识抽取模型中的可调参数,根据业务数据调整可调参数,并对业务数据进行预处理后,将预处理后的业务数据和调整后的可调参数输入所述知识抽取模型,从而得到业务数据的抽取结果;所述抽取结果为<实体,关系,属性>的三元组列表。
10.根据权利要求9所述的基于自调参数的领域知识抽取系统,其特征在于:所述知识库构建系统包括数据采集单元、第一预处理单元、标注单元,其中,
数据采集单元用于基于领域关键词采集领域数据;
第一预处理单元的数据输入端与数据采集单元的数据输出端连接,第一预处理单元用于对采集的领域数据进行分词、清洗处理;
标注单元的数据输入端与第一预处理单元的数据输出端连接,标注单元用于将进行分词、清洗处理的领域数据输入标注模型,得到标注数据;标注的内容包括对领域数据标记为实体、关系、属性的一条或若干条领域数据,并对每条标记后的领域数据添加唯一ID;以及将被标记为实体的领域数据载入所述领域实体库,将被标记为关系的领域数据载入所述领域关系库,将被标记为属性的领域数据载入所述领域属性库,从而构建领域本体知识库;
所述标注模型为<实体,关系,属性1,属性2,...,属性n>的领域数据模板,其中n为实体的属性个数,且n≥1;或为<实体1,实体2,...,实体i,关系,属性1,属性2,...,属性j>的领域数据模板,其中i为实体的个数,且i≥2,j为关系的属性个数,且j≥1。
11.根据权利要求10所述的基于自调参数的领域知识抽取系统,其特征在于:所述第一预处理单元在对采集的领域数据进行分词处理时,结合开源知识库对采集的领域数据进行分词处理,以得到分词处理后的领域数据;所述第一预处理单元在对采集的领域数据进行清洗处理时,利用公共停用表对分词处理后的领域数据进行清洗,过滤停用词,以形成词汇表形式的领域数据。
12.根据权利要求9所述的基于自调参数的领域知识抽取系统,其特征在于:所述抽取模型训练系统包括向量处理单元、训练单元、测试单元,其中,
向量处理单元用于将构建的领域本体知识库输入word2vec模型,得到知识的向量化表示;
训练单元的数据输入端与所述向量处理单元的数据输出端连接,训练单元用于将知识的向量化表示作为预训练模型的输入,对预训练模型进行迭代训练;
测试单元的数据输入端与所述训练单元的数据输出端连接,测试单元用于对完成迭代训练的预训练模型进行测试,得到知识抽取模型。
13.根据权利要求12所述的基于自调参数的领域知识抽取系统,其特征在于:所述训练单元在对预训练模型进行训练时,将知识的向量化表示作为基于Bi-LSTM模型、Attention模型、CRF模型结合的预训练模型的输入,对预训练模型进行迭代批次训练;在完成一个周期的迭代训练后对预训练模型进行验证,利用BP算法和Adam优化器对预训练模型内部的神经元之间连接的权重参数进行优化;再对预训练模型重复训练、验证的过程,直到完成迭代训练。
14.根据权利要求12所述的基于自调参数的领域知识抽取系统,其特征在于:所述测试单元在对完成迭代训练的预训练模型进行测试时,通过准确率、召回率、F1值对完成迭代训练的预训练模型进行测试,从而生成知识抽取模型。
15.根据权利要求9所述的基于自调参数的领域知识抽取系统,其特征在于:所述业务应用系统包括第二预处理单元、调参单元、抽取单元,其中,
第二预处理单元的数据输入端接入业务数据,用于对业务数据进行预处理;
调参单元的数据输入端与所述第二预处理单元的数据输出端连接,调参单元用于获取所述知识抽取模型中的可调参数,根据业务数据调整可调参数;所述可调参数包括:批大小-batch_size、学习率-learn_rate、Bi-LSTM层数-r_layer、Bi-LSTM每层的神经元个数-r_nums、Attention层数-a_layer;
抽取单元的数据输入端分别与第二预处理单元和调参单元的数据输出端连接,抽取单元用于将预处理后的业务数据和调整后的可调参数输入所述知识抽取模型,从而得到业务数据的抽取结果;所述抽取结果为<实体,关系,属性>的三元组列表。
16.根据权利要求15所述的基于自调参数的领域知识抽取系统,其特征在于:所述第二预处理单元在对接入的业务数据进行预处理时,结合构建的领域本体知识库,对业务数据进行分词处理,得到分词处理后的业务数据;以及利用公共停用表对分词处理后的业务数据进行清洗,过滤停用词,得到预处理后的业务数据。
17.一种电子设备,其特征在于,包括:
存储器,存储程序指令;
处理器,与所述存储器相连接,执行存储器中的程序指令,实现权利要求1-8任一所述基于自调参数的领域知识抽取方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110006928.0A CN112328812B (zh) | 2021-01-05 | 2021-01-05 | 基于自调参数的领域知识抽取方法与系统、电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110006928.0A CN112328812B (zh) | 2021-01-05 | 2021-01-05 | 基于自调参数的领域知识抽取方法与系统、电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112328812A true CN112328812A (zh) | 2021-02-05 |
CN112328812B CN112328812B (zh) | 2021-03-26 |
Family
ID=74302237
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110006928.0A Active CN112328812B (zh) | 2021-01-05 | 2021-01-05 | 基于自调参数的领域知识抽取方法与系统、电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112328812B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI807400B (zh) * | 2021-08-27 | 2023-07-01 | 台達電子工業股份有限公司 | 產生實體關係抽取模型的裝置及方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106250412A (zh) * | 2016-07-22 | 2016-12-21 | 浙江大学 | 基于多源实体融合的知识图谱构建方法 |
WO2018072563A1 (zh) * | 2016-10-18 | 2018-04-26 | 中兴通讯股份有限公司 | 一种知识图谱构建方法、装置及系统 |
CN108363716A (zh) * | 2017-12-28 | 2018-08-03 | 广州索答信息科技有限公司 | 领域信息分类模型生成方法、分类方法、设备及存储介质 |
CN108984683A (zh) * | 2018-06-29 | 2018-12-11 | 北京百度网讯科技有限公司 | 结构化数据的提取方法、系统、设备及存储介质 |
CN110287334A (zh) * | 2019-06-13 | 2019-09-27 | 淮阴工学院 | 一种基于实体识别和属性抽取模型的学校领域知识图谱构建方法 |
CN110334212A (zh) * | 2019-07-01 | 2019-10-15 | 南京审计大学 | 一种基于机器学习的领域性审计知识图谱构建方法 |
WO2020007224A1 (zh) * | 2018-07-06 | 2020-01-09 | 中兴通讯股份有限公司 | 知识图谱构建及智能应答方法、装置、设备及存储介质 |
CN110750652A (zh) * | 2019-10-21 | 2020-02-04 | 广西大学 | 结合上下文实体词和知识的故事结局生成方法 |
CN111143536A (zh) * | 2019-12-30 | 2020-05-12 | 腾讯科技(深圳)有限公司 | 基于人工智能的信息抽取方法及存储介质和相关装置 |
CN111192680A (zh) * | 2019-12-25 | 2020-05-22 | 山东众阳健康科技集团有限公司 | 一种基于深度学习和集成分类的智能辅助诊断方法 |
CN111832307A (zh) * | 2020-07-09 | 2020-10-27 | 北京工业大学 | 一种基于知识增强的实体关系抽取方法及系统 |
-
2021
- 2021-01-05 CN CN202110006928.0A patent/CN112328812B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106250412A (zh) * | 2016-07-22 | 2016-12-21 | 浙江大学 | 基于多源实体融合的知识图谱构建方法 |
WO2018072563A1 (zh) * | 2016-10-18 | 2018-04-26 | 中兴通讯股份有限公司 | 一种知识图谱构建方法、装置及系统 |
CN108363716A (zh) * | 2017-12-28 | 2018-08-03 | 广州索答信息科技有限公司 | 领域信息分类模型生成方法、分类方法、设备及存储介质 |
CN108984683A (zh) * | 2018-06-29 | 2018-12-11 | 北京百度网讯科技有限公司 | 结构化数据的提取方法、系统、设备及存储介质 |
WO2020007224A1 (zh) * | 2018-07-06 | 2020-01-09 | 中兴通讯股份有限公司 | 知识图谱构建及智能应答方法、装置、设备及存储介质 |
CN110287334A (zh) * | 2019-06-13 | 2019-09-27 | 淮阴工学院 | 一种基于实体识别和属性抽取模型的学校领域知识图谱构建方法 |
CN110334212A (zh) * | 2019-07-01 | 2019-10-15 | 南京审计大学 | 一种基于机器学习的领域性审计知识图谱构建方法 |
CN110750652A (zh) * | 2019-10-21 | 2020-02-04 | 广西大学 | 结合上下文实体词和知识的故事结局生成方法 |
CN111192680A (zh) * | 2019-12-25 | 2020-05-22 | 山东众阳健康科技集团有限公司 | 一种基于深度学习和集成分类的智能辅助诊断方法 |
CN111143536A (zh) * | 2019-12-30 | 2020-05-12 | 腾讯科技(深圳)有限公司 | 基于人工智能的信息抽取方法及存储介质和相关装置 |
CN111832307A (zh) * | 2020-07-09 | 2020-10-27 | 北京工业大学 | 一种基于知识增强的实体关系抽取方法及系统 |
Non-Patent Citations (5)
Title |
---|
GIUSEPPE FUTIA 等: "SeMi: A SEmantic Modeling machIne to build Knowledge Graphs with graph neural networks", 《SOFTWAREX》 * |
安磊: "构建金融知识图谱的知识抽取服务的设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
王昊奋 等: "大规模企业级知识图谱实践综述", 《计算机工程》 * |
车万翔 等: "实体关系自动抽取", 《中文信息学报》 * |
雷春雅: "领域实体关系自动抽取研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI807400B (zh) * | 2021-08-27 | 2023-07-01 | 台達電子工業股份有限公司 | 產生實體關係抽取模型的裝置及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112328812B (zh) | 2021-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109522556B (zh) | 一种意图识别方法及装置 | |
CN111767716B (zh) | 企业多级行业信息的确定方法、装置及计算机设备 | |
CN109408821B (zh) | 一种语料生成方法、装置、计算设备及存储介质 | |
TW201741948A (zh) | 履歷評估方法和裝置 | |
CN109299258A (zh) | 一种舆情事件检测方法、装置及设备 | |
CN107368521B (zh) | 一种基于大数据和深度学习的知识推介方法及系统 | |
CN111767725A (zh) | 一种基于情感极性分析模型的数据处理方法及装置 | |
CN107844558A (zh) | 一种分类信息的确定方法以及相关装置 | |
CN107463935A (zh) | 应用分类方法和应用分类装置 | |
CN114647713A (zh) | 基于虚拟对抗的知识图谱问答方法、设备及存储介质 | |
CN116703328A (zh) | 一种项目评审方法及系统 | |
US9830533B2 (en) | Analyzing and exploring images posted on social media | |
Hasanati et al. | Implementation of support vector machine with lexicon based for sentimenT ANALYSIS ON TWITter | |
Kortum et al. | Dissection of AI job advertisements: A text mining-based analysis of employee skills in the disciplines computer vision and natural language processing | |
CN115934899A (zh) | 一种it行业简历推荐方法、装置、电子设备及储存介质 | |
CN112328812B (zh) | 基于自调参数的领域知识抽取方法与系统、电子设备 | |
Putra et al. | Document Classification using Naïve Bayes for Indonesian Translation of the Quran | |
CN112434126B (zh) | 一种信息处理方法、装置、设备和存储介质 | |
CN115248890A (zh) | 用户兴趣画像的生成方法、装置、电子设备以及存储介质 | |
WO2024098282A1 (zh) | 一种几何解题方法、装置、设备及存储介质 | |
Pinto et al. | A Systematic Review of Facial Expression Detection Methods | |
CN115757720A (zh) | 基于知识图谱的项目信息搜索方法、装置、设备和介质 | |
CN113095068A (zh) | 基于权重字典的情感分析方法、系统、装置及存储介质 | |
CN112395855A (zh) | 基于评论的评价方法及装置 | |
CN114036949B (zh) | 基于资讯信息分析的投资策略确定方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |