CN116484024A - 一种基于知识图谱的多层次知识库构建方法 - Google Patents
一种基于知识图谱的多层次知识库构建方法 Download PDFInfo
- Publication number
- CN116484024A CN116484024A CN202310538130.XA CN202310538130A CN116484024A CN 116484024 A CN116484024 A CN 116484024A CN 202310538130 A CN202310538130 A CN 202310538130A CN 116484024 A CN116484024 A CN 116484024A
- Authority
- CN
- China
- Prior art keywords
- knowledge
- event
- data
- model
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 115
- 238000009411 base construction Methods 0.000 title claims abstract description 16
- 238000007781 pre-processing Methods 0.000 claims abstract description 22
- 230000004927 fusion Effects 0.000 claims abstract description 20
- 238000010276 construction Methods 0.000 claims abstract description 17
- 238000013499 data model Methods 0.000 claims abstract description 13
- 239000013598 vector Substances 0.000 claims description 42
- 238000000605 extraction Methods 0.000 claims description 39
- 238000004422 calculation algorithm Methods 0.000 claims description 17
- 239000011159 matrix material Substances 0.000 claims description 16
- 238000005457 optimization Methods 0.000 claims description 16
- 238000005516 engineering process Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 15
- 230000002787 reinforcement Effects 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 14
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 10
- 238000009412 basement excavation Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000010354 integration Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 238000012217 deletion Methods 0.000 claims description 7
- 230000037430 deletion Effects 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 7
- 230000007704 transition Effects 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 5
- 239000003550 marker Substances 0.000 claims description 5
- 238000013179 statistical model Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000012937 correction Methods 0.000 claims description 4
- 230000010485 coping Effects 0.000 claims description 3
- 238000007689 inspection Methods 0.000 claims description 3
- 238000005065 mining Methods 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 claims description 3
- 238000003672 processing method Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于知识图谱的多层次知识库构建方法。本发明的方法包括数据源模块、数据预处理模块、数据模型模块、知识存储模块、服务接口模块。本发明的步骤包括:1、结构化数据获取,2、实体层知识图谱构建,3、事件层知识图谱构建,4、模型层知识图谱构建,5、知识融合,6、知识存储。本发明分别对三类知识内部和知识间关系进行建模,将建模后的知识信息以节点形式进行存储,知识间的联系以关系形式进行存储,最终形成百万规模节点量的知识图谱,实现多层次知识库的构建,解决现有领域数据来源广泛、格式多样、数据价值密度低、数据体量大、种类繁多的数据困境和无法很好的组织、管理和理解使其充分利用的问题。
Description
技术领域
本发明属于软件工程技术领域,更进一步涉及多类领域的信息处理和数据挖掘技术领域中的一种基于知识图谱的多层次知识库构建方法。
背景技术
当前,各个领域的数据量呈现爆炸式增长,这些数据具有超海量性、强领域性、冗余性等特征。同时,海量数据中也隐藏着有价值的知识信息,挖掘出对应的价值信息,并对其进行建模表示,可以对领域的相关工作进行指导。然而如何挖掘超海量数据中的价值数据并对其加以应用,是当前亟待解决的问题。知识图谱是一种用图模型来描述知识和建模世界万物之间的关联关系的技术方法,其将世间万物表示为一个节点,将万物之间的联系表示为节点间的关系,从而形成一张极大规模的知识网图。通过对海量繁杂数据进行数据分析、数据抽取等操作,提取出数据中的关键要素并建模形成知识图谱,基于对此知识图谱的推理等操作,可以分析出有效的决策来指导现有领域活动。
广州利科科技有限公司在其申请的专利文献“一种知识图谱构建方法”(公开号:CN111061882A,申请号:CN201910766428.X,申请日:2019年8月19日)中提出一种知识图谱构建方法。该专利申请所公开方法的步骤包括:获取语料集;对语料集进行预处理;转化语料库并存入数据库;根据数据库构建知识图谱。该方法通过对大量语料集的处理,可以抽取出其中的价值数据构建知识图谱,从而方便相关领域人员对相应知识的查找。但是该方法未将语料集中的各种知识分类,即形成各类知识分层表示在知识图谱中,导致知识图谱结构不够清晰。
上海智臻智能网络科技股份有限公司在其申请的专利文献“一种知识图谱构建方法”(公开号:CN112347263A,申请号:CN201910721967.1,申请日:2019年8月6日)中提出一种知识图谱构建方法。该专利申请所公开方法的步骤包括:对待处理的句子进行分词,得到多个单独词;识别多个单独词中的实体,得到两个一组的实体对;对于每个实体对,获取句子的句向量,句向量包括多个单独词的词-位置向量;根据句向量提取句子多个方面的表示特征;根据多个方面的表示特征得到一个融合特征;根据融合特征预测实体对的实体关系;根据实体对和对应的实体关系构建知识图谱。该方法通过识别词并表示为向量的方法对文本信息中的价值数据进行抽取,可以有效对价值数据进行建模并进一步形成知识图谱。但是该方法未考虑各个相同意义但不同名称词组的融合信息,易导致知识图谱中的知识冗余,降低知识图谱的可用性。
河南八六三软件股份有限公司在其申请的专利文献“一种构建知识图谱的方法”(公开号:CN111581398A,申请号:CN202010400800.8,申请日:2020年5月13日)中提出一种构建知识图谱的方法。该专利申请所公开方法的步骤包括:初步列出本行业的技术领域,查询所建行业的相关资料,并对资料分类归纳;确定业务类别,根据查询资料,确定行业的业务类别名称;初步筛选业务类别并建立归属关系示意图;确定关键词;业务关系文本化;征询行业专家意见并修改完成;确定最终版,并生成可导入的知识图谱格式。该方法通过人工建模知识图谱结构的形式,可以对领域知识进行提取并根据专家经验修改进一步形成知识图谱。但是该方法依赖人工参与过于严重,需要投入较大的人力,且不可避免在人工筛选中产生疏漏,从而导致构建的领域知识图谱覆盖面不够全面。
综上,现有的构建知识图谱的方法在面对海量数据且数据呈现来源多样化、格式多样化时,存在依赖专家经验严重、多源异质知识融合不到位等问题,从而导致构建形成的知识图谱不能完全反映客观现实,不能满足指导现有领域活动决策的需要。
发明内容
针对现有技术存在的问题,本发明提出一种基于知识图谱的多层次知识库构建方法,知识库包括数据源模块、数据预处理模块、数据模型模块、知识存储模块、服务接口模块,具体包括下列步骤:
步骤1:结构化数据获取;
利用自然语言处理技术从领域数据中抽取有效信息,包括实体信息、属性信息、事件信息、模型信息、关系信息,形成结构化数据;
步骤2:实体层知识图谱构建;
具体如下:
第1步:构建并训练LSTM-CRF模型
该模型分为三层:表示层、LSTM层以及CRF层;
其中表示层具备如下功能:1)文本数据预处理:对来自各个领域的文本进行处理;2)One-hot编码:编码前需确定样本空间文字数量,并将文字以One-hot编码形式进行转换;3)字向量转换:设定嵌入向量的维度,将文字对应的One-hot编码通过Embedding层转化为低维度的稠密向量,最终得到文字的数值向量表示;
LSTM层由多个LSTM单元串联构成;
LSTM单元的门结构分为输入门、忘记门和输出门3类;如果t时刻以it、ft、ot和Ct分别表明3种门和细胞状态,则有;
it=σ(Wi·[ht-1,xt]+bt) (1)
ft=σ(Wf·[ht-1,xt]+bf) (2)
ot=σ(Wo·[ht-1,xt]+bo) (3)
其中为元素级乘法运算;σ为sigmod函数;Wi、Wf、Wo分别是输入门、忘记门和输出门的权重矩阵,bi、bf、bo分别是输入门、忘记门和输出门的偏置向量,ht-1、ht分别为中t-1时刻和t时刻的LSTM单元的输出也称为隐藏层单元、xt为t时刻LSTM单元的输入,/>是细胞初始状态,Wc、bc分别是细胞状态的权重矩阵和偏置向量;
采用双向LSTM模型Bi-LSTM,该模型采用前向层和后向层2个相反方向的并行层,分别从序列的始端和末端开始运行,并将得到的2个向量和/>进行拼接以得到隐层表示yt,并根据yt得到标签得分矩阵Pn×k,其中,n为句子包含的字数;k为标签数;
CRF层对LSTM层计算结果加以限制,通过分析相邻标签关系获得一个全局最优的标记序列,以实现实体识别,其具体实施步骤如下:
通过分析由LSTM层和事先生成的标签序列之间的相邻关系获得一个全局最优的标记序列;对于经过LSTM处理后输出的标签得分矩阵Pn×k;Pn×k中的元素pi,j为该句第i个字映射到第j个标签的非归一化概率,其中i的取值范围为1到n的整数,j的取值范围为1到k的整数;Pn×k中的子向量P·j为{p1,j,p2,j,...,pn,j}所组成的观测序列,定义P·k为输出的观测序列X;引入状态转移矩阵A,其中的ai,j表明时序上从第i个标签转移到第j个标签的概率;对于从LSTM层获取的观测序列X和其对应的使用随机生成等方式事先生成的标记序列Y={y1,y2,...,yn},定义分数为:
对观测序列X和其对应的每个标记序列Y,运用动态优化算法,计算最大分数smax(X,Y),得到最优标注序列,以实现实体识别;
第2步:构建并训练基于BERT和关系位置特征的分层框架HBP模型,并基于HBP模型实现关系抽取;基于HBP方法的实体关系抽取的方法包括以下三步:
第一步:将BERT作为输入文本序列的编码器,将文本序列输入BERT模型,获取BERT隐含层状态向量,即输入为一个单词的Token序列,输出为每个Token的768维表示;
第二步:在完成BERT编码后,采用分层强化学习方法,在高层中进行强化学习的关系识别,识别文本中的关系触发词;
第三步:若识别出关系触发词,则触发低层强化学习过程进行实体识别,对当前关系所对应的实体进行解码;
第3步:基于RoBERTa和实体边界预测实现属性补全;该方法包括文本编码层、实体边界预测层、BiLSTM-CRF属性预测层;
文本编码层通过RoBERTa对预处理过的输入文本进行编码,获取其隐含层状态向量;然后将隐含层状态向量分别输入至实体边界预测层与BiLSTM-CRF属性预测层;
在实体边界预测层,采用0/1编码的方式分别进行实体头部与实体尾部的标注,然后计算两个序列标注的损失值start_loss与end_loss;
在BiLSTM-CRF属性预测层,将实体边界预测层的输出结果作为特征与输入文本向量拼接,将拼接结果输入至BiLSTM-CRF,由BiLSTM-CRF属性预测层对文本属性标签进行预测,然后计算其属性预测损失值att_loss;
模型优化阶段,综合考虑三个loss值,对其进行加权求和,通过反向传播实现模型整体的优化;
步骤3:事件层知识图谱构建;
具体包括下列步骤:
第1步:利用对抗式生成网络实现元事件抽取,从文本数据中提取元事件的基础信息,提取元事件中的实体;使用对抗式生成网络进行事件要素补全;对抗式生成网络的方法包含生成和判别两个模型,生成模型用于生成实体要素供判别模型检验,判别模型用于对实体要素检验;
第2步:基于贝叶斯网络的主题事件抽取;依据从文本中提取的元事件以及事件发生的上下文关系,构建事件树,将事件树转换为推理能力更强的贝叶斯网络,利用贝叶斯网络的推理能力实现主题事件识别提取;事件树中的元事件对应转换为贝叶斯网络中的父节点;中间事件和主题事件对应转换为子节点;如果事件树中存在多个相同的元事件和中间事件,则贝叶斯网络中只需建立一个统一的父节点;事件树中的逻辑门对应连接贝叶斯网络节点的有向边;贝叶斯网络获取到环境状态与资源状态等输入数据,通过分析这些状态数据是否处于元事件的映射规则之内来判断该元事件是否属于主题事件,然后向上推理计算出中间事件和主题事件的发生概率,计算公式如式所示:
式中,P(upperEventi)表示通过公式it=σ(Wi·[ht-1,xt]+bi)计算得到的第i个上层事件发生的概率,P(lowerEvents)表示第s个下层事件发生的概率,P(upperEventi|lowerEvents)表示第s个下层事件导致其上层事件发生的条件概率,由模糊算子计算而来;
第3步:使用基于GSP算法的事件关系抽取方法,完成事件层知识图谱构建工作;在从数据源模块收集得到的文本形式的领域数据后,由数据预处理模块对领域数据进行去噪声处理和去缺失处理;然后进行时间约束处理,通过设置元素的时间窗大小ETW以及序列的时间窗大小STW,将文本数据划分为序列,得到序列数据库S;序列数据库S作为基于GSP算法的事件关系挖掘算法的输入;
步骤4:模型层知识图谱构建;
第一步:基于图神经网络生成规则条例;采用基于图神经网络的处理方法,对事件层知识和相应领域文本进行字符级别、单词级别、语句级别的语义抽取,构建语义关联,抽取蕴含的实体并通过相似度计算得到实体结点的关联关系,获取特殊条例类知识;
第二步:利用事件类知识以及第一步中产生的特殊条例类知识,建立面向特定领域场景的模式类规则知识的挖掘方法,包括基于路径挖掘的规则生成、结合约束的规则修正,生成事理模式类知识;
第三步:统计模型是在事理模式类知识的基础上,针对不同领域场景采用不同的统计优化模型,辅助生成最优的策略调整方案;
步骤5:知识融合;
对已构建的实体类知识图谱、事件类知识图谱和模型类知识图谱进行知识融合操作,包括数据整合、实体消歧、实体对齐、知识补全操作,形成统一的知识表示和关联,实现不同类型不同领域之间的知识融合;
步骤6:知识存储;
将实体类知识、事件类知识和模型类知识以节点的形式进行存储,将各个知识间的联系以节点之间的关系的形式进行存储,形成一张大规模节点量的知识图谱;创建一定量的数据约束条件来保证数据的合法性。
在本发明的一个实施例中:
数据源模块,用于从大量的文本数据中收集大量领域数据信息并输出;
数据预处理模块,用于根据数据源模块传输的领域数据选择适合的知识库构建工具与知识融合工具进行实体抽取、属性抽取、事件抽取、模型抽取和关系抽取这些预处理工作,以从领域数据中抽取出结构化数据;最后将预处理过后的结构化数据输出到数据模型模块中;
数据模型模块,用于对数据预处理模块输出的结构化数据进行建模,将结构化数据中的属性数据填充到所匹配的实体类知识、事件类知识和模型类知识中,通过关系数据表示各知识间关系,以实现实体类知识建模、事件类知识建模和模型类知识建模,达到构建出具有实体类知识、事件类知识、模型类知识和知识间关系的多层知识图谱的目的,并输出该知识图谱,其中实体类知识采用RDF三元组表示,事件类知识即为文本中挖掘出的事件数据,模型类知识为此构建方法正适用的领域内突发事件的策略模型;实体类知识构成第一层图谱:实体层知识图谱,事件类知识构成第二层图谱:事件层知识图谱,模型类知识构成第三层图谱:模型层知识图谱;
知识存储模块,用于对数据模型模块输出的实体类知识、事件类知识和模型类知识以节点形式存储,将各知识间的联系以节点间的关系形式存储,从而形成大规模节点量的知识图谱,并且创建一定量数据约束条件保证数据合法性;对构建的知识图谱进行数据备份;知识存储模块所存储的实体知识、事件知识、模型知识和知识间关系数据由服务接口进行调取;
服务接口模块,当用户需要使用时,用于对知识存储模块所存储的实体知识、事件知识、模型知识和知识间关系数据进行调取。
在本发明的另一个实施例中,步骤3的第1步具体分为三步:
1)将事件的要素信息汇总成要素空间,依据当前事件类别约简要素空间并输入至判别模型中进行训练;生成模型生成虚假事件要素信息,同样输入判别模型进行训练;
2)因为事件要素空间中的要素是正确的,所以将其作为判别模型的正样本输入,通过生成模型生成的要素则作为负样本输入至判别模型;
3)判别模型更新预先设定的k次后,使用较小的学习率来更新一次生成模型的参数;最终通过判别模型的训练使该模型收敛,然后通过生成模型生成补全事件缺乏的要素信息。
在本发明的又一个实施例中,步骤3的第1步的步骤3),学习率范围是在10e-6到1之间。
在本发明的再一个实施例中,在步骤4第三步中,采用基于Q-学习模型的强化学习模型,在方法适用领域内的特殊条例类知识的基础上学习出针对不同领域的统计模型,选择出应对未知动因的可行策略集合。
在本发明的还一个实施例中,在步骤5中:
数据整合,由于知识来源广泛、采用的知识抽取方式和技术手段的差异,导致知识库存在知识质量良莠不齐、知识重复、层次结构缺失、数据冗余、噪声、非完备和不确定等各类问题;需要对已构建的实体类知识库、事件类知识库和模型类知识库进行数据整合;
实体消歧,通过基于知识图谱的实体消歧方法和基于实体链接的实体消歧方法实现不同知识图谱融合时,消除实体间歧义的目的;
实体对齐,判断相同或不同数据集中的2个实体是否指向真实世界同一对象;
知识补全,利用现有知识图谱的知识结构和语义信息,借助知识表示与知识推理技术,发掘知识图谱中隐藏的事实关系,丰富、扩展已有知识图谱。
本发明提出一种基于知识图谱的多层次知识库构建方法,用于解决现有多个不同领域内数据来源广泛、格式多样、数据价值密度低、数据体量大、种类繁多的数据困境,无法很好的组织、管理和理解使其充分利用的问题。
本发明可用于多个不同领域,具有管理与索引数据信息的优势,打破多个信息来源之间的信息隔阂,将数据转化为知识,通过整合专业领域知识库,组织管理数据信息,在多领域内实现基于知识图谱的多层次知识库构建。
本发明优点如下:
第一,由于本发明的方法是依据现各领域知识分类体系,构建多层次的知识图谱,将不同的知识进行分类,以分层的形式表现在知识图谱当中。相较于以往知识图谱的构建技术,本方法知识结构更加清晰,覆盖范围更加全面,降低了对专家经验的依赖性,可适用于多个不同领域,能打破不同领域之间的知识隔阂。
第二,本发明的方法针对于获取到的各领域知识进行知识融合,采取实体消歧、实体对齐、知识补全、冲突消解、规则去冗等一系列技术手段,解决了现有的多领域内的知识图谱构建时由于知识来源广泛导致的知识质量良莠不齐、知识冗余等问题。提高了知识图谱的可用性。最终形成统一的知识表示和关联。
第三,本发明充分体现了词组与实体对之间的关联性,并从多个方面、多角度地挖掘句子的特征,能够更加全面、准确地进行实体关系预测,进而可以更加完备地构建知识图谱。
附图说明
图1是本发明中基于知识图谱的多层知识库构建方法的总体框架图;
图2是本发明中构建方法的细节流程图;
图3是本发明方法中实体层知识图谱构建方法步骤的流程图;
图4是本发明中所使用的LSTM技术的大致结构图;
图5是本发明方法中事件层知识图谱构建方法步骤的流程图;
图6是本发明方法中模型层知识图谱的构建方法步骤的流程图。
具体实施方式
下面结合附图对本发明做详细描述。
参照附图1,对本发明的基于知识图谱的多层知识库进行清楚、完整地描述。
本发明的知识库包括数据源模块、数据预处理模块、数据模型模块、知识存储模块、服务接口模块,其中:
数据源模块,用于从大量的文本数据中收集大量领域数据信息并输出;
数据预处理模块,用于根据数据源模块传输的领域数据选择适合的知识库构建工具与知识融合工具进行实体抽取、属性抽取、事件抽取、模型抽取和关系抽取等预处理工作,以从领域数据中抽取出结构化数据,其中实体抽取、属性抽取、事件抽取、模型抽取和关系抽取,抽取结构化数据等技术为本领域技术人员所熟知,不再累述。最后将预处理过后的结构化数据输出到数据模型模块中;
数据模型模块,用于对数据预处理模块输出的结构化数据进行建模,将结构化数据中的属性数据填充到所匹配的实体类知识、事件类知识和模型类知识中,通过关系数据表示各知识间关系,以实现实体类知识建模、事件类知识建模和模型类知识建模等(该建模方法为本领域技术人员所知),达到构建出具有实体类知识、事件类知识、模型类知识和知识间关系的多层知识图谱的目的,并输出该知识图谱,其中实体类知识采用RDF三元组表示,事件类知识即为文本中挖掘出的事件数据,模型类知识为此构建方法正适用的领域内突发事件的策略模型。实体类知识构成第一层图谱:实体层知识图谱,事件类知识构成第二层图谱:事件层知识图谱,模型类知识构成第三层图谱:模型层知识图谱;关于实体层知识图谱、事件层知识图谱、模型层知识图谱的建模分别阐述于下文的步骤2、步骤3、步骤4,此处不再累述。
知识存储模块,用于对数据模型模块输出的实体类知识、事件类知识和模型类知识以节点形式存储,将各知识间的联系以节点间的关系形式存储,从而形成大规模节点量的知识图谱(上述过程为本领域技术人员所知),并且创建一定量数据约束条件保证数据合法性,如唯一性约束、字段非空约束和ID自增约束等,以上约束的实施方法为本领域技术人员所熟知,不再累述。对构建的知识图谱进行数据备份,以实现数据的正确性和安全性。知识存储模块所存储的实体知识、事件知识、模型知识和知识间关系数据由服务接口进行调取。
服务接口模块,当用户需要使用时,用于对知识存储模块所存储的实体知识、事件知识、模型知识和知识间关系数据进行调取。
参照附图2对本发明基于知识图谱的多层次知识库构建方法做详细描述。
步骤1,结构化数据获取。
首先,利用自然语言处理技术从领域数据中抽取有效信息(包括实体信息、属性信息、事件信息、模型信息、关系信息),形成结构化数据。该步骤中涉及技术为本领域人员熟知,不再累述。
步骤2,实体层知识图谱构建。
参照附图3对本发明实体层知识图谱构建做进一步的详细描述。
第1步,构建并训练LSTM-CRF模型
该模型主要分为三层:表示层、LSTM层以及CRF层(Huang,Z.,Xu,W.,and Yu,K.,“Bidirectional LSTM-CRF Models for Sequence Tagging”,2015.)。
其中表示层具备如下功能:1)文本数据预处理:对来自各个领域的文本进行处理,包括简体繁体转换、其他语言过滤(仅保留中文)和特殊字符过滤等操作。2)One-hot编码:编码前需确定样本空间文字数量,并将文字以One-hot编码形式进行转换。One-hot编码又称一位有效码,例如,文字的样本空间为。包含“你”、“我”和“他”3个字,则对应的One-hot编码为001、010、100。3)字向量转换:设定嵌入向量的维度,将文字对应的One-hot编码通过Embedding层转化为低维度的稠密向量,最终得到文字的数值向量表示。文本数据预处理和One-hot编码技术为本领域技术人员熟知,不再累述。
LSTM层是一种具有特殊结构的由多个LSTM单元构成的循环神经网络(RNN)(Hochreiter S,Schmidhuber J.Long short-term memory.Neural Comput.1997 Nov 15;9(8):1735-80.doi:10.1162/neco.1997.9.8.1735.PMID:9377276.)。LSTM由多个LSTM单元串联构成。
LSTM单元采用独特的门结构来控制单元对信息流中信息的添加和删减。门结构分为输入门、忘记门和输出门3类。如果t时刻以it、ft、ot和Ct分别表明3种门和细胞状态,则有。
it=σ(Wi·[ht-1,xt]+bi) (1)
ft=σ(Wf·[ht-1,xt]+bf) (2)
ot=σ(Wo·[ht-1,xt]+bo) (3)
其中为元素级乘法运算;σ为sigmod函数。Wi、Wf、Wo分别是输入门、忘记门和输出门的权重矩阵,bi、bf、bo分别是输入门、忘记门和输出门的偏置向量,ht-1、ht分别为中t-1时刻和t时刻的LSTM单元的输出也称为隐藏层单元、xt为t时刻LSTM单元的输入,/>是细胞初始状态,Wc、bc分别是细胞状态的权重矩阵和偏置向量。
鉴于LSTM模型仅考虑了单一方向的上下文信息而忽略了另一个方向,可采用双向LSTM模型(Bi-LSTM)(A.Graves,A.-r.Mohamed and G.Hinton,″Speech recognition withdeep recurrent neural networks,″2013 IEEE International Conference onAcoustics,Speech and Signal Processing,2013,pp.6645-6649,doi:10.1109/ICASSP.2013.6638947.)。该模型采用前向层和后向层2个相反方向的并行层,分别从序列的始端和末端开始运行,并将得到的2个向量和/>进行拼接以得到隐层表示yt,并根据yt得到标签得分矩阵Pn×k,其中,n为句子包含的字数;k为标签数(Bi-LSTM模型的模型原理已为本领域技术人员熟知,不再累述)。
CRF层对LSTM层计算结果加以限制,通过分析相邻标签关系获得一个全局最优的标记序列(Huang,Z.,Xu,W.,and Yu,K.,“Bidirectional LSTM-CRF Models for SequenceTagging”,2015.),以实现实体识别,其具体实施步骤如下:
通过分析由LSTM层和事先生成的标签序列之间的相邻关系获得一个全局最优的标记序列。对于经过LSTM处理后输出的标签得分矩阵Pn×k。Pn×k中的元素Pi,j为该句第i个字映射到第j个标签的非归一化概率,其中i的取值范围为1到n的整数,j的取值范围为1到k的整数;Pn×k中的子向量P·j为{p1,j,p2,j,...,pn,j}所组成的观测序列,定义P·j为输出的观测序列X。引入状态转移矩阵A,其中的ai,j表明时序上从第i个标签转移到第j个标签的概率(这个概率值通常是在训练阶段通过最大似然估计或其他统计方法方法来估计得到的,最大似然估计是一种常用的参数估计方法,该方法已为本领域技术人员熟知,不再累述)。对于从LSTM层获取的观测序列X和其对应的使用随机生成等方式事先生成的标记序列Y={y1,y2,...,yn},定义分数为:
对观测序列X和其对应的每个标记序列Y,运用动态优化算法,计算最大分数smax(X,Y),得到最优标注序列,以实现实体识别。最大分数是指给定观测序列X和其对应的每个标记序列Y,通过一个打分函数对其进行打分,并选择最高的分数作为最大分数。最优标注序列是指在给定观测序列X和最大分数的情况下,使打分函数(例如条件随机场、循环神经网络等)取得最大分数的标记序列Y。(使用CRF输出每个单词的标记转移矩阵,然后通过例如维特比解码的动态优化算法输出最优的标记序列。最大分数是求最优标注序列的时动态优化算法的一个输入。动态优化算法如维特比解码)。
所使用的动态优化算法为本领域技术人员所熟知,不再累述。
第2步,构建并训练基于BERT和关系位置特征的分层框架(HierarchicalFramework Based on BERT and Relation Position Features,HBP)模型,并基于HBP模型实现关系抽取。HBP方法是采用预训练语言模型BERT对文本输入序列进行编码,获取其隐含层向量,然后采用Softmax函数分别进行关系与关系所对应实体的解码。
基于HBP方法的实体关系抽取的方法整体可概括为以下三步:
第一步:将BERT(本领域技术人员熟知)作为输入文本序列的编码器,将文本序列输入BERT模型,获取BERT隐含层状态向量,即输入为一个单词的Token序列(本领域技术人员熟知),输出为每个Token的768维表示。
第二步:在完成BERT编码后,采用分层强化学习方法,在高层中进行强化学习的关系识别,识别文本中的关系触发词。
第三步:若识别出关系触发词,则触发低层强化学习过程进行实体识别,对当前关系所对应的实体进行解码。
其中,HBP模型中所包含的高层强化学习和低层强化学习的分层强化学习方法为本领域技术人员熟知,不再累述。Softmax函数原理已为本领域技术人员熟知,不再累述。
第3步,基于RoBERTa和实体边界预测实现属性补全。该方法由文本编码层、实体边界预测层、BiLSTM-CRF属性预测层组成。
文本编码层通过RoBERTa对预处理过的输入文本进行编码,获取其隐含层状态向量。然后将隐含层状态向量分别输入至实体边界预测层与BiLSTM-CRF属性预测层。
在实体边界预测层,采用0/1编码的方式分别进行实体头部与实体尾部的标注,其中一个标注序列是对于实体头部的标注,在这个标注序列中,1代表实体头部,0代表非实体头部。另一个标注序列是对于实体尾部的标注,其中1代表实体尾部,0代表非实体尾部。获取两个序列标注后,将其与正确标签进行对比,计算两个序列标注的损失值start_loss与end_loss。计算start_loss与end_loss所涉及的数学运算过程已为本领域技术人员熟知,不在累述。
在BiLSTM-CRF属性预测层,将实体边界预测层的输出结果作为特征与输入文本向量利用concat方法进行向量拼接,tensorflow中的concat方法是已为本领域技术人员熟知,不再赘述,将拼接结果输入至BiLSTM-CRF,由BiLSTM-CRF属性预测层对文本属性标签进行预测,然后计算其属性预测损失值att_loss。计算att_loss所涉及的数学运算过程已为本领域技术人员熟知,不在累述。
在模型优化阶段,综合考虑三个loss值,对其分别设置0到1之间的α、β、γ三个超参数作为权值进行加权求和,通过反向传播实现模型整体的优化。α、β、γ的确定是一个迭代的过程,需要不断尝试不同的组合,并评估模型性能,以找到最优的设置,具体方法为本领域技术人员所知,不再累述。
其中,RoBERTa与BiLSTM-CRF的实现方法和所涉及的数学运算过程技术已为本领域技术人员熟知,不再累述。
步骤3,事件层知识图谱构建。
如图4所示,具体包括下列步骤:
第1步,利用对抗式生成网络实现元事件抽取(Goodfellow,I.J.,“GenerativeAdversarial Networks”,201.4.),目的是要从文本数据中提取元事件的基础信息,重点在于提取元事件中的实体。由于从文本数据中提取到的基础信息往往是不完整的,因此使用对抗式生成网络进行事件要素补全。对抗式生成网络的方法包含生成和判别两个模型,生成模型用于生成实体要素供判别模型检验,判别模型用于对实体要素检验,其中对抗式生成网络中的生成模型与判别模型已为本领域技术人员熟知,不再累述。
主要分为三步:
1)将事件的要素信息汇总成要素空间,依据当前事件类别约简要素空间并输入至判别模型中进行训练。生成模型生成虚假事件要素信息,同样输入判别模型进行训练。该步骤所涉及技术已为本领域技术人员熟知,不再累述。
2)因为事件要素空间中的要素是正确的,所以将其作为判别模型的正样本输入,通过生成模型生成的要素则作为负样本输入至判别模型。
3)判别模型更新预先设定的k次后(更新k次意味着过程循环执行k次),使用较小的学习率(学习率理论范围是在10e-6到1之间)来更新一次生成模型的参数(该更新方式为本领域技术人员所熟知,不再累述)。最终通过判别模型的训练使该模型收敛,然后通过生成模型生成补全事件缺乏的要素信息,其中对抗式生成网络中的生成模型与判别模型已为本领域技术人员熟知,不再累述。
第2步,基于贝叶斯网络的主题事件抽取。依据从文本中提取的元事件以及事件发生的上下文关系,构建事件树,然后进一步将事件树转换为推理能力更强的贝叶斯网络,利用贝叶斯网络的推理能力实现主题事件识别提取(贝叶斯网络的实现方式为本领域技术人员所熟知,不再累述)。主题事件提取的实现原理主要是将事件树结构转换为贝叶斯网络的有向无环图。事件树中的元事件对应转换为贝叶斯网络中的父节点。中间事件和主题事件对应转换为子节点。如果事件树中存在多个相同的元事件和中间事件,则贝叶斯网络中只需建立一个统一的父节点。事件树中的逻辑门对应连接贝叶斯网络节点的有向边。贝叶斯网络获取到环境状态与资源状态等输入数据,通过分析这些状态数据是否处于元事件的映射规则之内来判断该元事件是否属于主题事件(具体的映射规则视不同的情况而定,在这里不再累述),向上推理计算出中间事件和主题事件的发生概率,计算公式如式所示:
式中,P(upperEventi)表示通过公式it=σ(Wi·[ht-1,xt]+bi)计算得到的第i个上层事件发生的概率,(上层事件指的是事件树中处于叶子节点上层的事件,此处中间事件和主题事件都为上层事件),P(lowerEvents)表示第s个下层事件(下层事件指的是事件树中叶子节点所在层的事件,此处即抽取的元事件)发生的概率,P(upperEventi|lowerEvents)表示第s个下层事件导致其上层事件发生的条件概率,该条件概率由模糊算子计算而来。以上所述的构建事件树,将事件树转换为贝叶斯网络技术已为本领域内技术人员熟知,不再累述。
第3步,使用基于GSP算法的事件关系抽取方法(Srikant,R.,Agrawal,R.(1996).Mining sequential patterns:Generalizations and performance improvements.),完成事件层知识图谱构建工作。在从数据源模块收集得到的文本形式的领域数据后,首先由数据预处理模块对领域数据进行去噪声处理和去缺失处理;然后进行时间约束处理,通过设置元素的时间窗大小ETW以及序列的时间窗大小STW,将文本数据划分为序列,得到序列数据库S。序列数据库S作为基于GSP算法的事件关系抽取算法的输入,基于GSP算法的事件关系抽取算法为本领域技术人员所知,不再累述。其中,对文本数据进行预处理的操作,如去噪声处理和去缺失处理、时间约束处理等等技术,以及基于GSP算法的事件关系抽取方法、划分序列为本领域技术人员熟知,不再累述。
步骤4,模型层知识图谱构建。
如图5所示,具体包括下列步骤:
第一步,基于图神经网络生成规则条例。采用基于图神经网络的处理方法(Wu,Z.,Pan,S.,Chen,F.,Long,G.,Zhang,C.,and Yu,P.S.,“A Comprehensive Survey on GraphNeural Networks”,2019.),对事件层知识和相应领域文本进行字符级别、单词级别、语句级别的语义抽取,构建语义关联,抽取蕴含的实体并通过相似度计算得到实体结点的关联关系,以实现获取特殊条例类知识的目的。该步骤中所涉及技术为本领域人员熟知,不再累述。
第二步,利用事件类知识以及第一步中产生的特殊条例类知识,建立面向特定领域场景的模式类规则知识的挖掘方法,包括基于路径挖掘的规则生成、结合约束的规则修正两部分,以生成事理模式类知识。该步骤中所涉及技术为本领域人员熟知,不再累述。
第三步,统计模型是在事理模式类知识的基础上,针对不同领域场景采用不同的统计优化模型,以辅助生成最优的策略调整方案。在开放、多变的不确定领域场景中,采用基于Q-学习模型的强化学习模型,在方法适用领域内的特殊条例类知识的基础上学习出针对不同领域的统计模型,选择出应对未知动因的可行策略集合。Q-学习模型的相关技术为本领域技术人员熟知,不再累述。
步骤5,知识融合。
利用知识冲突消解与连接纠错等技术对已构建的实体类知识图谱、事件类知识图谱和模型类知识图谱进行知识融合操作,以上技术包括数据整合、实体消歧、实体对齐、知识补全等操作,形成统一的知识表示和关联,最终实现不同类型不同领域之间的知识融合。由于知识融合所涉及的技术为本领域技术人员所熟知,在此只介绍其大致的实现思路,具体实施细则不再累述,其中:
数据整合,由于知识来源广泛、采用的知识抽取方式和技术手段的差异,导致知识库存在知识质量良莠不齐、知识重复、层次结构缺失、数据冗余、噪声、非完备和不确定等各类问题。需要对已构建的实体类知识库、事件类知识库和模型类知识库进行数据整合。
实体消歧,基于知识图谱的实体消歧方法的实体相关信息从外部知识库数据中获取。局部实体消歧方法通常只考虑知识图谱中单个实体与候选实体的相似程度进行消歧。局部实体消歧方法从文本类数据中获取实体上下文信息,从知识图谱中获取候选实体的上下文信息,根据两者上下文信息的相似程度选出目标实体。基于实体链接的实体消歧方法指的是将外部知识图谱中的实体直接链接到知识库中对应实体的过程,也称为实体链接。通过以上两种方法以实现不同知识图谱融合时,消除实体间歧义的目的。局部实体消歧和实体链接技术为本领域技术人员熟知,不再累述。
实体对齐,实体对齐也称为实体匹配或实体解析,是判断相同或不同数据集中的2个实体是否指向真实世界同一对象的过程,该技术为本领域技术人员熟知,不再累述。
知识补全,即利用现有知识图谱的知识结构和语义信息,借助知识表示与知识推理技术,发掘知识图谱中隐藏的事实关系,丰富、扩展已有知识图谱的一个过程,知识补全、知识表示与知识推理等技术为本领域技术人员熟知,不再累述。
步骤6,知识存储。
将实体类知识、事件类知识和模型类知识以节点的形式进行存储,将各个知识间的联系以节点之间的关系的形式进行存储,从而形成一张百万规模节点量的知识图谱。由于数据体量庞大,因此需要对数据的正确性和安全性做出保证:创建一定量的数据约束条件来保证数据的合法性,比如唯一性约束、字段非空约束和id自增长约束等等;创建一定量的事务管理来规范知识库的操作,避免不当操作如脏读、不可重复读等对数据完整性和一致性造成破坏;此外,还要对知识库自动备份进行设置,避免意外情况造成数据损失。
Claims (6)
1.一种基于知识图谱的多层次知识库构建方法,其特征在于,知识库包括数据源模块、数据预处理模块、数据模型模块、知识存储模块、服务接口模块,具体包括下列步骤:
步骤1:结构化数据获取;
利用自然语言处理技术从领域数据中抽取有效信息,包括实体信息、属性信息、事件信息、模型信息、关系信息,形成结构化数据;
步骤2:实体层知识图谱构建;
具体如下:
第1步:构建并训练LSTM-CRF模型
该模型分为三层:表示层、LSTM层以及CRF层;
其中表示层具备如下功能:1)文本数据预处理:对来自各个领域的文本进行处理;2)One-hot编码:编码前需确定样本空间文字数量,并将文字以One-hot编码形式进行转换;3)字向量转换:设定嵌入向量的维度,将文字对应的One-hot编码通过Embedding层转化为低维度的稠密向量,最终得到文字的数值向量表示;
LSTM层由多个LSTM单元串联构成;
LSTM单元的门结构分为输入门、忘记门和输出门3类;如果t时刻以it、ft、ot和Ct分别表明3种门和细胞状态,则有;
it=σ(Wi·[ht-1,xt]+bi) (1)
ft=σ(Wf·[ht-1,xt]+bf) (2)
ot=σ(Wo·[ht-1,xt]+bo) (3)
其中为元素级乘法运算;σ为sigmod函数;Wi、Wf、Wo分别是输入门、忘记门和输出门的权重矩阵,bi、bf、bo分别是输入门、忘记门和输出门的偏置向量,ht-1、ht分别为中t-1时刻和t时刻的LSTM单元的输出也称为隐藏层单元、xt为t时刻LSTM单元的输入,/>是细胞初始状态,Wc、bc分别是细胞状态的权重矩阵和偏置向量;
采用双向LSTM模型Bi-LSTM,该模型采用前向层和后向层2个相反方向的并行层,分别从序列的始端和末端开始运行,并将得到的2个向量和/>进行拼接以得到隐层表示yt,并根据yt得到标签得分矩阵Pn×k,其中,n为句子包含的字数;k为标签数;
CRF层对LSTM层计算结果加以限制,通过分析相邻标签关系获得一个全局最优的标记序列,以实现实体识别,其具体实施步骤如下:
通过分析由LSTM层和事先生成的标签序列之间的相邻关系获得一个全局最优的标记序列;对于经过LSTM处理后输出的标签得分矩阵Pn×k;Pn×k中的元素pi,j为该句第i个字映射到第j个标签的非归一化概率,其中i的取值范围为1到n的整数,j的取值范围为1到k的整数;Pn×k中的子向量P·j为{p1,j,p2,j,…,pn,j}所组成的观测序列,定义p·k为输出的观测序列X;引入状态转移矩阵A,其中的ai,j表明时序上从第i个标签转移到第j个标签的概率;对于从LSTM层获取的观测序列X和其对应的使用随机生成等方式事先生成的标记序列Y={y1,y2,...,yn},定义分数为:
对观测序列X和其对应的每个标记序列Y,运用动态优化算法,计算最大分数smax(X,Y),得到最优标注序列,以实现实体识别;
第2步:构建并训练基于BERT和关系位置特征的分层框架HBP模型,并基于HBP模型实现关系抽取;基于HBP方法的实体关系抽取的方法包括以下三步:
第一步:将BERT作为输入文本序列的编码器,将文本序列输入BERT模型,获取BERT隐含层状态向量,即输入为一个单词的Token序列,输出为每个Token的768维表示;
第二步:在完成BERT编码后,采用分层强化学习方法,在高层中进行强化学习的关系识别,识别文本中的关系触发词;
第三步:若识别出关系触发词,则触发低层强化学习过程进行实体识别,对当前关系所对应的实体进行解码;
第3步:基于RoBERTa和实体边界预测实现属性补全;该方法包括文本编码层、实体边界预测层、BiLSTM-CRF属性预测层;
文本编码层通过RoBERTa对预处理过的输入文本进行编码,获取其隐含层状态向量;然后将隐含层状态向量分别输入至实体边界预测层与BiLSTM-CRF属性预测层;
在实体边界预测层,采用0/1编码的方式分别进行实体头部与实体尾部的标注,然后计算两个序列标注的损失值start_loss与end_loss;
在BiLSTM-CRF属性预测层,将实体边界预测层的输出结果作为特征与输入文本向量拼接,将拼接结果输入至BiLSTM-CRF,由BiLSTM-CRF属性预测层对文本属性标签进行预测,然后计算其属性预测损失值att_loss;
模型优化阶段,综合考虑三个loss值,对其进行加权求和,通过反向传播实现模型整体的优化;
步骤3:事件层知识图谱构建;
具体包括下列步骤:
第1步:利用对抗式生成网络实现元事件抽取,从文本数据中提取元事件的基础信息,提取元事件中的实体;使用对抗式生成网络进行事件要素补全;对抗式生成网络的方法包含生成和判别两个模型,生成模型用于生成实体要素供判别模型检验,判别模型用于对实体要素检验;
第2步:基于贝叶斯网络的主题事件抽取;依据从文本中提取的元事件以及事件发生的上下文关系,构建事件树,将事件树转换为推理能力更强的贝叶斯网络,利用贝叶斯网络的推理能力实现主题事件识别提取;事件树中的元事件对应转换为贝叶斯网络中的父节点;中间事件和主题事件对应转换为子节点;如果事件树中存在多个相同的元事件和中间事件,则贝叶斯网络中只需建立一个统一的父节点;事件树中的逻辑门对应连接贝叶斯网络节点的有向边;贝叶斯网络获取到环境状态与资源状态等输入数据,通过分析这些状态数据是否处于元事件的映射规则之内来判断该元事件是否属于主题事件,然后向上推理计算出中间事件和主题事件的发生概率,计算公式如式所示:
式中,P(upperEventi)表示通过公式it=σ(Wi·[ht-1,xt]+bi)计算得到的第i个上层事件发生的概率,P(lowerEvents)表示第s个下层事件发生的概率,P(upperEventi|lowerEvents)表示第s个下层事件导致其上层事件发生的条件概率,由模糊算子计算而来;
第3步:使用基于GSP算法的事件关系抽取方法,完成事件层知识图谱构建工作;在从数据源模块收集得到的文本形式的领域数据后,由数据预处理模块对领域数据进行去噪声处理和去缺失处理;然后进行时间约束处理,通过设置元素的时间窗大小ETW以及序列的时间窗大小STW,将文本数据划分为序列,得到序列数据库S;序列数据库S作为基于GSP算法的事件关系挖掘算法的输入;
步骤4:模型层知识图谱构建;
第一步:基于图神经网络生成规则条例;采用基于图神经网络的处理方法,对事件层知识和相应领域文本进行字符级别、单词级别、语句级别的语义抽取,构建语义关联,抽取蕴含的实体并通过相似度计算得到实体结点的关联关系,获取特殊条例类知识;
第二步:利用事件类知识以及第一步中产生的特殊条例类知识,建立面向特定领域场景的模式类规则知识的挖掘方法,包括基于路径挖掘的规则生成、结合约束的规则修正,生成事理模式类知识;
第三步:统计模型是在事理模式类知识的基础上,针对不同领域场景采用不同的统计优化模型,辅助生成最优的策略调整方案;
步骤5:知识融合;
对已构建的实体类知识图谱、事件类知识图谱和模型类知识图谱进行知识融合操作,包括数据整合、实体消歧、实体对齐、知识补全操作,形成统一的知识表示和关联,实现不同类型不同领域之间的知识融合;
步骤6:知识存储;
将实体类知识、事件类知识和模型类知识以节点的形式进行存储,将各个知识间的联系以节点之间的关系的形式进行存储,形成一张大规模节点量的知识图谱;创建一定量的数据约束条件来保证数据的合法性。
2.如权利要求1所述的基于知识图谱的多层次知识库构建方法,其特征在于,
数据源模块,用于从大量的文本数据中收集大量领域数据信息并输出;
数据预处理模块,用于根据数据源模块传输的领域数据选择适合的知识库构建工具与知识融合工具进行实体抽取、属性抽取、事件抽取、模型抽取和关系抽取这些预处理工作,以从领域数据中抽取出结构化数据;最后将预处理过后的结构化数据输出到数据模型模块中;
数据模型模块,用于对数据预处理模块输出的结构化数据进行建模,将结构化数据中的属性数据填充到所匹配的实体类知识、事件类知识和模型类知识中,通过关系数据表示各知识间关系,以实现实体类知识建模、事件类知识建模和模型类知识建模,达到构建出具有实体类知识、事件类知识、模型类知识和知识间关系的多层知识图谱的目的,并输出该知识图谱,其中实体类知识采用RDF三元组表示,事件类知识即为文本中挖掘出的事件数据,模型类知识为此构建方法正适用的领域内突发事件的策略模型;实体类知识构成第一层图谱:实体层知识图谱,事件类知识构成第二层图谱:事件层知识图谱,模型类知识构成第三层图谱:模型层知识图谱;
知识存储模块,用于对数据模型模块输出的实体类知识、事件类知识和模型类知识以节点形式存储,将各知识间的联系以节点间的关系形式存储,从而形成大规模节点量的知识图谱,并且创建一定量数据约束条件保证数据合法性;对构建的知识图谱进行数据备份;知识存储模块所存储的实体知识、事件知识、模型知识和知识间关系数据由服务接口进行调取;
服务接口模块,当用户需要使用时,用于对知识存储模块所存储的实体知识、事件知识、模型知识和知识间关系数据进行调取。
3.如权利要求1所述的基于知识图谱的多层次知识库构建方法,其特征在于,步骤3的第1步具体分为三步:
1)将事件的要素信息汇总成要素空间,依据当前事件类别约简要素空间并输入至判别模型中进行训练;生成模型生成虚假事件要素信息,同样输入判别模型进行训练;
2)因为事件要素空间中的要素是正确的,所以将其作为判别模型的正样本输入,通过生成模型生成的要素则作为负样本输入至判别模型;
3)判别模型更新预先设定的k次后,使用较小的学习率来更新一次生成模型的参数;最终通过判别模型的训练使该模型收敛,然后通过生成模型生成补全事件缺乏的要素信息。
4.如权利要求1所述的基于知识图谱的多层次知识库构建方法,其特征在于,步骤3的第1步的步骤3),学习率范围是在10e-6到1之间。
5.如权利要求1所述的基于知识图谱的多层次知识库构建方法,其特征在于,在步骤4第三步中,采用基于Q-学习模型的强化学习模型,在方法适用领域内的特殊条例类知识的基础上学习出针对不同领域的统计模型,选择出应对未知动因的可行策略集合。
6.如权利要求1所述的基于知识图谱的多层次知识库构建方法,其特征在于,在步骤5中:
数据整合,由于知识来源广泛、采用的知识抽取方式和技术手段的差异,导致知识库存在知识质量良莠不齐、知识重复、层次结构缺失、数据冗余、噪声、非完备和不确定等各类问题;需要对已构建的实体类知识库、事件类知识库和模型类知识库进行数据整合;
实体消歧,通过基于知识图谱的实体消歧方法和基于实体链接的实体消歧方法实现不同知识图谱融合时,消除实体间歧义的目的;
实体对齐,判断相同或不同数据集中的2个实体是否指向真实世界同一对象;
知识补全,利用现有知识图谱的知识结构和语义信息,借助知识表示与知识推理技术,发掘知识图谱中隐藏的事实关系,丰富、扩展已有知识图谱。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310538130.XA CN116484024A (zh) | 2023-05-12 | 2023-05-12 | 一种基于知识图谱的多层次知识库构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310538130.XA CN116484024A (zh) | 2023-05-12 | 2023-05-12 | 一种基于知识图谱的多层次知识库构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116484024A true CN116484024A (zh) | 2023-07-25 |
Family
ID=87225134
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310538130.XA Pending CN116484024A (zh) | 2023-05-12 | 2023-05-12 | 一种基于知识图谱的多层次知识库构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116484024A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110795562A (zh) * | 2019-10-29 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 图谱优化方法、装置、终端及存储介质 |
CN116720632A (zh) * | 2023-08-11 | 2023-09-08 | 中铁九局集团第一建设有限公司 | 基于gis和bim的工程建设智能管理方法及系统 |
CN117290516A (zh) * | 2023-09-21 | 2023-12-26 | 福建友谊胶粘带集团有限公司 | 基于知识图谱及rfid技术的胶带生产管理系统及方法 |
CN117473102A (zh) * | 2023-11-17 | 2024-01-30 | 北京建筑大学 | 一种基于标签混淆学习的bim知识图谱构建方法和系统 |
CN117521813A (zh) * | 2023-11-20 | 2024-02-06 | 中诚华隆计算机技术有限公司 | 基于知识图谱的剧本生成方法、装置、设备及芯片 |
CN117725222A (zh) * | 2023-11-20 | 2024-03-19 | 中国科学院成都文献情报中心 | 融合知识图谱与大语言模型的文献复杂知识对象抽取方法 |
-
2023
- 2023-05-12 CN CN202310538130.XA patent/CN116484024A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110795562A (zh) * | 2019-10-29 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 图谱优化方法、装置、终端及存储介质 |
CN116720632A (zh) * | 2023-08-11 | 2023-09-08 | 中铁九局集团第一建设有限公司 | 基于gis和bim的工程建设智能管理方法及系统 |
CN116720632B (zh) * | 2023-08-11 | 2023-11-03 | 中铁九局集团第一建设有限公司 | 基于gis和bim的工程建设智能管理方法及系统 |
CN117290516A (zh) * | 2023-09-21 | 2023-12-26 | 福建友谊胶粘带集团有限公司 | 基于知识图谱及rfid技术的胶带生产管理系统及方法 |
CN117473102A (zh) * | 2023-11-17 | 2024-01-30 | 北京建筑大学 | 一种基于标签混淆学习的bim知识图谱构建方法和系统 |
CN117521813A (zh) * | 2023-11-20 | 2024-02-06 | 中诚华隆计算机技术有限公司 | 基于知识图谱的剧本生成方法、装置、设备及芯片 |
CN117725222A (zh) * | 2023-11-20 | 2024-03-19 | 中国科学院成都文献情报中心 | 融合知识图谱与大语言模型的文献复杂知识对象抽取方法 |
CN117521813B (zh) * | 2023-11-20 | 2024-05-28 | 中诚华隆计算机技术有限公司 | 基于知识图谱的剧本生成方法、装置、设备及芯片 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107992597B (zh) | 一种面向电网故障案例的文本结构化方法 | |
CN116484024A (zh) | 一种基于知识图谱的多层次知识库构建方法 | |
CN112215013B (zh) | 一种基于深度学习的克隆代码语义检测方法 | |
CN113191148B (zh) | 一种基于半监督学习和聚类的轨道交通实体识别方法 | |
CN112527938A (zh) | 基于自然语言理解的中文poi匹配方法 | |
CN110851176B (zh) | 一种自动构造并利用伪克隆语料的克隆代码检测方法 | |
CN111723569A (zh) | 一种事件抽取方法、装置和计算机可读存储介质 | |
CN111274817A (zh) | 一种基于自然语言处理技术的智能化软件成本度量方法 | |
CN113254507B (zh) | 一种数据资产目录智能构建盘点方法 | |
CN116975256B (zh) | 抽水蓄能电站地下厂房施工过程多源信息的处理方法及系统 | |
CN116661805A (zh) | 代码表示的生成方法和装置、存储介质及电子设备 | |
CN117236677A (zh) | 一种基于事件抽取的rpa流程挖掘方法及装置 | |
CN113076421A (zh) | 一种社交噪音文本实体关系抽取优化方法及系统 | |
CN115526236A (zh) | 一种基于多模态对比学习的文本网络图分类方法 | |
CN115392252A (zh) | 一种融合自注意力与层级残差记忆网络的实体识别方法 | |
CN114048314B (zh) | 一种自然语言隐写分析方法 | |
CN116342167A (zh) | 基于序列标注命名实体识别的智能成本度量方法和装置 | |
CN116861269A (zh) | 工程领域的多源异构数据融合及分析方法 | |
CN113988083B (zh) | 一种用于航运新闻摘要生成的事实性信息编码与评估方法 | |
CN116108191A (zh) | 一种基于知识图谱的深度学习模型推荐方法 | |
CN118467985A (zh) | 一种基于自然语言的训练评分方法 | |
CN114330350A (zh) | 一种命名实体识别方法、装置、电子设备及存储介质 | |
CN116467437A (zh) | 面向复杂场景描述的自动流程建模方法 | |
CN115859989A (zh) | 基于远程监督的实体识别方法及系统 | |
CN115934966A (zh) | 基于遥感影像推荐信息的自动标注方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |