CN114064918B

CN114064918B - 一种多模态事件知识图谱构建方法

Info

Publication number: CN114064918B
Application number: CN202111309154.5A
Authority: CN
Inventors: 任海洋; 卜毅明; 杜楚; 张岐坦; 高学攀; 张玲; 白洁; 刘伟强; 陈路路; 陈金勇
Original assignee: CETC 54 Research Institute
Current assignee: CETC 54 Research Institute
Priority date: 2021-11-06
Filing date: 2021-11-06
Publication date: 2022-12-27
Anticipated expiration: 2041-11-06
Also published as: CN114064918A

Abstract

本发明公开了一种多模态事件知识图谱构建方法，属于知识工程技术领域。其包括以下步骤：数据采集；构建领域事件本体库；多模态事件触发词提取；事件要素提取；多模态事件关系提取；基于事件本体库事件共指消歧，合并相同的子事件，构成多模态事件子图；合并子图谱得到领域多模态事件知识图谱。本发明方法可提高数据的获取质量和获取效率，减少人力成本，降低构建知识图谱的复杂性，并提升构建知识图谱的质量。

Description

一种多模态事件知识图谱构建方法

技术领域

本发明涉及人工智能及知识工程技术领域，具体涉及一种多模态事件知识图谱构建方法。

背景技术

随着人类逐步进入到智能时代，各类智能化系统及应用需求大量出现。智能应用系统对机器认知智能提出了新要求。认知智能是建立在计算智能和感知智能之上更高层面的智能，它要求机器像人类一样能够理解自然语言和数据、进行思考和学习，能够通过知识的推理进行决策。近年来，随着数据、模型算法、计算能力的快速提升，计算智能和感知智能都获得了快速发展，在某些特定领域的机器感知甚至超越人类，但是在机器认知智能层面仍然面临诸多挑战。

知识图谱作为一种重要的知识表示、组织和管理方式，近几年受到学术界和工业界高度重视。用知识图谱技术构建的知识库被认为是实现机器认知智能的大脑，也被认为是实现机器认知智能的基本路径。机器在感知智能的基础上拥有知识图谱，能在一定程度上理解语言和数据。

近年来，将“事件”作为基本单元的知识表示方法逐渐受到学术界关注。“世界是所有事实，而非事物的总和”，也就是说现实世界就是由无数个相互关联的事实(即事件)所构成。因此，将“事件”作为人类知识单元符合人类认识世界的规律。以事件作为知识单元的知识库能促进计算机类似于人脑进行信息处理，也就是说具备类人的认知能力。将事件知识补充到传统的知识库中，形成事件知识图谱，所补充的事件知识能够准确地表示事件和人物、地点、时间等实体之间的关系，利用不同事件之间的语义关系可以表达事件之间的演化规律和模式。

长期以来，包括知识图谱在内的知识表示方法都是基于符号的方式，处理的也多是结构化数据或者文本数据。近年来，随着计算机视觉的快速发展，越来越多视觉数据被逐步结构化为知识内容，也就形成了目前处于起步阶段的多模态知识图谱。对于事件知识图谱而言，在基于符号表示的事件模型刻画事件的过程中加入多模态视觉元素(例如描述事件过程的视频，事件所涉及人物、对象、地理环境的图片等)，将使得事件知识模型语义更加丰富，也更能帮助机器提升情景感知能力。

面向事件的多模态知识图谱之所以不同于普通的事件知识图谱，不仅在于它的刻画对象是事件，还在于基于符号表示的事件模型刻画事件的过程中加入多模态视觉元素(例如描述事件过程的视频，事件所涉及人物、对象、地理环境的图片等)，将使得事件知识模型语义更加丰富，也更能帮助机器提升情景感知能力。并且包括实体、关系、属性、事件、事件属性、事件参与角色(论元)和事件之间特殊关联关系等不仅可以通过文本数据中提取得到，还可以从其他模态数据中抽取得到，极大地丰富了知识库内容。另外，事件关系抽取不同于一般知识图谱构建过程中实体关系的抽取，实体关系抽取只需要考虑实体对实体，事件关系抽取则必须要考虑事件对实体、事件对时空属性、事件对事件等多种不同复杂情况。因此，建立不同模态事件间的因果、顺承、细分、概括等关联关系的复杂网络，已受到知识图谱学术研究机构和人工智能类技术公司的高度重视。

综上所述，知识图谱构建的研究热点主要还是集中在领域多模态事件知识图谱构建上，针对多模态事件图谱的构建方法是亟待解决的问题。

发明内容

有鉴于此，本发明提供一种多模态事件知识图谱构建方法，其通过提取多模态事件触发词、事件要素、事件关系构成子事件知识图谱，并利用事件本体合并共指事件，构成多模态领域事件知识图谱，使得知识图谱内容更加丰富，为智能认知提供基础知识库支撑。

本发明的上述目的可以通过以下技术方案实现：

一种多模态事件知识图谱构建方法，包括如下步骤：

步骤1，数据采集：使用框架爬虫技术从互联网上收集与领域事件相关的多模态数据，并通过基于TF-IDF文档相似度的方法判断数据质量，决定是否继续进行深层次链接文档数据爬取；

步骤2，构建多模态事件本体：构建事件本体，确定多模态事件知识图谱的领域范围，由领域专家利用现有的事件知识库半手工构建领域事件本体，作为多模态事件知识图谱本体库；

步骤3，多模态事件触发词提取：使用中文语义知识库以及中文事件语料库作为事件触发词提取的语料，基于规则构建初始触发词表，然后利用《同义词词林》对初始触发词表进行扩展，并利用扩展后的触发词表对文档进行触发词的提取；

步骤4，多模态事件要素提取：利用触发词检索事件本体，得到事件类别，然后基于事件类别的要素构建预训练模型的文本、图像、音视频的数据要素提取模型，基于要素提取模型分别完成文本数据要素提取、图像要素提取、视频要素提取、图像数据的文本化描述要素提取和视频的文本化描述要素提取；

其中，数据要素包括：

事件的动作；

事件涉及对象，包括参与者、实体事物；

事件发生地点；

事件发生时状态，包括前置状态集合和后置状态集合；

步骤5，多模态事件关系提取：以事件本体为辅助，一部分事件关系在识别事件要素后直接从构建的子多模态事件知识图谱中获得；对于无法直接识别关系的事件实例，利用孪生网络关系识别模型提取事件关系；

步骤6，构建多模态事件知识图谱：基于事件本体识别事件关系中的共指关系，进行共指事件的合并，构建成子图谱，合并子图谱得到领域多模态事件知识图谱。

进一步的，步骤1的具体方式为：

步骤1.1，建立数据质量判断模型，如公式(1)所示：

其中，S_i,m'表示第i层的第m'篇文档与当前已经爬取的所有文档的相似度，S_i-1,m表示第i-1层的第m篇文档与当前已经爬取的所有文档的相似度，S_i,m',k表示第i层的第m'篇文档与同层第k篇文档的相似度，其中第m'篇文档的链接在第m篇文档中，W_i和p_i表示第i层设定的权重大小；

步骤1.2，设定阈值σ，当待判断文档和其他文档的相似度S_i,m'小于阈值σ时，认为网络爬取的该篇文档不符合条件，并统计该层不符合条件的文档数量a_i，以及该层待判断文档中与当前所有文档相同的文档数量b_i；

步骤1.3：统计该层文档的所有数量N_i，计算爬取该层文档的不合格率(a_i+b_i)/N_i，设定阈值p，判断是否对该层文档的链接继续爬取，不合格率大于阈值p时，停止对下一层文档的数据爬取。

进一步的，步骤3的具体方式为：

步骤3.1，使用Chinese Semantic KB中文语义知识库以及CEC中文事件语料库作为事件触发词提取预料；

步骤3.2，利用中文事件和事件要素标注全面的CEC预料构建初始触发词表，统计语料中高频率的事件以及事件触发词，写入文本文档中，构成初始触发词表；

步骤3.3，对触发词进行扩展，具体扩展方法如下：

(3.3.1)从初始触发词表中找到各个事件类型中标志性触发词，映射到《同义词词林》中，得到对应的五个级别的词语编码；

(3.3.2)对触发词的词语编码统计，使用四级的词语编码，若标志性触发词的词语编码与四级词语编码相同，认为两者有相同或则和相似的含义，将其归并到触发词表中；

(3.3.3)对未在同义词词林中查到词语编码的事件触发词进行聚类，得到扩展的事件触发词表；

步骤3.4，利用得到的扩展触发词表对文档进行触发词抽取，具体步骤如下：

(3.4.1)先用基于扩展触发词表的方法构建候选触发词集，计算每个候选触发词的权重score；

(3.4.2)为score设定一个阈值，以保证抽取的概率；

(3.4.3)如果存在score大于阈值的候选词，则把score最高的词确定为事件触发词。

进一步的，步骤4中文本数据要素提取、图像要素提取、视频要素提取、图像数据的文本化描述要素提取和视频的文本化描述要素提取的方式如下：

文本数据要素提取，包括词汇级、句法级、篇章级、跨篇章级的文本语义特征提取，其中，词汇级文本语义提取的结果支撑后续句法级、篇章级、跨篇章级文本语义特征的提取；词汇级文本语义提取包括提取文本中的实体、关键词、实体关系、新词发现，句法级文本语义提取实现文本依存句法分析、文本句子相似度计算、元事件提取、句际关系分析，篇章级文本语义提取完成文本分类聚类、文本篇章结构分析、句际关系提取、文本情感分析、主题提取、观点提取和事件；

图像要素提取，采用具有5层卷积、2层全连接隐藏层、1个全连接输出层的神经网络提取图像中的物体语义信息，进而构建图像特征；所述神经网络为AlexNet模型、深度学习VGG模型、残差网络ResNet或卷积网络CNN；

图像数据的文本化描述要素提取，采用编码器-解码器模型，在编码器部分使用LSTM递归神经网络编码句子和深度卷积网络编码图像特征，构建联合多模态空间用来排列图像和描述，在解码器部分使用基于深度神经网络的语言模型，从编码器构建的多模态空间中产生描述；

视频要素提取，采用双路CNN与长短期记忆网络相结合的视频特征提取方法，在双路CNN中寻找时间域上的某个模式来表达局部运动信息，用长短期记忆网络对帧的双路CNN最后一层的激活在时间轴上进行整合，长短期记忆网络把每个连续帧的双路CNN最后一层卷积特征作为输入，从左向右推进时间，从下到上通过长短期记忆网络，最上的softmax层在每个时间点给出分类结果，不同时间上的同一层网络进行参数共享；在训练时，视频的分类结果在每帧都采用BP算法，在网络架构中加入光流特征，作为每秒一帧的采样所引起的帧之间隐含的运动信息丢失的补偿；

视频的文本化描述信息提取，利用序列帧映射成序列句子模型S2VT进行视频的文本描述提取，使用编码器-解码器结构，将有用的视频信息使用CNN神经网络转化成特征，并使用长短期记忆网络对CNN神经网络输出的特征进行时序建模，然后供解码器使用。

进一步的，步骤5中，利用半手工构建的事件本体直接确定一部分事件类之间的关系，在触发词提取、多模态事件要素提取后，直接从构建的子事件知识图谱中获得该部分事件关系；对于无法确定的事件关系，将事件和事件关系表示到连续向量空间，通过判断事件和事件关系在向量空间的距离从而识别事件关系。

本发明的有益效果在于：

(1)本发明从互联网上收集数据的同时判断文档数据质量，决定是否继续进行深层次链接文档数据爬取，可以减少不必要的工作，提高数据的获取质量和获取效率。此外，该数据收集方法在构建其他领域知识图谱过程中同样适用。

(2)本发明在构建事件知识图谱时利用了多模态数据，丰富了事件知识图谱的内容，为智能认知提供基础知识库支撑。

(3)本发明利用领域专家半手工构建的事件本体，有利于消除事件共指，减少了事件知识图谱的复杂和臃肿。

(4)本发明通过先建立子图谱，之后基于事件本体根据子图谱合并原则完成合并，降低了构建的复杂性，提升了构建的质量。

附图说明

图1是本发明方法的原理示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合实施方式和附图，对本发明作进一步地详细描述。

如图1所示，一种多模态事件知识图谱构建方法，包括以下步骤：

数据采集，使用框架爬虫技术从互联网上收集与领域事件相关的多模态数据，并通过基于TF-IDF文档相似度的方法判断数据质量，决定是否继续进行深层次链接文档数据爬取；

构建多模态事件本体，首先确定多模态事件知识图谱的领域范围，查看是否有可以利用已构建好的时间本体，然后由领域专家利用事件知识库半手工构建领域事件本体，作为多模态事件知识图谱本体库。

多模态事件触发词提取，使用中文语义知识库(Chinese Semantic KB)以及中文事件语料库(Chinese Event Corpus,CEC)作为事件触发词提取的语料。基于规则构建初始触发词表，利用《同义词词林》对初始出发词表扩展，最后利用得到的扩展触发词表进行触发词的提取；

多模态事件要素提取，利用触发词检索事件本体，得到事件类别，然后基于事件类别的要素构建预训练模型的文本、图像、音视频的数据要素提取模型，基于要素提取模型分别完成：文本数据要素提取、图像要素提取、视频要素提取、图像数据的文本化描述要素提取和视频的文本化描述要素提取；数据要素主要包括如下：事件的动作，事件涉及对象(包括参与者，实体事物等)，事件发生地点，事件发生时状态(包括前置状态集合和后置状态集合)；

多模态事件关系提取，以事件本体为辅助，部分事件关系在识别事件要素后直接从构建的子多模态事件知识图谱中获得。无法直接识别关系的事件实例，利用孪生网络关系识别模型提取事件关系；

构建多模态事件知识图谱，基于事件本体识别事件关系中的共指关系，进行共指事件的合并，构建成子图谱，最后合并子图谱得到领域多模态事件知识图谱。

具体来说，数据采集中基于TF-IDF文档相似度的方法判断文档数据质量的具体步骤为：

(1)建立数据质量判断模型，如公式(1)所示：

(2)设定阈值σ，当待判断文档和其他文档的相似度S_i,m'小于阈值σ时，认为网络爬取的该篇文档不符合条件，并统计该层不符合条件的文档数量a_i，以及该层待判断文档中与当前所有文档相同的文档数量b_i；

(3)统计该层文档的所有数量N_i，计算爬取该层文档的不合格率(a_i+b_i)/N_i，设定阈值p，判断是否对该层文档的链接继续爬取，不合格率大于阈值p，则停止对下一层文档的数据爬取。

多模态事件本体提取具体步骤如下：

构建多模态事件本体，构建事件本体，确定多模态事件知识图谱的领域范围，由领域专家利用现有的事件知识库半手工构建领域事件本体；

多模态事件触发词提取具体步骤如下：

使用Chinese Semantic KB以及CEC语料库作为事件触发词提取预料；

利用中文事件和事件要素标注比较全面的CEC预料构建初始触发词表，统计语料中频率较高的事件以及事件触发词，写入文本文档中构成初始触发词表；

由于CEC语料规模较小，重要触发词未被统计进到原始触发词表中，需要对触发词进行扩展，具体扩展方法如下：

(1)从初始触发词表中找到各个事件类型中标志性触发词，映射到《同义词词林》中，得到对应的五个级别的词语编码；

(2)对触发词的词语编码统计，由于五级的词语编码粒度较细，词语数量少，三级的词语编码范围过广，表达的含义相差较大，因此使用四级的词语编码，若标志性触发词的词语编码与四级词语编码相同，认为两者有相同或则和相似的含义，将其归并到触发词表中；

(3)人工对未在同义词词林中查到词语编码的事件触发词进行聚类，得到扩展的事件触发词表。

利用得到的扩展触发词表对Chinese Semantic KB文档进行触发词抽取，详细步骤如下：

(1)先用基于扩展触发词表的方法基于文档构建候选触发词集，计算每个候选触发词的权重(score)；

(2)为score设定一个阈值，阈值设定的足够高以保证抽取的概率；

(3)如果候选词中存在score大于阈值，则把score最高的词确定为事件触发词。

多模态事件要素提取主要包括：文本数据要素提取、图像要素提取、图像数据的文本化描述要素提取、视频要素提取和视频的文本化描述要素提取，具体步骤如下：

(1)文本数据要素提取，在文本数据语义特征提取中，文本数据语义提取包括词汇级、句法级、篇章级、跨篇章级的文本语义特征提取，其中，词汇级语义提取的结果支撑后续句法级、篇章级、跨篇章级文本语义特征的提取；词汇级文本语义提取主要提取文本中的实体、关键词、实体关系、新词发现，句法级文本语义提取实现文本依存句法分析、文本句子相似度计算、元事件提取、句际关系分析；篇章级文本语义提取完成文本分类聚类、文本篇章结构分析、句际关系提取、文本情感分析、主题提取、观点提取和事件。

(2)图像要素提取，在图像特征提取中，采用包含8层神经网络，其中有5层卷积和2层全连接隐藏层，以及1个全连接输出层卷积神经网络之AlexNet模型、深度学习VGG模型、残差网络ResNet或卷积网络CNN的深度神经网络的图像特征提取技术来提取图像中物体语义信息，进而构建具有较强表达能力的图像特征。

(3)图像数据的文本化描述要素提取，在图像数据的文本化描述信息提取中，采用编码器-解码器模型，在编码器部分使用LSTM递归神经网络编码句子和深度卷积网络(CNN)编码图像特征，构建联合多模态空间用来排列图像和描述，在解码器部分使用基于深度神经网络的语言模型，从编码器构建的多模态空间中产生描述。

(4)视频要素提取，采用双路CNN与长短期记忆网络(LSTM)相结合的视频特征提取方法，在CNN框架中寻找时间域上的某个模式来表达局部运动信息，用LSTM对帧的双路CNN最后一层的激活在时间轴上进行整合，LSTM把每个连续帧的双路CNN最后一层卷积特征作为输入，从左向右推进时间，从下到上通过LSTM，最上的softmax层在每个时间点给出分类结果，不同时间上的同一层网络进行参数共享，在训练时，视频的分类结果在每帧都采用BP算法(Back Propagation Algorithm)，在网络架构中加入光流特征，作为每秒一帧的采样所引起的帧之间隐含的运动信息丢失的补偿。

(5)视频的文本化描述信息提取，直接将序列帧映射成序列句子模型S2VT(sequence to sequence-video to text)进视频的文本描述提取，使用编码器-解码器结构encoder-decoder，将有用的视频信息使用神经网络CNN转化成特征，并使用长短期记忆网络LSTM对神经网络CNN特征进行时序建模，然后供解码器使用。

多模态事件关系提取具体步骤如下：

(1)多模态事件关系提取中，部分事件关系利用半手工构建的事件本体直接确定部分事件类之间的关系，在触发词提取、多模态事件要素提取后，直接从构建的子事件知识图谱中获得；

(2)部分无法确定的事件关系利用将事件和事件关系表示到连续向量空间，判断事件和事件关系在向量空间的距离识别事件关系。

构建多模态事件知识图谱具体步骤如下：

基于事件本体识别事件关系中的共指关系，进行共指事件的合并，构建成子图谱，最后合并子图谱得到领域多模态事件知识图谱。

总之，本发明方法可提高数据的获取质量和获取效率，减少人力成本，降低构建知识图谱的复杂性，并提升构建知识图谱的质量。

以上所述为本发明较佳实施例，应该注意的是上述实施例对本发明进行说明，然而本发明并不局限于此，并且本领域技术人员在脱离所附权利要求的范围情况下可设计出替换实施例。对于本领域内的普通技术人员而言。在不脱离本发明的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本发明的保护范围。

Claims

1.一种多模态事件知识图谱构建方法，其特征在于，包括如下步骤：

其中，数据要素包括：

事件的动作；

事件涉及对象，包括参与者、实体事物；

事件发生地点；

事件发生时状态，包括前置状态集合和后置状态集合；

2.如权利要求1所述的一种多模态事件知识图谱构建方法，其特征在于，步骤1的具体方式为：

步骤1.1，建立数据质量判断模型，如公式(1)所示：

3.如权利要求1所述的一种多模态事件知识图谱构建方法，其特征在于，步骤3的具体方式为：

步骤3.3，对触发词进行扩展，具体扩展方法如下：

(3.4.2)为score设定一个阈值，以保证抽取的概率；

4.如权利要求1所述的一种多模态事件知识图谱构建方法，其特征在于，步骤4中文本数据要素提取、图像要素提取、视频要素提取、图像数据的文本化描述要素提取和视频的文本化描述要素提取的方式如下：

5.如权利要求1所述的一种多模态事件知识图谱构建方法，其特征在于，步骤5中，利用半手工构建的事件本体直接确定一部分事件类之间的关系，在触发词提取、多模态事件要素提取后，直接从构建的子事件知识图谱中获得该部分事件关系；对于无法确定的事件关系，将事件和事件关系表示到连续向量空间，通过判断事件和事件关系在向量空间的距离从而识别事件关系。