CN111221984B

CN111221984B - 多模态内容处理方法、装置、设备及存储介质

Info

Publication number: CN111221984B
Application number: CN202010044247.9A
Authority: CN
Inventors: 冯知凡; 王海峰; 任可欣; 朱勇; 吕雅娟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-01-15
Filing date: 2020-01-15
Publication date: 2024-03-01
Anticipated expiration: 2040-01-15
Also published as: JP2021082308A; KR20210037619A; JP7225273B2; US20210192142A1; CN111221984A; KR102532152B1; EP3812926A1

Abstract

本申请公开了一种多模态内容处理方法、装置、设备及存储介质，涉及人工智能技术领域。具体实现方案为：接收用户的内容处理请求，该内容处理请求用于请求对待处理的多模态内容进行语义理解，对多模态内容进行解析，得到多模态内容对应的多模知识点，根据多模知识点、预先建立的多模知识图谱和多模态内容，确定多模态内容的语义理解结果，该多模知识图谱包括：多模知识点和多模知识点之间的关联关系。该技术方案可以得到精确的语义理解结果，实现了多模态内容的精确应用，解决了现有技术中存在的多模态内容理解不准确的问题。

Description

多模态内容处理方法、装置、设备及存储介质

技术领域

本申请涉及数据处理技术领域，尤其涉及一种人工智能技术中的多模态内容处理方法、装置、设备及存储介质。

背景技术

图文、视频内容资源目前已是互联网的主流资源形态，精准理解图文、视频内容等具有多种模态的多模态内容是智能产品的重要基础及核心需求。

现有技术中，为了准确的理解图文、视频内容资源等多模态内容的真正含义，通常分别利用文本、视觉、语音等技术对多模态内容进行语义分析，得到单模态理解结果，然后再将多个单模态理解结果进行融合得到最终的多模态理解结果。

然而，上述方法只能确定多模态内容对应的物体、人物和文字等知识点，无法明确知识点之间的关系以及真正发生的事件，存在语义理解结果不准确的问题。

发明内容

本申请实施例提供的多模态内容处理方法、装置、设备及存储介质，用于解决现有多模态内容的处理方法中存在的语义理解结果不准确的问题。

第一方面，本申请提供一种多模态内容处理方法，包括：

接收用户的内容处理请求，所述内容处理请求用于请求对待处理的多模态内容进行语义理解；

对所述多模态内容进行解析，得到所述多模态内容对应的多模知识点；

根据所述多模知识点、预先建立的多模知识图谱和所述多模态内容，确定所述多模态内容的语义理解结果，所述多模知识图谱包括：所述多模知识点和所述多模知识点之间的关联关系。

在本实施例中，由于采用了多模态内容的多模知识点和多模知识图谱对多模态内容进行理解，得到了精确的语义理解结果，实现了多模态内容的精确应用，解决了现有技术中存在的多模态内容理解不准确的问题。

在第一方面的一种可能设计中，所述根据所述多模知识点、预先建立的多模知识图谱和所述多模态内容，确定所述多模态内容的语义理解结果，包括：

根据所述多模知识点和所述多模知识图谱，确定所述多模知识点之间的关联关系；

根据所述多模知识点和预设的语义理解方法，确定所述多模态内容的基础语义理解结果；

根据所述多模知识点之间的关联关系、所述基础语义理解结果和所述多模知识图谱，确定所述多模态内容的语义理解结果。

其中，所述基础语义理解结果包括：第一语义理解结果和/或第二语义理解结果；

所述第一语义理解结果是根据所述多模知识点和预设的深度学习方法对所述多模态内容进行语义理解得到的；

所述第二语义理解结果是根据预设的融合方法对所述多模知识点对应的多个单模态语义理解结果进行融合得到的。

在本实施例中，基于知识图谱的关联结果、基于深度神经网络的融合建模结果以及基于单模态理解结果的融合方案共同实现了对多模态内容的语义理解，进一步提高了多模态内容的理解精度。

在第一方面的另一种可能设计中，所述方法还包括：

获取多模数据集合，所述多模数据集合包括多条多模态内容样本；

对所述多模数据集合进行处理，确定所述多模知识图谱的本体；

挖掘所述多模数据集合中每条多模态内容样本的多模知识点样本；

通过知识图谱表示学习，建立所述多模知识点样本之间的关联关系；

基于所述多模知识点样本之间的关联关系和所述多模知识图谱的本体，建立所述多模知识图谱。

本申请的技术方案，通过建立多模知识图谱，为知识点赋予了语义解释，为实现多模态内容的正确语义理解奠定了基础。

在第一方面的再一种可能设计中，所述方法还包括：

基于知识图谱的语义表示方法，输出所述多模态内容的语义理解结果。

在第一方面的又一种可能设计中，所述方法还包括：

根据所述语义理解结果的向量表示，获取类型与所述多模态内容一致的推荐资源；

向所述用户推送所述推荐资源；

或者

根据所述语义理解结果的向量表示，确定所述多模态内容的文本理解结果；

根据所述文本理解结果，执行检索过程，获取针对所述多模态内容的检索结果。

本实施例的技术方案实现了资源的精准推荐和智能搜索的准确度。

第二方面，本申请提供一种多模态内容处理装置，包括：接收模块、处理模块和确定模块；

所述接收模块，用于接收用户的内容处理请求，所述内容处理请求用于请求对待处理的多模态内容进行语义理解；

所述处理模块，用于对所述多模态内容进行解析，得到所述多模态内容对应的多模知识点；

所述确定模块，用于根据所述多模知识点、预先建立的多模知识图谱和所述多模态内容，确定所述多模态内容的语义理解结果，所述多模知识图谱包括：所述多模知识点和所述多模知识点之间的关联关系。

在第二方面的一种可能设计中，所述确定模块，具体用于根据所述多模知识点和所述多模知识图谱，确定所述多模知识点之间的关联关系，根据所述多模知识点和预设的语义理解方法，确定所述多模态内容的基础语义理解结果，根据所述多模知识点之间的关联关系、所述基础语义理解结果和所述多模知识图谱，确定所述多模态内容的语义理解结果。

在第二方面的另一种可能设计中，所述处理模块，还用于获取多模数据集合，所述多模数据集合包括多条多模态内容样本，对所述多模数据集合进行处理，确定所述多模知识图谱的本体，挖掘所述多模数据集合中每条多模态内容样本的多模知识点样本，通过知识图谱表示学习，建立所述多模知识点样本之间的关系关系，以及基于所述多模知识点样本之间的关联关系和所述多模知识图谱的本体，建立所述多模知识图谱。

在第二方面的再一种可能设计中，所述装置还包括：输出模块；

所述输出模块，用于基于知识图谱的语义表示方法，输出所述多模态内容的语义理解结果。

所述处理模块，还用于根据所述语义理解结果的向量表示，获取类型与所述多模态内容一致的推荐资源；

所述输出模块，用于向所述用户推送所述推荐资源；

或者

所述确定模块，还用于根据所述语义理解结果的向量表示，确定所述多模态内容的文本理解结果；

所述处理模块，还用于根据所述文本理解结果，执行检索过程，获取针对所述多模态内容的检索结果；

所述输出模块，用于输出针对所述多模态内容的检索结果。

本申请第二方面提供的装置，可用于执行第一方面提供的方法，其实现原理和技术效果类似，在此不再赘述。

第三方面，本申请提供一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面以及第一方面各可能设计所述的方法。

第四方面，本申请提供一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行第一方面以及第一方面各可能设计所述的方法。

第五方面，本申请提供一种多模态内容处理方法，包括：

响应于外界的内容处理请求，确定待处理的多模态内容；

根据预先建立的知识图谱和所述多模态内容，确定所述多模态内容的语义理解结果。

上述申请中的一个实施例具有如下优点或有益效果：通过接收用户的内容处理请求，该内容处理请求用于请求对待处理的多模态内容进行语义理解，对多模态内容进行解析，得到该多模态内容对应的多模知识点，根据该多模知识点、预先建立的多模知识图谱和多模态内容，确定该多模态内容的语义理解结果，该多模知识图谱包括：多模知识点和多模知识点之间的关联关系。该技术方案，因为采用多模态内容的多模知识点和多模知识图谱对多模态内容进行理解，克服了无法明确多模知识点之间的关系以及真正发生的事件的问题，进而得到了精确的语义理解结果，实现了多模态内容的精确应用。

上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是本申请提供的多模态内容处理方法的一种应用场景示意图；

图2是本申请第一实施例提供的多模态内容处理方法的流程示意图；

图3是育儿中的一个场景示意图；

图4是本实施例提供的多模态内容的处理示意图；

图5是本申请第二实施例提供的多模态内容处理方法的流程示意图；

图6是本申请第三实施例提供的多模态内容处理方法的流程示意图；

图7是构建多模态知识图谱的框架示意图；

图8是本申请实施例提供的多模态内容处理装置的结构示意图；

图9是用来实现本申请实施例的多模态内容处理方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在介绍本申请的技术方案之前，首先对本申请中涉及到的术语进行解释：

多模态内容：

多模态内容是具有多种模态的资源，每一种信息的来源或者形式，都可以称为一种模态。例如，人有触觉，听觉，视觉，嗅觉；信息的媒介，有语音、视频、文字等；多种多样的传感器，如雷达、红外、加速度计等。上述的每一种都可以称为一种模态。此外，模态也可以有非常广泛的定义，比如，两种不同的语言也可以当作两种模态，甚至在两种不同情况下采集到的数据集，也可认为是两种模态。

知识图谱：

知识图谱由节点和边以图的形式构成，是知识的结构化表示形式。知识图谱的节点也可以称为知识点，其表示的信息包括但不限于实体、概念、事件、动作、功能、主题、场景、来源、视觉资源、语音资源、文本资源、用户行为等，相应的，知识图谱的边也可以称为知识点之间的关联关系，其表示的信息包括但不限于属性、从属、时序和因果等。

其中，知识图谱的实体可以解释客观世界存在的一些对象，例如，人物、动物、植物等；概念可以解释为相同属性的实体组成的集合，比如，工人、明星，宝宝，妈妈；功能可以解释为实体具有的能力和功能属性，其在某些场景下与动作具有相同的解释、主题也可以理解为话题，例如，人工智能、通信等；场景是指日常生活中的具体场面或情景，例如，劳动场面、吃饭场面、学习场面等；来源是指资源的出处，例如，视频资源来自于个人账号，教育资源来源于教育机构的账号等；视觉资源是指各种格式的可视文件，例如，视频文件，图像文件；语音资源可以是音乐、通话等资源；文本资源可以是文档等。

值得说明的是，上述仅是对知识图谱的知识点进行简单的解释，在实际应用中，知识图谱的知识点还可以包括其他的内容，并且，本申请也不限定上述知识点的表现形式，其可以根据实际情况确定。

目前，知识图谱作为人工智能的关键技术之一，已经被广泛应用，例如，文本理解、智能推荐、智能搜索等多种任务。其中，对于文本理解，可以解释为对给定的文本进行处理得到多个文本片段，将得到的多个文本片段和知识图谱中的知识点进行关联，再基于关联后的结果确定出文本的语义理解结果。对于智能推荐，可以解释为对用户正在观看的视频或搜索的内容进行语义理解，结合知识图谱推理出用户真正关注的事件，在基于该事件向用户推荐类似的内容。对于智能搜索，可以应用于文本词较少的场景，首先对用户感兴趣的资源进行处理，结合知识图谱推理出用户真正关注的事件，并基于文本形式表示该事件，进而以该事件的文本进行资源搜索时可以得到较多的搜索结果。

下面结合图1介绍本申请实施例设计的一种系统结构。图1是本申请提供的多模态内容处理方法的一种应用场景示意图。如图1所示，该应用场景可以包括：训练设备11、处理设备12和数据存储设备13。示例性的，在图1所示的应用场景中，训练设备11可以从网页上获取用于构建知识图谱的多模态内容，并将其存储至数据存储设备13中，以便在后续构建多模知识图谱时可以直接使用，处理设备12可以接收外界输入的待处理的多模态内容，并对该对多模态内容进行处理，以及可以将处理结果存储至数据存储设备13中。

在本实施例中，数据存储设备13可以存储大量用于构建知识图谱的多模态内容，也可以存储处理设备12的处理结果，训练设备11用于基于数据存储设备15中的用于构建知识图谱的多模态内容，执行知识图谱构建方法的程序代码，以构建多模知识图谱；处理设备12用于基于数据存储设备13中的待处理的多模态内容执行多模态内容处理方法的程序代码，得到多模态内容的语义理解结果。

可以理解的是，该多模知识图谱是通用知识图谱中的一种，通用知识图谱是训练设备对获取到的各种模态的内容进行处理，构建的知识图谱，在实际应用中，多模知识图谱可以反哺通用知识图谱，而通过对通用知识图谱进行筛选可以得到多模知识图谱。

需要说明的是，附图1仅是本申请实施例提供的一种应用场景的示意图，图1中所示设备之间的位置关系不构成任何限制，例如，在附图1中，数据存储设备13相对处理设备12可以是外部存储器，在其它情况下，也可以将数据存储设备13置于处理设备12中。本申请实施例中训练设备11和处理设备12可以是同一设备，或者不同设备，本申请实施例对此不作限定。

示例性的，下述以训练设备11和处理设备12为同一电子设备为例，对本申请的技术方案进行详细说明。关于电子设备具体为服务器，还是终端设备，本申请实施例不对其进行限定，其可以实际情况确定。

下面，通过具体实施例对本申请的技术方案进行详细说明。需要说明的是，下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。

图2是本申请第一实施例提供的多模态内容处理方法的流程示意图。如图2所示，该方法可以包括如下步骤：

S201、接收用户的内容处理请求，该内容处理请求用于请求对待处理的多模态内容进行语义理解。

在本申请的实施例中，当需要对多模态内容进行语义理解时，用户可以向电子设备发出内容处理请求，该内容处理请求中包括待处理的多模态内容，相应的，电子设备可以接收并识别出该内容处理请求，随后对内容处理请求中的待处理多模态内容进行分析，从而确定出该多模态内容对应的语义理解结果。

可以理解的是，用户可以通过多种方式向电子设备发出内容处理请求，例如，可以通过点击操作、触摸操作、按压操作或语音输入等方式中的至少一种向电子设备发出内容处理请求，本申请并不限定用户发出内容处理请求的方式，其可以根据实际应用场景确定。例如，对于具有人机交互界面的电子设备，用户可以通过在该人机交互界面上进行操作以发出内容处理请求，对于具有人机交互对话的智能设备，其能够获取到用户通过语音指令发出内容处理请求。

示例性的，在本实施例中，待处理的多模态内容可以是一段视频，例如，电影片段、日常生活小视频，也可以是一个文本图像，例如，身份证卡片的图像，本申请实施例并不对多模态内容的表现形式进行限定，其可以根据实际情况确定。

S202、对多模态内容进行解析，得到多模态内容对应的多模知识点。

在本实施例中，电子设备接收到用户的内容理解请求后，首先确定出内容处理请求中的多模态内容，其次对该多模态内容进行解析，确定出该多模态内容包括的多模知识点。

示例性的，对多模态内容进行解析主要基于多模态内容具有的多个模态，例如：视觉、语音、文本，这些模态可以作为语义理解的基础内容。本申请实施例主要采用视觉分析、语音识别、文本理解技术。例如，对一段视频，可以站在不同的维度去理解；在视觉上，通过人脸分析确定视频中有哪些人、通过光学字符识别(optical character recognition，OCR)确定出视频中出现哪些文字、出现哪些动物、物体；在语音上，将人物的语音转换成文字，再结合视频本身的配有的文字进行语义理解等。

比如，图3是育儿中的一个场景示意图。如图3所示，以视频片段(包含文本、视觉、语音信息)为例，在该场景中，该多模态内容为育儿中的一段小视频，『视频中：一个女人在拍宝宝；视频配有文字说明：宝宝吃奶后吐奶、打嗝，妈妈应该这样做』，通过视觉能理解出(宝宝、妈妈、拍打动作)，通过文本能理解出关键字(吐奶、宝宝、打嗝)等，也即，该多模态内容对应的多模知识点可以包括：人物『妈妈、宝宝』、动作『拍、拍背』等。

S203、根据上述多模知识点、预先建立的多模知识图谱和多模态内容，确定多模态内容的语义理解结果。

其中，该多模知识图谱包括：多模知识点和该多模知识点之间的关联关系。

在本实施例中，多模知识图谱包括的多模知识点和该多模知识点之间的关联关系是通过对大量的多模态内容样本进行解析并基于实际生活中的经验知识对解析的结果进行训练得到的知识图谱。

可以理解的是，多模态内容对应的多模知识点可以是至少两个知识点，本实施例中的多模知识点是对解析得到的多个知识点的统称。

示例性的，当确定出多模态内容对应的多模知识点后，可以首先建立该多模知识点和多模知识图谱之间的关联关系，再结合多模知识点、预先建立的多模知识图谱和多模态内容，经过表示学习、知识关联、计算推理等技术，确定出该多模态内容的语义理解结果。

其中，知识关联可以解决多模态内容与多模知识图谱的关联问题，具体的，知识关联的步骤主要包括：知识识别、知识关联排序与决策；计算推理可以理解为结合知识图谱、多模态内容及融合信息，计算并推理出多模态内容隐含的信息。

例如，针对上述图3所示的场景示意图，通过视觉分析及文本理解会识别出人物『妈妈、宝宝』、动作『拍、拍背』；基于视觉分析，能够知道『一位妈妈在给宝宝拍背』，将这些知识点关联到多模知识图谱，例如，宝宝关联到多模知识图谱中的宝宝，妈妈关联到多模知识图谱中的妈妈，拍背动作、吐奶等，根据多模知识图谱中的妈妈、宝宝以及拍背动作、吐奶等推理出视频中真正发生的事件『妈妈在给宝宝拍嗝』(注：拍嗝是育儿领域场景名词)，也即，该视频的语义理解结果。

再比如，若多模态内容为某电影的一个片段，『视频中：在一个天台上，两个人相向而立，其中，一个人拿枪指着另一个人的额头；片段配有文字说明：对不起，我是警察』，这时，该多模态内容对应的多模知识点可以包括：场景『天台』、实体『人、枪』、动作『枪指着』等。这时，再结合多模知识图谱时，能够推理其是电影“无间道”中的一个片段，该电影片段的语义理解结果。

示例性的，图4是本实施例提供的多模态内容的处理示意图。如图4所示，在本实施例中，多模态内容的处理过程可以包括离线过程和在线过程，其中，离线过程主要是根据通用知识图谱和多模态内容样本，构建多模知识图谱，在线过程包括：接收外界输入的多模态内容，执行多模态内容解析得到多模知识点，随后将多模知识点与多模知识图谱进行关联，并将多模态内容解析的结果和多模知识图谱进行多模融合，以及在结合多模知识图谱的基础上进行语义理解输出语义理解结果。

由上述分析可知，在本实施例中，综合利用文本、视觉、语音等多模态内容以及预先建立的多模知识图谱可以很好的实现多模态内容的语义理解，避免了语义理解不精确的问题。

进一步的，在本申请的实施例中，在确定出多模态内容的语义理解结果后，可以通过语义表示方式表示语义理解结果。其中，语义表示可以包括显式语义表示、隐式语义表示。显式语义表示包括基于知识图谱的语义表示，隐式语义表示是指多模态内容及显式理解结果的向量表示。

例如，对于拍嗝事件，显式语义表示的输出即为：事件为拍嗝，实体有妈妈、宝宝，动作有拍背动作、吐奶等，隐式语义表示即将已经理解出来事件表示成向量的形式。

示例性的，本实施例通过多模表示学习解决多模态内容的表示问题，主要包括以下方法：基于深度学习网络的表示学习、基于图神经网络(graph neural network，GNN)的表示学习、网络表示学习等。

本实施例中的语义理解结果包含了准确的语义理解信息，可以被应用到智能应用中，例如，智能推荐、智能搜索、智能对话系统等场景。

具体的，在本实施例的一种可能设计中，该多模态内容处理方法还可以包括如下步骤：

基于知识图谱的语义表示方法，输出该多模态内容的语义理解结果。

在本实施例中，在得到多模态内容的语义理解结果后，若需要将其直接输出时，可以通过语义表示方法等显式方式输出，其中，该显式方式是用户通俗易懂的形式。

例如，上述育儿场景中的视频片段，可以直接将“拍嗝”事件通过文字形式输出，以使得用户可以直接确定出该视频的真正含义。

在本实施例的另一种可能设计中，该多模态内容处理方法还可以包括如下步骤：

根据该语义理解结果的向量表示，获取类型与该多模态内容一致的推荐资源；向该用户推送该推荐资源。

示例性的，当用户观看某类视频时，表明其对该类视频比较感兴趣，因而，当将多模态内容对应的语义理解结果应用于智能推荐场景时，上述确定的语义理解结果可以通过向量表示，并直接将语义理解结果的向量表示作为智能推荐的输入，以在网络资源中获取类型与该多模态内容一致的推荐资源，并将其推送给用户，从而提高了智能推荐的准确度。

例如，用户观看的视频为如何正确进行拍嗝的视频，当该段视频播放完成后，电子设备可以基于拍嗝的向量表示，再从网络资源中确定出另一段教你如何正确进行拍嗝的视频，以实现资源的精准推荐。

在本实施例的再一种可能设计中，该多模态内容处理方法还可以包括如下步骤：

根据该语义理解结果的向量表示，确定该多模态内容的文本理解结果；根据该文本理解结果，执行检索过程，获取针对该多模态内容的检索结果，并输出针对该多模态内容的检索结果。

在本实施例中，由于视频通常包含的文字比较少，当基于用户输入的视频进行内容检索时，得到的检索结果可能比较少，造成检索结果不准确的问题，但是将上述确定的语义理解结果通过向量表示，确定出多模态内容的文本理解结果，并将该文本理解结果作为智能搜索的输入，从而可以确定出较多的检索结果，从而提高了智能搜索的准确度。

本申请实施例提供的多模态内容处理方法，通过接收用户的内容处理请求，该内容处理请求用于对待处理的多模态内容进行语义理解，对多模态内容进行解析，得到该多模态内容对应的多模知识点，根据该多模知识点、预先建立的多模知识图谱和多模态内容，确定该多模态内容的语义理解结果，该多模知识图谱包括：多模知识点和多模知识点之间的关联关系。该技术方案结合多模态内容的多模知识点和多模知识图谱对多模态内容进行理解，可以得到精确的语义理解结果，为多模态内容的精确应用奠定了基础。

示例性的，在上述图2所示实施例的基础上，图5是本申请第二实施例提供的多模态内容处理方法的流程示意图。如图5所示，在本实施例中，上述S203可以通过如下步骤实现：

S501、根据多模知识点和多模知识图谱，确定多模知识点之间的关联关系。

在本实施例中，对于确定出的多模态内容对应的多模知识点，可以通过查询多模知识图谱，判断该多模知识图谱中是否存在对应的多模知识点，若是，则确定两者具有关联关系，并结合实际应用，确定出多模知识点之间的关联关系。

示例性的，多模知识点之间的关联关系包括如下关系中的至少一种：实体属性、实体关系、实体上下位关系、包括(part of)关系、侧面关系(facet Of)、相关(related Of)等。

本申请实施例并不对多模知识点之间的关联关系的具体表现形式进行限定，其可以根据实际情况确定。

S502、根据多模知识点和预设的语义理解方法，确定多模态内容的基础语义理解结果。

示例性的，该预设的语义理解方法可以包括预设的深度学习方法和/或预设的融合方法，相应的，本实施例中的基础语义理解结果可以包括：第一语义理解结果和/或第二语义理解结果。

其中，第一语义理解结果是根据多模知识点和预设的深度学习方法对多模态内容进行语义理解得到的；第二语义理解结果是根据预设的融合方法对多模知识点对应的多个单模态语义理解结果进行融合得到的。

作为一种示例，在各个模态下对多模态内容进行理解后，可以得到各个模态的信息，即多模知识点，将多模知识点通过深度神经网络(deep neural networks，DNN)进行融合表示成向量，再结合不同的应用场景可以得到第一语义理解结果。

作为另一种示例，对于多模态内容，首先分别利用文本、视觉、语音等理解技术得到单模态语义理解结果，然后再根据预设的融合方法对所有的单模态语义理解结果进行融合，得到第二语义理解结果。

可以理解的是，本申请实施例中的第一语义理解结果和第二语义理解结果只是为了区别通过两种方式得到的基础语义理解结果，并不限定具体的关系。

S503、根据上述多模知识点之间的关联关系、基础语义理解结果和多模知识图谱，确定该多模态内容的语义理解结果。

可选的，该步骤可以解释为多模态融合的过程，多模态融合主要是解决多模知识点的统一建模，进而确定出多模态内容的语义理解结果。

本申请采用多种方法来综合解决多模态融合问题，包括：基于知识图谱关联的对齐融合、基于深度神经网络的融合建模、基于单模态理解结果的融合等。其中，基于知识图谱关联的对齐融合是指：通过建模多模态内容与知识图谱的关联，利用知识图谱暗含的知识，来解决对齐、融合的问题。基于深度神经网络的融合建模也即上述S502中得到第一语义理解结果的过程，基于单模态理解结果的融合也即上述S502中得到第二语义理解结果的过程。

本申请提供的多模态内容处理方法，根据多模知识点和多模知识图谱，确定多模知识点之间的关联关系，根据多模知识点和预设的语义理解方法，确定多模态内容的基础语义理解结果，根据上述多模知识点之间的关联关系、基础语义理解结果和多模知识图谱，确定该多模态内容的语义理解结果。该技术方案，基于知识图谱的关联结果、基于深度神经网络的融合建模结果以及基于单模态理解结果的融合方案共同实现了对多模态内容的语义理解，进一步提高了多模态内容的理解精度。

示例性的，在上述实施例的基础上，图6是本申请第三实施例提供的多模态内容处理方法的流程示意图。图7是构建多模态知识图谱的框架示意图。如图6所示，在本实施例中，该方法还可以包括如下步骤：

S601、获取多模数据集合，该多模数据集合包括多条多模态内容样本。

在本实施例中，可以从各种网站或系统中获取多模态内容的多模数据集合，该多模数据集合中包括多条多模态内容样本。可以理解的是，该多模数据集合中的多模态内容样本可以作为构建多模知识图谱的样本。

示例性的，参照图7所示，多模数据集合中的多模态内容样本可以是互联网资源、用户日志、用户生成内容(user generated content，UGC)或其他形式的资源。本申请实施例并不对多模态内容样本的表现形式进行限定，其可以根据实际情况确定。

S602、对多模数据集合进行处理，确定该多模知识图谱的本体。

本体(ontology)是对概念进行建模的规范，是描述客观世界的抽象模型，以形式化的方式对概念及其之间的联系给出明确定义，本体反映的知识是一种明确定义的共识，是业界公认的概念框架，一般不会改变，如“人”、“事”、“物”。由此可知，本体是多模知识图谱的基础，只有确定出多模知识图谱的本体才能够将各种知识关联起来。

因而，参照图7所示，在本实施例中，通过对多模数据集合中的多模态内容样本进行分析，构建多模知识图谱的本体，进而执行S603中的多模知识点挖掘和S604中的多模知识点之间的关联关系的挖掘过程。

S603、挖掘多模数据集合中每条多模态内容样本的多模知识点样本。

示例性的，通过对多模数据集合中多模态内容样本的知识点进行挖掘，可以确定出每条多模态内容样本的多模知识点样本。多模知识点样本可以包括如下内容中的至少一种：实体、概念、事件、动作、功能、主题、场景、来源、视觉资源、语音资源、文本资源、用户行为等。其中，实体是本体、实例及关系的整合，比如“人”是本体框中的一个概念，概念中也规定了相关属性比如“性别”，小明是一个具体的人，叫做实例，所以小明也有性别，小明以及体现小明的本体概念“人”的相关属性统称为一个实体(简单的说就是：本体+实例)。

关于其他多模知识点的解释可以参见前述图1所示应用场景中的介绍，此处不再赘述。

S604、通过知识图谱表示学习，建立多模知识点样本之间的关联关系。

示例性的，多模知识点样本之间的关联关系包括：实体属性/关系、上下位关系、包括关系、侧面关系、相关等知识关系，而知识图谱是一种图谱组织形式，通过语义关联可以把各种实体关联起来，也即，将多个知识点关联起来，从而形成多模知识点之间的关联关系。

例如，以育儿中拍嗝事件的视频为例进行说明，多模知识点之间的关联关系可以包括：妈妈和宝宝之间的关系，妈妈和拍打动作、拍打和宝宝的背等等。可以理解的是，本实施例中不对多模知识点之间的关联关系的具体表现形式进行限定。

可选的，参照图7所示，在通用知识图谱的基础上，通过表示学习的方式可以确定多模知识点之间的关联关系。

S605、基于多模知识点之间的关联关系和该多模知识图谱的本体，建立多模知识图谱。

示例性的，参照图7所示，建立多模知识图谱的过程可以包括如下内容中的一个或多种：本体构建、知识识别、知识抽取、知识关联、知识建边、知识融合、表示学习、知识推理、重复控制、质量控制、特征建设等。本申请实施例并不对多模知识图谱的具体处理流程进行限定，其可以根据实际情况确定。

在图7所示的框架图中，对多模知识点之间的关联关系进行归一融合、关系推理与校验后，再结合本体构建、通用知识图谱的筛选可以得到多模知识图谱。此外，该多模知识图谱可以反哺通用知识图谱，也即，不断完善通用知识图谱。进一步的，还可以结合重复控制、特征挖掘、质量控制等不断更新和完善该多模知识图谱。

其中，本体构建对于人来说，即是确定人物类型的过程；知识识别即对多模态内容中的实体、概念、事件、动作等知识点进行识别的过程；知识抽取即将多模态内容中的知识点抽取出来的过程；知识关联即将多个知识点建立关联关系，知识融合即将同一个实体的信息融合后进行共同解释的过程；表示学习即对知识点的表示过程，例如，显示输出(通俗易懂)，隐式向量(方便机器运算)等；知识推理即基于现有的知识点和关联关系推导出新知识的过程；重复控制即融合去重的过程；质量控制即剔除错误知识，保留正确知识的过程，特征建设即给每个知识点增加一些特征或描述以便被使用的过程。

可以理解的是，本申请实施例并不对建立多模知识图谱的具体方式和步骤进行限定，其可以根据实际情况进行灵活调整。

本申请实施例提供的多模态内容处理方法，通过获取多模数据集合，对多模数据集合进行处理，确定该多模知识图谱的本体，挖掘多模数据集合中每条多模态内容样本的多模知识点样本，通过知识图谱表示学习，建立多模知识点样本之间的关联关系，基于多模知识点样本之间的关联关系和该多模知识图谱的本体，建立多模知识图谱，为知识点赋予了语义解释，为实现多模态内容的正确语义理解奠定了基础。

基于上述分析可知，基于知识图谱的语义理解，在理解中，融合了知识图谱可以更好地实现多模态内容的语义理解，提高了语义理解的精度。通过构建多模态知识图谱，利用多模知识图谱赋予理解以正确的语义，通过多模内容表示学习的方式实现了知识的增强，为得到多模态内容的精确语义理解结果奠定了基础。

上述介绍了本申请实施例提供的多模态内容处理方法的具体实现，下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

图8是本申请实施例提供的多模态内容处理装置的结构示意图。该装置可以集成在电子设备中或通过电子设备实现。如图8所示，在本实施例中，该多模态内容处理装置80可以包括：接收模块801、处理模块802和确定模块803。

其中，接收模块801，用于接收用户的内容处理请求，该内容处理请求用于请求对待处理的多模态内容进行语义理解；

该处理模块802，用于对所述多模态内容进行解析，得到所述多模态内容对应的多模知识点；

该确定模块803，用于根据所述多模知识点、预先建立的多模知识图谱和所述多模态内容，确定所述多模态内容的语义理解结果，所述多模知识图谱包括：所述多模知识点和所述多模知识点之间的关联关系。

在本申请实施例的一种可能设计中，确定模块803，具体用于根据所述多模知识点和所述多模知识图谱，确定所述多模知识点之间的关联关系，根据所述多模知识点和预设的语义理解方法，确定所述多模态内容的基础语义理解结果，根据所述多模知识点之间的关联关系、所述基础语义理解结果和所述多模知识图谱，确定所述多模态内容的语义理解结果。

在申请实施例的另一种可能设计中，处理模块802，还用于获取多模数据集合，所述多模数据集合包括多条多模态内容样本，对所述多模数据集合进行处理，确定所述多模知识图谱的本体，挖掘所述多模数据集合中每条多模态内容样本的多模知识点样本，通过知识图谱表示学习，建立所述多模知识点样本之间的关联关系，以及基于所述多模知识点之间的关联关系和所述多模知识图谱的本体，建立所述多模知识图谱。

在申请实施例的再一种可能设计中，所述装置还包括：输出模块；

该输出模块，用于基于知识图谱的语义表示方法，输出所述多模态内容的语义理解结果。

该处理模块802，还用于根据所述语义理解结果的向量表示，获取类型与所述多模态内容一致的推荐资源；

所述输出模块，用于向所述用户推送所述推荐资源；

或者

该确定模块803，还用于根据所述语义理解结果的向量表示，确定所述多模态内容的文本理解结果；

该处理模块802，还用于根据所述文本理解结果，执行检索过程，获取针对所述多模态内容的检索结果；

所述输出模块，用于输出针对所述多模态内容的检索结果。

本申请实施例提供的装置，可用于执行图2至图7所示实施例中的方法，其实现原理和技术效果类似，在此不再赘述。

需要说明的是，应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，处理模块可以为单独设立的处理元件，也可以集成在上述装置的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述装置的存储器中，由上述装置的某一个处理元件调用并执行以上处理模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

进一步的，根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

图9是用来实现本申请实施例的多模态内容处理方法的电子设备的框图。如图9所示，电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图9所示，该电子设备包括：一个或多个处理器901、存储器902，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图9中以一个处理器901为例。

存储器902即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的多模态内容处理方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的多模态内容处理方法。

存储器902作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的多模态内容处理方法对应的程序指令/模块(例如，附图8所示的接收模块801、处理模块802和确定模块803)。处理器901通过运行存储在存储器902中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的多模态内容处理方法。

存储器902可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据多模态内容处理的电子设备的使用所创建的数据等。此外，存储器902可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器902可选包括相对于处理器901远程设置的存储器，这些远程存储器可以通过网络连接至多模态内容处理的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

多模态内容处理方法的电子设备还可以包括：输入装置903和输出装置904。处理器901、存储器902、输入装置903和输出装置904可以通过总线或者其他方式连接，图9中以通过总线连接为例。

输入装置903可接收输入的数字或字符信息，以及产生与多模态内容处理的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置904可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

进一步的，本申请还提供一种多模态内容处理方法，包括：

响应于外界的内容处理请求，确定待处理的多模态内容；

根据本申请实施例的技术方案，通过接收用户的内容处理请求，该内容处理请求用于对待处理的多模态内容进行语义理解，对多模态内容进行解析，得到该多模态内容对应的多模知识点，根据该多模知识点、预先建立的多模知识图谱和多模态内容，确定该多模态内容的语义理解结果，该多模知识图谱包括：多模知识点和多模知识点之间的关联关系。该技术方案结合多模态内容的多模知识点和多模知识图谱对多模态内容进行理解，可以得到精确的语义理解结果，为多模态内容的精确应用奠定了基础。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种多模态内容处理方法，其特征在于，包括：

根据所述多模知识点、预先建立的多模知识图谱和所述多模态内容，确定所述多模态内容的语义理解结果，所述多模知识图谱包括：所述多模知识点和所述多模知识点之间的关联关系；

所述根据所述多模知识点、预先建立的多模知识图谱和所述多模态内容，确定所述多模态内容的语义理解结果，包括：

根据所述多模知识点，查询所述多模知识图谱，确定所述多模知识图谱中存在对应的所述多模知识点，确定所述多模知识点之间的关联关系；

根据所述多模知识点和预设的语义理解方法，确定所述多模态内容的基础语义理解结果，其中，所述预设的语义理解方法包括：预设的深度学习方法和/或预设的融合方法；

根据所述多模知识点之间的关联关系、所述基础语义理解结果和所述多模知识图谱，确定所述多模态内容的语义理解结果；

还包括：

向所述用户推送所述推荐资源；

或者

根据所述文本理解结果，执行检索过程，获取针对所述多模态内容的检索结果，并输出针对所述多模态内容的检索结果。

2.根据权利要求1所述的方法，其特征在于，所述基础语义理解结果包括：第一语义理解结果和/或第二语义理解结果；

3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

5.一种多模态内容处理装置，其特征在于，包括：接收模块、处理模块和确定模块；

所述确定模块，用于根据所述多模知识点、预先建立的多模知识图谱和所述多模态内容，确定所述多模态内容的语义理解结果，所述多模知识图谱包括：所述多模知识点和所述多模知识点之间的关联关系；

所述确定模块，具体用于根据所述多模知识点，查询所述多模知识图谱，确定所述多模知识图谱中存在对应的所述多模知识点，确定所述多模知识点之间的关联关系，根据所述多模知识点和预设的语义理解方法，确定所述多模态内容的基础语义理解结果，其中，所述预设的语义理解方法包括：预设的深度学习方法和/或预设的融合方法，根据所述多模知识点之间的关联关系、所述基础语义理解结果和所述多模知识图谱，确定所述多模态内容的语义理解结果；

所述装置还包括：输出模块；

所述输出模块，用于向所述用户推送所述推荐资源；

或者

所述输出模块，用于输出针对所述多模态内容的检索结果。

6.根据权利要求5所述的装置，其特征在于，所述基础语义理解结果包括：第一语义理解结果和/或第二语义理解结果；

7.根据权利要求5或6所述的装置，其特征在于，所述处理模块，还用于获取多模数据集合，所述多模数据集合包括多条多模态内容样本，对所述多模数据集合进行处理，确定所述多模知识图谱的本体，挖掘所述多模数据集合中每条多模态内容样本的多模知识点样本，通过知识图谱表示学习，建立所述多模知识点样本之间的关联关系，以及基于所述多模知识点样本之间的关联关系和所述多模知识图谱的本体，建立所述多模知识图谱。

8.根据权利要求5或6所述的装置，其特征在于，所述装置还包括：输出模块；

9.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-4中任一项所述的方法。

10.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-4中任一项所述的方法。

11.一种多模态内容处理方法，其特征在于，包括：

响应于外界的内容处理请求，确定待处理的多模态内容；

根据预先建立的多模知识图谱和所述多模态内容，确定所述多模态内容的语义理解结果；

所述根据预先建立的所述多模知识图谱和所述多模态内容，确定所述多模态内容的语义理解结果，包括：

根据所述多模态内容，查询所述多模知识图谱，确定所述多模态内容的基础语义理解结果；

根据所述基础语义理解结果和所述多模知识图谱，确定所述多模态内容的语义理解结果；

还包括：

向所述用户推送所述推荐资源；

或者