CN112418199B

CN112418199B - 多模态信息提取方法、装置、电子设备及存储介质

Info

Publication number: CN112418199B
Application number: CN202110093438.9A
Authority: CN
Inventors: 李宁; 闫峰; 卫海天
Original assignee: Beijing Minglue Zhaohui Technology Co Ltd
Current assignee: Beijing Minglue Zhaohui Technology Co Ltd
Priority date: 2021-01-25
Filing date: 2021-01-25
Publication date: 2022-03-01
Anticipated expiration: 2041-01-25
Also published as: CN112418199A

Abstract

本申请提供一种多模态信息提取方法、装置、电子设备及存储介质，多模态信息提取方法，包括：获取待提取对象的目标图像，所述目标图像包含有图像内容及文本内容；根据所述目标图像，识别得到所述目标图像中对应的图像区域及文本区域；根据所述图像区域及所述文本区域，提取得到对应的多模态信息，所述多模态信息包括目标图像及目标文本。本申请多模态信息提取方法、装置、电子设备及存储介质，可自动地提取得到来自待提取对象的多模态信息，进而可以大大地减少多模态信息提取时的人工作业量，降低人力成本，并且，也较为适用于印刷体图文资料的多模态信息的提取。

Description

多模态信息提取方法、装置、电子设备及存储介质

技术领域

本申请涉及信息提取技术领域，具体而言，涉及一种多模态信息提取方法、装置、电子设备及存储介质。

背景技术

多模态学习，即多模态机器学习，其是现今人工智能领域的重点突破方向之一，多模态机器学习旨在通过机器学习的方法实现处理和理解多源模态信息的能力，当前，多模态学习中比较热门的研究方向为图像、视频、音频、语义之间的多模态学习。

多模态学习通常都需要一份高质量的多模态数据集加以训练，以保障多模态学习在具体应用时能取得理想的效果。目前，高质量的多模态数据集大多都是通用领域的数据集，涉及到具体领域、具体行业的数据集较少，而实际上各个领域、各个行业在长期发展的过程中已积累了海量的专业印刷体图文资料，例如，专业书籍及各种文件材料等，多模态数据需要对多模态信息进行提取，现有的多模态信息的提取主要为人工提取，然而，人工提取的方式需要大量的人工参与收集和标注，导致人力成本过高，并且，人工提取的方式在印刷体图文资料的多模态信息的提取上也较为繁琐与耗时。

发明内容

本申请实施例的目的在于提供一种多模态信息提取方法、装置、电子设备及存储介质，可自动地提取得到来自待提取对象的多模态信息，进而可以大大地减少多模态信息提取时的人工作业量，降低人力成本，并且，也较为适用于印刷体图文资料的多模态信息的提取。

第一方面，本申请实施例提供了一种多模态信息提取方法，包括：

获取待提取对象的目标图像，所述目标图像包含有图像内容及文本内容；

根据所述目标图像，识别得到所述目标图像中对应的图像区域及文本区域；

根据所述图像区域及所述文本区域，提取得到对应的多模态信息，所述多模态信息包括目标图像及目标文本。

在上述实现过程中，本申请实施例的多模态信息提取方法，通过获取的待提取对象的目标图像，识别得到目标图像中对应的图像区域及文本区域，并根据图像区域及文本区域，自动地提取得到对应的多模态信息，多模态信息来自待提取对象，多模态信息包括了目标图像及目标文本，进而可以大大地减少多模态信息提取时的人工作业量，降低人力成本，并且，本申请实施例的多模态信息提取方法也较为适用于印刷体图文资料的多模态信息的提取，可较为便于对印刷体图文资料的多模态信息的提取。

进一步地，所述获取待提取对象的目标图像，包括：

获取待提取对象的初始图像；

对所述初始图像进行预处理，得到待提取对象的目标图像。

在上述实现过程中，该方法对待提取对象的初始图像进行预处理，可以较好地得到待提取对象的目标图像，并且，得到的待提取对象的目标图像也可较为便于多模态信息的提取以及保障提取的多模态信息的质量。

进一步地，所述根据所述目标图像，识别得到所述目标图像中对应的图像区域及文本区域，包括：

根据所述目标图像中各个连通域的面积及预设的连通域分割阈值，识别得到所述目标图像中对应的图像区域及文本区域。

在上述实现过程中，该方法通过待提取对象的目标图像中各个连通域的面积及预设的连通域分割阈值，可以较为快速、准确地识别得到目标图像中对应的图像区域及文本区域，进而可以更为便于多模态信息的提取。

进一步地，所述根据所述图像区域及所述文本区域，提取得到对应的多模态信息，包括：

对所述图像区域进行搜索、合并及过滤，得到目标图像区域；

根据所述目标图像区域及所述文本区域，提取得到对应的多模态信息。

在上述实现过程中，该方法通过对图像区域进行搜索、合并及过滤，可以更好地规范图像区域以及消除目标图像中可能存在的冗余图像信息的干扰，较好地得到目标图像区域，进而可以提高提取的多模态信息的质量。

进一步地，所述根据所述目标图像区域及所述文本区域，提取得到对应的多模态信息，包括：

根据所述目标图像区域及所述文本区域，识别得到标题文本区域及描述文本区域；

根据所述目标图像区域、所述标题文本区域及所述描述文本区域，提取得到对应的多模态信息；

所述目标文本包括目标标题文本及目标描述文本。

在上述实现过程中，该方法通过目标图像区域及文本区域，识别得到标题文本区域及描述文本区域，可以更为准确地对文本区域进行划分，进而可以使得提取的多模态信息更为精确，并且，无需人工划分目标文本，可以进一步地减少多模态信息提取时的人工作业量，更好地降低人力成本。

进一步地，所述根据所述目标图像区域及所述文本区域，识别得到标题文本区域及描述文本区域，包括：

获取各个所述目标图像区域的位置信息；

根据各个所述目标图像区域的位置信息，以预设的搜索距离及预设的搜索区域进行文本搜索，得到疑似标题文本区域；

根据所述疑似标题文本区域的面积、长及宽，识别得到标题文本区域及描述文本区域。

在上述实现过程中，该方法通过获取的各个目标图像区域的位置信息，以预设的搜索距离及预设的搜索区域进行文本搜索，得到疑似标题文本区域，并根据疑似标题文本区域的面积、长及宽，识别得到标题文本区域及描述文本区域，可以较为快速、准确地识别得到标题文本区域及描述文本区域。

进一步地，所述根据所述目标图像区域、所述标题文本区域及所述描述文本区域，提取得到对应的多模态信息，包括：

将对应的所述目标图像区域、所述标题文本区域及所述描述文本区域进行关联；

根据关联后的目标图像区域、标题文本区域及描述文本区域，提取得到对应的多模态信息；

对应的所述目标图像、所述目标标题文本及所述目标描述文本，组成对应的图文信息对。

在上述实现过程中，该方法将对应的目标图像区域、标题文本区域及描述文本区域进行关联，并根据关联后的目标图像区域、标题文本区域及描述文本区域，提取得到对应的多模态信息，对应的目标图像、目标标题文本及目标描述文本组成了对应的图文信息对，可以使得提取的多模态信息更为精确，并且，无需人工将对应的目标图像、目标标题文本及目标描述文本关联，可以更进一步地减少多模态信息提取时的人工作业量，更好地降低人力成本。

第二方面，本申请实施例提供了一种多模态信息提取装置，包括：

获取模块，用于获取待提取对象的目标图像，所述目标图像包含有图像内容及文本内容；

识别模块，用于根据所述目标图像，识别得到所述目标图像中对应的图像区域及文本区域；

提取模块，用于根据所述图像区域及所述文本区域，提取得到对应的多模态信息，所述多模态信息包括目标图像及目标文本。

在上述实现过程中，本申请实施例的多模态信息提取装置，通过获取的待提取对象的目标图像，识别得到目标图像中对应的图像区域及文本区域，并根据图像区域及文本区域，自动地提取得到对应的多模态信息，多模态信息来自待提取对象，多模态信息包括了目标图像及目标文本，进而可以大大地减少多模态信息提取时的人工作业量，降低人力成本，并且，本申请实施例的多模态信息提取装置也较为适用于印刷体图文资料的多模态信息的提取，可较为便于对印刷体图文资料的多模态信息的提取。

第三方面，本申请实施例提供了一种电子设备，包括存储器及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述电子设备执行上述的多模态信息提取方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现上述的多模态信息提取方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例一提供的多模态信息提取方法的流程示意图；

图2为本申请实施例一提供的步骤S110的流程示意图；

图3为本申请实施例一提供的步骤S130的流程示意图；

图4为本申请实施例二提供的多模态信息提取装置的结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

目前，高质量的多模态数据集大多都是通用领域的数据集，涉及到具体领域、具体行业的数据集较少，而实际上各个领域、各个行业在长期发展的过程中已积累了海量的专业印刷体图文资料，例如，专业书籍及各种文件材料等，多模态数据需要对多模态信息进行提取，现有的多模态信息的提取主要为人工提取，然而，人工提取的方式需要大量的人工参与收集和标注，导致人力成本过高，并且，人工提取的方式在印刷体图文资料的多模态信息的提取上也较为繁琐与耗时。

针对上述现有技术中的问题，本申请提供了一种多模态信息提取方法、装置、电子设备及存储介质，可自动地提取得到来自待提取对象的多模态信息，进而可以大大地减少多模态信息提取时的人工作业量，降低人力成本，并且，也较为适用于印刷体图文资料的多模态信息的提取。

实施例一

参见图1，图1为本申请实施例提供的多模态信息提取方法的流程示意图。本申请实施例中下述的多模态信息提取方法可应用于服务器。

本申请实施例的多模态信息提取方法，包括如下步骤：

步骤S110，获取待提取对象的目标图像，目标图像包含有图像内容及文本内容。

在本实施例中，待提取对象可以是印刷体图文资料、电子文档及网页等等。

可以理解地，待提取对象的目标图像，即为待提取对象对应的图像。

步骤S120，根据上述目标图像，识别得到目标图像中对应的图像区域及文本区域。

在本实施例中，待提取对象的目标图像包含有图像内容及文本内容，根据待提取对象的目标图像，可以识别得到目标图像中图像内容及文本内容对应的图像区域及文本区域。

步骤S130，根据上述图像区域及文本区域，提取得到对应的多模态信息，多模态信息包括目标图像及目标文本。

在本实施例中，目标图像及目标文本对应待提取对象的目标图像的图像内容及文本内容。

本申请实施例的多模态信息提取方法，通过获取的待提取对象的目标图像，识别得到目标图像中对应的图像区域及文本区域，并根据图像区域及文本区域，自动地提取得到对应的多模态信息，多模态信息来自待提取对象，多模态信息包括了目标图像及目标文本，进而可以大大地减少多模态信息提取时的人工作业量，降低人力成本，并且，本申请实施例的多模态信息提取方法也较为适用于印刷体图文资料的多模态信息的提取，可较为便于对印刷体图文资料的多模态信息的提取。

为了可以较好地得到待提取对象的目标图像，本申请实施例提供一种可能的实施方式，参见图2，图2为本申请实施例提供的步骤S110的流程示意图，本申请实施例的多模态信息提取方法，步骤S110，获取待提取对象的目标图像，目标图像包含有图像内容及文本内容，可包括如下步骤：

步骤S111，获取待提取对象的初始图像；

步骤S112，对上述初始图像进行预处理，得到待提取对象的目标图像。

具体地，待提取对象的初始图像，即为待提取对象对应的图像。

对待提取对象的初始图像进行预处理，可以是对待提取对象的初始图像进行图像去噪、灰度化、二值化以及腐蚀膨胀等处理。

待提取对象的目标图像可以看成由若干连通域组成，其中，待提取对象的目标图像中的每一个字均为一个小的连通域，待提取对象的目标图像中的图像部分则为一个相对较大的连通域。

在上述过程中，该方法对待提取对象的初始图像进行预处理，可以较好地得到待提取对象的目标图像，并且，得到的待提取对象的目标图像也可较为便于多模态信息的提取以及保障提取的多模态信息的质量。

为了可以较为快速、准确地识别得到目标图像中对应的图像区域及文本区域，本申请实施例提供一种可能的实施方式，本申请实施例的多模态信息提取方法，在根据上述目标图像，识别得到目标图像中对应的图像区域及文本区域时，可：

根据上述目标图像中各个连通域的面积及预设的连通域分割阈值，识别得到目标图像中对应的图像区域及文本区域。

具体地，可将目标图像中各个连通域的面积大于或等于预设的连通域分割阈值，确定为目标图像中对应的图像区域；将目标图像中各个连通域的面积小于预设的连通域分割阈值，确定为目标图像中对应的初始文本区域，初始文本区域可以是待提取对象的目标图像中的每一个字，文本区域根据初始文本区域得到。

在上述过程中，该方法通过待提取对象的目标图像中各个连通域的面积及预设的连通域分割阈值，可以较为快速、准确地识别得到目标图像中对应的图像区域及文本区域，进而可以更为便于多模态信息的提取。

为了可以更好地规范图像区域以及消除目标图像中可能存在的冗余图像信息的干扰，本申请实施例提供一种可能的实施方式，参见图3，图3为本申请实施例提供的步骤S130的流程示意图，本申请实施例的多模态信息提取方法，步骤S130，根据上述图像区域及文本区域，提取得到对应的多模态信息，多模态信息包括目标图像及目标文本，可包括如下步骤：

步骤S131，对上述图像区域进行搜索、合并及过滤，得到目标图像区域；

步骤S132，根据上述目标图像区域及文本区域，提取得到对应的多模态信息。

具体地，由于图像的边缘可能存在不规则性，导致连通域的外轮廓可能也是不规则的，在对上述图像区域进行搜索、合并时，对于每一个图像对应的连通域都可取其最小外接正矩形作为其图像区域，并对涉及相交和包含关系的候选区域进行进一步合并，统一取其区域并集的最小外接正矩形作为合并后的候选区域。

由于待提取对象的目标图像可能在页眉、页脚和页边等区域中存在冗余图像信息，在对上述图像区域进行过滤时，可对面积较小和距离页面边缘较近的图像区域进行过滤，最终得到目标图像区域。

在上述过程中，该方法通过对图像区域进行搜索、合并及过滤，可以更好地规范图像区域以及消除目标图像中可能存在的冗余图像信息的干扰，较好地得到目标图像区域，进而可以提高提取的多模态信息的质量。

可选地，在根据上述目标图像区域及文本区域，提取得到对应的多模态信息时，可：

根据上述目标图像区域及文本区域，识别得到标题文本区域及描述文本区域；

根据上述目标图像区域、标题文本区域及描述文本区域，提取得到对应的多模态信息；

目标文本包括目标标题文本及目标描述文本。

具体地，标题文本区域对应的标题文本可以是图像的标题。

在上述过程中，该方法通过目标图像区域及文本区域，识别得到标题文本区域及描述文本区域，可以更为准确地对文本区域进行划分，进而可以使得提取的多模态信息更为精确，并且，无需人工划分目标文本，可以进一步地减少多模态信息提取时的人工作业量，更好地降低人力成本。

可选地，在根据上述目标图像区域及文本区域，识别得到标题文本区域及描述文本区域时，可：

获取各个上述目标图像区域的位置信息；

根据各个上述目标图像区域的位置信息，以预设的搜索距离及预设的搜索区域进行文本搜索，得到疑似标题文本区域；

根据上述疑似标题文本区域的面积、长及宽，识别得到标题文本区域及描述文本区域。

具体地，各个目标图像区域的位置信息可以是各个目标图像区域的最小外接正矩形的左上角的坐标及右下角的坐标。

预设的搜索区域可以是目标图像区域的最小外接正矩形的左方、右方及下方，预设的搜索距离可以是在预设的搜索区域的搜索距离，其中，不同的预设的搜索区域的搜索距离可以相同，也可以不相同。

在根据上述疑似标题文本区域的面积、长及宽，识别得到标题文本区域及描述文本区域时，可将疑似标题文本区域的面积小于预设面积阈值且长宽比满足预定阈值的疑似标题文本区域，确定为标题文本区域；反之，则确定为描述文本区域。

在上述过程中，该方法通过获取的各个目标图像区域的位置信息，以预设的搜索距离及预设的搜索区域进行文本搜索，得到疑似标题文本区域，并根据疑似标题文本区域的面积、长及宽，识别得到标题文本区域及描述文本区域，可以较为快速、准确地识别得到标题文本区域及描述文本区域。

可选地，在根据上述目标图像区域、标题文本区域及描述文本区域，提取得到对应的多模态信息时，可：

将对应的上述目标图像区域、标题文本区域及描述文本区域进行关联；

对应的上述目标图像、目标标题文本及目标描述文本，组成对应的图文信息对。

具体地，在根据关联后的目标图像区域、标题文本区域及描述文本区域，提取得到对应的多模态信息时，可对所有描述文本区域中对应关联的描述文本区域进行拼接，进而再提取得到对应的多模态信息。

在上述过程中，该方法将对应的目标图像区域、标题文本区域及描述文本区域进行关联，并根据关联后的目标图像区域、标题文本区域及描述文本区域，提取得到对应的多模态信息，对应的目标图像、目标标题文本及目标描述文本组成了对应的图文信息对，可以使得提取的多模态信息更为精确，并且，无需人工将对应的目标图像、目标标题文本及目标描述文本关联，可以更进一步地减少多模态信息提取时的人工作业量，更好地降低人力成本。

实施例二

为了执行上述实施例一对应的方法，以实现相应的功能和技术效果，下面提供一种多模态信息提取装置。

参见图4，图4为本申请实施例提供的多模态信息提取装置的结构框图。

本申请实施例的多模态信息提取装置，包括：

获取模块210，用于获取待提取对象的目标图像，目标图像包含有图像内容及文本内容；

识别模块220，用于根据上述目标图像，识别得到目标图像中对应的图像区域及文本区域；

提取模块230，用于根据上述图像区域及文本区域，提取得到对应的多模态信息，多模态信息包括目标图像及目标文本。

本申请实施例的多模态信息提取装置，通过获取的待提取对象的目标图像，识别得到目标图像中对应的图像区域及文本区域，并根据图像区域及文本区域，自动地提取得到对应的多模态信息，多模态信息来自待提取对象，多模态信息包括了目标图像及目标文本，进而可以大大地减少多模态信息提取时的人工作业量，降低人力成本，并且，本申请实施例的多模态信息提取装置也较为适用于印刷体图文资料的多模态信息的提取，可较为便于对印刷体图文资料的多模态信息的提取。

作为一种可选的实施方式，获取模块210，可具体用于：

获取待提取对象的初始图像；

对上述初始图像进行预处理，得到待提取对象的目标图像。

作为一种可选的实施方式，识别模块220，可具体用于：

作为一种可选的实施方式，提取模块230，可具体用于：

对上述图像区域进行搜索、合并及过滤，得到目标图像区域；

根据上述目标图像区域及文本区域，提取得到对应的多模态信息。

可选地，提取模块230在根据上述目标图像区域及文本区域，提取得到对应的多模态信息时，可：

目标文本包括目标标题文本及目标描述文本。

可选地，提取模块230在根据上述目标图像区域及文本区域，识别得到标题文本区域及描述文本区域时，可：

获取各个上述目标图像区域的位置信息；

可选地，提取模块230在根据上述目标图像区域、标题文本区域及描述文本区域，提取得到对应的多模态信息时，可：

上述的多模态信息提取装置可实施上述实施例一的多模态信息提取方法。上述实施例一中的可选项也适用于本实施例，这里不再详述。

本申请实施例的其余内容可参照上述实施例一的内容，在本实施例中，不再进行赘述。

实施例三

本申请实施例提供一种电子设备，包括存储器及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述电子设备执行上述的多模态信息提取方法。

可选地，上述电子设备可以是服务器。

另外，本申请实施例还提供一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现上述的多模态信息提取方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种多模态信息提取方法，其特征在于，包括：

根据所述图像区域及所述文本区域，提取得到对应的多模态信息，所述多模态信息包括目标图像及目标文本；

所述根据所述图像区域及所述文本区域，提取得到对应的多模态信息，包括：

根据所述目标图像区域及所述文本区域，提取得到对应的多模态信息；

所述根据所述目标图像区域及所述文本区域，提取得到对应的多模态信息，包括：

所述目标文本包括目标标题文本及目标描述文本；

所述根据所述目标图像区域及所述文本区域，识别得到标题文本区域及描述文本区域，包括：

获取各个所述目标图像区域的位置信息；

2.根据权利要求1所述的多模态信息提取方法，其特征在于，所述获取待提取对象的目标图像，包括：

获取待提取对象的初始图像；

对所述初始图像进行预处理，得到待提取对象的目标图像。

3.根据权利要求1所述的多模态信息提取方法，其特征在于，所述根据所述目标图像，识别得到所述目标图像中对应的图像区域及文本区域，包括：

4.根据权利要求1所述的多模态信息提取方法，其特征在于，所述根据所述目标图像区域、所述标题文本区域及所述描述文本区域，提取得到对应的多模态信息，包括：

5.一种多模态信息提取装置，其特征在于，包括：

提取模块，用于根据所述图像区域及所述文本区域，提取得到对应的多模态信息，所述多模态信息包括目标图像及目标文本；

所述提取模块，具体用于对所述图像区域进行搜索、合并及过滤，得到目标图像区域；根据所述目标图像区域及所述文本区域，提取得到对应的多模态信息；

所述提取模块在根据所述目标图像区域及所述文本区域，提取得到对应的多模态信息时，根据所述目标图像区域及所述文本区域，识别得到标题文本区域及描述文本区域；

所述目标文本包括目标标题文本及目标描述文本；

所述提取模块在根据所述目标图像区域及所述文本区域，识别得到标题文本区域及描述文本区域时，获取各个所述目标图像区域的位置信息；

6.一种电子设备，其特征在于，包括存储器及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述电子设备执行根据权利要求1至4中任一项所述的多模态信息提取方法。

7.一种计算机可读存储介质，其特征在于，其存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的多模态信息提取方法。