Nothing Special   »   [go: up one dir, main page]

CN109508400B - 图文摘要生成方法 - Google Patents

图文摘要生成方法 Download PDF

Info

Publication number
CN109508400B
CN109508400B CN201811172666.XA CN201811172666A CN109508400B CN 109508400 B CN109508400 B CN 109508400B CN 201811172666 A CN201811172666 A CN 201811172666A CN 109508400 B CN109508400 B CN 109508400B
Authority
CN
China
Prior art keywords
picture
representing
text
abstract
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811172666.XA
Other languages
English (en)
Other versions
CN109508400A (zh
Inventor
周玉
朱军楠
张家俊
宗成庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201811172666.XA priority Critical patent/CN109508400B/zh
Publication of CN109508400A publication Critical patent/CN109508400A/zh
Application granted granted Critical
Publication of CN109508400B publication Critical patent/CN109508400B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于自然语言技术领域,具体提供了一种图文摘要生成方法,旨在解决现有技术图片和文本不对齐导致摘要信息不准确的问题。为此目的,本发明提供了一种图文摘要生成方法,包括获取多媒体信息中文本和图片对应的特征向量;根据文本和图片对应的特征向量获取多模态信息向量;基于预先构建的摘要生成模型并根据多模态信息向量获取多媒体信息的文本摘要;根据图片对应的特征向量获取图片对应的覆盖度向量;基于摘要生成模型并根据图片对应的覆盖度向量获取多媒体信息的图片摘要;将文本摘要和图片摘要结合作为多媒体信息的图文摘要。基于上述步骤,本发明提供的方法可以得到更准确表现多媒体信息内容的图文摘要。

Description

图文摘要生成方法
技术领域
本发明属于自然语言技术领域,具体涉及一种图文摘要生成方法。
背景技术
自动摘要是利用计算机系统自动实现文本分析、内容归纳和摘要自动生成的技术,可以按读者(或用户)的要求以简洁的形式表达原文的主要内容。自动摘要技术能够有效地帮助读者(或用户)从检索到的文章中寻找感兴趣的内容,提高阅读速度和质量。该技术可以将文档压缩为更为简洁的表达,并且保证涵盖原始文档有价值的主题。
传统的自动摘要技术一般是单模态摘要,即输入全部为文本。随着技术的发展,多模态自动摘要技术出现。多模态自动摘要的输入为多个模态,包括文本、音频、视频和图像等,随着信息的载体越来越丰富多样,当用户通过搜索引擎对某一特定事件进行检索时,返回的内容往往不局限于文本,还可能来源于视频和图像模态。多模态自动摘要技术可以对来自于多模态的信息进行提炼,从而帮助用户在短时间获取多媒体信息。
现有的多模态自动摘要技术输出都局限于单模态形式,如只是文本或者图片等,但是实际应用中,文本可以包含准确的语义信息,图片可以帮助用户更快地获取文档主题,这两种模态的信息可以相互补充。现有的方法是将图片和文本作为一个基本的摘要单元联合进行抽取,没有考虑到实际情况中图片和文本都不存在显式的对齐关系,通过这种方式得到的摘要信息是不准确的。
因此,如何提出一种将图片与文本对齐从而加速用户获取信息的方案是本领域技术人员目前需要解决的问题。
发明内容
为了解决现有技术中的上述问题,即为了解决现有技术图片和文本不对齐导致摘要信息不准确的问题,本发明提供了一种图文摘要生成方法,包括:
获取当前获取的多媒体信息中文本和图片对应的特征向量;
基于预先构建的多模态信息融合模型并根据所述文本和图片对应的特征向量获取多模态信息向量;
基于预先构建的摘要生成模型并根据所述多模态信息向量获取所述多媒体信息的文本摘要;
基于预先构建的注意力机制模型并根据图片对应的特征向量获取所述图片对应的覆盖度向量;
基于所述摘要生成模型并根据所述图片对应的覆盖度向量获取所述多媒体信息的图片摘要;
将所述文本摘要和图片摘要结合作为所述多媒体信息的图文摘要;
其中,所述多模态信息融合模型、摘要生成模型以及注意力机制模型均是基于预设的多媒体信息训练数据集并利用机器学习算法所构建的神经网络模型。
在上述方案的优选技术方案中,“获取当前获取的多媒体信息中文本和图片对应的特征向量”的步骤包括:
根据下式所示的双向长短期记忆网络获取所述多媒体信息中文本的特征向量:
ft=σg(Wfxt+Ufct-1+bf)
it=σg(Wixt+Uict-1+bi)
ot=σg(Woxt+Uoct-1+bo)
ct=ft⊙ct-1+it⊙σc(Wcxt+Ucht-1+bc)
ht=ot⊙σh(ct)
其中,ft、it、ot分别表示所述双向长短期记忆网络在t时刻的遗忘门、输入门和输出门的输出,σg、σc、σh分别表示遗忘门、输入门和输出门的激活函数,Wf、Wi、Wo分别表示遗忘门、输入门和输出门的第一矩阵参数,Uf、Ui、Uo分别表示遗忘门、输入门和输出门的第二矩阵参数,xt表示在t时刻的输入的文本词向量,ct-1表示在t-1时刻的文本的特征向量,bf、bi、bo分别表示遗忘门、输入门和输出门的偏置参数,ht表示文本的特征向量对应的隐层向量;
基于预先构建的图片特征提取模型获取所述多媒体信息中图片的fc7特征或者pool5特征,将所述fc7特征或者pool5特征转换为图片对应的特征向量;
其中,所述图片特征提取模型是基于预设的图片数据集并利用机器学习算法所构建的神经网络模型。
在上述方案的优选技术方案中,“将所述fc7特征或者pool5特征转换为图片对应的特征向量”的步骤包括:
将所述fc7特征与预先获取的图片的特征向量的注意力分布相乘,得到所述图片对应的特征向量;或者
将所述pool5特征与预先获取的图片的特征向量的注意力分布相乘,得到所述图片对应的特征向量;或者
获取图片多个区域的注意力分布,根据所述图片多个区域的注意力分布以及图片多个区域对应的向量进行加权求和,将加权求和的结果与预先获取的图片的特征向量的注意力分布相乘,得到所述图片对应的特征向量。
在上述方案的优选技术方案中,“基于预先构建的多模态信息融合模型并根据文本的特征向量和图片的特征向量获取多模态信息向量”的步骤包括:
根据下式所述的注意力机制获取所述多模态信息向量:
Figure BDA0001822930730000031
Figure BDA0001822930730000032
Figure BDA0001822930730000033
其中,
Figure BDA0001822930730000034
分别表示文本和图片的特征向量的注意力分布,σ表示激活函数,Wtxt、Wimg分别表示所述多模态信息融合模型的第一矩阵参数,
Figure BDA0001822930730000035
分别表示文本和图片的特征向量,Utxt、Uimg分别表示所述多模态信息融合模型的第二矩阵参数,st表示所述多模态信息融合模型的状态参数,
Figure BDA0001822930730000036
表示所述多模态信息向量。
在上述方案的优选技术方案中,在“基于预先构建的摘要生成模型并根据所述多模态信息向量获取所述多媒体信息的文本摘要”的步骤之前,所述方法还包括:
基于预先获取的多模态信息向量并利用注意力机制计算从预设的历史词库中生成和/或复制所述多模态信息中文本的概率;
根据所述概率并利用负对数似然损失函数以及覆盖度损失函数优化所述摘要生成模型的参数。
在上述方案的优选技术方案中,“根据所述概率并利用负对数似然损失函数以及覆盖度损失函数优化所述摘要生成模型的参数”的步骤包括:
按照下式所示的方法优化所述摘要生成模型的参数:
Figure BDA0001822930730000041
Figure BDA0001822930730000042
Figure BDA0001822930730000043
其中,pg表示从预设的历史词库中生成词的概率,σ表示激活函数,
Figure BDA0001822930730000044
Wx均表示摘要生成模型的矩阵参数,cmm表示多模态信息向量,st表示摘要生成模型的状态参数,pw表示一个词生成和/或复制的概率,pv(w)表示从预设的历史词库中生成词w的概率,
Figure BDA0001822930730000045
表示t时刻第i个词的文本注意力分布,Lt表示负对数似然损失和覆盖度损失,
Figure BDA0001822930730000046
表示t时刻从预设的历史词库中生成词或者从输入文本中复制词的概率分布,
Figure BDA0001822930730000047
表示t时刻第i个词的文本覆盖度向量。
在上述方案的优选技术方案中,“基于预先构建的注意力机制模型并根据图片对应的特征向量获取所述图片对应的覆盖度向量”的步骤包括:
基于所述注意力机制模型获取所述图片对应的特征向量多个时刻的注意力分布,将所述多个时刻的注意力分布累加得到所述图片对应的覆盖度向量。
在上述方案的优选技术方案中,“基于所述摘要生成模型并根据所述图片对应的覆盖度向量获取所述多媒体信息的图片摘要”的步骤包括:
基于所述摘要生成模型获取每张图片的覆盖度向量对应的覆盖度,选取覆盖度最大的图片作为所述多媒体信息的图片摘要。
在上述方案的优选技术方案中,在“基于所述摘要生成模型并根据所述图片对应的覆盖度向量获取所述多媒体信息的图片摘要”的步骤之前,所述方法还包括:
按照下式所示的方法优化所述摘要生成模型的参数:
Figure BDA0001822930730000051
Figure BDA0001822930730000052
其中,
Figure BDA0001822930730000053
表示t时刻的图片特征向量的注意力分布,
Figure BDA0001822930730000054
表示t时刻的图片覆盖度向量,
Figure BDA0001822930730000055
表示t时刻第j个词的图片注意力分布。
与最接近的现有技术相比,上述技术方案至少具有如下有益效果:
1、本发明提供的图文摘要生成方法,是利用序列到序列的框架生成文本摘要,结合注意力机制捕捉文本和图片的对齐关系,利用覆盖度机制选出最重要的图片,将文本摘要和图片摘要结合作为最终的图文摘要,通过对齐文本和图片,可以得到更准确表现多媒体信息内容的图文摘要;
2、通过预先构建的注意力机制模型并根据图片对应的特征向量获取图片对应的覆盖度向量,根据覆盖度向量获取多媒体信息的图片摘要,可以根据每张图片的覆盖度得到每张图片的重要性分数,将重要性分数最高的图片作为图片摘要,可以使用户能够通过图片更快地获取多媒体信息的主题。
附图说明
图1为本发明一种实施例的图文摘要生成方法的主要步骤示意图;
图2为本发明实施例中第一种获取图片特征向量的主要步骤示意图;
图3为本发明实施例中第二种获取图片特征向量的主要步骤示意图;
图4为本发明实施例中第三种获取图片特征向量的主要步骤示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
参阅附图1,图1示例性的给出了本实施例中图文摘要生成方法的主要步骤。如图1所示,本实施例中图文摘要生成方法包括下述步骤:
步骤S101:获取当前获取的多媒体信息中文本和图片对应的特征向量;
多媒体信息中文字可以准确地表达语义信息,图片可以帮助用户快速地获取主题,两种模态的信息能够相互补充。为了能够得到对齐的文本和图片,可以获取多媒体信息中文本和图片对应的特征向量。以一条含有M张图片的新闻为例,其中下面两条文本分别是输入文本和人工参考摘要:
输入文本:It’s just an example for illustration.
人工参考摘要:It’s an example.
为了减少后期的计算量,可以将新闻中所有的英文文本以及参考摘要进行分词和小写转换,具体地,可以采用开源的分词工具对英文文档进行分词,以上述给出的内容为例,进行分词和小写转换后,输入文本和人工参考摘要如下所示:
it’s just an example for illustration.
it’s an example.
对多媒体信息进行预处理后,可以分别获取多媒体信息中文本和图片对应的特征向量,具体地,可以根据公式(1)和公式(2)所示的双向长短期记忆网络获取多媒体信息中文本的特征向量:
Figure BDA0001822930730000061
Figure BDA0001822930730000071
其中,ft、it、ot分别表示双向长短期记忆网络在t时刻的遗忘门、输入门和输出门的输出,σg、σc、σh分别表示遗忘门、输入门和输出门的激活函数,Wf、Wi、Wo分别表示遗忘门、输入门和输出门的第一矩阵参数,Uf、Ui、Uo分别表示遗忘门、输入门和输出门的第二矩阵参数,xt表示在t时刻的输入的文本词向量,ct-1表示在t-1时刻的文本的特征向量,bf、bi、bo分别表示遗忘门、输入门和输出门的偏置参数,ht表示文本的特征向量对应的隐层向量;
可以基于预先构建的图片特征提取模型获取多媒体信息中图片的fc7特征或者pool5特征,fc7特征和pool5特征分别为4096维向量和49x512维矩阵。将fc7特征或者pool5特征转换为图片对应的特征向量,其中,图片特征提取模型是基于预设的图片数据集并利用机器学习算法所构建的神经网络模型,具体地,图片特征提取模型可以是训练好的VGG19模型,将fc7特征或者pool5特征转换为图片对应的特征向量的步骤可以包括:
如图2所示,图2示例性得给出了本实施例中第一种获取图片特征向量的主要步骤,将fc7特征与预先获取的图片的特征向量的注意力分布相乘,得到图片对应的特征向量;或者
如图3所示,图3示例性得给出了本实施例中第二种获取图片特征向量的主要步骤,将pool5特征与预先获取的图片的特征向量的注意力分布相乘,得到图片对应的特征向量;或者
如图4所示,图4示例性得给出了本实施例中第三种获取图片特征向量的主要步骤,获取图片多个区域的注意力分布,根据图片多个区域的注意力分布以及图片多个区域对应的向量进行加权求和,将加权求和的结果与预先获取的图片的特征向量的注意力分布相乘,得到图片对应的特征向量。
步骤S102:基于预先构建的多模态信息融合模型并根据文本和图片对应的特征向量获取多模态信息向量。
具体地,可以使用多模态信息融合模型计算输入文本和输入图片的注意力权重,根据注意力权重将文本和图片输入组成为一个多模态信息向量,可以按照公式(3)所示的方法获取多模态信息向量:
Figure BDA0001822930730000081
其中,
Figure BDA0001822930730000082
分别表示文本和图片的特征向量的注意力分布,σ表示激活函数,Wtxt、Wimg分别表示多模态信息融合模型的第一矩阵参数,
Figure BDA0001822930730000083
分别表示文本和图片的特征向量,Utxt、Uimg分别表示多模态信息融合模型的第二矩阵参数,st表示多模态信息融合模型的状态参数,
Figure BDA0001822930730000084
表示多模态信息向量。
在实际应用中,为了更好地获得多模态信息向量,可以在获取多模态信息向量前对多模态信息融合模型进行训练,具体地,可以基于预先获取的多模态信息向量并利用注意力机制计算从预设的历史词库中生成和/或复制多模态信息中文本的概率,根据概率并利用负对数似然损失函数以及覆盖度损失函数优化摘要生成模型的参数,具体方法可以按照公式(4)所示的方法训练多模态信息融合模型:
Figure BDA0001822930730000085
其中,pg表示从预设的历史词库中生成词的概率,σ表示激活函数,
Figure BDA0001822930730000086
Wx均表示摘要生成模型的矩阵参数,cmm表示多模态信息向量,st表示摘要生成模型的状态参数,pw表示从预设的历史词库中复制词的概率,pv(w)表示从预设的历史词库中复制词w的概率,
Figure BDA0001822930730000087
表示t时刻第i个词的文本注意力分布,Lt表示负对数似然损失和覆盖度损失,
Figure BDA0001822930730000088
表示t时刻从预设的历史词库中复制词的概率分布,
Figure BDA0001822930730000089
表示t时刻第i个词的文本覆盖度向量。
步骤S103:基于预先构建的摘要生成模型并根据多模态信息向量获取多媒体信息的文本摘要;
在实际应用中,可以根据摘要生成模型和多模态信息向量计算从预设的历史词库中生成和/或复制多模态信息中文本的概率,将多媒体信息中的文本与历史词库中的文本进行比较,判断多媒体信息中的文本是否出现在历史词库中,若出现,则计算从历史词库中生成文本的概率,若未出现,则计算从输入文本中复制该文本的概率,将生成和/或复制文本概率中概率最大的文本作为文本摘要。
为了更好地获得文本摘要,在获取多媒体信息的文本摘要之前,可以基于预先获取的多模态信息向量并利用注意力机制计算从预设的历史词库中生成和/或复制多模态信息中文本的概率,根据概率并利用负对数似然损失函数以及覆盖度损失函数优化摘要生成模型的参数,具体方法可以按照公式(5)所示的方法优化摘要生成模型的参数:
Figure BDA0001822930730000091
其中,pg表示从预设的历史词库中生成词的概率,σ表示激活函数,
Figure BDA0001822930730000092
Wx均表示摘要生成模型的矩阵参数,cmm表示多模态信息向量,st表示摘要生成模型的状态参数,pw表示一个词生成和/或复制的概率,pv(w)表示从预设的历史词库中生成词w的概率,
Figure BDA0001822930730000093
表示t时刻第i个词的文本注意力分布,Lt表示负对数似然损失和覆盖度损失,
Figure BDA0001822930730000094
表示t时刻从预设的历史词库中生成词或者从输入文本中复制词的概率分布,
Figure BDA0001822930730000095
表示t时刻第i个词的文本覆盖度向量。
经过训练后的摘要生成模型可以更准确地获取文本摘要,其中,摘要生成模型可以是单向循环神经网络。
步骤S104:基于预先构建的注意力机制模型并根据图片对应的特征向量获取图片对应的覆盖度向量;
在实际应用中,图片可以帮助用户更快地获取文档主题,但是多媒体信息中可能包含多张图片,为了帮助用户尽快地获取文档主题,需要从多媒体信息的多张图片中挑选出最能表现文档主题的图片,具体地,可以通过注意力机制获取每个时刻图片的注意力分布,将多个时刻的图片的注意力分布进行累加,得到图片对应的覆盖度向量,在通过覆盖度损失函数计算得到图片对应的覆盖度向量,其中,图片不同的注意力形式对应于不同的图片重要性的计算方式,可以根据单张图片的覆盖度向量选取覆盖度最大的图片作为摘要图片。
为了更好地获得图片摘要,在获取多媒体信息的图片摘要之前,可以进一步优化摘要生成模型的参数,具体方法可以按照公式(6)所示的方法优化摘要生成模型的参数:
Figure BDA0001822930730000096
其中,
Figure BDA0001822930730000101
表示t时刻的图片特征向量的注意力分布,
Figure BDA0001822930730000102
表示t时刻的图片覆盖度向量,
Figure BDA0001822930730000103
表示t时刻第j个词对应的图片注意力分布。
步骤S105:基于摘要生成模型并根据图片对应的覆盖度向量获取多媒体信息的图片摘要。
具体地,摘要生成模型可以获取每张图片的覆盖度向量对应的覆盖度,比较每张图片的覆盖度大小,覆盖度越大的,说明其重要性分数越高,越能体现文档的主题,将覆盖度最大的图片作为摘要图片。得到摘要图片后,可以将其与前述步骤得到的文本摘要进行结合,将结合后的图片摘要和文本摘要作为多媒体信息的图文摘要。
具体地,附表1给出了本发明与基于序列到序列模型、融合语言特征的序列到序列特征模型以及指针-生成器模型在数据集上单纯考虑文本的ROUGE值。训练数据包含293,965篇新闻文档,其中含有1,928,356张图片;验证集中包含10,355篇新闻文档,其中含有68,520张图片;测试集中包含10,261篇新闻文档,其中含有71,509张图片。本发明实施例给出的参考答案是一段文本摘要加至多三幅相关的图片,都是在测试集上人为标注的。从附表1中可以看出,本发明的多模态的模型在传统的文本摘要的评测中没有明显的优势,而且ROUGE也无法用来评价图文并茂的摘要。
附表1:本发明与基于序列到序列模型(S2S+attn),融合语言特征的序列到序列模型(AED)以及指针-生成器模型(PGC)的ROUGE值对比
Figure BDA0001822930730000104
附表2给出了本发明与指针-生成器模型的人工评价结果,实验结果表明本发明产生的图文摘要能够比较明显的提升用户的满意度。
附表2:本发明与指针-生成器模型的人工评价结果
Figure BDA0001822930730000105
上述实施例中虽然将各个步骤按照上述先后次序的方式进行了描述,但是本领域技术人员可以理解,为了实现本实施例的效果,不同的步骤之间不必按照这样的次序执行,其可以同时(并行)执行或以颠倒的次序执行,这些简单的变化都在本发明的保护范围之内。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (9)

1.一种图文摘要生成方法,其特征在于,包括:
获取当前获取的多媒体信息中文本和图片对应的特征向量;
基于预先构建的多模态信息融合模型并根据所述文本和图片对应的特征向量获取多模态信息向量;
基于预先构建的摘要生成模型并根据所述多模态信息向量获取所述多媒体信息的文本摘要;
基于预先构建的注意力机制模型并根据图片对应的特征向量获取所述图片对应的覆盖度向量;
基于所述摘要生成模型并根据所述图片对应的覆盖度向量获取所述多媒体信息的图片摘要;
将所述文本摘要和图片摘要结合作为所述多媒体信息的图文摘要;
其中,所述多模态信息融合模型、摘要生成模型以及注意力机制模型均是基于预设的多媒体信息训练数据集并利用机器学习算法所构建的神经网络模型。
2.根据权利要求1所述的图文摘要生成方法,其特征在于,“获取当前获取的多媒体信息中文本和图片对应的特征向量”的步骤包括:
根据下式所示的双向长短期记忆网络获取所述多媒体信息中文本的特征向量:
ft=σg(Wfxt+Ufct-1+bf)
it=σg(Wixt+Uict-1+bi)
ot=σg(Woxt+UoCt-1+bo)
ct=ft⊙ct-1+it⊙σc(Wcxt+Ucht-1+bc)
ht=ot⊙σh(ct)
其中,ft、it、ot分别表示所述双向长短期记忆网络在t时刻的遗忘门、输入门和输出门的输出,σg、σc、σh分别表示遗忘门、输入门和输出门的激活函数,Wf、Wi、Wo分别表示遗忘门、输入门和输出门的第一矩阵参数,Uf、Ui、Uo分别表示遗忘门、输入门和输出门的第二矩阵参数,xt表示在t时刻的输入的文本词向量,ct-1表示在t-1时刻的文本的特征向量,bf、bi、bo分别表示遗忘门、输入门和输出门的偏置参数,ht表示t时刻文本的特征向量对应的隐层向量;
基于预先构建的图片特征提取模型获取所述多媒体信息中图片的fc7特征或者pool5特征,将所述fc7特征或者pool5特征转换为图片对应的特征向量;
其中,所述图片特征提取模型是基于预设的图片数据集并利用机器学习算法所构建的神经网络模型。
3.根据权利要求2所述的图文摘要生成方法,其特征在于,“将所述fc7特征或者pool5特征转换为图片对应的特征向量”的步骤包括:
将所述fc7特征与预先获取的图片的特征向量的注意力分布相乘,得到所述图片对应的特征向量;或者
将所述pool5特征与预先获取的图片的特征向量的注意力分布相乘,得到所述图片对应的特征向量;或者
获取图片多个区域的注意力分布,根据所述图片多个区域的注意力分布以及图片多个区域对应的向量进行加权求和,将加权求和的结果与预先获取的图片的特征向量的注意力分布相乘,得到所述图片对应的特征向量。
4.根据权利要求1所述的图文摘要生成方法,其特征在于,“基于预先构建的多模态信息融合模型并根据文本的特征向量和图片的特征向量获取多模态信息向量”的步骤包括:
根据下式所述的注意力机制获取所述多模态信息向量:
Figure FDA0002585617700000021
Figure FDA0002585617700000022
Figure FDA0002585617700000023
其中,
Figure FDA0002585617700000024
分别表示文本和图片的特征向量的注意力分布,σ表示激活函数,Wtxt、Wimg分别表示所述多模态信息融合模型的第一矩阵参数,
Figure FDA0002585617700000025
分别表示文本和图片的特征向量,Utxt、Uimg分别表示所述多模态信息融合模型的第二矩阵参数,st表示所述多模态信息融合模型的状态参数,
Figure FDA0002585617700000026
表示所述多模态信息向量。
5.根据权利要求1所述的图文摘要生成方法,其特征在于,在“基于预先构建的摘要生成模型并根据所述多模态信息向量获取所述多媒体信息的文本摘要”的步骤之前,所述方法还包括:
基于预先获取的多模态信息向量并利用注意力机制计算从预设的历史词库中生成和/或复制所述多模态信息中文本的概率;
根据所述概率并利用负对数似然损失函数以及覆盖度损失函数优化所述摘要生成模型的参数。
6.根据权利要求5所述的图文摘要生成方法,其特征在于,“根据所述概率并利用负对数似然损失函数以及覆盖度损失函数优化所述摘要生成模型的参数”的步骤包括:
按照下式所示的方法优化所述摘要生成模型的参数:
Figure FDA0002585617700000031
Figure FDA0002585617700000032
Figure FDA0002585617700000033
其中,pg表示从预设的历史词库中生成词的概率,σ表示激活函数,
Figure FDA0002585617700000034
WX均表示摘要生成模型的矩阵参数,cmm表示多模态信息向量,st表示摘要生成模型的状态参数,pw表示一个词生成和/或复制的概率,pv(w)表示从预设的历史词库中生成词w的概率,
Figure FDA0002585617700000035
表示t时刻第i个词的文本注意力分布,Lt表示负对数似然损失和覆盖度损失,
Figure FDA0002585617700000036
表示t时刻从预设的历史词库中生成词或者从输入文本中复制词的概率分布,
Figure FDA0002585617700000037
表示t时刻第i个词的文本覆盖度向量,xt表示在t时刻的输入的文本词向量。
7.根据权利要求1所述的图文摘要生成方法,其特征在于,“基于预先构建的注意力机制模型并根据图片对应的特征向量获取所述图片对应的覆盖度向量”的步骤包括:
基于所述注意力机制模型获取所述图片对应的特征向量多个时刻的注意力分布,将所述多个时刻的注意力分布累加得到所述图片对应的覆盖度向量。
8.根据权利要求1所述的图文摘要生成方法,其特征在于,“基于所述摘要生成模型并根据所述图片对应的覆盖度向量获取所述多媒体信息的图片摘要”的步骤包括:
基于所述摘要生成模型获取每张图片的覆盖度向量对应的覆盖度,选取覆盖度最大的图片作为所述多媒体信息的图片摘要。
9.根据权利要求1所述的图文摘要生成方法,其特征在于,在“基于所述摘要生成模型并根据所述图片对应的覆盖度向量获取所述多媒体信息的图片摘要”的步骤之前,所述方法还包括:
按照下式所示的方法优化所述摘要生成模型的参数:
Figure FDA0002585617700000041
Figure FDA0002585617700000042
其中,
Figure FDA0002585617700000043
表示t时刻的图片特征向量的注意力分布,
Figure FDA0002585617700000044
表示t时刻的图片覆盖度向量,
Figure FDA0002585617700000045
表示t时刻第j个词的图片注意力分布,Lt表示负对数似然损失和覆盖度损失,
Figure FDA0002585617700000046
表示t时刻从预设的历史词库中生成词或者从输入文本中复制词的概率分布,
Figure FDA0002585617700000047
表示t时刻第i个词的文本覆盖度向量,xt表示在t时刻的输入的文本词向量。
CN201811172666.XA 2018-10-09 2018-10-09 图文摘要生成方法 Active CN109508400B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811172666.XA CN109508400B (zh) 2018-10-09 2018-10-09 图文摘要生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811172666.XA CN109508400B (zh) 2018-10-09 2018-10-09 图文摘要生成方法

Publications (2)

Publication Number Publication Date
CN109508400A CN109508400A (zh) 2019-03-22
CN109508400B true CN109508400B (zh) 2020-08-28

Family

ID=65746448

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811172666.XA Active CN109508400B (zh) 2018-10-09 2018-10-09 图文摘要生成方法

Country Status (1)

Country Link
CN (1) CN109508400B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113274681A (zh) * 2021-07-21 2021-08-20 北京京能能源技术研究有限责任公司 一种智能轨道机器人系统及其控制方法

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110147442B (zh) * 2019-04-15 2023-06-06 深圳智能思创科技有限公司 一种可控长度的文本摘要生成系统及方法
CN110263330B (zh) * 2019-05-22 2024-06-25 腾讯科技(深圳)有限公司 问题语句的改写方法、装置、设备和存储介质
CN110704606B (zh) * 2019-08-19 2022-05-31 中国科学院信息工程研究所 一种基于图文融合的生成式摘要生成方法
CN111368122B (zh) * 2020-02-14 2022-09-30 深圳壹账通智能科技有限公司 一种图片去重的方法及装置
CN113407707B (zh) * 2020-03-16 2024-10-18 北京沃东天骏信息技术有限公司 生成文本摘要的方法和装置
CN111563160B (zh) * 2020-04-15 2023-03-31 华南理工大学 基于全局语义的文本自动摘要方法、装置、介质及设备
CN111428025B (zh) * 2020-06-10 2020-12-11 科大讯飞(苏州)科技有限公司 文本摘要方法、装置、电子设备和存储介质
CN112328782B (zh) * 2020-11-04 2022-08-09 福州大学 一种融合图像过滤器的多模态摘要生成方法
CN112613293B (zh) * 2020-12-29 2024-05-24 北京中科闻歌科技股份有限公司 摘要生成方法、装置、电子设备及存储介质
CN115309888B (zh) * 2022-08-26 2023-05-30 百度在线网络技术(北京)有限公司 图表摘要的生成方法和生成模型的训练方法、装置
CN115410212B (zh) * 2022-11-02 2023-02-07 平安科技(深圳)有限公司 多模态模型的训练方法、装置、计算机设备及存储介质
CN115905598B (zh) * 2023-02-24 2023-05-16 中电科新型智慧城市研究院有限公司 一种社会事件摘要生成的方法、装置、终端设备及介质
CN116414972B (zh) * 2023-03-08 2024-02-20 浙江方正印务有限公司 一种资讯内容自动播报和生成简讯的方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107608943A (zh) * 2017-09-08 2018-01-19 中国石油大学(华东) 融合视觉注意力和语义注意力的图像字幕生成方法及系统
CN107918782A (zh) * 2016-12-29 2018-04-17 中国科学院计算技术研究所 一种生成描述图像内容的自然语言的方法与系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103425757A (zh) * 2013-07-31 2013-12-04 复旦大学 融合多模态信息的跨媒体人物新闻检索方法与系统
US11409791B2 (en) * 2016-06-10 2022-08-09 Disney Enterprises, Inc. Joint heterogeneous language-vision embeddings for video tagging and search
CN106844442A (zh) * 2016-12-16 2017-06-13 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于fcn特征提取的多模态循环神经网络图像描述方法
CN106997387B (zh) * 2017-03-28 2019-08-09 中国科学院自动化研究所 基于文本-图像匹配的多模态自动文摘方法
CN107480196B (zh) * 2017-07-14 2020-02-07 中国科学院自动化研究所 一种基于动态融合机制的多模态词汇表示方法
CN107562812B (zh) * 2017-08-11 2021-01-15 北京大学 一种基于特定模态语义空间建模的跨模态相似性学习方法
CN108319686B (zh) * 2018-02-01 2021-07-30 北京大学深圳研究生院 基于受限文本空间的对抗性跨媒体检索方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107918782A (zh) * 2016-12-29 2018-04-17 中国科学院计算技术研究所 一种生成描述图像内容的自然语言的方法与系统
CN107608943A (zh) * 2017-09-08 2018-01-19 中国石油大学(华东) 融合视觉注意力和语义注意力的图像字幕生成方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113274681A (zh) * 2021-07-21 2021-08-20 北京京能能源技术研究有限责任公司 一种智能轨道机器人系统及其控制方法
CN113274681B (zh) * 2021-07-21 2021-11-05 北京京能能源技术研究有限责任公司 一种智能轨道机器人系统及其控制方法

Also Published As

Publication number Publication date
CN109508400A (zh) 2019-03-22

Similar Documents

Publication Publication Date Title
CN109508400B (zh) 图文摘要生成方法
CN110427617B (zh) 推送信息的生成方法及装置
CN111428025B (zh) 文本摘要方法、装置、电子设备和存储介质
CN111241237A (zh) 一种基于运维业务的智能问答数据处理方法及装置
CN111190997A (zh) 一种使用神经网络和机器学习排序算法的问答系统实现方法
CN107480144A (zh) 具备跨语言学习能力的图像自然语言描述生成方法和装置
CN111985243B (zh) 情感模型的训练方法、情感分析方法、装置及存储介质
CN111859940B (zh) 一种关键词提取方法、装置、电子设备及存储介质
CN110968725B (zh) 图像内容描述信息生成方法、电子设备及存储介质
CN105989067A (zh) 从图片生成文本摘要的方法、用户设备及训练服务器
CN116977457A (zh) 一种数据处理方法、设备以及计算机可读存储介质
CN117437317A (zh) 图像生成方法、装置、电子设备、存储介质和程序产品
CN113407663A (zh) 基于人工智能的图文内容质量识别方法和装置
CN116913278B (zh) 语音处理方法、装置、设备和存储介质
CN114461366A (zh) 多任务模型训练方法、处理方法、电子设备及存储介质
CN113688231A (zh) 一种答案文本的摘要提取方法及装置、电子设备及介质
CN115374285B (zh) 政务资源目录主题分类方法及系统
Fan et al. Long-term recurrent merge network model for image captioning
Patankar et al. Image Captioning with Audio Reinforcement using RNN and CNN
CN111566665B (zh) 在自然语言处理中应用图像编码识别的装置和方法
CN114443916A (zh) 一种面向试验数据的供需匹配方法及系统
CN112153424A (zh) 内容推送方法、装置、电子设备和存储介质
Vayadande et al. The Rise of AI‐Generated News Videos: A Detailed Review
CN118429658B (zh) 信息抽取方法以及信息抽取模型训练方法
CN117807995B (zh) 一种情绪引导的摘要生成方法、系统、装置及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant