Nothing Special   »   [go: up one dir, main page]

CN106650789B - 一种基于深度lstm网络的图像描述生成方法 - Google Patents

一种基于深度lstm网络的图像描述生成方法 Download PDF

Info

Publication number
CN106650789B
CN106650789B CN201611022441.7A CN201611022441A CN106650789B CN 106650789 B CN106650789 B CN 106650789B CN 201611022441 A CN201611022441 A CN 201611022441A CN 106650789 B CN106650789 B CN 106650789B
Authority
CN
China
Prior art keywords
layer
lstm
image
model
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611022441.7A
Other languages
English (en)
Other versions
CN106650789A (zh
Inventor
王瀚漓
汤鹏杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN201611022441.7A priority Critical patent/CN106650789B/zh
Publication of CN106650789A publication Critical patent/CN106650789A/zh
Application granted granted Critical
Publication of CN106650789B publication Critical patent/CN106650789B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于深度LSTM网络的图像描述生成方法,包括以下步骤:1)提取图像描述数据集中图像的CNN特征并获取与图像对应描述参考句子中单词的嵌入式向量;2)建立双层LSTM网络,结合双层LSTM网络和CNN网络进行序列建模生成多模LSTM模型;3)采用联合训练的方式对多模LSTM模型进行训练;4)逐层增加多模LSTM模型中LSTM网络的层次,每增加一层并进行训练,最终获得逐层多目标优化及多层概率融合的图像描述模型;5)将逐层多目标优化及多层概率融合的图像描述模型中多层LSTM网络中各分支输出的概率分值进行融合,采用共同决策的方式,将概率最大对应的单词输出。与现有技术相比,本发明具有多层次、提高表达能力、有效更新、准确性高等优点。

Description

一种基于深度LSTM网络的图像描述生成方法
技术领域
本发明涉及图像理解领域,尤其是涉及一种基于深度LSTM网络的图像描述生成方法。
背景技术
图像标题生成是一项极具挑战性的工作,在婴幼儿早期教育、视觉障碍辅助、人机交互等领域具有广泛的应用前景。它结合了自然语言处理与计算机视觉两个领域,将一副自然图像使用自然语言的形式描述出来,或者说将图像翻译成自然语言。它首先要求系统能够准确理解图像中的内容,如识别出图像中的场景、各种对象、对象的属性、正在发生的动作及对象之间的关系等;然后根据语法规则及语言结构,生成人们能够理解的句子。
人们已提出多种方法来解决这一难题,包括基于模板的方法、基于语义迁移的方法,基于神经机器翻译的方法及混合方法等。随着深度学习技术,尤其是CNN技术在语言识别和视觉领域连续取得突破,目前基于神经机器翻译及其与其他视觉技术混合的方法已成为解决该问题的主流。这类方法考虑了CNN模型能够提取抽象性及表达能力更强的图像特征,能够为后续的语言生成模型提供可靠的可视化信息。但这些方法过于依赖前期的视觉技术,处理过程复杂,对系统后端生成句子的语言模型优化不足;在使用LSTM单元生成句子时,其模型深度较浅(常使用1层或2层LSTM),多模信息变换层次不够,生成的句子语义信息不强,整体性能难以改善。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种多层次、提高表达能力、有效更新、准确性高的基于深度LSTM网络的图像描述生成方法。
本发明的目的可以通过以下技术方案来实现:
一种基于深度LSTM网络的图像描述生成方法,包括以下步骤:
1)提取图像描述数据集中图像的CNN特征并获取与图像对应描述参考句子中单词的嵌入式向量;
2)建立双层LSTM网络,其中,第一层LSTM以单词的嵌入式向量为输入,第二层LSTM以第一层LSTM的输出和CNN网络输出的图像的CNN特征为输入,并结合双层LSTM网络和CNN网络进行序列建模生成多模LSTM模型;
3)采用联合训练的方式对多模LSTM模型进行训练,将CNN网络和LSTM网络中的参数进行联合优化;
4)逐层增加多模LSTM模型中LSTM网络的层次,每增加一层并进行训练,直至生成图像描述句子的质量性能不再提升,最终获得逐层多目标优化及多层概率融合的图像描述模型;
5)将逐层多目标优化及多层概率融合的图像描述模型中多层LSTM网络中各分支输出的概率分值进行融合,采用共同决策的方式,将概率最大对应的单词输出。
所述的步骤1)具体包括以下步骤:
11)将图像描述数据集中的图像缩放至256×256大小;
12)在图像上随机截取5个224×224大小的图像块,并将其进行水平翻转,对数据集进行扩充;
13)设置CNN网络中的卷积层和分类层的学习率调整因子和权值衰减因子为原来的1/10;
14)加载在Imagenet数据集上已优化完毕的参数对模型进行初始化;
15)将各图像块输入CNN网络,提取图像的CNN特征,该CNN特征维度为1000维。
所述的步骤2)具体包括以下步骤:
21)构建双层LSTM网络中的LSTM单元,并设置输入门、输出门、遗忘门和记忆单元;
22)获取数据集中描述参考句子的平均长度,并设置每层LSTM的时间步长和隐层单元个数;
23)对单词表中的每个单词采用One-Hot方式进行编码,编码维度为单词表的长度;
24)将描述参考句子中每个单词的One-Hot编码映射为一个嵌入式向量,并设置向量维度;
25)将每个单词的嵌入式向量作为第一层LSTM的输入,并将第一层LSTM的输出和图像CNN特征作为第二层LSTM的输入,建立多模LSTM模型;
27)将双层LSTM网络的最终输出输送到分类层,并采用Softmax函数输出该特征在每个单词上的概率分值。
所述的步骤3)具体包括以下步骤:
31)构建目标函数O,并获取使得损失函数
Figure BDA0001153937140000038
最小的优化参数集合(θ12):
Figure BDA0001153937140000031
Figure BDA0001153937140000032
θ1为CNN网络的参数集合,θ2为LSTM网络的参数集合,X2为图像描述数据集中的输入图像,S为与X2对应的描述参考句子,f(·)表示系统函数,
Figure BDA0001153937140000039
为损失函数,N2为训练LSTM网络时,一次迭代中所使用的样本总数,Lk为第k个样本所对应的参考句子的长度,
Figure BDA0001153937140000033
为第k张图像对应的描述参考句子的第t个单词,
Figure BDA0001153937140000034
为生成的第k张图像的第t个单词,
Figure BDA0001153937140000035
为输入的第k张图像,
Figure BDA0001153937140000036
为第k张图像的参考句子的第t-1个单词,
Figure BDA0001153937140000037
为实数域。
32)采用链式法则计算误差并采用随机梯度下降的方法对误差进行修正;
33)将误差回传到CNN网络中,将每条句子中每个单词的的误差进行求和,并逐层向前传递,完成优化。
所述的步骤4)具体包括以下步骤:
41)将训练好的多模LSTM模型作为初始模型,记为S_1,初始模型S_1中的双层LSTM网络为初始层次,记为M_1;
42)在初始层次M_1的基础上,增加一层与初始层次M_1结构相同的新层次,并采用因式分解的方式进行联结,即:
新层次中的第一层LSTM以初始层次的输出以及单词的嵌入式向量为输入,第二层LSTM以第一层LSTM的输出和初始模型中CNN网络输出的图像CNN特征为输入;
43)对增加新层次后的模型进行训练优化,包括以下步骤:
431)保留初始层次M_1中的目标函数,并将其辅助分支中的分类层的学习率调整因子和衰减因子设置为原来的1/10;
432)构建增加新层次后的模型的系统代价函数为
Figure BDA0001153937140000041
其中,n为增加新层次的总数,
Figure BDA0001153937140000042
为在模型增加到第i层进行训练时对应的代价函数,如模型共有3个层次,其中在训练第一层次时,对应一个代价函数,在训练第二个层次时,对应2个代价函数,这样整个模型已有3个代价函数,当有三个阶段时,则共有1+2+3=6个代价函数。
43)重复步骤41)-42),在初始层次M_1上逐层增加新的层次并进行训练,直到增加层次使得模型性能不再提升。
所述的步骤5)具体包括以下步骤:
51)为每个辅助分支添加Softmax函数,输出当前特征属于单词表中每个单词的概率分值;
52)对相应位置的所有概率分值使用乘法原理进行融合;
53)取所有概率值最大者所对应的单词作为最终输出。
与现有技术相比,本发明具有以下优点:
一、多层次、提高表达能力:本发明提出了一种构建更深LSTM网络的方法,通过逐层优化的方法,对可视化信息和语言信息进行更多层次的非线性变换,提高生成句子的语义表达能力。
二、有效更新:本发明将深度监督的方法引入到了多层LSTM网络中,防止因参数过多造成的过拟合现象,为低层LSTM单元提供正则化,同时保证低层LSTM参数不会因为梯度弥散而造成的难以有效更新的问题。
三、准确性高:本发明利用了多层LSTM共同决策的方式,通过乘法原理,将连接多层LSTM的多个辅助分类器输出融合在一起,共同决定下一个单词的输出,其输出单词更加准确,进一步提升了系统性能,并且本发明在MSCOCO、Flickr30K和Flickr8K三个公开数据集上表现优良。在MSCOCO上,其CIDEr达到了94.6,在Flickr30K和Flickr8K上,其METEOR分别达到了19.4和20.8,超过同类其他模型。
附图说明
图1为本发明的方法流程图,其中,图(1a)为训练第一阶段的流程图,图(2a)为训练第k阶段的流程图,图(3a)为测试阶段的流程图。
图2为LSTM单元的结构图。
图3为LSTM逐层优化示意图,其中,图(3a)为多模LSTM模型结构图,图(3b)为逐层多目标优化及多层概率融合的图像描述模型结构图。
图4为LSTM深度监督训练示意图。
图5为LSTM多层概率融合示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
实施例
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
一种基于深度LSTM网络的图像描述生成方法,如图3、图4和图5所示,包括步骤:
1)制作训练集、验证集和测试集,使用GoogLeNet模型提取图像的CNN特征;具体过程包括:
11)将训练集、验证集和测试集转换为hdf5格式,每张图像对应多个标签,每个标签为该图像所对应的参考句子中的单词;
12)读取图像,将其缩放到256×256大小,然后随机截取5个大小为224×224大小的图像块,并将其做水平翻转,将数据集扩充为原来的10倍;
13)将GoogLeNet模型文件中的学习率因子和权值衰减因子调整为原来的1/10;
14)调用GoogLeNet在Imagenet大规模数据集上已优化完毕的参数集合做为预训练模型,对GoogLeNet进行初始化;
15)计算所有图像的均值,将减去均值后的图像数据送入GoogLeNet网络,取最后一层的分类层作为图像的CNN特征,特征维度为1000维;
2)建立两层LSTM网络,其中第一层用于接收单词的嵌入式向量,建立语言模型;第二层LSTM用于接收第一层LSTM的输出和图像的CNN特征,并对多模特征进行序列建模;具体步骤包括:
21)构建LSTM单元,如图1所示,其中:
Figure BDA0001153937140000061
Figure BDA0001153937140000062
Figure BDA0001153937140000063
Figure BDA0001153937140000064
Figure BDA0001153937140000065
Figure BDA0001153937140000066
22)根据训练集中参考句子的情况,生成单词表,对于MSCOCO数据集,单词表长度为10020,对于Flickr30K数据集,单词表长度为7406,对于Flick8K,单词表长度为2549;并统计数据集中参考句子的长度,将每层LSTM的步长设置为20;在MSCOCO数据集上,其隐层输出设置为1000,在Flickr30K数据集上,LSTM隐层输出为512,在Flickr8K上,隐层输出设置为256.
23)将单词表中每个单词,使用“One-Hot”方式进行映射,每个单词对应一个映射后的向量,向量维度为单词表大小;
24)使用“因子分解”的方式建立LSTM网络,首先在CNN网络和LSTM之间添加嵌入层,将样本参考句子中的每个单词通过嵌入的方式映射为一个维度为1000的长度固定的向量;然后建立两层LSTM单元,第一层用于接收单词的嵌入式向量,建立语言模型,第二层用于接收第一层LSTM的输出和图像的CNN特征,建立多模模型;
25)在LSTM网络上添加一个全连接层(分类层),其隐层输出为单词表大小;
3.采用联合训练的方式对模型进行训练,将CNN网络和LSTM网络中的参数进行联合优化,避免模型陷入局部最优(如图3(a)所示)。具体步骤包括:
31)将每张图像看作一个单独的类别,为其分别类别标签;
32)使用GoogLeNet提取图像的CNN特征,并送入LSTM网络;
33)使用交叉熵函数计算网络输出的每个单词与实际值之间的误差,并对每张图像中生成句子的每个单词与所有参考句子中单词的误差进行求和;具体表示为:
Figure BDA0001153937140000071
则系统目标为迭代优化(θ12),使得损失函数
Figure BDA0001153937140000074
最小。其中系统损失函数
Figure BDA0001153937140000075
可表示为:
Figure BDA0001153937140000072
N2表示在训练LSTM网络时,一次迭代中所使用的样本总量,Lk表示第k个样本所对应的参考句子的长度。
34)使用链式法则逐层计算误差,并将其回传至整个模型的底层,采用梯度下降的算法,对参数进行更新;
Figure BDA0001153937140000073
其中α表示学习率。
4.使用逐层优化的思想和深度监督的方法,逐步增加LSTM网络的层次,提取更加抽象,泛化能力更强的特征,提升生成句子的质量(如图3(b)和图4所示)。具体过程包括:
41)将第3)步中已训练好的模型记为S_1,其中的LSTM网络部分记为M_1;将S_1作为下一阶段的预训练模型;
42)在M_1的基础上添加新的LSTM层,记为M_2,同时保留M_1中的辅助分支(分类层)和目标函数,但将辅助分支中的学习率调整因子和权值衰减因子设置为原来的1/10;M_2仍然包括两层LSTM单元,第一层用于接收M_1中顶层LSTM单元的输出,第二层接收第一层LSTM的输出和图像的CNN特征;同时添加新的辅助分支(分类层)和目标函数;
43)重复42)过程,直到在验证集上性能不再提升,目前还没有发现很好的方法来判定什么时候性能不再提升,所以一般都是通过实验来决定,具体指标包括BLEU、METEOR、CIDEr等,根据经验,一般在大的数据集上可添加的层次更多,在小的数据集上则由于经常发生过拟合现象,添加的层次较少,系统整体的损失函数可描述为:
Figure BDA0001153937140000081
其中n为阶段数(也为目标函数的个数)。
5.在测试阶段,将LSTM网络中各分支输出的概率分值进行融合,采用共同决策的方式,决定下一个单词的输出(如图5所示)。具体步骤包括:
51)在每个M_i上,在辅助分支(分类层)后添加Softmax函数,取出当前特征属于单词表中每个单词的概率分值;
52)将当前特征的所有概率分值使用乘法原理进行融合,具体为:
Figure BDA0001153937140000082
其中,
Figure BDA0001153937140000083
表示CNN特征
Figure BDA0001153937140000087
在t时刻属于第k个单词的概率,
Figure BDA0001153937140000084
表示LSTM网络中在t时刻第j个阶段的特征输出;
53)对于t时刻,取所有概率值最大者所对应的单词作为最终输出,具体为:
Figure BDA0001153937140000085
为了验证本申请方法的性能,设计了以下实验。
在三个公开数据集上(MSCOCO、Flickr30K和Flickr8K)使用本方法进行训练以及测试,使用BLEU、METEOR、ROUGE_L和CIDEr标准来对生成的句子进行评价。为便于对比,使用S_1模型作为基准模型(baseline)。在MSCOCO数据集上,其训练集有113287张图像,验证集和验证集各有5000张图像,每张图像有5条以上人工标注的参考句子;在Flickr30K数据集上,共有31783张图像,使用其中的29000张图像作为训练集,1000张图像作为测试集,其他作为验证集;在Flickr8K数据集上,共包含有8091张图像,我们取其中6000张图像用于训练,1000张图像用于测试,其余作为验证集。在各数据集上的实验结果如表1、表2和表3所示。
表1本发明在MSCOCO数据集上性能表现
Figure BDA0001153937140000086
Figure BDA0001153937140000091
表2本发明在Flickr30K数据集上性能表现
method B-1 B-2 B-3 B-4 METEOR ROUGE_L CIDEr
baseline 64.3 45.7 31.8 21.9 19.1 45.5 43.7
Deep-2 64.4 45.8 31.6 21.6 19.3 45.4 43.9
Deep-4 64.8 46.4 32.3 22.3 19.4 45.6 44.1
表3本发明在Flickr8K数据集上性能表现
method B-1 B-2 B-3 B-4 METEOR ROUGE_L CIDEr
baseline 61.5 43.9 30.1 20.4 20.5 46.9 51.7
Deep-2 61.8 43.7 29.9 20.3 20.7 47.3 52.2
Deep-4 62.4 44.5 30.5 20.7 20.8 47.2 52.1

Claims (5)

1.一种基于深度LSTM网络的图像描述生成方法,其特征在于,包括以下步骤:
1)提取图像描述数据集中图像的CNN特征并获取与图像对应描述参考句子中单词的嵌入式向量;
2)建立双层LSTM网络,其中,第一层LSTM以单词的嵌入式向量为输入,第二层LSTM以第一层LSTM的输出和CNN网络输出的图像的CNN特征为输入,并结合双层LSTM网络和CNN网络进行序列建模生成多模LSTM模型;
3)采用联合训练的方式对多模LSTM模型进行训练,将CNN网络和LSTM网络中的参数进行联合优化;
31)构建目标函数O,并获取使得损失函数
Figure FDA0004051620740000011
最小的优化参数集合(θ12):
Figure FDA0004051620740000012
Figure FDA0004051620740000013
θ1为CNN网络的参数集合,θ2为LSTM网络的参数集合,X2为图像描述数据集中的输入图像,S为与X2对应的描述参考句子,f(g)表示系统函数,
Figure FDA0004051620740000014
为损失函数,N2为训练LSTM网络时,一次迭代中所使用的样本总数,Lk为第k个样本所对应的参考句子的长度,
Figure FDA0004051620740000015
为第k张图像对应的描述参考句子的第t个单词,
Figure FDA0004051620740000016
为生成的第k张图像的第t个单词,
Figure FDA0004051620740000017
为输入的第k张图像,
Figure FDA0004051620740000018
为第k张图像的参考句子的第t-1个单词,
Figure FDA0004051620740000019
为实数域;
32)采用链式法则计算误差并采用随机梯度下降的方法对误差进行修正;
33)将误差回传到CNN网络中,将每条句子中每个单词的的误差进行求和,并逐层向前传递,完成优化;
4)逐层增加多模LSTM模型中LSTM网络的层次,每增加一层并进行训练,直至生成图像描述句子的质量性能不再提升,最终获得逐层多目标优化及多层概率融合的图像描述模型;
5)将逐层多目标优化及多层概率融合的图像描述模型中多层LSTM网络中各分支输出的概率分值进行融合,采用共同决策的方式,将概率最大对应的单词输出。
2.根据权利要求1所述的一种基于深度LSTM网络的图像描述生成方法,其特征在于,所述的步骤1)具体包括以下步骤:
11)将图像描述数据集中的图像缩放至256×256大小;
12)在图像上随机截取5个224×224大小的图像块,并将其进行水平翻转,对数据集进行扩充;
13)设置CNN网络中的卷积层和分类层的学习率调整因子和权值衰减因子为原来的1/10;
14)加载在Imagenet数据集上已优化完毕的参数对模型进行初始化;
15)将各图像块输入CNN网络,提取图像的CNN特征,该CNN特征维度为1000维。
3.根据权利要求1所述的一种基于深度LSTM网络的图像描述生成方法,其特征在于,所述的步骤2)具体包括以下步骤:
21)构建双层LSTM网络中的LSTM单元,并设置输入门、输出门、遗忘门和记忆单元;
22)获取数据集中描述参考句子的平均长度,并设置每层LSTM的时间步长和隐层单元个数;
23)对单词表中的每个单词采用One-Hot方式进行编码,编码维度为单词表的长度;
24)将描述参考句子中每个单词的One-Hot编码映射为一个嵌入式向量,并设置向量维度;
25)将每个单词的嵌入式向量作为第一层LSTM的输入,并将第一层LSTM的输出和图像CNN特征作为第二层LSTM的输入,建立多模LSTM模型;
27)将双层LSTM网络的最终输出输送到分类层,并采用Softmax函数输出该特征在每个单词上的概率分值。
4.根据权利要求1所述的一种基于深度LSTM网络的图像描述生成方法,其特征在于,所述的步骤4)具体包括以下步骤:
41)将训练好的多模LSTM模型作为初始模型,记为S_1,初始模型S_1中的双层LSTM网络为初始层次,记为M_1;
42)在初始层次M_1的基础上,增加一层与初始层次M_1结构相同的新层次,并采用因式分解的方式进行联结,即:
新层次中的第一层LSTM以初始层次的输出以及单词的嵌入式向量为输入,第二层LSTM以第一层LSTM的输出和初始模型中CNN网络输出的图像CNN特征为输入;
43)对增加新层次后的模型进行训练优化,包括以下步骤:
431)保留初始层次M_1中的目标函数,并将其辅助分支中的分类层的学习率调整因子和衰减因子设置为原来的1/10;
432)构建增加新层次后的模型的系统代价函数为
Figure FDA0004051620740000031
其中,n为增加新层次的总数,
Figure FDA0004051620740000032
为在模型增加到第i层进行训练时对应的代价函数;
43)重复步骤41)-42),在初始层次M_1上逐层增加新的层次并进行训练,直到增加层次使得模型性能不再提升。
5.根据权利要求1所述的一种基于深度LSTM网络的图像描述生成方法,其特征在于,所述的步骤5)具体包括以下步骤:
51)为每个辅助分支添加Softmax函数,输出当前特征属于单词表中每个单词的概率分值;
52)对相应位置的所有概率分值使用乘法原理进行融合;
53)取所有概率值最大者所对应的单词作为最终输出。
CN201611022441.7A 2016-11-16 2016-11-16 一种基于深度lstm网络的图像描述生成方法 Active CN106650789B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611022441.7A CN106650789B (zh) 2016-11-16 2016-11-16 一种基于深度lstm网络的图像描述生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611022441.7A CN106650789B (zh) 2016-11-16 2016-11-16 一种基于深度lstm网络的图像描述生成方法

Publications (2)

Publication Number Publication Date
CN106650789A CN106650789A (zh) 2017-05-10
CN106650789B true CN106650789B (zh) 2023-04-07

Family

ID=58808262

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611022441.7A Active CN106650789B (zh) 2016-11-16 2016-11-16 一种基于深度lstm网络的图像描述生成方法

Country Status (1)

Country Link
CN (1) CN106650789B (zh)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107562784A (zh) * 2017-07-25 2018-01-09 同济大学 基于ResLCNN模型的短文本分类方法
CN107529651B (zh) * 2017-08-18 2020-10-16 北京航空航天大学 一种基于深度学习的城市交通客流预测方法和设备
CN110599557B (zh) 2017-08-30 2022-11-18 深圳市腾讯计算机系统有限公司 图像描述生成方法、模型训练方法、设备和存储介质
CN108228700B (zh) * 2017-09-30 2021-01-26 北京市商汤科技开发有限公司 图像描述模型的训练方法、装置、电子设备及存储介质
CN107679522B (zh) * 2017-10-31 2020-10-13 内江师范学院 基于多流lstm的动作识别方法
CN108052512B (zh) * 2017-11-03 2021-05-11 同济大学 一种基于深度注意力机制的图像描述生成方法
CN109784487B (zh) * 2017-11-15 2023-04-28 富士通株式会社 用于事件检测的深度学习网络、该网络的训练装置及方法
CN108171198B (zh) * 2018-01-11 2020-02-11 合肥工业大学 基于非对称多层lstm的连续手语视频自动翻译方法
CN110084356B (zh) * 2018-01-26 2021-02-02 赛灵思电子科技(北京)有限公司 一种深度神经网络数据处理方法和装置
CN110135446B (zh) * 2018-02-09 2021-01-22 北京世纪好未来教育科技有限公司 文本检测方法及计算机存储介质
CN108564122A (zh) * 2018-04-10 2018-09-21 北京工业大学 基于卷积-循环混合网络的图像描述模型的一体化训练方法
CN108520238B (zh) * 2018-04-10 2021-08-31 东华大学 一种基于深度预测编码网络的夜视图像的场景预测方法
CN108922634A (zh) * 2018-06-13 2018-11-30 平安医疗科技有限公司 基于在线问诊的问题答复处理方法、装置和计算机设备
CN108959512B (zh) * 2018-06-28 2022-04-29 清华大学 一种基于属性增强注意力模型的图像描述网络及技术
CN109147940B (zh) * 2018-07-05 2021-05-25 科亚医疗科技股份有限公司 从患者的医学图像自动预测生理状况的装置和系统
CN109145946B (zh) * 2018-07-09 2022-02-11 暨南大学 一种智能图像识别和描述方法
CN108960338B (zh) * 2018-07-18 2021-10-08 苏州科技大学 基于注意力反馈机制的图像自动语句标注方法
CN108986470B (zh) * 2018-08-20 2022-03-29 华南理工大学 粒子群算法优化lstm神经网络的行程时间预测方法
CN108989804B (zh) * 2018-08-23 2021-04-27 杭州雄迈集成电路技术股份有限公司 图像的编码方法及装置
CN109447242B (zh) * 2018-10-10 2021-08-20 复旦大学 基于迭代学习的图像描述重生成系统及方法
CN109685314B (zh) * 2018-11-20 2021-10-29 中国电力科学研究院有限公司 一种基于长短期记忆网络的非侵入负荷分解方法和系统
US11544531B2 (en) * 2018-12-05 2023-01-03 Seoul National University R&Db Foundation Method and apparatus for generating story from plurality of images by using deep learning network
CN109753900B (zh) * 2018-12-21 2020-06-23 西安科技大学 一种基于cnn/lstm的盲人辅助视觉系统
CN109902750A (zh) * 2019-03-04 2019-06-18 山西大学 基于双向单注意力机制图像描述方法
CN110136226B (zh) * 2019-04-08 2023-12-22 华南理工大学 一种基于图像组协同描述生成的新闻自动配图方法
CN110033008B (zh) * 2019-04-29 2023-08-04 同济大学 一种基于模态变换与文本归纳的图像描述生成方法
CN110096707B (zh) * 2019-04-29 2020-09-29 北京三快在线科技有限公司 生成自然语言的方法、装置、设备及可读存储介质
CN110232413A (zh) * 2019-05-31 2019-09-13 华北电力大学(保定) 基于gru网络的绝缘子图像语义描述方法、系统、装置
CN110519653B (zh) * 2019-07-22 2021-09-03 同济大学 一种基于事实转移的情感嵌入视频描述方法
CN110738138A (zh) * 2019-09-26 2020-01-31 哈尔滨工程大学 基于循环神经网络的水声通信信号调制模式识别方法
CN113450433B (zh) * 2020-03-26 2024-08-16 阿里巴巴集团控股有限公司 图片生成方法、装置、计算机设备和介质
CN111310867B (zh) * 2020-05-11 2020-09-01 北京金山数字娱乐科技有限公司 一种基于图片的文本生成方法及装置
CN111738226B (zh) * 2020-07-31 2020-11-20 中国人民解放军国防科技大学 一种基于cnn和rcnn模型的文本识别方法及装置
CN111833845B (zh) * 2020-07-31 2023-11-24 平安科技(深圳)有限公司 多语种语音识别模型训练方法、装置、设备及存储介质
CN112329827B (zh) * 2020-10-26 2022-08-23 同济大学 一种基于元学习的增量小样本目标检测方法
CN114973061B (zh) * 2022-04-24 2023-06-23 哈尔滨工程大学 基于深度学习方法的辅助抗沉决策模型生成方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104700828A (zh) * 2015-03-19 2015-06-10 清华大学 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法
CN105279495A (zh) * 2015-10-23 2016-01-27 天津大学 一种基于深度学习和文本总结的视频描述方法
CN105631468A (zh) * 2015-12-18 2016-06-01 华南理工大学 一种基于rnn的图片描述自动生成方法
GB201615051D0 (en) * 2016-09-05 2016-10-19 Kheiron Medical Tech Ltd Multi-modal medical image procesing

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104700828A (zh) * 2015-03-19 2015-06-10 清华大学 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法
CN105279495A (zh) * 2015-10-23 2016-01-27 天津大学 一种基于深度学习和文本总结的视频描述方法
CN105631468A (zh) * 2015-12-18 2016-06-01 华南理工大学 一种基于rnn的图片描述自动生成方法
GB201615051D0 (en) * 2016-09-05 2016-10-19 Kheiron Medical Tech Ltd Multi-modal medical image procesing

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Guiding the Long-Short Term Memory model for Image Caption Generation;Xu Jia 等;《Computer Vision Foundation》;20160218;全文 *
Long-Term Recurrent Convolutional Networks for Visual Recognition and Description;Jeff Donahue 等;《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》;20160901;全文 *
并行交叉的深度卷积神经网络模型;汤鹏杰 等;《中国图象图形学报》;20160412;全文 *

Also Published As

Publication number Publication date
CN106650789A (zh) 2017-05-10

Similar Documents

Publication Publication Date Title
CN106650789B (zh) 一种基于深度lstm网络的图像描述生成方法
CN113254648B (zh) 一种基于多层次图池化的文本情感分析方法
CN109492099B (zh) 一种基于领域对抗自适应的跨领域文本情感分类方法
CN110033008B (zh) 一种基于模态变换与文本归纳的图像描述生成方法
CN112131404B (zh) 一种四险一金领域知识图谱中实体对齐方法
CN111488734B (zh) 基于全局交互和句法依赖的情感特征表示学习系统及方法
CN108133038B (zh) 一种基于动态记忆网络的实体级别情感分类系统及方法
CN109783666B (zh) 一种基于迭代精细化的图像场景图谱生成方法
CN111753024B (zh) 一种面向公共安全领域的多源异构数据实体对齐方法
CN111581966B (zh) 一种融合上下文特征方面级情感分类方法和装置
CN112488241B (zh) 一种基于多粒度融合网络的零样本图片识别方法
CN107220506A (zh) 基于深度卷积神经网络的乳腺癌风险评估分析系统
CN110390017B (zh) 基于注意力门控卷积网络的目标情感分析方法及系统
CN107729311B (zh) 一种融合文本语气的中文文本特征提取方法
CN111008293A (zh) 基于结构化语义表示的视觉问答方法
CA3069365A1 (en) Generation of point of interest copy
CN111598183B (zh) 一种多特征融合图像描述方法
CN109711465A (zh) 基于mll和asca-fr的图像字幕生成方法
CN109101490B (zh) 一种基于融合特征表示的事实型隐式情感识别方法和系统
CN112464816A (zh) 基于二次迁移学习的地方手语识别方法、装置
Wysoczańska et al. CLIP-DINOiser: Teaching CLIP a few DINO tricks for open-vocabulary semantic segmentation
CN110674642A (zh) 一种用于含噪稀疏文本的语义关系抽取方法
Du et al. Structure tuning method on deep convolutional generative adversarial network with nondominated sorting genetic algorithm II
CN116258990A (zh) 一种基于跨模态亲和力的小样本参考视频目标分割方法
CN114818719B (zh) 一种基于复合网络与图注意力机制的社区话题分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant