Nothing Special   »   [go: up one dir, main page]

CN111160467B - 一种基于条件随机场和内部语义注意力的图像描述方法 - Google Patents

一种基于条件随机场和内部语义注意力的图像描述方法 Download PDF

Info

Publication number
CN111160467B
CN111160467B CN201911394190.9A CN201911394190A CN111160467B CN 111160467 B CN111160467 B CN 111160467B CN 201911394190 A CN201911394190 A CN 201911394190A CN 111160467 B CN111160467 B CN 111160467B
Authority
CN
China
Prior art keywords
image
description
network
word
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911394190.9A
Other languages
English (en)
Other versions
CN111160467A (zh
Inventor
宋丹丹
骆源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Publication of CN111160467A publication Critical patent/CN111160467A/zh
Application granted granted Critical
Publication of CN111160467B publication Critical patent/CN111160467B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于条件随机场和内部语义注意力的图像描述方法,属于计算机视觉与自然语言处理交叉技术领域。首先处理训练数据,然后设计网络结构模型,采用现有的卷积神经网络和目标检测网络提取图像特征,设计带有内部语义注意力机制和注意力特征残差结构的循环神经网络生成图像对应的描述;接下来采用交叉熵损失函数和条件随机场损失函数相结合的方式作为训练目标,使用处理好的训练数据训练网络模型,得到一个具有图像语义描述生成功能的网络;最后,将任意图像输入该网络,获得相应的描述。本方法相比于现有技术,既保证了生成描述句式上的准确性,又解决了生成的描述中出现的重复短语问题,使生成的描述更能捕捉到图像中的关键信息。

Description

一种基于条件随机场和内部语义注意力的图像描述方法
技术领域
本发明涉及一种基于条件随机场和内部语义注意力的图像描述方法,尤其涉及一种基于条件随机场的深度网络模型,运用特有的内部语义注意力机制结合注意力特征残差结构的网络模型来生成图像对应的语义描述,属于计算机视觉与自然语言处理交叉技术领域。
背景技术
随着互联网上图像数据的爆炸性增长,通过人工的方式进行图像语义信息识别和检索已经变得不太现实。而图像本身的数据结构较为抽象,却包含丰富的信息,通过深度学习的方法对图像生成描述、挖掘其中的语义信息在图像检索、AI问答、智能推荐等领域具有广泛的应用场景。
传统的图像语义描述方法包括基于模板填充的图像描述方法和基于检索的图像描述方法,这些方法结果不够准确,并且耗费大量时间进行额外工作。几年来,以编码器-解码器架构为主的深度学习方法也被应用到图像语义描述生成这一领域中来,而图像描述训练与生成过程的不一致问题一直使生成的图像描述过于单一,也不够准确。
为了解决这些问题,一些研究人员开始将强化学习、注意力机制等方法引入图像语义描述生成领域,尝试生成更加准确的图像描述。但是目前的方法仍不能有效的解决句式不准确,以及生成的描述中出现重复短语的问题。
发明内容
本发明的目的是为了克服现有技术的不足,提出一种基于条件随机场和内部语义注意力的图像描述方法,能够获得句式更加精准、内容更加细致的图像描述。
本发明的原理是首先处理训练数据,然后设计网络结构模型,采用现有的卷积神经网络和目标检测网络提取图像特征,设计带有内部语义注意力机制和注意力特征残差结构的循环神经网络生成图像对应的描述;接下来采用交叉熵损失函数和条件随机场损失函数相结合的方式作为训练目标,使用处理好的训练数据训练网络模型,得到一个具有图像语义描述生成功能的网络;最后,将任意图像输入该网络,获得相应的描述。
本发明的目的是通过以下技术方案实现的:
一种基于条件随机场和内部语义注意力的图像描述方法,包括以下步骤:
步骤1:处理训练数据
对图像描述数据集中所有的描述进行预处理,将所有的描述转换为预定义的形式,然后统计每个单词的个数,将出现次数高于预定义次数的单词保存进字典,并将出现次数低于预定义次数的单词以及空白位置用预设的符号代替,最终得到词典Vocab;同时,对于数据集中参考描述低于预定义句子个数的描述,通过随机复制已有参考描述的方式,使得每张图像最少拥有预定义句子个数的描述;另外,为了在后续阶段应用条件随机场损失,使用一种词性标注的方法提取图像描述中各个单词对应的词性,并记录下来;
步骤2:设计网络结构模型
网络结构模型使用传统的编码器-解码器架构;编码器为ResNet101和Faster R-CNN;解码器为经过改进的LSTM模型;
采用在ImageNet数据集上预训练的ResNet101网络最后一个卷积层提取图像中的特征,得到的特征维度为2048×14×14,记作A={a1,…,ak},
Figure BDA0002345850150000021
Figure BDA0002345850150000022
k=196,ai表示每个位置上的图像特征;对所有ai取平均值得到全局特征,记作ag
Figure BDA0002345850150000023
全局特征只在t=0的时刻传入到解码器的第一个LSTM单元中,后续时刻不再传入;
使用Faster R-CNN提取图像的局部注意力特征,记作I={I1,…,Ii,…In},
Figure BDA0002345850150000031
Figure BDA0002345850150000032
n表示提取出来的局部注意力特征个数;
解码器以LSTM(长短期记忆网络)网络为基础,加入内部语义注意力特征和图像注意力特征,具体公式如下:
h0=Wgag+bg (2)
ft=σ(Wfxxt+Wfhht-1+bf) (3)
it=σ(Wixxt+Wihht-1+bi) (4)
ot=σ(Woxxt+Wohht-1+bo) (5)
ct=it⊙tanh(Wzxxt+Wzhht-1+WzIIt+WzSSt+bz)+ft⊙ct-1 (6)
ht=ot⊙tanh(ct) (7)
其中,h0是第0时刻的隐层状态,Wg是全连接层,bg是偏置项;ft表示遗忘门,用于控制模型在学习的过程中需要遗忘掉的无用信息,Wfx和Wfh是全连接层,bf是偏置项,xt表示第t时刻的词向量输入,t为整数,且1≤t≤ENDT,ENDT是预定义的图像描述中单词的长度;it表示输入门,用于控制哪些新产生的信息应该写入记忆单元ct,Wix和Wih是全连接层,bi是偏置项;ot表示输出门,用于确定在记忆单元ct中,哪些信息能够对当前的隐层状态ht产生影响,Wox和Woh是全连接层,bo是偏置项;在这三个状态门中,σ是sigmoid函数;⊙是点乘函数;在ct中,It是得到的图像注意力特征,St是内部语义注意力特征,Wzx,Wzh,WzI,WzS均为全连接层,用于将对应的特征xt,ht-1,It,St等映射到同一向量空间,bz表示偏置项;图像注意力特征由如下公式得到:
Figure BDA0002345850150000033
Figure BDA0002345850150000034
Score(ht-1,Ii)=Wtanh(Wahht-1+WaIIi) (10)
其中
Figure BDA0002345850150000041
表示在解码的过程中,t时刻的局部特征注意力权重,通过相似度评分Score和softmax函数得到,在Score函数中Wah和WaI用于将图像特征和文本特征映射到同一个向量空间;tanh函数是激活函数;W表示全连接层;
内部语义注意力特征由如下公式得到:
Figure BDA0002345850150000042
Figure BDA0002345850150000043
Evalue(ht,hi)=Wtanh(W1ht+W2hi) (13)
其中
Figure BDA0002345850150000044
表示在解码的过程中,t时刻对已生成的描述的注意力权重,通过相似度评分Evalue和softmax函数得到;在Evalue函数中,W1和W2用于将不同时刻的隐层状态映射到同一向量空间;
解码器中预测单词的结构如下:
p(yt=w)=softmax(htV+ItW3+StW4) (14)
其中p(yt=w)是一个大小为Vocab长度的向量,表示在t时刻,预测的单词yt等于Vocab中的单词w的概率大小,V,W3,W4分别为隐层状态、图像注意力特征和内部语义注意力特征的映射矩阵,目的是将这三类特征映射到词典大小的向量空间;在预测时,选择概率最大的位置对应的单词作为第t时刻的预测单词;
步骤3:设计网络的损失函数
损失函数L为:
L=γlossCRF+βlossXE (15)
其中lossCRF表示条件随机场损失函数,lossXE表示交叉熵损失函数,γ和β分别是条件随机场损失和交叉熵损失的权重;
其中为了最大化预测描述分布概率逼近与真实描述的分布概率,得到的交叉熵损失函数如下公式所示:
Figure BDA0002345850150000045
其中yt表示t时刻的预测单词,yrt表示t时刻的真实单词,p(yt=yrt)表示在t时刻预测单词等于真实单词的概率;
为了使生成的描述序列能够保证句式的准确性,即给定输入的真实描述的条件下,能够输出真实的词性序列;因此定义条件随机场损失函数如公式(17)所示:
lossCRF=-log(p(tag|x)) (17)
Figure BDA0002345850150000051
Figure BDA0002345850150000052
其中,x表示输入的真实描述序列,tag表示x对应的真实词性序列;tags表示所有可能输出的词性序列,S表示给定描述序列和词性序列的情况下的评分函数;
Figure BDA0002345850150000053
Pi,i表示x中第i个词汇xi对应到tag中第i个词性tagi的概率,
Figure BDA0002345850150000054
Ai,j表示xi对应的词性tagi到xi+1对应的词性tagi+1的转移概率;
步骤4:用步骤1中处理好的训练数据和步骤2、4中定义好的模型结构和损失函数,训练网络模型,训练过程如下:
Step1:初始化模型参数:对编码器网络中的参数使用Xavier的方法进行初始化;
Step2:将图像传入到编码器网络得到图像的全局特征和局部特征并取出每张图像对应的预定义句子个数的真实描述,以及各描述对应的词性标注序列;
Step3:在解码器LSTM的初始状态,将图像的全局特征传入到第一个LSTM单元中得到第一个LSTM单元的状态向量,同时输入一个预定义的开始向量,得到第一个位置上的预测单词和预测词性,在后续时刻,对每个LSTM单元输入真实描述对应的单词向量,以及上一LSTM单元的隐层状态,更新这一时刻的LSTM单元参数,并由此预测相应的单词和词性;最后根据真实的描述和词性标注序列,由步骤3中设计好的损失函数计算得到损失;
Step4:使用优化方法,设置好初始化学习率,以及学习率衰减速率,对参数进行更新;
Step5:重复Step2-Step4,不断进行迭代,直到损失函数收敛;
经过以上训练,得到一个图像语义描述生成网络,即经训练的步骤2的编码器-解码器;
步骤5:根据图像得到对应的图像描述;
将一张待获取其描述的图像输入到步骤4中得到的图像语义描述生成网络中,即可以得到对应的自然语言描述。
有益效果
本发明方法,与现有技术相比,具有以下有益效果:
本发明设计的编码器模型使用条件随机场层对词性的约束,有效的增强输出描述前后单词之间的联系,保证了生成句式的准确性。
本发明在图像注意力机制的基础上融合了内部语义注意力机制,加强了输出描述过程中图像与语言结合共同对结果产生的影响,有效的减轻了出现重复短语的问题。
本发明采用了注意力特征残差结构,有效的使底层的抽象特征信息对高层语义产生更加持久的影响,生成的描述关注的重点更加接近人类描述。
本发明增加了条件随机场层损失函数,有效的增强输出描述前后单词之间的联系,保证了生成句式的准确性。
本发明适用于任何图片,均有较好效果,具有普适性。
附图说明
图1为本发明方法的工作流程图:
图2为本发明方法的整体网络结构图:
图3为本发明方法的加入内部语义注意力机制前后网络结构对比图:
图4为本发明方法的注意力特征残差结构图:
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
实施例
本实施例为在MS COCO数据集上进行训练并应用的过程。
一种基于条件随机场和内部语义注意力的图像描述方法,如图1所示,包括以下步骤:
步骤1:处理训练数据。使用MS COCO上用于图像描述生成的数据集作为训练集。对数据集中所有的描述进行预处理,将所有的描述转换为小写表示,然后统计每个单词的个数,将出现次数高于5次的单词保存进字典,并将出现次数低于5次的单词以及空白位置用“UNK”代替,最终得到词典Vocab。同时,对于数据集中参考描述低于5句的描述,通过随机复制已有参考描述的方式,使得每张图像最少拥有5句相应描述。再使用spaCy方法提取出图像描述中各个单词对应的词性,并记录下来。
步骤2:设计网络结构模型。图2是网络的整体结构图,其中主要包括用于提取特征的编码器:ResNet101和Faster R-CNN,以及经过改进的解码器LSTM单元。ResNet101网络需要在ImageNet数据集上经过预训练,Faster R-CNN也需要先使用在ImageNet上预训练好的ResNet101来初始化其卷积层,再在输出部分增加额外的输出层用来预测区域i的属性类别,在Visual Genome数据集上完成预训练初始化参数的过程。整体的模型中,损失函数包括交叉熵损失和条件随机场损失。ENDT设为10,即图像描述中单词个数最多为10个,该设置可以根据数据集的不同而不同。图3展示了加入内部语义注意力特征前后的LSTM结构对比图。
如图2所示,整体的网络先输入一张原图。然后分别经过ResNet101和FasterR-CNN这两个网络来提取图像的全局特征和局部特征,其中n定义为32。接着在第0时刻,向如图2所示的LSTM单元中传入图像的全局特征,以及初始化预定义的词向量<START>,得到初始时刻的LSTM隐层状态,通过隐层状态,使用全连接和softmax操作可以得到当前预测的单词。在后续时刻,往LSTM单元中传入:由公式(8)计算得到的局部图像注意力特征、由公式(11)计算得到的内部语义注意力信息、上一时刻LSTM单元的隐层状态、图像对应真实描述中该时刻对应的词向量。这样可以更新当前时刻的LSTM单元,然后通过图4所示的注意力特征残差结构以及公式(15)的计算预测单词在词典中的分布概率,将概率最大对应位置的单词作为当前时刻的预测单词。在编码器加入注意力特征残差结构,为了使低层的抽象特征信息对高层的语义信息产生更久远的影响,使用了如图4所示的注意力特征残差结构。主要通过将得到的图像注意力特征和内部语义注意力特征以及LSTM单元的隐层状态,分别通过全连接层映射到词典大小的空间后,再进行加权求和和softmax来得到预测单词在词典中的概率分布。
步骤3:设计网络的损失函数。
主要包括原始的交叉熵损失函数和本方法提出的条件随机场损失函数。其中交叉熵损失是为了保持句子的流畅度,条件随机场损失通过约束生成词性的准确性进而约束生成描述句式的准确性。
具体的,预定义次数和预定义句子个数设为5,ENDT设为20,即一个图像描述句子中由最多20个单词组成,对于输入的图像描述少于20个单词的句子,缺损的单词用预定义的符号表示。公式(15)中总体损失函数的γ和β分别设置为0.25和0.75。0.25和0.75的分配能够保证模型不会因为过分关注生成描述句式的准确性,而导致模型对当前的描述目标给予的关注变少,使得描述物体不准确的问题。
步骤4:用步骤1中处理好的训练数据和步骤2、3中定义好的模型结构和损失函数,训练网络模型。
Step1:初始化模型参数。对编码器网络中的参数使用Xavier的方法进行初始化。
Step2:按batch大小,取出所有图像在步骤1中得到的全局特征、局部特征。以及每张图像对应的5句真实描述,以及各描述对应的词性标注序列。
Step3:在初始状态,将图像的全局特征传入到我们设计的解码器网络中,得到初始LSTM单元的状态向量,并输入一个预先规定的<START>向量,得到第一个位置上的预测单词和预测词性。在后续时刻,对每个LSTM单元输入真实描述对应的单词向量以及上一LSTM单元的隐层状态,更新这一时刻的LSTM单元,并由此预测相应的单词和词性。其中,在训练时第0时刻的输入x0是预定义的词向量<START>,第1时刻的输入x1是图片对应真实描述第0位置的单词的词向量,以此类推,直到第ENDT时刻。并根据真实的描述和词性标注序列,由步骤4中设计好的损失函数计算得到损失。
Step4:使用Adam的优化方法,设置初始化学习率为0.0005,并且每进行三轮训练就对学习率按0.8的速率衰减,对参数进行更新。
Step5:重复Step2-Step4,不断进行迭代,直到损失函数收敛。
经过以上训练,得到一个图像语义描述生成网络。
步骤5:根据图像得到对应的图像描述。
将一张图像输入到步骤4中得到的图像语义描述生成网络中,由训练好的网络结构进行前向传播,这里与训练时刻各个LSTM单元稍有区别的是,第0时刻的输入x0是预定义的词向量<START>,第1时刻的输入x1是第0时刻的输出词向量y0,第2时刻的输入x2是第1时刻的输出词向量y1,以此类推,直到第ENDT时刻;最后将y1至yENDT依次连接即可以得到对应的自然语言描述。
实验效果
为了验证本发明方法的有效性,我们在MSCOCO caption数据集上进行了充分验证;表1是在MSCOCO数据集上的实验结果。
表1:MSCOCO数据集上的实验结果
Figure BDA0002345850150000101
其中SCST:Att2in是对比的基线模型:,CRFA(基于条件随机场的图像语义生成模型)是本发明方法模型。评价指标这一列中的列出7种评价指标是图像描述领域常用的评价方法,得分越高表示模型的效果越好。从实验结果可以看出,本专利中提出的模型相比于基线模型在MSCOCO数据集上的各项评分上都有较大的提升。
为了说明本发明的内容及实施方法,本说明书给出了上述具体实施例。但是,本领域技术人员应理解,本发明不局限于上述最佳实施方式,任何人在本发明的启示下都可得出其他各种形式的产品,但不论在其形状或结构上作任何变化,凡是具有与本申请相同或相近似的技术方案,均落在本发明的保护范围之内。

Claims (2)

1.一种基于条件随机场和内部语义注意力的图像描述方法,其特征在于,包括以下步骤:
步骤1:处理训练数据
对图像描述数据集中所有的描述进行预处理,将所有的描述转换为预定义的形式,然后统计每个单词的个数,将出现次数高于预定义次数的单词保存进字典,并将出现次数低于预定义次数的单词以及空白位置用预设的符号代替,最终得到词典Vocab;同时,对于数据集中参考描述低于预定义句子个数的描述,通过随机复制已有参考描述的方式,使得每张图像最少拥有预定义句子个数的描述;另外,为了在后续阶段应用条件随机场损失,使用一种词性标注的方法提取图像描述中各个单词对应的词性,并记录下来;
步骤2:设计网络结构模型
网络结构模型使用传统的编码器-解码器架构;编码器为ResNet101和Faster R-CNN;解码器为经过改进的LSTM模型;
采用在ImageNet数据集上预训练的ResNet101网络最后一个卷积层提取图像中的特征,得到的特征维度为2048×14×14,记作
Figure FDA0003245367060000011
Figure FDA0003245367060000012
ai表示每个位置上的图像特征;对所有ai取平均值得到全局特征,记作ag
Figure FDA0003245367060000013
全局特征只在t=0的时刻传入到解码器的第一个LSTM单元中,后续时刻不再传入;
使用Faster R-CNN提取图像的局部注意力特征,记作
Figure FDA0003245367060000014
Figure FDA0003245367060000015
n表示提取出来的局部注意力特征个数;
解码器以LSTM网络为基础,加入内部语义注意力特征和图像注意力特征,具体公式如下:
h0=Wgag+bg (2)
ft=σ(Wfxxt+Wfhht-1+bf) (3)
it=σ(Wixxt+Wihht-1+bi) (4)
ot=σ(Woxxt+Wohht-1+bo) (5)
ct=it⊙tanh(Wzxxt+Wzhht-1+WzIIt+WzSSt+bz)+ft⊙ct-1 (6)
ht=ot⊙tanh(ct) (7)
其中,h0是第0时刻的隐层状态,Wg是全连接层,bg是偏置项;ft表示遗忘门,用于控制模型在学习的过程中需要遗忘掉的无用信息,Wfx和Wfh是全连接层,bf是偏置项,xt表示第t时刻的词向量输入,t为整数,且1≤t≤ENDT,ENDT是预定义的图像描述中单词的长度;it表示输入门,用于控制哪些新产生的信息应该写入记忆单元ct,Wix和Wih是全连接层,bi是偏置项;ot表示输出门,用于确定在记忆单元ct中,哪些信息能够对当前的隐层状态ht产生影响,Wox和Woh是全连接层,bo是偏置项;在这三个状态门中,σ是sigmoid函数;⊙是点乘函数;在ct中,It是得到的图像注意力特征,St是内部语义注意力特征,Wzx,Wzh,WzI,WzS均为全连接层,用于将对应的特征xt,ht-1,It,St映射到同一向量空间,bz表示偏置项;图像注意力特征由如下公式得到:
Figure FDA0003245367060000021
Figure FDA0003245367060000022
Score(ht-1,Ii)=Wtanh(Wahht-1+WaIIi) (10)
其中
Figure FDA0003245367060000023
表示在解码的过程中,t时刻的局部特征注意力权重,通过相似度评分Score和softmax函数得到,在Score函数中Wah和WaI用于将图像特征和文本特征映射到同一个向量空间;tanh函数是激活函数;W表示全连接层;
内部语义注意力特征由如下公式得到:
Figure FDA0003245367060000024
Figure FDA0003245367060000025
Evalue(ht,hi)=Wtanh(W1ht+W2hi) (13)
其中
Figure FDA0003245367060000031
表示在解码的过程中,t时刻对已生成的描述的注意力权重,通过相似度评分Evalue和softmax函数得到;在Evalue函数中,W1和W2用于将不同时刻的隐层状态映射到同一向量空间;
解码器中预测单词的结构如下:
p(yt=w)=softmax(htV+ItW3+StW4) (14)
其中p(yt=w)是一个大小为Vocab长度的向量,表示在t时刻,预测的单词yt等于Vocab中的单词w的概率大小,V,W3,W4分别为隐层状态、图像注意力特征和内部语义注意力特征的映射矩阵,目的是将这三类特征映射到词典大小的向量空间;在预测时,选择概率最大的位置对应的单词作为第t时刻的预测单词;
步骤3:设计网络的损失函数
损失函数L为:
L=γlossCRF+βlossXE (15)
其中lossCRF表示条件随机场损失函数,lossXE表示交叉熵损失函数,γ和β分别是条件随机场损失和交叉熵损失的权重;
其中为了最大化预测描述分布概率逼近与真实描述的分布概率,得到的交叉熵损失函数如下公式所示:
Figure FDA0003245367060000032
其中yt表示t时刻的预测单词,yrt表示t时刻的真实单词,p(yt=yrt)表示在t时刻预测单词等于真实单词的概率;
为了使生成的描述序列能够保证句式的准确性,即给定输入的真实描述的条件下,能够输出真实的词性序列;因此定义条件随机场损失函数如公式(17)所示:
lossCRF=-log(p(tag|x)) (17)
Figure FDA0003245367060000041
Figure FDA0003245367060000042
其中,x表示输入的真实描述序列,tag表示x对应的真实词性序列;tags表示所有可能输出的词性序列,S表示给定描述序列和词性序列的情况下的评分函数;
Figure FDA0003245367060000043
Pi,i表示x中第i个词汇xi对应到tag中第i个词性tagi的概率,
Figure FDA0003245367060000044
Ai,j表示xi对应的词性tagi到xi+1对应的词性tagi+1的转移概率;
步骤4:用步骤1中处理好的训练数据和步骤2、4中定义好的模型结构和损失函数,训练网络模型,训练过程如下:
Step1:初始化模型参数:对编码器网络中的参数使用Xavier的方法进行初始化;
Step2:将图像传入到编码器网络得到图像的全局特征和局部特征并取出每张图像对应的预定义句子个数的真实描述,以及各描述对应的词性标注序列;
Step3:在解码器LSTM的初始状态,将图像的全局特征传入到第一个LSTM单元中得到第一个LSTM单元的状态向量,同时输入一个预定义的开始向量,得到第一个位置上的预测单词和预测词性,在后续时刻,对每个LSTM单元输入真实描述对应的单词向量,以及上一LSTM单元的隐层状态,更新这一时刻的LSTM单元参数,并由此预测相应的单词和词性;最后根据真实的描述和词性标注序列,由步骤3中设计好的损失函数计算得到损失;
Step4:使用优化方法,设置好初始化学习率,以及学习率衰减速率,对参数进行更新;
Step5:重复Step2-Step4,不断进行迭代,直到损失函数收敛;
经过以上训练,得到一个图像语义描述生成网络,即经训练的步骤2的编码器-解码器;
步骤5:根据图像得到对应的图像描述;
将一张待获取其描述的图像输入到步骤4中得到的图像语义描述生成网络中,即可以得到对应的自然语言描述。
2.根据权利要求1所述的方法,其特征在于,所述γ和β分别设置为0.25和0.75。
CN201911394190.9A 2019-05-31 2019-12-30 一种基于条件随机场和内部语义注意力的图像描述方法 Active CN111160467B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910469703 2019-05-31
CN2019104697031 2019-05-31

Publications (2)

Publication Number Publication Date
CN111160467A CN111160467A (zh) 2020-05-15
CN111160467B true CN111160467B (zh) 2021-12-10

Family

ID=70559114

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911394190.9A Active CN111160467B (zh) 2019-05-31 2019-12-30 一种基于条件随机场和内部语义注意力的图像描述方法

Country Status (1)

Country Link
CN (1) CN111160467B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737458B (zh) * 2020-05-21 2024-05-21 深圳赛安特技术服务有限公司 基于注意力机制的意图识别方法、装置、设备及存储介质
US11514634B2 (en) * 2020-06-12 2022-11-29 Baidu Usa Llc Personalized speech-to-video with three-dimensional (3D) skeleton regularization and expressive body poses
CN111860235B (zh) * 2020-07-06 2021-08-06 中国科学院空天信息创新研究院 高低层特征融合的注意力遥感图像描述的生成方法及系统
CN111914710B (zh) * 2020-07-24 2024-02-13 合肥工业大学 一种铁路机务段场景描述方法及系统
CN111862122A (zh) * 2020-07-29 2020-10-30 南通大学 一种基于深度学习的瓦楞纸板堆叠层数计数方法
CN112115294B (zh) * 2020-09-29 2024-09-10 北京乐学帮网络技术有限公司 一种信息推送方法、装置、计算机设备及存储介质
CN112329794B (zh) * 2020-11-06 2024-03-12 北京工业大学 一种基于双重自注意力机制的图像描述方法
CN112528989B (zh) * 2020-12-01 2022-10-18 重庆邮电大学 一种图像语义细粒度的描述生成方法
CN112784848B (zh) * 2021-02-04 2024-02-27 东北大学 一种基于多种注意力机制和外部知识的图像描述生成方法
CN112949320B (zh) * 2021-03-30 2024-06-11 平安科技(深圳)有限公司 基于条件随机场的序列标注方法、装置、设备及介质
CN113516152B (zh) * 2021-04-08 2024-04-16 北京航空航天大学 一种基于复合图像语义的图像描述方法
CN113239886B (zh) * 2021-06-04 2024-03-19 合肥工业大学智能制造技术研究院 基于跨语言图像变化描述的井下管道泄漏描述方法及装置
CN113436314B (zh) * 2021-06-25 2022-10-04 北京理工大学 一种基于结构的计算机三维网格模型重建方法
CN113780350B (zh) * 2021-08-10 2023-12-19 上海电力大学 一种基于ViLBERT和BiLSTM的图像描述方法
CN113609326B (zh) * 2021-08-25 2023-04-28 广西师范大学 基于外部知识和目标间关系的图像描述生成方法
CN114020954B (zh) * 2021-09-10 2024-08-16 厦门窝赚科技有限公司 一种用于体现用户意图和风格的个性化图像描述方法
CN116543289B (zh) * 2023-05-10 2023-11-21 南通大学 一种基于编码器-解码器及Bi-LSTM注意力模型的图像描述方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107918782A (zh) * 2016-12-29 2018-04-17 中国科学院计算技术研究所 一种生成描述图像内容的自然语言的方法与系统
CN108628823A (zh) * 2018-03-14 2018-10-09 中山大学 结合注意力机制和多任务协同训练的命名实体识别方法
CN109657239A (zh) * 2018-12-12 2019-04-19 电子科技大学 基于注意力机制和语言模型学习的中文命名实体识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10817650B2 (en) * 2017-05-19 2020-10-27 Salesforce.Com, Inc. Natural language processing using context specific word vectors

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107918782A (zh) * 2016-12-29 2018-04-17 中国科学院计算技术研究所 一种生成描述图像内容的自然语言的方法与系统
CN108628823A (zh) * 2018-03-14 2018-10-09 中山大学 结合注意力机制和多任务协同训练的命名实体识别方法
CN109657239A (zh) * 2018-12-12 2019-04-19 电子科技大学 基于注意力机制和语言模型学习的中文命名实体识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Video Captioning With Attention-Based LSTM and Semantic Consistency;Lianli Gao,and etc;《 IEEE Transactions on Multimedia》;20170719;第19卷(第9期);第2045-2055页 *
基于注意力机制的循环神经网络评价对象抽取模型;杨善良等;《计算机应用与软件》;20190331;第36卷(第3期);第202-209页 *

Also Published As

Publication number Publication date
CN111160467A (zh) 2020-05-15

Similar Documents

Publication Publication Date Title
CN111160467B (zh) 一种基于条件随机场和内部语义注意力的图像描述方法
CN113010693B (zh) 融合指针生成网络的知识图谱智能问答方法
CN109840287B (zh) 一种基于神经网络的跨模态信息检索方法和装置
CN111241294B (zh) 基于依赖解析和关键词的图卷积网络的关系抽取方法
CN110111399B (zh) 一种基于视觉注意力的图像文本生成方法
CN109614471B (zh) 一种基于生成式对抗网络的开放式问题自动生成方法
CN108416065B (zh) 基于层级神经网络的图像-句子描述生成系统及方法
CN108846077B (zh) 问答文本的语义匹配方法、装置、介质及电子设备
CN111858931B (zh) 一种基于深度学习的文本生成方法
CN110321563B (zh) 基于混合监督模型的文本情感分析方法
CN113569932B (zh) 一种基于文本层级结构的图像描述生成方法
CN107357775A (zh) 基于人工智能的循环神经网络的文本纠错方法及装置
CN111832282B (zh) 融合外部知识的bert模型的微调方法、装置及计算机设备
CN109214006B (zh) 图像增强的层次化语义表示的自然语言推理方法
CN110991290B (zh) 基于语义指导与记忆机制的视频描述方法
CN112115687A (zh) 一种结合知识库中的三元组和实体类型的生成问题方法
CN112926322A (zh) 融合自注意力机制和深度学习的文本分类方法及系统
CN108549703B (zh) 一种基于循环神经网络的蒙古语语言模型的训练方法
CN111966812A (zh) 一种基于动态词向量的自动问答方法和存储介质
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN113254604B (zh) 一种基于参考规范的专业文本生成方法及装置
CN113609284A (zh) 一种融合多元语义的文本摘要自动生成方法及装置
CN111353040A (zh) 基于gru的属性级别情感分析方法
CN117609421A (zh) 基于大语言模型的电力专业知识智能问答系统构建方法
CN117094291B (zh) 基于智能写作的自动新闻生成系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant