Nothing Special   »   [go: up one dir, main page]

CN110704665A - 一种基于视觉注意力机制的图像特征表达方法及系统 - Google Patents

一种基于视觉注意力机制的图像特征表达方法及系统 Download PDF

Info

Publication number
CN110704665A
CN110704665A CN201910818508.5A CN201910818508A CN110704665A CN 110704665 A CN110704665 A CN 110704665A CN 201910818508 A CN201910818508 A CN 201910818508A CN 110704665 A CN110704665 A CN 110704665A
Authority
CN
China
Prior art keywords
module
network
attention
value
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910818508.5A
Other languages
English (en)
Inventor
段凌宇
白燕
楼燚航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201910818508.5A priority Critical patent/CN110704665A/zh
Publication of CN110704665A publication Critical patent/CN110704665A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及计算机视觉领域,特别涉及一种基于视觉注意力机制的图像特征表达方法及系统。包括将图片输入训练好的深度网络模型对图片进行特征提取,得到该图片的注意力特征值,计算图片的特征值与目标图片特征值的距离,选择距离最近的若干目标图片展示。本发明利用多尺度注意力网络实现特征提取、距离度量一体化的目标检索检索框架,与传统算法相比,处理速度和准确率均得到较好提升。

Description

一种基于视觉注意力机制的图像特征表达方法及系统
技术领域
本发明涉及计算机视觉领域,特别涉及一种基于视觉注意力机制的图像特征表达方法及系统。
背景技术
图像检索旨在从图像数据集中检索一个与给定查询图像相同的描述特定目标的图像,它已经获得了很多研究的关注。近年来卷积神经网络的成功极大地促进了图像检索的进步,得益于可辨别能力与紧凑的表现能力。尽管基于深度学习的图像描述符已经获得了显著的性能提升。但是实际应用中仍然存在背景干扰和尺度变化这两个挑战。首先,杂乱干扰作为无关信息会极大地影响用于图像检索的信息区域上的特征表示;其次,查询和参考图像中的兴趣/目标对象在尺度上通常是不同的。在这项工作中,我们主要聚焦利用图像中富含信息区域的多尺度特征表示。
在实际场景应用中,背景干扰会严重的影响特征匹配的过程,对于图像检索,关注图像中富含信息区域有利于产生高效的特征。最近,基于CNN的特征大多是使用孪生网络或三元组网络训练成全局描述符。这些全局特征是直接对最后一个卷积层的输出采用最大或平均池化层操作提取的,它很难处理复杂场景。这是因为图像中的目标对象大多未对齐,在某些极端情况下甚至只占一小部分。因此,选择性地关注某些区域并忽略不相关的区域是非常必要的。这种选择性关注的方案也被称为注意力机制,它已被证明在各种研究领域都是有效的。比如机器翻译,语音识别,和图像描述。一个在CNN中应用的典型注意力机制是预测注意力图,其中每个注意力图上的值指示相应位置的信息量。
尺度是影响图像检索中特征表示的主要因素,在不同的尺度上,注意的区域会有所不同。一个代表性的工作是尺度不变特征变换(SIFT),它在多尺度高斯金字塔中找到了极端响应作为图像匹配的特征点。然而在目前基于深度学习的方法中,尚未充分探索不同尺度关注区域之间相关性的多尺度上下文关系。当前用于生成尺度稳健特征的网络通常在训练阶段配备有数据增强(即随机调整大小或裁剪训练图像等)或者获得不同尺度输入图像的全连接特征作为最终特征。在一些极端情况下,当兴趣对象占据输入图像的一小部分时,在前向传播过程中,随着特征图的大小持续减小,很难保留响应,为了在不同尺度上进行可靠地注意,我们需要直观地获取多尺度的上下文信息。
发明内容
本发明实施例提供了一种基于视觉注意力机制的图像特征表达方法及系统,利用多尺度注意力网络实现特征提取、距离度量一体化的目标检索检索框架,与传统算法相比,处理速度和准确率均得到较好提升。
根据本发明实施例的第一方面,一种基于视觉注意力机制的图像特征表达方法,包括
将图片输入训练好的深度网络模型对图片进行特征提取,得到该图片的注意力特征值,
计算该图片的注意力特征值与目标图片特征值的距离,
选择距离最近的若干目标图片展示。
所述深度网络模型包括
分类网络,所述分类网络的部分卷积层中间插入一个视觉注意力模块,上一卷积层数据输出值通过视觉注意力模块处理后输入下一卷积层;
两层长短期记忆网络,且每一层的长短期记忆网络中LSTM模块与视觉注意力模块一一对应;
视觉注意力模块输出值输入于第一层长短期记忆网络的LSTM模块;第一层长短期记忆网络的LSTM模块的隐藏状态值输入于第二层长短期记忆网络的LSTM模块;
第二层长短期记忆网络的最后一个LSTM模块的输出值与分类网络的输出值计算得到所述的注意力特征值。
所述深度网络模型的训练包括
采用三元组单元<x,xp,xn>训练深度网络模型,将三元组单元<x,xp,xn>输入深度网络模型,其中,x是锚样本,xp属于与x相同的类,xn属于不同的类得到对应的网络输出,通过损失函数的反向传播对深度网络模型进行更新;
返回继续更新直至损失函数小于阈值或者达到设定迭代次数。
所述损失函数为
Figure BDA0002186918780000031
α为参数,x是锚样本,xp属于与x相同的类,,xn属于不同的类;f(*)为网络输出。
所述上一卷积层数据输出值通过视觉注意力模块处理后输入下一卷积层,具体包括
将上一卷积层数据输出值通过视觉注意力模块处理后得到基本分支的值,将基本分支的值输入下一卷积层,其中处理的计算方法为
bi,j(x)=fi,j(x)⊙si,j(x)+fi,j(x)
其中i,j表示整个特征图上的位置;bi,j(x)为基本分支在i,j的值;si,j(x)为输出的注意力分数在i,j的值;fi,j(x)为输出值在i,j的值;f(x)为输出特征;⊙为元素点积。
所述第二层长短期记忆网络的最后一个LSTM模块的输出值与分类网络的输出值计算得到所述的注意力特征值,包括
注意力特征值F′(x)=F(x)+F(x)⊙S(x)
其中,S(x)为第二层LSTM最后一个LSTM模块输出值,F(x)为分类网络的输出值。
所述第二层长短期记忆网络的LSTM模块状态更新规则为ct=gt⊙it⊙ut+(1-gt)⊙ft⊙ct-1
gt是t步输入的归一化注意力门;it是t步输入的输入门;ft是t步输出的输入门;ut为为t步的中间变量;ct是t步存储器单元。
一种基于视觉注意力机制的图像特征表达系统,包括深度网络模块、特征计算模块,
深度网络模块用以将图片输入训练好的深度网络模块对图片进行特征提取,得到该图片的注意力特征值,
特征计算模块用以计算该图片的注意力特征值与目标图片特征值的距离,选择距离最近的若干目标图片展示。
所述深度网络模块包括
分类网络模块,分类网络模块的部分卷积层中间插入一个视觉注意力模块,上一卷积层数据输出值通过视觉注意力模块处理后输入下一卷积层;
还包括两层长短期记忆网络,且长短期记忆网络中LSTM模块与视觉注意力模块一一对应;
视觉注意力模块输出值输入于第一层长短期记忆网络的LSTM模块;第一次长短期记忆网络的LSTM模块的隐藏状态值输入于第二层长短期记忆网络的LSTM模块;
第二层长短期记忆网络的最后一个LSTM模块的输出值与分类网络的输出值计算得到所述的注意力特征值。
还包括预训练模块,用以采用三元组单元<x,xp,xn>训练深度网络模块,将三元组单元<x,xp,xn>输入深度网络模块,其中,x是锚样本,xp属于与x相同的类,xn属于不同的类得到对应的网络输出,通过损失函数的反向传播对深度网络模型进行更新;
返回继续更新直至损失函数小于阈值或者达到设定迭代次数。
损失函数为
Figure BDA0002186918780000041
α为参数,x是锚样本,xp属于与x相同的类,,xn属于不同的类;f(*)为网络输出。
本发明实施例提供的技术方案可以包括以下有益效果:
利用多尺度注意力网络实现特征提取、距离度量一体化的目标检索检索框架,与传统算法相比,处理速度和准确率均得到较好提升;
通过多个不同尺度注意力的模块,以及模块之间的上下文建模,使得网络学习的特征能更好的抵抗图像内容检索和匹配时由于尺度和背景干扰带来的影响,从而提升图像检索的性能。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是实施例一中的一种基于视觉注意力机制的图像特征表达方法流程图;
图2是一种基于视觉注意力机制的图像特征表达方法流程图;
图3是一种基于视觉注意力机制的图像特征表达系统框架图。
具体实施方式
实施例一
如图1所示,本发明提供了一种基于视觉注意力机制的图像特征表达方法,包括:
将图片输入训练好的深度网络模型对图片进行特征提取,得到该图片的注意力特征值,
计算该图片的注意力特征值与目标图片特征值的距离,
选择距离最近的若干目标图片展示。
优选的,深度网络模型的训练,包括针对同一个目标对象出现在不同图片数据通过具有某种特定结构性质的深度神经网络进行类别与个体特征提取,然后使得该特征在高维欧式空间中满足相同目标对象距离靠近,不同对象距离较远的关系;
准备好数据及相应标注信息后,根据深度神经网络的训练方式,不断执行前向传播与反向传播,直到最终输出的损失函数收敛为止。
优选的,深度网络模型的设计包括CNN结构的分类网络作为基础网络,
每一个中间卷积层插入一个视觉注意力模块,
包括两层长短期记忆(LSTM)网络;
视觉注意力模块的输出值输入到第一层长短期记忆(LSTM)网络的LSTM模块的输入端,第一层长短期记忆(LSTM)网络的LSTM模块的输出的隐藏状态值输入到第二层长短期记忆(LSTM)网络的LSTM模块的输入端和第一层长短期记忆(LSTM)网络的后一个LSTM模块的输入端;第二层长短期记忆(LSTM)网络的LSTM模块的输出的隐藏状态值输入到下一个第二层长短期记忆(LSTM)网络的LSTM模块的输入端。
优选的,第二层长短期记忆(LSTM)网络的最后一个LSTM模块的输出值为最后的视觉注意力特征图,最后的视觉注意力特征图与分类网络最后卷积层的输出结合输出为最终的特征表示图。即第二层LSTM最后一个LSTM模块的输出被视为最终注意力权重.然后最后一个卷积层的输出结合最终的注意力,如下所示:
F′(x)=F(x)+F(x)⊙S(x)
其中,S(x)为第二层LSTM最后一个LSTM模块输出值,F(x)为分类网络的输出值。
优选的,第二层长短期记忆(LSTM)网络的第一个LSTM模块它接收第一层长短期记忆(LSTM)网络的第一个LSTM模块隐藏状态值的输入和多尺度上下文存储器M,其中多尺度上下文存储器M的表达式为:
所有步骤T的平均隐藏状态ht来获得该上下文存储器M。它可以表示如下:
Figure BDA0002186918780000061
ht为t步的隐藏状态值。
添加注意力门gt后,第二层LSTM中的LSTM单元状态更新规则也将改变如下:
ct=gt⊙it⊙ut+(1-gt)⊙ft⊙ct-1
gt是t步输入的归一化注意力门;it是t步输入的输入门;ft是t步输出的输入门;ut为为t步的中间变量;ct是t步存储器单元。
优选的,采取一个三元组损失函数去训练深度网络模型。
采取一个三元组损失函数去训练我们所提出的模型。三元组网络旨在将样本投射到嵌入空间,其中属于相同类别的样本将会更加接近,比那些来自不同类别的样本.设<x,xp,xn>表示三元组单元,其中x是锚样本,xp属于与x相同的类,xn属于不同的类.约束可以表述为:
d(x,xp)+α≤d(x,xn)
其中α是控制正样本和负样本之间边界的标量.损失函数可以定义为:
Figure BDA0002186918780000062
x是锚样本,xp属于与x相同的类,xn属于不同的类;f(*)为网络输出
由于训练数据的规模和三元组损失选择的敏感性,三元组损失函数的优化过程效率较低。至于计算损失,每次迭代需要几十个三重单元,但只有少数可能违背约束。因此,不正确的三元组单元会严重降低训练模型的性能.所以,我们执行在线难样本挖掘(onlinehard example mining)以提高训练效率。我们将难样本定义为不符合距离(margin)约束的样本。更具体地说,我们在前向传播中随机选择三元组样本来计算三元组损失.记录并收集这些违反约束的三元组.然后我们再次将这些“过滤后的”难样本三元组单元送入到网络,以计算损失并执行反向传播。
优选的,视觉注意力模块可以被视为另一个分支来计算特征映射图中每一个位置的重要性分数。给定输入x,我们能得到网络的输出特征f(x),并且注意力模块计算注意力(重要性)分数s(x),
其中i,j表示整个特征图上的位置;bi,j(x)为基本分支在i,j的值;si,j(x)为输出的注意力分数在i,j的值;fi,j(x)为输出特征在i,j的值;⊙为元素点积;
该过程是一个元素的点积过程,因此干扰响应可以被抑制,且感兴趣对象的响应可以被提升。该模型可以使用反向传算法进行端到端的训练,di,j(x)的偏导数由下式给出:
Figure BDA0002186918780000071
其中θ是注意力模块中的参数;其中i,j表示整个特征图上的位置;di,j(x)为基本分支的中间变量在i,j的值;si,j(x)为输出的注意力分数在i,j的值;fi,j(x)为输出特征在i,j的值;f(x)为输出特征;值得注意的是,在训练期间si,j(x)被限制为非负的。
为了构建多尺度上下文关系,我们在ResNet101中的每个残差块之后添加了注意力模块。特别地,我们的注意力模块有两个内核大小为(1*1)的卷积层组成。在第二层的输出后使用softmax函数来得到每个位置的注意力得分。将加权特征直接送入下一层会影响网络学习的稳定性。由于注意力权重的范围从0到1,因此改变了参差块中的原始恒等映射。因此,我们还建立了一个注意力的恒等映射,可以表述如下:
bi,j(x)=fi,j(x)⊙si,j(x)+fi,j(x)
其中i,j表示整个特征图上的位置;bi,j(x)为基本分支在i,j的值;si,j(x)为输出的注意力分数在i,j的值;fi,j(x)为输出特征在i,j的值;f(x)为输出特征;⊙为元素点积;
它的动机类似于残差学习,因为注意力模块中的恒等映射确保了注意力的增加将会比没增加前效果更好。
实施例二
如图2所示,本发明一种基于视觉注意力机制的图像特征表达方法,包括
深度网络的训练步骤,所述深度网络训练步骤包括针对同一个目标对象出现在不同图片数据通过具有某种特定结构性质的深度神经网络进行类别与个体特征提取,然后使得该特征在高维欧式空间中满足相同目标对象距离靠近,不同对象距离较远的关系;
目标精确检索步骤,所述精确检索步骤包括利用已经训练好的深度网络模型对图片进行特征提取,然后在欧式空间计算多张图片的欧氏距离,通过排序实现目标精确检索的目标;
在深度神经网络训练步骤中,还包括如下步骤:
a)网络结构设计步骤,设计多尺度视觉注意力模块,获得最终的可较好抵抗背景干扰和尺度变化的视觉注意力,最终辅助生成更具有区分力的图像全局描述子。
b)模型训练步骤,准备好数据及相应标注信息后,根据深度神经网络的训练方式,在a步骤设计的网络模型上,不断执行前向传播与反向传播,直到最终输出的损失函数收敛为止。
在网络结构设计步骤中,还包括如下步骤:
a)选定一个通用的分类网络作为基础网络结构;
b)在该分类网络在中间插入多个视觉注意力模块;
c)将每一层的视觉注意力模块输出的注意力图输入到LSTM长短时记忆网络中,LSTM最终输出最后的视觉注意力特征图。
d)将最终的视觉注意力特征图加权网络最后的深度特征获得最终的全局图像描述符。
e)在最终的全局图像描述符上施加三元组损失
在的LSTM记忆网络中还包括如下步骤:
a)将每一个注意力模块输出的视觉注意力特征图输入到LSTM中
b)LSTM第一层的输出获得每个隐状态的均值获得不同尺度下视觉注意力的上下文信息;
c)在LSTM中根据门限机制动态引入第一层LSTM中的视觉注意力信息,以及上下文信息,生成最终的视觉注意力。
在所述检索步骤中,还包括如下步骤:
a)使用已经训练完成的网络模型对所有对象图片提取特征;
b)计算不同图片特征的欧氏距离;
c)根据距离排序,得到各个图片间的差异程度,实现目标精确检索。
具体地,注意序列内的这种上下文关系由双层长短期记忆网络(LSTM)建模,第一层以不同尺度编码注意力图并生成初始多尺度上下文记忆。然后将该上下文记忆输入到第二LSTM层以帮助网络选择性地关注信息注意并进一步产生多尺度感知注意力。如果特定尺度的注意力响应是关于多尺度上下文的信息,则LSTM网络将导入更多该尺度下的注意力信息。
a)选定一个通用的分类网络作为基础网络结构;优选的,分类网络可以为基本CNN结构;
b)在该分类网络在的中间卷积层插入视觉注意力模块;
优选的,我们设计了一个软关注模块来主动选择网络中的响应。例如在使用ResNet101作为基础网络,注意力模型可以被视为另一个分支来计算特征映射图中每一个位置的重要性分数。给定输入x,我们能得到网络的输出特征f(x),并且注意力模块计算注意力(重要性)分数s(x),它被软性地加权到网络的输出特征上。输出的注意力分数si,j(x)可以被视为基础分支bi,j(x)的门,di,j(x)为求取基础分支bi,j(x)的中间变量,可以表示为:
di,j(x)=fi,j(x)⊙si,j(x)
其中i,j表示整个特征图上的位置;bi,j(x)为基本分支在i,j的值;si,j(x)为输出的注意力分数在i,j的值;fi,j(x)为输出特征在i,j的值;⊙为元素点积;
该过程是一个元素的点积过程,因此干扰响应可以被抑制,且感兴趣对象的响应可以被提升。该模型可以使用反向传算法进行端到端的训练,di,j(x)的偏导数由下式给出:
Figure BDA0002186918780000101
其中θ是注意力模块中的参数;其中i,j表示整个特征图上的位置;di,j(x)为基本分支的中间变量在i,j的值;si,j(x)为输出的注意力分数在i,j的值;fi,j(x)为输出特征在i,j的值;f(x)为输出特征;值得注意的是,在训练期间si,j(x)被限制为非负的。
为了构建多尺度上下文关系,我们在ResNet101中的每个残差块之后添加了注意力模块。特别地,我们的注意力模块有两个内核大小为(1*1)的卷积层组成。在第二层的输出后使用softmax函数来得到每个位置的注意力得分。将加权特征直接送入下一层会影响网络学习的稳定性。由于注意力权重的范围从0到1,因此改变了参差块中的原始恒等映射。因此,我们还建立了一个注意力的恒等映射,可以表述如下:
bi,j(x)=fi,j(x)⊙si,j(x)+fi,j(x)
其中i,j表示整个特征图上的位置;bi,j(x)为基本分支在i,j的值;si,j(x)为输出的注意力分数在i,j的值;fi,j(x)为输出特征在i,j的值;f(x)为输出特征;⊙为元素点积;
它的动机类似于残差学习,因为注意力模块中的恒等映射确保了注意力的增加将会比没增加前效果更好。
c)将每一层的视觉注意力模块输出的注意力图输入到对应LSTM长短时记忆网络中,LSTM最终输出最后的视觉注意力特征图。
涉及长短期记忆(LSTM)网络,其通过叠加LSTM单元而构建.一个典型的LSTM单元包括输入门it,忘记门ft,输出门ot和隐藏状态ht,以及存储器单元ct。LSTM单元的计算过程可以表述如下:
Figure BDA0002186918780000111
ct=it⊙ut+ft⊙ct-1
ht=ot⊙tanh(ct)
其中xt为t步的输入,ut为t步的中间变量,调整后的输入,ht-1为t-1步的隐变量,调制输入和先前的隐藏状态.σ表示LSTM单元中的激活函数sigmoid;ct为t步存储器单元;
操作⊙表示元素点积;它的三个门输入门it,忘记门ft,输出门ot是LSTM单元的不同特征,用于不同的目的。输入门决定从调制输入ut导入信息的程度以更新ct.然后忘记门ft控制从步骤t中的单元ct-1的先前状态导入信息.在最后一步中,输出门确定存储器单元的输出程度。
d)将最终的视觉注意力特征图加权网络最后的深度特征获得最终的全局图像描述符。
由于我们试图有选择地从不同尺度引入注意力机制,因此应该获得多尺度上下文记忆。我们考虑利用LSTM中第一层的输出来生成多尺度上下文记忆。特别地是,我们使用第一个LSTM层中所有步骤T的平均隐藏状态ht来获得该上下文存储器M。它可以表示如下:
Figure BDA0002186918780000112
在每个步骤t中,LSTM从特定尺度接受注意力图。此外,我们还考虑将第一层的所有隐藏状态送入给另一个前向网络。为了简化和紧凑模型,我们采用平均方法,因为添加另一个子网络将涉及更多参数。
第二层LSTM中的注意力:我们进一步评估第二层输入的信息度,其中设置注意力门gt以选择性地控制从每个尺度导入的注意力信息.它接收输入ht和多尺度上下文存储器M,可以表述如下:
Figure BDA0002186918780000121
Figure BDA0002186918780000122
其中gt是t步输入的归一化注意力门,ht为平均隐藏状态;M为上下文存储器
添加注意力门gt后,第二层LSTM中的单元状态更新规则也将改变如下:
ct=gt⊙it⊙ut+(1-gt)⊙ft⊙ct-1
gt是t步输入的归一化注意力门;it是t步输入的输入门;ft是t步输出的输入门;ut为为t步的中间变量;ct是t步存储器单元。
它表明如果输入的注意力ht对于多尺度上下文很重要,第二层中的单元将从it中导入更多的注意力信息;虽然信息量较少,但我们倾向于阻止它,并更好地利用LSTM单元的历史信息。
我们MSCAN的目标是生成更多有辨别力的全局描述符,这些描述符能够在建模注意力时了解多尺度上下文关系。第二层LSTM最后一步的输出被视为最终注意力权重.然后最后一个卷积层的输出结合最终的注意力,如下所示:
F′(x)=F(x)+F(x)⊙S(x)
其中F′(x)是最终的特征表示.随后我们在F′(x)上执行全局最大化池化操作以生成深度全局描述符;S(x)为第二层LSTM最后一个LSTM模块输出值。
我们采取一个三元组损失函数去训练我们所提出的模型。三元组网络旨在将样本投射到嵌入空间,其中属于相同类别的样本将会更加接近,比那些来自不同类别的样本.设<x,xp,xn>表示三元组单元,其中x是锚样本,xp属于与x相同的类,xn属于不同的类.约束可以表述为:
d(x,xp)+α≤d(x,xn)
其中α是控制正样本和负样本之间边界的标量.损失函数可以定义为:
Figure BDA0002186918780000123
x是锚样本,xp属于与x相同的类,xn属于不同的类;f(*)为网络输出;
由于训练数据的规模和三元组损失选择的敏感性,三元组损失函数的优化过程效率较低。至于计算损失,每次迭代需要几十个三重单元,但只有少数可能违背约束。因此,不正确的三元组单元会严重降低训练模型的性能.所以,我们执行在线难样本挖掘(onlinehard example minings)以提高训练效率。我们将难样本定义为不符合距离(margin)约束的样本。更具体地说,我们在前向传播中随机选择三元组样本来计算三元组损失.记录并收集这些违反约束的三元组.然后我们再次将这些“过滤后的”难样本三元组单元送入到网络,以计算损失并执行反向传播。
本专利的主要贡献如下:
第一,我们提出了一个多尺度的上下文注意力网络,它将多个注意力模块堆叠在不同深度和尺度的的网络层中。因此,我们能够从多个尺度中捕获视觉信息量最大的区域。
第二,我们建模了不同尺度下视觉注意力的上下文信息。这样的上下文信息由具有上下文记忆能力的LSTM网络建模,以从多个尺度自适应地选择视觉注意力信息。
第三,我们提出的方法在所有评估的图像检索基准上都取得了优异的性能,可视化结果进一步证明了我们方法的有效性。
一种基于视觉注意力机制的图像特征表达系统,包括深度网络模块、特征计算模块,
深度网络模块用以将图片输入训练好的深度网络模块对图片进行特征提取,得到该图片的注意力特征值,
特征计算模块用以计算图片的特征值与目标图片特征值的距离,选择距离最近的若干目标图片展示。
所述深度网络模块包括
分类网络模块,分类网络模块的部分层中间插入一个视觉注意力模块,上一层数据输出值通过视觉注意力模块处理后输入下一层;
还包括两层长短期记忆网络,且长短期记忆网络中LSTM模块与视觉注意力模块一一对应;
视觉注意力模块输出值输入于第一层长短期记忆网络的LSTM模块;第一次长短期记忆网络的LSTM模块的隐藏状态值输入于第二层长短期记忆网络的LSTM模块;
第二层长短期记忆网络的最后一个LSTM模块的输出值与分类网络的输出值计算得到所述的注意力特征值。
还包括预训练模块,用以采用三元组单元<x,xp,xn>训练深度网络模块,将三元组单元<x,xp,xn>输入深度网络模块,其中,x是锚样本,xp属于与x相同的类,xn属于不同的类得到对应的网络输出,通过损失函数的反向传播对深度网络模型进行更新;
返回继续更新直至损失函数小于阈值或者达到设定迭代次数。
损失函数为
α为参数,x是锚样本,xp属于与x相同的类,,xn属于不同的类;f(*)为网络输出。
优选的,将上一层数据输出值通过视觉注意力模块处理后得到基本分支的值,将基本分支的值输入下一层,其中处理的计算方法为
bi,j(x)=fi,j(x)⊙si,j(x)+fi,j(x)
其中i,j表示整个特征图上的位置;bi,j(x)为基本分支在i,j的值;si,j(x)为输出的注意力分数在i,j的值;fi,j(x)为输出值在i,j的值;f(x)为输出特征;⊙为元素点积。
优选的,第二层长短期记忆网络的最后一个LSTM模块的输出值与分类网络的输出值计算得到所述的注意力特征值,包括
注意力特征值F′(x)=F(x)+F(x)⊙S(x)
其中,S(x)为第二层LSTM最后一个LSTM模块输出值,F(x)为分类网络的输出值。
优选的,所述第二层长短期记忆网络的LSTM模块状态更新规则为ct=gt⊙it⊙ut+(1-gt)⊙ft⊙ct-1
gt是t步输入的归一化注意力门;it是t步输入的输入门;ft是t步输出的输入门;ut为为t步的中间变量;ct是t步存储器单元。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (10)

1.一种基于视觉注意力机制的图像特征表达方法,其特征在于,包括
将图片输入训练好的深度网络模型对图片进行特征提取,得到该图片的注意力特征值,
计算该图片的注意力特征值与目标图片注意力特征值的距离,
选择距离最近的若干目标图片展示。
2.如权利要求1所述的一种基于视觉注意力机制的图像特征表达方法,其特征在于,所述深度网络模型包括
分类网络,所述分类网络的部分卷积层中间插入一个视觉注意力模块,上一卷积层数据输出值通过视觉注意力模块处理后输入下一卷积层;
两层长短期记忆网络,且每一层的长短期记忆网络中LSTM模块与视觉注意力模块一一对应;
视觉注意力模块输出值输入于第一层长短期记忆网络的LSTM模块;第一层长短期记忆网络的LSTM模块的隐藏状态值输入于第二层长短期记忆网络的LSTM模块;
第二层长短期记忆网络的最后一个LSTM模块的输出值与分类网络的输出值计算得到所述的注意力特征值。
3.如权利要求2所述的一种基于视觉注意力机制的图像特征表达方法,其特征在于,所述深度网络模型的训练包括
采用三元组单元<x,xp,xn>训练深度网络模型,将三元组单元<x,xp,xn>输入深度网络模型,其中,x是锚样本,xp属于与x相同的类,xn属于不同的类得到对应的网络输出,通过损失函数的反向传播对深度网络模型进行更新;
返回继续更新直至损失函数小于阈值或者达到设定迭代次数。
4.如权利要求3所述的一种基于视觉注意力机制的图像特征表达方法,其特征在于,所述损失函数为
Figure FDA0002186918770000011
α为参数,x是锚样本,xp属于与x相同的类,,xn属于不同的类;f(*)为网络输出。
5.如权利要求4所述的一种基于视觉注意力机制的图像特征表达方法,其特征在于,所述上一卷积层数据输出值通过视觉注意力模块处理后输入下一卷积层,具体包括
将上一卷积层数据输出值通过视觉注意力模块处理后得到基本分支的值,将基本分支的值输入下一卷积层,其中处理的计算方法为
bi,j(x)=fi,j(x)⊙si,j(x)+fi,j(x)
其中i,j表示整个特征图上的位置;bi,j(x)为基本分支在i,j的值;si,j(x)为输出的注意力分数在i,j的值;fi,j(x)为输出值在i,j的值;f(x)为输出特征;⊙为元素点积。
6.如权利要求5所述的一种基于视觉注意力机制的图像特征表达方法,其特征在于,所述第二层长短期记忆网络的最后一个LSTM模块的输出值与分类网络的输出值计算得到所述的注意力特征值,包括
注意力特征值F′(x)=F(x)+F(x)⊙S(x)
其中,S(x)为第二层LSTM最后一个LSTM模块输出值,F(x)为分类网络的输出值。
7.如权利要求6所述的一种基于视觉注意力机制的图像特征表达方法,其特征在于,所述第二层长短期记忆网络的LSTM模块状态更新规则为
ct=gt⊙it⊙ut+(1-gt)⊙ft⊙ct-1
gt是t步输入的归一化注意力门;it是t步输入的输入门;ft是t步输出的输入门;ut为为t步的中间变量;ct是t步存储器单元。
8.一种基于视觉注意力机制的图像特征表达系统,其特征在于,包括深度网络模块、特征计算模块,
深度网络模块用以将图片输入训练好的深度网络模块对图片进行特征提取,得到该图片的注意力特征值,
特征计算模块用以计算该图片的注意力特征值与目标图片特征值的距离,选择距离最近的若干目标图片展示。
9.如权利要求8所述的一种基于视觉注意力机制的图像特征表达系统,其特征在于,所述深度网络模块包括
分类网络模块,分类网络模块的部分卷积层中间插入一个视觉注意力模块,上一卷积层数据输出值通过视觉注意力模块处理后输入下一卷积层;
还包括两层长短期记忆网络,且长短期记忆网络中LSTM模块与视觉注意力模块一一对应;
视觉注意力模块输出值输入于第一层长短期记忆网络的LSTM模块;第一次长短期记忆网络的LSTM模块的隐藏状态值输入于第二层长短期记忆网络的LSTM模块;
第二层长短期记忆网络的最后一个LSTM模块的输出值与分类网络的输出值计算得到所述的注意力特征值。
10.如权利要求9所述的一种基于视觉注意力机制的图像特征表达系统,其特征在于,还包括预训练模块,用以采用三元组单元<x,xp,xn>训练深度网络模块,将三元组单元<x,xp,xn>输入深度网络模块,其中,x是锚样本,xp属于与x相同的类,xn属于不同的类得到对应的网络输出,通过损失函数的反向传播对深度网络模型进行更新;
返回继续更新直至损失函数小于阈值或者达到设定迭代次数。
损失函数为
Figure FDA0002186918770000031
α为参数,x是锚样本,xp属于与x相同的类,,xn属于不同的类;f(*)为网络输出。
CN201910818508.5A 2019-08-30 2019-08-30 一种基于视觉注意力机制的图像特征表达方法及系统 Pending CN110704665A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910818508.5A CN110704665A (zh) 2019-08-30 2019-08-30 一种基于视觉注意力机制的图像特征表达方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910818508.5A CN110704665A (zh) 2019-08-30 2019-08-30 一种基于视觉注意力机制的图像特征表达方法及系统

Publications (1)

Publication Number Publication Date
CN110704665A true CN110704665A (zh) 2020-01-17

Family

ID=69194227

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910818508.5A Pending CN110704665A (zh) 2019-08-30 2019-08-30 一种基于视觉注意力机制的图像特征表达方法及系统

Country Status (1)

Country Link
CN (1) CN110704665A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111611420A (zh) * 2020-05-26 2020-09-01 北京字节跳动网络技术有限公司 用于生成图像描述信息的方法和装置
CN111696137A (zh) * 2020-06-09 2020-09-22 电子科技大学 一种基于多层特征混合与注意力机制的目标跟踪方法
CN111709458A (zh) * 2020-05-25 2020-09-25 中国自然资源航空物探遥感中心 一种用于高分五号影像的自动质检方法
CN114238682A (zh) * 2021-12-20 2022-03-25 郑州轻工业大学 一种基于神经网络的图像检索方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291945A (zh) * 2017-07-12 2017-10-24 上海交通大学 基于视觉注意力模型的高精度服装图像检索方法及系统
CN108228686A (zh) * 2017-06-15 2018-06-29 北京市商汤科技开发有限公司 用于实现图文匹配的方法、装置和电子设备
CN108647736A (zh) * 2018-05-16 2018-10-12 南京大学 一种基于感知损失和匹配注意力机制的图像分类方法
CN109902750A (zh) * 2019-03-04 2019-06-18 山西大学 基于双向单注意力机制图像描述方法
CN110084128A (zh) * 2019-03-29 2019-08-02 安徽艾睿思智能科技有限公司 基于语义空间约束和注意力机制的场景图生成方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228686A (zh) * 2017-06-15 2018-06-29 北京市商汤科技开发有限公司 用于实现图文匹配的方法、装置和电子设备
CN107291945A (zh) * 2017-07-12 2017-10-24 上海交通大学 基于视觉注意力模型的高精度服装图像检索方法及系统
CN108647736A (zh) * 2018-05-16 2018-10-12 南京大学 一种基于感知损失和匹配注意力机制的图像分类方法
CN109902750A (zh) * 2019-03-04 2019-06-18 山西大学 基于双向单注意力机制图像描述方法
CN110084128A (zh) * 2019-03-29 2019-08-02 安徽艾睿思智能科技有限公司 基于语义空间约束和注意力机制的场景图生成方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
ASKE R. LEJBØLLE等: "Attention in Multimodal Neural Networks for Person Re-identification", 《2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION WORKSHOPS (CVPRW)》 *
YIHANG LOU等: "Multi-Scale Context Attention Network for Image Retrieval", 《MM "18: PROCEEDINGS OF THE 26TH ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA》 *
ZHOUXIA WANG等: "Multi-label Image Recognition by Recurrently Discovering Attentional Regions", 《2017 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV)》 *
周博通等: "基于LSTM的大规模知识库自动问答", 《北京大学学报(自然科学版)》 *
李玉刚等: "基于注意力的图像视觉关系识别研究", 《中国传媒大学学报(自然科学版)》 *
牛斌等: "一种基于注意力机制与多模态的图像描述方法", 《辽宁大学学报(自然科学版)》 *
陈宜明等: "基于潜在主题的分布式视觉检索模型", 《计算机工程》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111709458A (zh) * 2020-05-25 2020-09-25 中国自然资源航空物探遥感中心 一种用于高分五号影像的自动质检方法
CN111709458B (zh) * 2020-05-25 2021-04-13 中国自然资源航空物探遥感中心 一种用于高分五号影像的自动质检方法
CN111611420A (zh) * 2020-05-26 2020-09-01 北京字节跳动网络技术有限公司 用于生成图像描述信息的方法和装置
CN111611420B (zh) * 2020-05-26 2024-01-23 北京字节跳动网络技术有限公司 用于生成图像描述信息的方法和装置
CN111696137A (zh) * 2020-06-09 2020-09-22 电子科技大学 一种基于多层特征混合与注意力机制的目标跟踪方法
CN111696137B (zh) * 2020-06-09 2022-08-02 电子科技大学 一种基于多层特征混合与注意力机制的目标跟踪方法
CN114238682A (zh) * 2021-12-20 2022-03-25 郑州轻工业大学 一种基于神经网络的图像检索方法及系统
CN114238682B (zh) * 2021-12-20 2024-07-26 郑州轻工业大学 一种基于神经网络的图像检索方法及系统

Similar Documents

Publication Publication Date Title
CN111985369B (zh) 基于跨模态注意力卷积神经网络的课程领域多模态文档分类方法
CN110263912B (zh) 一种基于多目标关联深度推理的图像问答方法
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN110334705B (zh) 一种结合全局和局部信息的场景文本图像的语种识别方法
CN112084331B (zh) 文本处理、模型训练方法、装置、计算机设备和存储介质
Wen et al. End-to-end detection-segmentation system for face labeling
CN110704665A (zh) 一种基于视觉注意力机制的图像特征表达方法及系统
CN112966127A (zh) 一种基于多层语义对齐的跨模态检索方法
CN111324765A (zh) 基于深度级联跨模态相关性的细粒度草图图像检索方法
CN111444968A (zh) 一种基于注意力融合的图像描述生成方法
CN108921047B (zh) 一种基于跨层融合的多模型投票均值动作识别方法
CN108446334B (zh) 一种无监督对抗训练的基于内容的图像检索方法
CN112733866A (zh) 一种提高可控图像文本描述正确性的网络构建方法
CN114387366A (zh) 一种感知联合空间注意力文本生成图像方法
CN112527993B (zh) 一种跨媒体层次化深度视频问答推理框架
CN112836702B (zh) 一种基于多尺度特征提取的文本识别方法
CN116610778A (zh) 基于跨模态全局与局部注意力机制的双向图文匹配方法
Rizvi et al. Deep extreme learning machine-based optical character recognition system for nastalique urdu-like script languages
CN110991500A (zh) 一种基于嵌套式集成深度支持向量机的小样本多分类方法
CN113111968A (zh) 图像识别模型训练方法、装置、电子设备和可读存储介质
CN118334489A (zh) 一种基于对抗式双提示学习的视觉语言模型领域自适应方法、终端机及可读存储介质
CN115035341A (zh) 一种自动选择学生模型结构的图像识别知识蒸馏方法
CN114997287A (zh) 模型训练和数据处理方法、装置、设备及存储介质
CN114722798A (zh) 一种基于卷积神经网络和注意力机制的反讽识别模型
CN117009570A (zh) 一种基于位置信息与置信度感知的图文检索方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200117

WD01 Invention patent application deemed withdrawn after publication