CN114780767A - 一种基于深度卷积神经网络的大规模图像检索方法及系统 - Google Patents
一种基于深度卷积神经网络的大规模图像检索方法及系统 Download PDFInfo
- Publication number
- CN114780767A CN114780767A CN202210393416.9A CN202210393416A CN114780767A CN 114780767 A CN114780767 A CN 114780767A CN 202210393416 A CN202210393416 A CN 202210393416A CN 114780767 A CN114780767 A CN 114780767A
- Authority
- CN
- China
- Prior art keywords
- layer
- hash
- image
- neural network
- convolutional neural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 48
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000000605 extraction Methods 0.000 claims abstract description 22
- 230000006870 function Effects 0.000 claims description 49
- 238000011176 pooling Methods 0.000 claims description 39
- 239000013598 vector Substances 0.000 claims description 22
- 238000012549 training Methods 0.000 claims description 19
- 238000010586 diagram Methods 0.000 claims description 13
- 238000005457 optimization Methods 0.000 claims description 12
- 238000013139 quantization Methods 0.000 claims description 9
- 230000003044 adaptive effect Effects 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000006835 compression Effects 0.000 claims description 2
- 238000007906 compression Methods 0.000 claims description 2
- 239000000203 mixture Substances 0.000 claims description 2
- 230000004931 aggregating effect Effects 0.000 claims 1
- 238000013507 mapping Methods 0.000 claims 1
- 230000007246 mechanism Effects 0.000 description 12
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 241000282414 Homo sapiens Species 0.000 description 2
- 238000011524 similarity measure Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002902 bimodal effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000011437 continuous method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000001172 regenerating effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
- G06F16/532—Query formulation, e.g. graphical querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/51—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Library & Information Science (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于深度卷积神经网络的大规模图像检索方法及系统,通过构建深度卷积神经网络(DHN)进行大规模图像检索,DHN包括基于ResNet50的特征提取、基于通道和空间注意(CSA)的特征细化、分类层和哈希层以及权重层四部分组成;DHN通过CSA实现自底向上的像素显著性关注,通过分类标签监督实现自顶向下的语义约束;DHN采用自适应加权学习算法为每一位哈希码生成权值,然后根据权重所代表的位的重要性,从长哈希码直接生成短哈希码。本发明方法具有更高的哈希码生成精度和速度,从而适合大规模图像检索任务。
Description
技术领域
本发明属于人工智能技术领域,涉及一种大规模图像检索方法及系统,具体涉及一种基于混合注意力和自适应权重的大规模图像检索方法及系统。
背景技术
大规模图像检索任务是给定一幅查询图像,通过图像特征快速地从百万级图像数据库中找到一定数量的内容相似的图像。传统的基于树的检索方法通常使用高时间复杂度的相似度度量如欧氏距离等来计算特征间的距离,在处理低维数据时表现出良好的性能。然而,当数据量达到数百万或数亿,特征维度的增长幅度较大时,容易产生维度灾难,时间性能显著降低。为了能够显著提高存储和检索效率,将原始空间的高维向量转换为汉明空间的二进制编码的哈希检索被提出。
现有的哈希方法主要分为传统哈希方法和基于深度神经网络的哈希方法。最经典的传统哈希方法是LSH,通过K个串联的具有位置敏感性的哈希函数将在高维空间中距离相近的原始数据点映射到相同的哈希桶中,使得查询时只需从查询图片对应的哈希桶内进行近邻搜索。但当数据量大时,LSH需要以码长为代价换取检索性能的提升,而且需要大量的存储空间,因此LSH不适合于大规模图像检索。
Wang等人提出的半监督哈希算法SSH属于经典的半监督哈希算法,对有标签数据最小化经验误差,正则化处理所有数据,以最大化可计算的属性(比如方差)和每个哈希位之间的独立性。在松弛和施加正交约束之后,可以推导出不相关的哈希码。
为了能够更好地利用标签信息,Liu等人提出的基于核的哈希方法KSH根据标签信息建立数据之间的相似关系,得到了较好的结果。先前的哈希方法都是对汉明距离进行直接优化,但是因为汉明距离是非收敛和非平滑的,难以优化。在KSH中,使用二进制码的内积与汉明距离之间的等价关系优化模型,得到一个非常高效易于优化的目标函数,构建紧凑的哈希码。
传统的基于哈希的图像检索方法主要使用手工设计的图像描述子特征,如SIFT、LBP、HOG、SURF特征。但是这些特征描述的是图像的局部特征,不能全面表达图像中隐含的信息,而且特征表达缺乏人类能够理解的高层语义信息。卷积神经网络模仿人类视觉机制,能够全面表达图像信息,更适合于实际应用。因此,近年来深度哈希学习变得越来越受欢迎。
2014年,Xia等人提出了CNNH算法,通过两阶段法将CNN与哈希编码融合,第一阶段学习哈希编码,第二阶段通过训练CNN以输出连续的哈希码。CNNH算法通过CNN自动学习图像特征和非线性哈希函数,对二进制码进行拟合,检索性能取得了显著提升。但是这种方法图像表征和哈希码学习是分离的,不能进行端到端地学习。2015年,Lai等人对CNNH网络进行改进,提出了NINH,将三元组图像作为网络输入,通过两个子网络同时训练,通过三元组损失函数使三元组中相似的图像具有相似的哈希码,不相似的图像具有差异较大的哈希码,实现特征提取和哈希编码的同时优化。2017年,Cao等人提出HashNet框架,通过收敛的连续方法直接进行哈希码学习,从连续的相似数据中学习到准确的二进制码。此外,为了保持图像间的相似性,HashNet基于交叉熵损失函数设计了加权成对交叉熵损失函数。2018年,Cao等人提出DCH架构,通过联合优化柯西交叉熵损失和柯西量化损失生成紧凑且集中的二进制哈希码,实现了高效的汉明空间检索。2020年,Wang等人提出了一种新的全局相似度度量,鼓励相似数据对的哈希码收敛到共同的中心,不同数据对的哈希码收敛到不同的中心,很大程度上提高了学习效率和检索精度。
现有的深度哈希方法已经取得了较高的检索精度,但是大多数方法只是提取了图片的低级特征,提取的特征容易受到图片中无关物体的干扰,导致相似的数据点产生的哈希码不相似,因此检索精度和鲁棒性尚待提升。
发明内容
为了克服以往深度哈希算法的不足,本发明提出了基于深度卷积神经网络的大规模图像检索方法及系统。
本发明的方法所采用的技术方案是:一种基于深度卷积神经网络的大规模图像检索方法,包括以下步骤:
步骤1:将待查询图像输入到深度卷积神经网络中生成哈希码queryHash,以及权重queryWeight;
所述深度卷积神经网络,由基于ResNet50的特征提取层、分类层、哈希层以及权重层四部分组成;
所述基于ResNet50的特征提取层,由依次连接的去除平均池化和全连接层后的ResNet50、CSA的特征细化层和全局平均池化层组成;
所述分类层、哈希层,分别是两个全连接层,并列设置在全局平均池化层之后,在对应的损失函数的监督下,分别预测图像标签和哈希码;
所述权重层,设置在哈希层之后,为每一个哈希码产生对应的权重;
步骤2:计算查询图像和现有图像数据库中图像哈希码的相似度,取相似度最高的图像作为检索结果;
其中,现有图像数据库中的检索图像入库时随即输入到深度卷积神经网络中生成哈希码databaseHash作为特征索引保存在图像数据库中以供检索;
若深度卷积神经网络生成的是64位的哈希码,但需要更短长度的哈希码时,则直接根据查询权重queryWeight,从当前得到的长哈希码中按权重大小从高到低选取相应的哈希位来获取低位哈希码。
本发明的系统所采用的技术方案是:一种基于深度卷积神经网络的大规模图像检索系统,包括以下模块:
模块1,将查询图像输入到深度卷积神经网络中生成哈希码queryHash,以及权重queryWeight;
所述深度卷积神经网络,由基于ResNet50的特征提取层、分类层、哈希层以及权重层四部分组成;
所述基于ResNet50的特征提取层,由依次连接的去除平均池化和全连接层后的ResNet50、CSA的特征细化层和全局平均池化层组成;
所述分类层、哈希层,分别是两个全连接层,并列设置在全局平均池化层之后,在对应的损失函数的监督下,分别预测图像标签和哈希码;
所述权重层,设置在哈希层之后,为每一个哈希码产生对应的权重;
模块2,用于计算查询图像和现有图像数据库中图像哈希码的相似度,取相似度最高的图像作为检索结果;
其中,现有图像数据库中的检索图像入库时随即输入到深度卷积神经网络中生成哈希码databaseHash作为特征索引保存在图像数据库中以供检索;
若深度卷积神经网络生成的是64位的哈希码,但需要更短长度的哈希码时,则直接根据查询权重queryWeight,从当前得到的长哈希码中按权重大小从高到低选取相应的哈希位来获取低位哈希码。
相对于现有技术,本发明具有以下的优点与积极效果:
1)本发明提出了一个端到端的深度哈希框架来快速学习图像检索所需的高精度哈希码。主要包括基于Resnet的特征提取模块、用于特征细化的CSA模块、用于语义监督的分类层和用于量化哈希码的哈希层以及用于产生比特权重的权重层。该端到端框架便于实现整体优化和简化工程实现复杂度的优点。
2)本发明提出了一种自底向上的CSA和自顶向下的分类标签监督组成的混合注意力机制。该机制鼓励网络学习关注的主要语义信息,从而在排除其它次要或不相关对象干扰的情况下,为相似的图像生成一致的哈希码,提升了哈希检索的鲁棒性和精度。
3)本发明提出了一种自适应加权学习策略,学习对应于每个哈希码的权重,用于根据权重定义的重要性从可用的长哈希码中生成更短的段哈希码,从而避免模型的重新训练,显著节省了模型训练的时空复杂度。
附图说明
图1:本发明实施例的流程图;
图2:本发明实施例的深度卷积神经网络结构图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施案例对本发明做进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
请见图1,本发明提供的一种基于深度卷积神经网络的大规模图像检索方法,包括以下步骤:
步骤1:将查询图像输入到深度卷积神经网络中生成哈希码queryHash,以及权重queryWeight;
请见图2,本实施例的深度卷积神经网络,由基于ResNet50的特征提取层、分类层、哈希层以及权重层四部分组成。该网络是一个基于混合注意力机制和自适应权重的端到端框架,同时学习哈希码和权重向量。在分类标签的监督下,结合了通道和空间注意力(CSA)避免图像背景或无关物体的干扰。由自下而上的CSA和自上而下的分类语义监督组成的混合注意力机制可以同时强调关注的突出区域和主导信息,最大限度地提高哈希空间的判别性。权重层可以为查询图像每一位哈希码生成权值,然后根据权重所代表的位的重要性,从查询图像和检索图像长哈希码中直接生成短哈希码;
基于Resnet50的特征提取层第一部分为resnet的特征提取层,由一个独立卷积层和4个卷积残差结构组成,每个残差块中包含多个卷积层,每一层卷积操作后都要经过BatchNorm正则化和Relu激活函数调整特征分布。特征提取层输出维度为2048的特征向量,然后经过一个卷积核大小为3、步长为1的卷积层对特征降维到原来的四分之一即512维。接下来通过CSA模块加强网络对重要特征的关注度,增强特征图的语义信息。然后将增强后的特征向量通过一个卷积层降维之后再通过全局平均池化操作进行空间上的压缩。最后分别通过输出维度为哈希码长度的两个全连接层分别预测哈希码和分类信息。哈希层后还接入了一个同样输出维度的全连接层,用于产生哈希码对应的自适应权重。为了使网络输出的哈希码更逼近1或-1,哈希层输出的向量要再经过一个tan-like激活函数来对哈希码进行收敛。
本实施例的基于ResNet50的特征提取层,由依次连接的去除平均池化和全连接层后的ResNet50、CSA的特征细化层和全局平均池化层组成。
本实施例以Resnet网络为主干,将经过预处理阶段得到的256x256大小的矩阵输入去除平均池化和全连接层后的ResNet50中,得到图像的全局特征表示
为了鼓励网络对显著特征的注意,增强特征图的语义信息,在ResNet50之后嵌入CSA模块,沿通道和空间维度依次推断注意力图。CSA是一个轻量级模块,参数和计算开销可以忽略不计。然后将注意力图与输入特征图相乘进行自适应优化。在该机制中,分别对ResNet50生成的特征图根据注意力权重逐通道和逐像素进行处理,从而增强特征图中的重要区域,提高网络性能。最后通过全局平均池化将CSA输出的特征图集中到空间中。
本实施例的分类层、哈希层,分别是两个全连接层,并列设置在全局平均池化层之后,在对应的损失函数的监督下,分别预测图像标签和哈希码;
本实施例的权重层,设置在哈希层之后,为每一个哈希码产生对应的权重。
本实施例权重层在哈希层之后,它的目的是为每一个哈希码产生对应的权重。因此它的输入为哈希层输出的哈希码输出为哈希码的注意力图即权重向量表示维度为C,长和宽分别为1的特征向量;由哈希码的定义,哈希码H可以看作由C个通道组成且每个通道只包含一个元素的特征图。在权重层中,首先对W和W的转置进行矩阵乘法,然后应用softmax层,得到通道注意力映射每一个元素xji代表第i个通道对第j个通道的影响。最后,对注意力图在纵向维度上求和以得到每一个通道对其它通道的总影响以此代表对应哈希位的重要性,再对X′转置得权重向量W:
本实施例的深度卷积神经网络的CSA的特征细化层,CSA的特征细化层将沿着两个独立的维度(通道和空间)依次推断出注意力图,然后将注意力图与输入特征图相乘进行自适应特征优化。CSA的特征细化层的输入为特征提取模块生成的特征图。它首先通过通道注意模块获得通道加权结果,然后再通过空间注意模块生成最终的精细化特征图。基于注意力的特征自适应学习过程可以表示为:
其中表示基于元素的乘法。表示输入的特征图。和分别表示通道注意力图和空间注意力图。F′是输入特征图在通道维度上的加权结果。F″是最终的加权结果。这个网络被进一步设计为将两个注意力模块的输出联系起来,这有助于得到更准确的结果。
通道注意力模块的第一步是从空间维度来压缩输入特征图,得到一个一维向量。在从空间维度压缩时,同时利用平均池化和最大池化对输入特征图的空间信息进行聚合。然后分别由这两种池化类型生成的描述符和被发送到共享网络。共享网络由多层感知(MLP)组成,其中隐藏层大小减小到输入特征图的1/r,r为减小比。然后对输出的特征向量进行逐元素求和得到通道注意力图Mc。对于一张特征图,通道注意力集中在图中重要的东西上。平均池化对特征图上的每个像素都提供反馈,而最大池化在执行梯度反向传播时,只对特征图上对应的最大位置提供梯度反馈。总之,通道注意力计算如下:
空间注意力模块以通道注意力模块的输出特征图作为输入。空间注意力机制是将输入特征图从通道维度上压缩,分别通过平均池化和最大池化,生成两个二维特征图:和最大池化操作是沿着通道维度提取最大值。平均池化操作是沿着通道维度提取平均值。然后沿着通道维度将它们连接起来,将之前提取的特征图合并成一个双通道特征图,并通过一个标准的卷积层减少为一个通道,生成空间注意力图。总之,空间注意力图计算如下:
其中,σ为Sigmoid函数,||为连接操作。fk×k表示卷积核大小为k的卷积操作,k必须为3或7。
本实施例的深度卷积神经网络,是训练好的深度卷积神经网络,其训练过程包括以下子步骤:
步骤1.1:从现有图像数据集中挑选若干图片作为检索集,然后将检索集分为训练集和测试集,按5:1的比例分配训练集和测试集,即对于每一个类别,训练集的数量是测试集的5倍。其中,训练集和测试集的每个样本均包括一张图像及对应的标签;
步骤1.2:把训练集输入到所述深度卷积神经网络中,在损失函数的监督下,利用SDG梯度下降算法进行反向传播调整网络参数,经过反复迭代得到优化的深度网络模型;
本实施例提出的损失函数为监督哈希损失函数,由三个部分组成:分类损失LC、加权的两两相似损失LP和量化损失LQ。过去的大多数方法都没有充分利用标签信息。图像标签不仅可以提供图像对的相似性,还可以通过图像分类监督为学习哈希函数提供有用的信息。第一项LC通过最小化分类损失使语义上相似的图像映射到相似的哈希码。第二项LP通过最小化加权似然函数来保持成对图像的相似性。第三项LQ通过最小化网络输出和目标的平方误差损失,约束生成的哈希码收敛到1或-1。因此,以下深度哈希优化被提出:
其中,Θ为深度哈希函数学习的所有参数集合,λ1、λ2和λ3分别为各项的平衡参数。
分类损失。分类标签监督是混合注意机制的一个组成部分,以图像分类损失的形式实现。图像的单个标签表示每个实例只能是A或B类别,而多个标签表示每个实例可以分配给多个类别。为了充分利用标签信息,本发明精心构建了分类损失。当图像标签为单标签时,使用交叉熵损失函数LC-S;当图像标签为多标签时,使用多分类交叉熵损失函数LC-M。
哈希码的加权最大后验估计。基于样本对的特征学习和哈希学习可以有效地利用相似图像之间的关系。在哈希学习过程中,使用标签形成监督信息来约束对应的两幅图像之间的哈希码,使它们之间的距离变小。因此,由语义标签集L构造出相似度集其中xi和xj的标签相同时,sij=1;xi和xj的标签不相同时,sij=0。对于一对二进制哈希码hi和hj,其汉明距离distH(·,·)与内积(·,·)的关系如下:
其中,<hi,hj>表示内积;
汉明距离是非凸非光滑的,难以优化,由于其等价性,采用内积对相似性进行量化。
其中为加权似然函数,用LP表示,使两个相似点的内积尽可能小,而两个不同点的内积尽可能大。wij表示每个样本对(xi,xj,sij)对总损失的重要性。一般情况下,在训练数据中,不同图像对的数量要远远大于相似图像对的数量。使用wij来减弱不同图像对的影响,增强相似图像对的影响,从而达到平衡数据的目的。p(H)为先验分布,用LQ表示。由于中每个相似的标签只能是sij=1(相似)或sij=0(不相似),所以设
对于每一对,p(sij∣hi,hj)是给定一对哈希码hi和hj时,相似标签sij的条件概率,可以被定义为成对的逻辑函数:
其中,σ(x)=1/(1+e-αx)是具有超参数α的自适应Sigmoid函数,α用于控制其带宽。
将P(sij∣hi,hj)的定义带入WMAP估计中,得到以下优化问题:
为了便于使用梯度下降法优化损失函数,在网络训练中去除了哈希码的离散约束,并在哈希层后添加Tanh激活函数,使网络输出落在-1到1之间。同时,考虑到哈希码是二进制码,使用Tanh-like激活函数和量化损失代替符号函数对二进制码进行离散化。
其中,λ=1时,o(x)是标准双曲正切函数,λ非常大时,可将o(x)视为标准符号函数。但与符号函数相比,它是可微的,便于网络进行反向传播。
为了保证生成的哈希码完全收敛于二进制码,引入量化损失LQ对生成的哈希码hi进行细化。与DHN相似,本发明使用双模态拉普拉斯先验进行量化,公式为:
其中,∈是调节参数。将p(hi)的定义带入WMAP估计中,得到量化损失如下:
其中,n为样本数量。
本实施例还在大型数据集ImageNet上对训练结果进行验证,分别将训练集和测试集图片输入到训练好的网络模型中生成对应的哈希码DatabaseHash和TestHash,以及对应的权重DatabaseWeight和TestWeight;对于测试集中的每一张图像,计算它和数据集中图像哈希码的汉明距离并按从小到大的顺序排序,依次输出查询结果。结果表明,检索平均精度mAP达到了82.8%,远高于现有最先进的方法。
步骤2:计算查询图像和现有图像数据库中图像哈希码的相似度,取相似度最高的图像作为检索结果;
其中,现有图像数据库中的检索图像入库时随即输入到深度卷积神经网络中生成哈希码databaseHash作为特征索引保存在图像数据库中以供检索;
若深度卷积神经网络生成的是64位的哈希码,如为了满足检索效率的要求需要更短长度的哈希码(48、32、24位)时,则可以直接根据查询权重queryWeight,从当前得到的长哈希码中按权重大小从高到低选取相应的哈希位来获取低位哈希码。
本实施例中,若对检索效率有严格要求,可以根据产生的自适应权重从可用的长哈希码中产生短哈希码,从而节省重新生成不同长度哈希码的成本,一种自适应权值学习方案被提出。该方案学习对应着每个比特重要性的权值向量,然后将长哈希码转换成所需的短哈希码。对于生成的n位哈希码,用一个权重向量W来描述n位哈希码中每一位在相似度上的重要性。通过步骤2.4的权重层,在生成哈希码的同时对应的权重向量也被生成。在成对相似度损失函数中,它和哈希码对应相乘,然后代替原来的无加权的哈希码输入其中同时学习哈希码和权重向量。当需要更短的哈希码时,只需要从长哈希码中取权值更高的相应位即可。
本发明依次在ResNet50的特征层之后进行通道和空间注意(CSA)操作,使哈希网络进一步学会在通道维度和空间维度中关注什么,重点关注哪里。但是,如果图像中有很多物体,网络仍然不能区分哪个是注意的目标。为了解决这个问题,本发明进一步提出了一个由分类标签监督的自顶向下的注意机制。原则上,本发明使用分类标签来约束图像应该被分类到哪个类别,从而鼓励网络专注于该分类的特征学习。通常用于监督的分类标签都是针对关注对象的,这使得网络在生成哈希码时更多地关注真正关注的对象,而忽略了不相关的对象。学习像素意义上的显著物体的CSA实际上是一种自下而上的注意机制。通过这种方式,本发明建立了一个结合自底向上的像素显著性和自顶向下的语义监督的混合注意力机制,其中CSA被驱动到代表标签语义的更突出的区域,而不是视觉上显著的对象。结合CSA和分类损失函数可以使网络更好地识别图像中的目标,从而产生更多的具有区分性的哈希码,具有更好的检索性能。
此外,在现有的最先进的深度哈希方法中,在一次训练过程中只能获得一个长度的哈希码。换句话说,为了获得不同长度的哈希码(如12位、24位、32位等),必须花费时间重新训练,并且必须将不同长度的哈希码全部保留下来,这将带来大量的时间和存储消耗。为了解决这一问题,本发明提出了一种自适应权值学习算法,为深度网络生成的每一位哈希码生成一个权值。每个权重表示对应的哈希码位对图像表示的重要性。对于不同长度的短哈希码,只需通过训练生成一次长哈希码,然后从中取权值较高的相应位即可。
本发明提出了一种具有混合注意机制和自适应加权的深度哈希网络。在ResNet50的特征提取层之后,引入CSA来强调分类标签监督的语义显著特征,从而产生更有区别力的哈希码。此外,本发明提出了一种自适应加权方法,该方法只需要对模型进行一次训练就可以生成长哈希码和相应位的权值。因此,根据权重从长哈希码中进行次采样就能得到短哈希码。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。
Claims (6)
1.一种基于深度卷积神经网络的大规模图像检索方法,其特征在于,包括以下步骤:
步骤1:将待查询图像输入到深度卷积神经网络中生成哈希码queryHash,以及权重queryWeight;
所述深度卷积神经网络,由基于ResNet50的特征提取层、分类层、哈希层以及权重层四部分组成;
所述基于ResNet50的特征提取层,由依次连接的去除平均池化和全连接层后的ResNet50、CSA的特征细化层和全局平均池化层组成;
所述分类层、哈希层,分别是两个全连接层,并列设置在全局平均池化层之后,在对应的损失函数的监督下,分别预测图像标签和哈希码;
所述权重层,设置在哈希层之后,为每一个哈希码产生对应的权重;
步骤2:计算查询图像和现有图像数据库中图像哈希码的相似度,取相似度最高的图像作为检索结果;
其中,现有图像数据库中的检索图像入库时随即输入到深度卷积神经网络中生成哈希码databaseHash作为特征索引保存在图像数据库中以供检索;
若深度卷积神经网络生成的是64位的哈希码,但需要更短长度的哈希码时,则直接根据查询权重queryWeight,从当前得到的长哈希码中按权重大小从高到低选取相应的哈希位来获取低位哈希码。
2.根据权利要求1所述的基于深度卷积神经网络的大规模图像检索方法,其特征在于:所述深度卷积神经网络,基于Resnet50的特征提取层第一部分为resnet的特征提取层,由一个独立卷积层和4个卷积残差结构组成,每个残差块中包含若干卷积层,每一层卷积操作后都要经过BatchNorm正则化和Relu激活函数调整特征分布;特征提取层输出维度为2048的特征向量,然后经过一个卷积核大小为3、步长为1的卷积层对特征降维到原来的四分之一;接下来通过CSA的特征细化层加强网络对重要特征的关注度,增强特征图的语义信息;然后将增强后的特征向量通过一个卷积层降维之后再通过全局平均池化操作进行空间上的压缩;最后分别通过输出维度为哈希码长度的两个全连接层分别预测哈希码和分类信息;哈希层后还接入了一个同样输出维度的全连接层,用于产生哈希码对应的自适应权重;哈希层输出的向量要再经过一个tan-like激活函数来对哈希码进行收敛。
4.根据权利要求1所述的基于深度卷积神经网络的大规模图像检索方法,其特征在于:所述深度卷积神经网络的CSA的特征细化层,将沿着通道和空间两个独立的维度依次推断出注意力图,然后将注意力图与输入特征图相乘进行自适应特征优化;CSA的特征细化层的输入为特征提取生成的特征图,首先通过通道注意模块获得通道加权结果,然后再通过空间注意模块生成最终的精细化特征图;自适应特征优化过程为:
通道注意力模块的第一步是从空间维度来压缩输入特征图,得到一个一维向量;在从空间维度压缩时,同时利用平均池化和最大池化对输入特征图的空间信息进行聚合;然后分别由这两种池化类型生成的描述符和被发送到共享网络;所述共享网络由多层感知MLP组成,其中隐藏层大小减小到输入特征图的1/r,r为减小比;然后对输出的特征向量进行逐元素求和得到通道注意力图Mc;通道注意力计算如下:
空间注意力模块以通道注意力模块的输出特征图作为输入,将输入特征图从通道维度上压缩,分别通过平均池化和最大池化,生成两个二维特征图:和最大池化操作是沿着通道维度提取最大值,平均池化操作是沿着通道维度提取平均值;然后沿着通道维度将它们连接起来,将之前提取的特征图合并成一个双通道特征图,并通过一个标准的卷积层减少为一个通道,生成空间注意力图;空间注意力图计算如下:
其中,σ为Sigmoid函数,||为连接操作;fk×k表示卷积核大小为k的卷积操作,k取值3或7。
5.根据权利要求1-4任意一项所述的基于深度卷积神经网络的大规模图像检索方法,其特征在于:所述深度卷积神经网络,是训练好的深度卷积神经网络,其训练过程包括以下子步骤:
步骤1.1:从现有图像数据集中挑选若干图片作为检索集,然后将检索集分为训练集和测试集。其中,训练集和测试集的每个样本均包括一张图像及对应的标签;
步骤1.2:把训练集输入到所述深度卷积神经网络中,在损失函数的监督下,利用SDG梯度下降算法进行反向传播调整网络参数,经过反复迭代得到优化的深度卷积神经网络;
其中,所述损失函数由三个部分组成:分类损失LC、加权的两两相似损失LP和量化损失LQ;第一项LC通过最小化分类损失使语义上相似的图像映射到相似的哈希码,第二项LP通过最小化加权似然函数来保持成对图像的相似性,第三项LQ通过最小化网络输出和目标的平方误差损失,约束生成的哈希码收敛到1或-1;则深度哈希优化函数L为:
其中,Θ为深度哈希优化函数学习的所有参数集合,λ1、λ2和λ3分别为各项的平衡参数;
当图像标签为单标签时,使用交叉熵损失函数LC-S作为分类损失LC,当图像标签为多标签时,使用多分类交叉熵损失函数LC-M作为分类损失LC;
其中,给定两两相似标签集合其中xi和xj的标签相同时,sij=1;xi和xj的标签不相同时,sij=0;wij表示每个样本对(xi,xj,sij)对总损失的重要性;对于一对二进制哈希码hi和hj,<·,·>表示内积,α表示超参数;
其中,n为样本数量。
6.一种基于深度卷积神经网络的大规模图像检索系统,其特征在于,包括以下模块:
模块1,将查询图像输入到深度卷积神经网络中生成哈希码queryHash,以及权重queryWeight;
所述深度卷积神经网络,由基于ResNet50的特征提取层、分类层、哈希层以及权重层四部分组成;
所述基于ResNet50的特征提取层,由依次连接的去除平均池化和全连接层后的ResNet50、CSA的特征细化层和全局平均池化层组成;
所述分类层、哈希层,分别是两个全连接层,并列设置在全局平均池化层之后,在对应的损失函数的监督下,分别预测图像标签和哈希码;
所述权重层,设置在哈希层之后,为每一个哈希码产生对应的权重;
模块2,用于计算查询图像和现有图像数据库中图像哈希码的相似度,取相似度最高的图像作为检索结果;
其中,现有图像数据库中的检索图像入库时随即输入到深度卷积神经网络中生成哈希码databaseHash作为特征索引保存在图像数据库中以供检索;
若深度卷积神经网络生成的是64位的哈希码,但需要更短长度的哈希码时,则直接根据查询权重queryWeight,从当前得到的长哈希码中按权重大小从高到低选取相应的哈希位来获取低位哈希码。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210393416.9A CN114780767B (zh) | 2022-04-14 | 2022-04-14 | 一种基于深度卷积神经网络的大规模图像检索方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210393416.9A CN114780767B (zh) | 2022-04-14 | 2022-04-14 | 一种基于深度卷积神经网络的大规模图像检索方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114780767A true CN114780767A (zh) | 2022-07-22 |
CN114780767B CN114780767B (zh) | 2024-08-13 |
Family
ID=82429102
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210393416.9A Active CN114780767B (zh) | 2022-04-14 | 2022-04-14 | 一种基于深度卷积神经网络的大规模图像检索方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114780767B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115964527A (zh) * | 2023-01-05 | 2023-04-14 | 北京东方通网信科技有限公司 | 一种用于单标签图像检索的标签表征构建方法 |
CN117788963A (zh) * | 2024-02-27 | 2024-03-29 | 中科卫创(西安)信息技术有限公司 | 一种基于深度学习的遥感影像数据管理方法及系统 |
CN118064198A (zh) * | 2024-04-23 | 2024-05-24 | 新疆凯龙清洁能源股份有限公司 | 用于天然气中二氧化碳脱除的智能控制方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109918528A (zh) * | 2019-01-14 | 2019-06-21 | 北京工商大学 | 一种基于语义保护的紧凑的哈希码学习方法 |
CN109947963A (zh) * | 2019-03-27 | 2019-06-28 | 山东大学 | 一种基于深度学习的多尺度哈希检索方法 |
-
2022
- 2022-04-14 CN CN202210393416.9A patent/CN114780767B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109918528A (zh) * | 2019-01-14 | 2019-06-21 | 北京工商大学 | 一种基于语义保护的紧凑的哈希码学习方法 |
CN109947963A (zh) * | 2019-03-27 | 2019-06-28 | 山东大学 | 一种基于深度学习的多尺度哈希检索方法 |
Non-Patent Citations (1)
Title |
---|
刘颖;程美;王富平;李大湘;刘伟;范九伦;: "深度哈希图像检索方法综述", 中国图象图形学报, no. 07, 16 July 2020 (2020-07-16) * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115964527A (zh) * | 2023-01-05 | 2023-04-14 | 北京东方通网信科技有限公司 | 一种用于单标签图像检索的标签表征构建方法 |
CN115964527B (zh) * | 2023-01-05 | 2023-09-26 | 北京东方通网信科技有限公司 | 一种用于单标签图像检索的标签表征构建方法 |
CN117788963A (zh) * | 2024-02-27 | 2024-03-29 | 中科卫创(西安)信息技术有限公司 | 一种基于深度学习的遥感影像数据管理方法及系统 |
CN118064198A (zh) * | 2024-04-23 | 2024-05-24 | 新疆凯龙清洁能源股份有限公司 | 用于天然气中二氧化碳脱除的智能控制方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114780767B (zh) | 2024-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mascarenhas et al. | A comparison between VGG16, VGG19 and ResNet50 architecture frameworks for Image Classification | |
Yang et al. | A survey of DNN methods for blind image quality assessment | |
WO2021042828A1 (zh) | 神经网络模型压缩的方法、装置、存储介质和芯片 | |
CN111950649B (zh) | 基于注意力机制与胶囊网络的低照度图像分类方法 | |
Alani et al. | Hand gesture recognition using an adapted convolutional neural network with data augmentation | |
Ge et al. | An attention mechanism based convolutional LSTM network for video action recognition | |
Donahue et al. | Decaf: A deep convolutional activation feature for generic visual recognition | |
CN109711463A (zh) | 基于注意力的重要对象检测方法 | |
CN114780767B (zh) | 一种基于深度卷积神经网络的大规模图像检索方法及系统 | |
CN109063719B (zh) | 一种联合结构相似性和类信息的图像分类方法 | |
CN109743642B (zh) | 基于分层循环神经网络的视频摘要生成方法 | |
CN110175248B (zh) | 一种基于深度学习和哈希编码的人脸图像检索方法和装置 | |
CN105184298A (zh) | 一种快速局部约束低秩编码的图像分类方法 | |
Tang et al. | Deep fishernet for object classification | |
CN110188827A (zh) | 一种基于卷积神经网络和递归自动编码器模型的场景识别方法 | |
CN114155443B (zh) | 一种基于多感受野图注意力网络的高光谱图像分类方法 | |
CN112434628B (zh) | 基于主动学习和协同表示的小样本图像分类方法 | |
Chen et al. | An Improved Deep Fusion CNN for Image Recognition. | |
CN114329031B (zh) | 一种基于图神经网络和深度哈希的细粒度鸟类图像检索方法 | |
CN115100709B (zh) | 一种特征分离的图像人脸识别与年龄估计方法 | |
CN115222998B (zh) | 一种图像分类方法 | |
CN110119707A (zh) | 一种人体动作识别方法 | |
CN113052017B (zh) | 一种基于多粒度特征表示和域自适应学习的无监督行人重识别方法 | |
CN103942214B (zh) | 基于多模态矩阵填充的自然图像分类方法及装置 | |
CN115661539A (zh) | 一种嵌入不确定性信息的少样本图像识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |