CN103617217A - 一种基于层次索引的图像检索方法及系统 - Google Patents
一种基于层次索引的图像检索方法及系统 Download PDFInfo
- Publication number
- CN103617217A CN103617217A CN201310589470.1A CN201310589470A CN103617217A CN 103617217 A CN103617217 A CN 103617217A CN 201310589470 A CN201310589470 A CN 201310589470A CN 103617217 A CN103617217 A CN 103617217A
- Authority
- CN
- China
- Prior art keywords
- bunch
- new
- feature
- center
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000001914 filtration Methods 0.000 claims abstract description 40
- 238000004364 calculation method Methods 0.000 claims abstract description 15
- 230000008569 process Effects 0.000 claims description 27
- 239000000284 extract Substances 0.000 claims description 26
- 239000012141 concentrate Substances 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 12
- 238000010586 diagram Methods 0.000 description 5
- 230000008878 coupling Effects 0.000 description 4
- 238000010168 coupling process Methods 0.000 description 4
- 238000005859 coupling reaction Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 3
- HUTDUHSNJYTCAR-UHFFFAOYSA-N ancymidol Chemical compound C1=CC(OC)=CC=C1C(O)(C=1C=NC=NC=1)C1CC1 HUTDUHSNJYTCAR-UHFFFAOYSA-N 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000013480 data collection Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5838—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
Landscapes
- Engineering & Computer Science (AREA)
- Library & Information Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于层次索引的图像检索方法,包括步骤:步骤1:对库图像提取二进制特征,并存入特征库;步骤2:对特征库中的每个二进制特征随机提取24位作为新特征组成新数据集;步骤3:对新数据集建立聚类索引,使搜索空间分为多层;步骤4:接收查询图像,提取查询图像的查询特征,对查询特征随机提取24位构成新查询特征,并将新查询特征与新数据集中的二进制特征进行匹配,完成初步过滤并得到候选集合;步骤5:将候选集合中的所有特征与原查询特征进行相似度计算,得到多个相似特征构成相似数据集,完成图像检索。本发明与基于sift特征的索引结构相比,该索引结构使得检索效率明显提升,空间资源消耗降低。
Description
技术领域
本发明涉及一种基于层次索引的图像检索方法及系统,属于大规模图像检索领域。
背景技术
随着互联网和多媒体技术的飞速发展,互联网上的图像数量已达到了数千亿级并呈现不断增长的趋势。以著名社交网站Facebook和图像分享网站Flicker为例,截止到2011年6月,Facebook约有1000亿副图像,Flicker用户每天上传的图像就有450万副。如何建立有效的检索机制,在浩瀚的图像库中实现快速、有效的目标图像检索,成为多媒体领域亟待解决的问题。
图像的检索问题可以分为基于关键字的图像检索和基于内容的图像检索。基于关键字的图像检索需要人工对图像标注,赋予图像语义信息。这种方法有局限性,人工标注的语义内容可能存在歧义,图像本身的一些纹理特征很难准确描述,而且对大规模图像标注需要很大的工作量。
基于内容的图像检索,利用图像自身包含的丰富信息,如:颜色,纹理,关键点等等进行图像检索,即以图搜图。这种方法克服了早期基于关键字的图像检索的局限性。基于内容的图像检索过程如图1所示,大致分为三个步骤。首先,根据计算机视觉技术或图像处理技术提取库图像的特征点,对特征点进行描述生成高维特征描述符。然后,采用一种方式将高维特征描述符有效的组织起来,这个过程就是建立索引的过程。最后,提取查询图像的特征点,生成查询特征描述符。在索引中检索,返回与查询特征相似的特征,从而得到与此相似的图像。
发明内容
因为对大规模图像提取特征点,产生海量高维特征描述符,所以需要一种有效的索引机制将特征描述符有效的组织起来,以提高检索的效率。另外,海量高维特征描述符对内存的要求也是一个亟待解决的问题。如何在准确率,速度和空间方面取得平衡,一直是大规模图像检索领域的研究热点。
本发明所要解决的技术问题是,针对现有技术的不足,提供一种实现大规模图像的有效检索的层次检索方法。
本发明解决上述技术问题的技术方案如下:一种基于层次索引的图像检索方法,具体包括以下步骤:
步骤1:对库图像提取二进制特征,并将二进制特征存入特征库;
步骤2:对特征库中的每个二进制特征随机提取24位作为新特征,由新特征组成新数据集;
步骤3:对新数据集建立聚类索引,使新数据集的搜索空间分层;
步骤4:接收查询图像,提取查询图像的查询特征,对查询特征随机提取24位构成新查询特征,并将新查询特征与新数据集中的新特征进行匹配得到候选特征,由候选特征组成候选集,完成初步过滤;
步骤5:将候选集中的候选特征与原查询特征进行相似度计算,得到多个相似特征构成相似数据集,完成图像检索。
本发明的有益效果是:本发明基于二进制特征建立层次索引结构,采用层次索引结构对与查询相似的特征进行初步过滤,得到候选结果集合。将查询特征与候选结果集合中的特征逐一比较,返回真正的最近邻特征。与基于sift特征的索引结构相比,该索引结构使得检索效率明显提升,空间资源消耗降低。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述步骤3具体包括以下步骤:
步骤3.1:在新数据集中随机选取n个新特征作为簇中心,加入簇中心集;
步骤3.2:分别计算新数据集中的每个特征与每个簇中心的距离,将所述新特征添加到距离最近的簇中心构成一个分类簇,完成第一层的聚类过程,将新数据集的特征分成了n类集合;
步骤3.3:判断上一步骤得到的n类集合中一类集合包含的特征数目是否达到阈值数目,如果大于阈值数目,则将该类集合作为新数据集,并跳转至步骤3.1;否则,该类停止聚类过程;
步骤3.4:重复步骤3.3,直到所有的类包含的特征数目小于阈值数目为止,聚类结束,完成搜索空间的分层过程。
其中,n为自然数。
进一步,如果在步骤3分层过程中某个簇包含的特征小于某一个设定的阈值,那么这个簇就不在继续向下分层。
进一步,所述步骤3.1具体包括以下步骤:
步骤3.1.1:在新数据集中随机选择一个新特征作为一个准簇中心;
步骤3.1.2:任意选择一个新数据集中的新特征,计算所述新特征与准簇中心的距离;
步骤3.1.3:判断所述新特征与准簇中心的距离是否大于设定的距离阈值,如果是,将所述新特征作为簇中心,并添加到簇中心集中;否则,放弃所述新特征,跳转至步骤3.1.2;
步骤3.1.4:判断所述簇中心集中簇中心是否达到预设簇中心个数,如果是,进行下一步;否则,跳转至步骤3.1.2;
步骤3.1.5:完成簇中心的选取过程。
进一步,所述步骤4包括以下步骤:
步骤4.1:接收查询图像,提取查询图像的查询特征,对查询特征随机提取24位构成新查询特征;
步骤4.2:分别计算新查询特征与第一层中每个簇中心的距离,找到距离最近的那个簇心,并将本层其他簇中心按照距离从小到大加入簇中心优先队列;
步骤4.3:计算新查询特征与最近簇心的每个孩子节点的距离,找到最近距离的那个孩子节点,将其他的孩子节点按照距离大小加入簇优先队列中;
步骤4.4:重复步骤4.3直到遍历到叶子节点,将叶子节点包含的特征加入候选集合;
步骤4.5:判断候选集合的数目是否达到设定阈值,如果是,进行下一步;否则,遍历簇优先队列,即取出优先队列里距离最近的簇,重复执行步骤4.3;
步骤4.6:完成初步过滤,得到候选集。
其中,孩子节点表示还可以作为父节点连接其他孩子节点的节点;而叶子节点表示结构中最下层的节点,叶子节点不包含其他孩子节点或叶子节点。
进一步,所述步骤5中的相似度计算采用计算特征值之间的海明距离,其中,海明距离越小,两个特征之间越相似。
本发明所要解决的技术问题是,针对现有技术的不足,提供一种实现大规模图像的有效检索的层次检索系统。
本发明解决上述技术问题的技术方案如下:一种基于层次索引的图像检索系统,包括:特征提取模块、数据集模块、分层索引模块、初步过滤模块和深度过滤模块;
所述特征提取模块用于对库图像提取二进制特征,并将二进制特征存入特征库;
所述数据集模块用于对特征库中的每个二进制特征随机提取24位作为新特征,由新特征组成新数据集;
所述分层索引模块用于对新数据集建立聚类索引,使新数据集的搜索空间分层;
所述初步过滤模块用于接收查询图像,提取查询图像的查询特征,对查询特征随机提取24位构成新查询特征,并将新查询特征与新数据集中的二进制特征进行匹配得到候选特征,由候选特征构成候选集,完成初步过滤;
所述深度过滤模块用于将候选集中的所有特征与原查询特征进行相似度计算,得到多个相似特征,构成相似数据集,完成图像检索。
本发明的有益效果是:本发明基于二进制特征建立层次索引结构,采用层次索引结构对与查询相似的特征进行初步过滤,得到候选结果集合。将查询特征与候选结果集合中的特征逐一比较,返回真正的最近邻特征。与基于sift特征的索引结构相比,该索引结构使得检索效率明显提升,空间资源消耗降低。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述分层索引模块包括:簇中心模块、分类簇模块和叶子节点模块;
所述簇中心模块用于在新数据集中选取多个新特征作为簇中心,加入簇中心集;
所述分类簇模块用于计算新数据集中的所有新特征与每个簇中心的距离,将新特征添加到距离最近的簇中心构成多个分类簇;
所述叶子节点模块用于在搜索空间分层完毕之后,包含距离该叶子节点簇最近的特征。
进一步,所述簇中心模块包括:基准模块、距离计算模块和判断模块;
所述基准模块用于在新数据集中随机选择一个新特征作为一个准簇中心;
所述距离计算模块用于任意选择一个新数据集中的新特征,计算所述新特征与准簇中心的距离;
所述判断模块用于判断所述新特征与准簇中心的距离是否大于设定距离阈值,如果是,将所述新特征作为簇中心,并添加到簇中心集中,直到簇中心集中簇中心达到预设个数,完成簇中心的选取过程;否则,放弃所述新特征,重新随机选取一个新特征并返回距离计算模块。
进一步,所述初步过滤模块包括:查询接收模块、距离计算模块、叶子节点计算模块和阈值判断模块;
所述查询接收模块接收查询图像,提取查询图像的查询特征,对查询特征随机提取24位构成新查询特征;
所述距离计算模块用于分别计算新查询特征与簇中心集中所有的簇中心的距离,并将除了距离最近的那个簇心之外的其他簇中心按照距离从小到大排序加入簇中心优先队列;
所述叶子节点计算模块用于得到簇中心队列与新查询特征距离最近的簇中心对应的叶子节点;
所述阈值判断模块用于判断叶子节点包含的特征数目是否达到设定阈值,如果是,完成初步过滤,返回叶子节点队列中所有叶子节点对应的数据特征,构成候选集;否则,递归执行叶子节点计算模块的操作。
进一步,所述深度过滤模块中的相似度计算采用计算特征值之间的海明距离,其中,海明距离越小,两个特征之间越相似。
本发明主要包含四个方面:(1)提取库图像的二进制特征(2)建立基于二进制特征的层次索引结构(3)在二进制层次索引结构中完成初步过滤。(4)在候选集中精确查询,返回相似图像。
当前很多图像检索系统采用的图像特征是sift特征。假设,一幅图像提取1k个sift特征,每个sift特征描述符是128维float型向量,那么一幅图像特征的大小为512k。尽管采取该特征可以取得很好的精度,但是如果应用于大规模图像的检索,该特征存在维度高,占用内存,计算量大的缺点。随着多媒体领域的发展,图像的规模剧增,这些缺点带来的问题越来越引起重视。为了保证图像的检索精度,同时提高检索的速度,减少空间资源的消耗,一种可能的思路是采用占用内存小的图像特征并对特征库建立有效的索引,提高检索的速度。二进制特征可以解决空间资源消耗的问题,并且简单的硬件异或操作可以完成两个特征之间距离的计算,计算速度快。但是,当前存在的很多索引方法并不适合二进制特征,比如KD树,R-树,ANN索引等。
鉴于此,本发明提出了一种针对二进制特征的索引结构二进制层次索引。本发明采用orb二进制特征作为图像的特征描述符,它是在fast特征点检测和brief特征的基础上进行改进的一种特征描述子。每个orb特征是256位的二进制串,特征之间的距离计算是简单的硬件异或操作。因此该特征描述符具有匹配速度快的优点。本发明的实现过程描述如下:首先对每个特征随机提取24位作为新数据集newDataset,然后对新数据集进行层次聚类索引,将搜索空间分层。查询特征采用同样的方式随机提取24位,在newDataset建立的层次索引结构中检索匹配,进行初步的过滤,返回初始候选集。经过在层次索引结构中的检索匹配,可以实现相似特征的初步过滤。初步过滤的实现是通过设定与每个查询特征相似的特征的数目。即假设每个新查询特征在层次索引结构中检索之后,返回1000个相似的特征。那么将这1000个相似的特征加入候选集。初步过滤可以达到快速匹配的目的,使得候选集中的特征数目相对原始数据集很小,然后在候选集中精确查询即逐一与查询特征进行相似性度量的计算,找到真正的近似最近邻特征。相似性度量计算即计算特征之间的海明距离,海明距离越小,两个特征之间越相似。该发明包括以下内容:
1)提取图像特征。对库图像提取二进制特征,放入特征库。每个二进制特征是由0和1组成的二进制串,共256位。
2)生成新数据集。对特征库中的每个特征随机提取24位,组成新数据集。
3)建立索引。对新数据集建立层次索引结构。将索引文件保存到本地。
4)初步过滤。从本地加载索引文件和查询图像,对查询图像提取查询特征。随机提取查询特征的24位作为新查询特征,在层次索引结构中检索出与新查询特征相似的特征,得到候选集。
5)精确查询。在候选集中,计算查询特征与候选集合中每个特征的海明距离,根据距离进行排序,选择出距离较小的mm(mm是一个整数)个特征。
附图说明
图1为本发明具体实施例1所述的一种基于层次索引的图像检索方法流程图;
图2为本发明具体实施例1中构成簇中心集的方法流程图;
图3为本发明具体实施例1中初步过滤的方法流程图;
图4为本发明具体实施例2所述的一种基于层次索引的图像检索系统结构框图;
图5为本发明具体实施例2所述系统中簇中心模块的结构框图;
图6为本发明具体实施例3所述的方法建立层次索引的流程图;
图7为本发明具体实施例3的查询流程图。
附图中,各标号所代表的部件列表如下:
1、特征提取模块,2、数据集模块,3、分层索引模块,4、初步过滤模块,5、深度过滤模块,31、簇中心模块,32、分类簇模块,33、叶子节点模块,311、基准模块,312、距离计算模块,313、判断模块。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,为本发明具体实施例1所述的一种基于层次索引的图像检索方法,具体包括以下步骤:
步骤1:对库图像提取二进制特征,并将二进制特征存入特征库;
步骤2:对特征库中的每个二进制特征随机提取24位作为新特征,由新特征组成新数据集;
步骤3:在新数据集中随机选取n个新特征作为簇中心,加入簇中心集;
步骤4:分别计算新数据集中的每个特征与每个簇中心的距离,将所述新特征添加到距离最近的簇中心构成一个分类簇,完成第一层的聚类过程,将新数据集的特征分成了n类集合;
步骤5:判断上一步骤得到的n类集合中一类集合包含的特征数目是否达到阈值数目,如果大于阈值数目,则将该类集合作为新数据集,并跳转至步骤3;否则,该类停止聚类过程;
步骤6:重复步骤5,直到所有的类包含的特征数目小于阈值数目为止,聚类结束,完成搜索空间的分层过程;
步骤7:接收查询图像,提取查询图像的查询特征,对查询特征随机提取24位构成新查询特征,并将新查询特征与新数据集中的新特征进行匹配得到候选特征,由候选特征组成候选集,完成初步过滤;
步骤8:将候选集中的候选特征与原查询特征进行相似度计算,得到多个相似特征构成相似数据集,完成图像检索。
如果在步骤5分层过程中某个簇包含的特征小于某一个设定的阈值,那么这个簇就不在继续向下分层。
如图2所示,本发明具体实施例1中构成簇中心集的方法包括以下步骤,即所述步骤3具体包括以下步骤:
步骤3.1:在新数据集中随机选择一个新特征作为一个准簇中心;
步骤3.2:任意选择一个新数据集中的新特征,计算所述新特征与准簇中心的距离;
步骤3.3:判断所述新特征与准簇中心的距离是否大于设定的距离阈值,如果是,将所述新特征作为簇中心,并添加到簇中心集中;否则,放弃所述新特征,跳转至步骤3.2;
步骤3.4:判断所述簇中心集中簇中心是否达到预设簇中心个数,如果是,进行下一步;否则,跳转至步骤3.2;
步骤3.5:完成簇中心的选取过程。
如图3所示,本发明具体实施例1中初步过滤的步骤如下,即所述步骤7包括以下步骤:
步骤7.1:接收查询图像,提取查询图像的查询特征,对查询特征随机提取24位构成新查询特征;
步骤7.2:分别计算新查询特征与第一层中每个簇中心的距离,找到距离最近的那个簇心,并将本层其他簇中心按照距离从小到大加入簇中心优先队列;
步骤7.3:计算新查询特征与最近簇心的每个孩子节点的距离,找到最近距离的那个孩子节点,将其他的孩子节点按照距离大小加入簇优先队列中;
步骤7.4:重复步骤7.3直到遍历到叶子节点,将叶子节点包含的特征加入候选集合;
步骤7.5:判断候选集合的数目是否达到设定阈值,如果是,进行下一步;否则,遍历簇优先队列,即取出优先队列里距离最近的簇,重复执行步骤7.3;
步骤7.6:完成初步过滤,得到候选集。
其中,孩子节点表示还可以作为父节点连接其他孩子节点的节点;而叶子节点表示结构中最下层的节点,叶子节点不包含其他孩子节点或叶子节点。
所述步骤8中的相似度计算采用计算特征值之间的海明距离,其中,海明距离越小,两个特征之间越相似。
如图4所示,为本发明具体实施例2所述的一种基于层次索引的图像检索系统,包括:特征提取模块1、数据集模块2、分层索引模块3、初步过滤模块4和深度过滤模块5;
所述特征提取模块1用于对库图像提取二进制特征,并将二进制特征存入特征库;
所述数据集模块2用于对特征库中的每个二进制特征随机提取24位作为新特征,由新特征组成新数据集;
所述分层索引模块3用于对新数据集建立聚类索引,使新数据集的搜索空间分层;
所述初步过滤模块4用于接收查询图像,提取查询图像的查询特征,对查询特征随机提取24位构成新查询特征,并将新查询特征在索引结构中检索匹配得到候选特征,由候选特征构成候选集,完成初步过滤;
所述深度过滤模块5用于将候选集中的所有特征与原查询特征进行相似度计算,得到多个相似特征构成相似数据集,完成图像检索。
所述分层索引模块3包括:簇中心模块31、分类簇模块32和叶子节点模块33;
所述簇中心模块31用于在新数据集中选取多个新特征作为簇中心,加入簇中心集。
所述分类簇模块32用于计算新数据集中的所有新特征与每个簇中心的距离,将新特征添加到距离最近的簇中心构成多个分类簇;
所述叶子节点模块33用于在搜索空间分层完毕之后,包含距离该叶子节点簇最近的特征。
如图5所示,为本发明具体实施例2所述系统中簇中心模块的结构框图,所述簇中心模块31包括:基准模块311、距离计算模块312和判断模块313;
所述基准模块311用于在新数据集中随机选择一个新特征作为一个准簇中心;
所述距离计算模块312用于任意选择一个新数据集中的新特征,计算所述新特征与准簇中心的距离;
所述判断模块313用于判断所述新特征与准簇中心的距离是否大于设定距离阈值,如果是,将所述新特征作为簇中心,并添加到簇中心集中,直到簇中心集中簇中心达到预设个数,完成簇中心的选取过程;否则,放弃所述新特征,重新随机选取一个新特征并返回距离计算模块312。
所述初步过滤模块4包括:查询接收模块41、距离计算模块42、叶子节点计算模块43和阈值判断模块44;
所述查询接收模块41接收查询图像,提取查询图像的查询特征,对查询特征随机提取24位构成新查询特征;
所述距离计算模块42用于分别计算新查询特征与簇中心集中所有的簇中心的距离,并将除了距离最近的那个簇心之外的其他簇中心按照距离从小到大排序加入簇中心优先队列;
所述叶子节点计算模块43用于得到簇中心队列与新查询特征距离最近的簇中心对应的叶子节点。
所述阈值判断模块44用于判断叶子节点包含的特征数目是否达到设定阈值,如果是,完成初步过滤,返回叶子节点队列中所有叶子节点对应的数据特征,构成候选集;否则,递归执行叶子节点计算模块43的操作。
所述深度过滤模块5中的相似度计算采用计算特征值之间的海明距离,其中,海明距离越小,两个特征之间越相似。
本发明的二进制层次索引结构的建立包括以下三个步骤:
(一)对库图像提取二进制特征,组成二进制特征库。
(二)对每个特征随机选择24位,组成新数据集。
(三)对新的特征集建立层次索引结构。
上述步骤(三)建立层次索引是本发明的核心。如图6所示,为本发明具体实施例3所述的方法建立层次索引的流程图,下面是建立层次索引的具体算法:
给定一个数据集合Dataset,简称D,查询数据Query,简称Q。建立索引的算法描述如下:
1)对数据集Dataset的每个特征随机提取24位组成新数据集newDataset,即createNewDataset(Dataset,24)。
2)在newDataset中选择k个cluster,即k个簇中心,简称Cj(j=1,2,….k)。chooseCluster(Dataset,Cj),即选择cluster的过程:首先在newDataset中随机选择一个特征值Di(i=1,2,….,n),加入Cluster中,C{C1},继续随机选择一个特征值D,计算D与C集合中各个元素的距离是否大于某一距离阈值L,若大于则把D加入Cluster集合中,否则在D中继续随机选择一个特征值。直到Cluster集合中的元素数目达到K,选择终止。
3)计算特征库中的每个特征值Di(i=1,2,…,n)与Cj(k=1,2,….,k)的距离d,即将Di加入与此距离最近的cluster中。对每个特征执行操作,直到将所有的特征计算完毕。由此将newDataset分为k类。
4)分别对这k个cluster递归执行上述步骤3),直到叶子节点包含的特征值数据点数达到某个阈值,层次聚类结束。至此完成了层次索引的建立过程。
newDatset数据集按照上述的算法步骤,形成了一棵层次聚类树。为了增加检索匹配的准确率,本发明的系统建立了四棵层次聚类树。
建立索引是为了方便检索的过程,提高检索的效率。尤其大规模图像的检索,建立一个有效的索引结构至关重要。基于上述索引结构,如图7所示,为本发明具体实施例3的查询流程图,查询算法如下:
对查询Q采用建立索引步骤1)中的方法,提取查询特征的前24位作为新的查询newQuery,简称nQ.
1)针对新的查询nQ,首先计算查询nQ与层次索引第一层的k个cluster的距离,找到距离最近的那个Ci(i=1,2,…,k).其他Ci(i=1,2,…,k)按照与nQ的距离大小加入优先队列。距离小的放在队列首部。
2)计算查询nQ与步骤1)中查询距离最近的Ci的孩子节点的距离。找到距离最近的那个节点,将其他节点加入优先队列。距离小的放在队列首部。
3)递归执行步骤2),直到达到叶子节点,返回叶子节点的数据点。
4)按照步骤2)计算查询与优先队列中Ci(i∈[1,k])的孩子节点的距离。找到距离最近的那个节点,删除队列首部的节点,将其他节点加入优先队列。距离小的放在队列首部。
5)递归执行步骤4),直到返回的相似特征数目达到某一阈值,查询停止。得到候选数据集合subDataset.
6)在候选数据集subDataset中执行精确查找,过滤掉不相似的特征。得到真正的近似最近邻特征,从而返回相似的图像。
数据集为10万副图像,每副图像提取100个二进制特征,每个二进制特征包含256位0或1,特征库由1000万个特征组成。随机选择特征的24位组成新数据集,建立四棵层次索引树。设定叶子节点包含的特征数目不大于500。每个查询特征检索匹配的相似特征数目为2000,在2000个中选择最相似的前x(x=3)个特征返回。基于此返回相似的图像。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (11)
1.一种基于层次索引的图像检索方法,其特征在于,具体包括以下步骤:
步骤1:对库图像提取二进制特征,并将二进制特征存入特征库;
步骤2:对特征库中的每个二进制特征随机提取24位作为新特征,由新特征组成新数据集;
步骤3:对新数据集建立聚类索引,使新数据集的搜索空间分层;
步骤4:接收查询图像,提取查询图像的查询特征,对查询特征随机提取24位构成新查询特征,并将新查询特征与新数据集中的新特征进行匹配得到候选特征,由候选特征组成候选集,完成初步过滤;
步骤5:将候选集中的候选特征与原查询特征进行相似度计算,得到多个相似特征构成相似数据集,完成图像检索。
2.根据权利要求1所述的一种基于层次索引的图像检索方法,其特征在于,所述步骤3具体包括以下步骤:
步骤3.1:在新数据集中随机选取n个新特征作为簇中心,加入簇中心集;
步骤3.2:分别计算新数据集中的每个特征与每个簇中心的距离,将所述新特征添加到距离最近的簇中心构成一个分类簇,完成第一层的聚类过程,将新数据集的特征分成了n类集合;
步骤3.3:判断上一步骤得到的n类集合中一类集合包含的特征数目是否达到阈值数目,如果大于阈值数目,则将该类集合作为新数据集,并跳转至步骤3.1;否则,该类停止聚类过程;
步骤3.4:重复步骤3.3,直到所有的类包含的特征数目小于阈值数目为止,聚类结束,完成搜索空间的分层过程。
3.根据权利要求2所述的一种基于层次索引的图像检索方法,其特征在于,如果在步骤3分层过程中某个簇包含的特征小于某一个设定的阈值,那么这个簇就不在继续向下分层,n为自然数。
4.根据权利要求3所述的一种基于层次索引的图像检索方法,其特征在于,所述步骤3.1具体包括以下步骤:
步骤3.1.1:在新数据集中随机选择一个新特征作为一个准簇中心;
步骤3.1.2:任意选择一个新数据集中的新特征,计算所述新特征与准簇中心的距离;
步骤3.1.3:判断所述新特征与准簇中心的距离是否大于设定的距离阈值,如果是,将所述新特征作为簇中心,并添加到簇中心集中;否则,放弃所述新特征,跳转至步骤3.1.2;
步骤3.1.4:判断所述簇中心集中簇中心是否达到预设簇中心个数,如果是,进行下一步;否则,跳转至步骤3.1.2;
步骤3.1.5:完成簇中心的选取过程。
5.根据权利要求1-4任一项所述的一种基于层次索引的图像检索方法,其特征在于,所述步骤4包括以下步骤:
步骤4.1:接收查询图像,提取查询图像的查询特征,对查询特征随机提取24位构成新查询特征;
步骤4.2:分别计算新查询特征与第一层中每个簇中心的距离,找到距离最近的那个簇心,并将本层其他簇中心按照距离从小到大加入簇中心优先队列;
步骤4.3:计算新查询特征与最近簇心的每个孩子节点的距离,找到最近距离的那个孩子节点,将其他的孩子节点按照距离大小加入簇优先队列中;
步骤4.4:重复步骤4.3直到遍历到叶子节点,将叶子节点包含的特征加入候选集合;
步骤4.5:判断候选集合的数目是否达到设定阈值,如果是,进行下一步;否则,遍历簇优先队列,即取出优先队列里距离最近的簇,重复执行步骤4.3;
步骤4.6:完成初步过滤,得到候选集。
6.根据权利要求5所述的一种基于层次索引的图像检索方法,其特征在于,所述步骤5中的相似度计算采用计算特征值之间的海明距离,其中,海明距离越小,两个特征之间越相似。
7.一种基于层次索引的图像检索系统,其特征在于,包括:特征提取模块、数据集模块、分层索引模块、初步过滤模块和深度过滤模块;
所述特征提取模块用于对库图像提取二进制特征,并将二进制特征存入特征库;
所述数据集模块用于对特征库中的每个二进制特征随机提取24位作为新特征,由新特征组成新数据集;
所述分层索引模块用于对新数据集建立聚类索引,使新数据集的搜索空间分层;
所述初步过滤模块用于接收查询图像,提取查询图像的查询特征,对查询特征随机提取24位构成新查询特征,并将新查询特征与新数据集中的二进制特征进行匹配得到候选特征,由候选特征构成候选集,完成初步过滤;
所述深度过滤模块用于将候选集中的所有特征与原查询特征进行相似度计算,得到多个相似特征,构成相似数据集,完成图像检索。
8.根据权利要求7所述的一种基于层次索引的图像检索系统,其特征在于,所述分层索引模块包括:簇中心模块、分类簇模块和叶子节点模块;
所述簇中心模块用于在新数据集中选取多个新特征作为簇中心,加入簇中心集;
所述分类簇模块用于计算新数据集中的所有新特征与每个簇中心的距离,将新特征添加到距离最近的簇中心构成多个分类簇;
所述叶子节点模块用于在搜索空间分层完毕之后,包含距离该叶子节点簇最近的特征。
9.根据权利要求8所述的一种基于层次索引的图像检索系统,其特征在于,所述簇中心模块包括:基准模块、距离计算模块和判断模块;
所述基准模块用于在新数据集中随机选择一个新特征作为一个准簇中心;
所述距离计算模块用于任意选择一个新数据集中的新特征,计算所述新特征与准簇中心的距离;
所述判断模块用于判断所述新特征与准簇中心的距离是否大于设定距离阈值,如果是,将所述新特征作为簇中心,并添加到簇中心集中,直到簇中心集中簇中心达到预设个数,完成簇中心的选取过程;否则,放弃所述新特征,重新随机选取一个新特征并返回距离计算模块。
10.根据权利要求7-9任一项所述的一种基于层次索引的图像检索系统,其特征在于,所述初步过滤模块包括:查询接收模块、距离计算模块、叶子节点计算模块和阈值判断模块;
所述查询接收模块接收查询图像,提取查询图像的查询特征,对查询特征随机提取24位构成新查询特征;
所述距离计算模块用于分别计算新查询特征与簇中心集中所有的簇中心的距离,并将除了距离最近的那个簇心之外的其他簇中心按照距离从小到大排序加入簇中心优先队列;
所述叶子节点计算模块用于得到簇中心队列与新查询特征距离最近的簇中心对应的叶子节点;
所述阈值判断模块用于判断叶子节点包含的特征数目是否达到设定阈值,如果是,完成初步过滤,返回叶子节点队列中所有叶子节点对应的数据特征,构成候选集;否则,递归执行叶子节点计算模块的操作。
11.根据权利要求10所述的一种基于层次索引的图像检索系统,其特征在于,所述深度过滤模块中的相似度计算采用计算特征值之间的海明距离,其中,海明距离越小,两个特征之间越相似。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310589470.1A CN103617217B (zh) | 2013-11-20 | 2013-11-20 | 一种基于层次索引的图像检索方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310589470.1A CN103617217B (zh) | 2013-11-20 | 2013-11-20 | 一种基于层次索引的图像检索方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103617217A true CN103617217A (zh) | 2014-03-05 |
CN103617217B CN103617217B (zh) | 2017-04-26 |
Family
ID=50167920
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310589470.1A Expired - Fee Related CN103617217B (zh) | 2013-11-20 | 2013-11-20 | 一种基于层次索引的图像检索方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103617217B (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103955707A (zh) * | 2014-05-04 | 2014-07-30 | 电子科技大学 | 一种基于深度层次特征学习的海量图像分类系统 |
CN104036261A (zh) * | 2014-06-30 | 2014-09-10 | 北京奇虎科技有限公司 | 人脸识别方法和系统 |
CN104298713A (zh) * | 2014-09-16 | 2015-01-21 | 北京航空航天大学 | 一种基于模糊聚类的图片检索方法 |
CN104376121A (zh) * | 2014-12-04 | 2015-02-25 | 犹杰 | 一种图片自适应匹配组合呈现的系统、方法及用户终端 |
CN104615634A (zh) * | 2014-11-10 | 2015-05-13 | 广东智冠信息技术股份有限公司 | 基于方向特征的手掌静脉指导性快速检索方法 |
CN104765768A (zh) * | 2015-03-09 | 2015-07-08 | 深圳云天励飞技术有限公司 | 海量人脸库的快速准确检索方法 |
CN104978350A (zh) * | 2014-04-10 | 2015-10-14 | 腾讯科技(深圳)有限公司 | 二进制特征的检索方法和系统 |
CN106528552A (zh) * | 2015-09-09 | 2017-03-22 | 杭州海康威视数字技术股份有限公司 | 图像搜索方法及系统 |
CN108009595A (zh) * | 2017-12-25 | 2018-05-08 | 北京航空航天大学 | 一种基于特征规约的图像识别方法 |
CN108387692A (zh) * | 2018-04-25 | 2018-08-10 | 深圳森阳环保材料科技有限公司 | 一种大气污染智能监测系统 |
CN105260739B (zh) * | 2015-09-21 | 2018-08-31 | 中国科学院计算技术研究所 | 面向二进制特征的图像匹配方法及其系统 |
CN108717417A (zh) * | 2018-03-30 | 2018-10-30 | 斑马网络技术有限公司 | 地图检索输入提示方法及其系统 |
CN108829844A (zh) * | 2018-06-20 | 2018-11-16 | 聚好看科技股份有限公司 | 一种信息搜索方法及系统 |
CN110413813A (zh) * | 2019-06-25 | 2019-11-05 | 宁波图达信息技术有限公司 | 一种相同或相似图像搜索方法 |
CN110880005A (zh) * | 2018-09-05 | 2020-03-13 | 阿里巴巴集团控股有限公司 | 向量索引建立方法及装置和向量检索方法及装置 |
CN111259193A (zh) * | 2020-01-16 | 2020-06-09 | 高新兴科技集团股份有限公司 | 一种基于聚类过滤的特征检索系统及其应用方法 |
CN111581413A (zh) * | 2020-04-03 | 2020-08-25 | 北京联合大学 | 一种面向高维图像数据检索的数据过滤方法及系统 |
CN111859004A (zh) * | 2020-07-29 | 2020-10-30 | 书行科技(北京)有限公司 | 检索图像的获取方法、装置、设备及可读存储介质 |
CN113326389A (zh) * | 2021-05-26 | 2021-08-31 | 北京沃东天骏信息技术有限公司 | 图像索引的处理方法、装置、设备、存储介质及程序 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102799614A (zh) * | 2012-06-14 | 2012-11-28 | 北京大学 | 基于视觉词语空间共生性的图像检索方法 |
-
2013
- 2013-11-20 CN CN201310589470.1A patent/CN103617217B/zh not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102799614A (zh) * | 2012-06-14 | 2012-11-28 | 北京大学 | 基于视觉词语空间共生性的图像检索方法 |
Non-Patent Citations (2)
Title |
---|
张培珍: "基于聚类索引的图像检索系统的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
贺玲: "面向大规模图像库的层次化索引机制研究", 《中国博士学位论文全文数据库 信息科技辑》 * |
Cited By (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104978350A (zh) * | 2014-04-10 | 2015-10-14 | 腾讯科技(深圳)有限公司 | 二进制特征的检索方法和系统 |
CN104978350B (zh) * | 2014-04-10 | 2019-04-12 | 腾讯科技(深圳)有限公司 | 二进制特征的检索方法和系统 |
CN103955707B (zh) * | 2014-05-04 | 2017-08-15 | 电子科技大学 | 一种基于深度层次特征学习的海量图像分类系统 |
CN103955707A (zh) * | 2014-05-04 | 2014-07-30 | 电子科技大学 | 一种基于深度层次特征学习的海量图像分类系统 |
CN104036261B (zh) * | 2014-06-30 | 2017-03-29 | 北京奇虎科技有限公司 | 人脸识别方法和系统 |
CN104036261A (zh) * | 2014-06-30 | 2014-09-10 | 北京奇虎科技有限公司 | 人脸识别方法和系统 |
CN104298713A (zh) * | 2014-09-16 | 2015-01-21 | 北京航空航天大学 | 一种基于模糊聚类的图片检索方法 |
CN104298713B (zh) * | 2014-09-16 | 2017-12-08 | 北京航空航天大学 | 一种基于模糊聚类的图片检索方法 |
CN104615634A (zh) * | 2014-11-10 | 2015-05-13 | 广东智冠信息技术股份有限公司 | 基于方向特征的手掌静脉指导性快速检索方法 |
CN104376121A (zh) * | 2014-12-04 | 2015-02-25 | 犹杰 | 一种图片自适应匹配组合呈现的系统、方法及用户终端 |
CN104376121B (zh) * | 2014-12-04 | 2018-03-27 | 深圳大数点科技有限公司 | 一种图片自适应匹配组合呈现的系统、方法及用户终端 |
CN104765768A (zh) * | 2015-03-09 | 2015-07-08 | 深圳云天励飞技术有限公司 | 海量人脸库的快速准确检索方法 |
CN106528552A (zh) * | 2015-09-09 | 2017-03-22 | 杭州海康威视数字技术股份有限公司 | 图像搜索方法及系统 |
CN106528552B (zh) * | 2015-09-09 | 2019-10-22 | 杭州海康威视数字技术股份有限公司 | 图像搜索方法及系统 |
CN105260739B (zh) * | 2015-09-21 | 2018-08-31 | 中国科学院计算技术研究所 | 面向二进制特征的图像匹配方法及其系统 |
CN108009595B (zh) * | 2017-12-25 | 2018-10-12 | 北京航空航天大学 | 一种基于特征规约的图像识别方法 |
CN108009595A (zh) * | 2017-12-25 | 2018-05-08 | 北京航空航天大学 | 一种基于特征规约的图像识别方法 |
CN108717417A (zh) * | 2018-03-30 | 2018-10-30 | 斑马网络技术有限公司 | 地图检索输入提示方法及其系统 |
CN108387692A (zh) * | 2018-04-25 | 2018-08-10 | 深圳森阳环保材料科技有限公司 | 一种大气污染智能监测系统 |
CN108829844A (zh) * | 2018-06-20 | 2018-11-16 | 聚好看科技股份有限公司 | 一种信息搜索方法及系统 |
CN110880005A (zh) * | 2018-09-05 | 2020-03-13 | 阿里巴巴集团控股有限公司 | 向量索引建立方法及装置和向量检索方法及装置 |
CN110880005B (zh) * | 2018-09-05 | 2023-06-23 | 阿里巴巴集团控股有限公司 | 向量索引建立方法及装置和向量检索方法及装置 |
CN110413813A (zh) * | 2019-06-25 | 2019-11-05 | 宁波图达信息技术有限公司 | 一种相同或相似图像搜索方法 |
CN110413813B (zh) * | 2019-06-25 | 2023-05-12 | 宁波图达信息技术有限公司 | 一种相同或相似图像搜索方法 |
CN111259193A (zh) * | 2020-01-16 | 2020-06-09 | 高新兴科技集团股份有限公司 | 一种基于聚类过滤的特征检索系统及其应用方法 |
CN111259193B (zh) * | 2020-01-16 | 2023-08-25 | 高新兴科技集团股份有限公司 | 一种基于聚类过滤的特征检索系统及其应用方法 |
CN111581413A (zh) * | 2020-04-03 | 2020-08-25 | 北京联合大学 | 一种面向高维图像数据检索的数据过滤方法及系统 |
CN111581413B (zh) * | 2020-04-03 | 2023-02-28 | 北京联合大学 | 一种面向高维图像数据检索的数据过滤方法及系统 |
CN111859004A (zh) * | 2020-07-29 | 2020-10-30 | 书行科技(北京)有限公司 | 检索图像的获取方法、装置、设备及可读存储介质 |
CN113326389A (zh) * | 2021-05-26 | 2021-08-31 | 北京沃东天骏信息技术有限公司 | 图像索引的处理方法、装置、设备、存储介质及程序 |
Also Published As
Publication number | Publication date |
---|---|
CN103617217B (zh) | 2017-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103617217A (zh) | 一种基于层次索引的图像检索方法及系统 | |
Wang et al. | Effective multi-query expansions: Collaborative deep networks for robust landmark retrieval | |
CN104035949B (zh) | 一种基于局部敏感哈希改进算法的相似性数据检索方法 | |
Li et al. | GPS estimation for places of interest from social users' uploaded photos | |
CN102129451B (zh) | 图像检索系统中数据聚类方法 | |
Aly et al. | Indexing in large scale image collections: Scaling properties and benchmark | |
CN102364498B (zh) | 一种基于多标签的图像识别方法 | |
CN102890700B (zh) | 一种基于体育比赛视频的相似视频片段检索方法 | |
Chen et al. | Ranking consistency for image matching and object retrieval | |
CN109710792B (zh) | 一种基于索引的快速人脸检索系统应用 | |
CN106815362B (zh) | 一种基于kpca多表索引图像哈希检索方法 | |
CN103345496B (zh) | 多媒体信息检索方法和系统 | |
CN102254015A (zh) | 基于视觉词组的图像检索方法 | |
CN104112005B (zh) | 分布式海量指纹识别方法 | |
Bao et al. | Social event detection with robust high-order co-clustering | |
Dang-Nguyen et al. | Multimodal retrieval with diversification and relevance feedback for tourist attraction images | |
CN103020321A (zh) | 近邻搜索方法与系统 | |
CN104361135A (zh) | 一种图像检索方法 | |
Zhang et al. | Effective image retrieval via multilinear multi-index fusion | |
Ye et al. | Query-adaptive remote sensing image retrieval based on image rank similarity and image-to-query class similarity | |
CN104991953A (zh) | 一种基于倒排索引的粗细粒度视频检索方法 | |
CN105760875A (zh) | 基于随机森林算法的判别二进制图像特征相似实现方法 | |
CN104778272B (zh) | 一种基于区域挖掘和空间编码的图像位置估计方法 | |
CN109241315B (zh) | 一种基于深度学习的快速人脸检索方法 | |
CN109918529A (zh) | 一种基于树形聚类矢量量化的图像检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170426 |