Nothing Special   »   [go: up one dir, main page]

CN102147815B - 图片搜索方法和图片搜索系统 - Google Patents

图片搜索方法和图片搜索系统 Download PDF

Info

Publication number
CN102147815B
CN102147815B CN 201110100485 CN201110100485A CN102147815B CN 102147815 B CN102147815 B CN 102147815B CN 201110100485 CN201110100485 CN 201110100485 CN 201110100485 A CN201110100485 A CN 201110100485A CN 102147815 B CN102147815 B CN 102147815B
Authority
CN
China
Prior art keywords
visual word
picture
word dictionary
visual
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN 201110100485
Other languages
English (en)
Other versions
CN102147815A (zh
Inventor
段凌宇
纪荣嵘
陈杰
李冰
黄铁军
姚鸿勋
高文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN 201110100485 priority Critical patent/CN102147815B/zh
Publication of CN102147815A publication Critical patent/CN102147815A/zh
Application granted granted Critical
Publication of CN102147815B publication Critical patent/CN102147815B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)

Abstract

本发明提供一种图片搜索方法和图片搜索系统,该方法包括客户端接收查询内容,该查询内容包括待查询的目标图片、或者待查询的目标图片和相关信息;客户端获取目标图片的视觉单词,并依据预置规则在客户端的一个以上的视觉单词词典中选取与查询内容对应的至少一个目标视觉单词词典,以及,依据目标视觉单词词典获取视觉单词的目标视觉单词;将目标视觉单词编码后发送至服务端,以获取匹配查询内容的结果图片和/或结果图片的相关信息。该方法通过减少客户端上传的数据量的方式提高图片搜索的速度,同时缩短了用户的等待时间,且能够提升系统检索的准确率。

Description

图片搜索方法和图片搜索系统
技术领域
本发明涉及图片的识别与搜索技术领域,尤其涉及一种图片搜索方法和图片搜索系统。
背景技术
随着无线网络的蓬勃发展和移动设备的功能不断增强,用户利用移动设备上网查询图片信息越来越频繁。最早出现的是采用文本描述图片的内容,进而依据该些文本内容进行后续的检索/搜索。然而由于文本不能准确描述图片内容,以及文本检索图片的检索结果常常不是用户所需要的信息,进而文本检索方式不能令用户满意。
另外一种基于内容的图片搜索方法是采用图片作为查询,搜索到相似图片为目的一种检索方法,可以避免上述文本检索图片所带来的文本描述不准确的问题。但是,该基于内容的图片搜索方法是直接向服务端传送图像,由此会产生较大的数据传输量。特别地,在带宽有限且不稳定的无线网络环境下,图片搜索往往需要较长的查询响应时间。
由此,业内人士通过视觉描述子对图片进行描述,将图片转化成多个数据组成的一维向量,从而将向服务器传送图片改成向服务器传输数据向量。该视觉描述子对图片的描述方式能够提高图片的查询响应时间,但是受限于目前移动网络质量,上传速度仍然不能满足用户的实际需求。鉴于此,如何提供一种即能保证图片检索性能与效率,又可以降低图片检索中对带宽的要求的图片检索方法是当前需要解决的技术问题。
发明内容
针对现有技术中的缺陷,本发明提供一种图片搜索方法和图片搜索系统,该方法和系统通过在不降低搜索性能的条件下减少客户端上传的数据量的方式提高图片的检索速度,缩短了用户的等待时间,且能够提升搜索系统搜索的准确率。
本发明提供的图片搜索方法,包括:
客户端接收查询内容,该查询内容包括待查询的目标图片、或者待查询的目标图片和相关信息;
客户端获取目标图片的视觉单词,并依据预置规则在客户端的一个以上的视觉单词词典中选取与查询内容对应的至少一个目标视觉单词词典,以及,依据目标视觉单词词典获取视觉单词的目标视觉单词;
将目标视觉单词编码后发送至服务端,以获取匹配查询内容的结果图片和/或结果图片的相关信息。
根据本发明的另一方面,本发明还提供一种图片搜索方法,其包括:
服务端接收编码后的目标视觉单词并解码出目标视觉单词;
该服务端基于目标视觉单词查找服务端内视觉单词词典对应的索引表,以获得结果图片和/或结果图片的相关信息,并将其发送至客户端;
所述视觉单词词典为:对服务端图片数据库的全部图片的视觉特征采用聚类方式建立的视觉单词词典。
根据本发明的另一方面,本发明还提供一种图片搜索系统,其包括:
接收模块,客户端接收包括待查询的目标图片、或者待查询的目标图片和相关信息的查询内容;
目标视觉单词获取模块,客户端获取目标图片的视觉单词,并依据预置规则在客户端的一个以上的视觉单词词典中选取与查询内容对应的至少一个目标视觉单词词典,以及,依据目标视觉单词词典获取视觉单词的目标视觉单词;
目标视觉单词发送模块,将目标视觉单词编码后发送至服务端,
接收和查找模块,服务端接收编码的目标视觉单词并解码,以及基于目标视觉单词查找数据库中所有图片的视觉单词词典对应的索引表,以获得结果图片和/或结果图片的相关信息;
发送模块,所述服务端将结果图片和/或结果图片的相关信息发送至客户端。
本发明的图片搜索方法和图片搜索系统,主要是通过在客户端将目标图片压缩为具有视觉内容描述能力的目标视觉单词,以上传至服务端,进而实现客户端和服务端之间的低比特传输数据,缩短了用户在查询目标图片时的等待时间,同时提高了系统中的服务端的响应时间,进而提高了图片搜索方法中的查询效率。
进一步地,本发明中的搜索方法还能够提高搜索结果的准确率。本发明能够推广应用于各种图片的检索/搜索,且能够获取到结果图片的扩展信息,使得该方法的适用范围较广,可适用各个领域,方便用户检索各类信息。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明中的图片搜索方法实施例的步骤流程图;
图2为本发明中的用于筛选有效视觉词典的步骤流程图;
图3为本发明中的图片搜索方法实施例的步骤流程图;
图4为本发明中的图片搜索系统实施例的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明主要是提供一种图片搜索方法,该搜索方法主要是利用客户端预先预置的视觉单词词典库获取较少传输数据量的针对目标图片的目标视觉单词,进而将该些目标视觉单词编码后发送至服务端,已从服务端获取结果图片和/或相关的扩展信息。该方法有效减小了描述目标图片视觉单词数目,降低了传输给服务端的数据量,达到客户端与服务端之间的数据低比特传输,其可有效解决在当前带宽限制下,数据传输时间长的问题,同时能够减小服务端的响应时间,进而能够较好的节省用户等待的时间。
以下描述中需要注意的是:
视觉单词:对视觉特征空间的进行离散划分,每个单词为一个划分,采用图片特征来描述图片内容,为最基本的数据特征;
视觉单词词典:图片数据库中所有或挑选的部分图片的视觉单词构成的集合。
参照图1所示,图1示出了本发明中图片搜索方法实施例的步骤流程图,其步骤包括:
步骤101,客户端接收查询内容,该查询内容包括待查询的目标图片/查询图片、或者待查询的目标图片和相关信息;该处的相关信息为除目标图片以外的信息。例如相关信息可为对目标图片进行描述的文本信息、地理位置信息、出版社信息、出版社条码、出版社徽标或电子标签等等。
步骤102,客户端获取目标图片的视觉单词,并依据预置规则在客户端的一个以上的视觉单词词典中选取与查询内容对应的至少一个目标视觉单词词典,以及,依据目标视觉单词词典获取视觉单词的目标视觉单词;
目标图片的视觉单词的生成方式可为,获取目标图片的一个以上的视觉特征,根据视觉特征与视觉单词的映射规则将特征转换成原始视觉单词词典中的视觉单词。优选地,客户端的原始视觉单词词典与服务端的原始视觉单词词典相同,其客户端的原始视觉单词词典可以预先预置在客户端,并能够实时从服务端更新。
其中原始视觉单词词典的生成方式可为,获取服务端数据库图片的一个以上的视觉特征,对数据库图片的视觉特征采用聚类方式生成多个类。该处以及后续的聚类方法的具体方式可以是K均值聚类、分层聚类、谱聚类等,其中谱聚类可以参考文献“Ng A.,Jordan M.,and Weiss Y.On SpectralClustering:Analysis and an algorithm.NIPS,849-856,2001”中的方法。每个类的类中心来代表该类,称为视觉单词,即每个类为一个视觉单词,整个数据库的视觉单词集合构成原始视觉单词词典。
具体地,本实施例中的可通过提取所述目标图片的颜色直方图、纹理图、尺度不变描述子、梯度位置朝向直方图或方向梯度直方图等视觉特征;
接着,根据视觉特征与所述视觉单词的映射规则,将所述目标图片的颜色直方图、纹理图、尺度不变描述子(SIFT)、梯度位置朝向直方图(GLOH)或方向梯度直方图(HOG)转换成所有与服务端的原始视觉单词词典对应的视觉单词。
子步骤1021,依据查询内容的类型,从客户端预先预置的一个或多个视觉单词词典库中,查找匹配查询内容的类型的视觉单词词典库及预测损失函数。也就是说,预先设置了查询内容类型与视觉单词词典库映射规则。例如,查询内容为图片和对图片进行描述的文本信息,视觉单词词典库为与文本信息对应的视觉单词词典库。
特别地,客户端预先预置的一个或多个视觉单词词典库为客户端预先从服务端获取的,并且,所述客户端定时更新所述一个或多个视觉单词词典库。或者,在服务端有新的图片增加时,可以提示客户端更新其内部的视觉单词词典库。以下通过后续的步骤P1至P3详细说明服务端如何获取视觉单词词典库的过程。
子步骤1022,采用预测损失函数计算视觉单词词典库中的各视觉单词词典对目标图片的视觉单词的预测损失值,获取阈值范围内的一个或多个视觉单词词典。
其中,采用预测损失函数计算视觉单词词典库中的各视觉单词词典对目标图片的视觉单词的预测损失值,其预测损失值的具体计算方式可选择如下第一计算方式至第三计算方式中的任一种。
第一计算方式:目标图片的视觉单词和目标视觉单词词典所在图片类的类中心的余弦距离;或
第二计算方式:目标图片的视觉单词和目标视觉单词词典所在图片类的类中心的余弦距离,以及相关信息和视觉单词词典所在图片类的同类信息的欧式距离的加权和;
第三计算方式:目标图片和目标视觉单词词典的视觉单词词典所在图片类的视觉相似性距离,以及相关信息和视觉单词词典所在图片类的同类信息的欧式距离的乘积。
举例来说,预测损失函数f预测(qi,Cj)的公式为:
f预测(qi,Cj)=α·Vdij+β·Rdij
f预测(qi,Cj)表示目标图片qi和视觉单词词典所在图片类Cj的预测损失值,Vdij为目标图片的视觉单词和目标视觉单词词典所在图片类的类中心的余弦距离,Rdij为相关信息和视觉单词词典所在图片类的同类信息的欧式距离。α,β为实数,可以根据经验或者需求设置。
目标图片的视觉单词和目标视觉单词词典所在图片类的类中心的余弦距离Vdij计算公式为,
Vd ij = | | BOW i → , BOW j → | | Co sin e = BOW i → · BOW j → | | BOW i → | | · | | BOW j → | | ;
Figure BDA0000056572300000071
图片i为目标图片的视觉单词,
Figure BDA0000056572300000072
为目标视觉单词词典所在图片类Cj的类中心。
相关信息和视觉单词词典所在图片类的同类信息的欧式距离Rdij计算公式为
Rd ij = | | R i , R j | | Co sin e = ( R i - R j ) 2
Ri为图片i为查询内容中的相关信息,Rj为目标视觉单词词典所在图片类Cj的同类信息值。
另外,上述子步骤1021中查询内容的类型可包括:目标图片类、目标图片和文本类、目标图片和传感器检测的信号类,目标图片和物体识别软件识别出图片中的物体标签类。其中,传感器检测的信号可包括利用全球定位系统装置(GPS)检测到地理位置信息,用条码扫描器扫描到图书或商品条码的条形码信息,用电子标签阅读器读取的电子标签信息(RFID)等。物体识别软件识别的物体标签可包括用人脸识别软件识别出人脸,文字识别系统软件(ORC)识别出文字等。
举例来说,查询内容的类型为目标图片类时,视觉单词词典库为根据图片相似性建立的视觉相似性的视觉单词词典库。
查询内容的类型为目标图片和传感器检测的信号类时,如查询内容为地标图片,以及传感器检测的信号可为地标图片中的建筑物、地标图片对应的地理位置信息、建筑物对应的地理位置信息或地标图片中的自然景观对应的地理位置信息。此时,视觉单词词典库为与地理位置信息对应的视觉单词词典库。
查询内容的类型为目标图片和物体识别软件识别出图片中的物体标签类时,如查询内容为书本图片,物体识别软件识别出图片中的物体标签可为书本图片中的书本的出版社徽标或名称。此时,视觉单词词典库为与出版社徽标或名称对应的视觉单词词典库。
查询内容为商品的照片,物体识别软件识别出图片中的物体标签可为商品的商标,或者条码扫描器扫描出与照片中对应商品(实物)的条形码,视觉单词词典库为与商标或条形码对应的视觉单词词典库。
查询内容为博物馆展览室的引导指示图,物体识别软件识别出图片中的物体标签为引导指示图片中的条形码或电子标签,视觉单词词典库为与条形码或电子标签对应的视觉单词词典库。该步骤中将图片集合进行划分成多个类,使得划分后图片集合的耦合视觉单词最大,从而达到降低视觉单词词典维度的目的。
步骤103,将目标视觉单词编码后发送至服务端,以获取匹配查询内容的结果图片和/或结果图片的相关信息并显示。
在上述的子步骤1021中,当客户端预先预置的一个或多个视觉单词词典库为客户端预先从服务端获取时,服务端预先建立一个或多个视觉单词词典库的步骤包括:
第一步P1:采用图片集合划分方式将服务端数据库中的图片划分为各类型的图片集合。
其中,第一步P1的子步骤为利用图片之间视觉相似性将所有图片划分成多个图片集合。或者,第一步P1的子步骤为利用与图片有关信息如图片的拍照日期、文本标签、电子标签等将所有图片划分成多个图片集合。当然,第一步P1的子步骤还可为利用图片之间视觉相似性和与图片有关信息拍照日期、文本标签、电子标签等将所有图片划分成多个集合。
第二步P2:建立各图片集合对应的视觉单词词典,并分析各个图片对应的视觉单词词典。特别地。该处的视觉单词词典可为图片集合的视觉特征采用聚类方式建立图片的原始视觉单词词典;或者,该处的视觉单词词典为:对图片集合的视觉特征采用聚类方式建立图片的视觉单词词典,基于有效视觉单词词典的筛选规则,确定代表原始视觉单词词典的有效视觉单词词典,将有效视觉单词词典作为视觉单词词典,进而取的视觉单词词典的维度(N轴坐标系中的维度)可相对减少。
第三步P3:(获取视觉单词词典库的第一种方式)若视觉单词词典满足视觉单词词典库建立条件,则各类型的图片集合对应的视觉单词词典的集合组成一个视觉单词词典库。
其中:视觉单词词典库建立条件可为:划分后各个图片集合的视觉单词词典中视觉单词数目小于等于服务端数据库的视觉单词词典的视觉单词总数;以及且对划分后各个图片集合统计其视觉单词的概率分布,并计算视觉单词概率分布的熵,其概率分布的信息熵小于设定阈值。
最后,服务端将建立的视觉单词词典发送至客户端,并使其存储以便后续使用。当服务端有新的图片时,可以对自身的视觉单词词典更新,以及使客户端的视觉单词词典同时更新。
相比于现有技术,本实施例中的有效视觉单词词典的筛选规则可为(即第二步P2中使用的有效视觉单词词典的筛选规则可为):
步骤P41:从某一类的图片中选择某一数量的图片作为样本图片,以及将所述样本图片的特征转换为所述原始视觉单词词典中的视觉单词;
步骤P42:依据样本图片的视觉单词在所述原始视觉单词词典的视觉单词索引表中查询,获得原始查询结果;
步骤P43:将属于原始视觉单词词典的任意视觉单词进行组合,以构成一个筛选视觉单词词典,基于筛选视觉单词词典,将所述样本图片的特征转换为对应该筛选视觉单词词典内的第一视觉单词,并采用第一视觉单词在所述原始视觉单词词典的视觉单词索引表中查询,获得与筛选视觉单词词典对应的第一查询结果;
步骤P44:分析所有样本图片的原始查询结果与所述第一查询结果,若第一查询结果与原始查询结果相符,则采用当前的筛选视觉单词词典作为视觉单词词典;否则从所述原始视觉单词词典中选择一个视觉单词增加到当前的筛选视觉单词词典中,返回到获取所述第一查询结果的步骤。
需要说明的是:上述各类型的图片集合对应的视觉单词词典生成方式为,对图片集合的视觉特征采用聚类方式建立图片的视觉单词词典。
相比较于现有技术,本实施例中的搜索方法仅需向服务端传输几十比特的编码后的数据量,以实现客户端较快查询的目的,同时提高了客户端在查询目标图片过程中的传输效率,且缩短了服务端的响应查询时间。
特别地,本实施例的图片搜索方法主要是应用于移动终端中的图片查询,该些移动终端通过自适应地为查询信息选择适合的视觉单词词典,并获得具有视觉描述能力的目标视觉单词,以有效降低待查询的目标图片的数据量,进而实现客户端和服务端之间的低比特传输数据,缩短了用户在查询目标图片时的等待时间,同时提高了服务端的响应时间,进而提高了图片搜索方法的查询效率。
进一步地,本发明中的搜索方法还能够提高检索结果的准确率。本发明能够推广应用于各种图片的检索/搜索,且能够获取到结果图片的扩展信息,使得该方法的适用范围较广,可使用各个领域,方便用户检索各类信息。
参照图2所示,图2示出了本发明中的用于筛选有效视觉词典的具体步骤流程图;即,上述用于分布式图片搜索的索引构建方法实施例中筛选有效视觉词典的具体计算步骤包括:
第一步201:从整个图片数据库中挑选出Nsample张样本图片,将这些样本图片作为查询图片在视觉单词索引表中查询,检索前R个查询图片结果。对于第i张图片,其查询结果
Figure BDA0000056572300000101
为查询结果中排在第j位的图片,
Figure BDA0000056572300000102
的视觉单词向量为
Figure BDA0000056572300000103
第二步202:计算每个结果图片的term frequency-inverse documentfrequency(TF-IDF),的TF-IDF为
Figure BDA0000056572300000105
从原始视觉单词词典的子集中筛选出有效视觉单词词典。
第三步203:设置迭代次数为d=1,有效视觉单词词典min_Vj为空,候选视觉单词集合cadi_Vj=V(V为原始视觉单词词典),其元素的个数为Ncv,Nsample张图片的权重集合
Figure BDA0000056572300000111
wi为图片i的权重为0,测试子集train_V为空;
第四步204:若迭代次数d>α或lostRank<β则结束。
第五步205:否则,将候选视觉单词集合中的Ncv个视觉单词分别加入到测试子集tran_V中,从而产生Ncv个测试子集train_V1,...,
Figure BDA0000056572300000112
train_Vt=min_V∪{wdt}。
第六步206:将各测试子集作为视觉单词词典,根据该视觉单词词典分别将查询图片i局部特征向量Si转换为视觉单词向量,测试子集train_Vk对应的图片i视觉单词向量为
Figure BDA0000056572300000113
第七步207:计算采用各测试子集描述每个查询图片所导致的总错误率
Figure BDA0000056572300000114
对于测试子集train_Vk和图片Ii,总错误率Lost(Ii)k计算方法为如下的M1至M4所示:
M1,将
Figure BDA0000056572300000115
映射为成原始视觉单词词典视觉向量
Figure BDA0000056572300000116
为映射向量;
M2,计算当查询图片用测试子集train_Vk描述时,结果图片
Figure BDA0000056572300000118
和查询图片i的内容相似性
Figure BDA0000056572300000119
计算方法为:
| | gBO W I i ( k ) → · BOW A j i → | | Co sin e = BOW A j i → · gBOW I i ( k ) → | | BO W A j i → | | · | | gBO W I i → ( k ) | | ;
M3,计算用测试子集train_Vk描述查询图片i导致的错误率Lost(Ii)k
Lost ( I i ) k = w i d - 1 × Σ r = 1 R R ( A r i ) · TI A r · | | gBO W I i ( k ) → · BOW A j i → | | Co sin e ;
Figure BDA00000565723000001112
为与结果图片排序位置递增的函数,可以设置
Figure BDA00000565723000001114
M4,计算用测试子集train_Vk描述查询图片的总错误率
Figure BDA0000056572300000121
lost Rank k = Σ i = 1 N sample Lost ( I i ) d - 1 .
第八步208:选择使总错误率lostRank最小的测试子集,更新有效视觉单词词典和候选视觉单词集合,其具体方法为:若该测试子集为train_VMIN,则有效视觉单词词典为min_V=train_VMIN,cadi_V=cadi_V-{wdMIN}。
第九步209:更新每个查询图片的权重,查询图片i的权重更新的计算方法为:
第十步210:更新迭代次数d=d+1,并返回步骤第四步204。
在上述实施例的基础,以下以查询信息仅包含图片为例进行详细说明,其查询步骤为:
第一步,客户端获取待搜索的目标图片。
第二步,客户端获取所述目标图片的一个以上的特征,并将该些特征转换为视觉单词。
具体地,本实施例中可通过提取所述目标图片的颜色直方图、纹理图、尺度不变描述子、梯度位置朝向直方图或方向梯度直方图等视觉特征。
接着,根据视觉特征与视觉单词的映射规则,将所述目标图片的颜色直方图、纹理图、尺度不变描述子(SIFT)、梯度位置朝向直方图(GLOH)或方向梯度直方图(HOG)转换成客户端的视觉单词词典中的视觉单词。
第三步,从客户端的一个或多个视觉单词词典库中,查找匹配目标图片的目标视觉单词词典。该些客户端的视觉单词词典库为客户端从服务端预先下载获取的。也就是说,客户端预先设置有和服务端相对应的视觉单词词典库。
特别地,在查询内容只有目标图片时,客户端选择根据图片相似性建立的视觉相似性的视觉单词词典库,计算目标图片和视觉单词词典库所在视觉相似性的视觉单词词典库中任一视觉单词词典所在图片类的视觉相似性距离,选择相似性距离最小视觉单词词典为匹配目标图片的视觉单词词典即目标视觉单词词典。其中视觉相似性距离为目标图片的视觉单词与视觉单词词典所在图片类的类中心余弦距离。
第四步,分析所述视觉单词和目标视觉单词词典,得到对应目标图片的目标视觉单词;具体为根据所述的视觉单词词典,对目标图片的视觉单词进行筛选,选择属于视觉单词词典内的视觉单词作为目标视觉单词;
第五步,根据哈夫曼(Huffman)编码方法将目标视觉单词压缩成数据包;其具体操作为,扫描各个目标视觉单词出现的概率,并建立哈夫曼树,用‘0’与‘1’对目标单词进行编码,概率越大,编码位数越少,将视觉单词和对应的编码保存到哈夫曼编码表中发送至客户端。
第六步,服务端根据哈夫曼编码表将数据包解码为目标视觉单词,依据该目标视觉单词查找其内部的原始视觉单词词典的视觉单词索引表,得到对应该目标视觉单词的一个以上的结果图片,和/或获得该结果图片的扩展信息,并将结果图片和/或扩展信息发送至客户端以显示。
根据本发明的另一方面,本发明还提供一种图片搜索方法,如图3所示,其步骤包括:
步骤301:服务端接收编码后的目标视觉单词并解码出目标视觉单词。
步骤302:该服务端基于目标视觉单词查找服务端内视觉单词词典对应的索引表,以获得结果图片和/或结果图片的相关信息。
所述视觉单词词典为:对服务端图片数据库的全部或部分图片的视觉特征采用聚类方式建立的视觉单词词典。
步骤303:将结果图片和/或结果图片的相关信息发送至客户端以显示。
上述实施例中采用较少的目标视觉单词查询结果图片,其能够实现原有的检索性能的基础上,提高了目标图片查询的效率,缩短了用户的等待时间,进而实现了在较少带宽情况下实现图片查询的目的。
根据本发明的另一方面,本发明还提供一种图片搜索系统,如图4所示,其包括:
接收模块401,客户端接收包括待查询的目标图片、或者待查询的目标图片和相关信息的查询内容;
目标视觉单词获取模块402,客户端获取目标图片的视觉单词,并依据预置规则在客户端的一个以上的视觉单词词典中选取与查询内容对应的至少一个目标视觉单词词典,以及,依据目标视觉单词词典获取视觉单词的目标视觉单词;
目标视觉单词发送模块403,将目标视觉单词编码后发送至服务端,
接收和查找模块404,服务端接收编码的目标视觉单词并解码,以及基于目标视觉单词查找数据库中所有图片的视觉单词词典对应的索引表,以获得结果图片和/或结果图片的相关信息;
发送模块405,所述服务端将结果图片和/或结果图片的相关信息发送至客户端。
上述图片查询系统或图片搜索系统根据查询信息的组合类型,自动选择适合查询信息类型的视觉单词词典,根据该视觉单词词典将图片转成视觉单词,并且进一步将视觉单词压缩成数据量较少的目标视觉单词的数据包,然后根据数据包快速而准确地获取需要检索的目标图片的结果图片及其相关的扩展信息。
其中,该图片搜索系统在获取目标图片的过程中,依据图片划分准则,对数据库图片集合进行有效划分,让划分后的各类图片的视觉单词的种类远小于原始数据库图片集合的视觉种类,从而有效减小描述图片视觉单词数目,实现了将目标图片转换成几十比特的目标视觉单词的数据包,降低了传输给服务端的数据量,达到客户端与服务端之间的低比特传输,进而可有效解决在当前带宽限制下,数据传输时间长的问题,能够较好的节省用户等待的时间。上述搜索方法适应不同类型的查询,其可扩展性强。
本实施例中提及的客户端可为移动终端,如手机、IPAD、平板电脑等。
特别地,本实施例中的客户端可包括:
接收模块,接收包括待查询的目标图片、或者待查询的目标图片和相关信息的查询内容;
目标视觉单词获取模块,获取其内部目标图片的视觉单词,并依据预置规则在客户端的一个以上的视觉单词词典中选取与查询内容对应的至少一个目标视觉单词词典,以及,依据目标视觉单词词典获取视觉单词的目标视觉单词;
目标视觉单词发送模块,将目标视觉单词编码后发送至服务端,
结果图片接收模块,用于接收服务端查找并发送的结果图片和/或结果图片的相关信息并显示。
上述图片搜索系统中显示的各模块只是示意性的显示其内部的结构关系,可能在某一个系统、客户端或其它的结构中多次使用同一模块进行传输或接收,或间隔的使用上述的某一模块,上述实施例只是示意性的说明,其不局限图4中的结构排布关系和连接关系。另外还可能出现在图片搜索系统和客户端中增加一些能够实现本发明中的图片搜索方法中的某些步骤的其他模块均属于本发明的内容。
最后应说明的是:上述图片搜索方法中的各步骤的顺序可以并行或交换进行,上述实施例仅为示意性的说明,并不限定步骤的执行顺序。另外,以上实施例仅用以说明本发明的技术方案而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种图片搜索方法,其特征在于,包括:
客户端接收查询内容,该查询内容包括待查询的目标图片、或者待查询的目标图片和相关信息;
客户端获取目标图片的视觉单词,并依据查询内容的类型,从客户端预先预置的一个或多个视觉单词词典库中,查找匹配查询内容的类型的视觉单词词典库及预测损失函数,采用预测损失函数计算视觉单词词典库中的各视觉单词词典对目标图片的视觉单词的预测损失值,获取阈值范围内的一个或多个视觉单词词典,以及,依据目标视觉单词词典获取视觉单词的目标视觉单词;
将目标视觉单词编码后发送至服务端,以获取匹配查询内容的结果图片和/或结果图片的相关信息。
2.根据权利要求1所述的图片搜索方法,其特征在于,所述查询内容的类型包括:
目标图片类、目标图片和文本类、目标图片和传感器检测的信号类,目标图片和物体识别软件识别出图片中物体标签;
其中,传感器检测的信号包括利用全球定位系统装置检测到地理位置信息,用条码扫描器扫描到图书或商品的条码条形码,用电子标签阅读器读取电子标签;
物体识别软件识别的物体标签包括用人脸识别软件识别出人脸,文字识别系统软件识别出文字。
3.根据权利要求1所述的图片搜索方法,其特征在于:
客户端预先预置的一个或多个视觉单词词典库为客户端预先从服务端获取的,并且,所述客户端定时更新所述一个或多个视觉单词词典库;
所述服务端建立一个或多个视觉单词词典库的步骤包括:
采用图片集合划分方式将服务端数据库中的图片划分为各类型的图片集合,以及,建立各图片集合对应的视觉单词词典,分析各个图片对应的视觉单词词典,若视觉单词词典满足视觉单词词典库建立条件,则各类型的图片集合对应的视觉单词词典的集合组成一个视觉单词词典库;
其中:视觉单词词典库建立条件为:
划分后各个图片集合的视觉单词词典中视觉单词数目小于等于服务端数据库的视觉单词词典的视觉单词总数;
并且统计该图片集合的视觉单词的概率分布,并计算视觉单词概率分布的熵,其概率分布的信息熵小于设定阈值。
4.根据权利要求3所述的图片搜索方法,其特征在于:
视觉单词词典为:将图片集合的视觉特征采用聚类方式建立图片的原始视觉单词词典;或者,
对图片集合的视觉特征采用聚类方式建立图片的视觉单词词典,基于有效视觉单词词典的筛选规则,确定代表原始视觉单词词典的有效视觉单词词典,将有效视觉单词词典作为视觉单词词典。
5.根据权利要求3所述的图片搜索方法,其特征在于:
采用图片集合划分方式将服务端数据库中的图片划分为各类型的图片集合的步骤包括:
利用图片之间视觉相似性将所有图片划分成多个图片集合;或者,
利用与图片有关信息将所有图片划分成多个图片集合;或者
利用图片之间视觉相似性和与图片有关信息将所有图片划分成多个集合。
6.根据权利要求5所述的图片搜索方法,其特征在于,所述与图片有关信息包括图片的拍照日期、文本标签、电子标签。
7.根据权利要求1所述的图片搜索方法,其特征在于:
采用预测损失函数计算视觉单词词典库中的各视觉单词词典对目标图片的视觉单词的预测损失值的步骤中,预测损失值的计算方式如下:
目标图片的视觉单词和目标视觉单词词典所在图片类的类中心的余弦距离;或
目标图片的视觉单词和目标视觉单词词典所在图片类的类中心的余弦距离,以及相关信息和视觉单词词典所在图片类的同类信息的欧式距离的加权和;或
目标图片和目标视觉单词词典的视觉单词词典所在图片类的视觉相似性距离,以及相关信息和视觉单词词典所在图片类的同类信息的欧式距离的乘积。
8.根据权利要求4所述的图片搜索方法,其特征在于,
基于有效视觉单词词典的筛选规则,确定代表原始视觉单词词典的视觉单词词典的步骤包括:
从某一类的图片中选择某一数量的图片作为样本图片,以及将所述样本图片的特征转换为所述原始视觉单词词典中的视觉单词;
依据样本图片的视觉单词在所述原始视觉单词词典的视觉单词索引表中查询,获得原始查询结果;
将属于原始视觉单词词典的任意视觉单词进行组合,以构成一个筛选视觉单词词典,基于筛选视觉单词词典,将所述样本图片的特征转换为对应该筛选视觉单词词典内的第一视觉单词,并采用第一视觉单词在所述原始视觉单词词典的视觉单词索引表中查询,获得与筛选视觉单词词典对应的第一查询结果;
分析所有样本图片的原始查询结果与所述第一查询结果,若第一查询结果与原始查询结果相符,则采用当前的筛选视觉单词词典作为视觉单词词典;否则从所述原始视觉单词词典中选择一个视觉单词增加到当前的筛选视觉单词词典中,返回到获取所述第一查询结果的步骤。
9.根据权利要求1所述的图片搜索方法,其特征在于,还包括:
服务端接收编码后的目标视觉单词并解码出目标视觉单词;
该服务端基于目标视觉单词查找服务端内视觉单词词典对应的索引表,以获得结果图片和/或结果图片的相关信息,并将其发送至客户端;
所述视觉单词词典为:对服务端图片数据库的全部或部分图片的视觉特征采用聚类方式建立的视觉单词词典。
CN 201110100485 2011-04-21 2011-04-21 图片搜索方法和图片搜索系统 Active CN102147815B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110100485 CN102147815B (zh) 2011-04-21 2011-04-21 图片搜索方法和图片搜索系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110100485 CN102147815B (zh) 2011-04-21 2011-04-21 图片搜索方法和图片搜索系统

Publications (2)

Publication Number Publication Date
CN102147815A CN102147815A (zh) 2011-08-10
CN102147815B true CN102147815B (zh) 2013-04-17

Family

ID=44422080

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110100485 Active CN102147815B (zh) 2011-04-21 2011-04-21 图片搜索方法和图片搜索系统

Country Status (1)

Country Link
CN (1) CN102147815B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103065150A (zh) * 2011-10-24 2013-04-24 康佳集团股份有限公司 基于智能移动终端的场景识别方法
KR101191223B1 (ko) * 2011-11-16 2012-10-15 (주)올라웍스 이미지 검색 방법, 장치, 및 이 방법을 실행하기 위한 컴퓨터 판독 가능한 기록 매체
CN102595138B (zh) * 2012-02-29 2014-04-23 北京大学 图像压缩的方法及装置、终端
CN102799614B (zh) * 2012-06-14 2015-01-07 北京大学 基于视觉词语空间共生性的图像检索方法
CN102902771A (zh) * 2012-09-27 2013-01-30 百度国际科技(深圳)有限公司 一种图片搜索方法、装置及服务器
CN103294779A (zh) * 2013-05-13 2013-09-11 北京百度网讯科技有限公司 对象信息获取方法及设备
CN104143105A (zh) * 2013-09-22 2014-11-12 腾讯科技(深圳)有限公司 一种图形识别方法、装置、终端设备及系统
CN104714962B (zh) * 2013-12-13 2018-11-06 阿里巴巴集团控股有限公司 一种图像搜索引擎的生成方法及系统
CN104731784B (zh) * 2013-12-18 2019-03-26 中兴通讯股份有限公司 视觉搜索方法、系统以及移动终端
CN104850537B (zh) * 2014-02-17 2017-12-15 腾讯科技(深圳)有限公司 对文本内容进行筛选的方法及装置
CN103870597B (zh) * 2014-04-01 2018-03-16 北京奇虎科技有限公司 一种无水印图片的搜索方法及装置
CN104298707B (zh) * 2014-09-01 2019-01-15 联想(北京)有限公司 一种信息处理方法及电子设备
CN105989001B (zh) * 2015-01-27 2019-09-06 北京大学 图像搜索方法及装置、图像搜索系统
CN106407483A (zh) * 2016-12-07 2017-02-15 连惠城 一种具有文字搜索功能的电子相册
CN106886933A (zh) * 2016-12-30 2017-06-23 深圳天珑无线科技有限公司 展场云端数位商品型录的展示方法及系统
CN108287833A (zh) * 2017-01-09 2018-07-17 北京艺鉴通科技有限公司 一种用于艺术品鉴定的以图搜图方法
CN107861970A (zh) * 2017-09-15 2018-03-30 广州唯品会研究院有限公司 一种商品图片搜索方法和装置
CN109241314A (zh) * 2018-08-27 2019-01-18 维沃移动通信有限公司 一种相似图像的选择方法及装置
CN110879849B (zh) * 2019-11-09 2022-09-20 广东智媒云图科技股份有限公司 一种基于图像转文字的相似度比较方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008294973A (ja) * 2007-05-28 2008-12-04 Oki Electric Ind Co Ltd 映像編集装置及び映像編集方法
CN101777064A (zh) * 2009-01-12 2010-07-14 鸿富锦精密工业(深圳)有限公司 图片搜索系统及方法
CN101944091A (zh) * 2009-07-07 2011-01-12 夏普株式会社 图像检索装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008294973A (ja) * 2007-05-28 2008-12-04 Oki Electric Ind Co Ltd 映像編集装置及び映像編集方法
CN101777064A (zh) * 2009-01-12 2010-07-14 鸿富锦精密工业(深圳)有限公司 图片搜索系统及方法
CN101944091A (zh) * 2009-07-07 2011-01-12 夏普株式会社 图像检索装置

Also Published As

Publication number Publication date
CN102147815A (zh) 2011-08-10

Similar Documents

Publication Publication Date Title
CN102147815B (zh) 图片搜索方法和图片搜索系统
Takacs et al. Outdoors augmented reality on mobile phone using loxel-based visual feature organization
CN114201621B (zh) 基于图文协同注意力的跨模态检索模型构建及检索方法
CN102063472A (zh) 图片搜索方法、图片搜索系统、客户端和服务器
US8571306B2 (en) Coding of feature location information
CN112148889A (zh) 一种推荐列表的生成方法及设备
WO2021093308A1 (zh) 提取poi名称的方法、装置、设备和计算机存储介质
CN107392238B (zh) 基于移动视觉搜索的户外植物知识拓展学习系统
CN110083762B (zh) 房源搜索方法、装置、设备及计算机可读存储介质
CN112015923A (zh) 一种多模态数据检索方法、系统、终端及存储介质
CN114461839A (zh) 基于多模态预训练的相似图片检索方法、装置及电子设备
JP2012160047A (ja) 対応参照画像検索装置及び方法、コンテンツ重畳装置、システム、及び方法、並びにコンピュータプログラム
CN102902826A (zh) 一种基于基准图像索引的图像快速检索方法
CN113806588A (zh) 搜索视频的方法和装置
US20120110025A1 (en) Coding order-independent collections of words
CN114519202A (zh) 跨模态隐私语义检索方法、系统及存储介质
CN111651674B (zh) 双向搜索方法、装置及电子设备
JP2015201042A (ja) ハッシュ関数生成方法、ハッシュ値生成方法、装置、及びプログラム
JP6042778B2 (ja) 画像に基づくバイナリ局所特徴ベクトルを用いた検索装置、システム、プログラム及び方法
JP6368677B2 (ja) 写像学習方法、情報圧縮方法、装置、及びプログラム
CN117931858B (zh) 数据查询方法、装置、计算机设备和存储介质
Chen et al. Context-aware discriminative vocabulary learning for mobile landmark recognition
JP6461773B2 (ja) ベクトル量子化器生成方法、ベクトル量子化方法、装置、及びプログラム
Qi et al. A low transmission overhead framework of mobile visual search based on vocabulary decomposition
CN115204436A (zh) 检测业务指标异常原因的方法、装置、设备及介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
OL01 Intention to license declared
OL01 Intention to license declared