CN102147815B

CN102147815B - 图片搜索方法和图片搜索系统

Info

Publication number: CN102147815B
Application number: CN 201110100485
Authority: CN
Inventors: 段凌宇; 纪荣嵘; 陈杰; 李冰; 黄铁军; 姚鸿勋; 高文
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2011-04-21
Filing date: 2011-04-21
Publication date: 2013-04-17
Anticipated expiration: 2031-04-21
Also published as: CN102147815A

Abstract

本发明提供一种图片搜索方法和图片搜索系统，该方法包括客户端接收查询内容，该查询内容包括待查询的目标图片、或者待查询的目标图片和相关信息；客户端获取目标图片的视觉单词，并依据预置规则在客户端的一个以上的视觉单词词典中选取与查询内容对应的至少一个目标视觉单词词典，以及，依据目标视觉单词词典获取视觉单词的目标视觉单词；将目标视觉单词编码后发送至服务端，以获取匹配查询内容的结果图片和/或结果图片的相关信息。该方法通过减少客户端上传的数据量的方式提高图片搜索的速度，同时缩短了用户的等待时间，且能够提升系统检索的准确率。

Description

图片搜索方法和图片搜索系统

技术领域

本发明涉及图片的识别与搜索技术领域，尤其涉及一种图片搜索方法和图片搜索系统。

背景技术

随着无线网络的蓬勃发展和移动设备的功能不断增强，用户利用移动设备上网查询图片信息越来越频繁。最早出现的是采用文本描述图片的内容，进而依据该些文本内容进行后续的检索/搜索。然而由于文本不能准确描述图片内容，以及文本检索图片的检索结果常常不是用户所需要的信息，进而文本检索方式不能令用户满意。

另外一种基于内容的图片搜索方法是采用图片作为查询，搜索到相似图片为目的一种检索方法，可以避免上述文本检索图片所带来的文本描述不准确的问题。但是，该基于内容的图片搜索方法是直接向服务端传送图像，由此会产生较大的数据传输量。特别地，在带宽有限且不稳定的无线网络环境下，图片搜索往往需要较长的查询响应时间。

由此，业内人士通过视觉描述子对图片进行描述，将图片转化成多个数据组成的一维向量，从而将向服务器传送图片改成向服务器传输数据向量。该视觉描述子对图片的描述方式能够提高图片的查询响应时间，但是受限于目前移动网络质量，上传速度仍然不能满足用户的实际需求。鉴于此，如何提供一种即能保证图片检索性能与效率，又可以降低图片检索中对带宽的要求的图片检索方法是当前需要解决的技术问题。

发明内容

针对现有技术中的缺陷，本发明提供一种图片搜索方法和图片搜索系统，该方法和系统通过在不降低搜索性能的条件下减少客户端上传的数据量的方式提高图片的检索速度，缩短了用户的等待时间，且能够提升搜索系统搜索的准确率。

本发明提供的图片搜索方法，包括：

客户端接收查询内容，该查询内容包括待查询的目标图片、或者待查询的目标图片和相关信息；

客户端获取目标图片的视觉单词，并依据预置规则在客户端的一个以上的视觉单词词典中选取与查询内容对应的至少一个目标视觉单词词典，以及，依据目标视觉单词词典获取视觉单词的目标视觉单词；

将目标视觉单词编码后发送至服务端，以获取匹配查询内容的结果图片和/或结果图片的相关信息。

根据本发明的另一方面，本发明还提供一种图片搜索方法，其包括：

服务端接收编码后的目标视觉单词并解码出目标视觉单词；

该服务端基于目标视觉单词查找服务端内视觉单词词典对应的索引表，以获得结果图片和/或结果图片的相关信息，并将其发送至客户端；

所述视觉单词词典为：对服务端图片数据库的全部图片的视觉特征采用聚类方式建立的视觉单词词典。

根据本发明的另一方面，本发明还提供一种图片搜索系统，其包括：

接收模块，客户端接收包括待查询的目标图片、或者待查询的目标图片和相关信息的查询内容；

目标视觉单词获取模块，客户端获取目标图片的视觉单词，并依据预置规则在客户端的一个以上的视觉单词词典中选取与查询内容对应的至少一个目标视觉单词词典，以及，依据目标视觉单词词典获取视觉单词的目标视觉单词；

目标视觉单词发送模块，将目标视觉单词编码后发送至服务端，

接收和查找模块，服务端接收编码的目标视觉单词并解码，以及基于目标视觉单词查找数据库中所有图片的视觉单词词典对应的索引表，以获得结果图片和/或结果图片的相关信息；

发送模块，所述服务端将结果图片和/或结果图片的相关信息发送至客户端。

本发明的图片搜索方法和图片搜索系统，主要是通过在客户端将目标图片压缩为具有视觉内容描述能力的目标视觉单词，以上传至服务端，进而实现客户端和服务端之间的低比特传输数据，缩短了用户在查询目标图片时的等待时间，同时提高了系统中的服务端的响应时间，进而提高了图片搜索方法中的查询效率。

进一步地，本发明中的搜索方法还能够提高搜索结果的准确率。本发明能够推广应用于各种图片的检索/搜索，且能够获取到结果图片的扩展信息，使得该方法的适用范围较广，可适用各个领域，方便用户检索各类信息。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明中的图片搜索方法实施例的步骤流程图；

图2为本发明中的用于筛选有效视觉词典的步骤流程图；

图3为本发明中的图片搜索方法实施例的步骤流程图；

图4为本发明中的图片搜索系统实施例的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明主要是提供一种图片搜索方法，该搜索方法主要是利用客户端预先预置的视觉单词词典库获取较少传输数据量的针对目标图片的目标视觉单词，进而将该些目标视觉单词编码后发送至服务端，已从服务端获取结果图片和/或相关的扩展信息。该方法有效减小了描述目标图片视觉单词数目，降低了传输给服务端的数据量，达到客户端与服务端之间的数据低比特传输，其可有效解决在当前带宽限制下，数据传输时间长的问题，同时能够减小服务端的响应时间，进而能够较好的节省用户等待的时间。

以下描述中需要注意的是：

视觉单词：对视觉特征空间的进行离散划分，每个单词为一个划分，采用图片特征来描述图片内容，为最基本的数据特征；

视觉单词词典：图片数据库中所有或挑选的部分图片的视觉单词构成的集合。

参照图1所示，图1示出了本发明中图片搜索方法实施例的步骤流程图，其步骤包括：

步骤101，客户端接收查询内容，该查询内容包括待查询的目标图片/查询图片、或者待查询的目标图片和相关信息；该处的相关信息为除目标图片以外的信息。例如相关信息可为对目标图片进行描述的文本信息、地理位置信息、出版社信息、出版社条码、出版社徽标或电子标签等等。

步骤102，客户端获取目标图片的视觉单词，并依据预置规则在客户端的一个以上的视觉单词词典中选取与查询内容对应的至少一个目标视觉单词词典，以及，依据目标视觉单词词典获取视觉单词的目标视觉单词；

目标图片的视觉单词的生成方式可为，获取目标图片的一个以上的视觉特征，根据视觉特征与视觉单词的映射规则将特征转换成原始视觉单词词典中的视觉单词。优选地，客户端的原始视觉单词词典与服务端的原始视觉单词词典相同，其客户端的原始视觉单词词典可以预先预置在客户端，并能够实时从服务端更新。

其中原始视觉单词词典的生成方式可为，获取服务端数据库图片的一个以上的视觉特征，对数据库图片的视觉特征采用聚类方式生成多个类。该处以及后续的聚类方法的具体方式可以是K均值聚类、分层聚类、谱聚类等，其中谱聚类可以参考文献“Ng A.，Jordan M.，and Weiss Y.On SpectralClustering：Analysis and an algorithm.NIPS，849-856，2001”中的方法。每个类的类中心来代表该类，称为视觉单词，即每个类为一个视觉单词，整个数据库的视觉单词集合构成原始视觉单词词典。

具体地，本实施例中的可通过提取所述目标图片的颜色直方图、纹理图、尺度不变描述子、梯度位置朝向直方图或方向梯度直方图等视觉特征；

接着，根据视觉特征与所述视觉单词的映射规则，将所述目标图片的颜色直方图、纹理图、尺度不变描述子(SIFT)、梯度位置朝向直方图(GLOH)或方向梯度直方图(HOG)转换成所有与服务端的原始视觉单词词典对应的视觉单词。

子步骤1021，依据查询内容的类型，从客户端预先预置的一个或多个视觉单词词典库中，查找匹配查询内容的类型的视觉单词词典库及预测损失函数。也就是说，预先设置了查询内容类型与视觉单词词典库映射规则。例如，查询内容为图片和对图片进行描述的文本信息，视觉单词词典库为与文本信息对应的视觉单词词典库。

特别地，客户端预先预置的一个或多个视觉单词词典库为客户端预先从服务端获取的，并且，所述客户端定时更新所述一个或多个视觉单词词典库。或者，在服务端有新的图片增加时，可以提示客户端更新其内部的视觉单词词典库。以下通过后续的步骤P1至P3详细说明服务端如何获取视觉单词词典库的过程。

子步骤1022，采用预测损失函数计算视觉单词词典库中的各视觉单词词典对目标图片的视觉单词的预测损失值，获取阈值范围内的一个或多个视觉单词词典。

其中，采用预测损失函数计算视觉单词词典库中的各视觉单词词典对目标图片的视觉单词的预测损失值，其预测损失值的具体计算方式可选择如下第一计算方式至第三计算方式中的任一种。

第一计算方式：目标图片的视觉单词和目标视觉单词词典所在图片类的类中心的余弦距离；或

第二计算方式：目标图片的视觉单词和目标视觉单词词典所在图片类的类中心的余弦距离，以及相关信息和视觉单词词典所在图片类的同类信息的欧式距离的加权和；

第三计算方式：目标图片和目标视觉单词词典的视觉单词词典所在图片类的视觉相似性距离，以及相关信息和视觉单词词典所在图片类的同类信息的欧式距离的乘积。

举例来说，预测损失函数f_预测(q_i，C_j)的公式为：

f_预测(q_i，C_j)＝α·Vd_ij+β·Rd_ij

f_预测(q_i，C_j)表示目标图片q_i和视觉单词词典所在图片类C_j的预测损失值，Vd_ij为目标图片的视觉单词和目标视觉单词词典所在图片类的类中心的余弦距离，Rd_ij为相关信息和视觉单词词典所在图片类的同类信息的欧式距离。α，β为实数，可以根据经验或者需求设置。

目标图片的视觉单词和目标视觉单词词典所在图片类的类中心的余弦距离Vd_ij计算公式为，

{Vd}_{ij} = {| | \overset{&RightArrow;}{{BOW}_{i}}, \overset{&RightArrow;}{{BOW}_{j}} | |}_{Co \sin e} = \frac{\overset{&RightArrow;}{{BOW}_{i}} \cdot \overset{&RightArrow;}{{BOW}_{j}}}{| | \overset{&RightArrow;}{{BOW}_{i}} | | \cdot | | \overset{&RightArrow;}{{BOW}_{j}} | |};

图片i为目标图片的视觉单词，

为目标视觉单词词典所在图片类C_j的类中心。

相关信息和视觉单词词典所在图片类的同类信息的欧式距离Rd_ij计算公式为

{Rd}_{ij} = {| | R_{i}, R_{j} | |}_{Co \sin e} = \sqrt{{(R_{i} - R_{j})}^{2}}

R_i为图片i为查询内容中的相关信息，R_j为目标视觉单词词典所在图片类C_j的同类信息值。

另外，上述子步骤1021中查询内容的类型可包括：目标图片类、目标图片和文本类、目标图片和传感器检测的信号类，目标图片和物体识别软件识别出图片中的物体标签类。其中，传感器检测的信号可包括利用全球定位系统装置(GPS)检测到地理位置信息，用条码扫描器扫描到图书或商品条码的条形码信息，用电子标签阅读器读取的电子标签信息(RFID)等。物体识别软件识别的物体标签可包括用人脸识别软件识别出人脸，文字识别系统软件(ORC)识别出文字等。

举例来说，查询内容的类型为目标图片类时，视觉单词词典库为根据图片相似性建立的视觉相似性的视觉单词词典库。

查询内容的类型为目标图片和传感器检测的信号类时，如查询内容为地标图片，以及传感器检测的信号可为地标图片中的建筑物、地标图片对应的地理位置信息、建筑物对应的地理位置信息或地标图片中的自然景观对应的地理位置信息。此时，视觉单词词典库为与地理位置信息对应的视觉单词词典库。

查询内容的类型为目标图片和物体识别软件识别出图片中的物体标签类时，如查询内容为书本图片，物体识别软件识别出图片中的物体标签可为书本图片中的书本的出版社徽标或名称。此时，视觉单词词典库为与出版社徽标或名称对应的视觉单词词典库。

查询内容为商品的照片，物体识别软件识别出图片中的物体标签可为商品的商标，或者条码扫描器扫描出与照片中对应商品(实物)的条形码，视觉单词词典库为与商标或条形码对应的视觉单词词典库。

查询内容为博物馆展览室的引导指示图，物体识别软件识别出图片中的物体标签为引导指示图片中的条形码或电子标签，视觉单词词典库为与条形码或电子标签对应的视觉单词词典库。该步骤中将图片集合进行划分成多个类，使得划分后图片集合的耦合视觉单词最大，从而达到降低视觉单词词典维度的目的。

步骤103，将目标视觉单词编码后发送至服务端，以获取匹配查询内容的结果图片和/或结果图片的相关信息并显示。

在上述的子步骤1021中，当客户端预先预置的一个或多个视觉单词词典库为客户端预先从服务端获取时，服务端预先建立一个或多个视觉单词词典库的步骤包括：

第一步P1：采用图片集合划分方式将服务端数据库中的图片划分为各类型的图片集合。

其中，第一步P1的子步骤为利用图片之间视觉相似性将所有图片划分成多个图片集合。或者，第一步P1的子步骤为利用与图片有关信息如图片的拍照日期、文本标签、电子标签等将所有图片划分成多个图片集合。当然，第一步P1的子步骤还可为利用图片之间视觉相似性和与图片有关信息拍照日期、文本标签、电子标签等将所有图片划分成多个集合。

第二步P2：建立各图片集合对应的视觉单词词典，并分析各个图片对应的视觉单词词典。特别地。该处的视觉单词词典可为图片集合的视觉特征采用聚类方式建立图片的原始视觉单词词典；或者，该处的视觉单词词典为：对图片集合的视觉特征采用聚类方式建立图片的视觉单词词典，基于有效视觉单词词典的筛选规则，确定代表原始视觉单词词典的有效视觉单词词典，将有效视觉单词词典作为视觉单词词典，进而取的视觉单词词典的维度(N轴坐标系中的维度)可相对减少。

第三步P3：(获取视觉单词词典库的第一种方式)若视觉单词词典满足视觉单词词典库建立条件，则各类型的图片集合对应的视觉单词词典的集合组成一个视觉单词词典库。

其中：视觉单词词典库建立条件可为：划分后各个图片集合的视觉单词词典中视觉单词数目小于等于服务端数据库的视觉单词词典的视觉单词总数；以及且对划分后各个图片集合统计其视觉单词的概率分布，并计算视觉单词概率分布的熵，其概率分布的信息熵小于设定阈值。

最后，服务端将建立的视觉单词词典发送至客户端，并使其存储以便后续使用。当服务端有新的图片时，可以对自身的视觉单词词典更新，以及使客户端的视觉单词词典同时更新。

相比于现有技术，本实施例中的有效视觉单词词典的筛选规则可为(即第二步P2中使用的有效视觉单词词典的筛选规则可为)：

步骤P41：从某一类的图片中选择某一数量的图片作为样本图片，以及将所述样本图片的特征转换为所述原始视觉单词词典中的视觉单词；

步骤P42：依据样本图片的视觉单词在所述原始视觉单词词典的视觉单词索引表中查询，获得原始查询结果；

步骤P43：将属于原始视觉单词词典的任意视觉单词进行组合，以构成一个筛选视觉单词词典，基于筛选视觉单词词典，将所述样本图片的特征转换为对应该筛选视觉单词词典内的第一视觉单词，并采用第一视觉单词在所述原始视觉单词词典的视觉单词索引表中查询，获得与筛选视觉单词词典对应的第一查询结果；

步骤P44：分析所有样本图片的原始查询结果与所述第一查询结果，若第一查询结果与原始查询结果相符，则采用当前的筛选视觉单词词典作为视觉单词词典；否则从所述原始视觉单词词典中选择一个视觉单词增加到当前的筛选视觉单词词典中，返回到获取所述第一查询结果的步骤。

需要说明的是：上述各类型的图片集合对应的视觉单词词典生成方式为，对图片集合的视觉特征采用聚类方式建立图片的视觉单词词典。

相比较于现有技术，本实施例中的搜索方法仅需向服务端传输几十比特的编码后的数据量，以实现客户端较快查询的目的，同时提高了客户端在查询目标图片过程中的传输效率，且缩短了服务端的响应查询时间。

特别地，本实施例的图片搜索方法主要是应用于移动终端中的图片查询，该些移动终端通过自适应地为查询信息选择适合的视觉单词词典，并获得具有视觉描述能力的目标视觉单词，以有效降低待查询的目标图片的数据量，进而实现客户端和服务端之间的低比特传输数据，缩短了用户在查询目标图片时的等待时间，同时提高了服务端的响应时间，进而提高了图片搜索方法的查询效率。

进一步地，本发明中的搜索方法还能够提高检索结果的准确率。本发明能够推广应用于各种图片的检索/搜索，且能够获取到结果图片的扩展信息，使得该方法的适用范围较广，可使用各个领域，方便用户检索各类信息。

参照图2所示，图2示出了本发明中的用于筛选有效视觉词典的具体步骤流程图；即，上述用于分布式图片搜索的索引构建方法实施例中筛选有效视觉词典的具体计算步骤包括：

第一步201：从整个图片数据库中挑选出N_sample张样本图片，将这些样本图片作为查询图片在视觉单词索引表中查询，检索前R个查询图片结果。对于第i张图片，其查询结果

为查询结果中排在第j位的图片，

的视觉单词向量为

第二步202：计算每个结果图片的term frequency-inverse documentfrequency(TF-IDF)，的TF-IDF为

从原始视觉单词词典的子集中筛选出有效视觉单词词典。

第三步203：设置迭代次数为d＝1，有效视觉单词词典min_V_j为空，候选视觉单词集合cadi_V_j＝V(V为原始视觉单词词典)，其元素的个数为N_cv，N_sample张图片的权重集合

w_i为图片i的权重为0，测试子集train_V为空；

第四步204：若迭代次数d＞α或lost_Rank＜β则结束。

第五步205：否则，将候选视觉单词集合中的N_cv个视觉单词分别加入到测试子集tran_V中，从而产生N_cv个测试子集train_V₁，...，

train_V_t＝min_V∪{wd_t}。

第六步206：将各测试子集作为视觉单词词典，根据该视觉单词词典分别将查询图片i局部特征向量S_i转换为视觉单词向量，测试子集train_V_k对应的图片i视觉单词向量为

第七步207：计算采用各测试子集描述每个查询图片所导致的总错误率

对于测试子集train_V_k和图片I_i，总错误率Lost(I_i)^k计算方法为如下的M1至M4所示：

M1，将

映射为成原始视觉单词词典视觉向量

为映射向量；

M2，计算当查询图片用测试子集train_V_k描述时，结果图片

和查询图片i的内容相似性

计算方法为：

{| | \overset{&RightArrow;}{gBO W_{I_{i}} (k)} \cdot \overset{&RightArrow;}{{BOW}_{A_{j}^{i}}} | |}_{Co \sin e} = \frac{\overset{&RightArrow;}{{BOW}_{A_{j}^{i}}} \cdot \overset{&RightArrow;}{{gBOW}_{I_{i}} (k)}}{| | \overset{&RightArrow;}{BO W_{A_{j}^{i}}} | | \cdot | | \overset{&RightArrow;}{gBO W_{I_{i}}} (k) | |};

M3，计算用测试子集train_V_k描述查询图片i导致的错误率Lost(I_i)^k

Lost {(I_{i})}^{k} = w_{i}^{d - 1} \times Σ_{r = 1}^{R} R (A_{r}^{i}) \cdot {TI}_{A_{r}} \cdot {| | \overset{&RightArrow;}{gBO W_{I_{i}} (k)} \cdot \overset{&RightArrow;}{{BOW}_{A_{j}^{i}}} | |}_{Co \sin e};

为与结果图片排序位置递增的函数，可以设置

M4，计算用测试子集train_V_k描述查询图片的总错误率

{lost}_{Rank}^{k} = Σ_{i = 1}^{N_{sample}} Lost {(I_{i})}^{d - 1} .

第八步208：选择使总错误率lost_Rank最小的测试子集，更新有效视觉单词词典和候选视觉单词集合，其具体方法为：若该测试子集为train_V_MIN，则有效视觉单词词典为min_V＝train_V_MIN，cadi_V＝cadi_V-{wd_MIN}。

第九步209：更新每个查询图片的权重，查询图片i的权重更新的计算方法为：

第十步210：更新迭代次数d＝d+1，并返回步骤第四步204。

在上述实施例的基础，以下以查询信息仅包含图片为例进行详细说明，其查询步骤为：

第一步，客户端获取待搜索的目标图片。

第二步，客户端获取所述目标图片的一个以上的特征，并将该些特征转换为视觉单词。

具体地，本实施例中可通过提取所述目标图片的颜色直方图、纹理图、尺度不变描述子、梯度位置朝向直方图或方向梯度直方图等视觉特征。

接着，根据视觉特征与视觉单词的映射规则，将所述目标图片的颜色直方图、纹理图、尺度不变描述子(SIFT)、梯度位置朝向直方图(GLOH)或方向梯度直方图(HOG)转换成客户端的视觉单词词典中的视觉单词。

第三步，从客户端的一个或多个视觉单词词典库中，查找匹配目标图片的目标视觉单词词典。该些客户端的视觉单词词典库为客户端从服务端预先下载获取的。也就是说，客户端预先设置有和服务端相对应的视觉单词词典库。

特别地，在查询内容只有目标图片时，客户端选择根据图片相似性建立的视觉相似性的视觉单词词典库，计算目标图片和视觉单词词典库所在视觉相似性的视觉单词词典库中任一视觉单词词典所在图片类的视觉相似性距离，选择相似性距离最小视觉单词词典为匹配目标图片的视觉单词词典即目标视觉单词词典。其中视觉相似性距离为目标图片的视觉单词与视觉单词词典所在图片类的类中心余弦距离。

第四步，分析所述视觉单词和目标视觉单词词典，得到对应目标图片的目标视觉单词；具体为根据所述的视觉单词词典，对目标图片的视觉单词进行筛选，选择属于视觉单词词典内的视觉单词作为目标视觉单词；

第五步，根据哈夫曼(Huffman)编码方法将目标视觉单词压缩成数据包；其具体操作为，扫描各个目标视觉单词出现的概率，并建立哈夫曼树，用‘0’与‘1’对目标单词进行编码，概率越大，编码位数越少，将视觉单词和对应的编码保存到哈夫曼编码表中发送至客户端。

第六步，服务端根据哈夫曼编码表将数据包解码为目标视觉单词，依据该目标视觉单词查找其内部的原始视觉单词词典的视觉单词索引表，得到对应该目标视觉单词的一个以上的结果图片，和/或获得该结果图片的扩展信息，并将结果图片和/或扩展信息发送至客户端以显示。

根据本发明的另一方面，本发明还提供一种图片搜索方法，如图3所示，其步骤包括：

步骤301：服务端接收编码后的目标视觉单词并解码出目标视觉单词。

步骤302：该服务端基于目标视觉单词查找服务端内视觉单词词典对应的索引表，以获得结果图片和/或结果图片的相关信息。

所述视觉单词词典为：对服务端图片数据库的全部或部分图片的视觉特征采用聚类方式建立的视觉单词词典。

步骤303：将结果图片和/或结果图片的相关信息发送至客户端以显示。

上述实施例中采用较少的目标视觉单词查询结果图片，其能够实现原有的检索性能的基础上，提高了目标图片查询的效率，缩短了用户的等待时间，进而实现了在较少带宽情况下实现图片查询的目的。

根据本发明的另一方面，本发明还提供一种图片搜索系统，如图4所示，其包括：

接收模块401，客户端接收包括待查询的目标图片、或者待查询的目标图片和相关信息的查询内容；

目标视觉单词获取模块402，客户端获取目标图片的视觉单词，并依据预置规则在客户端的一个以上的视觉单词词典中选取与查询内容对应的至少一个目标视觉单词词典，以及，依据目标视觉单词词典获取视觉单词的目标视觉单词；

目标视觉单词发送模块403，将目标视觉单词编码后发送至服务端，

接收和查找模块404，服务端接收编码的目标视觉单词并解码，以及基于目标视觉单词查找数据库中所有图片的视觉单词词典对应的索引表，以获得结果图片和/或结果图片的相关信息；

发送模块405，所述服务端将结果图片和/或结果图片的相关信息发送至客户端。

上述图片查询系统或图片搜索系统根据查询信息的组合类型，自动选择适合查询信息类型的视觉单词词典，根据该视觉单词词典将图片转成视觉单词，并且进一步将视觉单词压缩成数据量较少的目标视觉单词的数据包，然后根据数据包快速而准确地获取需要检索的目标图片的结果图片及其相关的扩展信息。

其中，该图片搜索系统在获取目标图片的过程中，依据图片划分准则，对数据库图片集合进行有效划分，让划分后的各类图片的视觉单词的种类远小于原始数据库图片集合的视觉种类，从而有效减小描述图片视觉单词数目，实现了将目标图片转换成几十比特的目标视觉单词的数据包，降低了传输给服务端的数据量，达到客户端与服务端之间的低比特传输，进而可有效解决在当前带宽限制下，数据传输时间长的问题，能够较好的节省用户等待的时间。上述搜索方法适应不同类型的查询，其可扩展性强。

本实施例中提及的客户端可为移动终端，如手机、IPAD、平板电脑等。

特别地，本实施例中的客户端可包括：

接收模块，接收包括待查询的目标图片、或者待查询的目标图片和相关信息的查询内容；

目标视觉单词获取模块，获取其内部目标图片的视觉单词，并依据预置规则在客户端的一个以上的视觉单词词典中选取与查询内容对应的至少一个目标视觉单词词典，以及，依据目标视觉单词词典获取视觉单词的目标视觉单词；

结果图片接收模块，用于接收服务端查找并发送的结果图片和/或结果图片的相关信息并显示。

上述图片搜索系统中显示的各模块只是示意性的显示其内部的结构关系，可能在某一个系统、客户端或其它的结构中多次使用同一模块进行传输或接收，或间隔的使用上述的某一模块，上述实施例只是示意性的说明，其不局限图4中的结构排布关系和连接关系。另外还可能出现在图片搜索系统和客户端中增加一些能够实现本发明中的图片搜索方法中的某些步骤的其他模块均属于本发明的内容。

最后应说明的是：上述图片搜索方法中的各步骤的顺序可以并行或交换进行，上述实施例仅为示意性的说明，并不限定步骤的执行顺序。另外，以上实施例仅用以说明本发明的技术方案而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种图片搜索方法，其特征在于，包括：

客户端获取目标图片的视觉单词，并依据查询内容的类型，从客户端预先预置的一个或多个视觉单词词典库中，查找匹配查询内容的类型的视觉单词词典库及预测损失函数，采用预测损失函数计算视觉单词词典库中的各视觉单词词典对目标图片的视觉单词的预测损失值，获取阈值范围内的一个或多个视觉单词词典，以及，依据目标视觉单词词典获取视觉单词的目标视觉单词；

2.根据权利要求1所述的图片搜索方法，其特征在于，所述查询内容的类型包括：

目标图片类、目标图片和文本类、目标图片和传感器检测的信号类，目标图片和物体识别软件识别出图片中物体标签；

其中，传感器检测的信号包括利用全球定位系统装置检测到地理位置信息，用条码扫描器扫描到图书或商品的条码条形码，用电子标签阅读器读取电子标签；

物体识别软件识别的物体标签包括用人脸识别软件识别出人脸，文字识别系统软件识别出文字。

3.根据权利要求1所述的图片搜索方法，其特征在于：

客户端预先预置的一个或多个视觉单词词典库为客户端预先从服务端获取的，并且，所述客户端定时更新所述一个或多个视觉单词词典库；

所述服务端建立一个或多个视觉单词词典库的步骤包括：

采用图片集合划分方式将服务端数据库中的图片划分为各类型的图片集合，以及，建立各图片集合对应的视觉单词词典，分析各个图片对应的视觉单词词典，若视觉单词词典满足视觉单词词典库建立条件，则各类型的图片集合对应的视觉单词词典的集合组成一个视觉单词词典库；

其中：视觉单词词典库建立条件为：

划分后各个图片集合的视觉单词词典中视觉单词数目小于等于服务端数据库的视觉单词词典的视觉单词总数；

并且统计该图片集合的视觉单词的概率分布，并计算视觉单词概率分布的熵，其概率分布的信息熵小于设定阈值。

4.根据权利要求3所述的图片搜索方法，其特征在于：

视觉单词词典为：将图片集合的视觉特征采用聚类方式建立图片的原始视觉单词词典；或者，

对图片集合的视觉特征采用聚类方式建立图片的视觉单词词典，基于有效视觉单词词典的筛选规则，确定代表原始视觉单词词典的有效视觉单词词典，将有效视觉单词词典作为视觉单词词典。

5.根据权利要求3所述的图片搜索方法，其特征在于：

采用图片集合划分方式将服务端数据库中的图片划分为各类型的图片集合的步骤包括：

利用图片之间视觉相似性将所有图片划分成多个图片集合；或者，

利用与图片有关信息将所有图片划分成多个图片集合；或者

利用图片之间视觉相似性和与图片有关信息将所有图片划分成多个集合。

6.根据权利要求5所述的图片搜索方法，其特征在于，所述与图片有关信息包括图片的拍照日期、文本标签、电子标签。

7.根据权利要求1所述的图片搜索方法，其特征在于：

采用预测损失函数计算视觉单词词典库中的各视觉单词词典对目标图片的视觉单词的预测损失值的步骤中，预测损失值的计算方式如下：

目标图片的视觉单词和目标视觉单词词典所在图片类的类中心的余弦距离；或

目标图片的视觉单词和目标视觉单词词典所在图片类的类中心的余弦距离，以及相关信息和视觉单词词典所在图片类的同类信息的欧式距离的加权和；或

目标图片和目标视觉单词词典的视觉单词词典所在图片类的视觉相似性距离，以及相关信息和视觉单词词典所在图片类的同类信息的欧式距离的乘积。

8.根据权利要求4所述的图片搜索方法，其特征在于，

基于有效视觉单词词典的筛选规则，确定代表原始视觉单词词典的视觉单词词典的步骤包括：

从某一类的图片中选择某一数量的图片作为样本图片，以及将所述样本图片的特征转换为所述原始视觉单词词典中的视觉单词；

依据样本图片的视觉单词在所述原始视觉单词词典的视觉单词索引表中查询，获得原始查询结果；

将属于原始视觉单词词典的任意视觉单词进行组合，以构成一个筛选视觉单词词典，基于筛选视觉单词词典，将所述样本图片的特征转换为对应该筛选视觉单词词典内的第一视觉单词，并采用第一视觉单词在所述原始视觉单词词典的视觉单词索引表中查询，获得与筛选视觉单词词典对应的第一查询结果；

分析所有样本图片的原始查询结果与所述第一查询结果，若第一查询结果与原始查询结果相符，则采用当前的筛选视觉单词词典作为视觉单词词典；否则从所述原始视觉单词词典中选择一个视觉单词增加到当前的筛选视觉单词词典中，返回到获取所述第一查询结果的步骤。

9.根据权利要求1所述的图片搜索方法，其特征在于，还包括：

服务端接收编码后的目标视觉单词并解码出目标视觉单词；