CN102682091A

CN102682091A - 基于云服务的视觉搜索方法和系统

Info

Publication number: CN102682091A
Application number: CN2012101238535A
Authority: CN
Inventors: 刘海龙; 侯杰; 熊鹏飞; 陈波; 周晓波; 饶丰
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2012-04-25
Filing date: 2012-04-25
Publication date: 2012-09-19
Also published as: US9411849B2; SG2014007280A; WO2014005451A1; US20150046483A1; CN103377287A; WO2013159722A1; US20140254942A1; CN103377287B

Abstract

一种基于云服务的视觉搜索方法及系统，该方法包括：接收客户端发送的图像识别云服务请求，该图像识别云服务请求中包括图像数据；根据设定分类转发规则将图像数据转发给对应的分类视觉搜索服务；各对应的分类视觉搜索服务识别出图像数据中对应的分类类型信息，确定各分类类型信息对应图像数据的名称，得到分类视觉搜索结果；将各对应的分类视觉搜索服务的分类视觉搜索结果汇总后向客户端发送。根据本发明方案，其基于各不同类别的分类视觉搜索服务对图像数据中的分类类型信息进行检测和识别，从而可以识别得到图片的综合特征信息，在识别得到的综合特征信息的基础上，可以进行进一步的综合应用，提高了用户的使用体验。

Description

基于云服务的视觉搜索方法和系统

技术领域

本发明涉及图片搜索技术领域，特别涉及一种基于云服务的视觉搜索方法和系统。

背景技术

视觉搜索是指针对一张输入的特定图片，以人类视觉的角度，对该图片中的元素进行处理、识别和理解，从中提取出各种不同类型的图片元素基本信息以及详细信息。现有的基于互联网的图片搜索服务，主要是某些搜索引擎中针对相似图片的图片搜索服务，这类服务主要侧重于查找与输入的某张图片相似的其他图片，例如与人脸图像相片的其他人脸图像、识别出图像中的物体等等，这些服务都是属于特定领域的识别服务，只能提供形式上的相似图片或者是提供图片中所包含的某个特定领域的信息，并不能识别出图片的详细基本信息，因而也无法基于识别出的图片的详细基本信息进行进一步的应用。

发明内容

基于此，针对上述现有技术中存在的问题，本发明的其中一个目的在于提供一种基于云服务的视觉搜索方法，另一目的在于提供一种基于云服务的视觉搜索系统，其可以识别得到图片的综合特征信息，以便于能够根据图片的综合特征信息进行进一步的综合应用。

为达到上述目的，本发明采用以下技术方案：

一种基于云服务的视觉搜索方法，包括步骤：

接收客户端发送的图像识别云服务请求，该图像识别云服务请求中包括图像数据；

根据设定分类转发规则将所述图像数据转发给对应的分类视觉搜索服务；

各对应的分类视觉搜索服务识别出图像数据中对应的分类类型信息，确定各分类类型信息对应图像数据的名称，得到分类视觉搜索结果，所述分类视觉搜索结果包括所述分类类型信息以及对应的名称；

将各对应的分类视觉搜索服务的分类视觉搜索结果汇总后向客户端发送。

一种基于云服务的视觉搜索服务系统，包括服务端，所述服务端包括有：

云服务接入装置，用于接收客户端发送的图像识别云服务请求，该图像识别云服务请求中包括图像数据，并根据设定分类转发规则将所述图像数据转发给分类视觉服务系统中对应的分类视觉搜索服务；

分类视觉服务系统，用于采用各对应的分类视觉搜索服务识别出图像数据中对应的分类类型信息，确定各分类类型信息对应图像数据的名称，得到分类视觉搜索结果，所述分类视觉搜索结果包括所述分类类型信息以及对应的名称；

视觉搜索结果汇总装置，用于将各对应的分类视觉搜索结果汇总后向客户端发送。

根据本发明方案，其基于接收到的客户端发送的图像识别云服务请求，根据设定分类转发规则将图像识别云服务请求中的图像数据转发给对应的分类视觉搜索服务，然后各对应的分类视觉搜索服务检测并识别出图像数据中对应的分类类型信息，确定该分类类型信息对应的名称，然后将各对应的分类视觉搜索服务的视觉搜索结果汇总后向客户端发送，其基于各不同类别的分类视觉搜索服务对图像数据中的分类类型信息进行检测和识别，从而可以识别得到图片的综合特征信息，在识别得到的综合特征信息的基础上，可以进行进一步的综合应用，提高了用户的使用体验。

附图说明

图1是本发明的基于云服务的视觉搜索方法实施例一的流程示意图；

图2是图1所示的方法的总体流程的一个具体示例；

图3是本发明的基于云服务的视觉搜索方法实施例二的流程示意图；

图4是本发明的基于云服务的视觉搜索系统实施例一的结构示意图；

图5是本发明的基于云服务的视觉搜索系统实施例二的结构示意图；

图6是本发明的基于云服务的视觉搜索系统实施例三的结构示意图。

具体实施方式

以下结合其中的较佳实施方式对本发明方案进行详细说明。在下述详细说明中，是先针对本发明的基于云服务的视觉搜索方法的各实施例进行说明，再针对本发明的基于云服务的视觉搜索系统的各实施例进行说明。

以下先结合其中的较佳实施例对本发明的基于云服务的视觉搜索方法进行详细说明。

实施例一

图1中示出了本发明的基于云服务的视觉搜索方法实施例一的流程示意图，在本实施例一的方案中，是以各分类视觉搜索服务来检测判定图像数据中是否包含有对应的特定分类类型信息来进行说明。

如图1所示，本实施例中的方法包括步骤：

步骤S101：接收客户端发送的图像识别云服务请求，该图像识别云服务请求中包括有需要进行图像识别的图像数据，进入步骤S102；

步骤S102：根据设定分类转发规则将图像识别云服务请求中的图像数据转发给对应的分类视觉搜索服务，进入步骤S103；

步骤S103：各对应的分类视觉搜索服务检测出图像数据中是否包含有对应的分类类型信息，在有对应的分类类型信息时，识别出图像数据中对应的分类类型信息，并确定该分类类型信息对应的名称，进入步骤S104；

步骤S104：将各对应的分类视觉搜索服务的视觉搜索结果汇总后向客户端发送，其中，这里的分类视觉搜索结果包括上述监测确定的分类类型信息以及确定的对应的名称。

根据如上所述的本实施例中的方案，其基于接收到的客户端发送的图像识别云服务请求，根据设定分类转发规则将图像识别云服务请求中的图像数据转发给对应的分类视觉搜索服务，然后各对应的分类视觉搜索服务检测并识别出图像数据中对应的分类类型信息，确定该分类类型信息对应的名称，然后将各对应的分类视觉搜索服务的视觉搜索结果汇总后向客户端发送，其基于各不同类别的分类视觉搜索服务对图像数据中的分类类型信息进行检测和识别，从而可以识别得到图片的综合特征信息，在识别得到的综合特征信息的基础上，可以进行进一步的综合应用，提高了用户的使用体验。

其中，上述分类视觉搜索服务可以包括有各种不同的特定领域的分类视觉搜索服务，根据具体需要的不同，可以做不同的设定，例如可以包括但不限于下述类别的分类视觉搜索服务：物体视觉搜索服务、文字视觉搜索服务、人脸视觉搜索服务、条码视觉搜索服务、景物视觉搜索服务、Logo视觉搜索服务、图书视觉搜索服务、CD视觉搜索服务等等。具体实现时，可以采用这些类别的分类视觉搜索服务中的任意一项或者任意组合。

对应的，上述分类类型信息与相应的分类视觉搜索服务相对应，上述分类类型信息可以包括物体、文字、人脸、条码、景物、Logo、图书、CD等类型，具体实现时，与上述所采用的不同类别的分类视觉搜索服务相对应，分类类型信息可以包括物体、文字、人脸、条码、景物、Logo、图书、CD等等这些分类信息中的任意一项或者任意组合。

基于此，本发明方案在实施时，可以具有很高的可扩展性，能够添加任意类型的分类视觉搜索服务，且各类型的分类视觉搜索服务可以采用现有技术已有的方式进行。

另外，发送图像识别服务请求的客户端，可以是任何类型的客户端，包括但不限于移动终端、PC客户端、WEB客户端、平板电脑、笔记本电脑、车载电子系统、掌上电脑等等。

此外，本发明方案在实施时，可以由用户指定需要对发送的图像数据进行哪些类型的分类视觉搜索服务，例如只进行人脸视觉搜索服务、景物视觉搜索服务等等，因此，对上述设定分类转发规则，可以做如下设定：

检测图像识别云服务请求中是否包含有分类类型信息；

若有包含有分类类型信息，则说明用户需要进行指定类型的分类视觉搜索服务，则将上述图像数据转发给该些分类类型对应的各分类视觉搜索服务；

若没有包含有分类类型信息，则说明用户未限定进行哪些类型的分类视觉搜索服务，或者说是需要进行所有类型的分类视觉搜索服务，则将所述图像数据转发给所有的各分类视觉搜索服务。

在其中一个具体实现方式中，在接收到客户端发送的图像识别云服务请求之后，还可以对该图像识别云服务请求进行预处理操作，以对图像识别云服务请求的安全性进行验证。基于此，如图1所示，在上述步骤S101与步骤S102之间，还可以包括步骤：

步骤S1012：对图像识别云服务请求进行预处理操作。

其中，这里的预处理操作，主要包括对图像识别云服务请求的安全性的验证，例如判断该图像识别云服务请求是否为合法请求，以避免非法请求的接入。安全性验证的具体实现方式，可以采用现有技术中已有的方式进行，在此不予多加赘述。

基于上述本发明实施例的一个实现方式中，在将图像数据转发给对应的分类视觉搜索服务之后，各对应的分类视觉搜索服务识别出图像数据中对应的分类类型信息时，具体可以通过下述方式进行：

各对应的分类视觉搜索服务先检测确定图像数据中是否包含有对应的分类类型信息：

若包含有，检测出该分类类型信息在图像数据中的位置信息，这里的位置信息，可以是该分类类型信息相对于图像数据对应图片的位置坐标范围，然后，各对应的分类视觉搜索服务依据检测出的该位置信息，识别出该位置信息对应的图像数据所代表的分类类型信息；

若没有，则当前的分类视觉搜索服务结束视觉搜索服务过程。

基于上述本发明的实施例，在识别得到的综合特征信息的基础上，可以进行进一步的综合应用，以提高用户的使用体验，即在上述步骤S103与步骤S104之间，还可以步骤：

步骤S1034：各对应的分类视觉搜索服务根据所识别出的分类类型信息及对应的名称检索相关的详细信息。此时，上述向客户端发送的视觉搜索结果中，包含有此时所检索的详细信息。

以下结合其中一个具体示例进行详细说明，在该具体示例中，以客户端发送的图像识别云服务请求中未指定对图像数据进行何种分类视觉搜索服务为例进行说明，这种说明并不用以对本发明方案进行限定。

图2中示出了该具体示例的总体流程的示意图。在图2所示中，出于篇幅限制的考虑，仅示出了物体视觉搜索服务与文字视觉搜索服务，其他类型的视觉搜索以XX视觉搜索指代，其他类型的视觉搜索可以根据实际需要进行不同类型的设置。

如图2所示的具体示例，具体的过程可以是如下所述。

客户端通过网络(例如Internet)向服务器端发送图像识别云服务请求，其中，该图像识别云服务请求中包括有待进行视觉搜索的图片的图像数据。

服务器端接收到该图像识别云服务请求后，对该图像识别云服务请求进行预处理操作，对该图像识别云服务请求的安全性进行验证，判断该图像识别云服务请求是否为合法的请求，若安全性验证通过，则进入下一步操作，否则，结束对图像识别云服务请求的处理，或者也可以是向客户端返回错误或者是非法请求的反馈信息。

安全性验证通过后，服务器端分析判断该图像识别云服务请求中是否包含有分类类型信息，即判断用户是否指定了要进行特定类型的分类视觉搜索服务：若有指定的分类视觉搜索服务，则将该图像识别服务请求中的图像数据分别转发给该些分类类型信息对应的分类视觉搜索服务；若没有指定的分类视觉搜索服务，则将该图像识别服务请求中的图像数据分别转发给所有的分类视觉搜索服务。

在本发明的该具体示例中，是以图像识别云服务请求中未指定特定类型的分类视觉搜索服务为例进行说明。也就是说，在该具体示例中，是将该图像识别服务请求中的图像数据分别转发给了所有的分类视觉搜索服务。由于具体设定的不同，服务器端所包含的分类视觉搜索服务可能会有所不同且不能穷举，因此，在下述说明中，以所有的分类视觉搜索服务包括了人脸视觉搜索服务、物理视觉搜索服务、文字视觉搜索服务为例进行说明，这种说明并不用以对本发明构成限定。

人脸视觉搜索服务在接收到转发的图像数据后，先检测确定图像数据中是否包含有人脸图像，若没有人脸图像，则结束人脸视觉搜索服务，若有人脸图像，确定人脸图像在图像数据对应的图片中的位置信息，该位置信息通常可以包括人脸图像区域在图片中的位置坐标范围，然后依据该位置信息，识别出具体的人脸图像，并给出该人脸图像对应的名称后，在相应的数据库中搜索与识别出的人脸图像相应的详细信息，例如，与该人脸图像相似的其他人脸图像、该人脸图像中人物的名称等等，基于搜索出的人物名称，还可以进一步搜索出该人物的人物简介以及其他相关信息，例如：若为明星人物，可进一步获得与该明星人物相关的链接地址(例如主页地址、博客地址、微博地址等)。最后可得到具体的人脸视觉搜索结果，该人脸视觉搜索结果包括有类型为人脸的类型信息、人脸在图片中的位置信息、该人脸的名称以及上述搜索到的其他相关信息。

物体视觉搜索服务在接收到转发的图像数据后，先检测确定图像数据中是否包含有物体，若没有物体，则结束物体视觉搜索服务，若有物体，确定物体在图像数据对应的图片中的位置信息，该位置信息通常可以包括人脸图像区域在图片中的位置坐标范围，然后依据该位置信息识别出具体的物体图像，并依据该物体图像匹配出该物体的具体类别及其他相关信息，然后在相应的数据库中搜索与识别出与该物体相对应的其他详细信息，例如该物体的生产年份等等。最后可得到具体的物体视觉搜索结果，该物体视觉搜索结果包括有类型为物体的类型信息、物体在图片中的位置信息、该物体的名称以及上述搜索到的其他相关信息。

文字视觉搜索服务在接收到转发的图像数据后，先检测确定图像数据中是否包含有文字内容，若没有文字内容，则结束文字视觉搜索服务，若有文字内容，确定文字内容在图像数据对应的位置信息，该位置信息通常可以包括人脸图像区域在图片中的位置坐标范围，然后依据该位置信息识别出具体的文字内容，并在相应的数据库中搜索确定与该文字内容相关的其他相关信息，例如：如果文字内容为网址信息，则给出具体的链接地址等等。最后可得到具体的文字视觉搜索结果，该人脸视觉搜索结果包括有类型为人脸的类型信息、人脸在图片中的位置信息、该人脸的名称以及上述搜索到的其他相关信息。

在得到人脸视觉搜索服务、物体视觉搜索服务、文字视觉搜索服务的分类视觉搜索结果后，将这些分类视觉搜索结果汇总后返回给客户端。客户端接收后，针对所接收的分类视觉搜索结果，根据实际需要，可以有各种不同的实施方式，从而在返回的分类视觉搜索结果的基础上提供很多种后续交互操作，从个人可以在此基础上形成各种不同的产品形态：

例如：根据返回的分类视觉搜索结果，利用不同的利用返回数据的类型字段，分类图片中识别出的各种信息；

利用返回数据中的位置信息，在图片中框出识别出的每个元素所处的位置，提供更为直观的结果；

将名称、详细信息以文本列表的形式列出，方便用户快捷的了解图片中各种元素，也可以在图片的每个元素框中列出这些文本信息。

另外，针对每种分类类型信息对应的分类视觉搜索结果，根据每种分类类型信息独有的特点，也可以提供不同的附加交互方式，例如：

对于文字对应的文字视觉搜索结果，可以判断是否为外文，譬如英语、法语、日语等，若是外文，则可以提供附加的翻译功能，另外，如果该文字是一个网址链接，则当点击该文字相应的位置时可以访问该网址链接对应的地址，直接用浏览器打开该链接；

对于条码对应的条码视觉搜索结果，可进一步检测该条码的类别，如果该条码是一维码，则可以设定在点击该一维码的识别结果时直接链接到购物网站上对应于该条码对应商品的链接，方便用户直接购买该商品；如果该条码是二维码，则可以根据识别出的文本的类型提供类似文字视觉搜索的交互操作；

对于物体对应的物体视觉搜索结果，可以根据物体的类型进行判断，如果该物体是知名商标，则可以提供该知名商标的基本介绍，点击图片中该知名商标的相应位置之后可以链接到该知名商标对应的公司的官网；如果是景点，则可以进一步给出该景点的介绍信息及票价信息，点击图片中该景点的相应位置之后可以直接查看旅游攻略；如果是图书或CD，则可以给出该图书或者CD的作者及内容介绍，点击图片中该图书或者CD的对应位置之后可以直接购买该图书或CD；

对于人脸对应的人脸视觉搜索结果，如果是明星人脸，则可以给出该明星的生平及作品介绍，通过点击图片中该明星的人脸对应的位置，可链接到该明星的相关主页，例如主页地址、博客地址、微博地址等；如果是好友的人脸，则可以点击图片中该好友人脸对应的位置之后即可查看设备上该好友的其他照片；如果是普通人脸，则可以给出该人的性别、年龄等识别信息，甚至还可以增加美丑度等娱乐打分功能；

根据实际需要，还可以设置其他多种各种不同类型的扩展方式，具体在此不予赘述。

其中，上述人脸视觉搜索服务检测人脸图像、对人脸图像进行识别的过程，可以采用现有技术中已有的方式进行。以其中一个具体示例为例，人脸视觉搜索服务可包括下述过程：人脸检测、关键点定位、图像归一化、特征抽取以及人脸特征模版比对。其中人脸检测、关键点定位、图像归一化、特征抽取这四个过程可统称为人脸特征模版提取。以下针对各步骤分别进行简要说明。

人脸检测是指在采集的图像或者视频中，检测是否有人脸，在检测有人脸的情况下，标定出人脸的具体位置，得到候选人脸区域。具体可以采用Haar特征+adaboost算法的方法，实现图像中-30～30度的小姿态下人脸位置的准确定位。

关键点定位是指在获取的图像(视频)候选人脸区域上，标定出人脸的眼睛、嘴巴等关键点位置。具体可以采用图像投影获得候选眼睛与嘴巴区域，并分别在眼睛区域利用Haar特征+adaboost算法获得准确眼睛中心坐标、在嘴巴区域利用gabor特征和adaboost算法获得准确嘴角坐标。

图像归一化的目的是得到对齐的有效区域的人脸模版，并消除光照等外界因素的干扰，分为位姿归一化和光照归一化。位姿归一化是根据获得的眼睛与嘴巴位置，经过裁剪、缩放、姿态矫正等归一化操作变形原始图像到标准人脸模版，确保眼睛与嘴巴处于标准位置。光照归一化对图像进行去光照处理。

特征抽取是在大小与光照归一化图像上进行特征的抽取，包括Gabor局部特征、以及LBP和HOG的全局分块特征。以三类特征的LDA(Linear DiscriminantAnalysis，线性鉴别分析)降维和依次串联作为图像的特征表达。

人脸特征模版比对是判断候选的两组特征模版之间的相似度。在人脸验证中，以两组特征模板的相似度超过设定阈值为验证通过，即判定两组特征模板是相似的；在人脸识别中，以最大相似度超过一个给定阈值为识别通过，且最大相似度对应的人脸ID为识别结果。

上述具体示例的说明仅仅针对采用现有技术中的其中一种方式对人脸视觉搜索服务的实现进行说明，根据实际需要，也可以采用现有技术中其他任何可能的方式来实现人脸视觉搜索服务，在此不予赘述。

相应的，上述物体视觉搜索服务检测物体、对物体图像进行识别的过程，可以采用现有技术中已有的方式进行。在其中一个具体示例中，物体视觉搜索服务可包括图像特征提取、特征匹配、几何验证三个阶段。以下针对各阶段分别进行简要说明。

在进行特征提取时，可首先在图像上提取SIFT特征(Scale-invariant featuretransform，尺度不变特征变换)。SIFT特征能够对图像的旋转、尺度缩放、光照变化等因素保持不变性，对视角变化、仿射变换、噪声等因素也能保持较好的稳定性。具体可通过下述步骤实现对SIFT特征的提取：

首先进行尺度空间的极值检测。为了有效提取稳定的关键点，利用不同尺度的高斯差分函数DOG(Difference Of Gaussian)对原始图像进行卷积。

D(x，y，σ)＝(G(x，y，kσ)-G(x，y，σ))*I(x，y)＝L(x，y，kσ)-L(x，y，σ)

为此需建立高斯图像金字塔，图像金字塔共P组，每组有S层，第一组的各层图像由原始图像与不同尺度(相邻层间尺度相差一个比例因子k)的高斯核卷积得到，而下一组的图像由上一组的图像降采样得到。DOG金字塔由相邻的高斯图像金字塔相减得到。

为了寻找尺度空间的极值点，DOG金字塔中每一个采样点都要和它同尺度的8个相邻点以及上下相邻尺度对应的9*2个点共26个点比较，如果该采样点的值小于或大于它的26个相邻点，那么该点即为一个局部极值点(称之为关键点)。

其次，进行关键点的精确定位。具体可以通过拟合三维二次函数来精确确定关键点的位置和尺度，同时去除低对比度的关键点和不稳定的边缘相应点，以增强特征匹配的稳定性，提高抗噪声能力。关键点的准确定位包括有关键点的主方向的确定以及关键点描述子的生成。

在确定关键点的主方向时，是在以关键点为中心的邻域窗口内采样，并用直方图统计邻域像素的梯度方向。梯度直方图的范围是0～360度，其中，每10度一个柱，共36个柱。直方图的主峰值(最大峰值)代表了关键点处邻域梯度的主方向，即作为关键点的主方向。在梯度方向直方图中，当存在另一个相当于主峰值80％能量的峰值时，则将这个方向认为是该关键点的辅方向。

生成关键点描述子时，首先将坐标轴零点方向旋转到关键点的主方向，以取得旋转不变性。然后，以关键点为中心取16*16的窗口，在每个4*4的小块上计算8个方向的梯度方向直方图，统计每个梯度方向的累加值，即可形成一个种子点。每个关键点可使用4*4共16个种子点来描述，这样对于一个关键点就可以产生128个数据，即最终形成128维的sift特征向量。此时sift特征向量已经去除了尺度变化、旋转等几何变形因素的影响，最后对特征向量进行长度归一化，进一步去除光照变化的影响。

在进行特征匹配时，对训练集图片提取的特征集合采用分层k均值(Hierarchical k-means)聚类方法，可以生成一颗深度为L、分叉数为k的层次词汇树，其中每个叶子节点成为一个视觉词汇(visual word)，叶子节点数也即词汇数目为kL，典型取值为k＝8或10，L＝6或7。

在对图片提取特征后，计算关键点的特征向量与层次词汇树的哪一个叶子节点距离最近(只需进行kL次点积计算)，即可将特征向量量化为一个词汇。这样，一张图片就可以用一个文档向量来表示，文档向量的每一维对应一个视觉词汇，其值则表示这个视觉词汇对这个文档的重要程度，通常采用的是TF-IDF(term frequency-inverse document frequency，词频-逆文档频率)权值。查询图片与数据库中物体图片之间的相似程度，即可用两个文档向量在向量空间中的距离(L1距离、L2距离、余弦相似度等等)来衡量。为了在海量的物体图片数据库上能够进行快速的匹配查询，对数据库中的所有物体图像建立倒排索引(Inverted Index)，即以词汇号为索引，记录每个词汇对应哪些数据库图片号，以及词汇在这些数据库图片中出现的次数，匹配过程即变成为对那些含有查询图片词汇的数据库图片投票加分的过程。选取与查询图片匹配最相似的前s个候选物体图片，作为特征匹配阶段的结果返回。

然后进入几何验证过程。在进行几何验证时，是对特征匹配阶段中排序在前的s个候选物体图片，利用特征点的几何位置信息与查询图片做进一步的精确匹配。采用最近邻算法计算查询图片与数据库图片之间的点对匹配关系，用RASANC算法(Random Sample Consensus，随机抽样一致)从匹配点对中滤除不符合仿射变换约束的错配点(外点)对，留下符合仿射变换约束的匹配点(内点)对，同时估计出从查询图片到数据库图片的仿射变换矩阵，按内点对数从多到少的顺序对s个候选物体图片重新排序，若首选匹配物体的内点对超过一定的阈值Th(可取Th＝10左右)，则确认该匹配成功，否则给出拒识结果。在此过程中，利用RANSAC算法得到的仿射变换矩阵，以及内点对的坐标，可计算出物体在查询图片中的位置。

上述具体示例的说明仅仅针对采用现有技术中的其中一种方式对物体视觉搜索服务的实现进行说明，根据实际需要，也可以采用现有技术中其他任何可能的方式来实现物体视觉搜索服务，在此不予赘述。

相应的，上述文字视觉搜索服务检测文字内容、对文字内容进行识别的过程，可以采用现有技术中已有的方式进行。在其中一个具体示例中，文字视觉搜索服务可包括下述文字检测、版面分析、区域二值化、区域行切分、字符切分、字符识别等阶段，其中：

文字检测，是指用连通域分析，从图像中获取文字块的位置；

版面分析，是指将输入的文档划分为一个个同一属性特征的区域，通常包括图形、图像、表格和文本等，针对文本，还需要判断文本方向；

区域二值化，是指对版面分析得到的区域进行处理，在具体实现时，还可以考虑水平文本类型，进行图像的二值化；

区域行切分，是指通过连通体检测与分类，对部分连通体进行水平投影，将文本区域分割为子区域，检测多行子区域，利用连通体归并方法实现多行子区域的文字行切分，最后切割行间粘连的连通体，并根据距离信息把小连通体归入所属文字行；

字符切分时，针对不同语言的文字特点，切分方法有所不同，例如对于欧洲文字和阿拉伯文字，通常采用基线的计算，来寻找切点，而中、日、韩印刷文字没有基线的概念；

字符识别，是指通过对字符图像的特征提取，经过多模版欧式距离分类器完成字符类别的分类，从而识别出字符的文本结果。

上述具体示例的说明仅仅针对采用现有技术中的其中一种方式对文字视觉搜索服务的实现进行了说明，根据实际需要，也可以采用现有技术中其他任何可能的方式来实现文字视觉搜索服务，在此不予赘述。

上述说明中，仅仅针对物体视觉搜索服务、人脸视觉搜索服务、文字视觉搜索服务的其中一种实现方式进行了详细说明。针对条码视觉搜索服务、Logo视觉搜索服务、景物视觉搜索服务、图书视觉搜索服务、CD视觉搜索服务等其他类型的视觉搜索服务，均可以采用现有技术中已有的方式进行，在此不予赘述。

在本发明方案的其中一种实现方式中，客户端可选用可进行定位的客户端，在客户端向服务器端发送图像识别服务请求时，可同时将该客户端所在位置的定位信息(例如经纬度信息等)向服务器端发送，在服务器端向客户端返回分类视觉搜索结果时，可以同时基于该定位信息给出相关其他信息。以景物视觉搜索服务为例，在识别出景物、确定该景物所在位置后，可以基于客户端所在位置的定位信息，给出到达该景物的路径信息。

实施例二

图3中示出了本发明的基于云服务的视觉搜索方法实施例二的流程示意图，在本实施例的方案中，与上述实施例一中方案的不同之处主要在于，其是以先判定包含图像数据中包含哪些分类类型信息，再将该图像数据转发给相应的分类视觉搜索服务为例进行说明。

如图3所示，本实施例中的方法包括步骤：

步骤S301：接收客户端发送的图像识别云服务请求，该图像识别云服务请求中包括有需要进行图像识别的图像数据，进入步骤S302；

步骤S302：检测出图像识别云服务请求中的图像数据中包含的各分类类型信息、以及各分类类型信息在图像数据中的位置信息，进入步骤S303；

步骤S303：根据识别出的各分类类型信息、设定分类转发规则将图像识别云服务请求中的图像数据及对应的位置信息转发给对应的分类视觉搜索服务，进入步骤S304，在进行转发时，可同时将检测出的相应分类类型信息对应的位置信息发送给相应的分类视觉搜素服务；

步骤S304：各对应的分类视觉搜索服务识别出相应位置信息对应的图像数据所代表的分类类型信息，并确定该分类类型信息所对应的名称，进入步骤S305；

步骤S305：将各对应的分类视觉搜索服务的视觉搜索结果汇总后向客户端发送，其中，这里的分类视觉搜索结果包括上述监测确定的分类类型信息以及确定的对应的名称。

依据本实施例中的方案，是先检测图像数据中包含哪些类别的分类类型信息，然后再将这些图像数据转发给对应的分类视觉搜索服务，避免了其他的分类视觉搜索服务的不必要的处理过程。

其中，本实施例中的方案在具体实施时，也可以由用户指定需要对发送的图像数据进行哪些类型的分类视觉搜索服务，例如只进行人脸视觉搜索服务、景物视觉搜索服务等等，此时，可以不进行上述针对图像数据包含哪些分类类型信息的检测过程，直接将图像数据转发给指定的各分类视觉搜索服务即可。据此，在对图像识别云服务请求进行预处理后，可执行下述过程：

检测图像识别云服务请求中是否包含有分类类型信息；

若没有包含有分类类型信息，则说明用户未限定进行哪些类型的分类视觉搜索服务，或者说是可能需要进行所有类型的分类视觉搜索服务，则进入上述步骤S302中的检测过程。

基于上述本发明的一个实现方式中，在通过步骤S302检测了图像数据中包含了哪些类型的分类类型信息的情况下，在将图像数据转发给对应的分类视觉搜索服务之后，各对应的分类视觉搜索服务识别出图像数据中对应的分类类型信息时，可以不必再检测图像数据中是否包含有对应的分类类型信息，具体可以通过下述方式进行：

各对应的分类视觉搜索服务依据检测出的该位置信息，识别出该位置信息对应的图像数据所代表的分类类型信息。

当然，若是用户指定了对发送的图像数据需要进行的分类视觉搜索服务、且没有进行图像数据中包含哪些分类类型信息的检测过程，则各对应的分类视觉搜索服务识别出图像数据中对应的分类类型信息时，需要检测图像数据中是否包含有对应的分类类型信息，具体可以通过下述方式进行：

各对应的分类视觉搜索服务检测确定图像数据中是否包含有对应的分类类型信息：

若包含有，检测出该分类类型信息在图像数据中的位置信息，然后，各对应的分类视觉搜索服务依据检测出的该位置信息，识别出该位置信息对应的图像数据所代表的分类类型信息；

在其中一个具体实现方式中，在接收到客户端发送的图像识别云服务请求之后，还可以对该图像识别云服务请求进行预处理操作，以对请求的安全性进行验证。因此，如图3所示，在上述步骤S301与步骤S302之间，还可以包括步骤：

步骤S3012：对图像识别云服务请求进行预处理操作。

基于上述本发明的实施例，在识别得到的综合特征信息的基础上，可以进行进一步的综合应用，以提高用户的使用体验，即在上述步骤S304与步骤S305之间，还可以步骤：

步骤S3045：各对应的分类视觉搜索服务根据所识别出的分类类型信息检索与该分类类型信息相关的详细信息。此时，上述向客户端发送的视觉搜索结果中，包含有此时所检索的该详细信息。

在该具体示例中，具体的过程可以是如下所述。

服务器端接收到该图像识别云服务请求后，对该图像识别云服务请求进行预处理操作，对该图像识别云服务请求的安全性进行验证，判断该图像识别云服务请求是否为合法的请求，若安全性验证通过，则进入下一步操作，否则，结束对图像识别云服务请求的处理，或者也可以是向客户端返回是错误或者非法请求的反馈信息。

安全性验证通过后，服务器端分析判断该图像识别云服务请求中是否包含有分类类型信息，即判断用户是否指定了要进行特定类型的分类视觉搜索服务：若有指定的分类视觉搜索服务，则将该图像识别服务请求中的图像数据分别转发给该些分类类型信息对应的分类视觉搜索服务；若没有指定的分类视觉搜索服务，则检测图像数据中包含有哪些分类类型信息，并检测出各分类类型信息在图像数据对应于图片中的位置信息，然后将该图像识别服务请求中的图像数据以及相应的位置信息分别转发给相应的分类视觉搜索服务。

在本发明的该具体示例中，以图像识别云服务请求中未指定特定类型的分类视觉搜索服务，且图像数据中包含的分类类型信息包括人脸、物体及文字为例进行说明。也就是说，在该具体示例中，是将该图像识别服务请求中的图像数据分别转发给了人脸视觉搜索服务、物理视觉搜索服务、文字视觉搜索服务为例进行说明。

人脸视觉搜索服务在接收到转发的图像数据后，依据检测出的人脸在图像数据对应图片中的位置信息，识别出具体的人脸图像，并给出该人脸图像对应的名称后，在相应的数据库中搜索与识别出的人脸图像相应的详细信息，例如，与该人脸图像相似的人脸图像、该人脸图像中人物的名称等等，基于搜索出的人物名称，还可以进一步搜索出该人物的人物简介以及其他相关信息，例如：若为明星人物，可进一步获得与该明星人物相关的链接地址(例如主页地址、博客地址、微博地址等)。最后可得到具体的人脸视觉搜索结果，该人脸视觉搜索结果包括有类型为人脸的类型信息、人脸在图片中的位置信息、该人脸的名称以及上述搜索到的其他相关信息。

物体视觉搜索服务在接收到转发的图像数据后，依据检测出的物体在图像数据对应图片中的位置信息，识别出具体的物体图像，并依据该物体图像匹配出该物体的具体类别及其他相关信息，然后在相应的数据库中搜索与识别出与该物体相对应的其他详细信息，例如该物体的生产年份等等。最后可得到具体的物体视觉搜索结果，该物体视觉搜索结果包括有类型为物体的类型信息、物体在图片中的位置信息、该物体的名称以及上述搜索到的其他相关信息。

文字视觉搜索服务在接收到转发的图像数据后，依据检测出的文字在图像数据对应图片中的位置信息，识别出具体的文字内容，并搜索确定与该文字内容相关的其他相关信息，例如：如果文字内容为网址信息，则给出具体的链接地址等等。最后可得到具体的文字视觉搜索结果，该文字视觉搜索结果包括有类型为文字的类型信息、文字在图片中的位置信息、该文字的名称以及上述搜索到的其他相关信息。

在得到人脸视觉搜索服务、物体视觉搜索服务、文字视觉搜索服务的分类视觉搜索结果后，将这些分类视觉搜索结果汇总后返回给客户端，客户端接收后，可将这些分类视觉搜索结果结合图片进行显示，例如，以人脸为例，基于人脸在图片中的位置信息，在对应于图片的该范围内显示类型信息、人脸的名称以其他相关信息等等，从而用户可以在客户端上查看到与该图片的相关的详细信息，若返回的分类视觉搜索结果中有链接信息，用户可以通过点击该链接地址访问具体的网页。得到分类视觉搜索结果后的具体的扩展方式，根据实际需要可以设定很多种，具体在此不予赘述。

本实施例二中的其他技术特征与上述实施例一中的相同，在此不予赘述。

根据上述本发明的基于云服务的视觉搜索服务方法，本发明还提供一种基于云服务的视觉搜索服务系统。以下就本发明的基于云服务的视觉搜索服务系统的各实施例进行详细说明。

实施例一

图4中示出了本发明的基于云服务的视觉搜索服务系统实施例一的结构示意图，在本实施例的方案中，是以各特定类型的视觉搜索服务装置来检测图像数据中是否包含有相应的特定类别信息为例进行说明。

如图4所示，本实施例中的基于云服务的视觉搜索服务系统包括有服务器端402，服务器端402包括有：

云服务接入装置4021，用于接收客户端401发送的图像识别云服务请求，该图像识别云服务请求中包括有需要进行图像识别的图像数据，并根据设定分类转发规则将图像识别云服务请求中的图像数据转发给分类视觉服务系统4022中对应的分类视觉搜索服务；

与云服务接入装置4021连接的分类视觉服务系统4022，用于接收云服务接入装置4021发送的图像数据，采用各对应的分类视觉搜索服务识别出图像数据中对应的分类类型信息，确定该分类类型信息对应的名称；

以及与分类视觉服务系统4022相连接的视觉搜索结果汇总装置4023，用于将各分类视觉搜索服务的视觉搜索结果汇总后向客户端401发送，其中，这里的视觉搜索结果包括有上述确定的分类类型信息以及对应的名称。

根据本实施例中的方案，服务器端402中的云服务接入装置4021基于接收到的客户端401发送的图像识别云服务请求，根据设定分类转发规则将图像识别云服务请求中的图像数据转发给分类视觉服务系统4022中对应的分类视觉搜索服务，然后各对应的分类视觉搜索服务识别出图像数据中对应的分类类型信息，确定该分类类型信息对应的名称，然后将各分类视觉搜索服务的视觉搜索结果汇总后向客户端401发送，其基于各不同类别的分类视觉搜索服务对图像数据中的分类类型信息进行识别，从而可以识别得到图片的综合特征信息，在识别得到的综合特征的基础上，可以进行进一步的综合应用，提高了用户的使用体验。

据此，在本实施例的方案中，上述分类视觉服务4022系统具体可以包括但不限定于图4中所示的物体视觉搜索服务装置、人脸视觉搜索服务装置、文字视觉搜索服务装置、条码视觉搜索服务装置等特定类型的视觉搜索服务装置，例如，还可以包括有景物视觉搜索服务装置、Logo视觉搜索服务装置、图书视觉搜索服务装置、CD视觉搜索服务装置等等。

其中，该物体视觉搜索服务装置，用于检测确定图像数据中是否包含有物体，若没有物体，则结束物体视觉搜索服务，若有物体，确定物体在图像数据对应的图片中的位置信息，然后依据该位置信息识别出具体的物体图像，并依据该物体图像匹配出该物体的具体名称及其他相关信息。

该人脸视觉搜索服务装置，用于检测确定图像数据中是否包含有人脸图像，若没有人脸图像，则结束人脸视觉搜索服务，若有人脸图像，确定人脸图像在图像数据对应的图片中的位置信息，然后依据该位置信息识别出具体的人脸图像，确定该人脸图像对应的名称。

该文字视觉搜索服务装置，用于检测确定图像数据中是否包含有文字内容，若没有文字内容，则结束文字视觉搜索服务，若有文字内容，确定文字内容在图像数据对应的图片中的位置信息，然后依据该位置信息识别出具体的文字内容。

基于上述本发明的实施例，在识别得到了分类类型信息并确定了其对应的名称的基础上，可以进一步检索与其相关的详细信息，以进行进一步的综合应用，提高用户的使用体验，也就是说，各分类类型对应的视觉搜索服务装置在识别出分类类型信息、确定了对应的名称之后，还可以进一步检索相关的详细信息。

据此：

上述物体视觉搜索服务装置，还用于在相应的数据库中搜索与识别出与该物体相对应的其他详细信息，例如该物体的生产年份等等，最后可得到具体的物体视觉搜索结果，该物体视觉搜索结果包括有类型为物体的类型信息、物体在图片中的位置信息、该物体的名称以及上述搜索到的其他相关信息；

上述人脸视觉搜索服务装置，还用于在相应的数据库中搜索与识别出的人脸图像相应的详细信息，例如，与该人脸图像相似的其他人脸图像、该人脸图像中人物的名称等等，基于搜索出的人物名称，还可以进一步搜索出该人物的人物简介以及其他相关信息，例如：若为明星人物，可进一步获得与该明星人物相关的链接地址(例如主页地址、博客地址、微博地址等)，最后可得到具体的人脸视觉搜索结果，该人脸视觉搜索结果包括有类型为人脸的类型信息、人脸在图片中的位置信息、该人脸的名称以及上述搜索到的其他相关信息；

上述文字视觉搜索服务装置，还用于在相应的数据库中搜索确定与该文字内容相关的其他相关信息，例如：如果文字内容为网址信息，则给出具体的链接地址等等，最后可得到具体的文字视觉搜索结果，该人脸视觉搜索结果包括有类型为人脸的类型信息、人脸在图片中的位置信息、该人脸的名称以及上述搜索到的其他相关信息。

其中，依据本发明方案，用户可以指定需要对发送的图像数据进行哪些分类类型的分类视觉搜索服务，例如只进行人脸视觉搜索服务、景物视觉搜索服务等等，因此，上述的设定分类转发规则，可以做如下设定：

若上述图像识别云服务请求中包含有分类类型信息，即用户指定了要进行特定类型的分类视觉搜索服务，则将上述图像数据转发给指定的各分类视觉搜索服务对应的分类视觉搜索服务装置。例如：以图4中的系统为例，若图像识别云服务请求中指定了物体与人脸的分类视觉搜索服务，则云服务接入装置只将该图像数据转发给物体视觉搜索服务装置与人脸视觉搜索服务装置，而无需转发给文字视觉搜索服务装置、条码视觉搜索服务装置等其他类别的视觉搜索服务装置；

若上述图像识别云服务请求中未包含有分类类型信息，则将上述图像数据转发给所有的各分类视觉搜索服务对应的分类视觉搜索服务装置。

在其中一个具体实现方式中，在接收到客户端401发送的图像识别云服务请求之后，云服务接入装置4021可以对该图像识别云服务请求进行预处理操作，以对图像识别云服务请求的安全性进行验证。即，上述云服务接入装置4021，还用于对图像识别云服务请求进行预处理操作。

以下结合其中一个具体示例进行详细说明，在该具体示例中，以客户端发送的图像识别云服务请求中为包含分类类型信息，即未指定对图像数据进行何种分类视觉搜索服务为例进行说明，这种说明并不用以对本发明方案进行限定。

在该具体示例中，具体的过程可以是如下所述。

客户端401通过网络(例如Internet)向服务器端402发送图像识别云服务请求，其中，该图像识别云服务请求中包括有待进行视觉搜索的图片的图像数据。

服务器端402的云服务接入装置4021接收到该图像识别云服务请求后，对该图像识别云服务请求进行预处理操作，对该图像识别云服务请求的安全性进行验证，判断该图像识别云服务请求是否为合法的请求，若安全性验证通过，则进入下一步操作，否则，结束对图像识别云服务请求的处理，或者也可以是向客户端返回错误或者是非法请求的反馈信息。

安全性验证通过后，云服务接入装置4021分析判断该图像识别云服务请求中是否包含有分类类型信息，即判断用户是否指定了要进行特定类型的分类视觉搜索服务：若有指定的分类视觉搜索服务，则将该图像识别服务请求中的图像数据分别转发给该些分类类型信息对应的分类视觉搜索服务对应的分类视觉搜索服务装置；若没有指定的分类视觉搜索服务，则将该图像识别服务请求中的图像数据分别转发给所有的分类视觉搜索服务对应的分类视觉搜索服务装置。

在本发明的该具体示例中，是以图像识别云服务请求中未指定特定类型的分类视觉搜索服务为例进行说明。也就是说，在该具体示例中，是将该图像识别服务请求中的图像数据分别转发给了所有的分类视觉搜索服务。由于具体设定的不同，服务器端402所包含的分类视觉搜索服务可能会有所不同且不能穷举，因此，在下述说明中，以所有的分类视觉搜索服务包括了人脸视觉搜索服务、物理视觉搜索服务、文字视觉搜索服务为例进行说明，这种说明并不用以对本发明构成限定。

人脸视觉搜索服务装置在接收到转发的图像数据后，先检测确定图像数据中是否包含有人脸图像，若没有人脸图像，则结束人脸视觉搜索服务，若有人脸图像，确定人脸图像在图像数据对应的图片中的位置信息，该位置信息通常可以包括人脸图像区域在图片中的位置坐标范围，然后依据该位置信息，识别出具体的人脸图像，并给出该人脸图像对应的名称后，在相应的数据库中搜索与识别出的人脸图像相应的详细信息，例如，与该人脸图像相似的其他人脸图像、该人脸图像中人物的名称等等，基于搜索出的人物名称，还可以进一步搜索出该人物的人物简介以及其他相关信息，例如：若为明星人物，可进一步获得与该明星人物相关的链接地址(例如主页地址、博客地址、微博地址等)。最后可得到具体的人脸视觉搜索结果，该人脸视觉搜索结果包括有类型为人脸的类型信息、人脸在图片中的位置信息、该人脸的名称以及上述搜索到的其他相关信息。

物体视觉搜索服务装置在接收到转发的图像数据后，先检测确定图像数据中是否包含有物体，若没有物体，则结束物体视觉搜索服务，若有物体，确定物体在图像数据对应的图片中的位置信息，该位置信息通常可以包括人脸图像区域在图片中的位置坐标范围，然后依据该位置信息识别出具体的物体图像，并依据该物体图像匹配出该物体的具体类别及其他相关信息，然后在相应的数据库中搜索与识别出与该物体相对应的其他详细信息，例如该物体的生产年份等等。最后可得到具体的物体视觉搜索结果，该物体视觉搜索结果包括有类型为物体的类型信息、物体在图片中的位置信息、该物体的名称以及上述搜索到的其他相关信息。

文字视觉搜索服务装置在接收到转发的图像数据后，先检测确定图像数据中是否包含有文字内容，若没有文字内容，则结束文字视觉搜索服务，若有文字内容，确定文字内容在图像数据对应的图片中的位置信息，该位置信息通常可以包括人脸图像区域在图片中的位置坐标范围，然后依据该位置信息识别出具体的文字内容，并在相应的数据库中搜索确定与该文字内容相关的其他相关信息，例如：如果文字内容为网址信息，则给出具体的链接地址等等。最后可得到具体的文字视觉搜索结果，该人脸视觉搜索结果包括有类型为人脸的类型信息、人脸在图片中的位置信息、该人脸的名称以及上述搜索到的其他相关信息。

在得到人脸视觉搜索服务、物体视觉搜索服务、文字视觉搜索服务的分类视觉搜索结果后，视觉搜索结果汇总装置4023将这些分类视觉搜索结果汇总后返回给客户端401。客户端401接收后，可将这些分类视觉搜索结果结合图片进行显示，例如，以人脸为例，基于人脸在图片中的位置信息，在对应于图片的该范围内显示类型信息、人脸的名称以其他相关信息等等，从而用户可以在客户端上查看到与该图片的相关的详细信息，若返回的分类视觉搜索结果中有链接信息，用户可以通过点击该链接地址访问具体的网页。得到分类视觉搜索结果后的具体的扩展方式，根据实际需要可以设定很多种，具体在此不予赘述。

在另外一种实现方式中，本实施例中的基于云服务的视觉搜索服务系统，还可以包括有上述所提及的客户端401，该客户端401，可以是任何类型的客户端，包括但不限于移动终端、PC客户端、WEB客户端、平板电脑、笔记本电脑、车载电子系统、掌上电脑等等，具体在此不予赘述。

其中，客户端与服务器端之间的交互过程，包括客户端向服务器端发送图像识别服务请求、服务器端向客户端发送分类视觉搜索结果，可以根据需要采用任何一种通信协议来进行，包括但不限于HTTP协议、TCP协议等等。

另外，在本发明方案的其中一种实现方式中，客户端可选用可进行定位的客户端，在客户端向服务器端发送图像识别服务请求时，可同时将该客户端所在位置的定位信息(例如经纬度信息等)向服务器端发送，在服务器端向客户端返回分类视觉搜索结果时，可以同时基于该定位信息给出相关其他信息。以景物视觉搜索服务为例，在识别出景物、确定该景物所在位置后，可以基于客户端所在位置的定位信息，给出到达该景物的路径信息。

在本实施例的方案中，各特定类别的分类视觉搜索服务装置对应的分类视觉搜索服务的具体实现方式，可以上述本发明方法中的相同，在此不予多加赘述。

实施例二

图5中示出了本发明的基于云服务的视觉搜索系统实施例二的结构示意图。在本实施例中，与上述实施例一中的方案的不同之处主要在于，在服务器端502，由统一的图像识别服务装置5022对图像数据中包含有哪些分类类型信息进行检测确定。

如图5所示，本实施例中的基于云服务的视觉搜索服务系统包括有服务器端502，服务器端502包括有：

云服务接入装置501，用于接收客户端501发送的图像识别云服务请求，该图像识别云服务请求中包括有需要进行图像识别的图像数据；

与云服务接入装置5021连接的图像识别服务装置5022，用于检测出图像识别云服务请求中的图像数据中包含的各分类类型信息、各分类类型信息在图像数据中的位置信息，并根据识别出的各分类类型信息、设定分类转发规则将图像识别云服务请求中的图像数据及对应的位置信息转发给分类视觉服务系统中对应的分类视觉搜索服务；

与图像识别服务装置5022连接的分类视觉服务系统5023，用于接收图像识别服务装置5022发送的图像数据，采用各对应的分类视觉搜索服务识别出图像数据中对应的分类类型信息，确定该分类类型信息对应的名称；

以及与分类视觉服务系统5023相连接的视觉搜索结果汇总装置5024，用于将各对应的分类视觉搜索服务的视觉搜索结果汇总后向客户端501发送，其中，这里的视觉搜索结果包括有上述确定的分类类型信息、以及对应的名称。

依据本实施例中的方案，是先检测图像数据中包含哪些类别的分类类型信息，然后再将这些图像数据转发给对应的分类视觉搜索服务，避免了其他的分类视觉搜索服务进行不必要的处理。

据此，如图5所示，在本实施例的方案中，上述分类视觉服务系统5023具体可以包括但不限定于图5中所示的物体视觉搜索服务装置、人脸视觉搜索服务装置、文字视觉搜索服务装置、条码视觉搜索服务装置等特定类型的视觉搜索服务装置，例如，还可以包括有景物视觉搜索服务装置、Logo视觉搜索服务装置、图书视觉搜索服务装置、CD视觉搜索服务装置等等。

其中，该物体视觉搜索服务装置，用于依据图像识别服务装置5022转发的图像数据以及对应的位置信息识别出具体的物体图像，并依据该物体图片匹配出该物体的具体类别及其他相关信息，给出该物体的名称，得到具体的物体视觉搜索结果，该物体视觉搜索结果包括有类型为物体的类型信息、物体在图片中的位置信息、该物体的名称。

该人脸视觉搜索服务装置，用于依据图像识别服务装置5022转发的图像数据以及对应的位置信息，识别出具体的人脸图像，给出该人脸图像对应的名称，最后可得到具体的人脸视觉搜索结果，该人脸视觉搜索结果包括有类型为人脸的类型信息、人脸在图片中的位置信息、该人脸的名称。

该文字视觉搜索服务装置，用于依据图像识别服务装置5022转发的图像数据以及对应的位置信息识别出具体的文字内容，最后可得到具体的文字视觉搜索结果，该文字视觉搜索结果包括有类型为文字的类型信息、文字在图片中的位置信息、该文字的名称。

基于上述本发明的实施例，在识别得到了特定类别信息的基础上，可以进一步检索与该特定类别信息相关的详细信息，以进行进一步的综合应用，提高用户的使用体验，也就是说，各特定类别的视觉搜索服务装置在识别分类类型信息后，还进一步检索与该分类类型信息相关的详细信息。据此：

上述物体视觉搜索服务装置，还用于在相应的数据库中搜索与识别出与该物体相对应的其他详细信息，例如该物体的生产年份等等，此时，上述该物体视觉搜索结果，还包括该搜索到的其他相关信息；

上述人脸视觉搜索服务装置，还用于在相应的数据库中搜索与识别出的人脸图像相应的详细信息，例如，与该人脸图像相似的人脸图像、该人脸图像中人物的名称等等，基于搜索出的人物名称，还可以进一步搜索出该人物的人物简介以及其他相关信息，例如：若为明星人物，可进一步获得与该明星人物相关的链接地址(例如主页地址、博客地址、微博地址等)，此时，上述人脸视觉搜索结果，还包括该搜索到的其他相关信息；

上述文字视觉搜索服务装置，还用于搜索确定与该文字内容相关的其他相关信息，例如：如果文字内容为网址信息，则给出具体的链接地址等等，此时，上述文字视觉搜索结果，还包括该搜索到的其他相关信息。

其中，本实施例中的方案在具体实施时，用户也可以指定需要对发送的图像数据进行哪些类型的分类视觉搜索服务，例如只进行人脸视觉搜索服务、景物视觉搜索服务等等，此时，图像识别服务装置5022可以不进行上述针对图像数据包含哪些分类类型信息的检测过程，直接将图像数据转发给指定的各分类视觉搜索服务即可，在此不予赘述。

基于上述本发明的一个实现方式中，以通过图像识别服务装置5022检测了图像数据中包含了哪些类别的分类类型信息为例，在将图像数据转发给对应的分类视觉搜索服务之后，各对应的分类视觉搜索服务识别出图像数据中对应的分类类型信息时，可以不必再检测图像数据中是否包含有对应的分类类型信息，具体可以通过下述方式进行：

各对应的分类视觉搜索服务依据检测出的该位置信息，识别出该位置信息对应的图像数据所代表的分类类型信息，确定对应的名称。

当然，若是用户指定了对发送的图像数据需要进行的分类视觉搜索服务、且图像识别服务装置5022没有进行图像数据中包含哪些分类类型信息的检测过程，则各对应的分类视觉搜索服务需要检测图像数据中是否包含有对应的分类类型信息。

在其中一个具体实现方式中，在接收到客户端501发送的图像识别云服务请求之后，云服务接入装置5021可以对该图像识别云服务请求进行预处理操作，以对请求的安全性进行验证。即，上述云服务接入装置5021，还用于对图像识别云服务请求进行预处理操作。

以下结合本实施例实施时的其中一个具体示例进行详细说明，在该具体示例中，以客户端发送的图像识别云服务请求中未指定对图像数据进行何种分类视觉搜索服务为例进行说明，这种说明并不用以对本发明方案进行限定。

在该具体示例中，具体的过程可以是如下所述。

客户端501通过网络(例如Internet)向服务器端502发送图像识别云服务请求，其中，该图像识别云服务请求中包括有待进行视觉搜索的图片的图像数据。

服务器端502的云服务接入装置5021接收到该图像识别云服务请求后，对该图像识别云服务请求进行预处理操作，对该图像识别云服务请求的安全性进行验证，判断该图像识别云服务请求是否为合法的请求，若安全性验证通过，则进入下一步操作，否则，结束对图像识别云服务请求的处理，或者也可以是向客户端返回是错误或者非法请求的反馈信息。

安全性验证通过后，图像识别服务装置5022分析判断该图像识别云服务请求中是否包含有分类类型信息，即判断用户是否指定了要进行特定类型的分类视觉搜索服务：若有指定的分类视觉搜索服务，则将该图像识别服务请求中的图像数据分别转发给该些分类类型信息对应的分类视觉搜索服务对应的分类视觉搜索服务装置；若没有指定的分类视觉搜索服务，则检测图像数据中包含有哪些分类类型信息，并检测出各分类类型信息在图像数据对应于图片中的位置信息，然后将该图像识别服务请求中的图像数据以及相应的位置分别转发给相应的分类视觉搜索服务对应的分类视觉搜索服务装置。

在本发明的该具体示例中，以图像识别云服务请求中未指定特定类型的分类视觉搜索服务，且图像数据中包含的分类类型信息包括人脸、物体及文字为例进行说明。也就是说，在该具体示例中，是将该图像识别服务请求中的图像数据分别转发给了人脸视觉搜索服务装置、物体视觉搜索服务装置、文字视觉搜索服务装置为例进行说明。

人脸视觉搜索服务装置在接收到转发的图像数据后，依据检测出的人脸在图像数据对应图片中的位置信息，识别出具体的人脸图像，并给出该人脸图像对应的名称后，在相应的数据库中搜索与识别出的人脸图像相应的详细信息，例如，与该人脸图像相似的人脸图像、该人脸图像中人物名称等等，基于搜索出的人物名称，还可以进一步搜索出该人物的人物简介以及其他相关信息，例如：若为明星人物，可进一步获得与该明星人物相关的链接地址(例如主页地址、博客地址、微博地址等)。最后可得到具体的人脸视觉搜索结果，该人脸视觉搜索结果包括有类型为人脸的类型信息、人脸在图片中的位置信息、该人脸的名称以及上述搜索到的其他相关信息。

物体视觉搜索服务装置在接收到转发的图像数据后，依据检测出的物体在图像数据对应图片中的位置信息，识别出具体的物体图像，并依据该物体图像匹配出该物体的具体类别及其他相关信息，然后在相应的数据库中搜索与识别出与该物体相对应的其他详细信息，例如该物体的生产年份等等。最后可得到具体的物体视觉搜索结果，该物体视觉搜索结果包括有类型为物体的类型信息、物体在图片中的位置信息、该物体的名称以及上述搜索到的其他相关信息。

文字视觉搜索服务装置在接收到转发的图像数据后，依据检测出的文字在图像数据对应图片中的位置信息，识别出具体的文字内容，并搜索确定与该文字内容相关的其他相关信息，例如：如果文字内容为网址信息，则给出具体的链接地址等等。最后可得到具体的文字视觉搜索结果，该文字视觉搜索结果包括有类型为文字的类型信息、文字在图片中的位置信息、该文字的名称以及上述搜索到的其他相关信息。

在得到人脸视觉搜索服务装置、物体视觉搜索服务装置、文字视觉搜索服务装置的分类视觉搜索结果后，视觉搜索结果汇总装置5024将这些分类视觉搜索结果汇总后返回给客户端501。客户端501接收后，可将这些分类视觉搜索结果结合图片进行显示，例如，以人脸为例，基于人脸在图片中的位置信息，在对应于图片的该范围内显示类型信息、人脸的名称以其他相关信息等等，从而用户可以在客户端上查看到与该图片的相关的详细信息，若返回的分类视觉搜索结果中有链接信息，用户可以通过点击该链接地址访问具体的网页。得到分类视觉搜索结果后的具体的扩展方式，根据实际需要可以设定很多种，具体在此不予赘述。

在另外一种实现方式中，本实施例中的基于云服务的视觉搜索服务系统，还可以包括有上述所提及的客户端501，该客户端501，可以是任何类型的客户端，包括但不限于移动终端、PC客户端、WEB客户端、平板电脑、笔记本电脑、车载电子系统、掌上电脑等等，具体在此不予赘述。

实施例三

图6中示出了本发明的基于云服务的视觉搜索服务系统实施例三的结构示意图，在本实施例三的方案中，与上述实施例二的不同之处主要在于，本实施例中是在客户端设置图像识别服务装置对图像数据中包含有哪些分类类型信息进行检测确定。

如图6所示，本实施例中的基于云服务的视觉搜索服务系统包括有客户端601以及服务器端602，其中：

客户端601包括有：

图像识别服务装置6011，用于检测出图像数据中包含的各分类类型信息、各分类类型信息在图像数据中的位置信息，并依据检测出的分类类型信息以及对应的位置信息向服务端发送图像识别云服务请求，该图像识别云服务请求中包括有需要进行图像识别的图像数据、以及上述检测出的分类类型信息以及对应的位置信息；

服务器端602包括有：

云服务接入装置6021，用于接收客户端601发送的图像识别云服务请求，并依据设定分类转发规则将图像识别云服务请求中的图像数据及对应的位置信息转发给分类视觉服务系统6022中对应的分类视觉搜索服务；

与云服务接入装置6021连接的分类视觉服务系统6022，用于接收云服务接入装置6021发送的图像数据及对应的位置信息，采用各对应的分类视觉搜索服务识别出图像数据中对应的分类类型信息，确定该分类类型信息对应的名称；

以及与分类视觉服务系统6022相连接的视觉搜索结果汇总装置6023，用于将各对应的分类视觉搜索服务的视觉搜索结果汇总后向客户端601发送，其中，这里的视觉搜索结果包括有上述确定的各分类类型信息以及对应的名称。

依据本实施例中的方案，是由客户端601先检测图像数据中包含哪些类型的分类类型信息，然后再向服务器端602发送图像识别云服务请求，由服务器端602对图像数据中的具体分类类型信息识别，避免了其他的分类视觉搜索服务进行不必要的处理。

据此，在本实施例的方案中，上述分类视觉服务系统6022具体可以包括但不限定于图6中所示的物体视觉搜索服务装置、人脸视觉搜索服务装置、文字视觉搜索服务装置、条码视觉搜索服务装置等特定类型的视觉搜索服务装置，例如，还可以包括有景物视觉搜索服务装置、Logo视觉搜索服务装置、图书视觉搜索服务装置、CD视觉搜索服务装置等等。

其中，该物体视觉搜索服务装置，用于依据云服务接入装置6021转发的图像数据以及对应的位置信息识别出具体的物体图像，并依据该物体图像匹配出该物体的具体名称及其他相关信息。

该人脸视觉搜索服务装置，用于依据云服务接入装置6021转发的图像数据以及对应的位置信息识别出具体的人脸图像，给出该人脸图像对应的名称。

该文字视觉搜索服务装置，用于依据云服务接入装置6021转发的图像数据以及对应的位置信息识别出具体的文字内容。

基于上述本发明的实施例，在识别得到了分类类型信息并确定了其对应的名称的基础上的基础上，可以进一步检索与其相关的详细信息，以进行进一步的综合应用，提高用户的使用体验，也就是说，各分类类型对应的视觉搜索服务装置在识别出分类类型信息、确定了对应的名称之后，还可以进一步检索相关的详细信息。据此：

上述物体视觉搜索服务装置，还用于在相应的数据库中搜索与识别出与该物体相对应的其他详细信息，例如该物体的生产年份等等。最后可得到具体的物体视觉搜索结果，该物体视觉搜索结果包括有类型为物体的类型信息、物体在图片中的位置信息、该物体的名称以及上述搜索到的其他相关信息；

上述文字视觉搜索服务装置，还用于在相应的数据库中搜索确定与该文字内容相关的其他相关信息，例如：如果文字内容为网址信息，则给出具体的链接地址等等。最后可得到具体的文字视觉搜索结果，该人脸视觉搜索结果包括有类型为人脸的类型信息、人脸在图片中的位置信息、该人脸的名称以及上述搜索到的其他相关信息。

其中，本实施例中的方案在具体实施时，用户也可以指定需要对发送的图像数据进行哪些分类类型的分类视觉搜索服务，例如只进行人脸视觉搜索服务、景物视觉搜索服务等等，此时，图像识别服务装置6021可以不进行上述针对图像数据包含哪些分类类型信息的检测过程，直接向服务器端602发送包含了指定类别的图像识别云服务请求即可，在此不予赘述。

以下结合本实施例实施时的其中一个具体示例进行详细说明，在该具体示例中，以客户端601发送的图像识别云服务请求中未指定对图像数据进行何种分类视觉搜索服务为例进行说明，这种说明并不用以对本发明方案进行限定。

在该具体示例中，具体的过程可以是如下所述。

客户端601在接收到用户通过鼠标点击、手指触摸等方式发出的图像识别指令时，图像识别服务装置6011检测用户是否选择指定了特定的分类视觉搜索服务：若有指定的分类视觉搜索服务，将包含了指定分类类型信息的图像识别云服务请求向服务器端发送；若没有指定分类视觉搜索服务，则检测图像数据中包含有哪些分类类型信息，并检测出各分类类型信息在图像数据对应于图片中的位置信息，然后将包含了检测出的分类类型信息、相应的位置信息以及图片的图像数据的图像识别云服务请求向服务器端发送。在该具体示例的下述说明中，以图像识别云服务请求中未指定特定的分类视觉搜索服务，且图像数据中包含的分类类型信息包括人脸、物体及文字为例进行说明。

服务器端602的云服务接入装置6021接收到该包含了检测出的分类类型信息、相应的位置信息以及图像数据的图像识别云服务请求后，对该图像识别云服务请求进行预处理操作，对该图像识别云服务请求的安全性进行验证，判断该图像识别云服务请求是否为合法的请求，若安全性验证通过，则进入下一步操作，否则，结束对图像识别云服务请求的处理，或者也可以是向客户端601返回错误或者非法请求的反馈信息。

安全性验证通过后，云服务接入装置6021将该图像识别服务请求中的图像数据以及相应的位置信息分别转发给相应的分类视觉搜索服务对应的分类视觉搜索服务装置。以图像识别服务装置6011检测出的类别信息包括有人脸、物体、文字为例，则将该图像识别服务请求中的图像数据及相应的位置信息分别转发给人脸视觉搜索服务装置、物体视觉搜索服务装置、文字视觉搜索服务装置。

在得到人脸视觉搜索服务装置、物体视觉搜索服务装置、文字视觉搜索服务装置的分类视觉搜索结果后，视觉搜索结果汇总装置6023将这些分类视觉搜索结果汇总后返回给客户端601，客户端601接收后，可将这些分类视觉搜索结果结合图片进行显示，例如，以人脸为例，基于人脸在图片中的位置信息，在对应于图片的该范围内显示类型信息、人脸的名称以其他相关信息等等，从而用户可以在客户端上查看到与该图片的相关的详细信息，若返回的分类视觉搜索结果中有链接信息，用户可以通过点击该链接地址访问具体的网页。得到分类视觉搜索结果后的具体的扩展方式，根据实际需要可以设定很多种，具体在此不予赘述。

本实施例中的客户端601，可以是任何类型的客户端，包括但不限于移动终端、PC客户端、WEB客户端、平板电脑、笔记本电脑、车载电子系统、掌上电脑等等，具体在此不予赘述。

本实施例三中的其他技术特征与上述实施例一中的相同，在此不予赘述。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于云服务的视觉搜索方法，其特征在于，包括步骤：

2.根据权利要求1所述的基于云服务的视觉搜索方法，其特征在于：

在将图像数据转发给对应的分类视觉搜索服务之后、各对应的分类视觉搜索服务识别出图像数据中对应的分类类型信息之前，还包括步骤：各对应的分类视觉搜索服务检测图像数据中是否包括对应的分类类型信息，若是，检测出该分类类型信息在图像数据中的位置信息，依据该位置信息进行识别，确定对应的名称；

或者

根据设定分类转发规则将所述图像数据转发给对应的分类视觉搜索服务具体包括：检测图像数据中包括的分类类型信息，并将所述图像数据转发给所检测出的分类类型信息对应的分类视觉搜索服务。

3.根据权利要求1所述的基于云服务的视觉搜索方法，其特征在于，在将图像数据转发给对应的分类视觉搜索服务之前，还包括步骤：

识别出图像识别云服务请求中的包含的各分类类型信息、以及各分类类型信息在图像数据中的位置信息；

根据所识别的各分类类型信息以及设定分类转发规则，将所述图像数据、以及对应的位置信息转发给所识别的分类类型信息对应的分类视觉搜索服务。

4.根据权利要求3所述的基于云服务的视觉搜索方法，其特征在于，所述设定分类转发规则包括：

若所述图像识别云服务请求中包含分类类型信息，将所述图像数据转发给该分类类型信息对应的各分类视觉搜索服务；

若所述图像识别云服务请求中未包含分类类型信息，将所述图像数据转发给所有的各分类视觉搜索服务。

5.根据权利要求1至4任意一项所述的基于云服务的视觉搜索方法，其特征在于：

在接收到图像识别云服务请求之后，还包括步骤：对所述图像识别云服务请求进行预处理操作，所述预处理操作包括安全性验证操作；

和/或

在确定对应的名称之后、将各对应的分类视觉搜索服务的视觉搜索结果汇总后向客户端发送之前，还包括步骤：各对应的分类视觉搜索服务根据所识别出的分类类型信息及名称检索设定类型的相关详细信息；所述视觉搜索结果还包括检索的所述详细信息；

和/或

所述分类视觉搜索服务包括物体视觉搜索服务、文字视觉搜索服务、人脸视觉搜索服务、条码视觉搜索服务、景物视觉搜索服务、Logo视觉搜索服务、图书视觉搜索服务、CD视觉搜索服务中的任意一项或者任意组合，所述分类类型信息包括物体、文字、人脸、条码、景物、Logo、图书、CD中的任意一项或者任意组合。

6.一种基于云服务的视觉搜索服务系统，其特征在于，包括服务端，所述服务端包括有：

7.根据权利要求6所述的基于云服务的视觉搜索系统，其特征在于，还包括连接于云服务接入装置与分类视觉服务系统之间的图像识别服务装置，用于识别出图像识别云服务请求中的图像数据中包含的各分类类型信息、以及各分类类型信息在图像数据中的位置信息，并根据所识别的各分类类型信息以及设定分类转发规则，将所述图像数据、以及所识别出的分类类型信息对应的位置信息转发给对应的分类视觉搜索服务。

8.根据权利要求7所述的基于云服务的视觉搜索系统，其特征在于，所述设定分类转发规则包括：

9.根据权利要求6所述的基于云服务的视觉搜索系统，其特征在于：

所述分类视觉服务系统，还用于采用各对应的分类视觉搜索服务确定图像数据中是否包含对应的分类类型信息，若是，检测出该分类类型信息在图像数据中的位置信息，并依据该位置信息进行识别，确定对应的名称；

或者

还包括设置在所述客户端的图像识别服务装置，用于检测图像中包含的各分类类型信息、以及各分类类型信息在图像数据中的位置信息，并根据所检测的各分类类型信息向服务器端发送图像识别云服务请求，该图像识别云服务请求中包括所识别的分类类型信息、对应的位置信息以及图像的图像数据。

10.根据权利要求6至9任意一项所述的基于云服务的视觉搜索服务系统，其特征在于：

所述云服务接入装置，还用于对所述图像识别云服务请求进行预处理操作；

和/或

所述分类视觉服务系统，还用于采用各对应的分类视觉搜索服务根据所识别出的分类类型信息检索及名称检索设定类型的相关详细信息；所述视觉搜索结果包括检索的所述详细信息；

和/或

所述分类视觉搜索服务包括物体视觉搜索服务、文字视觉搜索服务、人脸视觉搜索服务、条码视觉搜索服务、景物视觉搜索服务、Logo视觉搜索服务、图书视觉搜索服务、CD视觉搜索服务中的任意一项或者任意组合，所述分类类型信息包括物体、文字、人脸、条码、景物、Logo、图书、CD中的任意一项或者任意组合；

和/或

还包括所述客户端。