CN111144156A - 一种图像数据处理方法和相关装置 - Google Patents
一种图像数据处理方法和相关装置 Download PDFInfo
- Publication number
- CN111144156A CN111144156A CN201811310861.4A CN201811310861A CN111144156A CN 111144156 A CN111144156 A CN 111144156A CN 201811310861 A CN201811310861 A CN 201811310861A CN 111144156 A CN111144156 A CN 111144156A
- Authority
- CN
- China
- Prior art keywords
- target
- video frame
- target object
- image data
- dimensional code
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06K—GRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
- G06K7/00—Methods or arrangements for sensing record carriers, e.g. for reading patterns
- G06K7/10—Methods or arrangements for sensing record carriers, e.g. for reading patterns by electromagnetic radiation, e.g. optical sensing; by corpuscular radiation
- G06K7/14—Methods or arrangements for sensing record carriers, e.g. for reading patterns by electromagnetic radiation, e.g. optical sensing; by corpuscular radiation using light without selection of wavelength, e.g. sensing reflected white light
- G06K7/1404—Methods for optical code recognition
- G06K7/1439—Methods for optical code recognition including a method step for retrieval of the optical code
- G06K7/1443—Methods for optical code recognition including a method step for retrieval of the optical code locating of the code in an image
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Electromagnetism (AREA)
- General Health & Medical Sciences (AREA)
- Toxicology (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例公开了一种图像数据处理方法和相关装置,该方法包括:通过摄像头采集包含目标对象的目标视频帧;基于级联检测模型中所包含的第一定位点对应的第一特征集合,对所述目标视频帧中所包含的所述目标对象进行图像识别,得到所述目标对象对应的识别率;所述目标对象对应的识别率用于表示所述第一特征集合中的目标属性类型特征与所述目标视频帧中的目标对象的图像特征之间的匹配度;若所述目标对象对应的识别率大于或等于概率阈值,则将所述目标对象确定为目标二维码,并对所述目标二维码进行二维码识别处理。采用本发明,可以提高二维码的识别效率。
Description
技术领域
本发明涉及互联网技术领域,尤其涉及一种图像数据处理方法和相关装置。
背景技术
在目前的二维码识别过程中,需要人为地将终端对准待识别的二维码,以便于在二维码扫描界面中可以对获取到的二维码图片进行识别。然而,在对屏幕中的二维码进行识别的过程中,若屏幕中的二维码所占屏幕的区域过小,且屏幕中的内容信息过多,则用户可能并不能轻易的找到二维码,即需要用户花较多时间才能找到二维码在屏幕中的位置,再通过终端对其进行识别。可见,在整个识别二维码的过程中,很可能会因用户寻找二维码的时间过长,二维码识别效率低。
发明内容
本发明实施例提供一种图像数据处理方法和相关装置,可以提高二维码的识别效率。
本发明实施例一方面提供了一种图像数据处理方法,包括:
通过摄像头采集包含目标对象的目标视频帧;
基于级联检测模型中所包含的第一定位点对应的第一特征集合,对所述目标视频帧中所包含的所述目标对象进行图像识别,得到所述目标对象对应的识别率;所述目标对象对应的识别率用于表示所述第一特征集合中的目标属性类型特征与所述目标视频帧中的目标对象的图像特征之间的匹配度;
若所述目标对象对应的识别率大于或等于概率阈值,则将所述目标对象确定为目标二维码,并对所述目标二维码进行二维码识别处理。
其中,所述方法还包括:
若所述目标对象对应的识别率小于概率阈值,则确定所述目标视频帧中不包含目标二维码,并将所述目标视频帧发送给云端服务器,以使所述云端服务器基于神经网络模型中所包含的第二定位点对应的第二特征集合,确定所述目标视频帧中所包含的所述目标对象对应的属性类型;所述属性类型包括二维码类型和非二维码类型。
其中,所述方法还包括:
获取与所述目标对象相关联的第一样本集合,并在所述第一样本集合中将携带第一标签信息的样本数据确定为正样本,并在所述第一样本集合中将携带第二标签信息的样本数据确定为负样本;其中,所述正样本为包含二维码的样本数据,所述负样本为不包含二维码的样本数据;
在所述第一样本集合中,将所述正样本对应的图像数据的尺寸缩放至相同尺寸,并基于缩放后的正样本对应的第一标签信息和第一定位点、所述负样本对应的第二标签信息,训练多级分类器中的每级分类器;所述第一定位点为二维码的特征点;
当所述每级分类器所输出的检测率之积满足收敛条件时,将满足收敛条件的多级分类器确定为级联检测模型;所述级联检测模型中包含所述第一定位点对应的第一特征集合;所述第一特征集合中包含所述第一定位点对应的目标属性类型特征,以及所述目标属性类型特征在所述每级分类器中的参考图像特征。
其中,所述基于级联检测模型中所包含的第一定位点对应的第一特征集合,对所述目标视频帧中所包含的所述目标对象进行图像识别,得到所述目标对象对应的识别率,包括;
将所述目标视频帧对应的灰度区域确定为待处理区域,并将级联检测模型中的目标属性类型特征映射在所述待处理区域上,得到与所述待处理区域对应的检测窗口;所述待处理区域包括所述目标对象;
构建所述检测窗口对应的积分图,并基于所述积分图计算所述检测窗口对应的特征值;
将所述检测窗口在所述待处理区域上进行放大和/或平移处理,并将处理后的所有检测窗口对应的特征值,分别作为所述待处理区域对应的第一图像特征;
将每个所述第一图像特征输入所述级联检测模型,并基于所述每级分类器的参考图像特征和每个所述第一图像特征之间的检测率,获取由所述级联检测模型输出的与每个检测窗口对应的识别率;所有检测窗口对应的识别率中包括所述目标对象对应的识别率;每个检测窗口对应的识别率均为所述每级分类器所输出的检测率之积。
其中,所述基于级联检测模型中所包含的第一定位点对应的第一特征集合,对所述目标视频帧中所包含的所述目标对象进行图像识别,得到所述目标对象对应的识别率,包括;
将级联检测模型中的目标属性类型特征,映射到所述目标视频帧上,得到与所述目标视频帧对应的滑动窗口,并根据所述目标视频帧的尺寸与所述滑动窗口的尺寸,得到所述滑动窗口与所述目标视频帧之间的缩小比例;
基于所述缩小比例,对所述目标视频帧进行缩小处理,并将所述目标视频帧和缩小后的目标视频帧分别对应的灰度区域确定为待检测区域;
将所述滑动窗口在每个待检测区域上进行平移,得到与所述每个待检测区域对应的第二图像特征;
将所述每个待检测区域对应的第二图像特征输入所述级联检测模型,并基于所述每级分类器的参考图像特征和所述每个待检测区域对应的第二图像特征之间的检测率,获取由所述级联检测模型输出的与每个待检测区域对应的识别率;所有待检测区域对应的识别率中包括所述目标对象对应的识别率;每个待检测区域对应的识别率均为所述每级分类器所输出的检测率之积。
其中,所述获取与目标对象相关联的第一样本集合,包括:
获取包含二维码的多个原始图像数据,并获取与每个原始图像数据中的二维码分别对应的待添加噪声;
若所述待添加噪声为高斯噪声,则基于所述高斯噪声对应的高斯分布参数,将所述每个原始图像数据中的二维码分别与所述高斯噪声进行融合,得到多个第一融合图像数据;
基于所述多个原始图像数据和多个第一融合图像数据,确定与所述目标对象相关联的第一样本集合。
其中,所述方法还包括:
若所述待添加噪声为椒盐噪声,则获取所述椒盐噪声对应的信噪比,并基于所述信噪比将所述每个原始图像数据中的二维码分别与所述椒盐噪声进行融合,得到多个第二融合图像数据;
基于所述多个原始图像数据和所述多个第二融合图像数据,确定与所述目标对象相关联的第一样本集合。
其中,所述方法还包括:
在所述第一样本集合中获取第一图像数据;所述第一图像数据为所述多个原始图像数据、所述多个第一融合图像数据或所述多个第二融合图像数据中的任一图像数据;
以所述第一图像数据的中心为圆点,将所述第一图像数据进行旋转,并将旋转后第一图像数据确定为待处理图像数据;
获取待处理图像数据中的每个像素点的第一像素值,并基于所述每个像素点的第一像素值,对所述待处理图像数据进行错切变换,得到错切变换后的每个像素点的第二像素值,并基于所述错切变换后的每个像素点的第二像素值,生成与所述第一图像数据对应的第二图像数据,将所述第二图像数据添加至所述第一样本集合中。
本发明实施例一方面提供了一种图像数据处理装置,包括:
采集模块,用于通过摄像头采集包含目标对象的目标视频帧;
图像识别模块,用于基于级联检测模型中所包含的第一定位点对应的第一特征集合,对所述目标视频帧中所包含的所述目标对象进行图像识别,得到所述目标对象对应的识别率;所述目标对象对应的识别率用于表示所述第一特征集合中的目标属性类型特征与所述目标视频帧中的目标对象的图像特征之间的匹配度;
第一确定模块,用于若所述目标对象对应的识别率大于或等于概率阈值,则将所述目标对象确定为目标二维码,并对所述目标二维码进行二维码识别处理。
其中,所述装置还包括:
第二确定模块,用于若所述目标对象对应的识别率小于概率阈值,则确定所述目标视频帧中不包含目标二维码,并将所述目标视频帧发送给云端服务器,以使所述云端服务器基于神经网络模型中所包含的第二定位点对应的第二特征集合,确定所述目标视频帧中所包含的所述目标对象对应的属性类型;所述属性类型包括二维码类型和非二维码类型。
其中,所述装置还包括:
样本获取模块,用于获取与所述目标对象相关联的第一样本集合;
样本划分模块,用于在所述第一样本集合中将携带第一标签信息的样本数据确定为正样本,并在所述第一样本集合中将携带第二标签信息的样本数据确定为负样本;其中,所述正样本为包含二维码的样本数据,所述负样本为不包含二维码的样本数据;
样本缩放模块,用于在所述第一样本集合中,将所述正样本对应的图像数据的尺寸缩放至相同尺寸,并基于缩放后的正样本对应的第一标签信息和第一定位点、所述负样本对应的第二标签信息,训练多级分类器中的每级分类器;所述第一定位点为二维码的特征点;
模型确定模块,用于当所述每级分类器所输出的检测率之积满足收敛条件时,将满足收敛条件的多级分类器确定为级联检测模型;所述级联检测模型中包含所述第一定位点对应的第一特征集合;所述第一特征集合中包含所述第一定位点对应的目标属性类型特征,以及所述目标属性类型特征在所述每级分类器中的参考图像特征。
其中,所述图像识别模块,包括;
检测窗口确定单元,用于将所述目标视频帧对应的灰度区域确定为待处理区域,并将级联检测模型中的目标属性类型特征映射在所述待处理区域上,得到与所述待处理区域对应的检测窗口;所述待处理区域包括所述目标对象;
特征值计算单元,用于构建所述检测窗口对应的积分图,并基于所述积分图计算所述检测窗口对应的特征值;
图像特征确定单元,用于将所述检测窗口在所述待处理区域上进行放大和/或平移处理,并将处理后的所有检测窗口对应的特征值,分别作为所述待处理区域对应的第一图像特征;
第一获取单元,用于将每个所述第一图像特征输入所述级联检测模型,并基于所述每级分类器的参考图像特征和每个所述第一图像特征之间的检测率,获取由所述级联检测模型输出的与每个检测窗口对应的识别率;所有检测窗口对应的识别率中包括所述目标对象对应的识别率;每个检测窗口对应的识别率均为所述每级分类器所输出的检测率之积。
其中,所述图像识别模块,包括;
滑动窗口确定单元,用于将级联检测模型中的目标属性类型特征,映射到所述目标视频帧上,得到与所述目标视频帧对应的滑动窗口,并根据所述目标视频帧的尺寸与所述滑动窗口的尺寸,得到所述滑动窗口与所述目标视频帧之间的缩小比例;
待检测区域确定单元,用于基于所述缩小比例,对所述目标视频帧进行缩小处理,并将所述目标视频帧和缩小后的目标视频帧分别对应的灰度区域确定为待检测区域;
滑动窗口平移单元,用于将所述滑动窗口在每个待检测区域上进行平移,得到与所述每个待检测区域对应的第二图像特征;
第二获取单元,用于将所述每个待检测区域对应的第二图像特征输入所述级联检测模型,并基于所述每级分类器的参考图像特征和所述每个待检测区域对应的第二图像特征之间的检测率,获取由所述级联检测模型输出的与每个待检测区域对应的识别率;所有待检测区域对应的识别率中包括所述目标对象对应的识别率;每个待检测区域对应的识别率均为所述每级分类器所输出的检测率之积。
其中,所述样本获取模块包括:
原始图像获取单元,用于获取包含二维码的多个原始图像数据,并获取与每个原始图像数据中的二维码分别对应的待添加噪声;
第一噪声融合单元,用于若所述待添加噪声为高斯噪声,则基于所述高斯噪声对应的高斯分布参数,将所述每个原始图像数据中的二维码分别与所述高斯噪声进行融合,得到多个第一融合图像数据;
第一确定单元,用于基于所述多个原始图像数据和多个第一融合图像数据,确定与所述目标对象相关联的第一样本集合。
其中,可选地,所述样本获取模块还包括:
第二噪声融合单元,用于若所述待添加噪声为椒盐噪声,则获取所述椒盐噪声对应的信噪比,并基于所述信噪比将所述每个原始图像数据中的二维码分别与所述椒盐噪声进行融合,得到多个第二融合图像数据;
第二确定单元,用于基于所述多个原始图像数据和所述多个第二融合图像数据,确定与所述目标对象相关联的第一样本集合。
其中,可选地,所述样本获取模块还包括:
第一图像获取单元,用于在所述第一样本集合中获取第一图像数据;所述第一图像数据为所述多个原始图像数据、所述多个第一融合图像数据或所述多个第二融合图像数据中的任一图像数据;
图像选择单元,用于以所述第一图像数据的中心为圆点,将所述第一图像数据进行旋转,并将旋转后第一图像数据确定为待处理图像数据;
第二图像生成单元,用于获取待处理图像数据中的每个像素点的第一像素值,并基于所述每个像素点的第一像素值,对所述待处理图像数据进行错切变换,得到错切变换后的每个像素点的第二像素值,并基于所述错切变换后的每个像素点的第二像素值,生成与所述第一图像数据对应的第二图像数据,将所述第二图像数据添加至所述第一样本集合中。
本发明实施例一方面提供了一种图像数据处理装置,包括:处理器、存储器以及网络接口;
所述处理器与存储器、网络接口相连,其中,网络接口用于连接云端服务器,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以执行如本发明实施例中一方面中的方法。
本发明实施例一方面提供了一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如本发明实施例中一方面中的方法。
本发明实施例首先通过摄像头采集包含目标对象的目标视频帧;进一步地,基于级联检测模型中所包含的第一定位点对应的第一特征集合,对所述目标视频帧中所包含的所述目标对象进行图像识别,得到所述目标对象对应的识别率;所述目标对象对应的识别率用于表示所述第一特征集合中的目标属性类型特征与所述目标视频帧中的目标对象的图像特征之间的匹配度;若所述目标对象对应的识别率大于或等于概率阈值,则将所述目标对象确定为目标二维码,并对所述目标二维码进行二维码识别处理。由此可见,由于可以在该摄像头对应的摄像界面(即第一显示界面)中对二维码进行识别,所以用户无需关心二维码在第一显示界面中的哪个位置,终端将自动对整个第一显示界面进行识别,以找出二维码的位置,从而可以避免用户花费时间去寻找二维码的位置,从而可以提高二维码识别的效率。而且由于该级联检测模型中包含的第一特征集合中存在大量的第一定位点的特征,且这些定位点的特征可以对应于该级联检测模型的目标属性类型特征,因此,可以通过该级联检测模型特有的目标属性类型特征,快速地对出现在该第一显示界面中的目标视频帧中的二维码的特征点进行目标检测,从而可以在目标视频帧中通过识别到的二维码的第一定位点,快速找到该目标视频帧中存在的二维码,以进一步提高二维码的识别效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种网络架构的结构示意图;
图2是本发明实施例提供的一种对二维码进行图像识别的示意图;
图3是本发明实施例提供的一种目标属性类型特征的示意图;
图4是本发明实施例提供的一种图像数据处理方法的流程示意图;
图5是本发明实施例提供的一种获取目标视频帧的示意图;
图6是本发明实施例提供的一种图像识别的示意图;
图7是本发明实施例提供的另一种图像识别的示意图;
图8是本发明实施例提供的另一种图像处理方法的流程示意图;
图9是本发明实施例提供的一种获取第一样本数据集合的示意图;
图10是本发明实施例提供的一种图像数据处理装置的结构示意图;
图11是本发明实施例提供的另一种图像数据处理装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1,是本发明实施例提供的一种网络架构的结构示意图。如图1所示,该网络架构可以包括云端服务器2000以及用户终端集群;用户终端集群可以包括多个用户终端,如图1所示,具体包括用户终端3000a、用户终端3000b、…、用户终端3000n;如图1所示,用户终端3000a、用户终端3000b、…、用户终端3000n均可以在满足一定的数据交互条件下,分别建立与云端服务器2000之间的数据连接关系,以便于能够与该云端服务器2000进行网络连接。
为便于理解,本发明实施例可以在图1所示的多个用户终端中选择一个用户终端作为目标用户终端,例如,可以将图1所示的用户终端3000a作为目标用户终端。其中,目标用户终端可以包括:智能手机、平板电脑、桌上型电脑、智能电视等携带摄像功能的智能终端。
如图1所示,目标用户终端(例如,用户终端3000a可以为智能手机)可以在检测到终端内的摄像头(比如,后置摄像头)开启的情况下,在该摄像头对应的数据采集界面中使用视频录制功能,以得到包含该目标对象的视频流。由于在对二维码进行识别的过程中,该目标终端可以连续得获取到包含该目标对象的图像数据,因此,上述得到的视频流可以由多个包含目标对象的视频帧构成,即该视频流可以包含多个视频帧,且这多个视频帧中可以存在包含二维码的视频帧。进一步地,请参见图2,是本发明实施例提供的一种对二维码进行图像识别的示意图。如图2所示,假设用户在地理位置A使用该目标用户终端扫描墙上的二维码时,可以通过摄像头对应的数据采集界面采集多个包含该二维码的视频帧,以得到图2所示的视频流,且可以在该目标用户终端内将构成该视频流中的各视频帧按照图2所示的时间轴进行序列化分布,以便于该目标用户终端能够按照图2所示的时间顺序将各视频帧分别作为目标视频帧。进一步可以将该目标视频帧输入已训练好的级联检测模型中,从而可以对该目标视频帧内的目标对象进行识别,并在识别出该目标对象为目标二维码(即用户需要扫描的二维码)时,进一步将该目标二维码显示在该终端屏幕上,以便于后续能够对该目标二维码进行二维码识别处理。
其中,该数据采集界面可以理解为该摄像头对应的摄像界面或者该摄像头对应的拍照界面,并可以将摄像界面或拍照界面称之为第一显示界面。
其中,在对目标对象进行识别的过程中,是通过级联检测器中的多级分类器分别对输入该级联检测器中的目标视频帧进行打分,即通过打分可以预先判定出该目标视频帧中是否存在二维码的定位点。如果存在,则确定该目标对象为二维码,如果不存在,则确定该目标对象不是二维码。可见,在进行二维码预判的过程中,并不是像传统的直接使用整个二维码图片进行以图搜图的相似判断,而是通过该级联检测模型中已训练的第一定位点对应的第一特征集合,与目标视频帧中的目标对象的图像特征之间的匹配度,来得到该目标对象对应的识别率。换言之,该目标用户终端可以通过检测该目标视频帧中是否存在用于表征二维码特性的特征点,来间接地确定该目标视频帧中是否存在二维码。
其中,第一特征集合是由参与训练的第一样本集合中各样本图像中第一定位点所携带的特征信息所构成的,即各样本图像中第一定位点所携带的特征信息可以称之为所述第一特征集合中目标属性类型特征的参考图像特征。
其中,对于级联检测模型而言,它是通过海量的第一样本集合(包含二维码的正样本集合和不包含二维码的负样本集合)中的多个已知场景的样本图像对其进行模型训练后所确定的,通过模型训练,可以得到一系列用于描述二维码的特征点的特征信息。因此,在将任一采集到的目标视频帧输入该训练好的级联检测模型时,可以对该目标视频帧中所包含的目标对象进行图像识别,以快速、且准确地在该目标视频帧中定位出存在的二维码。此外,若该目标视频帧中存在多个不同类型的二维码,则采用该级联检测模型还可以可一并检测出这些不同类型的二维码,从而可以实现“多目标多场景”的同时搜索。
其中,所述目标属性类型特征可以为14种Harr特征中的至少一种;所述Harr特征为用于识别二维码的定位点的矩形特征。其中,这14中Harr特征可以包括5种基础特征(Basic特征)、3种中心特征(Core特征)和6种45°旋转特征,其中,45°旋转特征也可以称之为倾斜特征。其中,这5种基础特征(Basic特征)、3种中心特征(Core特征)和6种45°旋转特征等Harr特征在用于对多级分类器(即级联检测模型)的模型参数进行训练时,可以将模型参数的训练模式设置为以下三种类型:即基础(Basic)类型,中心(Core)类型或所有(ALL)类型。对应的,上述基础类型对应的特征即为该目标用户终端使用上述5种基础特征来描述参与训练的第一样本集合中所有提取到的第一定位点的特征,这里,这些所有提取到的用于描述二维码的第一定位点的特征可以称之为级联检测模型中各级分类器的参考图像特征。其中,上述中心类型对应的特征为该目标用户终端使用上述5种基础特征和3种中心特征来描述参与训练的第一样本集合中所有提取到的第一定位点的特征,从而可以得到级联检测模型中各级分类器的参考图像特征。其中,上述所有类型对应的特征为该目标用户终端使用上述5种基础特征和3种中心特征以及6中45°旋转特征来描述参与训练的第一样本集合中所有提取到的第一定位点的特征,从而可以得到级联检测模型中各级分类器的参考图像特征。其中,参数图像特征可以用于与后续采集到目标视频帧中提取到的图像特征进行匹配,以对该目标视频帧中所包含的所述目标对象进行图像识别。
可选的,在训练模式为基础类型时,将只使用上述5种基础特征进行模型参数的训练,从而可以确保训练出的每级分类器可以包含这5种Harr特征。可选地,在训练模式为中心类型时,将使用上述5种基础特征+上述3种中心特征进行模型参数的训练,从而可以确保训练出的每级分类器可以包含上述8种Haar特征。可选地,在训练模式为中心类型时,将使用上述5种基础特征+上述3种中心特征+上述6种倾斜特征进行模型参数的训练,从而可以确保训练出的每级分类器可以包含上述14种Haar特征。其中,上述14种Haar特征中的任一种或多种Haar特征在用于二维码检测时,可以将其称之为训练好的级联检测模型中的目标属性类型特征。
例如,以5种Basic特征为例,可以将这5种Basic特征大致划分为两矩形特征、三矩形特征和对角特征,在模型训练时,可以根据实际的样本情况选择合适的Harr特征,以提高训练和检测的速度,从而可以确保图像识别过程中的鲁棒性。为便于理解,进一步地,请参见图3,是本发明实施例提供的一种目标属性类型特征的示意图。如图3所示,基础特征1a和基础特征1b均可以称之为两矩形特征,且在将该两矩形特征映射到目标视频帧之后,可以通过映射后的黑色部分的所有像素值的和减去白色部分所有像素值的和来计算得到目标视频帧中的某个位置上的两矩形特征的特征值。其中,该两矩形区域中的某个区域的像素值的和的计算需要利用到积分图,换言之,通过积分图可以加速计算出某个矩形内部的像素值的和。另外,如图3所示,基础特征1c和基础特征1d均可以称之为三矩形特征,且基础特征1e可以称之为对角特征。为例更好地理解本发明实施例提供的方法,本发明实施例以图3所示的基础特征1b作为目标属性类型特征为例,以阐述通过级联检测模型对目标视频帧中所包含的所述目标对象进行图像识别的具体过程。应当理解,通过该目标属性类型特征对级联检测器的模型参数进行训练的过程中,可以得到大量的该基础特征1b对应样本特征信息(即级联检测模型中每级分类器的参考图像特征),从而可以得到该级联检测模型中第一定位点对应的第一特征集合。应当理解,该第一特征集合中可以包含上述14种Harr特征中的至少一种Harr特征,即可以将这14种Harr特征中的至少一种Harr特征作为目标属性类型特征,以提高二维码检测的效率。
为更好地理解本方案,本发明实施例以所述目标视频帧为上述图2所对应实施例中第一时刻所采集到的视频帧作为目标视频帧为例,以进一步阐述通过该级联检测器对该目标视频帧中的目标对象进行图像识别的具体过程。换言之,当该目标视频帧输入该级联检测模型时,可以通过该级联检测模型中的目标属性类型特征与该目标视频帧中目标对象的图像特征之间的匹配度,得到该目标对象对应的识别率,从而可以基于该目标对象对应的识别率判断出该目标视频帧中是否存在二维码。
其中,目标用户终端获取所述目标视频帧,并对该目标视频帧中目标对象进行图像识别的具体过程可以参考如下图4至图8所对应的实施例所提供的实现方式。
进一步地,请参见图4,是本发明实施例提供的一种图像数据处理方法的流程示意图。如图4所示,本发明实施例提供的方法可以包括:
步骤S101,通过摄像头采集包含目标对象的目标视频帧。
具体地,目标用户终端可以在检测到终端内的摄像装置(比如,后置摄像头)开启的情况下,在该摄像装置对应的数据采集界面中,利用视频录制功能得到包含该目标对象的目标视频帧。
其中,所述目标用户终端可以为上述图1所对应实施例中的用户终端3000a;其中,所述目标视频帧可以为上述图2所对应实施例中在第一时刻所采集到的视频帧。应当理解,当该目标用户终端为智能手机时,该数据采集界面可以理解为该手机内的后置摄像头对应的摄像界面或者该摄像头对应的拍照界面,且在该目标用户终端中的摄像界面或拍照界面可以称之为第一显示界面。其中,所述摄像头对应的第一显示界面可用于对出现在该第一显示界面中的目标对象(例如,二维码)进行录制和抓拍,以得到包含该二维码的目标视频帧。鉴于此,可以将该目标用户终端内的摄像装置(即摄像头)称之为多功能摄像头,即该多功能摄像头不仅可以对该目标对象进行拍照,还能够将拍照所得的包含该目标对象的图像数据(即目标视频帧)进行二维码预判,以进一步执行步骤S102。
为便于理解,进一步地,请参见图5,是本发明实施例提供的一种获取目标视频帧的示意图。当所述第一显示界面为图5所示的摄像界面100b时,可以得到上述图2所示的多个视频帧,因此,该目标用户终端可以够按照图2所示的时间顺序将各视频帧分别作为目标视频帧,以进一步执行步骤S102。可选地为了提高二维码检测的效率,还可以将上述多个视频帧一并作为目标视频帧,并将这些目标视频帧一并输入已训练好的级联检测模型,以进一步执行步骤S102。可选地,如图5所示,当所述第一显示界面为图5所示的摄像界面100a时,可以在对二维码进行扫描的过程中,自动抓拍到包含该二维码的目标视频帧,以便于能够进一步执行步骤S102。
其中,所述目标用户终端可以包括:智能手机、平板电脑、桌上型电脑、智能电视等携带摄像功能的智能终端。因此,该目标用户终端中的摄像装置可以为独立于上述目标用户终端的设备,比如,扫描仪、传感器等具备图像数据采集功能的设备,这些设备可以通过有线或无线的方式将采集到的包含目标对象的多个视频数据中的一帧图像数据传输给上述目标用户终端,以使该目标用户终端可以将在第一时刻接收到的这一帧图像数据作为目标视频帧。
可选地,该目标用户终端中的摄像装置还可以为集成于上述目标用户终端中的设备,比如,内置于上述终端中的前、后置摄像头,因此,当该目标终端开启摄像功能时,便可以通过前置或后置摄像头采集包含目标对象的视频流,该视频流可以为一个连续时间段内所采集到的多个视频帧,因此,该目标终端可以在该视频流中将在第一时刻所采集到的视频帧作为目标视频帧。
步骤S102,基于级联检测模型中所包含的第一定位点对应的第一特征集合,对所述目标视频帧中所包含的所述目标对象进行图像识别,得到所述目标对象对应的识别率。
其中,所述目标对象对应的识别率用于表示所述第一特征集合中的目标属性类型特征与所述目标视频帧中的目标对象的图像特征之间的匹配度。
具体地,目标用户终端可以获取与所述目标对象相关联的第一样本集合,该第一样本集合中可以包括以下两种样本数据,即一种样本数据为包含二维码的样本数据(即正样本),另一种样本数据为不包含二维码的样本数据(负样本)。进一步地,该目标用户终端可以生成正样本对应的描述文件和负样本对应的描述文件,其中,所述正样本对应的描述文件和负样本对应的描述文件可以统称为样本描述文件。然后,该目标用户终端可以进一步利用现有的图像处理工具(例如,opencv(Open Source Computer Vision Library,开源计算机视觉库)),来加载上述生成的样本描述文件,以对级联检测模型中的模型参数进行训练,即通过将大量的样本数据输入该图像处理工具中,可以对该图像处理工具中初始给定的级联检测模型的模型参数进行持续地优化调整,以使该模型参数最后趋近于一个固定的最优值,进而可以在该级联检测模型的模型参数趋近于该最优值时,得到能够用于识别二维码的第一定位点的级联检测模型。进一步地,该目标用户终端可以使用该训练好的级联检测模型对该目标视频帧内的目标对象进行图像识别,以得到第一特征集合中的目标属性类型特征与所述目标视频帧中的目标对象的图像特征之间的匹配度,从而可以基于该匹配度得到该目标对象对应的识别率。
其中,该目标用户终端通过该级联检测模型中的目标属性类型特征对所述目标视频帧中的目标对象进行识别的过程可以理解为:该目标用户终端可以将该目标属性类型特征(Harr特征)映射在目标视频帧中,以得到该目标视频帧(例如,尺寸可以为20*20像素)对应的检测窗口(例如,该检测窗口中Harr特征的尺寸可以为6*12像素,该Harr特征可以为上述图3所对应实施例中的基础特征1b,其中,该基础特征1b中的黑色区域可以为二维码的3个特征点对应的区域,白色区域无具体意义),然后该目标视频帧可以基于该检测窗口对该目标视频帧进行图像遍历,以便于在该目标视频帧帧找到属于二维码的3个特征点,进而可以将找到的具有这3个特征点的目标对象确定为目标二维码。鉴于此,可以理解的是,通过该级联检测模型可以通过以下步骤在该目标视频帧中查找到不同位置和不同大小的目标对象。
1)为了找到上述目标视频帧中不同位置上的目标对象,可以将训练好的级联检测模型中的目标属性类型特征(例如,上述图3所对应实施例中的Harr特征)映射到上述目标视频帧对应的灰度区域(例如,可以将该目标视频帧对应的灰度区域称之为待处理区域),以得到该待处理区域对应的检测窗口,并通过逐次移动该检测窗口(随着检测窗口的移动,窗口中的Haar特征相应也随着窗口进行移动),这样就可以通过图像遍历,得到该待处理区域中的每一个位置的图像特征,即可以得到该级联检测器所输出的检测窗口对应的识别率,且检测窗口对应的识别率可以理解为该级联检测模型中每级分类器所输出的检测率之积。
2)为了检测到该目标视频帧中不同大小的目标对象,一般有两种实现方式:在固定目标视频帧(待处理区域)的尺寸时,逐步放大检测窗口;或在固定检测窗口的尺寸时,逐步缩小目标视频帧(即可以对上述待处理区域进行缩小处理)。
可选的,所述目标用户终端通过放大检测窗口对目标对象进行图像识别的具体过程可以为:
该标用户终端可以将目标视频帧处理为灰度图像,并将该灰度图像对应的灰度区域确定为待处理区域,并将级联检测模型中的目标属性类型特征映射在所述待处理区域上,得到与所述待处理区域对应的检测窗口;所述待处理区域包括所述目标对象。进一步地,该目标用户终端可以构建所述检测窗口对应的积分图,并基于所述积分图计算所述检测窗口对应的特征值。进一步地,将所述检测窗口在所述待处理区域上进行放大和/或平移处理,并将处理后的所有检测窗口对应的特征值,分别作为所述待处理区域对应的第一图像特征;进一步地,该目标用户终端可以将每个所述第一图像特征输入所述级联检测模型,并基于所述每级分类器的参考图像特征和每个所述第一图像特征之间的检测率,获取由所述级联检测模型输出的与每个检测窗口对应的识别率;所有检测窗口对应的识别率中包括所述目标对象对应的识别率;每个检测窗口对应的识别率均为所述每级分类器所输出的检测率之积。
其中,该目标用户终端通过放大检测窗口对目标对象进行图像识别的过程中可以理解为采用opencv中的Adaboost算法(该AdaBoost算法是一种迭代的算法)进行图像识别,应当理解,对于通过Adaboost算法进行图像识别的级联检测模型而言,可以将该级联检测模型视为由至少一个强分类器构成的用于进行二维码检测的分类器。其中,任一强分类器可以由多个弱分类器构成,且弱分类器的个数取决于上述AdaBoost算法的迭代次数。为便于理解,本发明实施例仅以级联检测模型为一个强分类器为例,即该级联检测模型中可以包含多级分类器,且多级分类器中的每级分类器可以称之为该级联检测模型中的弱分类器,因此,该级联检测模型中每级分类器所输出的检测率之积即为相应尺寸下的检测窗口对应的识别率。
进一步地,请参见图6,是本发明实施例提供的一种图像识别的示意图。如图6所示,显示界面200a中的目标视频帧可以为上述图5所对应实施例中的拍照界面100a中的目标视频帧,且映射在该目标视频帧上的Harr特征(即矩形特征)可以为上述图3所对应实施例中基础特征1b。因此,上述放大检测窗口可以理解为该目标用户终端可以把图6所示的检测窗口A的长(H)和宽(K)按照一定比例(例如,2)逐步进行放大+平移处理,应当理解,本发明实施例仅仅以将显示界面200a中的检测窗口A放大一倍为例,以阐述上述通过检测窗口和放大后的检测窗口(即检测窗口A和检测窗口B)来对该目标视频帧中的目标对象进行图像识别的具体过程,因此,对于其它放大比例的检测窗口而言,可以一并参见通过检测窗口A和检测窗口B对该目标视频帧中的目标对象进行图像识别的具体过程。其中,图6所示的检测窗口B的长为2*H和宽为2*K。为便于与上述缩小目标视频帧中的实现方式进行区别,本发明实施例可以将图6所示的显示界面200a中的目标视频帧的灰度区域称之为待处理区域,由于在通过该级联检测模型进行图像识别的过程中,该目标视频帧的长(L)和宽(W)的尺寸固定,因此,可以将显示界面200b中的目标视频帧的灰度区域也称之为待处理区域。然后,该目标用户终端可以通过图6所示的检测窗口A和图6所示的检测窗口B(即放大后的检测窗口)分别对该待处理区域进行图像遍历,以分别得到检查窗口A和检测窗口B在该待处理区域(目标视频帧)内的不同位置上的图像特征,其中,不同尺寸的检测窗口在该目标视频帧的不同位置上的图像特征可以称之为相应检测窗口对应的特征值,且该相应检测窗口对应的特征值为该检测窗口中的Harr特征的特征值。鉴于此,通过对检测窗口A进行平移处理和平移+放大处理,可以得到放大和/或平移处理后的所有检测窗口(例如检测窗口A和检测窗口B)对应的特征值,从而可以得到该级联检测模型中的基础特征1b在该目标视频帧中完整的图像特征。进一步地,该目标用户终端可以将每个检测窗口对应的特征值作为待处理区域对应的第一图像特征,例如,可以将图6所示的检测窗口A对应的特征值作为图6所示的显示界面200a中的待处理区域内对应的第一图像特征。应当理解,在放大上述检测窗口时,该检测窗口内的Haar特征也会对应放大,从而可以通过该级联检测模型中所包含的第一定位点的第一特征集合在该目标视频帧中检测出具有不同尺寸的二维码。其中,第一特征集合中可以包含第一定位点对应的目标属性类型特征,此外,该第一特征集合中还可以包含该目标属性类型特征在每级分类器中的参考图像特征。通过将该第一图像特征输入该级联检测模型,可以得到该级联检测模型中的每级分类器的参考图像特征与第一图像特征之间的检测率,进一步地,通过将该级联检测模型中的每级分类器所输出的检测率进行乘法运算,可以得到每个检测窗口对应的识别率,例如,可以得到检测窗口A对应的识别率和检测窗口B对应的识别率。由于检测窗口A和检测窗口B为不同尺寸的检测窗口,因此,若目标视频帧中存在目标二维码,可以得到不同尺寸的检测窗口对应的识别率。应当理解,所有检测窗口对应的识别率中包括所述目标对象对应的识别率;每个检测窗口对应的识别率均为所述每级分类器所输出的检测率之积。
可选地,该目标用户终端可以根据所有检测窗口分别对应的识别率,将具有最大识别率的检测窗口的尺寸确定为目标对象为二维码时的目标二维码的尺寸。
其中,对于该目标用户终端所获取到的第一样本集合而言,可以将该第一样本集合中的N个样本处理为一组尺寸相同的训练集N(例如,可以将N个样本缩放处理为尺寸大小为20*20像素的样本数据),以得到每个样本的均匀分布概率。然后,该目标用户终端可以通过改变其中每个样本的分布概率,而得到不同的训练集Si,并使用每一个训练集Si进行训练,从而可以得到具有相应权重值的弱分类器Hi,其中,符号i用于表示改变样本分布概率后的迭代训练的次数,再将这些弱分类器根据不同的权值大小进行级联,就得到一个级联多个弱分类器的强分类器,于是,该目标用户终端可以将得到的强分类器称之为使上述模型参数趋近于一个固定的最优值时的级联检测模型。比如,第一次训练的时候,每个样本都是均匀分布,于是,通过对这N个均匀分布的样本进行训练,可以得到分类器H0;然后,该目标用户终端可以在该训练集中,对分类正确的,降低其分布概率;而对分类错误的,就提高其分布概率,以得到的新的N个训练集S1,该训练集S1就主要是针对不太好分类的样本了,因此,通过使用该训练集S1进行训练,可以得到分类器H1,依次迭代下去……,假设迭代次数达到迭代次数阈值T,则可以得到T个弱分类器。将T个若分类器进行级联,则可以得到一个强分类器。
应当理解,确定该级联检测模型的具体过程可以包含以下两个阶段,一个阶段为用训练样本进行模型训练,另一个阶段则为用测试样本进行模型测试,以便于在获取到目标视频帧时,可以通过该级联检测模型所输出的各分类器级联对该目标帧中的目标对象进行二维码预判。其中,所述训练样本即为上述的第一样本集合,所述测试样本可以为将该第一样本集合中的样本数据进行复制后所得到的样本。
其中,所述每个弱分类器的参考图像特征的特征值可以理解为上述级联检测模型中的Harr特征的特征值。由于在模型训练的时候,选择的训练样本集的尺寸可以等于Harr特征对应的检测子窗口的尺寸,且检测子窗口的尺寸可以决定映射在样本图像中的矩形特征的数量。因此,在该目标用户终端确定训练样本集中的每个样本的尺寸与该检测子窗口的尺寸相同时,可以确保从各训练样本中所提取出的第一定位点的样本图像特征与该Harr特征的特征相同且数量相同,即可以确保一个Harr特征与一个样本中的第一定位点(即二维码的三各特征点)有一个固定的特征值。因此,每个弱分类器的参考图像特征的特征值即为矩形特征(即Harr特征)的特征值。
可选地,所述目标用户终端通过缩小目标视频帧对目标对象进行图像识别的具体过程可以为:
目标用户终端可以将级联检测模型中的目标属性类型特征(即Harr特征),映射到目标视频帧上,得到与目标视频帧对应的滑动窗口(该滑动窗口可以为该Harr特征对应的矩形区域),并根据所述目标视频帧的尺寸与所述滑动窗口的尺寸,得到所述滑动窗口与所述目标视频帧之间的缩小比例。进一步地,该目标用户终端可以基于所述缩小比例,对所述目标视频帧进行缩小处理,并将所述目标视频帧和缩小后的目标视频帧分别对应的灰度区域确定为待检测区域;进一步地,该目标用户终端可以将所述滑动窗口在每个待检测区域上进行平移,得到与所述每个待检测区域对应的第二图像特征,并将所述每个待检测区域对应的第二图像特征输入所述级联检测模型,并基于所述每级分类器的参考图像特征和所述每个待检测区域对应的第二图像特征之间的检测率,获取由所述级联检测模型输出的与每个待检测区域对应的识别率;其中,所有待检测区域对应的识别率中包括所述目标对象对应的识别率;每个待检测区域对应的识别率均为所述每级分类器所输出的检测率之积。
其中,该目标用户终端通过放大检测窗口对目标对象进行图像识别的过程中可以理解为采用采用图像金字塔算法进行图像识别。进一步地,请参见图7,是本发明实施例提供的另一种图像识别的示意图。如图7所示,显示界面300a中的目标视频帧可以为上述图5所对应实施例中的拍照界面100a中的目标视频帧,且映射在该目标视频帧上的Harr特征(即矩形特征)可以为上述图3所对应实施例中基础特征1b。因此,上述缩小目标视频帧可以理解为该目标用户终端可以把图6所示的显示界面300a中的目标视频帧的长(L)和宽(W)按照一定比例(例如,0.5)逐步进行缩小,应当理解,本发明实施例仅仅以将显示界面300a中的目标视频帧缩小一倍为例,以阐述上述通过滑动窗口对显示界面300a中的目标视频帧和显示界面300b中的目标视频帧中的目标对象进行识别的具体过程,因此,对于通过该滑动窗口对其它缩小处理后的目标视频帧中的目标对象进行图像识别而言,可以一并参见通过图7所示的滑动窗口对相应显示界面内的目标视频帧中的目标对象进行图像识别的具体过程。其中,图7所示的显示界面300b中的目标视频帧的长为L/2和宽为W/2。为便于与上述扩大检测窗口的实现方式进行区别,本发明实施例可以将图6所示的显示界面300a中的目标视频帧的灰度区域和显示界面300b中的目标视频帧的灰度区域一并称之为待检测区域,由于在通过该级联检测模型进行图像识别的过程中,该滑动窗口的长(H)和宽(K)的尺寸固定,因此,该目标用户终端可以通过图7所示的滑动窗口(该滑动窗口可以为上述图6所对应实施例中的检测窗口A)分别对该待检测区域进行图像遍历,以分别得到该滑动窗口在各待检测区域内的不同位置上的图像特征,其中,该滑动窗口在不同尺寸的该目标视频帧的不同位置上的图像特征可以称之为相应待检测区域对应的特征值,且该相应待检测区域对应的特征值可以包含该滑动窗口所覆盖的所有子区域的Harr特征的特征值。鉴于此,通过对该目标视频帧进行缩小处理,可以得图7所示的滑动窗口在各待检测区域的不同位置上的图像特征,从而可以将各待检测区域的不同位置上的图像特征称之为相应待检测区域的第二图像特征。应当理解,通过缩小所述目标视频帧,可使滑动窗口在划过各尺寸的目标视频帧时,可以通过该级联检测模型中所包含的第一定位点的第一特征集合在各待检测区域中检测出具有不同尺寸的二维码。其中,第一特征集合中可以包含第一定位点对应的目标属性类型特征,此外,该第一特征集合中还可以包含该目标属性类型特征在每级分类器中的参考图像特征。通过将该第二图像特征输入该级联检测模型,可以得到该级联检测模型中的每级分类器的参考图像特征与第二图像特征之间的检测率,进一步地,通过将该级联检测模型中的每级分类器所输出的检测率进行乘法运算,可以得到每个待检测区域对应的识别率,例如,可以得到图7所示的显示界面300a中的待检测区域对应的识别率和图7所示的显示界面300b中的待检测区域对应的识别率。由于图7所示的待检测区域为不同尺寸的目标视频帧,因此,若目标视频帧中存在目标二维码,可以得到不同尺寸的目标视频帧对应的识别率。应当理解,所有待检测区域中对应的识别率中包括所述目标对象对应的识别率;每个待检测区域对应的识别率均为所述每级分类器所输出的检测率之积。
鉴于此,该目标用户终端可以通过上述级联检测模型所输出的检测率之积来得到目标对象对应的识别率,该目标对象对应的识别率用于表征所述第一特征集合中的目标属性类型特征与所述目标视频帧中的目标对象的图像特征之间的匹配度;因此,可以进一步执行步骤S103,即识别率度越大,则说明该目标视频帧中存在目标二维码。
步骤S103,判断所述目标对象对应的识别率是否大于或等于概率阈值。
具体地,所述目标用户终端在执行完上述步骤S102之后,可以得到所述目标视频帧中的目标对象对应的识别率,若该目标对象对应的识别率大于或者等于概率阈值,则可以进一步执行步骤S104;可选地,若该目标对象对应的识别率小于概率阈值,则可以进一步执行步骤S105。
步骤S104,若所述目标对象对应的识别率大于或等于概率阈值,则将所述目标对象确定为目标二维码,并对所述目标二维码进行二维码识别处理。
其中,在该目标用户终端确定目标对象为目标二维码时,可以将该目标二维码显示在该终端屏幕上,并可以进一步对该目标二维码进行二维码识别处理。
例如,用户在浏览网页的时候,可以通过该目标用户终端内的摄像头的录制功能对该目标用户终端中当前所浏览的网页界面(即第一显示界面)中的网页内容进行录制或截图,以便于该目标用户终端可以在该第一显示界面中获取包含目标对象的目标视频帧,并可以自动对该目标视频帧中是否存在二维码进行预判,并在判断出该目标视频帧中存在二维码时,可以将该二维码显示在该终端屏幕上,并可以在预设间隔时长之后,自动对该目标二维码进行二维码识别处理。可选地,若该目标用户终端在该预设间隔时长内接收到用户的触发指令,则可以进一步对该目标二维码进行二维码识别处理。
步骤S105,若所述目标对象对应的识别率小于概率阈值,则确定所述目标视频帧中不包含目标二维码,并将所述目标视频帧发送给云端服务器,以使所述云端服务器基于神经网络模型中所包含的第二定位点对应的第二特征集合,确定所述目标视频帧中所包含的所述目标对象对应的属性类型。
其中,所述属性类型包括二维码类型和非二维码类型。
其中,由于云端服务器具有强大的计算能力,因此,在确定所述目标视频帧中不包含目标二维码时,可以进一步将该不包含二维码的目标视频帧发送给与该目标用户终端具有数据连接关系的云端服务器,以使云端服务器可以进一步基于神经网络模型对该目标视频帧内的目标对象的属性类型进行识别。
应当理解,可选地,该云端服务器中的神经网络模型可以包含用于对二维码进行识别的分类器,还可以包含对其他物体进行识别的分类器,即该神经网络模型中可以包含多个级联分类器,例如,第一分类器和第二分类器。其中,第一分类器可以用于对二维码的属性类型进行识别;其中,第二分类器可以用于在确定该目标对象的属性类型为非二维码类型时,进一步对该目标对象的品种属性进行识别。
应当理解,第一分类器中可以包含二维码的3个特征点对应的第二特征集合,且此时,该二维码的3个特征点可以称之为第二定位点。其中,该第二特征集合中的3个特征点的特征信息可以包含上述第一特征集合中的3个特征点的特征信息,因此,当所述目标用户终端确定目标视频帧中不存在目标二维码时,还可以进一步建立与云端服务器之间的数据连接关系,以使该云端服务器可以进一步对该目标视频帧中的目标对象的属性类型进行识别,即通过该第一分类器可以确定出该目标对象的属性类型是属于二维码类型还是非二维码类型。
可选地,当该云端服务器确定出该目标视频帧中的目标对象的属性类型为非二维码类型,该云端服务器还可以进一步通过第二分类器确定出该目标对象的品种属性。所以该云端服务器可以具有识别二维码的能力,还可以具有识别其他物体的能力。例如,当云端服务器确定上述图2所对应的实施例中的目标视频帧中不包含二维码时,该云端服务器可以进一步通过神经网络模型中的第二分类器对该目标视频帧中所包含目标对象的品种属性进行判断,从而可以进一步确定该目标对象的品种属性为狗的属性。
应当理解,该云端服务器中的神经网络模型中所包含多个级联分类器也可以集成于上述目标用户终端中,以使该目标用户终端可以进一步通过该神经网络模型将上述步骤S102中级联检测模型所漏判的二维码检测出来,此时,该目标用户终端可以同时具备二维码识别能力,和物体识别能力(例如,小狗的品种识别)。
本发明实施例首先通过摄像头采集包含目标对象的目标视频帧;进一步地,基于级联检测模型中所包含的第一定位点对应的第一特征集合,对所述目标视频帧中所包含的所述目标对象进行图像识别,得到所述目标对象对应的识别率;所述目标对象对应的识别率用于表示所述第一特征集合中的目标属性类型特征与所述目标视频帧中的目标对象的图像特征之间的匹配度;若所述目标对象对应的识别率大于或等于概率阈值,则将所述目标对象确定为目标二维码,并对所述目标二维码进行二维码识别处理。由此可见,由于可以在该摄像头对应的摄像界面(即第一显示界面)中对二维码进行识别,所以用户无需关心二维码在第一显示界面中的哪个位置,终端将自动对整个第一显示界面进行识别,以找出二维码的位置,从而可以避免用户花费时间去寻找二维码的位置,从而可以提高二维码识别的效率。而且由于该级联检测模型中包含的第一特征集合中存在大量的第一定位点的特征,且这些定位点的特征可以对应于该级联检测模型的目标属性类型特征,因此,可以通过该级联检测模型特有的目标属性类型特征,快速地对出现在该第一显示界面中的目标视频帧中的二维码的特征点进行目标检测,从而可以在目标视频帧中通过识别到的二维码的第一定位点,快速找到该目标视频帧中存在的二维码,以进一步提高二维码的识别效率。
进一步地,请参见图8,是本发明实施例提供的另一种图像处理方法的流程示意图。如图8所示,该方法可以应用于上述图1所对应实施例中的目标用户终端,方法至少包含以下步骤:
步骤S201,获取与所述目标对象相关联的第一样本集合,并在所述第一样本集合中将携带第一标签信息的样本数据确定为正样本,并在所述第一样本集合中将携带第二标签信息的样本数据确定为负样本。
具体地,目标用户终端可以预先通过摄像头采集多种应用场景下的图片信息(比如,可以通过摄像头拍摄实际生活中支付应用对应的二维码图片信息,以及运动模糊情景下的二维码图片信息),并可以进一步获取上述多种应用场景下的图片信息中所携带的标签信息(即第一标签信息和第二标签信息),从而可以基于该第一标签信息对应的图片信息和第二标签信息对应的图像信息,得到与目标对象相关联的第一样本集合。其中,本发明实施例可以将上述图片信息中二维码对应的标签信息称之为第一标签信息,并可以将上述图片信息中不包含该二维码且与该二维码相关的背景数据对应的标签信息称之为第二标签信息;应当理解,该第一样本集合中的各图片信息可以称之为样本数据。于是,该目标用户终端可以进一步在该第一样本集合中将携带上述第一标签信息的样本数据确定为正样本,并在所述第一样本集合中将携带第二标签信息的样本数据确定为负样本,以进一步执行步骤S102。
其中,可以理解的是,正样本可以为包含二维码的样本数据,负样本可以为不包含二维码的样本数据,且不包含二维码的样本数据可以为上述图片信息中的背景数据。
可见,该目标用户终端获得上述第一样本集合的具体过程可以理解为:该目标用户终端在通过摄像头采集到大量包含二维码的图片信息之后,可以进一步获取由人工标注的方式所确定的第一标签信息和第二标签信息,从而可以得到大量的包含第一标签信息的图片信息和包含第二标签信息的图像信息,即可以得到上述第一样本集合。其中,人工标注的方式可以理解为持有该目标用户终端的用户在采集到上述大量的图片信息之后,可以进一步将该采集到的图片信息中二维码所在的区域打上第一标签信息,并将该图片信息中非二维码所在区域打上第二标签信息,以使该目标用户终端后续可以在该第一样本集合中自动将这些携带第一标签信息图片信息确定为正样本,并将携带第二标签信息的图片信息确定为负样本。
可选地,目标用户终端得到上述第一样本集合的具体过程还可以为:该目标用户终端可以利用二维码生成器随机生成大量的仅包含二维码数据的原始图像数据,即该目标用户终端可以获取到包含二维码的多个原始图像数据,并获取与每个原始图像数据中的二维码分别对应的待添加噪声。若所述待添加噪声为高斯噪声,则基于所述高斯噪声对应的高斯分布参数,将所述每个原始图像数据中的二维码分别与所述高斯噪声进行融合,得到多个第一融合图像数据,并基于所述多个原始图像数据和多个第一融合图像数据,确定与所述目标对象相关联的第一样本集合。可选地,若所述待添加噪声为椒盐噪声,则该目标用户终端可以获取所述椒盐噪声对应的信噪比,并基于所述信噪比将所述每个原始图像数据中的二维码分别与所述椒盐噪声进行融合,得到多个第二融合图像数据,并基于所述多个原始图像数据和所述多个第二融合图像数据,确定与所述目标对象相关联的第一样本集合。
其中,高斯噪声为均值为0,方差为1的具有数学意义上的服从正太分布的噪声,该目标用户终端通过为原始图像数据添加高斯噪声,可以在原始图像数据中将每个像素位置上加上一个遵守高斯分布的随机值。
为便于理解,本发明实施例以上述多个原始图像数据中一个原始图像数据为例,以描述该目标用户终端为该原始图像数据添加高斯噪声的具体过程。进一步地,请参见图9,是本发明实施例提供的一种获取第一样本数据集合的示意图。如图9所示,上述多个原始图像数据中的一个原始图像数据可以为图9所示的原始图像数据A,该原始图像数据A中的二维码充满了整个图片,因此可以将该充满整个图片的二维码称之为纯净二维码。如图9所示,该原始图像数据A中的纯净二维码有三个特征点,这三个特征点分别位于图9所示的纯净二维码的四个角落中的其中三个,印有类似“回”字的正方形图案,而这“回”字形的图案就可以作为用于表征图9所示的纯净二维码的特殊标志,因此,图9所示的三个特征点可以称之为第一定位点。如图9所示,该目标用户终端可以计算该原始图像数据A中的总像素数目(例如,该原始图像数据中原始像素对应的像素数目的总和为S个),并可以按照上述高斯分布的规则为该S个像素所在位置处的像素值加上一个高斯噪声对应的随机值,从而可以图9所示的第一融合图像数据。
其中,椒盐噪声(salt-and-pepper noise)是由图像传感器,传输信道,解码处理等产生的黑白相间的亮暗点噪声。所谓椒盐,椒就是黑,盐就是白,椒盐噪声就是在图像上随机出现黑色白色的像素。椒盐噪声是一种因为信号脉冲强度引起的噪声。鉴于此,该目标用户终端为每个原始图像数据添加椒盐噪声的具体步骤可以为:
1.指定信噪比(Signal Noise Rate,SNR)(其取值范围在[0,1]之间);
2.计算原始图像数据中的总像素数目(即该原始图像数据中原始像素对应的像素数目的总和可以为S个),并可以进一步计算待添加噪声(椒盐噪声)的像素数目Nk=S*(1-SNR),即可以理解为Nk个原始像素对应的噪声像素;
3.随机获取原始图像数据中Nk个椒盐噪声中每个椒盐噪声的位置P(i,j);
4.指定位置P(i,j)处的原始像素替换为的噪声像素(该噪声像素的像素值为255或者0);
5.输出加噪以后的融合图像数据(即第二融合图像数据)。
为便于理解,本发明实施例以上述图9所对应实施例中原始图像数据A为例,以描述该目标用户终端为该原始图像数据A添加椒盐噪声的具体过程。如图9所示,该目标用户终端可以按照上述添加椒盐噪声的1-5中的步骤为该原始图像数据A添加图9所示的椒盐噪声。其中,当信噪比可以为0.9时,该目标用户终端可以确定待添加的椒盐噪声将占据原始图像数据A中的S个像素数目的百分之十,即该目标用户终端需要在原始图像数据A中将这百分之十的椒盐噪声所在的指定位置处的原始像素的像素值替换为该椒盐噪声的像素值,以实现为该原始图像A添加相应数量(即Nk)的黑点或白点。例如,目标用户终端可以在原始图像数据A中将指定位置处的原始像素的像素值(例如,168)替换为噪声像素对应的像素值(例如,255),从而可以在原始图像数据中增加一个黑点,具体地,可以参见图9所示的生成的第二融合图像数据的示意图。
应当理解,该目标用户终端为上述多个原始图像数据中其他原始图像数据添加椒盐噪声的具体过程可以一并参见本发明实施例图9所示的为原始图像数据A添加椒盐噪声的具体过程的描述,这里将不再继续进行赘述。
可选地,为了能够对不同角度下的二维码进行识别,该目标用户终端还可以在上述第一样本集合中获取第一图像数据;所述第一图像数据为所述多个原始图像数据、所述多个第一融合图像数据或所述多个第二融合图像数据中的任一图像数据;该目标用户终端可以进一步以所述第一图像数据的中心为圆点,将所述第一图像数据进行旋转,并将旋转后第一图像数据确定为待处理图像数据;进一步地,该目标用户终端还可以获取待处理图像数据中的每个像素点的第一像素值,并基于所述每个像素点的第一像素值,对所述待处理图像数据进行错切变换,得到错切变换后的每个像素点的第二像素值,并基于所述错切变换后的每个像素点的第二像素值,生成与所述第一图像数据对应的第二图像数据,将所述第二图像数据添加至所述第一样本集合中。
由此可见,通过该二维码生成器可以得到大量的二维码图片,该二维码图片中的二维码可以充满整个图片,并可以将这些充满整个图片的二维码称之为纯净二维码。因此,为了提高样本数据的多样性,该目标用户终端还可以在这些原始图像数据中为每个原始图像数据中的二维码添加相应的噪声(例如,上述图9所对应实施例中的椒盐噪声和高斯噪声),以使添加的噪声可以和相应的原始图像数据(例如,原始图像数据A)进行融合,以得到相应的融合图像数据。应当理解,当多个原始图像数据中所有二维码所在区域均融合有相应的噪声时,可以得到上述图9所对应实施例中的第一融合图像数据或第二融合图像数据。因此,该目标用户终端可以进一步将上述大量的原始图像数据和得到的第一融合图像数据和第二融合图像数据一并添加至第一样本数据集合,以丰富样本数据的多样性。此外,该目标用户终端还可以将上述原始图像数据和得到的第一融合图像数据和第二融合图像数据称之为第一图像数据,并对该第一图像数据进行错切变换(例如,X方向的错切变换),以得到第二图像数据,并将该第二图像数据也添加至上述第一样本集合中,从而可以在采用该第一样本集合中的样本数据进行模型训练时,能够尽可能地对模型参数进行最优处理,以便于后续在获取到包含有二维码的目标视频帧时,可以基于优化后的级联检测模型中第一定位点对应的第一特征集合,提高该目标视频帧中的二维码的识别率。
可选地,为了可以在目标视频帧中找到不同位置上的目标二维码,该目标用户终端还可以通过泊松克隆的方式,将上述通过软件生成的纯净二维码与上述提到的背景数据进行图像融合,以得到另一种融合图像数据,并可以进一步将该另一种融合图像数据添加至上述第一样本集合,以丰富样本数据的多样性。例如,以上述图9所对应实施例中的原始图像数据A为例,该目标用户终端可以在上述不包含二维码的背景数据中随机选择一个子区域作为待融和区域,应当理解,该待融合区域的尺寸等于上述原始图像数据A中的纯净二维码的尺寸,因此,该目标用户终端可以将该原始图像数据A中的纯净二维码与上述背景数据进行融合,以得到另一种融合图像数据,从而使上述第一样本集合中可以包含该纯净二维码在多个位于不同位置上的样本数据。
步骤S202,在所述第一样本集合中,将所述正样本对应的图像数据的尺寸缩放至相同尺寸,并基于缩放后的正样本对应的第一标签信息和第一定位点、所述负样本对应的第二标签信息,训练多级分类器中的每级分类器。
其中,第一定位点为二维码的特征点,即该二维码的特征点可以为上述图4所对应实施例中的第一定位点,即该第一定位点可以称之为该二维码的定位符,该二维码的定位符可以包含用于表征该二维码的三个特征点。
应当理解,通过将第一特征集合中正样本对应的图像数据的尺寸缩放至相同尺寸,是为了从这些具有同一尺寸的多个样本数据中,得到多个不同尺寸的二维码的第一定位点的图像特征,以便于丰富第一特征集合中的第一定位点的图像特征。
步骤S203,当所述每级分类器所输出的检测率之积满足收敛条件时,将满足收敛条件的多级分类器确定为级联检测模型。
其中,所述级联检测模型中包含所述第一定位点对应的第一特征集合;所述第一特征集合中包含所述第一定位点对应的目标属性类型特征,以及所述目标属性类型特征在所述每级分类器中的参考图像特征。
其中,所述满足收敛条件是指在对采用上述第一样本集合进行模型参数优化时,当模型参数趋近于一个固定的最优值,可使此时的多级分类器中每级分类器所输出的检测率之积大于或等于该多级分类器对应的检测阈值,即可以确定每级分类器所输出的检测率之积满足收敛条件,从而可以进一步将满足该收敛条件的多级分类器确定为级联检测模型。
步骤S204,通过摄像头采集包含目标对象的目标视频帧。
步骤S205,基于级联检测模型中所包含的第一定位点对应的第一特征集合,对所述目标视频帧中所包含的所述目标对象进行图像识别,得到所述目标对象对应的识别率。
其中,所述目标对象对应的识别率用于表示所述第一特征集合中的目标属性类型特征与所述目标视频帧中的目标对象的图像特征之间的匹配度。
步骤S206,判断所述目标对象对应的识别率大于或等于概率阈值。
步骤S207,若所述目标对象对应的识别率大于或等于概率阈值,则将所述目标对象确定为目标二维码,并对所述目标二维码进行二维码识别处理。
步骤S208,若所述目标对象对应的识别率小于概率阈值,则确定所述目标视频帧中不包含目标二维码,并将所述目标视频帧发送给云端服务器,以使所述云端服务器基于神经网络模型中所包含的第二定位点对应的第二特征集合,确定所述目标视频帧中所包含的所述目标对象对应的属性类型。
其中,所述属性类型包括二维码类型和非二维码类型。
其中,所述步骤S204-步骤S208的具体实现方式可参见上述图4所对应实施例中对步骤S101-步骤S105的描述,这里将不再继续进行赘述。
本发明实施例首先通过摄像头采集包含目标对象的目标视频帧;进一步地,基于级联检测模型中所包含的第一定位点对应的第一特征集合,对所述目标视频帧中所包含的所述目标对象进行图像识别,得到所述目标对象对应的识别率;所述目标对象对应的识别率用于表示所述第一特征集合中的目标属性类型特征与所述目标视频帧中的目标对象的图像特征之间的匹配度;若所述目标对象对应的识别率大于或等于概率阈值,则将所述目标对象确定为目标二维码,并对所述目标二维码进行二维码识别处理。由此可见,由于可以在该摄像头对应的摄像界面(即第一显示界面)中对二维码进行识别,所以用户无需关心二维码在第一显示界面中的哪个位置,终端将自动对整个第一显示界面进行识别,以找出二维码的位置,从而可以避免用户花费时间去寻找二维码的位置,从而可以提高二维码识别的效率。而且由于该级联检测模型中包含的第一特征集合中存在大量的第一定位点的特征,且这些定位点的特征可以对应于该级联检测模型的目标属性类型特征,因此,可以通过该级联检测模型特有的目标属性类型特征,快速地对出现在该第一显示界面中的目标视频帧中的二维码的特征点进行目标检测,从而可以在目标视频帧中通过识别到的二维码的第一定位点,快速找到该目标视频帧中存在的二维码,以进一步提高二维码的识别效率。
进一步地,请参见图10,是本发明实施例提供的一种图像数据处理装置的结构示意图。如图10所示,上述图像数据处理装置1可以为上述图1所对应实施例中的目标用户终端。上述图像数据处理装置1可以包含:采集模块10,图像识别模块20,第一确定模块30,进一步地,上述图像数据处理装置还可以包含第二确定模块40,样本获取模块50,样本划分模块60,样本缩放模块70和模型确定模块80;
采集模块10,用于通过摄像头采集包含目标对象的目标视频帧;
图像识别模块20,用于基于级联检测模型中所包含的第一定位点对应的第一特征集合,对所述目标视频帧中所包含的所述目标对象进行图像识别,得到所述目标对象对应的识别率;所述目标对象对应的识别率用于表示所述第一特征集合中的目标属性类型特征与所述目标视频帧中的目标对象的图像特征之间的匹配度;
其中,图像识别模块20可以包括;检测窗口确定单元201,特征值计算单元202,图像特征确定单元203,第一获取单元204;
检测窗口确定单元201,用于将所述目标视频帧对应的灰度区域确定为待处理区域,并将级联检测模型中的目标属性类型特征映射在所述待处理区域上,得到与所述待处理区域对应的检测窗口;所述待处理区域包括所述目标对象;
特征值计算单元202,用于构建所述检测窗口对应的积分图,并基于所述积分图计算所述检测窗口对应的特征值;
图像特征确定单元203,用于将所述检测窗口在所述待处理区域上进行放大和/或平移处理,并将处理后的所有检测窗口对应的特征值,分别作为所述待处理区域对应的第一图像特征;
第一获取单元204,用于将每个所述第一图像特征输入所述级联检测模型,并基于所述每级分类器的参考图像特征和每个所述第一图像特征之间的检测率,获取由所述级联检测模型输出的与每个检测窗口对应的识别率;所有检测窗口对应的识别率中包括所述目标对象对应的识别率;每个检测窗口对应的识别率均为所述每级分类器所输出的检测率之积。
其中,所述检测窗口确定单元201,特征值计算单元202,图像特征确定单元203,第一获取单元204的具体执行方式可参见上述图4所对应实施例中对采用扩大检测窗口对目标对象进行图像识别的具体过程的描述,这里将不再继续进行赘述。
可选地,所述图像识别模块,包括;滑动窗口确定单元205,待检测区域确定单元206,滑动窗口平移单元207和第二获取单元208;
滑动窗口确定单元205,用于将级联检测模型中的目标属性类型特征,映射到所述目标视频帧上,得到与所述目标视频帧对应的滑动窗口,并根据所述目标视频帧的尺寸与所述滑动窗口的尺寸,得到所述滑动窗口与所述目标视频帧之间的缩小比例;
待检测区域确定单元206,用于基于所述缩小比例,对所述目标视频帧进行缩小处理,并将所述目标视频帧和缩小后的目标视频帧分别对应的灰度区域确定为待检测区域;
滑动窗口平移单元207,用于将所述滑动窗口在每个待检测区域上进行平移,得到与所述每个待检测区域对应的第二图像特征;
第二获取单元208,用于将所述每个待检测区域对应的第二图像特征输入所述级联检测模型,并基于所述每级分类器的参考图像特征和所述每个待检测区域对应的第二图像特征之间的检测率,获取由所述级联检测模型输出的与每个待检测区域对应的识别率;所有待检测区域对应的识别率中包括所述目标对象对应的识别率;每个待检测区域对应的识别率均为所述每级分类器所输出的检测率之积。
其中,滑动窗口确定单元205,待检测区域确定单元206,滑动窗口平移单元207和第二获取单元208具体执行方式可参见上述图4所对应实施例中对采用缩小目标视频帧对目标对象进行图像识别的具体过程的描述,这里将不再继续进行赘述。
应当理解,在本发明实施例中,所述图像识别模块20在采用检测窗口确定单元201,特征值计算单元202,图像特征确定单元203,第一获取单元204对目标视频帧中的目标对象进行图像识别时,将不通过上述滑动窗口确定单元205,待检测区域确定单元206,滑动窗口平移单元207和第二获取单元208对该目标视频帧中的目标对象进行图像识别;相反地,当图像识别模块20在采用上述滑动窗口确定单元205,待检测区域确定单元206,滑动窗口平移单元207和第二获取单元208对该目标视频帧中的目标对象进行图像识别时,将不通过检测窗口确定单元201,特征值计算单元202,图像特征确定单元203,第一获取单元204对目标视频帧中的目标对象进行图像识别。
第一确定模块30,用于若所述目标对象对应的识别率大于或等于概率阈值,则将所述目标对象确定为目标二维码,并对所述目标二维码进行二维码识别处理。
其中,所述采集模块10,图像识别模块20,第一确定模块30的具体执行方式可参见上述图4所对应实施例中对步骤S101-步骤S104的描述,这里将不再继续进行赘述。
第二确定模块50,用于若所述目标对象对应的识别率小于概率阈值,则确定所述目标视频帧中不包含目标二维码,并将所述目标视频帧发送给云端服务器,以使所述云端服务器基于神经网络模型中所包含的第二定位点对应的第二特征集合,确定所述目标视频帧中所包含的所述目标对象对应的属性类型;所述属性类型包括二维码类型和非二维码类型。
其中,所述第二确定模块50的具体执行方式可参见上述图4所对应实施例中对步骤S105的描述,这里将不再继续进行赘述。
可选地,样本获取模块60,用于获取与所述目标对象相关联的第一样本集合;
其中,样本获取模块60包括:原始图像获取单元601,第一噪声融合单元602,第一确定单元603;
原始图像获取单元601,用于获取包含二维码的多个原始图像数据,并获取与每个原始图像数据中的二维码分别对应的待添加噪声;
第一噪声融合单元602,用于若所述待添加噪声为高斯噪声,则基于所述高斯噪声对应的高斯分布参数,将所述每个原始图像数据中的二维码分别与所述高斯噪声进行融合,得到多个第一融合图像数据;
第一确定单元603,用于基于所述多个原始图像数据和多个第一融合图像数据,确定与所述目标对象相关联的第一样本集合。
其中,原始图像获取单元601,第一噪声融合单元602,第一确定单元603的具体执行方式可参见上述图8所对应实施例中对步骤S201中对获取第一融合图像数据的具体过程的描述,这里将不再继续进行赘述。
可选地,该样本获取模块还可以包括:第二噪声融合单元604和第二确定单元605;
第二噪声融合单元604,用于若所述待添加噪声为椒盐噪声,则获取所述椒盐噪声对应的信噪比,并基于所述信噪比将所述每个原始图像数据中的二维码分别与所述椒盐噪声进行融合,得到多个第二融合图像数据;
第二确定单元605,用于基于所述多个原始图像数据和所述多个第二融合图像数据,确定与所述目标对象相关联的第一样本集合。
其中,第二噪声融合单元604和第二确定单元605的具体执行方式可参见上述图8所对应实施例中对步骤S201中对获取第二融合图像数据的具体过程的描述,这里将不再继续进行赘述。
可选地,该样本获取模块还可以包括:第一图像获取单元606,图像选择单元607和第二图像生成单元608;
第一图像获取单元606,用于在所述第一样本集合中获取第一图像数据;所述第一图像数据为所述多个原始图像数据、所述多个第一融合图像数据或所述多个第二融合图像数据中的任一图像数据;
图像选择单元607,用于以所述第一图像数据的中心为圆点,将所述第一图像数据进行旋转,并将旋转后第一图像数据确定为待处理图像数据;
第二图像生成单元608,用于获取待处理图像数据中的每个像素点的第一像素值,并基于所述每个像素点的第一像素值,对所述待处理图像数据进行错切变换,得到错切变换后的每个像素点的第二像素值,并基于所述错切变换后的每个像素点的第二像素值,生成与所述第一图像数据对应的第二图像数据,将所述第二图像数据添加至所述第一样本集合中。
其中,第一图像获取单元606,图像选择单元607和第二图像生成单元608的具体执行方式可参见上述图8所对应实施例中对步骤S201中的生成第二图像数据的具体过程的描述,这里将不再继续进行赘述。
样本划分模块70,用于在所述第一样本集合中将携带第一标签信息的样本数据确定为正样本,并在所述第一样本集合中将携带第二标签信息的样本数据确定为负样本;其中,所述正样本为包含二维码的样本数据,所述负样本为不包含二维码的样本数据;
样本缩放模块80,用于在所述第一样本集合中,将所述正样本对应的图像数据的尺寸缩放至相同尺寸,并基于缩放后的正样本对应的第一标签信息和第一定位点、所述负样本对应的第二标签信息,训练多级分类器中的每级分类器;所述第一定位点为二维码的特征点;
模型确定模块90,用于当所述每级分类器所输出的检测率之积满足收敛条件时,将满足收敛条件的多级分类器确定为级联检测模型;所述级联检测模型中包含所述第一定位点对应的第一特征集合;所述第一特征集合中包含所述第一定位点对应的目标属性类型特征,以及所述目标属性类型特征在所述每级分类器中的参考图像特征。
其中,所述样本获取模块50,样本划分模块60,样本缩放模块70和模型确定模块80的具体执行方式可参见上述图8所对应实施例中对步骤S201-步骤S203的描述,这里将不再继续进行赘述。
本发明实施例首先通过摄像头采集包含目标对象的目标视频帧;进一步地,基于级联检测模型中所包含的第一定位点对应的第一特征集合,对所述目标视频帧中所包含的所述目标对象进行图像识别,得到所述目标对象对应的识别率;所述目标对象对应的识别率用于表示所述第一特征集合中的目标属性类型特征与所述目标视频帧中的目标对象的图像特征之间的匹配度;若所述目标对象对应的识别率大于或等于概率阈值,则将所述目标对象确定为目标二维码,并对所述目标二维码进行二维码识别处理。由此可见,由于可以在该摄像头对应的摄像界面(即第一显示界面)中对二维码进行识别,所以用户无需关心二维码在第一显示界面中的哪个位置,终端将自动对整个第一显示界面进行识别,以找出二维码的位置,从而可以避免用户花费时间去寻找二维码的位置,从而可以提高二维码识别的效率。而且由于该级联检测模型中包含的第一特征集合中存在大量的第一定位点的特征,且这些定位点的特征可以对应于该级联检测模型的目标属性类型特征,因此,可以通过该级联检测模型特有的目标属性类型特征,快速地对出现在该第一显示界面中的目标视频帧中的二维码的特征点进行目标检测,从而可以在目标视频帧中通过识别到的二维码的第一定位点,快速找到该目标视频帧中存在的二维码,以进一步提高二维码的识别效率。
进一步地,请参见图10,是本发明实施例提供的另一种图像数据处理装置的结构示意图。如图10所示,上述图像数据处理装置1000可以应用于上述图1对应实施例中的目标用户终端。上述图像数据处理装置1000可以包括:处理器1001,网络接口1004和存储器1005,此外,上述图像数据处理装置1000还可以包括:用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1004可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图10所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在图10所示的图像数据处理装置1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
通过摄像头采集包含目标对象的目标视频帧;
基于级联检测模型中所包含的第一定位点对应的第一特征集合,对所述目标视频帧中所包含的所述目标对象进行图像识别,得到所述目标对象对应的识别率;所述目标对象对应的识别率用于表示所述第一特征集合中的目标属性类型特征与所述目标视频帧中的目标对象的图像特征之间的匹配度;
若所述目标对象对应的识别率大于或等于概率阈值,则将所述目标对象确定为目标二维码,并对所述目标二维码进行二维码识别处理。
应当理解,本发明实施例中所描述的图像数据处理装置1000可执行前文图4或图8所对应实施例中对上述图像数据处理方法的描述,也可执行前文图9所对应实施例中对上述图像数据处理装置1的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本发明实施例还提供了一种计算机存储介质,且上述计算机存储介质中存储有前文提及的图像数据处理装置1所执行的计算机程序,且上述计算机程序包括程序指令,当上述处理器执行上述程序指令时,能够执行前文图4或图8所对应实施例中对上述图像数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本发明所涉及的计算机存储介质实施例中未披露的技术细节,请参照本发明方法实施例的描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,上述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (15)
1.一种图像数据处理方法,其特征在于,包括:
通过摄像头采集包含目标对象的目标视频帧;
基于级联检测模型中所包含的第一定位点对应的第一特征集合,对所述目标视频帧中所包含的所述目标对象进行图像识别,得到所述目标对象对应的识别率;所述目标对象对应的识别率用于表示所述第一特征集合中的目标属性类型特征与所述目标视频帧中的目标对象的图像特征之间的匹配度;
若所述目标对象对应的识别率大于或等于概率阈值,则将所述目标对象确定为目标二维码,并对所述目标二维码进行二维码识别处理。
2.根据权利要求1所述的方法,其特征在于,还包括:
若所述目标对象对应的识别率小于概率阈值,则确定所述目标视频帧中不包含目标二维码,并将所述目标视频帧发送给云端服务器,以使所述云端服务器基于神经网络模型中所包含的第二定位点对应的第二特征集合,确定所述目标视频帧中所包含的所述目标对象对应的属性类型;所述属性类型包括二维码类型和非二维码类型。
3.根据权利要求1所述的方法,其特征在于,还包括:
获取与所述目标对象相关联的第一样本集合,并在所述第一样本集合中将携带第一标签信息的样本数据确定为正样本,并在所述第一样本集合中将携带第二标签信息的样本数据确定为负样本;其中,所述正样本为包含二维码的样本数据,所述负样本为不包含二维码的样本数据;
在所述第一样本集合中,将所述正样本对应的图像数据的尺寸缩放至相同尺寸,并基于缩放后的正样本对应的第一标签信息和第一定位点、所述负样本对应的第二标签信息,训练多级分类器中的每级分类器;所述第一定位点为二维码的特征点;
当所述每级分类器所输出的检测率之积满足收敛条件时,将满足收敛条件的多级分类器确定为级联检测模型;所述级联检测模型中包含所述第一定位点对应的第一特征集合;所述第一特征集合中包含所述第一定位点对应的目标属性类型特征,以及所述目标属性类型特征在所述每级分类器中的参考图像特征。
4.根据权利要求3所述的方法,其特征在于,所述基于级联检测模型中所包含的第一定位点对应的第一特征集合,对所述目标视频帧中所包含的所述目标对象进行图像识别,得到所述目标对象对应的识别率,包括;
将所述目标视频帧对应的灰度区域确定为待处理区域,并将级联检测模型中的目标属性类型特征映射在所述待处理区域上,得到与所述待处理区域对应的检测窗口;所述待处理区域包括所述目标对象;
构建所述检测窗口对应的积分图,并基于所述积分图计算所述检测窗口对应的特征值;
将所述检测窗口在所述待处理区域上进行放大和/或平移处理,并将处理后的所有检测窗口对应的特征值,分别作为所述待处理区域对应的第一图像特征;
将每个所述第一图像特征输入所述级联检测模型,并基于所述每级分类器的参考图像特征和每个所述第一图像特征之间的检测率,获取由所述级联检测模型输出的与每个检测窗口对应的识别率;所有检测窗口对应的识别率中包括所述目标对象对应的识别率;每个检测窗口对应的识别率均为所述每级分类器所输出的检测率之积。
5.根据权利要求3所述的方法,其特征在于,所述基于级联检测模型中所包含的第一定位点对应的第一特征集合,对所述目标视频帧中所包含的所述目标对象进行图像识别,得到所述目标对象对应的识别率,包括;
将级联检测模型中的目标属性类型特征,映射到所述目标视频帧上,得到与所述目标视频帧对应的滑动窗口,并根据所述目标视频帧的尺寸与所述滑动窗口的尺寸,得到所述滑动窗口与所述目标视频帧之间的缩小比例;
基于所述缩小比例,对所述目标视频帧进行缩小处理,并将所述目标视频帧和缩小后的目标视频帧分别对应的灰度区域确定为待检测区域;
将所述滑动窗口在每个待检测区域上进行平移,得到与所述每个待检测区域对应的第二图像特征;
将所述每个待检测区域对应的第二图像特征输入所述级联检测模型,并基于所述每级分类器的参考图像特征和所述每个待检测区域对应的第二图像特征之间的检测率,获取由所述级联检测模型输出的与每个待检测区域对应的识别率;所有待检测区域对应的识别率中包括所述目标对象对应的识别率;每个待检测区域对应的识别率均为所述每级分类器所输出的检测率之积。
6.根据权利要求3所述的方法,其特征在于,所述获取与目标对象相关联的第一样本集合,包括:
获取包含二维码的多个原始图像数据,并获取与每个原始图像数据中的二维码分别对应的待添加噪声;
若所述待添加噪声为高斯噪声,则基于所述高斯噪声对应的高斯分布参数,将所述每个原始图像数据中的二维码分别与所述高斯噪声进行融合,得到多个第一融合图像数据;
基于所述多个原始图像数据和多个第一融合图像数据,确定与所述目标对象相关联的第一样本集合。
7.根据权利要求6所述的方法,其特征在于,还包括:
若所述待添加噪声为椒盐噪声,则获取所述椒盐噪声对应的信噪比,并基于所述信噪比将所述每个原始图像数据中的二维码分别与所述椒盐噪声进行融合,得到多个第二融合图像数据;
基于所述多个原始图像数据和所述多个第二融合图像数据,确定与所述目标对象相关联的第一样本集合。
8.根据权利要求7所述的方法,其特征在于,还包括:
在所述第一样本集合中获取第一图像数据;所述第一图像数据为所述多个原始图像数据、所述多个第一融合图像数据或所述多个第二融合图像数据中的任一图像数据;
以所述第一图像数据的中心为圆点,将所述第一图像数据进行旋转,并将旋转后第一图像数据确定为待处理图像数据;
获取待处理图像数据中的每个像素点的第一像素值,并基于所述每个像素点的第一像素值,对所述待处理图像数据进行错切变换,得到错切变换后的每个像素点的第二像素值,并基于所述错切变换后的每个像素点的第二像素值,生成与所述第一图像数据对应的第二图像数据,将所述第二图像数据添加至所述第一样本集合中。
9.一种图像数据处理装置,其特征在于,包括:
采集模块,用于通过摄像头采集包含目标对象的目标视频帧;
图像识别模块,用于基于级联检测模型中所包含的第一定位点对应的第一特征集合,对所述目标视频帧中所包含的所述目标对象进行图像识别,得到所述目标对象对应的识别率;所述目标对象对应的识别率用于表示所述第一特征集合中的目标属性类型特征与所述目标视频帧中的目标对象的图像特征之间的匹配度;
第一确定模块,用于若所述目标对象对应的识别率大于或等于概率阈值,则将所述目标对象确定为目标二维码,并对所述目标二维码进行二维码识别处理。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
第二确定模块,用于若所述目标对象对应的识别率小于概率阈值,则确定所述目标视频帧中不包含目标二维码,并将所述目标视频帧发送给云端服务器,以使所述云端服务器基于神经网络模型中所包含的第二定位点对应的第二特征集合,确定所述目标视频帧中所包含的所述目标对象对应的属性类型;所述属性类型包括二维码类型和非二维码类型。
11.根据权利要求9所述的方法,其特征在于,还包括:
样本获取模块,用于获取与所述目标对象相关联的第一样本集合;
样本划分模块,用于在所述第一样本集合中将携带第一标签信息的样本数据确定为正样本,并在所述第一样本集合中将携带第二标签信息的样本数据确定为负样本;其中,所述正样本为包含二维码的样本数据,所述负样本为不包含二维码的样本数据;
样本缩放模块,用于在所述第一样本集合中,将所述正样本对应的图像数据的尺寸缩放至相同尺寸,并基于缩放后的正样本对应的第一标签信息和第一定位点、所述负样本对应的第二标签信息,训练多级分类器中的每级分类器;所述第一定位点为二维码的特征点;
模型确定模块,用于当所述每级分类器所输出的检测率之积满足收敛条件时,将满足收敛条件的多级分类器确定为级联检测模型;所述级联检测模型中包含所述第一定位点对应的第一特征集合;所述第一特征集合中包含所述第一定位点对应的目标属性类型特征,以及所述目标属性类型特征在所述每级分类器中的参考图像特征。
12.根据权利要求11所述的装置,其特征在于,所述图像识别模块,包括;
检测窗口确定单元,用于将所述目标视频帧对应的灰度区域确定为待处理区域,并将级联检测模型中的目标属性类型特征映射在所述待处理区域上,得到与所述待处理区域对应的检测窗口;所述待处理区域包括所述目标对象;
特征值计算单元,用于构建所述检测窗口对应的积分图,并基于所述积分图计算所述检测窗口对应的特征值;
图像特征确定单元,用于将所述检测窗口在所述待处理区域上进行放大和/或平移处理,并将处理后的所有检测窗口对应的特征值,分别作为所述待处理区域对应的第一图像特征;
第一获取单元,用于将每个所述第一图像特征输入所述级联检测模型,并基于所述每级分类器的参考图像特征和每个所述第一图像特征之间的检测率,获取由所述级联检测模型输出的与每个检测窗口对应的识别率;所有检测窗口对应的识别率中包括所述目标对象对应的识别率;每个检测窗口对应的识别率均为所述每级分类器所输出的检测率之积。
13.根据权利要求11所述的装置,其特征在于,所述图像识别模块,包括;
滑动窗口确定单元,用于将级联检测模型中的目标属性类型特征,映射到所述目标视频帧上,得到与所述目标视频帧对应的滑动窗口,并根据所述目标视频帧的尺寸与所述滑动窗口的尺寸,得到所述滑动窗口与所述目标视频帧之间的缩小比例;
待检测区域确定单元,用于基于所述缩小比例,对所述目标视频帧进行缩小处理,并将所述目标视频帧和缩小后的目标视频帧分别对应的灰度区域确定为待检测区域;
滑动窗口平移单元,用于将所述滑动窗口在每个待检测区域上进行平移,得到与所述每个待检测区域对应的第二图像特征;
第二获取单元,用于将所述每个待检测区域对应的第二图像特征输入所述级联检测模型,并基于所述每级分类器的参考图像特征和所述每个待检测区域对应的第二图像特征之间的检测率,获取由所述级联检测模型输出的与每个待检测区域对应的识别率;所有待检测区域对应的识别率中包括所述目标对象对应的识别率;每个待检测区域对应的识别率均为所述每级分类器所输出的检测率之积。
14.一种图像数据处理装置,其特征在于,包括:处理器、存储器以及网络接口;
所述处理器与存储器、网络接口相连,其中,网络接口用于连接云端服务器,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以执行以下操作:
通过摄像头采集包含目标对象的目标视频帧;
基于级联检测模型中所包含的第一定位点对应的第一特征集合,对所述目标视频帧中所包含的所述目标对象进行图像识别,得到所述目标对象对应的识别率;所述目标对象对应的识别率用于表示所述第一特征集合中的目标属性类型特征与所述目标视频帧中的目标对象的图像特征之间的匹配度;
若所述目标对象对应的识别率大于或等于概率阈值,则将所述目标对象确定为目标二维码,并对所述目标二维码进行二维码识别处理。
15.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,当所述处理器执行所述程序指令时执行如权利要求1-8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811310861.4A CN111144156B (zh) | 2018-11-06 | 2018-11-06 | 一种图像数据处理方法和相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811310861.4A CN111144156B (zh) | 2018-11-06 | 2018-11-06 | 一种图像数据处理方法和相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111144156A true CN111144156A (zh) | 2020-05-12 |
CN111144156B CN111144156B (zh) | 2022-03-04 |
Family
ID=70516002
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811310861.4A Active CN111144156B (zh) | 2018-11-06 | 2018-11-06 | 一种图像数据处理方法和相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111144156B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113743258A (zh) * | 2021-08-20 | 2021-12-03 | 科大讯飞股份有限公司 | 目标识别方法、装置、电子设备以及计算机可读存储介质 |
CN114217758A (zh) * | 2021-12-01 | 2022-03-22 | 深圳Tcl新技术有限公司 | 图像显示方法、装置、电子设备及计算机可读存储介质 |
CN114820790A (zh) * | 2022-04-26 | 2022-07-29 | 苏州迪凯尔医疗科技有限公司 | 定位系统、方法、装置、设备及存储介质 |
CN114912525A (zh) * | 2022-05-13 | 2022-08-16 | 北京百度网讯科技有限公司 | 一种特征的处理方法、装置、电子设备及存储介质 |
CN115984268A (zh) * | 2023-03-20 | 2023-04-18 | 杭州百子尖科技股份有限公司 | 基于机器视觉的目标检测方法、装置、电子设备以及介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104200251A (zh) * | 2011-12-26 | 2014-12-10 | 华南理工大学 | 一种二维码 |
WO2015054695A2 (en) * | 2013-10-11 | 2015-04-16 | Immunetics, Inc. | Led assay reader with touchscreen control and barcode sample id |
CN104598289A (zh) * | 2013-10-31 | 2015-05-06 | 联想(北京)有限公司 | 一种识别方法及一种电子设备 |
CN104751093A (zh) * | 2013-12-31 | 2015-07-01 | 阿里巴巴集团控股有限公司 | 用于获取宿主设备显示的图像识别码的方法和装置 |
CN107301368A (zh) * | 2017-06-28 | 2017-10-27 | 昂纳自动化技术(深圳)有限公司 | 一种DataMatrix二维码的识别方法 |
US10043040B1 (en) * | 2016-07-29 | 2018-08-07 | Microsoft Technology Licensing, Llc | Protecting against fraud and incorrect entries in submission of confidential data |
CN108388822A (zh) * | 2018-01-25 | 2018-08-10 | 微梦创科网络科技(中国)有限公司 | 一种检测二维码图像的方法和装置 |
-
2018
- 2018-11-06 CN CN201811310861.4A patent/CN111144156B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104200251A (zh) * | 2011-12-26 | 2014-12-10 | 华南理工大学 | 一种二维码 |
WO2015054695A2 (en) * | 2013-10-11 | 2015-04-16 | Immunetics, Inc. | Led assay reader with touchscreen control and barcode sample id |
CN104598289A (zh) * | 2013-10-31 | 2015-05-06 | 联想(北京)有限公司 | 一种识别方法及一种电子设备 |
CN104751093A (zh) * | 2013-12-31 | 2015-07-01 | 阿里巴巴集团控股有限公司 | 用于获取宿主设备显示的图像识别码的方法和装置 |
US10043040B1 (en) * | 2016-07-29 | 2018-08-07 | Microsoft Technology Licensing, Llc | Protecting against fraud and incorrect entries in submission of confidential data |
CN107301368A (zh) * | 2017-06-28 | 2017-10-27 | 昂纳自动化技术(深圳)有限公司 | 一种DataMatrix二维码的识别方法 |
CN108388822A (zh) * | 2018-01-25 | 2018-08-10 | 微梦创科网络科技(中国)有限公司 | 一种检测二维码图像的方法和装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113743258A (zh) * | 2021-08-20 | 2021-12-03 | 科大讯飞股份有限公司 | 目标识别方法、装置、电子设备以及计算机可读存储介质 |
CN114217758A (zh) * | 2021-12-01 | 2022-03-22 | 深圳Tcl新技术有限公司 | 图像显示方法、装置、电子设备及计算机可读存储介质 |
CN114820790A (zh) * | 2022-04-26 | 2022-07-29 | 苏州迪凯尔医疗科技有限公司 | 定位系统、方法、装置、设备及存储介质 |
CN114912525A (zh) * | 2022-05-13 | 2022-08-16 | 北京百度网讯科技有限公司 | 一种特征的处理方法、装置、电子设备及存储介质 |
CN115984268A (zh) * | 2023-03-20 | 2023-04-18 | 杭州百子尖科技股份有限公司 | 基于机器视觉的目标检测方法、装置、电子设备以及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111144156B (zh) | 2022-03-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111144156B (zh) | 一种图像数据处理方法和相关装置 | |
US9905031B2 (en) | Method and related apparatus for capturing and processing image data | |
JP5755664B2 (ja) | 複数の特徴検出器の適用に基づいた画像特徴検出 | |
CN110163076B (zh) | 一种图像数据处理方法和相关装置 | |
US9153031B2 (en) | Modifying video regions using mobile device input | |
KR101479387B1 (ko) | 얼굴 검출을 위한 방법 및 장치 | |
US9251588B2 (en) | Methods, apparatuses and computer program products for performing accurate pose estimation of objects | |
RU2731370C1 (ru) | Способ распознавания живого организма и терминальное устройство | |
US8733650B1 (en) | Decoding barcodes from images with varying degrees of focus | |
KR101747216B1 (ko) | 표적 추출 장치와 그 방법 및 상기 방법을 구현하는 프로그램이 기록된 기록 매체 | |
CN111539990A (zh) | 运动物体位置检测方法、装置、设备及介质 | |
CN111259907A (zh) | 内容识别方法、装置以及电子设备 | |
CN112036342B (zh) | 单证抓拍方法、设备及计算机存储介质 | |
US20220385810A1 (en) | Panoramic Video Data Process | |
JP2012203823A (ja) | 画像認識装置 | |
CN118470613B (zh) | 一种基于人工智能的视频图像变化检测方法 | |
CN112749769B (zh) | 图形码检测方法、装置、计算机设备及存储介质 | |
CN114550079A (zh) | 一种图像处理方法、装置、设备及存储介质 | |
CN118692155A (zh) | 图像检测的方法及装置 | |
JP4550768B2 (ja) | 画像検出方法および画像検出装置 | |
CN115860026A (zh) | 条码检测方法、装置、条码检测设备和可读存储介质 | |
JP2014229092A (ja) | 画像処理装置、画像処理方法、および、そのプログラム | |
CN113706553B (zh) | 图像处理方法、装置及电子设备 | |
CN113706429A (zh) | 图像处理方法、装置、电子设备和存储介质 | |
CN118015604A (zh) | 文本识别方法、文本识别装置、介质与电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |