CN110598790A - 一种图像的识别方法、装置、电子设备及存储介质 - Google Patents
一种图像的识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN110598790A CN110598790A CN201910865784.7A CN201910865784A CN110598790A CN 110598790 A CN110598790 A CN 110598790A CN 201910865784 A CN201910865784 A CN 201910865784A CN 110598790 A CN110598790 A CN 110598790A
- Authority
- CN
- China
- Prior art keywords
- image
- category
- class
- labeled
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 239000013598 vector Substances 0.000 claims description 64
- 238000013507 mapping Methods 0.000 claims description 35
- 239000000523 sample Substances 0.000 claims description 27
- 230000015654 memory Effects 0.000 claims description 25
- 239000013074 reference sample Substances 0.000 claims description 25
- 238000007621 cluster analysis Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000012549 training Methods 0.000 description 13
- 241000283070 Equus zebra Species 0.000 description 8
- 241000282376 Panthera tigris Species 0.000 description 8
- 238000013136 deep learning model Methods 0.000 description 6
- 238000002360 preparation method Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 241000283086 Equidae Species 0.000 description 5
- 208000025174 PANDAS Diseases 0.000 description 5
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 5
- 240000004718 Panda Species 0.000 description 5
- 235000016496 Panda oleosa Nutrition 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 241000406668 Loxodonta cyclotis Species 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 241000251468 Actinopterygii Species 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 241000282819 Giraffa Species 0.000 description 1
- 241000764238 Isis Species 0.000 description 1
- 241000283080 Proboscidea <mammal> Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开关于一种图像的识别方法、装置、电子设备及存储介质,是对相关技术方案中在广义零样本下存在着强偏问题,提出的一种可以适用于广义零样本下的关于图像的识别方法的解决方案。该方法中,提取待识别图像的特征;确定所述待识别图像的特征分别与多个图像类别的类别特征之间的相似度,其中,所述图像类别是对多个已标注图像进行聚类分析得到的;根据获得的多个相似度确定所述待识别图像所属的分类,所述分类包括未标注图像类和已标注图像类。上述方法,对于在广义设定零样本下的未标注图像类识别精度有较大提高。
Description
技术领域
本公开涉及图像识别技术领域,尤其涉及一种图像的识别方法、装置、电子设备及存储介质。
背景技术
现实世界中的图片识别问题的本质是广义设定零样本问题。广义设定零样本指待识别的图像中不仅包含未标注图像类(也称目标类)的样本也包含已标注图像类(也称源类)的样本。举例说明,假设有一个训练用的数据集,里面有A、B、C三个类别的源类样本,但在测试集中却有A、B、C、D四类,即测试集即包括ABC源类样本,又包括未出现在源类中的目标类D样本。
相对的,狭义零样本指待识别的图像中仅包含未知类别的样本。例如,继续沿用上面的例子,训练集中包括在A、B、C三类,但测试集中只有D类,称之为狭义零样本。
发明人发现,相关技术中基于训练样本实现对目标类样本的类别推断仅适用于狭义零样本,因为在广义设定零样本下存在着强偏问题,也即训练阶段目标类的样本在测试时往往被归类为源类。所以需要一种可以适用于广义设定零样本下的解决方案,用以提高对目标类的识别的准确性。
发明内容
本公开提供一种图像的识别方法、装置、电子设备及存储介质,以提供在广义零样本的情形下,如何识别出待识别图像属于已标注图像类和未标注图像类的解决方案。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种图像的识别方法,包括:
提取待识别图像的特征;
确定所述待识别图像的特征分别与多个图像类别的类别特征之间的相似度,其中,所述图像类别是对多个已标注图像进行聚类分析得到的;
根据获得的多个相似度确定所述待识别图像所属的分类,所述分类包括未标注图像类和已标注图像类。
在一个实施例中,根据获得的多个相似度确定所述待识别图像所属的分类,包括:
若存在至少一个相似度大于第一指定阈值,则确定所述待识别图像属于已标注图像类;
若各相似度均小于或等于所述第一指定阈值,则确定所述待识别图像属于未标注图像类。
在一个实施例中,对多个已标注图像进行聚类分析得到图像类别,包括:
分别提取各已标注图像的特征;以及,
添加各已标注图像的图像标识到初始化队列中;
取队首的图像标识对应的已标注图像作为基准样本;
确定所述初始化队列中各已标注图像与该基准样本的特征相似度;
将特征相似度大于第二指定阈值的已标注图像及基准样本确定为一类图像类别;并从所述初始化队列中删除该图像类别包含的已标注图像的图像标识;
若初始化队列不为空,则返回执行取队首的图像标识对应的已标注图像作为基准样本的步骤。
在一个实施例中,分别提取各已标注图像的特征,包括:
通过深度学习模型分别对各已标注图像进行特征提取,并将该深度学习模型的最后一层全连接层提取的特征向量作为已标注图像的特征。
在一个实施例中,已标注图像的特征采用特征向量表示时,则待识别图像的特征与图像类别的类别特征之间的相似度,以及,基准样本的特征与已标注图像的特征相似度,均为特征向量之间的余弦距离。
在一个实施例中,确定各图像类别的类别特征,包括:
针对各图像类别,将该图像类别中的已标注图像的特征向量的平均值作为该图像类别的特征;或者,
针对各图像类别,统计该图像类别中包含的已标注图像类别的标签,以及各标签对应的已标注图像的样本数;并根据样本数最多的标签对应的已标注图像的特征向量确定该图像类别的特征。
在一个实施例中,确定所述待识别图像属于已标注图像类之后,还包括:
确定与待识别图像的相似度最大的图像类别;
确定该待识别图像的类别为所述相似度最大的图像类别。
在一个实施例中,确定所述待识别图像属于未标注图像类之后,还包括:
利用学习到的映射关系将待识别图像的特征从特征空间映射到词向量空间,得到该待识别图像在词向量空间中的表示;其中,所述映射关系是利用自编码器将已标注图像的特征从特征空间映射到词向量空间,再经过转置矩阵将已标注图像的特征映射回特征空间后学习到的;
将与待识别图像在词向量空间中的表示最相近的未标注图像类别作为该待识别图像的推断预测类别。
根据本公开实施例的第二方面,提供一种图像的识别装置,包括:
特征提取模块,被配置为执行提取待识别图像的特征;
特征相似度确定模块,被配置为执行确定所述待识别图像的特征分别与多个图像类别的类别特征之间的相似度,其中,所述图像类别是对多个已标注图像进行聚类分析得到的;
类别确定模块,被配置为执行根据获得的多个相似度确定所述待识别图像所属的分类,所述分类包括未标注图像类和已标注图像类。
在一个实施例中,所述类别确定模块,被配置为执行根据获得的多个相似度确定所述待识别图像所属的分类,包括:
若存在至少一个相似度大于第一指定阈值,则确定所述待识别图像属于已标注图像类;
若各相似度均小于或等于所述第一指定阈值,则确定所述待识别图像属于未标注图像类。
在一个实施例中,所述特征相似度确定模块,被配置为执行对多个已标注图像进行聚类分析得到图像类别,包括:
分别提取各已标注图像的特征;以及,
添加各已标注图像的图像标识到初始化队列中;
取队首的图像标识对应的已标注图像作为基准样本;
确定所述初始化队列中各已标注图像与该基准样本的特征相似度;
将特征相似度大于第二指定阈值的已标注图像及基准样本确定为一类图像类别;并从所述初始化队列中删除该图像类别包含的已标注图像的图像标识;
若初始化队列不为空,则返回执行取队首的图像标识对应的已标注图像作为基准样本的步骤。
在一个实施例中,所述特征相似度确定模块,被配置为执行分别提取各已标注图像的特征,包括:
通过深度学习模型分别对各已标注图像进行特征提取,并将该深度学习模型的最后一层全连接层提取的特征向量作为已标注图像的特征。
在一个实施例中,已标注图像的特征采用特征向量表示时,则待识别图像的特征与图像类别的类别特征之间的相似度,以及,基准样本的特征与已标注图像的特征相似度,均为特征向量之间的余弦距离。
在一个实施例中,所述特征相似度确定模块被配置为执行确定各图像类别的类别特征,包括:
针对各图像类别,将该图像类别中的已标注图像的特征向量的平均值作为该图像类别的特征;或者,
针对各图像类别,统计该图像类别中包含的已标注图像类别的标签,以及各标签对应的已标注图像的样本数;并根据样本数最多的标签对应的已标注图像的特征向量确定该图像类别的特征。
在一个实施例中,所述装置还包括:
已标注图像类别确定模块,被配置为执行定与待识别图像的相似度最大的图像类别;
确定该待识别图像的类别为所述相似度最大的图像类别。
在一个实施例中,所述装置还包括:
未标注图像类别确定模块,被配置为执行利用学习到的映射关系将待识别图像的特征从特征空间映射到词向量空间,得到该待识别图像在词向量空间中的表示;其中,所述映射关系是利用自编码器将已标注图像的特征从特征空间映射到词向量空间,再经过转置矩阵将已标注图像的特征映射回特征空间后学习到的;
将与待识别图像在词向量空间中的表示最相近的未标注图像类别作为该待识别图像的推断预测类别。
根据本公开实施例的第三方面,提供一种电子设备,包括至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请实施例提供的任一图像的识别方法。
根据本公开实施例的第四方面,提供一种存储介质,其中,所述存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行本申请实施例中的任一图像的识别方法。
根据本公开实施例的第五方面,提供一种程序产品,其包括程序代码,当所述程序产品在计算机设备上运行时,所述程序代码用于使所述计算机设备执行本公开实施例中的任一图像的识别方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
通过该方法中预先对已标注图像进行聚类分析得到不同图像类别。之后,针对一待识别图像,若该待识别图像的特征与其中一个图像类别的特征相似,则说明该待识别图像属于该图像类别,由于该图像类别属于已标注图像类,则可进一步确认该待识别图像属于已标注图像类的具体类别,否则确认该待识别图像属于未标注图像类。因此该方法适用于广义设定零样本,且能够提高对于待识别图像类别推断的准确度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
图1为本公开一示例性实施方式的有关SAE模型的示意图;
图2为本公开一示例性实施方式的一种图像的识别方法的流程示意图;
图3为本公开一示例性实施方式的一种图像的识别方法的应用流程示意图之一;
图4为本公开一示例性实施方式的一种图像的识别装置示意图;
图5为本公开一示例性实施方式的电子设备示意图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的描述在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
相关技术方案中因为在广义零样本下存在着强偏问题,故此需要一种可以适用于广义零样本下的解决方案,用提高对未标注图像的推断的精度。
有鉴于此,本公开提供了一种适用于广义零样本下图像的识别方法。该方法中,预先提取了已标注图像的特征,并对提取到的特征进行聚类分析得到多个不同的图像类别。之后,针对提取待识别图像的特征,并将其与聚类分析得到的图像类别进行特征相似度的比较,若存在至少一个图像类别使得得到的相似度大于第一指定阈值,则可确认该识别对象属于已标注图像类,否则,确定其属于未标注图像类。由此可以有效的识别出待识别图像是属于已标注图像类还是未标注图像类,从而提高对未标注图像类的预测。
实施本公开实施例提供的方案可分为前序准备以及类别推断两个阶段。其中,前序准备可包括提取已标注图像的特征、已标注图像的聚类分析,以及映射关系的学习三个部分;类别推断阶段主要介绍基于前序准备得到的结果实现对待识别图像的分类,即确认其属于已标注图像类还是未标注图像类,若属于未标注图像类还可以采用适用于狭义零样本的类别推断方式推断待识别图像的具体类别。下文将对上面提及的各部分做进一步介绍。
一、前序准备
1、提取已标注图像的特征
为了实现对已标注图像的聚类分析,并提供聚类分析的准确性以及实施的可行性,本公开实施例中提供了对已标注图像的特征进行聚类分析的方案。
在一个实施例中,实施时可通过深度学习网络进行模型训练来提取已标注图像的特征。然后,待模型训练收敛后,提取模型的最后一层全连接层的样本特征进行聚类分析。
实施时,由于VGG(Visual Geometry Group,牛津大学的科学工程系小组)模型是基于传统的深度学习网络Alexnet网络模型提出的,在其基础上对深度神经网络在深度和宽度上做了更多深入的研究。VGG模型采用了3x3的较小的卷积核用以捕捉到横、竖以及斜对角像素的变化,因此参数量较少,训练也较容易。另外VGG模型使用了逐层训练的方法,其最后一层全连接层能够很好的诠释输入样本的特征,故此深度学习网络模型可采用VGG模型。
当然具体实施时,还可采用其他的深度学习网络模型,例如Inception-v3(谷歌设计的Inception模型)模型、ResNet50(残差网络)等均适用于本公开实施例。
2、已标注图像的聚类分析
基于上述方法对已标注图像的特征提取后,为进一步实现对已标注图像的聚类分析。可采用如下所述的任一聚类分析方法可采用k-均值、k-中心点的聚类方法,也可采用层次聚类和非层次聚类的方法等。
实施时,可采用队列实现距离分析,可添加各已标注图像的图像标识到初始化队列中;然后取队首的图像标识对应的已标注图像作为基准样本,之后确定所述初始化队列中各已标注图像与该基准样本的特征相似度,如可计算两者之间的余弦距离作为两者的相似度,将特征相似度大于第二指定阈值的已标注图像及基准样本确定为一类图像类别,并从所述初始化队列中删除该图像类别包含的已标注图像的图像标识;若所述初始化队列不为空,则返回重复执行上述过程直至初始化队列为空,并得到不同类别的图像类别为止。
得到各个图像类别之后,图像类别特征的表示,可实施为以下几种方式:
1)、选择图像类别中某已标注图像的特征向量作为该图像类别的特征表示;
2)、计算图像类别中的已标注图像的特征向量的平均值,则将该平均值作为该图像类别的特征表示;
3)、统计该图像类别中包含的已标注图像类别的标签,以及各标签对应的已标注图像的样本数;并根据样本数最多的标签对应的已标注图像的特征向量确定该图像类别的特征表示。例如,图像类别中包括A1、A2、A3、A4、A5、A6、A7、A8、A9、A10其中标签1包括A1、A2、A3、A4、A5、A6、A7、A8标签2包括A3、A4、A8、A9标签3包括A6、A7、A10,由于标签1的数量最多,则以标签1对应的已标注图像为参考,确定该图像类别的特征表示。
确定每个图像类别的特征的表示后,可将该特征对应的已标注图像的类别作为相应的图像类别。如表1所示。
表1
图像类别的编号 | 图像类别 | 特征的表示 |
1 | 长颈鹿 | W1 |
… | … | … |
n | 大象 | W2 |
3、映射关系的学习
为便于确定出待识别图像所属的未标注图像类的具体类别。本公开实施例中,可以样本的高层语义特征来确定待识别图像所属的类别。实施时,高层语义特征可由一组词向量来表示。可预先设定词向量和类别的对应关系。例如,如表2所述为该对应关系的示例。需要说明的是,表2中的类别以及对应的词向量可包括训练样本之外的类别以及词向量。
表2
类别 | 词向量 |
老虎 | L1、L2 |
熊猫 | L3、L4 |
猫 | L1、L5 |
这样,只要能够得到待识别图像的词向量,便可基于预先设定词向量和类别的对应关系,来确定待识别图像所属的具体类别。
为了得到词向量,本公开实施例中需要通过训练来获得待识别图像的特征和词向量的映射关系。
在一个实施例中,实施时可参阅图1所示,借助SAE自编码器来识别出待识别图像所属的具体类别。
SAE模型可使用基础的自编码器对未标注图像的特征样本进行编码,其原理可如图1所示。其中X为特征空间的未标注图像的特征样本,S为自编码器的隐层,S层为属性层,它不仅仅是未标注图像的特征样本的另一种表示,它同时也有着清晰的语义。例如,有个属性列表(黑色、白色、棕色、条纹、水生动物、吃鱼属性),如果某个生物是黑色,吃鱼则该生物的属性表示则为(1,0,0,0,0,1)1表示有这个属性,0表示没有。
此外,S层的另一种表达方式为具体类别的词向量,如Word2vec中的词向量L1、L2、L3、L4、L5、L6代表不同的文本释义,即输入大象,通过该层就可以给出“大象”的这个词语的文本释义表示而并非大象的属性。
经过该层处理后样本的特征可映射到词向量空间。经过WT后可将词向量映射会特征空间得到即为由词向量空间还原为未标注图像特征样本的表示。在训练时可通过尽量使得还原出的和X相同,来获得映射关系W。
映射关系W是学习到利用有监督的自编码器将未标注图像的特征从特征空间映射到词向量空间;再经过转置矩阵WT将未标注图像的特征映射回特征空间。
可选择,在实现映射关系学习时,先将数据集分为训练集和测试集,且两个数据集的数据类别之间是没有交集的。利用一些先验知识得到每种类别的属性向量表示,通过上文的方法,利用训练集训练出映射矩阵W,这样就可以对测试集中的样本进行类别的预测。
二、类别推断
基于前序准备中各部分的介绍,完成了前序准备工作,则可以利用训练好的深度学习网络模型以及映射关系等对未知类别的样本进行类别推断。
如图2所示,本公开提供的图像的识别方法可包括以下步骤:
步骤201:提取待识别图像的特征。
步骤202:确定所述待识别图像的特征分别与多个图像类别的类别特征之间的相似度,其中,所述图像类别是对多个已标注图像进行聚类分析得到的。
步骤203:根据获得的多个相似度确定所述待识别图像所属的分类,所述分类包括未标注图像类和已标注图像类。
通过该方法中预先对已标注图像进行聚类分析得到不同的图像类别。之后,针对一待识别图像,若该待识别图像的特征与其中一个图像类别的特征相似,则说明该对象属于该图像类别,由于该图像类别属于已标注图像类,则可进一步确认该待识别图像属于已标注图像类,否则确认该待识别图像属于未标注图像类。因此该方法适用于广义设定零样本,且能够提高待识别图像类别推断的准确度。
在确定待识别图像属于已标注图像类后,为了进一步准确的推断其所属的具体类别,本公开中,可确定与待识别图像的相似度最大的图像类别,并确定该待识别图像的类别为所述相似度最大的图像类别。
同理,若待识别图像属于未标注图像类,则可基于前述的映射关系来确定所属的具体类别,可实施为利用学习到的映射关系将待识别图像的特征从特征空间映射到词向量空间,得到该待识别图像在词向量空间中的表示;然后求与待识别图像在词向量空间中的表示最相近的未标注图像类别作为该待识别图像的推断预测类别。
为便于从整体上理解本公开提供的方案,下面结果图3以及具体的例子对此进行说明。
步骤301:提取待识别图像的特征。
步骤302:确定待识别图像的特征与图像类别的特征之间的相似度。
步骤303:若该相似度大于第一指定阈值,则确定所述待识别图像为已标注图像类,之后执行步骤305。
步骤304:若该相似度小于或等于所述第一指定阈值,则确定所述待识别图像为未标注图像类,之后执行步骤306。
步骤305:为了进一步准确的推断其所属的具体类别,可确定与待识别图像的相似度最大的图像类别,并确定该待识别图像的类别为所述相似度最大的图像类别。
步骤306:基于前述的映射关系来确定该待识别图像所属的具体类别,可实施为利用学习到的映射关系将待识别图像的特征从特征空间映射到词向量空间,得到该待识别图像在词向量空间中的表示;然后求与待识别图像在词向量空间中的表示最相近的未标注图像的类别作为该待识别图像的推断预测类别。
例如,训练的已标注图像包括老虎,大熊猫和马的各种图片,通过对已标注图像的聚类分析得到的图像类别可包括老虎,大熊猫和马。测试样本包括老虎,大熊猫、马和斑马时。
当待识别图像为老虎图片时,可确定该图片至少与老虎这一图像类别的相似度大于第一预设阈值,故此,可确定待识别图像属于已标注图像类中的老虎类。
当待识别图像为斑马图片时,可确定斑马图片与各图像类别的相似度均小于或等于第一预设阈值,即斑马图片不会属于老虎,大熊猫、马中的任一图像类别。故此,可确定其属于未标注图像类,然后采用前述ACE自编码器学习到的映射关系,得到斑马图片的词向量,基于得到的词向量以及如表2所述的词向量与类别之间的对应关系,由于斑马的类别及其词向量是已知的,故此可确定其为斑马。
基于相同的发明构思,本公开还提供一种图像的识别装置。参阅图4,该装置包括:
特征提取模块401,被配置为执行提取待识别图像的特征;
特征相似度确定模块402,被配置为执行确定所述待识别图像的特征分别与多个图像类别的类别特征之间的相似度,其中,所述图像类别是对多个已标注图像进行聚类分析得到的;
类别确定模块403,被配置为执行根据获得的多个相似度确定所述待识别图像所属的分类,所述分类包括未标注图像类和已标注图像类。
在一个实施例中,所述类别确定模块403,被配置为执行根据获得的多个相似度确定所述待识别图像所属的分类,包括:
若存在至少一个相似度大于第一指定阈值,则确定所述待识别图像属于已标注图像类;
若各相似度均小于或等于所述第一指定阈值,则确定所述待识别图像属于未标注图像类。
在一个实施例中,所述特征相似度确定模块402,被配置为执行对多个已标注图像进行聚类分析得到图像类别,包括:
分别提取各已标注图像的特征;以及,
添加各已标注图像的图像标识到初始化队列中;
取队首的图像标识对应的已标注图像作为基准样本;
确定所述初始化队列中各已标注图像与该基准样本的特征相似度;
将特征相似度大于第二指定阈值的已标注图像及基准样本确定为一类图像类别;并从所述初始化队列中删除该图像类别包含的已标注图像的图像标识;
若初始化队列不为空,则返回执行取队首的图像标识对应的已标注图像作为基准样本的步骤。
在一个实施例中,所述特征相似度确定模块402,被配置为执行分别提取各已标注图像的特征,包括:
通过深度学习模型分别对各已标注图像进行特征提取,并将该深度学习模型的最后一层全连接层提取的特征向量作为已标注图像的特征。
在一个实施例中,已标注图像的特征采用特征向量表示时,则待识别图像的特征与图像类别的类别特征之间的相似度,以及,基准样本的特征与已标注图像的特征相似度,均为特征向量之间的余弦距离。
在一个实施例中,所述特征相似度确定模块402被配置为执行确定各图像类别的类别特征,包括:
针对各图像类别,将该图像类别中的已标注图像的特征向量的平均值作为该图像类别的特征;或者,
针对各图像类别,统计该图像类别中包含的已标注图像类别的标签,以及各标签对应的已标注图像的样本数;并根据样本数最多的标签对应的已标注图像的特征向量确定该图像类别的特征。
在一个实施例中,所述装置还包括:
未标注图像类别确定模块,被配置为执行确定与待识别图像的相似度最大的图像类别;
确定该待识别图像的类别为所述相似度最大的图像类别。
在一个实施例中,所述装置还包括:
未标注图像类别确定模块,被配置为执行利用学习到的映射关系将待识别图像的特征从特征空间映射到词向量空间,得到该待识别图像在词向量空间中的表示;其中,所述映射关系是利用自编码器将已标注图像的特征从特征空间映射到词向量空间,再经过转置矩阵将已标注图像的特征映射回特征空间后学习到的;
将与待识别图像在词向量空间中的表示最相近的未标注图像类别作为该待识别图像的推断预测类别。
请参见图5,基于同一技术构思,本公开实施例还提供了一种电子设备50,可以包括存储器501和处理器502。
所述存储器501,用于存储处理器502执行的计算机程序。存储器501可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据终端设备信息处理装置的使用所创建的数据等。处理器502,可以是一个中央处理单元(central processing unit,CPU),或者为数字处理单元等等。本公开实施例中不限定上述存储器501和处理器502之间的具体连接介质。本公开实施例在图5中以存储器501和处理器502之间通过总线503连接,总线503在图5中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。所述总线503可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器501可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器501也可以是非易失性存储器(non-volatilememory),例如只读存储器,快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD)、或者存储器501是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器501可以是上述存储器的组合。
处理器502,用于调用所述存储器501中存储的计算机程序时执行如图1中所示的实施例中设备所执行的方法。
在一些可能的实施方式中,本公开提供的方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在计算机设备上运行时,所述程序代码用于使所述计算机设备执行本说明书上述描述的根据本公开各种示例性实施方式的方法中的步骤,例如,所述计算机设备可以执行如图1中所示的实施例中设备所执行的方法。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (10)
1.一种图像的识别方法,其特征在于,包括:
提取待识别图像的特征;
确定所述待识别图像的特征分别与多个图像类别的类别特征之间的相似度,其中,所述图像类别是对多个已标注图像进行聚类分析得到的;
根据获得的多个相似度确定所述待识别图像所属的分类,所述分类包括未标注图像类和已标注图像类。
2.根据权利要求1所述的方法,其特征在于,根据获得的多个相似度确定所述待识别图像所属的分类,包括:
若存在至少一个相似度大于第一指定阈值,则确定所述待识别图像属于已标注图像类;
若各相似度均小于或等于所述第一指定阈值,则确定所述待识别图像属于未标注图像类。
3.根据权利要求1所述的方法,其特征在于,对多个已标注图像进行聚类分析得到图像类别,包括:
分别提取各已标注图像的特征;以及,
添加各已标注图像的图像标识到初始化队列中;
取队首的图像标识对应的已标注图像作为基准样本;
确定所述初始化队列中各已标注图像与该基准样本的特征相似度;
将特征相似度大于第二指定阈值的已标注图像及基准样本确定为一类图像类别;并从所述初始化队列中删除该图像类别包含的已标注图像的图像标识;
若初始化队列不为空,则返回执行取队首的图像标识对应的已标注图像作为基准样本的步骤。
4.根据权利要求3所述的方法,其特征在于,已标注图像的特征采用特征向量表示时,则待识别图像的特征与图像类别的类别特征之间的相似度,以及,基准样本的特征与已标注图像的特征相似度,均为特征向量之间的余弦距离。
5.根据权利要求3所述的方法,其特征在于,确定各图像类别的类别特征,包括:
针对各图像类别,将该图像类别中的已标注图像的特征向量的平均值作为该图像类别的特征;或者,
针对各图像类别,统计该图像类别中包含的已标注图像类别的标签,以及各标签对应的已标注图像的样本数;并根据样本数最多的标签对应的已标注图像的特征向量确定该图像类别的特征。
6.根据权利要求2所述的方法,其特征在于,确定所述待识别图像属于已标注图像类之后,还包括:
确定与待识别图像的相似度最大的图像类别;
确定该待识别图像的类别为所述相似度最大的图像类别。
7.根据权利要求2所述的方法,其特征在于,确定所述待识别图像属于未标注图像类之后,还包括:
利用学习到的映射关系将待识别图像的特征从特征空间映射到词向量空间,得到该待识别图像在词向量空间中的表示;其中,所述映射关系是利用自编码器将已标注图像的特征从特征空间映射到词向量空间,再经过转置矩阵将已标注图像的特征映射回特征空间后学习到的;
将与待识别图像在词向量空间中的表示最相近的未标注图像类别作为该待识别图像的推断预测类别。
8.一种图像的识别装置,其特征在于,包括:
特征提取模块,被配置为执行提取待识别图像的特征;
特征相似度确定模块,被配置为执行确定所述待识别图像的特征分别与多个图像类别的类别特征之间的相似度,其中,所述图像类别是对多个已标注图像进行聚类分析得到的;
类别确定模块,被配置为执行根据获得的多个相似度确定所述待识别图像所属的分类,所述分类包括未标注图像类和已标注图像类。
9.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现如权利要求1-7中任一项所述的图像的识别方法。
10.一种存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1-7中任一项所述的图像的识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910865784.7A CN110598790A (zh) | 2019-09-12 | 2019-09-12 | 一种图像的识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910865784.7A CN110598790A (zh) | 2019-09-12 | 2019-09-12 | 一种图像的识别方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110598790A true CN110598790A (zh) | 2019-12-20 |
Family
ID=68859244
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910865784.7A Pending CN110598790A (zh) | 2019-09-12 | 2019-09-12 | 一种图像的识别方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110598790A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111046858A (zh) * | 2020-03-18 | 2020-04-21 | 成都大熊猫繁育研究基地 | 一种基于图像的动物物种细分类方法、系统及介质 |
CN111144378A (zh) * | 2019-12-30 | 2020-05-12 | 众安在线财产保险股份有限公司 | 一种目标对象的识别方法及装置 |
CN111191067A (zh) * | 2019-12-25 | 2020-05-22 | 深圳市优必选科技股份有限公司 | 绘本识别方法、终端设备及计算机可读存储介质 |
CN111598092A (zh) * | 2020-05-25 | 2020-08-28 | 北京达佳互联信息技术有限公司 | 图像中目标区域的确定方法、目标识别方法及装置 |
CN111860606A (zh) * | 2020-06-24 | 2020-10-30 | 上海小零网络科技有限公司 | 图像分类的方法、装置以及存储介质 |
CN112767331A (zh) * | 2021-01-08 | 2021-05-07 | 北京航空航天大学 | 基于零样本学习的图像异常检测方法 |
CN112862020A (zh) * | 2021-04-25 | 2021-05-28 | 北京芯盾时代科技有限公司 | 一种数据识别方法、装置及存储介质 |
CN113178248A (zh) * | 2021-04-28 | 2021-07-27 | 联仁健康医疗大数据科技股份有限公司 | 医学图像数据库建立方法、装置、设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102592148A (zh) * | 2011-12-29 | 2012-07-18 | 华南师范大学 | 基于非负矩阵分解和多种距离函数的人脸识别方法 |
CN106250821A (zh) * | 2016-07-20 | 2016-12-21 | 南京邮电大学 | 一种聚类再分类的人脸识别方法 |
US20170357879A1 (en) * | 2017-08-01 | 2017-12-14 | Retina-Ai Llc | Systems and methods using weighted-ensemble supervised-learning for automatic detection of ophthalmic disease from images |
CN108229674A (zh) * | 2017-02-21 | 2018-06-29 | 北京市商汤科技开发有限公司 | 聚类用神经网络的训练方法和装置、聚类方法和装置 |
CN109325512A (zh) * | 2018-08-01 | 2019-02-12 | 北京市商汤科技开发有限公司 | 图像分类方法及装置、电子设备、计算机程序及存储介质 |
CN109447186A (zh) * | 2018-12-13 | 2019-03-08 | 深圳云天励飞技术有限公司 | 聚类方法及相关产品 |
CN109492750A (zh) * | 2018-10-30 | 2019-03-19 | 中国运载火箭技术研究院 | 一种基于卷积神经网络和因素空间的零样本图像分类方法及系统 |
CN109815873A (zh) * | 2019-01-17 | 2019-05-28 | 深圳壹账通智能科技有限公司 | 基于图像识别的商品展示方法、装置、设备及介质 |
CN110135459A (zh) * | 2019-04-15 | 2019-08-16 | 天津大学 | 一种基于双三元组深度度量学习网络的零样本分类方法 |
-
2019
- 2019-09-12 CN CN201910865784.7A patent/CN110598790A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102592148A (zh) * | 2011-12-29 | 2012-07-18 | 华南师范大学 | 基于非负矩阵分解和多种距离函数的人脸识别方法 |
CN106250821A (zh) * | 2016-07-20 | 2016-12-21 | 南京邮电大学 | 一种聚类再分类的人脸识别方法 |
CN108229674A (zh) * | 2017-02-21 | 2018-06-29 | 北京市商汤科技开发有限公司 | 聚类用神经网络的训练方法和装置、聚类方法和装置 |
US20170357879A1 (en) * | 2017-08-01 | 2017-12-14 | Retina-Ai Llc | Systems and methods using weighted-ensemble supervised-learning for automatic detection of ophthalmic disease from images |
CN109325512A (zh) * | 2018-08-01 | 2019-02-12 | 北京市商汤科技开发有限公司 | 图像分类方法及装置、电子设备、计算机程序及存储介质 |
CN109492750A (zh) * | 2018-10-30 | 2019-03-19 | 中国运载火箭技术研究院 | 一种基于卷积神经网络和因素空间的零样本图像分类方法及系统 |
CN109447186A (zh) * | 2018-12-13 | 2019-03-08 | 深圳云天励飞技术有限公司 | 聚类方法及相关产品 |
CN109815873A (zh) * | 2019-01-17 | 2019-05-28 | 深圳壹账通智能科技有限公司 | 基于图像识别的商品展示方法、装置、设备及介质 |
CN110135459A (zh) * | 2019-04-15 | 2019-08-16 | 天津大学 | 一种基于双三元组深度度量学习网络的零样本分类方法 |
Non-Patent Citations (3)
Title |
---|
ELYOR KODIROV 等,: "Semantic Autoencoder for Zero-Shot Learning", 《2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 * |
RICHARD SOCHER 等,: "Zero-Shot Learning Through Cross-Modal Transfer", 《ARXIV》 * |
吴晨 等,: "基于局部保持的遥感场景零样本分类算法", 《光学学报》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111191067A (zh) * | 2019-12-25 | 2020-05-22 | 深圳市优必选科技股份有限公司 | 绘本识别方法、终端设备及计算机可读存储介质 |
CN111144378A (zh) * | 2019-12-30 | 2020-05-12 | 众安在线财产保险股份有限公司 | 一种目标对象的识别方法及装置 |
CN111144378B (zh) * | 2019-12-30 | 2023-10-31 | 众安在线财产保险股份有限公司 | 一种目标对象的识别方法及装置 |
CN111046858A (zh) * | 2020-03-18 | 2020-04-21 | 成都大熊猫繁育研究基地 | 一种基于图像的动物物种细分类方法、系统及介质 |
CN111598092A (zh) * | 2020-05-25 | 2020-08-28 | 北京达佳互联信息技术有限公司 | 图像中目标区域的确定方法、目标识别方法及装置 |
CN111860606A (zh) * | 2020-06-24 | 2020-10-30 | 上海小零网络科技有限公司 | 图像分类的方法、装置以及存储介质 |
CN111860606B (zh) * | 2020-06-24 | 2021-09-14 | 上海小零网络科技有限公司 | 图像分类的方法、装置以及存储介质 |
CN112767331A (zh) * | 2021-01-08 | 2021-05-07 | 北京航空航天大学 | 基于零样本学习的图像异常检测方法 |
CN112862020A (zh) * | 2021-04-25 | 2021-05-28 | 北京芯盾时代科技有限公司 | 一种数据识别方法、装置及存储介质 |
CN113178248A (zh) * | 2021-04-28 | 2021-07-27 | 联仁健康医疗大数据科技股份有限公司 | 医学图像数据库建立方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110598790A (zh) | 一种图像的识别方法、装置、电子设备及存储介质 | |
US9977955B2 (en) | Method and system for identifying books on a bookshelf | |
Hou et al. | Bottom-up top-down cues for weakly-supervised semantic segmentation | |
EP3166020A1 (en) | Method and apparatus for image classification based on dictionary learning | |
Scharfenberger et al. | Structure-guided statistical textural distinctiveness for salient region detection in natural images | |
US11176417B2 (en) | Method and system for producing digital image features | |
CN110851641A (zh) | 跨模态检索方法、装置和可读存储介质 | |
US10699112B1 (en) | Identification of key segments in document images | |
CN110807472B (zh) | 图像识别方法、装置、电子设备及存储介质 | |
CN112200031A (zh) | 一种用于生成图像对应文字说明的网络模型训练方法与设备 | |
CN112507912A (zh) | 一种识别违规图片的方法及装置 | |
Sfikas et al. | Using attributes for word spotting and recognition in polytonic greek documents | |
Velazquez et al. | Logo detection with no priors | |
CN113704534A (zh) | 图像处理方法、装置及计算机设备 | |
CN116486109A (zh) | 模态自适应的描绘性查询行人重识别方法及系统 | |
CN112241470B (zh) | 一种视频分类方法及系统 | |
Zhang et al. | Collaborative annotation of semantic objects in images with multi-granularity supervisions | |
CN114373088A (zh) | 一种图像检测模型的训练方法和相关产品 | |
Jobin et al. | Document image segmentation using deep features | |
CN111414952B (zh) | 行人重识别的噪声样本识别方法、装置、设备和存储介质 | |
CN110852102B (zh) | 一种中文的词性标注方法、装置、存储介质及电子设备 | |
Pyykkö et al. | Interactive content-based image retrieval with deep neural networks | |
Vishwanath et al. | Deep reader: Information extraction from document images via relation extraction and natural language | |
Evangelou et al. | PU learning-based recognition of structural elements in architectural floor plans | |
KR20190093752A (ko) | 딥 러닝을 이용한 씬 텍스트 검출 방법 및 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191220 |