CN108229490A - 关键点检测方法、神经网络训练方法、装置和电子设备 - Google Patents
关键点检测方法、神经网络训练方法、装置和电子设备 Download PDFInfo
- Publication number
- CN108229490A CN108229490A CN201710100498.2A CN201710100498A CN108229490A CN 108229490 A CN108229490 A CN 108229490A CN 201710100498 A CN201710100498 A CN 201710100498A CN 108229490 A CN108229490 A CN 108229490A
- Authority
- CN
- China
- Prior art keywords
- neural network
- sub
- target object
- feature
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 616
- 238000012549 training Methods 0.000 title claims abstract description 91
- 238000000034 method Methods 0.000 title claims abstract description 78
- 238000001514 detection method Methods 0.000 title claims abstract description 73
- 238000000605 extraction Methods 0.000 claims abstract description 94
- 238000010586 diagram Methods 0.000 claims description 93
- 238000004891 communication Methods 0.000 claims description 52
- 238000012937 correction Methods 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 16
- 230000009466 transformation Effects 0.000 claims description 15
- 238000009499 grossing Methods 0.000 claims description 11
- 238000010606 normalization Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 description 64
- 230000007246 mechanism Effects 0.000 description 27
- 238000011176 pooling Methods 0.000 description 27
- 238000013527 convolutional neural network Methods 0.000 description 23
- 230000008569 process Effects 0.000 description 15
- 238000004590 computer program Methods 0.000 description 12
- 238000013507 mapping Methods 0.000 description 12
- 238000005070 sampling Methods 0.000 description 10
- 230000009286 beneficial effect Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000003042 antagnostic effect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000036544 posture Effects 0.000 description 1
- 230000003362 replicative effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/34—Smoothing or thinning of the pattern; Morphological operations; Skeletonisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明实施例提供了一种关键点检测方法、神经网络训练方法、装置和电子设备,其中,所述关键点检测方法包括:经神经网络对包括有目标对象的待检测图像进行特征提取操作;根据提取到的特征信息,生成所述目标对象的注意力图;使用所述注意力图修正所述特征信息;根据修正后的特征信息,对所述目标对象进行关键点检测。通过本发明实施例,使得待检测图像中的目标对象的特征信息更为突出,更易被检测和识别,提高检测准确性,减少误检或漏检现象。
Description
技术领域
本发明实施例涉及人工智能技术领域,尤其涉及一种关键点检测方法、装置和电子设备,以及,一种神经网络训练方法、装置和电子设备。
背景技术
神经网络是用于计算机视觉和模式识别的一个重要的研究领域,它通过计算机仿照生物大脑思维启发进行类似人类对特定对象的信息处理。通过神经网络,能够有效地进行目标对象(如人、动物、车辆等)检测和识别。随着互联网技术的发展,信息量的急剧增加,神经网络被越来越广泛地应用于图像检测及目标对象识别领域,以从大量的信息中寻找出实际所需的信息。
目前,经过训练的神经网络虽然能够进行图像检测和目标对象识别,但检测结果不够准确,易出现误检或漏检现象。
发明内容
本发明实施例提供了一种关键点检测方案和一种神经网络训练方案。
根据本发明实施例的第一方面,提供了一种关键点检测方法,包括:经神经网络对包括有目标对象的待检测图像进行特征提取操作;根据提取到的特征信息,生成所述目标对象的注意力图;使用所述注意力图修正所述特征信息;根据修正后的特征信息,对所述目标对象进行关键点检测。
可选地,所述经神经网络对包括有目标对象的待检测图像进行特征提取操作,包括:经卷积神经网络对所述待检测图像进行卷积操作,获得所述待检测图像的第一特征信息;所述根据提取到的特征信息,生成所述目标对象的注意力图,包括:对所述第一特征信息进行非线性变换,获得第二特征信息;根据所述第二特征信息,生成所述目标对象的注意力图。
可选地,在使用所述注意力图修正所述特征信息之前,所述方法还包括:使用条件随机场CRF对所述注意力图进行平滑化处理;或者,使用归一化函数对所述注意力图进行归一化处理。
可选地,所述神经网络包括端对端堆叠的多个子神经网络;针对每一个子神经网络,根据当前子神经网络提取的特征信息生成当前子神经网络的注意力图,通过当前子神经网络的注意力图修正当前子神经网络提取的特征信息;如果当前子神经网络为所述多个子神经网络中的非末个子神经网络,则当前子神经网络修正后的特征信息为相邻的后一子神经网络的输入;和/或,如果当前子神经网络为所述多个子神经网络中的末个子神经网络,则根据当前子神经网络修正后的特征信息,对所述目标对象进行关键点检测。
可选地,所述通过当前子神经网络的注意力图修正当前子神经网络提取的特征信息,包括:根据当前子神经网络的注意力图,对表示当前子神经网络提取的特征信息的特征图中至少部分非目标对象对应的区域的像素值置零,获得当前子神经网络修正后的特征信息。
可选地,根据当前子神经网络的注意力图,对表示当前子神经网络提取的特征信息的特征图中至少部分非目标对象对应的区域的像素值置零,获得当前子神经网络修正后的特征信息,包括:如果当前子神经网络是设定的前N个子神经网络,则使用当前子神经网络的注意力图,对表示当前子神经网络提取的特征信息的特征图中至少部分非目标对象对应的区域的像素值置零,获得所述目标对象所在的区域的特征信息;和/或,如果当前子神经网络并非设定的前N个子神经网络,则经当前子神经网络对表示目标对象所在的区域的特征信息的特征图进行特征提取操作,根据提取到的特征信息生成当前子神经网络的注意力图;使用当前子神经网络的注意力图,对表示当前子神经网络提取的特征信息的特征图中至少部分非目标对象的关键点对应的区域的像素值置零,获得所述目标对象的关键点对应的区域的特征信息;其中,所述前N个子神经网络对应的注意力图的分辨率,低于后M-N个子神经网络对应的注意力图的分辨率,其中,M表示子神经网络的总数量,M为大于1的整数,N为大于0的整数且N小于M。
可选地,针对每一个子神经网络,所述经神经网络对包括有目标对象的待检测图像进行特征提取操作,包括:获得当前子神经网络的多个卷积层对应输出的不同分辨率的多个特征图,分别对多个特征图进行上采样,获得多个特征图对应的特征信息;所述根据提取到的特征信息,生成所述目标对象的注意力图,包括:根据多个特征图对应的特征信息,生成对应的多个不同分辨率的注意力图;对多个不同分辨率的注意力图进行合并处理,生成当前子神经网络的最终的目标对象的注意力图。
可选地,所述神经网络为沙漏HOURGLASS神经网络。
可选地,所述HOURGLASS神经网络包括多个HOURGLASS子神经网络,每个HOURGLASS子神经网络包括至少一个沙漏残差模块HRU;每个HRU包括第一残差分支、第二残差分支和第三残差分支;其中,经每个HOURGLASS子神经网络中的每个HRU对包括有目标对象的待检测图像进行特征提取操作,包括:经所述第一残差分支对输入当前HRU的图像块进行恒等映射,获得恒等映射后的第一图像块包含的第一特征信息;经所述第二残差分支对输入当前HRU的图像块中的卷积核大小指示的图像区域进行卷积处理,获得卷积处理后的第二图像区域包含的第二特征信息;经所述第三残差分支将输入当前HRU的图像块按照池化核大小进行池化处理,并按照卷积核大小对池化处理后的图像块中的图像区域进行卷积处理,对卷积处理后的图像区域进行上采样,生成与输入当前HRU的图像块大小相同的第三图像块,获得所述第三图像块的第三特征信息;将所述第一特征信息、第二特征信息和第三特征信息进行合并处理,获得当前HRU提取到的特征信息。
可选地,如果当前HOURGLASS子神经网络为所述多个子神经网络中的首个子神经网络,则通过当前HOURGLASS子神经网络的HRU和/或残差模块RU,对输入的包括有目标对象的原始待检测图像进行特征提取操作;和/或,如果当前HOURGLASS子神经网络为所述多个子神经网络中的非首个子神经网络,则通过当前HOURGLASS子神经网络的HRU和/或RU,对与当前HOURGLASS子神经网络相邻的前一HOURGLASS子神经网络输出的图像进行特征提取操作。
根据本发明实施例的第二方面,提供了一种神经网络训练方法,包括:经神经网络对包括目标对象的训练样本图像进行特征提取操作;根据提取到的特征信息,生成所述目标对象的注意力图;使用所述注意力图修正所述特征信息;根据修正后的特征信息,获得目标对象的关键点预测信息;获得所述关键点预测信息与所述训练样本图像中的关键点标注信息之间的差异;根据所述差异调整所述神经网络的网络参数。
可选地,所述经神经网络对包括有目标对象的训练样本图像进行特征提取操作,包括:经卷积神经网络对所述训练样本图像进行卷积操作,获得所述训练样本图像的第一特征信息;所述根据提取到的特征信息,生成所述目标对象的注意力图,包括:对所述第一特征信息进行非线性变换,获得第二特征信息;根据所述第二特征信息,生成所述目标对象的注意力图。
可选地,在使用所述注意力图修正所述特征信息之前,所述方法还包括:使用条件随机场CRF对所述注意力图进行平滑化处理;或者,使用归一化函数对所述注意力图进行归一化处理。
可选地,所述神经网络包括端对端堆叠的多个子神经网络;针对每一个子神经网络,根据当前子神经网络提取的特征信息生成当前子神经网络的注意力图,通过当前子神经网络的注意力图修正当前子神经网络提取的特征信息;如果当前子神经网络为所述多个子神经网络中的非末个子神经网络,则当前子神经网络修正后的特征信息为相邻的后一子神经网络的输入;和/或,如果当前子神经网络为所述多个子神经网络中的末个子神经网络,则根据当前子神经网络修正后的特征信息,对所述目标对象进行关键点预测,获得目标对象的关键点预测信息。
可选地,所述通过当前子神经网络的注意力图修正当前子神经网络提取的特征信息,包括:根据当前子神经网络的注意力图,对表示当前子神经网络提取的特征信息的特征图中至少部分非目标对象对应的区域的像素值置零,获得当前子神经网络修正后的特征信息。
可选地,针对每一个子神经网络,所述经神经网络对包括目标对象的训练样本图像进行特征提取操作,包括:获得当前子神经网络的多个卷积层对应输出的不同分辨率的多个特征图,分别对多个特征图进行上采样,获得多个特征图对应的特征信息;所述根据提取到的特征信息,生成所述目标对象的注意力图,包括:根据多个特征图对应的特征信息,生成对应的多个不同分辨率的注意力图;对多个不同分辨率的注意力图进行合并处理,生成当前子神经网络的最终的目标对象的注意力图。
可选地,所述神经网络为沙漏HOURGLASS神经网络。
可选地,所述HOURGLASS神经网络包括多个HOURGLASS子神经网络,其中,在先HOURGLASS子神经网络的输出作为相邻的在后HOURGLASS子神经网络的输入,每个HOURGLASS子神经网络均采用第二方面所述的方法进行训练。
可选地,每个HOURGLASS子神经网络包括至少一个沙漏残差模块HRU;每个HRU包括第一残差分支、第二残差分支和第三残差分支;其中,经每个HOURGLASS子神经网络中的每个HRU对包括有目标对象的训练样本图像进行特征提取操作,包括:经所述第一残差分支对输入当前HRU的图像块进行恒等映射,获得恒等映射后的第一图像块包含的第一特征信息;经所述第二残差分支对输入当前HRU的图像块中的卷积核大小指示的图像区域进行卷积处理,获得卷积处理后的第二图像区域包含的第二特征信息;经所述第三残差分支将输入当前HRU的图像块按照池化核大小进行池化处理,并按照卷积核大小对池化处理后的图像块中的图像区域进行卷积处理,对卷积处理后的图像区域进行上采样,生成与输入当前HRU的图像块大小相同的第三图像块,获得所述第三图像块的第三特征信息;将所述第一特征信息、第二特征信息和第三特征信息进行合并处理,获得当前HRU提取到的特征信息。
可选地,如果当前HOURGLASS子神经网络为所述多个子神经网络中的首个子神经网络,则通过当前HOURGLASS子神经网络的HRU和/或残差模块RU,对输入的包括有目标对象的原始待检测图像进行特征提取操作;和/或,如果当前HOURGLASS子神经网络为所述多个子神经网络中的非首个子神经网络,则通过当前HOURGLASS子神经网络的HRU和/或RU,对与当前HOURGLASS子神经网络相邻的前一HOURGLASS子神经网络输出的图像进行特征提取操作。
根据本发明实施例的第三方面,提供了一种关键点检测装置,包括:第一特征提取模块,用于经神经网络对包括有目标对象的待检测图像进行特征提取操作;第一生成模块,用于根据提取到的特征信息,生成所述目标对象的注意力图;第一修正模块,用于使用所述注意力图修正所述特征信息;检测模块,用于根据修正后的特征信息,对所述目标对象进行关键点检测。
可选地,所述第一特征提取模块,用于经卷积神经网络对所述待检测图像进行卷积操作,获得所述待检测图像的第一特征信息;所述第一生成模块,用于对所述第一特征信息进行非线性变换,获得第二特征信息;根据所述第二特征信息,生成所述目标对象的注意力图。
可选地,所述装置还包括:第一处理模块,用于在所述第一修正模块使用所述注意力图修正所述特征信息之前,使用条件随机场CRF对所述注意力图进行平滑化处理;或者,使用归一化函数对所述注意力图进行归一化处理。
可选地,所述神经网络包括端对端堆叠的多个子神经网络;针对每一个子神经网络,所述第一生成模块根据当前子神经网络提取的特征信息生成当前子神经网络的注意力图,所述第一修正模块通过当前子神经网络的注意力图修正当前子神经网络提取的特征信息;如果当前子神经网络为所述多个子神经网络中的非末个子神经网络,则当前子神经网络修正后的特征信息为相邻的后一子神经网络的输入;和/或,如果当前子神经网络为所述多个子神经网络中的末个子神经网络,则所述检测模块根据当前子神经网络修正后的特征信息,对所述目标对象进行关键点检测。
可选地,所述第一修正模块在通过当前子神经网络的注意力图修正当前子神经网络提取的特征信息时,根据当前子神经网络的注意力图,对表示当前子神经网络提取的特征信息的特征图中至少部分非目标对象对应的区域的像素值置零,获得当前子神经网络修正后的特征信息。
可选地,所述第一修正模块在根据当前子神经网络的注意力图,对表示当前子神经网络提取的特征信息的特征图中至少部分非目标对象对应的区域的像素值置零,获得当前子神经网络修正后的特征信息时,如果当前子神经网络是设定的前N个子神经网络,则使用当前子神经网络的注意力图,对表示当前子神经网络提取的特征信息的特征图中至少部分非目标对象对应的区域的像素值置零,获得所述目标对象所在的区域的特征信息;和/或,如果当前子神经网络并非设定的前N个子神经网络,则经当前子神经网络对表示目标对象所在的区域的特征信息的特征图进行特征提取操作,根据提取到的特征信息生成当前子神经网络的注意力图;使用当前子神经网络的注意力图,对表示当前子神经网络提取的特征信息的特征图中至少部分非目标对象的关键点对应的区域的像素值置零,获得所述目标对象的关键点对应的区域的特征信息;其中,所述前N个子神经网络对应的注意力图的分辨率,低于后M-N个子神经网络对应的注意力图的分辨率,其中,M表示子神经网络的总数量,M为大于1的整数,N为大于0的整数且N小于M。
可选地,针对每一个子神经网络,所述第一特征提取模块获得当前子神经网络的多个卷积层对应输出的不同分辨率的多个特征图,分别对多个特征图进行上采样,获得多个特征图对应的特征信息;所述第一生成模块根据多个特征图对应的特征信息,生成对应的多个不同分辨率的注意力图;对多个不同分辨率的注意力图进行合并处理,生成当前子神经网络的最终的目标对象的注意力图。
可选地,所述神经网络为沙漏HOURGLASS神经网络。
可选地,所述HOURGLASS神经网络包括多个HOURGLASS子神经网络,每个HOURGLASS子神经网络包括至少一个沙漏残差模块HRU;每个HRU包括第一残差分支、第二残差分支和第三残差分支;其中,所述第一特征提取模块在经每个HOURGLASS子神经网络中的每个HRU对包括有目标对象的待检测图像进行特征提取操作时,经所述第一残差分支对输入当前HRU的图像块进行恒等映射,获得恒等映射后的第一图像块包含的第一特征信息;经所述第二残差分支对输入当前HRU的图像块中的卷积核大小指示的图像区域进行卷积处理,获得卷积处理后的第二图像区域包含的第二特征信息;经所述第三残差分支将输入当前HRU的图像块按照池化核大小进行池化处理,并按照卷积核大小对池化处理后的图像块中的图像区域进行卷积处理,对卷积处理后的图像区域进行上采样,生成与输入当前HRU的图像块大小相同的第三图像块,获得所述第三图像块的第三特征信息;将所述第一特征信息、第二特征信息和第三特征信息进行合并处理,获得当前HRU提取到的特征信息。
可选地,第一特征提取模块在进行特征提取操作时:如果当前HOURGLASS子神经网络为所述多个子神经网络中的首个子神经网络,则通过当前HOURGLASS子神经网络的HRU和/或残差模块RU,对输入的包括有目标对象的原始待检测图像进行特征提取操作;和/或,如果当前HOURGLASS子神经网络为所述多个子神经网络中的非首个子神经网络,则通过当前HOURGLASS子神经网络的HRU和/或RU,对与当前HOURGLASS子神经网络相邻的前一HOURGLASS子神经网络输出的图像进行特征提取操作。
根据本发明实施例的第四方面,提供了一种神经网络训练装置,包括:第二特征提取模块,用于经神经网络对包括目标对象的训练样本图像进行特征提取操作;第二生成模块,用于根据提取到的特征信息,生成所述目标对象的注意力图;第二修正模块,用于使用所述注意力图修正所述特征信息;预测模块,用于根据修正后的特征信息,获得目标对象的关键点预测信息;差异获得模块,用于获得所述关键点预测信息与所述训练样本图像中的关键点标注信息之间的差异;调整模块,用于根据所述差异调整所述神经网络的网络参数。
可选地,所述第二特征提取模块,用于经卷积神经网络对所述训练样本图像进行卷积操作,获得所述训练样本图像的第一特征信息;所述第二生成模块,用于对所述第一特征信息进行非线性变换,获得第二特征信息;根据所述第二特征信息,生成所述目标对象的注意力图。
可选地,所述装置还包括:第二处理模块,用于在所述第二修正模块使用所述注意力图修正所述特征信息之前,使用条件随机场CRF对所述注意力图进行平滑化处理;或者,使用归一化函数对所述注意力图进行归一化处理。
可选地,所述神经网络包括端对端堆叠的多个子神经网络;针对每一个子神经网络,所述第二生成模块根据当前子神经网络提取的特征信息生成当前子神经网络的注意力图,所述第二修正模块通过当前子神经网络的注意力图修正当前子神经网络提取的特征信息;如果当前子神经网络为所述多个子神经网络中的非末个子神经网络,则当前子神经网络修正后的特征信息为相邻的后一子神经网络的输入;和/或,如果当前子神经网络为所述多个子神经网络中的末个子神经网络,则所述预测模块根据当前子神经网络修正后的特征信息,对所述目标对象进行关键点预测,获得目标对象的关键点预测信息。
可选地,所述第二修正模块在通过当前子神经网络的注意力图修正当前子神经网络提取的特征信息时,根据当前子神经网络的注意力图,对表示当前子神经网络提取的特征信息的特征图中至少部分非目标对象对应的区域的像素值置零,获得当前子神经网络修正后的特征信息。
可选地,针对每一个子神经网络,所述第二特征提取模块获得当前子神经网络的多个卷积层对应输出的不同分辨率的多个特征图,分别对多个特征图进行上采样,获得多个特征图对应的特征信息;所述第二生成模块根据多个特征图对应的特征信息,生成对应的多个不同分辨率的注意力图;对多个不同分辨率的注意力图进行合并处理,生成当前子神经网络的最终的目标对象的注意力图。
可选地,所述神经网络为沙漏HOURGLASS神经网络。
可选地,所述HOURGLASS神经网络包括多个HOURGLASS子神经网络,其中,在先HOURGLASS子神经网络的输出作为相邻的在后HOURGLASS子神经网络的输入,每个HOURGLASS子神经网络均采用第四方面所述的装置进行训练。
可选地,每个HOURGLASS子神经网络包括至少一个沙漏残差模块HRU;每个HRU包括第一残差分支、第二残差分支和第三残差分支;其中,所述第二特征提取模块在经每个HOURGLASS子神经网络中的每个HRU对包括有目标对象的训练样本图像进行特征提取操作时,经所述第一残差分支对输入当前HRU的图像块进行恒等映射,获得恒等映射后的第一图像块包含的第一特征信息;经所述第二残差分支对输入当前HRU的图像块中的卷积核大小指示的图像区域进行卷积处理,获得卷积处理后的第二图像区域包含的第二特征信息;经所述第三残差分支将输入当前HRU的图像块按照池化核大小进行池化处理,并按照卷积核大小对池化处理后的图像块中的图像区域进行卷积处理,对卷积处理后的图像区域进行上采样,生成与输入当前HRU的图像块大小相同的第三图像块,获得所述第三图像块的第三特征信息;将所述第一特征信息、第二特征信息和第三特征信息进行合并处理,获得当前HRU提取到的特征信息。
可选地,第二特征提取模块在进行特征提取操作时:如果当前HOURGLASS子神经网络为所述多个子神经网络中的首个子神经网络,则通过当前HOURGLASS子神经网络的HRU和/或残差模块RU,对输入的包括有目标对象的原始待检测图像进行特征提取操作;和/或,如果当前HOURGLASS子神经网络为所述多个子神经网络中的非首个子神经网络,则通过当前HOURGLASS子神经网络的HRU和/或RU,对与当前HOURGLASS子神经网络相邻的前一HOURGLASS子神经网络输出的图像进行特征提取操作。
根据本发明实施例的第五方面,提供了一种电子设备,包括:第一处理器、第一存储器、第一通信元件和第一通信总线,所述第一处理器、所述第一存储器和所述第一通信元件通过所述第一通信总线完成相互间的通信;所述第一存储器用于存放至少一可执行指令,所述可执行指令使所述第一处理器执行如本发明实施例第一方面提供的任一项所述的关键点检测方法对应的操作。
根据本发明实施例的第六方面,提供了一种电子设备,包括:第二处理器、第二存储器、第二通信元件和第二通信总线,所述第二处理器、所述第二存储器和所述第二通信元件通过所述第二通信总线完成相互间的通信;所述第二存储器用于存放至少一可执行指令,所述可执行指令使所述第二处理器执行如本发明实施例第二方面提供的任一项所述的神经网络训练方法对应的操作。
根据本发明实施例的第七方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有:用于经神经网络对包括有目标对象的待检测图像进行特征提取操作的可执行指令;用于根据提取到的特征信息,生成所述目标对象的注意力图的可执行指令;用于使用所述注意力图修正所述特征信息的可执行指令;用于根据修正后的特征信息,对所述目标对象进行关键点检测的可执行指令。
根据本发明实施例的第八方面,提供了另一种计算机可读存储介质,所述计算机可读存储介质存储有:用于经神经网络对包括目标对象的训练样本图像进行特征提取操作的可执行指令;用于根据提取到的特征信息,生成所述目标对象的注意力图的可执行指令;用于使用所述注意力图修正所述特征信息的可执行指令;用于根据修正后的特征信息,获得目标对象的关键点预测信息的可执行指令;用于获得所述关键点预测信息与所述训练样本图像中的关键点标注信息之间的差异的可执行指令;用于根据所述差异调整所述神经网络的网络参数的可执行指令。
根据本发明实施例提供的技术方案,将Attention(注意力)机制引入神经网络,根据神经网络输出的目标对象的特征信息,生成注意力图。引入Attention机制后的神经网络可以重点关注目标对象的信息,在生成的注意力图中,目标对象的特征信息与非目标对象的特征信息存在较大差异。因此,使用注意力图对特征图进行修正,从而实现对目标对象的特征的修正,可以使得待检测图像中的目标对象的特征信息更为突出,更易被检测和识别,提高检测准确性,减少误检或漏检现象。
附图说明
图1是根据本发明实施例一的一种关键点检测方法的步骤流程图;
图2是根据本发明实施例二的一种关键点检测方法的步骤流程图;
图3是图2所示实施例中的一种用于关键点检测的HOURGLASS网络结构的示意图;
图4是图2所示实施例中的一种改进的HRU的示意图;
图5是根据本发明实施例三的一种神经网络训练方法的步骤流程图;
图6是根据本发明实施例四的一种神经网络训练方法的步骤流程图;
图7是根据本发明实施例五的一种关键点检测装置的结构框图;
图8是根据本发明实施例六的一种关键点检测装置的结构框图;
图9是根据本发明实施例七的一种神经网络训练装置的结构框图;
图10是根据本发明实施例八的一种神经网络训练装置的结构框图;
图11是根据本发明实施例九的一种电子设备的结构示意图;
图12是根据本发明实施例十的一种电子设备的结构示意图。
具体实施方式
下面结合附图(若干附图中相同的标号表示相同的元素)和实施例,对本发明实施例的具体实施方式作进一步详细说明。以下实施例用于说明本发明,但不用来限制本发明的范围。
本领域技术人员可以理解,本发明实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
实施例一
参照图1,示出了根据本发明实施例一的一种关键点检测方法的步骤流程图。
本实施例的关键点检测方法包括以下步骤:
步骤S102:经神经网络对包括有目标对象的待检测图像进行特征提取操作。
本发明实施例中,神经网络可以是任意适当的可实现特征提取或目标对象检测的神经网络,包括但不限于卷积神经网络、增强学习神经网络、对抗神经网络中的生成网络等等。神经网络中具体结构的设置可以由本领域技术人员根据实际需求适当设定,如卷积层的层数、卷积核的大小、通道数等等,本发明实施例对此不作限制。
通过神经网络的特征提取,可以获得目标对象的特征信息,例如,通过卷积神经网络的特征提取,获得包括有特征信息的特征图(Feature Map)。
步骤S104:根据提取到的特征信息,生成目标对象的注意力图。
本发明实施例中,在神经网络中引入注意力机制,并生成注意力图(AttentionMap)。
人类视觉注意力对信息的处理不是均衡的,它会自动地对感兴趣的区域进行处理,提取出有用的信息,而对不感兴趣的区域则不作处理,以使人类能够在复杂的视觉环境中快速定位感兴趣目标。注意力机制是一种用计算机来模拟人类视觉注意力的模型,在图像中提取人眼所能观察到的引人注意的焦点,也即,图像的显著性区域。而基于神经网络提取出的特征图生成注意力图,一方面,使得图像的显著性区域,如目标对象所在的区域,表现得更为显著;另一方面,与处理原始图像相比,减轻了注意力机制的数据处理负担。
步骤S106:使用注意力图修正特征信息。
因注意力图中目标对象所在的区域较为显著,因此,可以使用注意力图修正特征信息,例如,使用注意力图对特征图进行修正,以有效过滤非目标对象的信息,使得待目标对象的信息更为突出。
步骤S108:根据修正后的特征信息,对目标对象进行关键点检测。
如上所述,修正后的特征信息能够使目标对象的特征信息更为突出,一方面,非目标对象的信息对目标对象的识别和检测造成的干扰较小;另一方面,通过注意力机制提取出的目标对象的特征信息之间具有一定的空间上下文关联,突出的目标对象的特征信息便于神经网络对关键点的全面检测,尽可能避免关键点漏检。以上,都使得目标对象更易于被检测和识别出来。
根据本实施例的图像检测方法,将注意力(Attention)机制引入神经网络,根据神经网络输出的特征信息,生成注意力图。引入Attention机制后的神经网络可以重点关注目标对象的信息,在生成的注意力图中,目标对象的特征信息与非目标对象的特征信息存在较大差异。因此,使用注意力图对特征图进行修正,从而实现对目标对象的特征的修正,可以使得待检测图像中的目标对象的特征信息更为突出,更易被检测和识别,提高检测准确性,减少误检或漏检现象。
本实施例的关键点检测方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:终端设备和服务器等。
实施例二
参照图2,示出了根据本发明实施例二的一种关键点检测方法的步骤流程图。
本实施例的关键点检测方法包括以下步骤:
步骤S202:获取待检测图像。
本发明实施例中,待检测图像可以是静态图像,也可以是视频帧图像中的任意一帧图像。
步骤S204:经神经网络对包括有目标对象的待检测图像进行特征提取操作。
如实施例一中所述,神经网络可以选用任意适当的可实现特征提取或目标对象检测的神经网络。本实施例中,神经网络选择卷积神经网络,可选地,卷积神经网络可以为HOURGLASS(沙漏)神经网络。相比较于其它卷积神经网络,HOURGLASS神经网络可以通过对目标对象的关键点的有效检测实现目标对象的识别,尤其是可以对人体姿态进行非常有效的检测。单个HOURGLASS神经网络采用对称的拓扑结构,通常包括输入层、卷积层、池化层、上采样层等,HOURGLASS神经网络的输入是图片,输出是可以对每个像素点进行判断的得分图。输出部分每个得分图对应一个目标对象上的一个关键点。针对某一个关键点,得分图上分数最高的位置,代表检测到的该关键点的位置。HOURGLASS神经网络中,通过POOLING(池化)层不断减小分辨率,得到全局特征,然后将全局特征插值放大,和特征图中对应分辨率的位置结合进行判断。
可选地,神经网络可以包括端对端堆叠的多个子神经网络,例如端对端堆叠的多个卷积神经网络,可选地,可选择端对端堆叠的多个HOURGLASS子神经网络。端对端堆叠的多个子神经网络相较于单个神经网络,可以对特征进行更深层次的提取,以保证提取的特征的准确和有效。但不限于HOURGLASS子神经网络,其它具有与HOURGLASS神经网络相同或相似结构、具有关键点检测功能的神经网络均可适用本发明实施例的方案。
当神经网络选择端对端堆叠的多个HOURGLASS子神经网络时,一种可行结构如图3所示。图3中,由8个HOURGLASS子神经网络堆叠在一起,形成用于进行关键点检测的HOURGLASS神经网络。这8个HOURGLASS子神经网络端对端连接在一起,前一HOURGLASS的输出为相邻的后一HOURGLASS的输入。通过该种结构,使得自底向上、自顶向下的分析和学习贯穿模型始终,从而使得对目标对象关键点的检测更为准确。但本领域技术人员应当理解,实际应用中,HOURGLASS子神经网络的数量可以根据实际需要适当设定,本发明实施例仅以8个为例进行说明。
当神经网络选择卷积神经网络时,则经卷积神经网络对待检测图像进行卷积操作,以获得待检测图像的第一特征信息。
在一种可行方式中,卷积神经网络对输入的待检测图像进行特征提取获得特征信息并生成特征图。但需要说明的是,可以认为特征图为特征信息的一种表现形式,在实际应用中,可以直接对特征信息进行操作。
通常情况下,可以获取卷积神经网络如HOURGLASS神经网络中最后一个卷积层输出的目标对象的特征信息。当HOURGLASS神经网络包括多个HOURGLASS子神经网络时,对每一个HOURGLASS子神经网络都引入注意力机制,获取每一个HOURGLASS子神经网络中的最后一个卷积层输出的特征信息(如特征图)。
此外,每个HOURGLASS子神经网络通常包括多个RU(Residual Unit,残差模块),HOURGLASS神经网络通过RU提取图像较高层次的特征,同时保留原有层次的信息,不改变数据尺寸,只改变数据深度,可以看作是一个保留数据尺寸的高级卷积层。并且,RU能够结合不同分辨率的特征,使得特征学习更加鲁棒。
本实施例中,在每个HOURGLASS子神经网络中的多个RU中,对其中的至少一个RU进行了改进,改进后的RU称为HRU(Hourglass Residual Unit,沙漏残差模块)。每个HOURGLASS中包括至少一个HRU,每个HRU包括第一残差分支、第二残差分支和第三残差分支。每个HRU在进行特征提取操作时,经第一残差分支对输入当前HRU的图像块进行恒等映射,获得恒等映射后的第一图像块包含的第一特征信息;经第二残差分支对输入当前HRU的图像块中的卷积核大小指示的图像区域进行卷积处理,获得卷积处理后的第二图像区域包含的第二特征信息;经第三残差分支将输入当前HRU的图像块按照池化核大小进行池化处理,并按照卷积核大小对池化处理后的图像块中的图像区域进行卷积处理,对卷积处理后的图像区域进行上采样,生成与输入当前HRU的图像块大小相同的第三图像块,获得第三图像块的第三特征信息;进而,将第一特征信息、第二特征信息和第三特征信息进行合并处理,获得当前HRU提取到的特征信息。通过对传统RU的改进,扩大了RU输出的感受野(receptive field),简化了RU的学习和检测过程。但本领域技术人员应当明了,在实际应用中,采用传统的RU,也即仅设置有第一残差分支和第二残差分支的RU,同样适用于本发明实施例的方案。
在一个HOURGLASS子神经网络中可能仅包括多个HRU,也可能仅包括多个RU,还可能不仅包括至少一个HRU,也包括至少一个RU。在此情况下,前一个HRU或RU的输出为相邻的后一个HRU或RU的输入,HOURGLASS子神经网络中的最后一个HRU或RU的输出为当前HOURGLASS子神经网络的输出。
并且,如果当前HOURGLASS子神经网络为多个子神经网络中的首个子神经网络(如图3中的第一个HOURGLASS子神经网络),其输入为原始待检测图像,则通过当前HOURGLASS子神经网络的HRU和/或残差模块RU,对输入的包括有目标对象的原始待检测图像进行特征提取操作;和/或,如果当前HOURGLASS子神经网络为多个子神经网络中的非首个子神经网络,则通过当前HOURGLASS子神经网络的HRU和/或RU,对与当前HOURGLASS子神经网络相邻的前一HOURGLASS子神经网络输出的图像进行特征提取操作。
可选地,为使神经网络提取的特征信息更为准确,在经神经网络对包括有目标对象的待检测图像进行特征提取操作时,可以获得当前子神经网络的多个卷积层对应输出的不同分辨率的多个特征图,分别对多个特征图进行上采样,然后获得多个特征图对应的特征信息。
步骤S206:根据提取到的特征信息,生成目标对象的注意力图。
在一种可行方式中,如使用前述经卷积神经网络对待检测图像进行卷积操作,获得待检测图像的第一特征信息的方式时,可以对第一特征信息进行非线性变换,获得第二特征信息;根据第二特征信息,生成注意力图。
例如,采用公式s=g(wα*f+b)生成注意力图。其中,wα表示卷积过滤器,是一个包含网络参数如HOURGLASS神经网络的网络参数的线性变换的矩阵,f表示一个神经网络输出的特征如HOURGLASS神经网络最后输出的特征(可表现为一个特征层的特征f),b表示偏差(bias),g()表示非线性变换的方程(如ReLU)。特征层的特征f有多个channel(比如128、256、512这三种常用的设置),但是s作为输出,只有一个channel。通过非线性变换g(),将s的值控制在0-1之间。
当神经网络选择HOURGLASS神经网络、且HOURGLASS神经网络包括多个HOURGLASS子神经网络时,针对每一个HOURGLASS子神经网络:可以获得当前HOURGLASS子神经网络的多个卷积层对应输出的不同分辨率的多个特征图;分别对多个特征图进行上采样,获得多个特征图对应的特征信息;根据多个特征图对应的特征信息,生成对应的多个不同分辨率的注意力图。不同分辨率的特征图能够实现特征从粗到细的多层次提取。
步骤S208:对注意力图进行处理。
包括:使用CRF(Conditional Random Fields,条件随机场)对注意力图进行平滑化处理;或者,使用归一化函数(包括但不限于SOFTMAX函数)对注意力图进行归一化处理。
其中,CRF的获得可以由本领域技术人员采用任意适当的方式获得,CRF中的参数能够体现特征之间的空间上下文信息,实现注意力图的平滑化处理。
本步骤为可选步骤,通过本步骤,可以去除注意力图中的噪声点。
步骤S210:使用注意力图修正特征信息。
注意力图具有较显著的目标对象的特征信息,使用注意力图修正特征信息,可以使得目标对象的特征信息更为显著。
当神经网络包括端对端堆叠的多个子神经网络时,如前述的多个HOURGLASS子神经网络时,针对每一个子神经网络,根据当前子神经网络提取的特征信息生成当前子神经网络的注意力图,通过当前子神经网络的注意力图修正当前子神经网络提取的特征信息;其中,如果当前子神经网络为多个子神经网络中的非末个子神经网络,则当前子神经网络修正后的特征信息为相邻的后一子神经网络的输入;和/或,如果当前子神经网络为多个子神经网络中的末个子神经网络,则可以根据当前子神经网络修正后的特征信息,对目标对象进行关键点检测。
当如步骤S206中所述,通过获得当前子神经网络的多个卷积层对应输出的不同分辨率的多个特征图,分别对多个特征图进行上采样,获得多个特征图对应的特征信息时,则可以根据多个特征图对应的特征信息,生成对应的多个不同分辨率的注意力图,将生成的多个不同分辨率的注意力图进行合并处理,生成当前子神经网络的最终的目标对象的注意力图,使用最终的注意力图修正当前HOURGLASS输出的特征图,获得修正后的特征信息。当HOURGLASS神经网络包括多个HOURGLASS子神经网络时,每一个HOURGLASS子神经网络都执行上述修正过程。
具体地,可以根据当前子神经网络的注意力图,对表示当前子神经网络提取的特征信息的特征图中至少部分非目标对象对应的区域的像素值置零,获得当前子神经网络修正后的特征信息。这样,注意力图中为1的点,将不会改变对应位置的特征信息的值,但是注意力图中为0的点,就会将对应位置的特征信息置为0,从而归类到非目标对象区域中,一方面使得目标对象更为突出,另一方面,为0的点将不再参与接下来的处理,减轻了目标对象的关键点检测的数据处理负担,提高了处理效率。
在一种可行方式中,如果当前子神经网络是设定的前N个子神经网络,则使用当前子神经网络的注意力图,对表示当前子神经网络提取的特征信息的特征图中至少部分非目标对象对应的区域的像素值置零,获得目标对象所在的区域的特征信息;和/或,如果当前子神经网络并非设定的前N个子神经网络,则经当前子神经网络对表示目标对象所在的区域的特征信息的特征图进行特征提取操作,根据提取到的特征信息生成当前子神经网络的注意力图;使用当前子神经网络的注意力图,对表示当前子神经网络提取的特征信息的特征图中至少部分非目标对象的关键点对应的区域的像素值置零,获得目标对象的关键点对应的区域的特征信息;其中,前N个子神经网络对应的注意力图的分辨率,低于后M-N个子神经网络对应的注意力图的分辨率,其中,M表示子神经网络的总数量,M为大于1的整数,N为大于0的整数且N小于M。
例如,在神经网络由多个HOURGLASS子神经网络组成的情况下,在使用注意力图修正特征信息时,可以判断当前HOURGLASS子神经网络是否为设定的前N个子神经网络;若是,则使用注意力图修正当前HOURGLASS子神经网络输出的特征图;获得目标对象所在的区域的特征信息;若否,则使用注意力图修正当前HOURGLASS子神经网络输出的特征图,获得目标对象的关键点的特征信息。该种方式中,对堆叠的多个HOURGLASS子神经网络提取的特征信息进行区分,该区分可以通过调整网络参数实现。其中,前N个HOURGLASS子神经网络提取的特征信息的分辨率较低,可以使得目标对象所在的前景部分更为突出,尽可能去除背景部分对后续目标对象确定的影响;后M-N个HOURGLASS子神经网络提取的特征信息的分辨率较高,可去除背景部分的影响的基础上,进一步对目标对象的关键点进行明确的检测和识别。
其中,M和N的数量可以由本领域技术人员根据实际需求适当设置,较优地,N可以设置为M的一半数量。
步骤S212:根据修正后的特征信息,对目标对象进行关键点检测。
以下,以一个人体识别的具体实例为例,对本发明实施例的图像检测方法进行说明。
本实例以HOURGLASS神经网络为基础,将8个HOURGLASS子神经网络堆叠在一起,起始输入为源图片,最终输出对于源图片中每个像素点的判断的多个得分图。每个得分图对应一个人体身体上的一个关键点。A关键点得分图上分数最高的位置,代表检测到关键点A的位置。HOURGLASS神经网络是通过POOLING层不断减小分辨率,得到全局特征,然后将全局特征插值放大,和特征图对应分辨率的位置结合进行判断。
本实例中,对上述由8个HOURGLASS子神经网络堆叠在一起神经网络结果进行改进,在每一个HOURGLASS子神经网络的最后一个卷积层的后面引入注意力机制,包括:产生注意力图,对注意力进行平滑化处理,使用注意力图改变源图片中的输入特征的值。
以下,以单个HOURGLASS子神经网络的改进为例,对引入的注意力机制的HOURGLASS神经网络进行说明,其它HOURGLASS子神经网络可以参照下述说明实现改进。
该改进包括:
(1)产生注意力图。
采用公式s=g(wα*f+b)生成注意力图。
公式中的f是当前HOURGLASS子神经网络最后一个卷积层输出的特征层中的特征,wα是线性变换的矩阵(包括所有网络训练参数),b是偏差(bias),g()是非线性变换的方程(如CRF或SOFTMAX)。特征层的特征包括多个channel(比如128,256,512这三种常用的设置)的特征,但是s作为输出,只有一个channel,通过非线性变换g(),将s的值控制在0-1之间。
(2)注意力图平滑化处理。
本步骤中,一种方式可以通过传统的SOFTMAX函数将注意力图中的值归一化到0-1之间;另一种方式通过多次迭代学习到的一个平滑化的核,即通过CRF去掉注意力图中的噪点。其中,CRF的获得可以由本领域技术人员采用任意适当的方式获得,CRF中的参数能够体现特征之间的空间上下文信息,实现注意力图的平滑化处理。
(3)使用注意力图改变源图像的输入特征的值(特征图中的特征的值)。
注意力图是一个W*H的图,只有一个channel,而特征层是W*H*C的张量。其中,W表示宽,H表示高,C表示通道数。将注意力图复制C个channel,然后点对点的乘在特征层上。这样,注意力图中为1的点,将不会改变特征层对应位置的值,但是注意力图中为0的点,就会将特征层中对应位置至为0,从而归类到背景中,不再参与接下来的判断。
本实例中,采用了不同分辨率的特征层,从而结合了全局特征和局部细节特征的判断,由此,在对特征层的特征进行差值的同时,产生了多个不同大小的注意力图,如4个不同大小的注意力图(分别是8*8,16*16,32*32和64*64)。将不同的注意力图调整到设定大小如源图像的1/4大小,并覆盖到特征图上。其中,8*8像素大小的注意力图可以将整个人体从背景中抠出来,但是64*64的注意力图中,只有人体的关键点被选出来。将这四个注意力图相加合并,然后用合并后的注意力图去改变源图像输入特征的值。
此外,本实例的注意力机制采用了由粗到细的注意力机制。在不同的HOURGLASS子神经网络上,注意力机制关注的点不同。在前四个HOURGLASS子神经网络中,网络比较浅,分辨前景背景的能力较差,所以在前四个HOURGLASS子神经网络中,只通过注意力机制去区分前景和背景,做一个粗略的分割。在后四个HOURGLASS子神经网络中,网络比较深,学习能力更强,有更好的分辨能力,通过注意力机制去进一步区分前景中关键点的分类(比如是头,还是手)。
通过上述过程,实现了HOURGLASS神经网络中注意力机制的引入。
在此基础上,可选地,本实例采用新的HRU结构来替换掉每个HOURGLASS子神经网络中全部或部分的RU。如图4所示,原始的RU中,只有A分支(即恒等映射Identity mappingbranch)和B分支(即Residual branch)两个分支,本实例增加了C分支(即Hourglassresidual branch)。如图4中所示,A分支中主要用于对输入当前HRU的图像进行恒等映射,仍然输出该输入的图像;B分支对输入当前HRU的图像依次进行1×1,3×3,1×1的卷积,最终获得1×1的卷积结果;C分支对输入当前HRU的图像依次进行2×2的池化,两次3×3的卷积,以及上采样处理,最终获得与输入当前HRU的图像的大小相同的图像。通过增加C分支,可以增加RU输出的时候的receptive field(感受野),从而使得判断不局限于一个小的区域。
通过本实例,第一方面,在HOURGLASS神经网络中引入注意力机制,能够有效区分图像的目标对象所在的前景(如人)和背景(如周围物体),然后集中检测前景中目标对象的关键点,能够使得目标对象被遮挡的部分被划分在前景中,从而在后续的检测中能够更容易被检测到;第二方面,结合不同分辨率特征层产生的特征图判断目标对象的关键点,分辨率较小的特征图的特征产生的注意力图涵盖相对大的区域,分辨率较大的特征图的特征产生的注意力图涵盖更细节的点,通过结合不同分辨率的图,将全局的判断和局部的判断结合起来,从而更好的处理目标对象的关键点被遮挡的问题;第三方面,可以将传统注意力机制中的归一化函数替换为CRF,从而去掉注意力机制中的噪音点;第四方面,使用改进的HRU,从而扩大了模型的receptive field。
根据本实施例的图像检测方法,将Attention机制引入神经网络,根据神经网络输出的特征信息,生成注意力图。引入Attention机制后的神经网络可以重点关注目标对象的信息,在生成的注意力图中,目标对象的特征信息与非目标对象的特征信息存在较大差异。因此,使用注意力图对待检测图像的特征信息进行修正,从而实现对待检测图像的特征的修正,可以使得待检测图像中的目标对象的特征信息更为突出,更易被检测和识别,提高检测准确性,减少误检或漏检现象。
本实施例的图像检测方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:终端设备和服务器等。
实施例三
参照图5,示出了根据本发明实施例三的一种神经网络训练方法的步骤流程图。
本实施例的神经网络训练方法包括以下步骤:
步骤S302:经神经网络对包括目标对象的训练样本图像进行特征提取操作。
本实施例中,神经网络可以是任意适当的可实现特征提取和目标对象关键点检测的神经网络,包括但不限于卷积神经网络、增强学习神经网络、对抗神经网络中的生成网络等等。可选地,卷积神经网络可以为HOURGLASS神经网络。
步骤S304:根据提取到的特征信息,生成目标对象的注意力图。
步骤S306:使用注意力图修正特征信息。
步骤S308:根据修正后的特征信息,获得目标对象的关键点预测信息。
对神经网络如卷积神经网络的训练是一个迭代的多次训练学习的过程,在每一次训练学习过程中,对图像中的目标对象的关键点进行预测,获得目标对象的关键点预测信息。进而,可以根据该关键点预测信息与实际标注信息的差别,反向调整卷积神经网络的网络参数,以实现最终较为精准的预测。训练的终止条件可以是训练次数满足设定的次数等常规条件,本发明实施例对此不作限制。
步骤S310:获得关键点预测信息与训练样本图像中的关键点标注信息之间的差异。
其中,获得关键点预测信息与关键点标注信息之间的差异的方式可以由本领域技术人员根据实际需求适当设置,包括但不限于均方误差方式等,本发明实施例对此不作限制。
步骤S312:根据所述差异调整卷积神经网络的网络参数。
通过本实施例,实现了对引入注意力机制的神经网络的训练,训练后的神经网络能够使用注意力图对待检测图像的特征信息进行修正,从而实现对待检测图像的特征的修正,可以使得待检测图像中的目标对象的特征信息更为突出,更易被检测和识别。
本实施例的神经网络训练方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:终端设备和服务器等。
实施例四
参照图6,示出了根据本发明实施例四的一种神经网络训练方法的步骤流程图。
本实施例以对引入了注意力机制的HOURGLASS神经网络的训练为例,其它引入注意力机制的卷积神经网络或其它神经网络的训练可参照本实施例实现。其中,本实施例中的HOURGLASS神经网络包括多个HOURGLASS子神经网络。
本实施例的神经网络训练方法包括以下步骤:
步骤S402:经HOURGLASS子神经网络对包括目标对象的训练样本图像进行特征提取操作。
本实施例中,HOURGLASS神经网络包括多个HOURGLASS子神经网络,如图3中所示的8个,其中,第一个HOURGLASS子神经网络的输入为原始的训练样本图像,其它HOURGLASS子神经网络的输入为相邻的前一HOURGLASS子神经网络的输出。
在一种可行方式中,本步骤可以通过经卷积神经网络对训练样本图像进行卷积操作,获得训练样本图像的第一特征信息。如,通过HOURGLASS子神经网络对训练样本图像进行卷积操作,获得训练样本图像的第一特征信息。
本实施例中,神经网络采用卷积神经网络,具体为HOURGLASS神经网络,该HOURGLASS神经网络包括多个HOURGLASS子神经网络,其中,在先HOURGLASS子神经网络的输出作为相邻的在后HOURGLASS子神经网络的输入,每个HOURGLASS子神经网络均采用本发明实施例的方法进行训练。
当神经网络包括端对端堆叠的多个子神经网络时,针对每一个子神经网络,在经神经网络对包括目标对象的训练样本图像进行特征提取操作时,可以获得当前子神经网络的多个卷积层对应输出的不同分辨率的多个特征图,分别对多个特征图进行上采样,获得多个特征图对应的特征信息,以使获得的特征信息丰富和精准。
此外,当神经网络采用包括多个HOURGLASS子神经网络的结构时,每个HOURGLASS子神经网络包括至少一个HRU,每个HRU包括第一残差分支、第二残差分支和第三残差分支。在此情况下,经每个HOURGLASS子神经网络中的每个HRU对包括有目标对象的训练样本图像进行特征提取操作。具体地,包括:经第一残差分支对输入当前HRU的图像块进行恒等映射,获得恒等映射后的第一图像块包含的第一特征信息;经第二残差分支对输入当前HRU的图像块中的卷积核大小指示的图像区域进行卷积处理,获得卷积处理后的第二图像区域包含的第二特征信息;经第三残差分支将输入当前HRU的图像块按照池化核大小进行池化处理,并按照卷积核大小对池化处理后的图像块中的图像区域进行卷积处理,对卷积处理后的图像区域进行上采样,生成与输入当前HRU的图像块大小相同的第三图像块,获得第三图像块的第三特征信息;将第一特征信息、第二特征信息和第三特征信息进行合并处理,获得当前HRU提取到的特征信息。通过该方式,扩大了RU输出的感受野(receptive field),简化了RU的学习和检测过程。但本领域技术人员应当明了,在实际应用中,采用传统的RU,也即仅设置有第一残差分支和第二残差分支的RU,同样适用于本发明实施例的方案。
此外,还需要说明的是,如果当前HOURGLASS子神经网络为多个子神经网络中的首个子神经网络,则通过当前HOURGLASS子神经网络的HRU和/或RU,对输入的包括有目标对象的原始待检测图像进行特征提取操作;和/或,如果当前HOURGLASS子神经网络为多个子神经网络中的非首个子神经网络,则通过当前HOURGLASS子神经网络的HRU和/或RU,对与当前HOURGLASS子神经网络相邻的前一HOURGLASS子神经网络输出的图像进行特征提取操作。
以下,以一个HOURGLASS子神经网络的训练为例,其它HOURGLASS子神经网络的训练可参照本实施例执行。
本步骤中,获得的特征信息可以为当前HOURGLASS子神经网络最后一个卷积层输出的特征信息。
步骤S404:根据提取到的特征信息,生成目标对象的注意力图。
如,在步骤S402获得的第一特征信息的基础上,对第一特征信息进行非线性变换,获得第二特征信息;根据第二特征信息,生成目标对象的注意力图。具体可采用实施例二中生成注意力图的方式生成,在此不再赘述。
此外,当采用获得当前子神经网络的多个卷积层对应输出的不同分辨率的多个特征图,分别对多个特征图进行上采样,获得多个特征图对应的特征信息的方式时,可以根据多个特征图对应的特征信息,生成对应的多个不同分辨率的注意力图;对多个不同分辨率的注意力图进行合并处理,生成当前子神经网络的最终的目标对象的注意力图。
步骤S406:使用注意力图修正特征信息。
在一种可行方式中,在本步骤之前,可选地,还可以使用CRF对注意力图进行平滑化处理;或者,使用归一化函数对注意力图进行归一化处理。
当神经网络包括端对端堆叠的多个子神经网络时,针对每一个子神经网络,根据当前子神经网络提取的特征信息生成当前子神经网络的注意力图,通过当前子神经网络的注意力图修正当前子神经网络提取的特征信息;如果当前子神经网络为多个子神经网络中的非末个子神经网络,则当前子神经网络修正后的特征信息为相邻的后一子神经网络的输入;和/或,如果当前子神经网络为多个子神经网络中的末个子神经网络,则根据当前子神经网络修正后的特征信息,对目标对象进行关键点检测。
具体地,可以根据当前子神经网络的注意力图,对表示当前子神经网络提取的特征信息的特征图中至少部分非目标对象对应的区域的像素值置零,获得当前子神经网络修正后的特征信息。
步骤S408:根据修正后的特征信息,获得目标对象的关键点预测信息。
步骤S410:获得关键点预测信息与训练样本图像中的关键点标注信息之间的差异。
如,通过损失函数计算关键点预测信息与关键点标注信息之间的差别,如二者之间的均方误差。
步骤S412:根据所述差异调整当前HOURGLASS子神经网络的网络参数。
通过上述步骤,实现了单个HOURGLASS子神经网络的训练。对每一个HOURGLASS子神经网络均进行上述训练,实现整个HOURGLASS的训练。
此外,对不同HOURGLASS子神经网络的训练的着重点可以不同,例如,以8个HOURGLASS子神经网络堆叠成一个HOURGLASS神经网络为例,在前四个HOURGLASS子神经网络中,网络比较浅,分辨前景背景的能力较差,所以在前四个HOURGLASS子神经网络中,着重训练通过注意力机制去区分前景和背景,做一个粗略的分割。在后四个HOURGLASS子神经网络中,网络比较深,学习能力更强,有更好的分辨能力,着重通过注意力机制去进一步区分前景中关键点的分类(比如是头,还是手)。着重点的区分可以由本领域技术人员通过调整网络训练参数实现。
其次,还可以对用于训练的HOURGLASS子神经网络中的RU进行改进,采用新的HRU结构来替换掉每个HOURGLASS子神经网络中全部或部分的RU。如图4所示,原始的RU中,只有A分支(即恒等映射Identity mapping branch)和B分支(即Residual branch)两个分支,本实例增加了C分支(即Hourglass residual branch),以增加RU输出的时候的receptivefield(感受野),从而使得判断不局限于一个小的区域,减轻HOURGLASS子神经网络的训练难度和负担。
通过本实施例,实现了对引入注意力机制的神经网络的训练,训练后的神经网络能够使用注意力图对待检测图像的特征信息进行修正,从而实现对待检测图像的特征的修正,可以使得待检测图像中的目标对象的特征信息更为突出,更易被检测和识别。
本实施例的神经网络训练方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:终端设备和服务器等。
实施例五
参照图7,示出了根据本发明实施例五的一种关键点检测装置的结构框图。
本实施例的关键点检测装置包括:第一特征提取模块502,用于经神经网络对包括有目标对象的待检测图像进行特征提取操作;第一生成模块504,用于根据提取到的特征信息,生成所述目标对象的注意力图;第一修正模块506,用于使用注意力图修正所述特征信息;检测模块508,用于根据修正后的特征信息,对目标对象进行关键点检测。
本实施例的关键点检测装置用于实现前述方法实施例中相应的关键点检测方法,并具有相应的方法实施例的有益效果,在此不再赘述。
实施例六
参照图8,示出了根据本发明实施例六的一种关键点检测装置的结构框图。
本实施例的关键点检测装置包括:第一特征提取模块602,用于经神经网络对包括有目标对象的待检测图像进行特征提取操作;第一生成模块604,用于根据提取到的特征信息,生成目标对象的注意力图;第一修正模块606,用于使用注意力图修正所述特征信息;检测模块608,用于根据修正后的特征信息,对目标对象进行关键点检测。
可选地,第一特征提取模块602用于经卷积神经网络对所述待检测图像进行卷积操作,获得所述待检测图像的第一特征信息;第一生成模块604用于对第一特征信息进行非线性变换,获得第二特征信息;根据第二特征信息,生成目标对象的注意力图。
可选地,本实施例的关键点检测装置还包括:第一处理模块610,用于在第一修正模块606使用注意力图修正所述特征信息之前,使用CRF对注意力图进行平滑化处理;或者,使用归一化函数对注意力图进行归一化处理。
可选地,神经网络包括端对端堆叠的多个子神经网络;针对每一个子神经网络,第一生成模块604根据当前子神经网络提取的特征信息生成当前子神经网络的注意力图,第一修正模块606通过当前子神经网络的注意力图修正当前子神经网络提取的特征信息;如果当前子神经网络为多个子神经网络中的非末个子神经网络,则当前子神经网络修正后的特征信息为相邻的后一子神经网络的输入;和/或,如果当前子神经网络为多个子神经网络中的末个子神经网络,则检测模块608根据当前子神经网络修正后的特征信息,对目标对象进行关键点检测。
可选地,第一修正模块606在通过当前子神经网络的注意力图修正当前子神经网络提取的特征信息时,根据当前子神经网络的注意力图,对表示当前子神经网络提取的特征信息的特征图中至少部分非目标对象对应的区域的像素值置零,获得当前子神经网络修正后的特征信息。
可选地,第一修正模块606在根据当前子神经网络的注意力图,对表示当前子神经网络提取的特征信息的特征图中至少部分非目标对象对应的区域的像素值置零,获得当前子神经网络修正后的特征信息时,如果当前子神经网络是设定的前N个子神经网络,则使用当前子神经网络的注意力图,对表示当前子神经网络提取的特征信息的特征图中至少部分非目标对象对应的区域的像素值置零,获得目标对象所在的区域的特征信息;和/或,如果当前子神经网络并非设定的前N个子神经网络,则经当前子神经网络对表示目标对象所在的区域的特征信息的特征图进行特征提取操作,根据提取到的特征信息生成当前子神经网络的注意力图;使用当前子神经网络的注意力图,对表示当前子神经网络提取的特征信息的特征图中至少部分非目标对象的关键点对应的区域的像素值置零,获得目标对象的关键点对应的区域的特征信息;其中,前N个子神经网络对应的注意力图的分辨率,低于后M-N个子神经网络对应的注意力图的分辨率,其中,M表示子神经网络的总数量,M为大于1的整数,N为大于0的整数且N小于M。
可选地,针对每一个子神经网络,所述第一特征提取模块602获得当前子神经网络的多个卷积层对应输出的不同分辨率的多个特征图,分别对多个特征图进行上采样,获得多个特征图对应的特征信息;第一生成模块604根据多个特征图对应的特征信息,生成对应的多个不同分辨率的注意力图;对多个不同分辨率的注意力图进行合并处理,生成当前子神经网络的最终的目标对象的注意力图。
可选地,神经网络为HOURGLASS神经网络。
可选地,HOURGLASS神经网络包括多个HOURGLASS子神经网络,每个HOURGLASS子神经网络包括至少一个HRU;每个HRU包括第一残差分支、第二残差分支和第三残差分支;其中,第一特征提取模块602在经每个HOURGLASS子神经网络中的每个HRU对包括有目标对象的待检测图像进行特征提取操作时,经第一残差分支对输入当前HRU的图像块进行恒等映射,获得恒等映射后的第一图像块包含的第一特征信息;经第二残差分支对输入当前HRU的图像块中的卷积核大小指示的图像区域进行卷积处理,获得卷积处理后的第二图像区域包含的第二特征信息;经第三残差分支将输入当前HRU的图像块按照池化核大小进行池化处理,并按照卷积核大小对池化处理后的图像块中的图像区域进行卷积处理,对卷积处理后的图像区域进行上采样,生成与输入当前HRU的图像块大小相同的第三图像块,获得所述第三图像块的第三特征信息;将第一特征信息、第二特征信息和第三特征信息进行合并处理,获得当前HRU提取到的特征信息。
可选地,第一特征提取模块602在进行特征提取操作时:如果当前HOURGLASS子神经网络为多个子神经网络中的首个子神经网络,则通过当前HOURGLASS子神经网络的HRU和/或RU,对输入的包括有目标对象的原始待检测图像进行特征提取操作;和/或,如果当前HOURGLASS子神经网络为多个子神经网络中的非首个子神经网络,则通过当前HOURGLASS子神经网络的HRU和/或RU,对与当前HOURGLASS子神经网络相邻的前一HOURGLASS子神经网络输出的图像进行特征提取操作。
本实施例的关键点检测装置用于实现前述方法实施例中相应的关键点检测方法,并具有相应的方法实施例的有益效果,在此不再赘述。
实施例七
参照图9,示出了根据本发明实施例七的一种神经网络训练装置的结构框图。
本实施例的神经网络训练装置包括:第二特征提取模块702,用于经神经网络对包括目标对象的训练样本图像进行特征提取操作;第二生成模块704,用于根据提取到的特征信息,生成目标对象的注意力图;第二修正模块706,用于使用注意力图修正所述特征信息;预测模块708,用于根据修正后的特征信息,获得目标对象的关键点预测信息;差异获得模块710,用于获得关键点预测信息与训练样本图像中的关键点标注信息之间的差异;调整模块712,用于根据所述差异调整神经网络的网络参数。
本实施例的关键点检测装置用于实现前述方法实施例中相应的神经网络训练方法,并具有相应的方法实施例的有益效果,在此不再赘述。
实施例八
参照图10,示出了根据本发明实施例八的一种神经网络训练装置的结构框图。
本实施例的神经网络训练装置包括:第二特征提取模块802,用于经神经网络对包括目标对象的训练样本图像进行特征提取操作;第二生成模块804,用于根据提取到的特征信息,生成目标对象的注意力图;第二修正模块806,用于使用注意力图修正所述特征信息;预测模块808,用于根据修正后的特征信息,获得目标对象的关键点预测信息;差异获得模块810,用于获得关键点预测信息与训练样本图像中的关键点标注信息之间的差异;调整模块812,用于根据所述差异调整神经网络的网络参数。
可选地,第二特征提取模块802用于经卷积神经网络对训练样本图像进行卷积操作,获得训练样本图像的第一特征信息;第二生成模块804用于对第一特征信息进行非线性变换,获得第二特征信息;根据第二特征信息,生成目标对象的注意力图。
可选地,本实施例的神经网络训练装置还包括:第二处理模块814,用于在第二修正模块806使用注意力图修正所述特征信息之前,使用CRF对注意力图进行平滑化处理;或者,使用归一化函数对所述注意力图进行归一化处理。
可选地,神经网络包括端对端堆叠的多个子神经网络;针对每一个子神经网络,第二生成模块804根据当前子神经网络提取的特征信息生成当前子神经网络的注意力图,第二修正模块806通过当前子神经网络的注意力图修正当前子神经网络提取的特征信息;如果当前子神经网络为多个子神经网络中的非末个子神经网络,则当前子神经网络修正后的特征信息为相邻的后一子神经网络的输入;和/或,如果当前子神经网络为多个子神经网络中的末个子神经网络,则预测模块808根据当前子神经网络修正后的特征信息,对目标对象进行关键点预测,获得目标对象的关键点预测信息。
可选地,第二修正模块806在通过当前子神经网络的注意力图修正当前子神经网络提取的特征信息时,根据当前子神经网络的注意力图,对表示当前子神经网络提取的特征信息的特征图中至少部分非目标对象对应的区域的像素值置零,获得当前子神经网络修正后的特征信息。
可选地,针对每一个子神经网络,第二特征提取模块802获得当前子神经网络的多个卷积层对应输出的不同分辨率的多个特征图,分别对多个特征图进行上采样,获得多个特征图对应的特征信息;第二生成模块804根据多个特征图对应的特征信息,生成对应的多个不同分辨率的注意力图;对多个不同分辨率的注意力图进行合并处理,生成当前子神经网络的最终的目标对象的注意力图。
可选地,神经网络为HOURGLASS神经网络。
可选地,HOURGLASS神经网络包括多个HOURGLASS子神经网络,其中,在先HOURGLASS子神经网络的输出作为相邻的在后HOURGLASS子神经网络的输入,每个HOURGLASS子神经网络均采用本实施例的神经网络训练装置进行训练。
可选地,每个HOURGLASS子神经网络包括至少一个HRU;每个HRU包括第一残差分支、第二残差分支和第三残差分支;其中,第二特征提取模块802在经每个HOURGLASS子神经网络中的每个HRU对包括有目标对象的训练样本图像进行特征提取操作时,经第一残差分支对输入当前HRU的图像块进行恒等映射,获得恒等映射后的第一图像块包含的第一特征信息;经第二残差分支对输入当前HRU的图像块中的卷积核大小指示的图像区域进行卷积处理,获得卷积处理后的第二图像区域包含的第二特征信息;经第三残差分支将输入当前HRU的图像块按照池化核大小进行池化处理,并按照卷积核大小对池化处理后的图像块中的图像区域进行卷积处理,对卷积处理后的图像区域进行上采样,生成与输入当前HRU的图像块大小相同的第三图像块,获得第三图像块的第三特征信息;将第一特征信息、第二特征信息和第三特征信息进行合并处理,获得当前HRU提取到的特征信息。
可选地,第二特征提取模块802在进行特征提取操作时:如果当前HOURGLASS子神经网络为多个子神经网络中的首个子神经网络,则通过当前HOURGLASS子神经网络的HRU和/或RU,对输入的包括有目标对象的原始待检测图像进行特征提取操作;和/或,如果当前HOURGLASS子神经网络为多个子神经网络中的非首个子神经网络,则通过当前HOURGLASS子神经网络的HRU和/或RU,对与当前HOURGLASS子神经网络相邻的前一HOURGLASS子神经网络输出的图像进行特征提取操作。
本实施例的关键点检测装置用于实现前述方法实施例中相应的神经网络训练方法,并具有相应的方法实施例的有益效果,在此不再赘述。
实施例九
本发明实施例还提供了一种电子设备,例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图11,其示出了适于用来实现本发明实施例的终端设备或服务器的电子设备900的结构示意图。如图11所示,电子设备900包括一个或多个第一处理器、第一通信元件等,所述一个或多个第一处理器例如:一个或多个中央处理单元(CPU)901,和/或一个或多个图像处理器(GPU)913等,第一处理器可以根据存储在只读存储器(ROM)902中的可执行指令或者从存储部分908加载到随机访问存储器(RAM)903中的可执行指令而执行各种适当的动作和处理。本实施例中,第一只读存储器902和随机访问存储器903统称为第一存储器。第一通信元件包括通信组件912和/或通信接口909。其中,通信组件912可包括但不限于网卡,所述网卡可包括但不限于IB(Infiniband)网卡,通信接口909包括诸如LAN卡、调制解调器等的网络接口卡的通信接口,通信接口909经由诸如因特网的网络执行通信处理。
第一处理器可与只读存储器902和/或随机访问存储器903中通信以执行可执行指令,通过第一通信总线904与通信组件912相连、并经通信组件912与其他目标设备通信,从而完成本发明实施例提供的任一项对象属性检测方法对应的操作,例如,经神经网络对包括有目标对象的待检测图像进行特征提取操作;根据提取到的特征信息,生成目标对象的注意力图;使用注意力图修正所述特征信息;根据修正后的特征信息,对目标对象进行关键点检测。
此外,在RAM 903中,还可存储有装置操作所需的各种程序和数据。CPU901或GPU913、ROM902以及RAM903通过第一通信总线904彼此相连。在有RAM903的情况下,ROM902为可选模块。RAM903存储可执行指令,或在运行时向ROM902中写入可执行指令,可执行指令使第一处理器执行上述通信方法对应的操作。输入/输出(I/O)接口905也连接至第一通信总线904。通信组件912可以集成设置,也可以设置为具有多个子模块(例如多个IB网卡),并在通信总线链接上。
以下部件连接至I/O接口905:包括键盘、鼠标等的输入部分906;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907;包括硬盘等的存储部分908;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信接口909。驱动器910也根据需要连接至I/O接口905。可拆卸介质911,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器910上,以便于从其上读出的计算机程序根据需要被安装入存储部分908。
需要说明的,如图11所示的架构仅为一种可选实现方式,在具体实践过程中,可根据实际需要对上述图11的部件数量和类型进行选择、删减、增加或替换;在不同功能部件设置上,也可采用分离设置或集成设置等实现方式,例如GPU和CPU可分离设置或者可将GPU集成在CPU上,通信元件可分离设置,也可集成设置在CPU或GPU上,等等。这些可替换的实施方式均落入本发明的保护范围。
特别地,根据本发明实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,计算机程序包含用于执行流程图所示的方法的程序代码,程序代码可包括对应执行本发明实施例提供的方法步骤对应的指令,例如,经神经网络对包括有目标对象的待检测图像进行特征提取操作;根据提取到的特征信息,生成目标对象的注意力图;使用注意力图修正所述特征信息;根据修正后的特征信息,对目标对象进行关键点检测。在这样的实施例中,该计算机程序可以通过通信元件从网络上被下载和安装,和/或从可拆卸介质911被安装。在该计算机程序被第一处理器执行时,执行本发明实施例的方法中限定的上述功能。
实施例十
本发明实施例还提供了一种电子设备,例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图12,其示出了适于用来实现本发明实施例的终端设备或服务器的电子设备1000的结构示意图。如图12所示,电子设备1000包括一个或多个第二处理器、第二通信元件等,所述一个或多个第二处理器例如:一个或多个中央处理单元(CPU)1001,和/或一个或多个图像处理器(GPU)1013等,第二处理器可以根据存储在只读存储器(ROM)1002中的可执行指令或者从存储部分1008加载到随机访问存储器(RAM)1003中的可执行指令而执行各种适当的动作和处理。本实施例中,第二只读存储器1002和随机访问存储器1003统称为第二存储器。第二通信元件包括通信组件1012和/或通信接口1009。其中,通信组件1012可包括但不限于网卡,所述网卡可包括但不限于IB(Infiniband)网卡,通信接口1009包括诸如LAN卡、调制解调器等的网络接口卡的通信接口,通信接口1009经由诸如因特网的网络执行通信处理。
第二处理器可与只读存储器1002和/或随机访问存储器1003中通信以执行可执行指令,通过第二通信总线1004与通信组件1012相连、并经通信组件1012与其他目标设备通信,从而完成本发明实施例提供的任一项神经网络训练方法对应的操作,例如,经神经网络对包括目标对象的训练样本图像进行特征提取操作;根据提取到的特征信息,生成目标对象的注意力图;使用注意力图修正所述特征信息;根据修正后的特征信息,获得目标对象的关键点预测信息;获得关键点预测信息与所述训练样本图像中的关键点标注信息之间的差异;根据所述差异调整神经网络的网络参数。
此外,在RAM 1003中,还可存储有装置操作所需的各种程序和数据。CPU1001或GPU1013、ROM1002以及RAM1003通过第二通信总线1004彼此相连。在有RAM1003的情况下,ROM1002为可选模块。RAM1003存储可执行指令,或在运行时向ROM1002中写入可执行指令,可执行指令使第二处理器执行上述通信方法对应的操作。输入/输出(I/O)接口1005也连接至第二通信总线1004。通信组件1012可以集成设置,也可以设置为具有多个子模块(例如多个IB网卡),并在通信总线链接上。
以下部件连接至I/O接口1005:包括键盘、鼠标等的输入部分1006;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007;包括硬盘等的存储部分1008;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信接口1009。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1010上,以便于从其上读出的计算机程序根据需要被安装入存储部分1008。
需要说明的,如图12所示的架构仅为一种可选实现方式,在具体实践过程中,可根据实际需要对上述图12的部件数量和类型进行选择、删减、增加或替换;在不同功能部件设置上,也可采用分离设置或集成设置等实现方式,例如GPU和CPU可分离设置或者可将GPU集成在CPU上,通信元件可分离设置,也可集成设置在CPU或GPU上,等等。这些可替换的实施方式均落入本发明的保护范围。
特别地,根据本发明实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,计算机程序包含用于执行流程图所示的方法的程序代码,程序代码可包括对应执行本发明实施例提供的方法步骤对应的指令,例如,经神经网络对包括目标对象的训练样本图像进行特征提取操作;根据提取到的特征信息,生成目标对象的注意力图;使用注意力图修正所述特征信息;根据修正后的特征信息,获得目标对象的关键点预测信息;获得关键点预测信息与所述训练样本图像中的关键点标注信息之间的差异;根据所述差异调整神经网络的网络参数。在这样的实施例中,该计算机程序可以通过通信元件从网络上被下载和安装,和/或从可拆卸介质1011被安装。在该计算机程序被第二处理器执行时,执行本发明实施例的方法中限定的上述功能。
可能以许多方式来实现本发明的方法和装置、设备。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明实施例的方法和装置、设备。用于方法的步骤的上述顺序仅是为了进行说明,本发明实施例的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本发明实施为记录在记录介质中的程序,这些程序包括用于实现根据本发明实施例的方法的机器可读指令。因而,本发明还覆盖存储用于执行根据本发明实施例的方法的程序的记录介质。
本发明实施例的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式,很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。
Claims (10)
1.一种关键点检测方法,包括:
经神经网络对包括有目标对象的待检测图像进行特征提取操作;
根据提取到的特征信息,生成所述目标对象的注意力图;
使用所述注意力图修正所述特征信息;
根据修正后的特征信息,对所述目标对象进行关键点检测。
2.根据权利要求1所述的方法,其中,
所述经神经网络对包括有目标对象的待检测图像进行特征提取操作,包括:经卷积神经网络对所述待检测图像进行卷积操作,获得所述待检测图像的第一特征信息;
所述根据提取到的特征信息,生成所述目标对象的注意力图,包括:对所述第一特征信息进行非线性变换,获得第二特征信息;根据所述第二特征信息,生成所述目标对象的注意力图。
3.根据权利要求1或2所述的方法,其中,在使用所述注意力图修正所述特征信息之前,所述方法还包括:
使用条件随机场CRF对所述注意力图进行平滑化处理;
或者,
使用归一化函数对所述注意力图进行归一化处理。
4.根据权利要求1-3任一项所述的方法,其中,所述神经网络包括端对端堆叠的多个子神经网络;
针对每一个子神经网络,根据当前子神经网络提取的特征信息生成当前子神经网络的注意力图,通过当前子神经网络的注意力图修正当前子神经网络提取的特征信息;
如果当前子神经网络为所述多个子神经网络中的非末个子神经网络,则当前子神经网络修正后的特征信息为相邻的后一子神经网络的输入;和/或,如果当前子神经网络为所述多个子神经网络中的末个子神经网络,则根据当前子神经网络修正后的特征信息,对所述目标对象进行关键点检测。
5.根据权利要求4所述的方法,其中,所述通过当前子神经网络的注意力图修正当前子神经网络提取的特征信息,包括:
根据当前子神经网络的注意力图,对表示当前子神经网络提取的特征信息的特征图中至少部分非目标对象对应的区域的像素值置零,获得当前子神经网络修正后的特征信息。
6.一种神经网络训练方法,包括:
经神经网络对包括目标对象的训练样本图像进行特征提取操作;
根据提取到的特征信息,生成所述目标对象的注意力图;
使用所述注意力图修正所述特征信息;
根据修正后的特征信息,获得目标对象的关键点预测信息;
获得所述关键点预测信息与所述训练样本图像中的关键点标注信息之间的差异;
根据所述差异调整所述神经网络的网络参数。
7.一种关键点检测装置,包括:
第一特征提取模块,用于经神经网络对包括有目标对象的待检测图像进行特征提取操作;
第一生成模块,用于根据提取到的特征信息,生成所述目标对象的注意力图;
第一修正模块,用于使用所述注意力图修正所述特征信息;
检测模块,用于根据修正后的特征信息,对所述目标对象进行关键点检测。
8.一种神经网络训练装置,包括:
第二特征提取模块,用于经神经网络对包括目标对象的训练样本图像进行特征提取操作;
第二生成模块,用于根据提取到的特征信息,生成所述目标对象的注意力图;
第二修正模块,用于使用所述注意力图修正所述特征信息;
预测模块,用于根据修正后的特征信息,获得目标对象的关键点预测信息;
差异获得模块,用于获得所述关键点预测信息与所述训练样本图像中的关键点标注信息之间的差异;
调整模块,用于根据所述差异调整所述神经网络的网络参数。
9.一种电子设备,包括:第一处理器、第一存储器、第一通信元件和第一通信总线,所述第一处理器、所述第一存储器和所述第一通信元件通过所述第一通信总线完成相互间的通信;
所述第一存储器用于存放至少一可执行指令,所述可执行指令使所述第一处理器执行如权利要求1-5任一项所述的关键点检测方法对应的操作。
10.一种电子设备,包括:第二处理器、第二存储器、第二通信元件和第二通信总线,所述第二处理器、所述第二存储器和所述第二通信元件通过所述第二通信总线完成相互间的通信;
所述第二存储器用于存放至少一可执行指令,所述可执行指令使所述第二处理器执行如权利要求6所述的神经网络训练方法对应的操作。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710100498.2A CN108229490B (zh) | 2017-02-23 | 2017-02-23 | 关键点检测方法、神经网络训练方法、装置和电子设备 |
PCT/CN2018/076689 WO2018153322A1 (zh) | 2017-02-23 | 2018-02-13 | 关键点检测方法、神经网络训练方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710100498.2A CN108229490B (zh) | 2017-02-23 | 2017-02-23 | 关键点检测方法、神经网络训练方法、装置和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108229490A true CN108229490A (zh) | 2018-06-29 |
CN108229490B CN108229490B (zh) | 2021-01-05 |
Family
ID=62656500
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710100498.2A Active CN108229490B (zh) | 2017-02-23 | 2017-02-23 | 关键点检测方法、神经网络训练方法、装置和电子设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN108229490B (zh) |
WO (1) | WO2018153322A1 (zh) |
Cited By (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108960212A (zh) * | 2018-08-13 | 2018-12-07 | 电子科技大学 | 基于端到端的人体关节点检测与分类方法 |
CN109145816A (zh) * | 2018-08-21 | 2019-01-04 | 北京京东尚科信息技术有限公司 | 商品识别方法和系统 |
CN109191255A (zh) * | 2018-09-04 | 2019-01-11 | 中山大学 | 一种基于无监督特征点检测的商品对齐方法 |
CN109190467A (zh) * | 2018-07-26 | 2019-01-11 | 北京纵目安驰智能科技有限公司 | 一种基于关键点回归的多物体检测方法、系统、终端和存储介质 |
CN109257622A (zh) * | 2018-11-01 | 2019-01-22 | 广州市百果园信息技术有限公司 | 一种音视频处理方法、装置、设备及介质 |
CN109271842A (zh) * | 2018-07-26 | 2019-01-25 | 北京纵目安驰智能科技有限公司 | 一种基于关键点回归的通用物体检测方法、系统、终端和存储介质 |
CN109308459A (zh) * | 2018-09-05 | 2019-02-05 | 南京大学 | 基于手指注意力模型和关键点拓扑模型的手势估计方法 |
CN109376571A (zh) * | 2018-08-03 | 2019-02-22 | 西安电子科技大学 | 基于变形卷积的人体姿态估计方法 |
CN109635926A (zh) * | 2018-11-30 | 2019-04-16 | 深圳市商汤科技有限公司 | 用于神经网络的注意力特征获取方法、装置及存储介质 |
CN109726659A (zh) * | 2018-12-21 | 2019-05-07 | 北京达佳互联信息技术有限公司 | 人体骨骼关键点的检测方法、装置、电子设备和可读介质 |
CN109829391A (zh) * | 2019-01-10 | 2019-05-31 | 哈尔滨工业大学 | 基于级联卷积网络和对抗学习的显著性目标检测方法 |
CN109934183A (zh) * | 2019-03-18 | 2019-06-25 | 北京市商汤科技开发有限公司 | 图像处理方法及装置、检测设备及存储介质 |
CN110084161A (zh) * | 2019-04-17 | 2019-08-02 | 中山大学 | 一种人体骨骼关键点的快速检测方法及系统 |
CN110084180A (zh) * | 2019-04-24 | 2019-08-02 | 北京达佳互联信息技术有限公司 | 关键点检测方法、装置、电子设备及可读存储介质 |
CN110426112A (zh) * | 2019-07-04 | 2019-11-08 | 平安科技(深圳)有限公司 | 一种生猪体重测量方法及装置 |
CN110648291A (zh) * | 2019-09-10 | 2020-01-03 | 武汉科技大学 | 一种基于深度学习的无人机运动模糊图像的复原方法 |
CN110751162A (zh) * | 2018-07-24 | 2020-02-04 | 杭州海康威视数字技术股份有限公司 | 一种图像识别方法、装置和计算机设备 |
CN111079749A (zh) * | 2019-12-12 | 2020-04-28 | 创新奇智(重庆)科技有限公司 | 一种带姿态校正的端到端商品价签文字识别方法和系统 |
WO2020093837A1 (zh) * | 2018-11-07 | 2020-05-14 | 北京达佳互联信息技术有限公司 | 人体骨骼关键点的检测方法、装置、电子设备及存储介质 |
CN111368685A (zh) * | 2020-02-27 | 2020-07-03 | 北京字节跳动网络技术有限公司 | 关键点的识别方法、装置、可读介质和电子设备 |
CN111445440A (zh) * | 2020-02-20 | 2020-07-24 | 上海联影智能医疗科技有限公司 | 一种医学图像分析方法、设备和存储介质 |
CN111523480A (zh) * | 2020-04-24 | 2020-08-11 | 北京嘀嘀无限科技发展有限公司 | 一种面部遮挡物的检测方法、装置、电子设备及存储介质 |
CN111652244A (zh) * | 2020-04-27 | 2020-09-11 | 合肥中科类脑智能技术有限公司 | 一种基于无监督特征提取和匹配的指针式表计识别方法 |
CN112259119A (zh) * | 2020-10-19 | 2021-01-22 | 成都明杰科技有限公司 | 基于堆叠沙漏网络的音乐源分离方法 |
CN112287855A (zh) * | 2020-11-02 | 2021-01-29 | 东软睿驰汽车技术(沈阳)有限公司 | 基于多任务神经网络的驾驶行为检测方法和装置 |
CN112307850A (zh) * | 2019-08-01 | 2021-02-02 | 浙江商汤科技开发有限公司 | 神经网络训练方法、车道线检测方法、装置和电子设备 |
CN112668430A (zh) * | 2020-12-21 | 2021-04-16 | 四川长虹电器股份有限公司 | 一种吸烟行为检测方法、系统、计算机设备、存储介质 |
CN113689527A (zh) * | 2020-05-15 | 2021-11-23 | 武汉Tcl集团工业研究院有限公司 | 一种人脸转换模型的训练方法、人脸图像转换方法 |
US11282180B1 (en) | 2019-04-24 | 2022-03-22 | Apple Inc. | Object detection with position, pose, and shape estimation |
US11393186B2 (en) * | 2019-02-28 | 2022-07-19 | Canon Kabushiki Kaisha | Apparatus and method for detecting objects using key point sets |
WO2022247103A1 (zh) * | 2021-05-25 | 2022-12-01 | 上海商汤智能科技有限公司 | 图像处理方法及装置、电子设备和计算机可读存储介质 |
Families Citing this family (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109635630B (zh) * | 2018-10-23 | 2023-09-01 | 百度在线网络技术(北京)有限公司 | 手部关节点检测方法、装置及存储介质 |
CN109657482B (zh) * | 2018-10-26 | 2022-11-18 | 创新先进技术有限公司 | 一种数据有效性的验证方法、装置和设备 |
CN111144168B (zh) * | 2018-11-02 | 2023-04-18 | 阿里巴巴集团控股有限公司 | 农作物生长周期的识别方法、设备以及系统 |
CN109685246B (zh) * | 2018-11-13 | 2024-04-23 | 平安科技(深圳)有限公司 | 环境数据预估方法、装置及存储介质、服务器 |
CN111191486B (zh) * | 2018-11-14 | 2023-09-05 | 杭州海康威视数字技术股份有限公司 | 一种溺水行为识别方法、监控相机及监控系统 |
CN113591750B (zh) * | 2018-11-16 | 2024-07-19 | 北京市商汤科技开发有限公司 | 关键点检测方法及装置、电子设备和存储介质 |
CN111353349B (zh) * | 2018-12-24 | 2023-10-17 | 杭州海康威视数字技术股份有限公司 | 人体关键点检测方法、装置、电子设备及存储介质 |
CN110222718B (zh) * | 2019-05-09 | 2023-11-03 | 华为技术有限公司 | 图像处理的方法及装置 |
CN110110689B (zh) * | 2019-05-15 | 2023-05-26 | 东北大学 | 一种行人重识别方法 |
CN110148212B (zh) * | 2019-05-17 | 2023-01-31 | 北京市商汤科技开发有限公司 | 一种动作序列生成方法及装置、电子设备和存储介质 |
CN110287846B (zh) * | 2019-06-19 | 2023-08-04 | 南京云智控产业技术研究院有限公司 | 一种基于注意力机制的人脸关键点检测方法 |
CN111008929B (zh) * | 2019-12-19 | 2023-09-26 | 维沃移动通信(杭州)有限公司 | 图像矫正方法及电子设备 |
CN111210432B (zh) * | 2020-01-12 | 2023-07-25 | 湘潭大学 | 一种基于多尺度多级注意力机制的图像语义分割方法 |
CN111783935B (zh) * | 2020-05-15 | 2024-06-21 | 北京迈格威科技有限公司 | 卷积神经网络构建方法、装置、设备及介质 |
CN111680722B (zh) * | 2020-05-25 | 2022-09-16 | 腾讯科技(深圳)有限公司 | 内容识别方法、装置、设备及可读存储介质 |
CN112164109B (zh) * | 2020-07-08 | 2024-09-06 | 浙江大华技术股份有限公司 | 坐标修正方法、装置、存储介质及电子装置 |
CN111815606B (zh) * | 2020-07-09 | 2023-09-01 | 浙江大华技术股份有限公司 | 图像质量评估方法、存储介质及计算装置 |
CN111860652B (zh) * | 2020-07-22 | 2022-03-29 | 中国平安财产保险股份有限公司 | 基于图像检测的动物体重测量方法、装置、设备及介质 |
CN112099850B (zh) * | 2020-09-10 | 2024-10-22 | 山东浪潮科学研究院有限公司 | 一种多核Hourglass网络加速方法 |
CN112183826B (zh) * | 2020-09-15 | 2023-08-01 | 湖北大学 | 基于深度级联生成对抗网络的建筑能耗预测方法及相关产品 |
CN112183269B (zh) * | 2020-09-18 | 2023-08-29 | 哈尔滨工业大学(深圳) | 一种适用于智能视频监控的目标检测方法与系统 |
CN112257567B (zh) * | 2020-10-20 | 2023-04-07 | 浙江大华技术股份有限公司 | 行为识别网络的训练、行为识别方法及相关设备 |
CN112712061B (zh) * | 2021-01-18 | 2023-01-24 | 清华大学 | 适用于多方向交警指挥手势的识别方法、系统及存储介质 |
CN112990046B (zh) * | 2021-03-25 | 2023-08-04 | 北京百度网讯科技有限公司 | 差异信息获取方法、相关装置及计算机程序产品 |
CN113052175B (zh) * | 2021-03-26 | 2024-03-29 | 北京百度网讯科技有限公司 | 目标检测方法、装置、电子设备及可读存储介质 |
CN113140005B (zh) * | 2021-04-29 | 2024-04-16 | 上海商汤科技开发有限公司 | 目标对象定位方法、装置、设备及存储介质 |
CN113298091A (zh) * | 2021-05-25 | 2021-08-24 | 商汤集团有限公司 | 图像处理方法及装置、电子设备和存储介质 |
CN113469111A (zh) * | 2021-07-16 | 2021-10-01 | 中国银行股份有限公司 | 图像关键点检测方法及系统、电子设备、存储介质 |
CN114241455A (zh) * | 2021-12-20 | 2022-03-25 | 东南大学 | 一种基于关键点增强的驾驶员动作分类方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110249886A1 (en) * | 2010-04-12 | 2011-10-13 | Samsung Electronics Co., Ltd. | Image converting device and three-dimensional image display device including the same |
CN103198316A (zh) * | 2011-12-12 | 2013-07-10 | 佳能株式会社 | 用于识别图像中的干扰元素的方法、装置和系统 |
CN103345763A (zh) * | 2013-06-25 | 2013-10-09 | 西安理工大学 | 一种基于多尺度可变块的运动注意力计算方法 |
KR20140001358A (ko) * | 2012-06-26 | 2014-01-07 | 한국전자통신연구원 | 차폐 영역 필터링 기반 영상 처리 방법 |
CN106203376A (zh) * | 2016-07-19 | 2016-12-07 | 北京旷视科技有限公司 | 人脸关键点定位方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106295547A (zh) * | 2016-08-05 | 2017-01-04 | 深圳市商汤科技有限公司 | 一种图像比对方法及图像比对装置 |
-
2017
- 2017-02-23 CN CN201710100498.2A patent/CN108229490B/zh active Active
-
2018
- 2018-02-13 WO PCT/CN2018/076689 patent/WO2018153322A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110249886A1 (en) * | 2010-04-12 | 2011-10-13 | Samsung Electronics Co., Ltd. | Image converting device and three-dimensional image display device including the same |
CN103198316A (zh) * | 2011-12-12 | 2013-07-10 | 佳能株式会社 | 用于识别图像中的干扰元素的方法、装置和系统 |
KR20140001358A (ko) * | 2012-06-26 | 2014-01-07 | 한국전자통신연구원 | 차폐 영역 필터링 기반 영상 처리 방법 |
CN103345763A (zh) * | 2013-06-25 | 2013-10-09 | 西安理工大学 | 一种基于多尺度可变块的运动注意力计算方法 |
CN106203376A (zh) * | 2016-07-19 | 2016-12-07 | 北京旷视科技有限公司 | 人脸关键点定位方法及装置 |
Non-Patent Citations (2)
Title |
---|
NEWELL A , YANG K , DENG J: "Stacked Hourglass Networks for Human Pose Estimation", 《EUROPEAN CONFERENCE ON COMPUTER VISION. SPRINGER INTERNATIONAL PUBLISHING》 * |
张建兴: "基于注意力的目标识别算法及在移动机器人的应用研究", 《中国优秀硕士论文全文数据库信息科技辑》 * |
Cited By (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110751162A (zh) * | 2018-07-24 | 2020-02-04 | 杭州海康威视数字技术股份有限公司 | 一种图像识别方法、装置和计算机设备 |
CN109190467A (zh) * | 2018-07-26 | 2019-01-11 | 北京纵目安驰智能科技有限公司 | 一种基于关键点回归的多物体检测方法、系统、终端和存储介质 |
CN109271842A (zh) * | 2018-07-26 | 2019-01-25 | 北京纵目安驰智能科技有限公司 | 一种基于关键点回归的通用物体检测方法、系统、终端和存储介质 |
CN109376571A (zh) * | 2018-08-03 | 2019-02-22 | 西安电子科技大学 | 基于变形卷积的人体姿态估计方法 |
CN108960212A (zh) * | 2018-08-13 | 2018-12-07 | 电子科技大学 | 基于端到端的人体关节点检测与分类方法 |
CN109145816A (zh) * | 2018-08-21 | 2019-01-04 | 北京京东尚科信息技术有限公司 | 商品识别方法和系统 |
CN109191255A (zh) * | 2018-09-04 | 2019-01-11 | 中山大学 | 一种基于无监督特征点检测的商品对齐方法 |
CN109191255B (zh) * | 2018-09-04 | 2022-04-15 | 中山大学 | 一种基于无监督特征点检测的商品对齐方法 |
CN109308459A (zh) * | 2018-09-05 | 2019-02-05 | 南京大学 | 基于手指注意力模型和关键点拓扑模型的手势估计方法 |
CN109308459B (zh) * | 2018-09-05 | 2022-06-24 | 南京大学 | 基于手指注意力模型和关键点拓扑模型的手势估计方法 |
CN109257622A (zh) * | 2018-11-01 | 2019-01-22 | 广州市百果园信息技术有限公司 | 一种音视频处理方法、装置、设备及介质 |
US11373426B2 (en) | 2018-11-07 | 2022-06-28 | Beijing Dajia Internet Information Technology Co., Ltd. | Method for detecting key points in skeleton, apparatus, electronic device and storage medium |
WO2020093837A1 (zh) * | 2018-11-07 | 2020-05-14 | 北京达佳互联信息技术有限公司 | 人体骨骼关键点的检测方法、装置、电子设备及存储介质 |
CN109635926A (zh) * | 2018-11-30 | 2019-04-16 | 深圳市商汤科技有限公司 | 用于神经网络的注意力特征获取方法、装置及存储介质 |
CN109635926B (zh) * | 2018-11-30 | 2021-11-05 | 深圳市商汤科技有限公司 | 用于神经网络的注意力特征获取方法、装置及存储介质 |
CN109726659A (zh) * | 2018-12-21 | 2019-05-07 | 北京达佳互联信息技术有限公司 | 人体骨骼关键点的检测方法、装置、电子设备和可读介质 |
CN109829391A (zh) * | 2019-01-10 | 2019-05-31 | 哈尔滨工业大学 | 基于级联卷积网络和对抗学习的显著性目标检测方法 |
CN109829391B (zh) * | 2019-01-10 | 2023-04-07 | 哈尔滨工业大学 | 基于级联卷积网络和对抗学习的显著性目标检测方法 |
US11393186B2 (en) * | 2019-02-28 | 2022-07-19 | Canon Kabushiki Kaisha | Apparatus and method for detecting objects using key point sets |
CN109934183A (zh) * | 2019-03-18 | 2019-06-25 | 北京市商汤科技开发有限公司 | 图像处理方法及装置、检测设备及存储介质 |
CN110084161A (zh) * | 2019-04-17 | 2019-08-02 | 中山大学 | 一种人体骨骼关键点的快速检测方法及系统 |
CN110084180A (zh) * | 2019-04-24 | 2019-08-02 | 北京达佳互联信息技术有限公司 | 关键点检测方法、装置、电子设备及可读存储介质 |
US11282180B1 (en) | 2019-04-24 | 2022-03-22 | Apple Inc. | Object detection with position, pose, and shape estimation |
CN110426112A (zh) * | 2019-07-04 | 2019-11-08 | 平安科技(深圳)有限公司 | 一种生猪体重测量方法及装置 |
CN112307850A (zh) * | 2019-08-01 | 2021-02-02 | 浙江商汤科技开发有限公司 | 神经网络训练方法、车道线检测方法、装置和电子设备 |
CN110648291B (zh) * | 2019-09-10 | 2023-03-03 | 武汉科技大学 | 一种基于深度学习的无人机运动模糊图像的复原方法 |
CN110648291A (zh) * | 2019-09-10 | 2020-01-03 | 武汉科技大学 | 一种基于深度学习的无人机运动模糊图像的复原方法 |
CN111079749A (zh) * | 2019-12-12 | 2020-04-28 | 创新奇智(重庆)科技有限公司 | 一种带姿态校正的端到端商品价签文字识别方法和系统 |
CN111079749B (zh) * | 2019-12-12 | 2023-12-22 | 创新奇智(重庆)科技有限公司 | 一种带姿态校正的端到端商品价签文字识别方法和系统 |
CN111445440B (zh) * | 2020-02-20 | 2023-10-31 | 上海联影智能医疗科技有限公司 | 一种医学图像分析方法、设备和存储介质 |
CN111445440A (zh) * | 2020-02-20 | 2020-07-24 | 上海联影智能医疗科技有限公司 | 一种医学图像分析方法、设备和存储介质 |
CN111368685B (zh) * | 2020-02-27 | 2023-09-29 | 北京字节跳动网络技术有限公司 | 关键点的识别方法、装置、可读介质和电子设备 |
CN111368685A (zh) * | 2020-02-27 | 2020-07-03 | 北京字节跳动网络技术有限公司 | 关键点的识别方法、装置、可读介质和电子设备 |
CN111523480A (zh) * | 2020-04-24 | 2020-08-11 | 北京嘀嘀无限科技发展有限公司 | 一种面部遮挡物的检测方法、装置、电子设备及存储介质 |
CN111652244A (zh) * | 2020-04-27 | 2020-09-11 | 合肥中科类脑智能技术有限公司 | 一种基于无监督特征提取和匹配的指针式表计识别方法 |
CN113689527A (zh) * | 2020-05-15 | 2021-11-23 | 武汉Tcl集团工业研究院有限公司 | 一种人脸转换模型的训练方法、人脸图像转换方法 |
CN113689527B (zh) * | 2020-05-15 | 2024-02-20 | 武汉Tcl集团工业研究院有限公司 | 一种人脸转换模型的训练方法、人脸图像转换方法 |
CN112259119A (zh) * | 2020-10-19 | 2021-01-22 | 成都明杰科技有限公司 | 基于堆叠沙漏网络的音乐源分离方法 |
CN112287855A (zh) * | 2020-11-02 | 2021-01-29 | 东软睿驰汽车技术(沈阳)有限公司 | 基于多任务神经网络的驾驶行为检测方法和装置 |
CN112287855B (zh) * | 2020-11-02 | 2024-05-10 | 东软睿驰汽车技术(沈阳)有限公司 | 基于多任务神经网络的驾驶行为检测方法和装置 |
CN112668430A (zh) * | 2020-12-21 | 2021-04-16 | 四川长虹电器股份有限公司 | 一种吸烟行为检测方法、系统、计算机设备、存储介质 |
WO2022247103A1 (zh) * | 2021-05-25 | 2022-12-01 | 上海商汤智能科技有限公司 | 图像处理方法及装置、电子设备和计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2018153322A1 (zh) | 2018-08-30 |
CN108229490B (zh) | 2021-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108229490B (zh) | 关键点检测方法、神经网络训练方法、装置和电子设备 | |
Li et al. | Underwater image enhancement via medium transmission-guided multi-color space embedding | |
Zhou et al. | Semantic-supervised infrared and visible image fusion via a dual-discriminator generative adversarial network | |
JP7490141B2 (ja) | 画像検出方法、モデルトレーニング方法、画像検出装置、トレーニング装置、機器及びプログラム | |
CN110796080A (zh) | 一种基于生成对抗网络的多姿态行人图像合成算法 | |
JP2008033424A (ja) | 画像処理装置、画像処理方法、プログラム及び記憶媒体 | |
CN116645592B (zh) | 一种基于图像处理的裂缝检测方法和存储介质 | |
CN114444565B (zh) | 一种图像篡改检测方法、终端设备及存储介质 | |
CN112836653A (zh) | 人脸隐私化方法、设备、装置及计算机存储介质 | |
CN109977834B (zh) | 从深度图像中分割人手与交互物体的方法和装置 | |
CN111985488B (zh) | 一种基于离线高斯模型的目标检测分割方法及系统 | |
Xiang et al. | Recognition of characters on curved metal workpiece surfaces based on multi-exposure image fusion and deep neural networks | |
CN111046755A (zh) | 字符识别方法、装置、计算机设备和计算机可读存储介质 | |
JP5201184B2 (ja) | 画像処理装置及びプログラム | |
CN113536971B (zh) | 一种基于增量学习的目标检测方法 | |
CN113837015A (zh) | 一种基于特征金字塔的人脸检测方法及系统 | |
CN116912604B (zh) | 模型训练方法、图像识别方法、装置以及计算机存储介质 | |
CN117437691A (zh) | 一种基于轻量化网络的实时多人异常行为识别方法及系统 | |
CN116071625A (zh) | 深度学习模型的训练方法、目标检测方法及装置 | |
Dong et al. | MFIFusion: An infrared and visible image enhanced fusion network based on multi-level feature injection | |
JP6276504B2 (ja) | 画像検出装置及び制御プログラム並びに画像検出方法 | |
CN113033334B (zh) | 图像处理方法、装置、电子设备、介质 | |
CN113887638B (zh) | 图像数据扩增方法、装置、设备及存储介质 | |
CN113469172B (zh) | 目标定位、模型训练、界面交互方法及设备 | |
CN116563836A (zh) | 文本识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |