Nothing Special   »   [go: up one dir, main page]

CN110674719B - 目标对象匹配方法及装置、电子设备和存储介质 - Google Patents

目标对象匹配方法及装置、电子设备和存储介质 Download PDF

Info

Publication number
CN110674719B
CN110674719B CN201910882691.5A CN201910882691A CN110674719B CN 110674719 B CN110674719 B CN 110674719B CN 201910882691 A CN201910882691 A CN 201910882691A CN 110674719 B CN110674719 B CN 110674719B
Authority
CN
China
Prior art keywords
target object
image
matching
bipartite graph
human
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910882691.5A
Other languages
English (en)
Other versions
CN110674719A (zh
Inventor
颜鲲
杨昆霖
侯军
伊帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sensetime Technology Development Co Ltd
Original Assignee
Beijing Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sensetime Technology Development Co Ltd filed Critical Beijing Sensetime Technology Development Co Ltd
Priority to CN201910882691.5A priority Critical patent/CN110674719B/zh
Publication of CN110674719A publication Critical patent/CN110674719A/zh
Priority to KR1020227011057A priority patent/KR20220053670A/ko
Priority to SG11202110892SA priority patent/SG11202110892SA/en
Priority to PCT/CN2020/092332 priority patent/WO2021051857A1/zh
Priority to JP2022504597A priority patent/JP7262659B2/ja
Priority to TW109119834A priority patent/TWI747325B/zh
Application granted granted Critical
Publication of CN110674719B publication Critical patent/CN110674719B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本公开涉及一种目标对象匹配方法及装置、电子设备和存储介质,其中所述方法包括获取输入图像中待匹配的第一目标对象和第二目标对象;对所述输入图像中与所述第一目标对象对应的第一图像和与所述第二目标对象对应的第二图像分别执行特征处理,得到所述第一图像中的所述第一目标对象和所述第二图像中的所述第二目标对象的匹配度;基于所述第一图像中的所述第一目标对象和所述第二图像中的所述第二目标对象的匹配度,建立所述第一目标对象和所述第二目标对象之间的二分图;基于所述第一目标对象和所述第二目标对象之间的二分图,确定匹配的第一目标对象和第二目标对象。本公开实施例可提高目标对象的匹配精度。

Description

目标对象匹配方法及装置、电子设备和存储介质
技术领域
本公开涉及计算机视觉技术领域,尤其涉及一种目标对象匹配方法及装置、电子设备和存储介质。
背景技术
人脸人体匹配或者人手人体匹配是用于确定一张图片中的人体与人脸或者人手是否为匹配的,因为在一张图像中有时会有很多人,其中每个人的动作、大小可能都不一样,甚至会出现人和人相互重叠的情况,种种原因造成了将人体人脸以及人体人手匹配起来有很大的挑战性。
现有的技术主要是通过关键点检测和逻辑算法解决,比如通过计算人体各个关键点的距离或者角度等,确定人手或者人脸是否属于一个人。然而现有工作的逻辑算法不能适用于所有的情景,比如当两个人重合在一起的时候不能很好的区别两个人的人手。
发明内容
本公开提出了一种目标对象匹配的技术方案。
根据本公开的一方面,提供了一种目标对象匹配方法,其包括:获取输入图像中待匹配的第一目标对象和第二目标对象,所述第一目标对象包括人体,所述第二目标对象包括人手和人脸中的至少一种;对所述输入图像中与所述第一目标对象对应的第一图像和与所述第二目标对象对应的第二图像分别执行特征处理,得到所述第一图像中的所述第一目标对象和所述第二图像中的所述第二目标对象的匹配度;基于所述第一图像中的所述第一目标对象和所述第二图像中的所述第二目标对象的匹配度,建立所述第一目标对象和所述第二目标对象之间的二分图;基于所述第一目标对象和所述第二目标对象之间的二分图,确定匹配的第一目标对象和第二目标对象。基于上述配置,可以提高目标对象之间的匹配精度,而且适用于多人存在重合区域的场景,具有更好的适用性。
在一些可能的实施方式中,所述对所述输入图像中与所述第一目标对象对应的第一图像和与所述第二目标对象对应的第二图像分别执行特征处理,得到所述第一图像中的所述第一目标对象和所述第二图像中的所述第二目标对象的匹配度,包括:对所述第一图像和所述第二图像执行特征提取处理,分别得到所述第一图像的第一特征和所述第二图像的第二特征;对所述第一特征和所述第二特征的连接特征执行分类处理,得到所述第一图像中的所述第一目标对象和所述第二图像中的所述第二目标对象的匹配度。基于上述配置,可以方便获得两个目标对象之间的匹配度,并且该过程中可以得到高精度的特征以及得到精确的匹配度。
在一些可能的实施方式中,所述对所述第一特征和所述第二特征的连接特征执行分类处理,得到所述第一图像中的所述第一目标对象和所述第二图像中的所述第二目标对象的匹配度,包括:对所述第一特征和所述第二特征的连接特征执行特征融合处理,得到融合特征;将所述融合特征输入至全连接层执行所述分类处理,得到所述第一图像中的第一目标对象和第二图像中的第二目标对象的匹配度。基于上述配置,通过融合处理可以提高分类效率和分类精度。
在一些可能的实施方式中,所述基于所述第一图像中的所述第一目标对象和所述第二图像中的所述第二目标对象的匹配度,建立所述第一目标对象和所述第二目标对象之间的二分图,包括:响应于所述第二目标对象仅包括人脸,基于所述第一图像中的所述第一目标对象和所述第二图像中的所述第二目标对象的匹配度,建立人体和人脸之间的二分图;响应于所述第二目标对象仅包括人手,基于所述第一图像中的所述第一目标对象和所述第二图像中的所述第二目标对象的匹配度,建立人体和人手之间的二分图;响应于所述第二目标对象包括人脸和人手,基于所述第一图像中的所述第一目标对象和所述第二图像中的所述第二目标对象的匹配度,建立人体和人脸之间的二分图以及人体和人手之间的二分图;其中,将人体和人脸之间的匹配度作为所述人体和人脸之间的二分图中人体和人脸之间的连接权值,以及将人体和人手之间的匹配度作为所述人体和人手之间的二分图中人体和人手之间的连接权值。基于上述配置,可以通过建立二分图的方式方便的构建目标对象之间的关系。
在一些可能的实施方式中,所述基于所述第一图像中的所述第一目标对象和所述第二图像中的所述第二目标对象的匹配度,建立所述第一目标对象和所述第二目标对象之间的二分图,包括:基于匹配度大于第一阈值的第一目标对象和第二目标对象,建立所述第一目标对象和第二目标对象之间的二分图。基于上述配置,可以简化二分图结构,提高匹配效率。
在一些可能的实施方式中,所述基于所述第一目标对象和所述第二目标对象之间的二分图,确定匹配的第一目标对象和第二目标对象,包括:基于所述第一目标对象和所述第二目标对象之间的二分图,利用贪吃算法,按照所述第一目标对象和所述第二目标对象的匹配度从高到低的顺序,将与所述第一目标对象最匹配的预设数量个所述第二目标对象作为与所述第一目标对象匹配的第二目标对象。基于上述配置,可以方便且精确的确定匹配的目标对象。
在一些可能的实施方式中,所述基于所述第一目标对象和所述第二目标对象之间的二分图,确定匹配的第一目标对象和第二目标对象,还包括;响应于所述第一目标对象和所述第二目标对象之间的二分图包括人体和人手之间的二分图,利用贪心算法,选择出与所述第一目标对象最匹配的至多两个类型为人手的第二目标对象;响应于所述第一目标对象和所述第二目标对象之间的二分图包括人体和人脸之间的二分图,利用贪心算法,选择出与所述第一目标对象最匹配的类型为人脸的第二目标对象。基于上述配置,可以适应性的为不同类型的第二目标对象设定不同的匹配数量值,适应性更好。
在一些可能的实施方式中,所述基于所述第一目标对象和所述第二目标对象之间的二分图,确定匹配的第一目标对象和第二目标对象,还包括:响应于任一第一目标对象确定出匹配的预设数量个第二目标对象,不再为所述第一目标对象匹配其余第二目标对象,以及响应于任一第二目标对象确定出匹配的第一目标对象,不再为所述第二目标对象匹配其余第一目标对象。基于上述配置,可以避免同一目标对象匹配给多个目标对象,提高匹配精度。
在一些可能的实施方式中,所述获取输入图像中待匹配的第一目标对象和第二目标对象,包括以下方式中的至少一种:基于检测到的针对输入图像中所述第一目标对象和所述第二目标对象的框选操作,确定所述输入图像中的所述第一目标对象和所述第二目标对象;利用目标检测神经网络检测所述输入图像中的所述第一目标对象和所述第二目标对象;接收输入图像中所述第一目标对象和第二目标对象所在的位置信息,基于所述位置信息确定所述输入图像中的所述第一目标对象和第二目标对象。基于上述配置可以通过不同的方式确定待匹配的目标对象,具有更好的用户体验。
在一些可能的实施方式中,在对所述输入图像中与所述第一目标对象对应的第一图像和与所述第二目标对象对应的第二图像分别执行特征处理之前,所述方法还包括:将所述第一图像和所述第二图像分别调整为预设规格,并且,所述对所述输入图像中与所述第一目标对象对应的第一图像和与所述第二目标对象对应的第二图像分别执行特征处理,得到所述第一图像中的所述第一目标对象和所述第二图像中的所述第二目标对象的匹配度,包括:对所述调整为预设规格的所述第一图像和所述第二图像执行特征处理,得到所述第一图像中的所述第一目标对象和所述第二图像中的第二目标对象的匹配度。基于上述配置,可以适应于不同规格的图像。
在一些可能的实施方式中,所述方法还包括:在所述输入图像中显示匹配的所述第一目标对象和所述第二目标对象。基于上述配置,可以直观的显示出匹配结果,用户体验更好。
在一些可能的实施方式中,所述方法还包括,通过孪生神经网络执行所述对所述第一目标对象对应的第一图像和所述第二目标对象对应的第二图像分别执行特征处理,得到所述第一图像中的所述第一目标对象和所述第二图像中的所述第二目标对象的匹配度。基于上述配置,可以提高特征处理的精度,进一步提高匹配度。
在一些可能的实施方式中,所述方法还包括训练所述孪生神经网络的步骤,其包括:获得训练样本,所述训练样本包括多个第一训练图像和多个第二训练图像,所述第一训练图像为人体图像,所述第二训练图像为人脸图像或者人手图像;将所述第一训练图像和所述第二训练图像输入至所述孪生神经网络,得到所述第一训练图像和所述第二训练图像的预测匹配结果;基于所述第一训练图像和所述第二训练图像之间的预测匹配结果,确定网络损失,并根据所述网络损失调整所述孪生神经网络的网络参数,直至满足训练要求。基于上述配置,可以优化孪生神经网络,提高匹配精度。
根据本公开的第二方面,提供了一种目标对象匹配装置,包括:
获取模块,用于获取输入图像中待匹配的第一目标对象和第二目标对象,所述第一目标对象包括人体,所述第二目标对象包括人手和人脸中的至少一种;
特征处理模块,用于对所述输入图像中与所述第一目标对象对应的第一图像和与所述第二目标对象对应的第二图像分别执行特征处理,得到所述第一图像中的所述第一目标对象和所述第二图像中的所述第二目标对象的匹配度;
二分模块,用于基于所述第一图像中的所述第一目标对象和所述第二图像中的所述第二目标对象的匹配度,建立所述第一目标对象和所述第二目标对象之间的二分图;
匹配模块,用于基于所述第一目标对象和所述第二目标对象之间的二分图,确定匹配的第一目标对象和第二目标对象。
在一些可能的实施方式中,所述特征处理模块还用于对所述第一图像和所述第二图像执行特征提取处理,分别得到所述第一图像的第一特征和所述第二图像的第二特征;
对所述第一特征和所述第二特征的连接特征执行分类处理,得到所述第一图像中的所述第一目标对象和所述第二图像中的所述第二目标对象的匹配度。
在一些可能的实施方式中,所述特征处理模块还用于对所述第一特征和所述第二特征的连接特征执行特征融合处理,得到融合特征;
将所述融合特征输入至全连接层执行所述分类处理,得到所述第一图像中的第一目标对象和第二图像中的第二目标对象的匹配度。
在一些可能的实施方式中,所述二分模块还用于在所述第二目标对象仅包括人脸的情况下,基于所述第一图像中的所述第一目标对象和所述第二图像中的所述第二目标对象的匹配度,建立人体和人脸之间的二分图;
载所述第二目标对象仅包括人手的情况下,基于所述第一图像中的所述第一目标对象和所述第二图像中的所述第二目标对象的匹配度,建立人体和人手之间的二分图;
在所述第二目标对象包括人脸和人手的情况下,基于所述第一图像中的所述第一目标对象和所述第二图像中的所述第二目标对象的匹配度,建立人体和人脸之间的二分图以及人体和人手之间的二分图;
其中,将人体和人脸之间的匹配度作为所述人体和人脸之间的二分图中人体和人脸之间的连接权值,以及将人体和人手之间的匹配度作为所述人体和人手之间的二分图中人体和人手之间的连接权值。
在一些可能的实施方式中,所述二分模块还用于基于匹配度大于第一阈值的第一目标对象和第二目标对象,建立所述第一目标对象和第二目标对象之间的二分图。
在一些可能的实施方式中,所述匹配模块还用于基于所述第一目标对象和所述第二目标对象之间的二分图,利用贪吃算法,按照所述第一目标对象和所述第二目标对象的匹配度从高到低的顺序,将与所述第一目标对象最匹配的预设数量个所述第二目标对象作为与所述第一目标对象匹配的第二目标对象。
在一些可能的实施方式中,所述匹配模块还用于在所述第一目标对象和所述第二目标对象之间的二分图包括人体和人脸之间的二分图的情况下,利用贪心算法,选择出与所述第一目标对象最匹配的类型为人脸的第二目标对象。
在一些可能的实施方式中,所述匹配模块还用于在任一第一目标对象确定出匹配的预设数量个第二目标对象的情况下,不再为所述第一目标对象匹配其余第二目标对象,以及
在任一第二目标对象确定出匹配的第一目标对象的情况下,不再为所述第二目标对象匹配其余第一目标对象。
在一些可能的实施方式中,所述获取模块获取输入图像中待匹配的第一目标对象和第二目标对象,包括以下方式中的至少一种:
基于检测到的针对输入图像中所述第一目标对象和所述第二目标对象的框选操作,确定所述输入图像中的所述第一目标对象和所述第二目标对象;
利用目标检测神经网络检测所述输入图像中的所述第一目标对象和所述第二目标对象;
接收输入图像中所述第一目标对象和第二目标对象所在的位置信息,基于所述位置信息确定所述输入图像中的所述第一目标对象和第二目标对象。
在一些可能的实施方式中,所述特征处理模块还用于在对所述输入图像中与所述第一目标对象对应的第一图像和与所述第二目标对象对应的第二图像分别执行特征处理之前,将所述第一图像和所述第二图像分别调整为预设规格,并且,
所述对所述输入图像中与所述第一目标对象对应的第一图像和与所述第二目标对象对应的第二图像分别执行特征处理,得到所述第一图像中的所述第一目标对象和所述第二图像中的所述第二目标对象的匹配度,包括:
对所述调整为预设规格的所述第一图像和所述第二图像执行特征处理,得到所述第一图像中的所述第一目标对象和所述第二图像中的第二目标对象的匹配度。
在一些可能的实施方式中,所述装置还包括显示模块,用于在所述输入图像中显示匹配的所述第一目标对象和所述第二目标对象。
在一些可能的实施方式中,所述特征处理模块还用于通过孪生神经网络执行所述对所述第一目标对象对应的第一图像和所述第二目标对象对应的第二图像分别执行特征处理,得到所述第一图像中的所述第一目标对象和所述第二图像中的所述第二目标对象的匹配度。
在一些可能的实施方式中,所述装置还包括训练模块,用于训练所述孪生神经网络,其中训练所述孪生神经网络的步骤包括:获得训练样本,所述训练样本包括多个第一训练图像和多个第二训练图像,所述第一训练图像为人体图像,所述第二训练图像为人脸图像或者人手图像;
将所述第一训练图像和所述第二训练图像输入至所述孪生神经网络,得到所述第一训练图像和所述第二训练图像的预测匹配结果;
基于所述第一训练图像和所述第二训练图像之间的预测匹配结果,确定网络损失,并根据所述网络损失调整所述孪生神经网络的网络参数,直至满足训练要求。
根据本公开的第三方面,提供了一种电子设备,其包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为调用所述存储器存储的指令,以执行第一方面中任意一项所述的方法。
根据本公开的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现第一方面中任意一项所述的方法。
在本公开实施例中,可以首先获取待匹配的第一目标对象的第一图像和第二目标对象的第二图像,其中第一目标对象可以为人体,第二目标对象可以为人脸和/或人手,而后通过对第一图像和第二图像执行特征处理,可以得到第一图像中第一目标对象和第二图像中第二目标对象的匹配度,进而通过建立二分图的方式确定第一图像中的第一目标对象和第二图像中的第二目标对象的匹配结果。本公开实施例首先检测各第一目标对象和各第二目标对象之间的匹配度,并通过建立二分图的方式对上述检测到的匹配度进行约束,最终确定与第一目标对象匹配的第二目标对象,使得最终关联匹配的结果精度更高。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本公开。
根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。
图1示出根据本公开实施例的一种目标对象匹配方法的流程图;
图2示出根据本公开实施例获得的输入图像中各目标对象的位置区域的示意图;
图3示出根据本公开实施例通过神经网络得到第一目标对象和第二目标对象的匹配度的流程图;
图4示出根据本公开实施例的孪生神经网络的结构示意图;
图5示出根据本公开实施例的构建的人体和人手之间的二分图以及匹配结果的示意图;
图6示出根据本公开实施例训练孪生神经网络的流程图;
图7示出根据本公开实施例的一种目标对象匹配装置的框图;
图8示出根据本公开实施例的一种电子设备的框图;
图9示出根据本公开实施例的另一种电子设备的框图。
具体实施方式
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。
另外,为了更好地说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
本公开实施例提供了一种目标对象匹配方法,该方法可以方便的得到两个图像中的对象是否匹配,例如可以检测出人脸对象和人体对象是否匹配,或者检测人手对象与人体对象是否匹配。其中,该方法可以应用在任意的图像处理设备中,例如可以应用在电子设备、或者服务器中,其中,电子设备可以包括手机、笔记本电脑、PAD等终端设备,也可以包括在智能手环、智能手表等可佩戴设备,或者也可以为其他的手持设备等。服务器可以包括云端服务器或者本地服务器等。只要能够执行图像处理,即可以作为本公开实施例的目标对象匹配方法的执行主体。
图1示出根据本公开实施例的一种目标对象匹配方法的流程图,如图1所示,所述目标对象匹配方法可以包括:
S10:获取输入图像中待匹配的第一目标对象和第二目标对象,所述第一目标对象包括人体,所述第二目标对象包括人手和人脸中的至少一种;
在一些可能的实施方式中,本公开实施例可以实现人脸和人体的匹配以及人手和人体的匹配,即确定输入图像中的人脸与人体是否对应于同一人,以及人手和人体是否对应于同一人,从而可以实现针对每个人物对象的人脸、人手以及人体的匹配。其中,可以首先获得输入图像中待匹配的目标对象的图像。目标对象可以包括人体,以及人手和人脸中的至少一种。例如,可以对输入图像执行目标检测处理,检测出输入图像中的各目标对象,即首获得输入图像中待匹配的第一目标对象和第二目标对象,例如获得第一目标对象和第二目标图像在输入图像中的位置。进而可以确定第一目标对象对应的图像区域和第二目标对象对应的图像区域。其中,第一目标对象包括人体,第二目标对象包括人脸和人手中的至少一种。
S20:对所述输入图像中与所述第一目标对象对应的第一图像和与所述第二目标对象对应的第二图像分别执行特征处理,得到所述第一图像中的第一目标对象和第二图像中的第二目标对象的匹配度;
在一些可能的实施方式中,在获得输入图像中待匹配的第一目标对象和第二目标对象的情况下,即可以获知待匹配的第一目标对象和第二目标分别在输入图像中的位置的情况下,可以确定第一目标对象以及第二目标对象在输入图像中所对应的的图像区域,即可以确定输入图像中第一目标对象的位置对应的第一图像,以及输入图像中第二目标对象的位置对应的第二图像,其中第一图像和第二图像分别为输入图像中的一部分图像区域。
在得到第一图像和第二图像的情况下,可以通过分别对第一图像和第二图像执行特征处理,检测第一图像中的第一目标对象和第二图像中的第二目标对象的匹配情况,得到相应的匹配度。
在一些可能的实施方式中,可以通过神经网络实现上述第一目标对象和第二目标对象的匹配度的获取,可以分别得到第一图像和第二图像的图像特征,进一步根据图像特征确定第一目标对象和第二目标对象之间的匹配度。在一个示例中,神经网络可以包括特征提取模块、特征融合模块以及全连接模块。通过特征提取模块可以对输入的第一图像和第二图像执行特征提取处理,特征融合模块可以实现第一图像和第二图像的特征信息的特征融合,以及全连接模块可以得到第一目标对象和第二目标对象的二分类结果,即可以得到第一目标对象和第二目标对象的匹配度,其中该匹配度可以为大于或者等于0且小于或者等于1的数值,匹配度越大,表示第一目标对象和第二目标对象对应于同一人物对象的可能性就越大。
在一个示例中,神经网络可以为孪生神经网络,其中特征提取模块可以包括两个特征提取分支,两个特征提取分支上的处理操作以及参数全部相同,通过该两个特征提取分支可以分别提取第一图像和第二图像的特征信息。通过孪生神经网络实现匹配度的检测,可以提高检测到的匹配度的精确度。
S30:基于所述第一图像中的所述第一目标对象和所述第二图像中的所述第二目标对象的匹配度,建立所述第一目标对象和所述第二目标对象之间的二分图。
在一些可能的实施方式中,在得到第一目标对象和第二目标对象的匹配度的情况下,可以建立第一目标对象和第二目标对象之间的二分图。其中,在输入图像中可以包括至少一个人物对象,其中可以包括至少一个第一目标对象,以及至少一个第二目标对象。通过每个第一目标对象和每个第二目标对象之间的匹配度,可以建立各个第一目标对象和各第二目标对象之间的二分图,其中,第一目标对象和第二目标对象可以分别作为二分图中的两个点集,其中第一目标对象和第二目标对象之间的匹配度作为两个点集之间的各连接权重。
例如,可以根据第二目标对象的类型,建立不同的二分图。在第二目标对象的类型为人脸时,得到的二分图即为人体和人脸之间的二分图,在第二目标对象的类型为人手时,得到的二分图即为人体和人手之间的二分图,在第二目标对象包括人脸和人手时,得到的二分图即为人体和人脸之间的二分图以及人体和人手之间的二分图。
S40:基于所述第一目标对象和所述第二目标对象之间的二分图,确定匹配的第一目标对象和第二目标对象。
在一些可能的实施方式中,在得到第一目标对象和第二目标对象之间的二分图的情况下,即可以根据该二分图确定与第一目标对象匹配的第二目标对象,即确定出与第一目标对象对应于相同人物对象的第二目标对象。
其中,如上所述,二分图中第一目标对象和第二目标对象之间的连接权重为第一目标对象和第二目标对象的匹配度,本公开实施例可以按照匹配度从高到低的顺序,确定第一目标对象所匹配的第二目标对象。
在一个示例中,在二分图为人体和人脸之间的二分图的情况下,可以基于匹配度从高到低的顺序,为每个人体(第一目标对象)确定出一个最为匹配的人脸(第二目标对象)。在二分图为人体和人体之间的二分图的情况下,可以基于匹配度从高到低的顺序,为每个人体(第一目标对象)确定出至多两个最为匹配的人手(第二目标对象)。
其中,本公开实施例可以利用贪吃算法得到上述第一目标对象匹配的第二目标对象,其中,在任一第一目标对象匹配出对应的第二目标对象的情况下,则不再为该第一目标对象和第二目标对象执行其他对象的匹配。
基于上述配置,本公开实施例可以首先预测输入图像中各第一目标对象和第二目标对象之间的匹配度,并利用建立二分图的方式确定第一目标对象和第二目标对象的匹配结果,得到精度更高的匹配结果。
下面结合附图对本公开实施例进行详细说明。本公开实施例可以首先获得输入图像,其中输入图像可以为任意包括人物对象的图像,其中获得输入图像的方式可以包括以下方式中的至少一种:通过图像采集设备采集输入图像、接收其他设备传输的输入图像、从存储器中读取输入图像。其中图像采集设备可以为任意具有图像采集功能的设备,如可以为照相机、摄像机、手机或者电脑等,但本公开对此不作具体限定。另外存储器可以为本地存储器或者云存储器。上述仅为示例性说明获得输入图像的方式,在其他实施例中也可以通过其他方式获得输入图像,本公开对此不作具体限定。
在获得输入图像的情况下,即可以进一步获得输入图像中待匹配的第一目标对象和第二目标对象,如获得第一目标对象和第二目标对象所在的位置区域。本公开实施例可以将输入图像输入至能够实现目标对象的检测的神经网络中,该目标对象可以包括人体、人脸和人手。例如可以将输入图像输入至能够执行目标对象的检测的神经网络中,经过该神经网络的检测,可以得到输入图像中的第一目标对象所在的位置区域,以及第二目标对象所在的位置区域,其中,可以在输入图像中以检测框的形式表示各第一目标对象和第二目标对象的位置区域。另外,可以包括各检测框对应的目标对象的类别信息(人体、人脸或者人手)。通过上述检测框对应的位置即可以确定第一目标对象和第二目标对象所在的位置区域,通过标识可以确定第一目标对象和第二目标对象的类型。例如,本公开实施例执行目标对象的检测的神经网络可以为区域候选网络(RPN),或者也可以为目标识别卷积神经网络(RCNN),但本公开对此不作具体限定。通过该种方式可以方便且精确的识别出输入图像中所有的第一目标对象和第二目标对象。
在一些可能的实施方式中,也可以根据接收的针对输入图像的框选操作确定输入图像中的第一目标对象和第二目标对象,即本公开实施例可以接收用户输入的框选操作,其中该框选操作是从输入图像中框选出待匹配的第一目标对象和第二目标对象,即框选出第一目标对象和第二目标对象对应的位置区域,框选操作确定的位置区域的形状可以为矩形,或者也可以为其他形状,本公开对此不作具体限定。其中,在接收框选操作时还可以接收每个框选区域对应的对象的类别,如人体、人脸或者人手。通过该种方式,可以基于用户的选择,确定待匹配的第一目标对象和第二目标对象,例如可以将输入图像中的至少一个第一目标对象和至少一个第二目标对象作为待匹配的第一目标对象和第二目标对象,具有更好的灵活性和适用性。
在一些可能的实施方式中,也可以直接接收针对第一目标对象和第二目标对象的位置信息,例如可以接收第一目标对象和第二目标对象的相应位置区域的顶点坐标,以及高度值,从而可以确定相应位置区域。或者也可以接收相应位置区域对应的两个顶角的坐标,即可以确定第一目标对象和第二目标对象在输入图像中的位置区域,即得到输入图像中的第一目标对象和第二目标对象。上述仅为示例性说明,在其他实施例中也可以通过其他方式表示位置区域的位置信息。通过该种方式,可以基于用户的发送的位置信息,确定待匹配的第一目标对象和第二目标对象,例如可以将输入图像中的至少一个第一目标对象和至少一个第二目标对象作为待匹配的第一目标对象和第二目标对象,具有更好的灵活性和适用性。
通过上述配置可以确定输入图像中目标对象所在的位置区域,可以根据该位置区域得到输入图像中各第一目标对象的第一图像,以及各第二目标对象的第二图像。图2示出根据本公开实施例获得的输入图像中各目标对象的位置区域的示意图。其中,A1和B1分别表示第一目标对象A和B的位置区域,其中第一目标对象为人体。A2和B2分别表示类型为人脸的第二目标对象的位置区域,A3和A4表示类型为人手的第二目标对象的位置区域。图2中可以将全部人体、人脸以及人手均作为待匹配的第一目标对象和第二目标对象,本公开实施例也可以仅将输入图像中的一部分第一目标对象和第二目标对象作为待匹配的第一目标对象和第二目标对象,在此不做举例说明。
在得到待匹配的第一目标对象和第二目标对象的情况下,即可以通过对第一目标对象和第二目标对象对应的图像区域进行特征处理,预测第一目标对象和第二目标对象之间的匹配度。其中,本公开实施例可以通过神经网络执行上述特征处理,并得到相应的第一目标对象和第二目标对象之间的匹配度。图3示出根据本公开实施例通过神经网络得到第一目标对象和第二目标对象的匹配度的流程图。
如图3所示,本公开实施例中的对所述输入图像中与所述第一目标对象对应的第一图像和与所述第二目标对象对应的第二图像分别执行特征处理,得到所述第一图像中的所述第一目标对象和所述第二图像中的所述第二目标对象的匹配度,可以包括:
S21:对所述第一图像和所述第二图像执行特征提取处理,分别得到所述第一图像的第一特征和所述第二图像的第二特征;
在一些可能的实施方式中,可以对第一目标对象和第二目标对象在输入推那个中的图像区域执行特征提取处理,其中第一目标对象的位置对应的图像区域即为第一图像,第二目标对象的位置对应的图像区域即为第二图像。在确定第一图像和第二图像的情况下,可以执行第一图像和第二图像的特征提取处理。其中,可以通过神经网络的特征提取模块执行特征提取处理。其中,特征提取模块可以包括一个特征提取分支,利用该特征提取分支可以分别执行第一图像和第二图像的特征提取处理,在包括多个第一目标对象以及多个第二目标对象的情况下,还可以对多个第一图像和第二图像执行特征提取处理。另外,特征提取模块也可以包括两个特征提取分支,该两个特征提取分支可以具有相同的网络结构,也可以为不同的网络结构,只要能够执行特征提取,即可以作为本公开实施例。在包括两个特征提取分支的情况下,可以分别将第一图像和第二图像一一对应的输入至两个特征提取分支中,例如通过一个特征提取分支对第一图像执行特征提取处理,得到第一图像对应的第一特征,通过另一个特征提取分支对第二图像执行特征提取处理,得到第二图像对应的第二特征。在其他实施例中,也可以包括至少三个特征提取分支,用于执行第一图像和第二图像的特征提取处理,本公开对此不作具体限定。通过上述方式可以精确的实现特征处理,以及匹配度的确定。
下面以孪生神经网络为例进行说明,图4示出根据本公开实施例的孪生神经网络的结构示意图。本公开实施例的特征提取模块可以包括两个特征提取分支,孪生神经网络的两个特征提取分支的结构和参数完全相同。其中,特征提取分支可以包括残差网络,即本公开实施例的特征提取模块可以由残差网络构成,通过残差模块对第一图像和第二图像执行特征提取处理,提取图像中的特征信息。其中,残差网络可以为resnet18,但本公开对此不作具体限定,另外特征提取模块也可以为其他能够执行特征提取的网络模块,本公开对此也不作具体限定。如图4所示,第一图像I1可以为对应于人体区域的图像,第二图像I2可以为对应于人脸区域的图像,或者人手区域的第二图像。在存在多个第一图像和第二图像的情况下,可以分别将各第一图像和第二图像输入至两个特征提取分支中,执行特征提取处理。或者,本公开实施例也可以每次仅向特征提取分支分别输入一个图像,执行该两个图像的特征提取,并在得到两个图像中目标对象的匹配度的情况下,再输入下一次需要执行匹配对检测的第一图像和第二图像。
另外,本公开实施还可以为每个图像分配标识,同时也可以对图像中包括的目标对象的类型进行标识,即本公开实施例中,每个第一图像以及第二图像都可以包括有图像标识以及类型标识,用以后续处理区分各图像,以及图像中的目标对象的类型。
另外,在一些可能的实施方式中,在得到各第一目标对象的第一图像以及各第二目标对象的第二图像时,可以将第一图像和第二图像调整为预设规格的图像。例如可以通过缩小处理、放大处理、升采样、或者降采样处理等,将第一图像和第二图像调整到预设规格的尺寸,比如224*224(但不作为本公开的具体限定),而后将调整为预设规格的第一图像和第二图像输入至神经网网络执行特征提取,得到相应的第一特征和第二特征。
S22:对所述第一特征和所述第二特征的连接特征执行分类处理,得到所述第一图像中的所述第一目标对象和所述第二图像中的所述第二目标对象的匹配度。
在一些可能的实施方式中,本公开实施例可以对第一特征和第二特征的连接特征执行特征融合处理,得到融合特征;以及将所述融合特征输入至全连接层执行所述分类处理,得到所述第一图像中的第一目标对象和第二图像中的第二目标对象的匹配度。
其中,本公开实施例得到的第一特征和第二特征可以分别表示为矩阵或者向量的形式,该第一特征和第二特征的尺度可以相同。而后可以将得到的第一特征和第二特征进行连接,例如在通道方向上连接得到连接特征,其中连接可以通过连接函数(concat函数)执行。在得到第一特征和第二特征的连接特征的情况下,可以对该连接特征执行特征融合处理,如可以执行至少一层的卷积操作实现该特征融合处理。例如本公开实施例可以通过残差模块(resnet_block)执行连接特征的残差处理,以执行特征融合处理得到融合特征。而后基于融合特征执行匹配度的分类预测,其中可以得到第一目标对象和第二目标对象是否匹配的分类结果,以及可以得到对应的匹配度。
在一个示例中,其中执行匹配的分类预测可以通过全连接层(FC)实现,即可以将融合特征输入至全连接层,通过全连接层的处理可以输出得到上述预测结果,即第一目标对象和第二目标对象的匹配度,以及基于该匹配度确定的是否匹配的匹配结果。其中,可以在匹配度高于第一阈值的情况下,确定第一目标对象和第二目标对象匹配,此时匹配结果可以为第一标识,如“1”,而在匹配度小于第一阈值的情况下,确定第一目标对象和第二目标对象不匹配,此时匹配结果可以为第二标识,如“0”。上述第一标识和第二标识可以为不同的标识,分别用于表示第一目标对象和第二目标对象属于同一人物对象和不属于同一人物对象的匹配结果。
在得到输入图像中待匹配的各第一目标对象和第二目标对象之间的匹配度的情况下,即可以根据该得到的匹配度对应的建立第一目标对象和第二目标对象之间的二分图。
其中,G=(V,E)是一个无向图,其中顶点集可分割为两个互不相交的子集,并且图中每条边依附的两个顶点都分属于这两个互不相交的子集。本公开实施例中,可以将第一目标对象和第二目标对象构造为二分图中的顶点集V和E,各顶点之间的连接即二分图中的各边可以为两个顶点对应的第一目标对象和第二目标对象之间的匹配度。
在一些可能的实施方式中,可以根据输入图像中执行待匹配处理的第二目标对象的类型来建立相应的二分图。例如,在输入图像中待匹配的第二目标对象仅包括人脸时,可以基于第一图像中的第一目标对象和第二图像中的第二目标对象的匹配度,建立人体和人脸之间的二分图。在输入图像中待匹配的第二目标对象仅包括人手时,可以基于第一图像中的第一目标对象和第二图像中的第二目标对象的匹配度,建立人体和人手之间的二分图;以及在输入图像中待匹配的第二目标对象包括人脸和人手时,可以基于第一图像中的第一目标对象和第二图像中的第二目标对象的匹配度,建立人体和人脸之间的二分图以及人体和人手之间的二分图,即可以利用各第一目标对象与类型为人手的第二目标对象建立人体和人手之间的二分图,利用各第一目标对象与类型为人脸的第二目标对象建立人体和人脸之间的二分图。其中在各二分图中,可以将人体和人脸之间的匹配度作为人体和人脸之间的二分图中人体和人脸之间的连接权值,以及将人体和人手之间的匹配度作为所述人体和人手之间的二分图中人体和人手之间的连接权值。
也就是说,本公开实施例可以将第一目标对象和第二目标对象作为二分图中的各顶点的点集,该点集分为三类:人体、人脸和人手。进而可以对人体人脸、人体人手分别建立二分图,两个顶点之间相应边的权值为神经网络输出的相应两个顶点对应的第一目标对象和第二目标对象之间的匹配度。
在此需要说明的是,本公开实施例在获得每个第一目标对象与每个第二目标对象之间的匹配度的情况下,可以选择出匹配度高于第一阈值的各第一目标对象和第二目标对象,并基于匹配度高于第一阈值的第一目标对象和第二目标对象确定第一目标对象和第二目标对象之间的二分图。
其中,针对每个第一目标对象,如果存在一第二目标对象与所有的第一目标对象之间的匹配度都低于第一阈值,则该第二目标对象不用于形成二分图。反之,如果存在一第一目标对象与所有的人脸类型的第二目标对象之间的匹配度都低于第一阈值,则该第一目标对象不用于形成人体和人脸之间的二分图,如果存在一第一目标对象与所有的人体类型的第二目标对象之间的匹配度都低于第一阈值,则该第一目标对象不用于形成人体和人手之间的二分图。
通过第一阈值的设定,可以简化二分图的结构,通时可以加快第一目标对象和第二目标对象的匹配效率。
在得到第一目标对象和第二目标对象的二分图的情况下,可以基于第一目标对象和第二目标对象之间的二分图,利用贪吃算法,得到与各人体类型的第一目标对象匹配的至多预设数量个第二目标对象。其中,针对不同类型的第二目标对象,预设数量可以为不同的数值,例如在第二目标对象为人手的情况下,预设数量可以为2,在第二目标对象为人脸的情况下,该预设数量可以为1。具体可以根据不同的目标对象的类型选取不同的预设数量的值,本公开对此不作具体限定。
其中,可以按照匹配度从高到低的顺序,确定第一目标对象匹配的至多预设数量个第二目标对象。本公开实施例可以利用贪吃算法,确定第一目标对象和第二目标对象的匹配情况。即按照匹配度从高到低的顺序,将第二目标对象匹配给对应的第一目标对象,如果一第一目标对象匹配的第二目标对象的数量达到预设数量,则终止该第一目标对象的第二目标对象的匹配程序,即不再为该第一目标对象匹配任何其余的第二目标对象。另外,如果第二目标对象被确定为任一第一目标对象匹配的第二目标对象,则终止该第二目标对象的匹配程序,即不再为该第二目标对象匹配任何其余的第一目标对象。
在一些可能的实施方式中,在按照匹配度从高到低的顺序确定第一目标对象匹配的第二目标对象的过程中,如果迭代到一第一目标对象和第二目标对象之间的匹配度低于第一阈值,则此时可以终止匹配程序。例如,以人体和人脸之间的二分图为例,假设匹配度从高到低的顺序为X1和Y1的匹配度为90%、X2和Y2的匹配度为80%、X2和Y1的匹配度为50%以及X1和Y2的匹配度为30%,以及第一阈值可以为60%。其中,X1和X2分别表示两个第一目标对象,Y1和Y2分别表示两个第二目标对象,按照匹配度的顺序可以将90%的匹配度的第一目标对象X1和第二目标对象Y1确定为匹配的,将80%的匹配度的第一目标对象X2和第二目标对象Y2确定为匹配的,而后由于下一个匹配度为50%,其小于第一阈值,此时可以终止匹配过程。通过上述即可以确定出第一目标对象X1和X2分别匹配的人脸为Y1和Y2。
上述仅为示例性说明,通过第一阈值的设置来终止匹配的过程,但不作为本公开的具体限定,在其他实施例中,也可以只根据各第一目标对象和第二目标对象之间的匹配度从高到低的顺序,为各第一目标对象匹配出至多预设数量个第二目标对象。这里的至多预设数量个第二目标对象是指,在第二目标对象为人手时,由于每个人物对象可以匹配两只手,但是由于在匹配的过程中,由于第一阈值的设置,以及输入图像中第二目标对象的数量的影响,可能存在第一目标对象只被匹配出一个人手类型的第二目标对象。
下面以第二目标对象为人手举例说明,图5示出根据本公开实施例的构建的人体和人手之间的二分图以及匹配结果的示意图,其中,图5表示基于第一目标对象和第二目标对象之间的匹配度构建的人体和人手之间的二分图。其中,可以将人体和人手分别作为二分图的两类顶点的集合。其中P1、P2和P3分别表示三个第一目标对象,即三个人体。H1、H2、H3、H4和H5分别表示五个类型为人手的第二目标对象。任意两个第一目标对象和第二目标对象之间的连接线,可以表示为第一目标对象和第二目标对象之间的匹配度。
基于该人体和人手之间的二分图,可以按照匹配度从高到低的顺序为各第一目标对象分配匹配的第二目标对象,其中为每个第一目标对象最多匹配两个第二目标对象,在按照匹配度从高到低的顺序,将一第二目标对象确认为与一第一目标对象匹配时,此时可以不再将该第二目标对象匹配给其余第一目标对象,同时判断该第一目标对象所匹配的第二目标对象的数量是否达到预设数量,如达到,则不再为该第一目标对象匹配其余的第二目标对象,如未达到预设数量,可以基于匹配度从高到低的顺序,执行下一匹配度的第二目标对象与相应的第一目标对象的匹配时,可以确定第二目标对象是否确定为其余第一目标对象所匹配的第二目标对象,以及该第一目标对象所匹配的第二目标对象的数量是否达到预设数量,如第二目标对象未匹配给任何第一目标对象,以及第一目标对象匹配的第二目标对象小于预设数量,则确定为该第一目标对象和第二目标对象匹配。依次类推,针对每个匹配度所对应的第一目标对象和第二目标对象可以重复迭代执行上述过程,直至满足终止条件。其中终止条件可以包括以下至少一种:为每个第一目标对象匹配出相应的第二目标对象、基于匹配度最低的第一目标对象和第二目标对象执行完成上述匹配过程,以及匹配度小于第一阈值。
针对人体和人脸之间的二分图确定第一目标对象匹配的第二目标对象的过程与上述相似,在此不做重复说明。
另外,本公开实施例在得到与各第一目标对象匹配的第二目标对象的情况下,可以显示该匹配的第一目标对象和第二目标对象的位置区域。例如,本公开实施例可以利用相同显示状态显示所匹配的第一目标对象和第二目标对象所在的位置区域的边界框,该边界框可以为步骤S10中得到的各位置区域的检测框。在一个示例中,可以按照相同颜色显示匹配的第一目标对象和第二目标对象的位置区域的边界框,但不作为本公开的具体限定。如图2所示,针对每个人物对象,可以利用显示框的线条宽度区分对应于不同人物对象的人体框、人手框以及人脸框,例如,从而方便的区分匹配结果。
基于本公开实施例的上述配置,可以通过建立二分图的方式,选择出与各第一目标对象最为匹配的第二目标对象,提高目标对象之间的匹配精度。
如上所述,本公开实施例可以应用在神经网络中,例如可以应用在孪生神经网络中,例如本公开实施例可以通过孪生神经网络执行对所述第一目标对象的位置区域对应的第一图像和所述第二目标对象的位置区域对应的第二图像分别执行特征处理,得到所述第一图像中的第一目标对象和第二图像中的第二目标对象的匹配度。
图6示出根据本公开实施例训练孪生神经网络的流程图。其中,训练孪生神经网络的步骤可以包括:
S51:获得训练样本,所述训练样本包括多个第一训练图像和多个第二训练图像,所述第一训练图像为人体图像,所述第二训练图像为人脸图像或者人手图像;
在一些可能的实施方式中,其中第一训练图像和第二训练图像可以为从多个图像中截取的图像区域,也可以为通过目标检测的方式从多个图像中识别出的相应类型的目标对象的图像区域,或者也可以为任意的包括人体、人手或者人脸的图像,本公开对此不作具体限定。
S52:将所述第一训练图像和所述第二训练图像输入至所述孪生神经网络,得到所述第一训练图像和所述第二训练图像的预测匹配结果;
在一些可能的实施方式中,通过孪生神经网络执行第一训练图像和第二训练图像的特征提取,以及特征连接、特征融合和分类处理,最终预测得到第一训练图像和第二训练图像之间的匹配度,而后可以根据该匹配度确定第一训练图像和第二训练图像之间的匹配结果。该匹配结果可以表示成第一标识和第二标识,如第一标识为1,第二标识为0,用于表示第一训练图像和第二训练图像匹配或者不匹配的匹配结果。具体可以根据匹配度与第一阈值的比较结果确定匹配结果,如匹配度大于第一阈值,则确定相应的第一训练图像和第二训练图像的匹配结果为匹配,此时可以表示为第一标识,否则表示为第二标识。
S53:基于所述第一训练图像和所述第二训练图像之间的预测匹配结果,调整所述孪生神经网络的网络参数,直至满足训练要求。
本公开实施例中,第一训练图像和第二训练图像的真实匹配结果可以作为监督,进而可以根据第一训练图像和第二训练图像之间的预测匹配结果以及真实匹配结果确定网络损失,该网络损失可以根据两个匹配结果之间的差异确定。
在得到网络损失的情况下,可以根据网络损失调整孪生神经网络的参数,如卷积参数等。在得到的网络损失小于损失阈值的情况下,确定满足训练要求,此时可以终止训练,如果得到的网络损失大于或者等于损失阈值,则根据该网络损失调整网络参数,重新预测各第一训练图像和第二训练图像之间的匹配结果,直至得到的网络损失小于损失阈值。其中损失阈值可以为预先设定的值,如可以为1%,但不作为本公开的具体限定,也可以为其他的数值。通过上述方式可以实现孪生神经网络的优化,提高特征处理和匹配精度。
为了更加清楚的体现本公开实施例,下面举例说明本公开实施例的具体过程。首先可以将从输入图像中的抠出的人体图片和人脸图片/人手图片都调整到一个固定的大小,比如224*224,而后将各图片分别输入到孪生网络的两个特征提取分支中。网络的两个分支分别提取人体和人脸或人手的特征,在两个分支的最后对提取的人体和人脸或人手的特征图进行连接,再进入网络进行二分类打分,分数在0-1之间,如果人体和人脸或人手匹配那么分数就接近1,否则接近0。以图4为例,网络的两个分支分别用resnet18作为提取特征,将得到的特征图并在一起,再经过一个resnet_block卷积层,最后通过一个全连接层进行分类,得到匹配度。而后将点集分为三类——人体,人脸,人手。对人体人脸、人体人手分别建立全连接二分图,相应边的权值为网络输出的分数(匹配度)。对二分图进行规则约束,一个人体最多匹配两个人手,一个人体最多匹配一个人脸。对分数进行排序,利用贪心算法,由高到低依次进行匹配,把多余不合法的边全部去掉,不断迭代直到匹配结束。本公开实施例使用孪生网络可以学习到更多复杂场景下的关联关系。另外,本公开实施例在最终关联的时候使用了二分图对网络输出的结果进行了约束,使得最终结果的精度更高。
综上所述,在本公开实施例中,可以首先获取待匹配的第一目标对象的第一图像和第二目标对象的第二图像,其中第一目标对象可以为人体,第二目标对象可以为人脸和/或人手,而后通过对第一图像和第二图像执行特征处理,可以得到第一图像中第一目标对象和第二图像中第二目标对象的匹配度,进而通过建立二分图的方式确定第一图像中的第一目标对象和第二图像中的第二目标对象的匹配结果。本公开实施例首先检测各第一目标对象和各第二目标对象之间的匹配度,并通过建立二分图的方式对上述检测到的匹配度进行约束,最终确定与第一目标对象匹配的第二目标对象,使得最终关联匹配的结果精度更高。
可以理解,本公开提及的上述各个方法实施例,在不违背原理逻辑的情况下,均可以彼此相互结合形成结合后的实施例,限于篇幅,本公开不再赘述。
此外,本公开还提供了目标对象装置、电子设备、计算机可读存储介质、程序,上述均可用来实现本公开提供的任一种目标对象匹配方法,相应技术方案和描述和参见方法部分的相应记载,不再赘述。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
图7示出根据本公开实施例的一种目标对象匹配装置的框图,如图7所示,所述目标对象匹配装置包括:
获取模块10,用于获取输入图像中待匹配的第一目标对象和第二目标对象,所述第一目标对象包括人体,所述第二目标对象包括人手和人脸中的至少一种;
特征处理模块20,用于对所述输入图像中与所述第一目标对象对应的第一图像和与所述第二目标对象对应的第二图像分别执行特征处理,得到所述第一图像中的所述第一目标对象和所述第二图像中的所述第二目标对象的匹配度;
二分模块30,用于基于所述第一图像中的所述第一目标对象和所述第二图像中的所述第二目标对象的匹配度,建立所述第一目标对象和所述第二目标对象之间的二分图;
匹配模块40,用于基于所述第一目标对象和所述第二目标对象之间的二分图,确定匹配的第一目标对象和第二目标对象。
在一些可能的实施方式中,所述特征处理模块还用于对所述第一图像和所述第二图像执行特征提取处理,分别得到所述第一图像的第一特征和所述第二图像的第二特征;
对所述第一特征和所述第二特征的连接特征执行分类处理,得到所述第一图像中的所述第一目标对象和所述第二图像中的所述第二目标对象的匹配度。
在一些可能的实施方式中,所述特征处理模块还用于对所述第一特征和所述第二特征的连接特征执行特征融合处理,得到融合特征;
将所述融合特征输入至全连接层执行所述分类处理,得到所述第一图像中的第一目标对象和第二图像中的第二目标对象的匹配度。
在一些可能的实施方式中,所述二分模块还用于在所述第二目标对象仅包括人脸的情况下,基于所述第一图像中的所述第一目标对象和所述第二图像中的所述第二目标对象的匹配度,建立人体和人脸之间的二分图;
载所述第二目标对象仅包括人手的情况下,基于所述第一图像中的所述第一目标对象和所述第二图像中的所述第二目标对象的匹配度,建立人体和人手之间的二分图;
在所述第二目标对象包括人脸和人手的情况下,基于所述第一图像中的所述第一目标对象和所述第二图像中的所述第二目标对象的匹配度,建立人体和人脸之间的二分图以及人体和人手之间的二分图;
其中,将人体和人脸之间的匹配度作为所述人体和人脸之间的二分图中人体和人脸之间的连接权值,以及将人体和人手之间的匹配度作为所述人体和人手之间的二分图中人体和人手之间的连接权值。
在一些可能的实施方式中,所述二分模块还用于基于匹配度大于第一阈值的第一目标对象和第二目标对象,建立所述第一目标对象和第二目标对象之间的二分图。
在一些可能的实施方式中,所述匹配模块还用于基于所述第一目标对象和所述第二目标对象之间的二分图,利用贪吃算法,按照所述第一目标对象和所述第二目标对象的匹配度从高到低的顺序,将与所述第一目标对象最匹配的预设数量个所述第二目标对象作为与所述第一目标对象匹配的第二目标对象。
在一些可能的实施方式中,所述匹配模块还用于在所述第一目标对象和所述第二目标对象之间的二分图包括人体和人脸之间的二分图的情况下,利用贪心算法,选择出与所述第一目标对象最匹配的类型为人脸的第二目标对象。
在一些可能的实施方式中,所述匹配模块还用于在任一第一目标对象确定出匹配的预设数量个第二目标对象的情况下,不再为所述第一目标对象匹配其余第二目标对象,以及
在任一第二目标对象确定出匹配的第一目标对象的情况下,不再为所述第二目标对象匹配其余第一目标对象。
在一些可能的实施方式中,所述获取模块获取输入图像中待匹配的第一目标对象和第二目标对象,包括以下方式中的至少一种:
基于检测到的针对输入图像中所述第一目标对象和所述第二目标对象的框选操作,确定所述输入图像中的所述第一目标对象和所述第二目标对象;
利用目标检测神经网络检测所述输入图像中的所述第一目标对象和所述第二目标对象;
接收输入图像中所述第一目标对象和第二目标对象所在的位置信息,基于所述位置信息确定所述输入图像中的所述第一目标对象和第二目标对象。
在一些可能的实施方式中,所述特征处理模块还用于在对所述输入图像中与所述第一目标对象对应的第一图像和与所述第二目标对象对应的第二图像分别执行特征处理之前,将所述第一图像和所述第二图像分别调整为预设规格,并且,
所述对所述输入图像中与所述第一目标对象对应的第一图像和与所述第二目标对象对应的第二图像分别执行特征处理,得到所述第一图像中的所述第一目标对象和所述第二图像中的所述第二目标对象的匹配度,包括:
对所述调整为预设规格的所述第一图像和所述第二图像执行特征处理,得到所述第一图像中的所述第一目标对象和所述第二图像中的第二目标对象的匹配度。
在一些可能的实施方式中,所述装置还包括显示模块,用于在所述输入图像中显示匹配的所述第一目标对象和所述第二目标对象。
在一些可能的实施方式中,所述特征处理模块还用于通过孪生神经网络执行所述对所述第一目标对象对应的第一图像和所述第二目标对象对应的第二图像分别执行特征处理,得到所述第一图像中的所述第一目标对象和所述第二图像中的所述第二目标对象的匹配度。
在一些可能的实施方式中,所述装置还包括训练模块,用于训练所述孪生神经网络,其中训练所述孪生神经网络的步骤包括:获得训练样本,所述训练样本包括多个第一训练图像和多个第二训练图像,所述第一训练图像为人体图像,所述第二训练图像为人脸图像或者人手图像;
将所述第一训练图像和所述第二训练图像输入至所述孪生神经网络,得到所述第一训练图像和所述第二训练图像的预测匹配结果;
基于所述第一训练图像和所述第二训练图像之间的预测匹配结果,确定网络损失,并根据所述网络损失调整所述孪生神经网络的网络参数,直至满足训练要求。
在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
本公开实施例还提出一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述方法。计算机可读存储介质可以是非易失性计算机可读存储介质。
本公开实施例还提出一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为上述方法。
电子设备可以被提供为终端、服务器或其它形态的设备。
图8示出根据本公开实施例的一种电子设备的框图。例如,电子设备800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等终端。
参照图8,电子设备800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制电子设备800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在电子设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件806为电子设备800的各种组件提供电力。电源组件806可以包括电源管理系统,一个或多个电源,及其他与为电子设备800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述电子设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当电子设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当电子设备800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为电子设备800提供各个方面的状态评估。例如,传感器组件814可以检测到电子设备800的打开/关闭状态,组件的相对定位,例如所述组件为电子设备800的显示器和小键盘,传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变,用户与电子设备800接触的存在或不存在,电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,电子设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种非易失性计算机可读存储介质,例如包括计算机程序指令的存储器804,上述计算机程序指令可由电子设备800的处理器820执行以完成上述方法。
图9示出根据本公开实施例的另一种电子设备的框图。例如,电子设备1900可以被提供为一服务器。参照图9,电子设备1900包括处理组件1922,其进一步包括一个或多个处理器,以及由存储器1932所代表的存储器资源,用于存储可由处理组件1922的执行的指令,例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1922被配置为执行指令,以执行上述方法。
电子设备1900还可以包括一个电源组件1926被配置为执行电子设备1900的电源管理,一个有线或无线网络接口1950被配置为将电子设备1900连接到网络,和一个输入输出(I/O)接口1958。电子设备1900可以操作基于存储在存储器1932的操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
在示例性实施例中,还提供了一种非易失性计算机可读存储介质,例如包括计算机程序指令的存储器1932,上述计算机程序指令可由电子设备1900的处理组件1922执行以完成上述方法。
本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (24)

1.一种目标对象匹配方法,其特征在于,包括:
获取输入图像中待匹配的第一目标对象和第二目标对象,所述第一目标对象包括人体,所述第二目标对象包括人手和人脸中的至少一种;
对所述输入图像中与所述第一目标对象对应的第一图像和与所述第二目标对象对应的第二图像分别执行特征处理,得到所述第一图像中的所述第一目标对象和所述第二图像中的所述第二目标对象的匹配度;
基于所述第一图像中的所述第一目标对象和所述第二图像中的所述第二目标对象的匹配度,建立所述第一目标对象和所述第二目标对象之间的二分图;
基于所述第一目标对象和所述第二目标对象之间的二分图,确定匹配的第一目标对象和第二目标对象;
所述对所述输入图像中与所述第一目标对象对应的第一图像和与所述第二目标对象对应的第二图像分别执行特征处理,得到所述第一图像中的所述第一目标对象和所述第二图像中的所述第二目标对象的匹配度,包括:
对所述第一图像和所述第二图像执行特征提取处理,分别得到所述第一图像的第一特征和所述第二图像的第二特征;
对所述第一特征和所述第二特征的连接特征执行特征融合处理,得到融合特征;
将所述融合特征输入至全连接层执行分类处理,得到所述第一图像中的第一目标对象和第二图像中的第二目标对象的匹配度。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一图像中的所述第一目标对象和所述第二图像中的所述第二目标对象的匹配度,建立所述第一目标对象和所述第二目标对象之间的二分图,包括:
响应于所述第二目标对象仅包括人脸,基于所述第一图像中的所述第一目标对象和所述第二图像中的所述第二目标对象的匹配度,建立人体和人脸之间的二分图;
响应于所述第二目标对象仅包括人手,基于所述第一图像中的所述第一目标对象和所述第二图像中的所述第二目标对象的匹配度,建立人体和人手之间的二分图;
响应于所述第二目标对象包括人脸和人手,基于所述第一图像中的所述第一目标对象和所述第二图像中的所述第二目标对象的匹配度,建立人体和人脸之间的二分图以及人体和人手之间的二分图;
其中,将人体和人脸之间的匹配度作为所述人体和人脸之间的二分图中人体和人脸之间的连接权值,以及将人体和人手之间的匹配度作为所述人体和人手之间的二分图中人体和人手之间的连接权值。
3.根据权利要求1或2所述的方法,其特征在于,所述基于所述第一图像中的所述第一目标对象和所述第二图像中的所述第二目标对象的匹配度,建立所述第一目标对象和所述第二目标对象之间的二分图,包括:
基于匹配度大于第一阈值的第一目标对象和第二目标对象,建立所述第一目标对象和第二目标对象之间的二分图。
4.根据权利要求1或2中任意一项所述的方法,其特征在于,所述基于所述第一目标对象和所述第二目标对象之间的二分图,确定匹配的第一目标对象和第二目标对象,包括:
基于所述第一目标对象和所述第二目标对象之间的二分图,利用贪吃算法,按照所述第一目标对象和所述第二目标对象的匹配度从高到低的顺序,将与所述第一目标对象最匹配的预设数量个所述第二目标对象作为与所述第一目标对象匹配的第二目标对象。
5.根据权利要求4所述的方法,其特征在于,所述基于所述第一目标对象和所述第二目标对象之间的二分图,确定匹配的第一目标对象和第二目标对象,还包括;
响应于所述第一目标对象和所述第二目标对象之间的二分图包括人体和人手之间的二分图,利用贪心算法,选择出与所述第一目标对象最匹配的至多两个类型为人手的第二目标对象;
响应于所述第一目标对象和所述第二目标对象之间的二分图包括人体和人脸之间的二分图,利用贪心算法,选择出与所述第一目标对象最匹配的类型为人脸的第二目标对象。
6.根据权利要求4所述的方法,其特征在于,所述基于所述第一目标对象和所述第二目标对象之间的二分图,确定匹配的第一目标对象和第二目标对象,还包括:
响应于任一第一目标对象确定出匹配的预设数量个第二目标对象,不再为所述第一目标对象匹配其余第二目标对象,以及
响应于任一第二目标对象确定出匹配的第一目标对象,不再为所述第二目标对象匹配其余第一目标对象。
7.根据权利要求1或2中任意一项所述的方法,其特征在于,所述获取输入图像中待匹配的第一目标对象和第二目标对象,包括以下方式中的至少一种:
基于检测到的针对输入图像中所述第一目标对象和所述第二目标对象的框选操作,确定所述输入图像中的所述第一目标对象和所述第二目标对象;
利用目标检测神经网络检测所述输入图像中的所述第一目标对象和所述第二目标对象;
接收输入图像中所述第一目标对象和第二目标对象所在的位置信息,基于所述位置信息确定所述输入图像中的所述第一目标对象和第二目标对象。
8.根据权利要求1或2中任意一项所述的方法,其特征在于,在对所述输入图像中与所述第一目标对象对应的第一图像和与所述第二目标对象对应的第二图像分别执行特征处理之前,所述方法还包括:
将所述第一图像和所述第二图像分别调整为预设规格,并且,
所述对所述输入图像中与所述第一目标对象对应的第一图像和与所述第二目标对象对应的第二图像分别执行特征处理,得到所述第一图像中的所述第一目标对象和所述第二图像中的所述第二目标对象的匹配度,包括:
对所述调整为预设规格的所述第一图像和所述第二图像执行特征处理,得到所述第一图像中的所述第一目标对象和所述第二图像中的第二目标对象的匹配度。
9.根据权利要求1或2中任意一项所述的方法,其特征在于,所述方法还包括:
在所述输入图像中显示匹配的所述第一目标对象和所述第二目标对象。
10.根据权利要求1或2中任意一项所述的方法,其特征在于,所述方法还包括,通过孪生神经网络执行对所述第一目标对象对应的第一图像和所述第二目标对象对应的第二图像分别执行特征处理,得到所述第一图像中的所述第一目标对象和所述第二图像中的所述第二目标对象的匹配度。
11.根据权利要求10所述的方法,其特征在于,所述方法还包括训练所述孪生神经网络的步骤,其包括:
获得训练样本,所述训练样本包括多个第一训练图像和多个第二训练图像,所述第一训练图像为人体图像,所述第二训练图像为人脸图像或者人手图像;
将所述第一训练图像和所述第二训练图像输入至所述孪生神经网络,得到所述第一训练图像和所述第二训练图像的预测匹配结果;
基于所述第一训练图像和所述第二训练图像之间的预测匹配结果,确定网络损失,并根据所述网络损失调整所述孪生神经网络的网络参数,直至满足训练要求。
12.一种目标对象匹配装置,其特征在于,包括:
获取模块,用于获取输入图像中待匹配的第一目标对象和第二目标对象,所述第一目标对象包括人体,所述第二目标对象包括人手和人脸中的至少一种;
特征处理模块,用于对所述输入图像中与所述第一目标对象对应的第一图像和与所述第二目标对象对应的第二图像分别执行特征处理,得到所述第一图像中的所述第一目标对象和所述第二图像中的所述第二目标对象的匹配度;
二分模块,用于基于所述第一图像中的所述第一目标对象和所述第二图像中的所述第二目标对象的匹配度,建立所述第一目标对象和所述第二目标对象之间的二分图;
匹配模块,用于基于所述第一目标对象和所述第二目标对象之间的二分图,确定匹配的第一目标对象和第二目标对象;
所述特征处理模块还用于:
对所述第一图像和所述第二图像执行特征提取处理,分别得到所述第一图像的第一特征和所述第二图像的第二特征;
对所述第一特征和所述第二特征的连接特征执行特征融合处理,得到融合特征;
将所述融合特征输入至全连接层执行分类处理,得到所述第一图像中的第一目标对象和第二图像中的第二目标对象的匹配度。
13.根据权利要求12所述的装置,其特征在于,所述二分模块还用于在所述第二目标对象仅包括人脸的情况下,基于所述第一图像中的所述第一目标对象和所述第二图像中的所述第二目标对象的匹配度,建立人体和人脸之间的二分图;
载所述第二目标对象仅包括人手的情况下,基于所述第一图像中的所述第一目标对象和所述第二图像中的所述第二目标对象的匹配度,建立人体和人手之间的二分图;
在所述第二目标对象包括人脸和人手的情况下,基于所述第一图像中的所述第一目标对象和所述第二图像中的所述第二目标对象的匹配度,建立人体和人脸之间的二分图以及人体和人手之间的二分图;
其中,将人体和人脸之间的匹配度作为所述人体和人脸之间的二分图中人体和人脸之间的连接权值,以及将人体和人手之间的匹配度作为所述人体和人手之间的二分图中人体和人手之间的连接权值。
14.根据权利要求12或13所述的装置,其特征在于,所述二分模块还用于基于匹配度大于第一阈值的第一目标对象和第二目标对象,建立所述第一目标对象和第二目标对象之间的二分图。
15.根据权利要求12或13中任意一项所述的装置,其特征在于,所述匹配模块还用于基于所述第一目标对象和所述第二目标对象之间的二分图,利用贪吃算法,按照所述第一目标对象和所述第二目标对象的匹配度从高到低的顺序,将与所述第一目标对象最匹配的预设数量个所述第二目标对象作为与所述第一目标对象匹配的第二目标对象。
16.根据权利要求15所述的装置,其特征在于,所述匹配模块还用于在所述第一目标对象和所述第二目标对象之间的二分图包括人体和人脸之间的二分图的情况下,利用贪心算法,选择出与所述第一目标对象最匹配的类型为人脸的第二目标对象。
17.根据权利要求15所述的装置,其特征在于,所述匹配模块还用于在任一第一目标对象确定出匹配的预设数量个第二目标对象的情况下,不再为所述第一目标对象匹配其余第二目标对象,以及
在任一第二目标对象确定出匹配的第一目标对象的情况下,不再为所述第二目标对象匹配其余第一目标对象。
18.根据权利要求12-13中任意一项所述的装置,其特征在于,所述获取模块获取输入图像中待匹配的第一目标对象和第二目标对象,包括以下方式中的至少一种:
基于检测到的针对输入图像中所述第一目标对象和所述第二目标对象的框选操作,确定所述输入图像中的所述第一目标对象和所述第二目标对象;
利用目标检测神经网络检测所述输入图像中的所述第一目标对象和所述第二目标对象;
接收输入图像中所述第一目标对象和第二目标对象所在的位置信息,基于所述位置信息确定所述输入图像中的所述第一目标对象和第二目标对象。
19.根据权利要求12或13中任意一项所述的装置,其特征在于,所述特征处理模块还用于在对所述输入图像中与所述第一目标对象对应的第一图像和与所述第二目标对象对应的第二图像分别执行特征处理之前,将所述第一图像和所述第二图像分别调整为预设规格,并且,
所述对所述输入图像中与所述第一目标对象对应的第一图像和与所述第二目标对象对应的第二图像分别执行特征处理,得到所述第一图像中的所述第一目标对象和所述第二图像中的所述第二目标对象的匹配度,包括:
对所述调整为预设规格的所述第一图像和所述第二图像执行特征处理,得到所述第一图像中的所述第一目标对象和所述第二图像中的第二目标对象的匹配度。
20.根据权利要求12或13中任意一项所述的装置,其特征在于,所述装置还包括显示模块,用于在所述输入图像中显示匹配的所述第一目标对象和所述第二目标对象。
21.根据权利要求12或13中任意一项所述的装置,其特征在于,所述特征处理模块还用于通过孪生神经网络执行对所述第一目标对象对应的第一图像和所述第二目标对象对应的第二图像分别执行特征处理,得到所述第一图像中的所述第一目标对象和所述第二图像中的所述第二目标对象的匹配度。
22.根据权利要求21所述的装置,其特征在于,所述装置还包括训练模块,用于训练所述孪生神经网络,其中训练所述孪生神经网络的步骤包括:获得训练样本,所述训练样本包括多个第一训练图像和多个第二训练图像,所述第一训练图像为人体图像,所述第二训练图像为人脸图像或者人手图像;
将所述第一训练图像和所述第二训练图像输入至所述孪生神经网络,得到所述第一训练图像和所述第二训练图像的预测匹配结果;
基于所述第一训练图像和所述第二训练图像之间的预测匹配结果,确定网络损失,并根据所述网络损失调整所述孪生神经网络的网络参数,直至满足训练要求。
23.一种电子设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为调用所述存储器存储的指令,以执行权利要求1至11中任意一项所述的方法。
24.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1至11中任意一项所述的方法。
CN201910882691.5A 2019-09-18 2019-09-18 目标对象匹配方法及装置、电子设备和存储介质 Active CN110674719B (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN201910882691.5A CN110674719B (zh) 2019-09-18 2019-09-18 目标对象匹配方法及装置、电子设备和存储介质
KR1020227011057A KR20220053670A (ko) 2019-09-18 2020-05-26 목표 대상물 매칭 방법 및 장치, 전자 기기 및 기억 매체
SG11202110892SA SG11202110892SA (en) 2019-09-18 2020-05-26 Target object matching method and apparatus, electronic device and storage medium
PCT/CN2020/092332 WO2021051857A1 (zh) 2019-09-18 2020-05-26 目标对象匹配方法及装置、电子设备和存储介质
JP2022504597A JP7262659B2 (ja) 2019-09-18 2020-05-26 目標対象物マッチング方法及び装置、電子機器並びに記憶媒体
TW109119834A TWI747325B (zh) 2019-09-18 2020-06-12 目標對象匹配方法及目標對象匹配裝置、電子設備和電腦可讀儲存媒介

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910882691.5A CN110674719B (zh) 2019-09-18 2019-09-18 目标对象匹配方法及装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN110674719A CN110674719A (zh) 2020-01-10
CN110674719B true CN110674719B (zh) 2022-07-26

Family

ID=69076784

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910882691.5A Active CN110674719B (zh) 2019-09-18 2019-09-18 目标对象匹配方法及装置、电子设备和存储介质

Country Status (6)

Country Link
JP (1) JP7262659B2 (zh)
KR (1) KR20220053670A (zh)
CN (1) CN110674719B (zh)
SG (1) SG11202110892SA (zh)
TW (1) TWI747325B (zh)
WO (1) WO2021051857A1 (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674719B (zh) * 2019-09-18 2022-07-26 北京市商汤科技开发有限公司 目标对象匹配方法及装置、电子设备和存储介质
CN111476214A (zh) * 2020-05-21 2020-07-31 北京爱笔科技有限公司 一种图像区域匹配方法和相关装置
CN111680646B (zh) * 2020-06-11 2023-09-22 北京市商汤科技开发有限公司 动作检测方法及装置、电子设备和存储介质
US11544509B2 (en) * 2020-06-30 2023-01-03 Nielsen Consumer Llc Methods, systems, articles of manufacture, and apparatus to classify labels based on images using artificial intelligence
KR20220098309A (ko) * 2020-12-29 2022-07-12 센스타임 인터내셔널 피티이. 리미티드. 대상 검출 방법, 장치 및 전자 디바이스
AU2021203821B2 (en) * 2020-12-31 2022-08-18 Sensetime International Pte. Ltd. Methods, devices, apparatuses and storage media of detecting correlated objects involved in images
CN112801141B (zh) * 2021-01-08 2022-12-06 吉林大学 基于模板匹配和孪生神经网络优化的异源图像匹配方法
AU2021204584A1 (en) * 2021-03-17 2022-10-06 Sensetime International Pte. Ltd. Methods, apparatuses, devices and storage media for detecting correlated objects involved in image
WO2022195338A1 (en) * 2021-03-17 2022-09-22 Sensetime International Pte. Ltd. Methods, apparatuses, devices and storage media for detecting correlated objects involved in image
CN113205138B (zh) * 2021-04-30 2024-07-09 四川云从天府人工智能科技有限公司 人脸人体匹配方法、设备和存储介质
WO2022096957A1 (en) * 2021-06-22 2022-05-12 Sensetime International Pte. Ltd. Body and hand association method and apparatus, device, and storage medium
AU2021204619A1 (en) 2021-06-22 2023-01-19 Sensetime International Pte. Ltd. Body and hand association method and apparatus, device, and storage medium
CN115100571A (zh) * 2022-07-14 2022-09-23 平安科技(深圳)有限公司 基于面审视频的旁人入镜检测方法、系统及存储介质
CN115731436B (zh) * 2022-09-21 2023-09-26 东南大学 基于深度学习融合模型的高速公路车辆图像检索方法
CN115827925A (zh) * 2023-02-21 2023-03-21 中国第一汽车股份有限公司 一种目标关联方法、装置、电子设备及存储介质
CN116309449B (zh) * 2023-03-14 2024-04-09 浙江医准智能科技有限公司 图像处理方法、装置、设备及存储介质
CN118691058A (zh) * 2024-08-29 2024-09-24 济南昊远智能科技有限公司 一种基于大模型技术的工业机器人管理系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014180108A1 (en) * 2013-05-09 2014-11-13 Tencent Technology (Shenzhen) Company Limited Systems and methods for matching face shapes
CN108388888A (zh) * 2018-03-23 2018-08-10 腾讯科技(深圳)有限公司 一种车辆识别方法、装置和存储介质
CN109740516A (zh) * 2018-12-29 2019-05-10 深圳市商汤科技有限公司 一种用户识别方法、装置、电子设备及存储介质
CN110070005A (zh) * 2019-04-02 2019-07-30 腾讯科技(深圳)有限公司 图像目标识别方法、装置、存储介质及电子设备
CN110110189A (zh) * 2018-02-01 2019-08-09 北京京东尚科信息技术有限公司 用于生成信息的方法和装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101077379B1 (ko) * 2009-03-13 2011-10-26 노틸러스효성 주식회사 불법 금융 거래 방지용 금융 자동화 기기 및 그 제어 방법
JP2011070629A (ja) * 2009-08-25 2011-04-07 Dainippon Printing Co Ltd 広告効果測定システム及び広告効果測定装置
US8564534B2 (en) * 2009-10-07 2013-10-22 Microsoft Corporation Human tracking system
US8543598B2 (en) * 2010-03-01 2013-09-24 Microsoft Corporation Semantic object characterization and search
CN109657524B (zh) * 2017-10-11 2021-03-05 阿里巴巴(中国)有限公司 一种图像匹配方法及装置
US20190213797A1 (en) * 2018-01-07 2019-07-11 Unchartedvr Inc. Hybrid hand tracking of participants to create believable digital avatars
JP7094702B2 (ja) * 2018-01-12 2022-07-04 キヤノン株式会社 画像処理装置及びその方法、プログラム
CN108509896B (zh) * 2018-03-28 2020-10-13 腾讯科技(深圳)有限公司 一种轨迹跟踪方法、装置和存储介质
CN109190454A (zh) * 2018-07-17 2019-01-11 北京新唐思创教育科技有限公司 用于识别视频中的目标人物的方法、装置、设备及介质
CN110427908A (zh) * 2019-08-08 2019-11-08 北京百度网讯科技有限公司 一种人物检测的方法、装置及计算机可读存储介质
CN110674719B (zh) * 2019-09-18 2022-07-26 北京市商汤科技开发有限公司 目标对象匹配方法及装置、电子设备和存储介质
CN111275002A (zh) * 2020-02-18 2020-06-12 上海商汤临港智能科技有限公司 一种图像处理方法、装置及电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014180108A1 (en) * 2013-05-09 2014-11-13 Tencent Technology (Shenzhen) Company Limited Systems and methods for matching face shapes
CN110110189A (zh) * 2018-02-01 2019-08-09 北京京东尚科信息技术有限公司 用于生成信息的方法和装置
CN108388888A (zh) * 2018-03-23 2018-08-10 腾讯科技(深圳)有限公司 一种车辆识别方法、装置和存储介质
CN109740516A (zh) * 2018-12-29 2019-05-10 深圳市商汤科技有限公司 一种用户识别方法、装置、电子设备及存储介质
CN110070005A (zh) * 2019-04-02 2019-07-30 腾讯科技(深圳)有限公司 图像目标识别方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
JP7262659B2 (ja) 2023-04-21
CN110674719A (zh) 2020-01-10
SG11202110892SA (en) 2021-10-28
TWI747325B (zh) 2021-11-21
JP2022542668A (ja) 2022-10-06
KR20220053670A (ko) 2022-04-29
WO2021051857A1 (zh) 2021-03-25
TW202113757A (zh) 2021-04-01

Similar Documents

Publication Publication Date Title
CN110674719B (zh) 目标对象匹配方法及装置、电子设备和存储介质
CN110647834B (zh) 人脸和人手关联检测方法及装置、电子设备和存储介质
CN110688951B (zh) 图像处理方法及装置、电子设备和存储介质
CN110287874B (zh) 目标追踪方法及装置、电子设备和存储介质
CN111310616B (zh) 图像处理方法及装置、电子设备和存储介质
CN111340766B (zh) 目标对象的检测方法、装置、设备和存储介质
US11443438B2 (en) Network module and distribution method and apparatus, electronic device, and storage medium
CN111553864B (zh) 图像修复方法及装置、电子设备和存储介质
CN109934275B (zh) 图像处理方法及装置、电子设备和存储介质
CN109145970B (zh) 基于图像的问答处理方法和装置、电子设备及存储介质
CN110532956B (zh) 图像处理方法及装置、电子设备和存储介质
CN111243011A (zh) 关键点检测方法及装置、电子设备和存储介质
CN111652107B (zh) 对象计数方法及装置、电子设备和存储介质
CN111523485A (zh) 位姿识别方法及装置、电子设备和存储介质
CN111242303A (zh) 网络训练方法及装置、图像处理方法及装置
CN109903252B (zh) 图像处理方法及装置、电子设备和存储介质
CN111435422B (zh) 动作识别方法、控制方法及装置、电子设备和存储介质
CN112184787A (zh) 图像配准方法及装置、电子设备和存储介质
CN113139471A (zh) 目标检测方法及装置、电子设备和存储介质
CN113538310A (zh) 图像处理方法及装置、电子设备和存储介质
CN110633715B (zh) 图像处理方法、网络训练方法及装置、和电子设备
CN112529846A (zh) 图像处理方法及装置、电子设备和存储介质
CN111339880A (zh) 一种目标检测方法及装置、电子设备和存储介质
CN109978759B (zh) 图像处理方法及装置和图像生成网络的训练方法及装置
CN111507131B (zh) 活体检测方法及装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40018249

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant