CN111783497A - 视频中目标的特征确定方法、装置和计算机可读存储介质 - Google Patents
视频中目标的特征确定方法、装置和计算机可读存储介质 Download PDFInfo
- Publication number
- CN111783497A CN111783497A CN201910265480.7A CN201910265480A CN111783497A CN 111783497 A CN111783497 A CN 111783497A CN 201910265480 A CN201910265480 A CN 201910265480A CN 111783497 A CN111783497 A CN 111783497A
- Authority
- CN
- China
- Prior art keywords
- target
- determining
- feature
- information
- processed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000010801 machine learning Methods 0.000 claims description 45
- 230000004927 fusion Effects 0.000 claims description 39
- 238000010586 diagram Methods 0.000 claims description 38
- 230000011218 segmentation Effects 0.000 claims description 34
- 238000007499 fusion processing Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 11
- 239000002131 composite material Substances 0.000 claims description 6
- 238000013519 translation Methods 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 4
- 230000017105 transposition Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 description 11
- 238000012549 training Methods 0.000 description 10
- 238000000605 extraction Methods 0.000 description 5
- 230000000875 corresponding effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0641—Shopping interfaces
- G06Q30/0643—Graphical representation of items or shoppers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本公开涉及一种视频中目标的特征确定方法、装置和计算机可读存储介质,涉及计算机技术领域。该方法包括:根据从视频的各帧图像中提取的图像特征,确定各帧图像中待处理目标的目标特征;确定各目标特征之间的差异特征;根据差异特征融合各目标特征,确定待处理目标的综合特征。本公开的技术方案能够提高目标特征确定的准确性。
Description
技术领域
本公开涉及计算机技术领域,特别涉及一种视频中目标的特征确定方法、视频中目标的特征确定装置和计算机可读存储介质。
背景技术
利用图像处理技术可以识别图像中目标的形状、姿态等目标特征。例如,在电商领域,可以利用图像处理技术获取用户的人体形状和姿态,从而实现诸如虚拟试衣、服装推荐等功能。
在相关技术中,对于处于线上场景的用户无法直接获取其三维点云信息,需要对用户上传的单幅图片或视频中的帧图像进行图像处理,从而估计用户的形状和姿态。
发明内容
本公开的发明人发现上述相关技术中存在如下问题:对单幅图片或帧图像进行单独处理,无法基于各帧图像的连续性确定统一的目标特征,导致目标特征确定的准确性差。
鉴于此,本公开提出了一种视频中目标的特征确定技术方案,能够提高目标特征确定的准确性。
根据本公开的一些实施例,提供了一种视频中目标的特征确定方法包括:根据从视频的各帧图像中提取的图像特征,确定所述各帧图像中待处理目标的目标特征;确定各目标特征之间的差异特征;根据所述差异特征融合所述各目标特征,确定所述待处理目标的综合特征。
在一些实施例中,所述确定所述各帧图像中待处理目标的目标特征包括:提取所述各帧图像的背景分割图、所述待处理目标的目标分割图和所述待处理目标的关键点的热力图(Heatmap)作为所述图像特征;根据所述目标分割图、所述背景分割图和所述热力图,确定所述各帧图像的所述目标特征。
在一些实施例中,所述确定所述待处理目标的综合特征包括:根据所述差异特征对所述各目标特征进行补偿;将补偿后的各目标特征融合为所述目标的综合目标特征。
在一些实施例中,确定各目标特征之间的差异特征包括:所述目标特征包括所述待处理目标的姿态参数和投影参数,所述投影参数包括所述待处理目标相对于摄像机的旋转参数、所述待处理目标投影到图像平面的平移参数和缩放参数;根据所述各帧图像的所述热力图、所述姿态参数和所述投影参数,利用第一机器学习模型,确定所述差异特征。
在一些实施例中,所述第一机器学习模型包括拼接模块、第一卷积模块和第一连接模块,所述拼接模块用于将所述热力图、所述姿态参数和所述投影参数拼接为第一输入信息,所述第一卷积模块包括多个卷积层用于根据所述第一输入信息确定第一卷积信息,所述第一连接模块包括多个全连接层用于根据所述第一卷积信息确定所述差异特征。
在一些实施例中,所述第一机器学习模型根据损失函数训练,所述损失函数根据特征误差参数和关键点距离参数构建,所述特征误差参数根据补偿后的所述各目标特征与各目标特征真实值之间的误差确定,所述关键点距离参数根据相邻两帧图像中各关键点的位置变化确定。
在一些实施例中,所述目标特征包括所述待处理目标的形状参数、姿态参数和投影参数,所述补偿后的各目标特征包括补偿后的姿态参数和投影参数。
在一些实施例中,所述确定所述待处理目标的综合特征包括:以所述各帧图像中的所述形状参数、所述偿后的姿态参数和投影参数作为第二输入信息,利用第二机器学习模型将所述各帧图像中的所述形状参数融合为一个统一形状参数作为所述综合特征。
在一些实施例中,所述确定所述待处理目标的综合特征包括:利用所述第二机器学习模型进行K次融合处理,将所述各帧图像中所述目标的特征融合为一个所述综合特征,K为大于1的正整数,第k+1次融合处理的融合结果的个数小于第k次融合处理得到的融合结果的个数,k为小于等于K的正整数。
在一些实施例中,所述第二机器学习模型包括第二卷积模块、第三卷积模块、转置模块、第二连接模块和融合模块,所述第二卷积模块包括多个卷积层用于根据所述第二输入信息确定第二卷积信息,所述转置模块将所述第二卷积信息转置为所述第二连接模块需要的格式,所述第二连接模块包括多个全连接层用于根据所述第二卷积信息确定特征信息,所述第三卷积模块用于根据所述第二输入信息确定第三卷积信息,所述第三卷积信息和所述特征信息维度相同,所述融合模块用于将所述第三卷积信息和所述特征信息融合为所述融合信息。
在一些实施例中,所述目标分割图和所述背景分割图根据所述各帧图像的编码信息利用第一解码器模型确定,所述编码信息利用第一编码器模型确定;所述热力图根据所述编码信息利用第二解码器模型确定;所述目标特征通过第二编码器确定。
在一些实施例中,所述特征确定方法还包括:根据所述待处理目标的综合特征,生成所述待处理目标的三维模型。
根据本公开的另一些实施例,提供一种视频中目标的特征确定装置,包括:特征确定单元,用于根据从视频的各帧图像中提取的图像特征,确定所述各帧图像中待处理目标的目标特征;差异确定单元,用于确定各目标特征之间的差异特征;特征融合单元,用于根据所述差异特征融合所述各目标特征,确定所述待处理目标的综合特征。
根据本公开的又一些实施例,提供一种目标的特征确定装置,包括:存储器;和耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器装置中的指令,执行上述任一个实施例中的目标的特征确定方法。
根据本公开的再一些实施例,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一个实施例中的目标的特征确定方法。
在上述实施例中,根据从各帧图像中提取的目标特征之间的差异特征,从而将多个目标特征融合为一个统一的综合特征。这样能够通过挖掘各帧图像在时间上的连续性,提高了目标特征确定的准确性。
附图说明
构成说明书的一部分的附图描述了本公开的实施例,并且连同说明书一起用于解释本公开的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:
图1示出本公开的视频中目标的特征确定方法的一些实施例的流程图;
图2示出图1中步骤110的一些实施例的流程图;
图3示出本公开的视频中目标的特征确定方法的一些实施例的示意图;
图4示出图1中步骤130的一些实施例的流程图;
图5示出本公开的第一机器学习模型的一些实施例的示意图;
图6示出本公开的第二机器学习模型的一些实施例的示意图;
图7示出本公开的视频中目标的特征确定装置的一些实施例的框图;
图8示出本公开的视频中目标的特征确定装置的另一些实施例的框图;
图9示出本公开的视频中目标的特征确定装置的又一些实施例的框图。
具体实施方式
现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
图1示出本公开的视频中目标的特征确定方法的一些实施例的流程图。
如图1所示,该方法包括:步骤110,确定各帧图像的目标特征;步骤120,确定各目标特征的差异特征;和步骤130,确定综合特征。
在步骤110中,根据从视频的各帧图像中提取的图像特征,确定各帧图像中待处理目标的目标特征。也就是说,先对视频进行单帧图像处理,以获取各帧图像中待处理目标的目标特征。
在一些实施例中,用户上传包含自身影像的视频,即视频的各帧图像中的待处理目标为人体,以视频各帧图像中的人体为待处理目标,确定人体的目标特征。
在一些实施例中,可以采用人体三维模型,如SMPL(Skinned Multi-PersonLinear,具有骨骼蒙皮的多人线性)模型,对人体的特征进行描述。SMPL模型以关节角表示姿态信息θ,每一个关节有3个自由度。例如,一个人体模型的姿态信息可以用23个关节,共69个自由度来表示。SMPL模型以主成分分解之后的前10维参数表示形状信息β(即形状信息的自由度可以是10)。例如,人体的目标特征F可以包括θ和β。
在一些实施例中,目标特征还可以包括获取用户影响的相机参数,即人体的投影参数。例如,可以采用弱透视投影的相机模型确定投影参数R、t和s,这样可以确定F={β,θ,R,t,s}。R为人体相对于摄像机的旋转参数,t为人体投影到图像平面的平移参数,s为人体投影到图像平面的缩放参数。
例如,可以利用公式s×∏(R×M(β,θ))+t计算三维的人体模型投影到二维的图像平面的映射结果,M(β,θ)表示SMPL模型的生成,∏为大小为2×3的正交投影矩阵。
在一些实施例中,可以通过图2中的实施例执行步骤110。
图2示出图1中步骤110的一些实施例的流程图。
如图2所示,步骤110包括:步骤1110,确定分割图和热力图;和步骤1120,确定目标特征。
在步骤1110中,提取各帧图像的背景分割图、待处理目标的目标分割图和待处理目标的关键点的热力图作为图像特征。例如,可以通过边缘检测、阈值分割等图像处理方法获取背景分割图和目标分割图。
在一些实施例中,关键点可以为人体的关键关节,热力图中各像素点的灰度值表示各像素点是某个关键关节的概率。例如,可以通过机器学习方法将人体SMPL模型的23个关节中的14个确定为关键关节。在这种情况下,可以通过机器学习方法获取14张热力图,每张热力图中显示的是该热力图中各像素是某个关键关节的概率,灰度值越高概率越高。
在步骤1120中,根据目标分割图、背景分割图和热力图,确定各帧图像的目标特征。
在一些实施例中,可以通过图3中的实施例确定各帧图像的目标特征。
图3示出本公开的视频中目标的特征确定方法的一些实施例的示意图。
如图3所示,可以将帧图像I~N输入特征提取模型来确定相应的目标特征1~N,N为大于1的正整数,n为小于N的正整数。例如,可以采用MSE(Mean Square Error,均方误差)损失函数监督特征提取模型。
在一些实施例中,特征提取模型可以包括作为二维处理模块的第一编码器、第一解码器和第二解码器。例如,可以利用第一编码器确定各帧图像的编码信息;根据编码信息利用第一解码器获取各帧图像的目标分割图和背景分割图;根据编码信息利用第二解码器模型确定各帧图像的热力图。
在一些实施例中,特征提取模型还可以包括作为三维处理模块的第二编码器。例如,第二编码器可以根据VGG(Visual Geometry Group,计算机视觉组)网络模型生成。可以将目标分割图、背景分割图和热力图组合成一个batchsize×height×width×16的张量作为VGG网络网络模型的输入,batchsize为神经网络的batch(批量)的大小,width和height分别表示各帧图片的宽和高,16为14张热力图、目标分割图、背景分割图的数量之和。可以将VGG模型最后一个全连接层设置为85维输出,以适应F的维数(β10维、θ69维、R2维、t2维、s2维)。
在对视频进行单帧图像处理确定了各帧图像的目标特征之后,可以通过图1中的区域步骤对视频中的各帧图像进行联合处理,以确定综合特征。
在步骤120中,确定各目标特征之间的差异特征。例如,可以利用卷积神经网络(如图3中的第一机器学习模型)根据各帧图像的热力图、姿态参数和投影参数确定差异特征。
在一些实施例中,第一机器学习模型包括拼接模块、第一卷积模块和第一连接模块,拼接模块用于将热力图、姿态参数和投影参数拼接为第一输入信息,第一卷积模块包括多个卷积层用于根据第一输入信息确定第一卷积信息,第一连接模块包括多个全连接层用于根据第一卷积信息确定差异特征。
在步骤130中,根据差异特征融合所述各目标特征,确定待处理目标的综合特征。例如,可以通过图4中的实施例执行步骤130。
图4示出图1中步骤130的一些实施例的流程图。
如图4所示,步骤130包括:步骤1310,补偿各帧图像的目标特征;和步骤1320,融合补偿后的目标特征。
在步骤1310中,根据差异特征对各目标特征进行补偿。在一些实施例中,可以通过图5中的第一机器学习模型确定差异特征并对各目标特征进行补偿。
图5示出本公开的第一机器学习模型的一些实施例的示意图。
如图5所示,第一机器学习模型的Concat层将输入的热力图、姿态参数和投影参数拼接起来。例如,姿态参数和投影参数组成一个N×75维的张量Params,根据热力图生成一个N×28维(14张热力图中的各像素点由横、纵2维坐标表示)的张量Kps,第一机器学习模型的输入为Params和Kps的拼接结果Input(1×1×N×103维的张量)。
将Input依次通过4个卷积层Cov(卷积核分别为3×1、1×1、3×1、1×1);将卷积结果依次通过3个全连接层(FC 1024、FC 1024、FC75),得到一个N×75维的张量作为差异特征。将N×75维的差异特征与输入的N×75维的张量Params相加得到N×75维的补偿后的目标特征(包含姿态参数、投影参数)Output,以实现各目标特征的补偿。
在上述实施例中,通过第一机器学习模型对各帧图像的目标特征进行时序融合(即通过残差模块融合),可以学习各帧图像之间的差异信息。这样可以利用各帧图像之间的连续性对差异进行补偿以便确定统一的目标特征,从而提高准确性。
在一些实施例中,可以根据特征误差参数和关键点距离参数构建损失函数,用于训练第一机器学习模型。可以根据补偿后的各目标特征与各目标特征真实值之间的误差确定特征误差参数;可以根据相邻两帧图像中各关键点的位置变化确定关键点距离参数。
例如,损失函数可以定义如下:
Lall=wpLp+wcLc;
Lp为特征误差参数,Wp为Lp的权重。βgt为目标的形状信息的真实值,分别表示通过本方法获取的姿态信息、旋转参数、平移参数和缩放参数的估计值。Fgt={βgt,θgt,Rgt,tgt,sgt},θgt、Rgt、tgt、sgt分别表示姿态信息、旋转参数、平移参数和缩放参数的真值。
进行特征补偿后,可以通过图4中的步骤1320得到综合特征。
在步骤1320中,将补偿后的各目标特征融合为目标的综合目标特征。目标特征包括待处理目标的形状参数、姿态参数和投影参数,补偿后的各目标特征包括补偿后的姿态参数和投影参数。
在一些实施例中,可以将各帧图像中的形状参数、偿后的姿态参数和投影参数作为第二输入信息,利用图3中的第二机器学习模型将各帧图像中的形状参数融合为一个统一形状参数作为综合特征。
在一些实施例中,可以利用第二机器学习模型进行K次融合处理,将各帧图像中目标的特征融合为一个综合特征,K为大于1的正整数。第k+1次融合处理的融合结果的个数小于第k次融合处理得到的融合结果的个数,k为小于等于K的正整数。
例如,可以通过图6中的实施例配置第二机器学习模型。
图6示出本公开的第二机器学习模型的一些实施例的示意图。
如图6所示,第二机器学习模型的输入为N×85维的第二输入信息。第二输入信息包括第一机器学习模型输出的N×75维的张量Output和图3中的特征提取模型输出的N×10维的各帧图像的形状参数。
将第二输入信息通过第二卷积模块,以确定第二卷积信息。第二卷积模块可以包括多个卷积层Cov(例如,3个卷积核分别为1×1、3×1、1×1的卷基层)。
利用转置模块将第二卷积信息转置为第二连接模块(例如,输出张量的维度分别为512、512和85的FC层)需要的格式。例如,利用转置模块可以通过View函数在不改变第二卷积信息中数据的情况下改变第二卷积信息的大小和形状。
在一些实施例中,第二机器学习模型在每次迭代处理中,将每M个第二输入信息融合成一个融合结果,M为大于1的正整数。例如,图6所示转置模块将第二卷积信息的第一维度由N转置为N/3,即转置模块输出维度为(N/3)×(64×85)的张量。
利用第二连接模块根据维度为(N/3)×(64×85)的张量确定特征信息;根据第二输入信息利用第三卷积模块(例如,可以包括3×1卷积核的Cov层)确定第三卷积信息;结合特征信息和第三卷积信息得到本次融合处理的融合结果。例如,融合结果是N/3个85维的张量。即,第二机器学习模型每次融合处理都是将每3个第二输入信息融合成1个融合结果。
在一些实施例中,根据待处理目标的综合特征,生成所处理目标的三维模型。例如,综合特征为融合后的人体的形状信息,根据给形状信息可以生成人体三维模型用以虚拟试衣、服装推荐等功能。
在一些实施例中,对于本方法中涉及的各机器学习模型的训练可以分为几个不同的阶段。
在第一阶段中,可以对第一编码器模型、第一解码器模型、第二解码器模型等处理二维信息的机器学习模型(训练数据比较充足)进行训练。
在第二阶段中,可以对用于处理三维信息的第二编码器进行训练。例如,在第二阶段中可以采用计算机图形学的方法来生成训练数据。首先可以给定SMPL模型,然后通过设置相关的相机参数把该SMPL模型投影到相机平面以生成相关的训练数据。
在第三阶段中,可以对第一机器学习模型和第二机器学习模型进行训练。例如,可以采用计算机图形学方法进行生成训练数据。可以通过运动采集、匹配或者从开放的相关数据库下载连续的SMPL参数数据。
例如,首先,可以基于这些参数数据通过设置相关的相机参数把运动序列投影成目标分割图、背景分割图和热力图;然后,经过第二编码器模型的前向计算,可以得到相应的处理结果和真实值;最后,使用相关的训练数据来训练第一机器学习模型和第二机器学习模型。这样可以使用计算机图形学的方法来生成足够量的训练数据,克服训练数据不足的问题。
在上述实施例中,根据从各帧图像中提取的目标特征之间的差异特征,从而将多个目标特征融合为一个统一的综合特征。这样能够通过挖掘各帧图像在时间上的连续性,提高了目标特征确定的准确性。
图7示出本公开的视频中目标的特征确定装置的一些实施例的框图。
如图7所示,特征确定装置7包括特征确定单元71、差异确定单元72和特征融合单元73。
特征确定单元71根据从视频的各帧图像中提取的图像特征,确定各帧图像中待处理目标的目标特征。差异确定单元72确定各目标特征之间的差异特征。特征融合单元73根据差异特征融合各目标特征,确定待处理目标的综合特征。
在一些实施例中,特征确定单元71提取所帧图像的背景分割图、待处理目标的目标分割图和待处理目标的关键点的热力图作为图像特征。特征确定单元71根据目标分割图、背景分割图和热力图,确定各帧图像的目标特征。
在一些实施例中,特征融合单元73根据差异特征对各目标特征进行补偿。特征融合单元73将补偿后的各目标特征融合为目标的综合目标特征。
在一些实施例中,目标特征包括待处理目标的姿态参数和投影参数,投影参数包括待处理目标相对于摄像机的旋转参数、待处理目标投影到图像平面的平移参数和缩放参数。特征融合单元73根据各帧图像的热力图、姿态参数和投影参数,利用第一机器学习模型确定差异特征。
例如,第一机器学习模型包括拼接模块、第一卷积模块和第一连接模块。拼接模块用于将热力图、姿态参数和投影参数拼接为第一输入信息。第一卷积模块包括多个卷积层用于根据第一输入信息确定第一卷积信息。第一连接模块包括多个全连接层用于根据第一卷积信息确定差异特征。
在一些实施例中,可以根据特征误差参数和关键点距离参数构建损失函数用于训练第一机器学习模型。特征误差参数根据补偿后的各目标特征与各目标特征真实值之间的误差确定。关键点距离参数根据相邻两帧图像中各关键点的位置变化确定。
在一些实施例中,目标特征包括待处理目标的形状参数、姿态参数和投影参数,补偿后的各目标特征包括补偿后的姿态参数和投影参数。特征融合单元73以各帧图像中的形状参数、偿后的姿态参数和投影参数作为第二输入信息,利用第二机器学习模型将各帧图像中的形状参数融合为一个统一形状参数作为综合特征。
例如,特征融合单元73利用第二机器学习模型行K次融合处理,将各帧图像中目标的特征融合为一个综合特征,K为大于1的正整数。第k+1次融合处理的融合结果的个数小于第k次融合处理得到的融合结果的个数,k为小于等于K的正整数。
例如,第二机器学习模型包括第二卷积模块、第三卷积模块、转置模块、第二连接模块和融合模块。第二卷积模块包括多个卷积层用于根据第二输入信息确定第二卷积信息。转置模块将第二卷积信息转置为第二连接模块需要的格式。第二连接模块包括多个全连接层用于根据第二卷积信息确定特征信息。第三卷积模块用于根据第二输入信息确定第三卷积信息,第三卷积信息和特征信息维度相同。融合模块用于将第三卷积信息和特征信息融合为融合信息。
在一些实施例中,目标分割图和背景分割图根据各帧图像的编码信息利用第一解码器模型确定,编码信息利用第一编码器模型确定;热力图根据编码信息利用第二解码器模型确定;目标特征通过第二编码器确定。
在一些实施例中,根据待处理目标的综合特征,生成待处理目标的三维模型。
在上述实施例中,根据从各帧图像中提取的目标特征之间的差异特征,从而将多个目标特征融合为一个统一的综合特征。这样能够通过挖掘各帧图像在时间上的连续性,提高了目标特征确定的准确性。
图8示出本公开的视频中目标的特征确定装置的另一些实施例的框图。
如图8所示,该实施例的特征确定装置8包括:存储器81以及耦接至该存储器81的处理器82,处理器82被配置为基于存储在存储器81中的指令,执行本公开中任意一个实施例中的特征确定方法。
其中,存储器81例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)、数据库以及其他程序等。
图9示出本公开的视频中目标的特征确定装置的又一些实施例的框图。
如图9所示,该实施例的特征确定装置9包括:存储器910以及耦接至该存储器910的处理器920,处理器920被配置为基于存储在存储器910中的指令,执行前述任意一个实施例中的特征确定方法。
存储器910例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。
特征确定装置9还可以包括输入输出接口930、网络接口940、存储接口950等。这些接口930、940、950以及存储器910和处理器920之间例如可以通过总线960连接。其中,输入输出接口930为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口640为各种联网设备提供连接接口。存储接口950为SD卡、U盘等外置存储设备提供连接接口。
本领域内的技术人员应当明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
至此,已经详细描述了根据本公开的视频中目标的特征确定方法、视频中目标的特征确定装置和计算机可读存储介质。为了避免遮蔽本公开的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。
可能以许多方式来实现本公开的方法和系统。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和系统。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
虽然已经通过示例对本公开的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本公开的范围。本领域的技术人员应该理解,可在不脱离本公开的范围和精神的情况下,对以上实施例进行修改。本公开的范围由所附权利要求来限定。
Claims (14)
1.一种视频中目标的特征确定方法,包括:
根据从视频的各帧图像中提取的图像特征,确定所述各帧图像中待处理目标的目标特征;
确定各目标特征之间的差异特征;
根据所述差异特征融合所述各目标特征,确定所述待处理目标的综合特征。
2.根据权利要求1所述特征确定方法,其中,所述确定所述各帧图像中待处理目标的目标特征包括:
提取所述各帧图像的背景分割图、所述待处理目标的目标分割图和所述待处理目标的关键点的热力图作为所述图像特征;
根据所述目标分割图、所述背景分割图和所述热力图,确定所述各帧图像的所述目标特征。
3.根据权利要求2所述特征确定方法,其中,所述确定所述待处理目标的综合特征包括:
根据所述差异特征对所述各目标特征进行补偿;
将补偿后的各目标特征融合为所述目标的综合目标特征。
4.根据权利要求3所述特征确定方法,其中,确定各目标特征之间的差异特征包括:
所述目标特征包括所述待处理目标的姿态参数和投影参数,所述投影参数包括所述待处理目标相对于摄像机的旋转参数、所述待处理目标投影到图像平面的平移参数和缩放参数;
根据所述各帧图像的所述热力图、所述姿态参数和所述投影参数,利用第一机器学习模型,确定所述差异特征。
5.根据权利要求4所述特征确定方法,其中,
所述第一机器学习模型包括拼接模块、第一卷积模块和第一连接模块,所述拼接模块用于将所述热力图、所述姿态参数和所述投影参数拼接为第一输入信息,所述第一卷积模块包括多个卷积层用于根据所述第一输入信息确定第一卷积信息,所述第一连接模块包括多个全连接层用于根据所述第一卷积信息确定所述差异特征。
6.根据权利要求5所述特征确定方法,其中,
所述第一机器学习模型根据损失函数训练,所述损失函数根据特征误差参数和关键点距离参数构建,所述特征误差参数根据补偿后的所述各目标特征与各目标特征真实值之间的误差确定,所述关键点距离参数根据相邻两帧图像中各关键点的位置变化确定。
7.根据权利要求3所述特征确定方法,其中,
所述目标特征包括所述待处理目标的形状参数、姿态参数和投影参数,所述补偿后的各目标特征包括补偿后的姿态参数和投影参数;
所述确定所述待处理目标的综合特征包括:
以所述各帧图像中的所述形状参数、所述偿后的姿态参数和投影参数作为第二输入信息,利用第二机器学习模型将所述各帧图像中的所述形状参数融合为一个统一形状参数作为所述综合特征。
8.根据权利要求7所述特征确定方法,其中,所述确定所述待处理目标的综合特征包括:
利用所述第二机器学习模型进行K次融合处理,将所述各帧图像中所述目标的特征融合为一个所述综合特征,K为大于1的正整数,第k+1次融合处理的融合结果的个数小于第k次融合处理得到的融合结果的个数,k为小于等于K的正整数。
9.根据权利要求8所述特征确定方法,其中,
所述第二机器学习模型包括第二卷积模块、第三卷积模块、转置模块、第二连接模块和融合模块,所述第二卷积模块包括多个卷积层用于根据所述第二输入信息确定第二卷积信息,所述转置模块将所述第二卷积信息转置为所述第二连接模块需要的格式,所述第二连接模块包括多个全连接层用于根据所述第二卷积信息确定特征信息,所述第三卷积模块用于根据所述第二输入信息确定第三卷积信息,所述第三卷积信息和所述特征信息维度相同,所述融合模块用于将所述第三卷积信息和所述特征信息融合为所述融合信息。
10.根据权利要求2-9任一项所述特征确定方法,其中,
所述目标分割图和所述背景分割图根据所述各帧图像的编码信息利用第一解码器模型确定,所述编码信息利用第一编码器模型确定;
所述热力图根据所述编码信息利用第二解码器模型确定;
所述目标特征通过第二编码器确定。
11.根据权利要求1-9任一项所述特征确定方法,还包括:
根据所述待处理目标的综合特征,生成所述待处理目标的三维模型。
12.一种视频中目标的特征确定装置,包括:
特征确定单元,用于根据从视频的各帧图像中提取的图像特征,确定所述各帧图像中待处理目标的目标特征;
差异确定单元,用于确定各目标特征之间的差异特征;
特征融合单元,用于根据所述差异特征融合所述各目标特征,确定所述待处理目标的综合特征。
13.一种视频中目标的特征确定装置,包括:
存储器;和
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器装置中的指令,执行权利要求1-11任一项所述的视频中目标的特征确定方法。
14.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现权利要求1-11任一项所述的视频中目标的特征确定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910265480.7A CN111783497B (zh) | 2019-04-03 | 2019-04-03 | 视频中目标的特征确定方法、装置和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910265480.7A CN111783497B (zh) | 2019-04-03 | 2019-04-03 | 视频中目标的特征确定方法、装置和计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111783497A true CN111783497A (zh) | 2020-10-16 |
CN111783497B CN111783497B (zh) | 2024-08-20 |
Family
ID=72754779
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910265480.7A Active CN111783497B (zh) | 2019-04-03 | 2019-04-03 | 视频中目标的特征确定方法、装置和计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111783497B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112819849A (zh) * | 2021-01-14 | 2021-05-18 | 电子科技大学 | 一种基于三目的无标记点视觉运动捕捉方法 |
CN114677572A (zh) * | 2022-04-08 | 2022-06-28 | 北京百度网讯科技有限公司 | 对象描述参数的生成方法、深度学习模型的训练方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101814040B1 (ko) * | 2017-09-06 | 2018-01-02 | 한국기술교육대학교 산학협력단 | 3차원 깊이 정보 초점 조절을 이용한 통합 관제 장치 |
CN107644423A (zh) * | 2017-09-29 | 2018-01-30 | 北京奇虎科技有限公司 | 基于场景分割的视频数据实时处理方法、装置及计算设备 |
CN107657625A (zh) * | 2017-09-11 | 2018-02-02 | 南京信息工程大学 | 融合时空多特征表示的无监督视频分割方法 |
CN108197623A (zh) * | 2018-01-19 | 2018-06-22 | 百度在线网络技术(北京)有限公司 | 用于检测目标的方法和装置 |
CN108765481A (zh) * | 2018-05-25 | 2018-11-06 | 亮风台(上海)信息科技有限公司 | 一种单目视频的深度估计方法、装置、终端和存储介质 |
CN108898086A (zh) * | 2018-06-20 | 2018-11-27 | 腾讯科技(深圳)有限公司 | 视频图像处理方法及装置、计算机可读介质和电子设备 |
CN109472248A (zh) * | 2018-11-22 | 2019-03-15 | 广东工业大学 | 一种行人重识别方法、系统及电子设备和存储介质 |
-
2019
- 2019-04-03 CN CN201910265480.7A patent/CN111783497B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101814040B1 (ko) * | 2017-09-06 | 2018-01-02 | 한국기술교육대학교 산학협력단 | 3차원 깊이 정보 초점 조절을 이용한 통합 관제 장치 |
CN107657625A (zh) * | 2017-09-11 | 2018-02-02 | 南京信息工程大学 | 融合时空多特征表示的无监督视频分割方法 |
CN107644423A (zh) * | 2017-09-29 | 2018-01-30 | 北京奇虎科技有限公司 | 基于场景分割的视频数据实时处理方法、装置及计算设备 |
CN108197623A (zh) * | 2018-01-19 | 2018-06-22 | 百度在线网络技术(北京)有限公司 | 用于检测目标的方法和装置 |
CN108765481A (zh) * | 2018-05-25 | 2018-11-06 | 亮风台(上海)信息科技有限公司 | 一种单目视频的深度估计方法、装置、终端和存储介质 |
CN108898086A (zh) * | 2018-06-20 | 2018-11-27 | 腾讯科技(深圳)有限公司 | 视频图像处理方法及装置、计算机可读介质和电子设备 |
CN109472248A (zh) * | 2018-11-22 | 2019-03-15 | 广东工业大学 | 一种行人重识别方法、系统及电子设备和存储介质 |
Non-Patent Citations (4)
Title |
---|
周洋;何永健;唐向宏;陆宇;蒋刚毅;: "融合双目多维感知特征的立体视频显著性检测", 中国图象图形学报, no. 03 * |
张娜;魏海平;于红绯;: "一种融合特征点与运动补偿信息的运动目标检测新算法", 计算机应用与软件, no. 11 * |
李元祥;许鹏;敬忠良;魏宪;: "空间目标序列图像识别技术", 哈尔滨工业大学学报, no. 11, pages 114 - 119 * |
陈虹君;赵力衡;罗福强;李瑶;: "单帧图像局部差异特征多目标分离仿真", 计算机仿真, no. 06 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112819849A (zh) * | 2021-01-14 | 2021-05-18 | 电子科技大学 | 一种基于三目的无标记点视觉运动捕捉方法 |
CN112819849B (zh) * | 2021-01-14 | 2021-12-03 | 电子科技大学 | 一种基于三目的无标记点视觉运动捕捉方法 |
CN114677572A (zh) * | 2022-04-08 | 2022-06-28 | 北京百度网讯科技有限公司 | 对象描述参数的生成方法、深度学习模型的训练方法 |
CN114677572B (zh) * | 2022-04-08 | 2023-04-18 | 北京百度网讯科技有限公司 | 对象描述参数的生成方法、深度学习模型的训练方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111783497B (zh) | 2024-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kanazawa et al. | End-to-end recovery of human shape and pose | |
Zhang et al. | Object-occluded human shape and pose estimation from a single color image | |
Sharp et al. | Accurate, robust, and flexible real-time hand tracking | |
Richardson et al. | Learning detailed face reconstruction from a single image | |
US10334168B2 (en) | Threshold determination in a RANSAC algorithm | |
CN111275518A (zh) | 一种基于混合光流的视频虚拟试穿方法及装置 | |
US20200272806A1 (en) | Real-Time Tracking of Facial Features in Unconstrained Video | |
CN112530019B (zh) | 三维人体重建方法、装置、计算机设备和存储介质 | |
JP6624794B2 (ja) | 画像処理装置、画像処理方法及びプログラム | |
CN110544301A (zh) | 一种三维人体动作重建系统、方法和动作训练系统 | |
CN111783506B (zh) | 目标特征的确定方法、装置和计算机可读存储介质 | |
US11961266B2 (en) | Multiview neural human prediction using implicit differentiable renderer for facial expression, body pose shape and clothes performance capture | |
CN115496863B (zh) | 用于影视智能创作的情景互动的短视频生成方法及系统 | |
CN111815768B (zh) | 三维人脸重建方法和装置 | |
WO2022208440A1 (en) | Multiview neural human prediction using implicit differentiable renderer for facial expression, body pose shape and clothes performance capture | |
CN111462274A (zh) | 一种基于smpl模型的人体图像合成方法及系统 | |
EP3185212B1 (en) | Dynamic particle filter parameterization | |
CN115393519A (zh) | 一种基于红外可见光融合图像的三维重构方法 | |
Li et al. | PoT-GAN: Pose transform GAN for person image synthesis | |
JP5503510B2 (ja) | 姿勢推定装置および姿勢推定プログラム | |
Peng et al. | 3D hand mesh reconstruction from a monocular RGB image | |
CN111783497B (zh) | 视频中目标的特征确定方法、装置和计算机可读存储介质 | |
Manda et al. | Image stitching using ransac and bayesian refinement | |
Paterson et al. | 3D head tracking using non-linear optimization. | |
Jian et al. | Realistic face animation generation from videos |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |