CN117808934A

CN117808934A - 一种数据处理方法及相关设备

Info

Publication number: CN117808934A
Application number: CN202211202267.XA
Authority: CN
Inventors: 周世奇; 许斌
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2022-09-29
Filing date: 2022-09-29
Publication date: 2024-04-02
Also published as: WO2024066549A1

Abstract

本申请提供了一种数据处理方法，可以应用于动画的风格迁移等场景。该方法包括：获取第一风格信息；并提取第一图像序列的动作信息；基于第一风格信息与动作信息生成第二图像序列，第二图像序列与第一图像序列的动作类型相同，第二图像序列具有第一风格信息。通过风格信息与动作信息的分离获取，并基于该第一风格信息与动作信息生成第二图像序列。以实现在不改变原图像序列其他特征的情况下进行风格化的动画编辑，提升动画的风格迁移效果。

Description

一种数据处理方法及相关设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种数据处理方法及相关设备。

背景技术

随着元宇宙概念的提出，“虚拟数字人”被视为未来人类进入元宇宙的介质，随之站上舆论风口。随着驱动技术的成熟，虚拟数字人必将在虚拟客服、虚拟导购、虚拟讲解员等更多实际能够变现的场景中得到更广泛的应用。

目前，在如何驱动虚拟数字人模仿人类行为上，主要有几种主流方法：纯人工建模、动捕建模。其中，纯人工建模方式在超写实的虚拟人或者明星的虚拟人上应用较多，但人工制作周期较长，且成本非常高。动捕建模方式通过借助于外部扫描设备采集模型数据来完成驱动，相比于纯人工建模的方式，时间与成本会低很多，常用于影视、直播等泛娱乐化行业，但需要真人演员参与，无法提升生产效率。

因此，如何实现不同风格在动画动作之间进行迁移是亟待解决的技术问题。

发明内容

本申请实施例提供了一种数据处理方法及相关设备。用于实现在不改变原图像序列其他特征的情况下进行风格化的动画编辑，提升动画的风格迁移效果。

本申请实施例第一方面提供了一种数据处理方法，可以应用于动画的风格迁移等场景。该方法可以由数据处理设备执行，也可以由数据处理设备的部件(例如处理器、芯片、或芯片系统等)执行。该方法包括：获取第一风格信息；获取第一图像序列的动作信息；基于第一风格信息与动作信息生成第二图像序列，第二图像序列与第一图像序列的动作类型相同，第二图像序列具有第一风格信息。其中，上述的风格信息可以理解为是对图像序列的风格描述，该风格包括以下一项或多项：肢体/面部轮廓、肢体/面部比例、肢体动作幅度、情绪、性格等。动作类型，用于描述图像序列的动作，例如，跑、跳、走等。动作信息可以理解为是低层用于表示动作类型的向量。可以理解的是，相同动作类型的图像序列对应的动作向量可能有所不同。

本申请实施例中，通过风格信息与动作信息的分离获取，并基于该第一风格信息与动作信息生成第二图像序列。以实现在不改变原图像序列其他特征的情况下进行风格化的动画编辑，提升动画的风格迁移效果。

可选地，在第一方面的一种可能的实现方式中，上述步骤获取第一风格信息之前，方法还包括：获取第三图像序列；获取第一风格信息，包括：基于第三图像序列获取第一风格信息。

该种可能的实现方式中，通过其他第三图像序列获取第一风格信息，可以弥补用户对某一类风格信息难以描述的缺陷。

可选地，在第一方面的一种可能的实现方式中，上述步骤：基于第三图像序列获取第一风格信息，包括：提取第三图像序列的第二风格信息；基于第二风格信息确定第一风格信息。

该种可能的实现方式中，直接将第三图像序列的风格信息作为后续要迁移至第一图像序列上的风格信息，进而使得生成的第二图像序列的风格与第三图像序列的风格类似或相同，从而满足风格的精准迁移。

可选地，在第一方面的一种可能的实现方式中，上述步骤：基于第二风格信息确定第一风格信息，包括：将第二风格信息作为第一风格信息。

该种可能的实现方式中，直接将第三图像序列的风格信息作为后续要迁移至第一图像序列上的风格信息，进而使得生成的第二图像序列的风格与第三图像序列的风格类似或相同，弥补用户对某一类风格信息难以描述的缺陷，从而满足风格的精准迁移。

可选地，在第一方面的一种可能的实现方式中，上述步骤：基于第二风格信息确定第一风格信息，包括：向用户显示第二语义标签，第二语义标签用于描述第二风格信息；基于用户的第一操作将第二语义标签修改为第一语义标签，第一语义标签用于描述第一风格信息；基于第一语义标签确定第一风格信息。

该种可能的实现方式中，用户在第三图像序列的基础上，通过操作修改语义标签，以实现风格信息的描述与保证用户需求，实现后续生成的第二图像序列可以满足用户对图像序列的风格需求。或者理解为，使用标签显式化风格信息，可让用户对风格信息有个定量及定性的分析，进而清楚地知道如何量化描述自己的需求。此外，通过对用户需求的解析，配合视频能覆盖任意风格的优势，使得本申请实施例能生成任意定制化的风格化数字人动画。

可选地，在第一方面的一种可能的实现方式中，上述第三图像序列为二维动画的图像序列，第二风格信息为二维风格信息，第一风格信息为三维风格信息，第一图像序列与第二图像序列为三维动画的图像序列。

该种可能的实现方式中，2D视频的存量够大，可以实现将2D视频的任意风格信息迁移至3D原始视频以得到3D目标视频。

可选地，在第一方面的一种可能的实现方式中，上述步骤还包括：向用户显示第一界面，第一界面包括多个语义标签，多个语义标签用于描述不同图像序列的不同风格信息，多个语义标签与风格信息一一对应；获取第一风格信息，包括：基于用户的第二操作从多个语义标签中确定第一语义标签；基于第一语义标签确定第一风格信息。

该种可能的实现方式中，该种可能的实现方式中，可以理解为离线完成从视频中提取任意风格，并生成特征库。用户只需上传要求的个性化风格的语义标签，进而实现自动从特征库中识别标签对应的风格信息。

可选地，在第一方面的一种可能的实现方式中，上述步骤：基于第一风格信息与动作信息生成第二图像序列，包括：融合第一风格信息与动作信息以得到第一运动特征；基于第一运动特征获取第二图像序列。

该种可能的实现方式中，将第一语义标签表示的第一风格信息与原图像序列的动作信息进行融合以得到第一运动特征。因此，基于该第一运动特征获取的第二图像序列，在不改变原图像序列其他特征的情况下实现风格迁移。

可选地，在第一方面的一种可能的实现方式中，上述动作信息包括以下一项或多项：面部表情序列、肢体图像序列。

该种可能的实现方式中，该种可能的实现方式中，该方法不仅可以应用于肢体动作的风格迁移，还可以应用于面部表情的风格迁移等，适用场景广泛。

可选地，在第一方面的一种可能的实现方式中，上述步骤还包括：将第二图像序列渲染至虚拟物体以得到动画。

该种可能的实现方式中，该种可能的实现方式中，可以适用于2D动画至2D动画、2D动画至3D动画或3D动画至3D动画的风格迁移场景。

可选地，在第一方面的一种可能的实现方式中，上述图像序列的风格信息包括显式风格信息与隐式风格信息，第二语义标签具体用于关联第二风格信息中的显式风格信息。

该种可能的实现方式中，通过将风格信息进行显式与隐式的分解，进而可以实现用户对显式风格信息的编辑。并将编辑后的显式风格信息与隐式风格信息生成修改后的风格信息。

可选地，在第一方面的一种可能的实现方式中，上述步骤：提取第一图像序列的动作信息，包括：将第一图像序列输入内容编码器以得到动作信息；提取第三图像序列的第二风格信息，包括：将第三图像序列输入风格编码器以得到第二风格信息。

可选地，在第一方面的一种可能的实现方式中，上述步骤还包括：获取第一训练图像序列与第二训练图像序列，第一训练图像序列与第二训练图像序列的运动特征不同，运动特征包括动作信息和/或风格信息；将第一训练图像序列分别输入风格编码器与内容编码器以得到第一训练风格信息与第一训练动作信息；将第二训练图像序列分别输入风格编码器与内容编码器以得到第二训练风格信息与第二训练动作信息；融合第一训练风格信息与第二训练动作信息以得到第一训练运动特征；融合第二训练风格信息与第一训练动作信息以得到第二训练运动特征；将第一训练运动特征输入解码器以得到第一重建图像序列；将第二训练运动特征输入解码器以得到第二重建图像序列；以第一损失函数的值小于第一阈值为目标进行训练以得到训练好的风格编码器、内容编码器以及解码器，第一损失函数包括风格损失函数与内容损失函数，风格损失函数用于表示第一重建图像序列与第一训练图像序列之间的风格差异以及第二重建图像序列与第二训练图像序列之间的风格差异，内容损失函数用于表示第一重建图像序列与第二训练图像序列之间的内容差异以及第二重建图像序列与第一训练图像序列之间的内容差异。

该种可能的实现方式中，通过上述训练过程，可以实现风格迁移的准确性。

本申请实施例第二方面提供了一种数据处理设备。该数据处理设备包括：获取单元，用于获取第一风格信息；获取单元，还用于获取第一图像序列的动作信息；生成单元，用于基于第一风格信息与动作信息生成第二图像序列，第二图像序列与第一图像序列的动作类型相同，第二图像序列具有第一风格信息。

可选地，在第二方面的一种可能的实现方式中，上述的获取单元，还用于获取第三图像序列；获取单元，具体用于基于第三图像序列获取第一风格信息。

可选地，在第二方面的一种可能的实现方式中，上述的获取单元，具体用于提取第三图像序列的第二风格信息；获取单元，具体用于基于第二风格信息确定第一风格信息。

可选地，在第二方面的一种可能的实现方式中，上述的获取单元，具体用于将第二风格信息作为第一风格信息。

可选地，在第二方面的一种可能的实现方式中，上述的获取单元，具体用于向用户显示第二语义标签，第二语义标签用于描述第二风格信息；获取单元，具体用于基于用户的第一操作将第二语义标签修改为第一语义标签，第一语义标签用于描述第一风格信息；获取单元，具体用于基于第一语义标签确定第一风格信息。

可选地，在第二方面的一种可能的实现方式中，上述的第三图像序列为二维动画的图像序列，第二风格信息为二维风格信息，第一风格信息为三维风格信息，第一图像序列与第二图像序列为三维动画的图像序列。

可选地，在第二方面的一种可能的实现方式中，上述的数据处理设备还包括：显示单元，用于向用户显示第一界面，第一界面包括多个语义标签，多个语义标签用于描述不同图像序列的不同风格信息，多个语义标签与风格信息一一对应；获取单元，具体用于基于用户的第二操作从多个语义标签中确定第一语义标签；获取单元，具体用于基于第一语义标签确定第一风格信息。

可选地，在第二方面的一种可能的实现方式中，上述的生成单元，具体用于融合第一风格信息与动作信息以得到第一运动特征；生成单元，具体用于基于第一运动特征获取第二图像序列。

可选地，在第二方面的一种可能的实现方式中，上述的动作信息包括以下一项或多项：面部表情序列、肢体图像序列。

可选地，在第二方面的一种可能的实现方式中，上述的数据处理设备还包括：渲染单元，用于将第二图像序列渲染至虚拟物体以得到动画。

本申请第三方面提供了一种数据处理设备，包括：处理器，处理器与存储器耦合，存储器用于存储程序或指令，当程序或指令被处理器执行时，使得该数据处理设备实现上述第一方面或第一方面的任意可能的实现方式中的方法。

本申请第四方面提供了一种计算机可读介质，其上存储有计算机程序或指令，当计算机程序或指令在计算机上运行时，使得计算机执行前述第一方面或第一方面的任意可能的实现方式中的方法。

本申请第五方面提供了一种计算机程序产品，该计算机程序产品在计算机上执行时，使得计算机执行前述第一方面或第一方面的任意可能的实现方式中的方法。

本申请实施例第六方面提供了一种芯片系统，该芯片系统包括至少一个处理器，用于支持数据处理设备实现上述第一方面或第一方面任意一种可能的实现方式中所涉及的功能。

在一种可能的设计中，该芯片系统还可以包括存储器，存储器，用于保存该数据处理设备必要的程序指令和数据。该芯片系统，可以由芯片构成，也可以包含芯片和其他分立器件。可选的，所述芯片系统还包括接口电路，所述接口电路为所述至少一个处理器提供程序指令和/或数据。

其中，第二、第三、第四、第五、第六方面或者其中任一种可能实现方式所带来的技术效果可参见第一方面或第一方面不同可能实现方式所带来的技术效果，此处不再赘述。

从以上技术方案可以看出，本申请具有以下优点：通过风格信息与动作信息的分离获取，并基于该第一风格信息与动作信息生成第二图像序列。以实现在不改变原图像序列其他特征的情况下进行风格化的动画编辑，提升动画的风格迁移效果。

附图说明

图1为本发明实施例提供的一种人工智能主体框架示意图；

图2为本申请实施例提供的系统架构的结构示意图；

图3A为本申请实施例提供的一种部署场景示意图；

图3B为本申请实施例提供的另一种部署场景示意图；

图4为本申请实施例提供的数据处理方法的一个流程示意图；

图5A为本申请实施例提供的风格信息分解为显式化特征的示意图；

图5B为本申请实施例提供的转化模块的训练流程示意图；

图6A为本申请实施例提供的数据处理方法的另一个流程示意图；

图6B为本申请实施例提供的用户修改标签的流程示意图；

图7为本申请实施例提供的数据处理设备向用户显示用户界面的示意图；

图8为本申请实施例提供的数据处理设备向用户显示用户界面的另一示意图；

图9为本申请实施例提供的数据处理设备向用户显示用户界面的另一示意图；

图10为本申请实施例提供的数据处理方法的另一个流程示意图；

图11为本申请实施例提供的第一图像序列的示例图；

图12为本申请实施例提供的第三图像序列的示例图；

图13为本申请实施例提供的第二图像序列的示例图；

图14为本申请实施例提供的数据处理方法的另一个流程示意图；

图15为本申请实施例提供的数据处理方法的另一个流程示意图；

图16为本申请实施例提供的编码器与解码器的训练流程示意图；

图17为本申请实施例提供的方法应用于手势风格迁移场景的流程示意图；

图18为本申请实施例提供的方法应用于表情风格迁移场景的流程示意图；

图19为本申请实施例提供的数据处理设备的一个结构示意图；

图20为本申请实施例提供的数据处理设备的另一个结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获取的所有其他实施例，都属于本发明保护的范围。

为了便于理解，下面先对本申请实施例主要涉及的相关术语和概念进行介绍。

1、神经网络

神经网络可以是由神经单元组成的，神经单元可以是指以X_s和截距b为输入的运算单元，该运算单元的输出可以为：

其中，s＝1、2、……n，n为大于1的自然数，W_s为X_s的权重，b为神经单元的偏置。 f为神经单元的激活函数(activation functions)，用于将非线性特性引入神经网络中，来将神经单元中的输入信号转换为输出信号。该激活函数的输出信号可以作为下一层卷积层的输入。激活函数可以是sigmoid函数。神经网络是将许多个上述单一的神经单元联结在一起形成的网络，即一个神经单元的输出可以是另一个神经单元的输入。每个神经单元的输入可以与前一层的局部接受域相连，来提取局部接受域的特征，局部接受域可以是由若干个神经单元组成的区域。

2、损失函数

在训练深度神经网络的过程中，因为希望深度神经网络的输出尽可能的接近真正想要预测的值，所以可以通过比较当前网络的预测值和真正想要的目标值，再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然，在第一次更新之前通常会有初始化的过程，即为深度神经网络中的各层预先配置参数)，比如，如果网络的预测值高了，就调整权重向量让它预测低一些，不断的调整，直到神经网络能够预测出真正想要的目标值。因此，就需要预先定义“如何比较预测值和目标值之间的差异”，这便是损失函数(lossfunction)或目标函数(objective function)，它们是用于衡量预测值和目标值的差异的重要方程。其中，以损失函数举例，损失函数的输出值(loss)越高表示差异越大，那么深度神经网络的训练就变成了尽可能缩小这个loss的过程。

3、生成对抗网络

生成对抗网络(generative adversarial network，GAN)是一种深度学习模型。生成对抗网络至少包括一个生成网络(Generator)与一个判别网络(Discriminator)，通过让两个神经网络以相互博弈的方式进行学习，从而产生更好的输出。这两个神经网络可以是深度神经网络，也可以是卷积神经网络。GAN的基本原理如下：以生成图片的GAN为例，假设有两个网络，G(Generator)和D(Discriminator)，其中G是一个生成图片的网络，从潜在空间(Latent Space)中随机取样作为输入，生成图片，记做G(z)；D是一个判别网络，用于判别一张图片是不是“真实的”。它的输入参数是x，x代表一张图片，x为真实图片或生成网络的输出。输出D(x)代表x为真实图片的概率，如果为1，就代表100％是真实的图片，如果为0，就代表不可能是真实的图片。在对该生成式对抗网络进行训练的过程中，生成网络G的目标就是尽可能生成真实的图片去欺骗判别网络D，输出结果需要尽量模仿训练集中的真实样本(Real Samples)。而判别网络D的目标就是尽量把G生成的图片和真实的图片区分开来。两个网络相互对抗、不断调整参数。这样，G和D就构成了一个动态的“博弈”过程，也即“生成式对抗网络”中的“对抗”，最终目的是使判别网络无法判断生成网络的输出结果是否真实。最后博弈的结果，在理想的状态下，G可以生成足以“以假乱真”的图片G(z)，而D难以判定G生成的图片究竟是不是真实的，即D(G(z)) ＝0.5。这样就得到了一个优异的生成模型G，它可以用来生成图片。

4、动画

虚拟创作的视频内容，包括2D平面上显示的动画视频，以及增强现实(augmentedreality，AR)、虚拟现实(virtual reality，VR)、全息显示等3D显示设备上显示的3D 动画内容；其风格不仅仅是卡通风格，还包括写实风格，如数字人动画、特效影视等。

5、虚拟数字人

虚拟数字人是指具有数字化外形的虚拟人物。与具备实体的机器人不同，虚拟数字人依赖显示设备存在，如需通过手机、电脑或者智慧大屏等设备才能显示。一个完整的虚拟数字人往往需具备以下三种能力：

一是拥有人的外观，具有特定的相貌、性别和性格等人物特征。

二是拥有人的行为，具有用语言、面部表情和肢体动作表达的能力。

三是拥有人的思想，具有识别外界环境、并能与人交流互动的能力。

6、图像序列

图像序列可以理解为是有时序关系的多个图像，当然，也可以是视频中获取的图像序列。该图像序列可以包括肢体图像序列，和/或面部表情序列等。另外，该图像序列可以是指全身肢体的图像序列，也可以是指全身肢体中部分肢体(或称为局部肢体)的图像序列，还可以是图像序列对应角色的面部表情序列等，具体此处不做限定。

7、风格信息

本申请实施例所涉及的风格信息可以是图像序列经过风格编码器获取的风格特征向量。也可以是风格特征向量中的显式向量。还可以是风格特征向量中的显式向量的部分特征等，具体此处不做限定。另外，该风格信息对应的标签也可以理解为是对图像序列的风格描述。例如，风格包括以下一项或多项：肢体/面部轮廓、肢体/面部比例、肢体动作幅度、情绪、性格等。上述中的情绪可以包括：开心、沮丧、兴奋等。性格可以包括：活泼、善良、阴柔、刻薄等。

8、动作信息

本申请实施例所涉及的动作信息可以是图像序列经过内容编码器获取的特征向量。

9、动作类型

动作类类型用于描述图像序列的动作。该内容是指图像序列所描述的动作(例如：跑、跳、蹲、走、抬头、低头、闭眼等)。可以理解的是，相同动作类型的图像序列对应的动作向量可能有所不同。

10、语义标签

语义标签用于描述图像序列的风格信息。可以理解为用于将图像序列风格具象化。

风格信息与语义标签一一对应。语义标签可以根据风格信息的不同情况而有所不同。语义标签可以理解为是用于描述风格信息，从而便于用户理解或编辑该图像序列的风格。

示例性的，风格信息是将图像序列的风格特征向量。语义标签是将该风格特征向量进行显式表达，用户可以通过该语义标签明确该图像序列/视频的风格(例如，视频中角色的肢体动作所表达的角色情绪、性格等)，以便于风格编辑/迁移等操作。

目前，在如何驱动虚拟数字人模仿人类行为上，主要有三种主流方法：纯人工建模、动捕建模、人工智能建模。其中，纯人工建模方式在超写实的虚拟人或者明星的虚拟人上应用较多，但人工制作周期较长，且成本非常高。动捕建模方式通过借助于外部扫描设备采集模型数据来完成驱动，相比于纯人工建模的方式，时间与成本会低很多，常用于影视、直播等泛娱乐化行业，但需要真人演员参与，无法提升生产效率。而人工智能驱动的方式，依据的是算法与机器学习。由于机器能够自动生成虚拟数字人的前提是要获取足够多的数据，对大量的照片/视频进行分析，提取到人的各种数据与信息，驱动虚拟数字人模仿人的行为。在上述人工智能建模方式中，常常会使用不同风格在动画动作之间进行迁移，以减少虚拟数字人动作的动捕及驱动成本。

风格化的人体动画生成与编辑是计算机动画领域的重要课题，通过不同风格在同种动画间的迁移，实现动画的任意风格化，减少了动捕及驱动的成本，但存在几大关键问题有待解决：一是风格化的动画编辑要求在尽量不改变原有动画其他特征的基础上，使其具有指定的风格，如何较好地解耦风格信息与动画动作信息是一个重要问题；二是如何低成本地获得风格数据，视频是一大数据来源，但在海量视频数据中如何显式地标记风格地语义标签特征，以便于用户只需对风格进行语义性描述即可完成编辑及风格迁移也是一个重要问题。

为此，本申请实施例针对现有虚拟数字人动画驱动方法中无法任意风格化的缺陷，提出了一种基于视频的风格提取及风格信息显式化标记及编辑的肢体动作驱动方案，旨在填补AI用户个性化动画驱动在泛娱乐场景下的空白；此外，从视频中提取风格可以弥补用户对某一类风格难以描述的缺陷。

在结合附图对本申请实施例数据处理方法及相关设备介绍之前，先对本申请实施例提供的系统架构进行说明。

参见附图1，本发明实施例提供了一种系统架构100。如所述系统架构100所示，数据采集设备160用于采集训练数据，本申请实施例中训练数据包括：第一训练图像序列与第二训练图像序列。并将训练数据存入数据库130，训练设备120基于数据库130中维护的训练数据训练得到目标模型/规则101。下面将更详细地描述训练设备120如何基于训练数据得到目标模型/规则101，该目标模型/规则101能够用于实现本申请实施例提供的数据处理方法。本申请实施例中的目标模型/规则101具体可以包括风格编码器、内容编码器以及解码器。需要说明的是，在实际的应用中，所述数据库130中维护的训练数据不一定都来自于数据采集设备160的采集，也有可能是从其他设备接收得到的。另外需要说明的是，训练设备120也不一定完全基于数据库130维护的训练数据进行目标模型/规则101 的训练，也有可能从云端或其他地方获取训练数据进行模型训练，上述描述不应该作为对本申请实施例的限定。

根据训练设备120训练得到的目标模型/规则101可以应用于不同的系统或设备中，如应用于图1所示的执行设备110，所述执行设备110可以是终端，如手机终端，平板电脑，笔记本电脑，AR/VR，车载终端等，还可以是服务器或者云端等。在附图1中，执行设备110配置有I/O接口112，用于与外部设备进行数据交互，用户可以通过客户设备140 向I/O接口112输入数据，所述输入数据在本申请实施例中可以包括：第一图像序列与第一语义标签；可选地，输入数据还可以包括第一图像序列与第二图像序列等。当然，输入数据也可以是二维动画(例如，二维动画是第二图像序列所属的动画)与三维动画(例如，三维动画是第一图像序列所属的动画)。另外该输入数据可以是用户输入的，也可以是用户通过拍摄设备上传的，当然还可以来自数据库，具体此处不做限定。

预处理模块113用于根据I/O接口112接收到的输入数据(例如，第一图像序列与第一语义标签。或者第一图像序列与第二图像序列，或者二维动画与三维动画)进行预处理(例如，二维特征到三维特征的转化等)。

在执行设备110对输入数据进行预处理，或者在执行设备110的计算模块111执行提取第一图像序列的动作信息，以及基于动作信息与第一语义标签生成第二图像序列等相关的处理过程中，执行设备110可以调用数据存储系统150中的数据、代码等以用于相应的处理，也可以将相应处理得到的第二图像序列、指令等存入数据存储系统150中。

最后，I/O接口112将处理结果，如上述得到的第二图像序列，或者第二图像序列对应的三维动画返回给客户设备140，从而提供给用户。

值得说明的是，训练设备120可以针对不同的目标或称不同的任务，基于不同的训练数据生成相应的目标模型/规则101，该相应的目标模型/规则101即可以用于实现上述目标或完成上述任务，从而为用户提供所需的结果。

在附图1中所示情况下，用户可以手动给定输入数据，该手动给定可以通过I/O接口 112提供的界面进行操作。另一种情况下，客户设备140可以自动地向I/O接口112发送输入数据，如果要求客户设备140自动发送输入数据需要获得用户的授权，则用户可以在客户设备140中设置相应权限。用户可以在客户设备140查看执行设备110输出的结果，具体的呈现形式可以是显示、声音、动作等具体方式。客户设备140也可以作为数据采集端，采集如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果作为新的样本数据，并存入数据库130。当然，也可以不经过客户设备140进行采集，而是由I/O 接口112直接将如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果，作为新的样本数据存入数据库130。

值得注意的是，附图1仅是本发明实施例提供的一种系统架构的示意图，图中所示设备、器件、模块等之间的位置关系不构成任何限制，例如，在附图1中，数据存储系统150相对执行设备110是外部存储器，在其它情况下，也可以将数据存储系统150置于执行设备110中。

如图1所示，根据训练设备120训练得到目标模型/规则101，该目标模型/规则101在本申请实施例中可以包括风格编码器、内容编码器、解码器等。

下面介绍本申请实施例提供的一种芯片硬件结构。

图2为本发明实施例提供的一种芯片硬件结构，该芯片包括神经网络处理器20。该芯片可以被设置在如图1所示的执行设备110中，用以完成计算模块111的计算工作。该芯片也可以被设置在如图1所示的训练设备120中，用以完成训练设备120的训练工作并输出目标模型/规则101。

神经网络处理器20可以是神经网络处理器(neural-network processing unit，NPU)，张量处理器(tensor processing unit，TPU)，或者图形处理器(graphicsprocessing unit， GPU)等一切适合用于大规模异或运算处理的处理器。以NPU为例：神经网络处理器20作为协处理器挂载到主中央处理器(central processing unit，CPU)(hostCPU)上，由主CPU分配任务。NPU的核心部分为运算电路203，控制器204控制运算电路203提取存储器(权重存储器或输入存储器)中的数据并进行运算。

在一些实现中，运算电路203内部包括多个处理单元(process engine，PE)。在一些实现中，运算电路203是二维脉动阵列。运算电路203还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中，运算电路203是通用的矩阵处理器。

举例来说，假设有输入矩阵A，权重矩阵B，输出矩阵C。运算电路从权重存储器202中取矩阵B相应的数据，并缓存在运算电路中每一个PE上。运算电路从输入存储器201 中取矩阵A数据与矩阵B进行矩阵运算，得到的矩阵的部分结果或最终结果，保存在累加器208中。

向量计算单元207可以对运算电路的输出做进一步处理，如向量乘，向量加，指数运算，对数运算，大小比较等等。例如，向量计算单元207可以用于神经网络中非卷积/非 FC层的网络计算，如池化(Pooling)，批归一化(Batch Normalization)，局部响应归一化(Local Response Normalization)等。

在一些实现种，向量计算单元207将经处理的输出的向量存储到统一缓存器206。例如，向量计算单元207可以将非线性函数应用到运算电路203的输出，例如累加值的向量，用以生成激活值。在一些实现中，向量计算单元207生成归一化的值、合并值，或二者均有。在一些实现中，处理过的输出的向量能够用作到运算电路203的激活输入，例如用于在神经网络中的后续层中的使用。

统一存储器206用于存放输入数据以及输出数据。

权重数据直接通过存储单元访问控制器205(direct memory accesscontroller，DMAC) 将外部存储器中的输入数据搬运到输入存储器201和/或统一存储器206、将外部存储器中的权重数据存入权重存储器202，以及将统一存储器206中的数据存入外部存储器。

总线接口单元(bus interface unit，BIU)210，用于通过总线实现主CPU、DMAC和取指存储器209之间进行交互。

与控制器204连接的取指存储器(instruction fetch buffer)209，用于存储控制器204使用的指令。

控制器204，用于调用指存储器209中缓存的指令，实现控制该运算加速器的工作过程。

一般地，统一存储器206，输入存储器201，权重存储器202以及取指存储器209均为片上(On-Chip)存储器，外部存储器为该NPU外部的存储器，该外部存储器可以为双倍数据率同步动态随机存储器(double data rate synchronous dynamic random accessmemory，简称DDR SDRAM)、高带宽存储器(high bandwidth memory，HBM)或其他可读可写的存储器。

下面对本申请实施例提供的几种部署场景进行描述。本申请实施例提供的任意风格可编辑3D动画生成方案，可应用于2B端数字主持人场景及2C端数字伴侣、助理软件等场景。具体部署方案有多种，下面举例描述。

本申请实施例提供的一种部署场景如图3A所示，用户在客户端上传表征目标风格的动画视频。由服务端完成从视频中提取目标风格，并向用户返回风格的语义标签。随后用户可根据风格的语义标签对风格进行描述、编辑或选择等操作，如对于语义标签为兴奋的风格，希望程度稍微弱一点。则在客户端完成标签编辑及上传，服务端接收到请求后，根据目标降低风格的语义标签的权重，以减少兴奋的程度，从而实现对风格信息进行编辑，进而生成符合用户标签的目标动画，并返回客户端渲染与显示。

本申请实施例提供的另一种部署场景如图3B所示，相比于图3A的部署方案，该种部署方案中，服务端离线完成从视频中提取任意风格，并生成特征库。用户只需上传要求的个性化风格的语义标签，如在兴奋的风格上增加一点阴柔风格。服务端在收到请求后，自动从风格信息库中识别出兴奋与阴柔标签对应的风格信息，并对此特征进行编辑，生成与目标风格的语义标签相匹配的风格信息，完成渲染与显示。

可以理解的是，上述两种部署场景只是举例，在实际应用中，还可以有其他形式的部署场景，具体此处不做限定。

另外，上述部署场景中所涉及的风格，可以是指二维风格，也可以是指三维风格。换句话说，本申请实施例提供的方法可以应用于二维风格迁移至二维图像序列的场景。也可以应用于三维风格迁移至三维图像序列的场景。还可以应用于二维风格迁移至三维图像序列的场景，或三维风格迁移至二维图像序列的场景等，具体此处不做限定。

下面结合附图对本申请实施例提供的数据处理方法进行详细的介绍。

请参阅图4，本申请实施例提供的数据处理方法一个实施例，该方法可以由数据处理设备(终端设备/云服务器)执行，也可以由数据处理设备的部件(例如处理器、芯片、或芯片系统等)执行，该方法包括步骤401至步骤403。该方法可以应用于儿童教育动画、短视频动画、宣传动画、综艺动画、影视预演动画等动画之间风格迁移的场景。

步骤401，获取第一风格信息。

在一种可能实现的方式中，风格信息是指图像序列的风格特征向量，则将第三图像序列输入风格编码器，以得到第二风格信息。其中，对于风格编码器的训练过程后续会有说明，此处不再展开。

在另一种可能实现的方式中，风格信息是指图像序列的风格特征向量中的显式向量或显式向量的部分特征，则将第三图像序列输入风格编码器，以得到风格特征向量。并将风格特征向量拆分为显式向量与隐式向量。在这种情况下，该风格信息可以理解为风格特征向量的显式表达。

或者理解为，本申请实施例中的风格信息可以是图像序列对应的风格特征向量，也可以是图像序列对应风格特征向量中的显式向量。还可以是图像序列对应风格特征向量中的显式向量的部分特征等。换句话说，后者的情况，可以理解为风格信息可以分解为显式向量与隐式特征。当然，这种分解只是举例，还可以将风格信息分解为显式向量、隐式特征以及个性化特征。该个性化特征用于表达同一风格经不同角色演绎时所带来的个性化差异。该个性化特征还可以与图像序列中的角色相关。

可选地，风格信息是显式向量的情况下。还需要先将风格特征向量分解为显式向量与隐式特征。并将显式向量作为风格信息。

本申请实施例中数据处理设备获取第一风格信息的方式有多种，下面分别进行描述。

第一种，基于第三图像序列获取第一风格信息。

该种情况下，数据处理设备先获取第三图像序列，并基于第三图像序列获取第一风格信息。其中，数据处理设备获取第三图像序列的方式有多种，可以是通过接收其他设备发送的方式，也可以是从数据库中选取的方式，还可以通过数据处理设备中各传感器采集的方式，还可以是用户上传的方式等，具体此处不做限定。

本申请实施例中图像序列(例如，第一图像序列、第三图像序列等)可以是二维图像序列，也可以是三维图像序列等，具体此处不做限定。

可选地，为了获取更多风格种类的风格信息，该第三图像序列可以是从二维动画中提取出来的图像序列。例如，通过人体姿态识别方法(例如，openpose)从二维动画中提取出第三图像序列。另外，二维动画的获取方式这里不做限定，可以是通过用户拍摄上传的方式，也可以是通过接收其他设备发送的方式，还可以是从数据库中选取的方式等，具体此处不做限定。

其中，基于第三图像序列获取第一风格信息的步骤，又根据是否有用户的操作分为两种情况，下面分别进行描述。

1、无用户操作。

数据处理设备获取第三图像序列之后，可以直接提取第三图像序列的第二风格信息，将该第二风格信息作为第一风格信息。或者将第二风格信息转化为预设的风格信息等。

另外，上述分解的依据可以是通过训练好的神经网络，也可以是通过在数据库中寻找多个用于表达相同风格的图像序列，再根据多个用于表达相同风格的图像序列确定显式向量等，具体此处不做限定。对于根据多个用于表达相同风格的图像序列确定显式向量的情况具体可以包括：将多个相同风格的图像序列输入风格编码器以得到多个风格特征向量。并将多个风格特征向量中的共有特征作为风格信息。非共有部分即为隐式特征等，具体此处不做限定。

示例性的，从数据库中寻找多个表达风格为“开心”的图像序列，将多个图像序列分别输入风格编码器得到多个风格特征向量。确定多个风格特征向量的共有向量，则“开心”的风格信息为上述的共有向量。从而确定出显式风格信息与共有向量之间的对应关系。

可选地，风格信息是图像序列对应风格特征向量中的显式向量的部分特征的情况下，需要将显式向量进行拆分。例如，显式向量＝W₁*风格信息1+W₂*风格信息2+...+W_n*风格信息n)。

示例性的，以风格信息是风格特征向量的显式向量为例。如图5A所示，风格信息可以包括：“平静->兴奋”、“单一->多样”、“阴柔->阳刚”。其中，上述“->”的前后可以是指一个范围的两侧边界。例如，“平静”到“兴奋”是一种情绪的递进，或者理解为风格信息还可以进一步区分不同权重/等级。又例如，快乐的强度范围可以包括：满意、欣慰、愉快、欢乐、狂喜等几种层次。该种示例下，风格信息也可以为“满意->狂喜”。

可选地，若是将第二风格信息转化为第一风格信息的情况。第二风格信息为二维风格信息。则数据处理设备获取第二风格信息之后，可以通过转化模块将第二风格信息转化为第一风格信息，该第一风格信息为三维风格信息。该种情况，主要应用于将二维动画的风格信息迁移到三维动画中，以改变三维动画风格信息的场景。

其中，上述的转化模块可以理解为2D-3D风格转化模块。该模块利用大量的风格一致的2D-3D对训练得到非线性变换，用于2D风格化特征嵌入到3D风格化特征空间。后续对于从视频中提取的2D风格信息(即第二风格信息)，利用非线性变换投影到3D空间后，便可转化成3D风格化特征(即第一风格信息)。

上述的转化模块的训练过程可以如图5B所示。首先，获取3D动画序列，并提取该3D动画序列的3D风格化特征。然后，通过对3D动画序列进行正交投影，生成与3D动画序列风格与动作一致的2D动画序列，并提取2D风格信息。最后，通过对两者各自风格信息的监督，使其对齐到同一特征空间，完成2D风格信息到3D风格信息空间的投影。

2、基于用户的第一操作与第三图像序列确定第一风格信息。

该种方式下，数据处理设备提取第三图像序列的第二风格信息之后，可以向用户显示第二语义标签，该第二语义标签用于显式化的描述第二风格信息。进而基于用户的第一操作将第二语义标签修改为第一语义标签。基于第一语义标签确定第一风格信息。语义标签的解释可以参考前述相关术语的描述，此处不再赘述。

第二语义标签可以理解为是对第三图像序列的风格描述，该风格包括以下一项或多项：肢体/面部轮廓、肢体/面部比例、肢体动作幅度、情绪、性格等。具体可以参考前述相关术语中的描述，此处不再赘述。

该种方式也可以理解为，数据处理设备将图像序列的第二风格信息向量转化为用户可以理解的第二语义标签，用户根据实际需要将第二语义标签进行处理以得到第一语义标签。数据处理设备在基于该第一语义标签转化为第一风格信息，进而后续生成满足用户需求的图像序列。上述处理包括以下至少一项：增加、删除、修改、程度控制(或者理解为幅度、层次调整)等。

可选地，该第一操作包括上述的增加、删除、修改、程度控制(或者理解为幅度、层次调整)、修改语义标签权重等。具体的，数据处理设备可以通过用户的语音、文本等输入方式确定第一操作，具体此处不做限定。

该种情况可以应用于前述图3A所示的场景。以数据处理设备是云端设备，且获取第三图像序列的方式是终端设备发送的方式为例。该种情况下的流程可以如图6所示。该流程包括步骤601至步骤606。

步骤601，终端设备向云端设备发送第三图像序列。

用户可以通过终端设备向云端设备发送第三图像序列。相应的，云端设备接收终端设备发送的第三图像序列。

步骤602，云端设备生成第三图像序列的第二语义标签。

云端设备获取第三图像序列之后，先获取第三图像序列的第二风格信息。并将第二风格信息转化为第二语义标签。

示例性的，以风格信息是风格特征向量中的显式向量为例，与前述类似，可以从数据库中寻找多个表达“开心”的图像序列，将多个图像序列分别输入风格编码器得到多个风格特征向量。确定多个风格特征向量的共有向量，则“开心”的风格语义标签对应为上述的共有向量(即显式向量)。从而确定出语义标签与风格信息之间的对应关系。

步骤603，云端设备向终端设备发送第二语义标签。

云端设备获取第二语义标签之后，向终端设备发送第二语义标签。相应的，终端设备接收云端设备发送的第二语义标签。

步骤604，终端设备基于第二语义标签确定第一语义标签。

如果无需用户操作则与前述描述类似，这里仅以基于用户的第一操作与第三图像序列确定第一风格信息为例。

终端设备获取第二语义标签之后，向用户显示第二语义标签。进而基于用户的第一操作将第二语义标签修改为第一语义标签。

步骤605，终端设备向云端设备发送第一语义标签。

终端设备获取第一语义标签之后，向云端设备发送第一语义标签。相应的，云端设备接收终端设备发送的第一语义标签。

步骤606，云端设备基于第一语义标签确定第一风格信息。

云端设备获取第一语义标签之后，可以基于第一语义标签确定第一风格信息。

示例性的，图6B为用户修改标签的一种示例。第三图像序列的第二语义标签为“情绪兴奋、风格单一”。用户在第二语义标签的基础上，做了如下处理：删除兴奋，保持中性；调整动作丰富程度，单一改为多样；新增阴柔风格。其中，数据处理设备中的自然语言处理(Natural Language Processing，NLP)模块可以自动识别并匹配用户指定的风格的语义标签，并选择与之相匹配的风格信息，并可对用户指定的某一种风格的程度进行量化，两者相互融合后生成编辑后的风格信息。另外，NLP模块的能力就是输入一段文字，输出对这段文字的解析(例如，名词、动词、用户在意的关键词)。NLP模块输出这段文字中对表达风格的关键字，例如，输入“我想要的目标风格是一半的阴柔风，一半的阳刚风”，那么NLP模块可以输出如下几个关键字：阴柔、阳刚、各一半。就是解析出描述性文字中，与风格相关的字词。又例如，用户通过输入文字或语音传输“来一个比较娘的风格”信息， NLP模块通过该信息，确定用户想要在第二语义标签的基础上“增加阴柔风格”。

示例性的，以修改权重标签为例。数据处理设备向用户显示如图7所示的用户界面。该用户界面包括动画预览界面与编辑界面。编辑界面中的风格的语义标签(也可以称为风格标签)可以理解为是前述的第二语义标签。例如，第二语义标签为兴奋与单一。用户可以通过编辑界面对第二语义标签进行修改。如图8所示，用户可以通过拖拽光标801以将“平静->兴奋”从1.0拖拽到0.5。即将兴奋去掉，改为中性。用户可以通过拖拽光标802 以将“单一->多样”从0.0拖拽到1.0。即将单一修改为多样。另外，用户可以通过点击增加标签803的方式以增加如图9所示阴柔风格的标签。基于上述图7至图9，用户将第二语义标签(兴奋、单一)修改为第一语义标签(中性、多样、阴柔)。

该种方式下，通过将风格信息的语义标签显式化，并做到用户可以根据该显式化标签进行编辑。在实际使用中，对于任意视频中的风格，人为主观上往往难以准确的定义该视频所呈现的风格，更加难以准确的编辑。本实施例通过将风格信息分解，将其中的显式化特征进行语义化，进而实现风格信息的标签化，并对用户指定的任意风格的语义标签进行识别、匹配及量化，生成特定的风格信息，因而使得无论是前述图3A所示的部署方案中的返回特征标签并用于用户编辑，还是前述图3B所示的部署方案中的匹配用户个性化风格的语义标签，都成为可能，也使得用户能更加清楚自己的编辑行为。

可以理解的是，上述只是基于第三图像序列获取第一语义标签的两种方式举例，在实际应用中，还可以有其他方式，具体此处不做限定。

该第一种情况下，可以从第三图像序列/视频中提取风格信息，以弥补用户对某些风格难以描述的缺陷。

第二种，基于用户针对于第一界面的第二操作确定第一风格信息。

该种方式下，数据处理设备向用户显示第一界面，该第一界面包括多个语义标签。多个语义标签中的每个语义标签用于显式化图像序列的风格信息。数据处理设备再基于用户的第二操作从多个语义标签中确定第一语义标签。进而根据该第一语义标签确定第一风格信息。

该种情况可以应用于前述图3B所示的场景。以数据处理设备是云端设备为例。该种情况下的流程可以如图10所示。该流程包括步骤1001至步骤1005。

步骤1001，云端设备基于多个图像序列生成风格信息库与多个语义标签。

云端设备通过获取多个图像序列，获取多个图像序列对应风格特征向量的公共向量，并基于不同的公共向量提取出不同的语义标签。进而获取多个公共向量的风格信息库与多个语义标签。

步骤1002，云端设备向终端设备发送多个语义标签。

云端设备获取多个语义标签之后，向终端设备发送多个语义标签。相应的，终端设备接收云端设备发送的多个语义标签。

步骤1003，终端设备基于用户针对于第一界面的第二操作确定第一语义标签。

终端设备接收云端设备发送的多个语义标签之后，向用户显示第一界面，该第一界面包括多个语义标签。基于用户对第一界面的第二操作确定第一语义标签。该第二操作具体可以是选择操作等。

步骤1004，终端设备向云端设备发送第一语义标签。

终端设备确定第一语义标签之后，向云端设备发送第一语义标签。相应的，云端设备接收终端设备发送的第一语义标签。

步骤1005，云端设备基于第一语义标签从风格信息库中确定第一风格信息

云端设备接收终端设备发送的第一语义标签之后，将第一语义标签从风格信息库中，找到与第一语义标签对应的公共向量作为第一风格信息。

该种方式也可以理解为，数据处理设备向用户显示多个语义标签，用户可以通过需要直接从多个语义标签中选取自己需要的语义标签。或者通过用户在第一界面中输入多个语义标签中的权重。

第三种，基于用户的第三操作确定第一风格信息。

该种方式下，数据处理设备可以直接接收用户的第三操作，并响应于该第三操作确定第一语义标签。

该第三操作可以是语音、文本等，具体此处不做限定。例如，用户通过语音编辑“增加阴柔风格”。则数据处理设备可以根据“增加阴柔风格”的语音，确定第一语义标签为“阴柔”。

示例性的，以数据处理设备是服务端为例，即数据处理设备离线完成从视频中提取任意风格，并生成特征库。用户只需上传要求的个性化风格的语义标签，如在兴奋的风格上增加一点阴柔风格。数据处理设备在收到请求后，自动从风格信息库中识别出兴奋与阴柔标签对应的风格信息，并对此特征进行编辑，生成与目标风格的语义标签相匹配的风格信息，完成渲染与显示。

可以理解的是，上述几种情况只是获取第一风格信息的几个举例，在实际应用中，还可以有其他方式，具体此处不做限定。

步骤402，获取第一图像序列的动作信息。

数据处理设备获取第一图像序列。该第一图像序列可以理解为是需要替换风格信息的图像序列。

可选地，在将2D/3D动画风格信息迁移到3D动画的场景中，该第一图像序列为三维图像序列。在将2D/3D动画风格信息迁移到2D动画的场景中，该第一图像序列为二维图像序列。

可选地，第一图像序列可以是从三维动画中提取出来的图像序列。例如，通过人体姿态识别方法(例如，openpose)从三维动画中提取出第一图像序列。另外，三维动画的获取方式这里不做限定，可以是通过用户拍摄上传的方式，也可以是通过接收其他设备发送的方式，还可以是从数据库中选取的方式等，具体此处不做限定。

示例1，第一图像序列的一种示例如图11所示。该第一图像序列的动作内容为“走步”。

数据处理设备获取第一图像序列之后，提取第一图像序列的动作信息。其中，动作信息的解释可以参考前述相关术语的描述，此处不再赘述。

可选地，将第一图像序列输入内容编码器，以得到动作信息。其中，对于内容编码器的训练过程后续会有说明，此处不再展开。

步骤403，基于第一风格信息与动作信息生成第二图像序列。

数据处理设备获取第一语义标签之后，可以基于第一语义标签确定第一风格信息。进而基于该第一风格信息与动作信息生成第二图像序列。

在一种可能实现的方式中，第一语义标签用于显式化整个第一风格信息。该种情况下，直接基于第一语义标签确定第一风格信息。

在另一种可能实现的方式中，第一语义标签用于显式化第一风格信息中的显式向量。该种情况下，先将第一语义标签转化为显式向量，然后与第一图像序列的隐式特征进行融合以得到第一风格信息。

可选地，数据处理设备融合第一风格信息与动作信息以得到第一运动特征。并基于第一运动特征获取第二图像序列。

上述数据处理设备融合第一风格信息与动作信息以得到第一运动特征所使用的融合算法可以包括：自适应实例标准化层(Adaptive Instance Normalization，AdaIN)、深度学习模型、统计方法等分布之间的对齐方法。

可选地，数据处理设备将第一运动特征输入解码器以得到第二图像序列。其中，对于解码器的训练过程后续会有说明，此处不再展开。

示例性的，以第一语义标签基于第三图像序列获取为例。第三图像序列如图12所示。该第一风格信息为“沮丧”。延续上述示例1，则本步骤获取的第二图像序列如图13所示。该第二图像序列为“沮丧”的走步。

该种示例下，步骤401至步骤403的流程可以如图14所示。输入端包括第三图像序列(例如，2D动画的图像序列)、第一图像序列(例如，3D原始动画的图像序列)及用户个性化风格的语义标签(即第一语义标签)。首先，2D风格信息提取模块提取第三图像序列的2D风格化特征，并转化为3D风格信息，同时显式化该风格的语义标签，返回给用户供其编辑。其次，用户根据语义标签，以及需要生成个性化要求，NLP模块在解析出用户的个性化需求后，连同3D风格信息一起输入到风格编辑模块，生成编辑化的风格信息向量(即第一风格信息)。最后，第一图像序列在内容编码后，得到表征第一图像序列内容的特征表达，并融合上述编辑化的第一风格信息，并经过解码生成符合用户编辑信息的3D 目标动画的图像序列(即第二图像序列)。

可选地，数据处理设备获取第二图像序列之后，将第二图像序列渲染至虚拟物体以得到动画/视频。

可选地，在第二图像序列是三维图像序列的情况下，上述生成的动画为3D动画。在第二图像序列是二维图像序列的情况下，上述生成的动画为2D动画。

在一种可能实现的方式中，本申请实施例提供的数据处理方法主要应用于图像序列的风格迁移场景。

在另一种可能实现的方式中，本申请实施例提供的数据处理方法主要应用于动画风格迁移场景中。

本申请实施例中，一方面，通过风格信息与动作信息的分离获取，并基于该第一风格信息与动作信息生成第二图像序列。以实现在不改变原图像序列其他特征的情况下进行风格化的动画编辑，提升动画的风格迁移效果。另一方面，通过语义标签描述风格信息，使用语义标签显式化风格信息，用户通过编辑语义标签以实现风格迁移，进而实现肢体动作的驱动方案。可让用户对风格信息有个定量及定性的分析，进而清楚地知道如何量化描述自己的需求。此外，通过对用户需求的解析，配合海量视频能覆盖任意风格的优势，使得本申请实施例能生成任意定制化的风格化数字人动画。另一方面，从第二图像序列所属的视频中提取风格信息可以弥补用户对某一类风格信息难以描述的缺陷。另一方面，使用标签显式化风格信息，

本申请实施例提供的方法的另一流程图可以如图15所示。从风格参照动画中获取第二图像序列，并对第二图像序列的风格化特征提取，以得到第二风格化特征。进而显式化第二风格化特征以得到显示标签。用户对显示标签进行编辑后得到第一风格化特征。再将该第一风格化特征迁移到原始动画中得到风格化动画。该风格化动画的内容与原始动画一致，风格化动画的风格与风格参照动画一致，进而实现风格化迁移。

上面对本申请实施例提供的数据处理方法进行了描述，下面对上述图4所示实施例中所提的风格编码器、内容编码器、解码器的训练过程进行详细描述。训练侧，利用海量的肢体动画视频，构建近似完备的肢体动画风格化特征向量空间，可满足推理侧风格化特征的任意性。

训练过程如图16所示，首先，获取图像序列1与图像序列2。其中，图像序列1具有风格1与动作1。图像序列2具有风格2与动作2。其次，利用风格编码器和动作内容编码器分别对输入的两个序列的风格和运动内容进行编码，以解耦风格信息与动作信息。再通过融合算法(例如AdaIN)融合风格信息1与动作信息2，经过解码后生成风格1化的动作2。并融合风格信息2与动作信息1，生成风格2化的动作1。最后，通过判别器分别监督生成的风格化动画分别在风格和内容上的重构损失，使得最终生成的风格化动画能在不损失原始运动内容的前提下，兼备与目标风格最大的相似性。

上述过程可以理解为：获取第一训练图像序列与第二训练图像序列，第一训练图像序列与第二训练图像序列的运动特征不同，运动特征包括动作信息和/或风格信息。将第一训练图像序列分别输入风格编码器与内容编码器以得到第一训练风格信息与第一训练动作信息；将第二训练图像序列分别输入风格编码器与内容编码器以得到第二训练风格信息与第二训练动作信息。融合第一训练风格信息与第二训练动作信息以得到第一训练运动特征；融合第二训练风格信息与第一训练动作信息以得到第二训练运动特征。将第一训练运动特征输入解码器以得到第一重建图像序列；将第二训练运动特征输入解码器以得到第二重建图像序列。以第一损失函数的值小于第一阈值为目标进行训练以得到训练好的风格编码器、内容编码器以及解码器，第一损失函数包括风格损失函数与内容损失函数，风格损失函数用于表示第一重建图像序列与第一训练图像序列之间的风格差异以及第二重建图像序列与第二训练图像序列之间的风格差异，内容损失函数用于表示第一重建图像序列与第二训练图像序列之间的内容差异以及第二重建图像序列与第一训练图像序列之间的内容差异。

本实施例中，通过训练得到的上述风格编码器、内容编码器、解码器可以实现从视频序列中提取2D风格化特征，并映射到3D特征空间，产生与其语义一致的3D风格，并将该3D风格信息进行语义显式化表达，用户根据风格的语义性表达对其进行编辑，生成符合其预期的目标风格，然后算法将用户的风格的语义标签生成对应的风格信息，最后利用风格迁移模块，将生成的3D目标特征迁移到原始动画序列上，产生目标风格化的虚拟数字人动画序列。

另外，图4所示实施例中的第三图像序列包括以下一项或多项：面部表情序列、肢体图像序列。例如，肢体动作包括全局肢体、局部肢体(例如手势等)等。换句话说本申请实施例提供的方法还可以应用于手势、表情等风格迁移。下面以语音驱动手势为例。该方法应用于手势风格迁移的场景如图17所示。

通过输入一段文本或语音数据，驱动虚拟数字人做出与语音数据语义已知、节奏一致的手势动作。对于同一段语音或文本数据，不同演讲者的手势风格会因人而异，也会因同一人的不同情绪而异，因而风格的个性化定制与迁移对丰富手势的多样性有重要意义。

在离线或训练阶段，通过收集海量的2D演讲视频，通过前述风格化特征提取模块产生几乎可覆盖任意风格的手势风格信息，离线生成风格信息数据库；在线使用阶段，用户指定任意个性化的风格化标签，通过对用户标签的解析与量化表示，融合离线生成的风格数据库，生成编辑后的风格信息，并将语音驱动手势模块生成的运动序列风格化为目标风格。

该方法应用于表情风格迁移的场景如图18所示。该场景也可以理解为数字人表情基风格编辑与迁移场景。通过从海量表情视频中获取近乎任意的表情风格，再迁移到数字人表情肌上，驱动同一个数字人做出任意风格的表情。其中，表情基的定义是，事先确定的用于表征某个中性表情的脸部若干个关键点的坐标集合，而原始系数则表示某个特定表情相对于中性表情的参数表达，比如微笑时相对于中性表情的嘴巴的咧开程度等。因而图18的整个过程是，首先根据某个人的表情和预置的表情基，通过一个表情网络计算该表情所对应的原始系数；并通过同一组表情基获取视频中各种表情对应的系数，用户通过编辑该系数控制所要生成的表情。

本实施例中，一方面，能从视频序列中提取并转化成手势/表情的风格化特征，极大地丰富了风格多样性；另一方面，对从视频中提取的手势/表情的风格进行显式标签化，便于与用户对手势/表情的风格进行语义性描述，进而实现后续标签与风格信息的匹配与融合。

上面对本申请实施例中的数据处理方法进行了描述，下面对本申请实施例中的数据处理设备进行描述，请参阅图19，本申请实施例中数据处理设备的一个实施例包括：

获取单元1901，用于获取第一风格信息；

获取单元1901，还用于获取第一图像序列的动作信息；

生成单元1902，用于基于第一风格信息与动作信息生成第二图像序列，第二图像序列与第一图像序列的动作类型相同，第二图像序列具有第一风格信息。

可选地，数据处理设备还可以包括：显示单元1903，用于向用户显示第一界面，第一界面包括多个语义标签，多个语义标签用于描述不同图像序列的不同风格信息，多个语义标签与风格信息一一对应；获取单元1901，具体用于基于用户的第二操作从多个语义标签中确定第一语义标签；以及用于将第一语义标签转化为第一风格信息。

可选地，数据处理设备还可以包括：渲染单元1904，用于将第二图像序列渲染至虚拟物体以得到动画。

本实施例中，数据处理设备中各单元所执行的操作与前述图1至图18所示实施例中描述的类似，此处不再赘述。

本实施例中，获取单元1901通过风格信息与动作信息的分离获取，生成单元1902基于该第一风格信息与动作信息生成第二图像序列。以实现在不改变原图像序列其他特征的情况下进行风格化的动画编辑，提升动画的风格迁移效果。

参阅图20，本申请提供的另一种数据处理设备的结构示意图。该数据处理设备可以包括处理器2001、存储器2002和通信端口2003。该处理器2001、存储器2002和通信端口2003通过线路互联。其中，存储器2002中存储有程序指令和数据。

存储器2002中存储了前述图1至图18所示对应的实施方式中，由数据处理设备执行的步骤对应的程序指令以及数据。

处理器2001，用于执行前述图1至图18所示实施例中任一实施例所示的由数据处理设备执行的步骤。

通信端口2003可以用于进行数据的接收和发送，用于执行前述图1至图18所示实施例中任一实施例中与获取、发送、接收相关的步骤。

一种实现方式中，数据处理设备可以包括相对于图20更多或更少的部件，本申请对此仅仅是示例性说明，并不作限定。

本申请实施例还提供一种存储一个或多个计算机执行指令的计算机可读存储介质，当计算机执行指令被处理器执行时，该处理器执行如前述实施例中数据处理设备可能的实现方式所述的方法。

本申请实施例还提供一种存储一个或多个计算机的计算机程序产品(或称计算机程序)，当计算机程序产品被该处理器执行时，该处理器执行上述数据处理设备可能实现方式的方法。

本申请实施例还提供了一种芯片系统，该芯片系统包括至少一个处理器，用于支持终端设备实现上述数据处理设备可能的实现方式中所涉及的功能。可选的，所述芯片系统还包括接口电路，所述接口电路为所述至少一个处理器提供程序指令和/或数据。在一种可能的设计中，该芯片系统还可以包括存储器，存储器，用于保存该终端设备必要的程序指令和数据。该芯片系统，可以由芯片构成，也可以包含芯片和其他分立器件。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备 (可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，read-onlymemory)、随机存取存储器(RAM，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

获取第一风格信息；

获取第一图像序列的动作信息；

基于所述第一风格信息与所述动作信息生成第二图像序列，所述第二图像序列与所述第一图像序列的动作类型相同，所述第二图像序列具有所述第一风格信息。

2.根据权利要求1所述的方法，其特征在于，所述获取第一风格信息之前，所述方法还包括：

获取第三图像序列；

所述获取第一风格信息，包括：

基于所述第三图像序列获取所述第一风格信息。

3.根据权利要求2所述的方法，其特征在于，所述基于所述第三图像序列获取所述第一风格信息，包括：

提取所述第三图像序列的第二风格信息；

基于所述第二风格信息确定所述第一风格信息。

4.根据权利要求3所述的方法，其特征在于，所述基于所述第二风格信息确定所述第一风格信息，包括：

将所述第二风格信息作为所述第一风格信息。

5.根据权利要求3所述的方法，其特征在于，所述基于所述第二风格信息确定所述第一风格信息，包括：

向用户显示第二语义标签，所述第二语义标签用于描述所述第二风格信息；

基于所述用户的第一操作将所述第二语义标签修改为第一语义标签，所述第一语义标签用于描述所述第一风格信息；

基于所述第一语义标签确定所述第一风格信息。

6.根据权利要求2至5中任一项所述的方法，其特征在于，所述第三图像序列为二维动画的图像序列，所述第二风格信息为二维风格信息，所述第一风格信息为三维风格信息，所述第一图像序列与所述第二图像序列为三维动画的图像序列。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

向用户显示第一界面，所述第一界面包括多个语义标签，所述多个语义标签用于描述不同图像序列的不同风格信息，所述多个语义标签与所述风格信息一一对应；

所述获取第一风格信息，包括：

基于所述用户的第二操作从所述多个语义标签中确定第一语义标签；

基于所述第一语义标签确定所述第一风格信息。

8.根据权利要求1至7中任一项所述的方法，其特征在于，所述基于所述第一风格信息与所述动作信息生成第二图像序列，包括：

融合所述第一风格信息与所述动作信息以得到第一运动特征；

基于所述第一运动特征获取所述第二图像序列。

9.根据权利要求1至8中任一项所述的方法，其特征在于，所述动作信息包括以下一项或多项：面部表情序列、肢体图像序列。

10.根据权利要求1至9中任一项所述的方法，其特征在于，所述方法还包括：

将所述第二图像序列渲染至虚拟物体以得到动画。

11.一种数据处理设备，其特征在于，所述数据处理设备包括：

获取单元，用于获取第一风格信息；

所述获取单元，还用于获取所述第一图像序列的动作信息；

生成单元，用于基于所述第一风格信息与所述动作信息生成第二图像序列，所述第二图像序列与所述第一图像序列的动作类型相同，所述第二图像序列具有所述第一风格信息。

12.根据权利要求11所述的设备，其特征在于，所述获取单元，还用于获取第三图像序列；

所述获取单元，具体用于基于所述第三图像序列获取所述第一风格信息。

13.根据权利要求12所述的设备，其特征在于，所述获取单元，具体用于提取所述第三图像序列的第二风格信息；

所述获取单元，具体用于基于所述第二风格信息确定所述第一风格信息。

14.根据权利要求13所述的设备，其特征在于，所述获取单元，具体用于将所述第二风格信息作为所述第一风格信息。

15.根据权利要求13所述的设备，其特征在于，所述获取单元，具体用于向用户显示第二语义标签，所述第二语义标签用于描述所述第二风格信息；

所述获取单元，具体用于基于所述用户的第一操作将所述第二语义标签修改为第一语义标签，所述第一语义标签用于描述所述第一风格信息；

所述获取单元，具体用于基于所述第一语义标签确定所述第一风格信息。

16.根据权利要求12至15中任一项所述的设备，其特征在于，所述第三图像序列为二维动画的图像序列，所述第二风格信息为二维风格信息，所述第一风格信息为三维风格信息，所述第一图像序列与所述第二图像序列为三维动画的图像序列。

17.根据权利要求11所述的设备，其特征在于，所述数据处理设备还包括：

显示单元，用于向用户显示第一界面，所述第一界面包括多个语义标签，所述多个语义标签用于描述不同图像序列的不同风格信息，所述多个语义标签与所述风格信息一一对应；

所述获取单元，具体用于基于所述用户的第二操作从所述多个语义标签中确定第一语义标签；

18.根据权利要求11至17中任一项所述的设备，其特征在于，所述生成单元，具体用于融合所述第一风格信息与所述动作信息以得到第一运动特征；

所述生成单元，具体用于基于所述第一运动特征获取所述第二图像序列。

19.根据权利要求11至18中任一项所述的设备，其特征在于，所述动作信息包括以下一项或多项：面部表情序列、肢体图像序列。

20.根据权利要求11至19中任一项所述的设备，其特征在于，所述数据处理设备还包括：

渲染单元，用于将所述第二图像序列渲染至虚拟物体以得到动画。

21.一种数据处理设备，其特征在于，包括：处理器，所述处理器与存储器耦合，所述存储器用于存储程序或指令，当所述程序或指令被所述处理器执行时，使得所述数据处理设备执行如权利要求1至10中任一项所述的方法。

22.一种计算机存储介质，其特征在于，包括计算机指令，当所述计算机指令在数据处理设备上运行时，使得所述数据处理设备执行如权利要求1至10中任一项所述的方法。

23.一种计算机程序产品，其特征在于，当所述计算机程序产品在计算机上运行时，使得所述计算机执行如权利要求1至10中任一项所述的方法。