CN113518235A

CN113518235A - 直播视频数据生成方法、装置及存储介质

Info

Publication number: CN113518235A
Application number: CN202110478555.7A
Authority: CN
Inventors: 金绍港
Original assignee: Guangzhou Fanxing Huyu IT Co Ltd
Current assignee: Guangzhou Fanxing Huyu IT Co Ltd
Priority date: 2021-04-30
Filing date: 2021-04-30
Publication date: 2021-10-19
Anticipated expiration: 2041-04-30
Also published as: CN113518235B

Abstract

本申请实施例公开了一种直播视频数据生成方法、装置及存储介质，属于直播技术领域。在本申请实施例中，预先获取从动物媒体资源中提取出来的目标动物的多帧动作图像，这样，在主播唱歌的过程中，伴随着主播唱歌的音频数据，获取对应的动作图像，进而生成包含有目标动物的不同动作形态的直播视频数据。也即，在本申请实施例中，在主播唱歌时，直播视频不仅仅是主播在跟随伴奏唱歌，还会包含有对应主播唱歌的不同动作形态的动物图像，这样，直播视频的内容更为丰富，增强了趣味性，能够更好的吸引观众，从而增加观看量。

Description

直播视频数据生成方法、装置及存储介质

技术领域

本申请涉及直播技术领域，特别涉及一种直播视频数据生成方法、装置及存储介质。

背景技术

随着互联网技术的发展，在直播间中观看主播的直播视频已成为人们日常生活中非常喜欢的娱乐活动。目前，主播直播的内容越来越丰富，其中，唱歌即为常见的一种直播内容。

相关技术中，主播终端录制主播跟随歌曲伴奏唱歌的直播视频数据，并将该直播视频数据发送至服务器，进而由服务器将该直播视频数据推送至观众终端，这样，该直播间内的观众则能够观看主播唱歌的直播视频。然而，由于在该直播视频中，主播仅仅是跟随伴奏唱歌，因此，内容比较单一，趣味性较低，对观众的吸引力也较弱。

发明内容

本申请实施例提供了一种直播视频数据生成方法、装置及存储介质，可以使主播唱歌时的直播视频的内容更为丰富，增强趣味性。所述技术方案如下：

一方面，提供了一种直播视频数据生成方法，所述方法包括：

获取目标动物的多帧动作图像，所述多帧动作图像是从包含有所述目标动物的图像的动物媒体资源中提取出来的，所述多帧动作图像中的每帧动作图像包含有所述目标动物的一种动作形态；

在主播唱歌的过程中，从所述多帧动作图像中获取每个时刻采集的音频数据对应的动作图像，其中，至少有两个时刻采集的音频数据对应的动作图像不同；

根据每个时刻采集的音频数据所对应的动作图像和每个时刻采集的主播视频数据，生成包含有所述目标动物的不同动作形态的直播视频数据。

可选地，所述从所述多帧动作图像中获取每个时刻采集的音频数据所对应的动作图像，包括：

确定第一时刻采集的第一音频数据对应的主播音调，所述第一时刻为所述主播唱歌过程中的任一时刻；

从所述多帧动作图像中获取所述主播音调对应的第一动作图像。

可选地，所述确定第一时刻采集的第一音频数据对应的主播音调，包括：

将所述第一音频数据中包含的人声信号和伴奏信号进行分离，得到第一时刻的人声信号；

根据所述第一时刻的人声信号，确定所述第一时刻采集的第一音频数据对应的主播音调。

可选地，所述根据每个时刻采集的音频数据所对应的动作图像和每个时刻采集的主播视频数据，生成包含有所述目标动物的不同动作形态的直播视频数据，包括：

如果第一时刻不为主播唱歌过程中第一个采集音频数据的时刻，则获取所述第一时刻的前一个时刻对应的第二动作图像，所述第一时刻为所述主播唱歌过程中的任一时刻；

如果所述第二动作图像和所述第一时刻采集的音频数据对应的第一动作图像不同，则根据所述第二动作图像和所述第一动作图像计算位于所述第二动作图像和所述第一动作图像之间的过渡动作图像；

将所述过渡动作图像和所述第一动作图像依次作为所述第二动作图像之后的视频帧，得到所述第一时刻的动物视频数据；

将所述第一时刻采集的主播视频数据和所述第一时刻的动物视频数据作为所述第一时刻的直播视频数据。

可选地，所述方法还包括：

在直播界面中的第一子窗口中显示每个时刻的动物视频数据，在所述直播界面中的第二子窗口中显示每个时刻的主播视频数据。

可选地，所述动作形态是指动物的肢体动作形态，或者，所述动作形态是指所述动物的唇部动作形态。

可选地，所述动物媒体资源为包含有所述目标动物的图像的多张图片或者是包含有所述目标动物的图像的一个或多个视频。

另一方面，提供了一种直播视频数据生成装置，所述装置包括：

第一获取模块，用于获取目标动物的多帧动作图像，所述多帧动作图像是从包含有所述目标动物的图像的动物媒体资源中提取出来的，所述多帧动作图像中的每帧动作图像包含有所述目标动物的一种动作形态；

第二获取模块，用于在主播唱歌的过程中，从所述多帧动作图像中获取每个时刻采集的音频数据对应的动作图像，其中，至少有两个时刻采集的音频数据对应的动作图像不同；

生成模块，用于根据每个时刻采集的音频数据所对应的动作图像和每个时刻采集的主播视频数据，生成包含有所述目标动物的不同动作形态的直播视频数据。

可选地，所述第二获取模块主要用于：

可选地，所述生成模块主要用于：

可选地，所述装置还包括：

显示模块，用于在直播界面中的第一子窗口中显示每个时刻的动物视频数据，在所述直播界面中的第二子窗口中显示每个时刻的主播视频数据。

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器执行所述存储器中的可执行指令来执行上述直播视频数据生成方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质内存储有计算机程序，所述计算机程序被计算机执行时实现上述所述直播视频数据生成方法的步骤。

另一方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述的直播视频数据生成方法的步骤。

本申请实施例提供的技术方案带来的有益效果至少包括：

在本申请实施例中，预先获取从动物媒体资源中提取得到的目标动物的多帧动作图像，这样，在主播唱歌的过程中，伴随着主播唱歌的音频数据，获取对应的动作图像，进而生成包含有目标动物的不同动作形态的直播视频数据。也即，在本申请实施例中，在主播唱歌时，直播视频不仅仅是主播在跟随伴奏唱歌，还会包含有对应主播唱歌的不同动作形态的动物图像，这样，直播视频的内容更为丰富，增强了趣味性，能够更好的吸引观众，从而增加观看量。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种直播视频数据生成方法所涉及的系统架构图；

图2是本申请实施例提供的一种直播视频数据生成方法的流程图；

图3是本申请实施例提供的一种显示直播视频数据的示意图；

图4是本申请实施例提供的一种直播视频数据生成装置的示意图；

图5是本申请实施例提供的一种用于生成直播视频数据的终端的结构示意图；

图6是本申请实施例提供的一种用于生成直播视频数据的服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在对本申请实施例进行详细的解释说明之前，先对本申请实施例涉及的系统架构进行介绍。

图1是本申请实施例提供的一种直播视频数据生成方法所涉及的系统架构图。如图1所示，该系统包括主播终端101、直播服务器102和观众终端103。其中，主播终端101和观众终端103均能够与直播服务器102进行通信。

在本申请实施例中，主播终端101获取动物媒体资源，并从动物媒体资源中提取目标动物的多帧动作图像，其中，每帧动作图像包含有目标动物的一种动作形态。之后，在主播唱歌的过程中，从多帧动作图像中获取每个时刻采集的音频数据所对应的动作图像，进而根据每个时刻采集的音频数据所对应的动作图像和每个时刻采集的主播视频数据，生成包含有目标动物的不同动作形态的直播视频数据。将该直播视频数据发送至直播服务器102。这样，在主播唱歌的过程中，直播视频数据中将会包含有变换不同动作形态的目标动物，增强了视频的趣味性。

直播服务器102在接收到该直播视频数据之后，可以将该直播视频数据分发至当前正在观看主播唱歌的观众对应的观众终端103。观众终端103在接收到直播服务器102发送的直播视频数据之后，可以对该直播视频数据进行显示。

可选地，在一些可能的实现方式中，主播终端101也可以将动物媒体资源上传至直播服务器102，由直播服务器102从该动物媒体资源提取多帧动作图像。相应地，在主播唱歌的过程中，主播终端101采集主播唱歌的音频数据和主播视频数据，并将采集的音频数据和主播视频数据发送至直播服务器102。

直播服务器102在接收到该主播终端101发送的音频数据和主播视频数据之后，可以从多帧动作图像中获取每个时刻采集的音频数据对应的动作图像，进而根据每个时刻采集的音频数据所对应的动作图像和每个时刻采集的主播视频数据，生成包含有目标动物的不同动作形态的直播视频数据。之后，直播服务器102可以将生成的直播视频数据分发至当前正在观看该主播的直播的观众所对应的观众终端103。观众终端103在接收到该直播视频数据之后，可以对该直播视频数据进行显示。

可选地，在另一些可能的实现方式中，也可以由主播终端101从动物媒体资源中提取多帧动作图像，并将该多帧动作图像上传至直播服务器102进行存储。相应地，在主播唱歌的过程中，主播终端101采集主播唱歌的音频数据和主播视频数据，并将采集的音频数据和主播视频数据也发送至直播服务器102。之后，由直播服务器102从接收到的多帧动作图像获取每个时刻的音频数据对应的动作图像，进而根据每个时刻的音频数据对应的动作图像和接收到的每个时刻的主播视频数据生成包含有目标动物的不同动作形态的直播视频数据。

其中，主播终端101和观众终端103可以为智能手机、平板电脑、台式计算机等终端设备。直播服务器102可以为一台服务器，也可以为一个服务器集群，或者还可以为一个云平台，本申请实施例对此不做限定。

接下来对本申请实施例提供的直播视频数据生成方法进行介绍。

图2是本申请实施例提供的一种直播视频数据生成方法。由前述关于系统架构的介绍可知，本申请实施例提供的直播视频数据生成方法既可以由主播终端来执行，也可以由直播服务器来执行，或者由终端和直播服务器进行交互来实现，在下文中以该方法应用于主播终端中为例来对该方法的实现过程进行介绍。如图2所示，该方法包括以下步骤：

步骤201：获取目标动物的多帧动作图像，该多帧动作图像是从包含有目标动物的图像的动物媒体资源中提取出来的，多帧动作图像中的每帧动作图像包含有目标动物的一种动作形态。

在本申请实施例中，动物媒体资源可以是由主播上传至主播终端的媒体资源，也可以是主播终端接收的来自其他终端发送的媒体资源，或者是主播终端从网络上下载的媒体资源。

其中，该动物媒体资源中包含有真实的动物的图像。示例性地，该动物媒体资源为包括同一动物的多种不同动作形态的多张图片，例如，该动物媒体资源为包含有同一只小猫的不同跑跳姿势的多张图片。或者，该动物媒体资源为包括同一动物的图像的一段或多段视频，例如，该动物媒体资源为主播与一只小猫互动时采集的包含有小猫不同姿势动作的视频。

需要说明的是，在本申请实施例中，主播终端在获取到动物媒体资源之后，可以采用图像分割算法从动物媒体资源中提取包含有相同动物图像的多帧图像，也即，提取目标动物的多帧图像，并对该多帧图像进行显示。主播可以从显示的多帧图像中选取多帧包含有不同动作形态的动作图像，并对该多帧动作图像进行存储。

其中，该多帧动作图像中各帧动作图像包含的目标动物的动作形态均不同。并且，在本申请实施例中，该动作形态可以是指目标动物的肢体形态，例如，目标动物跑跳时的四肢和躯体的形态。或者是，该动作形态为目标动物的唇部动作形态，例如，目标动物在发出叫声时唇部开合的不同形态。

另外，在存储该多帧动作图像时，可以按照一定顺序对该多帧动作图像进行排列。例如，对于从视频中提取的多帧动作图像，可以按照该多帧动作图像在视频中出现的先后顺序进行排列，或者，按照提取先后顺序对该多帧动作图像进行排列，这样，该多帧动作图像中的多种动作形态能够更为连贯。对于从多张图片中提取的多帧动作图像，可以按照用户选取该多帧动作图像时的选取顺序排列，而用户在选取多帧动作图像时，则可以从动作形态的连贯性方面考虑来选该多帧动作图像，以保证每相邻的两帧动作图像中动作形态的变化幅度不会过大而导致动作连贯性较差。

可选地，在一种可能的实现方式中，主播终端在获取到动物媒体资源之后，也可以将该动物媒体资源上传至直播服务器。直播服务器在接收到该动物媒体资源之后，可以通过上述介绍的提取动作图像的方法，从该动物媒体资源中提取目标动物的多帧动作图像，然后将提取到的目标动物的多帧动作图像发送至主播终端。主播终端在接收到该多帧动作图像之后，可以通过上述介绍的方式存储该多帧动作图像。

步骤202：在主播唱歌的过程中，从多帧动作图像中获取每个时刻采集的音频数据对应的动作图像，其中，至少有两个时刻采集的音频数据对应的动作图像不同。

在将多帧动作图像存储之后，后续，当主播开始直播唱歌时，主播终端采集主播唱歌的音频数据和主播视频数据。或者，主播终端接收连接的外置音视频采集设备采集的主播唱歌的音频数据和主播视频数据。其中，每当获取到一个时刻采集的音频数据和主播视频数据时，主播终端均可以从多帧动作图像中获取这个时刻的音频数据所对应的动作图像。接下来以任一时刻为例对该过程进行介绍，为了方便说明，将该时刻称为第一时刻。

示例性地，主播终端确定第一时刻采集的第一音频数据对应的主播音调，从多帧动作图像中获取主播音调对应的第一动作图像。

需要说明的是，主播在唱歌时，由于歌曲的音调是变化的，因此，主播唱歌的音调也是变化的。基于此，在本申请实施例中，主播终端在获取到第一时刻采集的第一音频数据之后，首先对第一音频数据进行傅里叶变换，从而将第一音频数据从时域转换为频域。之后，主播终端可以根据转换至频域的第一音频数据的音高来确定第一音频数据所对应的主播音调。

在确定第一音频数据对应的主播音调之后，主播终端从存储的多帧动作图像中获取该主播音调对应的第一动作图像。

需要说明的是，如果第一时刻为主播唱歌过程中采集到音频数据的第一个时刻，则由于之前还没有为主播唱歌过程中的其他音频数据分配过动作图像，因此，主播终端可以从多帧动作图像中任意选取一张动作图像分配给第一音频数据作为第一音频数据的主播音调所对应的第一动作图像。可选地，如果多帧动作图像是按照一定顺序排列的，例如，多帧动作图像按照提取顺序排列，则主播终端将多帧动作图像中的第一张动作图像分配给第一音频数据，作为第一音频数据的主播音调对应的第一动作图像。在确定第一动作图像之后，主播终端可以将第一音频数据的主播音调与第一动作图像的图像标识进行对应存储。

如果第一时刻不为主播唱歌过程中的第一个时刻，由于每分配一个动作图像时，均将动作图像的图像标识与主播音调进行了对应存储，因此，在确定第一音频数据对应的主播音调之后，主播终端可以查找在第一时刻之前是否存在与第一音频数据对应的主播音调相同的第一音调。如果在第一时刻之前存在与第一音频数据的主播音调相同的第一音调，则主播终端可以获取之前确定的第一音调对应的动作图像，并将该动作图像作为第一音频数据的主播音调对应的第一动作图像，将第一音频数据的主播音调与第一动作图像的图像标识对应存储。如果在第一时刻之前不存在与第一音频数据的主播音调相同的第一音调，则主播终端可以从多帧动作图像中获取还未分配过的动作图像作为第一音频数据的主播音调对应的第一动作图像，如果多帧动作图像中已经不存在未分配过的动作图像，则主播终端可以从多帧动作图像中选取一帧动作图像作为第一动作图像。其中，如果多帧动作图像是按照一定顺序排列的，则主播终端可以按照多帧动作图像的顺序，从多帧动作图像中确定当前时刻待分配的动作图像是哪一帧，并将确定的这帧动作图像作为第一动作图像。

示例性地，假设动作图像有M帧，且M帧动作图像按照提取先后顺序排列，则在主播唱歌过程中，在获取到第一个时刻采集到的音频数据时，主播终端将第一帧动作图像分配给第一个时刻采集的音频数据，并将第一个时刻的音频数据的主播音调与第一帧动作图像的图像标识对应存储。之后，对于第二个时刻采集到的音频数据，如果这个音频数据的主播音调与第一个时刻的主播音调不同，则主播终端将第二帧动作图像分配给第二个时刻的音频数据。对于第三个时刻采集的音频数据，如果这个音频数据的主播音调与第二个时刻的主播音调相同，则将第二帧动作图像作为第三个时刻采集的音频数据所对应的动作图像。对于第四个时刻采集的音频数据，如果这个音频数据的主播音调与前述的任何音调都不同，则主播终端根据最近一次从M帧动作图像中分配的动作图像，也即第二帧动作图像，确定当前时刻待分配的动作图像为第三帧动作图像。在这种情况下，主播终端将第三帧动作图像分配给第四个时刻采集的音频数据。以此类推，对于第N个时刻采集的音频数据，如果主播终端发现该音频数据的主播音调与之前的所有音调都不同，并且，M帧动作图像均已分配完毕，也即，主播音调的种类数多于动作图像的帧数，此时，主播终端可以重新从第一帧动作图像开始，将第一帧动作图像分配给第N个时刻采集的音频数据。这样，将会出现具有不同音调的音频数据对应同一帧动作图像。可选地，当主播音调的种类数少于动作图像的帧数，则不会出现上述问题，也即，具有不同音调的音频数据分配到的动作图像也将不同。

可选地，由于主播唱歌时通常会跟随伴奏进行演唱，这样，采集到的音频数据中将同时包含有人声信号和伴奏信号。基于此，为了能够更为准确的确定采集到的音频数据所对应的主播音调，在一种可能的实现方式中，主播终端在获取到一个时刻的音频数据时，可以首先对该音频数据中包含的人声信号和伴奏信号进行分离，从而得到该时刻的人声信号，之后，对该人声信号进行时域到频域的转换，进而根据转换后的信号数据确定主播音调，以此来消除伴奏信号对主播音调确定的影响。

可选地，当动作图像中包含的是目标动物的唇部的动作形态时，为了后续生成的动物视频数据能够呈现出目标动物跟随主播唱歌的样子，因此，在本申请实施例中，主播终端通过上述方法为主播音调分配动作图像中的动作形态均是目标动物的唇部张开的不同形态。相应地，对于歌曲中间奏部分的音频数据，也即不存在主播的人声信号且时长超过一定阈值的部分音频，主播终端可以为这部分音频数据分配指定的动作图像，该指定的动作图像中目标动物的唇部是闭合的。

上述主要介绍了根据音频数据确定主播音调，进而根据主播音调为音频数据分配对应的动作图像，可选地，在一些可能的实现方式中，主播终端也可以根据音频数据中包含的声音的其他特征来为音频数据分配对应的动作图像。例如，根据声音的响度、或者是结合声音的响度和音高来为音频数据分配对应的动作图像，分配的原理可以参考上述实现方式，本申请实施例在此不再赘述。

步骤203：根据每个时刻采集的音频数据所对应的动作图像和每个时刻采集的主播视频数据，生成包含有目标动物的不同动作形态的直播视频数据。

每当主播终端根据上述步骤202确定一个时刻的音频数据所对应的动作图像之后，该主播终端即可以根据该时刻的音频数据所对应的动作图像以及该时刻采集的主播视频数据，生成该时刻的直播视频数据。其中，该直播视频数据将包括该时刻的主播视频数据和生成的该时刻的动物视频数据，该动物视频数据中将包含有目标动物的图像。接下来仍以第一时刻为例进行说明。

示例性地，如果第一时刻不为主播唱歌过程中第一个采集音频数据的时刻，则获取第一时刻的前一个时刻对应的第二动作图像；如果第二动作图像和第一时刻采集的音频数据对应的第一动作图像不同，则根据第二动作图像和第一动作图像计算位于第二动作图像和第一动作图像之间的过渡动作图像；将过渡动作图像和第一动作图像依次作为第二动作图像之后的视频帧，得到第一时刻的动物视频数据；将第一时刻采集的主播视频数据和第一时刻的动物视频数据作为第一时刻的直播视频数据。

其中，在确定第一时刻采集的第一音频数据对应的第一动作图像之后，如果第一时刻不为主播唱歌过程中第一个采集音频数据的时刻，则说明第一动作图像之前还存在其他动作图像。在这种情况下，在动物直播视频中，必然需要从第一动作图像的前一帧动作图像切换到第一动作图像。其中，第一动作图像的前一帧动作图像即为第一时刻的前一时刻采集的音频数据所对应的第二动作图像。如果第一动作图像和第二动作图像中目标动物的动作形态是相同的，则从第二动作图像切换至第一动作图像将不会有画面突兀的感觉。然而，如果第一动作图像和第二动作图像中的目标动物的动作形态不同且相差较大，也即第一动作图像和第二动作图像不同，则为了保证从第二动作图像切换到第一动作图像时两种动作形态之间的连贯性，主播终端可以获取第二动作图像，进而通过图像生成算法对第二动作图像和第一动作图像中目标动物的两种动作形态之间的过渡动作形态进行计算，从而得到包含有过渡动作形态的过渡动作图像。之后，将该过渡动作图像作为第二动作图像之后的视频帧，将第一动作图像作为过渡动作图像之后的视频帧，从而得到第一时刻的动物视频数据。这样，在播完第一时刻的前一时刻的动物视频数据，开始播放第一时刻的动物视频数据时，将会从第二动作图像首先切换至过渡动作图像，然后再切换至第一动作图像，使得动物视频中的动物动作形态更为连续。

需要说明的是，在一些可能的实现方式中，主播终端计算的第二动作图像和第一动作图像之间的过渡动作图像为多帧。示例性地，主播终端首先根据第二动作图像和第一动作图像进行生成第一过渡动作图像。然后，根据第二动作图像和第一过渡动作图像进行计算，得到位于第二动作图像和第一过渡动作图像之间的第二过渡动作图像。根据第一过渡动作图像和第一动作图像进行计算，得到位于第一过渡动作图像和第一动作图像之间的第三过渡动作图像。本申请对此不再赘述。

可选地，如果第一时刻就是主播唱歌过程中开始采集音频数据的时刻，则主播终端直接将第一动作图像作为一个视频帧，从而得到第一时刻的动物视频数据。

上述是本申请实施例提供的一种通过确定过渡动作图像，进而生成动物视频数据的实现过程。可选地，在一种可能的实现方式中，主播终端也可以将第一时刻的音频数据对应的动作图像直接作为第一时刻的视频帧，从而得到第一时刻的动物直播视频数据。

在得到第一时刻的动物视频数据之后，主播终端将该第一时刻的动物视频数据和第一时刻采集的主播视频数据作为这个时刻的直播视频数据，发送至直播服务器，以便直播服务器将该直播视频数据分发给观众终端进行播放。

在向直播服务器发送第一时刻的直播视频数据的同时，主播终端还可以对第一时刻的直播视频数据进行播放。

示例性地，主播终端的显示屏上显示的直播界面中可以包括两个子窗口，分别为第一子窗口和第二子窗口。主播终端可以将动物视频数据显示在第一子窗口中，将主播视频数据显示在第二子窗口中。其中，第一子窗口和第二子窗口的大小可以相等，或者，第一子窗口的大小大于第二子窗口，以突出显示动物视频。另外，第一子窗口和第二子窗口左右排列或者上下排列或者沿显示屏的对角线排列，或者，第一子窗口可以作为主窗口突出显示于直播界面的中央，第二子窗口作为小窗口显示于直播界面的一个角落，本申请实施例对此不做限定。

例如，参见图3，直播界面300中第一子窗口301位于第二子窗口302的右侧，并且，第一子窗口和第二子窗口大小相同。其中，第二子窗口302用于显示不同时刻的主播视频数据，而第一子窗口301用于显示相应时刻的动物视频数据。

对于主播唱歌过程中每个时刻采集的音频数据和主播视频数据，主播终端均可以参照上述方式对其进行处理，得到对应时刻的直播视频数据，并对该直播视频数据进行显示。这样，当各帧动作图像中的动作形态是目标动物的肢体形态时，由于根据各个时刻的音频数据确定的动作图像是随音频数据的声音特征变化的，所以，在呈现的动物视频中，目标动物的肢体动作将会随着主播唱歌时声音特征的变化而变化，也即，目标动物将会跟随主播唱歌而跳舞，相当于是目标动物在为主播唱歌进行伴舞。当各帧动作图像中的动作形态是目标动物的唇部动作形态时，则在呈现的动物视频中，目标动物的唇部动作将会随着主播唱歌时的声音特征的变化而变化，也即，目标动物将会在主播唱歌的过程中进行跟唱。如此，大大丰富了主播唱歌时直播视频的内容，增强了直播视频的趣味性，从而增强对观众的吸引力，增加直播观看量。

在本申请实施例中，预先获取从动物媒体资源中提取出来的目标动物的多帧动作图像，这样，在主播唱歌的过程中，伴随着主播唱歌的音频数据，获取对应的动作图像，进而生成包含有目标动物的不同动作形态的直播视频数据。也即，在本申请实施例中，在主播唱歌时，直播视频不仅仅是主播在跟随伴奏唱歌，还会包含有对应主播唱歌的不同动作形态的动物图像，这样，直播视频的内容更为丰富，增强了趣味性，能够更好的吸引观众，从而增加观看量。

另外，在本申请实施例中，可以通过图像生成算法计算得到两个时刻的音频数据对应的两帧不同的动作图像之间过渡动作图像，进而根据该过渡动作图像生成动物视频数据，这样，能够使得呈现出来的动物视频中各个视频帧中的动物的动作形态更为连贯，从而使得动物伴舞或跟唱的呈现更为逼真。

需要说明的是，上述主要以主播终端为执行主体对直播视频数据的生成方法进行了解释说明。可选地，在一些可能的实现方式中，也可以由直播服务器来执行上述方法。在这种情况下，可以由主播终端将动物媒体资源上传至直播服务器。直播服务器可以通过上述步骤201-203生成直播视频数据，并将生成的直播视频数据分发给观众终端，另外，直播服务器还可以将生成的直播视频数据中的动物视频数据发送至主播终端，以供主播终端显示。或者，在另一些可能的实现方式中，可以由主播终端通过步骤201中介绍的方法得到目标动物的多帧动作图像，并将该多帧动作图像上传至直播服务器进行存储，之后，由直播服务器通过上述步骤202和203来生成直播视频数据。本申请实施例对此不再赘述。

接下来，对本申请实施例提供的直播视频数据生成装置进行介绍。

参见图4，本申请实施例提供了一种直播视频数据生成装置400，装置400包括：

第一获取模块401，用于获取目标动物的多帧动作图像，该多帧动作图像是从包含有目标动物的动物媒体资源中提取出来的，多帧动作图像中的每帧动作图像包含有目标动物的一种动作形态；

第二获取模块402，用于在主播唱歌的过程中，从多帧动作图像中获取每个时刻采集的音频数据对应的动作图像，其中，至少有两个时刻采集的音频数据对应的动作图像不同；

生成模块403，用于根据每个时刻采集的音频数据所对应的动作图像和每个时刻采集的主播视频数据，生成包含有目标动物的不同动作形态的直播视频数据。

可选地，第二获取模块402主要用于：

确定第一时刻采集的第一音频数据对应的主播音调，第一时刻为主播唱歌过程中的任一时刻；

从多帧动作图像中获取主播音调对应的第一动作图像。

可选地，第二获取模块402主要用于：

将第一音频数据中包含的人声信号和伴奏信号进行分离，得到第一时刻的人声信号；

根据第一时刻的人声信号，确定第一时刻采集的第一音频数据对应的主播音调。

可选地，生成模块403主要用于：

如果第一时刻不为主播唱歌过程中第一个采集音频数据的时刻，则获取第一时刻的前一个时刻对应的第二动作图像，第一时刻为主播唱歌过程中的任一时刻；

如果第二动作图像和第一时刻采集的音频数据对应的第一动作图像不同，则根据第二动作图像和第一动作图像计算位于第二动作图像和第一动作图像之间的过渡动作图像；

将过渡动作图像和第一动作图像依次作为第二动作图像之后的视频帧，得到第一时刻的动物视频数据；

将第一时刻采集的主播视频数据和第一时刻的动物视频数据作为第一时刻的直播视频数据。

可选地，该装置400还包括：

显示模块，用于在直播界面中的第一子窗口中显示每个时刻的动物视频数据，在直播界面中的第二子窗口中显示每个时刻的主播视频数据。

可选地，动作形态是指动物的肢体动作形态，或者，动作形态是指动物的唇部动作形态。

可选地，动物媒体资源为包含有目标动物的图像的多张图片或者是包含有目标动物的图像的一个或多个视频。

综上所述，在本申请实施例中，预先获取从动物媒体资源中提取出来的目标动物的多帧动作图像，这样，在主播唱歌的过程中，伴随着主播唱歌的音频数据，获取对应的动作图像，进而生成包含有目标动物的不同动作形态的直播视频数据。也即，在本申请实施例中，在主播唱歌时，直播视频不仅仅是主播在跟随伴奏唱歌，还会包含有对应主播唱歌的不同动作形态的动物图像，这样，直播视频的内容更为丰富，增强了趣味性，能够更好的吸引观众，从而增加观看量。

需要说明的是，上述实施例提供的直播视频数据生成装置在生成直播视频数据时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的直播视频数据生成装置与直播视频数据生成方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图5是根据一示例性实施例示出的一种用于生成直播视频数据的终端500的结构框图。上述实施例中的主播终端即可通过该终端500来实现。其中，该终端500可以是智能手机、平板电脑、笔记本电脑、台式电脑等。

通常，终端500包括有：处理器501和存储器502。

处理器501可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器501可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器501也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器501可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器501还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器502可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器502还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器502中的非暂态的计算机可读存储介质用于存储至少一个指令，其中，该至少一个指令用于被处理器501所执行以实现本申请中方法实施例提供的直播视频数据生成方法。

在一些实施例中，终端500还可选包括有：外围设备接口503和至少一个外围设备。处理器501、存储器502和外围设备接口503之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口503相连。具体地，外围设备包括：射频电路504、显示屏505、摄像头组件506、音频电路507、定位组件508和电源509中的至少一种。

外围设备接口503可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器501和存储器502。在一些实施例中，处理器501、存储器502和外围设备接口503被集成在同一芯片或电路板上；在一些其他实施例中，处理器501、存储器502和外围设备接口503中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路504用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路504通过电磁信号与通信网络以及其他通信设备进行通信。射频电路504将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路504包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路504可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路504还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏505用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏505是触摸显示屏时，显示屏505还具有采集在显示屏505的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器501进行处理。此时，显示屏505还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏505可以为一个，设置终端500的前面板；在另一些实施例中，显示屏505可以为至少两个，分别设置在终端500的不同表面或呈折叠设计；在再一些实施例中，显示屏505可以是柔性显示屏，设置在终端500的弯曲表面上或折叠面上。甚至，显示屏505还可以设置成非矩形的不规则图形，也即异形屏。显示屏505可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。需要说明的是，在本申请实施例中，当该终端500为横屏终端时，该终端500的显示屏的宽高比大于1，例如，该终端500的显示屏的宽高比可以为16:9或4:3。当该终端500为竖屏终端时，则该终端500的显示屏的宽高比小于1，例如，该终端500的显示屏的宽高比可以为9:18或3:4等。

摄像头组件506用于采集图像或视频。可选地，摄像头组件506包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件506还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路507可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器501进行处理，或者输入至射频电路504以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端500的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器501或射频电路504的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路507还可以包括耳机插孔。

定位组件508用于定位终端500的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件508可以是基于GPS(Global PositioningSystem，全球定位系统)、北斗系统或伽利略系统的定位组件。

电源509用于为终端500中的各个组件进行供电。电源509可以是交流电、直流电、一次性电池或可充电电池。当电源509包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端500还包括有一个或多个传感器510。该一个或多个传感器510包括但不限于：加速度传感器511、陀螺仪传感器512、压力传感器513、指纹传感器514、光学传感器515以及接近传感器516。

加速度传感器511可以检测以终端500建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器511可以用于检测重力加速度在三个坐标轴上的分量。处理器501可以根据加速度传感器511采集的重力加速度信号，控制显示屏505以横向视图或纵向视图进行用户界面的显示。加速度传感器511还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器512可以检测终端500的机体方向及转动角度，陀螺仪传感器512可以与加速度传感器511协同采集用户对终端500的3D动作。处理器501根据陀螺仪传感器512采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器513可以设置在终端500的侧边框和/或显示屏505的下层。当压力传感器513设置在终端500的侧边框时，可以检测用户对终端500的握持信号，由处理器501根据压力传感器513采集的握持信号进行左右手识别或快捷操作。当压力传感器513设置在显示屏505的下层时，由处理器501根据用户对显示屏505的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器514用于采集用户的指纹，由处理器501根据指纹传感器514采集到的指纹识别用户的身份，或者，由指纹传感器514根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器501授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器514可以被设置终端500的正面、背面或侧面。当终端500上设置有物理按键或厂商Logo时，指纹传感器514可以与物理按键或厂商Logo集成在一起。

光学传感器515用于采集环境光强度。在一个实施例中，处理器501可以根据光学传感器515采集的环境光强度，控制显示屏505的显示亮度。具体地，当环境光强度较高时，调高显示屏505的显示亮度；当环境光强度较低时，调低显示屏505的显示亮度。在另一个实施例中，处理器501还可以根据光学传感器515采集的环境光强度，动态调整摄像头组件506的拍摄参数。

接近传感器516，也称距离传感器，通常设置在终端500的前面板。接近传感器516用于采集用户与终端500的正面之间的距离。在一个实施例中，当接近传感器516检测到用户与终端500的正面之间的距离逐渐变小时，由处理器501控制显示屏505从亮屏状态切换为息屏状态；当接近传感器516检测到用户与终端500的正面之间的距离逐渐变大时，由处理器501控制显示屏505从息屏状态切换为亮屏状态。

也即是，本申请实施例不仅提供了一种终端，包括处理器和用于存储处理器可执行指令的存储器，其中，处理器被配置为执行图2所示的直播视频数据生成方法，而且，本申请实施例还提供了一种计算机可读存储介质，该存储介质内存储有计算机程序，该计算机程序被处理器执行时可以实现图2所示的直播视频数据生成方法。

本申请实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述图2所示实施例提供的直播视频数据生成方法。

图6是根据一示例性实施例示出的一种的服务器结构示意图。上述实施例中的直播服务器的功能即可以通过图6中所示的服务器来实现。该服务器可以是后台服务器集群中的服务器。具体来讲：

服务器600包括中央处理单元(Central Processing Unit，CPU)601、包括随机存取存储器(Random Access Memory，RAM)602和只读存储器(Read-Only Memory，ROM)603的系统存储器604，以及连接系统存储器604和中央处理单元601的系统总线605。服务器600还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(Input/Output，I/O系统)606，和用于存储操作系统613、应用程序614和其他程序模块615的大容量存储设备607。

基本输入/输出系统606包括有用于显示信息的显示器608和用于用户输入信息的诸如鼠标、键盘之类的输入设备609。其中显示器608和输入设备609都通过连接到系统总线605的输入输出控制器610连接到中央处理单元601。基本输入/输出系统606还可以包括输入输出控制器610以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器610还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备607通过连接到系统总线605的大容量存储控制器(未示出)连接到中央处理单元601。大容量存储设备607及其相关联的计算机可读介质为服务器600提供非易失性存储。也就是说，大容量存储设备607可以包括诸如硬盘或者CD-ROM(CompactDisc Read-Only Memory，紧凑型光盘只读储存器)驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM(Erasable Programmable Read Only Memory，可擦除可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read Only Memory，带电可擦可编程只读存储器)、闪存或其他固态存储设备，CD-ROM、DVD(Digital Versatile Disc，数字通用光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器604和大容量存储设备607可以统称为存储器。

根据本申请的各种实施例，服务器600还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器600可以通过连接在系统总线605上的网络接口单元611连接到网络612，或者说，也可以使用网络接口单元611来连接到其他类型的网络或远程计算机系统(未示出)。

上述存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，被配置由CPU执行。所述一个或者一个以上程序包含用于进行本申请实施例提供的直播视频数据生成方法的指令。

本申请实施例还提供了一种计算机可读存储介质，当该存储介质中的指令由服务器的处理器执行时，使得服务器能够执行上述实施例提供的直播视频数据生成方法。例如，该计算机可读存储介质可以是ROM、RAM、CD-ROM、磁带、软盘和光数据存储设备等。值得注意的是，本申请实施例提到的计算机可读存储介质可以为非易失性存储介质，换句话说，可以是非瞬时性存储介质。

应当理解的是，实现上述实施例的全部或部分步骤可以通过软件、硬件、固件或者其任意结合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。所述计算机指令可以存储在上述计算机可读存储介质中。

也即是，在一些实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例提供的直播视频数据生成方法。

以上所述并不用以限制本申请实施例，凡在本申请实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请实施例的保护范围之内。

Claims

1.一种直播视频数据生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述从所述多帧动作图像中获取每个时刻采集的音频数据所对应的动作图像，包括：

3.根据权利要求2所述的方法，其特征在于，所述确定第一时刻采集的第一音频数据对应的主播音调，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据每个时刻采集的音频数据所对应的动作图像和每个时刻采集的主播视频数据，生成包含有所述目标动物的不同动作形态的直播视频数据，包括：

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1-5任一所述的方法，其特征在于，所述动作形态是指动物的肢体动作形态，或者，所述动作形态是指所述动物的唇部动作形态。

7.根据权利要求1-5任一所述的方法，其特征在于，所述动物媒体资源为包含有所述目标动物的图像的多张图片或者是包含有所述目标动物的图像的一个或多个视频。

8.一种直播视频数据生成装置，其特征在于，所述装置包括：

9.根据权利要求8所述的装置，其特征在于，所述第二获取模块主要用于：

10.根据权利要求9所述的装置，其特征在于，所述第二获取模块主要用于：

11.根据权利要求8所述的装置，其特征在于，所述生成模块主要用于：

12.根据权利要求11所述的装置，其特征在于，所述装置还包括：

13.根据权利要求8-12任一所述的装置，其特征在于，所述动作形态是指动物的肢体动作形态，或者，所述动作形态是指所述动物的唇部动作形态。

14.根据权利要求8-12任一所述的装置，其特征在于，所述动物媒体资源为包含有所述目标动物的图像的多张图片或者是包含有所述目标动物的图像的一个或多个视频。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被计算机执行时实现权利要求1-7任一所述直播视频数据生成方法。