CN108200446B

CN108200446B - 虚拟形象的线上多媒体互动系统及方法

Info

Publication number: CN108200446B
Application number: CN201810031218.1A
Authority: CN
Inventors: 刘岩; 刘勇
Original assignee: Beijing Mizhi Technology Co ltd
Current assignee: Beijing Mizhi Technology Co ltd
Priority date: 2018-01-12
Filing date: 2018-01-12
Publication date: 2021-04-30
Anticipated expiration: 2038-01-12
Also published as: CN108200446A

Abstract

本申请实施例提供了一种虚拟形象的线上多媒体互动系统及方法，包括通过虚拟形象导入模块导入虚拟形象的虚拟模型；通过数据提取模块以实时提取实际形象的实际视频数据与实际音频数据，并利用数据驱动模块将所述实际视频数据与实际音频数据映射至所述虚拟模型，生成所述虚拟形象的虚拟影音动画，而后在通过虚拟形象输出模块将所述虚拟影音动画实时地输出至流媒体服务器所提供的线上互动服务平台，而以虚拟形象接入所述线上互动服务平台进行多媒体互动直播，借此提高多媒体互动直播的趣味性。

Description

虚拟形象的线上多媒体互动系统及方法

技术领域

本申请实施例涉及虚拟动画制作技术及多媒体直播技术，尤其涉及虚拟形象的线上多媒体互动系统及方法。

背景技术

网络直播技术是一种服务端将主播用户的直播视频数据广播至多个观众用户进行观看的互联网技术，同时还可提供观众用户与主播用户进行互动。

然而，在现有技术中，网络直播通常是以主播的实际形象予以展示，若能通过技术手段将虚拟形象接入互联网线上互动平台，而以虚拟形象代替实际形象参与到线上直播互动中，将可极大地提高网络直播的趣味性。

发明内容

有鉴于此，本发明实施例的主要目的在于提供一种虚拟形象的线上多媒体互动系统及方法，可实现以虚拟行形象代替实际形象接入互联网线上互动平台进行线上的互动直播，以增加线上互动直播的趣味性。

本申请实施例提供了一种虚拟形象的线上多媒体互动系统，其特征在于，包括：虚拟形象导入模块，用于导入虚拟形象的虚拟模型；数据提取模块，用于实时提取实际形象的实际视频数据与实际音频数据；数据驱动模块，用于将所述实际视频数据与所述实际音频数据实时映射至所述虚拟模型，生成所述虚拟形象的虚拟影音动画；以及虚拟形象输出模块，用于将所述虚拟影音动画实时地输出至流媒体服务器所提供的线上互动服务平台，而以所述虚拟形象接入所述线上互动服务平台进行多媒体互动直播。

可选地，在本申请的任一实施例中，所述数据提取模块还包括：视频提取单元，其用于根据预设的实时图像提取速率提取所述实际形象的所述实际视频数据；以及音频提取单元，其用于提取所述实际形象的所述实际音频数据。

可选地，在本申请的任一实施例中，所述实时图像提取速率是根据网络带宽、计算机的处理性能以及网络传输协议而设定。

可选地，在本申请的任一实施例中，所述虚拟形象的虚拟影音动画由所述虚拟形象的虚拟影像数据及虚拟声音数据所构成，且所述数据驱动模块还包括：

可选地，在本申请的任一实施例中，视频数据处理单元，其用于从所述实际视频数据分解出动作数据以生成动作驱动数据据以驱动所述虚拟模型执行动作，从而生成所述虚拟形象的所述虚拟影像数据；以及音频数据处理单元，其用于针对所述实时音频数据分别进行至少包括音频降噪、音频静音检测、以及音频回声消除的处理，从而生成所述虚拟形象的所述虚拟声音数据。

可选地，在本申请的任一实施例中，所述虚拟形象输出模块还包括：影像数据编码单元，其用于针对所述虚拟影像数据进行编码压缩处理，以生成视频压缩数据；声音数据编码单元，其用于针对所述虚拟声音数据进行编码压缩处理，以生成音频压缩数据；数据封装单元，其用于依据所述流媒体服务器所设定的消息传输协议对所述视频压缩数据与所述音频压缩数据进行封装，以生成数据封包；以及数据传输单元，其用于基于所述消息传输协议将所述数据封包传输至所述流媒体服务器所提供的线上互动服务平台。

可选地，在本申请的任一实施例中，所述音频数据处理单元所执行的所述音频静音检测操作包括检测所述实时音频数据中具有静音标记的静音音频数据，以令所述声音数据编码单元针对所述静音音频数据不执行所述编码压缩处理。

可选地，在本申请的任一实施例中，所述系统还包括信息互动处理模块，其用于提取所述线上互动服务平台中的文字信息，并针对所提取的所述文字信息提供输入反馈信息，且将所述反馈信息输出至所述线上互动服务平台，以提供线上的文字信息互动操作。

可选地，在本申请的任一实施例中，所述信息互动处理模块采用网页信息爬取方式以及网络抓包方式中的至少一者提取所述线上互动服务平台中的所述文字信息。

可选地，在本申请的任一实施例中，所述系统应用于电子设备中，且所述电子设备中还安装有与所述线上互动服务平台通讯连接的多媒体直播软件，所述虚拟形象输出模块用于将所述虚拟影音动画接入所述多媒体直播软件，以供所述多媒体直播软件将所述虚拟影音动画实时地输出至所述线上互动服务平台，而以所述虚拟形象接入所述线上互动服务平台进行多媒体互动直播。

本申请的另一实施例提供一种虚拟形象的线上多媒体互动方法，其特征在于，包括：导入虚拟形象的虚拟模型；实时提取实际形象的实际视频数据与实际音频数据；将所述实际视频数据与所述实际音频数据实时映射至所述虚拟模型，生成所述虚拟形象的虚拟影音动画；以及将所述虚拟影音动画实时地输出至流媒体服务器所提供的线上互动服务平台，而以所述虚拟形象接入所述线上互动服务平台进行多媒体互动直播。

可选地，在本申请的任一实施例中，所述方法还包括根据预设的实时图像提取速率提取所述实际形象的所述实际视频数据。

可选地，在本申请的任一实施例中，所述方法还包括根据网络带宽、计算机的处理性能以及网络传输协议设定所述实时图像提取速率。

可选地，在本申请的任一实施例中，所述虚拟形象的虚拟影音动画由所述虚拟形象的虚拟影像数据及虚拟声音数据所构成，所述方法还包括：从所述实际视频数据分解出动作数据，以生成动作驱动数据并据以驱动所述虚拟模型执行动作，从而生成所述虚拟形象的所述虚拟影像数据；以及针对所述实时音频数据分别进行至少包括音频降噪、音频静音检测、以及音频回声消除的处理，从而生成所述虚拟形象的所述虚拟声音数据。

可选地，在本申请的任一实施例中，所述方法还包括：针对所述虚拟影像数据进行编码压缩处理，以生成视频压缩数据；针对所述虚拟声音数据进行编码压缩处理，以生成音频压缩数据；依据所述流媒体服务器所设定的消息传输协议对所述视频压缩数据与所述音频压缩数据进行封装，以生成数据封包；以及基于所述消息传输协议将所述数据封包传输至所述流媒体服务器所提供的线上互动服务平台。

可选地，在本申请的任一实施例中，所述音频静音检测操作包括检测所述实时音频数据中具有静音标记的静音音频数据，且针对所述静音音频数据不执行所述编码压缩处理。

可选地，在本申请的任一实施例中，所述方法还包括提取所述线上互动服务平台中的文字信息，并针对所提取的所述文字信息提供输入反馈信息，且将所述反馈信息输出至所述线上互动服务平台，以提供线上的文字信息互动操作。

可选地，在本申请的任一实施例中，所述方法应用于安装有多媒体直播软件的电子设备中，且所述方法还包括将所述虚拟影音动画接入所述多媒体直播软件，以供所述多媒体直播软件将所述虚拟影音动画实时地输出至所述线上互动服务平台，而以所述虚拟形象接入所述线上互动服务平台进行多媒体互动直播。

本申请实施例所提供的虚拟形象的线上多媒体互动系统及方法，通过导入虚拟形象的虚拟模型，并将实时提取的实际形象的实际视频数据与实际音频数据映射至所述虚拟模型中，以实时生成所述虚拟形象的虚拟影音动画，并通过将所述虚拟影像动画传输至线上互动服务平台，从而实现以虚拟形象代替实际形象而接入线上互动服务平台进行多媒体互动直播，借以提供虚拟形象与直播互动对象可互相感知的声音、影像以及文字内容，从而提升多媒体互动直播的趣味性。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本申请实施例的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解，这些附图未必是按比例绘制的。附图中：

图1是根据本申请一实施例所示的虚拟形象的线上多媒体互动系统的基本架构示意图；

图2为显示图1所示的虚拟形象的线上多媒体互动系统的实施例架构示意图；

图3为根据本申请的另一实施例所示的虚拟形象的线上多媒体互动方法的基本流程示意图；以及

图4为显示图3所示的虚拟形象的线上多媒体互动方法的实施例流程示意图。

具体实施方式

实施本发明实施例的任一技术方案必不一定需要同时达到以上的所有优点。

为了使本领域的人员更好地理解本发明实施例中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明实施例一部分实施例，而不是全部的实施例。基于本发明实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本发明实施例保护的范围。

下面结合本发明实施例附图进一步说明本发明实施例具体实现。

图1是根据本申请一实施例所示的虚拟形象的线上多媒体互动系统的基本架构示意图。如图所示，本申请的虚拟形象的线上多媒体互动系统1主要包括虚拟形象导入模块11、数据提取模块12、数据驱动模块13、以及虚拟形象输出模块14。

虚拟形象导入模块11用于导入虚拟形象的虚拟模型。于本实施例中，所述虚拟形象可例如为虚拟人物形象、虚拟动物形象等。且所述虚拟形象的虚拟模型可例如包括虚拟形象的面部模型及骨骼模型等，其中，面部模型可反应虚拟形象实时的面部表情，骨骼模型可反应虚拟形象实时执行的动作。

数据提取模块12用于实时提取实际形象的实际视频数据与实际音频数据。于本实施例中，实际形象可例如为实际的人物或动物。

请配合参阅图2，于具体的实施例中，数据提取模块12还包括有视频提取单元121以及音频提取单元122。

视频提取单元121用于根据预设的实时图像提取速率，提取实际形象的实际视频数据，也就是用于捕捉实际形象的动作轨迹以生成动作数据。于本实施例中，视频提取单元121可连接视频采集设备(未予图示)，以接收并提取视频采集设备所采集的实际形象的影像数据，其中，视频采集设备例如为摄影机、录像机或红外传感器、或者电脑摄像头等，但并不以上述列举的为限，其他类型的视频采集设备亦可适用于本申请。再者，所述的实时图像提取速率是根据实际网络带宽、计算机的处理性能以及网络传输协议而设定。通常三维引擎可提供60/s或者30/s等不同的渲染速率，本申请可根据实际网络带宽、计算机处理性能以及目标传输协议等客观因素来确定所需的图像速率，借此，使得三维引擎后续可以将虚拟模型的图像渲染到一个固定的目标纹理，并以固定的时间间隔(例如1000ms/25＝40ms对应25fps)来读取这个目标纹理，从而确保虚拟模型的影像画面的实时性及流畅性。

音频提取单元122用于提取实际形象的实际音频数据，于本实施例中，音频提取单元122可通过连接至音频采集设备(未予图示)，以提取音频采集设备所采集的声音数据，其中，音频采集设备可例如为独立的麦克风，亦可为整合安装于电子设备(例如电脑、摄像机)上的麦克风，但并不以上述列举的为限，其他类型的录音设备亦可适用于本申请。此外，音频提取单元122除用于提取实际形象所发出的声音之外，也可用于提取实际形象所处环境的环境声音。

此外，视频提取单元121与音频提取单元122为彼此独立运作，因此，两者是以同步方式执行各自的数据提取工作。

数据驱动模块13用于将所提取的实际视频数据与实际音频数据实时映射至虚拟模型，生成所述虚拟形象的虚拟影音动画。于本申请的实施例中，所生成的虚拟形象的虚拟影音动画是由虚拟形象的虚拟影像数据以及虚拟声音数据所构成。

数据驱动模块13与数据提取模块12类似，也是针对虚拟形象的视频部分与音频部分分别进行独立处理，且两者亦可为同步处理模式，具体而言，请配合参阅图2，于本实施例中，数据驱动模块13还包括有视频数据处理单元131、以及音频数据处理单元132。

视频数据处理单元131用于从视频提取单元121所提取的实际视频数据中分解出实际形象的动作数据以生成动作驱动数据，并通过三维引擎以利用所述动作驱动数据驱动虚拟模型执行相应的动作，从而生成虚拟形象的虚拟影像数据。

于一实施例中，视频数据处理单元131还包括从实际视频数据中分解出静态图像以及动态图像，并将所分解出的静态图像叠加到三维引擎渲染的虚拟图像上。其中，静态图像中包含有例如字幕图片、静态特效图片等图像信息，此外，所分解出的动态图像亦叠加到三维引擎所渲染的虚拟图像上，从而形成虚拟影像画面。

此外，视频数据处理单元131还具有视频实时滤镜的功能，也就是可针对三维引擎渲染后所生成的图像的效果进行调整处理，例如，通过着色器语言来实现明暗度的调整处理。

音频数据处理单元132则用于针对音频提取单元122所提取的实时音频数据进行相关处理操作，包括音频降噪、音频静音检测、以及音频回声消除的处理，从而生成虚拟形象的虚拟声音数据。于本实施例中，音频数据处理单元132分别利用由第三方开源SDK所提供的音频降噪功能、音频静音检测功能以及回声消除功能，针对原始的实时音频数据进行降噪、静音监测以及回声消除处理。

虚拟形象输出模块14用于将数据驱动模块13所生成的虚拟形象的虚拟影音动画实时地输出至流媒体服务器2所提供的线上互动服务平台20，从而以虚拟形象代替传统的实际形象接入线上互动服务平台20中进行多媒体互动直播。于本实施例中，线上互动服务平台20包含但不限于传统的图像视频直播、实时视频通话、实时视频会议等。

于一实施例中，本申请的系统1应用于一电子设备中，例如电脑，智能手机等。且于电子设备中还预先安装有可与线上互动服务平台进行连接通讯的多媒体直播软件，虚拟形象输出模块14用于将所生成的虚拟形象的虚拟影音动画接入到多媒体直播软件中，以供多媒体直播软件将虚拟影音动画实时地输出至线上互动服务平台20，而以虚拟形象于线上互动服务平台20中进行多媒体互动直播。

一般而言，安装于电子设备中的多媒体直播软件会接收由电脑摄像头所拍摄到的实际形象的影像，以将其作为实际形象的影像数据上传至线上直播平台进行直播，而本申请的虚拟形象输出模块14可用于模拟电脑摄像头，而与安装于电脑中的多媒体直播软件直接对接，以将虚拟形象的虚拟影音动画代替实际形象的影像画面接入线上互动服务平台20中与通讯对方进行视频互动。

请配合参阅图2，于具体的实施例中，虚拟形象输出模块14还包括有影像数据编码单元141、声音数据编码单元142、数据封装单元143以及数据传输单元144。

影像数据编码单元141用于针对虚拟影像数据进行编码压缩处理，以生成视频压缩数据。于本实施例中，影像数据编码单元141可依据实际虚拟影像数据的支持格式，而采用第三方开源SDK选择以硬件压缩编码方式或软件压缩编码方式，对虚拟影像数据进行编码压缩处理。

声音数据编码单元142用于针对所述虚拟声音数据进行编码压缩处理，以生成音频压缩数据。此外，于本实施例中，针对音频数据处理单元132从实时音频数据中所检测出的静音音频数据的部分，声音数据编码单元142不执行所述的音频编码压缩处理，以降低系统资源消耗。

数据封装单元143用于依据流媒体服务器2所设定的消息传输协议，针对视频压缩数据与音频压缩数据进行封装处理，以生成数据封包。

数据传输单元144则用于基于流媒体服务器2所设定的消息传输协议，而将数据封包通过互联网系统传输至流媒体服务器2所提供的线上互动服务平台20，而实现以虚拟形象进行线上直播互动。

请继续参阅图2，于本申请的另一实施例中，线上多媒体互动系统1还包括有信息互动处理模块15，其用于提取线上互动服务平台20中的文字信息，并针对所提取的文字信息提供输入反馈信息，且将反馈信息输出至线上互动服务平台20，以提供线上的文字信息互动操作。也就是说，信息互动处理模块15可提取观众在线上互动服务平台20所输入的留言信息，以供位于电脑前的实际操作者输入相关的反馈信息，并将反馈信息上传至线上互动服务平台20，借此以实现虚拟形象与实际观众之间的文字互动交流。于具体的实施例中，信息互动处理模块15可采用网页信息爬取方式或网络抓包方式等从线上互动服务平台20中提取观众的留言信息。

图3为根据本申请的另一实施例所示的虚拟形象的线上多媒体互动方法的基本流程示意图。如图所示，本申请的虚拟形象的线上多媒体互动方法主要包括以下处理步骤：

步骤S31，导入虚拟形象的虚拟模型。

于本实施例中，所述虚拟形象可例如为虚拟人物形象、虚拟动物形象等。

所述虚拟形象的虚拟模型可包括虚拟形象的面部模型及骨骼模型，其中，面部模型用于反应虚拟形象实时的面部表情，骨骼模型则用于反应虚拟形象实时执行的动作。

步骤S32，实时提取实际形象的实际视频数据与实际音频数据。

于本实施例中，实际形象可例如为实际的人物或动物，并可根据实际的网络带宽、计算机的处理性能以及网络传输协议而设定实时图像提取速率，并根据所述实时图像提取速率来提取实际形象的所述实际视频数据。通常三维引擎可提供60/s或者30/s等不同的渲染速率，由此，本申请根据实际网络带宽、计算机处理性能以及目标传输协议等因素来确定所需的图像速率，以使得三维引擎可以将虚拟模型的图像渲染到一个固定的目标纹理，以供后续以固定的时间间隔(例如1000ms/25＝40ms对应25fps)来读取这个目标纹理，从而确保虚拟模型的渲染图像的实时性及流畅性。

步骤S33，将实际视频数据与实际音频数据实时映射至虚拟模型，生成虚拟形象的虚拟影音动画。

于本实施例中，虚拟形象的虚拟影音动画由虚拟形象的虚拟影像数据及虚拟声音数据所构成，本申请通过从实际视频数据分解出动作数据以生成动作驱动数据，并据以驱动虚拟模型执行动作，从而生成虚拟形象的虚拟影像数据。具体而言，本申请可从实际视频数据中分解出静态图像以及动态图像，并将所分解出的静态图像叠加到三维引擎渲染的虚拟图像上。其中，静态图像中包含有例如字幕图片、静态特效图片等图像信息，而所分解出的动态图像亦叠加到三维引擎所渲染的虚拟图像上，从而形成虚拟形象的虚拟影像画面。此外，本申请还可针对三维引擎渲染后所生成的图像的效果进行调整处理，例如，通过着色器语言来实现明暗度的调整处理，以提供视频实时滤镜的功能。

同时，本申请还针对实时音频数据分别进行至少包括音频降噪、音频静音检测、以及音频回声消除的处理，从而生成虚拟形象的虚拟声音数据。于本申请的实施例中，上述音频降噪、音频静音检测、以及音频回声消除可以通过第三方开源SDK所提供的相关功能来完成。

步骤S34，将虚拟影音动画实时地输出至流媒体服务器所提供的线上互动服务平台，而以虚拟形象接入线上互动服务平台进行多媒体互动直播。

于具体的实施例中，本方法可应用于安装有多媒体直播软件的电子设备中，其通过将虚拟影音动画接入多媒体直播软件中，以供多媒体直播软件将虚拟影音动画实时地输出至线上互动服务平台，从而以虚拟形象代替传统的实际形象以接入线上互动服务平台中进行多媒体互动直播。

请继续参阅图4，于本申请的另一实施例中，步骤S34具体包括以下处理步骤：

步骤S341，针对所述虚拟影像数据进行编码压缩处理，以生成视频压缩数据，以及针对所述虚拟声音数据进行编码压缩处理，以生成音频压缩数据。

于本实施例中，可依据实际虚拟影像数据的支持格式，而采用第三方开源SDK选择以硬件压缩编码方式或软件压缩编码方式，对虚拟影像数据进行编码压缩处理。

此外，需说明的是，针对前述从实时音频数据中所检测出的静音音频数据，于此音频压缩处理过程中，将不执行所述音频编码压缩处理，以降低系统资源消耗。

步骤S342，依据流媒体服务器所设定的消息传输协议对视频压缩数据与所述音频压缩数据进行封装，以生成数据封包。

步骤S343，基于流媒体服务器所设定的消息传输协议将所生成的数据封包传输至流媒体服务器所提供的线上互动服务平台，而以虚拟形象在线上互动服务平台中进行线上直播互动。

此外，于本申请的另一实施例中，所述方法还可包括在直播互动过程中，实时提取线上互动服务平台中的文字信息，并针对所提取的所述文字信息提供输入反馈信息，且将反馈信息输出至线上互动服务平台，以提供虚拟形象与实际观众之间的文字互动交流。于具体的实施例中，可采用网页信息爬取方式或网络抓包方式等从线上互动服务平台中提取观众的留言信息。

本申请实施例所提供的虚拟形象的线上多媒体互动系统及方法，通过将实时提取的实际形象的实际视频数据与实际音频数据映射至所述虚拟模型中，以生成与实际形象同步的虚拟形象的虚拟影音动画，再将所述虚拟影像动画传输至线上互动服务平台，以利用虚拟形象代替实际形象接入线上互动服务平台而进行多媒体互动直播，从而以提升多媒体互动直播的趣味性。

再者，本申请依据实际的网络带宽、计算机的处理性能以及网络传输协议而计算实时图像提取速率，据以提取实时视频数据，并基于线上互动服务平台的实时消息传输协议，而针对虚拟影音动画数据进行封装及传输处理，以确保互动直播的流畅性及实时性。

此外，本申请还可提取观众在线上互动服务平台所输入的文字信息，并针对所提取的所述文字信息提供输入反馈信息，且将所述反馈信息输出至线上互动服务平台，从而虚拟形象与实际观众之间的文字互动交流。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，所述计算机可读记录介质包括用于以计算机(例如计算机)可读的形式存储或传送信息的任何机制。例如，机器可读介质包括只读存储器(ROM)、随机存取存储器(RAM)、磁盘存储介质、光存储介质、闪速存储介质、电、光、声或其他形式的传播信号(例如，载波、红外信号、数字信号等)等，该计算机软件产品包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请实施例的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

本领域的技术人员应明白，本发明实施例的实施例可提供为方法、装置(设备)、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

Claims

1.一种虚拟形象的线上多媒体互动系统，其特征在于，包括：

虚拟形象导入模块，用于导入虚拟形象的虚拟模型；

数据提取模块，用于实时提取实际形象的实际视频数据与实际音频数据；

数据驱动模块，用于将所述实际视频数据与所述实际音频数据实时映射至所述虚拟模型，生成所述虚拟形象的虚拟影音动画；以及

虚拟形象输出模块，用于将所述虚拟影音动画实时地输出至流媒体服务器所提供的线上互动服务平台，而以所述虚拟形象接入所述线上互动服务平台进行多媒体互动直播；

数据驱动模块包括视频数据处理单元，所述视频数据处理单元用于从所述实际视频数据中分解出静态图像以及动态图像，将所分解出的所述静态图像与所述动态图像叠加到三维引擎渲染的虚拟图像上，形成虚拟影音画面，所述静态图像中包含有字幕图片、静态特效图片。

2.根据权利要求1所述的虚拟形象的线上多媒体互动系统，其特征在于，所述数据提取模块还包括：

视频提取单元，其用于根据预设的实时图像提取速率提取所述实际形象的所述实际视频数据；以及

音频提取单元，其用于提取所述实际形象的所述实际音频数据。

3.根据权利要求2所述的虚拟形象的线上多媒体互动系统，其特征在于，所述实时图像提取速率是根据网络带宽、计算机的处理性能以及网络传输协议而设定。

4.根据权利要求2所述的虚拟形象的线上多媒体互动系统，其特征在于，所述虚拟形象的虚拟影音动画由所述虚拟形象的虚拟影像数据及虚拟声音数据所构成，且所述数据驱动模块还包括：

视频数据处理单元，其用于从所述实际视频数据分解出动作数据以生成动作驱动数据据以驱动所述虚拟模型执行动作，从而生成所述虚拟形象的所述虚拟影像数据；以及

音频数据处理单元，其用于针对所述实际音频数据分别进行至少包括音频降噪、音频静音检测、以及音频回声消除的处理，从而生成所述虚拟形象的所述虚拟声音数据。

5.根据权利要求4所述的虚拟形象的线上多媒体互动系统，其特征在于，所述虚拟形象输出模块还包括：

影像数据编码单元，其用于针对所述虚拟影像数据进行编码压缩处理，以生成视频压缩数据；

声音数据编码单元，其用于针对所述虚拟声音数据进行编码压缩处理，以生成音频压缩数据；

数据封装单元，其用于依据所述流媒体服务器所设定的消息传输协议对所述视频压缩数据与所述音频压缩数据进行封装，以生成数据封包；以及

数据传输单元，其用于基于所述消息传输协议将所述数据封包传输至所述流媒体服务器所提供的线上互动服务平台。

6.根据权利要求5所述的虚拟形象的线上多媒体互动系统，其特征在于，所述音频数据处理单元所执行的所述音频静音检测操作包括检测所述实际音频数据中具有静音标记的静音音频数据，以令所述声音数据编码单元针对所述静音音频数据不执行所述编码压缩处理。

7.根据权利要求1所述的虚拟形象的线上多媒体互动系统，其特征在于，所述系统还包括信息互动处理模块，其用于提取所述线上互动服务平台中的文字信息，并针对所提取的所述文字信息提供输入反馈信息，且将所述反馈信息输出至所述线上互动服务平台，以提供线上的文字信息互动操作。

8.根据权利要求7所述的虚拟形象的线上多媒体互动系统，其特征在于，所述信息互动处理模块采用网页信息爬取方式以及网络抓包方式中的至少一者提取所述线上互动服务平台中的所述文字信息。

9.根据权利要求1所述的虚拟形象的线上多媒体互动系统，其特征在于，所述系统应用于电子设备中，且所述电子设备中还安装有与所述线上互动服务平台通讯连接的多媒体直播软件，所述虚拟形象输出模块用于将所述虚拟影音动画接入所述多媒体直播软件，以供所述多媒体直播软件将所述虚拟影音动画实时地输出至所述线上互动服务平台，而以所述虚拟形象接入所述线上互动服务平台进行多媒体互动直播。

10.一种虚拟形象的线上多媒体互动方法，其特征在于，包括：

导入虚拟形象的虚拟模型；

实时提取实际形象的实际视频数据与实际音频数据；

将所述实际视频数据与所述实际音频数据实时映射至所述虚拟模型，生成所述虚拟形象的虚拟影音动画；以及

将所述虚拟影音动画实时地输出至流媒体服务器所提供的线上互动服务平台，而以所述虚拟形象接入所述线上互动服务平台进行多媒体互动直播；

所述将所述实际视频数据与所述实际音频数据实时映射至所述虚拟模型，生成所述虚拟形象的虚拟影音动画，包括：

从所述实际视频数据中分解出静态图像以及动态图像，并将所分解出的所述静态图像与所述动态图像叠加到三维引擎渲染的虚拟图像上，形成虚拟形象的虚拟影像画面，其中，所述静态图像中包含有字幕图片、静态特效图片。

11.根据权利要求10所述的虚拟形象的线上多媒体互动方法，其特征在于，所述方法还包括：

根据预设的实时图像提取速率提取所述实际形象的所述实际视频数据。

12.根据权利要求11所述的虚拟形象的线上多媒体互动方法，其特征在于，所述方法还包括根据网络带宽、计算机的处理性能以及网络传输协议设定所述实时图像提取速率。

13.根据权利要求11所述的虚拟形象的线上多媒体互动方法，其特征在于，所述虚拟形象的虚拟影音动画由所述虚拟形象的虚拟影像数据及虚拟声音数据所构成，所述方法还包括：

从所述实际视频数据分解出动作数据，以生成动作驱动数据并据以驱动所述虚拟模型执行动作，从而生成所述虚拟形象的所述虚拟影像数据；以及

针对所述实际音频数据分别进行至少包括音频降噪、音频静音检测、以及音频回声消除的处理，从而生成所述虚拟形象的所述虚拟声音数据。

14.根据权利要求13所述的虚拟形象的线上多媒体互动方法，其特征在于，所述方法还包括：

针对所述虚拟影像数据进行编码压缩处理，以生成视频压缩数据；

针对所述虚拟声音数据进行编码压缩处理，以生成音频压缩数据；

依据所述流媒体服务器所设定的消息传输协议对所述视频压缩数据与所述音频压缩数据进行封装，以生成数据封包；以及

基于所述消息传输协议将所述数据封包传输至所述流媒体服务器所提供的线上互动服务平台。

15.根据权利要求14所述的虚拟形象的线上多媒体互动方法，其特征在于，所述音频静音检测操作包括检测所述实际音频数据中具有静音标记的静音音频数据，且针对所述静音音频数据不执行所述编码压缩处理。

16.根据权利要求10所述的虚拟形象的线上多媒体互动方法，其特征在于，所述方法还包括提取所述线上互动服务平台中的文字信息，并针对所提取的所述文字信息提供输入反馈信息，且将所述反馈信息输出至所述线上互动服务平台，以提供线上的文字信息互动操作。

17.根据权利要求10所述的虚拟形象的线上多媒体互动方法，其特征在于，所述方法应用于安装有多媒体直播软件的电子设备中，且所述方法还包括将所述虚拟影音动画接入所述多媒体直播软件，以供所述多媒体直播软件将所述虚拟影音动画实时地输出至所述线上互动服务平台，而以所述虚拟形象接入所述线上互动服务平台进行多媒体互动直播。