CN114339352A

CN114339352A - 立体声视频录制方法、装置、存储介质及电子设备

Info

Publication number: CN114339352A
Application number: CN202111674893.4A
Authority: CN
Inventors: 王东
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2022-04-12

Abstract

本申请实施例公开了一种立体声视频录制方法、装置、存储介质及电子设备，其中，方法包括：获取立体声视频对应的音频录制状态，若所述音频录制状态为音频缺失状态，则对所述立体声视频进行音画同步处理。采用本申请实施例，可以确保立体声视频的音画同步效果。

Description

立体声视频录制方法、装置、存储介质及电子设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种立体声视频录制方法、装置、存储介质及电子设备。

背景技术

随着计算机技术的发展，人们对视频的高质量视听需求不断增大。为了保障视频具有较好的视听效果，可以通过录制立体声视频来实现。立体声视频具有各声源的方位感和分布感，能够提高声音的清晰度、可懂度及临场感，因而备受人们青睐。

发明内容

本申请实施例提供了一种立体声视频录制方法、装置、存储介质及电子设备，所述技术方案如下：

第一方面，本申请实施例提供了一种立体声视频录制方法，所述方法包括：

获取立体声视频对应的音频录制状态；

若所述音频录制状态为音频缺失状态，则对所述立体声视频进行音画同步处理。

第二方面，本申请实施例提供了一种立体声视频录制装置，所述装置包括：

状态获取模块，用于获取立体声视频对应的音频录制状态；

音画同步模块，用于若所述音频录制状态为音频缺失状态，则对所述立体声视频进行音画同步处理。

第三方面，本申请实施例提供一种计算机存储介质，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行上述的方法步骤。

第四方面，本申请实施例提供一种电子设备，可包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行上述的方法步骤。

本申请一些实施例提供的技术方案带来的有益效果至少包括：

在本申请一个或多个实施例中，终端通过获取立体声视频录制过程中所对应的音频录制状态；若所述音频录制状态为音频缺失状态，则终端对所述立体声视频进行音画同步处理；可以在立体声视频音频出现缺失的情况下，确保立体声视频音画同步，避免音频缺失所造成的视频录制效果不佳，提升了立体声视频录制过程中录制容灾处理能力。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种立体声视频录制方法的流程示意图；

图2是本申请实施例提供的立体声视频录制方法涉及一种立体声视频录制的场景示意图；

图3是本申请实施例提供的立体声视频录制方法涉及一种音频录制缺失的场景示意图；

图4是本申请实施例提供的立体声视频录制方法涉及一种立体声视频编码的场景示意图；

图5是本申请实施例提供的另一种立体声视频录制方法的流程示意图；

图6是本申请实施例提供的立体声视频录制方法涉及的一种音画同步的场景示意图；

图7是本申请实施例提供的一种立体声视频录制装置的结构示意图；

图8是本申请实施例提供的一种状态获取模块模块的结构示意图；

图9是本申请实施例提供的一种状态确定单元的结构示意图；

图10是本申请实施例提供的一种电子设备的结构示意图；

图11是本申请实施例提供的操作系统和用户空间的结构示意图；

图12是图11中安卓操作系统的架构图；

图13是图11中IOS操作系统的架构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。在本申请的描述中，需要说明的是，除非另有明确的规定和限定，“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。此外，在本申请的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

下面结合具体的实施例对本申请进行详细说明。

在一个实施例中，如图1所示，特提出了一种立体声视频录制方法，该方法可依赖于计算机程序实现，可运行于基于冯诺依曼体系的立体声视频录制装置上。该计算机程序可集成在应用中，也可作为独立的工具类应用运行。所述立体声视频录制装置可以为终端设备，包括但不限于：个人电脑、平板电脑、手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备等。在不同的网络中终端设备可以叫做不同的名称，例如：用户设备、接入终端、用户单元、用户站、移动站、移动台、远方站、远程终端、移动设备、用户终端、终端、无线通信设备、用户代理或用户装置、蜂窝电话、无绳电话、5G网络或未来演进网络中的终端设备等。

具体的，该立体声视频录制方法包括：

S101：获取立体声视频对应的音频录制状态。

所述立体声视频可以理解为具有立体感声音的视频，可以理解的，立体声视频的录制通常需要至少基于两个声道进行视频对应的音频录制，也可以理解为多声道视频录制。

在一个或多个实施例中，立体声视频通常可以基于“双耳人头立体声录音技术”(Binaural Audio)，立体声视频是一种高度还原真实听感的录制技术。立体声视频的录制可以基于立体声录音方式进行立体声视频对应音频部分的录制，例如仿真人头录音，这种录音方式模拟人耳听音的整个过程，进而无失真地采集和还原立体声。典型仿真人头录音方案包括：首先制作出仿真人头，然后将两个全指向麦克风放在仿真人头的耳道内类似人耳鼓膜的位置。播放时仅用耳机就可以近似完美的还原录音场的空间感(360度)，听者有身临其境的感觉。目前，某些特殊立体声唱片视频的录制场合就使用了这种立体声录制技术。

可以理解的，仿真人头录音具有优异的立体声保真效果但存在一定的局限性，不利于人们日常生活涉及的便携式录制场景，如用户需要基于便携式的终端去录制立体声视频就难以适用。

在一个或多个实施例中，终端录制立体声视频，可以是基于与终端配合使用的耳机实现的，耳机可以是无线耳机也可以是有线耳机，例如以无线耳机为例，用户可以使用终端并佩戴无线耳机(如真无线TWS耳机)，基于无线耳机的至少两个声道的麦克风进行收音，通过利用依靠用户双耳间的时间差、音量差和音色差等判别录制视频的音频方位及直达声和反射声等体现并录制视频对应音频部分的空间感和层次感。利用人耳的特性，将人本身作为立体声视频的音频载体进行录音，从而实现基于用户双耳实现录制立体声视频的效果。

在一种具体的实施场景中，如图2所示，图2是一种立体声视频录制的场景示意图，用户可以在终端上开启具有立体声视频录制功能的目标应用(如相机应用等)进行立体声录制，在录制立体声视频的过程中为了实现视频的立体声效果，用户可以佩戴与终端配合使用的无线耳机，无线耳机与终端之间预先建立通信连接(如蓝牙通信连接、点对点通信连接等)，由终端的相机录制包含用户的视频图像流(由至少一图像帧组成)，与终端配合使用的无线耳机录制用户的视频音频流(由至少一音频帧组成)，该视频图像流与视频音频流就可以构成立体声视频，在立体声视频中，通常同一世界时间下实际对应的图像帧与音频帧具备一一对应关系，在立体声视频中至少每一帧图像帧与音频帧相对应时可实现立体声视频录制过程中的音画同步。

可以理解的，终端在录制立体声视频的过程中，可能会存在立体声视频对应录制的某一段音频缺失的情况，如终端正常录制立体声视频的图像流，而由于客观因素图像流中某一段图像帧对应的音频未录制，造成立体声视频中一段图像帧对应的音频缺失。

例如：在录制的过程中，终端的用户在开启立体声视频录制功能之后开始视频图像流的录制，用户可能会在视频图像流开始录制一段时间t后再佩戴无线耳机进行双耳录音，那么此时“这一段时间t”的音频是缺失的，在对视频图像流和视频音频流进行编码时，这一段时间t是没有音频数据，t时刻后录制的音频数据在编码过程中会前移与视频图像流对齐，这样就由于存在“一段时间t”的音频缺失就会导致最后编码得到立体声视频音画不同步。

又例如，在用户基于无线耳机进行双耳立体声录制过程中未使用无线耳机(如摘下无线耳机、关闭无线耳机、将无线耳机放入收纳盒中)，无线耳机或终端感测到用户未佩戴就会停止使用无线耳机的音频录制系统(如音频录制组件)而切换到终端的音频录制系统继续进行音频录制，如图3所示，图3是一种音频录制缺失的场景示意图，在图3中，终端开启立体声录制功能之后，同步录制视频图像流以及视频音频流，如图3所示，当用户在图3所示的“00:04.00”时刻未使用无线耳机(如摘下无线耳机)，终端感测到用户未佩戴从无线耳机的音频录制系统(如音频录制组件)而切换到终端的音频录制系统(如加载终端的硬件抽象层hal进行音频录制)在图3所示的“00:04.30”继续进行音频录制，整个切换过程存在一定的切换时间差(如图3所示的时间差为300ms)，在终端立体声视频录制过程中，录音线程是同步调用音频读取函数录制每一帧音频信号的，而“从无线耳机的音频录制系统(如音频录制组件)而切换到终端的音频录制系统”会由于切换导致录音线程阻塞，阻塞这段时间(如切换时间差300ms)没有音频数据，但是视频图像录制线程录制的图像流数据仍在进行，立体声视频编码过程会将之后切换到终端音频录制系统的音频数据前移，如图4所示，图4是本申请涉及的一种立体声视频编码的场景示意图，“00:04.30”切换到终端的音频录制系统继续进行音频数据录制，“00:04.30”之后录制的音频数据在编码时会前移至时间轴“00:04.00”与“00:04.00”对应的图像帧对齐进行编码，最终造成录出的立体声视频音画不同步，如存在前述300ms音画不同步现象。

可以理解的，电子设备可以在录制立体声视频的过程中，获取立体声视频对应的音频录制状态，所述音频录制状态至少包括音频缺失状态和音频正常状态。

所述音频缺失状态可以理解为上述在录制立体声录制过程中至少部分图像流对应的音频缺失的情况下立体声视频的录制状态。

所述音频正常状态与音频缺失状态相对应有，音频正常状态可以理解为上述在录制立体声录制过程中所有图像流不存在的音频缺失的情况下立体声视频的录制状态。

在一种可行的实施方式中，终端可以在立体声视频录制过程(录制开始直至录制结束的过程)中，监测用户佩戴与终端配合使用的耳机的状态，若用户在录制过程中未使用耳机则通常会存在音频缺失的情况，终端确定立体声视频对应的音频录制状态为音频缺失状态；若用户在录制过程中正常使用耳机则通常不会存在音频缺失的情况，终端确定立体声视频对应的音频录制状态为音频正常状态。进一步的，监测用户佩戴与终端配合使用的耳机的状态可以是通过耳机携带的用于检测用户是否佩戴的传感器实现的。

在一种可行的实施方式中，终端在立体声视频录制过程中，在录制立体声视频对应的至少一帧音频信号时，随之记录各帧音频信号的录制时间以生成录制时间戳，终端可以获取立体声视频对应各帧音频信号的录制时间戳，基于各所述音频信号的录制时间戳，确定针对所述立体声视频的音频录制状态。具体实施中，在获取各帧音频信号的录制时间戳之后，将每个录制时间戳与上一录制时间戳(录制时间戳对应的音频信号对应的上一帧音频信号)进行比较以确定录制间隔时间，可以理解为，将录制的连续两帧音频信号的录制时间戳对应的时间计算时间差值，将时间差值作为录制间隔时间，例如，获取第i帧音频信号以及第i-1帧音频信号对应的录制时间戳，计算连续两帧“第i帧音频信号对应的录制时间戳”与“第i-1帧音频信号”的时间差值，时间差值作为录制间隔时间，通常录制间隔时间作为第i帧音频信号的录制间隔时间。其中i为大于1的自然数。

可以理解的，然后可以判断该录制间隔时间是否与时间阈值相匹配，如录制间隔时间等于时间阈值，则认为两者匹配，匹配则确定立体声视频对应的音频录制状态为音频正常状态；当录制间隔时间大于时间阈值，则认为两者不匹配，此时通常存在音频缺失的情况，则确定立体声视频对应的音频录制状态为音频缺失状态。

可以理解的，立体声视频录制时通常会基于设置的信号采样率进行录制，时间阈值可以是基于信号采样率所确定，如获取信号采样率的倒数作为时间阈值。在录制每一帧音频信号i(i整数)时，即获取当前音频信号i对应的时间戳以及获取上一帧“音频信号i-1”的时间戳确定录制间隔时间，基于录制间隔时间确定立体声视频对应的音频录制状态。可以理解的立体声视频对应的音频录制状态是一个随录制时间的增长不断更新的过程。

可以理解的，时间阈值也可以是一个经验值，根据实际立体声视频录制的应用情况进行设定。

在一种可行的实施方式中，获取立体声视频对应的音频录制状态可以是基于当前录制立体声视频的音频录制系统来确定的。所述音频录制系统可以是相应设备中负责音频录制的硬件抽象层、音频录制组件等，通过监测在录制立体声视频的音频录制系统的变化，可以确定立体声视频的音频信号的录制状态。

在一个或多个实施例中，终端录制立体声视频，可以是基于与终端配合使用的诸如耳机等拾音设备实现的，拾音设备可以是无线耳机也可以是有线耳机，例如以无线耳机为例，用户可以使用终端并佩戴无线耳机(如真无线TWS耳机)，基于无线耳机的至少两个声道的麦克风进行收音，通过利用依靠用户双耳间的时间差、音量差和音色差等判别录制视频的音频方位及直达声和反射声等体现并录制视频对应音频部分的空间感和层次感。其中，拾音设备具有音频录制系统。

可以理解的，在录制立体声视频的过程中，通常默认拾音设备上的音频录制系统为默认音频录制系统；示意性的，如图3所示，当用户在图3所示的“00:04.00”时刻未使用无线耳机(如摘下无线耳机)，终端感测到用户未佩戴拾音设备(无线耳机)，此时，为了正常录制立体声视频，终端录制立体声视频会从拾音设备的音频录制系统(如音频录制组件)而切换到终端的音频录制系统，而通常拾音设备的音频录制系统作为默认音频录制系统。而从默认录制系统切换至终端上的音频录制系统，会存在系统切换时延，在系统切换时延内就会造成音频信号缺失。

可以理解的，终端可以获取针对所述立体声视频的默认音频录制系统，在一些实施例中，在终端与拾音设备配合使用的情况下，以拾音设备的音频录制系统作为立体声视频的默认音频录制系统。在一些实施例中，也可以是以终端的音频录制系统为默认音频录制系统，待用户佩戴上拾音设备，会从终端的音频录制系统切换到拾音设备的音频录制系统。

可以理解的，在录制过程中，终端可以实时或周期性检测所述立体声视频对应的目标音频录制系统，所述音频录制系统用于录制所述立体声视频对应的音频信号；以检测目标音频录制系统是否为默认音频录制系统，

可以理解的，若所述目标音频录制系统与默认音频录制系统不匹配，此时，通常从默认音频录制系统切换到了另一音频录制系统，则终端可以确定所述立体声视频为音频缺失状态；

可以理解的，若所述目标音频录制系统与所述默认音频录制系统匹配，则终端可以确定所述立体声视频为音频正常状态。

S102：若所述音频录制状态为音频缺失状态，则对所述立体声视频进行音画同步处理。

可以理解的，对立体声视频进行音画同步处理是在录制立体声视频过程中对立体声视频对应的编码前的数据进行音画同步，而不是在完成对立体声视频的编码之后在播放立体声视频时进行音画同步处理。

在一个或多个实施例中，立体声视频的音频录制是一个持续录制的过程，在持续录制过程中可能由于客观因素而中断音频信号的录制。在本申请中，在立体声视频的编码未完成时(将视频音频流与视频图像流进行编码后，编码完成生成最终编码后的立体声视频)，对(未完成编码的)立体声视频对应的视频音频流和/或视频图像流进行音画同步处理，完成音画同步处理并对视频音频流和视频图像流录制结束之后，对立体声视频对应的视频音频流和视频图像流进行编码，生成编码完成的立体声视频。

在一个或多个实施例中，终端可以在确定音频缺失状态之后，确定立体声视频对应的音频流的缺失位置(缺失位置可以理解为缺失时间对应的缺失音频信号位置)，对缺失位置处的音频数据进行信号填充，如填充预先设置的一段参考音频信号，如某背景音乐对应的参考音频信号。

在一个或多个实施例中，终端可以在确定音频缺失状态之后，确定立体声视频对应的视频图像流的音频缺失位置，将音频缺失位置对应的至少一帧图像进行抽帧处理，以对齐视频图像流和视频音频流，确保音画同步。如视频图像流的音频缺失位置为：缺失时间指示的第m帧图像至第n帧图像之间，则对“第m帧图像至第n帧图像”对应的相应帧图像进行抽帧处理。

在一种可行的实施方式中，可以设置一个抽帧阈值，所述抽帧阈值用于确保抽帧处理之后的图像平滑播放，降低用户肉眼的图像敏感度。终端可以判断视频图像流的音频缺失时间对应的总帧数，当总帧数小于或等于抽帧阈值时，对总帧数指示的图像帧进行图像抽帧。当总帧数大于抽帧阈值时，此时若以总帧数对应的图像帧进行图像抽帧，用户肉眼对图像缺失的图像敏感度会较高；终端可以采用对音频流进行音频信号补充；

进一步的，终端也可以一方面：基于小于抽帧阈值的目标帧数值进行图像抽帧，然后另一方面同时对“总帧数与目标帧数的帧数差值”所对应的剩余音频缺失数据进行音频信号填充。确保了用户肉眼对图像缺失的图像敏感度不会很高，提升了音画同步处理的智能性。

在本申请实施例中，终端通过获取立体声视频录制过程中所对应的音频录制状态；若所述音频录制状态为音频缺失状态，则终端对所述立体声视频进行音画同步处理；可以在立体声视频音频出现缺失的情况下，确保立体声视频音画同步，避免音频缺失所造成的视频录制效果不佳，提升了立体声视频录制过程中录制容灾处理能力。

请参见图5，图5是本申请提出的一种立体声视频录制方法的另一种实施例的流程示意图。具体的：

S201：获取立体声视频对应至少一帧音频信号的录制时间戳；

在一个或多个实施例中，终端开始进行立体声视频录制时，终端所搭载的操作系统可以创建多媒体录制对象(如MediaRecorder对象)，终端所搭载的操作系统控制封装的AudioSource类创建AudioRecorder对象，(AudioRecorder是音频录音音轨，用来录制声音)，通过回调函数(如dataCallback函数)循环读取录制的每一帧音频信号。一方面：回调函数(如dataCallback函数)可以通过调用时间戳获取函数(getTimestamp函数)通过AudioFlinger获取录制的音频信号的时间戳和数据量，其中：AudioFlinger可理解为音频策略的执行者，负责输入输出流设备的管理及音频流数据的处理传输；另一方面：可以将读取到的音频数据也即当前所录制的至少一帧音频信号写入缓存(如buffer)中，例如可以通过调用queueInputBuffer函数将音频信号对应的数据写入缓存(如buffer)。

可以理解的，终端可以在立体声视频的音频录制过程中，终端的操作系统通过在AudioRecord中创建时间戳变量，通过时间戳变量读取每次音频信号的时间戳值后进行保存，这样以便于终端后续通过所述时间戳变量可以获取到“所述立体声视频对应至少一帧音频信号的录制时间戳”确定是否产生音频缺失。也就是说，终端通过获取针对立体声视频所录制的至少一帧音频信号，并基于时间戳变量保存至少一帧音频信号分别对应的录制时间戳；以便于在每次时间戳循环读取过程(如每次getTimestamp循环独权中基于getTimestamp函数获取录制的音频信号的时间戳)中，通过所述时间戳变量获取所述立体声视频对应的当前音频信号的录制时间戳。

S202：基于各所述音频信号的录制时间戳，计算连续两帧所述音频信号之间的录制间隔时间；

可以理解的，各帧音频信号的录制时间戳的读取可以是基于相应回调函数的回调周期进行的，如基于音频采样率对应的回调周期遍历每一轮调用回调函数的函数执行流程，在每次回调函数的函数执行流程涉及的getTimestamp循环中，通过时间戳变量对回调函数所读取的音频信号的录制时间戳进行保存，并基于时间戳变量记录的音频信号的录制时间戳，来进一步判断立体声视频的录制状态，具体可以通过音频信号的录制时间戳来计算当前音频信号相对于上一帧音频信号的录制间隔时间，其中：音频录制状态包括音频缺失状态和音频正常状态。

所述录制间隔时间可以理解的音频信号的录制时间与上一帧音频信号的录制时间的差值，也可以理解为通过获取连续两帧音频信号的录制时间戳来计算两帧音频信号之间的时间差值，时间差值也即录制间隔时间。

所述音频缺失状态可以理解为上述在录制立体声录制过程中至少部分图像帧对应的音频信号缺失的情况下，立体声视频的录制状态。

所述音频正常状态与音频缺失状态相对应，音频正常状态可以理解为上述在录制立体声录制过程中所有图像帧不存在的音频信号缺失的情况下立体声视频的录制状态。

S203：若所述录制间隔时间大于时间阈值，则确定针对所述立体声视频的音频录制状态为音频缺失状态；

S204：若所述录制间隔时间小于或等于时间阈值，则确定针对所述立体声视频的音频录制状态为音频正常状态。

可以理解的，立体声视频录制时通常会基于设置的信号采样率进行录制，时间阈值可以是基于信号采样率所确定，如获取信号采样率的倒数作为时间阈值。在对录制每一帧音频信号i(i为整数)时，即获取当前音频信号i对应的时间戳以及获取上一帧“音频信号i-1”的时间戳确定录制间隔时间，基于录制间隔时间确定立体声视频对应的音频录制状态。可以理解的立体声视频对应的音频录制状态是一个随录制时间的增长不断更新的过程。

可以理解的，时间阈值也可以是一个经验值，根据实际立体声视频录制的应用情况进行设定。例如经验值可以设置为200ms、110ms等等。

S205：若所述音频录制状态为音频缺失状态，则获取所述立体声视频对应的音频缺失时间；

可以理解的，终端可以确定所述音频缺失时间对应的参考信号数据，基于所述参考信号数据来对所述立体声视频进行音画同步处理。参考信号数据从数据类型划分，可以是音频类型数据，也可以是图像类型数据；也就是说：终端进行音画同步处理，可以是采用对立体声视频的视频音频流添加相应的音频信号数据，以补充缺失的音频信号部分确保音画同步；或，可以是采用对立体声视频的视频图像流删除相应的图像信号数据，以删除缺失的音频信号部分对应的图像帧确保音画同步；或，可以是采用对立体声视频的视频音频流添加相应的音频信号数据，和，采用对立体声视频的视频图像流删除相应的图像信号数据，以确保音画同步。

S206：获取所述立体声视频对应的录制采样率，基于所述音频缺失时间和所述录制采样率确定缺失数据量。

可以理解的，确定所述音频缺失时间对应的参考信号数据，可以是：获取所述立体声视频对应的录制采样率，基于所述音频缺失时间和录制采样率确定缺失数据量；确定所述缺失数据量对应的参考信号数据。

所述缺失数据量可以由录制间隔时间与录制采样率的乘积得到，录制采样率为预先设置的立体声视频的信号采样率，可理解为是指录音设备(如终端)在单位时间内对模拟信号采样的多少，可以理解为缺失数据的信号帧数即为缺失数据量。

S207：获取所述缺失数据量对应的第一音频数据，基于所述第一音频数据对所述立体声视频进行音频补齐处理；

可以理解的，确定的缺失数据量对应的参考信号数据可以是音频类型的数据，则终端获取待补充的缺失数据量对应的参考信号数据即可。在一些实施方式中，参考信号数据可以是信号特征值均为目标值(如0)的音频信号数据，通过补充目标值对应的参考信号数据，对于用户的听觉感受而言相当于这一段缺失的部分为静音，实现了音画同步。

在一个或多个实施例中，终端可以基于目标音频特征生成音频缺失时间所需缺失数据量对应的第一音频数据，将所述第一音频数据添加至所述立体声视频对应的音频缺失位置，例如：第i帧音频信号与第i-1帧之间缺失音频信号，则添加至第i帧音频信号与第i-1帧之间的位置。

所述目标音频特征可以理解为预先设置的用于进行音频信号添加的音频属性特征，终端按照预先设置的目标音频特征来生成第一音频参数，以音频缺失时间为例，则终端可以生成相应音频缺失时间所对应缺失数据量的第一音频数据。

在一个或多个实施例中，目标音频特征可以是对音频特征设置目标值，如设置目标值为0，则通常这一段第一音频数据呈现为静音。

在一个或多个实施例中，终端可以基于当前立体声视频对应的音频背景类型来选取合适的第一音频数据，以进行音频填充。具体实施中，终端可以通过确定所述立体声视频对应的音频背景类型，基于所述音频背景类型生成相对应的第一音频数据，将所述第一音频数据添加至所述立体声视频对应的音频缺失位置，可以理解为将第一音频数据添加至立体声视频对应视频音频流的音频缺失位置。音频缺失位置可以是基于上述音频缺失状态对应的信号缺失位置所确定的。

可以理解的，终端可以预先建立至少一个参考音频背景类型与参考音频数据的音频映射关系，所述映射关系可以是映射表、映射组合、映射数组等形式进行表征。终端在确定立体声视频对应的音频背景类型之后，基于音频映射关系获取音频背景类型对应的音频数据作为第一音频数据。在一个或多个实施例中，获取到的第一音频数据可以是纯音乐、背景音乐、伴奏乐等，采用诸如纯音乐作为第一音频数据进行音频补充，可以使得补充的音频数据与原音频流平滑过渡，提升立体声视频的音画同步效果。

在一种可行的实施方式中，终端在录制立体声视频前，可以获取用户针对立体声视频所设置的音频背景类型，如流行乐类型、民谣类型、摇滚类型等等。

在一种可行的实施方式中，音频背景类型的确定可以是：终端对立体声视频进行图像识别处理，确定所述立体声视频对应的音频背景类型；

可以理解的，终端可以预先训练有类型识别模型，具体的，终端可基于预先训练的类型识别模型对立体声视频进行识别，通过训练好的类型识别模型对立体声视频中的图像部分进行图像识别，如通过类型识别模型对立体声视频进行识别，可以确定已录制的立体声视频中的图像部分所对应的音频背景类型。通过将立体声视频(也可以仅将已录制的立体声视频一段图像流)输入至类型识别模型，输出音频背景类型。

可以预先获取大量的样本视频数据，并对样本视频数据标注参考类型标签，然后将样本视频数据输入至初始的类型识别模型中进行训练，可以得到训练好的类型识别模型。

具体的，在实际应用中，所述类型识别模型可以是基于深度学习的对象分析算法，如卷积神经网络(Convolutional Neural Network，CNN)模型，深度神经网络(DeepNeuralNetwork，DNN)模型、循环神经网络(RecurrentNeuralNetworks，RNN)、模型、嵌入(embedding)模型、梯度提升决策树(Gradient BoostingDecisionTree，GBDT)模型、逻辑回归(LogisticRegression，LR)模型等模型中的一种或多种的拟合实现的，进一步的，可在现有神经网络模型基础上引入误差反向传播算法进行优化，可以提高基于神经网络模型的类型识别模型的识别准确率。

在一种可行的实施方式中，终端可以对所述立体声视频进行音频识别处理，确定所述立体声视频对应的音频背景类型。

可以理解的，终端可以预先训练有类型识别模型(类型识别模型可以与上述相同，类型识别模型具有对图像和/或音频进行识别的能量)，具体的，终端可基于预先训练的类型识别模型对立体声视频的音频流部分进行识别，通过训练好的类型识别模型对立体声视频中的音频流部分进行图像识别，如通过类型识别模型对立体声视频进行识别，可以确定已录制的立体声视频中的音频部分所对应的音频背景类型。通过将立体声视频(也可以仅将已录制的立体声视频一段音频流)输入至类型识别模型，输出音频背景类型。

在一种具体的实施场景中，如图6所示，图6是本申请涉及的一种音画同步的场景示意图，在图6中，终端开启立体声录制功能之后，同步录制视频图像流以及视频音频流，如图6所示，当用户在图6所示的“00:04.00”时刻未使用无线耳机(如摘下无线耳机)，终端感测到用户未佩戴从无线耳机的音频录制系统(如音频录制组件)而切换到终端的音频录制系统(如加载终端的(音频)硬件抽象层hal进行音频录制)在图6所示的“00:04.30”继续进行音频录制，整个切换过程存在一定的切换时间差(如图6所示的时间差为300ms)，终端通过确定所述音频缺失时间(如音频缺失时间为300ms)对应的第一音频数据，将第一音频数据补充到立体声视频的视频音频流中的缺失位置(也即缺失的300ms的音频流信号位置)，以完成音频补齐处理。

可以理解的，在每次getTimestamp循环中将此次音频信号的时间戳值与上一音频信号的时间戳值进行比较确定录制间隔时间，若录制间隔时间大于时间阈值则此时出现跳变，音频录制状态为音频缺失状态，通过确定音频缺失时间所需缺失数据量对应的第一音频数据，通过getInputFramesLost接口返回“第一音频数据”到MediaRecorder(多媒体录制对象)进行音频补齐处理，从而补齐音频数据，保证音画同步。

S208：获取所述缺失数据量对应的第一图像数据，基于所述第一图像数据对所述立体声视频进行图像抽帧处理；

所述第一图像数据可以理解为立体声视频中所确定的需要图像抽帧的图像数据，通常是(如在正在录制或录制过程中)立体声视频的视频图像流中的部分图像帧数据进行抽帧，这部分待抽帧的图像数据与前述确定的音频缺失时间相对应，例如音频缺失时间对应的第一图像数据。

在一个或多个实施例中，终端可以在确定音频缺失时间之后，基于音频缺失时间(如音频缺失时间)确定立体声视频对应的视频图像流的音频缺失位置，将音频缺失位置对应的至少一帧图像进行抽帧处理，以对齐视频图像流和视频音频流，确保音画同步。如视频图像流的音频缺失位置为第m帧图像至第n帧图像，则对“第m帧图像至第n帧图像”对应的帧图像进行抽帧处理。

S209：基于所述缺失数据量确定第一数据量和第二数据量，获取所述第一数据量对应的第二音频数据以及所述第二数据量对应的第二图像数据。

S210：基于所述第二音频数据对所述立体声视频进行音频补齐处理以及基于所述第二图像数据对所述立体声视频进行图像抽帧处理。

可以理解的，考虑到在缺失部分音频信号的情况下音画同步的效果，对立体声视频的视频流部分进行处理以及对音频流部分进行处理，可以缩短缺失音频信号部分的图像帧数以便于在播放编码后的立体声视频时，快速过渡音频部分的视频，提升了音画同步的智能性。

所述第二音频数据可以理解为同时进行图像和音频处理过程中音频补齐处理部分对应的音频信号数据；

所述第二图像数据可以理解为同时进行图像和音频处理过程中音频补齐处理部分对应的图像信号数据；

在一种可行的实施方式中，可以设置一个抽帧阈值，所述抽帧阈值用于确保抽帧处理之后的图像平滑播放，最大限度的降低用户肉眼的图像敏感度。终端可以判断视频图像流的音频缺失时间对应的缺失数据量(如缺失音频信号的帧数)；以小于抽帧阈值的目标帧数作为第二数据量，以获取第二数据量对应的第二图像数据；基于第二图像数据对应的抽帧之后的缩短时间和音频缺失时间的差值，来生成差值对应的第二音频数据；例如可以计算缺失数据量与第二数据量的差值，基于差值确定第一数据量，以获取第一数据量的第二音频数据。

可以理解的，然后基于所述第二音频数据对所述立体声视频进行音频补齐处理以及基于所述第二图像数据对所述立体声视频进行图像抽帧处理。这样可降低用户肉眼对图像缺失的图像敏感度，同时又保证了立体声视频的音画同步效果；在一个或多个实施例中图像抽帧的方式可以是采用间隔图像帧抽帧的方式，如间隔目标值抽一个图像帧，也可以是采用连续图像帧抽帧的方式。

在一种可行的实施方式中，终端也可以设置一个抽帧比例(例如0.5)，也即对音频缺失部分的一段图像帧(假设为v帧)按照抽帧比例计算抽帧数(抽帧比例c与v帧的乘积)，确定抽帧数也即第二数据量指示的第二图像数据；然后基于第二图像数据对应的抽帧之后的缩短时间和音频缺失时间的差值，来生成差值对应的第二音频数据。例如可以计算缺失数据量与第二数据量的差值，基于差值确定第一数据量，以获取第一数据量的第二音频数据。

在本申请实施例中，终端通过获取立体声视频录制过程中所对应的音频录制状态；若所述音频录制状态为音频缺失状态，则终端对所述立体声视频进行音画同步处理；可以在立体声视频音频出现缺失的情况下，确保立体声视频音画同步，避免音频缺失所造成的视频录制效果不佳，提升了立体声视频录制过程中录制容灾处理能力。以及，可以通过多种方式来实现音画同步，丰富了音画同步处理方式，提升了视频录制的智能性。

下面将结合图7，对本申请实施例提供的立体声视频录制装置进行详细介绍。需要说明的是，图7所示的立体声视频录制装置，用于执行本申请图1～图6所示实施例的方法，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请图1～图6所示的实施例。

请参见图7，其示出本申请实施例的立体声视频录制装置的结构示意图。该立体声视频录制装置1可以通过软件、硬件或者两者的结合实现成为用户终端的全部或一部分。根据一些实施例，该立体声视频录制装置1包括状态获取模块11和音画同步模块12，具体用于：

状态获取模块11，用于获取立体声视频对应的音频录制状态；

音画同步模块12，用于若所述音频录制状态为音频缺失状态，则对所述立体声视频进行音画同步处理。

可选的，如图8所示，所述状态获取模块11，包括：

时间戳获取单元111，用于获取立体声视频对应至少一帧音频信号的录制时间戳；

状态确定单元112，用于基于各所述音频信号的录制时间戳，确定针对所述立体声视频的音频录制状态。

可选的，所述立体声视频录制装置1，具体用于：

通过所述时间戳变量读取所述立体声视频对应至少一帧音频信号的录制时间戳。

可选的，如图9所示，所述状态确定单元112，包括：

时间确定子单元1121，用于基于所述至少一帧音频信号的录制时间戳，确定针对所述音频信号的录制间隔时间；

状态确定子单元1122，用于基于所述录制间隔时间，确定针对所述立体声视频的音频录制状态。

可选的，所述状态确定子单元1122，具体用于：

若所述录制间隔时间大于时间阈值，则确定针对所述立体声视频的音频录制状态为音频缺失状态；

若所述录制间隔时间小于或等于时间阈值，则确定针对所述立体声视频的音频录制状态为音频正常状态。

可选的，所述音画同步模块12，具体用于：

获取所述立体声视频对应的音频缺失时间；

基于所述音频缺失时间获取参考信号数据，基于所述参考信号数据对所述立体声视频进行音画同步处理。

可选的，所述音画同步模块12，具体用于：获取所述立体声视频对应的录制采样率，基于所述音频缺失时间和所述录制采样率确定缺失数据量；

确定所述缺失数据量对应的参考信号数据。

可选的，所述音画同步模块12，具体用于：获取所述缺失数据量对应的第一音频数据；或，

获取所述缺失数据量对应的第一图像数据；或，

基于所述缺失数据量确定第一数据量和第二数据量，获取所述第一数据量对应的第二音频数据以及所述第二数据量对应的第二图像数据。

可选的，所述音画同步模块12，具体用于：获取抽帧阈值，基于所述抽帧阈值以及所述缺失数据量确定第二数据量，所述第二数据量小于或等于所述抽帧阈值；

基于所述缺失数据量和所述第二数据量的差值确定第一数据量。

可选的，所述音画同步模块12，具体用于：

若所述参考信号数据为第一音频数据，则基于所述第一音频数据对所述立体声视频进行音频补齐处理；

若所述参考信号数据为第一图像数据，则基于所述第一图像数据对所述立体声视频进行图像抽帧处理；

若所述参考信号数据为第二音频数据和第二图像数据，则基于所述第二音频数据对所述立体声视频进行音频补齐处理以及基于所述第二图像数据对所述立体声视频进行图像抽帧处理。

可选的，所述音画同步模块12，具体用于：基于目标音频特征生成所述缺失数据量对应的第一音频数据；或，

确定所述立体声视频对应的音频背景类型，基于所述音频背景类型生成所述音频缺失时间对应的第一音频数据。

可选的，所述状态获取模块11，具体用于：获取针对所述立体声视频的默认音频录制系统；

检测所述立体声视频对应的目标音频录制系统，所述音频录制系统用于录制所述立体视频对应的音频信号；

若所述音频录制系统与默认音频录制系统不匹配，则确定所述立体声视频为音频缺失状态；

若所述音频录制系统与所述默认音频录制系统匹配，则确定所述立体声视频为音频正常状态。

需要说明的是，上述实施例提供的立体声视频录制装置在执行立体声视频录制方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的立体声视频录制装置与立体声视频录制方法实施例属于同一构思，其体现实现过程详见方法实施例，这里不再赘述。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本申请实施例还提供了一种计算机存储介质，所述计算机存储介质可以存储有多条指令，所述指令适于由处理器加载并执行如上述图1～图6所示实施例的所述立体声视频录制方法，具体执行过程可以参见图1～图6所示实施例的具体说明，在此不进行赘述。

本申请还提供了一种计算机程序产品，该计算机程序产品存储有至少一条指令，所述至少一条指令由所述处理器加载并执行如上述图1～图6所示实施例的所述立体声视频录制方法，具体执行过程可以参见图1～图6所示实施例的具体说明，在此不进行赘述。

请参考图10，其示出了本申请一个示例性实施例提供的电子设备的结构方框图。本申请中的电子设备可以包括一个或多个如下部件：处理器110、存储器120、输入装置130、输出装置140和总线150。处理器110、存储器120、输入装置130和输出装置140之间可以通过总线150连接。

处理器110可以包括一个或者多个处理核心。处理器110利用各种接口和线路连接整个电子设备内的各个部分，通过运行或执行存储在存储器120内的指令、程序、代码集或指令集，以及调用存储在存储器120内的数据，执行电子设备100的各种功能和处理数据。可选地，处理器110可以采用数字信号处理(digital signal processing，DSP)、现场可编程门阵列(field－programmable gate array，FPGA)、可编程逻辑阵列(programmable logicArray，PLA)中的至少一种硬件形式来实现。处理器110可集成中央处理器(centralprocessing unit，CPU)、图像处理器(graphics processing unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器110中，单独通过一块通信芯片进行实现。

存储器120可以包括随机存储器(random Access Memory，RAM)，也可以包括只读存储器(read-only memory，ROM)。可选地，该存储器120包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等，该操作系统可以是安卓(Android)系统，包括基于Android系统深度开发的系统、苹果公司开发的IOS系统，包括基于IOS系统深度开发的系统或其它系统。存储数据区还可以存储电子设备在使用中所创建的数据比如电话本、音视频数据、聊天记录数据，等。

参见图11所示，存储器120可分为操作系统空间和用户空间，操作系统即运行于操作系统空间，原生及第三方应用程序即运行于用户空间。为了保证不同第三方应用程序均能够达到较好的运行效果，操作系统针对不同第三方应用程序为其分配相应的系统资源。然而，同一第三方应用程序中不同应用场景对系统资源的需求也存在差异，比如，在本地资源加载场景下，第三方应用程序对磁盘读取速度的要求较高；在动画渲染场景下，第三方应用程序则对GPU性能的要求较高。而操作系统与第三方应用程序之间相互独立，操作系统往往不能及时感知第三方应用程序当前的应用场景，导致操作系统无法根据第三方应用程序的具体应用场景进行针对性的系统资源适配。

为了使操作系统能够区分第三方应用程序的具体应用场景，需要打通第三方应用程序与操作系统之间的数据通信，使得操作系统能够随时获取第三方应用程序当前的场景信息，进而基于当前场景进行针对性的系统资源适配。

以操作系统为Android系统为例，存储器120中存储的程序和数据如图12所示，存储器120中可存储有Linux内核层320、系统运行时库层340、应用框架层360和应用层380，其中，Linux内核层320、系统运行库层340和应用框架层360属于操作系统空间，应用层380属于用户空间。Linux内核层320为电子设备的各种硬件提供了底层的驱动，如显示驱动、音频驱动、摄像头驱动、蓝牙驱动、Wi-Fi驱动、电源管理等。系统运行库层340通过一些C/C++库来为Android系统提供了主要的特性支持。如SQLite库提供了数据库的支持，OpenGL/ES库提供了3D绘图的支持，Webkit库提供了浏览器内核的支持等。在系统运行时库层340中还提供有安卓运行时库(Android runtime)，它主要提供了一些核心库，能够允许开发者使用Java语言来编写Android应用。应用框架层360提供了构建应用程序时可能用到的各种API，开发者也可以通过使用这些API来构建自己的应用程序，比如活动管理、窗口管理、视图管理、通知管理、内容提供者、包管理、通话管理、资源管理、定位管理。应用层380中运行有至少一个应用程序，这些应用程序可以是操作系统自带的原生应用程序，比如联系人程序、短信程序、时钟程序、相机应用等；也可以是第三方开发者所开发的第三方应用程序，比如游戏类应用程序、即时通信程序、相片美化程序等。

以操作系统为IOS系统为例，存储器120中存储的程序和数据如图12所示，IOS系统包括：核心操作系统层420(Core OS layer)、核心服务层440(Core Services layer)、媒体层460(Media layer)、可触摸层480(Cocoa Touch Layer)。核心操作系统层420包括了操作系统内核、驱动程序以及底层程序框架，这些底层程序框架提供更接近硬件的功能，以供位于核心服务层440的程序框架所使用。核心服务层440提供给应用程序所需要的系统服务和/或程序框架，比如基础(Foundation)框架、账户框架、广告框架、数据存储框架、网络连接框架、地理位置框架、运动框架等等。媒体层460为应用程序提供有关视听方面的接口，如图形图像相关的接口、音频技术相关的接口、视频技术相关的接口、音视频传输技术的无线播放(AirPlay)接口等。可触摸层480为应用程序开发提供了各种常用的界面相关的框架，可触摸层480负责用户在电子设备上的触摸交互操作。比如本地通知服务、远程推送服务、广告框架、游戏工具框架、消息用户界面接口(User Interface，UI)框架、用户界面UIKit框架、地图框架等等。

在图13所示出的框架中，与大部分应用程序有关的框架包括但不限于：核心服务层440中的基础框架和可触摸层480中的UIKit框架。基础框架提供许多基本的对象类和数据类型，为所有应用程序提供最基本的系统服务，和UI无关。而UIKit框架提供的类是基础的UI类库，用于创建基于触摸的用户界面，iOS应用程序可以基于UIKit框架来提供UI，所以它提供了应用程序的基础架构，用于构建用户界面，绘图、处理和用户交互事件，响应手势等等。

其中，在IOS系统中实现第三方应用程序与操作系统数据通信的方式以及原理可参考Android系统，本申请在此不再赘述。

其中，输入装置130用于接收输入的指令或数据，输入装置130包括但不限于键盘、鼠标、摄像头、麦克风或触控设备。输出装置140用于输出指令或数据，输出装置140包括但不限于显示设备和扬声器等。在一个示例中，输入装置130和输出装置140可以合设，输入装置130和输出装置140为触摸显示屏，该触摸显示屏用于接收用户使用手指、触摸笔等任何适合的物体在其上或附近的触摸操作，以及显示各个应用程序的用户界面。触摸显示屏通常设置在电子设备的前面板。触摸显示屏可被设计成为全面屏、曲面屏或异型屏。触摸显示屏还可被设计成为全面屏与曲面屏的结合，异型屏与曲面屏的结合，本申请实施例对此不加以限定。

除此之外，本领域技术人员可以理解，上述附图所示出的电子设备的结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。比如，电子设备中还包括射频电路、输入单元、传感器、音频电路、无线保真(wireless fidelity，WiFi)模块、电源、蓝牙模块等部件，在此不再赘述。

在本申请实施例中，各步骤的执行主体可以是上文介绍的电子设备。可选地，各步骤的执行主体为电子设备的操作系统。操作系统可以是安卓系统，也可以是IOS系统，或者其它操作系统，本申请实施例对此不作限定。

本申请实施例的电子设备，其上还可以安装有显示设备，显示设备可以是各种能实现显示功能的设备，例如：阴极射线管显示器(cathode ray tubedisplay，简称CR)、发光二极管显示器(light-emitting diode display，简称LED)、电子墨水屏、液晶显示屏(liquid crystal display，简称LCD)、等离子显示面板(plasma display panel，简称PDP)等。用户可以利用电子设备101上的显示设备，来查看显示的文字、图像、视频等信息。所述电子设备可以是智能手机、平板电脑、游戏设备、AR(Augmented Reality，增强现实)设备、汽车、数据存储装置、音频播放装置、视频播放装置、笔记本、桌面计算设备、可穿戴设备诸如电子手表、电子眼镜、电子头盔、电子手链、电子项链、电子衣物等设备。

在图10所示的电子设备中，其中电子设备可以是一种终端，处理器110可以用于调用存储器120中存储的应用程序，并具体执行以下操作：

获取立体声视频对应的音频录制状态；

在一个实施例中，所述处理器110在执行所述获取立体声视频对应的音频录制状态时，具体执行以下操作：

获取立体声视频对应至少一帧音频信号的录制时间戳；

基于各所述音频信号的录制时间戳，确定针对所述立体声视频的音频录制状态。

在一个实施例中，所述处理器110在执行所述获取立体声视频对应至少一帧音频信号的录制时间戳之前，还包括：

在一个实施例中，所述处理器110在执行所述基于各所述音频信号的录制时间戳，确定针对所述立体声视频的音频录制状态时，具体执行以下操作：

基于各所述音频信号的录制时间戳，计算连续两帧所述音频信号之间的录制间隔时间；

基于所述录制间隔时间，确定针对所述立体声视频的音频录制状态。

在一个实施例中，所述处理器110在执行所述基于所述录制间隔时间，确定针对所述立体声视频对应的音频录制状态时，具体执行以下操作：

在一个实施例中，所述处理器110在执行所述对所述立体声视频进行音画同步处理时，具体执行以下操作：

获取所述立体声视频对应的音频缺失时间；

在一个实施例中，所述处理器110在执行所述基于所述音频缺失时间获取参考信号数据时，具体执行以下操作：

获取所述立体声视频对应的录制采样率，基于所述音频缺失时间和所述录制采样率确定缺失数据量；

确定所述缺失数据量对应的参考信号数据。

在一个实施例中，所述处理器110在执行所述确定所述缺失数据量对应的参考信号数据时，具体执行以下操作：

获取所述缺失数据量对应的第一音频数据；或，

获取所述缺失数据量对应的第一图像数据；或，

在一个实施例中，所述处理器110在执行所述基于所述缺失数据量确定第一数据量和第二数据量时，具体执行以下操作：

获取抽帧阈值，基于所述抽帧阈值以及所述缺失数据量确定第二数据量，所述第二数据量小于或等于所述抽帧阈值；

在一个实施例中，所述处理器110在执行所述基于所述参考信号数据对所述立体声视频进行音画同步处理时，具体执行以下操作：

在一个实施例中，所述处理器110在执行所述获取所述缺失数据量对应的第一音频数据时，具体执行以下操作：

基于目标音频特征生成所述缺失数据量对应的第一音频数据；或，

获取针对所述立体声视频的默认音频录制系统；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种立体声视频录制方法，其特征在于，所述方法包括：

获取立体声视频对应的音频录制状态；

2.根据权利要求1所述的方法，其特征在于，所述获取立体声视频对应的音频录制状态，包括：

获取立体声视频对应至少一帧音频信号的录制时间戳；

3.根据权利要求2所述的方法，其特征在于，所述获取立体声视频对应至少一帧音频信号的录制时间戳，包括：

4.根据权利要求2所述的方法，其特征在于，所述基于各所述音频信号的录制时间戳，确定针对所述立体声视频的音频录制状态，包括：

5.根据权利要求4所述的方法，其特征在于，所述基于所述录制间隔时间，确定针对所述立体声视频对应的音频录制状态，包括：

6.根据权利要求1所述的方法，其特征在于，所述对所述立体声视频进行音画同步处理，包括：

获取所述立体声视频对应的音频缺失时间；

7.根据权利要求6所述的方法，其特征在于，所述基于所述音频缺失时间获取参考信号数据，包括：

确定所述缺失数据量对应的参考信号数据。

8.根据权利要求7所述的方法，其特征在于，所述确定所述缺失数据量对应的参考信号数据，包括：

获取所述缺失数据量对应的第一音频数据；或，

获取所述缺失数据量对应的第一图像数据；或，

9.根据权利要求7所述的方法，其特征在于，所述基于所述缺失数据量确定第一数据量和第二数据量，包括：

获取抽帧阈值，基于所述抽帧阈值以及所述缺失数据量确定第二数据量，所述第二数据量小于所述抽帧阈值；

10.根据权利要求8所述的方法，其特征在于，所述获取所述缺失数据量对应的第一音频数据，包括：

11.根据权利要求6-10任一项所述的方法，其特征在于，所述基于所述参考信号数据对所述立体声视频进行音画同步处理，包括：

12.根据权利要求1所述的方法，其特征在于，所述获取立体声视频对应的音频录制状态，包括：

获取针对所述立体声视频的默认音频录制系统；

检测所述立体声视频对应的目标音频录制系统，所述目标音频录制系统用于录制所述立体声视频对应的音频信号；

若所述目标音频录制系统与默认音频录制系统不匹配，则确定所述立体声视频为音频缺失状态；

若所述目标音频录制系统与所述默认音频录制系统匹配，则确定所述立体声视频为音频正常状态。

13.一种立体声视频录制装置，其特征在于，所述装置包括：

状态获取模块，用于获取立体声视频对应的音频录制状态；

14.一种计算机存储介质，其特征在于，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1～12任意一项的方法步骤。

15.一种电子设备，其特征在于，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如权利要求1～12任意一项的方法步骤。