CN114822568A

CN114822568A - 音频播放方法、装置、设备及计算机可读存储介质

Info

Publication number: CN114822568A
Application number: CN202210632201.8A
Authority: CN
Inventors: 李新林; 马连群; 吴宜安
Original assignee: Shenzhen Skyworth RGB Electronics Co Ltd
Current assignee: Shenzhen Skyworth RGB Electronics Co Ltd
Priority date: 2022-06-02
Filing date: 2022-06-02
Publication date: 2022-07-29

Abstract

本发明公开了一种音频播放方法、装置、设备及计算机可读存储介质，属于音视频播放技术领域。本发明通过监测当前所输出的视频画面中是否存在预设特征图像；若存在，则获取所述预设特征图像的发声位置信息；获取所述视频画面对应的原始音频信号，根据所述发声位置信息调整所述原始音频信号得到重建声场位置后的目标音频信号；输出所述目标音频信号以进行音频播放。本发明解决了在播放音频时无法准确还原语音位置，语音临场感较差的技术问题，实现了提升音频播放时的语音临场感和辨识度的技术效果。

Description

音频播放方法、装置、设备及计算机可读存储介质

技术领域

本发明涉及音视频处理技术领域，尤其涉及一种音频播放方法、装置、设备及计算机可读存储介质。

背景技术

随着生活水平的日益提高，人们对日常生活中的娱乐产品性能和功能提出了更高的要求。在使用平板电脑、电视等视频播放设备观看视频节目时，人们往往希望得到更加逼真的视听体验，因此，对视频播放设备的音画质也提出了更高的要求。

一般在影视节目中，人物对话通常占据了很大的场景，故提高发声人的位置准确度，使得观众听见的人声与发声人在屏幕上一致，可以增强观众的临场感，大大提高用户的体验。目前大多播放设备使用左右两组喇叭发声，对于双声道立体声的声源还原较好，但对于单声道或立体声不强的双声道音源，音频播放效果就不是很理想。此外，也有一些通过虚拟环绕声技术来改善并营造一个虚拟立体声的效果，但由于其使用固定算法，故对于声音的定位也不够准确。

因此，现有技术中存在播放音频时无法准确还原语音位置，语音临场感较差的技术问题。

发明内容

本发明的主要目的在于提供一种音频播放方法、装置、设备及计算机可读存储介质，旨在解决播放音频时无法准确还原语音位置，语音临场感较差的技术问题。

为实现上述目的，本发明提供一种音频播放方法，所述方法包括以下步骤：

监测当前所输出的视频画面中是否存在预设特征图像；

若存在，则获取所述预设特征图像的发声位置信息；

获取所述视频画面对应的原始音频信号，根据所述发声位置信息调整所述原始音频信号得到重建声场位置后的目标音频信号；

输出所述目标音频信号以进行音频播放。

可选地，所述获取所述预设特征图像的发声位置信息的步骤，包括：

根据所述预设特征图像的大小获取所述预设特征图像的距离信息；

获取所述预设特征图像的发声位置坐标信息，将所述发声位置坐标信息和所述距离信息作为所述发声位置信息。

可选地，所述根据所述发声位置信息调整所述原始音频信号得到重建声场位置后的目标音频信号的步骤，包括：

根据所述发声位置信息调整所述原始音频信号中的语音信号得到重建声场位置后的目标语音信号；

通过将所述目标语音信号与所述原始音频信号中的背景音信号混合，以得到重建声场位置后的所述目标音频信号。

可选地，所述根据所述发声位置信息调整所述原始音频信号中的语音信号得到重建声场位置后的目标语音信号的步骤，包括：

根据所述发声位置坐标信息和所述距离信息分别获取第一系数和第二系数；

根据所述第一系数调节所述语音信号的参数得到左声道语音增强信号；

根据所述第二系数调节所述语音信号的参数得到右声道语音增强信号；

将所述左声道语音增强信号和所述右声道语音增强信号作为所述重建声场位置后的目标语音信号。

可选地，在所述根据所述发声位置信息调整所述原始音频信号中的语音信号得到重建声场位置后的目标语音信号的步骤之前，还包括：

对所述原始音频信号进行分离得到所述背景音信号和所述语音信号。

可选地，所述预设特征图像为：人物嘴唇张开的图像，所述监测当前所输出的视频画面中是否存在预设特征图像的步骤，包括：

间隔预设时长提取当前输出的视频数据中的所述视频画面；

识别所述视频画面中的人脸图像，以监测所述人脸图像中是否存在所述人物嘴唇张开的图像。

可选地，所述输出所述目标音频信号以进行音频播放的步骤，包括：

发送所述目标音频信号至功率放大器，以将所述目标音频信号转换为相应的模拟信号；

通过所述模拟信号驱动相应的扬声器，以进行音频播放。

此外，本发明还提供一种音频播放装置，所述装置包括：

判断模块，用于监测当前所输出的视频画面中是否存在预设特征图像；

获取模块，用于若存在，则获取所述预设特征图像的发声位置信息；

调整模块，用于获取所述视频画面对应的原始音频信号，根据所述发声位置信息调整所述原始音频信号，得到重建声场位置后的目标音频信号；

播放模块，用于输出所述目标音频信号以进行音频播放。

可选地，所述装置还包括：

分离模块，用于对所述原始音频信号进行分离得到所述背景音信号和所述语音信号。

上述本发明音频播放装置的各个功能模块在运行时所实现的步骤，可参照上述本发明音频播放方法的步骤，此处不再赘述。

此外，本发明还提供一种音频播放设备，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的音频播放程序，所述音频播放程序配置为实现如上述的音频播放方法的步骤。

此外，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有音频播放程序，所述音频播放程序被处理器执行时实现如上述的音频播放方法的步骤。

本发明通过监测当前所输出的视频画面中是否存在预设特征图像；若存在，则获取所述预设特征图像的发声位置信息；获取所述视频画面对应的原始音频信号，根据所述发声位置信息调整所述原始音频信号得到重建声场位置后的目标音频信号；输出所述目标音频信号以进行音频播放。

本发明根据发声位置信息对原始音频信号进行调整，重建原始音频信号的声场位置得到目标音频信号后，再进行音频播放，使得用户在观看视频时，所感知的语音位置与所看见的视频画面中的发声位置一致。解决了在播放音频时无法准确还原语音位置，语音临场感较差的技术问题，提升了播放音频时的语音临场感和辨识度，从而提高了用户的观看体验。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的音频播放设备的结构示意图；

图2为本发明一种音频播放方法一实施例的流程示意图；

图3位本发明一种音频播放方法一实施例的具体流程示意图；

图4为本发明一种音频播放方法一实施例中的功能模块工作流程示例图；

图5为本发明一种音频播放装置的功能模块结构关系示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

应当理解，尽管在本文可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本文范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。本申请使用的术语“或”、“和/或”、“包括以下至少一个”等可被解释为包括性的，或意味着任一个或任何组合。

应该理解的是，虽然本申请实施例中的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

为了对发明的技术特征、目的和效果有更加清楚的理解，现对照附图说明本发明的具体实施方式。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的音频播放设备的结构示意图。本发明的音频播放设备可以是电视机、手机、平板电脑等可以播放音视频的电子设备。需要说明的是，本发明的音频播放设备不包括单纯的仅用于播放音乐的设备，例如录音机。

如图1所示，该音频播放设备可以包括：处理器1001，例如中央处理器(CentralProcessing Unit，CPU)，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity，WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory，RAM)存储器，也可以是稳定的非易失性存储器(Non-Volatile Memory，NVM)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的结构并不构成对音频播放设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器1005中可以包括操作系统、数据存储模块、网络通信模块、用户接口模块以及音频播放程序。

在图1所示的音频播放设备中，网络接口1004主要用于与其他设备进行数据通信；用户接口1003主要用于与用户进行数据交互；本发明音频播放设备中的处理器1001、存储器1005可以设置在音频播放设备中，音频播放设备通过处理器1001调用存储器1005中存储的音频播放程序，并执行以下操作：

监测当前所输出的视频画面中是否存在预设特征图像；

若存在，则获取所述预设特征图像的发声位置信息；

输出所述目标音频信号以进行音频播放。

进一步地，处理器1001可以用于调用存储器1005中存储的音频播放程序，还执行以下操作：

间隔预设时长提取当前输出的视频数据中的所述视频画面；

通过所述模拟信号驱动相应的扬声器，以进行音频播放。

为了提升用户的观看体验，在播放视频节目时，对播放设备的画质和音效都具有较高的要求。当视频声源为双声道立体声时，播放设备通过左右两组喇叭来播放音频，通常可以实现较好的立体声效果。但当视频声源为单音频或立体声较差时，仅依赖于左右两组喇叭发声，会出现声音与发声位置不一样的现象，辨识度较低，语音临场感也较差。针对此种情况，现有技术提出了基于虚拟环绕声技术来改善并营造虚拟立体声的方法，但这种方法使用的是固定算法，无法实现对声音的准确定位。因此，现有技术中存在播放音频时无法准确还原语音位置，语音临场感较差的技术问题。

为了解决上述技术问题，本发明提供了一种音频播放方法，所述方法包括：监测当前所输出的视频画面中是否存在预设特征图像；若存在，则获取所述预设特征图像的发声位置信息；获取所述视频画面对应的原始音频信号，根据所述发声位置信息调整所述原始音频信号得到重建声场位置后的目标音频信号；输出所述目标音频信号以进行音频播放。

这种方法通过获取预设特征图像的发声位置信息，根据发声位置信息对原始音频信号进行调整，重建原始音频信号的声场位置得到目标音频信号后，再进行音频播放。由于根据发声位置信息重建了音频信号的声场位置，使得用户在观看视频时，所感知的语音位置与所看见的视频画面中的发声位置一致。解决了在播放音频时无法准确还原语音位置，语音临场感较差的技术问题，提升了播放音频时的语音临场感和辨识度，从而提高了用户的观看体验。

本实施例提供了一种音频播放方法，参照图2，图2为本发明的一种音频播放方法一实施例的流程示意图。

本实施例中，所述音频播放方法包括：

步骤S10，监测当前所输出的视频画面中是否存在预设特征图像。

在本实施例中，执行主体是可以播放视频的电子设备，例如，电视机、手机、平板电脑等。本音频播放方法可以适用于包含有人物且人物发出了说话声音的视频的播放过程中，使得音频播放时发出的人物声音位置与视频画面中说话人的位置一致。预设特征图像是指可以表示人物说话或其他表示发出声音位置的图像，例如，可以是人物嘴唇张开的图像或者包含字幕和人物的图像等。

当前所输出的视频画面是指正在设备上播放的视频画面，检测当前所输出的视频画面中是否存在预设特征图像，例如检测当前播放的视频画面中是否存在人物说话或发出声音的图像。

具体的，例如，提取当前播放视频的视频画面图片，识别所述视频画面图片中是否存在预设特征图像。

步骤S20，若存在，则获取所述预设特征图像的发声位置信息。

在本实施中，若存在，说明此时正在播放的视频画面中存在表示人物发声的预设特征图像，则获取预设特征图像的发声位置信息。其中，发声位置信息即预设特征图像在当前视频画面中或者是在显示屏幕上的位置信息，用于重建原始音频信号的声场信息，使得音频播放时发出的人声与视频画面中说话人的位置一致。

需要说明的是，由于视频画面通常是一个立体空间场景的画面，因此，发声位置信息通常包括预设特征图像在视频画面中二维平面的位置坐标信息，即发声位置位于画面上下左右方位的具体方位信息；还包括三维空间的距离信息，即发声位置与观众的相对位置信息，例如，说话人在视频画面中是在近处说话，还是远处说话的距离信息，又或者是说话人在视频画面中是在左侧说话，还是右侧说话的距离信息。

步骤S30，获取所述视频画面对应的原始音频信号，根据所述发声位置信息调整所述原始音频信号得到重建声场位置后的目标音频信号。

在本实施例中，原始音频信号即视频画面所对应的视频源中的原始音频信号，可以通过从设备前端采集输入的音频信号获得。需要说明的是，由于人物发声时，通常会持续一定时间段，故此时获取或采集原始音频信号也需要连续获取或采集。例如，连续采集所述视频画面对应的原始音频信号，存入缓存区域。

目标音频信号即根据发声位置信息调整原始音频信号后所得到的，重建了声场位置的音频信号。其中，声场位置即声源的位置和方向。由于人类的大脑是根据听到声音的时间差和音量差来感受声场位置的，因此，可以通过调整原始音频信号的幅度、频率、相位等参数，重建其声场位置，得到目标音频信号。

根据发声位置信息调整原始音频信号，可以使得其声场位置与发声位置重合。需要说明的是，声音的立体效果，是由于声源在不同位置达到左右耳的差别产生的，因此，立体声效果通常是由左右两声道音频信号之间的差异而产生的，也就是说，目标音频信号至少需要包括左右两个声道的音频信号，才能实现目标音频信号的声场位置与预设特征图像的发声位置一致的效果。

步骤S40，输出所述目标音频信号以进行音频播放。

在本实施例中，将重建了声场位置的目标音频信号输出至播放设备的功率放大器，再通过扬声器进行音频播放。由于目标音频信号是在重建了原始音频信号的声场位置的基础上所得到的，因而此时在播放音频时，其声场位置与视频画面中的预设特征图像的发声位置是一致的，即用户所听到的人声，是从视频画面中对应的说话人的位置所发出的。

可选地，步骤S40，输出所述目标音频信号以进行音频播放，包括：

步骤S41，发送所述目标音频信号至功率放大器，以将所述目标音频信号转换为相应的模拟信号。

在本实施例中，功率放大器即功放，是指在给定失真率条件下，能产生最大功率输出以驱动某一负载(例如扬声器)的放大器。功放可以将接受到的目标音频信号转换为模拟信号。

在具体实施时，若目标音频信号包括左右两声道的音频信号，则对应存在左右两个功率放大器，分别用于左右两声道音频信号的转换，以得到相应的模拟信号并驱动对应的扬声器发声。

步骤S42，通过所述模拟信号驱动相应的扬声器，以进行音频播放。

在本实施例中，通过模拟信号驱动相应的扬声器发声，即可实现音频播放。例如，通过目标音频信号中的左右两声道的音频信号，分别驱动相应的左右扬声器发声，实现音频播放。

本实施例通过获取预设特征图像的发声位置信息，根据发声位置信息对原始音频信号进行调整，重建原始音频信号的声场位置得到目标音频信号后，再进行音频播放。由于根据视频画面中的发声位置信息，重建了视频所对应音频的声场位置，因此，可以使得用户在观看视频时，所感知的语音位置与所看见的视频画面中的发声位置一致。解决了在播放音频时无法准确还原语音位置，语音临场感较差的技术问题，提升了播放音频时的语音临场感和辨识度，从而提高了用户的观看体验，同时，也提升了视频的播放效果。

进一步的，在本发明的音频播放方法的另一实施例中，步骤S20，获取所述预设特征图像的发声位置信息，包括：

步骤S21，根据所述预设特征图像的大小获取所述预设特征图像的距离信息。

在本实施例中，距离信息即监测到当前所输出的视频画面中存在预设特征图像时，预设特征图像与观众在视觉上的相对距离，例如，当预设特征图像为人物嘴唇张开的图像时，距离信息即为当前播放的视频画面中，正在说话的人物在当前画面场景中，距离观众的远近信息，即说话人是在近处说话，还是在远处说话。

具体地，可以根据识别到的预设特征图像的大小估算发声位置的远近，并通过归一化至(1，10)的由近及远的范围，即可得到所需的预设特征图像的距离信息。

步骤S22，获取所述预设特征图像的发声位置坐标信息，将所述发声位置坐标信息和所述距离信息作为所述发声位置信息。

在本实施例中，发声位置坐标信息即预设特征图像的发声位置在视频画面中的平面位置信息，例如，当预设特征图像为人物嘴唇张开的图像时，发声位置坐标信息即为嘴唇在视频画面中上下左右方位的方位信息。例如，人物是在画面左侧说话还是右侧说话。

具体地，通过获取预设特征图像的发声位置的坐标信息，并归一化至(0，100)的屏幕范围，以获得发声位置坐标信息。例如，当预设特征图像为人物嘴唇张开的图像时，采用[x,y]正交坐标，标记人物嘴唇的位置坐标，再进行归一化得到位置坐标，即可得到发声位置坐标信息。

发声位置信息可以为根据发声位置坐标信息和距离信息得到的三维坐标，例如根据发声位置坐标信息(x，y)和距离信息z得到发声位置信息(x，y，z)。后续步骤根据发声位置信息调整原始音频信号，实际是根据发声位置坐标信息和距离信息调整原始音频信号。

本实施例通过获取预设图像特征的发声位置坐标信息和距离信息得到发声位置信息，以供后续调整原始音频信号，从而实现准确调整原始音频信号，得到重建声场位置后的目标音频信号。

进一步的，在本发明的音频播放方法的另一实施例中，步骤S30，根据所述发声位置信息调整所述原始音频信号得到重建声场位置后的目标音频信号，包括：

步骤S31，根据所述发声位置信息调整所述原始音频信号中的语音信号得到重建声场位置后的目标语音信号。

在本实施例中，原始音频信号通常包括背景音信号和语音信号，其中，语音信号是指音频信号中人物说话声音的信号，例如，人物之间的对话；背景音信号则是指说话声之外的其他声音信号，例如，背景音乐、插曲等。由于本发明仅适用于包含有人物且人物发出了说话声音的视频的播放过程中，使得音频播放时发出的人物声音位置与视频画面中说话人的位置一致，即还原人物发声位置。因此，只需根据发声位置信息调整原始音频信号中的语音信号，得到重建声场位置后的目标语音信号即可。

可选地，步骤S31，根据所述发声位置信息调整所述原始音频信号中的语音信号得到重建声场位置后的目标语音信号之前，还包括：

步骤S01，对所述原始音频信号进行分离得到所述背景音信号和所述语音信号。

在本实施例中，由于仅需对原始音频信号中的语音信号参数进行调整，因此，需要先将原始音频信号中的背景音信号与语音信号分离开来。

具体地，可以采用卡尔曼滤波(Kalman)、最小均方算法(LMS)、递归最小二乘法(RLS)等算法来实现语音信号的提取，从而分离原始音频信号得到背景音信号和语音信号。

为了更好理解，举例说明，假设预设特征图像为人物嘴唇，则如图3所示，首先截取视频图片，识别其中的嘴唇位置；再采集输入的原始音频信号，分离其中的语音信号及背景音信号，即图中的分离语音数据和背景音数据；再根据嘴唇位置信息调整其中的语音信号，即图中的增强语音立体感；将调整后的语音信号与之前分离的背景音信号混合得到目标音频信号，通过扬声器实现最终的音频播放。

本实施例通过分离原始音频信号得到背景音信号和语音信号，使得可以单独对语音信号进行调整，以便实现人声位置的还原，增强语音立体感。

可选地，步骤S31，根据所述发声位置信息调整所述原始音频信号中的语音信号得到重建声场位置后的目标语音信号，包括：

步骤S311，根据所述发声位置坐标信息和所述距离信息分别获取第一系数和第二系数。

在本实施例中，目标语音信号包括左声道语音增强信号和右声道语音增强信号。第一系数用于对上述语音信号的参数进行调整，得到左声道语音增强信号；第二系数用于对上述语音信号的参数进行调整，得到右声道语音增强信号。

具体的，假设发声位置坐标信息为[X_m,Y_m]，距离信息为H_m，第一系数为α_L，第二系数为α_R，则可以依据[X_m,Y_m]和H_m分别计算出左右声道的系数α_L和α_R，具体计算方法如下：

步骤S312，根据所述第一系数调节所述语音信号的参数得到左声道语音增强信号。

在本实施例中，可以根据第一系数调节语音信号的幅度、频率、相位等参数得到左声道增强语音信号。

具体的，假设语音信号为f₁(t)，则可以对f₁(t)做快速傅里叶变换到频域,然后乘以一个频率系数函数行列式后做反快速傅里叶变换获得最终的左声道增强语音信号。其中，左声道的频率系数函数是α_L的函数，各个频率是不同的系数函数，来源于声音指数衰减模型加上实验修正。具体如下：

f_1L(t)＝IFFT([f₀(α_L) f₁(α_L) ... f_n(α_L)]*FFT(f₁(t)))。

步骤S313，根据所述第二系数调节所述语音信号的参数得到右声道语音增强信号。

在本实施例中，可以根据第二系数调节语音信号的幅度、频率、相位等参数得到右声道增强语音信号。

具体的，假设语音信号为f₁(t)，则可以对f₁(t)做快速傅里叶变换到频域,然后乘以一个频率系数函数行列式后做反快速傅里叶变换获得最终的右声道增强语音信号。其中，右声道的频率系数函数是α_R的函数，各个频率是不同的系数函数，来源于声音指数衰减模型加上实验修正。具体如下：

f_1R(t)＝IFFT([f₀(α_R) f₁(α_R) ... f_n(α_R)]*FFT(f₁(t)))。

步骤S314，将所述左声道语音增强信号和所述右声道语音增强信号作为所述重建声场位置后的目标语音信号。

在本实施例中，由于语音的位置，主要是根据声强、相位和时间差来判断的，因此，要实现重建语音信号的声场位置，就需要对语音信号的参数进行不同的调整，得到左右两声道的不同语音信号，进而根据左右声道语音信号的声强、相位和时间差来模拟并还原语音的位置。

因此，重建声场位置后的目标语音信号需要包括：左声道语音增强信号和右声道语音增强信号，即将左声道语音增强信号和右声道语音增强信号作为目标语音信号。

本实施例通过根据发声位置坐标信息和距离信息计算得到不同的系数，以对语音信号的参数进行不同的调整，从而得到不同的左右声道的语音增强信号，即重建了声场位置的目标语音信号，基于左右声道增强语音信号的声强、相位和时间差的差别，实现了模拟并还原语音位置，增强了音频播放时的立体感和语音临场感。

步骤S32，通过将所述目标语音信号与所述原始音频信号中的背景音信号混合，以得到重建声场位置后的所述目标音频信号。

在本实施例中，原始音频信号中的背景音信号无需经过处理，直接与重建声场位置后的语音信号进行混合，即可得到重建声场位置后的目标音频信号。

具体地，如图4所示，在分离原始音频信号中的语音信号和背景音信号后，根据发声位置信息，获得上述第一、第二系数，分别对该语音信号进行调整，即增强语音立体感，分别得到左右声道语音增强信号，即图中的左右声道语音音频，再通过背景音信号分别与左右声道语音增强信号混合后，即可得到包括左右声道语音增强信号的目标语音信号，并分别通过左右扬声器实现最终的音频播放。

本实施例通过先单独调整原始音频信号中的语音信号，再将调整后的语音信号与背景音混合，最终得到目标音频信号，实现了更为精准的重建语音信号的声场位置。

进一步的，在本发明的音频播放方法的另一实施例中，步骤S10，监测当前所输出的视频画面中是否存在预设特征图像，包括：

步骤S11，间隔预设时长提取当前输出的视频数据中的所述视频画面。

在本实施例中，为了准确的还原语音位置，则需要先获取视频画面中的发声位置，因此，可以将预设特征图像设置为人物嘴唇张开的图像，即表示人物可能发声的图像。

要监测视频画面中是否存在预设特征图像，需要先获取待识别的视频画面。由于在播放视频时，说话发声是一个连续的过程，而在此过程中，视频画面通常不会有太大的变化，因此，为了简便及减少运算量，仅需间隔预设时长提取视频画面，并监测该视频画面中是否存在预设特征图像。预设时长可以自行定义，例如，预设时长可以是50毫秒至300毫秒。

此外，在获得视频画面后，可以将所提取的视频画面归一化至标准大小，一方面便于后续的识别过程；另一方面，可以减少由于视频画面图像过大而造成的内存占用过多。

具体的，例如，每间隔50毫秒，通过播放设备的截图功能截取视频画面，并将所述视频画面归一化至标准大小，以供进行预设图像特征的识别。

步骤S12，识别所述视频画面中的人脸图像，以监测所述人脸图像中是否存在所述人物嘴唇张开的图像。

在本实施例中，为了提升识别的准确率，由于现有的人脸识别技术已经较为成熟，准确率也比较高，因此，可以通过现有的人脸识别技术识别视频画面中是否存在人脸图像，再进一步识别人脸图像中是否存在人物嘴唇张开的图片，来识别视频画面中是否存在预设特征图像。

具体地，可以采用Fisherfaces、PCA和SVM等算法或分类器对视频画面进行人脸图像的识别，在识别到人脸图像后，再获取该人脸图像的下半部分，判断是否存在嘴唇张开的图像，即识别视频画面中是否存在预设特征图像。

本实施例通过间隔预设时长采集视频画面，并基于图像识别技术识别视频画面中是否存在人物嘴唇张开的图像，来判断是否存在预设图像特征，进而调整原始音频信号，得到目标音频信号进行音频播放。由于人物嘴唇张开，说明人物发出了说话声，则此时才需要对对应的音频信号进行位置还原，即在需要的时候才调整原始音频信号，实现了减少工作量及计算量的技术效果。

进一步地，本发明实施例还提供一种音频播放装置，如图5所示，本发明的音频播放装置包括：

判断模块10，用于监测当前所输出的视频画面中是否存在预设特征图像；

获取模块20，用于若存在，则获取所述预设特征图像的发声位置信息；

调整模块30，用于获取所述视频画面对应的原始音频信号，根据所述发声位置信息调整所述原始音频信号，得到重建声场位置后的目标音频信号；

播放模块40，用于输出所述目标音频信号以进行音频播放。

优选地，所述获取模块还用于：

优选地，所述调整模块还用于：

优选地，所述装置还包括：

优选地，所述获取模块还用于：

间隔预设时长提取当前输出的视频数据中的所述视频画面；

优选地，所述播放模块还用于：

通过所述模拟信号驱动相应的扬声器，以进行音频播放。

上述本发明音频播放装置的各个功能模块在运行时所实现的步骤，可参照上述本发明音频播放方法的各个实施例，此处不再赘述。

进一步地，本发明实施例还提供一种音频播放设备，所述音频播放设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的音频播放程序，所述音频播放程序配置为实现如上述实施例提供的音频播放方法的步骤，具体实施步骤可参照上述实施例，此处不再过多赘述。

进一步地，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有音频播放程序，所述音频播放程序被处理器执行时实现如上述实施例提供的音频播放方法的步骤，具体实施步骤可参照上述实施例，此处不再过多赘述。

本发明实施例所提供的装置、音频播放设备和计算机可读存储介质，用于实现上述实施例提供的音频播放方法，解决了在播放音频时无法准确还原语音位置，语音临场感较差的技术问题，与现有技术相比，本发明实施例所提供的装置、音频播放设备和计算机可读存储介质的有益效果与上述实施例的音频播放方法的有益效果相同，在此不做赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种音频播放方法，其特征在于，所述音频播放方法包括以下步骤：

监测当前所输出的视频画面中是否存在预设特征图像；

若存在，则获取所述预设特征图像的发声位置信息；

输出所述目标音频信号以进行音频播放。

2.如权利要求1所述的音频播放方法，其特征在于，所述获取所述预设特征图像的发声位置信息的步骤，包括：

3.如权利要求2所述的音频播放方法，其特征在于，所述根据所述发声位置信息调整所述原始音频信号得到重建声场位置后的目标音频信号的步骤，包括：

4.如权利要求3所述的音频播放方法，其特征在于，所述根据所述发声位置信息调整所述原始音频信号中的语音信号得到重建声场位置后的目标语音信号的步骤，包括：

5.如权利要求3所述的音频播放方法，其特征在于，在所述根据所述发声位置信息调整所述原始音频信号中的语音信号得到重建声场位置后的目标语音信号的步骤之前，还包括：

6.如权利要求1至5中任意一项所述的音频播放方法，其特征在于，所述预设特征图像为：人物嘴唇张开的图像，所述监测当前所输出的视频画面中是否存在预设特征图像的步骤，包括：

间隔预设时长提取当前输出的视频数据中的所述视频画面；

7.如权利要求1至5中任意一项所述的音频播放方法，其特征在于，所述输出所述目标音频信号以进行音频播放的步骤，包括：

通过所述模拟信号驱动相应的扬声器，以进行音频播放。

8.一种音频播放装置，其特征在于，所述装置包括：

播放模块，用于输出所述目标音频信号以进行音频播放。

9.一种音频播放设备，其特征在于，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的音频播放程序，所述音频播放程序配置为实现如权利要求1至7中任一项所述的音频播放方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有音频播放程序，所述音频播放程序被处理器执行时实现如权利要求1至7任一项所述的音频播放方法的步骤。