CN117711440B

CN117711440B - 一种音频质量评测方法及相关装置

Info

Publication number: CN117711440B
Application number: CN202311765461.3A
Authority: CN
Inventors: 张力恒; 李凡; 陈靖
Original assignee: Shuhang Technology Beijing Co ltd
Current assignee: Shuhang Technology Beijing Co ltd
Priority date: 2023-12-20
Filing date: 2023-12-20
Publication date: 2024-08-20
Anticipated expiration: 2043-12-20
Also published as: CN117711440A

Abstract

本申请提供了一种音频质量评测方法及相关装置，所述方法涉及音视频领域，所述方法包括：获取待评测音频；对待评测音频进行分类处理，确定待评测音频中的语音片段和音乐片段；根据语音片段的位置信息和音乐片段的位置信息，从待评测音频中提取多个语音片段；对多个语音片段进行质量评测，获得多个语音片段中的每一语音片段的评测结果；基于每一语音片段的评测结果，获得待评测音频的评测结果。根据本申请提供的方法，能够克服现有技术的缺陷，使得音频质量评测结果更为准确。

Description

一种音频质量评测方法及相关装置

技术领域

本申请涉及音视频领域，尤其涉及一种音频质量评测方法及相关装置。

背景技术

随着音频的广泛应用，如语音通信、音乐播放、语音识别等，确保音频质量达到高标准对于用户体验和应用性能至关重要。因此，开发一种准确、可靠的音频质量评测方法对于提供优质的音频服务至关重要。

目前，无参考音频质量评测方法包括：众投主观评分从大量的参与者中收集主观的音频质量评分，然后通过统计和分析这些评分，可以得出平均分数；一些非主观的音频评测算法自动评估音频质量，通常使用机器学习来分析音频的特征，然后给出音频质量评分。

然而，目前已知的无参音质评测算法都不能对包含音乐的音频进行质量评测，如果强行对包含音乐的音频进行质量评测，则存在评测结果不准确的问题。

发明内容

本申请实施例提供了一种音频质量评测方法及相关装置，能够克服现有技术的缺陷，能够实现对音频质量的评测，通过将语音片段从音频中提取出来，使得音频质量评测结果更为准确。

第一方面，本申请实施例提供了一种音频质量评测方法，包括：

获取待评测音频；

对所述待评测音频进行分类处理，确定所述待评测音频中的语音片段和音乐片段；

根据所述语音片段的位置信息和所述音乐片段的位置信息，从所述待评测音频中提取多个所述语音片段；

对多个所述语音片段进行质量评测，获得多个所述语音片段中的每一语音片段的评测结果；

基于所述每一语音片段的评测结果，获得所述待评测音频的评测结果。

可以看到，本申请实施例中，根据语音片段和音乐片段的位置信息，从待评测音频中提取多个语音片段，这样可以提取出只有语音的音频，避免音乐、背景等干扰对评测结果的影响，使得音频质量评测结果更为准确。基于每个语音片段的评测结果，得出待评测音频的整体评测结果。这样可以综合考虑各个语音片段的质量，得出对整个音频的评估，提供一个全面的评测结论。

基于第一方面，在可能的实现方式中，所述对所述待评测音频进行分类处理，确定所述待评测音频中的语音片段和音乐片段，包括：

将所述待评测音频分为多个片段；

提取所述多个片段中每个片段的特征；

根据所述每个片段的特征，确定所述多个片段中的各个片段是所述语音片段还是所述音乐片段。

可以看到，本申请实施例中，将待评测音频分为多个片段，可以便于对音频进行更精细地分析和评估；通过提取每个片段的特征并对特征进行分析，可以准确地将每个片段分类，为后续的评测和分析奠定基础。

基于第一方面，在可能的实现方式中，所述根据所述每个片段的特征，确定所述多个片段中的各个片段是所述语音片段还是所述音乐片段，包括：

将所述每个片段的特征输入卷积神经网络中，获得所述每个片段为所述语音片段的概率和所述每个片段为所述音乐片段的概率；

根据所述每个片段为所述语音片段的概率和所述每个片段为所述音乐片段的概率，确定所述各个片段是所述语音片段还是所述音乐片段。

可以看到，本申请实施例中，利用卷积神经网络对片段类型进行分类，卷积神经网络能够学习到音频片段中的局部特征，从而实现对细小片段的分类。相比传统的基于规则或手工特征提取的方法，卷积神经网络可以更好地捕捉到音频片段中的细微差异，提高分类的精度和准确性。

基于第一方面，在可能的实现方式中，所述待评测音频中包括时间信息，所述语音片段的位置信息指的是所述语音片段在所述待评测音频中的时间位置信息，所述音乐片段的位置信息指的是所述音乐片段在所述待评测音频中的时间位置信息。

基于第一方面，在可能的实现方式中，所述多个片段中的相邻片段在时间位置上存在重叠，则所述多个片段中的所述语音片段与所述音乐片段在时间位置上存在重叠；

在所述对多个所述语音片段进行质量评测之前，所述方法还包括：

将与所述音乐片段在时间位置上存在重叠的所述语音片段删除。

可以看到，本申请实施例中，在对多个语音片段进行质量评测之前，将与音乐片段在时间位置上存在重叠的语音片段删除，可以提高评测的准确性。因为重叠部分的语音片段可能会受到音乐的干扰，导致评测结果不准确。通过删除重叠部分，可以确保评测的对象是纯粹的语音片段，从而提高评测的准确性和可靠性。

基于第一方面，在可能的实现方式中，所述对多个所述语音片段进行质量评测，获得多个所述语音片段中的每一语音片段的评测结果，包括：

将多个所述语音片段输入语音评测模型中，获得多个所述语音片段中的每一语音片段的评测结果；所述语音评测模型包括特征提取层、卷积层、自注意力网络层以及注意力池化层，其中，

所述特征提取层用于提取多个所述语音片段中的每一语音片段的特征；

所述卷积层用于对所述每一语音片段的特征进行降维处理，获得所述每一语音片段的降维特征；

所述自注意力网络层用于基于自注意力机制对各个语音片段的降维特征进行加权处理，获得所述每一语音片段的加权特征；

所述注意力池化层用于根据所述每一语音片段的加权特征对所述每一语音片段进行评测，获得所述每一语音片段的评测结果。

可以看到，本申请实施例中，该语音评测模型通过特征提取、降维、自注意力和注意力池化等层的组合，能够提取语音片段的有用特征，捕捉上下文信息，并根据加权特征进行评测。这样可以提高评测的准确性和鲁棒性，为每个语音片段提供准确的评测结果。

基于第一方面，在可能的实现方式中，所述方法应用于直播或点播场景中。

第二方面，本申请实施例提供了语音评测模型的训练方法，包括：

获取多个参考语音片段和所述多个参考语音片段对应的标签，所述多个参考语音片段中的每个参考语音片段对应的标签包括多个用户对所述参考语音片段的评测结果的均值；

基于所述多个参考语音片段和所述多个参考语音片段对应的标签进行训练，获得语音评测模型，所述语音评测模型中的损失函数中包括对所述参考语音片段进行评测的用户数量。

可以看到，本申请实施例中，通过使用多个参考语音片段和对应的标签进行训练，并将评测用户数量添加至损失函数中，可以提高语音评测模型的客观性、可靠性和泛化能力。这样可以使模型更好地适应不同用户的评测需求，提供准确、一致的评测结果。

基于第二方面，在可能的实现方式中，所述语音评测模型是经过多轮训练获得的，在每一轮训练中，所述损失函数用于对当前参考语音片段的预测误差与评测所述当前参考语音片段的用户数量的α次幂之间的乘积求均方根误差，其中，所述当前参考语音片段的预测误差为所述当前参考语音片段对应的标签与所述语音评测模型对所述当前参考语音片段输出的评测结果之间的差值，α为可调参数。

可以看到，本申请实施例中，通过多轮训练和使用考虑预测误差和评测用户数量的损失函数，可以逐步优化语音评测模型的性能和准确度，这样可以使语音评测模型更好地适应不同用户的评测需求，提供准确、一致的评测结果，并通过调整参数α实现对评测权重的灵活控制。

第三方面，本申请实施例提供了一种音频质量评测装置，包括：

获取模块，用于获取待评测音频；

确定模块，用于对所述待评测音频进行分类处理，确定所述待评测音频中的语音片段和音乐片段；

提取模块，用于根据所述语音片段的位置信息和所述音乐片段的位置信息，从所述待评测音频中提取多个所述语音片段；

质量评测模块，用于对多个所述语音片段进行质量评测，获得多个所述语音片段中的每一语音片段的评测结果；

所述质量评测模块还用于，基于所述每一语音片段的评测结果，获得所述待评测音频的评测结果。

基于第三方面，在可能的实现方式中，所述确定模块用于：

将所述待评测音频分为多个片段；

提取所述多个片段中每个片段的特征；

基于第三方面，在可能的实现方式中，所述确定模块还用于：

基于第三方面，在可能的实现方式中，所述待评测音频中包括时间信息，所述语音片段的位置信息指的是所述语音片段在所述待评测音频中的时间位置信息，所述音乐片段的位置信息指的是所述音乐片段在所述待评测音频中的时间位置信息。

基于第三方面，在可能的实现方式中，所述多个片段中的相邻片段在时间位置上存在重叠，则所述多个片段中的所述语音片段与所述音乐片段在时间位置上存在重叠；

提取模块用于，将与所述音乐片段在时间位置上存在重叠的所述语音片段删除。

基于第三方面，在可能的实现方式中，质量评测模块用于，将多个所述语音片段输入语音评测模型中，获得多个所述语音片段中的每一语音片段的评测结果；所述语音评测模型包括特征提取层、卷积层、自注意力网络层以及注意力池化层，其中，

第三方面中的各个功能模块用于实现上述第一方面以及第一方面的任意一种的实现方式所述的方法。

第四方面，本申请实施例提供了一种语音评测模型的训练装置，包括：

获取模块，用于获取多个参考语音片段和所述多个参考语音片段对应的标签，所述多个参考语音片段中的每个参考语音片段对应的标签包括多个用户对所述参考语音片段的评测结果的均值；

训练模块，用于基于所述多个参考语音片段和所述多个参考语音片段对应的标签进行训练，获得语音评测模型，所述语音评测模型中的损失函数中包括对所述参考语音片段进行评测的用户数量。

基于第四方面，在可能的实现方式中，所述语音评测模型是经过多轮训练获得的，在每一轮训练中，所述损失函数用于对当前参考语音片段的预测误差与评测所述当前参考语音片段的用户数量的α次幂之间的乘积求均方根误差，其中，所述当前参考语音片段的预测误差为所述当前参考语音片段对应的标签与所述语音评测模型对所述当前参考语音片段输出的评测结果之间的差值，α为可调参数。

第四方面中的各个功能模块用于实现上述第二方面以及第二方面的任意一种的实现方式所述的方法。

第五方面，本申请实施例提供了一种计算设备，包括存储器和处理器，所述存储器用于存储指令，所述处理器用于执行所述存储器中存储的所述指令，以实现上述第一方面以及第一方面的任意一种可能的实现方式所描述的方法，或者，以实现上述第二方面以及第二方面的任意一种可能的实现方式所描述的方法。

第六方面，本申请实施例提供了一种计算机存储介质，包括程序指令，当所述程序指令被设备执行时，使得所述设备执行第一方面以及第一方面的任意一种可能的实现方式所描述的方法，或者，使得所述设备执行第二方面以及第二方面的任意一种可能的实现方式所描述的方法。

第七方面，本申请提供了一种计算机程序产品，包括程序指令，当该计算机程序产品被计算设备执行时，该计算设备用于执行前述第一方面以及第一方面的任意一种可能的实现方式所述的方法，或者，用于执行前述第二方面以及第二方面的任意一种可能的实现方式所述的方法。该计算机程序产品可以为一个软件安装包，在需要使用前述第一方面或第二方面的任一种可能的设计提供的方法的情况下，可以下载该计算机程序产品并在设备上执行该计算机程序产品，以实现第一方面以及第一方面的任意一种可能的实现方式所述的方法，或者，以实现第二方面以及第二方面的任意一种可能的实现方式所述的方法。

附图说明

为了更清楚地说明本申请实施例或背景技术中的技术方案，下面将对本申请实施例或背景技术中所需要使用的附图进行说明。

图1是本申请提供的一种系统架构示意图；

图2是本申请提供的在直播场景下的音频质量评测流程图；

图3是本申请提供的在点播场景下的音频质量评测流程图；

图4是本申请提供的一种音频质量评测方法的流程示意图；

图5是为本申请提供的确定待评测音频类型的流程示意图；

图6是本申请提供的卷积神经网络的结构图；

图7是本申请提供的语音评测模型结构示意图；

图8是本申请提供的获得多个语音片段中的每一语音片段的评测结果的流程示意图；

图9是本申请提供的一种语音评测模型的训练方法的流程示意图；

图10是本申请提供的又一种系统架构的示意图；

图11是本申请实施例涉及的一种卷积神经网络(CNN)的结构示意图；

图12是本申请提供的一种音频质量评测的装置的结构示意图；

图13是本申请提供的一种语音评测模型的训练装置的结构示意图；

图14是本申请提供的一种计算设备的结构示意图。

具体实施方式

下面结合本申请实施例中的附图对本申请实施例进行描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

需要说明的是，当在本说明书和所附权利要求书中使用时，术语“包括”以及它们的任何变形，意图在于覆盖不排他的包含。例如包含了一系列单元/器件的系统、产品或者装置没有限定于已列出的单元/器件，而是可选地还包括没有列出的单元/器件，或者还可选地包括这些产品或者装置固有的其他单元/器件。

还应当理解，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”或“在…的情况下”。

在直播或点播场景中，直播或点播场景中的音频中通常包含有音乐。比如，在某一段音频中，既包含音乐又包含主播的语音，其中音乐是作为主播的语音的背景音乐(background music，BGM)的形式出现的，即音乐和主播的语音在时间上存在重叠。又比如，在某一段音频中，既包含音乐又包含主播的语音，但音乐和主播的语音在时间上是不重叠的。

对于这种直播或点播场景中的包含音乐的音频，通常是无法对音频进行打分评测的。

本申请提供了一种对直播或点播场景中的音频进行打分评测的方法。在介绍本申请提供的方法实施例之前，先介绍一下本申请的系统架构。

参见图1，图1为本申请提供的一种系统架构示意图，所述系统涉及至少一个终端110、至少一个网络设备120和至少一个服务器130。

终端110，例如可以是台式电脑、笔记本、手机终端、平板、服务器等。用户(主播)可以通过终端110进行直播。终端110可以用于存储用户(主播)直播中的音视频以及直播过的音视频，终端110还用于将用户(主播)的音视频通过网络设备发送至服务器130。

网络设备120用于终端110通过任何通信机制/通信标准的通信网络与服务器130之间进行通信。其中，通信网络可以是广域网、局域网、点对点连接等方式，或它们的任意组合。比如，网络设备120用于将终端110上的音视频发送至服务器130。

服务器130，例如可以是位于云中的计算设备，例如中心服务器，其中，云可以是私有云，也可以是公有云，也可以是混合云。服务器130用于接收终端110发送的音视频，并对音视频进行处理，比如，本申请中，服务器130用于接收终端110发送的音频，并对音频进行一系列处理，最终得到音频的打分结果。

图1所示的系统架构仅仅是一种示例，并不构成对本申请的限定。

本申请提供的音频评测系统可以应用于直播或者点播场景下。在直播场景中，视频内容通常是实时的，观众可以在直播过程中与主播进行互动，例如通过弹幕、评论等方式。直播场景常见于各种实时事件的传输，如体育赛事、新闻报道、游戏直播、在线教育等。直播场景的特点是实时性和互动性，观众可以即时观看到正在发生的内容，并与其他观众和主播进行交流。参见图2，图2为本申请提供的在直播场景下的音频质量评测流程图。下面对在直播场景下的音频质量评测的流程进行详细介绍。

(1)输入直播间地址

使用音质评测系统的相关人员，比如直播平台的管理员、技术人员或者音质评测系统的操作员等使用特定的工具或者界面，输入直播间地址以便从直播流中提取音频。其中，直播间地址可以是直播平台上的直播间链接或者其他形式。

(2)直播视频片段拉取

根据输入的直播间地址进行拉流，从而获取音频。其中，拉流是指从直播源获取实时的音视频数据流的过程。根据输入的直播间地址，通过与直播平台建立连接并使用相应的流媒体协议，可以实现从直播平台拉取直播流的操作。这个过程中，可以设置拉流的周期，按照设定的时间间隔保存音视频数据，例如，每2分钟保存一个2分钟的视频，形成短时段的视频文件。这样的分段保存有利于后续处理和存储管理。

(3)解码音频流

在拉流过程中，获取到的音频数据通常是经过压缩编码的。解码音频流是将音频数据从压缩格式还原为原始的音频信号，以便后续的音频评测。

(4)输入到音频评测系统

将解码后的音频信号传递给音频评测系统，通过音频评测系统的分析和评估，可以获得对音频质量的评测，以指导后续的处理和改进。

在点播场景中，视频内容是提前制作好并存储在服务器上，观众可以根据自己的时间和兴趣选择观看。点播场景常见于各种视频平台、在线课程、电影、电视剧等。点播场景的特点是灵活性和可选择性，观众可以根据自己的喜好和时间安排自由选择观看内容。参见图3，图3为本申请提供的在点播场景下的音频质量评测流程图。下面对在直播场景下的音频质量评测的流程进行详细介绍。

(1)输入点播视频索引

通过输入点播视频的索引，方便快速找到所需视频，索引可以包含视频的标题、描述、关键词、分类等信息。

(2)获取点播视频

根据点播视频索引获取音频。这可以通过多种方式实现，包括从音频供应商的服务器下载、从云存储中获取、通过流媒体传输等。

(3)解码音频流

获取到音频数据后，使用相应的解码器对音频数据进行解码，将其还原为原始的音频信号。解码过程与在直播场景下解码音频流的过程相似。

(4)输入到音频评测系统

将解码后的音频信号传递给音频评测系统进行音频质量评测。

在一种实现方式中，可以预先设置一个阈值，将得到的待评测音频的评测结果与阈值比较，若分数低于阈值的时候，可以在客户端进行音频增强的处理，即对音频解码后先通过一些处理来增强音质后再播放给用户。

下面介绍一下本申请提供的音频质量评测方法。参见图4，图4为本申请提供的一种音频质量评测方法的流程示意图，所述方法包括但不限于以下内容的描述。

S101、获取待评测音频。

音频中包括多个语音片段、多个音乐片段，多个语音片段在时间上是不连续的，多个音乐片段在时间上是不连续的。

在一种实现方式中，在直播场景下，获取音频数据通常涉及到拉流技术。其中，拉流指的是通过网络连接从一个远程音视频源服务器获取数据，以便在本地进行播放、处理或存储。通过输入直播间地址，系统可以使用拉流协议从直播源服务器获取音频数据。这个过程中，可以设置拉流的周期，按照设定的时间间隔保存音视频数据，例如，每2分钟保存一个2分钟的视频，形成短时段的视频文件。这样的分段保存有利于后续处理和存储管理。

在另一种实现方式中，在点播场景下，获取音视频数据则可能牵涉到从云端点播服务获取音视频文件。用户提供的点播视频索引可能是一个标识，指向云端存储中的特定视频文件。系统可以通过索引调用点播服务接口，获取相应的音频数据。在这个过程中，也可以实现按需拉取，即只获取用户需要的特定片段，而不必下载整个视频文件。

无论是直播还是点播，获取音频数据都需要考虑音频流的解码和处理。在直播场景中，可以实时解码并保存为本地文件。在点播场景下，可以通过流媒体解析技术实现按需解析和获取所需的音频数据。

S102、对待评测音频进行分类处理，确定待评测音频中的语音片段和音乐片段。

对待评测音频进行分类处理，确定待评测音频是语音片段还是音乐片段。具体流程参见图5，图5为本申请提供的确定待评测音频类型的流程示意图。

S1021、将音频分成多个第一固定时长的片段。

将音频分成多个第一固定时长的片段，例如，每个片段长度为8秒。通过将音频切割成多个第一固定时长的片段，使得能够对每个片段进行更精细化的处理和分析。其中，片段的长度可以根据具体需求进行调整，本申请不做具体限定。

可选地，在将视频划分多个第一固定时长的片段时，可以将每相邻两个片段之间保留一定时间长度的重叠区域，例如，每相邻的两个片段之间可以保留2秒的重叠区域。重叠区域的存在，可以保证相邻片段之间的平滑过渡，避免在切割过程中产生突兀的跳跃感。其中，重叠区域的时间长度也可以根据实际要求来设置，以满足不同应用场景的需求，本申请不做具体限定。

S1022、将多个第一固定时长的片段中的每一个片段继续划分为多个第二固定时长的帧。

将多个第一固定时长的片段中的每一个片段继续划分为多个第二固定时长的帧，例如，每帧持续时间可以设置25毫秒，能够更加准确地捕捉音频信号的瞬态特征。其中，关于每帧的持续时间，本申请不做具体限定。

可选地，每相邻的两个帧也可以设置一定时间长度的重叠区域来确保在帧与帧之间的平滑过渡，例如，重叠区域的时间长度可以设置为15毫秒，也可以根据实际需求来设置，本申请不做具体限定。

S1023、计算每一个第二固定时长的帧的梅尔谱。

梅尔谱是一种在声音信号处理中广泛使用的表示方式，用于描述音频信号在不同频率上的能量分布。它通过模拟人耳听觉系统的特性，更好地捕捉音频信号的特征。

计算每一个第二固定时长的帧的梅尔谱可以将每帧的音频信号从时域转换为频域，以便更好地分析其频谱特性。梅尔谱强调了音频信号在人耳感知中的重要频率区域，有助于降低维度、减少计算量，并提高特征的可区分性。

在一种实现方式中，首先，将每一个第二固定时长的帧进行短时傅里叶变换以将信号从时域转换为频域，设计一组梅尔滤波器，这些滤波器的中心频率在梅尔刻度上均匀分布，并且这些滤波器模拟了人耳的感知特性，可以更好地捕捉音频信号的重要频率区域；然后，计算每个帧在各个滤波器上的响应，在这个过程中会将每个频谱分量与相应的滤波器进行卷积运算；接着，计算每个滤波器带内的能量，可以采用平方和或者对数运算来获得更符合人耳感知的结果；最后，将每个滤波器带内的能量组合成梅尔谱，从而完成对每一个第二固定时长的帧的梅尔谱的计算。

梅尔谱通常是一个矩阵，其中每一列代表一个音频帧，每一行代表不同的梅尔频率带。每个元素表示对应频率带内的能量或振幅。因此，梅尔谱可以看作是一个矩阵，用于表示音频信号在不同时间和频率上的特征。梅尔谱的维数通常取决于滤波器的数量，较高的维数可以更全面地捕捉频谱信息，但是也会增加计算量。例如，可以将梅尔谱的维数设置为64，既可以涵盖足够多的频率带，以捕捉音频中的重要信息，也不至于计算量过大。关于梅尔谱的维数，本申请不做具体限定。

S1024、将多个第一固定时长的片段的梅尔谱输入到卷积神经网络中，得出多个第一固定时长的片段的预测结果。

将多个第一固定时长的片段的梅尔谱输入到卷积神经网络中，卷积神经网络通过学习梅尔谱特征可以更好地理解音频信号的内容，输出多个第一固定时长的片段的预测结果，其中，预测结果可以为语音和音乐存在的概率值。将语音概率值与预先设置的第一阈值进行比较，若大于第一阈值则说明当前片段存在语音；将音乐概率值与预先设置的第一阈值进行比较，若大于第一阈值则说明当前片段存在音乐。

在一种实现方式中，将多个第一固定时长的片段的梅尔谱输入到卷积神经网络中，神经网络包含二维卷积网络层、批归一化层、线性整流函数层、全连接层等。参见图6，图6为本申请提供的卷积神经网络的结构图。二维卷积网络层用于学习输入的梅尔谱特征；批归一化层用于加速神经网络训练过程，通过对每个批次的输入进行归一化，即将输入的均值和方差进行标准化，有助于缓解梯度消失问题，加速收敛，提高网络的稳定性；线性整流函数层用于将所有负输入值置为零，保持正值不变。这有助于网络的非线性建模和特征的稀疏激活，有助于网络学习复杂的特征。其中，可以通过重复应用二维卷积网络、批归一化层和线性整流函数的组合来增加模型的深度和提取更多层次的特征。具体地，这个组合会被循环应用33次，每次循环都包括一个二维卷积层、一个批归一化层和一个线性整流函数。通过这种循环的方式，模型可以逐渐构建更复杂的特征表示，从而更好地捕捉输入数据的结构和模式。全连接层位于卷积神经网络的最后一层，用于将前一层提取的特征映射到最终的输出。卷积神经网络的输出维度可以为20×2，第一个维度20对应固定时间长度片段中不同时间分片段的预测结果，第二个维度2对应语音和音乐两者的存在概率。第一阈值设置为0.5，将语音概率值与0.5进行比较，若大于0.5则说明当前片段存在语音；将音乐概率值与0.5进行比较，若大于0.5则说明当前片段存在音乐。

S103、根据语音片段的位置信息和音乐片段的位置信息，从待评测音频中提取多个语音片段。

待评测音频中包括时间信息，语音片段的位置信息指的是语音片段在待评测音频中的时间位置信息，音乐片段的位置信息指的是音乐片段在待评测音频中的时间位置信息。

在一种实现方式中，多个片段中的相邻片段在时间位置上存在重叠，则多个片段中的语音片段与音乐片段在时间位置上存在重叠。因此，将与音乐片段在时间位置上存在重叠的语音片段删除。

在一种实现方式中，将得出的多个第一固定时长的片段的预测结果与时间轴对应起来，将语音相邻片段融合在一起，得到数个语音片段，将音乐相邻片段融合在一起，得到数个音乐片段，其中，每个片段都有开始时间与结束时间。将语音片段的时间长度与第二阈值进行比较，在小于第二阈值的情况下，将语音片段剔除，将音乐片段的时间长度与第三阈值进行比较，在小于所述第三阈值的情况下，将音乐片段剔除。根据时间信息处理语音片段，把与音乐时间上存在重叠的语音片段剔除，最终得到只有语音活动的数个片段。

例如，第二阈值设置为0.8秒，将数个语音片段的时间长度依次与第二阈值进行比较，若该语音片段的时间长度小于0.8秒，将该语音片段剔除，这有助于过滤掉非常短暂的语音片段，以保留更具意义的语音内容；第三阈值设置为0.3秒，将数个音乐片段的时间长度依次与第三阈值进行比较，若该音乐片段的时间长度小于0.3秒，将该音乐片段剔除，这有助于过滤掉非常短暂的音乐片段，以保留更长的音乐内容。

将只有语音活动的数个片段拼接在一起，得到长度为M的语音音频。

将长度为M秒的语音音频继续进行分割，提取出多个第一固定时长的语音片段，如果分割过程中有存在不足第一固定时长但是大于第四阈值的片段，则进行补零操作。其中，M为任意正数。

在一种实现方式中，将只有语音活动的数个片段拼接在一起，得到长度为67秒的语音音频，对长度为67秒的语音音频继续进行分割，提取出长度为10秒的7个语音片段，其中，最后一个语音片段不足10秒，可以在该语音片段的开头补零，使其达到10秒的时间长度。这可以通过在该语音片段前面插入零值的样本点来实现。或者，在该语音片段的末尾补零，使其达到10秒的时间长度。这可以通过在该语音片段末尾追加零值的样本点来实现。在另一种实现方式中，提取多个第二固定时长的片段中的每个第二固定时长的片段的特征，将各个第一固定时长的片段的特征输入卷积神经网络中，确定各个第一固定时长的片段是语音片段还是音乐片段；对各个第一固定时长的片段中的语音片段进行拼接、分割处理，获得多个第一固定时长的语音片段。

S104、对多个语音片段进行质量评测，获得多个语音片段中的每一语音片段的评测结果。

将多个第一固定时长的语音片段输入训练好的语音评测模型中，语音评测模型主要分为四层，分别为：特征提取层、卷积层、自注意力网络层以及注意力池化层。参见图7，图7为本申请提供的语音评测模型结构示意图，将多个语音片段中的每一语音片段输入到特征提取层，提取多个语音片段中的每一语音片段的特征；将特征提取层的特征输入到卷积层，对每一语音片段的特征进行降维处理，获得每一语音片段的降维特征；将卷积层的将为特征输入到自注意力网络层，基于自注意力机制对各个语音片段的降维特征进行加权处理，获得每一语音片段的加权特征；将注意力网络层的加权特征输入到注意力池化层，根据每一语音片段的加权特征对每一语音片段进行评测，获得每一语音片段的评测结果。通过语音评测模型可以获得多个语音片段中的每一语音片段的评测结果。为了便于理解，下面将介绍实现过程。具体流程参见图8，图8为本申请提供的获得多个语音片段中的每一语音片段的评测结果的流程示意图。

S1041、计算多个第一固定时长的语音片段中的每一个第一固定时长的语音片段的梅尔谱。

计算多个第一固定时长的语音片段中的每一个第一固定时长的语音片段的梅尔谱特征的方法与S1023类似，为了申请的简洁性，这里不再赘述。

S1042、将每一个第一固定时长的语音片段的梅尔谱输入到卷积层中。

将每一个第一固定时长的语音片段的梅尔谱输入到卷积层中，进一步提取语音片段的局部特征。其中，卷积层可以通过多次重复应用来增加模型的深度。例如，可以选择将卷积层堆叠起来，重复应用6次，以增加模型的深度和复杂度。每一次卷积层的输出将作为下一次卷积层的输入。卷积层的输出是一系列局部特征映射，这些特征捕获了音频片段的频域信息。这些特征经过一维化操作，将每个语音片段的特征变成一维向量形式，以便进一步处理。

S1043、将卷积层输出的特征输入到自注意力网络层中。

自注意力网络层用于基于自注意力机制对各个语音片段的降维特征进行加权处理，获得所述每一语音片段的加权特征。自注意力网络将卷积层的一维特征向量作为输入，通过自注意力机制对输入的数据中的不同部分进行加权，从而关注全局语音片段之间的交互信息，提高特征的表达能力。

S1044、将自注意力网络层的输出特征输入到注意力池化层，得到多个语音片段中的每一语音片段的评测结果。

注意力池化层用于根据每一语音片段的加权特征对每一语音片段进行评测，获得每一语音片段的评测结果。注意力池化层为序列中的每个元素分配不同的权重，以便更好地捕捉重要元素。将自注意力网络层的输出特征输入到注意力池化层，通过加权汇聚得到N个语音片段的评测结果。注意力池化层可以根据每个语音片段的重要性对特征进行加权，聚焦于与音质评估相关的特征，提高模型的准确性和鲁棒性。最终，通过注意力池化层操作，输出每个语音片段的评测结果。

S105、基于每一语音片段的评测结果，获得待评测音频的评测结果。

将多个第一固定时长的语音片段输入训练好的语音评测模型中，获得多个第一固定时长的语音片段中的各个第一固定时长的语音片段的评测结果，每个评测结果都存在一个时间长度，根据它们的时间进行加权求和，得到待评测音频的评测结果。计算公式如下所示：

其中，MOS_overall代表整段音频的总体评测结果，MOS_i代表每个第一固定时长的语音片段的评测结果，T_i代表每段语音片段的时长，i为整段音频的语音片段数量，N为任意正整数。

在一种实现方式中，可以预先设置一个阈值，将得到的待评测音频的评测与阈值比较，若分数低于阈值的时候，可以在客户端进行音频增强的处理，即对音频解码后先通过一些处理来增强音质后再播放给用户。

可以看到，本申请提供的音频质量评测的方法应用于直播，点播场景中。而直播、点播场景下音频中常常包含语音和音乐两种不同类型的声音的情况，因此，本申请提供的音频质量评测首先从音频中将语音和音乐进行分离，提取出多个语音片段。然后，将提取出的多个语音片段输入到模型中并对每段语音片段进行评测，其中，模型中加入卷积神经网络并且在卷积神经网络中引入基于投票人数信息的损失函数，利用投票人数信息来减少数据集中存在的噪声影响，从而有效提升模型的精度。最后，将得出的多个语音片段的评测结果进行加权求和输出最终整段音频的总体评测结果。所以，通过实施本实施例，可以克服现有技术的局限性，提升在直播、点播场景下音频质量评测的准确性。

上述方法实施例中对语音进行质量评测用到了语音评测模型，下面介绍一下语音评测模型是如何获得的。

参见图9，图9为本申请提供的一种语音评测模型的训练方法的流程示意图，所述方法包括但不限于以下内容的描述。

S201、获取多个参考语音片段和多个参考语音片段对应的标签。

获取多个参考语音片段和所述多个参考语音片段对应的标签。在一种实现方式中，在语音评测模型中，训练的数据集可以从开源数据集中获取多个参考语音片段，多个参考语音片段中的每个参考语音片段对应的标签包括多个用户对参考语音片段的评测结果的均值。

例如，多个参考语音片段包括参考语音片段1、参考语音片段2、参考语音片段3，n个用户分别对参考语音片段1、参考语音片段2、参考语音片段3进行评测，计算参考语音片段1的平均评测分数，即获得了参考语音片段1的标签，计算参考语音片段2的平均评测分数，即获得了参考语音片段2的标签，同理，参考语音片段3的标签也是按照这个方法获得，这里不再赘述。

S202、基于多个参考语音片段和多个参考语音片段对应的标签进行训练，获得语音评测模型。

语音评测模型包括特征提取层、卷积层、自注意力网络层以及注意力池化层，其中，特征提取层用于提取多个参考语音片段中的每一参考语音片段的特征；卷积层用于对每一参考语音片段的特征进行降维处理，获得每一参考语音片段的降维特征；自注意力网络层用于基于自注意力机制对各个参考语音片段的降维特征进行加权处理，获得每一参考语音片段的加权特征；注意力池化层用于根据每一参考语音片段的加权特征对每一参考语音片段进行评测，获得每一参考语音片段的评测结果。

不同用户对于同一个音频比较容易打出不一样的分数，随着打分的用户变多，均值会趋于稳定，因此可以认为每个音频的分数都是含噪的。为了减少这种噪声对于语音评测模型学习的影响，提出了一种基于投票人数的损失函数来提升语音评测模型的精度。在语音评测模型的损失函数中，加入每个标签对应的投票人数和可调参数。损失函数如下所示：

其中，Loss为损失函数，RMSE表示均方根误差，y表示每个参考语音片段对应的标签，表示所述语音评测模型每一次迭代训练输出的评测结果，votes表示对参考语音片段进行评测的用户数量，α表示可调参数，取值范围为(0-1/2]。例如，α可以取值为1/4。通过加入可调参数，可以提升投票人数对应标签的重要性。

特别地，α取值为1/2时，可以认为每个人的主观意见都平等的反映在Loss中。原因是均方根误差(root mean square error，RMSE)是一种度量预测值与实际值之间差异的指标，常用于评估回归模型的性能。计算步骤包括：(1)计算每个样本的预测误差，即模型的预测值减去实际值(2)计算平均误差，即对每个样本的预测误差进行平方(3)计算平均平方误差，即对所有样本的平方误差进行平均(4)计算均方根误差RMSE，即对平均平方误差取平方根。由于均方根误差函数中有去平方的操作，当α取值为1/2时，平方和1/2正好抵消为1，相当于将每个人的主观意见都平等的反映在Loss中。

通过前向传播计算语音评测模型的预测值，并将预测值与标签进行比较，得到损失函数的值。然后，通过反向传播算法计算损失函数对于语音评测模型参数的梯度，根据梯度信息，使用优化算法(如梯度下降法)来更新语音评测模型的参数，使得损失函数的值逐渐减小。通过迭代这个过程，语音评测模型的参数会不断调整，使得语音评测模型能够更好地拟合训练数据。在训练过程中，可以监控语音评测模型在训练集和验证集上的性能指标，如准确率、损失值等。根据监控结果，可以进行语音评测模型调优，如调整学习率、增加正则化项等，以提高语音评测模型的性能和泛化能力。当满足训练停止条件，比如达到最大迭代次数或者损失函数收敛，语音评测模型训练终止。

可以看到，本申请提供了一种语音评测模型的训练方法，在语音评测模型的损失函数中，引入每个标签对应的投票人数和可调参数。这样，模型在训练过程中会根据投票人数的权重来调整对于不同音频的学习程度。当一个音频的评分来自于更多的投票人数时，其权重会更高，模型会更加重视这个音频的学习。相反，当一个音频的评分来自于较少的投票人数时，其权重会较低，模型对于这个音频的学习程度会相对较低。通过引入投票人数的权重，损失函数可以更好地平衡不同音频的学习程度，减少个体差异和噪声对于模型的影响。这样，模型可以更加准确地学习到音频的质量特征，提高语音评测模型的精度和鲁棒性。

如图10所示，本申请实施例提供了又一种系统架构400的示意图。参见图10，数据采集设备460用于采集数据，这里的数据采集设备460可以包括摄像头和麦克风等设备，例如，对于直播场景，数据采集设备460可以是专业的直播摄像头和麦克风，用于采集主播的音频和视频内容。

在采集到数据之后，数据处理设备470将采集到的数据进行处理得到训练数据，使最终的训练数据为只包含语音活动的固定长度的语音片段。本申请实施例中训练数据包括固定长度的语音片段和标签，标签包括由多个听众听取一段音频，对它的音质进行打分取平均来获得的打分结果。

在训练数据进行处理后，数据处理设备470将这些训练数据存入数据库430，训练设备420基于数据库430中维护的训练数据训练得到识别模型413。

下面对训练设备420基于训练数据得到识别模型413进行描述，训练设备420的输入数据有固定长度的语音片段和标签，训练设备420对输入的固定长度的语音片段进行处理，将输出的打分结果与标签中的由多个听众听取一段音频，对它的音质进行打分取平均来获得音质的主观评分进行对比，直到训练设备420输出的打分结果与标签中的打分结果之间的差异小于预设阈值，则将输出的打分结果认为可以替代标签中的打分结果，从而完成识别模型413的训练。

上述识别模型413能够用于实现本申请实施例提供的音频质量评测的方法，将待处理的音频数据输入该识别模型413，即可得到各个音频数据的打分结果。需要说明的是，在实际的应用中，所述数据库430中维护的训练数据不一定都来自于数据处理设备470，也有可能是从其他设备获取得到的。另外需要说明的是，训练设备420也不一定完全基于数据库430维护的训练数据进行识别模型413的训练，也有可能从其他设备获取训练数据进行模型训练，上述描述不应该作为对本申请实施例的限定。训练设备420可以独立于执行设备410存在，也可以集成于执行设备410内部。

根据训练设备420训练得到的识别模型413可以应用于不同的系统或设备中，如应用于图10所示的执行设备410，所述执行设备410可以是云端的服务器、虚拟机等，在图10中，执行设备410配置输入/输出(input/output，I/O)接口412，用于与外部设备进行数据交互，用户可以通过用户设备440向I/O接口412输入数据，I/O接口412也可以将打分结果输出至用户设备440。输入数据在本申请实施例中可以包括包含语音片段，用户设备440可以包括各种终端设备，用于与执行设备410进行交互。例如，用户设备440可以是智能手机，用户可以通过其录制音频片段并将其发送到执行设备410以获取音质评估。此外，用户设备440也可以是个人计算机，用户可以使用浏览器界面与执行设备410进行音质评估的交互。还可以是智能音箱，用户可以通过语音命令触发音质评估。

在本申请实施例中，计算模块411用于对输入/输出数据进行处理，例如，将识别模型413输出的多个语音片段的打分结果进行加权求和，得到音频的总体打分结果。

在执行设备410对输入数据进行处理，或者在执行设备410的计算模块411执行计算等相关的处理过程中，执行设备410可以调用数据存储系统450中的数据、代码等以用于相应的处理，也可以将相应处理得到的数据、指令等存入数据存储系统450中。

需要说明的是，训练设备420可以针对不同的目标或称不同的任务，基于不同的训练数据生成相应的识别模型413，该相应的识别模型413可以用于实现上述目标或完成上述任务，从而为用户提供所需的结果。

本申请实施例中描述的识别模型以卷积神经网络(convolutional neuralnetworks，CNN)为基础构型，下面对卷积神经网络进行描述。本申请中，卷积神经网络模型可以用于从音频中确定各个固定时长的片段是语音片段还是音乐片段，还可以用于对各个固定时长的语音片段进行打分。

卷积神经网络是一种带有卷积结构的深度神经网络，可以是一种深度学习(deeplearning)架构，深度学习架构是指通过机器学习的算法，在不同的抽象层级上进行多个层次的学习。作为一种深度学习架构，CNN是一种前馈(feed-forward)人工神经网络，该前馈人工神经网络中的各个神经元对输入其中的图像中的重叠区域作出响应。

卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器。该特征抽取器可以看作是滤波器，卷积过程可以看作是使用一个可训练的滤波器与一个输入的图像或者卷积特征平面(feature map)做卷积。卷积层是指卷积神经网络中对输入信号进行卷积处理的神经元层。在卷积神经网络的卷积层中，一个神经元可以只与部分邻层神经元连接。一个卷积层中，通常包含若干个特征平面，每个特征平面可以由一些矩形排列的神经单元组成。同一特征平面的神经单元共享权重，这里共享的权重就是卷积核。共享权重可以理解为提取图像信息的方式与位置无关。这其中隐含的原理是：图像的某一部分的统计信息与其他部分是一样的。即意味着在某一部分学习的图像信息也能用在另一部分上。所以对于图像上的所有位置，我们都能使用同样的学习得到的图像信息。在同一卷积层中，可以使用多个卷积核来提取不同的图像信息，一般地，卷积核数量越多，卷积操作反映的图像信息越丰富。卷积核可以以随机大小的矩阵的形式初始化，在卷积神经网络的训练过程中卷积核可以通过学习得到合理的权重。另外，共享权重带来的直接好处是减少卷积神经网络各层之间的连接，同时又降低了过拟合的风险。

卷积神经网络可以采用误差反向传播(back propagation，BP)算法在训练过程中修正初始的超分辨率模型中参数的大小，使得超分辨率模型的重建误差损失越来越小。具体地，前向传递输入信号直至输出会产生误差损失，通过反向传播误差损失信息来更新初始的超分辨率模型中参数，从而使误差损失收敛。反向传播算法是以误差损失为主导的反向传播运动，旨在得到最优的超分辨率模型的参数，例如权重矩阵。

参见图11，图11为本申请实施例涉及的一种卷积神经网络(CNN)500的结构示意图。如图11所示，卷积神经网络(CNN)500可以包括输入层510，卷积层/池化层520，以及神经网络层530。

输入层510可以处理多维数据，例如，输入层可以获取并处理样本数据；常见地，一维卷积神经网络的输入层接收一维或二维数组，其中一维数组通常为时间或频谱采样；二维数组可能包含多个通道；二维卷积神经网络的输入层接收二维或三维数组；三维卷积神经网络的输入层接收四维数组。

由于使用梯度下降进行学习，卷积神经网络的输入特征可进行标准化处理。具体地，在将学习数据输入卷积神经网络前，需在通道或时间/频率维对输入数据进行归一化处理。输入特征的标准化有利于提升算法的运行效率和学习表现。

卷积层/池化层520可以包括如示例521-526层，在一种实现中，521层为卷积层，522层为池化层，523层为卷积层，524层为池化层，525为卷积层，526为池化层；在另一种实现方式中，521、522为卷积层，523为池化层，524、525为卷积层，526为池化层。即卷积层的输出可以作为随后的池化层的输入，也可以作为另一个卷积层的输入以继续进行卷积操作。

以卷积层521为例，卷积层521可以包括很多个卷积算子，卷积算子也称为卷积核，其在图像处理中的作用相当于一个从输入图像矩阵中提取特定信息的过滤器，卷积算子本质上可以是一个权重矩阵，这个权重矩阵通常被预先定义，在对图像进行卷积操作的过程中，权重矩阵通常在输入图像上沿着水平方向一个像素接着一个像素(或两个像素接着两个像素……这取决于步长stride的取值)的进行处理，从而完成从图像中提取特定特征的工作。该权重矩阵的大小应该与图像的大小相关，需要注意的是，权重矩阵的纵深维度(depth dimension)和输入图像的纵深维度是相同的，在进行卷积运算的过程中，权重矩阵会延伸到输入图像的整个深度。因此，和一个单一的权重矩阵进行卷积会产生一个单一纵深维度的卷积化输出，但是大多数情况下不使用单一权重矩阵，而是应用维度相同的多个权重矩阵。每个权重矩阵的输出被堆叠起来形成卷积图像的纵深维度。不同的权重矩阵可以用来提取图像中不同的特征，例如一个权重矩阵用来提取图像边缘信息，另一个权重矩阵用来提取图像的特定颜色，又一个权重矩阵用来对图像中不需要的噪点进行模糊化……该多个权重矩阵维度相同，经过该多个维度相同的权重矩阵提取后的特征图维度也相同，再将提取到的多个维度相同的特征图合并形成卷积运算的输出。

这些权重矩阵中的权重值在实际应用中需要经过大量的训练得到，通过训练得到的权重值形成的各个权重矩阵可以从输入图像中提取信息，从而帮助卷积神经网络500进行正确的预测。本申请中是对固定长度的语音片段和标签进行训练，其中，标签包括由多个听众听取一段音频，对它的音质进行打分取平均来获得的打分结果，使卷积神经网络模型输出各个语音片段的打分结果。

需要说明的是，上述521-526层仅仅为示例，实际上还可设置更多的卷积层和/或更多的池化层。当卷积神经网络500有多个卷积层的时候，初始的卷积层(例如521)往往提取较多的一般特征，该一般特征也可以称之为低级别的特征；随着卷积神经网络500深度的加深，越往后的卷积层(例如526)提取到的特征越来越复杂，比如高级别的语义之类的特征。本申请实施例利用了不同尺度的特征以辅助解决相关技术问题。

由于常常需要减少训练参数的数量，因此卷积层之后常常需要周期性的引入池化层，即如图11中520所示例的521-526各层，可以是一层卷积层后面跟一层池化层，也可以是多层卷积层后面接一层或多层池化层。在图像处理过程中，池化层可用来减少图像的空间大小。池化层可以包括平均池化算子和/或最大池化算子，以用于对输入图像进行采样得到较小尺寸的图像。平均池化算子可以在特定范围内对图像中的像素值进行计算产生平均值。最大池化算子可以在特定范围内取该范围内值最大的像素作为最大池化的结果。另外，就像卷积层中用权重矩阵的大小应该与图像大小相关一样，池化层中的运算符也应该与图像的大小相关。通过池化层处理后输出的图像尺寸可以小于输入池化层的图像的尺寸，池化层输出的图像中每个像素点表示输入池化层的图像的对应子区域的平均值或最大值。

通常来讲，卷积层中的卷积核包含权重系数(权重矩阵)，而池化层不包含权重系数，因此在一些场景中，也可将池化层不视为独立的层。

在经过卷积层/池化层520的处理后，卷积神经网络500还不足以输出所需要的输出信息。因为如前所述，卷积层/池化层520只会提取特征，并减少输入图像带来的参数。然而为了生成最终的输出信息，卷积神经网络500需要利用神经网络层530来生成一个或者一组所需要的类的数量的输出。因此，在神经网络层530中可以包括多层隐含层(如图11所示的531、532至53n)以及输出层540，该多层隐含层中所包含的参数可以根据具体的任务类型的相关训练数据进行预先训练得到。

卷积神经网络中的隐含层例如包括全连接(fully-connected，FC)层，全连接层通常只向其它全连接层传递信号。特征图在全连接层中会失去3维结构，被展开为向量并通过激励函数传递至下一层。在一些可能卷积神经网络中，全连接层的功能可部分由全局均值池化(global average pooling)取代，全局均值池化会将特征图每个通道的所有值取平均。

在神经网络层530中的多层隐含层之后，也就是整个卷积神经网络500的最后层为输出层540，该输出层540具有类似分类交叉熵的损失函数，具体用于计算预测误差，一旦整个卷积神经网络500的前向传播(如图11由510至540的传播为前向传播)完成，反向传播(如图11由540至510的传播为反向传播)就会开始更新前面提到的各层的权重值以及偏差，以减少卷积神经网络500的损失及卷积神经网络500通过输出层输出的结果和理想结果之间的误差。

输出层540可使用逻辑函数或归一化指数函数(softmax function)输出分类标签。例如，本申请中是识别各个语音片段的特征，以获得各个语音片段的打分结果，所以输出层可设计为输出各个语音片段的打分结果。

需要说明的是，如图11所示的卷积神经网络500仅作为一种卷积神经网络的示例，在具体的应用中，卷积神经网络还可以以其他网络模型的形式存在，例如，将多个卷积层/池化层并行，将分别提取的特征均输入给神经网络层530进行处理。

本申请提供了一种音频质量评测的装置，参见图12，图12为本申请提供的一种音频质量评测的装置600的结构示意图，装置600包括：

获取模块610，用于获取待评测音频；

确定模块620，用于对待评测音频进行分类处理，确定待评测音频中的语音片段和音乐片段；

提取模块630，用于根据语音片段的位置信息和音乐片段的位置信息，从待评测音频中提取多个语音片段；

质量评测模块640，用于对多个语音片段进行质量评测，获得多个语音片段中的每一语音片段的评测结果；

质量评测模块640还用于，基于每一语音片段的评测结果，获得待评测音频的评测结果。

在可能的实现方式中，确定模块620用于：

将待评测音频分为多个片段；

提取多个片段中每个片段的特征；

根据每个片段的特征，确定多个片段中的各个片段是语音片段还是音乐片段。

在可能的实现方式中，确定模块620还用于：

将每个片段的特征输入卷积神经网络中，获得每个片段为语音片段的概率和每个片段为音乐片段的概率；

根据每个片段为语音片段的概率和每个片段为音乐片段的概率，确定各个片段是语音片段还是音乐片段。

在可能的实现方式中，待评测音频中包括时间信息，语音片段的位置信息指的是语音片段在待评测音频中的时间位置信息，音乐片段的位置信息指的是音乐片段在待评测音频中的时间位置信息。

在可能的实现方式中，多个片段中的相邻片段在时间位置上存在重叠，则多个片段中的语音片段与音乐片段在时间位置上存在重叠；提取模块630用于将与音乐片段在时间位置上存在重叠的语音片段删除。

在可能的实现方式中，质量评测模块640用于将多个语音片段输入语音评测模型中，获得多个语音片段中的每一语音片段的评测结果；语音评测模型包括特征提取层、卷积层、自注意力网络层以及注意力池化层，其中，

特征提取层用于提取多个语音片段中的每一语音片段的特征；

卷积层用于对每一语音片段的特征进行降维处理，获得每一语音片段的降维特征；

自注意力网络层用于基于自注意力机制对各个语音片段的降维特征进行加权处理，获得每一语音片段的加权特征；

注意力池化层用于根据每一语音片段的加权特征对每一语音片段进行评测，获得每一语音片段的评测结果。

图12中的各个功能模块用于实现图4至图8方法实施例的步骤，具体可参见图4至图8方法实施例中相关内容的描述，为了说明书的简洁在此不再赘述。

本申请提供了一种语音评测模型的训练装置，参见图13，图13为本申请提供的一种语音评测模型的训练装置700的结构示意图，装置700包括：

获取模块710，用于获取多个参考语音片段和多个参考语音片段对应的标签，多个参考语音片段中的每个参考语音片段对应的标签包括多个用户对参考语音片段的评测结果的均值；

训练模块720，用于基于多个参考语音片段和多个参考语音片段对应的标签进行训练，获得语音评测模型，语音评测模型中的损失函数中包括对参考语音片段进行评测的用户数量。

在可能的实现方式中，语音评测模型是经过多轮训练获得的，在每一轮训练中，损失函数用于对当前参考语音片段的预测误差与评测当前参考语音片段的用户数量的α次幂之间的乘积求均方根误差，其中，当前参考语音片段的预测误差为当前参考语音片段对应的标签与语音评测模型对当前参考语音片段输出的评测结果之间的差值，α为可调参数。

图13中的各个功能模块用于实现图9方法实施例的步骤，具体可参见图9方法实施例中相关内容的描述，为了说明书的简洁在此不再赘述。

本申请还提供了一种计算设备，参见图14，图14为本申请提供的一种计算设备800的结构示意图，当计算设备配置为装置600时，计算设备用于实现图4至图8所述的方法实施例；当计算设备配置为装置700时，计算设备用于实现图9所述的方法实施例。计算设备800包括：处理器810、通信接口820以及存储器830。其中，处理器810、通信接口820以及存储器830可以通过内部总线840相互连接，也可通过无线传输等其他手段实现通信。

以通过总线840连接为例，总线840可以是外设组件互联(peripheral componentinterconnect，PCI)总线或工业标准结构(extended industry standard architecture，EISA)总线等。总线840可以分为地址总线、数据总线、控制总线等。为便于表示，图14中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

处理器810可以由至少一个通用处理器构成，例如CPU，或者CPU和硬件芯片的组合。上述硬件芯片可以是专用集成电路(application-specific integrated circuit，ASIC)、可编程逻辑器件(programmable logic device，PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complex programmable logic device，CPLD)、现场可编程逻辑门阵列(field-programmable gate array，FPGA)、通用阵列逻辑(generic array logic，GAL)或其任意组合。处理器810执行各种类型的数字存储指令，例如存储在存储器830中的软件或者固件程序，它能使计算设备800提供较宽的多种服务。

存储器830用于存储程序代码，并由处理器810来控制执行，以执行上述图4至图8实施例所述的步骤，具体可以参考上述所示实施例的相关描述，此处不再展开赘述。

存储器830可以包括易失性存储器，例如RAM；存储器830也可以包括非易失性存储器，例如ROM、快闪存储器(flash memory)；存储器830还可以包括上述种类的组合。

通信接口820可以为有线接口(例如以太网接口)，可以为内部接口(例如高速串行计算机扩展总线(peripheral component interconnect express,PCIE)总线接口)、有线接口(例如以太网接口)或无线接口(例如蜂窝网络接口或使用无线局域网接口)，用于与其他设备或模块进行通信。

该计算设备800中的处理器810、通信接口820等可以实现上述各个方法实施例中所具有的功能和/或所实施的各种步骤和方法，为了简洁，在此不再赘述。当计算设备配置于装置600中，装置600中的获取模块610、确定模块620、提取模块630、质量评测模块640可以位于计算设备800中的处理器810中。当计算设备配置于装置700中，装置700中的获取模块710、训练模块720可以位于计算设备800中的处理器810中。

需要说明的，图14仅仅是本申请实施例的一种可能的实现方式，实际应用中，装置还可以包括更多或更少的部件，这里不作限制。关于本申请实施例中未示出或未描述的内容，可参见前述方法所述实施例中的相关阐述，这里不再赘述。

本申请还提供了一种可读存储介质，包括程序指令，当所述程序指令由设备执行时，设备执行上述音频质量评测方法实施例中所描述的部分或全部步骤。

本申请还提供了一种计算机程序产品，包括程序指令，当所述程序指令被设备运行时，使得设备执行上述音频质量评测方法实施例中所描述的部分或全部步骤。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

在上述实施例中，可以全部或部分地通过软件、硬件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品可以包含代码。当计算机程序产品被计算机读取并执行时，可以实现上述方法实施例中记载的方法的部分或者全部步骤。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如软盘、硬盘、磁带)、光介质、或者半导体介质等。

本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并或删减；本申请实施例装置中的单元可以根据实际需要进行划分、合并或删减。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种音频质量评测方法，其特征在于，所述方法包括：

获取待评测音频；

基于所述每一语音片段的评测结果，获得所述待评测音频的评测结果；

所述对多个所述语音片段进行质量评测，获得多个所述语音片段中的每一语音片段的评测结果，包括：

将多个所述语音片段输入语音评测模型中，获得多个所述语音片段中的每一语音片段的评测结果；所述语音评测模型是基于多个参考语音片段和所述多个参考语音片段对应的标签进行训练所得到，所述多个参考语音片段中的每个参考语音片段对应的标签包括多个用户对所述参考语音片段的评测结果的均值，所述语音评测模型中的损失函数中包括对所述参考语音片段进行评测的用户数量。

2.根据权利要求1所述的方法，其特征在于，所述对所述待评测音频进行分类处理，确定所述待评测音频中的语音片段和音乐片段，包括：

将所述待评测音频分为多个片段；

提取所述多个片段中每个片段的特征；

3.根据权利要求2所述的方法，其特征在于，所述根据所述每个片段的特征，确定所述多个片段中的各个片段是所述语音片段还是所述音乐片段，包括：

4.根据权利要求1所述的方法，其特征在于，所述待评测音频中包括时间信息，所述语音片段的位置信息指的是所述语音片段在所述待评测音频中的时间位置信息，所述音乐片段的位置信息指的是所述音乐片段在所述待评测音频中的时间位置信息。

5.根据权利要求2所述的方法，其特征在于，所述多个片段中的相邻片段在时间位置上存在重叠，则所述多个片段中的所述语音片段与所述音乐片段在时间位置上存在重叠；

6.根据权利要求1至5任一项所述的方法，其特征在于，所述语音评测模型包括特征提取层、卷积层、自注意力网络层以及注意力池化层，其中，

7.根据权利要求1至5任一项所述的方法，其特征在于，所述方法应用于直播或点播场景中。

8.一种语音评测模型的训练方法，其特征在于，包括：

9.根据权利要求8所述的方法，其特征在于，所述语音评测模型是经过多轮训练获得的，在每一轮训练中，所述损失函数用于对当前参考语音片段的预测误差与评测所述当前参考语音片段的用户数量的α次幂之间的乘积求均方根误差，其中，所述当前参考语音片段的预测误差为所述当前参考语音片段对应的标签与所述语音评测模型对所述当前参考语音片段输出的评测结果之间的差值，α为可调参数。

10.一种音频质量评测装置，其特征在于，所述装置包括：

获取模块，用于获取待评测音频；

所述质量评测模块还用于，基于所述每一语音片段的评测结果，获得所述待评测音频的评测结果；

其中，所述质量评测模块还用于将多个所述语音片段输入语音评测模型中，获得多个所述语音片段中的每一语音片段的评测结果；所述语音评测模型是基于多个参考语音片段和所述多个参考语音片段对应的标签进行训练所得到，所述多个参考语音片段中的每个参考语音片段对应的标签包括多个用户对所述参考语音片段的评测结果的均值，所述语音评测模型中的损失函数中包括对所述参考语音片段进行评测的用户数量。

11.一种语音评测模型的训练装置，其特征在于，包括：

12.一种计算设备，其特征在于，包括存储器和处理器，所述存储器用于存储指令，所述处理器用于执行所述存储器中存储的所述指令，以实现如权利要求1至7任一项所述的方法，或者，以实现如权利要求8至9任一项所述的方法。

13.一种计算机存储介质，其特征在于，包括程序指令，当所述程序指令被计算设备执行时，使得所述计算设备执行如权利要求1至7任一项所述的方法，或者，使得所述计算设备执行如权利要求8至9任一项所述的方法。