CN105405448A

CN105405448A - 一种音效处理方法及装置

Info

Publication number: CN105405448A
Application number: CN201410472853.5A
Authority: CN
Inventors: 王影; 孙见青; 江源; 胡国平; 胡郁; 刘庆峰
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2014-09-16
Filing date: 2014-09-16
Publication date: 2016-03-16
Anticipated expiration: 2034-09-16
Also published as: CN105405448B

Abstract

本发明公开了一种音效处理方法及装置，该方法包括：采集声音信号；确定所述声音信号对应的声音类型；选择与所述声音类型对应的音效处理方法对所述声音信号进行音效处理。利用本发明，能够有效改善音效处理的效果。

Description

一种音效处理方法及装置

技术领域

本申请涉及信号处理技术领域，尤其涉及一种音效处理方法及装置。

背景技术

随着互联网快速发展和终端应用的普及开发，越来越多的用户得以更方便地在终端设备上在线K歌，大大提高了用户唱歌的便利性，改善了用户体验。然而终端设备产品上的在线K歌应用使得用户K歌环境复杂化，系统采集到的声音输入可能不仅包括人声，还包括唱歌时外放的伴奏声及各种存在的环境噪声等，例如，在用户使用耳机录音时，外界听不到音乐伴奏声，此时采集到的声音为纯人声；反之当用户将外放开启时，如利用音箱播放音乐，此时采集的声音中将混有少量伴奏音；而在嘈杂的环境中，采集到的声音还将含有噪声等干扰。声源输入的复杂性给音效处理造成了很大的困难，同时也影响了K歌产品的用户体验。

目前，移动终端采用的音效处理方法是对采集的声音输入基于统一原则进行优化，即对不同的声音输入类型均按照预设的指定音效处理方法进行效果处理。然而不同的声音输入，如纯人声及带伴奏的人声在数据分布上有很大的不同，采用统一的方法对声音输入进行音效处理显然过于笼统，无法满足音效优化效果。

发明内容

为解决上述技术问题，本申请实施例提供一种音效处理方法及装置，能够改善音效处理的效果。技术方案如下：

一种音效处理方法，包括：

采集声音信号；

确定所述声音信号对应的声音类型；

选择与所述声音类型对应的音效处理方法对所述声音信号进行音效处理。

优选地，所述确定所述声音信号对应的声音类型，包括：

对所述声音信号进行分帧；

对每一帧声音信号进行端点检测，获得所述声音信号的浊音段和噪音段；

计算所述声音信号的所述浊音段的信噪比；

根据所述信噪比确定所述声音信号对应的声音类型。

优选地，所述确定所述声音信号对应的声音类型，包括：

提取所述声音信号的声学特征；

计算所述声学特征与预先获得的各声音类型模型的似然值；

将具有最大似然值的声音类型模型作为所述声音信号对应的声音类型。

优选地，在所述计算所述声学特征与预先获得的各声音类型模型的似然值之前，还包括：

获得各声音类型模型；

所述获得各声音类型模型，包括：

收集多组训练数据，所述训练数据包括标准声音信号对应的不同类型的声音信号；

提取所述训练数据的声学特征；

根据所述训练数据的声学特征进行模型训练获得不同类型的声音信号对应的声音类型模型。

优选地，在所述选择与所述声音类型对应的音效处理方法对所述声音信号进行音效处理之前，还包括：

获得所述声音信号的信噪比；

所述选择与所述声音类型对应的音效处理方法对所述声音信号进行音效处理，包括：

根据所述声音信号的信噪比及所述声音信号的声音类型选择音效处理方法对所述声音信号进行音效处理。

优选地，所述选择与所述声音类型对应的音效处理方法对所述声音信号进行音效处理，包括：

当所述声音信号的信噪比小于第一信噪比阈值，且声音类型为纯人声声音类型时，降低所述声音信号的低频部分，提高中低频和中高频部分；

当所述声音信号的信噪比大于或等于所述第一信噪比阈值，且声音类型为纯人声音类型时，减小所述声音信号的人声音轨的最大电平与音轨平均电平之间的差别，提高所述声音信号的高频部分；

当所述声音信号的信噪比小于所述第一信噪比阈值，且声音类型为带伴奏的声音类型时，提高所述声音信号的中高频及高频部分，并减少混响时间；

当所述声音信号的信噪比大于或等于所述第一信噪比阈值，且声音类型为带伴奏的声音类型时，提高所述声音信号的高频部分，对高频部分进行补偿，去除低频部分。

优选地，所述方法还包括：

对进行音效处理后的声音信号进行混音处理。

优选地，所述对进行音效处理后的声音信号进行混音处理包括：

确定所述声音信号所属的歌曲类型；

查找所述声音信号所属的歌曲类型对应的人声与伴奏的第一能量比条件；

计算所述声音信号中人声与伴奏的第二能量比；

当所述第二能量比不满足所述第一能量比条件时，根据所述第一能量比条件调整所述声音信号中的人声或伴奏；

将调整后的所述声音信号中的人声和伴奏进行混音。

一种音效处理装置，包括：

信号采集单元，用于采集声音信号；

类型确定单元，用于确定所述声音信号对应的声音类型；

音效处理单元，用于选择与所述声音类型对应的音效处理方法对所述声音信号进行音效处理。

优选地，所述类型确定单元包括：

分帧子单元，用于对所述声音信号进行分帧；

检测子单元，用于对每一帧声音信号进行端点检测，获得所述声音信号的浊音段和噪音段；

第一计算子单元，用于计算所述声音信号的所述浊音段的信噪比；

第一确定子单元，用于根据所述信噪比确定所述声音信号对应的声音类型。

优选地，所述类型确定单元包括：

提取子单元，用于提取所述声音信号的声学特征；

第二计算子单元，用于计算所述声学特征与预先获得的各声音类型模型的似然值；

第二确定子单元，用于将具有最大似然值的声音类型模型作为所述声音信号对应的声音类型。

优选地，所述装置还包括：

模型获取单元，用于在所述第二计算子单元计算所述似然值之前，获得各声音类型模型；

所述模型获取单元包括：

收集子单元，用于收集多组训练数据，所述训练数据包括标准声音信号对应的不同类型的声音信号；

特征提取子单元，用于提取所述训练数据的声学特征；

模型训练子单元，用于根据所述训练数据的声学特征进行模型训练获得不同类型的声音信号对应的声音类型模型。

优选地，所述装置还包括：

数据获取单元，用于在所述音效处理单元进行音效处理之前，获得所述声音信号的信噪比；

所述音效处理单元，具体用于根据所述声音信号的信噪比及所述声音信号的声音类型选择音效处理方法对所述声音信号进行音效处理。

优选地，所述音效处理单元，具体用于当所述声音信号的信噪比小于第一信噪比阈值，且声音类型为纯人声声音类型时，降低所述声音信号的低频部分，提高中低频和中高频部分；当所述声音信号的信噪比大于或等于所述第一信噪比阈值，且声音类型为纯人声声音类型时，减小所述声音信号的人声音轨的最大电平与音轨平均电平之间的差别，提高所述声音信号的高频部分；当所述声音信号的信噪比小于所述第一信噪比阈值，且声音类型为带伴奏的声音类型时，提高所述声音信号的中高频及高频部分，并减少混响时间；当所述声音信号的信噪比大于或等于所述第一信噪比阈值，且声音类型为带伴奏的声音类型时，提高所述声音信号的高频部分，对高频部分进行补偿，去除低频部分。

优选地，所述装置还包括：

混音处理单元，用于对进行音效处理后的声音信号进行混音处理。

优选地，所述混音处理单元包括：

第三确定子单元，用于确定所述声音信号所属的歌曲类型；

查找子单元，用于查找所述声音信号所属的歌曲类型对应的人声与伴奏的第一能量比条件；

第三计算子单元，用于计算所述声音信号中人声与伴奏的第二能量比；

调整子单元，用于当所述第二能量比不满足所述第一能量比条件时，根据所述第一能量比条件调整所述声音信号中的人声或伴奏；

混音子单元，用于将调整后的所述声音信号中的人声和伴奏进行混音。

本发明实施例至少具有以下有益效果：

本发明实施例通过对采集到的声音信号进行区分，并针对不同的声音类型采用不同的方法进行音效处理，使得音效处理进一步细化，从而得到了更优的音效效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一种音效处理的方法流程图；

图2为本发明实施例中一种确定声音信号对应的声音类型的方法流程图；

图3为本发明实施例中另一种确定声音信号对应的声音类型的方法流程图；

图4为本发明实施例中一种获得声音类型模型的方法流程图；

图5为本发明实施例中一种对进行音效处理后的声音信号进行混音处理的方法流程图；

图6为本发明实施例一种音效处理装置的结构示意图；

图7为本发明实施例中一种类型确定单元的结构示意图；

图8为本发明实施例中另一种类型确定单元的结构示意图；

图9为本发明实施例另一种音效处理装置的结构示意图；

图10为本发明实施例中一种模型获取单元的结构示意图；

图11为本发明实施例另一种音效处理装置的结构示意图；

图12为本发明实施例中一种混音处理单元的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

参见图1，为本发明实施例一种音效处理的方法流程图。

该方法可以包括：

步骤101，采集声音信号。

该声音信号可能不仅包括人声，还可能包括其他环境声音，例如唱歌时外放的伴奏声以及各种存在的环境噪声等。

步骤102，确定声音信号对应的声音类型。

本发明实施例中可以采用信号分析法或者数学统计模型法等多种分析方法来依据该声音信号的声学特征确定该声音信号所对应的声音类型，具体地，信号分析的方法是通过分析输入声音的信噪比或能量等特征来确定声音的类型，数学统计模型的方法是通过提取输入声音的声学特征如MFCC(Mel频率倒谱系数)通过统计建模的方法来确定声音的类型，本案采用基于DNN的方法进行统计建模，具体请参见后续实施例的描述。其中，声音类型可以包括纯人声、带伴奏的人声等。

步骤103，选择与声音类型对应的音效处理方法对声音信号进行音效处理。

预先设置不同声音类型对应的音效处理方法，在上述步骤确定声音信号的声音类型后，触发对应的音效处理方法对声音信号进行音效处理。其中，预设的音效处理方法可以包括纯人声和带伴奏的人声的音效处理方法等。

在本发明一实施例中，该确定声音信号对应的声音类型的方法可以采用基于信号分析的方法，具体如图2所示，该方法可以包括：

步骤201，对声音信号进行分帧。

首先将该声音信号划分为多个语音帧。

步骤202，对每一帧声音信号进行端点检测，获得声音信号的浊音段和噪音段。

在本步骤中对每一帧声音信号的端点检测包括：

首先，计算每帧声音信号的短时平均能量和短时平均过零率；短时平均能量和短时平均过零率是语音信号处理中常见的信号分析方法，所谓短时能量，就是先对语音信号进行分帧处理，然后对每一帧分别求其能量。浊音的短时能量最大，清音的短时能量次之，无声的短时能量最小。短时过零率表示一帧语音信号波形穿过横轴(零电平)的次数。

然后，分别比较每帧声音信号的短时平均能量与预先设置的短时平均能量的较高门限T1，比较每帧声音信号的的短时平均过零率与预先设置的短时平均过零率的较高门限T2。一般浊音段能量较高，其短时平均能量较大，短时平均过零率较小，而噪音段的短时平均能量较小，短时平均过零率较高。因此，当语音帧的短时平均能量大于T1，短时平均过零率小于T2时，该语音帧属于浊音段，当语音帧的短时平均能量小于T1，短时平均过零率大于T2时，该语音帧属于噪音段，由此，可以获得声音信号中的浊音段和噪音段。

步骤203，计算声音信号的浊音段的信噪比。

一般情况下，信噪比越大说明信号强度越大，噪声越小。信噪比越小说明信号强度越小噪声越大。当信噪比达到60db以上时，基本上噪声是可接受的。该信噪比的计算方法与现有技术类似，信噪比db＝10log(S/N)，此处不再赘述。

步骤204，根据该信噪比确定声音信号对应的声音类型。

具体的可以设置第二信噪比阈值，若当前声音信号的信噪比小于设定的第二信噪比阈值，则可以判定当前声音信号的声音类型为带有伴奏的人声，否则声音类型为纯人声。

上述信号分析方法一般对环境较敏感，分析结果容易受环境影响而出现误差，在本发明一实施例中，该确定声音信号对应的声音类型的方法可以采用基于数学统计模型分析的方法，具体如图3所示，该方法可以包括：

步骤301，提取声音信号的声学特征。

本步骤中可以提取常用的声学特征为Mel频率倒谱系数，简称为MFCC。

步骤302，计算该声学特征与预先获得的各声音类型模型的似然值。

在执行本步骤之前预先收集大量数据并进行声学特征提取，然后训练得到不同声音类型的分布模型，具体如后续实施例所述。该不同声音类型的分布模型实际表征的是不同声音类型的声学特征。

在本步骤中分别计算声音信号的声学特征与不同声音类型的分布模型之间的似然值。该似然值的计算方法与现有技术类似，此处不再赘述。

步骤303，将具有最大似然值的声音类型模型作为该声音信号对应的声音类型。

其中，在采用上述基于数学统计模型分析的方法确定声音信号对应的声音类型之前需要预先获得各声音类型模型，声音类型模型构建可以采用各种不同模型假设，如GMM模型，HMM模型等。一般来说模型越复杂，则其分布模拟精度越高。对此，本案提出了一种基于神经网络的声音分布模型构建方法，用于模拟纯人声及带伴奏的人声的分布特点，该获得声音类型模型的方法，如图4所示，可以包括：

步骤401，收集多组训练数据，该训练数据包括标准声音信号对应的不同类型的声音信号。

本步骤中，首先收集标准声音信号对应的不同类型的声音信号作为训练数据，以该声音信号为歌声为例进行说明，本实施例中首先收集N首歌曲的两种不同类型数据作为训练数据，即针对同一首歌曲分别采集纯人声和含有伴奏的人声等两种类型的数据，则训练数据共2N首歌曲。本案均衡训练效率和精度，选择N＝500，采样率为16kHz。

步骤402，提取训练数据的声学特征。

本步骤对训练数据进行分帧，并提取每帧语音的13维MFCC谱特征，并将当前帧及前后5帧语音的13维MFCC特征及其动态参数作为DNN的输入，以考虑到上下文相关信息。

步骤403，根据训练数据的声学特征进行模型训练获得不同类型的声音信号对应的声音类型模型。

以训练DNN模型为例进行说明。具体包括：

首先，确定DNN模型拓扑结构。本步骤设置DNN输入层为429个节点(13*3*11，考虑到静态及动态参数，每帧语音的特征维数为39维，考虑到上下文信息，使用当前帧及其前后5帧的特征，共11帧特征参数)，用于接收声学特征；输出层表示各分类信息，用0、1表示，其中0表示纯人声，1表示含有伴奏的人声，包括2个节点；其隐层采用3层设置，其中每个隐层的节点数为2048个。

然后，根据训练数据对该DNN模型拓扑结构进行训练，获得模型参数，即DNN的权重系数。特别的本案利用开发集数据，调整合适的参数更新次数，如20次，进行模型优化。

该进行模型训练并最终获得模型的过程为现有技术，此处不再赘述。

通过上述信号分析或数学统计模型分析等方法即可确定声音信号所对应的具体声音类型，然后利用预置的不同声音类型对应的音效模板的处理方法对声音信号进行处理，获取优化的音效结果。

在另一实施例中，考虑到不同的噪音环境下对声音信号的音效处理方法应该存在较大的差异，对此本案还根据声音信号的不同信噪比范围对音效处理方法进一步细分，根据声音信号的信噪比及声音信号的声音类型选择音效处理方法对声音信号进行音效处理，具体包括：

当声音信号的信噪比小于第一信噪比阈值，且声音类型为纯人声声音类型时，通过均衡器适当降低声音信号的低频部分0-80Hz，如降低5分贝左右，提升中低频150Hz-500Hz部分，如提升约5分贝左右，用于提高声音的力度和响度；而对于中高频2KHz-5KHz则可提升约2到3分贝，提高声音的穿透力等；

当声音信号的信噪比大于或等于第一信噪比阈值，且声音类型为纯人声声音类型时，通过压缩器控制人声音轨的动态范围，即，减小声音信号的人声音轨的最大电平与音轨平均电平之间的差别，这样会使得人声音轨与整个音乐更加协调，并且使得声音听起来更丰满，更有力量。压缩比率参数通常都被设置在2：1到8：1之间，门限阀值参数通常都被设置为-5dB到-20dB之间，具体根据采集声音信号时的电平和它的动态范围来定。通过均衡器适当提高高频7KHz-8KHz部分，如约2到3分贝，提高声音的层次感；

当声音信号的信噪比小于第一信噪比阈值，且声音类型为带伴奏的声音类型时，不同于纯人声环境，带伴奏环境下由于受到伴奏的影响，实际的噪声应该没有这么大，对人声的改变应该作相应的调整，应该适当增强人声，如对人声的中高频部分2kHz-5kHz适当提升5分贝，提高人声的穿透力，对高频部分7kHz-8kHz适当提升2分贝，增加人声的清晰感，音效处理时，混响时间应该设置小一些，如T60＝1.2，防止人声中带有的少量伴奏与纯伴奏有偏移，造成混音后伴奏在时间上有延迟，伴奏听起来不清晰。混音时，适当增加人声与伴奏比例，达到增强人声的目的。频率为500Hz-2KHz的部分包含大多数乐器的低次谐波和泛音，适当提升会使声音透彻明亮，如提升2分贝；

当声音信号的信噪比大于或等于第一信噪比阈值，且声音类型为带伴奏的声音类型时，通过均衡器提升声音信号的高频6KHz-8KHz部分，对高频进行补偿，同时对80Hz以下的部分可以去除，增加声音的清晰感。

上述第一信噪比阈值可以根据应用需要来设定，比如50分贝等。另外，需要说明的是，上述第一信噪比阈值和第二信噪比阈值一般情况下是不相等的，均可以根据实际应用需求来设定。

需要说明的是，在本发明实施例中，可以将频率在0-150HZ划分为低频、150-500HZ为中低频、500-2KHZ为中频、2K-5KHZ为中高频、5KHZ以上为高频。当然，其划分并不是固定的，可以根据实际应用情况做相应调整。此外，本发明实施例中音效处理的频率段也不是固定的，可以根据实际应用需求做调整。

在另一实施例中，该方法还可根据应用需求，对音效处理后的声音信号进行混音处理。

以声音信号为歌声为例，可以对该歌声进行混音得到美化的歌曲。在混音时考虑到不同类型歌曲中人声与伴奏的能量比不同，及声音信号中是否带有伴奏，需要分两种情况进行混音。对没有带伴奏的声音信号，可以按照正常人声与伴奏的能量比例进行混音，而对于带有伴奏音的声音信号，需要将伴奏所占能量比调小一些，防止混音后伴奏音过大，人声过小的情况出现，影响听感，其中，不同歌曲类型对应的人声与伴奏的能量比不同。具体的，该对进行音效处理后的声音信号进行混音处理的方法，如图5所示，包括：

步骤501，确定声音信号所属的歌曲类型。

歌曲类型是指歌曲为柔情、摇滚等不同风格类型。

步骤502，查找声音信号所属的歌曲类型对应的人声与伴奏的第一能量比条件。

不同歌曲类型的人声与伴奏的能量比条件可根据实验结果事先在系统中预置。该第一能量比条件具体可以是一个比例范围，也可以是其他条件。

例如柔情歌曲的伴奏与人声的第一能量比通常为1.1，伴奏略大；摇滚歌曲人声与伴奏的第一能量比为10/9，伴奏略小等。

本步骤中需要查找该声音信号所对应的预置的第一能量比条件，然后执行步骤504。

步骤503，计算声音信号中人声与伴奏的第二能量比。

人声与伴奏的能量比＝人声能量/伴奏能量，声音能量的计算与现有技术一样。

步骤504，判断第二能量比是否满足第一能量比条件。

若满足，执行步骤505，若不满足，执行步骤506。

步骤505，直接将伴奏与人声进行混音。

混音时不对信号作改变，直接将两个信号叠加即可。

步骤506，根据第一能量比条件调整声音信号中的人声或伴奏，然后进行混音。

例如某一歌曲预置的伴奏与人声的第一能量比为0.9，当前实际计算的伴奏与人声的第二能量比为1.2，说明伴奏声有点大，需要对人声进行提升。调整后的人声能量＝伴奏能量/0.9。然后将调整后的声音信号中的人声和伴奏进行混音。

本实施例通过区分性地对音效优化后的声音信号进行混音处理得到美化的歌曲，提升了卡拉OK的娱乐功能。

以上是对本发明方法实施例的描述，下面对实现上述方法的装置进行介绍。

参见图6，为本发明实施例一种音效处理装置的结构示意图。

该装置可以包括：

信号采集单元601，用于采集声音信号。

类型确定单元602，用于确定所述声音信号对应的声音类型。

音效处理单元603，用于选择与所述声音类型对应的音效处理方法对所述声音信号进行音效处理。

该装置通过上述单元对采集到的声音信号进行区分，并针对不同的声音类型采用不同的方法进行音效处理，使得音效处理进一步细化，从而得到了更优的音效效果。

在一实施例中，如图7所示，该类型确定单元602具体可以包括：

分帧子单元701，用于对声音信号进行分帧。

检测子单元702，用于对每一帧声音信号进行端点检测，获得声音信号的浊音段和噪音段。

第一计算子单元703，用于计算所述声音信号的所述浊音段信噪比。

第一确定子单元704，用于根据所述信噪比确定所述声音信号对应的声音类型。

在另一实施例中，如图8所示，该类型确定单元602具体可以包括：

提取子单元801，用于提取所述声音信号的声学特征。

第二计算子单元802，用于计算所述声学特征与预先获得的各声音类型模型的似然值。

第二确定子单元803，用于将具有最大似然值的声音类型模型作为所述声音信号对应的声音类型。

在类型确定单元602采用数学统计模型分析方法确定声音信号对应的声音类型时，如图9所示，该装置除了包括信号采集单元601，类型确定单元602，音效处理单元603之外，还可以包括：

模型获取单元901，用于在所述第二计算子单元802计算所述似然值之前，获得各声音类型模型。

数据获取单元902，用于在所述音效处理单元603进行音效处理之前，获得所述声音信号的信噪比。

音效处理单元603，具体用于根据所述声音信号的信噪比及所述声音信号的声音类型选择音效处理方法对所述声音信号进行音效处理。

其中，该模型获取单元901，如图10所示，可以进一步包括：

收集子单元1001，用于收集多组训练数据，所述训练数据包括标准声音信号对应的不同类型的声音信号。

特征提取子单元1002，用于提取所述训练数据的声学特征。

模型训练子单元1003，用于根据所述训练数据的声学特征进行模型训练获得不同类型的声音信号对应的声音类型模型。

在另一实施例中，音效处理单元603，具体用于当所述声音信号的信噪比小于第一信噪比阈值，且声音类型为纯人声声音类型时，降低所述声音信号的低频部分，提高中低频和中高频部分；当所述声音信号的信噪比大于或等于所述第一信噪比阈值，且声音类型为纯人声声音类型时，减小所述声音信号的人声音轨的最大电平与音轨平均电平之间的差别，提高所述声音信号的高频部分；当所述声音信号的信噪比小于所述第一信噪比阈值，且声音类型为带伴奏的声音类型时，提高所述声音信号的中高频及高频部分，并减少混响时间；当所述声音信号的信噪比大于或等于所述第一信噪比阈值，且声音类型为带伴奏的声音类型时，提高所述声音信号的高频部分，对高频部分进行补偿，去除低频部分。

在另一实施例中，如图11所示，该装置除了包括信号采集单元601，类型确定单元602，音效处理单元603之外，还可以包括：

混音处理单元1101，用于对进行音效处理后的声音信号进行混音处理。

如图12所示，该混音处理单元1101具体可以包括：

第三确定子单元1201，用于确定所述声音信号所属的歌曲类型。

查找子单元1202，用于查找所述声音信号所属的歌曲类型对应的人声与伴奏的第一能量比条件。

第三计算子单元1203，用于计算所述声音信号中人声与伴奏的第二能量比。

调整子单元1204，用于当所述第二能量比不满足所述第一能量比条件时，根据所述第一能量比条件调整所述声音信号中的人声或伴奏。

混音子单元1205，用于将调整后的所述声音信号中的人声和伴奏进行混音。

本实施例通过上述单元区分性地对音效优化后的声音信号进行混音处理得到美化的歌曲，提升了卡拉OK的娱乐功能。

以上装置中各单元的具体实现过程请参见前述方法实施例的描述，此处不再赘述。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本申请可用于众多通用或专用的计算系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

以上所述仅是本申请的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种音效处理方法，其特征在于，包括：

采集声音信号；

确定所述声音信号对应的声音类型；

2.根据权利要求1所述的方法，其特征在于，所述确定所述声音信号对应的声音类型，包括：

对所述声音信号进行分帧；

计算所述声音信号的所述浊音段的信噪比；

根据所述信噪比确定所述声音信号对应的声音类型。

3.根据权利要求1所述的方法，其特征在于，所述确定所述声音信号对应的声音类型，包括：

提取所述声音信号的声学特征；

计算所述声学特征与预先获得的各声音类型模型的似然值；

4.根据权利要求3所述的方法，其特征在于，在所述计算所述声学特征与预先获得的各声音类型模型的似然值之前，还包括：

获得各声音类型模型；

所述获得各声音类型模型，包括：

提取所述训练数据的声学特征；

5.根据权利要求3所述的方法，其特征在于，在所述选择与所述声音类型对应的音效处理方法对所述声音信号进行音效处理之前，还包括：

获得所述声音信号的信噪比；

6.根据权利要求2或5所述的方法，其特征在于，所述选择与所述声音类型对应的音效处理方法对所述声音信号进行音效处理，包括：

7.根据权利要求1至5中任意一项所述的方法，其特征在于，所述方法还包括：

对进行音效处理后的声音信号进行混音处理。

8.根据权利要求7所述的方法，其特征在于，所述对进行音效处理后的声音信号进行混音处理包括：

确定所述声音信号所属的歌曲类型；

计算所述声音信号中人声与伴奏的第二能量比；

将调整后的所述声音信号中的人声和伴奏进行混音。

9.一种音效处理装置，其特征在于，包括：

信号采集单元，用于采集声音信号；

类型确定单元，用于确定所述声音信号对应的声音类型；

10.根据权利要求9所述的装置，其特征在于，所述类型确定单元包括：

分帧子单元，用于对所述声音信号进行分帧；

11.根据权利要求10所述的装置，其特征在于，所述类型确定单元包括：

提取子单元，用于提取所述声音信号的声学特征；

12.根据权利要求11所述的装置，其特征在于，还包括：

所述模型获取单元包括：

特征提取子单元，用于提取所述训练数据的声学特征；

13.根据权利要求11所述的装置，其特征在于，所述装置还包括：

14.根据权利要求10或13所述的装置，其特征在于，

所述音效处理单元，具体用于当所述声音信号的信噪比小于第一信噪比阈值，且声音类型为纯人声声音类型时，降低所述声音信号的低频部分，提高中低频和中高频部分；当所述声音信号的信噪比大于或等于所述第一信噪比阈值，且声音类型为纯人声声音类型时，减小所述声音信号的人声音轨的最大电平与音轨平均电平之间的差别，提高所述声音信号的高频部分；当所述声音信号的信噪比小于所述第一信噪比阈值，且声音类型为带伴奏的声音类型时，提高所述声音信号的中高频及高频部分，并减少混响时间；当所述声音信号的信噪比大于或等于所述第一信噪比阈值，且声音类型为带伴奏的声音类型时，提高所述声音信号的高频部分，对高频部分进行补偿，去除低频部分。

15.根据权利要求9至13中任意一项所述的装置，其特征在于，所述装置还包括：

16.根据权利要求15所述的装置，其特征在于，所述混音处理单元包括：

第三确定子单元，用于确定所述声音信号所属的歌曲类型；