CN101308659A

CN101308659A - 一种基于先进音频编码器的心理声学模型的处理方法

Info

Publication number: CN101308659A
Application number: CNA2007101276606A
Authority: CN
Inventors: 吴晟; 邱小军; 黎家力; 陈强
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2007-05-16
Filing date: 2007-06-20
Publication date: 2008-11-19
Anticipated expiration: 2027-06-20
Also published as: CN101308659B

Abstract

本发明公开了一种基于先进音频编码器的心理声学模型的处理方法，包含如下处理过程：A.由待编码码流的心理声学子带谱能量，通过掩蔽扩散矩阵计算获得编码子带的感知熵和掩蔽阈值；B.通过编码子带的感知熵和掩蔽阈值，应用时频掩蔽修正与预回声修正，计算获得子带比特消耗预测数；C.心理声学模型输出子带比特消耗预测数作为码率失真控制的参数以进行编码处理。本发明能够更准确地通过感知熵得到子带比特消耗预测数，以该预测数作为编码器进行码率失真控制的参数，大大提高了编码器进行量化编码时的编码效率和质量。

Description

一种基于先进音频编码器的心理声学模型的处理方法

技术领域

本发明涉及先进音频编码器，具体地说涉及一种基于先进音频编码器的心理声学模型的处理方法。

背景技术

先进音频编码(Advanced Audio Coding，AAC)属于一种变换域有损感知音频编码。有损感知音频编码可以获得很高的压缩比，但它的编码误差(量化噪声)不可避免的较高。为了降低量化噪声的影响，有损感知音频编码通过研究人耳的心理声学效应来控制编码误差的分布，从而使得由量化误差产生的噪声难以被察觉。这一过程在有损感知编码里通过心理声学模型来实现。

心理声学模型控制量化误差的分布利用了人耳的听觉掩蔽现象。掩蔽现象是一种常见的心理声学现象，它是由人耳对声音的频率分辨机制和时间分辨机制决定的，指的是在一个较强的声音附近，相对较弱的声音将不被人耳察觉，即被强音掩蔽，这时的强音称作掩蔽者(Masker)，弱音叫被掩蔽者(Maskee)。掩蔽效应分为同时掩蔽(Simultaneous Masking，SM)和异时掩蔽(Heterochronous Masking，HM)。同时掩蔽是指掩蔽现象发生在掩蔽者和被掩蔽者同时存在时，也称作频域掩蔽；异时掩蔽的掩蔽效应发生在掩蔽者和被掩蔽者不同时存在时，也称作时域掩蔽。异时掩蔽根据掩蔽者发生的前后顺序又分为前掩蔽(Forward Masking，FM)和后掩蔽(Backward Masking，BM)。若掩蔽效应发生在掩蔽者开始之前的某个时间，则为前掩蔽，之后发生则称之为后掩蔽。

传统心理声学模型为编码器提供两个重要的参数，一个是感知熵，它代表信号考虑人耳的听觉掩蔽效应，去除了人的感知冗余后的信息量的大小，它可以用来估计编码的比特分配，也可以用以判断编码的块类型；另一个是编码器阈值，它是每个编码子带最大可容忍噪声，可用以进行量化器的失真控制。使用传统心理声学模型的AAC编码器一般采用的量化算法是基于编码器阈值的速率失真控制算法(Rate-Distortion，R-D)，这种算法有双嵌套循环搜索算法(Two Loop Search，TLS)，格形框架算法(Trellis-Based)和级联格形框架算法(Cascaded Trellis-Based)，其中后两种是双嵌套循环搜索算法的衍生。AAC编码器中的量化器是非均匀的量化器，它的熵编码是变长霍夫曼编码。但因为非均匀量化器的使用，使得编码器无法根据感知容忍噪声来指定足够优化的编码器参数，并且因为变长熵编码导致比特消耗数只能通过量化结果计算获得，这些因素使得传统心理声学模型所提供的参数并不能很好的用以控制信号的量化和编码，这造成了目前的码率失真控制算法的复杂与低效。

抛弃传统的两层内嵌迭代的比特分配和失真控制算法，利用子带比特分配比例预测同时完成码率控制和失真控制的码率失真控制，可以得到更高的计算效率，其编码音质将取决于子带比特分配比例预测的足够优化。子带比特消耗预测数可由公式：子带比特消耗预测数＝子带感知熵×当前帧可用的比特数/所有子带感知熵和获得。其中，如编码是定比特率编码(CBR)，那么当前帧可用的比特数是一个定值，等于比特率×1024/采样率；如果是随着使用情况变化，那么就是可变比特率编码(VBR)，这种情况下的当前帧可用的比特数一般由帧间比特控制算法提供。可以看出，子带比特消耗预测数仅仅是通过归一化的感知熵与当前帧可用比特数的乘积得到，准确性不高，进而影响到码率失真控制的效率。并且，由于传统心理声学模型仅考虑了人耳的同时掩蔽效应，忽视了异时掩蔽效应，编码器不能够利用异时掩蔽来提高编码质量，一旦前掩蔽失效，量化噪声不可掩蔽而发生预回声时，音质会大幅降低。虽然AAC标准中提供了瞬时噪声整形(Temporal Noise Shaping，TNS)以削弱预回声的影响，但实际的测试表明使用该模块会更加恶化音质。

发明内容

本发明就是为了解决上述技术问题，提出了一种基于先进音频编码器的心理声学模型的处理方法，充分考虑了时域掩蔽和频域掩蔽，从而输出准确的编码子带比特消耗预测数，提高了编码器进行量化编码的编码质量和效率。

为了实现上述目的，本发明采用了如下技术方案：

一种基于先进音频编码器的心理声学模型的处理方法，包含如下处理过程：

A、由待编码码流的心理声学子带谱能量，通过掩蔽扩散矩阵计算获得编码子带的感知熵和掩蔽阈值；

B、通过编码子带的感知熵和掩蔽阈值，应用时频掩蔽修正与预回声修正，计算获得子带比特消耗预测数；

C、心理声学模型输出子带比特消耗预测数作为码率失真控制的参数以进行编码处理。

所述步骤B包含如下处理过程：

B1、比较编码子带的当前掩蔽阈值与长期平均掩蔽阈值获得时频掩蔽修正因子；

B2、通过时域掩蔽判断预回声是否失掩蔽，如是，修正时频掩蔽修正因子；

B3、使用时频掩蔽修正因子修正感知熵计算获得子带比特消耗预测数。

步骤B1中的所述长期平均掩蔽阈值通过如下公式得到：

Argmask_sfb(k)＝αArgmask′_sfb(k)+(1-α)mask_sfb(k)

其中，Argmask′_sfb(k)是上一帧的编码子带长期平均掩蔽阈值，Argmask_sfb(k)是当前帧的编码子带长期平均掩蔽阈值，mask_sfb(k)是当前帧编码子带掩蔽阈值，α是衰减指数；

所述时频掩蔽修正因子通过如下公式得到：

chk = \frac{{mask}_{sfb} (k)}{{Argmask}_{sfb} (k)},

若chk＞4，

{brust}_{sfb} (k) = \min (1.5, \frac{\log_{2} (chk)}{2}),

α＝0.98；

若chk≥0.5，此时brust_sfb(k)＝0.95，α＝0.4；

若chk＜0.5，此时brust_sfb(k)＝0.90，α＝0.4；

其中，chk为能量比值，brust_sfb(k)为时域掩蔽修正因子。

步骤B2中所述通过时域掩蔽判断预回声是否失掩蔽包含如下步骤：

B21、将一帧时域信号分割成8段，求得每一段的时域绝对幅度和并放在分段绝对幅度abamp的中间8个元素中：

abamp (m + 1) = Σ_{n = 256 (m - 1) + 1}^{256 m} | x_{i} (n) |, m = 1,2, \cdot \cdot \cdot, 8

其中，abamp为10×1的向量，其第一个元素abamp(1)继承上一帧8段的均方幅度和

{abamp}_{i} (1) = \sqrt{Σ_{m = 2}^{9} {abamp}_{i - 1} {(m)}^{2}},

最后一个元素继承该帧的最后一段的绝对幅度abamp(10)＝abamp(9)；

B22、由步骤B21得到的分段绝对幅度通过下式计算得到时域掩模Tmask(m)：

Tmask (m) = Tnorm (m) Σ_{n = 1}^{m + 2} abamp (n) {Rate}_{Tmask} (m - n + 3)

其中时域扩散衰减系数Rate_Tmask为

Rate_Tmask＝[0.1 0.9⁰ 0.9¹ 0.9² 0.9³ 0.9⁴ 0.9⁵ 0.9⁶ 0.9⁷ 0.9⁸]

时域扩散归一化系数Tnorm(m)为

Tnorm (m) = \frac{1}{Σ_{n = 1}^{m + 2} {Rate}_{Tmask}}, m = 1,2, \cdot \cdot \cdot, 8

B23、当1.3Tmask(1)＜Tmask(8)且Tmask(8)＞2000时，判断为预回声失掩蔽。

当判断为预回声失掩蔽时，按如下原则对连续两帧时频掩蔽修正因子进行修正：brust′_sfb(k)＝brust_sfb(k)^chnBrust，

其中，brust′_sfb(k)为经过预回声修正的时频掩蔽修正因子，brust_sfb(k)为原时域掩蔽修正因子，第一帧修正时chnBrust＝3，第二帧修正时chnBrust＝2。

步骤B3通过如下步骤实现：

B31、使用时频掩蔽修正因子修正感知熵得到子带比特消耗预测比例；

B32、根据实际比特消耗进行帧间负反馈比特控制，得到当前帧的可用比特数；

B33、由子带比特消耗预测比例和当前帧的可用比特数计算获得子带比特消耗预测数。

步骤B31中所述子带比特消耗预测比例通过下式得到：

sfbBitRatio (k) = \frac{{PE}_{sfb} (k)}{Σ_{k = 1}^{49} {PE}_{sfb} (k)} {bru {st}^{'}}_{sfb} (k),

其中，sfbBitRatio(k)为子带比特消耗预测比例，brust_sfb(k)为时域掩蔽修正因子，PE_sfb(k)为编码子带的感知熵。

步骤B32中所述当前帧的可用比特数由下式得到：

bitAvailable(i)＝controlRatio(bitAverage+bitAvailable(i-1)-bitUsed)，其中，controlRatio为帧间修正因子，bitAverage为根据平均码率得到的每帧可用的平均比特数，bitAvailable(i-1)为上一帧可用比特数，bitUsed为上一帧实际消耗的比特数，所述帧间修正因子通过如下原则确定：

若bitRatio＞1.06，

controlRatio = \frac{1}{bitRatio + 0.2},

若1.06≥bitRatio＞1.05，controlRatio＝0.9，

若1.05≥bitRatio＞1.02，controlRatio＝0.95，

若1.02≥bitRatio≥0.98，controlRatio＝1，

若bitRatio＜0.98，controlRatio＝1.2，其中

bitRatio = \frac{bitAll}{K \cdot bitAverage},

为当前平均每帧比特数bitAll/K和可用平均比特数的比值。

步骤B33中所述子带比特消耗预测数由下式得到：

sfbBits(k)＝bitAvailable(i)sfbBitRatio(k)，其中，sfbBits(k)为子带比特消耗预测数，bitAvailable(i)为当前帧可用比特数，sfbBitRatio(k)为子带比特消耗预测比例。

步骤A包含如下步骤：

A1、由待编码码流的心理声学子带的谱能量相加得到心理声学子带能量；

A2、由心理声学子带能量计算子带能量峰谷值；

A3、通过二阶线形方程将子带能量峰谷值映射为掩蔽信号比；

A4、利用掩蔽信号比和心理声学子带能量计算子带的自掩蔽能量；

A5、通过扩散矩阵由自掩蔽能量得到心理声学子带的掩蔽阈值；

A6、由心理声学子带能量和掩蔽阈值计算心理声学子带的感知熵；

A7、将心理声学子带的感知熵和掩蔽阈值分别映射成编码子带的感知熵和掩蔽阈值。

步骤A5中所述扩散矩阵为稀疏扩散矩阵，对扩散矩阵的稀疏化是通过将归一化扩散矩阵中小于预定分贝阈值的元素置为0实现的，所述归一化扩散矩阵的归一化因子通过下式获得：

sprdngN (b) = Σ_{bb = 1}^{70} sprdngf [bavl (b) - bval (bb)],

其中，sprdngN(b)为归一化因子，bavl(b)和bval(bb)为巴克频率，sprdngf是扩散方程；

所述扩散方程由以下原则确定：

spr = sprdngf (Δ f_{c})

= \{\begin{matrix} {Δf}_{c} < = - 3.3333, & spr = 0 \\ - 3.3333 < Δ f_{c} < = 0, & spr = 10^{\frac{15.811389 + 7.5 (1.5 Δ f_{c} + 0.474) - 17.5 \sqrt{1 + {(1.5 Δ f_{c} + 0.474)}^{2}}}{10}} \\ 0 < Δ f_{c} < = 0.5, & spr = 10^{\frac{15.811389 + 7.5 (3 Δ f_{c} + 0.474) - 17.5 \sqrt{1 + {(3 Δ f_{c} + 0.474)}^{2}}}{10}} \\ 0.5 < Δ f_{c} < = 2.5, & spr = 10^{\frac{8 [{(3 Δ f_{c} - 1.5)}^{2} - 1] + 15.811389 + 7.5 (3 Δ f_{c} + 0.474) - 17.5 \sqrt{1 + {(3 Δ f_{c} + 0.474)}^{2}}}{10}} \\ 2.5 < Δ f_{c} < = 7.3333, & spr = 10^{\frac{15.811389 + 7.5 (3 Δ f_{c} + 0.474) - 17.5 \sqrt{1 + {(3 Δ f_{c} + 0.474)}^{2}}}{10}} \\ Δ f_{c} > 7.3333, & spr = 0 \end{matrix},

其中，

spr为扩散方程的值。

步骤A2中所述子带能量峰谷值通过下式得到：

ppRate (b) = \frac{E_{psy} (ϵ)}{E_{psy} (b)} = \frac{\min (E_{psy} (b - 1), E_{psy} (b + 1))}{E_{psy} (b)},

其中，ppRate(b)为子带能量峰谷值，E_psy(b)为当前心理声学子带能量，E_psy(b-1)，E_psy(b+1)分别为上一心理声学子带和下一心理声学子带能量。

步骤A3中所述二阶线形方程为：

MSR_psy(b)＝0.17453ppRate(b)²+0.08325ppRate(b)，其中，MSR_psy(b)为掩蔽信号比，ppRate(b)为子带能量峰谷值。

步骤A4中所述自掩蔽能量通过下式获得：

E_selfmask(b)＝E_psy(b)·MSR_psy(b)，其中，E_selfmask(b)为自掩蔽能量，E_psy(b)为心理声学子带能量，MSR_psy(b)为掩蔽信号比。

步骤A5中所述掩蔽阈值通过下式得到：

mask_psy(b)＝E_selfmask×sprdngMN，其中，mask_psy(b)为心理声学子带的掩蔽阈值，sprdngMN为扩散矩阵。

步骤A6中所述心理声学子带感知熵通过下式得到：

{PE}_{psy} (b) = {bw}_{psy} (b) \log 10 [\frac{E_{psy} (b)}{{mask}_{psy} (b)}],

其中，PE_psy(b)为心理声学子带感知熵，bw_psy(b)为心理声学子带带宽，E_psy(b)为心理声学子带能量，mask_psy(b)为心理声学子带的掩蔽阈值。

步骤A7中所述心理声学子带感知熵通过下式映射成编码子带的感知熵：

{PE}_{sfb} (k) = Σ_{w = sfbLow (b)}^{w = sfbHigh (b)} {PE}_{spec} (w),

其中，PE_sfb(k)为编码子带感知熵，psyLow(b)≤w≤psyHigh(b)，psyHigh(b)，psyLow(b)分别为心理声学子带b的上界和下界；sfblow(b)，sfbhigh(b)分别为编码子带b的上界和下界；

{PE}_{spec} (w) = \frac{{PE}_{psy} (b)}{{bw}_{psy} (b)},

bw_psy(b)为心理声学子带带宽，PE_psy(b)为心理声学子带感知熵；

所述心理声学子带掩蔽阈值通过下式映射成编码子带的掩蔽阈值：

mask_sfb(k)＝bw_sfb(k)min(mask_apsy(b))，b1≤b≤b2，其中，mask_sfb(k)为编码子带的掩蔽阈值，b1满足psyLow(b1)≤sfblow(k)≤psyhigh(b1)，b2满足psyLow(b2)≤sfbhigh(k)≤psyhigh(b2)，

{mask}_{apsy} (b) = \frac{{mask}_{psy} (b)}{{bw}_{psy} (b)},

mask_psy(b)为心理声学子带掩蔽阈值；psyHigh(b1)，psyLow(b1)分别为心理声学子带b1的上界和下界；psyHigh(b2)，psyLow(b2)分别为心理声学子带b2的上界和下界；sfblow(k)，sfbhigh(k)分别为编码子带k的上界和下界。bw_sfb(k)为编码子带带宽。

本发明通过当前帧的参数与以往帧长期平均的参数的比较，以及通过时域掩蔽判断预回声进行修正，实现了充分考虑时域掩蔽和频域掩蔽(时频掩蔽)的心理声学模型的处理方法，从而更准确地通过感知熵得到子带比特消耗预测数，以该预测数作为编码器进行码率失真控制的参数，大大提高了编码器进行量化编码时的编码效率和质量。通过计算掩蔽扩散矩阵来获得感知熵，在计算过程中对掩蔽扩散矩阵进行稀疏处理，从而能够更快速地得到感知熵，降低了计算感知熵的运算量。

附图说明

图1是使用了本发明实施例的Megal AAC编码器的结构框架图；

图2是本发明实施例的处理方法的流程图；

图3是掩蔽信号比在不同子带上的约束子带上界和约束子带下界示意图；

图4是预回声失掩蔽的判断示意图；

图5是几种编码器的ODG指标比较示意图；

图6是几种编码器的NMR指标的比较示意图；

图7是几种编码器的ODG分布示意图；

图8是几种编码器的NMR分布示意图。

具体实施方式

下面结合附图对本发明的具体实施方式进行详细的说明。

本发明的处理方法的具体实施方式参看图2，其具体处理步骤如下：

1、由待编码码流的心理声学子带谱能量，通过掩蔽扩散矩阵计算获得编码子带的感知熵和掩蔽阈值

1a)将当前帧每个心理声学子带的MDCT(改进的离散余弦变换)谱能量相加得到心理声学子带能量E_psy

1b)计算子带能量峰谷值ppRate(b)

ppRate (b) = \frac{E_{psy} (ϵ)}{E_{psy} (b)} = \frac{\min (E_{psy} (b - 1), E_{psy} (b + 1))}{E_{psy} (b)} - - - (1)

其中b代表当前子带索引，b-1和b+1分别代表上一子带和下一子带。

得到子带能量峰谷值之后，将其约束在[lower(b)，upper(b)]之间

If ppRate(b)＞upper(b)，ppRate(b)＝upper(b)

If ppRate(b)＜lower(b)，ppRate(b)＝lower(b)

即ppRate(b)＝max(lower(b)，min(upper(b)，ppRate(b)))，其中，

lower (b) = \tan ({| 1.5 \frac{(b - 2)}{67} - 0.5 |}^{4}), b = 2, \cdot \cdot \cdot, 69

lower(1)＝lower(2)+0.1，lower(70)＝lower(69) (2)

upper(b)＝lower(b)+0.7

1c)通过二阶线形方程完成子带能量峰谷值向掩蔽信号比MSR_psy(b)的映射

MSR_psy(b)＝0.17453ppRate(b)²+0.08325ppRate(b) (3)

其中，方程的一次项和二次项系数为经过大量测试获取的较优值。

掩蔽信号比在不同的心理声学子带上的约束情况参看图3，从图中可以看到，掩蔽信号比位于约束上界和约束下界之间。

1d)利用心理声学子带能量与掩蔽信号比计算出子带的自掩蔽能量E_selfmask(b)

E_selfmask(b)＝E_psy(b)·MSR_psy(b) (4)

1e)利用归一化扩散矩阵计算掩蔽阈值mask_psy(b)

mask_psy(b)＝E_selfmask×sprdngMN (5)

其中，归一化扩散矩阵sprdngMN由下式确定

sprdngN (b) = Σ_{bb = 1}^{70} sprdngf [bavl (b) - bval (bb)]

sprdngMN =

式(6)中，bavl()是子带序号向巴克(bark)频率的映射函数，巴克频率是模拟人耳听觉特性的一种频率划分原则，在20到20000Hz的频率范围内，不均匀地划分了25个bark，频率到bark常用一个复杂的非线性函数表示，通常把有限的用得到的bark值实现算出来做成表，用来查找简化计算，bavl()即该简化计算表，由巴克频率查找表预先算出归一化因子sprdngN(b)。

sprdngf()是扩散方程，其取值由下式得到：

spr = sprdngf (Δ f_{c})

= \{\begin{matrix} {Δf}_{c} < = - 3.3333, & spr = 0 \\ - 3.3333 < Δ f_{c} < = 0, & spr = 10^{\frac{15.811389 + 7.5 (1.5 Δ f_{c} + 0.474) - 17.5 \sqrt{1 + {(1.5 Δ f_{c} + 0.474)}^{2}}}{10}} \\ 0 < Δ f_{c} < = 0.5, & spr = 10^{\frac{15.811389 + 7.5 (3 Δ f_{c} + 0.474) - 17.5 \sqrt{1 + {(3 Δ f_{c} + 0.474)}^{2}}}{10}} \\ 0.5 < Δ f_{c} < = 2.5, & spr = 10^{\frac{8 [{(3 Δ f_{c} - 1.5)}^{2} - 1] + 15.811389 + 7.5 (3 Δ f_{c} + 0.474) - 17.5 \sqrt{1 + {(3 Δ f_{c} + 0.474)}^{2}}}{10}} \\ 2.5 < Δ f_{c} < = 7.3333, & spr = 10^{\frac{15.811389 + 7.5 (3 Δ f_{c} + 0.474) - 17.5 \sqrt{1 + {(3 Δ f_{c} + 0.474)}^{2}}}{10}} \\ Δ f_{c} > 7.3333, & spr = 0 \end{matrix} - - - (7)

将sprdngMN中小于-100dB的元素都置为0，sprdngMN将是一个稀疏扩散矩阵，其非零项为

sprdngMN[1，1]，sprdngMN[2，1]，sprdngMN[3，1]

sprdngMN[1，2]，sprdngMN[2，2]……sprdngMN[4，2]

sprdngMN[1，3]，sprdngMN[2，3]……sprdngMN[5，3]

sprdngMN[1，4]，sprdngMN[2，4]……sprdngMN[6，4]

sprdngMN[1，5]，sprdngMN[2，5]……sprdngMN[8，5]

sprdngMN[1，6]，sprdngMN[2，6]……sprdngMN[9，6]

sprdngMN[1，7]，sprdngMN[2，7]……sprdngMN[10，7] (8)

sprdngMN[2，8]，sprdngMN[3，8]……sprdngMN[11，8]

sprdngMN[3，9]，sprdngMN[4，9]……sprdngMN[12，9]

. . . .

sprdngMN[60，67]，sprdngMN[61，67]……sprdngMN[69，67]

sprdngMN[61，68]，sprdngMN[62，68]……sprdngMN[70，68]

sprdngMN[62，69]，sprdngMN[63，69]……sprdngMN[70，69]

sprdngMN[63，70]，sprdngMN[64，70]……sprdngMN[70，70]

sprdngMN总共有672个非零项，可以使用672次乘加运算完成掩蔽阈值的计算。

计算出掩蔽阈值后，对其进行约束，使其在静音听觉阈值之上，如下式：

mask_psy(b)＝max [mask_psy(b)，qthr(b)] (9)

式中，qthr(b)为静音听觉阈值。

1f)由心理声学子带能量和掩蔽阈值计算出感知熵PE_psy(b)

{PE}_{psy} (b) = {bw}_{psy} (b) \log 10 [\frac{E_{psy} (b)}{{mask}_{psy} (b)}] - - - (10)

其中，bw_psy(b)为心理声学子带带宽。

1g)获得感知熵和掩蔽阈值的编码子带映射

计算心理声学子带内每个频谱的感知熵

{PE}_{spec} (w) = \frac{{PE}_{psy} (b)}{{bw}_{psy} (b)} - - - (11)

映射到编码子带

{PE}_{sfb} (k) = Σ_{w = sfbLow (b)}^{w = sfbHigh (b)} {PE}_{spec} (w) - - - (12)

其中psyLow(b)≤w≤psyHigh(b)，psyHigh(b)，psyLow(b)分别为心理声学子带b的上界和下界；sfblow(b)，sfbhigh(b)分别为编码子带b的上界和下界。

计算心理声学子带内每个频谱的掩蔽阈值

{mask}_{apsy} (b) = \frac{{mask}_{psy} (b)}{{bw}_{psy} (b)} - - - (13)

映射到编码子带

mask_sfb(k)＝bw_sfb(k)min(maska_psy(b))，b1≤b≤b2 (14)

其中b1满足

psyLow(b1)≤sfblow(k)≤psyhigh(b1) (15)

b2满足

psyLow(b2)≤sfbhigh(k)≤psyhigh(b2) (16)

psyHigh(b1)，psyLow(b1)分别为心理声学子带b1的上界和下界；psyHigh(b2)，psyLow(b2)分别为心理声学子带b2的上界和下界；sfblow(k)，sfbhigh(k)分别为编码子带k的上界和下界。bw_sfb(k)为编码子带带宽。

2、比较当前掩蔽阈值与长期平均掩蔽阈值获得时频掩蔽修正因子

根据当前帧的编码子带掩蔽阈值更新编码子带长期平均掩蔽阈值

Argmask_sfb(k)＝αArgmask′_sfb(k)+(1-α)mask_sfb(k) (17)

Argmask′_sfb(k)是上一帧的编码子带长期平均掩蔽阈值，Argmask_sfb(k)是当前帧的编码子带长期平均掩蔽阈值，mask_sfb(k)是当前帧编码子带掩蔽阈值，其中α是衰减指数，它根据掩蔽情况的不同而不同，具体取值由式(18)确定。

比较编码子带掩蔽能量和编码子带长期平均掩蔽能量，获得能量比值

chk = \frac{{mask}_{sfb} (k)}{{Argmask}_{sfb} (k)} - - - (18)

进行比较

3、通过时域掩蔽判断预回声，修正时频掩蔽修正因子

可以通过时域掩蔽判断预回声失掩蔽，若发生则对时域掩蔽修正因子进行修正以便进一步提高利用时频掩蔽修正因子进行后续处理步骤的准确性。具体步骤是：

将一帧时域信号分割成8段，求得每一段的时域绝对幅度和，放在分段绝对幅度abamp的中间8个元素中

abamp (m + 1) = Σ_{n = 256 (m - 1) + 1}^{256 m} | x_{i} (n) |, m = 1,2, \cdot \cdot \cdot, 8 - - - (19)

abamp是一个10×1的向量，它的第一个元素abamp(1)继承上一帧8段的均方幅度和

{abamp}_{i} (1) = \sqrt{Σ_{m = 2}^{9} {abamp}_{i - 1} {(m)}^{2}} - - - (20)

最后一个元素继承该帧的最后一段的绝对幅度abamp(10)＝abamp(9)。时域掩模Tmask(m)是一个8×1的向量，通过下式计算得到

Tmask (m) = Tnorm (m) Σ_{n = 1}^{m + 2} abamp (n) {Rate}_{Tmask} (m - n + 3) - - - (21)

其中时域扩散衰减系数Rate_Tmask为

Rate_Tmask＝[0.1 0.9⁰ 0.9¹ 0.9² 0.9³ 0.9⁴ 0.9⁵ 0.9⁶ 0.9⁷ 0.9⁸] (22)

时域扩散归一化系数Tnorm(m)为

Tnorm (m) = \frac{1}{Σ_{n = 1}^{m + 2} {Rate}_{Tmask}}, m = 1,2, \cdot \cdot \cdot, 8 - - - (23)

当1.3Tmask(1)＜Tmask(8)且Tmask(8)＞2000时，判断为预回声失掩蔽，其判断效果见图4。当判断预回声失掩蔽时，对连续两帧的时频掩蔽修正因子进行预回声修正：

brust′_sfb(k)＝brust_sfb(k)^chnBrust (24)

其中，brust′_sfb(k)为经过预回声修正的时频掩蔽修正因子，第一帧修正时chnBrust＝3，第二帧修正时chnBrust＝2。

4、使用时频掩蔽修正因子修正感知熵得到子带比特消耗预测比例sfbBitRatio(k)

sfbBitRatio (k) = \frac{{PE}_{sfb} (k)}{Σ_{k = 1}^{49} {PE}_{sfb} (k)} {b {rust}^{'}}_{sfb} (k) - - - (25)

5、根据实际比特消耗进行帧间负反馈比特控制，由子带比特消耗预测比例计算得到编码子带比特消耗预测数，具体步骤为：

5a)负反馈帧间比特修正

令当前使用的比特总数为bitAll，当前已处理帧数为K，上一帧实际消耗的比特数为bitUsed，根据平均码率得到的每帧可用的平均比特数为bitAverage，上一帧可用比特数为bitAvailable(i-1)，当前平均每帧比特数为bitAll/K，它和平均比特数的比值

bitRatio = \frac{bitAll}{K \cdot bitAverage} .

当前帧的可用比特数bitAvailable(i)为

bitAvailable(i)＝controlRatio(bitAverage+bitAvailable(i-1)-bitUsed)(26)

将其约束在一定的范围内

β·bitAverage≤bitAvailable(i)≤α·bitAverage (27)

其中，0＜α＜1，β＞1，一般设α＝0.95，β＝1.2比较合适。

5b)计算编码子带比特消耗预测数sfbBits(k)

sfbBits(k)＝bitAvailable(i)sfbBitRatio(k) (28)

6、心理声学模型输出子带比特消耗预测数作为码率失真控制的参数以进行编码处理

得到编码子带比特消耗预测数后，心理声学模型输出该预测数作为码率失真控制的参数，码率失真控制进行熵编码和码流合成，完成编码处理。

以上本实施例中所给出的各阈值、参数和系数，均为实验所获的较优值，本发明并不限定仅取前述公开的数值，在本发明的构思下，本领域技术人员可以理解，可根据实际的信号情况对以上数值进行一定的调整以达到更好的效果。

本发明的心理声学模型称为熵分配心理声学模型(Entropy-allocation psychoacoustic model，EAPAM)，与在多种音频编码如MP3中采用，MPEG-4AAC标准提供的传统心理声学模型2(PAMII)进行对比。Megal AAC Encoder(Megal)是一种利用子带比特比例预测指导码率失真控制的AAC编码器，其结构框架如图1所示。有关算法复杂度评估通过比较使用PAM II的Free Advanced Audio Coder(FAAC)和使用EAPAM的Megal AAC Encoder，在对44100Hz采样，16位量化的立体声音频进行平均比特率为128Kbps编码的情况下进行，参考指标为每秒百万操作数。

表1心理声学模型类型的计算量与编码算法的计算量

*1使用查找表实现

*2使用稀疏扩散矩阵

从表1可见，EAPAM算法的计算量相对于PAM II降低了48.478MOPS，这一模块占总计算量的比重从57％降低到了17％，R-D算法因为使用了子带比特比例预测指导分配，计算量从35MOPS降低到12.8MOPS，总体计算量降低了69.6MOPS，幅度达76.7％。

编码器的音质评估使用EAQUAL1.3，这是使用感知音频客观评价标准PEAQ的客观评价程序，PEAQ提供的音质评价指标名称及其描述见表2

表2eaqual软件输出的评价指标及意义

指标名称	指标意义
指标名称	指标意义	ODG	客观差异级(objective difference grade)
DIX	失真指标(distortion index)	ODG	客观差异级(objective difference grade)
DIX	失真指标(distortion index)	BandwidthTest	参考信号频带宽度
NMR	噪声掩模比(noise to mask radio)	BandwidthTest	参考信号频带宽度
NMR	噪声掩模比(noise to mask radio)	WinModDiff1	加窗调制差异平均
ADB	平均失真块(Average Distortion Block)	WinModDiff1	加窗调制差异平均
ADB	平均失真块(Average Distortion Block)	EHS	谐波结构失真(err of harmonic structure)
AvgModDiff1	调差差异时间平均1	EHS	谐波结构失真(err of harmonic structure)
AvgModDiff1	调差差异时间平均1	AvgModDiff2	调差差异时间平均2
MFPD	最大滤波概率(Maximum Filtered Probability ofDetection)	AvgModDiff2	调差差异时间平均2
MFPD	最大滤波概率(Maximum Filtered Probability ofDetection)	RDF	相对分散帧(Relative Disturbed Frames)

这里选择总体指标(ODG)和两个重要的单项指标(BandwidthTest和NMR)作为主要参考指标。音质评估使用四种编码器参照进行，对它们进行横向评估，这四个编码器分别为使用本发明的EAPAM模型和传统的PAM II模型的Megal，NCTU AAC Encoder(以下简称NCTU)和FAAC。其中NCTU是台湾交通大学感知音频小组开发的AAC编码器，FAAC是德国FraunhoferIIS开发的AAC编码器，Fraunhofer IIS是Mpeg标准的主要制定者，其FAAC编码器是AAC标准的验证编码器。音质评估源使用美国惠威公司提供的音响试音碟的第一张和第二张，剔除了重复的曲目，选取了其中37支音乐剪辑，这些剪辑包含了乐曲的基本类型，它们的名称以及描述见表3

表3测试曲目

序号	曲目	类型描述	持续时间(秒)
序号	曲目	类型描述	持续时间(秒)	1	雪花飞扬	电子合成器，预回声几率高	84.07
2	女声清唱	女声清唱，英文女声	59.30	1	雪花飞扬	电子合成器，预回声几率高	84.07
2	女声清唱	女声清唱，英文女声	59.30	3	shaniaFuain	流行，英文女声，预回声几率高	88.68
4	渡口	流行，中文女声，预回声几率高	72.77	3	shaniaFuain	流行，英文女声，预回声几率高	88.68
4	渡口	流行，中文女声，预回声几率高	72.77	5	达坂城姑娘	男声合唱	68.38
6	加州旅店	老鹰乐队	119.98	5	达坂城姑娘	男声合唱	68.38
6	加州旅店	老鹰乐队	119.98	7	鼓诗	炎黄第一鼓，预回声几率高	65.32
8	红灯记	京剧女声	53.43	7	鼓诗	炎黄第一鼓，预回声几率高	65.32
8	红灯记	京剧女声	53.43	9	张三的歌	流行，中文男声	57.77
10	低音王	低音提琴	87.49	9	张三的歌	流行，中文男声	57.77
10	低音王	低音提琴	87.49	11	Denon	管弦乐	61.21
12	波罗吉他	器乐	59.98	11	Denon	管弦乐	61.21
12	波罗吉他	器乐	59.98	13	琵琶对萨克斯	器乐	84.08
14	黄河的水干了	民族，中文男声	69.85	13	琵琶对萨克斯	器乐	84.08
14	黄河的水干了	民族，中文男声	69.85	15	穆特小提琴	独奏	61.63
16	OneIlove	女声清唱，英文女声	74.51	15	穆特小提琴	独奏	61.63
16	OneIlove	女声清唱，英文女声	74.51	17	高山流水	古筝	53.96
18	梁祝	小提琴协奏	50.36	17	高山流水	古筝	53.96
18	梁祝	小提琴协奏	50.36	19	发烧经典	交响乐	76.63
20	古琴对唢呐	民族乐器	77.25	19	发烧经典	交响乐	76.63
20	古琴对唢呐	民族乐器	77.25	21	狩猎波尔卡	交响乐	59.98
22	偏偏喜欢你	流行，粤语男声	89.05	21	狩猎波尔卡	交响乐	59.98
22	偏偏喜欢你	流行，粤语男声	89.05	23	2001太空漫游	交响乐	99.45
24	欢乐颂	女声合唱，音文女声	128.64	23	2001太空漫游	交响乐	99.45
24	欢乐颂	女声合唱，音文女声	128.64	25	步步高	古筝	63.58
26	四季之歌	古提琴	68.71	25	步步高	古筝	63.58
26	四季之歌	古提琴	68.71	27	卡门前奏曲	小号	67.43
28	送别	女声合唱，中文女童声	106.23	27	卡门前奏曲	小号	67.43
28	送别	女声合唱，中文女童声	106.23	29	敲击卡门	敲击乐，预回声几率高	68.66
30	布兰诗歌	合唱，英文诗歌	151.46	29	敲击卡门	敲击乐，预回声几率高	68.66
30	布兰诗歌	合唱，英文诗歌	151.46	31	屋顶上的提琴手	小提琴，独奏	72.98
32	亲爱的爸爸	女高音	76.14	31	屋顶上的提琴手	小提琴，独奏	72.98
32	亲爱的爸爸	女高音	76.14	33	今夜无人入睡	男高音，歌剧	175.94
34	人声	民族原生态，女声	61.99	33	今夜无人入睡	男高音，歌剧	175.94
34	人声	民族原生态，女声	61.99	35	F-16战斗机	效果	43.89
36	龙卷风暴	效果，自然声	64.29	35	F-16战斗机	效果	43.89
36	龙卷风暴	效果，自然声	64.29	37	火箭升空	效果	39.99

测试结果见表4

表4测试结果

从图5和图6可见，NCTU的平均ODG相对Faac提高0.163，而使用本发明的Megal的平均ODG相对NCTU又提高了0.187，使用PAM II方法的megal基本与Faac相当；NCTU的平均NMR相对Faac降低了1.06dB，而使用本发明的Megal的平均NMR相对NCTU又降低了1.08dB，使用PAM II方法的megal平均NMR要高于Faac。类似的结论可以在测试剪辑的图7的ODG分布图与图8的NMR分布图中得到。计算量评估与音质客观评价都说明，本发明可以使AAC编码器以大幅降低的计算量获得大幅提高的音质。

本发明通过当前帧的参数与以往帧长期平均的参数的比较，以及时域预回声判断，实现了充分考虑时域掩蔽和频域掩蔽(时频掩蔽)的心理声学模型，最终输出准确的编码子带比特分配比例预测，能够提高量化编码算法的编码质量，同时与传统心理声学模型算法相比运算量也有大幅度降低。

Claims

1、一种基于先进音频编码器的心理声学模型的处理方法，其特征在于，包含如下处理过程：

2、如权利要求1所述的基于先进音频编码器的心理声学模型的处理方法，其特征在于，所述步骤B包含如下处理过程：

B3、使用时频掩蔽修正因子修正感知熵，计算获得子带比特消耗预测数。

3、如权利要求2所述的基于先进音频编码器的心理声学模型的处理方法，其特征在于，步骤B1中所述长期平均掩蔽阈值通过如下公式得到：

Argmask_sfb(k)＝αArgmask_sfb(k)+(1-α)mask_sfb(k)

所述时频掩蔽修正因子通过如下公式得到：

chk = \frac{{mask}_{sfb} (k)}{{Argmask}_{sfb} (k)},

若chk＞4，

{brust}_{sfb} (k) = \min (1.5, \frac{\log_{2} (chk)}{2}),

α＝0.98；

若chk≥0.5，此时brust_sfb(k)＝0.95，α＝0.4；

若chk＜0.5，此时brust_sfb(k)＝0.90，α＝0.4；

其中，chk为能量比值，brust_sfb(k)为时域掩蔽修正因子。

4、如权利要求2所述的基于先进音频编码器的心理声学模型的处理方法，其特征在于，步骤B2中所述通过时域掩蔽判断预回声是否失掩蔽包含如下步骤：

abamp (m + 1) = Σ_{n = 256 (m - 1) + 1}^{256 m} | x_{i} (n) |, m = 1,2, \cdot \cdot \cdot, 8

abam p_{i} (1) = \sqrt{Σ_{m = 2}^{9} {abamp}_{i - 1} {(m)}^{2}},

Tmask (m) = Tnorm (m) Σ_{n = 1}^{m + 2} abamp (n) Rat e_{Tmask} (m - n + 3)

其中时域扩散衰减系数Rate_Tmask为

Rate_Tmask＝[0.1 0.9⁰ 0.9¹ 0.9² 0.9³ 0.9⁴ 0.9⁵ 0.9⁶ 0.9⁷ 0.9⁸]

时域扩散归一化系数Tnorm(m)为

Tnorm (m) = \frac{1}{Σ_{n = 1}^{m + 2} {Rate}_{Tmask}}, m = 1,2, \cdot \cdot \cdot, 8

5、如权利要求2所述的基于先进音频编码器的心理声学模型的处理方法，其特征在于，当判断预回声失掩蔽时，步骤B2按如下原则对连续两帧时频掩蔽修正因子进行修正：brust′_sfb(k)＝brust_sfb(k)^chnBrust，其中，brust′_sfb(k)为经过预回声修正的时频掩蔽修正因子，brust_sfb(k)为原时域掩蔽修正因子，第一帧修正时chnBrust＝3，第二帧修正时chnBrust＝2。

6、如权利要求2所述的基于先进音频编码器的心理声学模型的处理方法，其特征在于，步骤B3通过如下步骤实现：

7、如权利要求6所述的基于先进音频编码器的心理声学模型的处理方法，其特征在于，步骤B31中所述子带比特消耗预测比例通过下式得到：

sfbBitRatio (k) = \frac{{PE}_{sfb} (k)}{Σ_{k = 1}^{49} {PE}_{sfb} (k)} {brust}^{'}_{sfb} (k),

8、如权利要求6所述的基于先进音频编码器的心理声学模型的处理方法，其特征在于，步骤B32中所述当前帧的可用比特数由下式得到：bitAvailable(i)＝controlRatio(bitAverage+bitAvailable(i-1)-bitUsed)，其中，controlRatio为帧间修正因子，bitAverage为根据平均码率得到的每帧可用的平均比特数，bitAvailable(i-1)为上一帧可用比特数，bitUsed为上一帧实际消耗的比特数，所述帧间修正因子通过如下原则确定：

若bitRatio＞1.06，

controlRatio = \frac{1}{bitRatio + 0.2},

若1.06≥bitRatio＞1.05，controlRatio＝0.9，

若1.05≥bitRatio＞1.02，controlRatio＝0.95，

若1.02≥bitRatio≥0.98，controlRatio＝1，

若bitRatio＜0.98，controlRatio＝1.2，其中

bitRatio = \frac{bitAll}{K \cdot bitAverage},

为当前平均每帧比特数bitAll/K和可用平均比特数的比值。

9、如权利要求6所述的基于先进音频编码器的心理声学模型的处理方法，其特征在于，步骤B33中所述子带比特消耗预测数由下式得到：sfbBits(k)＝bitAvailable(i)sfbBitRatio(k)，其中，sfbBits(k)为子带比特消耗预测数，bitAvailable(i)为当前帧可用比特数，sfbBitRatio(k)为子带比特消耗预测比例。

10、如权利要求1至9任一所述的基于先进音频编码器的心理声学模型的处理方法，其特征在于，步骤A包含如下步骤：

A2、由心理声学子带能量计算子带能量峰谷值；

11、如权利要求10所述的基于先进音频编码器的心理声学模型的处理方法，其特征在于，步骤A5中所述扩散矩阵为稀疏扩散矩阵，对扩散矩阵的稀疏化是通过将归一化扩散矩阵中小于预定分贝阈值的元素置为0实现的，所述归一化扩散矩阵的归一化因子通过下式获得：

sprdngN (b) = Σ_{bb = 1}^{70} sprdngf [bavl (b) - bval (bb)],

所述扩散方程由以下原则确定：

spr = sprdngf (Δ f_{c})

= \{\begin{matrix} Δ f_{c} < = - 3.3333, & spr = 0 \\ - 3.3333 < Δ f_{c} < = 0, & spr = 10^{\frac{15.811389 + 7.5 (1.5 Δ f_{c} + 0.474) - 17.5 \sqrt{1 + {(1.5 Δ f_{c} + 0.474)}^{2}}}{10}} \\ 0 < Δ f_{c} < = 0.5, & spr = 10^{\frac{15.811389 + 7.5 (3 Δ f_{c} + 0.474) - 17.5 \sqrt{1 + {(3 Δ f_{c} + 0.474)}^{2}}}{10}} \\ 0.5 < Δ f_{c} < = 2.5, & spr = 10^{\frac{8 [{(3 Δ f_{c} - 1.5)}^{2} - 1] + 15.811389 + 7.5 (3 Δ f_{c} + 0.474) - 17.5 \sqrt{1 + {(3 Δ f_{c} + 0.474)}^{2}}}{10}} \\ 2.5 < Δ f_{c} < = 7.3333, & spr = 10^{\frac{15.811389 + 7.5 (3 Δ f_{c} + 0.474) - 17.5 \sqrt{1 + {(3 Δ f_{c} + 0.474)}^{2}}}{10}} \\ Δ f_{c} > 7.3333, & spr = 0 \end{matrix},

其中，

spr为扩散方程的值。

12、如权利要求10所述的基于先进音频编码器的心理声学模型的处理方法，其特征在于，步骤A2中所述子带能量峰谷值通过下式得到：

ppRate (b) = \frac{E_{psy} (ϵ)}{E_{psy} (b)} = \frac{\min (E_{psy} (b - 1), E_{psy} (b + 1))}{E_{psy} (b)},

13、如权利要求10所述的基于先进音频编码器的心理声学模型的处理方法，其特征在于，步骤A3中所述二阶线形方程为：

14、如权利要求10所述的基于先进音频编码器的心理声学模型的处理方法，其特征在于，步骤A4中所述自掩蔽能量通过下式获得：

15、如权利要求10所述的基于先进音频编码器的心理声学模型的处理方法，其特征在于，步骤A5中所述掩蔽阈值通过下式得到：

16、如权利要求10所述的基于先进音频编码器的心理声学模型的处理方法，其特征在于，步骤A6中所述心理声学子带感知熵通过下式得到：

{PE}_{psy} (b) = {bw}_{psy} (b) \log 10 [\frac{E_{psy} (b)}{mas k_{psy} (b)}],

17、如权利要求10所述的基于先进音频编码器的心理声学模型的处理方法，其特征在于，步骤A7中所述心理声学子带感知熵通过下式映射成编码子带的感知熵：

{PE}_{sfb} (k) = Σ_{w = sfbLow (b)}^{w = sfbHigh (b)} {PE}_{spec} (w),

{PE}_{spec} (w) = \frac{{PE}_{psy} (b)}{{bw}_{psy} (b)},

{mask}_{apsy} (b) = \frac{{mask}_{psy} (b)}{{bw}_{psy} (b)},

mask_psy(b)为心理声学子带掩蔽阈值；psyHigh(b1)，psyLow(b1)分别为心理声学子带b1的上界和下界；psyHigh(b2)，psyLow(b2)分别为心理声学子带b2的上界和下界；sfblow(k)，sfbhigh(k)分别为编码子带k的上界和下界，bw_sfb(k)为编码子带带宽。