Nothing Special   »   [go: up one dir, main page]

CN104143337B - 一种提高音频信号音质的方法和装置 - Google Patents

一种提高音频信号音质的方法和装置 Download PDF

Info

Publication number
CN104143337B
CN104143337B CN201410007783.6A CN201410007783A CN104143337B CN 104143337 B CN104143337 B CN 104143337B CN 201410007783 A CN201410007783 A CN 201410007783A CN 104143337 B CN104143337 B CN 104143337B
Authority
CN
China
Prior art keywords
sampling frequency
level
lsp
lsp parameter
frequency point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410007783.6A
Other languages
English (en)
Other versions
CN104143337A (zh
Inventor
吴小平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Tencent Cloud Computing Beijing Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201410007783.6A priority Critical patent/CN104143337B/zh
Publication of CN104143337A publication Critical patent/CN104143337A/zh
Priority to PCT/CN2015/070234 priority patent/WO2015103973A1/en
Application granted granted Critical
Publication of CN104143337B publication Critical patent/CN104143337B/zh
Priority to US15/184,775 priority patent/US9646633B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/057Time compression or expansion for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)

Abstract

本发明提出一种提高音频信号音质的方法和装置,其中方法包括:采用线谱对(LSP)参数确定平滑谱值为极大值的抽样频率点和平滑谱值为极小值的抽样频率点,并计算LSP参数的能量值Elsp;根据平滑谱值为极小值的抽样频率点将整个频率段划分为若干个频段,在各个频段中,将LSP参数中属于该频段的数据向该频段中平滑谱值为极大值的抽样频率点移动,并保持各数据的大小关系不变;根据调整后的LSP参数计算调整后的LSP参数的能量值Elspˊ,根据Elsp和Elspˊ调整音频信号的与能量相关的系数,保证调整LSP参数之前的音频信号能量与调整LSP参数之后的音频信号能量相同;采用调整后的LSP参数及所述与能量相关的系数重新生成音频信号。本发明能够分频段增强共振峰,提高音频信号的音质。

Description

一种提高音频信号音质的方法和装置
技术领域
本发明涉及音频信号技术领域,尤其涉及一种提高音频信号音质的方法和装置。
背景技术
线谱对(LSP)参数又叫线谱频率(LSF)参数,是描述音频信号的一种参数。一帧音频信号通常可以用一组LSP参数描述。每一组LSP参数包含多个数据,这些数据都介于0到π(圆周率)之间;LSP参数包含数据的个数称为该LSP参数的阶数。采用LSP参数合成音频数据时,常先把LSP参数转化为线性预测(LPC)参数,再用利用LPC合成器将LPC参数转化为音频信号。
平滑谱曲线是一种能够描述音频信号的曲线,每帧音频信号对应一幅平滑谱曲线。计算平滑谱曲线时,首先在频率轴(范围为0~π)上选取抽样频率点;之后,采用LSP参数分别计算每个抽样频率点的平滑谱值;之后,依次将每个抽样频率点的平滑谱值连接,形成平滑谱曲线。平滑谱曲线的精细程度与抽样频率点的多少有关,抽样越密集,平滑谱越精细。实际运用中,根据不同的需求会选取不同密度的抽样频率点,计算出各个抽样频率点的平滑谱值。
计算某一抽样频率点的平滑谱值的公式为:
d(ω)=-10lg|A(ω)|2(1)
其中,|A(ω)|2=[|P(ω)|2+|Q(ω)|2]/4(2)
其中,当LSP参数的阶数为偶数时,
| P ( ω ) | 2 = 2 p + 1 [ 1 + cos ( ω ) ] { Π i = 1 p / 2 [ cos ( ω ) - cos ( ω i ) ] } 2
| Q ( ω ) | 2 = 2 p + 1 [ 1 - c o s ( ω ) ] { Π i = 1 p / 2 [ c o s ( ω ) - c o s ( θ i ) ] } 2
当LSP参数的阶数为奇数时,
| P ( ω ) | 2 = 2 p + 1 { Π i = 1 ( p + 1 ) / 2 [ c o s ( ω ) - c o s ( ω i ) ] } 2
其中,p为LSP参数的阶数;
ωi与θi是一组lsf参数,0<ω1122<…<π;
ω为要计算平滑谱值的抽样频率点;
d(ω)为ω对应的平滑谱值;
|A(ω)|为逆滤波器的幅度谱值;
1/|A(ω)|为抽样频率点的幅度谱值(以下简称幅频值);
1/|A(ω)|2为抽样频率点的幅度谱平方值(以下简称幅平值);
由上述公式(1)可见,平滑谱与幅平谱的增减性相同。也就是说,在平滑谱曲线中,平滑谱值越大的抽样频率点,其幅平谱也越大;反之亦然。
图1为平滑谱曲线示意图。在图1中,横轴为频率,范围为(0~π),纵轴为平滑谱值。在平滑谱曲线中,凸起的尖峰为共振峰。共振峰是指在声音的频谱中能量相对集中的一些区域,共振峰是音质的决定因素,而且反映了声道(共振腔)的物理特征。声音在经过共振腔时,受到腔体的滤波作用,使得频域中不同频率的能量重新分配,一部分因为共振腔的共振作用得到强化,另一部分则受到衰减,得到强化的那些频率在时频分析的语图上表现为浓重的黑色条纹。由于能量分布不均匀,强的部分犹如山峰一般,故而称之为共振峰。在语音声学中,共振峰决定着元音的音质,而在计算机发声中,它们是决定音色和音质的重要参数。共振峰过于平滑,声音会比较沉闷。不同元音或者乐器的共振峰对应于不同的频率点。
由上述共振峰的特征可见,增强共振峰(也叫共振峰锐化),使能量更集中于共振峰部分,提高共振峰与其他部分的能量对比度能够提高音频信号的音质。
在现有技术中,增强共振峰,从而提高音频信号音质的方式有两种:
第一种,基于LSP参数的经验公式调整。
第二种,基于LPC参数的调整。将LSP参数转为LPC参数,通过调整LPC参数构造后置滤波器,从而增强共振峰。
上述方法存在如下缺点:
第一种方式的缺点是共振峰增强不明显,音质提升无明显效果。
第二种方式的缺点是容易造成频率倾斜,不能分频段进行调整,且运算量较大。
发明内容
本发明提供了一种提高音频信号音质的方法,能够分频段增强共振峰,提高音频信号的音质。
本发明还提供了一种提高音频信号音质的装置,能够分频段增强共振峰,提高音频信号的音质。
本发明提出的技术方案是这样实现的:
一种提高音频信号音质的方法,包括:
获取线谱对LSP参数;
确定平滑谱曲线的多个抽样频率点;
采用所述LSP参数,确定平滑谱值为极大值的抽样频率点和平滑谱值为极小值的抽样频率点,并计算LSP参数的能量值Elsp
根据平滑谱值为极小值的抽样频率点将整个频率范围划分为(N+1)个频段,其中N为平滑谱值为极小值的抽样频率点的个数;在所述各个频段中,将LSP参数中属于该频段的数据向该频段中平滑谱值为极大值的抽样频率点移动,并保持各数据的大小关系不变;
根据调整后的LSP参数计算调整后的LSP参数的能量值Elsp',根据Elsp和Elsp'调整音频信号的能量系数,保证调整LSP参数之前的音频信号能量与调整LSP参数之后的音频信号能量相同;
采用调整后的LSP参数及所述与能量相关的系数重新生成音频信号。
上述方法中,平滑谱曲线的多个抽样频率点可以为:
0与LSP参数中最小数据的中间点、LSP参数中每一对相邻数据的中间点以及LSP参数中最大数据与π的中间点;
或者,均匀分布于0至π的多个频率点。
上述方法中,采用所述LSP参数,确定平滑谱值为极大值的抽样频率点和平滑谱值为极小值的抽样频率点的方式可以为:
采用所述LSP参数计算各个抽样频率点的幅平值,确定幅平值为极大值的抽样频率点和幅平值为极小值的抽样频率点,幅平值为极大值的抽样频率点即为平滑谱值为极大值的抽样频率点,幅平值为极小值的抽样频率点即为平滑谱值为极小值的抽样频率点。
将LSP参数中属于该频段的数据向该频段中平滑谱值为极大值的抽样频率点移动的方式可以为:
针对每个所述数据,计算该数据与平滑谱值为极大值的抽样频率点一侧的相邻数据的间隔,将该数据向平滑谱值为极大值的抽样频率点一侧移动所述间隔的1/n,其中,n为预先设定的整数。
根据Elsp和Elsp'调整能量系数的方式为,可以采用如下公式调整:
其中,所述G′为调整后的能量系数,G为调整前的能量系数。
一种提高音频信号音质的装置,包括:
LSP参数获取模块,用于获取LSP参数;
抽样频率点确定模块,用于确定平滑谱曲线的多个抽样频率点;
极值确定模块,用于采用所述LSP参数,确定平滑谱值为极大值的抽样频率点和平滑谱值为极小值的抽样频率点;
LSP参数调整模块,用于根据平滑谱值为极小值的抽样频率点将整个频率段划分为(N+1)个频段,其中N为平滑谱值为极小值的抽样频率点的个数;在所述各个频段中,将LSP参数中属于该频段的数据向该频段中平滑谱值为极大值的抽样频率点移动,并保持各数据的大小关系不变;
能量系数调整模块,用于根据LSP参数计算LSP参数的能量值Elsp,并根据调整后的LSP参数计算调整后的LSP参数的能量值Elsp',根据Elsp和Elsp'调整音频信号的能量系数,保证调整LSP参数之前的音频信号能量与调整LSP参数之后的音频信号能量相同;
音频信号生成模块,用于采用调整后的LSP参数及所述与能量相关的系数重新生成音频信号。
上述装置中,抽样频率点确定模块确定的多个抽样频率点可以为:
0与LSP参数中最小数据的中间点、LSP参数中每一对相邻数据的中间点以及LSP参数中最大数据与π的中间点;
或者,均匀分布于0至π的多个频率点。
所述极值确定模块可以用于,采用所述LSP参数计算各个抽样频率点的幅平值,确定幅平值为极大值的抽样频率点和幅平值为极小值的抽样频率点,幅平值为极大值的抽样频率点即为平滑谱值为极大值的抽样频率点,幅平值为极小值的抽样频率点即为平滑谱值为极小值的抽样频率点。
所述LSP参数调整模块将LSP参数中属于该频段的数据向该频段中平滑谱值为极大值的抽样频率点移动的方式可以为:
针对每个所述数据,计算该数据与平滑谱值为极大值的抽样频率点一侧的相邻数据的间隔,将该数据向平滑谱值为极大值的抽样频率点一侧移动所述间隔的1/n,其中,n为预先设定的整数。
能量系数调整模块根据Elsp和Elsp'调整能量系数的方式可以为,采用如下公式调整:
其中,所述G′为调整后的能量系数,G为调整前的能量系数。
可见,本发明提出的提高音频信号音质的方法和装置,能够采用平滑谱值为极小值的抽样频率点将整个频率段划分为若干频段,在每个频段中将LSP参数向该频段中平滑谱值为极大值的抽样频率点(即共振峰点)移动,从而增强共振峰,并最终实现提高音频信号音质的目的。
附图说明
图1为平滑谱曲线示意图;
图2为本发明提出的提高音频信号音质的方法实现流程图;
图3为本发明提出的提高音频信号音质的装置结构示意图。
具体实施方式
本发明提出一种提高音频信号音质的方法,如图2为该方法的实现流程图,包括:
步骤201:获取LSP参数;
步骤202:确定平滑谱曲线的多个抽样频率点;
步骤203:采用所述LSP参数,确定平滑谱值为极大值的抽样频率点和平滑谱值为极小值的抽样频率点,并计算LSP参数的能量值Elsp
步骤204:根据平滑谱值为极小值的抽样频率点将整个频率范围划分为(N+1)个频段,其中N为平滑谱值为极小值的抽样频率点的个数;在所述各个频段中,将LSP参数中属于该频段的数据向该频段中平滑谱值为极大值的抽样频率点移动,并保持各数据的大小关系不变;
步骤205:根据调整后的LSP参数计算调整后的LSP参数的能量值Elsp',根据Elsp和Elsp'调整音频信号的与能量相关的系数,保证调整LSP参数之前的音频信号能量与调整LSP参数之后的音频信号能量相同;
步骤206:采用调整后的LSP参数及所述与能量相关的系数重新生成音频信号。
以下结合附图,举具体的实施例详细说明。
实施例一:
本实施例包括以下步骤:
第一步:获取LSP参数。
LSP参数常由前置系统产生或者其他参数转化而来,伴随着LSP参数的还有能量系数和基频信息。在语音合成系统中,LSP参数由参数生成算法产生,同时还产生清浊音标识符和能量值系数。获取到的LSP参数常常由于系统的原因过于平滑,生成的声音过于沉闷。本发明对获取LSP参数的具体方式不做限制。
在本实施例中,获取到一组10阶的LSP参数,包括10个数据:0.13π、0.18π、0.2π、0.24π、0.32π、0.52π、0.63π、0.7π、0.74π和0.85π。
第二步:确定平滑谱值曲线的多个抽样频率点。
在本实施例中,选取0与LSP参数中最小数据的中间点、LSP参数中每一对相邻数据的中间点以及LSP参数中最大数据与π的中间点作为抽样频率点。
具体地,选取11个抽样频率点,包括:(0+0.13π)/2=0.065π,(0.13π+0.18π)/2=0.155π,(0.18π+0.2π)/2=0.19π,…(0.74π+0.85π)/2=0.795π,(0.85π+π)/2=0.925π。
本发明也可以采用其他方式确定抽样频率点,例如,选取均匀分布于0至π的多个频率点作为抽样频率点。
第三步:确定平滑谱值为极大值的抽样频率点(也就是共振峰的位置)和平滑谱值为极小值的抽样频率点,并计算LSP参数的能量值Elsp
其中,在确定平滑谱值为极大值的抽样频率点和平滑谱值为极小值的抽样频率点时,由于平滑谱与幅平谱的增减性相同,本实施例可以计算并比较各个抽样频率点的幅平值,找到幅平值为极大值(例如,比两侧的两个幅平值都大的值)的抽样频率点和幅平值为极小值(例如,比两侧的两个幅平值都小的值)的抽样频率点;幅平值为极大值的抽样频率点也就是平滑谱值为极大值的抽样频率点,幅平值为极小值的抽样频率点也就是平滑谱值为极小值的抽样频率点。
具体可以采用上述公式(2)计算幅平值。
如下表1包含了本实施例中的LSP参数、抽样频率点及对应幅平值1/|A(ω)|2
表1
根据表1的结果确定出平滑谱值为极大值的抽样频率点为0.19π(对应的幅平值为12.5)、0.72π(对应的幅平值为7.692);平滑谱值为极小值的抽样频率点为0.42π(对应的幅平值为5.848)。
LSP参数的能量值Elsp的计算方式如下:
频率域的能量值等于频谱曲线(即1/|A(ω)|的曲线)的平方(即1/|A(ω)|2)对全频率(0~π)积分。公式为:
E = &Integral; 0 &pi; 1 / | A ( &omega; ) | 2 d &omega;
在离散系统中,变换为对所有抽样点的频平值(1/|A(ω)|2)和抽样区间乘积的求和。即为:
E=Σ(1/|A(ω)|2)·Δω
具体到本实施例中,则LSP参数的能量值Elsp为:
Elsp=5.882*(0.13π-0)+7.143*(0.18π-0.13π)+12.5*(0.2π-0.18π)+…+6.667*(π-0.85π)
第四步:调整LSP参数,从而增强共振峰。
首先介绍LSP参数的特性:1、LSP参数越密集的地方,平滑谱越尖锐;2、改变LSP参数中的某一数据的大小(即是移动LSP中某一线谱频率的位置)所对应的平滑谱只在该数据附近与原平滑谱有差异,而在其它频域则变化很小。
基于LSP参数的上述特性,增强共振峰的总体思路为:调整LSP参数线谱频率的位置,使共振峰处的线谱频率更密集,则共振峰就更尖锐,从而达到锐化共振峰的目的。
具体方法为:根据平滑谱值为极小值的抽样频率点将整个频率范围划分为(N+1)个频段,其中N为平滑谱值为极小值的抽样频率点的个数;在所述各个频段中,将LSP参数中属于该频段的数据向该频段中平滑谱值为极大值的抽样频率点移动,并保持各数据的大小关系不变。这种方式可以使极大值点附近的LSP参数更加密集,从而增强共振峰。
根据实际需要锐化的程度,可以在不同频段采用不同的移动策略,本发明对具体的移动策略不做限制,只需满足上述要求即可。
在本实施例中,具体采用的移动策略为:针对一个频段内的每个数据,计算该数据与平滑谱值为极大值的抽样频率点一侧的相邻数据的间隔,将该数据向平滑谱值为极大值的抽样频率点一侧移动所述间隔的1/n,其中,n为预先设定的整数。
n在不同频段取不同的值实现各频段锐化的需求。
LSP参数移动的原则为:不应改变原LSP参数的顺序,移动前任意两数据的大小关系和移动后的大小关系一样;其相对疏密度不应改变;共振峰位置不应有明显变化。
根据上述确定出的极大值点和极小值点,具体移动的方式为:
根据平滑谱值为极小值的抽样频率点0.42π,将整个频率段划分为2个频段,假设第一频段(0~0.42π)取n=4,第二频段(0.42π~π)取n=6。将第一频段的LSP参数向0.19π移动,将第二频段的LSP参数向0.72π移动。具体如下:
a)、计算间距:
第一频段:
Δlsf1=0.18π-0.13π=0.05π
Δlsf2=0.2π-0.18π=0.02π
Δlsf3=0.24π-0.2π=0.04π
Δlsf4=0.32π-0.24π=0.08π
第二频段:
Δlsf6=0.63π-0.52π=0.11π
Δlsf7=0.7π-0.63π=0.07π
Δlsf8=0.74π-0.7π=0.04π
Δlsf9=0.85π-0.74π=0.11π
b)、移动:
b1)0~0.19π频段,将LSP参数中的0.13π和0.18π分别向0.19π方向移动,具体如下:
lsf1’=lsf1+Δlsf1/n=0.13π+0.05π/4=0.1425π
lsf2’=lsf2+Δlsf2/n=0.18π+0.02π/4=0.185π
b2)0.19π~0.42π频段,将LSP参数中的0.2π、0.24π和0.32π分别向0.19π方向移动,具体如下:
lsf3’=lsf3-Δlsf2/n=0.2π-0.02π/4=0.195π
lsf4’=lsf4-Δlsf3/n=0.24π-0.04π/4=0.23π
lsf5’=lsf5-Δlsf4/n=0.32π-0.08π/4=0.3π
b3)0.42π~0.72π频段,将LSP参数中的0.52π、0.63π和0.7π分别向0.72π方向移动,具体如下:
lsf6’=lsf6+Δlsf6/n=0.52π+0.11π/6=0.538π
lsf7’=lsf7+Δlsf7/n=0.63π+0.07π/6=0.642π
lsf8’=lsf8+Δlsf8/n=0.7π+0.04π/6=0.707π
b4)0.72π~π频段,将LSP参数中的0.74π和0.85π分别向0.72π方向移动,具体如下:
lsf9’=lsf9-Δlsf8/n=0.74π-0.04π/6=0.733π
lsf10’=lsf10-Δlsf9/n=0.85π-0.11π/6=0.832π
调整后的LSP参数(LSP’)与调整前的LSP参数对比如下表2:
LSP 0.13π 0.18π 0.2π 0.24π 0.32π 0.52π 0.63π 0.7π 0.74π 0.85π
LSP’ 0.1425π 0.185π 0.195π 0.23π 0.3π 0.538π 0.642π 0.707π 0.733π 0.832π
表2
由表2可见:第一频段LSP参数整体向0.19π移动,第二频段LSP参数整体向0.72π移动。
具体应用中,可以根据实际情况选取部分帧的LSP参数做调整。例如,在语音合成中,影响音质的主要是浊音部分,因此调整时可以仅调整浊音段的LSP参数,而不调整清音段的LSP参数,这样可以减少运算时间。
第五步:调整音频信号的与能量相关的系数,保证调整LSP参数之前的音频信号能量与调整LSP参数之后的音频信号能量相同。
由于调整LSP参数后平滑谱会改变,LSP参数的能量值也会和调整前不一样,为了不改变音频信号整体的能量大小,需要调整音频信号的与能量相关的系数。
可以调整能量系数、基频参数等。本实施例以调整能量系数为例进行介绍。
首先,能量关系式为:E=Elsp×G2,其中:
G为能量系数;
Elsp为LSP参数的能量值;
E为音频信号的能量。
根据上述第三步介绍的方法,计算出调整后的LSP参数的能量值Elsp',由上述能量关系式可见,为保证E不变,可以调整能量系数,调整后的能量系数为:
G &prime; = G E l s p E lsp &prime;
上述过程就实现了基于LSP参数的共振峰增强,并且并不改变整体音频信号的能量值,不会使整体音量突增或突减。之后执行第六步。
第六步:采用调整后的LSP参数及与能量相关的系数(本实施例中为能量系数)重新生成音频信号。
本发明对生成音频信号的具体方式不做限制。在语音合成中,可以将调整后的LSP参数转化为LPC参数,并将LPC参数送入LPC合成器合成音频信号。
以上介绍了提高音频信号音质的方法。本发明还提出一种提高音频信号音质的装置,如图3为该装置的结构示意图,包括:
LSP参数获取模块301,用于获取LSP参数;
抽样频率点确定模块302,用于确定平滑谱曲线的多个抽样频率点;
极值确定模块303,用于采用所述LSP参数,确定平滑谱值为极大值的抽样频率点和平滑谱值为极小值的抽样频率点;
LSP参数调整模块304,用于根据平滑谱值为极小值的抽样频率点将整个频率段划分为(N+1)个频段,其中N为平滑谱值为极小值的抽样频率点的个数;在所述各个频段中,将LSP参数中属于该频段的数据向该频段中平滑谱值为极大值的抽样频率点移动,并保持各数据的大小关系不变;
能量系数调整模块305,用于根据LSP参数计算LSP参数的能量值Elsp,并根据调整后的LSP参数计算调整后的LSP参数的能量值Elsp',根据Elsp和Elsp'调整音频信号的与能量相关的系数,保证调整LSP参数之前的音频信号能量与调整LSP参数之后的音频信号能量相同;
音频信号生成模块306,用于采用调整后的LSP参数及所述与能量相关的系数重新生成音频信号。
上述装置中,抽样频率点确定模块302确定的多个抽样频率点可以为:0与LSP参数中最小数据的中间点、LSP参数中每一对相邻数据的中间点以及LSP参数中最大数据与π的中间点;或者,均匀分布于0至π的多个频率点。
极值确定模块303具体可以用于,采用所述LSP参数计算各个抽样频率点的幅平值,确定幅平值为极大值的抽样频率点和幅平值为极小值的抽样频率点,幅平值为极大值的抽样频率点即为平滑谱值为极大值的抽样频率点,幅平值为极小值的抽样频率点即为平滑谱值为极小值的抽样频率点。
LSP参数调整模块304将LSP参数中属于该频段的数据向该频段中平滑谱值为极大值的抽样频率点移动的方式可以为:针对每个所述数据,计算该数据与平滑谱值为极大值的抽样频率点一侧的相邻数据的间隔,将该数据向平滑谱值为极大值的抽样频率点一侧移动所述间隔的1/n,其中,n为预先设定的整数。
上述装置中,所述音频信号的与能量相关的系数可以为能量系数或基频参数等;
能量系数调整模块305根据Elsp和Elsp'调整能量系数的方式可以为,采用如下公式调整:
其中,所述G′为调整后的能量系数,G为调整前的能量系数。
综上可见,本发明提出的提高音频信号音质的方法和装置,根据LSP参数确定平滑谱中的共振峰点(即平滑谱值为极大值的抽样频率点)以及平滑谱值为极小值的抽样频率点;根据平滑谱值为极小值的抽样频率点将整个频率段划分为若干频段,将每个频段中的LSP参数向该频段中的共振峰移动,从而实现共振峰锐化,并且可以不同频段实现不同的锐化程度,从而实现提高音频信号的音质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (10)

1.一种提高音频信号音质的方法,其特征在于,所述方法包括:
获取线谱对LSP参数;
确定平滑谱曲线的多个抽样频率点;
采用所述LSP参数,确定平滑谱值为极大值的抽样频率点和平滑谱值为极小值的抽样频率点,并计算LSP参数的能量值Elsp
根据平滑谱值为极小值的抽样频率点将整个频率范围划分为(N+1)个频段,其中N为平滑谱值为极小值的抽样频率点的个数;在所述各个频段中,将LSP参数中属于该频段的数据向该频段中平滑谱值为极大值的抽样频率点移动,并保持各数据的大小关系不变;
根据调整后的LSP参数计算调整后的LSP参数的能量值Elsp',根据Elsp和Elsp'调整音频信号的能量系数,保证调整LSP参数之前的音频信号能量与调整LSP参数之后的音频信号能量相同;
采用调整后的LSP参数及所述与能量相关的系数重新生成音频信号。
2.根据权利要求1所述的方法,其特征在于,所述平滑谱曲线的多个抽样频率点为:
0与LSP参数中最小数据的中间点、LSP参数中每一对相邻数据的中间点以及LSP参数中最大数据与π的中间点;
或者,均匀分布于0至π的多个频率点。
3.根据权利要求1所述的方法,其特征在于,所述采用所述LSP参数,确定平滑谱值为极大值的抽样频率点和平滑谱值为极小值的抽样频率点的方式为:
采用所述LSP参数计算各个抽样频率点的幅平值,确定幅平值为极大值的抽样频率点和幅平值为极小值的抽样频率点,幅平值为极大值的抽样频率点即为平滑谱值为极大值的抽样频率点,幅平值为极小值的抽样频率点即为平滑谱值为极小值的抽样频率点。
4.根据权利要求1所述的方法,其特征在于,所述将LSP参数中属于该频段的数据向该频段中平滑谱值为极大值的抽样频率点移动的方式为:
针对每个所述数据,计算该数据与平滑谱值为极大值的抽样频率点一侧的相邻数据的间隔,将该数据向平滑谱值为极大值的抽样频率点一侧移动所述间隔的1/n,其中,n为预先设定的整数。
5.根据权利要求1所述的方法,其特征在于,所述根据Elsp和Elsp'调整能量系数的方式为,采用如下公式调整:
其中,所述G′为调整后的能量系数,G为调整前的能量系数。
6.一种提高音频信号音质的装置,其特征在于,所述装置包括:
LSP参数获取模块,用于获取LSP参数;
抽样频率点确定模块,用于确定平滑谱曲线的多个抽样频率点;
极值确定模块,用于采用所述LSP参数,确定平滑谱值为极大值的抽样频率点和平滑谱值为极小值的抽样频率点;
LSP参数调整模块,用于根据平滑谱值为极小值的抽样频率点将整个频率段划分为(N+1)个频段,其中N为平滑谱值为极小值的抽样频率点的个数;在所述各个频段中,将LSP参数中属于该频段的数据向该频段中平滑谱值为极大值的抽样频率点移动,并保持各数据的大小关系不变;
能量系数调整模块,用于根据LSP参数计算LSP参数的能量值Elsp,并根据调整后的LSP参数计算调整后的LSP参数的能量值Elsp',根据Elsp和Elsp'调整音频信号的能量系数,保证调整LSP参数之前的音频信号能量与调整LSP参数之后的音频信号能量相同;
音频信号生成模块,用于采用调整后的LSP参数及所述与能量相关的系数重新生成音频信号。
7.根据权利要求6所述的装置,其特征在于,所述抽样频率点确定模块确定的多个抽样频率点为:
0与LSP参数中最小数据的中间点、LSP参数中每一对相邻数据的中间点以及LSP参数中最大数据与π的中间点;
或者,均匀分布于0至π的多个频率点。
8.根据权利要求6所述的装置,其特征在于,所述极值确定模块用于,采用所述LSP参数计算各个抽样频率点的幅平值,确定幅平值为极大值的抽样频率点和幅平值为极小值的抽样频率点,幅平值为极大值的抽样频率点即为平滑谱值为极大值的抽样频率点,幅平值为极小值的抽样频率点即为平滑谱值为极小值的抽样频率点。
9.根据权利要求6所述的装置,其特征在于,所述LSP参数调整模块将LSP参数中属于该频段的数据向该频段中平滑谱值为极大值的抽样频率点移动的方式为:
针对每个所述数据,计算该数据与平滑谱值为极大值的抽样频率点一侧的相邻数据的间隔,将该数据向平滑谱值为极大值的抽样频率点一侧移动所述间隔的1/n,其中,n为预先设定的整数。
10.根据权利要求6所述的装置,其特征在于,所述能量系数调整模块根据Elsp和Elsp'调整能量系数的方式为,采用如下公式调整:
其中,所述G′为调整后的能量系数,G为调整前的能量系数。
CN201410007783.6A 2014-01-08 2014-01-08 一种提高音频信号音质的方法和装置 Active CN104143337B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201410007783.6A CN104143337B (zh) 2014-01-08 2014-01-08 一种提高音频信号音质的方法和装置
PCT/CN2015/070234 WO2015103973A1 (en) 2014-01-08 2015-01-06 Method and device for processing audio signals
US15/184,775 US9646633B2 (en) 2014-01-08 2016-06-16 Method and device for processing audio signals

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410007783.6A CN104143337B (zh) 2014-01-08 2014-01-08 一种提高音频信号音质的方法和装置

Publications (2)

Publication Number Publication Date
CN104143337A CN104143337A (zh) 2014-11-12
CN104143337B true CN104143337B (zh) 2015-12-09

Family

ID=51852495

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410007783.6A Active CN104143337B (zh) 2014-01-08 2014-01-08 一种提高音频信号音质的方法和装置

Country Status (3)

Country Link
US (1) US9646633B2 (zh)
CN (1) CN104143337B (zh)
WO (1) WO2015103973A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104143337B (zh) * 2014-01-08 2015-12-09 腾讯科技(深圳)有限公司 一种提高音频信号音质的方法和装置
CN105897997B (zh) * 2014-12-18 2019-03-08 北京千橡网景科技发展有限公司 用于调整音频增益的方法和设备
US9847093B2 (en) * 2015-06-19 2017-12-19 Samsung Electronics Co., Ltd. Method and apparatus for processing speech signal
CN105118514A (zh) * 2015-08-17 2015-12-02 惠州Tcl移动通信有限公司 一种播放无损音质声音的方法及耳机
CN117008863B (zh) * 2023-09-28 2024-04-16 之江实验室 一种lofar长数据处理及显示方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1632863A (zh) * 2004-12-03 2005-06-29 清华大学 一种超帧声道参数平滑和抽取矢量量化的方法
EP1688920A1 (en) * 1999-11-01 2006-08-09 Nec Corporation Speech signal decoding
EP1727130A2 (en) * 1999-07-28 2006-11-29 NEC Corporation Speech signal decoding method and apparatus
CN101211561A (zh) * 2006-12-30 2008-07-02 北京三星通信技术研究有限公司 音乐信号质量增强方法和装置
CN101409075A (zh) * 2008-11-27 2009-04-15 杭州电子科技大学 G.729标准中线谱对系数转换及量化的方法
CN101527141A (zh) * 2009-03-10 2009-09-09 苏州大学 基于径向基神经网络的耳语音转换为正常语音的方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2993396B2 (ja) * 1995-05-12 1999-12-20 三菱電機株式会社 音声加工フィルタ及び音声合成装置
SE514875C2 (sv) * 1999-09-07 2001-05-07 Ericsson Telefon Ab L M Förfarande och anordning för konstruktion av digitala filter
US6665638B1 (en) * 2000-04-17 2003-12-16 At&T Corp. Adaptive short-term post-filters for speech coders
US7065485B1 (en) * 2002-01-09 2006-06-20 At&T Corp Enhancing speech intelligibility using variable-rate time-scale modification
JP4413480B2 (ja) * 2002-08-29 2010-02-10 富士通株式会社 音声処理装置及び移動通信端末装置
EP1557827B8 (en) * 2002-10-31 2015-01-07 Fujitsu Limited Voice intensifier
KR20050049103A (ko) * 2003-11-21 2005-05-25 삼성전자주식회사 포만트 대역을 이용한 다이얼로그 인핸싱 방법 및 장치
US7676362B2 (en) * 2004-12-31 2010-03-09 Motorola, Inc. Method and apparatus for enhancing loudness of a speech signal
CN1815552B (zh) * 2006-02-28 2010-05-12 安徽中科大讯飞信息科技有限公司 基于线谱频率及其阶间差分参数的频谱建模与语音增强方法
US20080195381A1 (en) * 2007-02-09 2008-08-14 Microsoft Corporation Line Spectrum pair density modeling for speech applications
US9031834B2 (en) * 2009-09-04 2015-05-12 Nuance Communications, Inc. Speech enhancement techniques on the power spectrum
KR102060208B1 (ko) * 2011-07-29 2019-12-27 디티에스 엘엘씨 적응적 음성 명료도 처리기
CN104143337B (zh) * 2014-01-08 2015-12-09 腾讯科技(深圳)有限公司 一种提高音频信号音质的方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1727130A2 (en) * 1999-07-28 2006-11-29 NEC Corporation Speech signal decoding method and apparatus
EP1688920A1 (en) * 1999-11-01 2006-08-09 Nec Corporation Speech signal decoding
CN1632863A (zh) * 2004-12-03 2005-06-29 清华大学 一种超帧声道参数平滑和抽取矢量量化的方法
CN101211561A (zh) * 2006-12-30 2008-07-02 北京三星通信技术研究有限公司 音乐信号质量增强方法和装置
CN101409075A (zh) * 2008-11-27 2009-04-15 杭州电子科技大学 G.729标准中线谱对系数转换及量化的方法
CN101527141A (zh) * 2009-03-10 2009-09-09 苏州大学 基于径向基神经网络的耳语音转换为正常语音的方法

Also Published As

Publication number Publication date
US20160300585A1 (en) 2016-10-13
WO2015103973A1 (en) 2015-07-16
US9646633B2 (en) 2017-05-09
CN104143337A (zh) 2014-11-12

Similar Documents

Publication Publication Date Title
CN104143337B (zh) 一种提高音频信号音质的方法和装置
CN101770776B (zh) 瞬态信号的编码方法和装置、解码方法和装置及处理系统
KR102367538B1 (ko) 다중 채널 신호 인코딩 방법 및 인코더
CN101952889B (zh) 用于在带宽扩展系统中估计高频带能量的方法和设备
JP7577773B2 (ja) マルチチャネル信号を符号化する方法及びエンコーダ
US8560308B2 (en) Speech sound enhancement device utilizing ratio of the ambient to background noise
EP4148732A1 (en) Cross product enhanced subband block based harmonic transposition
WO2009011826A3 (en) Time-varying audio-signal level using a time-varying estimated probability density of the level
CN105229738B (zh) 用于使用能量限制操作产生频率增强信号的装置及方法
CN108806721A (zh) 信号处理器
CN101622668A (zh) 电信网络中的方法和装置
US12009000B2 (en) Apparatus and method for comfort noise generation mode selection
CN108920418A (zh) 一种基于偏度的自适应变窗长短时时频变换技术
Xue et al. Optimization of Voiced Excitation Model by MVF Algorithm
CN108630212A (zh) 非盲带宽扩展中高频激励信号的感知重建方法与装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200821

Address after: 518057 Nanshan District science and technology zone, Guangdong, Zhejiang Province, science and technology in the Tencent Building on the 1st floor of the 35 layer

Co-patentee after: TENCENT CLOUD COMPUTING (BEIJING) Co.,Ltd.

Patentee after: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.

Address before: Shenzhen Futian District City, Guangdong province 518044 Zhenxing Road, SEG Science Park 2 East Room 403

Patentee before: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.

TR01 Transfer of patent right