Nothing Special   »   [go: up one dir, main page]

CN1273955C - 采用带宽扩展技术编码和/或解码音频数据的方法和装置 - Google Patents

采用带宽扩展技术编码和/或解码音频数据的方法和装置 Download PDF

Info

Publication number
CN1273955C
CN1273955C CNB031650201A CN03165020A CN1273955C CN 1273955 C CN1273955 C CN 1273955C CN B031650201 A CNB031650201 A CN B031650201A CN 03165020 A CN03165020 A CN 03165020A CN 1273955 C CN1273955 C CN 1273955C
Authority
CN
China
Prior art keywords
bandwidth
voice data
coding
basic unit
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB031650201A
Other languages
English (en)
Other versions
CN1532808A (zh
Inventor
金重会
金尚煜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN1532808A publication Critical patent/CN1532808A/zh
Application granted granted Critical
Publication of CN1273955C publication Critical patent/CN1273955C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • G10L19/0216Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation using wavelet decomposition
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明提供了利用带宽扩展技术编码和解码音频数据的方法和装置。此方法包括:带宽扩展编码音频数据,输出带宽受限的音频数据,并产生带宽扩展信息;将带宽受限的音频数据算术编码为具有一基层和至少一增强层的分层结构从而控制比特率;并多路复用算术编码带宽受限的音频数据和带宽扩展信息。

Description

采用带宽扩展技术编码和/或 解码音频数据的方法和装置
本申请要求以2003年3月22日向韩国知识产权局提交的申请号为2003-17978的申请为外国优先权,其公开在此被全文引用。
技术领域
本发明涉及音频数据的编码和解码,尤其涉及采用带宽扩展技术编码和/或解码音频数据的方法和装置。
背景技术
随着数字信号处理技术发展,音频信号主要作为数字数据存储并播放。数字音频存储器和/或播放设备采样并量化模拟音频信号,将模拟音频信号变换成作为数字信号的脉冲编码调制(PCM)音频数据,并将脉冲编码调制(PCM)音频数据存储在诸如压缩光盘(CD)、数字通用光盘(DVD)或类似物的信息存储介质上,这样,当用户想听PCM音频数据时可播放信息存储介质上的数据。相对于慢转密纹(LP)唱片、磁带或类似物所采用的模拟音频信号存储和/或再现方法,数字音频信号存储和/或再现方法大大提高了音质且显著减少了由于长期存放所导致的音质恶化。然而,大量数字数据有时也产生存储和传输的问题。
为解决以上问题,大量用于减少数字音频数据量的压缩技术得以使用。由国际标准化组织(ISO)起草的运动图像专家组音频标准或道尔比降噪声系统的AC-2/AC-3技术采取利用一音质模型减少数据量的方法,有效减少了与信号特征无关的数据量。也就是说,MPEG音频标准和AC-2/AC-3技术只在64Kbps-384Kbps的比特率上,即现有数字编码技术的1/6-1/8,提供与CD几乎相同的音质。
然而,以上所有技术都遵从在固定比特率的最佳状态下检测、量化和编码数字数据的方法。因此,当经由网络传输数字数据时,由于网络条件限制导致传输带宽减小。然后,网络断开且网络服务停止。也就是说,当数字数据被变换成较小比特流从而适合存储容量受限的移动设备时,可执行重编码以减少数据量。为此,需要相当多的计算。
因此,本申请人于1997年11月19日向韩国知识产权局提交了申请号为97-61298的韩国专利申请“能利用比特切割算术编码(BSAC)技术控制比特率的音频编码和/或解码方法和装置”,此申请已于2002年4月17日授权,韩国专利登记号为261253。依据BSAC技术,已以高比特率编码的比特流,可被变换成具有低比特率的比特流。由于可只采用一部分比特流进行重构,即使网络过载、解码器性能不好或用户要求低比特率,也能只利用一部分比特流向用户提供适中音质服务(即使解码器性能与低比特率同样恶化)。然而,在低比特率,解码器性能也不可避免地要降低。
然而,BSAC技术利用改进的离散余弦变换(MDCT)变换音频信号,这严重降低了较低层产生的声音质量。由于MDCT的频率分辨率为常数,考虑到音质模型,人耳不敏感部分的频率分辨率变得很高。因此,依据MDCT,从增强层到较低层时声音质量变差。
发明内容
本发明提供了能控制音频数据比特率的音频数据编码和/或解码方法和装置,即使只利用部分比特流执行恢复,也能再现高质量声音。
本发明还提供了音频数据编码和/或解码方法和装置,能控制比特流使得可从一较低层产生高质量声音。
依据本发明的一方面,提供了一种编码音频数据的方法。此方法包括:带宽扩展编码音频数据,输出带宽受限的音频数据,并产生带宽扩展信息;将所述带宽受限的音频数据算术编码为具有一基层和至少一增强层的分层结构从而控制比特率;并多路复用该算术编码带宽受限的音频数据和带宽扩展信息。
所述算术编码包括:差分编码对应于基层的辅助信息;比特分割编码对应于基层的多个量化采样值;并为下一增强层重复差分编码和比特分割编码直到多个预定层完成编码。
所述算术编码包括:差分编码对应于基层的包含比例因子信息和编码模型信息的辅助信息;参考编码模型信息,比特分割编码对应于基层的多个量化采样值;并为下一增强层重复差分编码和比特分割编码直到多个预定层完成编码。
量化采样值最好通过音频数据的伪子波变换获得。
已编码带宽受限的音频数据和带宽扩展信息按以下顺序多路复用,定位对应于基层的一部分已编码带宽受限的音频数据,定位带宽扩展信息,并定位对应于其余增强层的部分已编码带宽受限的音频数据。
可选地,已编码带宽受限的音频数据和带宽扩展信息按以下顺序多路复用,定位带宽扩展信息,定位对应于基层的一部分已编码带宽受限的音频数据,并定位对应于其余增强层的部分已编码带宽受限的音频数据。
根据本发明的另一方面,提供了一种解码音频数据的方法。此方法包括:多路分解一输入音频比特流并采样带宽受限的音频数据,此数据被编码为包括一基层和至少一增强层以及带宽扩展信息的分层结构;算术解码至少一部分对应于基层的带宽受限的音频数据;基于带宽受限的音频数据的已解码部分并参考带宽扩展信息,产生处于至少一部分未被带宽受限的音频数据的已解码部分覆盖的频带内的音频数据,然后将所产生的音频数据补入带宽受限的音频数据的已解码部分。
产生在所述频带部分的音频数据,从而到达带宽受限的音频数据已解码部分的边界。产生在所述频带部分的音频数据,从而到达用于伪子波变换的滤波器组的边界。假如音频数据未到达用于伪子波变换的滤波器组的边界,则插入带宽受限的音频数据已解码部分与所产生的音频数据的重叠部分。
所述输入音频比特流按以下顺序多路分解:从输入音频比特流采样对应于基层的数据,从输入音频比特流采样带宽扩展信息,并从输入音频比特流采样对应于其余增强层的数据。
可选地,所述输入音频比特流按以下顺序多路分解:从输入音频比特流采样带宽扩展信息,从输入音频比特流采样对应于基层的数据,并从输入音频比特流采样对应于其余增强层的数据。
所述算术解码包括:差分解码对应于基层的辅助信息;比特分割解码对应于基层的多个量化采样值;并为下一增强层重复差分解码和比特分割解码直到多个预定层完成解码。
所述算术解码包括:差分解码对应于基层的包含比例因子信息和编码模型信息的辅助信息;参考编码模型信息,比特分割解码对应于基层的多个量化采样值;并为下一增强层重复差分解码和比特分割解码直到多个预定层完成解码。
根据本发明的再一个方面,提供了一种编码音频数据的装置。此装置包括:一带宽扩展编码器,用于带宽扩展编码音频数据、输出带宽受限的音频数据并产生带宽扩展信息;一细粒可伸缩编码器,用于将所述带宽受限的音频数据算术编码为包括一基层和至少一增强层的分层结构从而控制比特率;以及一多路复用器,用于多路复用所述算术编码带宽受限的音频数据和带宽扩展信息。
所述细粒可伸缩编码器差分编码对应于基层的辅助信息,比特分割编码对应于基层的多个量化采样值,并比特分割编码对应于下一增强层的辅助信息和多个量化采样值直到多个预定层完成编码。
所述细粒可伸缩编码器差分编码对应于基层的包含比例因子信息和编码模型信息的辅助信息,参考编码模型信息,比特分割编码对应于基层的多个量化采样值,编码对应于下一增强层的包含比例因子信息和编码模型信息的辅助信息直到多个预定层完成编码,并比特分割编码对应于下一增强层的多个量化采样值。所述细粒可伸缩编码器最好通过伪子波变换音频数据获得量化采样值。
所述多路复用器按以下顺序多路复用已编码带宽受限的音频数据和带宽扩展信息:定位一部分对应于基层的已编码带宽受限的音频数据,定位带宽扩展信息,并定位对应于其余增强层的部分已编码带宽受限的音频数据。
根据本发明的又一个方面,提供了一种用于解码音频数据的装置。此装置包括:一多路分解器,多路分解一输入音频比特流并采样被编码成具有一基层和至少一增强层以及带宽扩展信息的分层结构的带宽受限的音频数据;一细粒可伸缩算术解码器,解码对应于基层的至少一部分带宽受限的音频数据;和一带宽扩展解码器,基于带宽受限的音频数据的已解码部分并参考带宽扩展信息,产生处于至少一部分未被带宽受限的音频数据的已解码部分覆盖的频带内的音频数据,然后将所产生的音频数据补入带宽受限的音频数据的已解码部分。
所述细粒可伸缩算术解码器差分解码对应于基层的辅助信息,比特分割解码对应于基层的多个量化采样值,并解码对应于下一增强层的辅助信息直到多个预定层完全解码,并比特分割解码对应于下一增强层的多个量化采样值。
所述多路分解器按以下顺序多路分解所述输入音频比特流:从输入音频比特流采样对应于基层的数据,从输入音频比特流采样带宽扩展信息,并从输入音频比特流采样对应于其余增强层的数据。可选地,所述多路分解器可按以下顺序多路分解输入音频比特流:从输入音频比特流采样带宽扩展信息,从输入音频比特流采样对应于基层的数据,并从输入音频比特流采样对应于其余增强层的数据。
附图说明
通过参照附图详细描述本发明的典型实施例,本发明的特征及其它优点将更加显而易见,其中:
图1为根据本发明的一编码装置的方框图;
图2为图1所示的编码装置的详细方框图;
图3为根据本发明的一解码装置的方框图;
图4为图3所示的解码装置的详细方框图;
图5示出了从一细粒可伸缩(FGS)编码器2输出的比特流的结构;
图6示出了图5所示的辅助信息的详细结构;
图7示出了从多路复用器3输出或输入到多路分解器7的比特流的结构;
图8是用于解释根据本发明的编码和解码装置执行的算术编码和解码方法的示意图;
图9是用于更详细地解释由带宽扩展(BWE)解码器9执行的带宽扩展解码的示意图;
图10是用于说明根据本发明的一编码方法的流程图;
图11是用于说明根据本发明的一解码方法的流程图。
具体实施方式
以下将参照附图对本发明的优选实施例进行详细描述。
图1是根据本发明的一编码装置的方框图。如图1,该编码装置,接收并编码PCM音频数据,并将PCM音频数据作为音频比特流输出,该编码装置包括一带宽扩展(BWE)编码器1,一细粒可伸缩(FGS)编码器2和一多路复用器3。
所述BWE编码器1,BWE编码PCM音频信号、输出带宽受限的音频数据并产生BWE信息。BWE编码涉及用于接收音频数据、分割高频带内的一部分音频数据,并产生恢复音频数据的分割部分所必须的辅助信息的技术。在此,音频数据的其余部分被称为“带宽受限的音频数据”且辅助信息被称为“BWE信息”。BWE技术的一个例子为编码技术发展而来的光谱带复制(SBR)技术。SBR技术的详细内容在2002年5月10-13日的第112届音频工程协会会议上的“会议论文5560”中公开。
FGS编码器2将带宽受限的音频数据编码成具有一基层和至少一增强层的分层结构从而控制比特率。FGS编码涉及用于将数据编码成多层结构从而控制比特率,即提供FGS的技术。申请号为97-61298的韩国专利申请公开的BSAC技术为FGS编码的一个实例。也就是说,FGS编码器2差分编码对应于基层的辅助信息,比特分割编码对应于基层的多个量化采样值,差分编码对应于下一增强层的辅助信息直到多个预定层完成编码,并且比特分割编码对应于下一增强层的多个量化采样值。在此,所述辅助信息包含比例因子信息和编码模型信息,并且通过变换和量化输入音频数据获得量化采样值。以下将详细说明所述辅助信息和量化采样值。
多路复用器3多路复用由FGS编码器2编码产生的带宽受限PMC音频数据和由BWE编码器1产生的BWE信息。
图2为图1所示的编码装置的详细方框图。如图2,所述编码装置包括一BWE编码器1、一FGS编码器2和一多路复用器3。与图1中执行相同功能的块采用相同的附图标记,在此不再赘述。
具体地,FGS编码器2包括一伪子波变换(PWT)单元21、一音质单元22和一量化单元23以及一FGS算术编码单元24。
PWT单元21接收时域内的PCM音频数据,并参照由音质单元22提供的音质模型信息将该PCM音频数据伪子波变换为频域内的音频信号。能被人感知的音频信号特性,以下被称为感知音频信号,在时域内没有太大的不同。相反,考虑音质模型,频域内的感知和非感知音频信号的特性很不相同。因此,通过给每个频带分配不同数量的比特可提高压缩效率。仅由于低频带内高频分辨率所产生的轻微频率畸变,MDCT会产生感知噪音。相对于MDCT,由于具有适中的时间/频率分辨率,PWT即使从具有较低频带的较低层也可提供稳定的声音质量。
音质单元22向PWT单元21提供诸如处理(attack)检测信息之类的关于音质模型的信息,将由PWT单元21变换的音频信号打包为子频带音频信号,利用子频带信号间相互作用所产生的掩蔽效应为每个子频带计算掩蔽阈值,并将掩蔽阈值提供给量化单元23。所述掩蔽阈值表示由于音频信号间的相互作用人们不能感知的音频信号的最大功率。在本实施例中,音质单元22利用立体声掩蔽水平降低(Binaural Masking Level Depression)(BMLD)计算用于立体声部分的掩蔽阈值和类似值。
量化单元23基于对应的比例因子信息标量量化每个子频带音频信号以将每个子频带的量化噪音能量减少到低于音质单元22提供的掩蔽阈值,然后输出量化采样值,这样人们能听到子频带音频信号但感觉不到其中的噪音。也就是说,量化单元23按噪音掩蔽率(NMR)量化子频带音频信号,NMR表示每个子频带所产生的噪音与音质单元22所计算的掩蔽阈值的比例,在全带宽为0dB或更少。0dB或更少的NMR表示人们不能听到量化噪音。
FGS算术编码单元24将量化采样值和属于每层的辅助信息编码为分层结构。所述辅助信息包含对应于每层的比例频带信息、编码频带信息、比例因子信息和编码模型信息。比例频带信息和编码频带信息可打包为构成音频比特流的每一帧的标头信息,然后被传送到解码装置。可选地,所述比例频带信息和编码频带信息可被编码并被打包为对应于每层的辅助信息,然后被传送到解码装置。而且,由于比例频带信息和编码频带信息已经存储在解码装置中,比例频带信号和编码频带信息可不必传送至所述解码装置。
更详细地,FGS算术编码单元24差分编码对应于第一层的包含比例因子信息和编码模型信息的辅助信息,同时参考编码模型信息比特分割编码量化对应于第一层的采样值。比特分割编码表示在上述BSAC中使用的编码,顺序无损编码最高有效比特、次有效比特……和最低有效比特。第二层与第一层采用相同处理。也就是说,多个预定层逐层顺序编码。第一层被称为基层,其余层被称为增强层。后面将对分层结构进行更详细描述。
比例频带信息对于依赖音频信号的频率特性正确执行量化是必须的,且当频域被分为多个频带且每个频带被分配了一正确比例因子时,比例频带信息通知对应的比例频带的每一层。因此,每层属于至少一个比例频带。每个比例频带被分配一个比例因子。编码频带信息对于依赖音频信号的频率特性正确执行编码是必须的,且当频域被分为多个频带且每个频带被分配了一正确编码模型时,编码频带信息通知对应的编码频带的每一层。通过测试正确划分比例频带和编码频带,且随后确定对应的比例因子和编码模型。
多路复用器3按以下顺序多路复用已编码带宽受限的音频数据和BWE信息:定位对应于基层的已编码量化采样值数据,定位BWE信息,并定位对应于其余增强层的已编码量化采样值数据。多路复用器3或者按以下顺序多路复用已编码带宽受限的音频数据和BWE信息:定位BWE信息,定位对应于基层的已编码量化采样值数据,并定位对应于其余增强层的已编码量化采样值数据。
图3为根据本发明的一解码装置的方框图。如图3,该解码装置,接收并解码音频比特流,然后输出音频数据,该解码装置包括一多路分解器7、一FGS解码器8和一BWE解码器9。
多路分解器7将一输入音频比特流多路分解为采样带宽受限的音频数据,该采样带宽受限的音频数据已被编码成具有基层和至少一增强层及其中的BWE信息的分层结构。在此,带宽受限的音频数据和BWE信息与参照图1所述的相同。FGS解码器8算术解码对应于基层的至少一部分带宽受限的音频数据。执行解码的层与网络状态、用户选择之类相关。
基于由FGS解码器8算术解码的带宽受限的音频数据部分并参考由多路分解器7采样的BWE信息,BWE解码器9产生处于至少一部分未被由FGS解码器8算术解码的带宽受限的音频数据覆盖的频带内的音频数据,然后将所产生的音频数据补入已被FGS解码器8算术解码的带宽受限的音频数据。
由于本发明采用PWT,BWE解码器9经历以下过程。当采用PWT执行解码时,通过在确定带宽受限的音频数据过程中确定频域内的最后点来选择分割频率。由于在高频部分的频率分辨率低,PWT不能象MDCT那样根据所确定的最后点精确限制带宽。在解码过程中,BWE解码器8将由FGS解码器9所产生的核心部分安排到频域中,确认该核心部分的频率带宽,并将BWE部分修改和解码为适合的频率带宽。
例如,让我们假设以64kbps的比特率编码的16层比特流中只有8层重构,对应第8层的频率为8.5kHZ。在此情况下,BWE解码器8不得不在8.5kHZ-15kHZ或更宽频率范围内重构数据。由于正交镜象滤波器(QMF)的特性,BWE解码器8可在正交镜象滤波信道带宽的基础上调整频率带宽。当QMF的第n个频率带宽为8.3kHZ,在8.3-8.5kHZ的频率带宽范围内的频率分量被包含在核心部分或BWE部分。因此,核心部分或BWE部分必须正确处理。
第一种处理核心部分和BWE部分的方法,是从核心部分删除8.3-8.5kHZ频率带宽范围内的频率分量。在此方法中,考虑到BWE部分的带宽信息,FGS解码器9执行解码。第二种方法是利用BWE解码器8中使用的QMF过滤核心部分的数据,通过内插生成QMF数据,并反向正交镜象滤波QMF数据从而重构核心部分的数据。
如上所述,即使FGS解码器8解码的音频数据只有基带音频数据,BWE解码器9创建遗漏频带音频数据并将其补入基带音频数据。因此,可提高解码音频数据质量。
图4为图3所示的解码装置的详细方框图。如图4,该解码装置包括一多路分解器7、一FGS解码器8和一BWE解码器9。与图3中执行相同功能的块采用的相同附图标记,在此不再赘述。
具体地,为控制比特率,FGS解码器8执行解码直到目标层,此目标层由网络状态、解码装置性能、用户选择等确定FGS解码器8包括一FGS算术解码单元81、一反量化单元82和一PWT反变换单元83。FGS算术解码单元81执行解码直到音频比特流的目标层。更详细地,基于通过解码包含对应于每层的比例因子信息和编码模型信息的辅助信息所获得的编码模型信息,FGS算术解码单元81算术解码对应于每层的已编码量化采样值从而获得量化采样值。以下将详细解释获得量化采样值的处理。
比例频带信息和编码频带信息可从音频比特流的标头信息或解码每层的辅助信息中获得。可选地,所述解码装置可预先存储比例频带信息和编码频带信息。
反量化单元82基于对应于每层的比例因子信息反量化并重构每层的量化采样值。PWT反变换单元83频率/时间映射已重构采样值,将所映射的采样值反向伪子波变换为时域PCM音频数据,并输出该时域PCM音频数据。
BWE解码器9包括一变换单元91、一高频产生单元92、一调整单元93和一合成单元94。变换单元91将从PWT反变换单元83输出的时域PCM音频数据变换为频域数据。频域数据被称为低频部分。高频产生单元92创建频域数据未覆盖的部分,即,通过参考BWE信息复制低频部分然后将所复制的低频部分补入频域数据、即原始低频部分中而得到的高频部分。调整单元93采用包含在BWE信息中的包封信息来调整由高频产生单元92所产生的高频部分的水平。从编码点传送的包封信息,表示对应于在BWE编码过程中由编码点所分割的高频部分的音频数据的包封信息。合成单元94合成从变换单元91输出的低频部分和从调整单元93输出的高频部分,然后输出PCM音频数据。
如上所述,尽管FGS解码器8只解码基带音频数据,BWE解码器9重构遗漏频带音频数据并将遗漏频带音频数据补入基带音频数据中。因此,提高了基带音频数据质量。
图5表示从FGS编码器2输出的比特流结构。如图5,通过映射量化采样值和辅助信息到细粒可伸缩(FGS)的分层结构中,FGS编码器2将比特流帧编码。也就是说,此帧具有分层结构,其中较低层的比特流被包括在增强层的比特流中。每层必须的辅助信息逐层编码。
标头信息所存储在的标头区域处于比特流的开始部分,第零层信息被打包,而处于增强层的第一至第N层的信息依次被打包。基层范围是从标头区域至第零层信息,第一层范围是从标头区域至第一层信息,并且第二层范围是从标头区域至第二层信息。同样,最高增强层范围是从标头区域至第N层信息,即从基层至第N层。辅助信息和已编码数据均被作为每层信息存储。例如,辅助信息2和已编码量化采样值被作为第二层信息存储。这里,N为大于或等于“1”的自然数。
图6示出了图5所示的辅助信息的详细结构。如图6,辅助信息和已编码量化采样值均被作为任意层信息存储。在当前实施例中,由于量化采样值已被算术编码,辅助信息包含算术编码模型信息、比例因子信息、信道辅助信息以及其他辅助信息。算术编码模型信息涉及用于编码或解码包含在相应层的量化采样值的算术编码模型的索引信息。比例因子信息通知相应层适合量化或反量化包含在相应层的音频数据的量化步骤大小。信道辅助信息涉及诸如中/边(M/S)立体声的与信道相关的信息。其他辅助信息为表示是否采用M/S立体声的标识信息。
在本实施例中,编码装置的FGS编码器2差分编码包括算术编码模型信息和比例因子信息的辅助信息。由于每个比例频带具有一比例因子,为编码比例因子,首先算术编码属于比例频带的比例因子中最小的比例因子,然后算术编码在最小比例因子和其他比例因子之间的差值。在对应于每个编码频带所允许的比特范围内的一算术编码模型和信息被根据编码量化步骤大小的方法来编码,即差分编码。
在本实施例中,解码装置的FGS解码器8算术解码包括算术编码模型信息和比例因子信息的辅助信息。由于每个比例频带具有一比例因子,为解码比例因子,首先算术解码属于比例频带的比例因子中最小的比例因子,然后算术解码在最小比例因子和其他比例因子之间的差值。在对应于每个编码频带所允许的比特范围内的一算术编码模型和信息以与比例因子相同的方式被算术解码。
图7示出了多路复用器3输出或输入到多路分解器7的比特流的结构。如图7,第零层,即FGS编码器2所编码的基层,位于比特流的开始部分,BWE信息在第零层之后,而增强层,即第一层、第二层……和第N层,在BWE信息之后。尽管解码点只接收或解码基层,解码点能基于基层的已解码音频数据并参考BWE信息创建遗漏层音频数据。
图8是用于解释根据本发明的编码和解码装置执行的算术编码和解码方法的示意图。如图8,点阵矩形框表示构成量化采样值的频谱线,其中A表示用于形成层之间的边界的线,B表示用于分割频谱线的边界线从而对应PWT树结构的终端结点。
根据本发明用在编码和/或解码方法中的PWT和/或反PWT采用树结构执行频率变换和/或频率反变换,从而将频率表示为更接近于对应人耳的滤波器组的状态。所述树结构的最后结点分别对应算术编码比例频带。因此,每个最后结点都对应一个比例因子。
作为传送算术编码所必须的算术编码模型信息的单元的编码频带可以考虑编码效率而决定。例如,让我们假设最后结点具有相同的比例频带和编码频带。如图8所示,层和最后结点被映射。由于对应最后结点的数据存在于相同频带的时域内,在分割层的过程中不划分对应最后结点的数据。
固定第零层从而对频带a执行编码,固定第一层从而对频带b执行编码,固定第二层从而对频带c执行编码,固定第三层从而对频带d执行编码,固定第四层从而对频带e执行编码,固定第五层从而对频带f执行编码,固定第六层从而对频带g执行编码,以及固定第七层从而对频带h执行编码。
首先,采用对应的编码模型在允许的比特范围内算术编码对应第零层的量化采样值。第零层的辅助信息被算术编码。当比特分割编码第零层的量化采样值时计算比特量。假如比特量超过所允许的比特范围时,停止第零层的编码,然后开始第一层的算术编码。当第一和第二层允许的比特范围具有附加的比特部分,对未编码的第零层的量化采样值进行编码。
利用对应于第一层的编码模型来编码对应第一层的量化采样值。算术编码第一层的辅助信息。在编码第一层的所有量化采样值之后,第一层所允许的比特范围具有附加比特部分的情况下,对未编码的第零层的量化采样值进行编码直到到达所允许的比特范围。当到达所允许的比特范围时,停止第一层的编码,然后开始第二层的编码。执行此处理直到第七层,从而完成第七层的编码。
如果每层的所有量化采样值不考虑所允许的比特范围来进行编码,即,即使已编码比特量超过所允许的比特范围也对每层的所有量化采样值进行编码,则可以使用一部分下一层所允许的比特范围。这样,属于下一层的量化采样值可以不被编码。因此,假如执行比特率可伸缩编码,即,只对较低层而不是对所有层执行解码,则不对在预定频率内的量化采样值解码。因此,已解码量化采样值在频带下上下变化,导致多鸟效应(birdy effect),恶化了声音质量。
由于当执行与编码处理反向的处理时解码处理依据所允许的比特范围计算比特量,可检测开始解码预定层的时间点。
从“msb”方向到“lsb”方向对频谱线执行编码。这里,在用于波形变换的树结构的最后结点,相同比特平面上的数据比特必须一起编码。例如,当最后结点具有以下量化采样值时,
00000000101010110101
11111100000000000000
00001100110000000110
基于MDCT,量化采样值被分组为五个4×4比特平面且从左至右从上至下执行编码。然而,基于PWT,所有量化采样值被作为一个比特平面且基于N比特从最高有效比特至最低有效比特从较低频率至较高频率执行编码。最高有效比特“00000000101010110101”基于N比特从左至右编码,后续比特“11111100000000000000”被基于N比特从左至右编码,而且最不重要比特“00001100110000000110”基于N比特编码。此处,N为大于或等于“1”的整数。尤其,假如N为1,则执行二进制编码。由于算术编码可将比特分配到十进制位置,例如0.001比特,当编码一比特时,可只利用少量比特编码大量信息。也就是说,编码效率相当高。哈夫曼编码,另一种无损编码,要求每个码元至少一比特,因此算术编码具有较差的编码效率。
图9是用于解释由BWE解码器9执行的BWE解码的示意图。如图9,条纹部分表示被FGS解码器8解码的数据,点阵部分表示BWE解码器9创建的数据。当在采样频率Fs的1/4部分的所有数据属于基层时,图9(a)示出了一解码结点只解码基带数据的情况,图10(b)、(c)和(d)示出了FGS解码器8解码对应于基带和至少一增强层的数据的情况。也就是说,FGS解码器8能解码数据从而控制比特率,而BWE解码器9能创建FGS解码器8不能解码的遗漏频带数据。
基于上述结构将说明根据本发明优选实施例的编码和解码方法。
图10是用于说明根据本发明的一编码方法的流程图。如图10,在步骤1001,一编码装置BWE编码音频数据,输出带宽受限的音频数据,并产生对应于基层的BWE信息。基层的BWE信息对于利用解码结点基于属于基层的音频数据创建遗漏频带音频数据是必须的,并且包括包封信息。所述编码装置将带宽受限的音频数据编码为具有基层和至少一增强层的分层结构从而控制比特率。更详细地,在步骤1002,编码装置逐层伪子波变换带宽受限的音频数据,在步骤1003,量化带宽受限的音频数据,并且在步骤1004,哈夫曼编码带宽受限的音频数据并将带宽受限的音频数据打包成分层结构从而控制比特率。在步骤1005,该编码装置多路复用带宽受限的音频数据和BWE信息,然后输出音频比特流。更详细地,编码装置按以下顺序多路复用已编码带宽受限的音频数据和BWE信息:定位对应于基层的一部分已编码带宽受限的音频数据,定位BWE信息,并定位对应于其余增强层的部分已编码带宽受限数据。或者按以下顺序多路复用:定位BWE信息,定位对应于基层的一部分已编码带宽受限的音频数据,并定位对应于其余增强层的部分已编码带宽受限数据。
图11是用于说明根据本发明的一解码方法的流程图。参考图11,在步骤1101,该解码装置多路分解一输入音频比特流并采样带宽受限的音频数据,该带宽受限的音频数据已被编码成具有一基层和至少一增强层以及BWE信息的分层结构。也就是说,解码装置按以下顺序多路分解输入音频比特流:它采样来自输入音频比特流中对应于基层的数据、BWE信息和对应于其余增强层的数据,它或者采样来自输入音频比特流中的BWE信息、对应于基层的数据和对应于其余增强层的数据。然后,该解码装置解码至少一部分对应于基层的带宽受限的音频数据从而控制比特率。更详细地,在步骤1102,解码装置执行算术解码直到目标层,在步骤1103反量化,以及在步骤1104伪子波变换从而获得PCM音频数据。在步骤1105,基于步骤1104所获得的PCM音频数据并参考BWE信息,解码装置创建处于至少一部分未被在步骤1104所获得的PCM音频数据覆盖的频带内的PCM音频数据,然后将所创建的PCM音频数据补入在步骤1104所获得的PCM音频数据中。
如上所述,本发明提供了一种比特可伸缩编码和解码方法及装置,只需恢复部分比特流便可获得高质量的声音。
基于算术编码利用少量数据可提供高FGS,并且基于PWT,频率分辨率可与人耳传送功能相同。因此,基于PWT编码比现有基于MDCT编码的时域/频域分辨率更好。因而,可从较低层产生高质量声音。
虽然参考典型实施例已对本发明进行了详述,很明显,本领域普通技术人员在不脱离所附权利要求所限定的本发明的精神和范围的情况下可以对本发明的形式和细节作各种改变。

Claims (23)

1、一种编码音频数据的方法,该方法包括:
对音频数据进行带宽扩展编码、输出带宽受限的音频数据、并产生带宽扩展信息;
将带宽受限的音频数据算术编码为具有一个基层和至少一个增强层的分层结构,从而控制比特率;
对所述算术编码带宽受限的音频数据和带宽扩展信息进行多路复用。
2、根据权利要求1所述的方法,其中算术编码包括:
差分编码对应于基层的辅助信息;
比特分割编码对应于基层的多个量化采样值;
并为下一增强层重复差分编码和比特分割编码直到多个预定层完成编码。
3、根据权利要求1所述的方法,其中算术编码包括:
差分编码对应于基层的包含比例因子信息和编码模型信息的辅助信息;
参考编码模型信息,比特分割编码对应于基层的多个量化采样值;
为下一增强层重复差分编码和比特分割编码直到多个预定层完成编码。
4、根据权利要求2或3所述的方法,其中量化采样值通过音频数据的伪子波变换获得。
5、根据权利要求1所述的方法,其中已编码带宽受限的音频数据和带宽扩展信息按以下顺序多路复用:定位对应于基层的一部分已编码带宽受限的音频数据,定位带宽扩展信息,并定位对应于其余增强层的部分已编码带宽受限数据。
6、根据权利要求1所述的方法,其中已编码带宽受限的音频数据和带宽扩展信息按以下顺序多路复用:定位带宽扩展信息,定位对应于基层的一部分已编码带宽受限的音频数据,并定位对应于其余增强层的部分已编码带宽受限数据。
7、一种解码音频数据的方法,该方法包括:
对一个输入音频比特流进行多路分解并对带宽受限的音频数据以及带宽扩展信息进行采样,该带宽受限的音频数据被编码为包括一个基层和至少一个增强层的分层结构;
算术解码至少一部分对应于所述基层的带宽受限的音频数据;
根据带宽受限的音频数据的已解码部分并参考带宽扩展信息,产生处于未被带宽受限的音频数据的已解码部分覆盖的频带的至少一部分之内的音频数据,然后将所产生的音频数据补入带宽受限的音频数据的已解码部分。
8、根据权利要求7所述的方法,其中产生在此部分频带内的音频数据从而到达带宽受限的音频数据已编码部分的边界。
9、根据权利要求8所述的方法,其中产生在此部分频带的音频数据,从而到达用于伪子波变换的滤波器组的边界。
10、根据权利要求8所述的方法,其中假如音频数据未到达用于伪子波变换的滤波器组的边界,则插入带宽受限音频信号已解码部分与所产生音频数据的重叠部分。
11、根据权利要求7所述的方法,其中输入音频比特流按以下顺序多路分解:从输入音频比特流采样对应于基层的数据,从输入音频比特流采样带宽扩展信息,并从输入音频比特流采样对应于其余增强层的数据。
12、根据权利要求7所述的方法,其中输入音频比特流按以下顺序多路分解:从输入音频比特流采样带宽扩展信息,从输入音频比特流采样对应于基层的数据,并从输入音频比特流采样对应于其余增强层的数据。
13、根据权利要求7所述的方法,其中算术解码包括:
差分解码对应于基层的辅助信息;
比特分割解码对应于基层的多个量化采样值;
为下一增强层重复差分解码和比特分割解码直到多个预定层完成解码。
14、根据权利要求7所述的方法,其中算术解码包括:
差分解码对应于基层的包括比例因子信息和编码模型信息的辅助信息;
参考编码模型信息,比特分割解码对应于基层的多个量化采样值;
并为下一增强层重复差分解码和比特分割解码直到多个预定层完成解码。
15、一种编码音频数据的装置,此装置包括:
一带宽扩展编码器,用于带宽扩展编码音频数据、输出带宽受限的音频数据并产生带宽扩展信息;
一细粒可伸缩编码器,用于将带宽受限的音频数据编码为包括一基层和至少一增强层的分层结构从而控制比特率;
一多路复用器,用于对算术编码带宽受限的音频数据和带宽扩展信息进行多路复用。
16、根据权利要求15所述的装置,其中细粒可伸缩编码器差分编码对应于基层的辅助信息,比特分割编码对应于基层的多个量化采样值,并比特分割编码对应于下一增强层的辅助信息和多个量化采样值直到多个预定层完成编码。
17、根据权利要求15所述的装置,其中细粒可伸缩编码器差分编码对应于基层的包含比例因子信息和编码模型信息的辅助信息,参考编码模型信息比特分割编码对应于基层的多个量化采样值,编码对应于下一增强层包含比例因子信息和编码模型信息的辅助信息直到多个预定层完成编码,并比特分割编码对应于下一增强层的辅助信息和多个量化采样值。
18、根据权利要求15所述的装置,其中细粒可伸缩编码器通过伪子波变换音频数据获得量化采样值。
19、根据权利要求15所述的装置,其中多路复用器按以下顺序多路复用已编码带宽受限的音频数据和带宽扩展信息:定位一部分对应于基层的已编码带宽受限的音频数据,定位带宽扩展信息,并定位对应于其余增强层的部分已编码带宽受限数据。
20、一种用于解码音频数据的装置,此装置包括:
一多路分解器,用于对一个输入音频比特流进行多路分解并对被编码成具有一基层和至少一增强层的分层结构的带宽受限的音频数据以及带宽扩展信息进行采样;
一细粒可伸缩算术解码器,用于对对应于基层的至少一部分带宽受限的音频数据进行解码;
一带宽扩展解码器,用于根据带宽受限的音频数据的已解码部分并参考带宽扩展信息,产生处于至少一部分未被带宽受限的音频数据的已解码部分覆盖的频带内的音频数据,然后将所产生的音频数据补入带宽受限的音频数据的已解码部分。
21、根据权利要求20所述的装置,其中细粒可伸缩算术解码器差分解码对应于基层的辅助信息,比特分割解码对应于基层的多个量化采样值,并解码对应于下一增强层的辅助信息直到多个预定层完全解码,并比特分割解码对应于下一增强层的多个量化采样值。
22、根据权利要求20所述的装置,其中多路分解器按以下顺序多路分解输入音频比特流:从输入音频比特流采样对应于基层的数据,从输入音频比特流采样带宽扩展信息,并从输入音频比特流采样对应于其余增强层的数据。
23、根据权利要求20所述的装置,其中多路分解器可按以下顺序多路分解输入音频比特流:从输入音频比特流采样带宽扩展信息,从输入音频比特流采样对应于基层的数据,并从输入音频比特流采样对应于其余增强层的数据。
CNB031650201A 2003-03-22 2003-09-17 采用带宽扩展技术编码和/或解码音频数据的方法和装置 Expired - Fee Related CN1273955C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR17978/2003 2003-03-22
KR1020030017978A KR100923301B1 (ko) 2003-03-22 2003-03-22 대역 확장 기법을 이용한 오디오 데이터의 부호화 방법,그 장치, 복호화 방법 및 그 장치

Publications (2)

Publication Number Publication Date
CN1532808A CN1532808A (zh) 2004-09-29
CN1273955C true CN1273955C (zh) 2006-09-06

Family

ID=34309373

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB031650201A Expired - Fee Related CN1273955C (zh) 2003-03-22 2003-09-17 采用带宽扩展技术编码和/或解码音频数据的方法和装置

Country Status (2)

Country Link
KR (1) KR100923301B1 (zh)
CN (1) CN1273955C (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101170590B (zh) * 2006-10-27 2011-04-27 华为技术有限公司 一种背景噪声的编码码流传输的方法、系统及装置

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100917464B1 (ko) * 2003-03-07 2009-09-14 삼성전자주식회사 대역 확장 기법을 이용한 디지털 데이터의 부호화 방법,그 장치, 복호화 방법 및 그 장치
WO2006082790A1 (ja) * 2005-02-01 2006-08-10 Matsushita Electric Industrial Co., Ltd. スケーラブル符号化装置およびスケーラブル符号化方法
KR100818268B1 (ko) * 2005-04-14 2008-04-02 삼성전자주식회사 오디오 데이터 부호화 및 복호화 장치와 방법
KR100813269B1 (ko) * 2005-10-12 2008-03-13 삼성전자주식회사 비트 스트림 처리/전송 방법 및 장치, 비트 스트림수신/처리 방법 및 장치
RU2409897C1 (ru) 2009-05-18 2011-01-20 Самсунг Электроникс Ко., Лтд Кодер, передающее устройство, система передачи и способ кодирования информационных объектов
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
WO2019091576A1 (en) * 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100261254B1 (ko) * 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 데이터 부호화/복호화방법 및 장치
KR100261253B1 (ko) * 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 부호화/복호화 방법및 장치
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101170590B (zh) * 2006-10-27 2011-04-27 华为技术有限公司 一种背景噪声的编码码流传输的方法、系统及装置

Also Published As

Publication number Publication date
KR100923301B1 (ko) 2009-10-23
KR20040086879A (ko) 2004-10-13
CN1532808A (zh) 2004-09-29

Similar Documents

Publication Publication Date Title
CN1527306B (zh) 使用带宽扩展技术编码和/或解码数字数据的方法和装置
CN1110145C (zh) 可变规模语音编码/解码的方法和装置
CN1154087C (zh) 提高低比特率音频编码系统音质的方法、编码器和译码器
KR100561869B1 (ko) 무손실 오디오 부호화/복호화 방법 및 장치
US8386271B2 (en) Lossless and near lossless scalable audio codec
CN101055720A (zh) 对音频信号编码和解码的方法和设备
CN1525436B (zh) 可伸缩地编解码音频数据的方法和装置
CN1878001A (zh) 对音频数据编码及解码的设备及方法
CN1809872A (zh) 编码音频信号的设备和方法及解码已编码音频信号的设备和方法
CN1262990C (zh) 利用谐波提取的音频编码方法和设备
CN1153365C (zh) 采用不同编码原理的传送系统
CN1248824A (zh) 音频信号编码装置和方法以及解码装置和方法
CN1822508A (zh) 对数字信号进行编码和解码的方法和设备
CN1252678C (zh) 可缩放的立体声音频编码/解码方法及装置
CN1822185A (zh) 音频编码及解码的方法及其装置
CN1273955C (zh) 采用带宽扩展技术编码和/或解码音频数据的方法和装置
KR101015497B1 (ko) 디지털 데이터의 부호화/복호화 방법 및 장치
CN1138254C (zh) 一种基于小波变换的音频信号压缩编/解码方法
CN1290078C (zh) 采用带宽扩展技术编码和/或解码音频数据的方法和装置
CN1485849A (zh) 数字音频编码器及解码方法
CN1527282A (zh) 可伸缩地编解码音频数据的方法和装置
JP2004246038A (ja) 音声楽音信号符号化方法、復号化方法、符号化装置、復号化装置、符号化プログラム、および復号化プログラム
CN1276406C (zh) 可伸缩地编解码音频数据的方法和装置
KR20050040441A (ko) 스케일러블 오디오 복/부호화 방법 및 장치

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20060906

Termination date: 20140917

EXPY Termination of patent right or utility model