Nothing Special   »   [go: up one dir, main page]

CN110235197A - 立体声音频信号编码器 - Google Patents

立体声音频信号编码器 Download PDF

Info

Publication number
CN110235197A
CN110235197A CN201880009084.1A CN201880009084A CN110235197A CN 110235197 A CN110235197 A CN 110235197A CN 201880009084 A CN201880009084 A CN 201880009084A CN 110235197 A CN110235197 A CN 110235197A
Authority
CN
China
Prior art keywords
parameter
value
index value
index
rate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201880009084.1A
Other languages
English (en)
Other versions
CN110235197B (zh
Inventor
A·瓦西拉凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Technologies Oy
Original Assignee
Nokia Technologies Oy
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Technologies Oy filed Critical Nokia Technologies Oy
Publication of CN110235197A publication Critical patent/CN110235197A/zh
Application granted granted Critical
Publication of CN110235197B publication Critical patent/CN110235197B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/40Conversion to or from variable length codes, e.g. Shannon-Fano code, Huffman code, Morse code
    • H03M7/4031Fixed length to variable length coding
    • H03M7/4037Prefix coding
    • H03M7/4043Adaptive prefix coding
    • H03M7/4068Parameterized codes
    • H03M7/4075Golomb codes

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

一种方法,包括:接收至少两个音频通道信号;针对第一帧,确定表示至少两个通道音频信号之间的差异的至少两个参数;标量量化所述至少两个参数以生成至少两个索引值;对至少两个参数的初始标量量化参数进行自适应编码;确定初始标量量化参数是否具有与预定值不同的值;如果初始标量量化参数具有与预定值不同的值,则对任何未编码的标量量化参数进行自适应编码;如果初始标量量化参数具有等于预定值的值,则确定至少两个标量量化参数是否全部具有等于预定值的值;如果初始标量量化参数具有等于预定值的值且至少两个标量量化参数中的至少一个具有与预定值不同的值,则对任何未编码的标量量化参数进行自适应编码,并生成指示输出是固定速率编码或可变速率编码中的一个的指示符;如果初始标量量化参数具有等于预定值的值且至少两个标量量化参数全部具有等于预定值的值,则生成指示输出是固定速率编码或可变速率编码中的另一个的指示符;根据至少两个参数,生成至少两个音频通道信号的单声道表示;以及对单声道表示进行编码。

Description

立体声音频信号编码器
技术领域
本申请涉及立体声音频信号编码器,尤其但非排它地,涉及用于在便携式装置中使用的立体声音频信号编码器。
背景技术
如语音或音乐的音频信号被编码,例如以使能音频信号的有效传输或存储。
音频编码器和解码器(也称为编解码器)用于表示基于音频的信号,诸如音乐和环境声音(其在语音编码术语中可称为背景噪声)。这些类型的编码器通常不使用语音模型来进行编码处理,而是使用用于表示包括语音的所有类型的音频信号的处理。语音编码器和解码器(编解码器)可被认为是针对语音信号优化的音频编解码器,并且可以以固定或可变比特率来操作。
音频编解码器还可被配置为以变化的比特率来操作。在较低比特率的情况下,可以对这样的音频编解码器进行优化,以便以与纯语音编解码器相当的编码速率来处理语音信号。在较高比特率的情况下,音频编解码器可以用更高的质量和性能对包括音乐、背景噪声和语音的任何信号进行编码。可变速率音频编解码器还可以实现嵌入式的可伸缩编码结构和比特流,其中,附加比特(特定比特量通常被称为层)在较低速率时改进编码,并且其中,较高速率的比特流可被截短以获得较低速率编码的比特流。这种音频编解码器可以将纯粹针对语音信号而设计的编解码器用作核心层或最低比特率编码。
音频编解码器被设计为保持高(感知)质量,同时提高压缩比。因此,代替波形匹配编码,通常采用各种参数方案来降低比特率。对于诸如立体声信号的多通道音频,通常对单声道表示使用较大量的可用比特率,而利用使用相对较少比特的参数方法对立体声或多通道信息进行编码。
当前第三代合作伙伴计划(3GPP)的语音和音频标准化工作旨在通过编码效率、带宽以及通道数量来提高编码信号的质量。正在准备立体声/双耳扩展以用于增强型语音服务(EVS)语音和音频编解码器候选。编码效率对于该提议非常重要,尤其是对于较低的编解码器比特率。因为如果总比特率等于或超过双模式的比特率,则大比特率扩展的增加将会贬损进行扩展的益处。
所提出的立体声/双耳扩展包括编码的立体声参数。提高这些参数的编码效率意味着降低扩展的比特率以及使用“保存的”比特来更好地对单声道下混合进行编码。这在低比特率的情况下尤其有用,其中,编码下混合的质量对比特率更敏感。
在解决立体声参数的编码效率时,可以实现显著的比特节省。立体声参数的编码效率涉及值(级别)的量化,随后进行熵编码以进一步降低比特率。在EP2856776中公开的先前提出的用于对立体声参数进行编码的方法使用Golomb-Rice编码的自适应版本。
发明内容
根据第一方面,提供一种方法,其包括:接收至少两个音频通道信号;针对第一帧,确定表示至少两个通道音频信号之间的差异的至少两个参数;标量量化至少两个参数以生成至少两个索引值;对至少两个参数的初始标量量化参数进行自适应编码;确定初始标量量化参数是否具有与预定值不同的值;如果初始标量量化参数具有与预定值不同的值,则对任何未编码的标量量化参数进行自适应编码;如果初始标量量化参数具有等于预定值的值,则确定至少两个标量量化参数是否全部具有等于预定值的值;如果初始标量量化参数具有等于预定值的值且至少两个标量量化参数中的至少一个具有与预定值不同的值,则对任何未编码的标量量化参数进行自适应编码,并生成指示输出是固定速率编码或可变速率编码中的一个的指示符;如果初始标量量化参数具有等于预定值的值且至少两个标量量化参数全部具有等于预定值的值,则生成指示输出是固定速率编码或可变速率编码中的另一个的指示符;根据至少两个参数,生成至少两个音频通道信号的单声道表示;以及对单声道表示进行编码。
对初始标量量化参数进行自适应编码和对任何未编码的标量量化参数进行自适应编码可以包括:确定用于对与标量量化参数相关联的索引值进行重排序的初始索引映射,并确定用于对与任何未编码的标量量化参数相关联的至少一个其它索引值进行重排序的至少一个其它索引映射,其中,至少一个其它索引映射基于与标量量化参数相关联的索引值而确定;基于初始索引映射,对与标量量化参数相关联的索引值进行重排序;基于至少一个其它索引映射,对与任何未编码的标量量化参数相关联的至少一个其它索引值进行重排序;根据重排序的与标量量化参数相关联的索引值的顺序位置,对重排序的与标量量化参数相关联的索引值进行编码;以及基于重排序的与任何未编码的标量量化参数相关联的至少一个其它索引值的顺序位置,对与任何未编码的标量量化参数相关联的至少一个其它索引值进行编码。
对标量量化参数进行自适应编码可以包括:确定索引值的出现频率;根据索引值的出现频率,对索引值进行重排序以生成重排序的索引值;以及根据重排序的索引值的顺序位置,对重排序的索引值进行编码。
根据重排序的索引值的顺序位置,对重排序的索引值进行编码可以包括:根据重排序的索引值的顺序位置,对重排序的索引值应用Golomb-Rice编码。
确定索引值的出现频率还可以包括:对于一组索引值,接收第一索引值;增加与第一索引值相关联的计数值;以及减少与第一索引值以外的索引值相关联的计数值。
标量量化至少两个参数还可以包括:根据预定映射,对标量量化输出进行排序。
固定速率编码或可变速率编码中的一个可以是固定速率编码,而固定速率编码或可变速率编码中的另一个可以是可变速率编码。
对单声道表示进行编码可以包括:确定用于对至少两个标量量化参数进行编码的比特数;以及基于所确定的比特数,对单声道表示进行编码。
根据第二方面,提供一种方法,其包括:从信号的第一部分解码至少一个参数索引值,其中,参数表示至少两个通道音频信号之间的差异,并从信号的第二部分解码固定速率/可变速率指示符,其中,信号是编码的多通道音频信号;基于第一确定的重排序,对至少一个参数索引值中的第一参数索引值进行重排序以生成第一重排序的索引值;确定与第一重排序的索引相关联的参数值是否与预定值不同;如果与第一重排序的索引相关联的参数值与预定值不同,则对至少一个参数索引值中的任何其它参数索引值进行自适应重排序;确定固定速率/可变速率指示符是否是固定速率/可变速率值中确定的一个;如果与第一重排序的索引相关联的参数值等于预定值且固定速率/可变速率指示符是固定速率/可变速率值中确定的一个,则对至少一个参数索引值中的任何其它索引值进行自适应重排序;以及如果与第一重排序的索引相关联的参数值等于预定值且固定速率/可变速率指示符不是固定速率/可变速率值中确定的一个,则复制至少一个参数索引值以用于帧。
基于第一确定的重排序,对至少一个参数索引值中的第一参数索引值进行重排序以生成第一重排序的索引值可以包括:基于第一确定的重排序,对第一参数索引值进行重排序以生成第一重排序的索引值;以及对至少一个参数索引值中的任何其它索引值进行自适应重排序包括:基于第二确定的重排序,对任何其它索引值进行重排序以生成第二重排序的索引值,其中,第二确定的重排序是基于第一重排序的索引值。
对至少一个参数索引值中的任何其它索引值进行自适应重排序可以包括:确定索引值的出现频率;对索引值进行重排序以生成重排序的索引值,其中,重排序取决于重排序的索引值的出现频率。
所述方法还可以包括:对重排序的索引值进行反量化以生成参数。
从信号的第一部分解码可以包括:使用Golomb-Rice解码,对信号的第一部分进行解码。
固定速率/可变速率值中确定的一个可以是固定速率编码指示符值。
所述方法还可以包括:从信号的另一个部分接收编码的下混合通道信号;确定在信号的第一部分中使用的比特数;以及基于在信号的第一部分中使用的比特数,对编码的下混合通道信号进行解码。
预定值可以是零。
一种装置,可被配置为执行本文描述的编码方法。
一种装置,可被配置为执行本文描述的解码方法。
根据第三方面,提供一种装置,其包括:参数确定器,被配置为针对第一帧,确定表示至少两个通道音频信号之间的差异的至少两个参数;标量量化器,被配置为标量量化至少两个参数以生成至少两个索引值;参数编码器,被配置为对至少两个参数的初始标量量化参数进行自适应编码;比特流指示器,被配置为生成指示输出比特流是固定速率编码或可变速率编码中的一个或另一个的指示符;编码控制器,被配置为确定初始标量量化参数是否具有与预定值不同的值,并且被配置为如果初始标量量化参数具有与预定值不同的值,则控制参数编码器对任何未编码的标量量化参数进行自适应编码,其中,编码控制器进一步被配置为如果初始标量量化参数具有等于预定值的值,则确定至少两个标量量化参数是否全部具有等于预定值的值,编码控制器进一步被配置为:如果初始标量量化参数具有等于预定值的值且至少两个标量量化参数中的至少一个具有与预定值不同的值,则控制参数编码器对任何未编码的标量量化参数进行自适应编码,并控制比特流指示器生成指示输出比特流是固定速率编码或可变速率编码中的一个的指示符;如果初始标量量化参数具有等于预定值的值且至少两个标量量化参数全部具有等于预定值的值,则控制比特流指示器生成指示输出是固定速率编码或可变速率编码中的另一个的指示符;单声道生成器,被配置为根据至少两个参数,生成至少两个音频通道信号的单声道表示;以及单声道编码器,被配置为对单声道表示进行编码。
参数编码器可被配置为:确定用于对与标量量化参数相关联的索引值进行重排序的初始索引映射,并且确定用于对与任何未编码的标量量化参数相关联的至少一个其它索引值进行重排序的至少一个其它索引映射,其中,至少一个其它索引映射基于与标量量化参数相关联的索引值而确定;基于初始索引映射,对与标量量化参数相关联的索引值进行重排序;基于至少一个其它索引映射,对与任何未编码的标量量化参数相关联的至少一个其它索引值进行重排序;根据重排序的与标量量化参数相关联的索引值的顺序位置,对重排序的与标量量化参数相关联的索引值进行编码;以及基于重排序的与任何未编码的标量量化参数相关联的至少一个其它索引值的顺序位置,对与任何未编码的标量量化参数相关联的至少一个其它索引值进行编码。
参数编码器可被配置为:确定索引值的出现频率;根据索引值的出现频率,对索引值进行重排序以生成重排序的索引值;以及根据重排序的索引值的顺序位置,对重排序的索引值进行编码。
参数编码器可被配置为:根据重排序的索引值的顺序位置,对重排序的索引值应用Golomb-Rice编码。
参数编码器可被配置为:对于一组索引值,接收第一索引值;增加与第一索引值相关联的计数值;以及减少与第一索引值以外的索引值相关联的计数值,以维持索引值的运行计数。
标量量化器可被配置为:根据预定映射,对标量量化输出进行排序。
固定速率编码或可变速率编码中的一个可以是固定速率编码,而固定速率编码或可变速率编码中的另一个可以是可变速率编码。
单声道编码器可被配置为:确定用于对至少两个标量量化参数进行编码的比特数;以及基于所确定的比特数,对单声道表示进行编码。
根据第四方面,提供一种用于解码的装置,其包括:参数解码器,被配置为从信号的第一部分解码至少一个参数索引值,其中,参数表示至少两个通道音频信号之间的差异,并且其中,信号是编码的多通道音频信号;指示符解码器,被配置为从信号的第二部分解码固定速率/可变速率指示符;参数重排序器,被配置为基于第一确定的重排序,对至少一个参数索引值中的第一参数索引值进行重排序以生成第一重排序的索引值;参数确定器,被配置为确定与第一重排序的索引相关联的参数值是否与预定值不同;参数确定器进一步被配置为如果与第一重排序的索引相关联的参数值与预定值不同,则对至少一个参数索引值中的任何其它参数索引值进行自适应重排序;参数确定器进一步被配置为确定固定速率/可变速率指示符是否是固定速率/可变速率值中确定的一个;参数重排序器被配置为:如果与第一重排序的索引相关联的参数值等于预定值且固定速率/可变速率指示符是固定速率/可变速率值中确定的一个,则对至少一个参数索引值中的任何其它索引值进行自适应重排序,以及如果与第一重排序的索引相关联的参数值等于预定值且固定速率/可变速率指示符不是固定速率/可变速率值中确定的一个,则复制至少一个参数索引值以用于帧。
参数重排序器可被配置为:基于第一确定的重排序,对第一参数索引值进行重排序以生成第一重排序的索引值,并且基于第二确定的重排序,对任何其它索引值进行重排序以生成第二重排序的索引值,其中,第二确定的重排序是基于第一重排序的索引值。
被配置为对至少一个参数索引值中的任何其它索引值进行自适应重排序的参数重排序器可被配置为:确定索引值的出现频率;对索引值进行重排序以生成重排序的索引值,其中,重排序取决于重排序的索引值的出现频率。
参数重排序器进一步可被配置为:对重排序的索引值进行反量化以生成参数。
参数解码器可被配置为:使用Golomb-Rice解码,对信号的第一部分进行解码。
固定速率/可变速率值中确定的一个可以是固定速率编码指示符值。
所述装置还可以包括:另一个解码器,其被配置为:从信号的另一个部分接收编码的下混合通道信号;确定在信号的第一部分中使用的比特数;以及基于在信号的第一部分中使用的比特数,对编码的下混合通道信号进行解码。
预定值可以是零。
表示至少两个通道音频信号之间的差异的参数可以是以下中的至少一个:侧增益、通道间相位差、残差预测增益。
一种计算机程序产品,可以使装置执行如本文描述的方法。
一种电子设备,可以包括如本文描述的装置。
一种芯片组,可以包括如本文描述的装置。
附图说明
为了更好地理解本发明,现在将通过示例的方式参考附图,其中:
图1示意性地示出采用一些实施例的电子设备;
图2示意性地示出根据一些实施例的音频编解码器系统;
图3示意性地示出根据一些实施例的如图2中所示的编码器;
图4更详细地示意性地示出根据一些实施例的如图3中所示的通道分析器;
图5更详细地示意性地示出根据一些实施例的如图3中所示的立体声通道编码器;
图6示出表明根据一些实施例的如图2中所示的编码器的操作的流程图;
图7示出表明根据一些实施例的如图4中所示的通道分析器的操作的流程图;
图8示出表明根据一些实施例的如图5中所示的通道编码器的操作的流程图;
图9示意性地示出根据一些实施例的如图2中所示的解码器;
图10示出表明根据一些实施例的如图9中所示的解码器的操作的流程图。
具体实施方式
以下更详细地描述了可能的立体声和多通道语音和音频编解码器,包括分层的或可扩展的可变速率语音和音频编解码器。如上所述,在EP2856776中公开的先前提出的用于对立体声参数进行编码的方法使用Golomb-Rice编码的自适应版本。
先前提出的用于对立体声参数进行自适应编码的方法是针对某些类型的立体声参数。例如,诸如残差预测增益参数的参数对于整个帧可以具有为零的值或当量化时为零的值。这种类型的参数会扰乱自适应编码发生(或频率)计数,并且因此对全零帧之后的一些帧造成低效率编码,直到再次达到平均条件为止。
这例如可以在观察“残差预测增益”的量化索引时可视化,如果观察到在所有子带中索引为零的若干帧。如果这些零值帧的数量足够大,则它可以影响量化索引值的统计,使得值“0”更可能。例如,可以存在一种情况,其中在使用所有帧的情况下,统计确定零值是8个符号中的第4个。如果去除所有索引为零的帧(对于传输残差预测增益时的情况),则符号“0”的可能性可以是最不频繁的(8个符号中的第8个)。这可以转变为降低的编码效率并且最后5个在统计上最可能的符号的编码效率被降低。
在下文描述的实施例中表达的概念试图相较于诸如在EP2856776中所表征的,更好地控制自适应编码方法的应用。
在一些实施例中,这种控制可以在系统中实现,其中,明确指示或传送具有全零参数值的任何帧。
然而,在一些实施例中并且如稍后在一些实施例中进一步详细描述的,可以利用固定速率编码模式来隐式地传送该信息。
在此方面,首先参考图1,其示出了示例性电子设备或装置10的示意性框图,示例性电子设备或装置10可以包含根据本申请的实施例的编解码器。
装置10例如可以是无线通信系统的移动终端或用户设备。在其它实施例中,装置10可以是音频-视频设备,诸如摄像机、电视(TV)接收机、录音机或诸如mp3记录器/播放器的音频播放器、媒体记录器(也称为mp4记录器/播放器)、或任何适用于处理音频信号的计算机。
在一些实施例中,电子设备或装置10包括麦克风11,其经由模数转换器(ADC)14链接到处理器21。处理器21还经由数模转换器(DAC)32链接到扬声器33。处理器21还链接到收发机(RX/TX)13、用户接口(UI)15、以及存储器22。
在一些实施例中,处理器21可被配置为执行各种程序代码。在一些实施例中,所实现的程序代码包括如本文描述的多通道或立体声编码或解码代码。在一些实施例中,所实现的程序代码23例如可以存储在存储器22中,以便在需要时由处理器21获取。存储器22还可以提供用于存储数据的部分24,存储的数据例如是根据应用已编码的数据。
在实施例中,编码和解码的代码可以采用硬件和/或固件实现。
用户接口15使用户能够例如经由键盘向电子设备10输入命令,和/或例如经由显示器从电子设备10获得信息。在一些实施例中,触摸屏可以为用户接口提供输入和输出功能两者。在一些实施例中,装置10包括收发机13,收发机13适用于例如经由无线通信网络实现与其它装置的通信。
应再次理解,装置10的结构可以采用许多方式补充和变形。
例如,装置10的用户可以使用麦克风11来输入将要传输到某些其它装置或将要存储在存储器22的数据部分24中的语音或其它音频信号。在一些实施例中,用户为此可以经由用户接口15激活对应的应用。在这些实施例中,该应用可以由处理器21执行,使处理器21执行存储在存储器22中的编码代码。
在一些实施例中,模数转换器(ADC)14将输入模拟音频信号转换成数字音频信号,并将数字音频信号提供给处理器21。在一些实施例中,麦克风11可以包括集成的麦克风和ADC功能,并且将数字音频信号直接提供给处理器以进行处理。
然后,在这种实施例中,处理器21采用与参考图2中所示的系统、图2至图8中所示的编码器、以及图9和图10中所示解码器所描述的相同的方式来处理数字音频信号。
在一些实施例中,可以将所得到的比特流提供给收发机13,以传输到另一个装置。可替代地,在一些实施例中,编码的音频数据可以存储在存储器22的数据部分24中,例如用于稍后传输或者用于由同一装置10稍后呈现。
在一些实施例中,装置10还可以经由收发机13从另一个装置接收具有对应编码数据的比特流。在该示例中,处理器21可以执行存储在存储器22中的解码程序代码。在这种实施例中,处理器21对所接收的数据进行解码,并将解码的数据提供给数模转换器32。数模转换器32将数字解码数据转换成模拟音频数据,并且在一些实施例中可以经由扬声器33来输出模拟音频。在一些实施例中,解码程序代码的执行也可以由用户经由用户接口15调用的应用来触发。
在一些实施例中,所接收的编码数据也可以经由扬声器33存储在存储器22的数据部分24中而不是立即呈现,例如用于稍后解码和呈现或者解码并转发到另一个装置。
应当理解,在图3、图5、图7和图9中描述的示意性结构以及在图4、图6、图8和图10中所示的方法步骤仅表示音频编解码器的操作的一部分,尤其是在图1所示的装置中示例性示出实现的立体声编码器/解码器装置或方法的一部分。
实施例采用的音频编解码器的一般操作如图2中所示。如在图2中示意性所示,一般的音频编码/解码系统包括编码器和解码器两者。然而,应当理解,一些实施例可以实现编码器或解码器之一,或者编码器和解码器两者。图2所示的系统102具有编码器104,尤其是立体声编码器151,存储或媒体通道106,以及解码器108。应当理解,如上所述,一些实施例可以包括或实现编码器104或解码器108之一,或者编码器104和解码器108两者。
编码器104压缩输入音频信号110,从而产生比特流112,在一些实施例中,比特流112可以通过媒体通道106存储或传输。此外,编码器104可以包括作为整个编码操作的一部分的立体声编码器151。应当理解,立体声编码器可以是整个编码器104的一部分或单独的编码模块。编码器104还可以包括对多于两个音频信号进行编码的多通道编码器。
可以在解码器108内接收比特流112。解码器108解压缩比特流112并产生输出音频信号114。解码器108可以包括作为整个解码操作的一部分的立体声解码器。应当理解,立体声解码器可以是整个解码器108的一部分或单独的解码模块。解码器108还可以包括对多于两个音频信号进行解码的多通道解码器。与输入信号110相关的比特流112的比特率和输出音频信号114的质量是定义编码系统102的性能的主要特征。
关于图3,根据一些实施例示出了示例性编码器104。
在一些实施例中,编码器104包括帧分段器/变换器201。帧分段器/变换器201被配置为接收左和右(或者更一般地,任何多通道音频表示)输入音频信号,并且生成这些将要分析和编码的音频信号的频域表示。这些频域表示可被传递到通道参数确定器203。
在一些实施例中,帧分段器/变换器201可被配置为将音频信号数据分段或分割成适合于频域变换的段或帧。在一些实施例中,帧分段器/变换器201还可被配置为根据任何适合的窗口函数来窗口化音频信号数据的这些帧或段。例如,帧分段器/变换器201可被配置为生成20ms的帧,其分别与之前和之后的帧重叠10ms。
在一些实施例中,帧分段器/变换器201可被配置为对音频信号数据执行任何适合的时域到频域变换。例如,时域到频域变换可以是离散傅里叶变换(DFT)、快速傅立叶变换(FFT)、改进的离散余弦变换(MDCT)。在以下示例中,使用快速傅里叶变换(FFT)。此外,可以进一步处理时域到频域变换器的输出,以生成每个输入通道音频信号数据的单独的频带域表示(子带表示)。这些频带可以采用任何适合的方式布置。例如,这些频带可以是线性间隔的,或者是感知或心理声学分配的。在一些实施例中,频域表示被传递到通道分析器/编码器203。
在一些实施例中,编码器104可以包括通道分析器203。通道分析器203可被配置为接收多通道或立体声输入的子带滤波表示。此外,在一些实施例中,通道分析器203可被配置为分析频域音频信号,并关于立体声或多通道音频信号差异来确定与每个子频带相关联的参数。此外,通道分析器203可以使用这些参数,并生成可根据任何适合的编码进行编码的单声道。
然后,可以将立体声参数和单声道参数/信号输出到量化处理器/单声道编码器205。
在一些实施例中,编码器104包括量化处理器/单声道编码器205。量化处理器/单声道编码器205可被配置为接收由通道分析器203确定的立体声(差异)参数。然后,在一些实施例中,量化处理器/单声道编码器205可被配置为对参数执行量化,并且进一步对参数进行编码,以使得它们可被输出(被存储在装置上,或者被传递到另一个装置)。量化处理器/单声道编码器205还可被配置为接收单声道参数/通道,并且进一步使用任何适合的编码并且还基于用于对立体声参数进行编码的比特数来对单声道参数/通道进行编码。换句话说,首先对立体声参数进行编码,然后对下混合信号进行编码。通过对立体声参数使用熵编码而节省的比特可用于对下混合信号进行编码。
在一些实施例中,编码器包括信号输出207。如图3中所示的信号输出表示被配置为传递编码的立体声参数以进行存储或发送到另一个装置的输出。
关于图4,根据一些实施例的编码过程和在图3中示出的编码器104的操作的概述被示出为流程图。
生成音频帧频带频域表示的操作在图4中由步骤501示出。
确定立体声参数的操作在图4中由步骤502示出。
生成单声道(下混合)参数的操作在图4中由步骤503示出。
量化立体声(多通道)参数以及对量化的立体声(多通道)参数进行编码的操作在图4中由步骤504示出。
基于优化的量化立体声参数的比特使用,对单声道(下混合)参数进行编码的操作在图4中由步骤505示出。
编码的量化立体声(多通道)参数和编码的单声道(下混合)参数/信号的输出在图4中由步骤507示出。
关于图5,更详细地描述了根据一些实施例的示例性通道分析器203。
在一些实施例中,通道分析器203包括通道差异参数确定器301。通道差异参数确定器301被配置为确定各种通道差异参数。在以下示例中,输入音频信号是左和右音频信号。在一些实施例中,这可被概括为来自多通道音频系统的第j个和第j+1个音频通道。
例如,通道差异参数确定器301可被配置为从帧分段器/变换器201接收以下参数:
—右通道的DFT的分量i;
—左通道的DFT的分量i。
这些参数可以进一步表示为实部和虚部,诸如对于右通道:
—右通道的DFT的第i个分量的实部;
—右通道的DFT的第i个分量的虚部。
根据这些分量,通道差异确定器可被配置为生成通道能量参数,例如:
—右通道的能量;
—右通道的子带b的能量;
—左通道的能量;
—左通道的子带b的能量;
——左右能量的几何平均;
—点积实部;
—点积虚部;
此外,通道差确定器可被配置为根据以下公式,确定差异(立体)参数:
—针对子带b的侧增益;
-针对子带b的非归一化残差预测增益;
—残差预测增益(用下混合能量归一化)
此外,在一些实施例中,通道差异确定器可被配置为针对非语音信号,生成其它参数,诸如:
RPGb=0
针对语音信号并且对于较高子带,通道差确定器可被配置为生成:
IPDb=tan-1(DPimg/DPre)—针对子带b的通道间相位差(对于较高子带,该值可被设置为0)。
诸如通道间相位差、侧增益和残差预测增益参数值的差异参数可被传递到单声道生成器,并且作为立体声通道参数被传递到量化处理器。
在一些实施例中,编码器104(或者如图5中所示,通道分析器203)包括单声道生成器305。单声道生成器被配置为从通道差确定器301接收通道分析器值,诸如侧增益和通道间相位差。在通道分析器包括中间/侧通道转换器的一些实施例中,单声道生成器可以接收中间通道信号,然后将其作为单声道或下混合通道进行编码。此外,在一些实施例中,单声道生成器305可被配置为进一步接收输入多通道音频信号。在一些实施例中,单声道生成器305可被配置为生成代表音频信号的“对齐”或下混合通道。换句话说,单声道生成器305可以生成单声道(或下混合)通道信号,其表示对齐的多通道音频信号。例如,在存在左通道音频信号和右通道音频信号的一些实施例中,左通道音频信号或右通道音频信号中的一个根据确定的延迟差异相对于另一个被延迟,然后,延迟的通道和其它通道音频信号被平均以生成单声道信号。然而,应当理解,在一些实施例中,可以实现任何适合的单声道生成方法。
然后可以输出编码的单声道参数/信号。在一些实施例中,单声道信号被输出到量化处理器/单声道编码器205以进行编码。
关于图6,根据一些实施例的分析过程(诸如在图4中通过步骤502和步骤503描述的)和在图5中示出的通道分析器/编码器203的操作的概述被示出为流程图。
接收多通道音频信号频率分量的操作在图6中由步骤551示出。
确定中间参数(例如,音频信号通道的能量参数)的操作在图6中由步骤552示出。
确定至少部分地根据中间参数生成的差异参数(例如,侧增益、通道间相位差、残差预测增益)的操作在图6中由步骤553示出。
根据立体声(多通道)信号,生成单声道(下混合)信号/参数的操作在图6中由步骤555示出。
关于图7,更详细地示出了示例性量化处理器/单声道编码器205。
在一些实施例中,量化处理器205包括标量量化器451。标量量化器451被配置为从通道分析器203接收立体声参数。
标量量化器可被配置为对这些值执行标量量化。例如,标量量化器451可被配置为利用由以下阵列定义的量化分区区域来量化这些值。
Q={-10000.0,-8.0,-3.0,-1.0,1.0,3.0,5.0,8.0,100000.0}
因此,标量量化器451可以输出与量化分区区域内的区域相关联的索引值符号,在量化分区区域内出现级别差异值。例如,初始量化索引值输出可以如下:
在一些实施例中,索引值可被输出到重映射器453。
在一些实施例中,量化处理器/单声道编码器205包括自适应重映射器453。在一些实施例中,自适应重映射器453可以是来自EP2856776的重映射器,并且被配置为接收标量量化器451的输出,换句话说,索引值与在其中发现立体声或差异参数的量化分区区域相关联,进而根据定义的映射,映射索引值。
在一些实施例中,索引(重)映射或重排序是基于从定义的映射的范围中选择的自适应映射。定义的映射可以是根据训练数据或利用帧内相关的任何其它适合的方式而确定的映射。例如,这些映射可以利用表示相邻子带参数的相邻符号之间的相关性。在一些实施例中,可以基于先前的参数值的统计分析,确定索引值的重映射或重排序。
如此,在一些实施例中,可以根据默认或定义的映射,映射帧内的第一个符号。根据基于该第一个符号而选择的映射,映射帧内的第二个符号,以此类推。
例如,可以根据表A,重映射第一个符号,然后,可以基于取决于前一(第一)个符号的映射,重映射下一(第二)个符号。例如,第二个符号的重排序或重映射可被定义为:
如果前一(第一)个符号=0,则使用表B;
如果前一(第一)个符号=1,则使用表C;
如果前一(第一)个符号=2,则使用表D;
如果前一(第一)个符号=3,则使用表E;
如果前一(第一)个符号=4,则使用表F;
如果前一(第一)个符号=5,则使用表G;
如果前一(第一)个符号=6,则使用表H;
如果前一(第一)个符号=7,则使用表I。
这些映射可被存储为映射阵列,例如:
short maps[]={B;C;D;E;F;G;H;I}
其中,如果前一个符号为“0”,则来自上述阵列中的第一条目/行被用作映射,如果前一个符号为“1”,则第二条目/行被用作映射,依此类推。
在上面的示例中,重排序或重映射函数的阵列对于每个符号是相同的。在一些实施例中,每个符号可以具有单独的重排序或重映射函数的阵列。例如:
第二个符号可具有阵列:
short mapsSymbol2[]={...};
第三个符号可具有阵列:
short mapSynnbol3[]={...};
依此类推到第八个符号阵列:
short mapsSymbol8[]={...};
其中,每个阵列可不同。
这可以提供相对于特定子带到子带相关性来调整编码效率的能力,其代价是需要在编码器和解码器处存储附加的阵列。
此外,在一些实施例中,可以根据多于一阶的关系来定义或选择阵列。例如,可以基于帧内多于一个的先前确定的符号(子带)来确定阵列映射函数。这还可以提供调整编码效率的能力,其代价是需要在编码器和解码器处存储附加的阵列。
此外,在一些实施例中,可以基于在时间上先前的符号来确定阵列映射函数。例如,映射函数可以利用任何帧到帧的相关性。基于时间和子带的自适应映射的实现导致表ROM显著增加。对于8个符号,具有映射的表将具有64行而不是8行。在一些实施例中并且取决于数据,可以仅使用帧间而不是帧内。在一些示例中,通过对当前帧与先前帧之间的差异应用GR编码来利用帧间相关性。数字0、1、-1、2、-2、...被映射到0、1、2、3、4、...,然后用0或1阶的GR进行编码,哪个最佳就用哪个。
然后,自适应重映射器453的输出被输出到Golomb-Rice编码器455。
在一些实施例中,量化处理器/单声道编码器205可以包括Golomb-Rice编码器455。Golomb-Rice编码器(GR编码器)455被配置为接收由自适应重映射器453生成的重映射的索引值或符号,并根据Golomb-rice编码方法对这些索引值进行编码。因此,在这样的实施例中,Golomb-Rice编码器455输出表示当前和先前的索引值的码字。Golomb-Rice编码器455是熵编码器的示例,并且在一些实施例中,可以实现任何其它适合的熵编码器。
对于第一符号,Golomb-Rice整数代码的示例是输出如下的代码。
量化参数符号 映射参数符号 GR代码0 GR代码1
0 6 1111110 11100
1 3 1110 101
2 1 10 01
3 0 0 00
4 2 110 100
5 4 11110 1100
6 5 1111110 1101
7 7 11111110 11101
然后,GR编码器455可以输出立体声码字。在一些实施例中,码字被传递到复用器以与编码的单声道音频信号混合。然而,在一些实施例中,立体声码字可以作为单独的流被传递以被存储或传递到另一个装置。
编码方法可以用于参数化立体声音频编码器内的DFT参数。在一些实施例中,将要编码的参数是侧增益、残差预测增益、以及通道间相位差。
在一些实施例中,量化处理器/单声道编码器205还包括(重映射或重排序)控制器454。在一些实施例中,控制器454可被配置为从标量量化器(符号生成器)451接收输出。控制器454可被配置为确定帧内的所有符号是否具有指示参数的量化值全部为零的索引。然后,控制器可被配置为基于该确定,控制自适应重映射器453以自适应模式(和/或统计发生计数或频率计数模式)进行操作。因此,例如如果控制器确定帧的量化参数值全部为零,则禁用自适应重映射。
此外,在一些实施例中,控制器454被配置为控制比特流指示符(生成器)。
在一些实施例中,量化处理器/单声道编码器205包括比特流指示符生成器456。比特流指示符生成器456可被配置为生成比特指示符,以指示帧的量化参数值是否全部为零,并且因此使指示符能够被发送到解码器以类似地基于该指示符来禁用自适应重映射或重排序的使用。在一些实施例中,比特流指示符生成器456还可以确定用于对立体声或多通道参数进行编码的比特数,并将该信息传递到单声道编码器457。
在一些实施例中,控制器454和比特流指示符可以以不同的方式操作。在一些实施例中,编码器能够生成可变速率编码模式,例如当使用自适应熵编码器并且编码器产生小于阈值TCR值的比特数时,并且编码器可以采用固定速率编码模式(当可变编码比特数大于阈值TCR时)。在一些实施例中,控制器可以通过隐式地在编码数据中插入关于帧是否全部为零的信息来利用这一点。这可以由量化处理器以诸如在下面参考图8所讨论的方式来执行。
在一些实施例中,量化处理器/单声道编码器205还包括单声道(下混合)编码器457。单声道(下混合)编码器457可被配置为接收单声道(下混合)通道或参数。此外,单声道(下混合)编码器457可被配置为接收已在GR编码器中使用的比特数的指示,以用于对当前帧进行编码。然后,单声道(下混合)编码器457可被配置为基于已知立体声参数编码所使用的比特数,基于任何适合的编码方法,对单声道(下混合)进行编码。单声道生成器/编码器457可以使用任何适合的编码格式对所生成的单声道音频信号进行编码。例如,在一些实施例中,单声道音频信号可以使用增强语音服务(EVS)的单声道编码形式进行编码,其可以包含自适应多速率-宽带(AMR-WB)编解码器的比特流可互操作版本。
关于图8,根据一些实施例的编码过程(诸如在图4中通过步骤505描述的)和在图7中示出的量化处理器/单声道编码器205的操作的概述被示出为流程图。
接收立体声参数的操作在图8中由步骤701示出。
如在图8中通过步骤703所示,标量量化器451可以执行量化立体声参数以生成索引值或符号r_x(x=0...N)的操作。
控制器可被配置为确定第一子带参数是否为零。换句话说,确定是否r_0<>0。如果控制器确定第一子带参数不为零,则控制器可被配置为控制自适应映射器和编码器以自适应模式操作。换句话说,根据在EP2856776中描述的方法,控制自适应映射器453和GR编码器对所有其它子带参数进行编码。此外,控制器可以控制比特流指示符对所使用的比特数(bits_GR)进行计数。
根据在EP2856776中描述的方法,控制自适应映射器453和GR编码器对所有其它子带参数进行编码,并控制比特流指示符对所使用的比特数(bits_GR)进行计数的操作在图8中由步骤704示出。
如果控制器被配置为确定r_0==0,则控制器被配置为确定是否对于所有x,r_x==0。如果对于所有x,r_x==0,则比特流指示符可被配置为将bits_GR设置为用于r_0的比特,否则bits_GR是大数。
确定如果对于所有x,r_x==0,则将bits_GR设置为用于r_0的比特,否则将bits_GR设置为大数的操作在图8中由步骤705示出。
然后,控制器可以确定bit_GR值是否大于固定速率阈值。如果这发生,则可以选择固定速率编码并且不设置自适应速率代码标志或指示符(例如,flag_GR=0),否则设置自适应速率代码标志或指示符(例如,flag_GR=1)。
设置(或不设置)自适应速率编码标志或指示符的操作在图8中由步骤707示出。
然后,如果自适应速率编码标志被设置,则编码器可被配置为对参数应用自适应速率编码,但如果第一参数值是零值,则编码在第一参数处停止。否则,应用固定速率编码。
根据自适应编码标志值进行编码的操作在图8中由步骤709示出。
此外,接收单声道参数的操作在图8中由步骤712示出。
基于Golomb-Rice编码比特使用,对单声道参数/通道进行编码的操作在图8中由步骤718示出。
输出flag_GR和编码参数的操作在图8中由步骤719示出。
在这样的系统中,可以首先通过传送是存在固定速率还是可变速率编码的比特来形成将要输出的编码比特流。如果存在可变比特率编码,则发送第一编码参数。此外,如果编码参数为零,则停止对该帧进行编码,否则对该帧上的其余参数继续进行自适应GR编码。
在该示例中,检测到的符号值是零的情况。然而,在一些实施例中,类似的方法可以应用于任何实施例,其中,将要编码的参数具有在值的第一广泛范围内的符号的第一出现或频率分布并且适用于熵编码,并且将要编码的参数具有在第一范围以外的参数值内的符号的第二出现或频率分布并且不适用于熵编码。在这样的实施例中,控制器可被配置为确定第一符号是否具有在第一范围以外的参数值以及这是否对于帧内的所有参数发生,并且相应地控制编码和输出。
为了完全示出编解码器的操作,图9和图10示出了根据一些实施例的解码器和解码器的操作。
在一些实施例中,解码器108包括单声道解码器801。在一些实施例中,单声道解码器801被配置为接收编码的单声道信号。
此外,单声道解码器801可被配置为使用对在编码器中示出的单声道编码器的逆过程,对编码的单声道音频信号进行解码。在一些实施例中,单声道解码器801可被配置为从立体声通道解码器803接收指示符,其指示用于立体声信号的比特数以辅助单声道的解码。
在一些实施例中,单声道解码器801可被配置为将单声道音频信号输出到立体声通道生成器809。
在一些实施例中,解码器108可以包括立体声通道解码器803。立体声通道解码器803被配置为接收编码的立体声参数。
此外,立体声通道解码器803可被配置为将立体声通道信号参数从熵代码解码成符号值。
立体声通道解码器803还被配置为将解码的索引值输出到自适应符号重排序器(解映射器)807。
在一些实施例中,解码器包括比特信令解码器804。比特信令解码器804可被配置为接收固定速率可变速率指示符,并将其传递到自适应符号重排序器807。
在一些实施例中,解码器108包括自适应符号重排序器807。在一些实施例中,自适应符号或索引重排序器(解映射器)被配置为从比特信令解码器804接收固定速率/可变速率指示符比特,并且从立体声通道解码器803接收符号。
然后,自适应符号重排序器807可被配置为确定帧内的第一子带参数值是否等于零。如果第一子带参数值不为零,则自适应符号重排序器可以采用与EP2856776中描述的相同方式来实现自适应重排序。
如果第一子带参数值为零且来自比特信令解码器804的固定速率/可变速率指示符比特指示固定速率代码,则自适应符号重排序器可以采用与EP2856776中描述的相同方式实现自适应重排序。
如果第一子带参数值为零且来自比特信令解码器804的固定速率/可变速率指示符比特指示可变速率代码,则自适应符号重排序器可以复制第一子带参数符号值(例如,0)以用于整个帧。
此外,在一些实施例中,符号重排序器807被配置为使用在编码器内的量化处理器的量化器部分内定义的过程的逆过程,将解映射或重排序的索引值反量化成参数。
在一些实施例中,解码器包括立体声通道生成器809,其被配置为接收重排序的解码符号(立体声参数)和解码的单声道,并重新生成立体声通道,换句话说,对单声道应用级别差异以生成第二通道。
关于图10,根据一些实施例的解码过程和在图9中示出的解码器108的操作的概述被示出为流程图。
接收编码的单声道音频信号的操作在图10中由步骤901示出。
接收编码的立体声参数的操作在图10中由步骤902示出。
接收比特流指示符(固定速率/可变速率)标志或指示符(flag_GR)的操作在图10中由步骤903示出。
检查比特流指示符(固定速率/可变速率)指示符的操作在图10中由步骤904示出。
如果固定速率/可变速率指示符指示flag_GR值指示比特流已被自适应编码(flag_GR=1),则解码器被配置为自适应地对立体声参数进行解码。如果第一解码参数=0,则解码停止,并且所有参数可被设置为等于0,即,对于所有x:r_x=0。
对立体声参数进行自适应解码的操作在图10中由步骤906示出。
如果固定速率/可变速率指示符指示flag_GR值指示比特流已被固定速率编码(flag_GR=0),则解码器被配置为使用固定速率解码,对立体声参数进行解码。
对立体声参数进行固定速率解码的操作在图10中由步骤907示出。
将立体声参数输出到立体声通道生成器在图10中由步骤908示出。
(基于立体声通道所使用的比特数)对单声道进行解码的操作在图10中由步骤909示出。
根据单声道立体声参数,生成立体声通道的操作在图10中由步骤910示出。
虽然在上面的示例中示出了可变/固定速率指示符,其中,固定速率指示符指示具有一些非零参数的帧,而可变速率指示符指示具有全零参数的帧,但在一些实施例中,该选择可被反转以使得固定速率指示符指示具有全零参数的帧,而可变速率指示符指示具有一些非零参数的帧。
虽然上述示例描述了在装置10内的编解码器内操作的应用的实施例,但是应当理解,本发明如下所述可以实现为任何音频(或语音)编解码器的一部分,包括任何可变速率/自适应速率的音频(或语音)编解码器。因此,例如,本申请的实施例可以在音频编解码器中实现,该音频编解码器可以在固定或有线通信路径上实现音频编码。
因此,用户设备可以包括音频编解码器,诸如在上面的应用的实施例中描述的那些。
应当理解,术语用户设备旨在覆盖任何适合类型的无线用户设备,诸如移动电话、便携式数据处理设备或便携式网络浏览器。
此外,公共陆地移动网络(PLMN)的元件还可以包括如上所述的音频编解码器。
通常,本申请的各种实施例可以采用硬件或专用电路、软件、逻辑或其任何组合来实现。例如,一些方面可以采用硬件实现,而其它方面可以采用固件或软件实现,固件或软件可以由控制器、微处理器或其它计算设备执行,但是本发明不限于此。虽然可以将本申请的各个方面示出并描述为框图、流程图或使用一些其它图示表示来示出或描述,但是应当充分理解,本文中描述的这些框、装置、系统、技术或方法可以作为非限制性的示例采用硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其它计算设备、或其某种组合来实现。
本申请的实施例可以由移动设备的数据处理器可执行的计算机软件来实现,计算机软件诸如在处理器实体中,或者通过硬件、或者通过软件和硬件的组合来实现。此外,在此方面应指出,如附图中的逻辑流程的任何框可以表示程序步骤,或者可以表示互连的逻辑电路、块和功能,或者可以表示程序步骤和逻辑电路、块和功能的组合。
存储器可以是适合于本地技术环境的任何类型,并且可以使用任何合适合的数据存储技术来实现,诸如基于半导体的存储器设备、磁存储器设备和系统、光存储器设备和系统、固定存储器、以及可移动存储器。数据处理器可以是适合于本地技术环境的任何类型,并且作为非限制性示例可以包括通用计算机、专用计算机、微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、门级电路、以及基于多核处理器架构的处理器中的一个或多个。
本申请的实施例可以在诸如集成电路模块的各种组件中实践。集成电路的设计基本上是高度自动化的过程。复杂且功能强大的软件工具可用于将逻辑级设计转换成准备在半导体衬底上蚀刻和形成的半导体电路设计。
诸如加利福尼亚州山景城的Synopsys公司和加利福尼亚州圣何塞的CadenceDesign公司提供的程序的程序使用完善的设计规则以及预先存储的设计模块库在半导体芯片上自动布线导体和定位元件。一旦完成了对半导体电路的设计,就可以将采用标准化电子格式(例如,Opus、GDSII等)的设计结果传送到半导体制造设备或“fab”以进行制造。
如在本申请中使用的,术语“电路”是指如下的全部:
(a)仅硬件的电路实现,诸如仅采用模拟和/或数字电路的实现;
(b)电路和软件(和/或固件)的组合,诸如:(i)处理器的组合;或者(ii)处理器/软件的部分(包括数字信号处理器)、软件和存储器,其协同工作以使诸如移动电话或服务器的装置执行各种功能;以及
(c)电路,诸如微处理器或微处理器的一部分,其需要软件或固件以工作,即使该软件或固件在物理上不存在。
“电路”的定义适用于本申请中的该术语的所有使用。作为进一步的示例,如在本申请中所使用的,术语“电路”还涵盖仅一个处理器(或多个处理器)或处理器的一部分及它(或它们的)伴随软件和/或固件的实现。例如,如果适用于特定的权利要求元素,术语“电路”还涵盖用于移动电话的基带集成电路或应用处理器集成电路,或者服务器、蜂窝网络设备或其它网络设备的中的类似集成电路。
以上描述已经通过示例性和非限制性示例提供了对本发明的示例性实施例的完整并且信息丰富的描述。然而,当结合附图和所附权利要求进行阅读时,鉴于前文的描述,各种修改和调整对于相关领域的技术人员而言将变得显而易见。然而,对本发明的教导的所有这些和类似的修改仍将落入所附权利要求中限定的本发明的范围内。

Claims (34)

1.一种方法,包括:
接收至少两个音频通道信号;
针对第一帧,确定表示所述至少两个通道音频信号之间的差异的至少两个参数;
标量量化所述至少两个参数以生成至少两个索引值;
对所述至少两个参数的初始标量量化参数进行自适应编码;
确定所述初始标量量化参数是否具有与预定值不同的值;
如果所述初始标量量化参数具有与所述预定值不同的值,则对任何未编码的标量量化参数进行自适应编码;
如果所述初始标量量化参数具有等于所述预定值的值,则确定所述至少两个标量量化参数是否全部具有等于所述预定值的值;
如果所述初始标量量化参数具有等于所述预定值的值且所述至少两个标量量化参数中的至少一个具有与所述预定值不同的值,则对任何未编码的标量量化参数进行自适应编码,并生成指示输出是固定速率编码或可变速率编码中的一个的指示符;
如果所述初始标量量化参数具有等于所述预定值的值且所述至少两个标量量化参数全部具有等于所述预定值的值,则生成指示所述输出是固定速率编码或可变速率编码中的另一个的指示符;
根据所述至少两个参数,生成所述至少两个音频通道信号的单声道表示;以及
对所述单声道表示进行编码。
2.根据权利要求1所述的方法,其中,对初始标量量化参数进行自适应编码和对任何未编码的标量量化参数进行自适应编码包括:
确定用于对与所述标量量化参数相关联的索引值进行重排序的初始索引映射,并确定用于对与所述任何未编码的标量量化参数相关联的至少一个其它索引值进行重排序的至少一个其它索引映射,其中,所述至少一个其它索引映射基于与所述标量量化参数相关联的索引值而确定;
基于所述初始索引映射,对与所述标量量化参数相关联的索引值进行重排序;
基于所述至少一个其它索引映射,对与所述任何未编码的标量量化参数相关联的至少一个其它索引值进行重排序;
根据重排序的与所述标量量化参数相关联的索引值的顺序位置,对重排序的与所述标量量化参数相关联的索引值进行编码;以及
基于重排序的与所述任何未编码的标量量化参数相关联的至少一个其它索引值的顺序位置,对与所述任何未编码的标量量化参数相关联的至少一个其它索引值进行编码。
3.根据权利要求1所述的方法,其中,对所述标量量化参数进行自适应编码包括:
确定索引值的出现频率;
根据所述索引值的出现频率,对所述索引值进行重排序以生成重排序的索引值;以及
根据重排序的索引值的顺序位置,对重排序的索引值进行编码。
4.根据权利要求3所述的方法,其中,确定索引值的出现频率还包括:
对于一组索引值,接收第一索引值;
增加与所述第一索引值相关联的计数值;以及
减少与所述第一索引值以外的索引值相关联的计数值。
5.根据权利要求2至4中任一项所述的方法,其中,根据重排序的索引值的顺序位置,对重排序的索引值进行编码包括:根据重排序的索引值的顺序位置,对重排序的索引值应用Golomb-Rice编码。
6.根据权利要求1至5中任一项所述的方法,其中,标量量化所述至少两个参数还包括:根据预定映射,对所述标量量化输出进行排序。
7.根据权利要求1至6中任一项所述的方法,其中,固定速率编码或可变速率编码中的一个是固定速率编码,而固定速率编码或可变速率编码中的另一个是可变速率编码。
8.根据权利要求1至7中任一项所述的方法,其中,对单声道表示进行编码包括:
确定用于对所述至少两个标量量化参数进行编码的比特数;以及
基于所确定的比特数,对所述单声道表示进行编码。
9.一种方法,包括:
从信号的第一部分解码至少一个参数索引值,其中,所述参数表示至少两个通道音频信号之间的差异,并从所述信号的第二部分解码固定速率/可变速率指示符,其中,所述信号是编码的多通道音频信号;
基于第一确定的重排序,对所述至少一个参数索引值中的第一参数索引值进行重排序以生成第一重排序的索引值;
确定与所述第一重排序的索引相关联的参数值是否与预定值不同;
如果与所述第一重排序的索引相关联的参数值与所述预定值不同,则对所述至少一个参数索引值中的任何其它参数索引值进行自适应重排序;
确定所述固定速率/可变速率指示符是否是固定速率/可变速率值中确定的一个;
如果与所述第一重排序的索引相关联的参数值等于所述预定值且所述固定速率/可变速率指示符是固定速率/可变速率值中确定的一个,则对所述至少一个参数索引值中的任何其它索引值进行自适应重排序;以及
如果与所述第一重排序的索引相关联的参数值等于所述预定值且所述固定速率/可变速率指示符不是固定速率/可变速率值中确定的一个,则复制所述至少一个参数索引值以用于帧。
10.根据权利要求9所述的方法,其中,基于第一确定的重排序,对所述至少一个参数索引值中的第一参数索引值进行重排序以生成第一重排序的索引值包括:基于第一确定的重排序,对第一参数索引值进行重排序以生成第一重排序的索引值;以及
对所述至少一个参数索引值中的任何其它索引值进行自适应重排序包括:基于第二确定的重排序,对任何其它索引值进行重排序以生成第二重排序的索引值,其中,所述第二确定的重排序是基于所述第一重排序的索引值。
11.根据权利要求9所述的方法,其中,对所述至少一个参数索引值中的任何其它索引值进行自适应重排序包括:
确定索引值的出现频率;
对所述索引值进行重排序以生成重排序的索引值,其中,所述重排序取决于重排序的索引值的出现频率。
12.根据权利要求9至11中任一项所述的方法,还包括:
对所述重排序的索引值进行反量化以生成所述参数。
13.根据权利要求9至12中任一项所述的方法,其中,从信号的第一部分解码包括:使用Golomb-Rice解码,对信号的第一部分进行解码。
14.根据权利要求9至13中任一项所述的方法,其中,固定速率/可变速率值中确定的一个是固定速率编码指示符值。
15.根据权利要求9至14中任一项所述的方法,还包括:
从信号的另一个部分接收编码的下混合通道信号;
确定在所述信号的所述第一部分中使用的比特数;
基于在所述信号的所述第一部分中使用的所述比特数,对所述编码的下混合通道信号进行解码。
16.根据权利要求1至15中任一项所述的方法,其中,所述预定值是零。
17.一种装置,被配置为执行根据权利要求1至8中任一项所述的方法。
18.一种装置,被配置为执行根据权利要求9至16中任一项所述的方法。
19.一种装置,包括:
参数确定器,被配置为针对第一帧,确定表示所述至少两个通道音频信号之间的差异的至少两个参数;
标量量化器,被配置为标量量化所述至少两个参数以生成至少两个索引值;
参数编码器,被配置为对所述至少两个参数的初始标量量化参数进行自适应编码;
比特流指示器,被配置为生成指示输出比特流是固定速率编码或可变速率编码中的一个或另一个的指示符;
编码控制器,被配置为确定所述初始标量量化参数是否具有与预定值不同的值,并且被配置为如果所述初始标量量化参数具有与所述预定值不同的值,则控制所述参数编码器对任何未编码的标量量化参数进行自适应编码,其中,
所述编码控制器进一步被配置为如果所述初始标量量化参数具有等于所述预定值的值,则确定所述至少两个标量量化参数是否全部具有等于所述预定值的值,所述编码控制器进一步被配置为:
如果所述初始标量量化参数具有等于所述预定值的值且所述至少两个标量量化参数中的至少一个具有与所述预定值不同的值,则控制所述参数编码器对任何未编码的标量量化参数进行自适应编码,并控制所述比特流指示器生成指示所述输出比特流是固定速率编码或可变速率编码中的一个的指示符;
如果所述初始标量量化参数具有等于所述预定值的值且所述至少两个标量量化参数全部具有等于所述预定值的值,则控制所述比特流指示器生成指示所述输出是固定速率编码或可变速率编码中的另一个的指示符;
单声道生成器,被配置为根据所述至少两个参数,生成所述至少两个音频通道信号的单声道表示;以及
单声道编码器,被配置为对所述单声道表示进行编码。
20.根据权利要求19所述的装置,其中,所述参数编码器被配置为:
确定用于对与所述标量量化参数相关联的索引值进行重排序的初始索引映射,并且确定用于对与所述任何未编码的标量量化参数相关联的至少一个其它索引值进行重排序的至少一个其它索引映射,其中,所述至少一个其它索引映射基于与所述标量量化参数相关联的索引值而确定;
基于所述初始索引映射,对与所述标量量化参数相关联的索引值进行重排序;
基于所述至少一个其它索引映射,对与所述任何未编码的标量量化参数相关联的至少一个其它索引值进行重排序;
根据重排序的与所述标量量化参数相关联的索引值的顺序位置,对重排序的与所述标量量化参数相关联的索引值进行编码;以及
基于重排序的与所述任何未编码的标量量化参数相关联的至少一个其它索引值的顺序位置,对与所述任何未编码的标量量化参数相关联的至少一个其它索引值进行编码。
21.根据权利要求19所述的装置,其中,所述参数编码器被配置为:
确定索引值的出现频率;
根据所述索引值的出现频率,对所述索引值进行重排序以生成重排序的索引值;以及
根据重排序的索引值的顺序位置,对重排序的索引值进行编码。
22.根据权利要求21所述的装置,其中,所述参数编码器被配置为:
对于一组索引值,接收第一索引值;
增加与所述第一索引值相关联的计数值;以及
减少与所述第一索引值以外的索引值相关联的计数值,以维持索引值的运行计数。
23.根据权利要求20至22中任一项所述的装置,其中,所述参数编码器被配置为:根据重排序的索引值的顺序位置,对重排序的索引值应用Golomb-Rice编码。
24.根据权利要求19至23中任一项所述的装置,其中,所述标量量化器被配置为:根据预定映射,对所述标量量化输出进行排序。
25.根据权利要求19至24中任一项所述的装置,其中,固定速率编码或可变速率编码中的一个是固定速率编码,而固定速率编码或可变速率编码中的另一个是可变速率编码。
26.根据权利要求19至25中任一项所述的装置,其中,所述单声道编码器被配置为:
确定用于对所述至少两个标量量化参数进行编码的比特数;以及
基于所确定的比特数,对所述单声道表示进行编码。
27.一种用于解码的装置,包括:
参数解码器,被配置为从信号的第一部分解码至少一个参数索引值,其中,所述参数表示至少两个通道音频信号之间的差异,并且其中,所述信号是编码的多通道音频信号;
指示符解码器,被配置为从所述信号的第二部分解码固定速率/可变速率指示符;
参数重排序器,被配置为基于第一确定的重排序,对所述至少一个参数索引值中的第一参数索引值进行重排序以生成第一重排序的索引值;
参数确定器,被配置为确定与所述第一重排序的索引相关联的参数值是否与预定值不同;
所述参数确定器进一步被配置为如果与所述第一重排序的索引相关联的所述参数值与所述预定值不同,则对所述至少一个参数索引值中的任何其它参数索引值进行自适应重排序;
所述参数确定器进一步被配置为确定所述固定速率/可变速率指示符是否是固定速率/可变速率值中确定的一个;
所述参数重排序器被配置为:如果与所述第一重排序的索引相关联的所述参数值等于所述预定值且所述固定速率/可变速率指示符是固定速率/可变速率值中确定的一个,则对所述至少一个参数索引值中的任何其它索引值进行自适应重排序,以及如果与所述第一重排序的索引相关联的所述参数值等于所述预定值且所述固定速率/可变速率指示符不是固定速率/可变速率值中确定的一个,则复制所述至少一个参数索引值以用于帧。
28.根据权利要求27所述的装置,其中,所述参数重排序器被配置为:基于第一确定的重排序,对第一参数索引值进行重排序以生成第一重排序的索引值,并且基于第二确定的重排序,对任何其它索引值进行重排序以生成第二重排序的索引值,其中,所述第二确定的重排序是基于所述第一重排序的索引值。
29.根据权利要求27所述的装置,其中,被配置为对所述至少一个参数索引值中的任何其它索引值进行自适应重排序的所述参数重排序器被配置为:
确定索引值的出现频率;
对所述索引值进行重排序以生成重排序的索引值,其中,所述重排序取决于重排序的索引值的出现频率。
30.根据权利要求27至29中任一项所述的装置,其中,所述参数重排序器进一步被配置为:对所述重排序的索引值进行反量化以生成所述参数。
31.根据权利要求27至30中任一项所述的装置,其中,所述参数解码器被配置为:使用Golomb-Rice解码,对信号的第一部分进行解码。
32.根据权利要求27至31中任一项所述的装置,其中,固定速率/可变速率值中确定的一个是固定速率编码指示符值。
33.根据权利要求27至32中任一项所述的装置,还包括另一个解码器,所述另一个解码器被配置为:
从信号的另一个部分接收编码的下混合通道信号;
确定在所述信号的所述第一部分中使用的比特数;以及
基于在所述信号的所述第一部分中使用的比特数,对所述编码的下混合通道信号进行解码。
34.根据权利要求27至33中任一项所述的装置,其中,所述预定值是零。
CN201880009084.1A 2017-01-31 2018-01-03 立体声音频信号编码器 Active CN110235197B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB1701596.7 2017-01-31
GB1701596.7A GB2559200A (en) 2017-01-31 2017-01-31 Stereo audio signal encoder
PCT/FI2018/050007 WO2018142017A1 (en) 2017-01-31 2018-01-03 Stereo audio signal encoder

Publications (2)

Publication Number Publication Date
CN110235197A true CN110235197A (zh) 2019-09-13
CN110235197B CN110235197B (zh) 2024-01-26

Family

ID=58462680

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880009084.1A Active CN110235197B (zh) 2017-01-31 2018-01-03 立体声音频信号编码器

Country Status (5)

Country Link
US (1) US10770081B2 (zh)
EP (1) EP3577648A4 (zh)
CN (1) CN110235197B (zh)
GB (1) GB2559200A (zh)
WO (1) WO2018142017A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2018289986B2 (en) * 2017-06-19 2022-06-09 Rtx A/S Audio signal encoding and decoding
GB2580899A (en) * 2019-01-22 2020-08-05 Nokia Technologies Oy Audio representation and associated rendering
GB2587196A (en) * 2019-09-13 2021-03-24 Nokia Technologies Oy Determination of spatial audio parameter encoding and associated decoding

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1922654A (zh) * 2004-02-17 2007-02-28 皇家飞利浦电子股份有限公司 音频分发系统、音频编码器、音频解码器及其操作方法
US20090030678A1 (en) * 2006-02-24 2009-01-29 France Telecom Method for Binary Coding of Quantization Indices of a Signal Envelope, Method for Decoding a Signal Envelope and Corresponding Coding and Decoding Modules
WO2013179084A1 (en) * 2012-05-29 2013-12-05 Nokia Corporation Stereo audio signal encoder
WO2014013294A1 (en) * 2012-07-19 2014-01-23 Nokia Corporation Stereo audio signal encoder
CN103915098A (zh) * 2013-01-08 2014-07-09 诺基亚公司 音频信号编码器
WO2014147441A1 (en) * 2013-03-20 2014-09-25 Nokia Corporation Audio signal encoder comprising a multi-channel parameter selector
WO2014161996A2 (en) * 2013-04-05 2014-10-09 Dolby International Ab Audio processing system
CN105474308A (zh) * 2013-05-28 2016-04-06 诺基亚技术有限公司 音频信号编码器

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005533271A (ja) 2002-07-16 2005-11-04 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ符号化
WO2006125342A1 (fr) 2005-05-25 2006-11-30 Lin, Hui Procede de compression d'information pour fichier audio numerique
CN101842988B (zh) 2007-08-24 2013-08-14 法国电信 基于概率表动态计算的符号平面编码/解码
US8457958B2 (en) * 2007-11-09 2013-06-04 Microsoft Corporation Audio transcoder using encoder-generated side information to transcode to target bit-rate
EP2215627B1 (en) * 2007-11-27 2012-09-19 Nokia Corporation An encoder
AU2011287747B2 (en) 2010-07-20 2015-02-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio information, method for decoding an audio information and computer program using an optimized hash table
US8817882B2 (en) 2010-07-30 2014-08-26 Qualcomm Incorporated Coding blocks of data using a generalized form of golomb codes
JP5706445B2 (ja) * 2010-12-14 2015-04-22 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 符号化装置、復号装置およびそれらの方法
EP3644516A1 (en) 2011-01-14 2020-04-29 GE Video Compression, LLC Entropy encoding and decoding scheme
WO2013156814A1 (en) * 2012-04-18 2013-10-24 Nokia Corporation Stereo audio signal encoder
CN104380377B (zh) 2012-06-14 2017-06-06 瑞典爱立信有限公司 用于可缩放低复杂度编码/解码的方法和装置
CN104704557B (zh) * 2012-08-10 2017-08-29 弗劳恩霍夫应用研究促进协会 用于在空间音频对象编码中适配音频信息的设备和方法
US9468090B2 (en) * 2012-10-29 2016-10-11 Cisco Technology, Inc. Current redistribution in a printed circuit board
US9659569B2 (en) * 2013-04-26 2017-05-23 Nokia Technologies Oy Audio signal encoder
US9530422B2 (en) * 2013-06-27 2016-12-27 Dolby Laboratories Licensing Corporation Bitstream syntax for spatial voice coding
US10021419B2 (en) 2013-07-12 2018-07-10 Qualcomm Incorported Rice parameter initialization for coefficient level coding in video coding process
TWI579831B (zh) * 2013-09-12 2017-04-21 杜比國際公司 用於參數量化的方法、用於量化的參數之解量化方法及其電腦可讀取的媒體、音頻編碼器、音頻解碼器及音頻系統
GB2524333A (en) * 2014-03-21 2015-09-23 Nokia Technologies Oy Audio signal payload
EP3298514A4 (en) 2015-05-21 2019-02-06 Geneformics Data Systems Ltd. STORAGE, TRANSFER AND COMPRESSION OF SEQUENCING DATA OF THE NEXT GENERATION

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1922654A (zh) * 2004-02-17 2007-02-28 皇家飞利浦电子股份有限公司 音频分发系统、音频编码器、音频解码器及其操作方法
US20090030678A1 (en) * 2006-02-24 2009-01-29 France Telecom Method for Binary Coding of Quantization Indices of a Signal Envelope, Method for Decoding a Signal Envelope and Corresponding Coding and Decoding Modules
WO2013179084A1 (en) * 2012-05-29 2013-12-05 Nokia Corporation Stereo audio signal encoder
WO2014013294A1 (en) * 2012-07-19 2014-01-23 Nokia Corporation Stereo audio signal encoder
CN103915098A (zh) * 2013-01-08 2014-07-09 诺基亚公司 音频信号编码器
US20140195253A1 (en) * 2013-01-08 2014-07-10 Nokia Corporation Audio Signal Encoder
WO2014147441A1 (en) * 2013-03-20 2014-09-25 Nokia Corporation Audio signal encoder comprising a multi-channel parameter selector
WO2014161996A2 (en) * 2013-04-05 2014-10-09 Dolby International Ab Audio processing system
CN105474308A (zh) * 2013-05-28 2016-04-06 诺基亚技术有限公司 音频信号编码器

Also Published As

Publication number Publication date
CN110235197B (zh) 2024-01-26
US20190392847A1 (en) 2019-12-26
GB2559200A (en) 2018-08-01
GB201701596D0 (en) 2017-03-15
US10770081B2 (en) 2020-09-08
EP3577648A4 (en) 2020-12-09
EP3577648A1 (en) 2019-12-11
WO2018142017A1 (en) 2018-08-09

Similar Documents

Publication Publication Date Title
CN103915098B (zh) 音频信号编码器
CN104509130B (zh) 立体声音频信号编码器
WO2014013294A1 (en) Stereo audio signal encoder
JP7405962B2 (ja) 空間オーディオパラメータ符号化および関連する復号化の決定
MX2013013261A (es) Asignacion de bits, codificacion y decodificacion de audio.
EP3120354A1 (en) Methods, apparatuses for forming audio signal payload and audio signal payload
EP3818730A1 (en) Energy-ratio signalling and synthesis
US20160035357A1 (en) Audio signal encoder comprising a multi-channel parameter selector
US20160111100A1 (en) Audio signal encoder
CN110235197A (zh) 立体声音频信号编码器
EP3577649B1 (en) Stereo audio signal encoder
EP3095117B1 (en) Multi-channel audio signal classifier
KR20230084232A (ko) 오디오 파라미터의 양자화
RU2797457C1 (ru) Определение кодирования параметров пространственного звука и соответствующего декодирования
GB2574873A (en) Determination of spatial audio parameter encoding and associated decoding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant