CN112599139B - 编码方法、装置、电子设备及存储介质 - Google Patents
编码方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112599139B CN112599139B CN202011553903.4A CN202011553903A CN112599139B CN 112599139 B CN112599139 B CN 112599139B CN 202011553903 A CN202011553903 A CN 202011553903A CN 112599139 B CN112599139 B CN 112599139B
- Authority
- CN
- China
- Prior art keywords
- determining
- bit
- audio signal
- target frame
- encoding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 73
- 230000005236 sound signal Effects 0.000 claims abstract description 138
- 230000003595 spectral effect Effects 0.000 claims description 19
- 230000000873 masking effect Effects 0.000 claims description 6
- 230000008447 perception Effects 0.000 claims description 5
- 238000001228 spectrum Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 abstract description 8
- 230000006870 function Effects 0.000 description 32
- 238000013507 mapping Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000005070 sampling Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000002401 inhibitory effect Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/002—Dynamic bit allocation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本申请属于音频编码技术领域,公开了一种编码方法、装置、电子设备及存储介质。所述方法包括:根据目标帧的音频信号的编码码率,确定所述目标帧的音频信号的编码带宽;根据所述编码带宽确定所述目标帧的音频信号的感知熵,并根据所述感知熵确定所述目标帧的音频信号的比特需求率;根据所述比特需求率,确定目标比特数,并根据所述目标比特数对所述目标帧的音频信号进行编码。本申请实施例提供的编码方法、装置、电子设备及存储介质可使得感知熵的计算结果准确,并且可以避免编码比特分配的不合理,节约了编码的资源并提高了编码效率。
Description
技术领域
本申请属于音频编码技术领域,具体涉及一种编码方法、装置、电子设备及存储介质。
背景技术
当前,在许多音频应用中,例如蓝牙音频、流媒体音乐传输、互联网直播等,网络传输带宽仍然是一个瓶颈。由于音频信号内容复杂多变,如果对每一帧信号采用相同的编码比特数编码,容易造成帧间质量波动,降低音频信号编码质量。
为了得到更好的编码质量,并且满足传输带宽的限制,在编码时通常选择ABR(Average Bit Rate,平均比特率)码率控制方法。ABR码率控制的基本原理是对容易编码的帧用较少的比特(少于平均编码比特)进行编码,并将剩余的比特存入比特池;对较难编码的帧用较多的比特(多于平均编码比特)进行编码,所需的额外比特从比特池中提取。
目前,感知熵的计算基于输入信号的带宽,而不是编码器实际编码的信号带宽,这会造成感知熵计算不准确,从而导致编码比特分配错误。
发明内容
本申请实施例的目的是提供一种编码方法、装置、电子设备及存储介质,能够解决现有技术中存在的感知熵计算不准确,从而导致编码比特分配错误的问题。
为了解决上述技术问题,本申请是这样实现的:
第一方面,本申请实施例提供了一种编码方法,该方法包括:
根据目标帧的音频信号的编码码率,确定所述目标帧的音频信号的编码带宽;
根据所述编码带宽确定所述目标帧的音频信号的感知熵,并根据所述感知熵确定所述目标帧的音频信号的比特需求率;
根据所述比特需求率,确定目标比特数,并根据所述目标比特数对所述目标帧的音频信号进行编码。
第二方面,本申请实施例提供了一种编码装置,该装置包括:
编码带宽确定模块,用于根据目标帧的音频信号的编码码率,确定所述目标帧的音频信号的编码带宽;
感知熵确定模块,用于根据所述编码带宽确定所述目标帧的音频信号的感知熵;
比特需求量确定模块,用于根据所述感知熵确定所述目标帧的音频信号的比特需求率;
编码模块,用于根据所述比特需求率,确定目标比特数,并根据所述目标比特数对所述目标帧的音频信号进行编码。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
第五方面,本申请实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的方法。
本申请实施例提供的编码方法、装置、电子设备及存储介质,由于首先根据目标帧的音频信号的编码码率确定了目标帧的音频信号的实际编码带宽来计算感知熵,使得感知熵的计算结果准确。并且本申请实施例提供的编码方法、装置、电子设备及存储介质还根据准确的感知熵来确定比特数对目标帧的音频信号进行编码,因此可以避免编码比特分配的不合理,节约了编码的资源并提高了编码效率。
附图说明
图1是根据本申请实施例的编码方法的流程示意图;
图2是根据本申请实施例的映射函数η()的函数图像;
图3是根据本申请实施例的映射函数的函数图像;
图4是根据本申请实施例的编码方法的整体流程框图;
图5是应用本申请实施例提供的编码方法进行编码时的编码比特数波形图;
图6是应用本申请实施例提供的编码方法进行编码时的平均编码码率波形图;
图7是根据本申请实施例的编码装置的模块框图;
图8是根据本申请实施例的电子设备的结构示意图;
图9是实现本申请各个实施例的一种电子设备的硬件结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的编码方法和装置进行详细地说明。
图1是根据本申请实施例的编码方法的流程示意图,参照图1,本申请实施例提供一种编码方法,可以包括:
步骤110、根据目标帧的音频信号的编码码率,确定目标帧的音频信号的编码带宽;
步骤120、根据编码带宽确定目标帧的音频信号的感知熵,并根据感知熵确定目标帧的音频信号的比特需求率;
步骤130、根据比特需求率,确定目标比特数,并根据目标比特数对目标帧的音频信号进行编码。
本申请实施例中的编码方法的执行主体可以是电子设备、电子设备中的部件、集成电路、或芯片。该电子设备可以是移动电子设备,也可以为非移动电子设备。示例性的,移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本或者个人数字助理(personal digital assistant,PDA)等,非移动电子设备可以为服务器、网络附属存储器(Network Attached Storage,NAS)、个人计算机(personal computer,PC)、电视机(television,TV)、柜员机或者自助机等,本申请实施例不作具体限定。
下面以个人计算机执行本申请实施例提供的编码方法为例,详细说明本申请的技术方案。
具体地,计算机在确定目标帧的音频信号的编码码率后,可以根据编码码率与编码带宽的对应关系,确定目标帧的音频信号的编码带宽。其中,编码码率与编码带宽的对应关系,可以是相关协议或标准确定的,也可以是预设的。
之后,可以再通过目标帧的音频信号的编码带宽,基于改进离散余弦变换MDCT相关参数等,来获取目标帧的音频信号的各比例因子波段的感知熵,从而确定目标帧的音频信号的感知熵。
之后,可以再根据感知熵确定目标帧的音频信号的比特需求率,从而根据比特需求率确定目标比特数。
最后,可以根据目标比特数来对目标帧的音频信号进行编码。
其中,目标帧可以是输入的当前帧,也可以是要进行编码的其它帧,例如预先输入到缓存中的其它待编码的帧等。目标比特数为用于编码目标帧的音频信号的比特数。
本申请实施例提供的编码方法,由于首先根据目标帧的音频信号的编码码率确定了目标帧的音频信号的实际编码带宽来计算感知熵,使得感知熵的计算结果准确。并且本申请实施例提供的编码方法还根据准确的感知熵来确定比特数对目标帧的音频信号进行编码,因此可以避免编码比特分配的不合理,节约了编码的资源并提高了编码效率。
具体地,在一个实施例中,根据编码带宽确定所述目标帧的音频信号的感知熵可以包括:
S1211、根据编码带宽确定目标帧的音频信号的比例因子波段数量;
S1212、获取各比例因子波段的感知熵;
S1213、根据比例因子波段数量以及各比例因子波段的感知熵,确定目标帧的音频信号的感知熵。
具体地,可以首先根据例如ISO/IEC 13818-7标准文档的比例因子波段偏移表(Table 3.4)来确定目标帧的音频信号的比例因子波段数量,再获取各比例因子波段的感知熵。
在本申请实施例中,步骤S1212可以包括:
S1212a、确定目标帧的音频信号经过改进离散余弦变换MDCT后的MDCT谱系数;
S1212b、根据MDCT谱系数以及比例因子波段偏移表确定各比例因子波段的MDCT谱系数能量;
S1212c、根据MDCT谱系数能量以及各比例因子波段的掩蔽阈值,确定各比例因子波段的感知熵。
需要说明的是,MDCT是一种线性正交交叠变换。它可以在不降低编码性能的情况下有效地克服加窗离散余弦变换(DCT)块处理运算中的边缘效应,从而有效地去除由边缘效应产生的周期化噪声。在相同编码率的情况下,相比于使用DCT的现有技术,MDCT的性能更优。
进一步地,可以基于比例因子波段偏移表,通过对MDCT谱系数采取累加计算等方式,确定各比例因子波段的MDCT谱系数能量。
本申请实施例提供的编码方法,在获取各比例因子波段的感知熵时充分考虑了MDCT谱系数、MDCT谱系数能量以及各比例因子波段的掩蔽阈值,因此得到的各比例因子波段的感知熵可以精确反映各比例因子波段的能量波动情况。
在获取到各比例因子波段的感知熵之后,即可根据比例因子波段数量以及各比例因子波段的感知熵,确定目标帧的音频信号的感知熵。
可以理解的是,本申请实施例提供的编码方法,由于是通过先获取目标帧的音频信号的各比例因子波段的感知熵,再根据各比例因子波段的感知熵来确定目标帧的音频信号的感知熵,因此可以保证获取的目标帧的音频信号的感知熵的精确度。
进一步地,在一个实施例中,根据感知熵确定目标帧的音频信号的比特需求率可以包括:
S1221、获取目标帧的音频信号之前的预设数量帧音频信号的平均感知熵;
S1222、根据感知熵以及平均感知熵确定目标帧的音频信号的难度系数;
S1223、根据难度系数确定目标帧的音频信号的比特需求率。
在本申请的实施例中,预设数量的大小可以为例如8、9、10等。其具体大小可以根据实际情况进行调整,本申请实施例对此不作具体限定。
在获取到平均感知熵之后,可以根据感知熵以及平均感知熵,基于预设的难度系数计算方式,确定目标帧音频信号的难度系数。其中,预设的难度系数计算方式可以是:难度系数=(感知熵-平均感知熵)/平均感知熵。
在本申请的实施例中,可以通过预设的难度系数到比特需求率的映射函数来确定目标帧的音频信号的比特需求率。
本申请实施例提供的编码方法,由于是基于目标帧的音频信号之前的预设数量帧的音频信号的平均感知熵确定比特需求率,因此避免了现有技术中存在的直接使用目标帧的音频信号的感知熵确定比特需求率,导致最终预估的比特数不精确的缺陷。
进一步地,在一个实施例中,根据比特需求率,确定目标比特数可以包括:
S1311、根据当前比特池中的可用比特数以及比特池的大小,确定当前比特池的充盈度;
S1312、根据充盈度确定编码目标帧的音频信号时的比特池调节率,并根据比特需求率以及比特池调节率,确定编码比特因子;
S1313、根据编码比特因子,确定目标比特数。
需要说明的是,比特池充盈度可以是比特池中的可用比特数与比特池的大小的比值。
在本申请的实施例中,可以通过预设的充盈度到比特池调解率的映射函数来确定编码目标帧的音频信号时的比特池调节率。
在确定比特需求率以及比特池调节率后,可以根据预设的编码比特因子计算方式,通过比特需求率以及比特池调解率获取编码比特因子。
在本申请的实施例中,目标比特数可以为编码比特因子与每帧信号的平均编码比特数之积;其中,每帧信号的平均编码比特数由一帧音频信号的帧长度、音频信号的采样频率以及编码码率确定。
本申请实施例提供的编码方法,通过分析当前比特池的充盈度、确定比特池调节率以及编码比特因子,综合考虑了比特池的状态、音频信号编码难易程度和允许比特率变化范围等因素,能够有效防止比特池上溢或者下溢。
下面以对立体声音频信号sc03.wav进行编码为例,说明本申请实施例提供的编码方法。
其中,立体声音频信号sc03.wav的编码码率bitRate=128kbps;
比特池大小maxbitRes=12288bits(6144bit/channel);
采样频率Fs=48kHz;
一帧音频信号的帧长度为N=1024;
每帧信号的平均编码比特数meanBits=1024×128×1000/48000=2731bits。
立体声编码码率与编码带宽的对应关系可以如表1所示。
表1立体声编码码率与编码带宽对应表
编码码率 | 编码带宽 |
64kbps-80kbps | 13.05kHz |
80kbps-112kbps | 14.26kHz |
112kbps-144kbps | 15.50kHz |
144kbps-192kbps | 16.12kHz |
192kbps-256kbps | 17.0kHz |
由表1可知,立体声音频信号sc03.wav的编码码率bitRate=128kbps对应的实际编码带宽为Bw=15.50kHz。
在确定编码带宽后,即可根据该编码带宽确定目标帧的音频信号的感知熵。
具体地,根据ISO/IEC 13818-7标准文档的比例因子波段偏移表(Table 3.4)可知,在输入信号采样率Fs=48kHz时,Bw=15.50kHz对应的比例因子波段值M=41,即目标帧的音频信号的比例因子波段数量为41。
获取各比例因子波段的感知熵的步骤具体可以实现如下:
设目标帧的音频信号经过MDCT变换后得到的MDCT谱系数为X[k],k=0,1,2,…,M-1;各比例因子波段的MDCT谱系数能量为en[n],n=0,1,2,…,M-1;
则en[n]的计算如下:
其中,kOffset[n]表示比例因子波段偏移表。
令各比例因子波段的感知熵为sfbPe[n],n=0,1,2,…,M-1,其计算如下:
在式(2)中,c1、c2和c3均为常数,且c1=3,c2=log2(2.5),c3=1-c2/c1;thr[n]为心理声学模型输出的各比例因子波段的掩蔽阈值,n=0,1,2,…,M-1;
nl为各比例因子波段量化后不为0的MDCT谱系数个数,其计算如下:
在获取到各比例因子波段的感知熵之后,即可根据比例因子波段数量以及各比例因子波段的感知熵,确定目标帧的音频信号的感知熵。
设目标帧为第l帧,则目标帧的音频信号的感知熵Pe[l]的计算如下:
在式(4)中,offset为偏移常数,其定义为:
根据感知熵确定编码目标帧的音频信号的比特需求率的步骤具体可以实现如下:
设平均感知熵为PEaverage,其为过去N1帧音频信号的感知熵的平均值,则PEaverage的计算如下:
在该实施例中,N1的值为8。即,平均感知熵为过去8帧音频信号的感知熵的平均值。例如,当前帧为第10帧,即l=10,则PEaverage为Pe[9]、Pe[8]、Pe[7]、Pe[6]、Pe[5]、Pe[4]、Pe[3]、Pe[2]的平均值。
当然,N1的具体取值还可以根据实际需要进行调整,例如,N1还可以为7、10、15等,本申请实施例对此不作具体限定。
在获取到预设数量帧的音频信号的平均感知熵后,即可根据该平均感知熵以及目标帧的音频信号的感知熵确定目标帧的音频信号的难度系数。
对于第l帧,其难度系数D[l]的计算如下:
在确定目标帧的音频信号的难度系数后,即可确定目标帧的音频信号的比特需求率。
设目标帧的音频信号的比特需求率为Rdemand[l],其计算如下:
Rdemand[l]=η(D[l]) (7)
其中,η()是一个由难度系数到比特需求率的映射函数。该映射函数是以相对难度系数D[l]为自变量,比特需求率Rdemand[l]为函数值的线性分段函数。
在该实施例中,映射函数η()定义如下:
映射函数η()的函数图像如图2所示。
进一步地,根据比特需求率,确定目标比特数的步骤具体可以实现如下:
设bitRes为当前比特池中的可用比特数,F为当前比特池的充盈度,则
F=bitRes/maxbitRes (8)
在获取到比特池充盈度F之后,即可根据比特池充盈度F确定编码目标帧的音频信号时的比特池调节率。
设编码目标帧的音频信号时的比特池调节率为Radjust[l],其计算如下:
其中,是一个由比特池充盈度到比特池调节率的映射函数。该映射函数是以比特池充盈度F为自变量,比特池调节率Radjust[l]为函数值的线性分段函数。
在该实施例中,定义如下:
映射函数的函数图像如图3所示。
进一步地,设编码比特因子为bitFac[l],则其计算如下:
当bitFac[l]>1时,表示当前第l帧为较难编码帧,编码当前帧的比特数将多于平均编码比特,编码时所需的额外比特(编码当前帧的比特数-平均编码比特数)将从比特池提取。
当bitFac[l]<1时,表示当前第l帧为较容易编码帧,编码当前帧的比特数将小于平均编码比特,编码后的剩余比特(平均编码比特数-编码当前帧的比特数)将存入比特池。
在获取编码比特因子bitFac[l]后,即可根据该编码比特因子bitFac[l]确定目标比特数。
设目标比特数为availableBits,则
availableBits=bitFac[l]×meanBits (11)
在式(11)中,当按照设定的码率编码时,每帧信号的平均编码比特数meanBits的计算如下:
meanBits=N*bitRate*1000/Fs (12)
当一帧音频信号的帧长度为N=1024、采样频率Fs=48kHz时,目标比特数availableBits为:
availableBits=bitFac[l]*2731 (16)
图4是根据本申请实施例的编码方法的整体流程框图,为了便于理解和实施本申请实施例提供的编码方法,可将本申请实施例提供的编码方法整体上进一步细分为9个步骤,如图4所示:
步骤410、确定目标帧的音频信号的编码带宽;
步骤420、计算目标帧的音频信号的感知熵;
步骤430、计算预设数量帧的音频信号的平均感知熵;
步骤440、计算目标帧的音频信号的难度系数;
步骤450、计算目标帧的音频信号的比特需求率;
步骤460、计算当前比特池充盈度;
步骤470、计算编码目标帧的音频信号时的比特池调节率;
步骤480、计算编码比特因子;
步骤490、确定目标比特数。
步骤410-步骤490的具体实现方式可以参考上述各实施例的相关记载,在此不再赘述。
图5和图6给出了通过本申请实施例提供的编码方法对音频信号sc03.wav进行编码时,每帧信号的编码比特数和平均编码码率的波形图。
图5中实线表示每帧信号的实际编码比特数,虚线表示按设定的128kbps码率进行编码时每帧信号的平均编码比特数(2731),从图5可以看出,在编码过程中,实际编码比特数在平均编码比特数上下波动,这说明本申请实施例提供的编码方法能合理确定编码每帧信号的比特数。
图6中实线表示编码过程中的平均编码码率,虚线表示设定的目标编码码率(128000),从图6中可以看出,随着时间增加,本申请实施例提供的编码方法的总体平均编码码率与所设定的目标编码码率趋于一致。
综上所述,本申请实施例提供的编码方法,可以在平均码率接近目标码率的前提下,得到尽可能平稳的编码质量。同时,本申请实施例提供的编码方法解决了现有ABR码率控制技术中比特池上溢和下溢的问题,并能合理确定编码每帧信号的比特数,且在抑制帧间质量波动方面有较好的性能。
需要说明的是,本申请实施例提供的编码方法的执行主体还可以为编码装置,或者该编码装置中的用于执行加载编码方法的控制模块。
图7是根据本申请实施例的编码装置的模块框图,参照图7,本申请实施例提供一种编码装置,包括:
编码带宽确定模块710,用于根据目标帧的音频信号的编码码率,确定目标帧的音频信号的编码带宽;
感知熵确定模块720,用于根据编码带宽确定目标帧的音频信号的感知熵;
比特需求量确定模块730,用于根据感知熵确定目标帧的音频信号的比特需求率;
编码模块740,用于根据比特需求率,确定目标比特数,并根据目标比特数对目标帧的音频信号进行编码。
本申请实施例提供的编码装置,由于首先根据目标帧的音频信号的编码码率确定了目标帧的音频信号的实际编码带宽来计算感知熵,使得感知熵的计算结果准确。并且本申请实施例提供的编码装置还根据准确的感知熵来确定比特数对目标帧的音频信号进行编码,因此可以避免编码比特分配的不合理,节约了编码的资源并提高了编码效率。
在一个实施例中,编码模块730具体用于:
根据当前比特池中的可用比特数以及比特池的大小,确定当前比特池的充盈度;
根据充盈度确定编码目标帧的音频信号时的比特池调节率,并根据比特需求率以及比特池调节率,确定编码比特因子;
根据编码比特因子,确定目标比特数。
在一个实施例中,感知熵确定模块720,包括:
第一确定子模块,用于根据编码带宽确定目标帧的音频信号的比例因子波段数量;
获取子模块,用于获取各比例因子波段的感知熵;
第二确定子模块,用于根据比例因子波段数量以及各比例因子波段的感知熵,确定目标帧的音频信号的感知熵。
在一个实施例中,比特需求量确定模块730具体用于:
获取目标帧的音频信号之前的预设数量帧音频信号的平均感知熵;
根据感知熵以及平均感知熵确定目标帧的音频信号的难度系数;
根据难度系数确定编码目标帧的音频信号的比特需求率。
在一个实施例中,获取子模块,具体用于:
确定目标帧的音频信号经过改进离散余弦变换MDCT后的MDCT谱系数;
根据MDCT谱系数以及比例因子波段偏移表确定各比例因子波段的MDCT谱系数能量;
根据MDCT谱系数能量以及各比例因子波段的掩蔽阈值,确定各比例因子波段的感知熵。
综上所述,本申请实施例提供的编码装置,可以在平均码率接近目标码率的前提下,得到尽可能平稳的编码质量。同时,本申请实施例提供的编码装置解决了现有ABR码率控制技术中比特池上溢和下溢的问题,并能合理确定编码每帧信号的比特数,且在抑制帧间质量波动方面有较好的性能。
本申请实施例中的编码装置可以是装置,也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备,也可以为非移动电子设备。示例性的,移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本或者个人数字助理(personaldigital assistant,PDA)等,非移动电子设备可以为服务器、网络附属存储器(NetworkAttached Storage,NAS)、个人计算机(personal computer,PC)、电视机(television,TV)、柜员机或者自助机等,本申请实施例不作具体限定。
本申请实施例中的编码装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统,可以为ios操作系统,还可以为其他可能的操作系统,本申请实施例不作具体限定。
本申请实施例提供的装置能够实现上述方法实施例的所有方法步骤并能达到相同的技术效果,在此不再进行赘述。
如图8所示,本申请实施例还提供一种电子设备800,包括处理器810,存储器820,存储在存储器820上并可在所述处理器810上运行的程序或指令,该程序或指令被处理器810执行时实现上述编码方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要注意的是,本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。
图9是实现本申请各个实施例的一种电子设备的硬件结构示意图,如图9所示,该电子设备900包括但不限于:射频单元901、网络模块902、音频输出单元903、输入单元904、传感器905、显示单元906、用户输入单元907、接口单元908、存储器909、处理器910、以及电源911等部件。
本领域技术人员可以理解,电子设备900还可以包括给各个部件供电的电源(比如电池),电源可以通过电源管理系统与处理器910逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图9中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,在此不再赘述。
在本申请实施例中,电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。
其中,用户输入单元907用于接收用户输入的是否进行本申请实施例提供的编码方法等的控制指令。
处理器910用于根据目标帧的音频信号的编码码率,确定目标帧的音频信号的编码带宽;根据编码带宽确定目标帧的音频信号的感知熵,并根据感知熵确定目标帧的音频信号的比特需求率;根据比特需求率,确定目标比特数,并根据目标比特数对目标帧的音频信号进行编码。
需要说明的是,本实施例中上述电子设备900可以实现本申请实施例中方法实施例中的各个过程,以及达到相同的有益效果,为避免重复,此处不再赘述。
应理解的是,本申请实施例中,射频单元901可用于收发信息或通话过程中,信号的接收和发送,具体的,将来自基站的下行数据接收后,给处理器910处理;另外,将上行的数据发送给基站。通常,射频单元901包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外,射频单元901还可以通过无线通信系统与网络和其他设备通信。
电子设备通过网络模块902为用户提供了无线的宽带互联网访问,如帮助用户收发电子邮件、浏览网页和访问流式媒体等。
音频输出单元903可以将射频单元901或网络模块902接收的或者在存储器909中存储的音频数据转换成音频信号并且输出为声音。而且,音频输出单元903还可以提供与电子设备900执行的特定功能相关的音频输出(例如,呼叫信号接收声音、消息接收声音等等)。音频输出单元903包括扬声器、蜂鸣器以及受话器等。
输入单元904用于接收音频或视频信号。输入单元904可以包括图形处理器(Graphics Processing Unit,GPU)9041和麦克风9042,图形处理器9041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元906上。经图形处理器9041处理后的图像帧可以存储在存储器909(或其它存储介质)中或者经由射频单元901或网络模块902进行发送。麦克风9042可以接收声音,并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元901发送到移动通信基站的格式输出。
电子设备900还包括至少一种传感器905,比如光传感器、运动传感器以及其他传感器。具体地,光传感器包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板9061的亮度,接近传感器可在电子设备900移动到耳边时,关闭显示面板9061和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别电子设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;传感器905还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等,在此不再赘述。
显示单元906用于显示由用户输入的信息或提供给用户的信息。显示单元906可包括显示面板9061,可以采用液晶显示器(Liquid Crystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板9061。
用户输入单元907可用于接收输入的数字或内容信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入。具体地,用户输入单元907包括触控面板9071以及其他输入设备9072。触控面板9071,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板9071上或在触控面板9071附近的操作)。触控面板9071可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器910,接收处理器910发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板9071。除了触控面板9071,用户输入单元907还可以包括其他输入设备9072。具体地,其他输入设备9072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。
进一步的,触控面板9071可覆盖在显示面板9061上,当触控面板9071检测到在其上或附近的触摸操作后,传送给处理器910以确定触摸事件的类型,随后处理器910根据触摸事件的类型在显示面板9061上提供相应的视觉输出。虽然在图9中,触控面板9071与显示面板9061是作为两个独立的部件来实现电子设备的输入和输出功能,但是在某些实施例中,可以将触控面板9071与显示面板9061集成而实现电子设备的输入和输出功能,具体此处不做限定。
接口单元908为外部装置与电子设备900连接的接口。例如,外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元908可以用于接收来自外部装置的输入(例如,数据信息、电力等等)并且将接收到的输入传输到电子设备900内的一个或多个元件或者可以用于在电子设备900和外部装置之间传输数据。
存储器909可用于存储软件程序以及各种数据。存储器909可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器909可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器910是电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器909内的软件程序和/或模块,以及调用存储在存储器909内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。处理910可包括一个或多个处理单元;可选的,处理器910可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器910中。
电子设备900还可以包括给各个部件供电的电源911(比如电池),可选的,电源911可以通过电源管理系统与处理器910逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
另外,电子设备900包括一些未示出的功能模块,在此不再赘述。
本申请实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述编码方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等。
本申请实施例另提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现上述编码方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
应理解,本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。
Claims (10)
1.一种编码方法,其特征在于,包括:
根据目标帧的音频信号的编码码率,确定所述目标帧的音频信号的编码带宽;
根据所述编码带宽确定所述目标帧的音频信号的感知熵,并根据所述感知熵确定所述目标帧的音频信号的比特需求率;
根据所述比特需求率,确定目标比特数,并根据所述目标比特数对所述目标帧的音频信号进行编码;
所述根据所述编码带宽确定所述目标帧的音频信号的感知熵包括:
根据所述编码带宽确定所述目标帧的音频信号的比例因子波段数量;
获取各所述比例因子波段的感知熵;
根据所述比例因子波段数量以及各所述比例因子波段的感知熵,确定所述目标帧的音频信号的感知熵。
2.根据权利要求1所述的编码方法,其特征在于,所述根据所述比特需求率,确定目标比特数,包括:
根据当前比特池中的可用比特数以及所述比特池的大小,确定当前所述比特池的充盈度;
根据所述充盈度确定编码所述目标帧的音频信号时的比特池调节率,并根据所述比特需求率以及所述比特池调节率,确定编码比特因子;
根据所述编码比特因子,确定所述目标比特数。
3.根据权利要求1所述的编码方法,其特征在于,所述根据所述感知熵确定所述目标帧的音频信号的比特需求率包括:
获取所述目标帧的音频信号之前的预设数量帧音频信号的平均感知熵;
根据所述感知熵以及所述平均感知熵确定所述目标帧的音频信号的难度系数;
根据所述难度系数确定所述目标帧的音频信号的比特需求率。
4.根据权利要求1所述的编码方法,其特征在于,所述获取各所述比例因子波段的感知熵包括:
确定所述目标帧的音频信号经过改进离散余弦变换MDCT后的MDCT谱系数;
根据所述MDCT谱系数以及比例因子波段偏移表确定各所述比例因子波段的MDCT谱系数能量;
根据所述MDCT谱系数能量以及各所述比例因子波段的掩蔽阈值,确定各所述比例因子波段的感知熵。
5.一种编码装置,其特征在于,包括:
编码带宽确定模块,用于根据目标帧的音频信号的编码码率,确定所述目标帧的音频信号的编码带宽;
感知熵确定模块,用于根据所述编码带宽确定所述目标帧的音频信号的感知熵;
比特需求量确定模块,用于根据所述感知熵确定所述目标帧的音频信号的比特需求率;
编码模块,用于根据所述比特需求率,确定目标比特数,并根据所述目标比特数对所述目标帧的音频信号进行编码;
所述感知熵确定模块,包括:
第一确定子模块,用于根据所述编码带宽确定所述目标帧的音频信号的比例因子波段数量;
获取子模块,用于获取各所述比例因子波段的感知熵;
第二确定子模块,用于根据所述比例因子波段数量以及各所述比例因子波段的感知熵,确定所述目标帧的音频信号的感知熵。
6.根据权利要求5所述的编码装置,其特征在于,所述编码模块具体用于:
根据当前比特池中的可用比特数以及所述比特池的大小,确定当前所述比特池的充盈度;
根据所述充盈度确定编码所述目标帧的音频信号时的比特池调节率,并根据所述比特需求率以及所述比特池调节率,确定编码比特因子;
根据所述编码比特因子,确定所述目标比特数。
7.根据权利要求5所述的编码装置,其特征在于,所述比特需求量确定模块具体用于:
获取所述目标帧的音频信号之前的预设数量帧音频信号的平均感知熵;
根据所述感知熵以及所述平均感知熵确定所述目标帧的音频信号的难度系数;
根据所述难度系数确定所述目标帧的音频信号的比特需求率。
8.根据权利要求5所述的编码装置,其特征在于,所述获取子模块,具体用于:
确定所述目标帧的音频信号经过改进离散余弦变换MDCT后的MDCT谱系数;
根据所述MDCT谱系数以及比例因子波段偏移表确定各所述比例因子波段的MDCT谱系数能量;
根据所述MDCT谱系数能量以及各所述比例因子波段的掩蔽阈值,确定各所述比例因子波段的感知熵。
9.一种电子设备,其特征在于,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1-4任一项所述的编码方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1-4任一项所述的编码方法的步骤。
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011553903.4A CN112599139B (zh) | 2020-12-24 | 2020-12-24 | 编码方法、装置、电子设备及存储介质 |
JP2023534313A JP7542153B2 (ja) | 2020-12-24 | 2021-12-17 | 符号化方法、装置、電子機器及び記憶媒体 |
PCT/CN2021/139070 WO2022135287A1 (zh) | 2020-12-24 | 2021-12-17 | 编码方法、装置、电子设备及存储介质 |
KR1020237024094A KR20230119205A (ko) | 2020-12-24 | 2021-12-17 | 코딩 방법, 코딩 장치, 전자기기 및 저장매체 |
EP21909283.0A EP4270387A4 (en) | 2020-12-24 | 2021-12-17 | ENCODING METHOD AND DEVICE AS WELL AS ELECTRONIC DEVICE AND STORAGE MEDIUM |
US18/333,017 US20230326467A1 (en) | 2020-12-24 | 2023-06-12 | Encoding method and apparatus, electronic device, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011553903.4A CN112599139B (zh) | 2020-12-24 | 2020-12-24 | 编码方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112599139A CN112599139A (zh) | 2021-04-02 |
CN112599139B true CN112599139B (zh) | 2023-11-24 |
Family
ID=75202376
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011553903.4A Active CN112599139B (zh) | 2020-12-24 | 2020-12-24 | 编码方法、装置、电子设备及存储介质 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20230326467A1 (zh) |
EP (1) | EP4270387A4 (zh) |
JP (1) | JP7542153B2 (zh) |
KR (1) | KR20230119205A (zh) |
CN (1) | CN112599139B (zh) |
WO (1) | WO2022135287A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112599139B (zh) * | 2020-12-24 | 2023-11-24 | 维沃移动通信有限公司 | 编码方法、装置、电子设备及存储介质 |
CN118694750A (zh) * | 2021-05-21 | 2024-09-24 | 华为技术有限公司 | 编解码方法、装置、设备、存储介质及计算机程序 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0629859A (ja) * | 1992-03-02 | 1994-02-04 | American Teleph & Telegr Co <Att> | デジタル入力信号符号化方法 |
KR950024441A (ko) * | 1994-01-18 | 1995-08-21 | 배순훈 | 채널 및 각 채널의 프레임에 적응적으로 비트 할당하여 부호화하는 스테레오 디지탈 오디오 부호화장치 |
CN1677493A (zh) * | 2004-04-01 | 2005-10-05 | 北京宫羽数字技术有限责任公司 | 一种增强音频编解码装置及方法 |
CN101101755A (zh) * | 2007-07-06 | 2008-01-09 | 北京中星微电子有限公司 | 一种音频编码的比特分配及量化方法及音频编码装置 |
CN101308659A (zh) * | 2007-05-16 | 2008-11-19 | 中兴通讯股份有限公司 | 一种基于先进音频编码器的心理声学模型的处理方法 |
CN101494054A (zh) * | 2009-02-09 | 2009-07-29 | 深圳华为通信技术有限公司 | 一种音频码率控制方法及系统 |
CN101853662A (zh) * | 2009-03-31 | 2010-10-06 | 数维科技(北京)有限公司 | 一种用于dra的abr码率控制方法和系统 |
CN103366750A (zh) * | 2012-03-28 | 2013-10-23 | 北京天籁传音数字技术有限公司 | 一种声音编解码装置及其方法 |
CN109041024A (zh) * | 2018-08-14 | 2018-12-18 | Oppo广东移动通信有限公司 | 码率优化方法、装置、电子设备以及存储介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002196792A (ja) | 2000-12-25 | 2002-07-12 | Matsushita Electric Ind Co Ltd | 音声符号化方式、音声符号化方法およびそれを用いる音声符号化装置、記録媒体、ならびに音楽配信システム |
US6647366B2 (en) * | 2001-12-28 | 2003-11-11 | Microsoft Corporation | Rate control strategies for speech and music coding |
US8010370B2 (en) * | 2006-07-28 | 2011-08-30 | Apple Inc. | Bitrate control for perceptual coding |
JP2008268792A (ja) | 2007-04-25 | 2008-11-06 | Matsushita Electric Ind Co Ltd | オーディオ信号符号化装置およびそのビットレート変換装置 |
DE602008005250D1 (de) | 2008-01-04 | 2011-04-14 | Dolby Sweden Ab | Audiokodierer und -dekodierer |
JP5704018B2 (ja) * | 2011-08-05 | 2015-04-22 | 富士通セミコンダクター株式会社 | オーディオ信号符号化方法および装置 |
EP3649640A1 (en) | 2017-07-03 | 2020-05-13 | Dolby International AB | Low complexity dense transient events detection and coding |
CN112599139B (zh) * | 2020-12-24 | 2023-11-24 | 维沃移动通信有限公司 | 编码方法、装置、电子设备及存储介质 |
-
2020
- 2020-12-24 CN CN202011553903.4A patent/CN112599139B/zh active Active
-
2021
- 2021-12-17 KR KR1020237024094A patent/KR20230119205A/ko active Search and Examination
- 2021-12-17 WO PCT/CN2021/139070 patent/WO2022135287A1/zh active Application Filing
- 2021-12-17 JP JP2023534313A patent/JP7542153B2/ja active Active
- 2021-12-17 EP EP21909283.0A patent/EP4270387A4/en active Pending
-
2023
- 2023-06-12 US US18/333,017 patent/US20230326467A1/en active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0629859A (ja) * | 1992-03-02 | 1994-02-04 | American Teleph & Telegr Co <Att> | デジタル入力信号符号化方法 |
KR950024441A (ko) * | 1994-01-18 | 1995-08-21 | 배순훈 | 채널 및 각 채널의 프레임에 적응적으로 비트 할당하여 부호화하는 스테레오 디지탈 오디오 부호화장치 |
CN1677493A (zh) * | 2004-04-01 | 2005-10-05 | 北京宫羽数字技术有限责任公司 | 一种增强音频编解码装置及方法 |
CN101308659A (zh) * | 2007-05-16 | 2008-11-19 | 中兴通讯股份有限公司 | 一种基于先进音频编码器的心理声学模型的处理方法 |
CN101101755A (zh) * | 2007-07-06 | 2008-01-09 | 北京中星微电子有限公司 | 一种音频编码的比特分配及量化方法及音频编码装置 |
CN101494054A (zh) * | 2009-02-09 | 2009-07-29 | 深圳华为通信技术有限公司 | 一种音频码率控制方法及系统 |
CN101853662A (zh) * | 2009-03-31 | 2010-10-06 | 数维科技(北京)有限公司 | 一种用于dra的abr码率控制方法和系统 |
CN103366750A (zh) * | 2012-03-28 | 2013-10-23 | 北京天籁传音数字技术有限公司 | 一种声音编解码装置及其方法 |
CN109041024A (zh) * | 2018-08-14 | 2018-12-18 | Oppo广东移动通信有限公司 | 码率优化方法、装置、电子设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
EP4270387A4 (en) | 2024-05-22 |
JP7542153B2 (ja) | 2024-08-29 |
US20230326467A1 (en) | 2023-10-12 |
JP2023552451A (ja) | 2023-12-15 |
WO2022135287A1 (zh) | 2022-06-30 |
KR20230119205A (ko) | 2023-08-16 |
CN112599139A (zh) | 2021-04-02 |
EP4270387A1 (en) | 2023-11-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110335620B (zh) | 一种噪声抑制方法、装置和移动终端 | |
CN111554321B (zh) | 降噪模型训练方法、装置、电子设备及存储介质 | |
US20230326467A1 (en) | Encoding method and apparatus, electronic device, and storage medium | |
CN108347529B (zh) | 一种音频播放方法及移动终端 | |
CN109951602B (zh) | 一种振动控制方法及移动终端 | |
CN111477243B (zh) | 音频信号处理方法及电子设备 | |
CN110457716B (zh) | 一种语音输出方法及移动终端 | |
CN113223539B (zh) | 一种音频传输方法及电子设备 | |
CN111343540B (zh) | 一种钢琴音频的处理方法及电子设备 | |
CN107786751A (zh) | 一种多媒体文件播放方法及移动终端 | |
CN110769186A (zh) | 一种视频通话方法、第一电子设备及第二电子设备 | |
CN111182118B (zh) | 一种音量调节方法及电子设备 | |
CN111310677B (zh) | 一种指纹图像处理方法及电子设备 | |
CN109921959A (zh) | 一种参数调整方法及通信设备 | |
CN109286414B (zh) | 一种天线确定方法和终端 | |
CN108430025B (zh) | 一种检测方法及移动终端 | |
CN111314639A (zh) | 一种视频录制方法及电子设备 | |
CN110933513A (zh) | 一种音视频数据传输方法及装置 | |
CN111277784A (zh) | 一种音量自动控制方法、装置、终端及可读存储介质 | |
CN111479005B (zh) | 一种音量调节方法及电子设备 | |
CN116127966A (zh) | 文本处理方法、语言模型训练方法及电子设备 | |
CN110728990B (zh) | 基音检测方法、装置、终端设备和介质 | |
CN108632468B (zh) | 一种调整cabc级别的方法及移动终端 | |
CN115049543A (zh) | 一种超清人脸图像重建方法、装置及移动终端 | |
CN111510075A (zh) | 一种功率放大器的电压调整方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |