Nothing Special   »   [go: up one dir, main page]

JP7542153B2 - 符号化方法、装置、電子機器及び記憶媒体 - Google Patents

符号化方法、装置、電子機器及び記憶媒体 Download PDF

Info

Publication number
JP7542153B2
JP7542153B2 JP2023534313A JP2023534313A JP7542153B2 JP 7542153 B2 JP7542153 B2 JP 7542153B2 JP 2023534313 A JP2023534313 A JP 2023534313A JP 2023534313 A JP2023534313 A JP 2023534313A JP 7542153 B2 JP7542153 B2 JP 7542153B2
Authority
JP
Japan
Prior art keywords
audio signal
determining
encoding
bit
target frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2023534313A
Other languages
English (en)
Other versions
JP2023552451A (ja
Inventor
勇 張
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Vivo Mobile Communication Co Ltd
Original Assignee
Vivo Mobile Communication Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Vivo Mobile Communication Co Ltd filed Critical Vivo Mobile Communication Co Ltd
Publication of JP2023552451A publication Critical patent/JP2023552451A/ja
Application granted granted Critical
Publication of JP7542153B2 publication Critical patent/JP7542153B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

(関連出願の相互参照)
本出願は、2020年12月24日に中国で出願された、中国特許出願番号202011553903.4の優先権を主張し、その全ての内容が参照によって本出願に組み込まれる。
本出願は、オーディオ符号化の技術分野に関し、具体的に、符号化方法、装置、電子機器及び記憶媒体に関する。
現在、ブルートゥースオーディオ、ストリーミングメディア音楽伝送、インターネット生中継などの多くのオーディオアプリケーションでは、ネットワーク伝送帯域幅が依然としてネックとなっている。オーディオ信号の内容は複雑で変化しやすいため、各フレームの信号を同じ符号化ビット数で符号化すると、フレーム間の品質変動が発生しやすくなり、オーディオ信号の符号化品質が低下する。
より良い符号化品質を得るとともに、伝送帯域幅の制限を満たすために、符号化時、通常、平均ビットレート(Average Bit Rate,ABR)のビットレート制御方法が選択される。ABRのビットレート制御の基本原理は、符号化しやすいフレームを比較的少ない(平均符号化ビットよりも少ない)ビットで符号化し、残りのビットをビットプールに記憶する一方、符号化しにくいフレームを比較的多い(平均符号化ビットよりも多い)ビットで符号化し、必要な追加のビットをビットプールから抽出することである。
現在、知覚エントロピーの計算は、エンコーダによって実際に符号化された信号の帯域幅ではなく、入力信号の帯域幅に基づくものであるため、知覚エントロピーの計算が不正確になり、符号化ビットの割り当てミスを引き起こす。
本出願の実施例は、関連技術に存在する知覚エントロピーの計算が不正確になり、符号化ビットの割り当てミスを引き起こすという問題を解決できる、符号化方法、装置、電子機器及び記憶媒体を提供することを目的とする。
第1側面では、本出願の実施例は、
ターゲットフレームのオーディオ信号の符号化ビットレートに基づいて、ターゲットフレームのオーディオ信号の符号化帯域幅を決定するステップと、
符号化帯域幅に基づいてターゲットフレームのオーディオ信号の知覚エントロピーを決定し、知覚エントロピーに基づいてターゲットフレームのオーディオ信号のビット要求率を決定するステップと、
ビット要求率に基づいてターゲットビット数を決定し、ターゲットビット数に基づいてターゲットフレームのオーディオ信号を符号化するステップと、を含む、符号化方法を提供する。
第2側面では、本出願の実施例は、
ターゲットフレームのオーディオ信号の符号化ビットレートに基づいて、ターゲットフレームのオーディオ信号の符号化帯域幅を決定するための符号化帯域幅決定モジュールと、
符号化帯域幅に基づいてターゲットフレームのオーディオ信号の知覚エントロピーを決定するための知覚エントロピー決定モジュールと、
知覚エントロピーに基づいてターゲットフレームのオーディオ信号のビット要求率を決定するためのビット要求量決定モジュールと、
ビット要求率に基づいてターゲットビット数を決定し、ターゲットビット数に基づいてターゲットフレームのオーディオ信号を符号化するための符号化モジュールと、を含む、符号化装置を提供する。
第3側面では、本出願の実施例は、プロセッサと、メモリと、前記メモリに記憶され且つ前記プロセッサ上で実行可能なプログラムもしくはコマンドとを含み、前記プログラムもしくはコマンドが前記プロセッサによって実行されると、第1側面に記載の方法のステップが実現される、電子機器を提供する。
第4側面では、本出願の実施例は、プログラムもしくはコマンドが記憶されており、前記プログラムもしくはコマンドがプロセッサによって実行されると、第1側面に記載の方法のステップが実現される、可読記憶媒体を提供する。
第5側面では、本出願の実施例は、プロセッサと、前記プロセッサに結合された通信インタフェースとを含むチップであって、前記プロセッサはプログラムもしくはコマンドを実行して、第1側面に記載の方法を実現するために用いられる、チップを提供する。
本出願の実施例で提供される符号化方法、装置、電子機器及び記憶媒体は、まず、ターゲットフレームのオーディオ信号の符号化ビットレートに基づいてターゲットフレームのオーディオ信号の実際の符号化帯域幅を決定して知覚エントロピーを計算するため、知覚エントロピーの計算結果が正確になる。そして、本出願の実施例で提供される符号化方法、装置、電子機器及び記憶媒体はさらに、正確な知覚エントロピーに基づいてビット数を決定してターゲットフレームのオーディオ信号を符号化するため、符号化ビットの不合理な割り当てを回避し、符号化リソースを節約し、符号化効率を向上させることができる。
本出願の実施例で提供される符号化方法のフローチャートである。 本出願の実施例で提供されるマッピング関数η()の関数画像である。 本出願の実施例で提供されるマッピング関数φ()の関数画像である。 本出願の実施例で提供される符号化方法の全体フローブロック図である。 本出願の実施例で提供される符号化方法を応用して符号化する時の符号化ビット数の波形図である。 本出願の実施例で提供される符号化方法を応用して符号化する時の平均符号化ビットレートの波形図である。 本出願の実施例で提供される符号化装置の構造模式図である。 本出願の実施例で提供される電子機器の構造模式図である。 本出願の実施例で提供される電子機器のハードウェア構造模式図である。
以下において、本出願の実施例における図面を参照し、本出願の実施例における技術的解決手段を明確に、完全に説明し、当然ながら、説明される実施例は本出願の実施例の一部に過ぎず、全ての実施例ではない。本出願における実施例に基づいて、当業者が創造的な労力を要することなく、得られた他の全ての実施例は、いずれも本出願の保護範囲に属する。
本出願の明細書及び特許請求の範囲における用語「第1」、「第2」等は、特定の順序又は前後順を説明するためのものではなく、類似する対象を区別するためのものである。このように使用される用語は、本出願の実施例がここで図示又は記述される以外の順序で実施できるように、適当な場合において互いに置き換えてもよいことを理解すべきである。また、明細書及び特許請求の範囲において「及び/又は」は、接続対象のうちの少なくとも1つを示し、符号の「/」は、一般に前後関連対象が「又は」の関係であることを表す。
以下において、図面を参照しながら、本出願の実施例で提供される符号化方法及び装置を、具体的な実施例及びその応用シーンにより詳しく説明する。
図1は本出願の実施例で提供される符号化方法のフローチャートであり、図1を参照すると、本出願の実施例で提供される符号化方法は、
ターゲットフレームのオーディオ信号の符号化ビットレートに基づいて、ターゲットフレームのオーディオ信号の符号化帯域幅を決定するステップ110と、
符号化帯域幅に基づいてターゲットフレームのオーディオ信号の知覚エントロピーを決定し、知覚エントロピーに基づいてターゲットフレームのオーディオ信号のビット要求率を決定するステップ120と、
ビット要求率に基づいてターゲットビット数を決定し、ターゲットビット数に基づいてターゲットフレームのオーディオ信号を符号化するステップ130と、を含んでもよい。
本出願の実施例における符号化方法の実行主体は電子機器、又は電子機器内の部材、集積回路又はチップであってもよい。該電子機器は、携帯型の電子機器であってもよく、非携帯型の電子機器であってもよい。例として、携帯型の電子機器は、携帯電話、タブレットコンピュータ、ノートパソコン、携帯情報端末、車載電子機器、ウェアラブルデバイス、ウルトラモバイルパーソナルコンピュータ(ultra-mobile personal computer,UMPC)、ネットブック又はパーソナルディジタルアシスタント(personal digital assistant,PDA)等であってもよく、非携帯型の電子機器は、サーバ、ネットワーク接続ストレージ(Network Attached Storage,NAS)、パーソナルコンピュータ(personal computer,PC)、テレビジョン(television,TV)、現金自動預払機又はキオスク等であってもよく、本出願の実施例では具体的に限定しない。
以下において、本出願の実施例で提供される符号化方法をパーソナルコンピュータで実行することを例として、本出願の技術的解決手段を詳しく説明する。
具体的に、ステップ110で、コンピュータはターゲットフレームのオーディオ信号の符号化ビットレートを決定した後、符号化ビットレートと符号化帯域幅の対応関係に基づいて、ターゲットフレームのオーディオ信号の符号化帯域幅を決定することができる。ここで、符号化ビットレートと符号化帯域幅の対応関係は、関連プロトコル又は標準によって決定されてもよく、予め設定されてもよい。
ステップ120で、さらにターゲットフレームのオーディオ信号の符号化帯域幅によって、修正離散コサイン変換MDCTの関連パラメータ等に基づいて、ターゲットフレームのオーディオ信号の各スケールファクタバンドの知覚エントロピーを取得して、ターゲットフレームのオーディオ信号の知覚エントロピーを決定することができる。
その後、さらに知覚エントロピーに基づいてターゲットフレームのオーディオ信号のビット要求率を決定することができ、それにより、ステップ130でビット要求率に基づいてターゲットビット数を決定し、ターゲットビット数に基づいてターゲットフレームのオーディオ信号を符号化する。
ここで、ターゲットフレームは、入力された現フレームであってもよいし、キャッシュに予め入力されている他の符号化されるべきフレームなど、符号化される他のフレームであってもよい。ターゲットビット数は、ターゲットフレームのオーディオ信号を符号化するためのビット数である。
本出願の実施例で提供される符号化方法は、まず、ターゲットフレームのオーディオ信号の符号化ビットレートに基づいてターゲットフレームのオーディオ信号の実際の符号化帯域幅を決定して知覚エントロピーを計算するため、知覚エントロピーの計算結果が正確になる。そして、本出願の実施例で提供される符号化方法はさらに、正確な知覚エントロピーに基づいてビット数を決定してターゲットフレームのオーディオ信号を符号化するため、符号化ビットの不合理な割り当てを回避し、符号化リソースを節約し、符号化効率を向上させることができる。
具体的に、一実施例において、符号化帯域幅に基づいて前記ターゲットフレームのオーディオ信号の知覚エントロピーを決定することは、
符号化帯域幅に基づいてターゲットフレームのオーディオ信号のスケールファクタバンドの数を決定するS1211と、
各スケールファクタバンドの知覚エントロピーを取得するS1212と、
スケールファクタバンドの数及び各スケールファクタバンドの知覚エントロピーに基づいて、ターゲットフレームのオーディオ信号の知覚エントロピーを決定するS1213と、を含んでもよい。
具体的に、まず、ISO/IEC 13818-7標準文書などのスケールファクタバンドオフセットテーブル(Table 3.4)に基づいてターゲットフレームのオーディオ信号のスケールファクタバンドの数を決定し、さらに各スケールファクタバンドの知覚エントロピーを取得することができる。
本出願の実施例において、ステップS1212は、
ターゲットフレームのオーディオ信号の修正離散コサイン変換(MDCT for Modified Discrete Cosine Transform,MDCT)後のMDCTスペクトル係数を決定するS1212aと、
MDCTスペクトル係数及びスケールファクタバンドオフセットテーブルに基づいて各スケールファクタバンドのMDCTスペクトル係数のエネルギーを決定するS1212bと、
MDCTスペクトル係数のエネルギー及び各スケールファクタバンドのマスキング閾値に基づいて、各スケールファクタバンドの知覚エントロピーを決定するS1212cと、を含んでもよい。
説明すべきことは、MDCTが線形直交重複変換である点である。符号化性能を低下させることなく、窓掛けされた離散コサイン変換(DCT for Discrete Cosine Transform,DCT)ブロック処理演算におけるエッジ効果を効果的に克服することにより、エッジ効果による周期化ノイズを効果的に除去することができる。同じ符号化率の場合、DCTを用いた関連技術よりもMDCTの性能が優れている。
さらに、スケールファクタバンドオフセットテーブルに基づいて、MDCTスペクトル係数の累積計算等によって、各スケールファクタバンドのMDCTスペクトル係数のエネルギーを決定することができる。
本出願の実施例で提供される符号化方法は、各スケールファクタバンドの知覚エントロピーを取得する際に、MDCTスペクトル係数、MDCTスペクトル係数のエネルギー及び各スケールファクタバンドのマスキング閾値を十分に考慮しているため、得られた各スケールファクタバンドの知覚エントロピーは、各スケールファクタバンドのエネルギー変動状況を正確に反映することができる。
各スケールファクタバンドの知覚エントロピーを取得した後、スケールファクタバンドの数及び各スケールファクタバンドの知覚エントロピーに基づいて、ターゲットフレームのオーディオ信号の知覚エントロピーを決定することができる。
本出願の実施例で提供される符号化方法は、ターゲットフレームのオーディオ信号の各スケールファクタバンドの知覚エントロピーを取得してから、各スケールファクタバンドの知覚エントロピーに基づいてターゲットフレームのオーディオ信号の知覚エントロピーを決定するため、取得されたターゲットフレームのオーディオ信号の知覚エントロピーの精度を保証することができることが理解される。
さらに、一実施例において、知覚エントロピーに基づいてターゲットフレームのオーディオ信号のビット要求率を決定することは、
ターゲットフレームのオーディオ信号より前の所定数のフレームのオーディオ信号の平均知覚エントロピーを取得するS1221と、
知覚エントロピー及び平均知覚エントロピーに基づいてターゲットフレームのオーディオ信号の難易度係数を決定するS1222と、
難易度係数に基づいてターゲットフレームのオーディオ信号のビット要求率を決定するS1223と、を含んでもよい。
本出願の実施例において、所定数の大きさは、例えば8、9、10等であってもよい。その具体的な大きさは実際の状況に応じて調整でき、本出願の実施例ではこれを具体的に限定しない。
平均知覚エントロピーを取得した後、知覚エントロピー及び平均知覚エントロピーに基づいて、予め設定された難易度係数計算方式で、ターゲットフレームオーディオ信号の難易度係数を決定することができる。ここで、予め設定された難易度係数計算方式は、難易度係数=(知覚エントロピー-平均知覚エントロピー)/平均知覚エントロピーであってもよい。
本出願の実施例において、予め設定された難易度係数からビット要求率へのマッピング関数によってターゲットフレームのオーディオ信号のビット要求率を決定することができる。
本出願の実施例で提供される符号化方法は、ターゲットフレームのオーディオ信号より前の所定数のフレームのオーディオ信号の平均知覚エントロピーに基づいてビット要求率を決定するため、ターゲットフレームのオーディオ信号の知覚エントロピーを直接用いてビット要求率を決定することにより、最終的に推定されたビット数が不正確であるという関連技術に存在する欠点が回避される。
さらに、一実施例において、ビット要求率に基づいてターゲットビット数を決定することは、
現在のビットプールにおける利用可能なビット数及びビットプールのサイズに基づいて、現在のビットプールの充満度を決定するS1311と、
充満度に基づいてターゲットフレームのオーディオ信号の符号化時のビットプール調節率を決定し、ビット要求率及びビットプール調節率に基づいて、符号化ビットファクタを決定するS1312と、
符号化ビットファクタに基づいて、ターゲットビット数を決定するS1313と、を含んでもよい。
説明すべきことは、ビットプールの充満度がビットプールにおける利用可能なビット数とビットプールのサイズとの比であってもよい点である。
本出願の実施例において、予め設定された充満度からビットプール調節率へのマッピング関数によって、ターゲットフレームのオーディオ信号の符号化時のビットプール調節率を決定することができる。
ビット要求率及びビットプール調節率を決定した後、予め設定された符号化ビットファクタ計算方式で、ビット要求率及びビットプール調節率によって符号化ビットファクタを取得することができる。
本出願の実施例において、ターゲットビット数は符号化ビットファクタと各フレームの信号の平均符号化ビット数との積であってもよい。ここで、各フレームの信号の平均符号化ビット数は1フレームのオーディオ信号のフレーム長、オーディオ信号のサンプリング周波数及び符号化ビットレートによって決定される。
本出願の実施例で提供される符号化方法は、現在のビットプールの充満度を分析することで、ビットプール調節率及び符号化ビットファクタを決定し、ビットプールの状態、オーディオ信号の符号化難易度及びビット率変化許容範囲などの要素を総合的に考慮しており、ビットプールのオーバーフローやアンダーフローを効果的に防止することができる。
以下において、ステレオオーディオ信号sc03.wavの符号化を例として、本出願の実施例で提供される符号化方法を説明する。
ここで、ステレオオーディオ信号sc03.wavの符号化ビットレートbitRate=128kbpsである。
ビットプールのサイズmaxbitRes=12288bits(6144 bit/channel)である。
サンプリング周波数Fs=48kHzである。
1フレームのオーディオ信号のフレーム長N=1024である。
各フレームの信号の平均符号化ビット数meanBits=1024×128×1000/48000=2731bitsである。
ステレオ符号化ビットレートと符号化帯域幅の対応関係は表1に示すとおりであってもよい。
表1から分かるように、ステレオオーディオ信号sc03.wavの符号化ビットレートbitRate=128kbpsに対応する実際の符号化帯域幅Bw=15.50kHzである。
符号化帯域幅を決定した後、該符号化帯域幅に基づいてターゲットフレームのオーディオ信号の知覚エントロピーを決定することができる。
具体的に、ISO/IEC 13818-7標準文書のスケールファクタバンドオフセットテーブル(Table 3.4)から分かるように、入力信号のサンプリングレートFs=48kHzの場合、Bw=15.50kHzに対応するスケールファクタバンド値M=41であり、即ち、ターゲットフレームのオーディオ信号のスケールファクタバンドの数は41である。
各スケールファクタバンドの知覚エントロピーを取得するステップは、具体的に、以下のように実現されてもよい。
ターゲットフレームのオーディオ信号をMDCT変換した後に得られたMDCTスペクトル係数をX[k]とし、k=0、1、2、…、M-1であり、各スケールファクタバンドのMDCTスペクトル係数のエネルギーはen[n]であり、n=0、1、2、…、M-1である。
よって、en[n]の計算は以下のとおりである。
式中、kOffset[n]はスケールファクタバンドオフセットテーブルを表す。
各スケールファクタバンドの知覚エントロピーをsfbPe[n]とし、n=0、1、2、…、M-1であり、その計算は以下のとおりである。

nlは各スケールファクタバンドの量子化後の0でないMDCTスペクトル係数の数であり、その計算は以下のとおりである。
各スケールファクタバンドの知覚エントロピーを取得した後、スケールファクタバンドの数及び各スケールファクタバンドの知覚エントロピーに基づいて、ターゲットフレームのオーディオ信号の知覚エントロピーを決定することができる。
ターゲットフレームを第lフレームとすると、ターゲットフレームのオーディオ信号の知覚エントロピーPe[l]の計算は以下のとおりである。
式(4)中、offsetはオフセット定数であり、以下のように定義される。
知覚エントロピーに基づいて、ターゲットフレームのオーディオ信号の符号化のビット要求率を決定するステップは、具体的に、以下のように実現されてもよい。
平均知覚エントロピーをPEaverageとし、それは過去のN1フレームのオーディオ信号の知覚エントロピーの平均値であり、PEaverageの計算は以下のとおりである。
該実施例では、N1の値は8である。即ち、平均知覚エントロピーは過去8フレームのオーディオ信号の知覚エントロピーの平均値である。例えば、現フレームが第10フレームであると、l=10であり、PEaverageはPe[9]、Pe[8]、Pe[7]、Pe[6]、Pe[5]、Pe[4]、Pe[3]、Pe[2]の平均値である。
当然ながら、N1の具体的な値は実際の必要に応じて調整することもでき、例えば、N1は7、10、15等であってもよく、本出願の実施例ではこれを具体的に限定しない。
所定数のフレームのオーディオ信号の平均知覚エントロピーを取得した後、該平均知覚エントロピー及びターゲットフレームのオーディオ信号の知覚エントロピーに基づいてターゲットフレームのオーディオ信号の難易度係数を決定することができる。
第lフレームについて、その難易度係数D[l]の計算は以下のとおりである。
ターゲットフレームのオーディオ信号の難易度係数を決定した後、ターゲットフレームのオーディオ信号のビット要求率を決定することができる。
ターゲットフレームのオーディオ信号のビット要求率をRdemand[l]とし、その計算は以下のとおりである。
式中、η()は難易度係数からビット要求率へのマッピング関数である。該マッピング関数は、相対難易度係数D[l]を引数とし、ビット要求率Rdemand[l]を関数値とする区分線形関数である。
該実施例では、マッピング関数η()は以下のように定義される。
マッピング関数η()の関数画像は図2に示すとおりである。
さらに、ビット要求率に基づいてターゲットビット数を決定するステップは、具体的に、以下のように実現されてもよい。
bitResを現在のビットプールにおける利用可能なビット数とし、Fを現在のビットプールの充満度とすると、以下のとおりとなる。
F=bitRes/maxbitRes (8)
ビットプールの充満度Fを取得した後、ビットプールの充満度Fに基づいてターゲットフレームのオーディオ信号の符号化時のビットプール調節率を決定することができる。
ターゲットフレームのオーディオ信号の符号化時のビットプール調節率をRadjust[l]とし、その計算は以下のとおりである。
式中、φ()はビットプールの充満度からビットプール調節率へのマッピング関数である。該マッピング関数は、ビットプールの充満度Fを引数とし、ビットプール調節率Radjust[l]を関数値とする区分線形関数である。
該実施例では、φ()は以下のように定義される。
マッピング関数φ()の関数画像は図3に示すとおりである。
さらに、符号化ビットファクタをbitFac[l]とし、その計算は以下のとおりである。
bitFac[l]>lの場合は、現在の第lフレームが符号化しにくいフレームであることを示し、現フレームを符号化するビット数は平均符号化ビットよりも多くなり、符号化に必要な追加のビット(現フレームを符号化するビット数-平均符号化ビット数)はビットプールから抽出される。
bitFac[l]<lの場合は、現在の第lフレームが符号化しやすいフレームであることを示し、現フレームを符号化するビット数は平均符号化ビットよりも少なくなり、符号化後の残りのビット(平均符号化ビット数-現フレームを符号化するビット数)はビットプールに記憶される。
符号化ビットファクタbitFac[l]を取得した後、該符号化ビットファクタbitFac[l]に基づいてターゲットビット数を決定することができる。
ターゲットビット数をavailableBitsとすると、以下のとおりとなる。
式(11)中、設定されたビットレートに従って符号化する際に、各フレームの信号の平均符号化ビット数meanBitsの計算は以下のとおりである。
1フレームのオーディオ信号のフレーム長N=1024、サンプリング周波数Fs=48kHzの場合、ターゲットビット数availableBitsは以下のとおりである。
図4は本出願の実施例で提供される符号化方法の全体フローブロック図である。本出願の実施例で提供される符号化方法を容易に理解及び実施するために、図4に示すように、本出願の実施例で提供される符号化方法をさらにステップ410~ステップ490に細分化してもよい。
ステップ410で、ターゲットフレームのオーディオ信号の符号化帯域幅を決定する。
ステップ420で、ターゲットフレームのオーディオ信号の知覚エントロピーを計算する。
ステップ430で、所定数のフレームのオーディオ信号の平均知覚エントロピーを計算する。
ステップ440で、ターゲットフレームのオーディオ信号の難易度係数を計算する。
ステップ450で、ターゲットフレームのオーディオ信号のビット要求率を計算する。
ステップ460で、現在のビットプールの充満度を計算する。
ステップ470で、ターゲットフレームのオーディオ信号の符号化時のビットプール調節率を計算する。
ステップ480で、符号化ビットファクタを計算する。
ステップ490で、ターゲットビット数を決定する。
ステップ410~ステップ490の具体的な実現方式については、上記各実施例の関連記載を参照することができ、ここでは詳細な説明を省略する。
図5及び図6は、本出願の実施例で提供される符号化方法によってオーディオ信号sc03.wavを符号化する際に、各フレームの信号の符号化ビット数及び平均符号化ビットレートの波形図を示す。
図5では、実線は各フレームの信号の実際の符号化ビット数を表し、点線は設定された128kbpsビットレートに従って符号化する時の、各フレームの信号の平均符号化ビット数(2731)を表す。図5により、符号化過程で、実際の符号化ビット数は平均符号化ビット数の上下で変動することが分かり、本出願の実施例で提供される符号化方法によって各フレームの信号の符号化ビット数を合理的に決定できることが示されている。
図6では、実線は符号化過程での平均符号化ビットレートを表し、点線は設定された目標符号化ビットレート(128000)を表す。図6から分かるように、時間の増加につれて、本出願の実施例で提供される符号化方法の全体的な平均符号化ビットレートは設定された目標符号化ビットレートと一致する傾向がある。
以上より、本出願の実施例で提供される符号化方法は、平均ビットレートが目標ビットレートに近いという前提で、可能な限り穏やかな符号化品質を得ることができる。また、本出願の実施例で提供される符号化方法は、従来のABRのビットレート制御技術におけるビットプールのオーバーフローとアンダーフローの問題を解決し、各フレームの信号の符号化ビット数を合理的に決定でき、且つフレーム間の品質変動を抑制する上で優れた性能を有する。
説明すべきことは、本出願の実施例で提供される符号化方法の実行主体が、符号化装置、又は該符号化装置内の、符号化方法を実行してロードするための制御モジュールであってもよい点である。
図7は本出願の実施例で提供される符号化装置の構造模式図であり、図7を参照すると、本出願の実施例で提供される符号化装置は、次の符号化帯域幅決定モジュール710、知覚エントロピー決定モジュール720、ビット要求量決定モジュール730、及び符号化モジュール740を含んでもよい。
符号化帯域幅決定モジュール710は、ターゲットフレームのオーディオ信号の符号化ビットレートに基づいて、ターゲットフレームのオーディオ信号の符号化帯域幅を決定するために用いられる。
知覚エントロピー決定モジュール720は、符号化帯域幅に基づいてターゲットフレームのオーディオ信号の知覚エントロピーを決定するために用いられる。
ビット要求量決定モジュール730は、知覚エントロピーに基づいてターゲットフレームのオーディオ信号のビット要求率を決定するために用いられる。
符号化モジュール740は、ビット要求率に基づいてターゲットビット数を決定し、ターゲットビット数に基づいてターゲットフレームのオーディオ信号を符号化するために用いられる。
本出願の実施例で提供される符号化装置は、まず、ターゲットフレームのオーディオ信号の符号化ビットレートに基づいてターゲットフレームのオーディオ信号の実際の符号化帯域幅を決定して知覚エントロピーを計算するため、知覚エントロピーの計算結果が正確になる。そして、本出願の実施例で提供される符号化装置はさらに、正確な知覚エントロピーに基づいてビット数を決定してターゲットフレームのオーディオ信号を符号化するため、符号化ビットの不合理な割り当てを回避し、符号化リソースを節約し、符号化効率を向上させることができる。
一実施例において、符号化モジュール730は、具体的に、現在のビットプールにおける利用可能なビット数及びビットプールのサイズに基づいて、現在のビットプールの充満度を決定すること、充満度に基づいてターゲットフレームのオーディオ信号の符号化時のビットプール調節率を決定し、ビット要求率及びビットプール調節率に基づいて、符号化ビットファクタを決定すること、符号化ビットファクタに基づいて、ターゲットビット数を決定すること、に用いられる。
一実施例において、知覚エントロピー決定モジュール720は、符号化帯域幅に基づいてターゲットフレームのオーディオ信号のスケールファクタバンドの数を決定するための第1決定サブモジュールと、各スケールファクタバンドの知覚エントロピーを取得するための取得サブモジュールと、スケールファクタバンドの数及び各スケールファクタバンドの知覚エントロピーに基づいて、ターゲットフレームのオーディオ信号の知覚エントロピーを決定するための第2決定サブモジュールと、を含む。
一実施例において、ビット要求量決定モジュール730は、具体的に、ターゲットフレームのオーディオ信号より前の所定数のフレームのオーディオ信号の平均知覚エントロピーを取得すること、知覚エントロピー及び平均知覚エントロピーに基づいてターゲットフレームのオーディオ信号の難易度係数を決定すること、難易度係数に基づいてターゲットフレームのオーディオ信号の符号化のビット要求率を決定すること、に用いられる。
一実施例において、取得サブモジュールは、具体的に、ターゲットフレームのオーディオ信号の修正離散コサイン変換MDCT後のMDCTスペクトル係数を決定すること、MDCTスペクトル係数及びスケールファクタバンドオフセットテーブルに基づいて各スケールファクタバンドのMDCTスペクトル係数のエネルギーを決定すること、MDCTスペクトル係数のエネルギー及び各スケールファクタバンドのマスキング閾値に基づいて、各スケールファクタバンドの知覚エントロピーを決定すること、に用いられる。
以上より、本出願の実施例で提供される符号化装置は、平均ビットレートが目標ビットレートに近いという前提で、可能な限り穏やかな符号化品質を得ることができる。また、本出願の実施例で提供される符号化装置は、従来のABRのビットレート制御技術におけるビットプールのオーバーフローとアンダーフローの問題を解決し、各フレームの信号の符号化ビット数を合理的に決定でき、且つフレーム間の品質変動を抑制する上で優れた性能を有する。
本出願の実施例における符号化装置は、装置であってもよく、端末における部材、集積回路又はチップであってもよい。当該装置は、携帯型の電子機器であってもよく、非携帯型の電子機器であってもよい。例として、携帯型の電子機器は、携帯電話、タブレットコンピュータ、ノートパソコン、携帯情報端末、車載電子機器、ウェアラブルデバイス、ウルトラモバイルパーソナルコンピュータ(ultra-mobile personal computer,UMPC)、ネットブック又はパーソナルディジタルアシスタント(personal digital assistant,PDA)等であってもよく、非携帯型の電子機器は、サーバ、ネットワーク接続ストレージ(Network Attached Storage,NAS)、パーソナルコンピュータ(personal computer,PC)、テレビジョン(television,TV)、現金自動預払機又はキオスク等であってもよく、本出願の実施例では具体的に限定しない。
本出願の実施例における符号化装置は、オペレーティングシステムを有する装置であってもよい。該オペレーティングシステムは、アンドロイド(Android)オペレーティングシステムであってもよく、iosオペレーティングシステムであってもよく、他の可能なオペレーティングシステムであってもよく、本出願の実施例では具体的に限定しない。
本出願の実施例で提供される装置は、上記方法実施例の方法のステップの全てを実現でき、同様な技術効果を達成することができる。ここでは詳細な説明を省略する。
選択的に、本出願の実施例は、電子機器をさらに提供する。図8に示すように、該電子機器800は、プロセッサ810と、メモリ820と、メモリ820に記憶され且つ前記プロセッサ810上で実行可能なプログラムもしくはコマンドとを含み、該プログラムもしくはコマンドがプロセッサ810によって実行されると、上記符号化方法の実施例の各プロセスが実現され、同様な技術効果を達成することができる。繰り返して説明することを回避するために、ここでは詳細な説明を省略する。
なお、本出願の実施例における電子機器は、上記の携帯型の電子機器及び非携帯型の電子機器を含むことに注意されたい。
図9は本出願の実施例で提供される電子機器のハードウェア構造模式図である。図9に示すように、該電子機器900は、高周波ユニット901、ネットワークモジュール902、オーディオ出力ユニット903、入力ユニット904、センサ905、表示ユニット906、ユーザ入力ユニット907、インタフェースユニット908、メモリ909、プロセッサ910、及び電源911等の部材を含んでもよいが、それらに限定されない。
当業者であれば、電子機器900は、各部材に電気を供給する電源(例えば、電池)をさらに含んでもよく、電源は、電源管理システムによってプロセッサ910に論理的に接続されて、電源管理システムによって充放電管理、及び電力消費管理等の機能を実現することができることが理解可能である。図9に示す電子機器の構造は、電子機器を限定するものではなく、電子機器は、図示より多く又はより少ない部材、又は一部の部材の組合せ、又は異なる部材配置を含んでもよく、ここでは詳細な説明を省略する。
本発明の実施例において、電子機器は、携帯電話、タブレットコンピュータ、ノートパソコン、携帯情報端末、車載端末、ウェアラブルデバイス、及び万歩計等を含むが、それらに限定されない。
ここで、ユーザ入力ユニット907は、ユーザが入力した、本出願の実施例で提供される符号化方法等を行うか否かの制御コマンドを受信するために用いられる。
プロセッサ910は、ターゲットフレームのオーディオ信号の符号化ビットレートに基づいて、ターゲットフレームのオーディオ信号の符号化帯域幅を決定すること、符号化帯域幅に基づいてターゲットフレームのオーディオ信号の知覚エントロピーを決定し、知覚エントロピーに基づいてターゲットフレームのオーディオ信号のビット要求率を決定すること、ビット要求率に基づいてターゲットビット数を決定し、ターゲットビット数に基づいてターゲットフレームのオーディオ信号を符号化すること、に用いられる。
説明すべきことは、本実施例における上記電子機器900が、本出願の実施例における方法実施例の各プロセスを実現でき、同様な技術効果を達成することができる点である。繰り返して説明することを回避するために、ここでは詳細な説明を省略する。
なお、本発明の実施例において、高周波ユニット901は、情報の受送信又は通話プロセスでの信号の受送信に用いることができることを理解すべきであり、具体的には、基地局からのダウンリンクデータを受信した後、プロセッサ910で処理し、また、アップリンクのデータを基地局に送信する。通常、高周波ユニット901は、アンテナ、少なくとも1つの増幅器、受送信機、カプラー、低騒音増幅器、デュプレクサ等を含むが、それらに限定されない。また、高周波ユニット901は、無線通信システムを介してネットワーク及び他の機器と通信することもできる。
電子機器はネットワークモジュール902によって、例えば、電子メールの受送信、ウェブページの閲覧及びストリーミングメディアへのアクセスなどを助けるように、無線ブロードバンドインターネットアクセスをユーザに提供する。
オーディオ出力ユニット903は、高周波ユニット901又はネットワークモジュール902が受信した又はメモリ909に記憶されているオーディオデータをオーディオ信号に変換して音声として出力することができる。且つ、オーディオ出力ユニット903は、電子機器900が実行する特定の機能に関するオーディオ出力(例えば、コール信号受信音、メッセージ受信音等)を提供することもできる。オーディオ出力ユニット903は、スピーカ、ブザー及び受話器等を含む。
入力ユニット904は、オーディオ又はビデオ信号を受信するために用いられる。入力ユニット904は、ビデオキャプチャモード又は画像キャプチャモードで画像キャプチャ装置(例えば、カメラ)が取得した静的画像又はビデオの画像データを処理するグラフィックスプロセッシングユニット(Graphics Processing Unit,GPU)9041、及びマイクロホン9042を含んでもよい。処理された画像フレームは、表示ユニット906に表示することができる。グラフィックスプロセッシングユニット9041で処理された画像フレームは、メモリ909(又は他の記憶媒体)に記憶するか、又は高周波ユニット901もしくはネットワークモジュール902によって送信することができる。マイクロホン9042は、音声を受信することができ、且つこのような音声をオーディオデータとして処理することができる。処理されたオーディオデータは、電話通話モードで、高周波ユニット901によって移動通信基地局に送信可能なフォーマットに変換して出力することができる。
端末900は光センサ、運動センサ及び他のセンサのような少なくとも1つのセンサ905をさらに含む。具体的に、光センサは、環境光の明暗に応じて表示パネル9061の輝度を調整することができる環境光センサと、電子機器900が耳元に移動された時、表示パネル9061及び/又はバックライトを消すことができる近接センサと、を含む。運動センサの1つとして、加速度計センサは、各方向(一般的には、三軸)での加速度の大きさを検出することができ、静止時に、重力の大きさ及び方向を検出することができ、電子機器の姿勢(例えば、画面の横縦の切り替え、関連するゲーム、磁力計姿勢校正)の認識、振動認識関連機能(例えば、万歩計、タップ)等に用いることができる。センサ905は、指紋センサ、圧力センサ、虹彩センサ、分子センサ、ジャイロスコープ、気圧計、湿度計、温度計、赤外線センサ等をさらに含んでもよく、ここでは説明を省略する。
表示ユニット906は、ユーザが入力した情報又はユーザに提供される情報を表示するために用いられる。表示ユニット906は表示パネル9061を含んでもよく、液晶ディスプレイ(Liquid Crystal Display,LCD)、有機発光ダイオード(Organic Light-Emitting Diode,OLED)等の形態で表示パネル9061を構成することができる。
ユーザ入力ユニット907は、入力される数字又は内容情報の受信、及び電子機器でのユーザ設定及び機能制御に関するキー信号入力の生成に用いることができる。具体的に、ユーザ入力ユニット907は、タッチパネル9071及び他の入力機器9072を含む。タッチパネル9071はタッチスクリーンとも呼ばれ、その上又は付近でのユーザのタッチ操作(例えば、指、タッチペンなどの任意の適切なオブジェクト又はアクセサリによるタッチパネル9071の上又はタッチパネル9071付近でのユーザの操作)を検出可能である。タッチパネル9071は、タッチ検出装置及びタッチコントローラとの2つの部分を含んでもよい。そのうち、タッチ検出装置は、ユーザのタッチ方位を検出するとともに、タッチ操作による信号を検出し、タッチコントローラに伝送する。タッチコントローラは、タッチ検出装置からタッチ情報を受信し、それをタッチポイント座標に変換してプロセッサ910に送信し、そして、プロセッサ910から送信されたコマンドを受信して実行する。また、抵抗式、容量式、赤外線及び弾性表面波などの複数のタイプでタッチパネル9071を実現することができる。タッチパネル9071に加えて、ユーザ入力ユニット907は他の入力機器9072をさらに含んでもよい。具体的に、他の入力機器9072は、物理キーボード、機能ボタン(例えば、音量制御ボタン、スイッチボタン等)、トラックボール、マウス、操作レバーを含んでもよいが、それらに限定されず、ここでは詳細な説明を省略する。
さらに、タッチパネル9071は、表示パネル9061を被覆してもよく、タッチパネル9071はその上又は付近でのタッチ操作を検出すると、それをプロセッサ910に伝送してタッチイベントのタイプを特定し、その後、プロセッサ910は、タッチイベントのタイプに応じて表示パネル9061で対応する視覚出力を提供する。図9では、タッチパネル9071と表示パネル9061は、2つの別個の部材として電子機器の入出力機能を実現するものであるが、いくつかの実施例において、タッチパネル9071と表示パネル9061とを統合して電子機器の入出力機能を実現してもよく、具体的に、ここでは限定しない。
インタフェースユニット908は、外部装置と電子機器900を接続するインタフェースである。例えば、外部装置は、有線又は無線ヘッドホンポート、外部電源(又は電池充電器)ポート、有線又は無線データポート、メモリカードポート、認識モジュールを備える装置を接続するためのポート、オーディオ入力/出力(I/O)ポート、ビデオI/Oポート、イヤホンポート等を含んでもよい。インタフェースユニット908は、外部装置からの入力(例えば、データ情報、電力等)を受信し、受信された入力を電子機器900内の1つ又は複数の部材に伝送するか、又は電子機器900と外部装置の間でデータを伝送するために用いることができる。
メモリ909は、ソフトウェアプログラム及び様々なデータを記憶するために用いることができる。メモリ909は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーション(例えば、音声再生機能、画像再生機能等)等を記憶可能なプログラム記憶領域と、携帯電話の使用に応じて作成されたデータ(例えば、オーディオデータ、電話帳等)等を記憶可能なデータ記憶領域と、を主に含んでもよい。また、メモリ909は、高速ランダムアクセスメモリを含んでもよく、非揮発性メモリ、例えば、少なくとも1つの磁気ディスク記憶デバイス、フラッシュメモリデバイス、又は他の揮発性ソリッドステート記憶デバイスをさらに含んでもよい。
プロセッサ910は、電子機器の制御センタであり、様々なインタフェース及び回線により電子機器全体の各部分を接続するものであり、メモリ909内に記憶されているソフトウェアプログラム及び/又はモジュールを動作させ又は実行し、及びメモリ909内に記憶されているデータを呼び出すことで、電子機器の様々な機能及びデータ処理を実行し、それにより、電子機器を全体的に監視する。プロセッサ910は、1つ又は複数の処理ユニットを含んでもよく、選択的に、プロセッサ910に、オペレーティングシステム、ユーザインタフェース及びアプリケーション等を主に処理するアプリケーションプロセッサと、無線通信を主に処理するモデムプロセッサとを統合することができる。上記モデムプロセッサはプロセッサ910に統合されなくてもよいことが理解可能である。
電子機器900は各部材に給電する電源911(例えば、電池)をさらに含んでもよく、選択的に、電源911は、電源管理システムによってプロセッサ910に論理的に接続し、さらに電源管理システムによって充放電の管理、及び電力消費管理等の機能を実現することができる。
また、電子機器900はいくつかの示されていない機能モジュールを含み、ここで詳細な説明を省略する。
本出願の実施例は、可読記憶媒体をさらに提供する。前記可読記憶媒体には、プログラムもしくはコマンドが記憶されており、該プログラムもしくはコマンドがプロセッサによって実行されると、上記符号化方法の実施例の各プロセスが実現され、同様な技術効果を達成することができる。繰り返して説明することを回避するために、ここでは詳細な説明を省略する。
ここで、前記プロセッサは上記実施例に記載の電子機器におけるプロセッサである。前記可読記憶媒体は、コンピュータ読み取り専用メモリ(Read-Only Memory,ROM)、ランダムアクセスメモリ(Random Access Memory,RAM)、磁気ディスク又は光ディスク等の非一時的コンピュータ可読記憶媒体のようなコンピュータ可読記憶媒体を含む。
本出願の実施例は、チップをさらに提供する。前記チップは、プロセッサ及び通信インタフェースを含み、前記通信インタフェースと前記プロセッサが結合され、前記プロセッサがプログラムもしくはコマンドを実行し、上記符号化方法の実施例の各プロセスを実現するために用いられ、同様な技術効果を達成することができる。繰り返して説明することを回避するために、ここでは詳細な説明を省略する。
本出願の実施例で言及したチップは、システムレベルチップ、システムチップ、チップシステム又はシステムオンチップ等と呼んでもよいことを理解すべきである。
説明すべきことは、本明細書において、用語「含む」、「からなる」又はその他のあらゆる変形は、非排他的包含を含むように意図され、それにより一連の要素を含むプロセス、方法、物品又は装置は、それらの要素のみならず、明示されていない他の要素、又はこのようなプロセス、方法、物品又は装置に固有の要素をも含む点である。特に断らない限り、語句「1つの……を含む」により限定される要素は、該要素を含むプロセス、方法、物品又は装置に別の同じ要素がさらに存在することを排除するものではない。また、指摘すべきことは、本出願の実施形態における方法及び装置の範囲は、図示又は検討された順序で機能を実行することに限定されず、係る機能に応じて実質的に同時に又は逆の順序で機能を実行することも含み得る点であり、例えば、説明されたものと異なる順番で、説明された方法を実行してもよく、さらに様々なステップを追加、省略、又は組み合わせてもよい。また、何らかの例を参照して説明した特徴は他の例において組み合わせられてもよい。
以上では、本出願の実施例に係る方法、装置(システム)及びコンピュータプログラム製品のフローチャート及び/又はブロック図を参照しながら本出願の各態様を説明した。フローチャート及び/又はブロック図における各ブロック、及びフローチャート及び/又はブロック図における各ブロックの組合せは、コンピュータプログラムコマンドによって実現できることを理解すべきである。これらのコンピュータプログラムコマンドは、機械を製造するように、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサへ提供されてもよく、それにより、コンピュータ又は他のプログラマブルデータ処理装置のプロセッサによって実行されるこれらのコマンドは、フローチャート及び/又はブロック図の1つ又は複数のブロックにおいて指定された機能/動作を実現可能とする。このようなプロセッサは、汎用プロセッサ、専用プロセッサ、特殊用途向けプロセッサ、又はフィールドプログラマブル論理回路であってもよいが、これらに限定されない。ブロック図及び/又はフローチャートにおける各ブロック、及びブロック図及び/又はフローチャートにおけるブロックの組合せは、指定された機能又は動作を実行する専用ハードウェアによって実現されてもよく、又は専用ハードウェアとコンピュータコマンドの組合せによって実現されてもよいことも理解可能である。
以上の実施形態に対する説明によって、当業者であれば上記実施例の方法がソフトウェアと必要な共通ハードウェアプラットフォームとの組合せという形態で実現できることを明確に理解可能であり、当然ながら、ハードウェアによって実現してもよいが、多くの場合において前者はより好ましい実施形態である。このような見解をもとに、本出願の技術的解決手段は実質的に又は従来技術に寄与する部分はソフトウェア製品の形で実施することができ、該コンピュータソフトウェア製品は、記憶媒体(例えばROM/RAM、磁気ディスク、光ディスク)に記憶され、端末(携帯電話、コンピュータ、サーバ、又はネットワーク機器等であってもよい)に本出願の各実施例に記載の方法を実行させる複数のコマンドを含む。
以上、図面を参照しながら本出願の実施例を説明したが、本出願は上記の具体的な実施形態に限定されず、上記の具体的な実施形態は例示的なものに過ぎず、限定的なものではなく、本出願の示唆をもとに、当業者が本出願の趣旨及び特許請求の保護範囲から逸脱することなくなし得る多くの形態は、いずれも本出願の保護範囲に属するものとする。

Claims (15)

  1. ターゲットフレームのオーディオ信号の符号化ビットレートに基づいて、前記ターゲットフレームのオーディオ信号の符号化帯域幅を決定するステップと、
    前記符号化帯域幅に基づいて前記ターゲットフレームのオーディオ信号の知覚エントロピーを決定し、前記知覚エントロピーに基づいて前記ターゲットフレームのオーディオ信号のビット要求率を決定するステップと、
    前記ビット要求率に基づいてターゲットビット数を決定し、前記ターゲットビット数に基づいて前記ターゲットフレームのオーディオ信号を符号化するステップと、を含む、符号化方法。
  2. 前記ビット要求率に基づいてターゲットビット数を決定する前記ステップは、
    現在のビットプールにおける利用可能なビット数及び前記ビットプールのサイズに基づいて、現在の前記ビットプールの充満度を決定するステップと、
    前記充満度に基づいて前記ターゲットフレームのオーディオ信号の符号化時のビットプール調節率を決定し、前記ビット要求率及び前記ビットプール調節率に基づいて、符号化ビットファクタを決定するステップと、
    前記符号化ビットファクタに基づいて、前記ターゲットビット数を決定するステップと、を含む、請求項1に記載の符号化方法。
  3. 前記符号化帯域幅に基づいて前記ターゲットフレームのオーディオ信号の知覚エントロピーを決定する前記ステップは、
    前記符号化帯域幅に基づいて前記ターゲットフレームのオーディオ信号のスケールファクタバンドの数を決定するステップと、
    各前記スケールファクタバンドの知覚エントロピーを取得するステップと、
    前記スケールファクタバンドの数及び各前記スケールファクタバンドの知覚エントロピーに基づいて、前記ターゲットフレームのオーディオ信号の知覚エントロピーを決定するステップと、を含む、請求項1に記載の符号化方法。
  4. 前記知覚エントロピーに基づいて前記ターゲットフレームのオーディオ信号のビット要求率を決定する前記ステップは、
    前記ターゲットフレームのオーディオ信号より前の所定数のフレームのオーディオ信号の平均知覚エントロピーを取得するステップと、
    前記知覚エントロピー及び前記平均知覚エントロピーに基づいて前記ターゲットフレームのオーディオ信号の難易度係数を決定するステップと、
    前記難易度係数に基づいて前記ターゲットフレームのオーディオ信号のビット要求率を決定するステップと、を含む、請求項1に記載の符号化方法。
  5. 各前記スケールファクタバンドの知覚エントロピーを取得する前記ステップは、
    前記ターゲットフレームのオーディオ信号の修正離散コサイン変換MDCT後のMDCTスペクトル係数を決定するステップと、
    前記MDCTスペクトル係数及びスケールファクタバンドオフセットテーブルに基づいて各前記スケールファクタバンドのMDCTスペクトル係数のエネルギーを決定するステップと、
    前記MDCTスペクトル係数のエネルギー及び各前記スケールファクタバンドのマスキング閾値に基づいて、各前記スケールファクタバンドの知覚エントロピーを決定するステップと、を含む、請求項3に記載の符号化方法。
  6. ターゲットフレームのオーディオ信号の符号化ビットレートに基づいて、前記ターゲットフレームのオーディオ信号の符号化帯域幅を決定するための符号化帯域幅決定モジュールと、
    前記符号化帯域幅に基づいて前記ターゲットフレームのオーディオ信号の知覚エントロピーを決定するための知覚エントロピー決定モジュールと、
    前記知覚エントロピーに基づいて前記ターゲットフレームのオーディオ信号のビット要求率を決定するためのビット要求量決定モジュールと、
    前記ビット要求率に基づいてターゲットビット数を決定し、前記ターゲットビット数に基づいて前記ターゲットフレームのオーディオ信号を符号化するための符号化モジュールと、を含む、符号化装置。
  7. 前記符号化モジュールは、具体的に、
    現在のビットプールにおける利用可能なビット数及び前記ビットプールのサイズに基づいて、現在の前記ビットプールの充満度を決定すること、
    前記充満度に基づいて前記ターゲットフレームのオーディオ信号の符号化時のビットプール調節率を決定し、前記ビット要求率及び前記ビットプール調節率に基づいて、符号化ビットファクタを決定すること、
    前記符号化ビットファクタに基づいて、前記ターゲットビット数を決定すること、に用いられる、請求項6に記載の符号化装置。
  8. 前記知覚エントロピー決定モジュールは、
    前記符号化帯域幅に基づいて前記ターゲットフレームのオーディオ信号のスケールファクタバンドの数を決定するための第一決定サブモジュールと、
    各前記スケールファクタバンドの知覚エントロピーを取得するための取得サブモジュールと、
    前記スケールファクタバンドの数及び各前記スケールファクタバンドの知覚エントロピーに基づいて、前記ターゲットフレームのオーディオ信号の知覚エントロピーを決定するための第2決定サブモジュールと、を含む、請求項6に記載の符号化装置。
  9. 前記ビット要求量決定モジュールは、具体的に、
    前記ターゲットフレームのオーディオ信号より前の所定数のフレームのオーディオ信号の平均知覚エントロピーを取得すること、
    前記知覚エントロピー及び前記平均知覚エントロピーに基づいて前記ターゲットフレームのオーディオ信号の難易度係数を決定すること、
    前記難易度係数に基づいて前記ターゲットフレームのオーディオ信号のビット要求率を決定すること、に用いられる、請求項6に記載の符号化装置。
  10. 前記取得サブモジュールは、具体的に、
    前記ターゲットフレームのオーディオ信号の修正離散コサイン変換MDCT後のMDCTスペクトル係数を決定すること、
    前記MDCTスペクトル係数及びスケールファクタバンドオフセットテーブルに基づいて各前記スケールファクタバンドのMDCTスペクトル係数のエネルギーを決定すること、
    前記MDCTスペクトル係数のエネルギー及び各前記スケールファクタバンドのマスキング閾値に基づいて、各前記スケールファクタバンドの知覚エントロピーを決定すること、に用いられる、請求項8に記載の符号化装置。
  11. プロセッサと、メモリと、前記メモリに記憶され且つ前記プロセッサ上で実行可能なプログラムもしくはコマンドとを含み、前記プログラムもしくはコマンドが前記プロセッサによって実行されると、請求項1~5のいずれか1項に記載の符号化方法のステップが実現される、電子機器。
  12. プログラムもしくはコマンドが記憶されており、前記プログラムもしくはコマンドがプロセッサによって実行されると、請求項1~5のいずれか1項に記載の符号化方法のステップが実現される、可読記憶媒体。
  13. 請求項1~5のいずれか1項に記載の符号化方法のステップを実行するように構成される、電子機器。
  14. 非揮発性記憶媒体に記憶されており、少なくとも1つのプロセッサによって実行されることで請求項1~5のいずれか1項に記載の符号化方法のステップを実現するコンピュータプログラム。
  15. プロセッサと、前記プロセッサに結合された通信インタフェースとを含むチップであって、前記プロセッサはプログラムもしくはコマンドを実行して、請求項1~5のいずれか1項に記載の符号化方法のステップを実現するために用いられる、チップ。
JP2023534313A 2020-12-24 2021-12-17 符号化方法、装置、電子機器及び記憶媒体 Active JP7542153B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202011553903.4A CN112599139B (zh) 2020-12-24 2020-12-24 编码方法、装置、电子设备及存储介质
CN202011553903.4 2020-12-24
PCT/CN2021/139070 WO2022135287A1 (zh) 2020-12-24 2021-12-17 编码方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
JP2023552451A JP2023552451A (ja) 2023-12-15
JP7542153B2 true JP7542153B2 (ja) 2024-08-29

Family

ID=75202376

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023534313A Active JP7542153B2 (ja) 2020-12-24 2021-12-17 符号化方法、装置、電子機器及び記憶媒体

Country Status (6)

Country Link
US (1) US20230326467A1 (ja)
EP (1) EP4270387A4 (ja)
JP (1) JP7542153B2 (ja)
KR (1) KR20230119205A (ja)
CN (1) CN112599139B (ja)
WO (1) WO2022135287A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112599139B (zh) * 2020-12-24 2023-11-24 维沃移动通信有限公司 编码方法、装置、电子设备及存储介质
CN118694750A (zh) * 2021-05-21 2024-09-24 华为技术有限公司 编解码方法、装置、设备、存储介质及计算机程序

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002196792A (ja) 2000-12-25 2002-07-12 Matsushita Electric Ind Co Ltd 音声符号化方式、音声符号化方法およびそれを用いる音声符号化装置、記録媒体、ならびに音楽配信システム
JP2008268792A (ja) 2007-04-25 2008-11-06 Matsushita Electric Ind Co Ltd オーディオ信号符号化装置およびそのビットレート変換装置
JP2014016625A (ja) 2008-01-04 2014-01-30 Dolby International Ab オーディオコーディングシステム、オーディオデコーダ、オーディオコーディング方法及びオーディオデコーディング方法
US20200126572A1 (en) 2017-07-03 2020-04-23 Dolby International Ab Low Complexity Dense Transient Events Detection and Coding

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2090052C (en) * 1992-03-02 1998-11-24 Anibal Joao De Sousa Ferreira Method and apparatus for the perceptual coding of audio signals
KR960012473B1 (ko) * 1994-01-18 1996-09-20 대우전자 주식회사 스테레오 디지탈 오디오 부호화 장치의 비트 할당 장치
US6647366B2 (en) * 2001-12-28 2003-11-11 Microsoft Corporation Rate control strategies for speech and music coding
CN1677493A (zh) * 2004-04-01 2005-10-05 北京宫羽数字技术有限责任公司 一种增强音频编解码装置及方法
US8010370B2 (en) * 2006-07-28 2011-08-30 Apple Inc. Bitrate control for perceptual coding
CN101308659B (zh) * 2007-05-16 2011-11-30 中兴通讯股份有限公司 一种基于先进音频编码器的心理声学模型的处理方法
CN101101755B (zh) * 2007-07-06 2011-04-27 北京中星微电子有限公司 一种音频编码的比特分配及量化方法及音频编码装置
CN101494054B (zh) * 2009-02-09 2012-02-15 华为终端有限公司 一种音频码率控制方法及系统
CN101853662A (zh) * 2009-03-31 2010-10-06 数维科技(北京)有限公司 一种用于dra的abr码率控制方法和系统
JP5704018B2 (ja) * 2011-08-05 2015-04-22 富士通セミコンダクター株式会社 オーディオ信号符号化方法および装置
CN103366750B (zh) * 2012-03-28 2015-10-21 北京天籁传音数字技术有限公司 一种声音编解码装置及其方法
CN109041024B (zh) * 2018-08-14 2022-01-11 Oppo广东移动通信有限公司 码率优化方法、装置、电子设备以及存储介质
CN112599139B (zh) * 2020-12-24 2023-11-24 维沃移动通信有限公司 编码方法、装置、电子设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002196792A (ja) 2000-12-25 2002-07-12 Matsushita Electric Ind Co Ltd 音声符号化方式、音声符号化方法およびそれを用いる音声符号化装置、記録媒体、ならびに音楽配信システム
JP2008268792A (ja) 2007-04-25 2008-11-06 Matsushita Electric Ind Co Ltd オーディオ信号符号化装置およびそのビットレート変換装置
JP2014016625A (ja) 2008-01-04 2014-01-30 Dolby International Ab オーディオコーディングシステム、オーディオデコーダ、オーディオコーディング方法及びオーディオデコーディング方法
US20200126572A1 (en) 2017-07-03 2020-04-23 Dolby International Ab Low Complexity Dense Transient Events Detection and Coding
JP2020525853A (ja) 2017-07-03 2020-08-27 ドルビー・インターナショナル・アーベー 密集性の過渡事象の検出及び符号化の複雑さの低減

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
S. Meltzer, 外1名,"MPEG-4 HE-AAC v2 - audio coding for today's digital media world",EBU TECHNICAL REVIEW,2006年01月30日,305
TSG-SA WG4,3GPP TS 26.403 version 2.0.0 "Enhanced aacPlus General Audio Codec; Encoder specification; Advanced Audio Coding (AAC) part" (Release 6)[online],3GPP TSG-SA#25 SP-040635,インターネット<URL:http://www.3gpp.org/ftp/tsg_sa/TSG_SA/TSGS_25/Docs/ZIP/SP-040635.zip>,2004年09月16日

Also Published As

Publication number Publication date
CN112599139B (zh) 2023-11-24
EP4270387A4 (en) 2024-05-22
US20230326467A1 (en) 2023-10-12
JP2023552451A (ja) 2023-12-15
WO2022135287A1 (zh) 2022-06-30
KR20230119205A (ko) 2023-08-16
CN112599139A (zh) 2021-04-02
EP4270387A1 (en) 2023-11-01

Similar Documents

Publication Publication Date Title
CN107731223B (zh) 语音活性检测方法、相关装置和设备
CN109511037B (zh) 耳机音量调节方法、装置及计算机可读存储介质
JP7542153B2 (ja) 符号化方法、装置、電子機器及び記憶媒体
CN106782613B (zh) 信号检测方法及装置
CN111477243B (zh) 音频信号处理方法及电子设备
US11315582B2 (en) Method for recovering audio signals, terminal and storage medium
CN109994127B (zh) 音频检测方法、装置、电子设备及存储介质
CN107993672B (zh) 频带扩展方法及装置
CN107562406B (zh) 一种音量调节方法、移动终端及计算机可读存储介质
CN106847307B (zh) 信号检测方法及装置
CN110457716B (zh) 一种语音输出方法及移动终端
KR102216881B1 (ko) 전자장치에서 마이크의 감도에 따른 자동 이득 조절 방법 및 장치
CN109817241B (zh) 音频处理方法、装置及存储介质
CN109754823A (zh) 一种语音活动检测方法、移动终端
WO2021008458A1 (en) Method for voice recognition via earphone and earphone
CN111093137B (zh) 一种音量控制方法、设备及计算机可读存储介质
JP7332688B2 (ja) 受信方法、送信方法、端末及びネットワーク側機器
CN108924319B (zh) 一种接近检测方法和移动终端
CN108900706B (zh) 一种通话语音调整方法及移动终端
CN105244037B (zh) 语音信号处理方法及装置
CN104038626B (zh) 移动计算装置与配件装置的通信方法
CN115312036A (zh) 模型训练数据的筛选方法、装置、电子设备及存储介质
CN106020646A (zh) 媒体音量调整方法、装置和终端设备
CN106293607B (zh) 自动切换音频输出模式的方法及系统
CN106790963B (zh) 音频信号的控制方法及装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230606

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230606

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240730

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240731

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240819

R150 Certificate of patent or registration of utility model

Ref document number: 7542153

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150