Nothing Special   »   [go: up one dir, main page]

JP4245606B2 - 音声符号化装置 - Google Patents

音声符号化装置 Download PDF

Info

Publication number
JP4245606B2
JP4245606B2 JP2005500739A JP2005500739A JP4245606B2 JP 4245606 B2 JP4245606 B2 JP 4245606B2 JP 2005500739 A JP2005500739 A JP 2005500739A JP 2005500739 A JP2005500739 A JP 2005500739A JP 4245606 B2 JP4245606 B2 JP 4245606B2
Authority
JP
Japan
Prior art keywords
code
time
sample
signal
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005500739A
Other languages
English (en)
Other versions
JPWO2004112256A1 (ja
Inventor
均 佐々木
恭士 大田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2004112256A1 publication Critical patent/JPWO2004112256A1/ja
Application granted granted Critical
Publication of JP4245606B2 publication Critical patent/JP4245606B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、音声符号化装置に関し、特に音声信号の情報を圧縮して符号化を行う音声符号化装置に関する。
移動体通信やCDなどでは、音声のディジタル処理が行われ、ディジタル化された音声信号は、ユーザにとっても身近な存在となっている。ディジタル音声信号を効率よく圧縮・伝送するためには、高能率符号化が行われる。
高能率符号化は、情報量の冗長度を除去して圧縮し、人間の感覚で歪ができるだけ感知されないようにして伝送容量の節約を図る技術であり、様々な方式が提案されている。音声信号の高能率符号化アルゴリズムとしては、ITU-T G.726で標準化されているADPCM(Adaptive Differential Pulse Code Modulation:適応的差分パルス符号変調)が広く使用されている。
図18、図19はADPCMコーデックのブロック構成を示す図である。ADPCM符号器110は、A/D部111、適応量子化部112、適応逆量子化部113、適応予測部114、減算器115、加算器116から構成される。なお、点線枠内をローカルデコーダと呼ぶ。ADPCM復号器120は、適応逆量子化部121、適応予測部122、D/A部123、加算器124から構成される(符号器側のローカルデコーダがそのまま復号器となる)。
ADPCM符号器110に対し、A/D部111は、入力音声をディジタル信号xに変換する。減算器115は、現在の入力信号xと、適応予測部114で過去の入力信号にもとづいて生成した予測信号yとの差分をとって予測残差信号rを生成する。
適応量子化部112は、量子化誤差が小さくなるように、予測残差信号rの過去の量子化値に応じて量子化ステップ幅(ステップサイズ)を増減して量子化を行う。すなわち、直前の標本(サンプル)の量子化値の振幅が一定値以下のときは変化が少ないとみて、量子化ステップサイズに1よりも小さい係数(スケーリングファクタと呼ばれる)を乗じて、量子化ステップサイズを狭めて量子化する。
また、直前のサンプルの量子化値の振幅が一定値をえるときは変化が大きいとみて、量子化ステップサイズに1よりも大きい係数を乗じて、量子化ステップサイズを広げて粗く量子化する。
ここで、適応量子化部112の量子化レベル数は、符号化ビット数によって決まり、例えば、4ビット符号化であれば16レベルに量子化される。A/D部111のサンプリング周波数を8Hzとすれば、適応量子化部112のディジタル出力(ADPCM符号)zは、32kbit/s(=8kHz×4ビット)となる(A/D部111が出力するディジタル音声信号が64kbit/sならば圧縮率は1/2である)。
また、ADPCM符号zは、ローカルデコーダの適応逆量子化部113に入力される。適応逆量子化部113は、ADPCM符号zを逆量子化して、量子化予測残差信号raを生成する。加算器116は、予測信号yと量子化予測残差信号raとを加算して、再生信号(局部再生信号)xaを生成する。
適応予測部114は、内部に適応フィルタを含み、適応フィルタの予測係数を予測残差信号の電力が最小になるように逐次修正しながら、再生信号xaと量子化予測残差信号raにもとづいて、次の入力のサンプル値に対する予測信号yを生成し、減算器115へ送信する。
一方、ADPCM復号器120では、伝送されたADPCM符号zに対し、ADPCM符号器110のローカルデコーダと全く同一の処理を行って再生信号xaを生成し、D/A部123でアナログ信号に変換して音声出力を得る。
ADPCMの利用分野としては、近年、携帯電話機にADPCM音源を内蔵して、サンプリングした動物の鳴き声や人の話し声などを着信メロディとして流したり、リアルな再生音を利用して、ゲームの音楽に効果音を挿入するなど、多様な音声サービスに盛んに使われており、さらなる音声品質の向上が求められている。
ADPCMによる音声品質向上を図った従来技術としては、入力音声と予測値との差分値に単位量子化幅の1/2を加算または減算した信号を、適応量子化して符号を求め、その符号から次ステップの単位量子化幅を更新して、予測値、逆量子化値から次の予測値を求める技術が提案されている(例えば、特許文献1参照)。
特開平10−233696号公報(段落番号〔0049〕〜〔0089〕,第1図) 図18で上述したITU-T G.726のADPCM符号器110のループ制御では、現在(時刻n)の1つのサンプルのみの量子化の情報によって、ADPCM符号を生成している。このため、時刻(n+1)で急に振幅が増加するような、予測した値よりも大きな信号xn+1が入力すると、時刻(n+1)の量子化ステップサイズΔn+1は小さいままなので、変化に追随できずに大きな量子化誤差が生じてしまう。これを再生すると聴覚的に聞き苦しい音(主観的にはカサカサした音)となり、音質劣化を引き起こすといった問題があった。
また、従来技術(特開平10−233696号公報)では、単位量子化幅を更新するために必要なテーブルを、符号器と復号器の両方に用意して置かなければならず、実用面において必ずしも好適とはいえない。
本発明はこのような点に鑑みてなされたものであり、量子化誤差を抑制して音声品質の向上を図った音声符号化装置を提供することを目的とする。
記課題を解決するために、図1に示すような、音声信号の符号化を行う音声符号化装置10において、音声信号のサンプル値に対する符号を求める際に、サンプル値の近傍区間での符号候補の複数の組み合わせとして、先読みサンプル数までに取り得るすべての符号の候補を、符号を求める度に格納する符号候補格納部11と、符号候補格納部11で格納されている符号を復号化して再生信号を生成する復号信号生成部12と、入力サンプル値と再生信号との差分の自乗和を算出して、量子化誤差を最小とする、自乗和が最小値の符号候補を検出し、検出した符号候補の中の符号を出力する誤差評価部13と、を有することを特徴とする音声符号化装置10が提供される。
ここで、符号候補格納部11は、音声信号のサンプル値に対する符号を求める際に、サンプル値の近傍区間での符号候補の複数の組み合わせとして、先読みサンプル数までに取り得るすべての符号の候補を、符号を求める度に格納する。復号信号生成部12は、符号候補格納部11で格納されている符号を復号化して再生信号を生成する。誤差評価部13は、入力サンプル値と再生信号との差分の自乗和を算出して、量子化誤差を最小とする、自乗和が最小値の符号候補を検出し、検出した符号候補の中の符号を出力する。
本発明の上記および他の目的、特徴および利点は本発明の例として好ましい実施の形態を表す添付の図面と関連した以下の説明により明らかになるであろう。
以下、本発明の実施の形態を図面を参照して説明する。図1は音声符号化装置の原理図である。音声符号化装置10は、音声信号の情報を圧縮して符号化を行う装置である。
符号候補格納部11は、音声信号のサンプル値に対する符号を求める際に、後述の先読みサンプル数prまでを近傍区間とした、時刻(n+k)(0≦k≦pr)までの符号候補{j1、j2、…、j(pr+1)}の複数(すべて)の組み合わせを格納する。図では、先読みサンプルのprを1として、時刻nの符号j1と時刻(n+1)の符号j2の符号候補の組み合わせを格納している例を示している。
復号信号生成部(ローカルデコーダ)12は、符号候補格納部11で格納されている符号を順次復号化して再生信号srを生成する。誤差評価部13は、入力音声信号の入力サンプル値inと再生信号srとの差分の自乗和を算出し、自乗和が最小値の符号候補(=量子化誤差が最小とみなせる)を検出し、検出した符号候補の中の符号idxを出力する。
なお、図中ベクトル表記してあるのは、順次処理が行われることを示すものである。すなわち、符号候補のベクトル表記は、符号候補格納部11からローカルデコーダ12へ符号候補{1、1}、{1、2}、…が順次入力されることを示し、再生信号のベクトル表記は、ローカルデコーダ12で順次生成されて誤差評価部13へ入力することを示し、入力サンプル値のベクトル表記は、誤差評価部13へ順次入力されることを示している。
なお、後述の図12のローカルデコーダ12の構成を使用する場合、符号候補{1、2}に対してのローカルデコーダ再生信号sr[n]とsr[n+1]は、以下の手順で生成する。
適応逆量子化部12aにおいて符号#1を逆量子化して、逆量子化信号dq[n]を生成する。加算器12bでは、前時刻の再生信号sr[n−1]を遅延させた遅延信号se[n]と加算して、再生信号(局部再生信号)sr[n]を生成する。
次にn+1での再生信号を同様の手順で求める。適応逆量子化部12aにおいて符号#2を逆量子化して、逆量子化信号dq[n+1]を生成する。加算器12bでは、前時刻の再生信号sr[n]を遅延させた遅延信号se[n+1]と加算して、再生信号(局部再生信号)sr[n+1]を生成する。
ここで、時刻nのサンプル値に対する符号idx[n]を求める場合、従来では上述したように、現在時刻nの1つのサンプルのみの量子化によって符号化を行っていたが、時刻nだけでなく時刻n周辺のサンプル区間(=近傍区間)の情報も誤差評価の対象として利用して、符号idx[n]を求めるものである。
すなわち、現在のサンプル値だけでなく、未来のサンプル(先読みサンプルと呼ぶ)も利用するということであり、例えば、先読みサンプルを1としたら、時刻n及び時刻(n+1)の2サンプルの情報までを考慮して、時刻nの符号idx[n]を求めることになる。
また、先読みサンプルを2としたら、時刻n、時刻(n+1)、時刻(n+2)の3サンプルの情報までを考慮して、時刻nの符号idx[n]を求めることになる。なお、本装置の詳細動作については図4以降で説明する。
に解決すべき問題点について図2、図3を用いて詳しく説明する。図2は再生信号を求めている様子を示す図である。説明を簡略にするために、予測なし(単に入力サンプルと再生信号との差分を量子化)として、1サンプルあたり2ビット(量子化レベルは4通り)で量子化するものとする。
音声信号に対して、時刻(n−1)でサンプルしたサンプル値をXn−1、時刻nでサンプルしたサンプル値をXnとする。また、時刻(n−1)で復号された再生信号がSn−1であったとする。
ここで、時刻nにおける再生信号を求める場合、まず、時刻nのサンプル値Xnと、時刻(n−1)の再生信号Sn−1との差分をとって差分信号Enを生成する(予測処理を行うのであれば同一時刻での差分を求めるが、ここでは予測なしとしたので、1つ前の再生信号と現在の入力サンプル値との差分が求められる)。
そして、この差分信号Enに量子化を施して、時刻nにおける量子化値を選択する。ここでは2ビットの量子化としたので、量子化値はh1〜h4の4通りあり、これら4候補の中から、差分信号Enの値を最も正しく表現できるもの(サンプル値Xnに最も近接するもの)が選択されることになる(なお、ドットの間隔が量子化ステップサイズに対応する)。
図では、差分信号Enを最も正しく表現できるものは量子化値h3である(すなわち、サンプル値Xnと最も近接なドットはh3)。したがって、時刻nにおける再生信号として、量子化値h3(Snとする)を選択し、量子化値h3を示すADPCM符号が符号器から出力することになる。
図3は振幅変動に追随できずに大きな量子化誤差が発生する様子を示す図である。従来のADPCM符号器の問題点を示している。図2で示した音声信号に対して、時刻(n+1)でサンプルしたサンプル値をXn+1、時刻(n+2)でサンプルしたサンプル値をXn+2とする。また、時刻nで復号された再生信号は図2で示したSnである。なお、音声信号は、時刻(n+1)付近で急に振幅が増加する波形とする。
時刻(n+1)における再生信号を求める場合を考える。まず、時刻(n+1)のサンプル値Xn+1と、時刻nの再生信号Snとの差分をとって差分信号En+1を生成する。
そして、差分信号En+1に量子化を施して、時刻(n+1)の量子化値を選択する。2ビットの量子化なので、量子化値の候補は、h5〜h8の4通りある。また、これら量子化値の量子化ステップサイズは、直前で選択された量子化値によって決まる。
すなわち、直前で選択された量子化値が、4つあるドットの真ん中2つのいずれかが選ばれているなら、時刻(n−1)から時刻nへの振幅変動は少ないため、時刻nから時刻(n+1)への振幅変動も少ないであろうとみなして、時刻(n+1)の量子化ステップサイズは小さくする。
また、直前で選択された量子化値が、4つあるドットの両端のいずれかが選ばれた場合には、時刻(n−1)から時刻nへの振幅変動は大きいため、時刻nから時刻(n+1)への振幅変動も大きいであろうとみなして、時刻(n+1)の量子化ステップサイズは大きくする。
ここの例では、時刻nの再生信号Snは、再生信号候補h1〜h4の中のh3を選択したものであるから(真ん中2つの内の1つである)、振幅変動が少ないとみなせるので、時刻(n+1)の量子化値の量子化ステップサイズは(つまりh5〜h8のドット間隔は)、小さくする(時刻nで用いた1より小さいスケーリングファクタを時刻(n+1)でも用いて、h1〜h4のドット間隔と同じとしている)。
その後、量子化値の候補h5〜h8の中から、差分信号En+1を最も正しく表現できるものを選択することになる。ところが、時刻(n+1)で音声信号の振幅が急に立ち上がっているため、量子化ステップサイズが大きくない再生信号候補h5〜h8の中から差分信号En+1をもっとも正しく表現できるもの(サンプル値Xn+1に最も近接なドット)を選ぶとしてもせいぜいh5しかない。
したがって、時刻(n+1)における再生信号は、量子化値h5(Sn+1)が選択され、量子化値h5を示すADPCM符号が符号器から出力されることになる。しかし、図からわかるように、量子化誤差が大きくなってしまい、音質劣化を招くことになる。
次に時刻(n+2)での量子化に対し、時刻(n+1)の再生信号Sn+1は、再生信号候補h5〜h8の中のh5を選択したものであるから(両端の内の1つである)、振幅変動が大きいとみなし、時刻(n+2)の量子化値の量子化ステップサイズは(つまりh9〜h12のドット間隔は)、時刻(n+1)の量子化ステップサイズよりも大きくなっている。そして、上述と同様な処理を行って、再生信号としてはh9が選択されることになる。
このように、従来のADPCMでは、音声の急なレベル変化があった場合でも、変化量が小さい振幅増加前の量子化ステップサイズで、振幅変動の大きいサンプルの量子化値を求めているために、大きな量子化誤差が発生してしまい、音質劣化が生じていた。音声符号化装置10では、音声の振幅変動が大きい場合でも、量子化誤差を効率よく抑制して音声品質の向上を図るものである。
に音声符号化装置10の構成及び動作について以降詳しく説明する。最初に符号候補格納部11について説明する。図4は符号候補格納部11で格納される符号候補の概念を説明するための図である。今、時刻nにおける音声信号のサンプル値の符号idx[n]を求める場合を考える。また、時刻(n+1)のサンプル値までを、時刻nのサンプル値の近傍区間とし(すなわち、先読みサンプル1とする)、1サンプルあたり2ビットの量子化と仮定する。
時刻nのサンプル値に対する量子化値の符号j1は、#1〜#4の4通りの候補があり、符号j1の#1〜#4それぞれに対して、時刻(n+1)の符号j2も#1〜#4の4通りの候補がある。
ここで、例えば、時刻nのサンプル値に対する符号j1に#1を選択して、時刻(n+1)の符号j2に#1を選択した場合を{1、1}のように表記すると、符号候補のすべての組み合わせは、{1、1}、{1、2}、…{4、3}、{4、4}の16通りあることになる。
したがって、現在時刻nの符号を2ビットの量子化で求める際に、先読みサンプル1として、時刻(n+1)のサンプル値までを使用すると、符号候補格納部11では、時刻nの符号j1と時刻(n+1)の符号j2の符号のすべての16通りの組み合わせ{j1、j2}={1、1}、…、{4、4}が格納されることになる。
また、符号候補格納部11は、これら符号候補をローカルデコーダ12に順次入力し、16通りすべて入力し終わると、次は装置内では現在時刻(n+1)の符号を求めることになるので、時刻(n+2)のサンプル値までを使用することになり、符号候補格納部11には、時刻(n+1)の符号j1と、時刻(n+2)の符号j2とのすべての16通りの組み合わせが格納され、再びローカルデコーダ12へ入力することになる。以下、このような動作が繰り返される。
なお、上記の例では、時刻nの符号idx[n]を求める際に、先読みサンプル1として時刻(n+1)までを含めたが、2ビット量子化で先読みサンプル2とすれば、符号候補格納部11には、時刻nの符号j1、時刻(n+1)の符号j2、時刻(n+2)の符号j3のすべての符号の組み合わせ{j1、j2、j3}={1、1、1}、…、{4、4、4}の64通りの候補が格納されることになる(以降、同様な考え方である)。
次に符号化時に量子化誤差を抑制するときの動作について図5〜図11を用いて説明する。なお、時刻nの符号idx[n]を求めるものとし、先読みサンプル1として時刻(n+1)の情報を利用する。また、説明を簡略化するために、予測なしとし、量子化は2ビットで行うものとする。
図5〜図10は動作を説明するための図である。音声信号に対して、時刻nでサンプルしたサンプル値をXn、時刻(n+1)でサンプルしたサンプル値をXn+1とする。また、音声信号は、時刻(n+1)付近で急に振幅が増加する波形とする。
図5に対し、時刻nにおける符号候補j1を復号した際の符号候補は#1〜#4の4通りある。ここで、時刻nにおいて、符号候補#1を最初に選択したとする。すると、符号候補#1に対応する、時刻(n+1)において選択可能な符号候補は、量子化ステップサイズの広い#(1−1)〜#(1−4)の4通りある。
図6に対し、時刻(n+1)の符号候補として、#(1−1)を選択したとする。このとき、時刻nのサンプル値Xnと、符号候補#1との差分d1を求め、時刻(n+1)のサンプル値Xn+1と、符号候補#(1−1)との差分d1-1を求める。そして、これらの差分の自乗和を算出して誤差評価値e({1、1})を求める。
e({1、1})=(d12+(d1-12 ・・・(1)
図7に対し、時刻(n+1)の符号候補として、#(1−2)を選択したとする。このとき、時刻nのサンプル値Xnと、符号候補#1との差分はd1であり、また、時刻(n+1)のサンプル値Xn+1と、符号候補#(1−2)との差分d1-2が求められる。そして、これらの差分の自乗和を算出して誤差評価値e({1、2})を求める。
e({1、1})=(d12+(d1-22 ・・・(2)
以下、時刻(n+1)の符号候補として、#(1−3)、#(1−4)を選択した場合も同様の処理を行って、誤差評価値e({1、3})、e({1、4})を求める。
図8に対し、時刻nにおいて、符号候補#2を選択したとする。すると、符号候補#2に対応する、時刻(n+1)において選択可能な符号候補は、量子化ステップサイズの狭い#(2−1)〜#(2−4)の4通りある。
図9に対し、時刻(n+1)の符号候補として、#(2−1)を選択したとする。このとき、時刻nのサンプル値Xnと、符号候補#2との差分d2を求め、また、時刻(n+1)のサンプル値Xn+1と、符号候補#(2−1)との差分d2-1が求められる。そして、これら差分の自乗和を算出して誤差評価値e({2、1})を求める。
e({2、1})=(d22+(d2-12 ・・・(3)
図10に対し、時刻(n+1)の符号候補として、#(2−2)を選択したとする。このとき、時刻nのサンプル値Xnと、再生信号候補#との差分はd2であり、また、時刻(n+1)のサンプル値Xn+1と、符号候補#(2−2)との差分d2-2が求められる。そして、これら差分の自乗和を算出して誤差評価値e({2、2})を求める。
e({2、2})=(d22+(d2-22 ・・・(4)
以下、時刻(n+1)の符号候補として、#(2−3)、#(2−4)を選択した場合も同様の処理を行って、誤差評価値e({2、3})、e({2、4})を求める。
このような処理を時刻nにおける符号候補#3、#4についても行い、結局、16個の誤差評価値e({1、1})〜e({4、4})を求める。そして、誤差評価値e({1、1})〜e({4、4})の中から最小値を選択する。この例の場合、図6で説明した誤差評価値e({1、1})が最小値になることが、図から判別できる。したがって、時刻nの符号候補#1が最終的に選択決定され、符号候補#1を表す符号idx[n]が伝送路上へ出力されることになる。
ここで、従来技術と比較しながら音声符号化装置10の特徴について説明する。図11は符号選択を示す図である。もし、上記の図5〜図10の例に対して、図3で説明したような従来技術の処理を行ったとすると、時刻nでは、サンプル値Xnに最も近接な位置にある候補#2が選択され、時刻(n+1)では、サンプル値Xn+1に最も近接な位置にある候補#(2−1)が選択されることになる。すると、時刻nでは量子化誤差e1aが小さくても、時刻(n+1)では大きな量子化誤差e2aが発生してしまうことになる。
ここで、量子化ステップサイズを決めるには、直前で選択された値によって決めることは従来同じであるが、従来の処理では、過去に決定された符号にもとづいて、次の量子化ステップサイズを決めている。したがって、時刻nでは、時刻nのサンプル値に最も近い符号を決定できたとしても、次のサンプリング時刻(n+1)で振幅変動が急激に増加したような場合、変化量が小さい振幅増加前の量子化ステップサイズで、時刻(n+1)の符号を求めてしまうことが起こるため、時刻(n+1)では大きな量子化誤差e2aが発生してしまう。
一方、音声符号化装置10の場合、近傍サンプル区間内の符号候補すべてに対して発生する量子化誤差をあらかじめ求めておき、量子化誤差が最小となる符号候補の組み合わせを選択する。このため、振幅変動が急激に増加する場合であっても、その振幅変動が近傍区間内にあれば、従来のように1つのサンプル地点のみ大きな量子化誤差を発生する符号を選択するようなことがなくなる。
例えば、図6は、誤差評価値が最小となる符号候補#1、#(1−1)を示しており、時刻nでは候補#1を選択決定しているため、時刻nの量子化誤差だけについて見ると、量子化誤差e1(=d1)は、図11の従来処理と比べて大きくはなっている(e1>e1a)。
ただし、時刻nで候補#1を選択することで、時刻(n+1)では量子化ステップサイズを広げることができる。このため、時刻(n+1)ではステップサイズが広がった候補#1−1〜#1−4の中でサンプル値Xn+1に近接な候補を選択することになるので、結局、(e1+e2(=d1-1))<(e1a+e2a)となり、音声符号化装置10の方が量子化誤差を小さくできることがわかる。
このように、振幅変動前は量子化誤差を小さくできても、振幅変動後に大きな量子化誤差を発生させてしまう従来技術に対して、音声符号化装置10では、振幅変動前後で量子化誤差を総体的に小さくする構成としたので、S/Nの向上を図ることが可能になる。
次にローカルデコーダ12の詳細ブロックを示した音声符号化装置10について説明する。図12は音声符号化装置10の構成を示す図である。音声符号化装置10は、符号候補格納部11、ローカルデコーダ12、誤差評価部13を含む。ローカルデコーダ12は、適応逆量子化部12a、加算器12b、遅延部12cから構成され、誤差評価部13は、差分自乗和算出部13a、最小値検出部13bから構成される。符号候補格納部11については上述したので、ローカルデコーダ12、誤差評価部13について説明する。なお、符号候補格納部11では、時刻nの符号j1、時刻(n+1)の符号j2の{j1、j2}の組み合わせを格納しているものとする。
ローカルデコーダ12に対し、適応逆量子化部12aは、符号候補{1、1}を受信すると、前回の時刻(n−1)で処理した結果から量子化ステップサイズを更新する。そして、最初に時刻nのj1=#1の符号に対応する量子化値を認識した後、その量子化値を逆量子化して、逆量子化信号dq[n]を出力する。
加算器12bは、遅延部12cから出力される遅延信号se[n](時刻(n−1)の再生信号sr[n−1]を1サンプル時間遅延した信号である)と、逆量子化信号dq[n]とを加算して、再生信号sr[n](=dq[n]+se[n])を生成し、遅延部12c及び誤差評価部13へ出力する。遅延部12cは、再生信号sr[n]を受信すると、1サンプル時間遅延させて遅延信号se[n+1]を出力し、加算器12bへフィードバックする。
次に適応逆量子化部12aは、時刻(n+1)のj2=#1の符号に対応する量子化値を認識した後、その量子化値を逆量子化して、逆量子化信号dq[n+1]を出力する。そして、加算器12b、遅延部12cでは、上述と同様な処理が行われて、符号j2に対する再生信号が生成される。
誤差評価部13に対し、差分自乗和算出部13aは、入力サンプル値in[n]と、再生信号sr[n]とを受信して、以下の式にもとづいて差分自乗和を算出する。ただし、0≦k≦prである(prは先読みサンプル数)。
Figure 0004245606
最小値検出部13bは、すべての符号候補に対する式(5)の値から最小値を検出する。そして、最小値である符号候補の中から時刻nの符号候補(再生信号)を認識し、その符号候補に対応する符号idx[n]を伝送路上へ出力する。
なお、上記の構成に対して、予測を行う場合には、遅延部12cを適応予測部に置き換え、この適応予測部に再生信号および逆量子化信号を入力する構成とすれば、適応予測方式に対応することができる。
図13は音声符号化装置10の動作概要を示すフローチャートである。符号候補は{j1、j2}とし、j1は時刻nの符号、j2は時刻(n+1)の符号である。
〔S1〕符号候補格納部11は、符号候補{j1、j2}を格納する。
〔S2〕ローカルデコーダ12は、時刻nの符号j1の再生信号を生成する。
〔S3〕ローカルデコーダ12は、時刻(n+1)の符号j2の再生信号を生成する。
〔S4〕誤差評価部13は、式(5)にもとづき、誤差評価値e({j1、j2})を算出する。
〔S5〕すべての符号候補{j1、j2}={1、1}〜{f、f}に対する誤差を算出したならばステップS6へいき、そうでなければステップS2へ戻る。
〔S6〕誤差評価部13は、誤差評価値e({j1、j2})の最小値を検出し、最小値となった{j1、j2}のj1を時刻nの符号idx[n]として出力する。
〔S7〕ローカルデコーダ12は、ステップS6で決定された時刻nのj1にもとづいて、時刻(n+1)における量子化ステップサイズの更新を行う。
〔S8〕時刻nを更新し、時刻(n+1)の符号を求める処理に入る(符号候補格納部11には、時刻(n+1)の符号j1、時刻(n+2)の符号j2の符号候補{j1、j2}が格納されることになる)。
以上説明したように、音声信号のサンプル値に対する符号を求める際に、サンプル値の近傍区間でのすべての符号候補の組み合わせを格納し、符号候補から再生信号を生成し、入力サンプル値と再生信号との差分の自乗和を算出して、自乗和が最小となる符号候補の中の符号を出力する構成とした。これにより、音声の振幅変動が大きい場合でも、量子化誤差を効率よく抑制することができ、音声品質の向上を図ることが可能になる。また、符号器側の構成変更のみで実現できるので容易に実用化が可能である。
に効果について説明する。図14は従来の処理を行った場合の波形であり、図15は音声符号化装置10による処理を行った場合の波形を示す図である。縦軸は振幅、横軸は時間であり、男女の自然音(肉声)ファイルについて測定した結果である。
図14の上側の波形W1aは、従来のADPCM符号器で符号化した信号を再生した信号(ADPCM復号器の出力波形)であり、下側の波形W1bは元の入力音声と波形W1aとのレベル差分である。また、図15の上側の波形W2aは、音声符号化装置10で符号化した信号を再生した信号(ADPCM復号器の出力波形)であり、下側の波形W2bは元の入力音声と波形W2aとのレベル差分である(レベル差分を示す誤差信号の倍率は4倍にした)。
波形W1b、波形W2bを比較すると、波形W2bの方が平坦であり、量子化誤差が抑制されていることがわかる。また、S/Nについては従来は28.37dBであったが、音声符号化装置10では34.50dBとなり、6.13dBの改善が見られ、音声符号化装置10が有効であることがわかる。
に変形例について説明する。図16は変形例を示す図である。音声符号化装置10aは、あらたに符号選択部14を含む。その他の構成要素は図12と同じである。
符号選択部14では、近傍区間の最終段のサンプル時刻を時刻(n+k)とした場合、時刻(n+k)における符号候補に対し、入力サンプル値in[n+k]に最も近い値を表す符号を選択し、適応逆量子化部12aへ出力する。そして、ローカルデコーダ12では、時刻(n+k)の再生信号に対しては、符号選択部14で選択された符号のみを再生して再生信号を生成する。
図17は変形例の動作を説明するための図である。時刻nの符号を求める際に、先読みサンプル1とすると、最終段時刻は時刻(n+1)となる(先読みサンプルが2なら、最終段時刻は時刻(n+2)である)。
ここで、図15以前に上述した音声符号化装置10の動作では、符号候補格納部11から入力した符号をすべて復号化して再生信号を生成し、誤差評価を行うものであった。一方、変形例の場合は、最終段時刻(n+k)の符号候補に対しては、最終段時刻(n+k)の入力サンプル値in[n+k]と最も近接な1つの符号を符号選択部14であらかじめ選択し(通常の符号化が行われている)、最終段時刻(n+k)に関しては、その符号だけをローカルデコーダ12で復号化して再生信号を生成して、その後、誤差評価部13で誤差評価が行われるものである。
したがって、図の場合、#(1−1)が符号選択部14で選択されることになるので、ローカルデコーダ12では、#(1−1)のみ復号化し、#(1−2)〜#(1−4)に関しては、復号化は行わない。このような構成にすることで、変形例の場合では、計算量を低減することができ、処理速度の向上を図ることが可能になる。
このように、現在のサンプルだけでなく、近傍のサンプル区間での量子化誤差を考慮して符号を選択することで、量子化誤差を抑制し、音質を向上させることができる。なお、上記では、符号化を行う信号として、音声信号を対象にして説明したが、音声信号に限らず、高能率符号化の一方式として、多様な分野に広く適用することが可能である。
以上説明したように、音声符号化装置は、音声信号のサンプル値に対する符号を求める際に、サンプル値の近傍区間でのすべての符号候補の組み合わせを格納し、格納されている符号を復号化して再生信号を生成し、入力サンプル値と再生信号との差分の自乗和を算出して、自乗和が最小となる符号候補を量子化誤差最小とみなして、符号候補の中の符号を出力する構成とした。これにより、音声の振幅変動が大きい場合でも、量子化誤差を効率よく抑制することができ、音声品質の向上を図ることが可能になる。
上記については単に本発明の原理を示すものである。さらに、多数の変形、変更が当業者にとって可能であり、本発明は上記に示し、説明した正確な構成および応用例に限定されるものではなく、対応するすべての変形例および均等物は、添付の請求項およびその均等物による本発明の範囲とみなされる。
声符号化装置の原理図である。 再生信号を求めている様子を示す図である。 振幅変動に追随できずに大きな量子化誤差が発生する様子を示す図である。 符号候補格納部で格納される符号候補の概念を説明するための図である。 作を説明するための図である。 作を説明するための図である。 作を説明するための図である。 作を説明するための図である。 作を説明するための図である。 作を説明するための図である。 号選択を示す図である。 音声符号化装置の構成を示す図である。 音声符号化装置の動作概要を示すフローチャートである。 従来の処理を行った場合の波形を示す図である。 音声符号化装置による処理を行った場合の波形を示す図である。 形例を示す図である。 変形例の動作を説明するための図である。 ADPCMコーデックのブロック構成を示す図である。 ADPCMコーデックのブロック構成を示す図である。
符号の説明
10 音声符号化装置
11 符号候補格納部
12 ローカルデコーダ
13 誤差評価部

Claims (5)

  1. 音声信号の符号化を行う音声符号化装置において、
    音声信号のサンプル値に対する符号を求める際に、前記サンプル値の近傍区間での符号候補の複数の組み合わせとして、先読みサンプル数までに取り得るすべての符号の候補を、符号を求める度に格納する符号候補格納部と、
    前記符号候補格納部で格納されている符号を復号化して再生信号を生成する復号信号生成部と、
    力サンプル値と再生信号との差分の自乗和を算出して、量子化誤差を最小とする、自乗和が最小値の符号候補を検出し、検出した符号候補の中の符号を出力する誤差評価部と、
    を有することを特徴とする音声符号化装置。
  2. 時刻nのサンプル値に対する符号を求める際に、先読みサンプル数prまでを近傍区間とした、時刻(n+k)を設定した場合(0≦k≦pr)、前記符号候補格納部は、時刻nのサンプル値の符号j1から時刻(n+k)までのサンプル値に対する符号jkの符号候補J{j1、j2、…、jk}の複数の組み合わせを格納し、前記復号信号生成部は、符号j1、j2、…、jkから再生信号sr(J)を逐次生成し、前記誤差評価部は、入力サンプル値をinとした場合、
    Figure 0004245606
    の誤差評価値e(J)を最小とする符号候補{j1、j2、…、jk}を検出し、検出した符号候補{j1、j2、…、jk}のj1を時刻nでの符号として出力することを特徴とする請求項1記載の音声符号化装置。
  3. 時刻nのサンプル値に対する符号を求める際に、先読みサンプル数prまでを近傍区間とした、近傍区間の最終段のサンプル時刻を時刻(n+k)とした場合(k=pr)、最終段時刻(n+k)の入力サンプル値in[n+k]に最も近接な符号を選択する符号選択部をさらに有し、前記復号信号生成部は、最終段時刻(n+k)の再生信号に対しては、前記符号選択部で選択された符号のみを再生して再生信号を生成することを特徴とする請求項1記載の音声符号化装置。
  4. 信号の符号化を行う符号化方法において、
    時刻nのサンプル値に対する符号を求める際に、先読みサンプル数prまでを近傍区間とした、時刻(n+k)を設定した場合(0≦k≦pr)、
    時刻nのサンプル値の符号j1から時刻(n+k)までのサンプル値に対する符号jkの符号候補J{j1、j2、…、jk}の複数の組み合わせとして、先読みサンプル数までに取り得るすべての符号の候補を、符号を求める度に格納し、
    符号j1、j2、…、jkから再生信号sr(J)を逐次生成し、
    入力サンプル値をinとした場合に、
    Figure 0004245606
    の誤差評価値e(J)を最小とする符号候補{j1、j2、…、jk}を検出し、
    検出した符号候補{j1、j2、…、jk}のj1を時刻nでの符号として出力することを特徴とする符号化方法。
  5. 時刻nのサンプル値に対する符号を求める際に、先読みサンプル数prまでを近傍区間とした、近傍区間の最終段のサンプル時刻を時刻(n+k)とした場合(k=pr)、最終段時刻(n+k)の入力サンプル値in[n+k]に最も近接な符号を選択して、最終段時刻(n+k)の再生信号に対しては、選択された前記符号のみを再生して再生信号を生成することを特徴とする請求項4記載の符号化方法。
JP2005500739A 2003-06-10 2003-06-10 音声符号化装置 Expired - Fee Related JP4245606B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2003/007380 WO2004112256A1 (ja) 2003-06-10 2003-06-10 音声符号化装置

Publications (2)

Publication Number Publication Date
JPWO2004112256A1 JPWO2004112256A1 (ja) 2006-07-20
JP4245606B2 true JP4245606B2 (ja) 2009-03-25

Family

ID=33548989

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005500739A Expired - Fee Related JP4245606B2 (ja) 2003-06-10 2003-06-10 音声符号化装置

Country Status (3)

Country Link
US (1) US7072830B2 (ja)
JP (1) JP4245606B2 (ja)
WO (1) WO2004112256A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2007043643A1 (ja) * 2005-10-14 2009-04-16 パナソニック株式会社 音声符号化装置、音声復号装置、音声符号化方法、及び音声復号化方法
WO2010028297A1 (en) * 2008-09-06 2010-03-11 GH Innovation, Inc. Selective bandwidth extension
WO2010028299A1 (en) * 2008-09-06 2010-03-11 Huawei Technologies Co., Ltd. Noise-feedback for spectral envelope quantization
WO2010028301A1 (en) * 2008-09-06 2010-03-11 GH Innovation, Inc. Spectrum harmonic/noise sharpness control
US8532983B2 (en) * 2008-09-06 2013-09-10 Huawei Technologies Co., Ltd. Adaptive frequency prediction for encoding or decoding an audio signal
US8577673B2 (en) 2008-09-15 2013-11-05 Huawei Technologies Co., Ltd. CELP post-processing for music signals
WO2010031003A1 (en) 2008-09-15 2010-03-18 Huawei Technologies Co., Ltd. Adding second enhancement layer to celp based core layer
TWI579831B (zh) * 2013-09-12 2017-04-21 杜比國際公司 用於參數量化的方法、用於量化的參數之解量化方法及其電腦可讀取的媒體、音頻編碼器、音頻解碼器及音頻系統
US20230037541A1 (en) * 2021-07-29 2023-02-09 Xinapse Co., Ltd. Method and system for synthesizing speeches by scoring speeches

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02246625A (ja) * 1989-03-20 1990-10-02 Fujitsu Ltd 音声信号の予測符号化方法
US5819213A (en) * 1996-01-31 1998-10-06 Kabushiki Kaisha Toshiba Speech encoding and decoding with pitch filter range unrestricted by codebook range and preselecting, then increasing, search candidates from linear overlap codebooks
JP3336201B2 (ja) * 1996-08-07 2002-10-21 株式会社リコー 適応予測器選択回路
JP3143406B2 (ja) 1997-02-19 2001-03-07 三洋電機株式会社 音声符号化方法
JP3462066B2 (ja) * 1998-01-29 2003-11-05 株式会社東芝 Adpcm圧縮装置、adpcm伸長装置及びadpcm圧縮伸長装置
JP2000347694A (ja) * 1999-06-07 2000-12-15 Matsushita Electric Ind Co Ltd 音声圧縮伸長装置
US6601032B1 (en) * 2000-06-14 2003-07-29 Intervideo, Inc. Fast code length search method for MPEG audio encoding

Also Published As

Publication number Publication date
US7072830B2 (en) 2006-07-04
WO2004112256A1 (ja) 2004-12-23
US20050278174A1 (en) 2005-12-15
JPWO2004112256A1 (ja) 2006-07-20

Similar Documents

Publication Publication Date Title
KR100487136B1 (ko) 음성복호화방법및장치
US20020016161A1 (en) Method and apparatus for compression of speech encoded parameters
US7426465B2 (en) Speech signal decoding method and apparatus using decoded information smoothed to produce reconstructed speech signal to enhanced quality
US20020159472A1 (en) Systems and methods for encoding & decoding speech for lossy transmission networks
JP2002055699A (ja) 音声符号化装置および音声符号化方法
KR100351484B1 (ko) 음성 부호화 장치, 음성 복호화 장치, 음성 부호화 방법 및 기록 매체
EP1598811A2 (en) Decoding apparatus and method
JP4245606B2 (ja) 音声符号化装置
EP0856185B1 (en) Repetitive sound compression system
JP2002118517A (ja) 直交変換装置及び方法、逆直交変換装置及び方法、変換符号化装置及び方法、並びに復号装置及び方法
JP4420562B2 (ja) 背景ノイズが共存する符号化音声の品質を向上させるためのシステムおよび方法
WO1997015046A9 (en) Repetitive sound compression system
JP3472279B2 (ja) 音声符号化パラメータ符号化方法及び装置
WO1998037636A1 (fr) Procede de codage de signaux vocaux
JP3905706B2 (ja) 音声符号化装置、音声処理装置及び音声処理方法
JPWO2004097798A1 (ja) 音声復号化装置、音声復号化方法、プログラム、記録媒体
US9990932B2 (en) Processing in the encoded domain of an audio signal encoded by ADPCM coding
JP3088163B2 (ja) Lsp係数の量子化方法
JP3417362B2 (ja) 音声信号復号方法及び音声信号符号化復号方法
JP3582693B2 (ja) 音声符号化方法
JPH021661A (ja) パケット補間方式
JPH09244695A (ja) 音声符号化装置及び復号化装置
JP3496618B2 (ja) 複数レートで動作する無音声符号化を含む音声符号化・復号装置及び方法
JP3047761B2 (ja) 音声符号化装置
JPH11259098A (ja) 音声符号化/復号化方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081007

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081208

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090106

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090106

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120116

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130116

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130116

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140116

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees