JP3552201B2

JP3552201B2 - 音声符号化方法および装置

Info

Publication number: JP3552201B2
Application number: JP18511499A
Authority: JP
Inventors: 公生三関; 正浩押切
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1999-06-30
Filing date: 1999-06-30
Publication date: 2004-08-11
Anticipated expiration: 2019-06-30
Also published as: JP2001013999A

Description

【０００１】
【発明の属する技術分野】
本発明は、音声信号をスペクトルパラメータと残差成分とで表して低ビットレートで高能率に符号化する音声符号化方法および装置に関する。
【０００２】
【従来の技術】
音声信号を少ない情報量で蓄積したり伝送するための低ビットレート符号化方式として、ＣＥＬＰ（ＣｏｄｅＥｘｃｉｔｅｄＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ，Ｍ．Ｒ．ＳｃｈｒｏｅｄｅｒａｎｄＢ．Ｓ．Ａｔａｌ， “ＣｏｄｅＥｘｃｉｔｅｄＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ（ＣＥＬＰ）：ＨｉｇｈＱｕａｌｉｔｙＳｐｅｅｃｈａｔＶｅｒｙＬｏｗＢｉｔＲａｔｅｓ”，Ｐｒｏｃ．ＩＣＡＳＳＰ，ｐｐ．９３７−９４０，１９８５（文献１）が知られている。また、「音のコミュニケーション工学」日本音響学会編、１９９６年、コロナ社（文献２）のｐｐ．３３−４２においても、ＣＥＬＰ方式が解説されている。
【０００３】
ＣＥＬＰ方式は線形予測分析に基づく符号化方式であり、音声信号を音韻情報となるスペクトル包絡を表すスペクトルパラメータと、音の高さ等を表す残差成分とで表して、両者を符号化する。音声信号のスペクトル包絡を表すスペクトルパラメータとしては様々なものがあるが、音声符号化の分野ではＬＰＣ係数（線形予測係数）が最も一般的に使用される。
【０００４】
ＣＥＬＰ方式では、ＬＰＣ係数は音声信号の自己相関係数に窓掛けを行うことで修正された自己相関係数から求められる。自己相関係数からＬＰＣ係数を求めるには、Ｌｅｖｉｎｓｏｎ−ＤｕｒｂｉｎａｌｇｏｒｉｔｈｍやＤｕｒｂｉｎの再帰的解法として知られている方法が用いられる。この方法の詳細については、例えば「ディジタル音声処理」東海大学出版会、古井貞氏著（文献３）のｐｐ．７５に記載されている。このようにして求められたＬＰＣ係数は、符号化に適したＬＳＰ係数などの等価なパラメータに変換される（文献３のｐｐ．８９−９２参照）。そして、これが符号化されることによりスペクトルパラメータの符号が求められる。
【０００５】
一方、残差成分の符号化に当たっては、聴覚的に符号化歪みが聞こえにくくなるように聴覚重み付きの歪み尺度により符号選択が行われる。ＣＥＬＰ方式などの従来の音声符号化技術では、符号化される前のＬＰＣ係数を聴覚重み付けにも利用することが特徴である。
【０００６】
音声信号の復号に当たっては、スペクトルパラメータの符号と残差成分の符号が復号され、復号化されたスペクトルパラメータに従って、復号化された残差成分にスペクトル包絡を与えることにより音声信号を再生する。
【０００７】
このように従来の音声符号化技術では、符号化対象にすることを主目的に求められたＬＰＣ係数を聴覚重み特性の設定にも流用しており、この制約のために必ずしも十分な聴覚重み特性を表現することができない。従って、例えば４ｋｂｉｔ／ｓ程度以下の低ビットレート符号化に従来の音声符号化技術を用いると、符号化歪みへの影響が大きい残差成分の劣化を聴覚重み付けによってマスクしきれなくなり、高品質の復号音声を得ることができなくなる。
【０００８】
【発明が解決しようとする課題】
上述したように従来の音声符号化技術では、符号化対象にすることを主目的に求められたＬＰＣ係数を聴覚重み特性の設定にも流用することから、必ずしも十分な聴覚重み特性を表現することができないため、さらなる低ビットレート化を図ろうとすると、符号化歪みが大きい残差成分の劣化を聴覚重み付けによってマスクしきれなくなり、復号音声の品質が劣化するという問題があった。
【０００９】
本発明は、低ビットレート化を図りつつ符号化歪みが知覚されにくい音声符号化方法および装置を提供することを目的とする。
【００１０】
【課題を解決するための手段】
上記の課題を解決するため、本発明は入力音声信号をスペクトル包絡を表すスペクトルパラメータと残差成分とで表し、これらスペクトルパラメータおよび残差成分を符号化する音声符号化に際して、入力音声信号から求められた第１の自己相関係数を修正して得られた第２の自己相関係数からスペクトルパラメータを算出して符号化し、また第２の自己相関係数を得る際の第１の自己相関係数の修正の度合いよりも小さな修正の度合で第１の自己相関係数を修正して求められた第３の自己相関係数から聴覚重み特性を求め、これらスペクトルパラメータおよび聴覚重み特性を用いて残差成分を符号化することを基本的な特徴とする。
【００１１】
ここで、自己相関係数の修正は、例えば自己相関窓を用いて行われる。第１の自己相関係数に対して自己相関窓を用いて窓掛けを行うことにより、修正された第２または第３の自己相関係数が得られる。この場合、第２の自己相関係数を得る際に用いる第１の自己相関窓と、第３の自己相関係数を得る際に用いる第２の自己相関窓を形状の異なるものとする。
【００１２】
より具体的には、本発明では入力音声信号から所定の時間単位毎に第１の自己相関係数が算出される。第１の自己相関係数に対し、第１の窓掛け部で第１の自己相関窓を用いて窓掛けを行うことにより第２の自己相関係数が求められ、同様に第２の窓掛け部で形状が第１の自己相関窓と異なる第２の自己相関窓を用いて窓掛けを行うことにより第３の自己相関係数を求められる。
【００１３】
第２の自己相関係数を用いて符号化対象となる第１のスペクトルパラメータが算出され、この第１のスペクトルパラメータが符号化される。一方、第３の自己相関係数を用いて別の第２のスペクトルパラメータが算出され、この第２のスペクトルパラメータから聴覚重み特性が設定され、第１のスペクトルパラメータおよび聴覚重み特性を用いて残差成分が符号化される。
【００１４】
このような本発明によると、第１の自己相関窓を符号化対象となる第１のスペクトルパラメータ（例えばＬＰＣ係数）を求めるために最適化した形状とし、第２の自己相関窓を聴覚重み特性の設定に用いる第２のスペクトルパラメータを求めるために最適化した形状とすることにより、符号化対象の第１のスペクトルパラメータと聴覚重み特性のそれぞれを精度よく求めることができるようになる。従って、非常に低い符号化ビットレートでも、復号時に符号化歪みが知覚されにくく、高品質の復号音声を再生できる音声符号化が可能となる。
【００１５】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態を説明する。
【００１６】
（第１の実施形態）
図１は、本発明の第１の実施形態に係る音声符号化装置の構成を示すブロック図である。この音声符号化装置は自己相関算出部１０１、第１窓掛け部１０２、第２窓掛け部１０３、符号化用スペクトルパラメータ算出部１０４、聴覚重み用スペクトルパラメータ算出部１０５、スペクトルパラメータ符号化部１０６、聴覚重み設定部１０７、残差成分符号化部１０８および多重化部１０９からなる。
【００１７】
自己相関算出部１０１では、所定のサンプリング周波数でサンプリングされディジタル化された入力音声信号から、所定の時間単位毎に次式で示すように第１の自己相関係数ｒｉ（ｒ０，ｒ１，…，ｒＮ）が算出される。
【００１８】
【数１】

【００１９】
ここで、｛ｘ_ｎ｝は入力音声信号に長さＬの時間窓をかけて切り出した入力音声信号系列、Ｎは自己相関の次数をそれぞれ表しており、入力音声信号のサンプリング周波数が８ｋＨｚの場合、典型的なＮの値はＮ＝１０である。
【００２０】
次に、自己相関算出部１０１で求められた第１の自己相関係数ｒｉに対して、第１窓掛け部１０２で第１の自己相関窓による窓掛けが行われることにより、第１の自己相関係数ｒｉが修正され、第２の自己相関係数φｉ（φ０，φ１，…，φＮ）が求められる。この第１の自己相関窓による窓掛け処理の一例は、次式に示される。
φｉ＝ｒｉ×ｗｉ（ｉ＝０，１，…，Ｎ）（２）
ここで、ｗｉは第１の自己相関窓を表す。
【００２１】
次に、符号化用スペクトルパラメータ算出部１０４において、第２の自己相関係数φｉを用いて符号化対象となるスペクトルパラメータが求められる。スペクトルパラメータとしてはパワースペクトル、ＬＰＣケプストラム、メル尺度のスペクトルパラメータ、サブバンドエネルギーなど様々なものが知られているが、ここではＬＰＣ係数（線形予測係数）の例について示す。ＬＰＣ係数は、次の線形方程式を解くことにより算出される。
Φα＝ψ （３）
ここで、Φは次式に示すように、第２の自己相関係数φｉから構成される自己相関行列である。
【００２２】
【数２】

【００２３】
式（３）の方程式からＬＰＣ係数｛αｉ｝を求める方法としては、例えばＬｅｖｉｎｓｏｎ−Ｄｕｒｂｉｎａｌｇｏｒｉｔｈｍや、Ｄｕｒｂｉｎの再帰的解法を用いることができ、これらの方法は先の文献３のｐｐ．７５に記載されているので、詳細な説明は省略する。
【００２４】
こうして求められた符号化対象となるスペクトルパラメータ（以下、符号化用スペクトルパラメータという）（ここではＬＰＣ係数｛αｉ｝）は、スペクトルパラメータ符号化部１０６によって符号化され、量子化されたスペクトルパラメータとこれを表すスペクトルパラメータの符号Ａが出力される。
【００２５】
このスペクトルパラメータの符号化に当たっては、例えばスペクトルパラメータがＬＰＣ係数である場合、ＬＰＣ係数をＬＳＰ（線スペクトル対）係数などの等価なパラメータに変換し（文献３のｐｐ．８９−９２参照）、これをベクトル量子化法を用いて符号化することにより、同一ビット数の下でより量子化歪みの少ないスペクトルパラメータの符号化を行うことができる。
【００２６】
次に、自己相関係数から聴覚重み特性を設定するために、まず自己相関算出部１０１で求められた第１の自己相関係数ｒｉに対して第２窓掛け部１０３で第２の自己相関窓による窓掛けが行われることにより、第１の自己相関係数ｒｉが修正され、第３の自己相関係数φ′ｉ（φ′０，φ′１，…，φ′Ｎ）が求められる。この第２の自己相関窓による窓掛け処理の一例は、次式に示される。
φ′ｉ＝ｒｉ×ｖｉ（ｉ＝０，１，…，Ｎ）（５）
ここで、ｖｉは第２の自己相関窓を表す。
【００２７】
第２の自己相関窓ｖｉは、聴覚重み特性を設定するために用いる窓であり、第１の自己相関窓ｗｉとは形状が異なる。より具体的には、第１の自己相関窓ｗｉよりも第２の自己相関窓ｖｉの方が自己相関係数に与える修正の度合いが小さくなるような関係になるように、これら２つの自己相関窓ｗｉ，ｖｉを設定することが望ましい。この理由は、次の通りである。
【００２８】
まず、第１の自己相関窓ｗｉについては、これを用いて最終的に符号化用スペクトルパラメータ算出部１０４で求められる符号化用スペクトルパラメータは、スペクトルパラメータ符号化部１０６内で量子化された後に音声信号を生成するための合成フィルタのフィルタ特性として用いられるので、周波数特性に過度に強い共振点を持たないように、自己相関係数に対する修正の度合いが比較的強い窓形状とすることが望ましい。
【００２９】
一方、第２の自己相関窓ｖｉは、最終的に音声信号のスペクトルの形状に対応した周波数マスキング効果を反映するための聴覚重み特性の設定に使用することから、過度に強い共振点を持たないようにすることが必要ではあるが、合成フィルタのフィルタ特性として用いられることはないので、第１の自己相関窓ｗｉよりも自己相関係数に対する修正の度合いは小さくなるような窓形状とすることが望ましい。
【００３０】
次に、聴覚重み用スペクトルパラメータ算出部１０５において、第２窓掛け部１０３で得られた第３の自己相関係数φ′ｉを用いて聴覚重みの設定に必要なスペクトルパラメータ（以下、聴覚重み用スペクトルパラメータという）が求められる。この聴覚重み用スペクトルパラメータとして、ＬＰＣ係数を用いる場合には、前述の符号化用パラメータとして用いられるＬＰＣ係数の算出方法と同じアルゴリズムを用いることができることは言うまでもない。このときの線形方程式は、次のようになる。
Φ′β＝ψ′ （６）
ここで、Φ′は次式に示すように、第３の自己相関係数φ′ｉから構成される自己相関行列である。
【００３１】
【数３】

【００３２】
第２の自己相関窓ｖｉは第１の自己相関窓ｗｉと異なるため、第２の自己相関窓ｖｉにより修正される第３の自己相関係数φ′ｉを用いて算出される聴覚重み用スペクトルパラメータとしてのＬＰＣ係数｛βｉ｝は、第１の自己相関窓ｗｉにより修正された符号化用スペクトルパラメータとしてのＬＰＣ係数｛αｉ｝とはスペクトルの特性が異なる。従って、第２の自己相関窓ｖｉを聴覚重み用に適切に設定することによって、より精度の高い聴覚重み特性を残差成分の符号化に用いることができるという効果がある。
【００３３】
聴覚重み設定部１０７は、聴覚重み用スペクトルパラメータ（この例ではＬＰＣ係数｛βｉ｝）を用いて、残差成分符号化部１０８での聴覚重み付けに用いる聴覚重み特性の設定を行う。残差成分符号化部１０８において時間領域で聴覚重み付けを行って残差成分の符号化を行う場合には、聴覚重み付けはＷ（ｚ）なる特性の重みフィルタによるフィルタリング処理として実現される。ＬＰＣ係数｛βｉ｝を用いた聴覚重み付けフィルタ特性Ｗ（ｚ）の典型的な例は、次式に示される。
【００３４】
【数４】

【００３５】
ここで、Ｂ（ｚ）は次式となる。
【００３６】
【数５】

【００３７】
γ１，γ２は残差成分符号化部１０８での聴覚重み付け特性を設定するパラメータであり、１≧γ１＞γ２＞０の関係が必要である。典型的な例としては、例えばγ１＝０．９４、γ２＝０．６を用いることができる。
【００３８】
残差成分符号化部１０８は、入力音声信号とスペクトルパラメータ符号化部１０６からの量子化されたスペクトルパラメータと聴覚重みの情報を入力し、量子化されたスペクトルパラメータと共に音声信号を表すの必要な残差成分の符号化を行い、得られた残差成分の符号Ｂを出力する。
【００３９】
以上のようにしてスペクトルパラメータ符号化部１０６で得られたスペクトルパラメータの符号Ａと、残差成分符号化部１０８で得られた残差成分の符号Ｂは多重化部１０９で多重化され、入力音声信号を表す符号化データとして出力される。この符号化データは、蓄積系または伝送系へ送出される。
【００４０】
次に、図２に示すフローチャートを用いて、本実施形態による音声符号化装置と同様の音声符号化処理をソフトウェアにより実現する場合の処理手順を説明する。
【００４１】
まず、入力音声信号から所定の時間単位毎に第１の自己相関係数ｒｉ（ｒ０，ｒ１，…，ｒＮ）を求める（ステップＳ１）。
次に、この自己相関係数ｒｉに第１の自己相関窓ｗｉ（ｗ０，ｗ１，…，ｗＮ）による窓掛けを行い、修正された第２の自己相関係数φｉ（φ０，φ１，…，φＮ）を求める（ステップＳ２）。
次に、第２の自己相関係数φｉを用いて符号化対象となる符号化用スペクトルパラメータを求める（ステップＳ３）。
次に、符号化用スペクトルパラメータを符号化し、この符号化の過程で得られる量子化されたスペクトルパラメータとそれを表すスペクトルパラメータの符号を求める（ステップＳ４）。
【００４２】
一方、ステップＳ１で求められた第１の自己相関係数ｒｉから、聴覚重み特性を設定するまでの処理を以下のようにして行う。
すなわち、自己相関係数ｒｉに第２の自己相関窓ｖｉ（ｖ０，ｖ１，…，ｖＮ）による窓掛けを行い、修正された第３の自己相関係数φ′ｉ（φ′０，φ′１，…，φ′Ｎ）を求める（ステップＳ５）。
次に、第３の自己相関係数φ′ｉを用いて、聴覚重みの設定に必要な聴覚重み用スペクトルパラメータを求める（ステップＳ６）。
次に、この聴覚重み用スペクトルパラメータを用いて残差成分符号化で用いる聴覚重み特性の設定を行う（ステップＳ７）。
次に、入力音声信号と量子化されたスペクトルパラメータと聴覚重み特性の情報を用いて、量子化されたスペクトルパラメータと共に音声信号を表すために必要な残差成分の符号化を行う（ステップＳ８）。
そして、ステップＳ４とＳ８の処理により得られたスペクトルパラメータの符号と残差成分の符号を多重化して音声信号の符号データとして出力する（ステップＳ９）。
【００４３】
以上のステップＳ１〜Ｓ９の処理を終えると、一つの時間単位（典型的には、入力音声信号が８ｋＨｚでサンプリングされているとき２０ｍｓｅｃ）の音声信号の符号化処理が終了する。この一連の処理をステップＳ１０で次の時間単位の処理を行わないと判定されるまで時間単位毎に連続して行うことにより、連続して入力される音声信号の符号化を行うことができる。
【００４４】
（第２の実施形態）
図３は、本発明をＣＥＬＰ方式に適用した音声符号装置の構成を示すブロック図である。この図では、特にＣＥＬＰ方式の特徴である残差成分符号化部について、図１よりも詳細に示している。ＣＥＬＰ方式の詳細については、前述したように文献１や文献２に記載されている。
【００４５】
この音声符号化装置は自己相関算出部３０１、第１窓掛け部３０２、第２窓掛け部３０３、符号化用ＬＰＣ係数算出部３０４、聴覚重み用ＬＰＣ係数算出部３０５、ＬＰＣ係数符号化部３０６、聴覚重み設定部３０７、残差成分符号化部３０８および多重化部３０９からなる。
【００４６】
ここで、自己相関算出部３０１、第１窓掛け部３０２、第２窓掛け部３０３、符号化用ＬＰＣ係数算出部３０４、聴覚重み用ＬＰＣ係数算出部３０５、ＬＰＣ係数符号化部３０６および聴覚重み設定部３０７については、第１の実施形態における自己相関算出部１０１、第１窓掛け部１０２、第２窓掛け部１０３、符号化用スペクトルパラメータ算出部１０４、聴覚重み用スペクトルパラメータ算出部１０５、スペクトルパラメータ符号化部１０６および聴覚重み設定部１０７と同様であるので、説明を省略する。
【００４７】
残差成分符号化部３０８は目標信号生成部３１１、適応音源符号化部３１２、雑音音源符号化部３１３、ゲイン符号化部３１４、駆動信号生成部３１５および重み付き合成フィルタ３１６から構成される。以下、残差成分符号化部３０８の各部の構成について詳細に説明する。
【００４８】
目標信号生成部３１１は、聴覚重み設定部３０７により聴覚重み特性が設定される聴覚重みフィルタを有し、この聴覚重みフィルタを用いて入力音声信号に対しフィルタリングを行うことにより聴覚重み付けがなされた音声信号を生成すると共に、この聴覚重み付けがなされた音声信号から前の時間単位での符号化の影響を差引くことにより、残差成分の符号化の目標となる目標信号｛ｆｎ｝を生成する。
【００４９】
適応音源符号化部３１２は、ＣＥＬＰ方式の音声符号化でよく知られている適応符号帳を有し、目標信号｛ｆｎ｝（目標ベクトルｆ）を用いて次式の誤差ベクトルｅ０の大きさをより小さくする、好ましくは最小化する最適な適応符号ベクトルｃ０を適応符号帳の中から探索する。
ｅ０＝ｆ−Ｈｗｃ０（ｉ）（１０）
ここで、ｉは適応符号ベクトルの候補となるコードベクトルのインデックスを示す。また、Ｈｗは聴覚重み付けられた音声のスペクトル包絡特性（聴覚重み付けられた合成フィルタの特性）Ｈｗ（ｚ）を有するフィルタのインパルス応答から構成されるインパルス応答行列である。
【００５０】
聴覚重み付けられたスペクトル包絡特性Ｈｗ（ｚ）は、次式で表される。
【００５１】
【数６】

【００５２】
ここで、Ｗ（ｚ）は式（４）に示した聴覚重みフィルタ特性、またＡｑ（ｚ）は次式で表される。
【００５３】
【数７】

【００５４】
ただし、α_ｑｉは量子化されたＬＰＣ係数である。
【００５５】
こうして適応符号ベクトルの候補の中から選択された適応符号ベクトルのインデックスＩと、これに対応する適応符号ベクトルｃ０（Ｉ）が適応音源符号化部３１２から出力される。
【００５６】
次に、雑音音源符号化部３１３においては、ＣＥＬＰ方式の音声符号化でよく知られている所定の方法で構成される雑音符号帳または擬似的に雑音を表現することのできるパルス音源等を用いて、適応音源符号化部３１２で表しきれなかった成分の符号化を行う。この際に用いる目標ベクトルｄは、ｄ＝ｆ−ｃ０（Ｉ）とすることができる。この目標ベクトルｄを用いて、次式の誤差ベクトルｅ１の大きさをより小さくする、好ましくは最小化する最適な雑音符号ベクトルｃ１を雑音符号ベクトル候補の中から探索する。
ｅ１＝ｄ−Ｈｗｃ１（ｊ）（１３）
ここで、ｊは雑音符号ベクトルの候補となる符号ベクトルのインデックスを示す。
【００５７】
こうして雑音符号ベクトルの候補の中から選択された雑音符号ベクトルのインデックスＪと、これに対応する雑音符号ベクトルｃ１（Ｊ）が雑音音源符号化部３１１から出力される。
【００５８】
次に、ゲイン符号化部３１４は、ＣＥＬＰ方式の音声符号化でよく知られている所定の方法で構成されるゲイン符号化帳を有し、適応音源符号化部３１２から出力される適応符号ベクトルｃ０（Ｉ）と雑音音源符号化部３１３から出力される雑音符号ベクトルｃ１（Ｊ）にそれぞれ乗じるためのゲインを符号化する。符号化に際しては、次式に示す誤差ベクトルｅｇの大きさをより小さくする、好ましくは最小化する最適なゲインをゲイン符号化帳に格納されたゲインベクトルの候補ｇ０（ｋ），ｇ１（ｋ）（ただし、ｋはゲインベクトルのインデックス）の中から探索する。

こうしてゲインベクトルの候補ｇ０（ｋ），ｇ１（ｋ）の中から探索されたゲインのインデックスＫと、それに対応するゲインベクトルｇ０（Ｋ），ｇ１（Ｋ）がゲイン符号化部３１４から出力される。
【００５９】
適応音源符号化部３１２から出力される適応符号化ベクトルｃ０（Ｉ）、雑音音源符号化部３１３から出力される雑音符号ベクトルｃ１（Ｊ）およびゲイン符号化部３１４から出力されるゲインベクトルｇ０（Ｋ），ｇ１（Ｋ）は、駆動信号生成部３１５に入力される。駆動信号生成部３１５は、次式に示すように適応符号ベクトルｃ０（Ｉ），雑音符号ベクトルｃ１（Ｊ）をそれぞれにゲインベクトルｇ０（Ｋ），ｇ１（Ｋ）を乗じた後に加算することにより、量子化された残差ベクトルｅｘを求める。この残差ベクトルｅｘは、適応音源符号化部３１２に入力されて適応符号帳に格納されるとともに、重み付き合成フィルタ３１６に駆動信号として入力される。
【００６０】
ｅｘ＝ｇ０（Ｋ）ｃ０（Ｉ）＋ｇ１（Ｋ）ｃ１（Ｊ）（１５）
そして最後に、残差ベクトルｅｘと重み付き合成フィルタの特性Ｗ（ｚ）およびＡｑ（ｚ）を用いて、入力音声信号の次の時間単位の符号化に及ぶ影響を求めるための重み付き合成フィルタの内部状態を求め、これを目標信号生成部３１１に供給する。
【００６１】
最後に、以上のようにして得られたスペクトルパラメータ（ＬＰＣ係数）の符号Ａと、図１における残差成分の符号Ｂに相当する適応符号ベクトルのインデックスＩ、雑音符号ベクトルのインデックスＪおよびゲインベクトルのインデックスＫが多重化部３０９で多重化され、入力音声信号を表す符号化データとして出力される。この符号化データは、蓄積系または伝送系に送出される。
【００６２】
次に、本実施形態に係る音声復号化装置について説明する。図４は、同実施形態に係る図３に示した音声符号化装置に対応する音声復号化装置の構成を示すブロック図である。
【００６３】
本発明は、基本的に符号化側におけるスペクトルパラメータ（例えばＬＰＣ係数）および残差成分の抽出法に特徴を有するものであり、図３に示した音声符号化装置から出力される符号化データそのものは、従来のＣＥＬＰ方式のそれと基本的に変わらない。従って、音声復号化装置の構成は、従来のＣＥＬＰ方式のそれと同様でよい。
【００６４】
図４に示す音声復号化装置は、分離部４００、ＬＰＣ係数復号化部４０１、適応音源復号化部４０２、雑音音源復号化部４０３、ゲイン復号化部４０４、駆動信号生成部４０５、合成フィルタ４０６およびポストフィルタ４０７から構成される。
【００６５】
分離部４００では、図３に示した音声符号化装置より蓄積系または伝送系を経て入力された符号化データから、スペクトルパラメータ（ＬＰＣ係数）の符号Ａと、残差成分の符号に相当する適応符号ベクトルのインデックスＩ、雑音符号ベクトルのインデックスＪおよびゲインベクトルのインデックスＫが分離され、それぞれＬＰＣ係数復号化部４０１、適応音源復号化部４０２、雑音音源復号化部４０３およびゲイン復号化部４０４に入力される。
【００６６】
ＬＰＣ係数復号化部４０１では、音声符号化装置と同様にしてスペクトルパラメータＡの符号に対応する量子化されたＬＰＣ係数を再生し、これを合成フィルタ４０６およびポストフィルタ４０７に供給する。
【００６７】
適応音源復号化部４０２は、図３の適応音源符号化部３１２と同様に適応符号帳を有し、インデックスＩに対応する適応符号ベクトルｃ０（Ｉ）を求めて駆動信号生成部４０５に供給する。雑音音源復号化部４０３は、図３の雑音音源符号化部３１３と同様に雑音符号帳を有し、インデックスＪに対応する雑音符号ベクトルｃ１（Ｊ）を求めて駆動信号生成部４０５に供給する。さらに、ゲイン復号化部４０４は、図３のゲイン符号化部３１４と同様にゲイン符号帳を有し、インデックスＫに対応するゲインベクトルｇ０（Ｋ），ｇ１（Ｋ）を求めて駆動信号生成部４０５に供給する。
【００６８】
駆動信号生成部４０５は、図３の駆動信号生成部３１５と同様に式（１５）に従って適応符号ベクトルｃ０（Ｉ）、雑音符号ベクトルｃ１（Ｊ）およびゲインベクトルｇ０（Ｋ），ｇ１（Ｋ）から量子化された残差ベクトルｅｘを求める。この残差ベクトルｅｘは、適応音源復号化部４０２に入力されて適応符号帳に格納されるとともに、合成フィルタ４０６に駆動信号として入力される。
【００６９】
合成フィルタ４０６は、ＬＰＣ係数復号化部４０１で求められた量子化されたＬＰＣ係数α_ｑｉを用いて式（１２）と逆特性１／Ａｑ（ｚ）のフィルタリングを駆動信号（残差ベクトルｅｘ）に対して行うことにより、復号された音声信号を合成する。この合成フィルタ４０６の出力信号は、ＬＰＣ係数復号化部４０１で求められた量子化されたＬＰＣ係数α_ｑｉを用いて特性が設定されたポストフィルタ４０７によってスペクトル形状が強調されることにより、最終的な復号音声信号が生成される。
【００７０】
以上、本発明の実施形態について説明したが、本発明はこれに限られるものでなく、種々変形して実施することができる。
例えば、上記の実施形態においては、自己相関係数の修正法として自己相関係数に自己相関窓を乗じて窓掛け処理を行う方法を例にとり説明したが、自己相関係数の修正手法はこれに限られるものではない。要するに、符号化の対象とするスペクトルパラメータに供する自己相関係数と、聴覚重み特性の設定に供する自己相関係数がそれぞれに適した異なる条件で修正され、共通の自己相関係数に端を発して求められる手法であればよい。
【００７１】
また、自己相関係数の定義に上記実施形態での説明と多少違いがある場合や、自己相関係数の代りに正規化自己相関係数を用いた場合についても、本発明を適用できることは言うまでもない。
【００７２】
【発明の効果】
以上説明したように、本発明では入力音声信号から求められた第１の自己相関係数をそれぞれ異なる条件で修正して得られた第２、第３の自己相関係数をそれぞれ用いて、符号化対象のスペクトルパラメータと残差成分の符号化に用いる聴覚重み特性を個別に求めることによって、符号化対象のスペクトルパラメータおよび聴覚重み特性をいずれも精度よく求めることが可能となる。
【００７３】
従って、本発明によると４ｋｂｉｔ／ｓ程度以下というような低ビットレート符号化においても、符号化歪みが知覚されにくい高品質の復号音声が得られる音声符号化を実現することができる。
【図面の簡単な説明】
【図１】本発明の第１の実施形態に係る音声符号化装置の構成を示すブロック図
【図２】同第２の実施形態に係る音声符号化の処理手順を示すフローチャート
【図３】本発明の第２の実施形態に係る音声符号化装置の構成を示すブロック図
【図４】同第２の実施形態に係る音声符号化装置に対応する音声復号化装置の構成を示すブロック図
【符号の説明】
１０１，３０１…自己相関算出部
１０２，３０２…第１窓掛け部
１０３，３０３…第２窓掛け部
１０４，３０４…符号化用スペクトルパラメータ算出部
１０５，３０５…聴覚重み用スペクトルパラメータ算出部
１０６…スペクトルパラメータ符号化部
３０６…ＬＰＣ係数符号化部
１０７，３０７…聴覚重み設定部
１０８，３０８…残差成分符号化部
１０９，３０９…多重化部

Claims

入力音声信号をスペクトル包絡を表すスペクトルパラメータと残差成分とで表し、これらスペクトルパラメータおよび残差成分を符号化する音声符号化方法において、
前記入力音声信号から求められた第１の自己相関係数を修正して得られた第２の自己相関係数から前記スペクトルパラメータを算出して符号化し、
前記第２の自己相関係数を得る際の前記第１の自己相関係数の修正の度合いよりも小さな修正の度合で前記第１の自己相関係数を修正して求められた第３の自己相関係数から聴覚重み特性を求め、
前記スペクトルパラメータおよび前記聴覚重み特性を用いて前記残差成分を符号化することを特徴とする音声符号化方法。
入力音声信号をスペクトル包絡を表すスペクトルパラメータと残差成分とで表し、これらスペクトルパラメータおよび残差成分を符号化する音声符号化方法において、
前記入力音声信号から求められた第１の自己相関係数を第１の自己相関窓を用いて修正して得た第２の自己相関係数から前記スペクトルパラメータを算出して符号化し、
前記第１の自己相関係数を前記第１の自己相関窓よりも前記第１の自己相関係数に与える修正の度合いが小さい第２の自己相関窓を用いて修正して得た第３の自己相関係数から聴覚重み特性を求め、
前記スペクトルパラメータおよび聴覚重み特性を用いて前記残差成分を符号化を行うことを特徴とする音声符号化方法。
入力音声信号をスペクトル包絡を表すスペクトルパラメータと残差成分とで表し、これらスペクトルパラメータおよび残差成分を符号化する音声符号化方法において、
前記入力音声信号から所定の時間単位毎に第１の自己相関係数を算出するステップと、
前記第１の自己相関係数に対し第１の自己相関窓を用いて窓掛けを行うことにより、前記第１の自己相関係数を修正して第２の自己相関係数を求めるステップと、
前記第２の自己相関係数を用いて第１のスペクトルパラメータを算出するステップと、
前記第１のスペクトルパラメータを符号化するステップと、
前記第１の自己相関係数に対し前記第１の自己相関窓よりも前記第１の自己相関係数に与える修正の度合いが小さい、前記第１の自己相関係数とは形状の異なる第２の自己相関窓を用いて窓掛けを行うことにより、前記第１の自己相関係数を修正して第３の自己相関係数を求めるステップと、
前記第３の自己相関係数を用いて第２のスペクトルパラメータを算出するステップと、
前記第２のスペクトルパラメータに基づいて聴覚重み特性を設定するステップと、
前記第１のスペクトルパラメータおよび前記聴覚重み特性を用いて前記残差成分を符号化するステップと
を有することを特徴とする音声符号化方法。
入力音声信号をスペクトル包絡を表すスペクトルパラメータと残差成分とで表し、これらスペクトルパラメータおよび残差成分を符号化する音声符号化装置において、
前記入力音声信号から所定の時間単位毎に第１の自己相関係数を算出する自己相関算出手段と、
前記第１の自己相関係数に対し第１の自己相関窓を用いて窓掛けを行うことにより、前記第１の自己相関係数を修正して第２の自己相関係数を求める第１の窓掛け手段と、
前記第２の自己相関係数を用いて第１のスペクトルパラメータを算出する第１のスペクトルパラメータ算出手段と、
前記第１のスペクトルパラメータ算出手段により算出されたスペクトルパラメータを符号化するスペクトルパラメータ符号化手段と、
前記第１の自己相関係数に対し前記第１の自己相関窓よりも前記第１の自己相関係数に与える修正の度合いが小さい、前記第１の自己相関係数とは形状の異なる第２の自己相関窓を用いて窓掛けを行うことにより、前記第１の自己相関係数を修正して第３の自己相関係数を求める第２の窓掛け手段と、
前記第１の自己相関係数に対し形状が前記第１の自己相関窓と異なる第２の自己相関窓を用いて窓掛けを行うことにより、第３の自己相関係数を求める第２の窓掛け手段と、
前記第３の自己相関係数を用いて第２のスペクトルパラメータを算出する第２のスペクトルパラメータ算出手段と、
前記第２のスペクトルパラメータに基づいて聴覚重み特性を設定する聴覚重み特性設定手段と、
前記第１のスペクトルパラメータおよび前記聴覚重み設定手段により設定された聴覚重み特性を用いて前記残差成分を符号化する残差成分符号化手段と
を有することを特徴とする音声符号化装置。