JPWO2004097798A1

JPWO2004097798A1 - 音声復号化装置、音声復号化方法、プログラム、記録媒体

Info

Publication number: JPWO2004097798A1
Application number: JP2004571323A
Authority: JP
Inventors: 田中　正清; 正清田中; 鈴木　政直; 政直鈴木; 大田　恭士; 恭士大田; 土永　義照; 義照土永
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2003-05-01
Filing date: 2003-05-01
Publication date: 2006-07-13
Anticipated expiration: 2023-05-01
Also published as: JP4786183B2; EP1619666B1; US20050187762A1; WO2004097798A1; EP1619666A4; US7606702B2; DE60330715D1; EP1619666A1

Abstract

符号分離／復号部は、音声符号ｃｏｄｅから声道特性ｓｐ１と音源信号ｒ１を復元する。声道特性修正部は、この声道特性ｓｐ１を修正し、修正後の声道特性ｓｐ２を出力する。これは、例えば、声道特性ｓｐ１に対して直接ホルマント強調処理を施すことで、強調された声道特性ｓｐ２を生成・出力する。信号合成部は、修正（強調）された声道特性ｓｐ２と、音源信号ｒ１とを合成して、出力音声ｓを生成・出力する。

Description

本発明は、音声符号化処理を施して通信する携帯電話等の通信装置に係わり、特にその音声復号化装置であって音声の明瞭度を高め受話音声を聞き取りやすくする音声復号化装置、復号方法等に関する。

近年、携帯電話は広く普及している。携帯電話システムでは、回線を有効利用するため、音声を圧縮する音声符号化技術が用いられている。このような音声符号化技術の中で、低ビットレートで音声品質が優れている符号化方式として、符号励振線形予測（ＣｏｄｅＥｘｃｉｔｅｄＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ：ＣＥＬＰ）方式が知られており、ＩＴＵ−ＴＧ．７２９方式、３ＧＰＰＡＭＲ方式など、多くの音声符号化規格で、ＣＥＬＰをベースとした符号化方式が採用されている。また、携帯電話システムに限らず、例えばＶｏＩＰ（ｖｏｉｃｅｏｖｅｒＩＰ）、ＴＶ会議システム等で利用されている音声圧縮方式も、ＣＥＬＰアルゴリズムをベースとしたものが主流である。
ここで、ＣＥＬＰについて簡単に説明する。ＣＥＬＰは、１９８５年にＭ．Ｒ．Ｓｃｈｒｏｄｅｒ氏とＢ．Ｓ．Ａｔａｌ氏によって発表された音声符号化方式であり、人間の音声生成モデルに基づいて入力音声からパラメータを抽出し、パラメータを符号化して伝送することにより、高能率の情報圧縮を実現している。
図１６に、音声の生成モデルを示す。音声の生成過程は、音源（声帯）１１０で発生された音源信号が調音系（声道）１１１に入力され、声道１１１において声道特性が付加された後、最終的に唇１１２から音声波形となって出力される（非特許文献１参照）。つまり、音声は、音源特性と声道特性より成る。
図１７に、ＣＥＬＰ符号器・復号器の処理の流れを示す。
図１７において、例えば携帯電話等にＣＥＬＰ符号器及びＣＥＬＰ復号器が搭載されており、送信側の携帯電話のＣＥＬＰ符号器１２０から受信側の携帯電話のＣＥＬＰ復号器１３０に対して、不図示の伝送路（無線回線、携帯電話網等）を介して、音声信号（音声符号ｃｏｄｅ）を伝送する様子を示す。
送信側の携帯電話のＣＥＬＰ符号器１２０では、前述の音声生成モデルに基づいてパラメータ抽出部１２１が、入力音声を分析して、入力音声を、声道特性を表す線形予測係数（ＬｉｎｅａｒＰｒｅｄｉｃｔｏｒＣｏｅｆｆｉｅｉｅｎｔｓ：ＬＰＣ係数）と、音源信号とに分離する。パラメータ抽出部１２１は、更に、音源信号から、音源信号の周期成分を表す適応符号帳（ＡｄａｐｔｉｖｅＣｏｄｅＢｏｏｋ：ＡＣＢ）ベクトル、非周期成分を表す雑音符号帳（ＳｔｏｃｈａｓｔｉｃＣｏｄｅＢｏｏｋ：ＳＣＢ）ベクトル、及び両ベクトルのゲインを抽出する。
次に、符号化部１２２が、これらＬＰＣ係数、ＡＣＢベクトル、ＳＣＢベクトル、ゲインを符号化して、ＬＰＣ符号、ＡＣＢ符号、ＳＣＢ符号、ゲイン符号を生成し、符号多重化部１２３がこれらを多重化して音声符号ｃｏｄｅとし、受信側の携帯電話へ伝送する。
受信側の携帯電話のＣＥＬＰ復号器１３０では、まず、符号分離部１３１が、伝送されてきた音声符号ｃｏｄｅを、ＬＰＣ符号、ＡＣＢ符号、ＳＣＢ符号、ゲイン符号に分離して、これらを復号部１３２がＬＰＣ係数、ＡＣＢベクトル、ＳＣＢベクトル、及びゲインへと復号する。そして、復号された各パラメータから、音声合成部１３３が音声を合成する。
以下に、ＣＥＬＰ符号器、ＣＥＬＰ復号器について更に詳細に説明する。
図１８に、ＣＥＬＰ符号器のパラメータ抽出部１２１のブロック図を示す。
ＣＥＬＰでは、入力音声を一定長のフレーム単位で符号化する。まず、ＬＣＰ分析部１４１が、公知の線形予測分析（ＬＰＣ分析）手法により、入力音声からＬＰＣ係数を求める。このＬＰＣ係数は、声道特性を全極型の線形フィルタで近似した際のフィルタ係数である。
次に、音源信号の抽出を行う。音源信号の抽出には、合成による分析（ＡｎａｌｙｓｉｓｂｙＳｙｎｔｈｅｓｉｓ：ＡｂＳ）手法が用いられる。ＣＥＬＰでは、音源信号を、ＬＰＣ係数で構成されるＬＰＣ合成フィルタ１４２に入力することで音声を再生する。従って、適応符号帳１４３に格納された複数のＡＣＢベクトル、雑音符号帳１４４に格納された複数のＳＣＢベクトル、及び両ベクトルのゲインの組み合わせにより構成される音源候補から、ＬＰＣ合成フィルタ１４２によって音声を合成した際に入力音声との誤差が最小になる符号帳の組み合わせを、誤差電力評価部１４５が探索して、ＡＣＢベクトル、ＳＣＢベクトル、ＡＣＢゲイン、ＳＣＢゲインを抽出する。
以上の操作により抽出した各パラメータを、上記の通り、符号化部１２２によって符号化し、ＬＰＣ符号、ＡＣＢ符号、ＳＣＢ符号、及びゲイン符号を得る。得られた各符号を符号多重化部１２３によって多重化し、音声符号ｃｏｄｅとして復号器側へ伝送する。
次に、ＣＥＬＰ復号器について更に詳細に説明する。
図１９に、ＣＥＬＰ復号器１３０のブロック図を示す。
ＣＥＬＰ復号器１３０では、上記の通り、符号分離部１３１が、伝送されてきた音声符号ｃｏｄｅから各パラメータを分離し、ＬＰＣ符号、ＡＣＢ符号、ＳＣＢ符号、及びゲイン符号を得る。
次に、復号部１３２を構成するＬＰＣ係数復号部１５１、ＡＣＢベクトル復号部１５２、ＳＣＢベクトル復号部１５３、及びゲイン復号部１５４の各々によって、ＬＰＣ符号、ＡＣＢ符号、ＳＣＢ符号、及びゲイン符号を、それぞれ、ＬＰＣ係数、ＡＣＢベクトル、ＳＣＢベクトル、及びゲイン（ＡＣＢゲイン、ＳＣＢゲイン）へと復号する。
音声合成部１３３は、入力するＡＣＢベクトル、ＳＣＢベクトル、及びゲイン（ＡＣＢゲイン、ＳＣＢゲイン）から、図示の構成によって音源信号を生成し、この音源信号を上記復号したＬＰＣ係数によって構成されるＬＰＣ合成フィルタ１５５に入力して、ＬＰＣ合成フィルタ１５５によって音声を復号して出力する。
ここで、携帯電話は静かな場所だけでなく、空港や駅のホームのように周囲に雑音があるような騒がしい環境で使用されることが多い。その際、周囲の雑音によって携帯電話の受話音声が聞き取り難くなるという問題がある。また、この例に限らず、例えば室内において使用するＴＶ会議システム等においても、通常、エアコン等の電化製品から発生した雑音、周囲の他者の話し声等の背景雑音が含まれている。
このような問題に対し、受話音声に対して、音声スペクトルのホルマントを強調することより音声の明瞭度を高め、受話音声を聞き取りやすくする技術がいくつか知られている。
ここで、ホルマントについて簡単に説明する。
図２０に、音声の周波数スペクトルの例を示す。
ここで、一般に、音声の周波数スペクトルには複数のピーク（極大を取る部分）が存在し、これらをホルマントと呼んでいる。図２０には、スペクトルに３つのホルマント（ピーク）が存在する例を示しており、周波数の低い方から順に第１ホルマント、第２ホルマント、第３ホルマントと呼ぶ。また、これら極大値をとる周波数、すなわち各ホルマントの周波数ｆｐ（１）、ｆｐ（２）、ｆｐ（３）のことをホルマント周波数と呼ぶ。一般に、音声のスペクトルは、周波数が高くなるにつれて、振幅（電力）が小さくなる性質がある。更に、音声の明瞭度は、ホルマントと密接な関係があり、高次の（例えば第２、第３の）ホルマントを強調することにより、音声の明瞭度が改善することが知られている。
図２１に、音声スペクトルのホルマント強調の一例を示す。
図２１（ａ）において図中実線で示す波形、及び図２１（ｂ）において図中点線で示す波形が、強調する前の音声スペクトルを表す。また、図２１（ｂ）において図中実線で示す波形が、強調後の音声スペクトルを表す。また、図中の直線は、波形の傾きを表す。
図２１（ｂ）に示すように、高次ホルマントの振幅を大きくするように音声スペクトルを強調することにより、スペクトル全体の傾きが平坦になっており、これによって音声全体の明瞭度を改善することができることが知られている。
このようなホルマント強調技術として、以下に挙げる技術が公知である。
ホルマント強調を符号化された音声に対して適用した技術として、例えば特許文献１に記載の技術が知られている。
図２２に、特許文献１に記載の発明の基本構成図を示す。
特許文献１は、帯域分割フィルタを用いる方法に係わる。図２２からわかるように、特許文献１記載の手法では、入力音声のスペクトルをスペクトル推定部１６０により求め、求めたスペクトルから凸部帯域（山）と凹部帯域（谷）を決定する凸部／凹部帯域決定部１６１によって、凸部帯域と凹部帯域を求め、凸部帯域と凹部帯域に対する増幅率（又は減衰率）を算出する。
次に、フィルタ構成部１６２により、上記増幅率（又は減衰率）を実現する係数をフィルタ部１６３に与え、入力音声をフィルタ部１６３に入力することにより、スペクトル強調を実現する。
帯域分割フィルタを用いる方法は、従来では、分割された周波数帯域内に音声のホルマントが必ず入るという保証がない為、ホルマント以外の成分を強調してしまい、逆に明瞭度が劣化する場合があるという問題があった。
これに対して、特許文献１記載の手法は、帯域分割フィルタを用いる方法であって、音声スペクトルの山と谷を個別に増幅・減衰することにより、音声強調を実現している。
更に、特許文献１では、その図１９に示す第７の実施形態のように、ＣＥＬＰ方式を用いる場合に対して、音声復号部によって、ＡＢＣベクトルインデックス、ＳＣＢベクトルインデックス、ゲインインデックスを用いて、ＡＢＣベクトル、ＳＣＢベクトル、ゲインを復号して音源を生成し、この音源をＬＰＣ係数インデックスによって復号したＬＰＣ係数で構成される合成フィルタに通して、合成信号を生成する。そして、この合成信号とＬＰＣ係数をスペクトル強調部に入力させ、上記スペクトル強調を実現させる。
また、特許文献２記載の発明は、マルチバンド励起符号化（ＭＢＥ）の音声復号装置の音声合成系の後置フィルタ（ポストフィルタ）に適用する音声信号処理装置であって、周波数領域のパラメータである各バンド毎の振幅値を直接操作することで、周波数スペクトルの高域フォルマントを強調することを特徴とする。特許文献２のホルマント強調方法は、マルチバンド励起符号化（ＭＢＥ）方式において、ピッチ周波数によって分割された複数の周波数帯域の平均振幅から、ホルマントを含む帯域を推定し、ホルマントを含む帯域のみを強調する方法である。
また、特許文献３記載の発明は、雑音のゲインを抑制した信号である処の参照信号との「合成による分析法」、即ち、Ａ−ｂ−Ｓ法によって符号化処理を行う音声符号化装置であって、この参照信号のホルマントを強調する手段と、信号の音声部と雑音部とを分割する手段と、この雑音部のレベルを抑圧する手段とを備える。その際、入力信号からフレーム毎に線形予測係数が抽出され、この線形予測係数に基づいて、上記ホルマント強調が行われる。
また、特許文献４記載の発明は、マルチパルス音声符号化の音源探索（マルチパルス探索）に関する発明である。つまり、音源情報をマルチパルスで近似して検索する際に、そのまま入力音声を使って音源探索するのではなく、音声を線スペクトル状に強調してから、音源探索を行うことにより、圧縮効率を高めることを目的とする発明である。
特開２００１−１１７５７３号公報特開平６−２０２６９５号公報特開平８−２７２３９４号公報特公平７−３８１１８号公報「音声の高能率符号化」、ｐ．６９−７１、中田和男著、森北出版

上述した各従来技術には、以下に述べる問題がある。
まず、特許文献１記載の手法には以下のような問題点がある。
上記の通り、特許文献１では、その図１９に示す第７の実施形態のように、ＣＥＬＰ方式を用いる場合に対応して、合成信号とＬＰＣ係数をスペクトル強調部に入力させてスペクトル強調を実現させる例を示しているが、前述した音声生成モデルからわかる通り、音源信号と声道特性は全く異なった特性である。にもかかわらず、特許文献１記載の手法では、合成された音声を声道特性から求めた強調フィルタにより強調する。このため、合成音声に含まれる音源信号の歪みが大きくなり、雑音感の増加や明瞭度の劣化といった副作用が生じる場合がある。
また、特許文献２記載の発明は、上記の通り、ＭＢＥボコーダの再生音声品質を向上させることを目的として発明である。一方、今日、携帯電話システム、ＶｏＩＰ，ＴＶ会議システム等で利用されている音声圧縮方式は、線形予測を用いたＣＥＬＰアルゴリズムをベースとしたものが主流である。従って、ＣＥＬＰをベースとした圧縮方式を用いたシステムに、特許文献２記載の手法を適用すると、圧縮・伸張されて音声品質が劣化した音声から、ＭＢＥボコーダ用の符号化パラメータを抽出する為、音声品質が更に劣化するおそれがあるという問題があった。
また、特許文献３記載の発明では、ホルマントを強調する際に、ＬＰＣ係数を用いた単純なＩＩＲフィルタを用いているが、この方法では、ホルマントを誤強調するおそれがあることが、論文（例えば、日本音響学会講演論文集、２０００年３月、第２４９〜２５０頁等）等によって知られている。また、そもそも、特許文献３の発明は音声符号化装置に係わるものであり、音声復号化装置に関するものではない。
また、特許文献４記載の発明は、音源探索を行うことにより圧縮効率を高めることを目的とする発明であり、詳しくは、音源情報をマルチパルスで近似して検索する際、そのまま入力音声を使って音源探索するのではなく、音声を線スペクトル状に強調してから音源探索を行うことにより圧縮効率を高めることを目的とする発明であり、そもそも音声の明瞭度を高めることを目的とするものではない。
本発明の課題は、分析合成系の音声符号化方式を用いる機器（携帯電話等）において、ホルマント強調による音質劣化や雑音感の増加などの副作用を抑止し、復元する音声の明瞭度を更に高め、受話音声を聞き取り易くする音声復号化装置、音声復号化方法、そのプログラム、記録媒体等を提供することである。

本発明による音声復号化装置は、分析合成系の音声符号化方式を用いる通信装置が備える音声復号化装置において、受信した音声符号を分離して、声道特性と音源信号を復元する符号分離／復号手段と、該声道特性を修正する声道特性修正手段と、前記声道特性修正手段によって修正された修正声道特性と、前記音声符号から得られる音源信号とを合成して音声信号を出力する信号合成手段とを有するように構成する。
前記声道特性の修正とは、例えば声道特性に対してホルマント強調処理を施すものである。
上記構成の音声復号化装置によれば、分析合成系の音声符号化方式を用いる携帯電話等の通信装置において、音声符号化処理を施されて伝送されてきた音声符号を受信すると、この音声符号に基づいて音声を生成・出力する際に、音声符号から声道特性と音源信号とを復元し、復元した声道特性に対してホルマント強調処理を施して、これを音源信号と合成する。このようにすることによって、従来問題となっていた声道特性と音源信号を同時に強調する場合に発生するスペクトル歪を抑え、明瞭度を改善することができる。つまり、強調による音質劣化や雑音感の増加などの副作用がない音声に復号することができ、音声の明瞭度を更に高めて聞きやすくできる。
例えば、前記声道特性は、前記音声符号から復号する第１の線形予測係数から算出される線形予測スペクトルであり、前記声道特性修正手段は、該線形予測スペクトルをホルマント強調し、前記信号合成手段は、該ホルマント強調された線形予測スペクトルに対応する第２の線形予測係数を求める修正線形予測係数算出手段と、該第２の線形予測係数によって構成される合成フィルタとを有し、該合成フィルタに前記音源信号を入力して、前記音声信号を生成・出力するものである。
また、例えば、上記構成の音声復号化装置において、前記声道特性修正手段は、前記声道特性に対してホルマント強調とアンチホルマントの減衰処理を施し、ホルマントとアンチホルマントの振幅差を強調した声道特性を生成し、前記信号合成手段は、該強調された声道特性に基づいて、前記音源信号との合成を行うようにしてもよい。
上記構成により、相対的にホルマントが更に強調され、音声の明瞭度を更に高めることができる。また、アンチホルマントを減衰させることにより、音声符号化処理後の復号音声に生じやすい雑音感を抑えることができる。つまり、分析合成系の音声符号化方式の一種であるＣＥＬＰ等の音声符号化方式で符号化・復号化された音声は、アンチホルマントに量子化雑音と呼ばれる雑音が生じやすいことが知られている。これに対して本発明では上記構成によりアンチホルマントを減衰させるため、上記量子化雑音を軽減させ、雑音感の小さい聞きやすい音声を提供することができる。
また、例えば、上記構成の音声復号化装置において、前記音源信号に対してピッチ強調を施すピッチ強調手段を更に有し、前記信号合成手段は、該ピッチ強調された音源信号と、前記修正された声道特性とを合成して音声信号を生成・出力するように構成してもよい。
上記構成によって、入力した音声符号を分離して音源特性（残差信号）と声道特性とを復元し、これらを別々にそれぞれの特性に適した強調処理を施すこと、すなわち音源特性に対してはピッチ周期性を強調し、声道特性に対してはホルマント強調を施すことにより、出力する音声の明瞭度を更に改善できるようになる。
なお、上述した本発明の各構成により行なわれる機能と同様の制御をコンピュータに行なわせるプログラムを記憶したコンピュータ読み取り可能な記憶媒体から、そのプログラムをコンピュータに読み出させて実行させることによっても、前述した課題を解決することができる。

本発明は、後述する詳細な説明を、下記の添付図面と共に参照すればより明らかになるであろう。
図１は、本例の音声復号化装置の概略的な構成を示す図である。
図２は、本例の音声復号化装置の基本構成図である。
図３は、第１の実施例による音声復号化装置４０の構成ブロック図である。
図４は、増幅率算出部の処理フローチャート図である。
図５は、ホルマントの増幅率を求める様子を示す図である。
図６は、補間曲線の一例を示す図である。
図７は、第２の実施例による音声復号化装置の構成ブロック図である。
図８は、増幅率算出部の処理フローチャート図である。
図９は、アンチホルマントの増幅率を求める様子を示す図である。
図１０は、第３の実施例による音声復号化装置の構成ブロック図である。
図１１は、音声復号化装置の適用先の１つである携帯電話のハードウェア構成図である。
図１２は、音声復号化装置の適用先の１つであるコンピュータのハードウェア構成図である。
図１３は、プログラムを記録した記録媒体、当該プログラムのダウンロードの一例を示す図である。
図１４は、先出願で提案している音声強調装置の基本構成を示す図である。
図１５は、先出願の音声強調装置を、ＣＥＬＰ復号器が搭載された携帯電話等に適用する場合の構成例である。
図１６は、音声の生成モデルを示す図である。
図１７は、ＣＥＬＰ符号器・復号器の処理の流れを示す図である。
図１８は、ＣＥＬＰ符号器のパラメータ抽出部の構成ブロック図である。
図１９は、ＣＥＬＰ復号器の構成ブロック図である。
図２０は、音声の周波数スペクトルの例を示す図である。
図２１は、音声スペクトルのホルマント強調の一例を示す図である。
図２２は、特許文献１に記載の発明の基本構成図を示す図である。

以下、図面を参照して、本発明の実施の形態について説明する。
本例による音声復号化装置の概略的な構成を図１に示す。
図１に示す通り、音声復号化装置１０は、その概略的な構成として、符号分離／復号部１１、声道特性修正部１２、及び信号合成部１３を有する。
符号分離／復号部１１は、音声符号ｃｏｄｅから声道特性ｓｐ_１と音源信号ｒ_１を復元する。上述してあるように、送信側の携帯電話等が有するＣＥＬＰ符号器（不図示）では、入力音声を、線形予測係数（ＬＰＣ係数）と、音源信号（残差信号）とに分離して、それぞれを符号化して、これらを多重化して音声符号ｃｏｄｅとして受信側の携帯電話等が有する復号器へ伝送する。
この音声符号ｃｏｄｅを受け取った復号器は、上記の通り、まず、符号分離／復号部１１によって、音声符号ｃｏｄｅから、声道特性ｓｐ_１と音源信号ｒ_１を復号する。そして、声道特性修正部１２が、この声道特性ｓｐ_１を修正し、修正後の声道特性ｓｐ_２を出力する。これは、例えば、声道特性ｓｐ_１に対して直接ホルマント強調処理を施すことで、強調された声道特性ｓｐ_２を生成・出力する。
最後に、信号合成部１３が、修正された声道特性ｓｐ_２と、音源信号ｒ_１とを合成して、出力音声ｓを生成・出力する。例えば、ホルマント強調された出力音声ｓを生成・出力する。
上述した通り、特許文献１等では、例えば特許文献１の図１９においては、復元した音源信号（加算器の出力）を、復号したＬＰＣ係数で構成される合成フィルタを通して、合成信号（合成された音声）を生成しており、この合成された音声を声道特性から求めた強調フィルタにより強調する。このため、合成音声に含まれる音源信号の歪みが大きくなり、雑音感の増加や明瞭度の劣化といった不具合が生じる場合がある。
これに対して、本例の音声復号化装置１０では、音源信号とＬＰＣ係数を復元するところまでは略同様であるが、合成信号（合成された音声）を生成することなく、声道特性ｓｐ_１に対して直接ホルマント強調処理を施し、強調された声道特性ｓｐ_２と音源信号（残差信号）とを合成する。よって、上記問題が解消され、強調による音質劣化や雑音感の増加などの副作用がない音声に復号できる。
図２に、本例の音声復号化装置の基本構成図を示す。
尚、以下の説明では、音声符号化方式にＣＥＬＰ（ＣｏｄｅＥｘｃｉｔｅｄＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ；符号励振線形予測）方式を用いているが、これに限るものではなく、分析合成系の符号化方式であれば適用可能である。
図示の音声復号化装置２０は、符号分離部２１、ＡＣＢベクトル復号部２２、ＳＣＢベクトル復号部２３、ゲイン復号部２４、音源信号生成部２５、ＬＰＣ係数復号部２６、ＬＰＣスペクトル算出部２７、スペクトル強調部２８、修正ＬＰＣ係数算出部２９、及び合成フィルタ３０を有する。
尚、符号分離部２１、ＬＰＣ係数復号部２６、ＡＣＢベクトル復号部２２、ＳＣＢベクトル復号部２３、及びゲイン復号部２４が、上記符号分離／復号部１１の詳細構成の一例に相当する。スペクトル強調部２８が、上記声道特性修正部１２の一例である。修正ＬＰＣ係数算出部２９及び合成フィルタ３０が、上記信号合成部１３の詳細構成の一例に相当する。
符号分離部２１は、送信側から多重化されて送られてきた音声符号ｃｏｄｅを、ＬＰＣ符号、ＡＣＢ符号、ＳＣＢ符号、及びゲイン符号に分離して出力する。
ＡＣＢベクトル復号部２２、ＳＣＢベクトル復号部２３、ゲイン復号部２４、は、それぞれ、上記符号分離部２１から出力されるＡＣＢ符号、ＳＣＢ符号、及びゲイン符号から、ＡＣＢベクトル、ＳＣＢベクトル、及びＡＣＢゲインとＳＣＢゲインを復号する。
音源信号生成部２５は、これらＡＣＢベクトル、ＳＣＢベクトル、及びＡＣＢゲインとＳＣＢゲインを元に、音源信号（残差信号）ｒ（ｎ），（０≦ｎ≦Ｎ）を生成する。なお、ここでＮは符号化方式のフレーム長である。
一方、ＬＰＣ係数復号部２６は、上記符号分離部２１から出力されるＬＰＣ符号から、ＬＰＣ係数α_１（ｉ），（１≦ｉ≦ＮＰ_１）を復号し、これをＬＰＣスペクトル算出部２７に対して出力する。ここで、ＮＰ_１はＬＰＣ係数の次数である。
ＬＰＣスペクトル算出部２７において、入力されたＬＰＣ係数α_１（ｉ）から、声道特性を表すパラメータであるＬＰＣスペクトルｓｐ_１（ｌ），（０≦ｌ≦Ｎ_Ｆ）を求める。なお、ここでＮ_Ｆはスペクトル点数であり、Ｎ≦Ｎ_Ｆとする。ＬＰＣスペクトル算出部２７は、求めたＬＰＣスペクトルｓｐ_１（ｌ）を、スペクトル強調部２８へ出力する。
スペクトル強調部２８は、ＬＰＣスペクトルｓｐ_１（ｌ）に基づいて、強調されたＬＰＣスペクトルｓｐ_２（ｌ）を求め、求めたｓｐ_２（ｌ）を修正ＬＰＣ係数算出部２９に出力する。
修正ＬＰＣ係数算出部２９は、強調されたＬＰＣスペクトルｓｐ_２（ｌ）に基づいて、修正ＬＰＣ係数α_２（ｉ），（１≦ｉ≦ＮＰ_２）を求める。ここで、ＮＰ_２は修正ＬＰＣ係数の次数である。修正ＬＰＣ係数算出部２９は、求めた修正ＬＰＣ係数α_２を、合成フィルタ３０に出力する。
そして、求めた修正ＬＰＣ係数α_２（ｉ）で構成される合成フィルタ３０に、上記音源信号ｒ（ｎ）を入力し、出力音声ｓ（ｎ），（０≦ｎ≦Ｎ）を求める。これにより、ホルマントが強調されて明瞭度が向上した音声を得ることができる。
以上説明した通り、本例では、音声符号から算出した声道特性（ＬＰＣ係数から求めたＬＰＣスペクトル）に対して直接ホルマント強調を行って声道特性を強調した後に、音源信号と合成するため、従来技術の問題点であった「声道特性から求めた強調フィルタを用いた強調による音源信号の歪み」を生じないようにできる。
図３は、第１の実施例による音声復号化装置４０の構成ブロック図である。
図示の構成のうち、図２に示す音声復号化装置２０と略同一の構成には同一符号を付してある。
尚、本実施例では、ＣＥＬＰ方式の音声符号化方式を用いた場合について説明するが、その他の分析合成系の符号化方式でも同様に適用できる。
まず、符号分離部２１は、送信側から送られてきた音声符号ｃｏｄｅを、ＬＰＣ符号、ＡＣＢ符号、ＳＣＢ符号、及びゲイン符号に分離する。
ＡＣＢベクトル復号部２２は、上記ＡＣＢ符号から、ＡＣＢベクトルｐ（ｎ），（０≦ｎ≦Ｎ）を復号する。ここで、Ｎは符号化方式のフレーム長である。ＳＣＢベクトル復号部２２は、上記ＳＣＢ符号から、ＳＣＢベクトルｃ（ｎ），（０≦ｎ≦Ｎ）を復号する。ゲイン復号部２４は、上記ゲイン符号から、ＡＣＢゲインｇ_ｐ、及びＳＣＢゲインｇ_ｃを復号する。
音源信号生成部２５は、上記復号されたＡＣＢベクトルｐ（ｎ）、ＳＣＢベクトルｃ（ｎ）、ＡＣＢゲインｇ_ｐ、及びＳＣＢゲインｇ_ｃから、以下の式（１）に従って、音源信号ｒ（ｎ），（０≦ｎ≦Ｎ）を求める。

一方、ＬＰＣ係数復号部２６は、上記符号分離部２１によって分離・出力されたＬＰＣ符号から、ＬＰＣ係数α_１（ｉ），（１≦ｉ≦ＮＰ_１）を復号し、ＬＰＣスペクトル算出部２７に出力する。ここで、ＮＰ_１はＬＰＣ係数の次数である。
ＬＰＣスペクトル算出部２７は、このＬＰＣ係数α_１（ｉ）を以下の式（２）によりフーリエ変換することによって、声道特性としてＬＰＣスペクトルｓｐ_１（ｌ）を求める。
ここでＮ_Ｆはスペクトルのデータ点数である。Ｐ_１はＬＰＣのフィルタの次数である。サンプリング周波数をＦ_ｓとすると、ＬＰＣスペクトルｓｐ_１（ｌ）の周波数分解能はＦ_ｓ／Ｎ_Ｆとなる。変数ｌはスペクトルのインデックスであり離散周波数を表す。ｌを周波数（Ｈｚ）に換算するとｉｎｔ［ｌ・Ｆ_ｓ／Ｎ_Ｆ］（Ｈｚ）となる。尚、ｉｎｔ［ｘ］は、変数ｘを整数化することを意味する。

ＬＰＣスペクトル算出部２７によって求められたＬＰＣスペクトルｓｐ_１（ｌ）は、ホルマント推定部４１、増幅率算出部４２、及びスペクトル強調部４３に入力される。
まず、ホルマント推定部４１は、ＬＰＣスペクトルｓｐ_１（ｌ）を入力すると、ホルマント周波数ｆｐ（ｋ），（１≦ｋ≦ｋｍａｘ）とその振幅ａｍｐｐ（ｋ），（１≦ｋ≦ｋｐｍａｘ）を推定する。
ここで、ｋｐｍａｘは推定するホルマントの個数を示す。ｋｐｍａｘの値は任意であるが、例えば８（ｋＨｚ）サンプリングの音声に対しては、ｋｐｍａｘ＝４または５程度が適当である。
上記ホルマント周波数の推定方法は任意であるが、例えば、周波数スペクトルのピークからホルマントを推定するピークピッキング法等の公知の技術を用いることができる。
求めたホルマント周波数を、低次から順にｆｐ（１），ｆｐ（２），…ｆｐ（ｋｐｍａｘ）とする。また、ｆｐ（ｋ）での振幅値をａｍｐｐ（ｋ）とする。
尚、ホルマントのバンド幅に閾値を設け、バンド幅が閾値以下となる周波数だけをホルマント周波数としてもよい。
次に、増幅率算出部４２は、上記ＬＰＣスペクトルｓｐ_１（ｌ）と、ホルマント推定部４１によって推定されたホルマント周波数及び振幅｛ｆｐ（ｋ），ａｍｐｐ（ｋ）｝を入力して、ＬＰＣスペクトルｓｐ_１（ｌ）に対する増幅率β（ｌ）を算出する。
図４は、増幅率算出部４２の処理フローチャート図である。
図４に示すように、増幅率算出部４２の処理は、増幅基準電力の算出（ステップＳ１１）、ホルマント増幅率の算出（ステップＳ１２）、増幅率の補間（ステップＳ１３）の順に処理を行う。
まず、ステップＳ１１の処理、すなわちＬＰＣスペクトルｓｐ_１（ｌ）から増幅基準電力Ｐｏｗ＿ｒｅｆを算出する処理について説明する。
増幅基準電力Ｐｏｗ＿ｒｅｆの算出方法は任意である。例えば、全周波数帯域の平均電力にする方法や、ホルマント振幅ａｍｐｐ（ｋ），（１≦ｋ≦ｋｐｍａｘ）の中で最も大きい振幅を基準電力とする方法などがある。また、周波数やホルマントの次数を変数とする関数として基準電力を求めても良い。全周波数帯域の平均電力を基準電力とする場合、増幅基準電力Ｐｏｗ＿ｒｅｆは式（３）で表される。

次に、ステップＳ１２において、ホルマント振幅ａｍｐｐ（ｋ），（１≦ｋ≦ｋｐｍａｘ）を、ステップＳ１１で求めた増幅基準電力Ｐｏｗ＿ｒｅｆに合わせるように、ホルマントの増幅率Ｇｐ（ｋ）を決定する。図５に、ホルマント振幅ａｍｐｐ（ｋ）を増幅基準電力Ｐｏｗ＿ｒｅｆに合わせる様子を示す。このようにして得られた増幅率を用いてＬＰＣスペクトルを強調することにより、スペクトル全体の傾きが平坦になり、これによって音声全体の明瞭度を改善することができる。
以下の式（４）は、増幅率Ｇｐ（ｋ）を求める式である。

更に、ステップＳ１３において、隣接するホルマント間（ｆｐ（ｋ）とｆｐ（ｋ＋１）との間）にある周波数帯域の増幅率β（ｌ）を、補間曲線Ｒ（ｋ，ｌ）により求める。補間曲線の形状は任意であるが、以下に、補間曲線Ｒ（ｋ，ｌ）を二次曲線とする場合の例を示す。
まず、補間曲線Ｒ（ｋ，ｌ）を、任意の二次曲線として定義すると、Ｒ（ｋ，ｌ）は、以下の式（５）のように表せる。

ここで、ａ，ｂ，ｃは任意である。この補間曲線Ｒ（ｋ，ｌ）を、図６に示すように、｛ｆｐ（ｋ），Ｇｐ（ｋ）｝、｛ｆｐ（ｋ＋１）、Ｇｐ（ｋ＋１）｝、及び｛（ｆｐ（ｋ）＋ｆｐ（ｋ＋１））／２、ｍｉｎ（γＧｐ（ｋ）、γＧｐ（ｋ＋１））｝を通るものと規定する。ここで、ｍｉｎ（ｘ、ｙ）は、ｘとｙのうち最小値を出力する関数であり、γは０≦γ≦１を満たす任意の定数とする。式（５）にこれらを代入すると、

となる。よって、式（６），（７），（８）を連立方程式として、ａ，ｂ，ｃを求めることにより、補間曲線Ｒ（ｋ，ｌ）を求めることができる。このＲ（ｋ，ｌ）に基づいて、区間［ｆｐ（ｋ），ｆｐ（ｋ＋１）］の間のスペクトルに対する増幅率を求めることで、増幅率β（ｌ）を補間する。
上述したステップＳ１１〜Ｓ１３までの処理を、全てのホルマントについて行い、全周波数帯域の増幅率を決定する。なお、最低次のホルマントｆｐ（１）より低い周波数に対する増幅率については、ｆｐ（１）での増幅率Ｇｐ（１）を用い、最高次のホルマントｆｐ（ｋｐｍａｘ）より高い周波数に対する増幅率については、ｆｐ（ｋｐｍａｘ）での増幅率Ｇｐ（ｋｐｍａｘ）を用いる。以上をまとめると、増幅率β（ｌ）は、以下の式（９）のようになる。

但し、上記式（９）において、Ｒｉ（ｋ，ｌ）及びｉ＝１，２となっているのは、後述する第２の実施例に対応する場合を示すものであり、第１の実施例においてはＲｉ（ｋ，ｌ）をＲ（ｋ，ｌ）に置き換え、且つｉ＝１，２は削除して考えるものとする。
以上説明した処理により増幅率算出部４２によって求められた増幅率β（ｌ）と、上記ＬＰＣスペクトルｓｐ_１（ｌ）とを、スペクトル強調部４３に入力する。スペクトル強調部４３は、これらを用いて、以下の式（１０）に従って、強調されたスペクトルｓｐ_２（ｌ）を求める。

スペクトル強調部４３によって求められた、強調されたスペクトルｓｐ_２（ｌ）は、修正ＬＰＣ係数算出部２９に入力される。
修正ＬＰＣ係数算出部２９は、この強調されたスペクトルｓｐ_２（ｌ）の逆フーリエ変換から自己相関関数ａｃ_２（ｉ）を求める。次に、自己相関関数ａｃ_２（ｉ）からレビンソン・アルゴリズム等の公知の方法により修正ＬＰＣ係数α_２（ｉ），（１≦ｉ≦ＮＰ_２）を求める。ここで、ＮＰ_２は、修正ＬＰＣ係数の次数である。
そして、上記修正ＬＰＣ係数算出部２９によって求めた修正ＬＰＣ係数α_２（ｉ）によって構成される合成フィルタ３０に、上記音源信号ｒ（ｎ）を入力する。
合成フィルタ３０は、以下の（１１）式によって出力音声ｓ（ｎ）を求める。これにより、強調処理された声道特性と、音源特性とが合成される。

以上説明した通り、第１の実施例では、音声符号から復号した声道特性を強調した後に音源信号と合成する。これにより、従来技術で問題となっていた声道特性と音源信号を同時に強調する場合に発生するスペクトル歪を抑え、かつ明瞭度を改善することができる。更に、本例では、ホルマント以外の周波数成分に対しても、ホルマントの増幅率を基準にして増幅率を求め、強調処理を行っているので、声道特性を滑らかに強調することができる。
尚、本実施例ではスペクトルｓｐ_１（ｌ）に対する増幅率を１スペクトル点数単位で求めるが、スペクトルを複数の周波数帯域に分割し、各帯域別に個別の増幅率を持つようにしてもよい。
図７は、第２の実施例による音声復号化装置５０の構成ブロック図である。
図示の構成のうち、図３に示す音声復号化装置４０と略同一の構成には同一符号を付してあり、以下の説明では、第１の実施例と異なる部分についてのみ説明する。
第２の実施例では、ホルマントの強調に加えて、振幅が極小値をとるアンチホルマントの減衰を行い、ホルマントとアンチホルマントの振幅差を強調することを特徴とする。なお、本実施例では、アンチホルマントは２つの隣り合うホルマントの間にだけ存在するものとして説明するが、この例に限らず、それ以外、すなわちアンチホルマントが最低次ホルマントより低い周波数に存在する場合や、最高次ホルマントより高い周波数に存在する場合でも適応できる。
図示の音声復号化装置５０は、図３の音声復号化装置４０におけるホルマント推定部４１及び増幅率算出部４２に代えて、ホルマント／アンチホルマント推定部５１、増幅率算出部５２を有し、これら以外の構成は音声復号化装置４０の構成と略同様である。
ホルマント／アンチホルマント推定部５１は、ＬＰＣスペクトルｓｐ_１（ｌ）を入力すると、上記ホルマント推定部４１と同様に、ホルマント周波数ｆｐ（ｋ），（１≦ｋ≦ｋｐｍａｘ）とその振幅ａｍｐｐ（ｋ），（１≦ｋ≦ｋｐｍａｘ）を推定すると共に、これに加えて、アンチホルマントの周波数ｆｖ（ｋ），（１≦ｋ≦ｋｖｍａｘ）とその振幅ａｍｐｖ（ｋ），（１≦ｋ≦ｋｖｍａｘ）を推定する。アンチホルマントの推定方法は任意であるが、例えば、スペクトルｓｐ_１（ｌ）の逆数に対してピークピッキング法を適用するなどの方法がある。求めたアンチホルマントを、低次から順にｆｖ（１）、ｆｖ（２），・・・ｆｖ（ｋｖｍａｘ）とする。ここで、ｋｖｍａｘは、アンチホルマントの個数である。また、ｆｖ（ｋ）での振幅値をａｍｐｖ（ｋ）とする。
ホルマント／アンチホルマント推定部５１によって求められたホルマント／アンチホルマントの推定結果は、増幅率算出部５２に入力される。
図８は、増幅率算出部５２の処理フローチャート図である。
増幅率算出部５２の処理は、図８に示すように、ホルマントの増幅基準電力の算出（ステップＳ２１）、ホルマントの増幅率の決定（ステップＳ２２）、アンチホルマントの増幅基準電力の算出（ステップＳ２３）、アンチホルマントの増幅率の決定（ステップＳ２４）、及び増幅率の補間（ステップＳ２５）の順に行われる。ステップＳ２１、Ｓ２２の処理は、第１の実施例のステップＳ１１、Ｓ１２の処理と同じであるので、ここでの説明は省略する。
以下に、ステップＳ２３以降の処理について説明する。
まず、ステップＳ２３のアンチホルマントの増幅基準電力の算出処理について説明する。
アンチホルマントの増幅基準電力Ｐｏｗ＿ｒｅｆｖは、ＬＰＣスペクトルｓｐ_１（ｌ）から求める。求め方は任意であるが、例えば、ホルマントの増幅基準電力Ｐｏｗ＿ｒｅｆに１未満の定数を乗じたものを用いる方法や、アンチホルマントａｍｐｖ（ｋ），（１≦ｋ≦ｋｖｍａｘ）の中で最小値をとる振幅を基準電力とするなどの方法がある。
ホルマントの増幅基準電力Ｐｏｗ＿ｒｅｆに定数を乗じたものをアンチホルマントの基準電力とした場合の算出式を、以下の式（１２）に示す。

ここで、λは０＜λ＜１を満たす任意の定数である。
続いて、ステップＳ２４のアンチホルマントの増幅率の決定処理について説明する。
アンチホルマントの増幅率Ｇｖ（ｋ）を求める様子を図９に示す。図９からわかるように、アンチホルマント振幅ａｍｐｖ（ｋ），（１≦ｋ≦ｋｖｍａｘ）を、ステップＳ２３で求めたアンチホルマントの増幅基準電力Ｐｏｗ＿ｒｅｆｖに合わせるようにして、アンチホルマントの増幅率Ｇｖ（ｋ）を決定する。
以下の式（１３）は、アンチホルマントの増幅率Ｇｖ（ｋ）を求める式を示す。

最後に、ステップＳ２５の増幅率の補間処理を行う。
この処理は、隣り合うホルマント周波数とアンチホルマント周波数の間にある周波数における増幅率を、補間曲線Ｒｉ（ｋ，ｌ）により求める。ここで、ｉ＝１，２であり、区間［ｆｐ（ｋ）、ｆｖ（ｋ）］の補間曲線をＲ_１（ｋ，ｌ）、区間［ｆｖ（ｋ）、ｆｐ（ｋ＋１）］の補間曲線をＲ_２（ｋ，ｌ）とする。
補間曲線は任意の方法により求めてよい。
以下に、補間曲線Ｒｉ（ｋ，ｌ）を二次曲線で算出する場合の一例を示す。
まず、二次曲線の形状を、｛ｆｐ（ｋ）、Ｇｐ（ｋ）｝を通り、｛ｆｖ（ｋ），Ｇｖ（ｋ）｝で極小値をとるような二次曲線と規定する。そうすると、この二次曲線は、式（１４）のように表せる。

ここで、ａはａ＞０を満たす任意の定数である。この式（１４）が、｛ｆｐ（ｋ）、Ｇｐ（ｋ）｝を通ることから、｛ｌ、β（ｌ）｝＝｛ｆｐ（ｋ）、Ｇｐ（ｋ）｝を代入し、式を整理すると、ａは以下の（１５）式のように表される。

ゆえに、式（１５）からａを算出し、二次曲線Ｒ_１（ｋ，ｌ）を求めることができる。ｆｖ（ｋ）とｆｐ（ｋ＋１）の間の補間曲線Ｒ_２（ｋ，ｌ）も、同様に求めることができる。
以上をまとめると、増幅率β（ｌ）は、上式（９）で表される。
増幅率算出部５２は、この増幅率β（ｌ）を、スペクトル強調部４３に出力し、スペクトル算出部４３は、これを用いて、上式（１０）に従って、強調されたスペクトルｓｐ_２（ｌ）を求める。
以上説明した通り、第２の実施例では、ホルマントの増幅に加えて、アンチホルマントを減衰する。これにより、相対的にホルマントが更に強調され、第１の実施例と比較して、明瞭度を更に高めることができる。
また、アンチホルマントを減衰させることにより、音声符号化処理後の復号音声に生じやすい雑音感を抑えることができる。ＣＥＬＰなど、携帯電話などで使われている音声符号化方式で符号化・復号化された音声は、アンチホルマントに量子化雑音と呼ばれる雑音が生じやすいことが知られている。本発明では、アンチホルマントを減衰させるため、前記量子化雑音を軽減させ、雑音感の小さい聞きやすい音声を提供することができる。
図１０は、第３の実施例による音声復号化装置６０の構成ブロック図である。
図示の構成のうち、図３に示す音声復号化装置４０と略同一の構成には同一符号を付してあり、以下の説明では、第１の実施例と異なる部分についてのみ説明する。
第３の実施例では、第１の実施例の構成に加えて、更に、音源信号に対してピッチ強調を施す構成を有することを特徴とする。すなわち、ピッチ強調フィルタ構成部６２、ピッチ強調部６３を有することを特徴とする。また、ＡＣＢベクトル復号部６１は、ＡＣＢ符号からＡＣＢベクトルｐ（ｎ），（０≦ｎ≦Ｎ）を復号するだけでなく、ＡＣＢ符号からピッチラグの整数部Ｔを求めて、ピッチ強調フィルタ構成部６２に出力する。
ピッチ強調の方法は任意であるが、例えば以下のような方法がある。
まず、ピッチ強調フィルタ構成部６２は、上記ＡＣＢベクトル復号部６１から出力されるピッチラグの整数部Ｔを用いて、Ｔの近傍における音源信号ｒ（ｎ）の自己相関関数ｒｓｃｏｒ（Ｔ−１）、ｒｓｃｏｒ（Ｔ）ｒｓｃｏｒ（Ｔ＋１）を、以下の式（１６）により求める。

ピッチ強調フィルタ構成部６２は、続いて、上記自己相関関数ｒｓｃｏｒ（Ｔ−１）、ｒｓｃｏｒ（Ｔ）、ｒｓｃｏｒ（Ｔ＋１）から、レビンソン・アルゴリズム等の公知の方法により、ピッチ予測係数ｐｃ（ｉ）（ｉ＝−１、０．１）を算出する。
ピッチ強調部６３は、ピッチ予測係数ｐｃ（ｉ）で構成されるピッチ強調フィルタ（伝達関数は、以下の式（１７）、ｇ_ｐは重み付け係数）で音源信号ｒ（ｎ）をフィルタリングし、ピッチが強調された残差信号（音源信号）ｒ’（ｎ）を出力する。

合成フィルタ３０は、上記のようにして求めた音源信号ｒ’（ｎ）を、ｒ（ｎ）の代わりに式（１１）に代入して、出力音声ｓ（ｎ）を得る。
尚、本実施例では、ピッチ強調フィルタに３タップのＩＩＲフィルタを用いたが、それに限るものではなく、タップ長を変えてもよいし、ＦＩＲフィルタ等の任意のフィルタを用いても良い。
以上説明した通り、第３の実施例では、第１の実施例の構成に加えて、更に、ピッチ強調フィルタを付加することにより音源信号に含まれるピッチ周期成分を強調するため、第１の実施例に比べて音声の明瞭度を更に改善することができる。つまり、入力した音声符号を分離して音源特性（残差信号）と声道特性とを復元し、これらを別々にそれぞれの特性に適した強調処理を施すこと、すなわち音源特性に対してはピッチ周期性を強調し、声道特性に対してはホルマント強調を施すことにより、出力する音声の明瞭度を更に改善できるようになる。
図１１は、本例の音声復号化装置の適用先の１つである携帯電話／ＰＨＳのハードウェア構成図である。尚、携帯電話は、プログラム等を実行して任意の処理を実行できることから、コンピュータの一種として扱うことができる。
図示の携帯電話／ＰＨＳ７０は、アンテナ７１、無線部７２、ＡＤ／ＤＡ変換部７３、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）７４、ＣＰＵ７５、メモリ７６、表示部７７、スピーカ７８、及びマイク７９を有する。
アンテナ７１、無線部７２、ＡＤ／ＤＡ変換部７３を介して受信した音声符号ｃｏｄｅに対して、ＤＳＰ７４が、メモリ７６に格納されている所定のプログラムを実行することにより、上記図１〜図１０を参照して説明した音声復号化処理が実行され、出力音声を出力する。
また、上述してある通り、本発明の音声復号化装置の適用先は、携帯電話に限るものではなく、例えばＶｏＩＰ（ｖｏｉｃｅｏｖｅｒＩＰ）、ＴＶ会議システム等であってもよい。つまり、音声を圧縮する音声符号化方式を適用して、無線／有線で、通信を行なう機能を備え、上記図１〜図１０を参照して説明した音声復号化処理を実行できる何らかのコンピュータであれば何でもよい。
図１２は、このようなコンピュータの概略的なハードウェア構成の一例を示す図である。
同図に示すコンピュータ８０は、ＣＰＵ８１、メモリ８２、入力装置８３、出力装置８４、外部記憶装置８５、媒体駆動装置８６、ネットワーク接続装置８７等を有し、これらがバス８８に接続された構成となっている。同図に示す構成は一例であり、これに限るものではない。
メモリ８２は、プログラム実行、データ更新等の際に、外部記憶装置８５（あるいは可搬型記録媒体８９）に記憶されているプログラムあるいはデータを一時的に格納するＲＡＭ等のメモリである。
ＣＰＵ８１は、メモリ８２に読み出したプログラムを実行して、上述してある各種処理／機能（図４、図８等に示す処理等や、図１〜図３、図７、図１０に示す各機能部の機能）を実現する。
入力装置８３は、例えばキーボード、マウス、タッチパネル、マイク等である。
出力装置８４は、例えばディスプレイ、スピーカー等である。
外部記憶装置８５は、例えば磁気ディスク装置、光ディスク装置、光磁気ディスク装置等であり、上述してきた画像結合装置としての各種機能を実現させる為のプログラム／データ等が格納されている。
媒体駆動装置８６は、可搬型記録媒体８９に記憶されているプログラム／データ等を読み出す。可搬型記録媒体８９は、例えば、ＦＤ（フレキシブルディスク）、ＣＤ−ＲＯＭ、その他、ＤＶＤ、光磁気ディスク等である。
ネットワーク接続装置８７は、ネットワークに接続して、外部の情報処理装置とプログラム／データ等の送受信を可能にする構成である。
図１３は、上記プログラムを記録した記録媒体、当該プログラムのダウンロードの一例を示す図である。
図示のように、上記本発明の機能を実現するプログラム／データが記憶されている可搬型記録媒体８９からコンピュータ８０側に読み出して、メモリ８２に格納し実行するものであってもよいし、また、上記プログラム／データは、ネットワーク接続装置８７により接続しているネットワーク３（インターネット等）を介して、外部のサーバ１の記憶部２に記憶されているプログラム／データをダウンロードするものであってもよい。
また、本発明は、装置／方法に限らず、上記プログラム／データを格納した記録媒体（可搬型記録媒体８９等）自体として構成することもできるし、上記プログラム自体として構成することもできる。
最後に、本出願の出願人が既に出願している先出願（国際出願番号；ＪＰ０２／１１３３２）について触れておく。
図１４に、先出願で提案している音声強調装置９０の基本構成を示す。
図示の音声強調装置９０は、まず、信号分析・分離部９１が、入力音声ｘを分析して、これを音源信号ｒと声道特性ｓｐ_１とに分離する。声道特性修正部９２が、この声道特性ｓｐ_１を修正（例えばホルマントを強調）し、修正（強調）された声道特性ｓｐ_２を出力する。最後に、信号合成部９３が、音源信号ｒを、上記修正（強調）された声道特性ｓｐ_２と再合成することにより、ホルマントを強調した音声が出力されることを特徴としている。
このように、先出願では、入力音声ｘを、音源信号ｒと声道特性ｓｐ_１とに分離して、声道特性の強調を行うため、特許文献１の問題点であった音源信号の歪みを生じさせることが無い。従って、雑音感の増加や明瞭度の低下のないホルマント強調を行うことができる。
ところで、先出願記載の音声強調装置を、例えばＣＥＬＰ復号器が搭載された携帯電話等に適用する場合、図１５に示すようになる。
先出願記載の音声強調装置９０は、上記の通り、音声ｘを入力しているので、図１５に示すように、音声強調装置９０の前段に復号処理装置１００を設け、外部から送られてきた音声符号ｃｏｄｅを、当該復号処理装置１００によって復号して、この復号音声ｓを、音声強調装置９０の入力とする構成となる。
復号処理装置１００は、例えば符号分離／復号部１０１によって音声符号ｃｏｄｅから音源信号ｒ_１と声道特性ｓｐ_１とを生成し、これらを信号合成部１０２によって合成して復号音声ｓを生成・出力する。このとき、音声符号ｃｏｄｅから復号された復号音声ｓは、情報が圧縮されているため、符号化前の音声に比べて音声の情報量が減少し、品質が劣化している。
このため、品質が劣化した復号音声ｓを入力とする音声強調装置９０では、品質が劣化した音声を再分析して音源信号と声道特性に分離することになる。そのため、分離の精度が劣化し、復号音声ｓから分離した声道特性ｓｐ_１’中に音源信号成分が、あるいは音源信号ｒ_１’中に声道特性成分が残留する場合がある。従って、声道特性を強調した際、声道特性中に残留する音源信号成分が強調されてしまう場合、あるいは音源信号中に残留する声道特性成分が強調されない場合がある。このため、音源信号とホルマント強調後の声道特性から再合成される出力音声ｓ’の音質が劣化する可能性があった。
これに対して、本発明の音声復号化装置では、音声符号から復号した声道特性を用いるため、劣化した音声からの再分析による品質劣化を生じない。更に、再分析が不要となるため、処理量を削減することができる。

産業上の利用の可能性

以上詳細に説明したように、本発明の音声復号化装置、復号方法、そのプログラム等によれば、分析合成系の音声符号化方式を用いる携帯電話等の通信装置において、音声符号化処理を施されて伝送されてきた音声符号を受信すると、この音声符号に基づいて音声を生成・出力する際に、音声符号から声道特性と音源信号とを復元し、復元した声道特性に対してホルマント強調処理を施して、これを音源信号と合成する。このようにすることによって、従来問題となっていた声道特性と音源信号を同時に強調する場合に発生するスペクトル歪を抑え、明瞭度を改善することができる。つまり、強調による音質劣化や雑音感の増加などの副作用がない音声に復号することができ、音声の明瞭度を更に高めて聞きやすくなる。

Claims

分析合成系の音声符号化方式を用いる通信装置が備える音声復号化装置において、
受信した音声符号を分離して、声道特性と音源信号を復元する符号分離／復号手段と、
該声道特性を修正する声道特性修正手段と、
前記声道特性修正手段によって修正された修正声道特性と、前記音声符号から得られる音源信号とを合成して音声信号を出力する信号合成手段と、
を有することを特徴とする音声復号化装置。
前記声道特性修正手段は、前記声道特性に対してホルマント強調処理を施し、該強調された声道特性を生成し、
前記信号合成手段は、該強調された声道特性に基づいて、前記音源信号との合成を行うことを特徴とする請求項１記載の音声復号化装置。
前記声道特性は、前記音声符号から復号する第１の線形予測係数から算出される線形予測スペクトルであり、
前記声道特性修正手段は、該線形予測スペクトルをホルマント強調し、
前記信号合成手段は、該ホルマント強調された線形予測スペクトルに対応する第２の線形予測係数を求める修正線形予測係数算出手段と、該第２の線形予測係数によって構成される合成フィルタとを有し、該合成フィルタに前記音源信号を入力して、前記音声信号を生成・出力することを特徴とする請求項１又は２記載の音声復号化装置。
前記声道特性修正手段は、前記声道特性におけるホルマントを推定するホルマント推定手段と、該推定したホルマントに基づいて前記声道特性に対する増幅率を算出する増幅率算出手段と、該算出した増幅率に基づいて前記声道特性を強調する強調手段とを有することを特徴とする請求項１〜３の何れかに記載の音声復号化装置。
前記ホルマント推定手段は、前記ホルマントのホルマント周波数とその振幅を推定し、
前記増幅率算出手段は、前記声道特性から増幅基準電力を算出して、前記ホルマント振幅を該増幅基準電力に合わせるようにしてホルマントの増幅率を決定し、
前記強調手段は、該ホルマントの増幅率を用いて前記声道特性を強調することを特徴とする請求項４記載の音声復号化装置。
前記増幅率算出手段は、更に、前記ホルマント間の周波数帯域の増幅率を、補間曲線により求め、
前記強調手段は、該補間曲線によって求められた増幅率も用いて前記声道特性を強調することを特徴とする請求項５記載の音声復号化装置。
前記声道特性修正手段は、前記声道特性に対してホルマント強調とアンチホルマントの減衰処理を施し、ホルマントとアンチホルマントの振幅差を強調した声道特性を生成し、
前記信号合成手段は、該強調された声道特性に基づいて、前記音源信号との合成を行うことを特徴とする請求項１記載の音声復号化装置。
前記声道特性は、前記音声符号から復号する第１の線形予測係数から算出される線形予測スペクトルであり、
前記声道特性修正手段は、該線形予測スペクトルに対して前記ホルマント強調とアンチホルマントの減衰処理を施し、
前記信号合成手段は、該声道特性修正手段が生成した修正後の線形予測スペクトルに対応する第２の線形予測係数を求める修正線形予測係数算出手段と、該第２の線形予測係数によって構成される合成フィルタとを有し、該合成フィルタに前記音源信号を入力して、前記音声信号を生成・出力することを特徴とする請求項７記載の音声復号化装置。
前記声道特性修正手段は、
前記ホルマントの周波数とその振幅を推定すると共に、前記アンチホルマントの周波数とその振幅を推定するホルマント推定手段と、
前記声道特性からホルマントの増幅基準電力を算出して、前記ホルマント振幅を該増幅基準電力に合わせるようにしてホルマントの増幅率を決定すると共に、前記声道特性からアンチホルマントの増幅基準電力を算出して、前記アンチホルマント振幅を該増幅基準電力に合わせるようにしてアンチホルマントの増幅率を決定する増幅率算出手段と、
該増幅率算出手段によって決定されたホルマントの増幅率とアンチホルマントの増幅率とを用いて前記声道特性を強調／減衰する強調手段と、
を有することを特徴とする請求項７又は８記載の音声復号化装置。
前記音源信号に対してピッチ強調を施すピッチ強調手段を更に有し、
前記信号合成手段は、該ピッチ強調された音源信号と、前記修正された声道特性とを合成して音声信号を生成・出力することを特徴とする請求項１記載の音声復号化装置。
前記音声符号の一部であるＡＣＢ符号に基づいて得られるピッチラグを用いて、該ピッチラグの近傍における音源信号の自己相関関数を求め、該自己相関関数からピッチ予測係数を算出するピッチ強調フィルタ構成手段を更に備え、
前記ピッチ強調手段は、前記ピッチ予測係数で構成されるピッチ強調フィルタによって前記音源信号をフィルタリングすることで、前記ピッチ強調された音源信号を生成することを特徴とする請求項１０記載の音声復号化装置。
前記音声符号化方式は、符号励振線形予測方式の音声符号化方式であることを特徴とする請求項１〜１１の何れかに記載の音声復号化装置。
分析合成系の音声符号化方式を用いる通信装置における音声復号化方法であって、
受信した音声符号を分離して、声道特性と音源信号を復元し、
該声道特性を修正し、
該修正された修正声道特性と、前記音声符号から得られる音源信号とを合成して音声信号を出力することを特徴とする音声復号化方法。
分析合成系の音声符号化方式を用いる通信装置における音声復号化方法であって、
受信した音声符号を分離して、該音声符号から復号する第１の線形予測係数から線形予測スペクトルを求めると共に、該音声符号から音源信号を復元し、
該線形予測スペクトルをホルマント強調し、
該ホルマント強調された線形予測スペクトルに対応する第２の線形予測係数を求め、該第２の線形予測係数によって構成される合成フィルタに前記音源信号を入力して、前記音声信号を生成・出力することを特徴とする音声復号化方法。
前記ホルマント強調に加えて、アンチホルマントの減衰を行い、ホルマントとアンチホルマントの振幅差を強調することを特徴とする請求項１４記載の音声復号化方法。
前記音源信号に対してピッチ強調を施し、該ピッチ強調された音源信号を前記合成フィルタへの入力とすることを特徴とする請求項１４又は１５記載の音声復号化方法。
コンピュータに、
分析合成系の音声符号化方式によって符号化され伝送されてきた音声符号を受信すると、該受信した音声符号を分離して、声道特性と音源信号を復元する機能と、
該声道特性を修正する機能と、
該修正された修正声道特性と、前記音声符号から得られる音源信号とを合成して音声信号を出力する機能と、
を実現させるためのプログラム。
コンピュータに、
分析合成系の音声符号化方式によって符号化され伝送されてきた音声符号を受信すると、該受信した音声符号を分離して、該音声符号から復号する第１の線形予測係数から線形予測スペクトルを求めると共に、該音声符号から音源信号を復元する機能と、
該線形予測スペクトルをホルマント強調する機能と、
該ホルマント強調された線形予測スペクトルに対応する第２の線形予測係数を求め、該第２の線形予測係数によって構成される合成フィルタに前記音源信号を入力して、前記音声信号を生成・出力する機能と、
を実現させるためのプログラム。
前記ホルマント強調に加えて、アンチホルマントの減衰を行い、ホルマントとアンチホルマントの振幅差を強調することを特徴とする請求項１８記載のプログラム。
前記音源信号に対してピッチ強調を施し、該ピッチ強調された音源信号を前記合成フィルタへの入力とすることを特徴とする請求項１８又は１９記載のプログラム。
コンピュータに、
分析合成系の音声符号化方式によって符号化され伝送されてきた音声符号を受信すると、該受信した音声符号を分離して、声道特性と音源信号を復元する機能と、
該声道特性を修正する機能と、
該修正された修正声道特性と、前記音声符号から得られる音源信号とを合成して音声信号を出力する機能と、
を実行させるためのプログラムを格納したコンピュータ読み取り可能な記録媒体。
コンピュータに、
分析合成系の音声符号化方式によって符号化され伝送されてきた音声符号を受信すると、該受信した音声符号を分離して、該音声符号から復号する第１の線形予測係数から線形予測スペクトルを求めると共に、該音声符号から音源信号を復元する機能と、
該線形予測スペクトルをホルマント強調する機能と、
該ホルマント強調された線形予測スペクトルに対応する第２の線形予測係数を求め、該第２の線形予測係数によって構成される合成フィルタに前記音源信号を入力して、前記音声信号を生成・出力する機能と、
を実行させるためのプログラムを格納したコンピュータ読み取り可能な記録媒体。
前記ホルマント強調に加えて、アンチホルマントの減衰を行い、ホルマントとアンチホルマントの振幅差を強調することを特徴とする請求項２２記載の記録媒体。
前記音源信号に対してピッチ強調を施し、該ピッチ強調された音源信号を前記合成フィルタへの入力とすることを特徴とする請求項２２又は２３記載の記録媒体。