Nothing Special   »   [go: up one dir, main page]

JPWO2004097798A1 - 音声復号化装置、音声復号化方法、プログラム、記録媒体 - Google Patents

音声復号化装置、音声復号化方法、プログラム、記録媒体 Download PDF

Info

Publication number
JPWO2004097798A1
JPWO2004097798A1 JP2004571323A JP2004571323A JPWO2004097798A1 JP WO2004097798 A1 JPWO2004097798 A1 JP WO2004097798A1 JP 2004571323 A JP2004571323 A JP 2004571323A JP 2004571323 A JP2004571323 A JP 2004571323A JP WO2004097798 A1 JPWO2004097798 A1 JP WO2004097798A1
Authority
JP
Japan
Prior art keywords
speech
formant
vocal tract
sound source
linear prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004571323A
Other languages
English (en)
Other versions
JP4786183B2 (ja
Inventor
田中 正清
正清 田中
鈴木 政直
政直 鈴木
大田 恭士
恭士 大田
土永 義照
義照 土永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2004097798A1 publication Critical patent/JPWO2004097798A1/ja
Application granted granted Critical
Publication of JP4786183B2 publication Critical patent/JP4786183B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

符号分離/復号部は、音声符号codeから声道特性sp1と音源信号r1を復元する。声道特性修正部は、この声道特性sp1を修正し、修正後の声道特性sp2を出力する。これは、例えば、声道特性sp1に対して直接ホルマント強調処理を施すことで、強調された声道特性sp2を生成・出力する。信号合成部は、修正(強調)された声道特性sp2と、音源信号r1とを合成して、出力音声sを生成・出力する。

Description

本発明は、音声符号化処理を施して通信する携帯電話等の通信装置に係わり、特にその音声復号化装置であって音声の明瞭度を高め受話音声を聞き取りやすくする音声復号化装置、復号方法等に関する。
近年、携帯電話は広く普及している。携帯電話システムでは、回線を有効利用するため、音声を圧縮する音声符号化技術が用いられている。このような音声符号化技術の中で、低ビットレートで音声品質が優れている符号化方式として、符号励振線形予測(Code Excited Linear Prediction:CELP)方式が知られており、ITU−T G.729方式、3GPP AMR方式など、多くの音声符号化規格で、CELPをベースとした符号化方式が採用されている。また、携帯電話システムに限らず、例えばVoIP(voice over IP)、TV会議システム等で利用されている音声圧縮方式も、CELPアルゴリズムをベースとしたものが主流である。
ここで、CELPについて簡単に説明する。CELPは、1985年にM.R.Schroder氏とB.S.Atal氏によって発表された音声符号化方式であり、人間の音声生成モデルに基づいて入力音声からパラメータを抽出し、パラメータを符号化して伝送することにより、高能率の情報圧縮を実現している。
図16に、音声の生成モデルを示す。音声の生成過程は、音源(声帯)110で発生された音源信号が調音系(声道)111に入力され、声道111において声道特性が付加された後、最終的に唇112から音声波形となって出力される(非特許文献1参照)。つまり、音声は、音源特性と声道特性より成る。
図17に、CELP符号器・復号器の処理の流れを示す。
図17において、例えば携帯電話等にCELP符号器及びCELP復号器が搭載されており、送信側の携帯電話のCELP符号器120から受信側の携帯電話のCELP復号器130に対して、不図示の伝送路(無線回線、携帯電話網等)を介して、音声信号(音声符号code)を伝送する様子を示す。
送信側の携帯電話のCELP符号器120では、前述の音声生成モデルに基づいてパラメータ抽出部121が、入力音声を分析して、入力音声を、声道特性を表す線形予測係数(Linear Predictor Coeffieients:LPC係数)と、音源信号とに分離する。パラメータ抽出部121は、更に、音源信号から、音源信号の周期成分を表す適応符号帳(Adaptive CodeBook:ACB)ベクトル、非周期成分を表す雑音符号帳(Stochastic CodeBook:SCB)ベクトル、及び両ベクトルのゲインを抽出する。
次に、符号化部122が、これらLPC係数、ACBベクトル、SCBベクトル、ゲインを符号化して、LPC符号、ACB符号、SCB符号、ゲイン符号を生成し、符号多重化部123がこれらを多重化して音声符号codeとし、受信側の携帯電話へ伝送する。
受信側の携帯電話のCELP復号器130では、まず、符号分離部131が、伝送されてきた音声符号codeを、LPC符号、ACB符号、SCB符号、ゲイン符号に分離して、これらを復号部132がLPC係数、ACBベクトル、SCBベクトル、及びゲインへと復号する。そして、復号された各パラメータから、音声合成部133が音声を合成する。
以下に、CELP符号器、CELP復号器について更に詳細に説明する。
図18に、CELP符号器のパラメータ抽出部121のブロック図を示す。
CELPでは、入力音声を一定長のフレーム単位で符号化する。まず、LCP分析部141が、公知の線形予測分析(LPC分析)手法により、入力音声からLPC係数を求める。このLPC係数は、声道特性を全極型の線形フィルタで近似した際のフィルタ係数である。
次に、音源信号の抽出を行う。音源信号の抽出には、合成による分析(Analysis by Synthesis:AbS)手法が用いられる。CELPでは、音源信号を、LPC係数で構成されるLPC合成フィルタ142に入力することで音声を再生する。従って、適応符号帳143に格納された複数のACBベクトル、雑音符号帳144に格納された複数のSCBベクトル、及び両ベクトルのゲインの組み合わせにより構成される音源候補から、LPC合成フィルタ142によって音声を合成した際に入力音声との誤差が最小になる符号帳の組み合わせを、誤差電力評価部145が探索して、ACBベクトル、SCBベクトル、ACBゲイン、SCBゲインを抽出する。
以上の操作により抽出した各パラメータを、上記の通り、符号化部122によって符号化し、LPC符号、ACB符号、SCB符号、及びゲイン符号を得る。得られた各符号を符号多重化部123によって多重化し、音声符号codeとして復号器側へ伝送する。
次に、CELP復号器について更に詳細に説明する。
図19に、CELP復号器130のブロック図を示す。
CELP復号器130では、上記の通り、符号分離部131が、伝送されてきた音声符号codeから各パラメータを分離し、LPC符号、ACB符号、SCB符号、及びゲイン符号を得る。
次に、復号部132を構成するLPC係数復号部151、ACBベクトル復号部152、SCBベクトル復号部153、及びゲイン復号部154の各々によって、LPC符号、ACB符号、SCB符号、及びゲイン符号を、それぞれ、LPC係数、ACBベクトル、SCBベクトル、及びゲイン(ACBゲイン、SCBゲイン)へと復号する。
音声合成部133は、入力するACBベクトル、SCBベクトル、及びゲイン(ACBゲイン、SCBゲイン)から、図示の構成によって音源信号を生成し、この音源信号を上記復号したLPC係数によって構成されるLPC合成フィルタ155に入力して、LPC合成フィルタ155によって音声を復号して出力する。
ここで、携帯電話は静かな場所だけでなく、空港や駅のホームのように周囲に雑音があるような騒がしい環境で使用されることが多い。その際、周囲の雑音によって携帯電話の受話音声が聞き取り難くなるという問題がある。また、この例に限らず、例えば室内において使用するTV会議システム等においても、通常、エアコン等の電化製品から発生した雑音、周囲の他者の話し声等の背景雑音が含まれている。
このような問題に対し、受話音声に対して、音声スペクトルのホルマントを強調することより音声の明瞭度を高め、受話音声を聞き取りやすくする技術がいくつか知られている。
ここで、ホルマントについて簡単に説明する。
図20に、音声の周波数スペクトルの例を示す。
ここで、一般に、音声の周波数スペクトルには複数のピーク(極大を取る部分)が存在し、これらをホルマントと呼んでいる。図20には、スペクトルに3つのホルマント(ピーク)が存在する例を示しており、周波数の低い方から順に第1ホルマント、第2ホルマント、第3ホルマントと呼ぶ。また、これら極大値をとる周波数、すなわち各ホルマントの周波数fp(1)、fp(2)、fp(3)のことをホルマント周波数と呼ぶ。一般に、音声のスペクトルは、周波数が高くなるにつれて、振幅(電力)が小さくなる性質がある。更に、音声の明瞭度は、ホルマントと密接な関係があり、高次の(例えば第2、第3の)ホルマントを強調することにより、音声の明瞭度が改善することが知られている。
図21に、音声スペクトルのホルマント強調の一例を示す。
図21(a)において図中実線で示す波形、及び図21(b)において図中点線で示す波形が、強調する前の音声スペクトルを表す。また、図21(b)において図中実線で示す波形が、強調後の音声スペクトルを表す。また、図中の直線は、波形の傾きを表す。
図21(b)に示すように、高次ホルマントの振幅を大きくするように音声スペクトルを強調することにより、スペクトル全体の傾きが平坦になっており、これによって音声全体の明瞭度を改善することができることが知られている。
このようなホルマント強調技術として、以下に挙げる技術が公知である。
ホルマント強調を符号化された音声に対して適用した技術として、例えば特許文献1に記載の技術が知られている。
図22に、特許文献1に記載の発明の基本構成図を示す。
特許文献1は、帯域分割フィルタを用いる方法に係わる。図22からわかるように、特許文献1記載の手法では、入力音声のスペクトルをスペクトル推定部160により求め、求めたスペクトルから凸部帯域(山)と凹部帯域(谷)を決定する凸部/凹部帯域決定部161によって、凸部帯域と凹部帯域を求め、凸部帯域と凹部帯域に対する増幅率(又は減衰率)を算出する。
次に、フィルタ構成部162により、上記増幅率(又は減衰率)を実現する係数をフィルタ部163に与え、入力音声をフィルタ部163に入力することにより、スペクトル強調を実現する。
帯域分割フィルタを用いる方法は、従来では、分割された周波数帯域内に音声のホルマントが必ず入るという保証がない為、ホルマント以外の成分を強調してしまい、逆に明瞭度が劣化する場合があるという問題があった。
これに対して、特許文献1記載の手法は、帯域分割フィルタを用いる方法であって、音声スペクトルの山と谷を個別に増幅・減衰することにより、音声強調を実現している。
更に、特許文献1では、その図19に示す第7の実施形態のように、CELP方式を用いる場合に対して、音声復号部によって、ABCベクトルインデックス、SCBベクトルインデックス、ゲインインデックスを用いて、ABCベクトル、SCBベクトル、ゲインを復号して音源を生成し、この音源をLPC係数インデックスによって復号したLPC係数で構成される合成フィルタに通して、合成信号を生成する。そして、この合成信号とLPC係数をスペクトル強調部に入力させ、上記スペクトル強調を実現させる。
また、特許文献2記載の発明は、マルチバンド励起符号化(MBE)の音声復号装置の音声合成系の後置フィルタ(ポストフィルタ)に適用する音声信号処理装置であって、周波数領域のパラメータである各バンド毎の振幅値を直接操作することで、周波数スペクトルの高域フォルマントを強調することを特徴とする。 特許文献2のホルマント強調方法は、マルチバンド励起符号化(MBE)方式において、ピッチ周波数によって分割された複数の周波数帯域の平均振幅から、ホルマントを含む帯域を推定し、ホルマントを含む帯域のみを強調する方法である。
また、特許文献3記載の発明は、雑音のゲインを抑制した信号である処の参照信号との「合成による分析法」、即ち、A−b−S法によって符号化処理を行う音声符号化装置であって、この参照信号のホルマントを強調する手段と、信号の音声部と雑音部とを分割する手段と、この雑音部のレベルを抑圧する手段とを備える。その際、入力信号からフレーム毎に線形予測係数が抽出され、この線形予測係数に基づいて、上記ホルマント強調が行われる。
また、特許文献4記載の発明は、マルチパルス音声符号化の音源探索(マルチパルス探索)に関する発明である。つまり、音源情報をマルチパルスで近似して検索する際に、そのまま入力音声を使って音源探索するのではなく、音声を線スペクトル状に強調してから、音源探索を行うことにより、圧縮効率を高めることを目的とする発明である。
特開2001−117573号公報 特開平6−202695号公報 特開平8−272394号公報 特公平7−38118号公報 「音声の高能率符号化」、p.69−71、中田和男著、森北出版
上述した各従来技術には、以下に述べる問題がある。
まず、特許文献1記載の手法には以下のような問題点がある。
上記の通り、特許文献1では、その図19に示す第7の実施形態のように、CELP方式を用いる場合に対応して、合成信号とLPC係数をスペクトル強調部に入力させてスペクトル強調を実現させる例を示しているが、前述した音声生成モデルからわかる通り、音源信号と声道特性は全く異なった特性である。にもかかわらず、特許文献1記載の手法では、合成された音声を声道特性から求めた強調フィルタにより強調する。このため、合成音声に含まれる音源信号の歪みが大きくなり、雑音感の増加や明瞭度の劣化といった副作用が生じる場合がある。
また、特許文献2記載の発明は、上記の通り、MBEボコーダの再生音声品質を向上させることを目的として発明である。一方、今日、携帯電話システム、VoIP,TV会議システム等で利用されている音声圧縮方式は、線形予測を用いたCELPアルゴリズムをベースとしたものが主流である。従って、CELPをベースとした圧縮方式を用いたシステムに、特許文献2記載の手法を適用すると、圧縮・伸張されて音声品質が劣化した音声から、MBEボコーダ用の符号化パラメータを抽出する為、音声品質が更に劣化するおそれがあるという問題があった。
また、特許文献3記載の発明では、ホルマントを強調する際に、LPC係数を用いた単純なIIRフィルタを用いているが、この方法では、ホルマントを誤強調するおそれがあることが、論文(例えば、日本音響学会講演論文集、2000年3月、第249〜250頁等)等によって知られている。また、そもそも、特許文献3の発明は音声符号化装置に係わるものであり、音声復号化装置に関するものではない。
また、特許文献4記載の発明は、音源探索を行うことにより圧縮効率を高めることを目的とする発明であり、詳しくは、音源情報をマルチパルスで近似して検索する際、そのまま入力音声を使って音源探索するのではなく、音声を線スペクトル状に強調してから音源探索を行うことにより圧縮効率を高めることを目的とする発明であり、そもそも音声の明瞭度を高めることを目的とするものではない。
本発明の課題は、分析合成系の音声符号化方式を用いる機器(携帯電話等)において、ホルマント強調による音質劣化や雑音感の増加などの副作用を抑止し、復元する音声の明瞭度を更に高め、受話音声を聞き取り易くする音声復号化装置、音声復号化方法、そのプログラム、記録媒体等を提供することである。
本発明による音声復号化装置は、分析合成系の音声符号化方式を用いる通信装置が備える音声復号化装置において、受信した音声符号を分離して、声道特性と音源信号を復元する符号分離/復号手段と、該声道特性を修正する声道特性修正手段と、前記声道特性修正手段によって修正された修正声道特性と、前記音声符号から得られる音源信号とを合成して音声信号を出力する信号合成手段とを有するように構成する。
前記声道特性の修正とは、例えば声道特性に対してホルマント強調処理を施すものである。
上記構成の音声復号化装置によれば、分析合成系の音声符号化方式を用いる携帯電話等の通信装置において、音声符号化処理を施されて伝送されてきた音声符号を受信すると、この音声符号に基づいて音声を生成・出力する際に、音声符号から声道特性と音源信号とを復元し、復元した声道特性に対してホルマント強調処理を施して、これを音源信号と合成する。このようにすることによって、従来問題となっていた声道特性と音源信号を同時に強調する場合に発生するスペクトル歪を抑え、明瞭度を改善することができる。つまり、強調による音質劣化や雑音感の増加などの副作用がない音声に復号することができ、音声の明瞭度を更に高めて聞きやすくできる。
例えば、前記声道特性は、前記音声符号から復号する第1の線形予測係数から算出される線形予測スペクトルであり、前記声道特性修正手段は、該線形予測スペクトルをホルマント強調し、前記信号合成手段は、該ホルマント強調された線形予測スペクトルに対応する第2の線形予測係数を求める修正線形予測係数算出手段と、該第2の線形予測係数によって構成される合成フィルタとを有し、該合成フィルタに前記音源信号を入力して、前記音声信号を生成・出力するものである。
また、例えば、上記構成の音声復号化装置において、前記声道特性修正手段は、前記声道特性に対してホルマント強調とアンチホルマントの減衰処理を施し、ホルマントとアンチホルマントの振幅差を強調した声道特性を生成し、前記信号合成手段は、該強調された声道特性に基づいて、前記音源信号との合成を行うようにしてもよい。
上記構成により、相対的にホルマントが更に強調され、音声の明瞭度を更に高めることができる。また、アンチホルマントを減衰させることにより、音声符号化処理後の復号音声に生じやすい雑音感を抑えることができる。つまり、分析合成系の音声符号化方式の一種であるCELP等の音声符号化方式で符号化・復号化された音声は、アンチホルマントに量子化雑音と呼ばれる雑音が生じやすいことが知られている。これに対して本発明では上記構成によりアンチホルマントを減衰させるため、上記量子化雑音を軽減させ、雑音感の小さい聞きやすい音声を提供することができる。
また、例えば、上記構成の音声復号化装置において、前記音源信号に対してピッチ強調を施すピッチ強調手段を更に有し、前記信号合成手段は、該ピッチ強調された音源信号と、前記修正された声道特性とを合成して音声信号を生成・出力するように構成してもよい。
上記構成によって、入力した音声符号を分離して音源特性(残差信号)と声道特性とを復元し、これらを別々にそれぞれの特性に適した強調処理を施すこと、すなわち音源特性に対してはピッチ周期性を強調し、声道特性に対してはホルマント強調を施すことにより、出力する音声の明瞭度を更に改善できるようになる。
なお、上述した本発明の各構成により行なわれる機能と同様の制御をコンピュータに行なわせるプログラムを記憶したコンピュータ読み取り可能な記憶媒体から、そのプログラムをコンピュータに読み出させて実行させることによっても、前述した課題を解決することができる。
本発明は、後述する詳細な説明を、下記の添付図面と共に参照すればより明らかになるであろう。
図1は、本例の音声復号化装置の概略的な構成を示す図である。
図2は、本例の音声復号化装置の基本構成図である。
図3は、第1の実施例による音声復号化装置40の構成ブロック図である。
図4は、増幅率算出部の処理フローチャート図である。
図5は、ホルマントの増幅率を求める様子を示す図である。
図6は、補間曲線の一例を示す図である。
図7は、第2の実施例による音声復号化装置の構成ブロック図である。
図8は、増幅率算出部の処理フローチャート図である。
図9は、アンチホルマントの増幅率を求める様子を示す図である。
図10は、第3の実施例による音声復号化装置の構成ブロック図である。
図11は、音声復号化装置の適用先の1つである携帯電話のハードウェア構成図である。
図12は、音声復号化装置の適用先の1つであるコンピュータのハードウェア構成図である。
図13は、プログラムを記録した記録媒体、当該プログラムのダウンロードの一例を示す図である。
図14は、先出願で提案している音声強調装置の基本構成を示す図である。
図15は、先出願の音声強調装置を、CELP復号器が搭載された携帯電話等に適用する場合の構成例である。
図16は、音声の生成モデルを示す図である。
図17は、CELP符号器・復号器の処理の流れを示す図である。
図18は、CELP符号器のパラメータ抽出部の構成ブロック図である。
図19は、CELP復号器の構成ブロック図である。
図20は、音声の周波数スペクトルの例を示す図である。
図21は、音声スペクトルのホルマント強調の一例を示す図である。
図22は、特許文献1に記載の発明の基本構成図を示す図である。
以下、図面を参照して、本発明の実施の形態について説明する。
本例による音声復号化装置の概略的な構成を図1に示す。
図1に示す通り、音声復号化装置10は、その概略的な構成として、符号分離/復号部11、声道特性修正部12、及び信号合成部13を有する。
符号分離/復号部11は、音声符号codeから声道特性spと音源信号rを復元する。上述してあるように、送信側の携帯電話等が有するCELP符号器(不図示)では、入力音声を、線形予測係数(LPC係数)と、音源信号(残差信号)とに分離して、それぞれを符号化して、これらを多重化して音声符号codeとして受信側の携帯電話等が有する復号器へ伝送する。
この音声符号codeを受け取った復号器は、上記の通り、まず、符号分離/復号部11によって、音声符号codeから、声道特性spと音源信号rを復号する。 そして、声道特性修正部12が、この声道特性spを修正し、修正後の声道特性spを出力する。これは、例えば、声道特性spに対して直接ホルマント強調処理を施すことで、強調された声道特性spを生成・出力する。
最後に、信号合成部13が、修正された声道特性spと、音源信号rとを合成して、出力音声sを生成・出力する。例えば、ホルマント強調された出力音声sを生成・出力する。
上述した通り、特許文献1等では、例えば特許文献1の図19においては、復元した音源信号(加算器の出力)を、復号したLPC係数で構成される合成フィルタを通して、合成信号(合成された音声)を生成しており、この合成された音声を声道特性から求めた強調フィルタにより強調する。このため、合成音声に含まれる音源信号の歪みが大きくなり、雑音感の増加や明瞭度の劣化といった不具合が生じる場合がある。
これに対して、本例の音声復号化装置10では、音源信号とLPC係数を復元するところまでは略同様であるが、合成信号(合成された音声)を生成することなく、声道特性spに対して直接ホルマント強調処理を施し、強調された声道特性spと音源信号(残差信号)とを合成する。よって、上記問題が解消され、強調による音質劣化や雑音感の増加などの副作用がない音声に復号できる。
図2に、本例の音声復号化装置の基本構成図を示す。
尚、以下の説明では、音声符号化方式にCELP(Code Excited Linear Prediction;符号励振線形予測)方式を用いているが、これに限るものではなく、分析合成系の符号化方式であれば適用可能である。
図示の音声復号化装置20は、符号分離部21、ACBベクトル復号部22、SCBベクトル復号部23、ゲイン復号部24、音源信号生成部25、LPC係数復号部26、LPCスペクトル算出部27、スペクトル強調部28、修正LPC係数算出部29、及び合成フィルタ30を有する。
尚、符号分離部21、LPC係数復号部26、ACBベクトル復号部22、SCBベクトル復号部23、及びゲイン復号部24が、上記符号分離/復号部11の詳細構成の一例に相当する。スペクトル強調部28が、上記声道特性修正部12の一例である。修正LPC係数算出部29及び合成フィルタ30が、上記信号合成部13の詳細構成の一例に相当する。
符号分離部21は、送信側から多重化されて送られてきた音声符号codeを、LPC符号、ACB符号、SCB符号、及びゲイン符号に分離して出力する。
ACBベクトル復号部22、SCBベクトル復号部23、ゲイン復号部24、は、それぞれ、上記符号分離部21から出力されるACB符号、SCB符号、及びゲイン符号から、ACBベクトル、SCBベクトル、及びACBゲインとSCBゲインを復号する。
音源信号生成部25は、これらACBベクトル、SCBベクトル、及びACBゲインとSCBゲインを元に、音源信号(残差信号)r(n),(0≦n≦N)を生成する。なお、ここでNは符号化方式のフレーム長である。
一方、LPC係数復号部26は、上記符号分離部21から出力されるLPC符号から、LPC係数α(i),(1≦i≦NP)を復号し、これをLPCスペクトル算出部27に対して出力する。ここで、NPはLPC係数の次数である。
LPCスペクトル算出部27において、入力されたLPC係数α(i)から、声道特性を表すパラメータであるLPCスペクトルsp(l),(0≦l≦N)を求める。なお、ここでNはスペクトル点数であり、N≦Nとする。LPCスペクトル算出部27は、求めたLPCスペクトルsp(l)を、スペクトル強調部28へ出力する。
スペクトル強調部28は、LPCスペクトルsp(l)に基づいて、強調されたLPCスペクトルsp(l)を求め、求めたsp(l)を修正LPC係数算出部29に出力する。
修正LPC係数算出部29は、強調されたLPCスペクトルsp(l)に基づいて、修正LPC係数α(i),(1≦i≦NP)を求める。ここで、NPは修正LPC係数の次数である。修正LPC係数算出部29は、求めた修正LPC係数αを、合成フィルタ30に出力する。
そして、求めた修正LPC係数α(i)で構成される合成フィルタ30に、上記音源信号r(n)を入力し、出力音声s(n),(0≦n≦N)を求める。これにより、ホルマントが強調されて明瞭度が向上した音声を得ることができる。
以上説明した通り、本例では、音声符号から算出した声道特性(LPC係数から求めたLPCスペクトル)に対して直接ホルマント強調を行って声道特性を強調した後に、音源信号と合成するため、従来技術の問題点であった「声道特性から求めた強調フィルタを用いた強調による音源信号の歪み」を生じないようにできる。
図3は、第1の実施例による音声復号化装置40の構成ブロック図である。
図示の構成のうち、図2に示す音声復号化装置20と略同一の構成には同一符号を付してある。
尚、本実施例では、CELP方式の音声符号化方式を用いた場合について説明するが、その他の分析合成系の符号化方式でも同様に適用できる。
まず、符号分離部21は、送信側から送られてきた音声符号codeを、LPC符号、ACB符号、SCB符号、及びゲイン符号に分離する。
ACBベクトル復号部22は、上記ACB符号から、ACBベクトルp(n),(0≦n≦N)を復号する。ここで、Nは符号化方式のフレーム長である。SCBベクトル復号部22は、上記SCB符号から、SCBベクトルc(n),(0≦n≦N)を復号する。ゲイン復号部24は、上記ゲイン符号から、ACBゲインg、及びSCBゲインgを復号する。
音源信号生成部25は、上記復号されたACBベクトルp(n)、SCBベクトルc(n)、ACBゲインg、及びSCBゲインgから、以下の式(1)に従って、音源信号r(n),(0≦n≦N)を求める。
Figure 2004097798
一方、LPC係数復号部26は、上記符号分離部21によって分離・出力されたLPC符号から、LPC係数α(i),(1≦i≦NP)を復号し、LPCスペクトル算出部27に出力する。ここで、NPはLPC係数の次数である。
LPCスペクトル算出部27は、このLPC係数α(i)を以下の式(2)によりフーリエ変換することによって、声道特性としてLPCスペクトルsp(l)を求める。
ここでNはスペクトルのデータ点数である。PはLPCのフィルタの次数である。サンプリング周波数をFとすると、LPCスペクトルsp(l)の周波数分解能はF/Nとなる。変数lはスペクトルのインデックスであり離散周波数を表す。lを周波数(Hz)に換算するとint[l・F/N](Hz)となる。尚、int[x]は、変数xを整数化することを意味する。
Figure 2004097798
LPCスペクトル算出部27によって求められたLPCスペクトルsp(l)は、ホルマント推定部41、増幅率算出部42、及びスペクトル強調部43に入力される。
まず、ホルマント推定部41は、LPCスペクトルsp(l)を入力すると、ホルマント周波数fp(k),(1≦k≦kmax)とその振幅ampp(k),(1≦k≦kpmax)を推定する。
ここで、kpmaxは推定するホルマントの個数を示す。kpmaxの値は任意であるが、例えば8(kHz)サンプリングの音声に対しては、kpmax=4または5程度が適当である。
上記ホルマント周波数の推定方法は任意であるが、例えば、周波数スペクトルのピークからホルマントを推定するピークピッキング法等の公知の技術を用いることができる。
求めたホルマント周波数を、低次から順にfp(1),fp(2),…fp(kpmax)とする。また、fp(k)での振幅値をampp(k)とする。
尚、ホルマントのバンド幅に閾値を設け、バンド幅が閾値以下となる周波数だけをホルマント周波数としてもよい。
次に、増幅率算出部42は、上記LPCスペクトルsp(l)と、ホルマント推定部41によって推定されたホルマント周波数及び振幅{fp(k),ampp(k)}を入力して、LPCスペクトルsp(l)に対する増幅率β(l)を算出する。
図4は、増幅率算出部42の処理フローチャート図である。
図4に示すように、増幅率算出部42の処理は、増幅基準電力の算出(ステップS11)、ホルマント増幅率の算出(ステップS12)、増幅率の補間(ステップS13)の順に処理を行う。
まず、ステップS11の処理、すなわちLPCスペクトルsp(l)から増幅基準電力Pow_refを算出する処理について説明する。
増幅基準電力Pow_refの算出方法は任意である。例えば、全周波数帯域の平均電力にする方法や、ホルマント振幅ampp(k),(1≦k≦kpmax)の中で最も大きい振幅を基準電力とする方法などがある。また、周波数やホルマントの次数を変数とする関数として基準電力を求めても良い。全周波数帯域の平均電力を基準電力とする場合、増幅基準電力Pow_refは式(3)で表される。
Figure 2004097798
次に、ステップS12において、ホルマント振幅ampp(k),(1≦k≦kpmax)を、ステップS11で求めた増幅基準電力Pow_refに合わせるように、ホルマントの増幅率Gp(k)を決定する。図5に、ホルマント振幅ampp(k)を増幅基準電力Pow_refに合わせる様子を示す。このようにして得られた増幅率を用いてLPCスペクトルを強調することにより、スペクトル全体の傾きが平坦になり、これによって音声全体の明瞭度を改善することができる。
以下の式(4)は、増幅率Gp(k)を求める式である。
Figure 2004097798
更に、ステップS13において、隣接するホルマント間(fp(k)とfp(k+1)との間)にある周波数帯域の増幅率β(l)を、補間曲線R(k,l)により求める。補間曲線の形状は任意であるが、以下に、補間曲線R(k,l)を二次曲線とする場合の例を示す。
まず、補間曲線R(k,l)を、任意の二次曲線として定義すると、R(k,l)は、以下の式(5)のように表せる。
Figure 2004097798
ここで、a,b,cは任意である。この補間曲線R(k,l)を、図6に示すように、{fp(k),Gp(k)}、{fp(k+1)、Gp(k+1)}、及び{(fp(k)+fp(k+1))/2、min(γGp(k)、γGp(k+1))}を通るものと規定する。ここで、min(x、y)は、xとyのうち最小値を出力する関数であり、γは0≦γ≦1を満たす任意の定数とする。式(5)にこれらを代入すると、
Figure 2004097798
となる。よって、式(6),(7),(8)を連立方程式として、a,b,cを求めることにより、補間曲線R(k,l)を求めることができる。このR(k,l)に基づいて、区間[fp(k),fp(k+1)]の間のスペクトルに対する増幅率を求めることで、増幅率β(l)を補間する。
上述したステップS11〜S13までの処理を、全てのホルマントについて行い、全周波数帯域の増幅率を決定する。なお、最低次のホルマントfp(1)より低い周波数に対する増幅率については、fp(1)での増幅率Gp(1)を用い、最高次のホルマントfp(kpmax)より高い周波数に対する増幅率については、fp(kpmax)での増幅率Gp(kpmax)を用いる。以上をまとめると、増幅率β(l)は、以下の式(9)のようになる。
Figure 2004097798
但し、上記式(9)において、Ri(k,l)及びi=1,2となっているのは、後述する第2の実施例に対応する場合を示すものであり、第1の実施例においてはRi(k,l)をR(k,l)に置き換え、且つi=1,2は削除して考えるものとする。
以上説明した処理により増幅率算出部42によって求められた増幅率β(l)と、上記LPCスペクトルsp(l)とを、スペクトル強調部43に入力する。スペクトル強調部43は、これらを用いて、以下の式(10)に従って、強調されたスペクトルsp(l)を求める。
Figure 2004097798
スペクトル強調部43によって求められた、強調されたスペクトルsp(l)は、修正LPC係数算出部29に入力される。
修正LPC係数算出部29は、この強調されたスペクトルsp(l)の逆フーリエ変換から自己相関関数ac(i)を求める。次に、自己相関関数ac(i)からレビンソン・アルゴリズム等の公知の方法により修正LPC係数α(i),(1≦i≦NP)を求める。ここで、NPは、修正LPC係数の次数である。
そして、上記修正LPC係数算出部29によって求めた修正LPC係数α(i)によって構成される合成フィルタ30に、上記音源信号r(n)を入力する。
合成フィルタ30は、以下の(11)式によって出力音声s(n)を求める。これにより、強調処理された声道特性と、音源特性とが合成される。
Figure 2004097798
以上説明した通り、第1の実施例では、音声符号から復号した声道特性を強調した後に音源信号と合成する。これにより、従来技術で問題となっていた声道特性と音源信号を同時に強調する場合に発生するスペクトル歪を抑え、かつ明瞭度を改善することができる。更に、本例では、ホルマント以外の周波数成分に対しても、ホルマントの増幅率を基準にして増幅率を求め、強調処理を行っているので、声道特性を滑らかに強調することができる。
尚、本実施例ではスペクトルsp(l)に対する増幅率を1スペクトル点数単位で求めるが、スペクトルを複数の周波数帯域に分割し、各帯域別に個別の増幅率を持つようにしてもよい。
図7は、第2の実施例による音声復号化装置50の構成ブロック図である。
図示の構成のうち、図3に示す音声復号化装置40と略同一の構成には同一符号を付してあり、以下の説明では、第1の実施例と異なる部分についてのみ説明する。
第2の実施例では、ホルマントの強調に加えて、振幅が極小値をとるアンチホルマントの減衰を行い、ホルマントとアンチホルマントの振幅差を強調することを特徴とする。なお、本実施例では、アンチホルマントは2つの隣り合うホルマントの間にだけ存在するものとして説明するが、この例に限らず、それ以外、すなわちアンチホルマントが最低次ホルマントより低い周波数に存在する場合や、最高次ホルマントより高い周波数に存在する場合でも適応できる。
図示の音声復号化装置50は、図3の音声復号化装置40におけるホルマント推定部41及び増幅率算出部42に代えて、ホルマント/アンチホルマント推定部51、増幅率算出部52を有し、これら以外の構成は音声復号化装置40の構成と略同様である。
ホルマント/アンチホルマント推定部51は、LPCスペクトルsp(l)を入力すると、上記ホルマント推定部41と同様に、ホルマント周波数fp(k),(1≦k≦kpmax)とその振幅ampp(k),(1≦k≦kpmax)を推定すると共に、これに加えて、アンチホルマントの周波数fv(k),(1≦k≦kvmax)とその振幅ampv(k),(1≦k≦kvmax)を推定する。アンチホルマントの推定方法は任意であるが、例えば、スペクトルsp(l)の逆数に対してピークピッキング法を適用するなどの方法がある。求めたアンチホルマントを、低次から順にfv(1)、fv(2),・・・fv(kvmax)とする。ここで、kvmaxは、アンチホルマントの個数である。また、fv(k)での振幅値をampv(k)とする。
ホルマント/アンチホルマント推定部51によって求められたホルマント/アンチホルマントの推定結果は、増幅率算出部52に入力される。
図8は、増幅率算出部52の処理フローチャート図である。
増幅率算出部52の処理は、図8に示すように、ホルマントの増幅基準電力の算出(ステップS21)、ホルマントの増幅率の決定(ステップS22)、アンチホルマントの増幅基準電力の算出(ステップS23)、アンチホルマントの増幅率の決定(ステップS24)、及び増幅率の補間(ステップS25)の順に行われる。ステップS21、S22の処理は、第1の実施例のステップS11、S12の処理と同じであるので、ここでの説明は省略する。
以下に、ステップS23以降の処理について説明する。
まず、ステップS23のアンチホルマントの増幅基準電力の算出処理について説明する。
アンチホルマントの増幅基準電力Pow_refvは、LPCスペクトルsp(l)から求める。求め方は任意であるが、例えば、ホルマントの増幅基準電力Pow_refに1未満の定数を乗じたものを用いる方法や、アンチホルマントampv(k),(1≦k≦kvmax)の中で最小値をとる振幅を基準電力とするなどの方法がある。
ホルマントの増幅基準電力Pow_refに定数を乗じたものをアンチホルマントの基準電力とした場合の算出式を、以下の式(12)に示す。
Figure 2004097798
ここで、λは0<λ<1を満たす任意の定数である。
続いて、ステップS24のアンチホルマントの増幅率の決定処理について説明する。
アンチホルマントの増幅率Gv(k)を求める様子を図9に示す。図9からわかるように、アンチホルマント振幅ampv(k),(1≦k≦kvmax)を、ステップS23で求めたアンチホルマントの増幅基準電力Pow_refvに合わせるようにして、アンチホルマントの増幅率Gv(k)を決定する。
以下の式(13)は、アンチホルマントの増幅率Gv(k)を求める式を示す。
Figure 2004097798
最後に、ステップS25の増幅率の補間処理を行う。
この処理は、隣り合うホルマント周波数とアンチホルマント周波数の間にある周波数における増幅率を、補間曲線Ri(k,l)により求める。ここで、i=1,2であり、区間[fp(k)、fv(k)]の補間曲線をR(k,l)、区間[fv(k)、fp(k+1)]の補間曲線をR(k,l)とする。
補間曲線は任意の方法により求めてよい。
以下に、補間曲線Ri(k,l)を二次曲線で算出する場合の一例を示す。
まず、二次曲線の形状を、{fp(k)、Gp(k)}を通り、{fv(k),Gv(k)}で極小値をとるような二次曲線と規定する。そうすると、この二次曲線は、式(14)のように表せる。
Figure 2004097798
ここで、aはa>0を満たす任意の定数である。この式(14)が、{fp(k)、Gp(k)}を通ることから、{l、β(l)}={fp(k)、Gp(k)}を代入し、式を整理すると、aは以下の(15)式のように表される。
Figure 2004097798
ゆえに、式(15)からaを算出し、二次曲線R(k,l)を求めることができる。fv(k)とfp(k+1)の間の補間曲線R(k,l)も、同様に求めることができる。
以上をまとめると、増幅率β(l)は、上式(9)で表される。
増幅率算出部52は、この増幅率β(l)を、スペクトル強調部43に出力し、スペクトル算出部43は、これを用いて、上式(10)に従って、強調されたスペクトルsp(l)を求める。
以上説明した通り、第2の実施例では、ホルマントの増幅に加えて、アンチホルマントを減衰する。これにより、相対的にホルマントが更に強調され、第1の実施例と比較して、明瞭度を更に高めることができる。
また、アンチホルマントを減衰させることにより、音声符号化処理後の復号音声に生じやすい雑音感を抑えることができる。CELPなど、携帯電話などで使われている音声符号化方式で符号化・復号化された音声は、アンチホルマントに量子化雑音と呼ばれる雑音が生じやすいことが知られている。本発明では、アンチホルマントを減衰させるため、前記量子化雑音を軽減させ、雑音感の小さい聞きやすい音声を提供することができる。
図10は、第3の実施例による音声復号化装置60の構成ブロック図である。
図示の構成のうち、図3に示す音声復号化装置40と略同一の構成には同一符号を付してあり、以下の説明では、第1の実施例と異なる部分についてのみ説明する。
第3の実施例では、第1の実施例の構成に加えて、更に、音源信号に対してピッチ強調を施す構成を有することを特徴とする。すなわち、ピッチ強調フィルタ構成部62、ピッチ強調部63を有することを特徴とする。また、ACBベクトル復号部61は、ACB符号からACBベクトルp(n),(0≦n≦N)を復号するだけでなく、ACB符号からピッチラグの整数部Tを求めて、ピッチ強調フィルタ構成部62に出力する。
ピッチ強調の方法は任意であるが、例えば以下のような方法がある。
まず、ピッチ強調フィルタ構成部62は、上記ACBベクトル復号部61から出力されるピッチラグの整数部Tを用いて、Tの近傍における音源信号r(n)の自己相関関数rscor(T−1)、rscor(T)rscor(T+1)を、以下の式(16)により求める。
Figure 2004097798
ピッチ強調フィルタ構成部62は、続いて、上記自己相関関数rscor(T−1)、rscor(T)、rscor(T+1)から、レビンソン・アルゴリズム等の公知の方法により、ピッチ予測係数pc(i)(i=−1、0.1)を算出する。
ピッチ強調部63は、ピッチ予測係数pc(i)で構成されるピッチ強調フィルタ(伝達関数は、以下の式(17)、gは重み付け係数)で音源信号r(n)をフィルタリングし、ピッチが強調された残差信号(音源信号)r’(n)を出力する。
Figure 2004097798
合成フィルタ30は、上記のようにして求めた音源信号r’(n)を、r(n)の代わりに式(11)に代入して、出力音声s(n)を得る。
尚、本実施例では、ピッチ強調フィルタに3タップのIIRフィルタを用いたが、それに限るものではなく、タップ長を変えてもよいし、FIRフィルタ等の任意のフィルタを用いても良い。
以上説明した通り、第3の実施例では、第1の実施例の構成に加えて、更に、ピッチ強調フィルタを付加することにより音源信号に含まれるピッチ周期成分を強調するため、第1の実施例に比べて音声の明瞭度を更に改善することができる。つまり、入力した音声符号を分離して音源特性(残差信号)と声道特性とを復元し、これらを別々にそれぞれの特性に適した強調処理を施すこと、すなわち音源特性に対してはピッチ周期性を強調し、声道特性に対してはホルマント強調を施すことにより、出力する音声の明瞭度を更に改善できるようになる。
図11は、本例の音声復号化装置の適用先の1つである携帯電話/PHSのハードウェア構成図である。尚、携帯電話は、プログラム等を実行して任意の処理を実行できることから、コンピュータの一種として扱うことができる。
図示の携帯電話/PHS70は、アンテナ71、無線部72、AD/DA変換部73、DSP(Digital Signal Processor)74、CPU75、メモリ76、表示部77、スピーカ78、及びマイク79を有する。
アンテナ71、無線部72、AD/DA変換部73を介して受信した音声符号codeに対して、DSP74が、メモリ76に格納されている所定のプログラムを実行することにより、上記図1〜図10を参照して説明した音声復号化処理が実行され、出力音声を出力する。
また、上述してある通り、本発明の音声復号化装置の適用先は、携帯電話に限るものではなく、例えばVoIP(voice over IP)、TV会議システム等であってもよい。つまり、音声を圧縮する音声符号化方式を適用して、無線/有線で、通信を行なう機能を備え、上記図1〜図10を参照して説明した音声復号化処理を実行できる何らかのコンピュータであれば何でもよい。
図12は、このようなコンピュータの概略的なハードウェア構成の一例を示す図である。
同図に示すコンピュータ80は、CPU81、メモリ82、入力装置83、出力装置84、外部記憶装置85、媒体駆動装置86、ネットワーク接続装置87等を有し、これらがバス88に接続された構成となっている。同図に示す構成は一例であり、これに限るものではない。
メモリ82は、プログラム実行、データ更新等の際に、外部記憶装置85(あるいは可搬型記録媒体89)に記憶されているプログラムあるいはデータを一時的に格納するRAM等のメモリである。
CPU81は、メモリ82に読み出したプログラムを実行して、上述してある各種処理/機能(図4、図8等に示す処理等や、図1〜図3、図7、図10に示す各機能部の機能)を実現する。
入力装置83は、例えばキーボード、マウス、タッチパネル、マイク等である。
出力装置84は、例えばディスプレイ、スピーカー等である。
外部記憶装置85は、例えば磁気ディスク装置、光ディスク装置、光磁気ディスク装置等であり、上述してきた画像結合装置としての各種機能を実現させる為のプログラム/データ等が格納されている。
媒体駆動装置86は、可搬型記録媒体89に記憶されているプログラム/データ等を読み出す。可搬型記録媒体89は、例えば、FD(フレキシブルディスク)、CD−ROM、その他、DVD、光磁気ディスク等である。
ネットワーク接続装置87は、ネットワークに接続して、外部の情報処理装置とプログラム/データ等の送受信を可能にする構成である。
図13は、上記プログラムを記録した記録媒体、当該プログラムのダウンロードの一例を示す図である。
図示のように、上記本発明の機能を実現するプログラム/データが記憶されている可搬型記録媒体89からコンピュータ80側に読み出して、メモリ82に格納し実行するものであってもよいし、また、上記プログラム/データは、ネットワーク接続装置87により接続しているネットワーク3(インターネット等)を介して、外部のサーバ1の記憶部2に記憶されているプログラム/データをダウンロードするものであってもよい。
また、本発明は、装置/方法に限らず、上記プログラム/データを格納した記録媒体(可搬型記録媒体89等)自体として構成することもできるし、上記プログラム自体として構成することもできる。
最後に、本出願の出願人が既に出願している先出願(国際出願番号;JP02/11332)について触れておく。
図14に、先出願で提案している音声強調装置90の基本構成を示す。
図示の音声強調装置90は、まず、信号分析・分離部91が、入力音声xを分析して、これを音源信号rと声道特性spとに分離する。声道特性修正部92が、この声道特性spを修正(例えばホルマントを強調)し、修正(強調)された声道特性spを出力する。最後に、信号合成部93が、音源信号rを、上記修正(強調)された声道特性spと再合成することにより、ホルマントを強調した音声が出力されることを特徴としている。
このように、先出願では、入力音声xを、音源信号rと声道特性spとに分離して、声道特性の強調を行うため、特許文献1の問題点であった音源信号の歪みを生じさせることが無い。従って、雑音感の増加や明瞭度の低下のないホルマント強調を行うことができる。
ところで、先出願記載の音声強調装置を、例えばCELP復号器が搭載された携帯電話等に適用する場合、図15に示すようになる。
先出願記載の音声強調装置90は、上記の通り、音声xを入力しているので、図15に示すように、音声強調装置90の前段に復号処理装置100を設け、外部から送られてきた音声符号codeを、当該復号処理装置100によって復号して、この復号音声sを、音声強調装置90の入力とする構成となる。
復号処理装置100は、例えば符号分離/復号部101によって音声符号codeから音源信号rと声道特性spとを生成し、これらを信号合成部102によって合成して復号音声sを生成・出力する。このとき、音声符号codeから復号された復号音声sは、情報が圧縮されているため、符号化前の音声に比べて音声の情報量が減少し、品質が劣化している。
このため、品質が劣化した復号音声sを入力とする音声強調装置90では、品質が劣化した音声を再分析して音源信号と声道特性に分離することになる。そのため、分離の精度が劣化し、復号音声sから分離した声道特性sp’中に音源信号成分が、あるいは音源信号r’中に声道特性成分が残留する場合がある。従って、声道特性を強調した際、声道特性中に残留する音源信号成分が強調されてしまう場合、あるいは音源信号中に残留する声道特性成分が強調されない場合がある。このため、音源信号とホルマント強調後の声道特性から再合成される出力音声s’の音質が劣化する可能性があった。
これに対して、本発明の音声復号化装置では、音声符号から復号した声道特性を用いるため、劣化した音声からの再分析による品質劣化を生じない。更に、再分析が不要となるため、処理量を削減することができる。
産業上の利用の可能性
以上詳細に説明したように、本発明の音声復号化装置、復号方法、そのプログラム等によれば、分析合成系の音声符号化方式を用いる携帯電話等の通信装置において、音声符号化処理を施されて伝送されてきた音声符号を受信すると、この音声符号に基づいて音声を生成・出力する際に、音声符号から声道特性と音源信号とを復元し、復元した声道特性に対してホルマント強調処理を施して、これを音源信号と合成する。このようにすることによって、従来問題となっていた声道特性と音源信号を同時に強調する場合に発生するスペクトル歪を抑え、明瞭度を改善することができる。つまり、強調による音質劣化や雑音感の増加などの副作用がない音声に復号することができ、音声の明瞭度を更に高めて聞きやすくなる。

Claims (24)

  1. 分析合成系の音声符号化方式を用いる通信装置が備える音声復号化装置において、
    受信した音声符号を分離して、声道特性と音源信号を復元する符号分離/復号手段と、
    該声道特性を修正する声道特性修正手段と、
    前記声道特性修正手段によって修正された修正声道特性と、前記音声符号から得られる音源信号とを合成して音声信号を出力する信号合成手段と、
    を有することを特徴とする音声復号化装置。
  2. 前記声道特性修正手段は、前記声道特性に対してホルマント強調処理を施し、該強調された声道特性を生成し、
    前記信号合成手段は、該強調された声道特性に基づいて、前記音源信号との合成を行うことを特徴とする請求項1記載の音声復号化装置。
  3. 前記声道特性は、前記音声符号から復号する第1の線形予測係数から算出される線形予測スペクトルであり、
    前記声道特性修正手段は、該線形予測スペクトルをホルマント強調し、
    前記信号合成手段は、該ホルマント強調された線形予測スペクトルに対応する第2の線形予測係数を求める修正線形予測係数算出手段と、該第2の線形予測係数によって構成される合成フィルタとを有し、該合成フィルタに前記音源信号を入力して、前記音声信号を生成・出力することを特徴とする請求項1又は2記載の音声復号化装置。
  4. 前記声道特性修正手段は、前記声道特性におけるホルマントを推定するホルマント推定手段と、該推定したホルマントに基づいて前記声道特性に対する増幅率を算出する増幅率算出手段と、該算出した増幅率に基づいて前記声道特性を強調する強調手段とを有することを特徴とする請求項1〜3の何れかに記載の音声復号化装置。
  5. 前記ホルマント推定手段は、前記ホルマントのホルマント周波数とその振幅を推定し、
    前記増幅率算出手段は、前記声道特性から増幅基準電力を算出して、前記ホルマント振幅を該増幅基準電力に合わせるようにしてホルマントの増幅率を決定し、
    前記強調手段は、該ホルマントの増幅率を用いて前記声道特性を強調することを特徴とする請求項4記載の音声復号化装置。
  6. 前記増幅率算出手段は、更に、前記ホルマント間の周波数帯域の増幅率を、補間曲線により求め、
    前記強調手段は、該補間曲線によって求められた増幅率も用いて前記声道特性を強調することを特徴とする請求項5記載の音声復号化装置。
  7. 前記声道特性修正手段は、前記声道特性に対してホルマント強調とアンチホルマントの減衰処理を施し、ホルマントとアンチホルマントの振幅差を強調した声道特性を生成し、
    前記信号合成手段は、該強調された声道特性に基づいて、前記音源信号との合成を行うことを特徴とする請求項1記載の音声復号化装置。
  8. 前記声道特性は、前記音声符号から復号する第1の線形予測係数から算出される線形予測スペクトルであり、
    前記声道特性修正手段は、該線形予測スペクトルに対して前記ホルマント強調とアンチホルマントの減衰処理を施し、
    前記信号合成手段は、該声道特性修正手段が生成した修正後の線形予測スペクトルに対応する第2の線形予測係数を求める修正線形予測係数算出手段と、該第2の線形予測係数によって構成される合成フィルタとを有し、該合成フィルタに前記音源信号を入力して、前記音声信号を生成・出力することを特徴とする請求項7記載の音声復号化装置。
  9. 前記声道特性修正手段は、
    前記ホルマントの周波数とその振幅を推定すると共に、前記アンチホルマントの周波数とその振幅を推定するホルマント推定手段と、
    前記声道特性からホルマントの増幅基準電力を算出して、前記ホルマント振幅を該増幅基準電力に合わせるようにしてホルマントの増幅率を決定すると共に、前記声道特性からアンチホルマントの増幅基準電力を算出して、前記アンチホルマント振幅を該増幅基準電力に合わせるようにしてアンチホルマントの増幅率を決定する増幅率算出手段と、
    該増幅率算出手段によって決定されたホルマントの増幅率とアンチホルマントの増幅率とを用いて前記声道特性を強調/減衰する強調手段と、
    を有することを特徴とする請求項7又は8記載の音声復号化装置。
  10. 前記音源信号に対してピッチ強調を施すピッチ強調手段を更に有し、
    前記信号合成手段は、該ピッチ強調された音源信号と、前記修正された声道特性とを合成して音声信号を生成・出力することを特徴とする請求項1記載の音声復号化装置。
  11. 前記音声符号の一部であるACB符号に基づいて得られるピッチラグを用いて、該ピッチラグの近傍における音源信号の自己相関関数を求め、該自己相関関数からピッチ予測係数を算出するピッチ強調フィルタ構成手段を更に備え、
    前記ピッチ強調手段は、前記ピッチ予測係数で構成されるピッチ強調フィルタによって前記音源信号をフィルタリングすることで、前記ピッチ強調された音源信号を生成することを特徴とする請求項10記載の音声復号化装置。
  12. 前記音声符号化方式は、符号励振線形予測方式の音声符号化方式であることを特徴とする請求項1〜11の何れかに記載の音声復号化装置。
  13. 分析合成系の音声符号化方式を用いる通信装置における音声復号化方法であって、
    受信した音声符号を分離して、声道特性と音源信号を復元し、
    該声道特性を修正し、
    該修正された修正声道特性と、前記音声符号から得られる音源信号とを合成して音声信号を出力することを特徴とする音声復号化方法。
  14. 分析合成系の音声符号化方式を用いる通信装置における音声復号化方法であって、
    受信した音声符号を分離して、該音声符号から復号する第1の線形予測係数から線形予測スペクトルを求めると共に、該音声符号から音源信号を復元し、
    該線形予測スペクトルをホルマント強調し、
    該ホルマント強調された線形予測スペクトルに対応する第2の線形予測係数を求め、該第2の線形予測係数によって構成される合成フィルタに前記音源信号を入力して、前記音声信号を生成・出力することを特徴とする音声復号化方法。
  15. 前記ホルマント強調に加えて、アンチホルマントの減衰を行い、ホルマントとアンチホルマントの振幅差を強調することを特徴とする請求項14記載の音声復号化方法。
  16. 前記音源信号に対してピッチ強調を施し、該ピッチ強調された音源信号を前記合成フィルタへの入力とすることを特徴とする請求項14又は15記載の音声復号化方法。
  17. コンピュータに、
    分析合成系の音声符号化方式によって符号化され伝送されてきた音声符号を受信すると、該受信した音声符号を分離して、声道特性と音源信号を復元する機能と、
    該声道特性を修正する機能と、
    該修正された修正声道特性と、前記音声符号から得られる音源信号とを合成して音声信号を出力する機能と、
    を実現させるためのプログラム。
  18. コンピュータに、
    分析合成系の音声符号化方式によって符号化され伝送されてきた音声符号を受信すると、該受信した音声符号を分離して、該音声符号から復号する第1の線形予測係数から線形予測スペクトルを求めると共に、該音声符号から音源信号を復元する機能と、
    該線形予測スペクトルをホルマント強調する機能と、
    該ホルマント強調された線形予測スペクトルに対応する第2の線形予測係数を求め、該第2の線形予測係数によって構成される合成フィルタに前記音源信号を入力して、前記音声信号を生成・出力する機能と、
    を実現させるためのプログラム。
  19. 前記ホルマント強調に加えて、アンチホルマントの減衰を行い、ホルマントとアンチホルマントの振幅差を強調することを特徴とする請求項18記載のプログラム。
  20. 前記音源信号に対してピッチ強調を施し、該ピッチ強調された音源信号を前記合成フィルタへの入力とすることを特徴とする請求項18又は19記載のプログラム。
  21. コンピュータに、
    分析合成系の音声符号化方式によって符号化され伝送されてきた音声符号を受信すると、該受信した音声符号を分離して、声道特性と音源信号を復元する機能と、
    該声道特性を修正する機能と、
    該修正された修正声道特性と、前記音声符号から得られる音源信号とを合成して音声信号を出力する機能と、
    を実行させるためのプログラムを格納したコンピュータ読み取り可能な記録媒体。
  22. コンピュータに、
    分析合成系の音声符号化方式によって符号化され伝送されてきた音声符号を受信すると、該受信した音声符号を分離して、該音声符号から復号する第1の線形予測係数から線形予測スペクトルを求めると共に、該音声符号から音源信号を復元する機能と、
    該線形予測スペクトルをホルマント強調する機能と、
    該ホルマント強調された線形予測スペクトルに対応する第2の線形予測係数を求め、該第2の線形予測係数によって構成される合成フィルタに前記音源信号を入力して、前記音声信号を生成・出力する機能と、
    を実行させるためのプログラムを格納したコンピュータ読み取り可能な記録媒体。
  23. 前記ホルマント強調に加えて、アンチホルマントの減衰を行い、ホルマントとアンチホルマントの振幅差を強調することを特徴とする請求項22記載の記録媒体。
  24. 前記音源信号に対してピッチ強調を施し、該ピッチ強調された音源信号を前記合成フィルタへの入力とすることを特徴とする請求項22又は23記載の記録媒体。
JP2004571323A 2003-05-01 2003-05-01 音声復号化装置、音声復号化方法、プログラム、記録媒体 Expired - Fee Related JP4786183B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2003/005582 WO2004097798A1 (ja) 2003-05-01 2003-05-01 音声復号化装置、音声復号化方法、プログラム、記録媒体

Publications (2)

Publication Number Publication Date
JPWO2004097798A1 true JPWO2004097798A1 (ja) 2006-07-13
JP4786183B2 JP4786183B2 (ja) 2011-10-05

Family

ID=33398154

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004571323A Expired - Fee Related JP4786183B2 (ja) 2003-05-01 2003-05-01 音声復号化装置、音声復号化方法、プログラム、記録媒体

Country Status (5)

Country Link
US (1) US7606702B2 (ja)
EP (1) EP1619666B1 (ja)
JP (1) JP4786183B2 (ja)
DE (1) DE60330715D1 (ja)
WO (1) WO2004097798A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008108082A1 (ja) * 2007-03-02 2008-09-12 Panasonic Corporation 音声復号装置および音声復号方法
JP2010191302A (ja) * 2009-02-20 2010-09-02 Sharp Corp 音声出力装置
WO2011026247A1 (en) * 2009-09-04 2011-03-10 Svox Ag Speech enhancement techniques on the power spectrum
WO2012144128A1 (ja) * 2011-04-20 2012-10-26 パナソニック株式会社 音声音響符号化装置、音声音響復号装置、およびこれらの方法
SG11201505911SA (en) * 2013-01-29 2015-08-28 Fraunhofer Ges Forschung Low-frequency emphasis for lpc-based coding in frequency domain
SI3537437T1 (sl) * 2013-03-04 2021-08-31 Voiceage Evs Llc Naprava in postopek za zmanjšanje kvantizacijskega šuma v časovnem dekoderju
EP2980799A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing an audio signal using a harmonic post-filter
JP6637082B2 (ja) 2015-12-10 2020-01-29 ▲華▼侃如 調波モデルと音源−声道特徴分解に基づく音声分析合成方法
JP6646001B2 (ja) * 2017-03-22 2020-02-14 株式会社東芝 音声処理装置、音声処理方法およびプログラム
JP2018159759A (ja) 2017-03-22 2018-10-11 株式会社東芝 音声処理装置、音声処理方法およびプログラム

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05323997A (ja) * 1991-04-25 1993-12-07 Matsushita Electric Ind Co Ltd 音声符号化器、音声復号化器、音声符号化装置
JPH06202698A (ja) * 1993-01-07 1994-07-22 Toshiba Corp 適応ポストフィルタ
JPH086596A (ja) * 1994-06-21 1996-01-12 Mitsubishi Electric Corp 音声強調装置
JPH0981192A (ja) * 1995-09-14 1997-03-28 Toshiba Corp ピッチ強調方法および装置
JPH09138697A (ja) * 1995-09-14 1997-05-27 Toshiba Corp ホルマント強調方法
JPH10105200A (ja) * 1996-09-26 1998-04-24 Toshiba Corp 音声符号化/復号化方法
JP2001117573A (ja) * 1999-10-20 2001-04-27 Toshiba Corp 音声スペクトル強調方法/装置及び音声復号化装置

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0738118B2 (ja) * 1987-02-04 1995-04-26 日本電気株式会社 マルチパルス符号化装置
WO1993018505A1 (en) * 1992-03-02 1993-09-16 The Walt Disney Company Voice transformation system
JPH0738118A (ja) 1992-12-22 1995-02-07 Korea Electron Telecommun 薄膜トランジスタの製造方法
JPH06202695A (ja) 1993-01-07 1994-07-22 Sony Corp 音声信号処理装置
JP3235703B2 (ja) * 1995-03-10 2001-12-04 日本電信電話株式会社 ディジタルフィルタのフィルタ係数決定方法
JPH08272394A (ja) 1995-03-30 1996-10-18 Olympus Optical Co Ltd 音声符号化装置
JP2993396B2 (ja) * 1995-05-12 1999-12-20 三菱電機株式会社 音声加工フィルタ及び音声合成装置
EP0763818B1 (en) 1995-09-14 2003-05-14 Kabushiki Kaisha Toshiba Formant emphasis method and formant emphasis filter device
US5819213A (en) * 1996-01-31 1998-10-06 Kabushiki Kaisha Toshiba Speech encoding and decoding with pitch filter range unrestricted by codebook range and preselecting, then increasing, search candidates from linear overlap codebooks
JP3357795B2 (ja) * 1996-08-16 2002-12-16 株式会社東芝 音声符号化方法および装置
US6003000A (en) * 1997-04-29 1999-12-14 Meta-C Corporation Method and system for speech processing with greatly reduced harmonic and intermodulation distortion
US6098036A (en) * 1998-07-13 2000-08-01 Lockheed Martin Corp. Speech coding system and method including spectral formant enhancer
JP2000099094A (ja) * 1998-09-25 2000-04-07 Matsushita Electric Ind Co Ltd 時系列信号処理装置
JP3612260B2 (ja) * 2000-02-29 2005-01-19 株式会社東芝 音声符号化方法及び装置並びに及び音声復号方法及び装置
US6665638B1 (en) * 2000-04-17 2003-12-16 At&T Corp. Adaptive short-term post-filters for speech coders
JP4413480B2 (ja) 2002-08-29 2010-02-10 富士通株式会社 音声処理装置及び移動通信端末装置
WO2004040555A1 (ja) * 2002-10-31 2004-05-13 Fujitsu Limited 音声強調装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05323997A (ja) * 1991-04-25 1993-12-07 Matsushita Electric Ind Co Ltd 音声符号化器、音声復号化器、音声符号化装置
JPH06202698A (ja) * 1993-01-07 1994-07-22 Toshiba Corp 適応ポストフィルタ
JPH086596A (ja) * 1994-06-21 1996-01-12 Mitsubishi Electric Corp 音声強調装置
JPH0981192A (ja) * 1995-09-14 1997-03-28 Toshiba Corp ピッチ強調方法および装置
JPH09138697A (ja) * 1995-09-14 1997-05-27 Toshiba Corp ホルマント強調方法
JPH10105200A (ja) * 1996-09-26 1998-04-24 Toshiba Corp 音声符号化/復号化方法
JP2001117573A (ja) * 1999-10-20 2001-04-27 Toshiba Corp 音声スペクトル強調方法/装置及び音声復号化装置

Also Published As

Publication number Publication date
JP4786183B2 (ja) 2011-10-05
EP1619666B1 (en) 2009-12-23
US20050187762A1 (en) 2005-08-25
WO2004097798A1 (ja) 2004-11-11
EP1619666A4 (en) 2007-08-01
US7606702B2 (en) 2009-10-20
DE60330715D1 (de) 2010-02-04
EP1619666A1 (en) 2006-01-25

Similar Documents

Publication Publication Date Title
JP3881943B2 (ja) 音響符号化装置及び音響符号化方法
JP5226777B2 (ja) 音声信号中に埋め込まれた隠れデータの回復
JP5942358B2 (ja) 符号化装置および方法、復号装置および方法、並びにプログラム
JP3881946B2 (ja) 音響符号化装置及び音響符号化方法
JP2009530685A (ja) Mdct係数を使用する音声後処理
RU2701075C1 (ru) Устройство обработки аудиосигнала, способ обработки аудиосигнала и программа обработки аудиосигнала
KR20060135699A (ko) 신호 복호화 장치 및 신호 복호화 방법
JP4786183B2 (ja) 音声復号化装置、音声復号化方法、プログラム、記録媒体
JP2004138756A (ja) 音声符号化装置、音声復号化装置、音声信号伝送方法及びプログラム
WO2014034697A1 (ja) 復号方法、復号装置、プログラム、及びその記録媒体
JP2004302259A (ja) 音響信号の階層符号化方法および階層復号化方法
KR20010005557A (ko) 피치 강조 방법 및 그 장치
JP4373693B2 (ja) 音響信号の階層符号化方法および階層復号化方法
JP4227421B2 (ja) 音声強調装置および携帯端末
JP4343302B2 (ja) ピッチ強調方法及びその装置
JP3785363B2 (ja) 音声信号符号化装置、音声信号復号装置及び音声信号符号化方法
JP6718670B2 (ja) Adpcmコーデックでのパケット損失隠蔽方法及びplc回路を備えるadpcm復号器
JP2002149198A (ja) 音声符号化装置及び音声復号化装置
JPH09244695A (ja) 音声符号化装置及び復号化装置
JP2004151424A (ja) トランスコーダ及び符号変換方法
JP2000089797A (ja) 音声符号化装置
JP6133454B2 (ja) 音声信号処理方法及び音声信号処理装置
JP6352487B2 (ja) 音声信号処理方法及び音声信号処理装置
JP2018165824A (ja) 音声信号処理方法及び音声信号処理装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080930

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081201

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20091006

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091228

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20100114

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20100402

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110713

R150 Certificate of patent or registration of utility model

Ref document number: 4786183

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140722

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees