JP3815323B2 - 周波数変換ブロック長適応変換装置及びプログラム - Google Patents
周波数変換ブロック長適応変換装置及びプログラム Download PDFInfo
- Publication number
- JP3815323B2 JP3815323B2 JP2001400181A JP2001400181A JP3815323B2 JP 3815323 B2 JP3815323 B2 JP 3815323B2 JP 2001400181 A JP2001400181 A JP 2001400181A JP 2001400181 A JP2001400181 A JP 2001400181A JP 3815323 B2 JP3815323 B2 JP 3815323B2
- Authority
- JP
- Japan
- Prior art keywords
- frequency
- block
- change amount
- analysis
- spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Description
【発明の属する技術分野】
本発明は周波数変換ブロック長適応変換装置及びプログラムに係り、特に周波数領域信号の時間的変化量を基にアタック音であるか否かを判定して、周波数変換ブロックのブロック長を適応的に切り替える周波数変換ブロック長適応変換装置及びプログラムに関する。
【0002】
【従来の技術】
代表的なオーディオ圧縮アルゴリズムは適応変換符号化方式が用いられており、既に様々な分野に利用されている。著名な例ではISO/IEC11172−3のMPEG−1オーディオ・レイヤIIIや、ISO/IEC13818−7のMPEG−2 AAC(Advanced Audio Coding)、ミニディスクの圧縮方式であるATRAC(Adaptive Transform Acoustic Coding)がこれに相当する。
【0003】
この適応変換符号化は、時間領域の信号であるPCM信号を、直交変換(MDCT:Modified Discrete Cosine Transform)を用いて、周波数領域へ展開し、音楽的に重要な周波数帯の重み付けに従い、周波数領域にて情報を削減し符号化を行うものである。
【0004】
図9はMDCT及びIMDCTの処理の流れを示す図である。MDCTはDCTの一種であり、変換幅の半分ずつ隣り合う変換ブロックと常にオーバーラップがかかりながら周波数領域に展開されるという特徴を持っている。すなわち、1ブロック当たり2N個のサンプルの時間領域信号が、MDCTによりN個のMDCT係数信号に変換される。また、IMDCTでは、N個のMDCT係数信号を逆変換し、2N個の時間領域信号にした後に、隣接するブロックでこの時間領域信号を加算して元の時間領域信号を得る。上記のように、変換にはオーバーラップがかかる変換ブロック同士が対称形を成すウィンドウ処理を行うことにより、相互に情報を補完しあっている。
【0005】
また、図10に示すように周波数領域への展開は上記の圧縮アルゴリズムの例では2種類の変換幅が用意され、変換ブロック内の信号の特徴に応じ選択可能なようになっている。長い方の変換幅のブロックをロングブロック、短い方の変換幅のブロックをショートブロックと呼び、両者間で遷移する中間ウィンドウのことをスタートウィンドウ、ストップウィンドウと呼ぶ。変換幅の違いによってウィンドウの形状も異なるが、オーバーラップする領域では先に述べたが、ウィンドウは左右対称形を成していなければならない。
【0006】
図10(A)、(B)に示したウィンドウの形状はMPEG−2 AACのものであり、MPEG−1レイヤIIIもこれにほぼ準じている。ATRACは中間ウィンドウが無くロングウィンドウとショートウィンドウのみである。ロングウィンドウはちょうど図中のスタートウィンドウの右側とストップウィンドウの左側とを合わせた形状である。
【0007】
通常、周波数変換のブロックが長い程、周波数分解能が向上し、更に補助情報も節約できるため符号化効率が向上するが、オーディオ変換符号化に特有のプリエコーノイズの問題があり、ただ単に周波数変換のブロックを長くすれば良いというものではない。
【0008】
図11は人間の聴覚特性の時間マスキング効果を示す図である。同図中、縦軸は音圧(エネルギー)、横軸は時間を示す。これは大きな音の直前と直後の音はマスクされ聞き取り難くなるという現象を示しているが、プリエコーノイズの発生はこのマスキング効果が働く領域外に存在する、ブロック変換幅内の大きな信号によって生じるブロック内に拡散された一様な量子化ノイズが原因である。そこで、この拡散される量子化ノイズを短い変換ブロックを用いることで時間マスキングが働く領域内に閉じ込め、聴感上の改善を図っている。
【0009】
ブロック長の変換幅判定方法は、時間領域による判定や周波数領域による判定が幾つか紹介されている。時間領域による判定の代表例として1992年9月発行の文献「MD system」がある。この文献では、単位ブロック毎に求めたPCMサンプルピーク値による隣接するブロックにおける比率からアタック音が入力したか否かを判断する方法を開示している。
【0010】
また周波数領域による判定法としては、特開2000−134106号公報(発明の名称「オーディオ変換符号化のための周波数領域でのブロックサイズ判定適応方法」)が知られている。この公報記載のブロックサイズ判定適応方法では、単位時間毎に周波数領域に展開された信号からなるサブバンドのエネルギーを、隣り合うフレーム間で比較し、定められたしきい値を超えた場合、つまりエネルギーの変動が大きかったときはショートブロックを、そうでなかったときはロングブロックを適用する手法が示されている。
【0011】
【発明が解決しようとする課題】
しかしながら、上述の時間領域によるブロック長の変換幅判定方法では、静寂な状態から急激に立ち上がる信号には適しているが、定常的状態からアタック音が入る場合、例えばピアノ曲のように残響音が次第に弱くなりつつも信号が存在している部分に、次の比較的大きな音が重なりあった状態では、時間軸上前方に位置するブロックにおけるピーク値が小さくならず、正しくアタック音を検出できない。
【0012】
また、周波数領域によるブロック長の変換幅判定方法では、サブバンドのエネルギー量の時間的変化量は、解析ブロックが固定長のため、帯域によって、または解析窓内の信号形態によっては必ずしも正確な周波数成分のエネルギー値を導出しているとは限らない。また、アタック音は基音となる周波数があり、サブバンドに統合したエネルギー量で換算すると、他の近傍の帯域の周波数成分の影響を受けるため、純粋なアタック音によるエネルギー量の推移を把握できてはいない。
【0013】
本発明は以上の点に鑑みてなされたもので、周波数領域に展開されたスペクトルの時間的な変化量を、誤検出防止のために少なくとも複数の周波数ポイントにて求め、その変化量に基づきアタック音による急激なエネルギー変化があるか否かを判定して周波数変換ブロックのブロック長を適応的に切り替えることにより、精度の高いアタック音検出を行い、プリエコーを抑え、音質の向上を図り得る周波数変換ブロック長適応変換装置及びプログラムを提供することを目的とする。
【0014】
【課題を解決するための手段】
上記目的を達成するため、本発明の周波数変換ブロック長適応変換装置は、オーディオ変換符号化における周波数変換ブロックのブロック長を適応的に切り替える周波数変換ブロック長適応変換装置であって、入力オーディオ信号を所定のサンプル数で分割し周波数解析する解析ブロック同士が隣接する解析ブロックと半分ずつ重なり合いながら時間的にシフトする複数の解析ブロックのそれぞれについて、解析ブロック間の個々の周波数スペクトルの時間的な変化量を取得する変化量取得手段と、変化量が最大である周波数スペクトルを基準とする、その近傍の周波数成分と倍音成分を含む所定の周波数適合範囲において、変化量取得手段により取得された周波数スペクトルの時間的な変化量と、予め設定したしきい値とを比較する比較手段と、比較手段により変化量がしきい値を超えた個々の周波数スペクトルの本数が、所定の設定値を越えたか否かを検出し、その検出結果によってブロック長を決定するブロック変換幅決定手段とを有する構成としたものである。
【0015】
この発明では、解析ブロック毎に個々の周波数スペクトルの時間的な変化量がしきい値を越えた周波数スペクトルの本数が所定の設定値を超えたときには、アタック音が入力されたものと判断し、上記の合計が上記の所定の設定値を超えないときにはアタック音ではないと判断して、それぞれに対応したブロック長に決定することができる。
【0016】
また、上記の変化量取得手段は、入力オーディオ信号を所定のサンプル数で分割し周波数解析する解析ブロック同士が隣接する解析ブロックと半分ずつ重なり合いながら時間的にシフトする複数の解析ブロックのそれぞれについて、解析ブロック間の個々の周波数スペクトルの時間的な変化量を取得するようにしているため、元の解析ブロック境界付近において、シフトした後の複数の解析ブロック間の周波数スペクトルのエネルギー変化量を求めることができ、これにより元の解析ブロック境界付近で発生したアタック音を検出できる。
【0017】
また、本発明は上記の変化量取得手段を、入力オーディオ信号を所定のサンプル数ずつ解析ブロックとして分割するブロック分割部と、ブロック分割部からの解析ブロック毎に周波数スペクトルを算出する周波数解析部と、周波数スペクトルに基づき周波数解析ポイント毎のエネルギーを求めるスペクトルエネルギー算出部と、スペクトルエネルギー算出部から出力される、時間的に異なる解析ブロックの同一周波数におけるエネルギーの変化量を算出するスペクトルエネルギー算出手段とからなる構成としたものである。この発明では、周波数解析部として、オーディオ変換符号化装置に含まれる周波数解析部を利用できる。
【0018】
また、本発明は、上記の比較手段を、変化量取得手段により取得された周波数スペクトルの時間的な変化量と、予め設定したしきい値とを比較するときの、変化量が最大である周波数スペクトルを基準とする、その近傍の周波数成分と倍音成分を含む所定の周波数適合範囲を、最大の変化量が小さいほど拡張するように変化させることを特徴とする。
【0019】
アタック音の周波数成分が隣接する解析ブロック間の境界付近にある場合、二つの解析ブロック間でそのアタック音による成分が分散されるため、エネルギー変化量は必ずしも大きくなるとは限らない。そこで、この発明では、周波数スペクトルの時間的な変化量が最大である周波数スペクトルを基準とする、その近傍の周波数成分と倍音成分を含む所定の周波数適合範囲を、最大の変化量が小さいほど拡張することにより、周波数スペクトルの時間的な変化量が小さいときには、しきい値を超えたスペクトル本数を増加させることでアタック音を検出する。
【0020】
なお、これは、変化量に対するしきい値を段階的に複数用意し、このときの最大変化量を示す周波数スペクトルのエネルギー量に応じてしきい値を選択し、そのしきい値を超えるスペクトル本数を取得することと等価である。
【0021】
また、上記の目的を達成するため、本発明のプログラムは、コンピュータを、上記の本発明の周波数変換ブロック長適応変換装置を構成する各手段として機能させることを特徴とする。
【0022】
【発明の実施の形態】
次に、本発明の一実施の形態について、図面と共に説明する。図1は本発明になる周波数変換ブロック長適応変換装置の一実施の形態の構成図を示す。同図において、入力PCM信号はブロック分割部11に供給され、ここで所定のサンプル数ずつのブロックに分割されて、所定の数のブロックにまとめられる。一つのブロックのサンプル数(ブロックの長さ)は、そのオーディオ符号化方式が持つフレーム長以下とし、かつ、符号化するフレームの範囲と一致させなくてはならない。なぜなら、アタック音検出結果が該当するフレーム、つまりショートウィンドウにすべきフレームを特定できないからである。
【0023】
アタック音は前後のブロック間でスペクトルのパワー比が急激に変化する。従って、演算量の増加が許す範囲で的確にその変移を捉えるには、ある程度解析ブロックが短い方が、その時間における信号波形の特徴を示さない部分の影響を受けずに済み、より信頼度が増加する。
【0024】
そこで、本実施の形態ではフレーム長を4分割し、更に図10(A)のようなスタートウィンドウ及びストップウィンドウと、ロングウィンドウ、ショートウィンドウの4種類のウィンドウを持つ符号化方式について説明する。言うまでもないが、本実施の形態を応用することによって、ロングウィンドウとショートウィンドウの2種類のウィンドウしか持たない符号化方式についても簡単に適応可能である。なお、後者の2種類のウィンドウしか持たない符号化方式のロングウィンドウは台形のような形状をしており、直接ショートウィンドウと接続可能なようになっている。ショートウィンドウの形状は前者の符号化方式と同じである。
【0025】
図2はフレーム内の解析ブロックを示す。1フレームは4分割されて4つの解析ブロックであるブロック1〜ブロック4からなる。ショートブロックが適用される範囲Iはロングブロックの中間を基準として、ロングブロック変換長IIの50%強の長さである。従って、スペクトルのパワー変化量を求めるにはブロック1対ブロック2、及びブロック2対ブロック3を比較すればよい。
【0026】
以上のような動作を行うブロック分割部11から取り出されたブロックは、図1の周波数解析部12に供給されて周波数スペクトルが算出される。周波数解析部12は、例えば一般的な高速フーリエ変換(FFT)等の周波数変換法によって周波数スペクトルの算出を行う。この周波数解析部12は、オーディオ変換符号化装置に含まれる周波数解析部を利用できる。周波数解析部12で得られた周波数スペクトルは、スペクトルエネルギー算出部13に供給されて周波数スペクトル毎のエネルギーが求められる。
【0027】
続いて、前ブロックと現ブロックから個々の周波数スペクトル毎のエネルギー変化量を算出するため、スペクトルエネルギー算出部13にて一旦求められたエネルギーは、スペクトルエネルギーバッファ14に送られる一方、直ちにエネルギー変化量の比較を行うため、スペクトルエネルギー変化量算出部15にも直接に供給される。
【0028】
スペクトルエネルギー変化量算出部15は、スペクトルエネルギーバッファ14からのスペクトルエネルギーと、スペクトルエネルギー算出部13からのスペクトルエネルギーとを比較することで、前述のように図2に示したブロック1対ブロック2、ブロック2対ブロック3の組み合わせで同一周波数におけるエネルギー変化量を測定する。しきい値比較部16は、スペクトルエネルギー変化量算出部15により測定されたエネルギー変化量と、予め定めておいたしきい値とを比較し、エネルギー変化量がしきい値を超えたか否か判定する。この判定は個々の周波数スペクトル毎において行い、その判定結果は条件適合ポイント測定部17に送られる。
【0029】
条件適合ポイント測定部17では誤検出を防止するため、少なくとも複数の周波数スペクトルにてエネルギー変化量がしきい値を超えた事が認められた場合のみ、ショートブロックへの切り替えを許可する。条件適合ポイント測定部17で得られた測定結果は、ブロック変換幅判定部18に供給され、ここで最終的なブロック長切り替え判断が行われる。ブロック変換幅判定は前後のフレームの変換長によって制限が生じるため、そのような制御信号を加味しながら判定し、判定結果をブロック長情報として出力する。
【0030】
例えば、図3(A)に示すような信号波形の場合、定常的な波形であるにも関わらず前後のブロック間で得られる周波数成分が異なってしまう。なお、図3及び後述の図4は、縦軸は振幅、横軸は時間(サンプル)を示す。図3(A)に示す信号は明らかに定常信号であるが、それを拡大した同図(B)においてブロック2とブロック3との間で周波数成分のエネルギー変化量を測定すると、あたかもアタック音が入力されたかのようなデータを得ることになる。周波数解析幅が固定長でシフトする以上、ブロック長を増減させても信号波形によって必ず同じ現象が起きてしまう。
【0031】
アタック音の周波数成分はその基音となる周波数とその近傍の周波数、及び倍音成分がほぼ同時に発生する。図4のような残響音が残る中でアタック音が入った信号波形について、信号スペクトルのパワーの時間的な変化量を示したグラフを図5に示す。図5に示すように、基音となる周波数成分Aとその近傍の周波数成分B群、及び倍音成分Cが新たに発生している。
【0032】
一方、図3の定常的波形は一部の周波数において前ブロックとのパワー比が著しく増加するが、図5で見られた信号成分Bや倍音成分Cが存在しない。この両者(アタック音と定常的波形)の差は、基音(パワー比が最も高いところ)に対する近傍の周波数成分と倍音成分の有無にある。
【0033】
従来の手法は基音のみでアタック音か否かを判定し、基音によって生じる他の周波数成分を考慮していなかった。これに対し、本発明ではアタック音と定常的波形の差は、基音に対する近傍の周波数成分と倍音成分の有無にある点に着目し、基音の検出及び、基音によって生じたと考えられる帯域のエネルギー増加量から総合的に判断し、アタック音検出を行う点に特徴がある。
【0034】
その方法は、図1と共に説明したように、図1のブロック分割部11からスペクトルエネルギー変化量算出部15までの回路部で前ブロックと現ブロックとの周波数スペクトルのエネルギーの増加量を取得し、しきい値比較部16で所定のしきい値を超えたか否かを検出する。
【0035】
条件適合ポイント測定部17では、しきい値比較部16の所定のしきい値を超えた場合は増加量の最大値を持つ周波数スペクトルに対し、図6にIIIで示すように、基音Aとその近傍の周波数成分Bと倍音成分Cを含む適合範囲を定め、しきい値IVを超えたスペクトルの本数をカウントする。ブロック変換幅判定部18は、この本数が、予め定めておいた値を超えたか否かを検出し、超えた場合は該ブロックにおいてアタック音が入力したものと判断し、ショートブロックへのスイッチに移行する。所定の本数を超えない場合は、アタック音の誤検出であったか、アタック音のエネルギーが小さく、プリエコーが問題になるレベルではないものと判断し、ショートブロックへのスイッチを見送る。
【0036】
隣接する周波数解析ブロックのスペクトルのエネルギー増加量は、例えば図2のようなブロック間で得ることができる。通常、周波数解析はブロック境界における歪み低減のため、ハミングウィンドウ等の両側の信号成分の重み付けを低下させた左右対称ウィンドウをかけて行われる。従って、ブロック境界においてアタック音が生じた場合、ウィンドウによって信号成分が低下するので、図2のような解析ブロックでは正しく判定できない(検出漏れ)おそれがある。
【0037】
しかし、解析ブロック幅の1/2の長さを基準にシフトしながら隣接するブロック間のエネルギー変化量を求めれば、上記のような検出漏れを防止することができる。図7は、この1/2シフトを用いた周波数解析ブロック図を示す。エネルギー変化量を求めるには、図7のブロック1対ブロック3、ブロック2対ブロック4のような組み合わせで同一周波数におけるエネルギー変化量を測定することにより、ブロック境界における周波数成分も正しく測定できる。
【0038】
また、変換される周波数成分は変換法(ブロック長)に従って幾つかのサブバンドに分けられるが(例えば、0〜5kHz、5kHz〜10kHz、10kHz〜15kHzのように)、サブバンド境界の周波数成分を持つ信号(上記の場合、5kHz付近、あるいは10kHz付近の信号)は、隣り合うバンド間で信号エネルギーが分散されてしまう。このため、アタック音の周波数成分が周波数解析法の隣接するバンド間の境界付近にある場合、二つのバンド間でそのアタック音による成分が分散されるため、エネルギー変化量は必ずしも大きくなるとは限らない(図8)。
【0039】
そこで、使用する周波数解析法のバンド境界におけるアタック音の検出精度を高めるため、スペクトルのエネルギー増加量に応じて変化するしきい値を超えたスペクトル本数を設定する。これは前述の条件適合範囲を基音のエネルギー変化量に応じて変化させることを意味する。従って、図6に比べて基音Aのエネルギー変化量が小さい図8の場合は、適合範囲を図6にIIIで示す適合範囲から図8にVで示すように拡張し、しきい値を超えるポイント数の条件を増加させることで、バンド境界のアタック音の検出を可能にすると共に誤検出を防止する。
【0040】
バンド境界付近の周波数を基音とするアタック音は、その近傍の周波数帯のエネルギー成分を一時的に大きく増加させる。そこで、基音のエネルギー増加量が比較的小さな場合、近傍のエネルギー成分を観察し、周囲のスペクトルにおいて同じく増加傾向が見られたときはアタック音であったと見なしショートブロックへの変換を促し、そうでなかった場合はアタック音の誤検出、もしくはアタック音のエネルギーが小さく、プリエコーが問題になるレベルではないものと判断し、ショートブロックへのスイッチを見送る。
【0041】
以上のような基音となる周波数成分のエネルギー増加量に応じ、適応的なスペクトル本数を設定することで、用いる周波数解析法によって決まるバンド境界における周波数成分においてもアタック音の検出を正確に行うことが可能となる。
【0042】
更に上記の理由により周波数スペクトルにおけるエネルギー増加量の検出方法は周波数解析法を規定する必要が無い。一般的なオーディオ符号化は聴覚心理モデルを利用し、周波数領域上の成分の重み付けを行うことで圧縮を行っている。この聴覚心理モデル解析部にはFFT等の周波数解析法が用いられその解析幅は確定したブロック長(ロングブロック又はショートブロック)の幅にほぼ等しい。
【0043】
本発明で用いる周波数解析法は特に規定するものではなく、オーディオ符号化装置が本来持っている周波数解析データを利用することが可能であり、この結果、演算量の抑制、メモリ容量の低減が期待できる。
【0044】
なお、図1の実施の形態の周波数変換ブロック長適応変換装置を構成する各ブロックの動作を順次の手順とする方法をコンピュータプログラムにより、コンピュータにより実行させることもできる。また、上記の実施の形態では、周波数スペクトルのエネルギー量に基づいてアタック音を検出するように説明したが、周波数スペクトルの振幅値に基づいてアタック音を同様に検出することが可能である。
【0045】
【発明の効果】
以上説明したように、本発明によれば、複数の解析ブロックのそれぞれについて個々の周波数スペクトルの時間的な変化量がしきい値を越えた周波数スペクトルの本数の合計が所定の設定値を超えたときには、アタック音が入力されたものと判断し、上記の本数が上記の所定の設定値を超えないときにはアタック音ではないと判断して、それぞれに対応したブロック長に決定するようにしたため、アタック音の誤検出や検出漏れを防ぎ、精度の高いアタック音の検出ができ、これによりプリエコーを抑え、従来よりも音質を向上することができる。
【0046】
また、本発明によれば、入力オーディオ信号を所定のサンプル数で分割し周波数解析する解析ブロック同士が隣接する解析ブロックと半分ずつ重なり合いながら時間的にシフトする複数の解析ブロックのそれぞれについて、解析ブロック間の個々の周波数スペクトルの時間的な変化量を取得することにより、元の解析ブロック境界付近で発生したアタック音を検出できるようにしたため、アタック音の検出洩れをより一層抑えることができる。
【0047】
更に、本発明によれば、周波数スペクトルの時間的な変化量が最大である周波数スペクトルを基準とする、その近傍の周波数成分と倍音成分を含む所定の周波数適合範囲を、最大の変化量が小さいほど拡張することにより、周波数スペクトルの時間的な変化量が小さいときには、しきい値を超えたスペクトル本数を増加させるようにしたため、バンド境界のアタック音の検出を可能にできると共に、アタック音の誤検出を防止することができる。
【図面の簡単な説明】
【図1】本発明になる周波数変換ブロック長適応変換装置の一実施の形態のブロック図である。
【図2】フレーム内の解析ブロックの一例を示す図である。
【図3】定常波形におけるアタック音の誤検出の一例を示す波形図である。
【図4】残響音が存在する中で入力されたアタック音の一例を示す波形図である。
【図5】図4の波形図における周波数成分のエネルギー変化量を示す図である。
【図6】アタック音を要因とするスペクトルの適合範囲の一例を示す図である。
【図7】1/2シフトを用いたフレーム内の解析ブロックを示す図である。
【図8】基音のエネルギー変化量に応じ変化する条件適合範囲を示す図である。
【図9】MDCT及びIMDCT変換の仕組みを示す図である。
【図10】AACのブロック変換におけるウィンドウの形状を示す図である。
【図11】聴覚特性における時間マスキング効果を示す図である。
【符号の説明】
11 ブロック分割部
12 周波数解析部
13 スペクトルエネルギー算出部
14 スペクトルエネルギーバッファ
15 スペクトルエネルギー変化量算出部
16 しきい値比較部
17 条件適合ポイント測定部
18 ブロック変換幅判定部
Claims (4)
- オーディオ変換符号化における周波数変換ブロックのブロック長を適応的に切り替える周波数変換ブロック長適応変換装置であって、
入力オーディオ信号を所定のサンプル数で分割し周波数解析する解析ブロック同士が隣接する解析ブロックと半分ずつ重なり合いながら時間的にシフトする複数の解析ブロックのそれぞれについて、解析ブロック間の個々の周波数スペクトルの時間的な変化量を取得する変化量取得手段と、
前記変化量が最大である周波数スペクトルを基準とする、その近傍の周波数成分と倍音成分を含む所定の周波数適合範囲において、前記変化量取得手段により取得された前記周波数スペクトルの時間的な変化量と、予め設定したしきい値とを比較する比較手段と、
前記比較手段により前記変化量が前記しきい値を超えた個々の周波数スペクトルの本数が、所定の設定値を越えたか否かを検出し、その検出結果によって前記ブロック長を決定するブロック変換幅決定手段と
を有することを特徴とする周波数変換ブロック長適応変換装置。 - 前記変化量取得手段は、入力オーディオ信号を所定のサンプル数ずつ解析ブロックとして分割するブロック分割部と、前記ブロック分割部からの前記解析ブロック毎に周波数スペクトルを算出する周波数解析部と、前記周波数スペクトルを用いて個々の周波数スペクトルのエネルギーを求めるスペクトルエネルギー算出部と、前記スペクトルエネルギー算出部から出力される、時間的に異なる前記解析ブロックの同一周波数におけるエネルギーの変化量を算出するスペクトルエネルギー算出手段とからなることを特徴とする請求項1記載の周波数変換ブロック長適応変換装置。
- 前記比較手段は、前記変化量取得手段により取得された前記周波数スペクトルの時間的な変化量と、予め設定したしきい値とを比較するときの、前記変化量が最大である周波数スペクトルを基準とする、その近傍の周波数成分と倍音成分を含む所定の周波数適合範囲を、前記最大の変化量が小さいほど拡張するように変化させることを特徴とする請求項1又は2記載の周波数変換ブロック長適応変換装置。
- コンピュータを、
入力オーディオ信号を所定のサンプル数で分割し周波数解析する解析ブロック同士が隣接する解析ブロックと半分ずつ重なり合いながら時間的にシフトする複数の解析ブロックのそれぞれについて、解析ブロック間の個々の周波数スペクトルの時間的な変化量を取得する変化量取得手段と、
前記変化量が最大である周波数スペクトルを基準とする、その近傍の周波数成分と倍音成分を含む所定の周波数適合範囲において、前記変化量取得手段により取得された前記周波数スペクトルの時間的な変化量と、予め設定したしきい値とを比較する比較手段と、
前記比較手段により前記変化量が前記しきい値を超えた個々の周波数スペクトルの本数が、所定の設定値を越えたか否かを検出し、その検出結果によって前記ブロック長を決定するブロック変換幅決定手段と
して機能させることを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001400181A JP3815323B2 (ja) | 2001-12-28 | 2001-12-28 | 周波数変換ブロック長適応変換装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001400181A JP3815323B2 (ja) | 2001-12-28 | 2001-12-28 | 周波数変換ブロック長適応変換装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003195881A JP2003195881A (ja) | 2003-07-09 |
JP3815323B2 true JP3815323B2 (ja) | 2006-08-30 |
Family
ID=27604892
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001400181A Expired - Lifetime JP3815323B2 (ja) | 2001-12-28 | 2001-12-28 | 周波数変換ブロック長適応変換装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3815323B2 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4533386B2 (ja) * | 2004-07-22 | 2010-09-01 | 富士通株式会社 | オーディオ符号化装置及びオーディオ符号化方法 |
US7895034B2 (en) * | 2004-09-17 | 2011-02-22 | Digital Rise Technology Co., Ltd. | Audio encoding system |
US8744862B2 (en) * | 2006-08-18 | 2014-06-03 | Digital Rise Technology Co., Ltd. | Window selection based on transient detection and location to provide variable time resolution in processing frame-based data |
JP4550595B2 (ja) * | 2005-01-19 | 2010-09-22 | 株式会社東芝 | オーディオ符号化装置 |
US9495971B2 (en) * | 2007-08-27 | 2016-11-15 | Telefonaktiebolaget Lm Ericsson (Publ) | Transient detector and method for supporting encoding of an audio signal |
CN101878504B (zh) * | 2007-08-27 | 2013-12-04 | 爱立信电话股份有限公司 | 使用时间分辨率能选择的低复杂性频谱分析/合成 |
MX2013009304A (es) | 2011-02-14 | 2013-10-03 | Fraunhofer Ges Forschung | Aparato y metodo para codificar una porcion de una señal de audio utilizando deteccion de un transiente y resultado de calidad. |
CA2827335C (en) | 2011-02-14 | 2016-08-30 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Audio codec using noise synthesis during inactive phases |
WO2012110478A1 (en) * | 2011-02-14 | 2012-08-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Information signal representation using lapped transform |
CN115240643B (zh) * | 2022-07-15 | 2024-10-29 | 福建星网视易信息系统有限公司 | 多音识别方法及计算机可读存储介质 |
-
2001
- 2001-12-28 JP JP2001400181A patent/JP3815323B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JP2003195881A (ja) | 2003-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6838105B2 (ja) | 高度なスペクトラム拡張を使用して量子化ノイズを低減するための圧縮伸張装置および方法 | |
US9697840B2 (en) | Enhanced chroma extraction from an audio codec | |
EP3343560B1 (en) | Audio coding device and audio coding method | |
KR100744352B1 (ko) | 음성 신호의 하모닉 성분을 이용한 유/무성음 분리 정보를추출하는 방법 및 그 장치 | |
KR20010075343A (ko) | 저비트율 스피치 코더용 노이즈 억제 방법 및 그 장치 | |
US8886548B2 (en) | Audio encoding device, decoding device, method, circuit, and program | |
EP2425426B1 (en) | Low complexity auditory event boundary detection | |
US20040181403A1 (en) | Coding apparatus and method thereof for detecting audio signal transient | |
KR20040075771A (ko) | 윈드 노이즈를 억제하는 시스템 | |
KR20070099372A (ko) | 음성 신호의 하모닉 정보 및 스펙트럼 포락선 정보,유성음화 비율 추정 방법 및 장치 | |
JP3815323B2 (ja) | 周波数変換ブロック長適応変換装置及びプログラム | |
KR20170036779A (ko) | 하모닉 필터 툴의 하모닉서티-의존 제어 | |
EP2626856B1 (en) | Encoding device, decoding device, encoding method, and decoding method | |
KR100713366B1 (ko) | 모폴로지를 이용한 오디오 신호의 피치 정보 추출 방법 및그 장치 | |
US7809554B2 (en) | Apparatus, method and medium for detecting voiced sound and unvoiced sound | |
US8442817B2 (en) | Apparatus and method for voice activity detection | |
US10083705B2 (en) | Discrimination and attenuation of pre echoes in a digital audio signal | |
CN104036785A (zh) | 语音信号的处理方法和装置、以及语音信号的分析系统 | |
WO2003017250A1 (en) | 2-phase pitch detection method and appartus | |
JP2002268657A (ja) | 音響信号の立ち上がり・立ち下がり検出方法及び装置並びにプログラム及び記録媒体 | |
JP4055122B2 (ja) | 音響信号符号化方法及び音響信号符号化装置 | |
JP2008129250A (ja) | Aacのためのウィンドウ切り替え方法およびm/s符号化の帯域決定方法 | |
JPH113091A (ja) | 音声信号の立ち上がり検出装置 | |
CN112771610B (zh) | 用压扩对密集瞬态事件进行译码 | |
US20080004870A1 (en) | Method of detecting for activating a temporal noise shaping process in coding audio signals |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040330 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20051228 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060221 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060418 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060516 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060529 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 3815323 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090616 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100616 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110616 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120616 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120616 Year of fee payment: 6 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120616 Year of fee payment: 6 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120616 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130616 Year of fee payment: 7 |
|
EXPY | Cancellation because of completion of term |