JP2004531758A5

JP2004531758A5 -

Info

Publication number: JP2004531758A5
Application number: JP2002582410A
Authority: JP
Filing date: 2002-03-12
Publication date: 2007-03-22
Anticipated expiration: 2022-03-12

Description

信号識別子の抽出方法及びその装置、信号識別子からデータベースを作成する方法及びその装置、及び、検索時間領域信号を参照する方法及びその装置

発明の詳細な説明

本発明は、調和成分(harmonic portion)を有する時間領域信号(time signal)の処理に関し、特に、複数の信号識別子が、複数の時間領域信号として蓄積されているデータベース手段により、時間領域信号を書き込む(describe)ことができるように、時間領域信号から信号識別子を作成することに関する。

例えば音声データといった調和成分を有する時間領域信号を識別でき、かつ、参照することができる手段による考え方(concept)は、多くに使用者に対して使いやすいということである。特に、題名及び作者が不明な音声信号が存在する状況(situation)では、それぞれの歌が由来する人を調べることが望ましい。また、例えば、問題となっている演奏者のＣＤを得たい場合、上述の必要性が生じる。現在の音声信号が、演奏者、音楽会社(music publisher)等の名前を含まず、時間領域信号のみを含む場合、音声信号の由来、もしくは、歌が由来する人または法人(institution)を識別することは不可能である。作者、または、好みの歌を得るために、音声信号を購入した情報源(source)に関して、参照データを含んでいるので、再度、音声要素を聞くことだけが期待できる。

検索エンジンについては、文字データ(textual data)を分配する(deal)方法のみが知られているので、インターネット上での検索機を用いて、音声データを検索できない。音声信号、より一般的な会話(speaking)、または、調和成分を有する時間領域信号は、文字検索識別子を含んでいない場合、上述の検索エンジンにより処理されないかもしれない。

音声ファイルの実際のストックは、数千の蓄積された音声ファイルから、最大数十万の音声ファイルで構成されている。音楽データベース情報は、中央のインターネットサーバーに蓄積され、インターネットを介して、潜在的な検索エンジンを作用するかもしれない。また、近年のハードディスク容量に伴い、使用者のローカルハードディスクのシステムにこれらの中央音楽データベースを持つことが実現可能になった。音声ファイル（参照データは不明であるが、音声ファイル事態が知られている）についての参照データを得るために、上述の音楽データベースを（Ｗｅｂで）閲覧できる(browse)ことが望ましい。

さらに、例えば、類似要素を調べることができるような基準を用いて、音楽データベースを（Ｗｅｂで）閲覧できることが同様に望ましい。類似要素としては、例えば、類似した旋律、類似の法人、単調な類似の音（例えば、海の音、鳥の鳴き声、男性の声、女性の声等）を有する要素が挙げられる。

米国特許番号５，９１８，２２３には、音声情報について、内容に基づいた分析、貯蓄、検索(retrieval)、及び、分断(segmentation)の方法及びその装置が開示されている。この方法は、音声信号から音響特性を抽出することに基づいている。評価する(measure)ものとしては、音量、低音(bass)、間隔、鮮明さ(brightness)、及び、定期的な間隔での特定の波長の時間窓(time window)の、Ｍｅｌ周波数に基づいたケプストラム係数(Cepstral coefficient)が挙げられる。各組の評価データは、一連の評価された特性ベクトルからなる。それぞれの特性から計算された、完全な一組の特性の列(feature sequence)により、それぞれの音声ファイルを特定化する。さらに、特性ベクトルのそれぞれの列から、１次微分(first derivation)を計算する。この一組の値は、Ｎベクトル、すなわちｎ成分のベクトルとして蓄積される。それぞれの音声ファイルについてＮベクトルを導き出すために、複数の音声ファイルに対して上記の処理を適用する。そうすることで、データベースは、複数のＮベクトルから、徐々に構築される。このとき、同様の処理を用いて、不明の音声ファイルから検索Ｎベクトルを抽出する。検索照会で、特定化されたＮベクトルの距離、及び、データベースに蓄積されたＮベクトルか決定される。最終的に、検索Ｎベクトルから最小距離にあるベクトルが、出力される。上記Ｎベクトル出力は、その音声ファイルに関する、作者、題名、供給源等のデータを有している。このため、その由来に関して、音声ファイルを識別するかもしれない。

上記の方法の欠点としては、いくつかの特性を計算し、特徴的な量を計算するために、任意の経験則(arbitrary heuristic)を導入するかもしれないことが挙げられる。一つの音声ファイル全体の全ての特性ベクトルについて、平均値及び標準偏差を計算することにより、特性ベクトルの時間的推移より得られた情報が、いくらかの特性量に減少する。これにより、高い情報の欠損が生じる。

本発明の目的は、極めて高い情報の欠損なしに、時間領域信号の意味ある識別を可能にする、時間領域信号から信号識別子を抽出する方法及びその装置を提供することにある。

上記目的は、請求項１で請求された時間領域信号から信号識別子を抽出する方法、または、請求項１９で請求された時間領域信号から信号識別子を抽出する装置により、達成される。

本発明のさらなる目的は、信号識別子からデータベースを作成する方法及びその装置、及び、検索時間領域信号を参照する方法及びその装置を提供することにある。

上記目的は、請求項１３で請求されたデータベースを作成する方法、請求項２０で請求されたデータベースを作成する装置、請求項１４で請求された検索時間領域信号を参照する方法、または、請求項２１で請求された検索時間領域信号を参照する装置により、達成される。

本願発明は、以下の知見に基づいている。すなわち、調和成分を有する時間領域信号において、時間領域信号から、当該時間領域信号の識別子を抽出するために、この信号の時間的推移を用いて、この信号識別子は、上記時間領域信号に関して良好な指紋(fingerprint)を提供する。その一方で、この信号識別子は、そのデータ容量に関して管理しやすく、データベース上の複数の信号識別子を通して、効率的な検索を可能にする。調和成分を有する時間領域信号の必須な性質(property)は、上記時間領域信号で信号エッジ(signal edge)を循環すること(recurring)である。ここでは、例えば同一の、かつ／または、類似した波長を有する２つの連続的な信号エッジにより、持続期間(duration of a period)、及び、時間と周波数とに関して高度に分離した時間領域信号の周波数の提示が可能になる（信号エッジ自体の存在だけでなく、時間領域信号における信号エッジの発生時間も考慮に入れた場合）。そして、上記時間領域信号は、時間における周波数の連続からなることから、時間領域信号の書き込み(description)を得ることができる。一例として音声信号を用いることにより、音（周波数）が時間のある点に存在し、そして、時間の後の点で、この音（周波数）の次にもう一つの音（周波数）が続くというように、上記音声信号が特徴付けられる。

本発明によれば、時間上のサンプル(sample)の列による時間領域信号の書き込みから、周波数、及びこの周波数で発生する時間の座標組による時間領域信号の書き込みへと転送が成される。この実施例によれば、信号識別子、または、言い換えれば、時間領域信号の書き込みに用いる特性ベクトル（ＭＶ）は、おおよそ、多かれ少なかれ、時間領域信号の時間的推移を反映する信号識別子の値の列を含んでいる。したがって、上記時間領域信号は、従来技術のようなスペクトル特性ではなく、時間領域信号における周波数の時系列により特徴付けられる。

検出された信号エッジから、周波数の値を計算するためには、少なくとも２つの検出された信号エッジが必要である。検出された全ての信号エッジから、これら２つの信号エッジの選択は、どの周波数値を計算するかで、多種多様になる。まず、同一の波長を必須に有する連続した２つの信号エッジを用いてもよい。このとき、周波数値は、これらエッジの時間間隔の逆数(reciprocal)である。また、検出された信号エッジの振幅により、選択がなされてもよい。つまり、周波数値を決定するために、同一振幅の２つの連続した信号エッジを用いてもよい。しかしながら、必ずしも２つの連続した信号エッジを用いるのではなく、例えば、同一の振幅または波長を有する第２、第３、第４…の信号エッジを用いてもよい。なお、最後に、統計的な方法を用いて、重ね合わせの法則(superposition laws)に基づき、上記座標組を得るために、いかなる２つの信号エッジを用いてもよい。フルートの例として、フルートから由来する(issued)音色は、高い振幅を有する２つの信号エッジを提供し、そのエッジ間で、より小さな振幅を有する波形の頂点(wavecrest)が存在することが記載されている。フルートの基本的な音色を決定するために、例えば、振幅により、２つの検出された信号エッジを選択してもよい。

音声信号の必須要素(essence)は、音色の時系列であり、この時系列は、音楽信号で、最も簡潔な方法でみられるので、特に、音声信号に関して音色の時系列を特徴付けるのに最も自然な形態である。聞き手が音楽信号から得る、最も直接的な認識は、上記の音色の時系列である。クラシック音楽において、一つの演奏(work)は、異なる変化の演奏全体を通して、様々に作業する(running)特定のテーマの周りで常に構築されているが、このクラシック音楽だけでなく、人気の歌または他の最新音楽の中にも、記憶に残る(catchy)音色がある。この音色は、一般に、単純な音色の列、テーマ、または、単純な音色からなる。そして、この音色は、リズム、間隔、用いてもよい楽器随伴物(instrument accompaniment)等の、それぞれの認知度により作られていることが必須である。

本発明の概念は、上述の知見に基づき、信号識別子を提供する。この信号識別子は、周波数の時系列からなる、もしくは、実施形態に応じて、統計的な方法により、周波数（音色）の時系列に由来する。

本発明の有利な点としては、以下の点が挙げられる。すなわち、周波数の時系列としての信号識別子は、調和成分を有する時間領域信号に関して、広範囲の情報内容の指紋を表わしており、そのため、時間領域信号の要点、または、核心を具体化する。

本発明のもう一つの有利な点としては、以下の点が挙げられる。すなわち、本発明により抽出された信号識別子は、時間領域信号における発音の圧縮(pronounced compression)を表わすが、時間領域信号の時間的推移に依存する。このため、この信号識別子は、時間領域信号（すなわち、音楽成分）が自然に認識されるように調整される。

本発明のもう一つの有利な点としては、以下の点が挙げられる。すなわち、信号識別子の逐次的な性質(sequential nature)によって、従来技術のように、アルゴリズムを参照する距離計算をする必要がなく(leave behind)、データベース中の時間領域信号を参照するために、ＤＮＡ配列決定で知られているアルゴリズムを用いることができる。さらに、これに加えて、置換／挿入／欠損の操作を有する、ＤＮＡ配列決定アルゴリズムを用いることにより、類似した計算を行うことができる。

本発明のさらなる有利な点としては、以下の点が挙げられる。ハフ変換(hough transformation)は、画像処理、及び、画像認識の分野で効率的なアルゴリズムである。所望の方法で、時間領域信号における信号エッジの発生時間を検出するために、このハフ変換を用いてもよい。

本発明のさらなる有利な点としては、以下の点が挙げられる。すなわち、本発明により抽出された、時間領域信号の信号識別子に関して、この信号識別子が全時間領域信号に由来するのか、時間領域信号の成分にのみ由来するのかは、無関係である。なぜなら、ＤＮＡ配列決定のアルゴリズムにより、参照信号識別子を有する検索信号識別子の、（時間に関して、順次行なわれる）比較が実行されてよいからである。上記比較が時間で逐次的であるため、実際には、識別される時間領域信号の成分は、参照時間領域信号を、自動的に識別される。この参照時間領域信号において、検索信号識別子と参照信号識別子との間で最も発音の適合(pronounced match)がある。

本発明の好ましい実施形態は、添付図面を参照にして、以下より詳細に説明されるであろう。
図１は、本発明にかかる時間領域信号から信号識別子を抽出する装置のブロック図である。
図２は、好ましい実施形態のブロック図であり、音声信号の前処理様態の図である。
図３は、信号識別子を作成する一実施形態のブロック図である。
図４は、本発明にかかるデータベースを作成し、上記データベース中の検索時間領域信号を参照する装置のブロック図である。
図５は、周波数−時間座標組によるモーツアルトＫＶ５８１(Mozart KV 581)の抽出要素のグラフ図である。

図１は、本発明にかかる時間領域信号から信号識別子を抽出する装置のブロック図を示す。この装置は、信号エッジの検出を実行する手段１２、２つの選択された検出エッジ(edge detected)の距離を決定する手段１４、周波数計算を行う手段１６、及び、当該周波数計算を行う手段１６からの座標組の出力を用いて、信号識別子を作成する手段１８を含んでいる。上記組は、それぞれ、周波数値、及び、この周波数値が発生する時間を有している。

なお、以下、音声信号を時間領域信号として参照する。しかしながら、時間領域信号識別子は、時間領域信号が、周波数の時系列（音声信号の一例としては、音色）からなるという事実に基づいているので、本発明の概念は、音声信号だけでなく、調和成分を有するいかなる時間領域信号にも適合するものとする。

時間領域信号における信号エッジの発生時間を検出する手段１２は、ハフ変換を実行していることが好ましい。

ポールＶ．Ｃ．ハフ(Paul V. C. Hough)による米国特許番号３，０６９，６５４に、ハフ変換について記載されている。ハフ変換は、複合構造(complex structure)、特に、写真、または、他の写真表示において、複合線(complex line)を自動的に識別するのに用いられる。ハフ変換は、一般的に、画像内に特定形状を有する特性を抽出するために用いられる技術である。

本発明にかかるその適用では、時間領域信号から特定化された時間長を有する信号エッジを抽出するために、ハフ変換を用いる。信号エッジは、初めに、その時間長で、特定化される。理想的な湾曲波形の場合、信号エッジは、０°から９０°までのサイン関数の立ち上がり部分のエッジ(rising edge)により定義されている。そして、信号エッジは、−９０°から＋９０°までのサイン関数の立ち上がり(rise)により、特定化される。

上記時間領域信号が、サンプルの時系列として存在している場合、サンプルと共に生成するサンプリング周波数を考慮に入れると、信号エッジの時間長は、サンプルのある番号に対応する。したがって、上記信号エッジが構成しようとする(intend to)サンプルの番号を提示することにより、信号エッジの波長を容易く特定化するかもしれない。

さらに、同一の、安定で、かつ、第１に単調な形態を有するものである場合、すなわち、正の信号エッジであれば、第１の単調な上昇形態(rising form)を有している場合にのみ、信号エッジとして信号エッジを検出することが好ましい。負の信号エッジ、すなわち、単調に降下する信号エッジである場合にもまた、検出してもよい。

信号エッジを分類する、さらなる基準としては、信号エッジが、ある一定のレベル範囲を超えた場合にのみ、信号エッジを信号エッジとして検出することが挙げられる。ノイズ障害を無効にするために、信号エッジの最小レベル範囲、または、振幅範囲を特定することが好ましい。そうすることで、単調に上昇する信号エッジが上記のレベル範囲の手前で(short of)降下しても、信号エッジとして検出されることは無い。

本発明の好ましい実施形態によれば、音声信号を参照するために、特定された時間長が、最小時間の期間長よりも大きく、かつ、最大時間の期間長よりも小さくなる信号エッジのみを検索する効果が成されるように、さらなる制約(restriction)が掛かる。言い換えれば、このことは、上部カットオフ周波数よりも低く、下部カットオフ周波数よりも高い周波数を示す、信号エッジを検出することを意味する。音楽成分において、２７．５Ｈｚ（音色Ａ２）から４，１８６Ｈｚ（音色ｃ５）までの周波数範囲の周波数を示す信号エッジを検出することが好ましい。ピアノから得られる音色は、共通して、上記の周波数範囲を超える。この音色の範囲は、音楽成分の信号識別子として十分であることは証明されている。

上記信号エッジ検出装置(unit)１２は、信号エッジ、及び、当該信号エッジの発生時間を提供する。ここでは、信号エッジが同等に処理されている間、上記信号エッジの信号発生時間として得られる時間が、信号エッジの第１サンプル時間、信号エッジの最終サンプル時間、または、信号エッジ内の何れの他のサンプル時間であるかどうかは、関連性がない。

手段１４は、２つの連続した信号エッジ間の時間間隔を決定する。これらの信号エッジの時間長は、所定の許容値(tolerance value)を除いて、等しい。上記手段１４は、手段１２による信号エッジ出力を検査し、ある特定された許容値の範囲内で、同一、または、基本的に同一である、２つの連続した信号エッジを抽出する。単純なサイン音色(sine tone)を検討する場合、２つの連続した時間間隔、例えば正の、同一の１／４波長により、サイン音色の周期(period)が得られる。このことは、手段１６が決定された時間間隔から周波数値を計算する基本を提供する。

上記の処理を用いて、時間領域信号の表示は、時間に関して、高分解能で(with high resolution)提供されていてもよい。それと同時に、上記時間領域信号で起きている周波数を提示することにより、及び、上記周波数に対応する発生時間を提示することにより、周波数に関して、高分解能で(with high resolution)提供されていてもよい。手段１６による周波数計算の結果を、グラフで表わした場合、図５にかかる図が得られる。

図５は、ウォルフガングアマデウスモーツアルトによる、クラリネット五重奏Ａメジャー、ラルゲット(larghetto)の楽章ＫＶ５８１における、約１３秒の波長の抽出を示している。そして、この抽出は、周波数計算を行う手段１６の出力で表わしている。この抽出において、主な音色の独奏部分を演奏するクラリネット、及び、それに伴う弦楽四重奏が存在する。手段１６により周波数計算を行い生成した結果が、図５に示す座標組である。

最後に、手段１８は、信号識別子を作成するために用いられる。手段１６の結果から、この信号識別子は、信号識別子データベースに、有利で、かつ、適したものになる。上記信号識別子は、一般的に、複数の座標組から生成される。それぞれの座標組は、周波数値と、上記信号識別子が、上記時間領域信号の時間的推移を反映する信号識別子の列を含むような発生時間とを含んでいる。

後述するように、手段１８は、図５の周波数−時間の図から、必須の情報を抽出するのに用いられる。この図５は、上記時間領域信号の指紋を作成するために、手段１６により生成される。上記指紋は、簡潔である一方、十分に正確な方法で、他の時間領域信号と上記時間領域信号とを区別することができる。

図２は、本発明の好ましい実施形態に係る、信号識別子を抽出する本発明の装置を示している。時間領域信号として、音声ファイル２０は、音声Ｉ／Ｏ処理機(audio I/O handler)に入力される。上記音声Ｉ／Ｏ処理機としては、例えば、ハードディスクから音声ファイルを読み取るものが挙げられる。音声データストリームは、サウンドカードから直接読み込まれてもよい。音声データストリーム部分を読み込んだ後、手段２２は、音声ファイルを再び投入する(re-close)。そして、手段２２は、処理する次の音声ファイルを取り込む、もしくは、読み込み操作を終了する。例えばＣＤから得られる、ＰＣＭ（ＰＣＭ＝変調されたパルスコード）サンプル列は、音声信号の前処理を行う手段２４に入力される。手段２４は、必要に応じて、サンプル速度の変換を実行するのに用いられる一方で、音声レベル調整を達成するのに用いられる。音声信号は、異なる媒体で、異なるサンプリング周波数で、存在する。既に説明したように、音声信号の信号エッジの発生時間は、音声信号を読み込むために用いられる。しかしながら、そのためには、信号エッジの発生時間を正確に検出するために、さらに、周波数値を正確に検出するために、サンプリング速度を把握しておかなければならない。また、異なるサンプル速度の音声信号を、同一のサンプル速度の音声信号にするような、間引き、または補間手段により、サンプル速度変換を実行してもよい。

本発明の好ましい実施形態は、いくつかのサンプル速度に対して適しているようにしている。そのために、本発明の好ましい実施形態では、手段２４は、サンプル速度の調整を実行ができるように、備えられている。

また、ＰＣＭサンプルは、手段２４内で成された自動レベル調整の対象になる。手段２４内では、音声信号の平均信号パワーは、先読みバッファでの自動レベル調整で決定される。２つの最小信号能力の間に存在する音声信号成分(audio signal portion)は、ある倍率で増幅される(multiplied)。この倍率は、重み係数、及び、フルスケール偏差の指数、並びに、区分内の最小レベルにより得られる。上記先読みバッファの長さは、変化してもよい。

次に、このように前処理された音声信号は、手段１２に送り込まれる。手段１２は、図１を参照にして説明したように、信号エッジの検出を実行する。この検出のために、ハフ変換を用いることが好ましい。回路技術に関してのハフ変換の実現は、ＷＯ９９／２６１６７に開示されている。

ハフ変換により決定された信号エッジの振幅、及び、信号エッジの検出時間は、図１の手段１４で処理される。この装置内では、２つの連続した検出時間は、相互の周波数値と仮定される発生時間から、それぞれ差し引かれている。この作業は、図１の手段１６により実行され、音楽成分が処理されている場合、図５の周波数−時間図のようになる。この図５では、モーツアルトカッヘル要覧より得られた、周波数／時間の座標組がプロットされている。

本発明によれば、上記座標組の時系列は、時間領域信号の時間的推移を反映しているので、図５の表示は、時間領域信号の信号識別子として用いられている。

しかしながら、一実施形態では、信号を参照するために、図５の周波数−時間図から、小さいができる限り意味のある時間領域信号の指紋を提供する、必須情報を抽出するために、後処理を実行することが好ましい。

最後に、信号識別子生成手段１８は、図３に示すように、構成されていてもよい。手段１８は、クラスター領域を決定する手段１８ａ、グループ化する手段１８ｂ、グループを平均化する手段１８ｃ、間隔を決定する手段１８ｄ、量子化する手段１８ｅ、最後に、時間領域信号の信号識別子を得る手段１８ｆに細分化される。

図５に見られるように、特徴的な分布点群（クラスターとする）は、クラスター領域を決定する手段１８ａで、精緻化される(elaborated)。この精緻化は、最も近い空間的な隣接からの所定の最小距離を越えた、全単離周波数−時間組を除外することにより成される。このように単離された周波数−時間組としては、例えば、図５の右上側のドットが挙げられる。これは、ピッチ輪郭ストライプバンドと呼ばれており、図５の参照符号５０で示されている。このピッチ輪郭ストライプバンドは、ある周波数幅、及び、波長のクラスターからなり、演奏された音色により、このクラスターを引き起こすことができる。これらの音色は、図５（５２）の縦軸に交差する水平線によって示されている。図５で示されている例としては、与えられた列の約６〜１０秒の間の範囲で起きている、ｈ１、ｃ２、ｃｉｓ２、ｄ２、及び、ｈ１が挙げられる。音色ａ１は、４４０Ｈｚの周波数を有している。音色ｈ１は、４９４Ｈｚの周波数を有している。音色ｃ２は、５２３Ｈｚの周波数を有している。音色ｃｉｓ２は、５５４Ｈｚの周波数を有している。これに対し、音色ｄ２は、５８７Ｈｚの周波数を有している。

多声音では、結果として、ストライプバンドがより広くなる。単一音色での上記ストライプ幅は、単一音色を作成する音楽楽器の震動に依存する。

グループ化する、または、ブロックをつくる手段１８ｂでは、処理ブロックをつくり、分離して処理するために、ピッチ輪郭ストライプバンドの座標組を、ｎサンプルの時間窓で組み合わせる、またはグループ化する。なお、ブロックサイズを、等距離、または可変に選択してもよい。精度及び信号識別子用に利用可能な記憶スペースに応じて、比較的目の粗い細分(relatively course subdivision)（例えば、１秒の細分）、またはより小さな細分を選択してもよい。この比較的目の粗い細分は、現サンプリング速度で、ブロックごとの、所定の値のサンプルに対応する。つまり、音楽成分に関して、音符の様態の根本的な表記を考慮するため、この比較的目の粗い細分に１つの音色が入るように選択する。最終的に、音色の時間長を見積もる必要がある。これは、図５に模写した多項式の適合関数(fit function)５４により可能になる。このとき、上記多項式における２つの局部極値間の時間間隔により、グループ、または、ブロックを決定する。特に、比較的多声成分の場合、上述の処理は、６秒と１２秒との間で起きるような、比較的大きなサンプルのグループを提供する。これに対して、図５の２秒、または、１２秒のように、座標組が大きい周波数範囲を超えて分配されているような、音楽成分の比較的多声間隔の場合、より小さなグループが選択される。そして、ブロックを厳格に形成するときよりも、情報の圧縮が小さくなる。

ブロック１８ｃは、サンプルのグループを平均化する。このブロック１８ｃで、要求されるときに、ブロックに存在する全座標組の加重平均値が決定される。上記の好ましい実施形態では、上記ピッチ輪郭ストライプバンド外の組は、前もって、既に除外されている。しかしながら、上述の除外はなくてもよい。そして、これにより、手段１６により計算された全座標組が、手段１８ｃにより実行される平均化で考慮される。

手段１８ｄは、間隔を決定する。この手段１８ｄでは、サンプルの次のグループ（時間的に次となるサンプルのグループ）の中央を決定するために、ジャンプ幅(jumping width)を決定する。

なお、手段１８ｃでは、算数の、幾何学的な、または、メジアン平均を実行してもよい。

量子化器１８ｅでは、手段１８ｃにより計算された値を、非等距離の量子化値とする。音楽成分の場合、音色−周波数スケールの細分に基づくことが好ましい。この細分された音色−周波数スケールは、既に説明したように、８８の音色レベルを含み、２７．５Ｈｚ（音色Ａ２）から４，１８６Ｈｚ（音色ｃ５）に至る通常のピアノの音色の周波数範囲に応じて細分化される。装置１８ｃからの出力での、平均値の値が、２つの隣接する半音の間である場合、最も近い参照音色の値を該平均値とする。

結果として、量子化する手段１８ｅの出力で、量子化された値の列が徐々にできる。そして、その値は、信号識別子の形態を組み合わせる。必要なときには、手段１８ｆにより、上記量子化された値を後処理してもよい。手段１８ｆにおいて、後処理としては、例えば、ピッチの補正(a correction of the pitch offset)、異なる音色スケールへの転換(transposition)等が挙げられる。

次に、参照は、図４により成される。図４は、データベース４０の検索時間領域信号を参照する装置の概略を示す。このデータベース４０は、複数のデータベースの信号識別子を構成している。このデータベース４０には、好ましくは、データベース４０とは別に、ライブラリー４２で時間領域信号のトラック１〜トラックｍが蓄積されている。

データベース４０を用いて、時間領域信号を参照するためには、このデータベースが、最初に充填されて(fill)いなければならない。これは、「学習」モードにより達成されるかもしれない。最終的に、音声ファイル４１は、順に、ベクトル生成器４３へ取り込まれる。このベクトル生成器４３は、それぞれの音声ファイルの参照識別子を提示しており、例えばライブラリー４２で、どの音声ファイルが、どの信号識別子に属するのかを認識するように、データベースで参照識別子を蓄積する。

図４に示す関連によれば、信号識別子ＭＶ１１、…ＭＶ１ｎは、時間領域信号トラック１に対応する。信号識別子ＭＶ２１、…ＭＶ２ｎは、時間領域信号トラック２に属する。最終的に、信号識別子ＭＶｍ１、…ＭＶｍｎは、時間領域信号トラックｍに対応する。

ベクトル生成器４３は、一般的に、図１に示した関数を実行することにより、実施される。そして、好ましい実施形態によれば、図２及び３に示した関数を実行することによっても、実施される。「学習」モードにおいて、データベース中に時間領域信号の信号識別子を蓄積する（データベースを満たす）ために、ベクトル生成器４３は、異なる音声ファイル（トラック１〜トラックｍ）を、順に処理する。

「検索」モードでは、音声ファイル４１がデータベース４０を用いて参照される。最終的に、検索識別子４５を生成するベクトル生成器４３により、検索時間領域信号４１が処理される。検索識別子４５は、ＤＮＡシークエンサー４６に取り込まれる。そして、データベース４０中で参照識別子と比較することが可能になる。上記ＤＮＡシークエンサー４６は、さらに、複数のデータベースに関して、検索時間領域信号についての記述をライブラリー４２からの時間領域信号にするように整える。検索識別子４５を用いて、ＤＮＡシークエンサーは、適合する参照識別子を、データベース４０から検索し、ポインタを、ライブラリー４２の代表的な音声ファイルに転送する。これにより、音声ファイルは、参照識別子と関連性が生まれる。

そして、ＤＮＡシークエンサー４６は、データベースの参照識別子に関して、検索識別子４５、または、その一部分の比較を実行する。特定化された列、または、部分的な列が存在する場合、関連する時間領域信号は、ライブラリー４２で参照される。

ＤＮＡシークエンサー４６は、ボイヤー−ムーア(Boyer-Moore)−アルゴリズムを実行することが好ましい。このアルゴリズムは、例えば専門書「文字列、階層、及び、数列のアルゴリズム」（ダンガスフィールドケンブリッジ大学出版、１９９７）に記載されている。そして、第１の代替案に応じて、正確な適合を検査することが好ましい。それゆえ、記述を作成することは、上記検索時間領域信号が、ライブラリー４２の時間領域信号と一致することを意味する。また、さらに、置換／挿入／削除の操作、及び、ピッチ補正を用いて２つの列の類似性を試験してもよい。

データベース４０は、信号識別子の連鎖になるように、構成されていることが好ましい。時間領域信号ファイル境界を介して検索を持続しないように、時間領域信号の各ベクトル信号識別子の末端は、分離器(separator)により特定化される。いくつかの適合が成されると、参照された時間領域信号が、全て提示される。

置換／挿入／削除の操作を通して、類似性の測定は、導入されてもよい。そして、類似特定化測定に関して、検索時間領域信号４１と最も類似性のある、時間領域信号が、ライブラリー４２に参照される。ライブラリー中のいくつかの信号で、検索音声信号の類似性測定を決定することが更に好ましい。そして、ライブラリー４２で、ｎ個の最類似成分を、降順に出力することが好ましい。

図１は、本発明にかかる時間領域信号から信号識別子を抽出する装置のブロック図である。図２は、好ましい実施形態のブロック図であり、音声信号の前処理様態の図である。図３は、信号識別子を作成する一実施形態のブロック図である。図４は、本発明にかかるデータベースを作成し、上記データベース中の検索時間領域信号を参照する装置のブロック図である。図５は、周波数−時間座標組によるモーツアルトＫＶ５８１(Mozart KV 581)の抽出要素のグラフ図である。

Claims

調和成分を有する時間領域信号から信号識別子を抽出する方法であって、
上記時間領域信号における信号エッジの発生時間を、ハフ変換を利用して検出する過程（１２）と、
選択された２つの検出信号エッジの間の時間間隔を決定する過程（１４）と、
上記の決定された時間間隔から周波数値を計算（１６）し、当該周波数値と当該周波数値が発生する時間との座標組を得るために、上記周波数値と、上記時間領域信号における上記周波数値が発生する時間とを関連付ける過程と、
信号識別子が、上記時間領域信号の時間的推移を反映した信号識別子値の列を含むことにより、各々の座標組が周波数値と発生時間とを含む、複数の座標組から信号識別子を作成する（１８）過程とを含む方法。
上記信号エッジの発生時間を検出する過程（１２）において、信号エッジが特定の時間長以上であり、所定の振幅閾値より大きい振幅を有する場合にのみ、該信号エッジを検出する請求項１に記載の方法。
上記信号エッジの発生時間を検出する過程（１２）において、信号エッジの特定化された時間長が、最小の期間長よりも大きく、かつ、最大の期間長よりも小さい場合にのみ、該信号エッジを検出する請求項１または２に記載の方法。
上記時間領域信号が、音声信号であり、
最大可聴カットオフ周波数により、最小時間の期間長を特定化し、
最小可聴カットオフ周波数により、最大時間の期間長を特定化することを特徴とする請求項３に記載の方法。
上記時間領域信号が、音声信号であり、
楽器により生成される最大音色カットオフ周波数により、最小時間の期間長を特定化し、
楽器により生成される最小音色カットオフ周波数により、最大時間の期間長を特定化することを特徴とする請求項３に記載の方法。
上記信号識別子を生成する過程（１８）において、
座標組のクラスターを決定するために、周波数−時間図において、隣接する座標組から、所定の距離の閾値以上離れて配置された座標組を削除する過程（１８ａ）を含むことを特徴とする請求項１〜５の何れか１項に記載の方法。
上記信号識別子を生成する過程（１８）において、
連続した時間間隔で、座標組を、当該座標組のブロックにグループ化する過程（１８ｂ）を含むことを特徴とする請求項５または６に記載の方法。
上記連続した時間間隔が、固定、または可変となる時間長を有することを特徴とする請求項７に記載の方法。
上記信号識別子を生成する過程（１８）において、
上記間隔での座標組の周波数値を平均化し、この時間間隔の列に対して平均化された周波数値の列を得て、上記平均化された周波数値の列を特性ベクトルとして表わす平均化過程（１８ｃ）を含むことを特徴とする請求項７または８に記載の方法。
上記信号識別子を生成する過程（１８）において、
上記特性ベクトルを量子化し、量子化特性ベクトルを得る量子化過程（１８ｅ）を含むことを特徴とする請求項９に記載の方法。
上記量子化する過程を、非等距離に分配された量子化値を用いて実行しており、音色−周波数スケールに応じて、隣接する量子化値の距離を決定することを特徴とする請求項１０に記載の方法。
複数の時間領域信号の参照信号識別子からデータベース（４０）を作成する方法であって、
請求項１〜１１の何れか１項に記載の方法により、時間領域信号それぞれから信号識別子それぞれを抽出する過程と、
上記信号識別子を上記時間領域信号と関連付けてデータベース（４０）に蓄積する過程とを含む方法。
データベース時間領域信号を請求項１〜１１の何れか１項に記載の方法により決定し、複数のデータベース時間領域信号の参照信号識別子からなるデータベース（４０）を用いて、検索時間領域信号を参照する方法であって、
少なくとも１つの検索時間領域信号を提供する（４１）過程と、
データベース時間領域信号を請求項１〜１１の何れか１項に記載の方法により、検索時間領域信号から、検索信号識別子を抽出する（４３）過程と、
複数の参照信号識別子と、上記検索信号識別子とを比較（４６）し、当該比較に応答して、上記複数のデータベース時間領域信号に関して、検索時間領域信号についての記述を作成する過程とを含むことを特徴とする方法。
上記比較する（４６）過程は、ＤＮＡ配列決定アルゴリズム、及び／または、ボイヤー−ムーアアルゴリズムを用いて、実行されることを特徴とする請求項１３に記載の方法。
調和成分を有する時間領域信号から、信号識別子を抽出する装置であって、
上記時間領域信号における信号エッジの発生時間を、ハフ変換を利用して検出する手段（１２）と、
選択された２つの検出信号エッジの間の時間間隔を決定する手段（１４）と、
上記の決定された時間間隔から周波数値を計算（１６）し、当該周波数値と当該周波数値が発生する時間との座標組を得るために、上記周波数値と、上記時間領域信号における上記周波数値が発生する時間とを関連付ける手段と、
信号識別子が、上記時間領域信号の時間的推移を反映した信号識別子値の列を含むことにより、各々の座標組が周波数値と発生時間とを含む、複数の座標組から信号識別子を作成する（１８）手段とを備えた装置。
複数の時間領域信号の参照信号識別子からデータベース（４０）を作成する装置であって、
請求項１〜１１の何れか１項に記載の方法により、複数の時間領域信号それぞれから信号識別子それぞれを抽出する手段と、
上記信号識別子を上記時間領域信号と関連付けてデータベース（４０）に蓄積する手段とを備えた装置。
データベース時間領域信号を請求項１〜１１の何れか１項に記載の方法により決定し、複数のデータベース時間領域信号の参照信号識別子からなるデータベース（４０）を用いて、検索時間領域信号を参照する装置であって、
少なくとも１つの検索時間領域信号を提供する（４１）手段と、
データベース時間領域信号を請求項１〜１１の何れか１項に記載の方法により、検索時間領域信号から、検索信号識別子を抽出する（４３）手段と、
複数の参照信号識別子と、上記検索信号識別子とを比較（４６）し、当該比較に応答して、上記複数のデータベース時間領域信号に関して、検索時間領域信号についての記述を作成する手段とを備えた装置。