JP2004531758A5 - - Google Patents
Download PDFInfo
- Publication number
- JP2004531758A5 JP2004531758A5 JP2002582410A JP2002582410A JP2004531758A5 JP 2004531758 A5 JP2004531758 A5 JP 2004531758A5 JP 2002582410 A JP2002582410 A JP 2002582410A JP 2002582410 A JP2002582410 A JP 2002582410A JP 2004531758 A5 JP2004531758 A5 JP 2004531758A5
- Authority
- JP
- Japan
- Prior art keywords
- signal
- time
- time domain
- identifier
- domain signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010586 diagram Methods 0.000 claims description 14
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 238000000034 method Methods 0.000 claims description 8
- 238000001514 detection method Methods 0.000 claims description 5
- 230000002123 temporal effect Effects 0.000 claims description 4
- 238000001712 DNA sequencing Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 2
- 230000005236 sound signal Effects 0.000 description 25
- 238000004364 calculation method Methods 0.000 description 5
- 229920003013 deoxyribonucleic acid Polymers 0.000 description 5
- 238000005070 sampling Methods 0.000 description 4
- 238000007906 compression Methods 0.000 description 3
- 238000003708 edge detection Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000003780 insertion Methods 0.000 description 3
- RZVAJINKPMORJF-UHFFFAOYSA-N p-acetaminophenol Chemical compound CC(=O)NC1=CC=C(O)C=C1 RZVAJINKPMORJF-UHFFFAOYSA-N 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000000630 rising Effects 0.000 description 3
- 230000000875 corresponding Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000001747 exhibiting Effects 0.000 description 1
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 1
- 230000004301 light adaptation Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000000051 modifying Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000003595 spectral Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 230000001131 transforming Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Description
本発明は、調和成分(harmonic portion)を有する時間領域信号(time signal)の処理に関し、特に、複数の信号識別子が、複数の時間領域信号として蓄積されているデータベース手段により、時間領域信号を書き込む(describe)ことができるように、時間領域信号から信号識別子を作成することに関する。
例えば音声データといった調和成分を有する時間領域信号を識別でき、かつ、参照することができる手段による考え方(concept)は、多くに使用者に対して使いやすいということである。特に、題名及び作者が不明な音声信号が存在する状況(situation)では、それぞれの歌が由来する人を調べることが望ましい。また、例えば、問題となっている演奏者のCDを得たい場合、上述の必要性が生じる。現在の音声信号が、演奏者、音楽会社(music publisher)等の名前を含まず、時間領域信号のみを含む場合、音声信号の由来、もしくは、歌が由来する人または法人(institution)を識別することは不可能である。作者、または、好みの歌を得るために、音声信号を購入した情報源(source)に関して、参照データを含んでいるので、再度、音声要素を聞くことだけが期待できる。
検索エンジンについては、文字データ(textual data)を分配する(deal)方法のみが知られているので、インターネット上での検索機を用いて、音声データを検索できない。音声信号、より一般的な会話(speaking)、または、調和成分を有する時間領域信号は、文字検索識別子を含んでいない場合、上述の検索エンジンにより処理されないかもしれない。
音声ファイルの実際のストックは、数千の蓄積された音声ファイルから、最大数十万の音声ファイルで構成されている。音楽データベース情報は、中央のインターネットサーバーに蓄積され、インターネットを介して、潜在的な検索エンジンを作用するかもしれない。また、近年のハードディスク容量に伴い、使用者のローカルハードディスクのシステムにこれらの中央音楽データベースを持つことが実現可能になった。音声ファイル(参照データは不明であるが、音声ファイル事態が知られている)についての参照データを得るために、上述の音楽データベースを(Webで)閲覧できる(browse)ことが望ましい。
さらに、例えば、類似要素を調べることができるような基準を用いて、音楽データベースを(Webで)閲覧できることが同様に望ましい。類似要素としては、例えば、類似した旋律、類似の法人、単調な類似の音(例えば、海の音、鳥の鳴き声、男性の声、女性の声等)を有する要素が挙げられる。
米国特許番号5,918,223には、音声情報について、内容に基づいた分析、貯蓄、検索(retrieval)、及び、分断(segmentation)の方法及びその装置が開示されている。この方法は、音声信号から音響特性を抽出することに基づいている。評価する(measure)ものとしては、音量、低音(bass)、間隔、鮮明さ(brightness)、及び、定期的な間隔での特定の波長の時間窓(time window)の、Mel周波数に基づいたケプストラム係数(Cepstral coefficient)が挙げられる。各組の評価データは、一連の評価された特性ベクトルからなる。それぞれの特性から計算された、完全な一組の特性の列(feature sequence)により、それぞれの音声ファイルを特定化する。さらに、特性ベクトルのそれぞれの列から、1次微分(first derivation)を計算する。この一組の値は、Nベクトル、すなわちn成分のベクトルとして蓄積される。それぞれの音声ファイルについてNベクトルを導き出すために、複数の音声ファイルに対して上記の処理を適用する。そうすることで、データベースは、複数のNベクトルから、徐々に構築される。このとき、同様の処理を用いて、不明の音声ファイルから検索Nベクトルを抽出する。検索照会で、特定化されたNベクトルの距離、及び、データベースに蓄積されたNベクトルか決定される。最終的に、検索Nベクトルから最小距離にあるベクトルが、出力される。上記Nベクトル出力は、その音声ファイルに関する、作者、題名、供給源等のデータを有している。このため、その由来に関して、音声ファイルを識別するかもしれない。
上記の方法の欠点としては、いくつかの特性を計算し、特徴的な量を計算するために、任意の経験則(arbitrary heuristic)を導入するかもしれないことが挙げられる。一つの音声ファイル全体の全ての特性ベクトルについて、平均値及び標準偏差を計算することにより、特性ベクトルの時間的推移より得られた情報が、いくらかの特性量に減少する。これにより、高い情報の欠損が生じる。
本発明の目的は、極めて高い情報の欠損なしに、時間領域信号の意味ある識別を可能にする、時間領域信号から信号識別子を抽出する方法及びその装置を提供することにある。
上記目的は、請求項1で請求された時間領域信号から信号識別子を抽出する方法、または、請求項19で請求された時間領域信号から信号識別子を抽出する装置により、達成される。
本発明のさらなる目的は、信号識別子からデータベースを作成する方法及びその装置、及び、検索時間領域信号を参照する方法及びその装置を提供することにある。
上記目的は、請求項13で請求されたデータベースを作成する方法、請求項20で請求されたデータベースを作成する装置、請求項14で請求された検索時間領域信号を参照する方法、または、請求項21で請求された検索時間領域信号を参照する装置により、達成される。
本願発明は、以下の知見に基づいている。すなわち、調和成分を有する時間領域信号において、時間領域信号から、当該時間領域信号の識別子を抽出するために、この信号の時間的推移を用いて、この信号識別子は、上記時間領域信号に関して良好な指紋(fingerprint)を提供する。その一方で、この信号識別子は、そのデータ容量に関して管理しやすく、データベース上の複数の信号識別子を通して、効率的な検索を可能にする。調和成分を有する時間領域信号の必須な性質(property)は、上記時間領域信号で信号エッジ(signal edge)を循環すること(recurring)である。ここでは、例えば同一の、かつ/または、類似した波長を有する2つの連続的な信号エッジにより、持続期間(duration of a period)、及び、時間と周波数とに関して高度に分離した時間領域信号の周波数の提示が可能になる(信号エッジ自体の存在だけでなく、時間領域信号における信号エッジの発生時間も考慮に入れた場合)。そして、上記時間領域信号は、時間における周波数の連続からなることから、時間領域信号の書き込み(description)を得ることができる。一例として音声信号を用いることにより、音(周波数)が時間のある点に存在し、そして、時間の後の点で、この音(周波数)の次にもう一つの音(周波数)が続くというように、上記音声信号が特徴付けられる。
本発明によれば、時間上のサンプル(sample)の列による時間領域信号の書き込みから、周波数、及びこの周波数で発生する時間の座標組による時間領域信号の書き込みへと転送が成される。この実施例によれば、信号識別子、または、言い換えれば、時間領域信号の書き込みに用いる特性ベクトル(MV)は、おおよそ、多かれ少なかれ、時間領域信号の時間的推移を反映する信号識別子の値の列を含んでいる。したがって、上記時間領域信号は、従来技術のようなスペクトル特性ではなく、時間領域信号における周波数の時系列により特徴付けられる。
検出された信号エッジから、周波数の値を計算するためには、少なくとも2つの検出された信号エッジが必要である。検出された全ての信号エッジから、これら2つの信号エッジの選択は、どの周波数値を計算するかで、多種多様になる。まず、同一の波長を必須に有する連続した2つの信号エッジを用いてもよい。このとき、周波数値は、これらエッジの時間間隔の逆数(reciprocal)である。また、検出された信号エッジの振幅により、選択がなされてもよい。つまり、周波数値を決定するために、同一振幅の2つの連続した信号エッジを用いてもよい。しかしながら、必ずしも2つの連続した信号エッジを用いるのではなく、例えば、同一の振幅または波長を有する第2、第3、第4…の信号エッジを用いてもよい。なお、最後に、統計的な方法を用いて、重ね合わせの法則(superposition laws)に基づき、上記座標組を得るために、いかなる2つの信号エッジを用いてもよい。フルートの例として、フルートから由来する(issued)音色は、高い振幅を有する2つの信号エッジを提供し、そのエッジ間で、より小さな振幅を有する波形の頂点(wavecrest)が存在することが記載されている。フルートの基本的な音色を決定するために、例えば、振幅により、2つの検出された信号エッジを選択してもよい。
音声信号の必須要素(essence)は、音色の時系列であり、この時系列は、音楽信号で、最も簡潔な方法でみられるので、特に、音声信号に関して音色の時系列を特徴付けるのに最も自然な形態である。聞き手が音楽信号から得る、最も直接的な認識は、上記の音色の時系列である。クラシック音楽において、一つの演奏(work)は、異なる変化の演奏全体を通して、様々に作業する(running)特定のテーマの周りで常に構築されているが、このクラシック音楽だけでなく、人気の歌または他の最新音楽の中にも、記憶に残る(catchy)音色がある。この音色は、一般に、単純な音色の列、テーマ、または、単純な音色からなる。そして、この音色は、リズム、間隔、用いてもよい楽器随伴物(instrument accompaniment)等の、それぞれの認知度により作られていることが必須である。
本発明の概念は、上述の知見に基づき、信号識別子を提供する。この信号識別子は、周波数の時系列からなる、もしくは、実施形態に応じて、統計的な方法により、周波数(音色)の時系列に由来する。
本発明の有利な点としては、以下の点が挙げられる。すなわち、周波数の時系列としての信号識別子は、調和成分を有する時間領域信号に関して、広範囲の情報内容の指紋を表わしており、そのため、時間領域信号の要点、または、核心を具体化する。
本発明のもう一つの有利な点としては、以下の点が挙げられる。すなわち、本発明により抽出された信号識別子は、時間領域信号における発音の圧縮(pronounced compression)を表わすが、時間領域信号の時間的推移に依存する。このため、この信号識別子は、時間領域信号(すなわち、音楽成分)が自然に認識されるように調整される。
本発明のもう一つの有利な点としては、以下の点が挙げられる。すなわち、信号識別子の逐次的な性質(sequential nature)によって、従来技術のように、アルゴリズムを参照する距離計算をする必要がなく(leave behind)、データベース中の時間領域信号を参照するために、DNA配列決定で知られているアルゴリズムを用いることができる。さらに、これに加えて、置換/挿入/欠損の操作を有する、DNA配列決定アルゴリズムを用いることにより、類似した計算を行うことができる。
本発明のさらなる有利な点としては、以下の点が挙げられる。ハフ変換(hough transformation)は、画像処理、及び、画像認識の分野で効率的なアルゴリズムである。所望の方法で、時間領域信号における信号エッジの発生時間を検出するために、このハフ変換を用いてもよい。
本発明のさらなる有利な点としては、以下の点が挙げられる。すなわち、本発明により抽出された、時間領域信号の信号識別子に関して、この信号識別子が全時間領域信号に由来するのか、時間領域信号の成分にのみ由来するのかは、無関係である。なぜなら、DNA配列決定のアルゴリズムにより、参照信号識別子を有する検索信号識別子の、(時間に関して、順次行なわれる)比較が実行されてよいからである。上記比較が時間で逐次的であるため、実際には、識別される時間領域信号の成分は、参照時間領域信号を、自動的に識別される。この参照時間領域信号において、検索信号識別子と参照信号識別子との間で最も発音の適合(pronounced match)がある。
本発明の好ましい実施形態は、添付図面を参照にして、以下より詳細に説明されるであろう。
図1は、本発明にかかる時間領域信号から信号識別子を抽出する装置のブロック図である。
図2は、好ましい実施形態のブロック図であり、音声信号の前処理様態の図である。
図3は、信号識別子を作成する一実施形態のブロック図である。
図4は、本発明にかかるデータベースを作成し、上記データベース中の検索時間領域信号を参照する装置のブロック図である。
図5は、周波数−時間座標組によるモーツアルトKV581(Mozart KV 581)の抽出要素のグラフ図である。
図1は、本発明にかかる時間領域信号から信号識別子を抽出する装置のブロック図である。
図2は、好ましい実施形態のブロック図であり、音声信号の前処理様態の図である。
図3は、信号識別子を作成する一実施形態のブロック図である。
図4は、本発明にかかるデータベースを作成し、上記データベース中の検索時間領域信号を参照する装置のブロック図である。
図5は、周波数−時間座標組によるモーツアルトKV581(Mozart KV 581)の抽出要素のグラフ図である。
図1は、本発明にかかる時間領域信号から信号識別子を抽出する装置のブロック図を示す。この装置は、信号エッジの検出を実行する手段12、2つの選択された検出エッジ(edge detected)の距離を決定する手段14、周波数計算を行う手段16、及び、当該周波数計算を行う手段16からの座標組の出力を用いて、信号識別子を作成する手段18を含んでいる。上記組は、それぞれ、周波数値、及び、この周波数値が発生する時間を有している。
なお、以下、音声信号を時間領域信号として参照する。しかしながら、時間領域信号識別子は、時間領域信号が、周波数の時系列(音声信号の一例としては、音色)からなるという事実に基づいているので、本発明の概念は、音声信号だけでなく、調和成分を有するいかなる時間領域信号にも適合するものとする。
時間領域信号における信号エッジの発生時間を検出する手段12は、ハフ変換を実行していることが好ましい。
ポール V.C.ハフ(Paul V. C. Hough)による米国特許番号3,069,654に、ハフ変換について記載されている。ハフ変換は、複合構造(complex structure)、特に、写真、または、他の写真表示において、複合線(complex line)を自動的に識別するのに用いられる。ハフ変換は、一般的に、画像内に特定形状を有する特性を抽出するために用いられる技術である。
本発明にかかるその適用では、時間領域信号から特定化された時間長を有する信号エッジを抽出するために、ハフ変換を用いる。信号エッジは、初めに、その時間長で、特定化される。理想的な湾曲波形の場合、信号エッジは、0°から90°までのサイン関数の立ち上がり部分のエッジ(rising edge)により定義されている。そして、信号エッジは、−90°から+90°までのサイン関数の立ち上がり(rise)により、特定化される。
上記時間領域信号が、サンプルの時系列として存在している場合、サンプルと共に生成するサンプリング周波数を考慮に入れると、信号エッジの時間長は、サンプルのある番号に対応する。したがって、上記信号エッジが構成しようとする(intend to)サンプルの番号を提示することにより、信号エッジの波長を容易く特定化するかもしれない。
さらに、同一の、安定で、かつ、第1に単調な形態を有するものである場合、すなわち、正の信号エッジであれば、第1の単調な上昇形態(rising form)を有している場合にのみ、信号エッジとして信号エッジを検出することが好ましい。負の信号エッジ、すなわち、単調に降下する信号エッジである場合にもまた、検出してもよい。
信号エッジを分類する、さらなる基準としては、信号エッジが、ある一定のレベル範囲を超えた場合にのみ、信号エッジを信号エッジとして検出することが挙げられる。ノイズ障害を無効にするために、信号エッジの最小レベル範囲、または、振幅範囲を特定することが好ましい。そうすることで、単調に上昇する信号エッジが上記のレベル範囲の手前で(short of)降下しても、信号エッジとして検出されることは無い。
本発明の好ましい実施形態によれば、音声信号を参照するために、特定された時間長が、最小時間の期間長よりも大きく、かつ、最大時間の期間長よりも小さくなる信号エッジのみを検索する効果が成されるように、さらなる制約(restriction)が掛かる。言い換えれば、このことは、上部カットオフ周波数よりも低く、下部カットオフ周波数よりも高い周波数を示す、信号エッジを検出することを意味する。音楽成分において、27.5Hz(音色A2)から4,186Hz(音色c5)までの周波数範囲の周波数を示す信号エッジを検出することが好ましい。ピアノから得られる音色は、共通して、上記の周波数範囲を超える。この音色の範囲は、音楽成分の信号識別子として十分であることは証明されている。
上記信号エッジ検出装置(unit)12は、信号エッジ、及び、当該信号エッジの発生時間を提供する。ここでは、信号エッジが同等に処理されている間、上記信号エッジの信号発生時間として得られる時間が、信号エッジの第1サンプル時間、信号エッジの最終サンプル時間、または、信号エッジ内の何れの他のサンプル時間であるかどうかは、関連性がない。
手段14は、2つの連続した信号エッジ間の時間間隔を決定する。これらの信号エッジの時間長は、所定の許容値(tolerance value)を除いて、等しい。上記手段14は、手段12による信号エッジ出力を検査し、ある特定された許容値の範囲内で、同一、または、基本的に同一である、2つの連続した信号エッジを抽出する。単純なサイン音色(sine tone)を検討する場合、2つの連続した時間間隔、例えば正の、同一の1/4波長により、サイン音色の周期(period)が得られる。このことは、手段16が決定された時間間隔から周波数値を計算する基本を提供する。
上記の処理を用いて、時間領域信号の表示は、時間に関して、高分解能で(with high resolution)提供されていてもよい。それと同時に、上記時間領域信号で起きている周波数を提示することにより、及び、上記周波数に対応する発生時間を提示することにより、周波数に関して、高分解能で(with high resolution)提供されていてもよい。手段16による周波数計算の結果を、グラフで表わした場合、図5にかかる図が得られる。
図5は、ウォルフガング アマデウス モーツアルトによる、クラリネット五重奏Aメジャー、ラルゲット(larghetto)の楽章KV581における、約13秒の波長の抽出を示している。そして、この抽出は、周波数計算を行う手段16の出力で表わしている。この抽出において、主な音色の独奏部分を演奏するクラリネット、及び、それに伴う弦楽四重奏が存在する。手段16により周波数計算を行い生成した結果が、図5に示す座標組である。
最後に、手段18は、信号識別子を作成するために用いられる。手段16の結果から、この信号識別子は、信号識別子データベースに、有利で、かつ、適したものになる。上記信号識別子は、一般的に、複数の座標組から生成される。それぞれの座標組は、周波数値と、上記信号識別子が、上記時間領域信号の時間的推移を反映する信号識別子の列を含むような発生時間とを含んでいる。
後述するように、手段18は、図5の周波数−時間の図から、必須の情報を抽出するのに用いられる。この図5は、上記時間領域信号の指紋を作成するために、手段16により生成される。上記指紋は、簡潔である一方、十分に正確な方法で、他の時間領域信号と上記時間領域信号とを区別することができる。
図2は、本発明の好ましい実施形態に係る、信号識別子を抽出する本発明の装置を示している。時間領域信号として、音声ファイル20は、音声I/O処理機(audio I/O handler)に入力される。上記音声I/O処理機としては、例えば、ハードディスクから音声ファイルを読み取るものが挙げられる。音声データストリームは、サウンドカードから直接読み込まれてもよい。音声データストリーム部分を読み込んだ後、手段22は、音声ファイルを再び投入する(re-close)。そして、手段22は、処理する次の音声ファイルを取り込む、もしくは、読み込み操作を終了する。例えばCDから得られる、PCM(PCM=変調されたパルスコード)サンプル列は、音声信号の前処理を行う手段24に入力される。手段24は、必要に応じて、サンプル速度の変換を実行するのに用いられる一方で、音声レベル調整を達成するのに用いられる。音声信号は、異なる媒体で、異なるサンプリング周波数で、存在する。既に説明したように、音声信号の信号エッジの発生時間は、音声信号を読み込むために用いられる。しかしながら、そのためには、信号エッジの発生時間を正確に検出するために、さらに、周波数値を正確に検出するために、サンプリング速度を把握しておかなければならない。また、異なるサンプル速度の音声信号を、同一のサンプル速度の音声信号にするような、間引き、または補間手段により、サンプル速度変換を実行してもよい。
本発明の好ましい実施形態は、いくつかのサンプル速度に対して適しているようにしている。そのために、本発明の好ましい実施形態では、手段24は、サンプル速度の調整を実行ができるように、備えられている。
また、PCMサンプルは、手段24内で成された自動レベル調整の対象になる。手段24内では、音声信号の平均信号パワーは、先読みバッファでの自動レベル調整で決定される。2つの最小信号能力の間に存在する音声信号成分(audio signal portion)は、ある倍率で増幅される(multiplied)。この倍率は、重み係数、及び、フルスケール偏差の指数、並びに、区分内の最小レベルにより得られる。上記先読みバッファの長さは、変化してもよい。
次に、このように前処理された音声信号は、手段12に送り込まれる。手段12は、図1を参照にして説明したように、信号エッジの検出を実行する。この検出のために、ハフ変換を用いることが好ましい。回路技術に関してのハフ変換の実現は、WO99/26167に開示されている。
ハフ変換により決定された信号エッジの振幅、及び、信号エッジの検出時間は、図1の手段14で処理される。この装置内では、2つの連続した検出時間は、相互の周波数値と仮定される発生時間から、それぞれ差し引かれている。この作業は、図1の手段16により実行され、音楽成分が処理されている場合、図5の周波数−時間図のようになる。この図5では、モーツアルト カッヘル要覧より得られた、周波数/時間の座標組がプロットされている。
本発明によれば、上記座標組の時系列は、時間領域信号の時間的推移を反映しているので、図5の表示は、時間領域信号の信号識別子として用いられている。
しかしながら、一実施形態では、信号を参照するために、図5の周波数−時間図から、小さいができる限り意味のある時間領域信号の指紋を提供する、必須情報を抽出するために、後処理を実行することが好ましい。
最後に、信号識別子生成手段18は、図3に示すように、構成されていてもよい。手段18は、クラスター領域を決定する手段18a、グループ化する手段18b、グループを平均化する手段18c、間隔を決定する手段18d、量子化する手段18e、最後に、時間領域信号の信号識別子を得る手段18fに細分化される。
図5に見られるように、特徴的な分布点群(クラスターとする)は、クラスター領域を決定する手段18aで、精緻化される(elaborated)。この精緻化は、最も近い空間的な隣接からの所定の最小距離を越えた、全単離周波数−時間組を除外することにより成される。このように単離された周波数−時間組としては、例えば、図5の右上側のドットが挙げられる。これは、ピッチ輪郭ストライプバンドと呼ばれており、図5の参照符号50で示されている。このピッチ輪郭ストライプバンドは、ある周波数幅、及び、波長のクラスターからなり、演奏された音色により、このクラスターを引き起こすことができる。これらの音色は、図5(52)の縦軸に交差する水平線によって示されている。図5で示されている例としては、与えられた列の約6〜10秒の間の範囲で起きている、h1、c2、cis2、d2、及び、h1が挙げられる。音色a1は、440Hzの周波数を有している。音色h1は、494Hzの周波数を有している。音色c2は、523Hzの周波数を有している。音色cis2は、554Hzの周波数を有している。これに対し、音色d2は、587Hzの周波数を有している。
多声音では、結果として、ストライプバンドがより広くなる。単一音色での上記ストライプ幅は、単一音色を作成する音楽楽器の震動に依存する。
グループ化する、または、ブロックをつくる手段18bでは、処理ブロックをつくり、分離して処理するために、ピッチ輪郭ストライプバンドの座標組を、nサンプルの時間窓で組み合わせる、またはグループ化する。なお、ブロックサイズを、等距離、または可変に選択してもよい。精度及び信号識別子用に利用可能な記憶スペースに応じて、比較的目の粗い細分(relatively course subdivision)(例えば、1秒の細分)、またはより小さな細分を選択してもよい。この比較的目の粗い細分は、現サンプリング速度で、ブロックごとの、所定の値のサンプルに対応する。つまり、音楽成分に関して、音符の様態の根本的な表記を考慮するため、この比較的目の粗い細分に1つの音色が入るように選択する。最終的に、音色の時間長を見積もる必要がある。これは、図5に模写した多項式の適合関数(fit function)54により可能になる。このとき、上記多項式における2つの局部極値間の時間間隔により、グループ、または、ブロックを決定する。特に、比較的多声成分の場合、上述の処理は、6秒と12秒との間で起きるような、比較的大きなサンプルのグループを提供する。これに対して、図5の2秒、または、12秒のように、座標組が大きい周波数範囲を超えて分配されているような、音楽成分の比較的多声間隔の場合、より小さなグループが選択される。そして、ブロックを厳格に形成するときよりも、情報の圧縮が小さくなる。
ブロック18cは、サンプルのグループを平均化する。このブロック18cで、要求されるときに、ブロックに存在する全座標組の加重平均値が決定される。上記の好ましい実施形態では、上記ピッチ輪郭ストライプバンド外の組は、前もって、既に除外されている。しかしながら、上述の除外はなくてもよい。そして、これにより、手段16により計算された全座標組が、手段18cにより実行される平均化で考慮される。
手段18dは、間隔を決定する。この手段18dでは、サンプルの次のグループ(時間的に次となるサンプルのグループ)の中央を決定するために、ジャンプ幅(jumping width)を決定する。
なお、手段18cでは、算数の、幾何学的な、または、メジアン平均を実行してもよい。
量子化器18eでは、手段18cにより計算された値を、非等距離の量子化値とする。音楽成分の場合、音色−周波数スケールの細分に基づくことが好ましい。この細分された音色−周波数スケールは、既に説明したように、88の音色レベルを含み、27.5Hz(音色A2)から4,186Hz(音色c5)に至る通常のピアノの音色の周波数範囲に応じて細分化される。装置18cからの出力での、平均値の値が、2つの隣接する半音の間である場合、最も近い参照音色の値を該平均値とする。
結果として、量子化する手段18eの出力で、量子化された値の列が徐々にできる。そして、その値は、信号識別子の形態を組み合わせる。必要なときには、手段18fにより、上記量子化された値を後処理してもよい。手段18fにおいて、後処理としては、例えば、ピッチの補正(a correction of the pitch offset)、異なる音色スケールへの転換(transposition)等が挙げられる。
次に、参照は、図4により成される。図4は、データベース40の検索時間領域信号を参照する装置の概略を示す。このデータベース40は、複数のデータベースの信号識別子を構成している。このデータベース40には、好ましくは、データベース40とは別に、ライブラリー42で時間領域信号のトラック1〜トラックmが蓄積されている。
データベース40を用いて、時間領域信号を参照するためには、このデータベースが、最初に充填されて(fill)いなければならない。これは、「学習」モードにより達成されるかもしれない。最終的に、音声ファイル41は、順に、ベクトル生成器43へ取り込まれる。このベクトル生成器43は、それぞれの音声ファイルの参照識別子を提示しており、例えばライブラリー42で、どの音声ファイルが、どの信号識別子に属するのかを認識するように、データベースで参照識別子を蓄積する。
図4に示す関連によれば、信号識別子MV11、…MV1nは、時間領域信号トラック1に対応する。信号識別子MV21、…MV2nは、時間領域信号トラック2に属する。最終的に、信号識別子MVm1、…MVmnは、時間領域信号トラックmに対応する。
ベクトル生成器43は、一般的に、図1に示した関数を実行することにより、実施される。そして、好ましい実施形態によれば、図2及び3に示した関数を実行することによっても、実施される。「学習」モードにおいて、データベース中に時間領域信号の信号識別子を蓄積する(データベースを満たす)ために、ベクトル生成器43は、異なる音声ファイル(トラック1〜トラックm)を、順に処理する。
「検索」モードでは、音声ファイル41がデータベース40を用いて参照される。最終的に、検索識別子45を生成するベクトル生成器43により、検索時間領域信号41が処理される。検索識別子45は、DNAシークエンサー46に取り込まれる。そして、データベース40中で参照識別子と比較することが可能になる。上記DNAシークエンサー46は、さらに、複数のデータベースに関して、検索時間領域信号についての記述をライブラリー42からの時間領域信号にするように整える。検索識別子45を用いて、DNAシークエンサーは、適合する参照識別子を、データベース40から検索し、ポインタを、ライブラリー42の代表的な音声ファイルに転送する。これにより、音声ファイルは、参照識別子と関連性が生まれる。
そして、DNAシークエンサー46は、データベースの参照識別子に関して、検索識別子45、または、その一部分の比較を実行する。特定化された列、または、部分的な列が存在する場合、関連する時間領域信号は、ライブラリー42で参照される。
DNAシークエンサー46は、ボイヤー−ムーア(Boyer-Moore)−アルゴリズムを実行することが好ましい。このアルゴリズムは、例えば専門書「文字列、階層、及び、数列のアルゴリズム」(ダン ガスフィールド ケンブリッジ大学出版、1997)に記載されている。そして、第1の代替案に応じて、正確な適合を検査することが好ましい。それゆえ、記述を作成することは、上記検索時間領域信号が、ライブラリー42の時間領域信号と一致することを意味する。また、さらに、置換/挿入/削除の操作、及び、ピッチ補正を用いて2つの列の類似性を試験してもよい。
データベース40は、信号識別子の連鎖になるように、構成されていることが好ましい。時間領域信号ファイル境界を介して検索を持続しないように、時間領域信号の各ベクトル信号識別子の末端は、分離器(separator)により特定化される。いくつかの適合が成されると、参照された時間領域信号が、全て提示される。
置換/挿入/削除の操作を通して、類似性の測定は、導入されてもよい。そして、類似特定化測定に関して、検索時間領域信号41と最も類似性のある、時間領域信号が、ライブラリー42に参照される。ライブラリー中のいくつかの信号で、検索音声信号の類似性測定を決定することが更に好ましい。そして、ライブラリー42で、n個の最類似成分を、降順に出力することが好ましい。
Claims (17)
- 調和成分を有する時間領域信号から信号識別子を抽出する方法であって、
上記時間領域信号における信号エッジの発生時間を、ハフ変換を利用して検出する過程(12)と、
選択された2つの検出信号エッジの間の時間間隔を決定する過程(14)と、
上記の決定された時間間隔から周波数値を計算(16)し、当該周波数値と当該周波数値が発生する時間との座標組を得るために、上記周波数値と、上記時間領域信号における上記周波数値が発生する時間とを関連付ける過程と、
信号識別子が、上記時間領域信号の時間的推移を反映した信号識別子値の列を含むことにより、各々の座標組が周波数値と発生時間とを含む、複数の座標組から信号識別子を作成する(18)過程とを含む方法。 - 上記信号エッジの発生時間を検出する過程(12)において、信号エッジが特定の時間長以上であり、所定の振幅閾値より大きい振幅を有する場合にのみ、該信号エッジを検出する請求項1に記載の方法。
- 上記信号エッジの発生時間を検出する過程(12)において、信号エッジの特定化された時間長が、最小の期間長よりも大きく、かつ、最大の期間長よりも小さい場合にのみ、該信号エッジを検出する請求項1または2に記載の方法。
- 上記時間領域信号が、音声信号であり、
最大可聴カットオフ周波数により、最小時間の期間長を特定化し、
最小可聴カットオフ周波数により、最大時間の期間長を特定化することを特徴とする請求項3に記載の方法。 - 上記時間領域信号が、音声信号であり、
楽器により生成される最大音色カットオフ周波数により、最小時間の期間長を特定化し、
楽器により生成される最小音色カットオフ周波数により、最大時間の期間長を特定化することを特徴とする請求項3に記載の方法。 - 上記信号識別子を生成する過程(18)において、
座標組のクラスターを決定するために、周波数−時間図において、隣接する座標組から、所定の距離の閾値以上離れて配置された座標組を削除する過程(18a)を含むことを特徴とする請求項1〜5の何れか1項に記載の方法。 - 上記信号識別子を生成する過程(18)において、
連続した時間間隔で、座標組を、当該座標組のブロックにグループ化する過程(18b)を含むことを特徴とする請求項5または6に記載の方法。 - 上記連続した時間間隔が、固定、または可変となる時間長を有することを特徴とする請求項7に記載の方法。
- 上記信号識別子を生成する過程(18)において、
上記間隔での座標組の周波数値を平均化し、この時間間隔の列に対して平均化された周波数値の列を得て、上記平均化された周波数値の列を特性ベクトルとして表わす平均化過程(18c)を含むことを特徴とする請求項7または8に記載の方法。 - 上記信号識別子を生成する過程(18)において、
上記特性ベクトルを量子化し、量子化特性ベクトルを得る量子化過程(18e)を含むことを特徴とする請求項9に記載の方法。 - 上記量子化する過程を、非等距離に分配された量子化値を用いて実行しており、音色−周波数スケールに応じて、隣接する量子化値の距離を決定することを特徴とする請求項10に記載の方法。
- 複数の時間領域信号の参照信号識別子からデータベース(40)を作成する方法であって、
請求項1〜11の何れか1項に記載の方法により、時間領域信号それぞれから信号識別子それぞれを抽出する過程と、
上記信号識別子を上記時間領域信号と関連付けてデータベース(40)に蓄積する過程とを含む方法。 - データベース時間領域信号を請求項1〜11の何れか1項に記載の方法により決定し、複数のデータベース時間領域信号の参照信号識別子からなるデータベース(40)を用いて、検索時間領域信号を参照する方法であって、
少なくとも1つの検索時間領域信号を提供する(41)過程と、
データベース時間領域信号を請求項1〜11の何れか1項に記載の方法により、検索時間領域信号から、検索信号識別子を抽出する(43)過程と、
複数の参照信号識別子と、上記検索信号識別子とを比較(46)し、当該比較に応答して、上記複数のデータベース時間領域信号に関して、検索時間領域信号についての記述を作成する過程とを含むことを特徴とする方法。 - 上記比較する(46)過程は、DNA配列決定アルゴリズム、及び/または、ボイヤー−ムーアアルゴリズムを用いて、実行されることを特徴とする請求項13に記載の方法。
- 調和成分を有する時間領域信号から、信号識別子を抽出する装置であって、
上記時間領域信号における信号エッジの発生時間を、ハフ変換を利用して検出する手段(12)と、
選択された2つの検出信号エッジの間の時間間隔を決定する手段(14)と、
上記の決定された時間間隔から周波数値を計算(16)し、当該周波数値と当該周波数値が発生する時間との座標組を得るために、上記周波数値と、上記時間領域信号における上記周波数値が発生する時間とを関連付ける手段と、
信号識別子が、上記時間領域信号の時間的推移を反映した信号識別子値の列を含むことにより、各々の座標組が周波数値と発生時間とを含む、複数の座標組から信号識別子を作成する(18)手段とを備えた装置。 - 複数の時間領域信号の参照信号識別子からデータベース(40)を作成する装置であって、
請求項1〜11の何れか1項に記載の方法により、複数の時間領域信号それぞれから信号識別子それぞれを抽出する手段と、
上記信号識別子を上記時間領域信号と関連付けてデータベース(40)に蓄積する手段とを備えた装置。 - データベース時間領域信号を請求項1〜11の何れか1項に記載の方法により決定し、複数のデータベース時間領域信号の参照信号識別子からなるデータベース(40)を用いて、検索時間領域信号を参照する装置であって、
少なくとも1つの検索時間領域信号を提供する(41)手段と、
データベース時間領域信号を請求項1〜11の何れか1項に記載の方法により、検索時間領域信号から、検索信号識別子を抽出する(43)手段と、
複数の参照信号識別子と、上記検索信号識別子とを比較(46)し、当該比較に応答して、上記複数のデータベース時間領域信号に関して、検索時間領域信号についての記述を作成する手段とを備えた装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10117871A DE10117871C1 (de) | 2001-04-10 | 2001-04-10 | Verfahren und Vorrichtung zum Extrahieren einer Signalkennung, Verfahren und Vorrichtung zum Erzeugen einer Datenbank aus Signalkennungen und Verfahren und Vorrichtung zum Referenzieren eines Such-Zeitsignals |
PCT/EP2002/002703 WO2002084539A2 (de) | 2001-04-10 | 2002-03-12 | Verfahren und vorrichtung zum extrahieren einer signalkennung, verfahren und vorrichtung zum erzeugen einer dazugehörigen databank |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2004531758A JP2004531758A (ja) | 2004-10-14 |
JP2004531758A5 true JP2004531758A5 (ja) | 2007-03-22 |
JP3934556B2 JP3934556B2 (ja) | 2007-06-20 |
Family
ID=7681083
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002582410A Expired - Lifetime JP3934556B2 (ja) | 2001-04-10 | 2002-03-12 | 信号識別子の抽出方法及びその装置、信号識別子からデータベースを作成する方法及びその装置、及び、検索時間領域信号を参照する方法及びその装置 |
Country Status (9)
Country | Link |
---|---|
US (1) | US20040158437A1 (ja) |
EP (1) | EP1377924B1 (ja) |
JP (1) | JP3934556B2 (ja) |
AT (1) | ATE277381T1 (ja) |
AU (1) | AU2002246109A1 (ja) |
CA (1) | CA2443202A1 (ja) |
DE (2) | DE10117871C1 (ja) |
HK (1) | HK1059492A1 (ja) |
WO (1) | WO2002084539A2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10232916B4 (de) * | 2002-07-19 | 2008-08-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Charakterisieren eines Informationssignals |
DE602005021047D1 (de) * | 2005-01-21 | 2010-06-17 | Unltd Media Gmbh | Vervahren zum Erzeugen eines Abdrucks eines Audiosignals |
DE102005030326B4 (de) * | 2005-06-29 | 2016-02-25 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung, Verfahren und Computerprogramm zur Analyse eines Audiosignals |
DE102005030327A1 (de) * | 2005-06-29 | 2007-01-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung, Verfahren und Computerprogramm zur Analyse eine Audiosignals |
WO2010135623A1 (en) * | 2009-05-21 | 2010-11-25 | Digimarc Corporation | Robust signatures derived from local nonlinear filters |
DE102017213510A1 (de) * | 2017-08-03 | 2019-02-07 | Robert Bosch Gmbh | Verfahren und Vorrichtung zum Erzeugen eines maschinellen Lernsystems, und virtuelle Sensorvorrichtung |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR772961A (fr) * | 1934-05-07 | 1934-11-09 | Procédé d'enregistrement de la musique jouée sur un instrument à clavier, et appareil basé sur ce procédé | |
US3069654A (en) * | 1960-03-25 | 1962-12-18 | Paul V C Hough | Method and means for recognizing complex patterns |
US3979557A (en) * | 1974-07-03 | 1976-09-07 | International Telephone And Telegraph Corporation | Speech processor system for pitch period extraction using prediction filters |
US4697209A (en) * | 1984-04-26 | 1987-09-29 | A. C. Nielsen Company | Methods and apparatus for automatically identifying programs viewed or recorded |
DE4324497A1 (de) * | 1992-07-23 | 1994-04-21 | Roman Koller | Verfahren und Anordnung zur ferngewirkten Schaltung eines Verbrauchers |
US5918223A (en) * | 1996-07-22 | 1999-06-29 | Muscle Fish | Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information |
JP2002514318A (ja) * | 1997-01-31 | 2002-05-14 | ティ―ネティックス,インコーポレイテッド | 録音された音声を検出するシステムおよび方法 |
DE19948974A1 (de) * | 1999-10-11 | 2001-04-12 | Nokia Mobile Phones Ltd | Verfahren zum Erkennen und Auswählen einer Tonfolge, insbesondere eines Musikstücks |
US6990453B2 (en) * | 2000-07-31 | 2006-01-24 | Landmark Digital Services Llc | System and methods for recognizing sound and music signals in high noise and distortion |
-
2001
- 2001-04-10 DE DE10117871A patent/DE10117871C1/de not_active Expired - Fee Related
-
2002
- 2002-03-12 WO PCT/EP2002/002703 patent/WO2002084539A2/de active IP Right Grant
- 2002-03-12 JP JP2002582410A patent/JP3934556B2/ja not_active Expired - Lifetime
- 2002-03-12 DE DE50201116T patent/DE50201116D1/de not_active Expired - Lifetime
- 2002-03-12 AT AT02714186T patent/ATE277381T1/de active
- 2002-03-12 US US10/473,801 patent/US20040158437A1/en not_active Abandoned
- 2002-03-12 AU AU2002246109A patent/AU2002246109A1/en not_active Abandoned
- 2002-03-12 CA CA002443202A patent/CA2443202A1/en not_active Abandoned
- 2002-03-12 EP EP02714186A patent/EP1377924B1/de not_active Expired - Lifetime
-
2004
- 2004-04-02 HK HK04102412A patent/HK1059492A1/xx not_active IP Right Cessation
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rigaud et al. | Singing Voice Melody Transcription Using Deep Neural Networks. | |
US7064262B2 (en) | Method for converting a music signal into a note-based description and for referencing a music signal in a data bank | |
Typke | Music retrieval based on melodic similarity | |
Hung et al. | Frame-level instrument recognition by timbre and pitch | |
Yang | Music database retrieval based on spectral similarity | |
Marolt | A mid-level representation for melody-based retrieval in audio collections | |
Casey et al. | The importance of sequences in musical similarity | |
KR20080054393A (ko) | 음악 분석 | |
JP2010054802A (ja) | 音楽音響信号からの単位リズムパターン抽出法、該方法を用いた楽曲構造の推定法、及び、音楽音響信号中の打楽器パターンの置換法 | |
Yu et al. | Sparse cepstral codes and power scale for instrument identification | |
Paiva et al. | On the Detection of Melody Notes in Polyphonic Audio. | |
Heydarian | Automatic recognition of Persian musical modes in audio musical signals | |
JP3934556B2 (ja) | 信号識別子の抽出方法及びその装置、信号識別子からデータベースを作成する方法及びその装置、及び、検索時間領域信号を参照する方法及びその装置 | |
JP2004531758A5 (ja) | ||
Gao et al. | Vocal melody extraction via DNN-based pitch estimation and salience-based pitch refinement | |
Zhu et al. | Musical genre classification by instrumental features | |
Eronen | Signal processing methods for audio classification and music content analysis | |
Noland et al. | Influences of signal processing, tone profiles, and chord progressions on a model for estimating the musical key from audio | |
Waghmare et al. | Raga identification techniques for classifying indian classical music: A survey | |
Cherla et al. | Automatic phrase continuation from guitar and bass guitar melodies | |
Salamon et al. | A chroma-based salience function for melody and bass line estimation from music audio signals | |
Duggan | Machine annotation of traditional Irish dance music | |
Zhang | Music Data Feature Analysis and Extraction Algorithm Based on Music Melody Contour | |
Shelke et al. | An Effective Feature Calculation For Analysis & Classification of Indian Musical Instruments Using Timbre Measurement | |
Kharat et al. | A survey on query by singing/humming |