Nothing Special   »   [go: up one dir, main page]

JP3537727B2 - 信号検出方法、信号の検索方法及び認識方法並びに記録媒体 - Google Patents

信号検出方法、信号の検索方法及び認識方法並びに記録媒体

Info

Publication number
JP3537727B2
JP3537727B2 JP2000056356A JP2000056356A JP3537727B2 JP 3537727 B2 JP3537727 B2 JP 3537727B2 JP 2000056356 A JP2000056356 A JP 2000056356A JP 2000056356 A JP2000056356 A JP 2000056356A JP 3537727 B2 JP3537727 B2 JP 3537727B2
Authority
JP
Japan
Prior art keywords
signal
similarity
window
calculating
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2000056356A
Other languages
English (en)
Other versions
JP2001242880A (ja
Inventor
邦夫 柏野
隆行 黒住
洋 村瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2000056356A priority Critical patent/JP3537727B2/ja
Publication of JP2001242880A publication Critical patent/JP2001242880A/ja
Application granted granted Critical
Publication of JP3537727B2 publication Critical patent/JP3537727B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、信号系列の中から
特定の信号に類似する信号を探し出す信号検出方法に係
り、例えば音響信号検出や映像信号検出等、広く一般の
信号検出に応用することができ、インターネット上での
音楽や映像の使用管理等にも利用することができる信号
検出技術に関する。又、本発明は、音声や映像等の検索
装置及び認識装置で実行される信号の検索方法及び認識
方法にも関する。
【0002】
【従来の技術】信号系列の中から所定の信号を検出する
従来の技術においては、処理対象とする入力信号を予め
登録した参照信号と照合することが行われている。例え
ば、特願平11−130630号に開示されている高速
信号探索方法では、入力信号と予め登録された参照信号
をそれぞれの特徴量系列によって比較し、参照信号に類
似する信号がある入力信号中の位置を探し出すこととし
ている。
【0003】又、音声認識においては、認識すべき音声
を予め特定し、その音声信号と供給される音声信号との
比較をする。このため、認識すべき種々の音声の音声信
号を予め保持している必要があり、現在の音声認識装置
は、それらの音声信号を製造時に予め内蔵の辞書に登録
することとしている。
【0004】
【発明が解決しようとする課題】ところで、上述したよ
うな従来の信号検出技術では、予め登録された参照信号
の全体を入力信号との比較に用いている。すなわち、参
照信号の全体が入力信号中に含まれていることを前提と
して照合を行っている。このため、参照信号の一部のみ
が入力信号中に含まれている場合には、これを検出でき
ないことが多いという問題がある。例えば、インターネ
ット上での楽曲の使用をチェックするような場合には、
その楽曲中の任意の一部分のみが使用されることも想定
されるので、使用される部分を事前に定めて参照信号を
登録することが困難であり、上記従来の信号検出技術で
は適切な楽曲信号の検出を行うことは困難となる。
【0005】この問題を解決する手法としては、参照信
号を人手等によって予め複数の区間に区分しておき、そ
れらの区間の信号をそれぞれ参照信号として入力信号と
順次照合することにより、もとの参照信号の一部である
各区間の信号を検出することが考えられる。しかし、参
照信号を区分する区間の定め方は一義的に決定できず、
その都度適切な区間を詮索しなければならない。このた
め、区分の仕方によっては検出もれを起こしたり、ある
いは無駄な照合計算を必要としたりすることになり、効
率的な信号検出は期待し難い。
【0006】一方、音声認識については、音声認識装置
が予め認識すべき音声を登録しておくことを必要とする
のに対し、ニュース番組等の一般的なテレビジョン放送
等では時事関連用語や人名等、装置製造時に予め登録し
ておくことは困難な言葉の音声が頻繁に出現する。この
ため、音声認識においては、かかる言葉の音声が認識の
妨げになるという問題が生じている。
【0007】本発明は、このような従来における問題を
解決するためになされたもので、予め特定した信号が部
分的に含まれている信号を効率良く検出することができ
る信号検出技術を提供することを目的としている。
【0008】又、本発明は、かかる信号検出技術を利用
して音声検索ないし音声認識等で対象とする音声等の信
号を自動的に学習することを可能とし、種々の信号を容
易に検索ないし認識することのできる技術を提供するこ
とを目的としている。
【0009】
【課題を解決するための手段】請求項1記載の発明は、
予め登録した参照信号から特徴量系列を導く参照特徴量
計算過程と、入力信号から特徴量系列を導く入力特徴量
計算過程と、前記参照特徴量計算過程で導かれた特徴量
系列の一部と、前記入力特徴量計算過程で導かれた特徴
量系列の一部とに対し、それぞれ注目窓を設定する注目
窓設定過程と、前記参照特徴量計算過程及び前記入力特
徴量計算過程で導かれたそれぞれの特徴量系列のうち、
前記注目窓設定過程で設定されたそれぞれの注目窓内に
ある特徴量について類似度を計算する類似度計算過程
と、前記類似度計算過程で計算された類似度に基づいて
前記注目窓のスキップ幅を計算し、前記注目窓設定過程
を次に行う際の前記注目窓それぞれの設定位置を定める
スキップ幅計算過程とを備え、前記注目窓設定過程、前
記類似度計算過程及び前記スキップ幅計算過程による処
理を繰り返し、前記類似度計算過程で計算された類似度
と予め設定した目標とする類似度とを比較することによ
り、前記参照信号と前記入力信号とにおける当該類似度
が計算された前記注目窓のそれぞれの設定箇所が類似し
ているかどうかを決定し、前記参照信号の一部区間に類
似する前記入力信号中の部分を探し出すことを特徴とし
ている。
【0010】請求項2記載の発明は、請求項1記載の信
号検出方法において、前記類似度計算過程は、特徴量系
列に対してヒストグラムを作成し、該ヒストグラムに基
づいて類似度を計算することを特徴としている。
【0011】請求項3記載の発明は、請求項1又は2に
記載の信号検出方法において、前記スキップ幅計算過程
は、前記類似度計算過程で計算された類似度に基づき、
前記参照信号及び前記入力信号に対するそれぞれの注目
窓を現在位置の近傍で移動させたときの類似度の上限値
から前記スキップ幅を計算することを特徴としている。
【0012】請求項4記載の発明は、請求項1〜3のい
ずれかの項に記載の信号検出方法において、前記スキッ
プ幅計算過程は、計算した前記スキップ幅を満たす前記
注目窓の位置のいずれかを、前記注目窓設定過程を次に
行う際の前記注目窓それぞれの設定位置として定めるこ
とを特徴としている。
【0013】請求項5記載の発明は、検索の対象とする
信号を登録しておき、供給される処理対象信号から該登
録した信号を検索する方法であって、請求項1〜4のい
ずれかの項に記載の信号検出方法を用いて、検索の対象
となり得る信号を学習又は蓄積し、前記検索の対象とす
る信号として用いることを特徴としている。
【0014】請求項6記載の発明は、認識の対象とする
信号を登録しておき、供給される処理対象信号における
該登録した信号を認識する方法であって、請求項1〜4
のいずれかの項に記載の信号検出方法を用いて、認識の
対象となり得る信号を学習又は蓄積し、前記認識の対象
とする信号として用いることを特徴としている。
【0015】請求項7記載の発明は、請求項1〜4のい
ずれかの項に記載の信号検出方法、請求項5に記載の信
号の検索方法又は請求項6に記載の信号の認識方法を、
コンピュータを用いて実行する際に、該コンピュータで
実行されるプログラムを記録したコンピュータ読み取り
可能な記録媒体である。
【0016】特に、本発明は、先に挙げた先願(特願平
11−130630号)に係る方法とは異なり、注目窓
設定過程において、新たに参照信号に対しても、その一
部にのみ注目するような注目窓の設定を行い、スキップ
幅計算過程において、入力信号と参照信号の双方に対し
て注目窓の設定位置を計算する機能を持たせた、という
点を要旨とする。そして、このような特異な構成によ
り、参照信号として与える信号の一部のみが入力信号に
含まれている場合にも、その一部の信号を検出すること
を可能としている。
【0017】
【発明の実施の形態】<基本形態>以下、図面を参照し
て本発明の実施の形態について説明する。図1は、本発
明の一実施形態による信号検出方法を適用した部分信号
検出装置の構成を示すブロック図である。本部分信号検
出装置は音響信号を対象とするものであり、以下におい
ては主として音響信号を対象とする信号検出処理につい
て説明することにする。但し、音響信号は処理対象信号
の一例に過ぎず、本部分信号検出装置と同様の構成によ
り、種々の時系列信号等(音声の音響信号や動画の映像
信号等)、広く一般の信号を対象として同様に信号検出
処理を行うことが可能である。
【0018】本部分信号検出装置は、参照特徴量計算手
段1と、入力特徴量計算手段2と、注目窓設定手段3
と、類似度計算手段4と、スキップ幅計算手段5とによ
って構成されている。そして、予め登録した参照信号と
順次供給される入力信号とを入力とし、参照信号のある
一部分との類似度が予め設定した値(以下、これを「探
索閾値」といい、θで表す)を上回る入力信号中の箇所
と参照信号中の当該一部分の箇所とを信号検出結果とし
て出力する。ここで、参照信号とは、見本とする検出し
たい信号(探索目標とする音声等の信号)をその一部と
して含む音響信号であり、所定の記憶手段等に予め登録
して与えておく。一方、入力信号は、探索処理の対象と
する音声等の音響信号であり、テレビジョン放送やイン
ターネット、音声再生機等の種々の手段によって生成さ
れる音響信号を用いることができる。
【0019】参照特徴量計算手段1は、参照信号から特
徴量系列を導き、注目窓設定手段3へ供給する。入力特
徴量計算手段2は、入力信号から特徴量系列を導き、注
目窓設定手段3へ供給する。ここにいう特徴量としては
種々のものを用いることができるが、本実施形態ではそ
の一例として音響信号のスペクトル特徴を用いることに
する。尚、映像信号を対象とする場合にあっては、色特
徴等の映像特徴を用いることとしてその系列を参照特徴
量計算手段1と入力特徴量計算手段2でそれぞれ抽出
し、以下に述べるのと同様の処理を行うこととすれば、
本部分信号検出装置によって映像信号の探索をすること
も可能となる。
【0020】注目窓設定手段3は、参照特徴量計算手段
1で導かれた参照信号の特徴量系列の一部と、入力特徴
量計算手段2で導かれた入力信号の特徴量系列の一部と
に対し、それぞれ所定の注目窓を設定する(以下、これ
らの注目窓をそれぞれ「参照注目窓」、「入力注目窓」
という。)。ここでの注目窓設定はスキップ幅計算手段
5から供給される各注目窓の先頭位置に基づいて行い、
注目窓設定手段3は、設定した参照注目窓内にある参照
信号の特徴量系列と、入力注目窓内にある入力信号の特
徴量系列とをそれぞれ類似度計算手段4へ供給する。
【0021】類似度計算手段4は、参照特徴量計算手段
1と入力特徴量計算手段2から供給される特徴量系列の
うち、注目窓設定手段3で設定されたそれぞれの注目窓
内にある特徴量について類似度を計算する。そして、計
算した類似度が探索閾値θより大きいかどうかを判定す
ることにより、現在設定されている参照注目窓内の特徴
量系列が現在設定されている入力注目窓の位置に存在す
るかどうかを決定し、存在する場合には当該参照注目窓
の位置と当該入力注目窓の位置を信号検出結果として出
力する。又、類似度計算手段4は、計算した類似度をス
キップ幅計算手段5へ供給する。
【0022】スキップ幅計算手段5は、各注目窓を現在
位置の近傍で移動させたときの類似度の上限値から各注
目窓のスキップ幅を計算する。すなわち、類似度計算手
段4からの類似度に基づき、各注目窓を移動させたとき
の類似度が探索閾値θを越えない範囲を求めて各注目窓
をスキップできる幅を計算し、その幅に基づいて次に照
合(類似値計算や探索閾値との比較判定等)を行うべき
各注目窓の先頭位置を定めて注目窓設定手段3へ供給す
る。これにより、次の検索段階での参照注目窓と入力注
目窓の設定位置が定められ、それらの注目窓内にある参
照信号及び入力信号の特徴量系列の一部がそれぞれ注目
窓設定手段3から類似度計算手段4へ供給されて各手段
での処理が上記同様に繰り返される。
【0023】このようにして注目窓設定手段3からスキ
ップ幅計算手段5による処理を繰り返し、入力信号のい
くつかの箇所について、参照信号のいくつかの箇所との
類似度を計算し、計算された類似度と予め設定した目標
とする類似度とを比較することにより、参照信号の当該
箇所と入力信号の当該箇所とが類似しているかどうかを
決定する。これにより、入力信号から予め登録した参照
信号の一部区間に類似した部分を探し出す。
【0024】<具体的形態>次に、上述した参照特徴量
計算手段1〜スキップ幅計算手段5における処理を更に
具体的に説明し、その処理原理を明らかにする(処理原
理についてはその説明のための具体例を図2に示し、適
宜これを参照する。)。
【0025】参照特徴量計算手段1では、はじめに、与
えられた参照信号を読み込む。次に、読み込んだ参照信
号に対して特徴抽出を行う。本実施形態では、その特徴
としてスペクトル特徴を用いるので、ここでの特徴抽出
は、例えば帯域通過フィルタによって行うことができ
る。
【0026】かかる特徴抽出の具体例を挙げるとすれ
ば、例えば、テレビジョン放送やインターネット等で提
供される音声信号から15秒程度の特定の音響信号を探
索したい場合、特徴抽出の具体的な設定を次のようにす
ると良い結果が得られる。すなわち、7個の帯域通過フ
ィルタを用いることとし、それらの中心周波数を対数軸
上で等間隔に設定する。そして、参照信号に対して60
ミリ秒程度の時間長の分析窓を設定し、その分析窓を1
0ミリ秒ずつ移動させながら分析窓内の各帯域通過フィ
ルタの出力の自乗の平均値を計算し、得られた7個の平
均値を一組にして7次元特徴ベクトルとする。この場
合、特徴ベクトルは、分析窓を移動させる10ミリ秒ご
とに1つずつ得られる。参照特徴量計算手段1において
は、このようにして参照信号の各周波数帯域の成分を要
素とする特徴ベクトルが時系列的に順次得られ、これら
が参照信号の特徴量系列として注目窓設定手段3へ出力
されることになる。
【0027】尚、本部分信号検出装置は、上述したよう
に映像特徴を用いることにより映像の探索にも利用する
ことができる。この場合には、映像の1フレームの画像
を横4等分、縦3等分して計12の領域に分割し、それ
ぞれの分割領域内でのRGB値を特徴として計36次元
の特徴ベクトルで表される映像特徴を用いることとすれ
ば良い結果が得られる。
【0028】一方、入力特徴量計算手段2では、はじめ
に、検索対象の音響信号を入力信号として読み込む。次
に、読み込んだ入力信号に対して特徴抽出を行う。ここ
での特徴抽出は、前記参照特徴量計算手段1において行
ったのと同様の操作を入力信号に対して施すことによっ
て行う。
【0029】すなわち、上記具体例の場合であれば、上
記同様に中心周波数を設定した7個の帯域通過フィルタ
を用い、入力信号に対して60ミリ秒程度の時間長の分
析窓を設定して、その分析窓を10ミリ秒ずつ移動させ
ながら分析窓内の各帯域通過フィルタの出力の自乗の平
均値を計算し、得られた7個の平均値を一組にして7次
元特徴ベクトルとする。尚、この場合も特徴ベクトルは
10ミリ秒ごとに1つずつ得られる。入力特徴量計算手
段2においては、このようにして入力信号の各周波数帯
域の成分を要素とするスペクトル特徴の特徴ベクトルが
時系列的に順次得られ、これらが入力信号の特徴量系列
として注目窓設定手段3へ出力されることになる。
【0030】注目窓設定手段3では、はじめに、参照特
徴量計算手段1と入力特徴量計算手段2からそれぞれ出
力される特徴ベクトルの系列を読み込む。続いて、参照
信号と入力信号の特徴ベクトルの系列に対して、それぞ
れ注目窓を設定する。本実施形態では、ここで設定する
注目窓の長さをDとする。この注目窓長Dは、特徴ベク
トル系列の時間軸上における長さであるが、便宜上、そ
の長さに対応する(その長さの時間中に含まれる)特徴
ベクトルの個数で与えるものとし、参照信号全体のうち
の一部のみを含む一定の時間長に対応する特徴ベクトル
の個数を注目窓長Dとする。
【0031】すなわち、参照信号の特徴ベクトル系列に
対する参照注目窓は、参照信号の特徴ベクトル系列先頭
からm番目の特徴ベクトル以後にあるD個の特徴ベクト
ル(m番目〜(m+D−1)番目の特徴ベクトル)を含
むものとなる。又、入力信号の特徴ベクトル系列に対す
る入力注目窓は、入力信号の特徴ベクトル系列先頭から
n番目の特徴ベクトル以後にあるD個の特徴ベクトル
(n番目〜(n+D−1)番目の特徴ベクトル)を含む
ものとなる。ここで、各注目窓の先頭位置を指定するm
及びnの値は、スキップ幅計算手段5から供給される
(詳細は後述)。このような参照注目窓と入力注目窓が
注目窓設定手段3にて設定され、参照信号と入力信号の
それぞれの注目窓内にある特徴ベクトルが類似度計算手
段4へ出力される。
【0032】類似度計算手段4では、はじめに、注目窓
設定手段3から出力された、参照信号と入力信号の双方
についての注目窓内の特徴ベクトルを読み込む。次に、
それら注目窓内の特徴ベクトルから、特徴ベクトルのヒ
ストグラムを作成する。
【0033】このヒストグラムは、特徴ベクトルの各要
素の値をいくつかのビン(区間)に分割することによっ
て作成する。例えば、各要素を3つの区間に分割し、各
特徴ベクトルの要素数が7であるとすれば、7個の要素
それぞれについて3通りの区間の組み合わせがあること
になるので、全体のビン数、すなわちヒストグラムの横
軸に配置される区間の数は3の7乗となる。従って、こ
のようにヒストグラムの横軸を設定する場合には、各特
徴ベクトルは、この3の7乗個の区間のうちのどれか一
つに分類されることとなる。
【0034】類似度計算手段4は、それぞれの区間に分
類される特徴ベクトルの個数を数えることにより、注目
窓設定手段3から受けた参照注目窓内の特徴ベクトル、
入力注目窓内の特徴ベクトルからそれぞれ参照信号につ
いてのヒストグラム、入力信号についてのヒストグラム
を作成する。ここで、参照信号についてのヒストグラム
をHR、入力信号についてのヒストグラムをHIとする。
ただし、R、Iはそれぞれヒストグラムが参照信号の特
徴ベクトル、入力信号の特徴ベクトルから作られたもの
であることを表す。
【0035】続いて類似度計算手段4は、参照信号のヒ
ストグラムHRと入力信号のヒストグラムHIとの類似度
を計算する。この場合の類似度としては様々な定義が可
能であるが、ここではその一例としてヒストグラムの重
なり率を用いることとし、ヒストグラムHRとヒストグ
ラムHIとの類似度SRIを次のように定義する。
【0036】
【数1】
【0037】ここで、Lはヒストグラムのビンの総数
(上記の例では3の7乗)であり、h Rl、hIlは、それ
ぞれヒストグラムHR、HIのl番目のビンに含まれる特
徴ベクトルの数(度数)を表す。又、Dはヒストグラム
の総度数であり、参照信号ないし入力信号から導かれた
特徴ベクトルのうちで一つの注目窓内に含まれるものの
総数に相当し、上記注目窓長Dがこれに当たるものとな
る。
【0038】類似度計算手段4は、上記数1によって類
似度SRIの値を計算し、スキップ幅計算手段5に対して
出力する。これに加え、類似度計算手段4は、計算した
類似度SRIの値を予め設定してある探索閾値θと比較す
る。このとき、類似度SRIが探索閾値θを越えていれ
ば、それは、現在設定されている参照注目窓及び入力注
目窓の位置において参照信号と入力信号とがよく類似し
ていることを意味する。そこで、類似度SRIが探索閾値
θを越えている場合には、信号検出結果として、参照信
号に対する参照注目窓の現在位置と、入力信号に対する
入力注目窓の現在位置とを出力する(それぞれの信号中
の先頭からの時間ないし時刻を出力する。)。
【0039】スキップ幅計算手段5では、はじめに、類
似度計算手段4から出力された、類似度SRIを読み込
む。次に、参照信号に対する参照注目窓のスキップ幅w
Rと入力信号に対する入力注目窓のスキップ幅wIを計算
する。
【0040】ここで、w=wR+wIなる総スキップ可能
幅wを考える。今、注目窓長を時間長に対応する特徴ベ
クトルの個数で与えているので、スキップ幅wR及びwI
並びに総スキップ可能幅wも単位を特徴ベクトルの個数
として表すものとすると、総スキップ可能幅wは次式で
求められる。
【0041】
【数2】
【0042】数2中、floor(・)は切り下げを表す。
又、Dは上記注目窓長すなわち照合区間の長さであり、
θは予め設定してある上述の探索閾値である。
【0043】数2は、現時点でSRI<θならば、参照注
目窓と入力注目窓を合わせて特徴ベクトルw−1個分だ
けずらしても類似度SRIは決して探索閾値θを越えない
ことを意味している。これは、両注目窓をそれぞれずら
したとき、各注目窓の外に出ていく特徴ベクトルが全て
ヒストグラムの重なりに寄与していないものであり、か
つ、各注目窓の中に入ってくる特徴ベクトルが全てヒス
トグラムの重なりに寄与するものである場合(類似度が
最も早く探索閾値に達する場合)を考えれば、容易に理
解される。すなわち、かかる場合に類似度が最も増加す
るので、その場合を想定すると、参照注目窓と入力注目
窓を合わせて特徴ベクトルw−1個分だけずらしたとき
の類似度SRIの上限値が探索閾値θとなる。このことか
ら、SRI<θの場合にあっては、類似度SRIが探索閾値
θを越える可能性がでてくる特徴ベクトルw個分のスキ
ップ幅を総スキップ可能幅とするのである。尚、現時点
でSRI≧θならば、類似度のローカルピークを見い出す
ためにw=1(全検索)とする。
【0044】以上のことから、まず、参照信号の先頭か
らの特徴ベクトル番号m(参照信号中の時間位置に相
当)と入力信号の先頭からの特徴ベクトル番号n(入力
信号中の時間位置に相当)を座標軸とするm−n平面上
にスキップ幅wRとwIの関係を表すと、上記総スキップ
可能幅wの制約のもとでスキップ幅wRとwIが取り得る
値の範囲は、現在の注目窓位置(m,n)を中心とし、
対角線の長さが2wの正方形を形成することになる。そ
して、その正方形の内部の(辺上を含まない)領域で
は、類似度SRIの値が探索閾値θを越えることがないこ
とが保証されるので、次の注目窓位置はこの領域外に設
定すればよい。これが本部分信号検出装置における信号
探索の処理原理であり、これに基づいて注目窓の位置を
逐次設定し、類似度SRIを計算していく。
【0045】尚、上記正方形の内部で構成される領域に
ついては、類似度SRIが探索閾値θを越えないという評
価が既になされていることになるので、以下、この領域
を「既評価領域」と呼ぶ。これに対し、それ以外の領
域、すなわち、現時点までに類似度SRIの値が探索閾値
θを越えることがないかどうか明らかになっていない領
域を「未評価領域」と呼ぶことにする。参照信号、入力
信号のそれぞれの特徴ベクトル総数から注目窓長Dを引
いた値をM、Nとすると、既評価領域でM×Nの探索空
間を埋め尽くせば探索は完了する。ここに、値M、N
は、それぞれ参照信号、入力信号の時間長から注目窓の
時間長を引いた時間に対応し、M≧0かつN≧0であ
る。
【0046】図2は、上記原理に基づく本部分信号検出
装置による処理形態を、従来の技術として先に挙げた先
願(特願平11−130630号)に係る方法による処
理形態と比較して示した図である。この図においては、
上段が同先願の方法による処理形態、下段が本部分信号
検出装置による処理形態を表し、それぞれの処理形態は
上記m−n平面上で実際に照合を行うベき点に当たる箇
所を網掛け表示することによって示してある(以下、こ
のような点を「活性点」(active point)と呼ぶことに
する。尚、図示のm−n平面は、いずれも探索の途中段
階におけるものである。)。但し、m−n平面上の点
は、m、nが特徴ベクトル番号(整数)であることから
マトリクス状の正方形小領域で表してあり、座標(m,
n)に対応する点(正方形小領域)は、参照注目窓の先
頭位置をm番目の特徴ベクトル、入力注目窓の先頭位置
をn番目の特徴ベクトルとして照合を行う場合に対応し
ている。
【0047】上段の先願方法による処理では、参照信号
に対する注目窓の位置を少しずつ変えながらその信号探
索を反復している。すなわち、上記先願においては、参
照信号の一部分に対してのみ注目窓を設定し、かつ、そ
のスキップ幅(次の照合の先頭位置)を指定するという
ことは開示されていないので、その開示方法で参照信号
中の部分的な信号を検出するためには、参照信号全体を
含んでいる注目窓の位置を少しずつ変えながら信号探索
を反復実行するしかない(供給する前の参照信号自体を
分割して信号探索を繰り返すことも考えられるが、それ
では最初の特徴量計算を含むすべての処理を繰り返す必
要があるので比較対照として適切でない。)。このた
め、本部分信号検出装置における参照注目窓に対応する
参照信号用の注目窓の先頭位置は、図中m軸上の活性点
で示されているように、参照信号の特徴ベクトル系列先
頭から順に特徴ベクトル1つずつの位置に設定していく
ことになる(従って、参照信号については、結局、すべ
ての特徴ベクトル位置で探索を行うことになる。)。そ
して、それらの参照信号用注目窓の各位置毎に、入力信
号用の注目窓のスキップ幅を計算しつつ図中n軸方向に
示されているように照合を行っていくことになる。尚、
図示はしていないが、全探索は全ての点を活性点とする
処理形態に相当し、照合回数はM×N回となる。
【0048】これに対し、下段の本部分信号検出装置に
よる処理では、参照信号の一部分のみに対する参照注目
窓と入力注目窓を用い、上述したように順次既評価領域
を求めてそれ以外の未評価領域に各注目窓の位置を設定
していく。図中の点線は、この場合における既評価領域
と未評価領域との境界を示すものであり、本部分信号検
出装置は、これを順次求めることによってm軸方向とn
軸方向の双方における照合を要しない点を排除し、図示
のように先願方法よりも効率良く必要最小限の活性点を
求めている(以下、このような既評価領域と未評価領域
との境界を「活性エッジ」(active edge)と呼ぶこと
にする。)。そして、このように活性点の数は少ないも
のの、参照信号の特徴ベクトル系列の一部分のみを含む
注目窓を参照信号と入力信号の双方の特徴ベクトル系列
に対してそれぞれ設定しているので、参照信号中の一部
の信号のみが含まれている入力信号中の箇所も適切に検
出され、検出もれを防ぐことができるものとなってい
る。
【0049】かかる本部分信号検出装置における処理
は、類似度計算手段4で順次計算される類似度SRIに基
づく活性点から次に照合を行うべき活性点を定め、その
活性点に各注目窓を設定することを繰り返すことによっ
て実現されるが、この場合の活性点の定め方につき、本
実施形態においては、次のようなアルゴリズムをスキッ
プ幅計算手段5での処理に用いている。
【0050】1.初期活性点P0=(0,0)とする
(参照注目窓、入力注目窓のそれぞれの先頭位置を参照
信号、入力信号のそれぞれの特徴ベクトル系列先頭に設
定する。)。 2.既存の活性点からn座標値が最も小さいものを選
び、その点に参照注目窓と入力注目窓の先頭位置を設定
して照合を行い、既評価領域を更新して新たに作られる
活性エッジを求める。 3.上記2.で求めた活性エッジと、既存の活性エッジ
又は直線m=0、n=0、m=M−1若しくはn=N−
1との交点を新たな活性点とする。 4.更新された既評価領域内に入った既存の活性点を消
去する。また、既存の活性エッジを更新する。 5.消去されていない活性点で未だ照合を行っていない
ものが無くなれば終了。まだあれば上記2.へ戻る。
【0051】このアルゴリズムでは、上記2.のステッ
プでnの値が小さい活性点から照合を行うこととしてい
る。次に照合を行うべき活性点をこのようにして定める
場合には、照合結果により新たに活性エッジを形成する
正方形の上半分の2辺のみが既存の活性エッジと交わる
ことになるので、それら2辺についてのみ交点を調べれ
は良い(この様子は図2にも示されている。)。
【0052】スキップ幅計算手段5では、以上のような
原理に基づいて次に設定すべき参照注目窓と入力注目窓
の先頭位置(m,n)が求められ、その先頭位置(m,
n)が注目窓設定手段3へ出力される。これにより、注
目窓設定手段3では、そのスキップ幅計算手段5から出
力された先頭位置(m,n)に、参照信号に対する参照
注目窓と入力信号に対する入力注目窓をそれぞれずら
し、注目窓設定手段3、類似度計算手段4及びスキップ
幅計算手段5での処理が上記同様に繰り返される。そし
て、nの値が入力信号の特徴ベクトル系列の終端を越え
たならば、入力信号のすべてを探索したことになるの
で、これをスキップ幅計算手段5ないし注目窓設定手段
3で検知し、本部分信号検出装置による信号検出処理を
終了させる。
【0053】<実験例>次に、本部分信号検出装置の動
作実験例について説明する。本部分信号検出装置で実行
される信号検出方法の効果を確認するため、テレビジョ
ン放送を録画した6時間分の同一の音響信号を入力信号
と参照信号の双方として用いて、全探索による反復照合
探索、上記先願の方法による反復照合探索、及び本部分
信号検出装置による探索の3通りの手法で照合回数を比
較する実験を行った。但し、ここにいう照合回数として
は、計算した類似度が探索閾値以下の値であった場合と
探索閾値を越える値であった場合の両方をカウントし
た。
【0054】本部分信号検出装置においては、特徴ベク
トルの作成方法やその分類のアルゴリズムを目的に応じ
て種々の形態に変更可能であるが、本実験では、上記<
具体的形態>で説明したように、参照特徴量計算手段1
及び入力特徴量計算手段2での特徴ベクトルの作成には
7チャンネルの帯域フィルタバンクを用い、類似度計算
手段4での特徴ベクトルの分類には次元毎の量子化の組
合せによる特徴分類手法を用いた。又、照合区間(注目
窓長D)の長さは15秒相当、探索閾値θは0.8とし
た。
【0055】本実験では、特徴ベクトルは各信号に対し
て10ミリ秒毎に生成するものとし、すべての手法にお
いて注目窓(時間窓)移動の最小刻み幅を特徴ベクトル
10個分とした。従って、最小0.1秒刻みで注目窓を
動かしたことになる。尚、入力信号と参照信号が同一で
あることは未知としてm−n平面全体を探索対象とし
た。
【0056】本実験の結果を図3に示す。(3)の本部
分信号検出装置による探索では、(1)の全探索による
反復照合探索及び(2)の先願方法による反復照合探索
に比較して照合回数が大幅に削減されており、特に、
(2)の手法に比較して1/10以下にまで削減されて
いる点が注目される。この本部分信号検出装置による照
合回数の削減効果は、注目窓長Dの値が大きいほど顕著
になり、又、注目窓移動の最小刻み幅が小さいほど顕著
になる(注目窓長を大きくしたり、或いは、注目窓移動
の最小刻み幅を小さくしたりすることにより、照合回数
の削減効果を高めることができる。)。このように照合
回数が少ない本部分信号検出装置によれば、その照合回
数が少ない分だけ探索の計算コストを減少させることが
でき、効率良く信号検出を行うことが可能である。
【0057】以上、説明したように、本部分信号検出装
置は、新たに参照信号に対しても注目窓の設定を行い、
入力信号と参照信号の双方に対して、検出もれを防ぎな
がら検出効率を高めるように注目窓を設定する機能を持
っている。従って、本部分信号検出装置によれば、入力
信号に含まれている参照信号の一部を検出したい場合で
あっても、従来の手法に比較してより効率的な部分信号
検出を行うことができるという利点がある。
【0058】<応用例>本部分信号検出装置で実行され
る上述の信号検出方法は、インターネット上での音楽の
使用を適正に管理する目的で、その音楽の使用チェック
をする場合にも利用することができる。すなわち、使用
チェックをしようとする対象楽曲の音響信号を上記参照
信号として予め登録しておけば、それに基づいてインタ
ーネット上の音響信号ファイルを検索することにより、
当該対象楽曲の一部が含まれているインターネット上の
音響信号ファイルを検出することが可能である。更に、
上述の信号検出方法は、同様にしてインターネット上で
の映像使用の管理などを目的とした映像信号の検出にも
応用できるほか、広く一般の信号ないしファイルの検出
にも応用できる。
【0059】又、上述の信号検出方法は、信号の検索方
法及び認識方法における対象信号の学習や蓄積にも利用
することができ、例えば音声認識装置にも利用すること
ができる。現在の音声認識装置は、予め認識対象とする
音声を辞書に登録しておく必要があるが、ニュース番組
等の一般的なテレビジョン放送等における音声認識で
は、時事関連用語や人名等、装置製造時に予め登録して
おくことが困難な音声信号が頻繁に出現するため、かか
る言葉の音声が認識の妨げになっている。そこで、上述
の信号検出方法によって音声信号中に反復して出現する
信号を抽出し(テレビジョン放送等の音声信号を対象と
して上記探索処理を行い、認識対象となり得る繰り返し
出現する部分的な信号を検出し)、それを辞書に登録し
て新たに認識対象の音声信号とする。これにより、認識
対象信号を自動的に適宜学習し、時事関連用語等の製造
時登録が困難な音声信号を新たに随時蓄積していくこと
ができ、処理対象として供給される音声信号から適切な
音声認識を容易に行うことができるようになる。更に、
音声検索装置においても同様に、上述の信号検出方法を
利用して自動的に反復して出現するパターンを予め抽出
しておき、検索対象信号を自動的に登録して適宜学習な
いし蓄積することにより、検索速度を向上させることが
可能である。
【0060】尚、本信号検出方法による処理は、その手
順を規定したプログラムをコンピュータ読み取り可能な
記録媒体に記録し、その記録媒体に記録されたプログラ
ムをコンピュータシステムに読み込ませて実行すること
としてもよい。尚、ここにいうコンピュータシステムと
は、OSや周辺機器等のハードウェアを必要に応じて含
み、WWWシステムを利用しているものにあってはホー
ムページ提供環境(あるいは表示環境)も含む。又、コ
ンピュータ読み取り可能な記録媒体は、フロッピー(登
録商標)ディスク、光磁気ディスク、ROM、CD−R
OM等の可搬媒体、コンピュータシステムに内蔵される
ハードディスクなどのいずれの記憶装置でもよく、更に
は、インターネット等のネットワークや電話回線等の通
信回線を介してプログラムを送信する場合の通信線のよ
うに、短時間の間動的にプログラムを保持するもの(伝
送媒体ないしは伝送波)や、その場合のサーバやクライ
アントとなるコンピュータシステム内部の揮発性メモリ
のように、一定時間プログラムを保持しているもの等で
あってもよい。又、上記プログラムは、上述した各種処
理のうちの一部を規定したものであってもよく、本信号
検出方法をコンピュータシステムに既に記録されている
プログラムとの組み合わせで実現するいわゆる差分ファ
イル(差分プログラム)であってもよい。
【0061】
【発明の効果】以上説明したように本発明によれば、参
照信号の特徴量系列の一部と入力信号の特徴量系列の一
部とに対してそれぞれ注目窓を設定し、それらの注目窓
内にある特徴量について類似度を計算して予め設定した
目標とする類似度と比較すると共に、計算された類似度
に基づいて注目窓のスキップ幅を計算し、それぞれの注
目窓の次の設定位置を定めることとしたので、参照信号
と入力信号のそれぞれに対し、参照信号の一部のみを検
出するための注目窓が逐次設定されつつ信号検出が行わ
れる。これにより、参照信号の一部区間にのみ類似する
入力信号中の部分的な信号を探し出すことができ、予め
特定した信号が部分的に含まれている入力信号中の箇所
を効率良く検出することができるという効果が得られ
る。
【0062】又、本発明は、かかる信号検出方法を利用
して、信号を検索ないし認識する方法で対象となり得る
信号を学習又は蓄積することとしたので、その学習又は
蓄積を自動的に行い、種々の信号等を容易に検索ないし
認識することが可能になるという効果が得られる。
【図面の簡単な説明】
【図1】 本発明の一実施形態による部分信号検出装置
の構成を示すブロック図である。
【図2】 同部分信号検出装置による処理形態を従来方
法による処理形態と比較して示した図である。
【図3】 同部分信号検出装置等による音響信号を対象
とした探索処理の実験結果を示した図である。
【符号の説明】
1 参照特徴量計算手段 2 入力特徴量計算手段 3 注目窓設定手段 4 類似度計算手段 5 スキップ幅計算手段
フロントページの続き (56)参考文献 特開2001−92486(JP,A) 特開2000−312343(JP,A) 特開 平9−68994(JP,A) 柏野邦夫,ガビンスミス,村瀬洋, “ヒストグラム特徴を用いた音響信号の 高速探索法−時系列アクティブ探索法 −”,電子情報通信学会論文誌D−I I,1999年 9月,Vol.J82−D− II,No.9,p.1365−1373 村瀬洋,V.V.Vinod,“局所 色情報を用いた高速物体探索−アクティ ブ探索法−”,電子情報通信学会論文誌 D−II,1998年 9月,Vol.J81 −D−II,No.9,p.2035−2042 柏野邦夫,黒住隆行,村瀬洋,“時系 列アクティブ探索法に基づく音や映像の 高速AND/OR探索”,NTT R& D,2002年 2月,Vol.50,No. 11,p.895−901 (58)調査した分野(Int.Cl.7,DB名) G10L 11/02 G10L 15/04 G10L 15/10 JICSTファイル(JOIS)

Claims (7)

    (57)【特許請求の範囲】
  1. 【請求項1】 予め登録した参照信号から特徴量系列を
    導く参照特徴量計算過程と、 入力信号から特徴量系列を導く入力特徴量計算過程と、 前記参照特徴量計算過程で導かれた特徴量系列の一部
    と、前記入力特徴量計算過程で導かれた特徴量系列の一
    部とに対し、それぞれ注目窓を設定する注目窓設定過程
    と、 前記参照特徴量計算過程及び前記入力特徴量計算過程で
    導かれたそれぞれの特徴量系列のうち、前記注目窓設定
    過程で設定されたそれぞれの注目窓内にある特徴量につ
    いて類似度を計算する類似度計算過程と、 前記類似度計算過程で計算された類似度に基づいて前記
    注目窓のスキップ幅を計算し、前記注目窓設定過程を次
    に行う際の前記注目窓それぞれの設定位置を定めるスキ
    ップ幅計算過程とを備え、 前記注目窓設定過程、前記類似度計算過程及び前記スキ
    ップ幅計算過程による処理を繰り返し、前記類似度計算
    過程で計算された類似度と予め設定した目標とする類似
    度とを比較することにより、前記参照信号と前記入力信
    号とにおける当該類似度が計算された前記注目窓のそれ
    ぞれの設定箇所が類似しているかどうかを決定し、前記
    参照信号の一部区間に類似する前記入力信号中の部分を
    探し出すことを特徴とする信号検出方法。
  2. 【請求項2】 前記類似度計算過程は、特徴量系列に対
    してヒストグラムを作成し、該ヒストグラムに基づいて
    類似度を計算することを特徴とする請求項1に記載の信
    号検出方法。
  3. 【請求項3】 前記スキップ幅計算過程は、前記類似度
    計算過程で計算された類似度に基づき、前記参照信号及
    び前記入力信号に対するそれぞれの注目窓を現在位置の
    近傍で移動させたときの類似度の上限値から前記スキッ
    プ幅を計算することを特徴とする請求項1又は2に記載
    の信号検出方法。
  4. 【請求項4】 前記スキップ幅計算過程は、計算した前
    記スキップ幅を満たす前記注目窓の位置のいずれかを、
    前記注目窓設定過程を次に行う際の前記注目窓それぞれ
    の設定位置として定めることを特徴とする請求項1〜3
    のいずれかの項に記載の信号検出方法。
  5. 【請求項5】 検索の対象とする信号を登録しておき、
    供給される処理対象信号から該登録した信号を検索する
    方法であって、請求項1〜4のいずれかの項に記載の信
    号検出方法を用いて、検索の対象となり得る信号を学習
    又は蓄積し、前記検索の対象とする信号として用いるこ
    とを特徴とする信号の検索方法。
  6. 【請求項6】 認識の対象とする信号を登録しておき、
    供給される処理対象信号における該登録した信号を認識
    する方法であって、請求項1〜4のいずれかの項に記載
    の信号検出方法を用いて、認識の対象となり得る信号を
    学習又は蓄積し、前記認識の対象とする信号として用い
    ることを特徴とする信号の認識方法。
  7. 【請求項7】 請求項1〜4のいずれかの項に記載の信
    号検出方法、請求項5に記載の信号の検索方法又は請求
    項6に記載の信号の認識方法を、コンピュータを用いて
    実行する際に、該コンピュータで実行されるプログラム
    を記録したコンピュータ読み取り可能な記録媒体。
JP2000056356A 2000-03-01 2000-03-01 信号検出方法、信号の検索方法及び認識方法並びに記録媒体 Expired - Lifetime JP3537727B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000056356A JP3537727B2 (ja) 2000-03-01 2000-03-01 信号検出方法、信号の検索方法及び認識方法並びに記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000056356A JP3537727B2 (ja) 2000-03-01 2000-03-01 信号検出方法、信号の検索方法及び認識方法並びに記録媒体

Publications (2)

Publication Number Publication Date
JP2001242880A JP2001242880A (ja) 2001-09-07
JP3537727B2 true JP3537727B2 (ja) 2004-06-14

Family

ID=18577323

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000056356A Expired - Lifetime JP3537727B2 (ja) 2000-03-01 2000-03-01 信号検出方法、信号の検索方法及び認識方法並びに記録媒体

Country Status (1)

Country Link
JP (1) JP3537727B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101067930B (zh) * 2007-06-07 2011-06-29 深圳先进技术研究院 一种智能音频辨识系统及辨识方法
JP4983683B2 (ja) * 2008-03-25 2012-07-25 セイコーエプソン株式会社 オブジェクト検出方法、オブジェクト検出装置およびオブジェクト検出プログラム
JP5231159B2 (ja) * 2008-10-21 2013-07-10 Necソフト株式会社 人物検出装置及び方法、学習モデル作成装置及び方法、並びにプログラム
JP5136705B2 (ja) * 2012-01-18 2013-02-06 セイコーエプソン株式会社 印刷装置
JP5851455B2 (ja) * 2013-08-06 2016-02-03 日本電信電話株式会社 共通信号含有区間有無判定装置、方法、及びプログラム
CN103730129A (zh) * 2013-11-18 2014-04-16 长江大学 一种用于数据库信息查询的语音查询系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
村瀬洋,V.V.Vinod,"局所色情報を用いた高速物体探索−アクティブ探索法−",電子情報通信学会論文誌D−II,1998年 9月,Vol.J81−D−II,No.9,p.2035−2042
柏野邦夫,ガビンスミス,村瀬洋,"ヒストグラム特徴を用いた音響信号の高速探索法−時系列アクティブ探索法−",電子情報通信学会論文誌D−II,1999年 9月,Vol.J82−D−II,No.9,p.1365−1373
柏野邦夫,黒住隆行,村瀬洋,"時系列アクティブ探索法に基づく音や映像の高速AND/OR探索",NTT R&D,2002年 2月,Vol.50,No.11,p.895−901

Also Published As

Publication number Publication date
JP2001242880A (ja) 2001-09-07

Similar Documents

Publication Publication Date Title
US6405166B1 (en) Multimedia search apparatus and method for searching multimedia content using speaker detection by audio data
US6826350B1 (en) High-speed signal search method device and recording medium for the same
US7336890B2 (en) Automatic detection and segmentation of music videos in an audio/video stream
JP5501777B2 (ja) 画像のシーケンスを処理する方法および装置、記憶媒体ならびに信号
JP2020527248A (ja) 話者分離モデルの訓練方法、両話者の分離方法及び関連設備
US7260439B2 (en) Systems and methods for the automatic extraction of audio excerpts
JP3065314B1 (ja) 高速信号探索方法、装置およびその記録媒体
JP4332988B2 (ja) 信号処理装置及び方法
CN107562760B (zh) 一种语音数据处理方法及装置
US6389417B1 (en) Method and apparatus for searching a digital image
JP4132589B2 (ja) オーディオ・ストリームにおけるスピーカを追跡するための方法及び装置
US20040098225A1 (en) Similar time series detection method and apparatus, program and recording medium
JP3537727B2 (ja) 信号検出方法、信号の検索方法及び認識方法並びに記録媒体
US7054388B2 (en) Signal detection method and apparatus, relevant program, and storage medium storing the program
US7734096B2 (en) Method and device for discriminating obscene video using time-based feature value
CN112884866B (zh) 一种黑白视频的上色方法、装置、设备及存储介质
CN117457017B (zh) 语音数据的清洗方法及电子设备
KR19990045490A (ko) 적응 음성 검출장치 및 방법과 그 방법을이용한 읽기 가능한컴퓨터 매체
JP3408800B2 (ja) 信号検出方法、装置及びそのプログラム、記録媒体
WO2010140195A1 (ja) 映像編集装置
JP2004102023A (ja) 特定音響信号検出方法、信号検出装置、信号検出プログラム及び記録媒体
CN115079150A (zh) 基于软件无线电的无人机检测方法、系统及相关设备
JP3730179B2 (ja) 信号検索装置、信号検索方法、信号検索プログラム及び信号検索プログラムを記録した記録媒体
JPH11282492A (ja) 音声認識装置、話者検出装置及び画像記録装置
JP3474131B2 (ja) 高速信号探索方法、装置及びその記録媒体

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20031216

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040309

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040317

R151 Written notification of patent or utility model registration

Ref document number: 3537727

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080326

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090326

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090326

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100326

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110326

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110326

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120326

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130326

Year of fee payment: 9

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term