Nothing Special   »   [go: up one dir, main page]

JP4631251B2 - メディア検索装置およびメディア検索プログラム - Google Patents

メディア検索装置およびメディア検索プログラム Download PDF

Info

Publication number
JP4631251B2
JP4631251B2 JP2003127927A JP2003127927A JP4631251B2 JP 4631251 B2 JP4631251 B2 JP 4631251B2 JP 2003127927 A JP2003127927 A JP 2003127927A JP 2003127927 A JP2003127927 A JP 2003127927A JP 4631251 B2 JP4631251 B2 JP 4631251B2
Authority
JP
Japan
Prior art keywords
media data
section
search
recognition result
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003127927A
Other languages
English (en)
Other versions
JP2004333737A (ja
Inventor
孝文 越仲
健一 磯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2003127927A priority Critical patent/JP4631251B2/ja
Publication of JP2004333737A publication Critical patent/JP2004333737A/ja
Application granted granted Critical
Publication of JP4631251B2 publication Critical patent/JP4631251B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、メディア検索装置およびメディア検索プログラムに関し、特に、音声、画像、映像等のメディアのデータにより構成される多数のメディアデータから、所望のメディアデータを検索して提示するメディア検索装置およびメディア検索プログラムに関する。
【0002】
【従来の技術】
従来、この種のメディア検索装置として、例えば、特許文献1にあるような放送番組記録技術が知られている。この技術は、放送番組の音声信号を音声認識し、音声認識された音声信号を文字データに変換して記録・蓄積させることで、記録した放送番組をユーザがキーワードで検索できるものである。すなわち、検索対象である全メディアデータに含まれる音声信号に対して音声認識を行い、各メディアデータの各時刻に発声があるかどうか、またある場合はどのような発声があるかを予め全て記録しておく。検索時には、音声認識の結果で得られる文字列から、ユーザが入力する検索キー文字列とマッチングする部分を探し出し、その部分に対応するメディアデータの対応する時刻を出力するものである。
【0003】
以下、従来技術について、図面を参照して説明する。図8は、従来の技術に基づくメディア検索装置のブロック図である。図8において、検索対象となるメディアデータを格納するためのメディアデータ格納手段902と、メディアデータ格納手段902に格納された各メディアデータから音声信号を抽出して音声区間検出を行い、検出された各音声区間に対して音声認識を行う音声認識手段903と、音声認識手段903が出力する各音声区間の音声認識結果文字列、および音声認識結果文字列とメディアデータの時間的対応関係(例えば、音声認識結果文字列中の各単語の始終端時刻)を格納する認識結果格納手段901と、検索を行おうとする者がキーワード等の検索キーを入力する検索キー入力手段905と、検索キー入力手段905から入力された検索キーと認識結果格納手段901に格納された認識結果文字列とのマッチングを行い、検索キーと一致した箇所に対応するメディアデータをメディアデータ格納手段902から選択して出力するメディアデータ検索手段904を備える。
【0004】
音声認識結果格納手段901に格納される音声認識結果は、例えば以下のような形式で示される。
【0005】
メディアデータ1:{W(1,1),T(1,1),D(1,1)},{W(1,2),T(1,2),D(1,2)},…
メディアデータ2:{W(2,1),T(2,1),D(2,1)},{W(2,2),T(2,2),D(2,2)},…


メディアデータN:{W(N,1),T(N,1),D(N,1)},{W(N,2),T(N,2),D(N,2)},…
【0006】
ここで、W(i,1)、W(i,2)、…は、メディアデータiに対する音声認識の結果として得られる単語列である。また、T(i,j)、D(i,j)は、それぞれメディアデータi内での単語W(i,j)の始端時刻、継続時間長である。音声認識結果{W(i,j),T(i,j),D(i,j)}の作成は、原則として各メディアデータに対して一度だけ行われ、検索前に完了しているものとする。検索キー入力手段905より検索キーとして単語Vが入力されたとすると、メディアデータ検索手段904は、単語W(i,j)と単語Vとを比較し、W(i,j)とVが一致するようなすべてのiについて、メディアデータiの中の区間T(i,j)〜T(i,j)+D(i,j)付近を検索結果として返すことによりメディアデータの検索を実現している。
【0007】
【特許文献1】
特開2001−309282号公報(第1図)
【特許文献2】
特開2000−270263号公報
【0008】
【発明が解決しようとする課題】
一般に、音声認識を用いると、静かな環境で書き言葉調により発話された音声は、比較的精度よく認識される。しかし、背景雑音が顕著な場合や、自由な話し言葉で話される場合の発話は、正確に認識されず、認識結果には誤りを多く含むものとなる。このような誤りを多く含む認識結果に対して検索を行っても、高精度な検索を実現できないというのは自明である。また、音声を全く含まないようなメディアデータ、例えば自然風景のみを撮影した映像の検索では、音声認識を行うことが原理的に不可能である。したがって、従来のメディア検索装置では、大きい背景雑音の重畳した音声、または自由な話し言葉調で発話された音声を含むメディアデータ、あるいは音声を含まないメディアデータを十分な精度で検索することができない。
【0009】
本発明は、このような課題を解決するために、音声認識が困難なメディアデータに対しても、高精度な検索が実現できるような技術を提供することを目的とする。
【0010】
前記目的を達成するために、本発明のメディア検索装置は、第1の視点によれば、1種類以上のメディアのデータを含む第1のメディアデータを格納する一次メディアデータ格納手段と、一次メディアデータ格納手段内の複数の第1のメディアデータの一部または全部の区間を含むと共に第1のメディアデータと比較して認識の容易な第2のメディアデータ上のある区間が第1のメディアデータ上のどの区間に対応して配置されているかを示すリンク情報を格納するリンク情報格納手段と、第2のメディアデータの各区間を検索対象となる文字に対応させて認識し、第2のメディアデータの所要区間を文字の組となる文字列で表して格納する認識結果格納手段と、認識結果格納手段に格納された文字列中の部分と検索のために入力された文字列とが一致する第2のメディアデータの区間を特定する二次メディアデータ検索手段と、リンク情報格納手段が持つリンク情報に従って特定された区間に対応する第1のメディアデータまたは第1のメディアデータ上の区間を出力する一次メディアデータ検索手段とを備える構成とされる。
【0011】
[発明の概要]
本発明の原理・作用について説明する。まず、1種類以上のメディアのデータを含むメディアデータを2種類のクラスに分類する。その上で、音声認識が比較的容易な一方のメディアデータを検索した結果を利用して、音声認識が困難な他方のメディアデータを再度検索することにより、音声認識が困難なメディアデータを検索する。ここで2種類のクラスとは、音声認識が一般に困難な任意のメディアデータを含む第1のクラス、および、第1のクラスに含まれるメディアデータを加工したり、組み合わせたりする編集作業によって二次的に生成されたメディアデータである第2のクラスである。第1のクラスに含まれるメディアデータを一次メディアデータ(第1のメディアデータ)、第2のクラスに含まれるメディアデータを二次メディアデータ(第2のメディアデータ)と呼ぶこととする。
【0012】
上述のようなメディアデータの2クラスへの分類は、常に可能というわけではないが、可能なケースが現実に多く存在する。例えば、放送業務における番組制作作業においては、取材によって得られた多数の映像データを編集して番組に埋め込み、ナレーターや番組出演者の発声を加えることにより、1本の番組データが作られる。この場合、取材で得られた映像データが一次メディアデータで、編集作業によって完成された番組が二次メディアデータに相当する。あるいは、一般の教育、研修等に使われるビデオ教材においても、種々の映像や音楽とナレーターの読上げ発声とを組み合わせて1本のビデオ教材が作成される。ここでも一次メディアデータと二次メディアデータが存在する。
【0013】
一次メディアデータと二次メディアの関係は、以下の通りである。二次メディアデータは、通常複数個の一次メディアデータを内部に含む。すなわち、二次メディアデータと一次メディアデータとは一対多の関係にある。また、一次メディアデータは、一般に任意の映像、音声を含むために音声認識が困難という性質を持つのに対し、二次メディアデータは、訓練された話し手によるナレーション等が含まれているために音声認識が比較的容易である。さらに、訓練された話し手によるナレーション等は、二次メディアデータ内部に含まれる一次メディアデータに対する説明のような、一次メディアデータと関連のある内容を含んでいる場合が多い。
【0014】
そこで、本発明におけるメディア検索装置およびメディア検索プログラムは、二次メディアデータと一次メディアデータの間の一対多関係、すなわち、一次メディアデータが二次メディアデータのどこに埋め込まれているかを表す対応関係を記憶しておく。また、検索に際しては、音声認識が比較的容易な二次メディアデータをまず検索し、二次メディアデータ上での所望のメディアデータの存在位置を特定する。さらに、二次メディアデータと一次メディアデータの対応関係をたどって、所望の一次メディアデータを見つけ出すことにより、音声認識が困難なメディアデータの検索を実現することができる。
【0015】
【発明の実施の形態】
次に、本発明の実施の形態について、図面を参照して詳細に説明する。
【0016】
[第1の実施形態]
図2は、本発明の第1の実施形態に係るメディア検索装置のブロック図である。図2において、メディア検索装置は、一次メディアデータ格納手段104と、二次メディアデータ格納手段102と、リンク情報格納手段103と、音声認識手段105と、認識結果格納手段101と、検索キー入力手段108と、二次メディアデータ検索手段107と、一次メディアデータ検索手段106とを備える。
【0017】
一次メディアデータ格納手段104は、任意かつ多数のメディアデータ、すなわち一次メディアデータを格納する。二次メディアデータ格納手段102は、一次メディアデータを編集し組み合わせて作成された多数の二次的なメディアデータ、すなわち二次メディアデータを格納する。リンク情報格納手段103は、一次メディアデータが二次メディアデータのどの位置に使われているかを示すリンク情報を格納する。音声認識手段105は、二次メディアデータに対して音声認識を行い、二次メディアデータの各時刻における音声認識結果を文字列として出力する。認識結果格納手段101は、音声認識手段105が出力する音声認識結果文字列を二次メディアデータの時刻と対応付けて格納する。検索キー入力手段108は、検索のための検索キーの入力を受け付ける。二次メディアデータ検索手段107は、認識結果格納手段101に格納された認識結果文字列と検索キーとのマッチングを行い、検索キーを含む二次メディアデータおよび二次メディアデータ内で検索キーが現れる位置を特定する。一次メディアデータ検索手段106は、二次メディアデータ検索手段107が特定した二次メディアデータおよび二次メディアデータ内部の位置を入力として、リンク情報格納手段103が持つリンク情報に従って、入力に対応する一次メディアデータおよび一次メディアデータ内部の位置を算出し出力する。なお、各々の手段は、それぞれ計算機上に記憶されたプログラムとして動作させることによっても実現可能である。
【0018】
次に、第1の実施形態に係るメディア検索装置の動作について、順を追って説明する。
【0019】
一次メディアデータ格納手段104には、検索対象となる任意のメディアデータ、すなわち一次メディアデータが多数格納されている。一次メディアデータの形式は、音声、映像、音声を伴う映像、図面や写真等の静止画像等々、任意である。二次メディアデータ格納手段102には、一次メディアデータ格納手段104に格納された一次メディアデータのうちのいくつかを何らかの形で含んだメディアデータが多数格納されている。二次メディアデータの形式は、音声、あるいは音声を伴う映像である。
【0020】
一次メディアデータが二次メディアデータの中にどのような形態で含まれるかについては、種々のバリエーションがあり得る。もっとも単純なケースは、ある一次メディアデータの全体もしくは一部分が、二次メディアデータの一部に埋め込まれた形で、単独で存在する場合である。単独で存在しないケースとは、一次メディアデータに重畳して二次メディアデータ固有のナレーションや字幕が加わる場合、あるいは、映像に背景音楽(BGM)が重畳するというような、ある一次メディアデータに別の一次メディアデータが重畳する場合である。さらにはこれらの複合した形態もあり得る。
【0021】
ただし、上述したいずれのケースでも、一次メディアデータが二次メディアデータのどの位置に使われているかという対応関係は、定量的なデータとして保持できる。リンク情報格納手段103は、一次メディアデータ格納手段104に格納された一次メディアデータと、一次メディアデータ格納手段104に格納された二次メディアデータとの対応関係を示すリンク情報を格納しておく。リンク情報の形式を次のように表すものとする。
【0022】
[M1(i),TS1(i),TE1(i)]←→[M2(i),TS2(i),TE2(i)](i=1,2,3,…)
【0023】
ここに、M1およびM2は、それぞれ一次および二次メディアデータのうちの一つを特定するインデクス番号である。TS1およびTE1は、M1で指定される一次メディアデータ上のある区間を指定する時刻パラメータで、それぞれ区間始端および区間終端の時刻である。同様に、TS2およびTE2は、それぞれM2で指定される二次メディアデータ上のある区間の始端および終端の時刻である。上記は、一次メディアデータ上の区間[M1(i),TS1(i),TE1(i)]が二次メディアデータ上の区間[M2(i),TS2(i),TE2(i)]と対応していることを表している。iは1つの対応関係を特定するインデクスである。
【0024】
なお、多くの場合、一次メディアデータ上の区間[M1,TS1,TE1]と二次メディアデータ上の区間[M2,TS2,TE2]とは長さが等しい。しかし、一次メディアが静止画であったり、一次メディアが二次メディア上に埋め込まれる際にスロー再生されたりしていれば、長さが異なるので、一般性を持たせて上記のような形式としている。
【0025】
リンク情報格納手段103が持つリンク情報は、人手で作成することも可能である。また、一次メディアデータを使って二次メディアデータを作成する編集作業の際に、作業者が行った編集操作をすべて記録しておけば、その記録から自動的にリンク情報を生成することも可能である。さらに、編集操作の記録が残っていない場合は、一次メディアデータの映像や音声の部分パターンを二次メディアデータの部分パターンと照合するパターンマッチングを行うことによって、リンク情報を得ることができる。
【0026】
音声認識手段105は、二次メディアデータ格納手段102に格納された二次メディアデータに対して音声認識を行い、音声認識の結果を出力する。出力された音声認識結果は、認識結果格納手段101に格納される。音声認識結果は、主要部分である認識結果文字列、および認識結果文字列と二次メディアデータとの時間的対応関係を規定する情報を備えていれば、特に形式は問わない。音声認識結果格納手段101に格納される音声認識結果の形式は、例えば、以下に示すような認識結果である単語と、二次メディアデータ上での位置のセット{W(i,j),T(i,j),D(i,j)}とする。
【0027】
二次メディアデータ1:{W(1,1),T(1,1),D(1,1)},{W(1,2),T(1,2),D(1,2)},…
二次メディアデータ2:{W(2,1),T(2,1),D(2,1)},{W(2,2),T(2,2),D(2,2)},…


二次メディアデータN:{W(N,1),T(N,1),D(N,1)},{W(N,2),T(N,2),D(N,2)},…
【0028】
ここで、W(i,1),W(i,2),…は、二次メディアデータiに対する音声認識の結果として得られる単語列である。また、T(i,j)、D(i,j)は、それぞれメディアデータi内での単語W(i,j)の始端時刻、継続時間長であり、単語W(i,j)の二次メディアデータi上での位置を規定する。
【0029】
上述の音声認識結果の形式において、単語の始端時刻T(i,j)や継続時間長D(i,j)といった時刻情報を得るのは、音声認識手段としてよく知られた隠れマルコフモデルを用いる方法では容易である。すなわち、同じく音声認識分野でよく知られたヴィタビ(Viterbi)アルゴリズム等によって、各単語と音声信号との時間的な対応(アラインメント)を効率的に計算することができる。
【0030】
上述の音声認識結果は、単語を単位としているが、音声認識結果の単位としては、音節や音素等、任意のものでよい。また、上述の音声認識結果は、各音声信号に対してもっとも確からしい認識結果を1つだけ持つような形式としているが、複数個の認識結果候補を持つように拡張することも可能である。拡張された場合は、一つの二次メディアデータに対して、単語列を1個でなく複数個持つような形式、あるいは、認識結果の候補を単語のネットワークで表現したワードグラフとして持つような形式となる。
【0031】
上記音声認識結果{W(i,j),T(i,j),D(i,j)}の作成は、原則として各二次メディアデータに対して一度だけ行い、検索前に完了しているものとする。
【0032】
検索キー入力手段108は、キーワードなど、検索に用いる検索キー入力を受け付け、二次メディアデータ検索手段107へ送る。
【0033】
二次メディアデータ検索手段107は、検索キー入力手段108から受け取った検索キーと、認識結果格納手段101に格納された音声認識結果とのマッチングを行い、二次メディアデータ内で検索キーと一致する部分をすべて検出し、一次メディアデータ検索手段106に送る。例えば、検索キーを単語Vとすると、二次メディアデータ検索手段107は、V=W(i,j)となる全ての二次メディアデータのインデクスiと、区間T(i,j)〜T(i,j)+D(i,j)とを検出し、一次メディアデータ検索手段106に送る。
【0034】
なお、二次メディアデータ検索手段107における検索の手続きは、文字列と文字列のマッチングに基づくものであり、この種の検索で一般的に使われる方法を使うことができる。例えば、文字列の部分的な不一致を許容したマッチングを行うことにより再現率を高める曖昧検索、複数のキーワードをANDやOR等で組み合わせた論理式で検索して適合率を上げるような絞り込み検索などを使うことができる。
【0035】
一次メディアデータ検索手段106は、二次メディアデータ検索手段107の出力、すなわち、検索キーとマッチする二次メディアデータのインデクスiおよび区間T(i,j)〜T(i,j)+D(i,j)とを受け取り、この区間に対応する一次メディアデータのインデクスkおよび一次メディアデータの内部の位置を、リンク情報格納手段103に格納された一次メディアデータと二次メディアデータとの対応関係から割り出し、出力する。
【0036】
一次メディアデータ検索手段106が、二次メディアデータインデクスiおよび区間T(i,j)〜T(i,j)+D(i,j)から、一次メディアデータインデクスkおよび一次メディアデータの内部の位置を割り出す方法は、以下の通りである。
【0037】
先に説明したように、リンク情報格納手段103に格納されているリンク情報、すなわち一次メディアデータと二次メディアデータとの対応関係は、次に示すようなものである。
【0038】
[M1(l),TS1(l),TE1(l)]←→[M2(l),TS2(l),TE2(l)](l=1,2,3,…)
【0039】
ここで、M1およびM2は、それぞれ一次および二次メディアデータインデクスである。TS1およびTE1は、それぞれ一次メディアデータM1上のある区間の始端および終端時刻、TS2およびTE2は、それぞれ二次メディアデータM2上のある区間の始端および終端の時刻である。lは、対応関係を特定するインデクスである。
【0040】
一次メディアデータ検索手段106が、二次メディアデータi上の区間T(i,j)〜T(i,j)+D(i,j)を二次メディアデータ検索手段107から受け取ったとすると、一次メディアデータ検索手段106は、リンク情報格納手段103に格納されたリンク情報の右辺[M2(l),TS2(l),TE2(l)]から、[i,T(i,j),T(i,j)+D(i,j)]と重複を持つものをすべて検出し、これらに対応するリンク情報左辺[M1(l),TS1(l),TE1(l)]に相当する一次メディアデータの部分を出力する。例えば、二次メディアデータの区間[M2(l),TS2(l),TE2(l)]の部分区間[M2(l),TS2’,TE2’](ただし、TS2(l)≦TS2’かつTE2’≦TE2(l))が区間[i,T(i,j),T(i,j)+D(i,j)]と重複していたとすると、上記部分区間に対応する一次メディアデータの区間は、比例関係を仮定すれば、[M1(l),TS1(l)+(TE1(l)−TS1(l))*(TS2’−TS2(l))/(TE2(l)−TS2(l)),TE1(l)−(TE1(l)−TS1(l))*(TE2(l)−TE2’)/(TE2(l)−TS2(l))]となるから、一次メディアデータ検索手段106は、この区間に相当する一次メディアデータの部分を出力する。
【0041】
一次メディアデータ検索手段106が出力する一次メディアデータの区間長は、適宜調整してもよい。例えば、上述の例では出力される区間は単語1個分の短いものとなるから、前後に数秒ずつ延長した区間の一次メディアデータを出力してもよい。また、区間[i,T(i,j),T(i,j)+D(i,j)]と重複を持つようなリンク情報右辺[M2(l),TS2(l),TE2(l)]がまったく存在しない場合は、[i,T(i,j),T(i,j)+D(i,j)]と時間的に近いもの(近くの区間)を選べばよい。ここで時間的な近さとは、例えば、一方の区間内の任意の時刻と他方の区間の任意の時刻との差の最小値などと定義しておけばよい。
【0042】
また、区間[i,T(i,j),T(i,j)+D(i,j)]と重複を持つようなリンク情報右辺[M2(l),TS2(l),TE2(l)]がまったく存在しない場合への対処としては、時間的な近さにあるしきい値ΔTを設けて、もとの区間を前後に広げた区間[i,T(i,j)−ΔT,T(i,j)+D(i,j)+ΔT]とリンク情報右辺[M2(l),TS2(l),TE2(l)]との重複を調べてもよい。この場合、区間[i,T(i,j),T(i,j)+D(i,j)]から極端に遠い位置にあるような[M2(l),TS2(l),TE2(l)]は、検索にかからないようにできるため、検索精度(適合率)が高まる。なお、区間を広げる際に、しきい値ΔTを適宜設定することで出力される一次メディアデータの数量を調整してもよい。
【0043】
さらに、上述のΔTを固定値ではなく、二次メディアデータの内容構造に応じて決定することも可能である。二次メディアデータの内容構造とは、話題、話者、映像シーン等の変化である。検索キーと一致する二次メディアデータの区間として[i,T(i,j),T(i,j)+D(i,j)]が見つかったとき、その区間を[i,T(i,j)−ΔTb,T(i,j)+D(i,j)+ΔTf]と広げる(ただし、ΔTb、ΔTfは正数)。広げる際、T(i,j)−ΔTbおよびT(i,j)+D(i,j)+ΔTfが話題、話者、映像シーンの変化点となるようにΔTb、ΔTfを決定する。これらの変化点は、音声認識手段105が二次メディアデータの音声認識結果を作成する際に同時に作成して、認識結果格納手段101に格納しておけばよい。
【0044】
メディアデータの話題、話者、映像シーンの変化点は、人手で抽出してもよいし、自動的に求める方法も種々知られている。例えば、話題に関しては、認識結果の単語列の一定長さ区間内で単語ごとの出現頻度を求め、これを話題の特徴ベクトルとし、この特徴ベクトルが急激に変化する時刻を話題の変化点として求めることができる。また、話者に関しては、音声認識でよく知られたケプストラム特徴量を音声信号から計算し、音声信号の一定長さ区間での平均を話者の特徴ベクトルとし、話者の特徴ベクトルが急激に変化する時刻を話者の変化点として求めることができる。映像シーンの変化点は、各映像フレームの画素値ヒストグラム、すなわち画素値の頻度分布が大きく変動する時刻として検出することができる。
【0045】
なお、通常は、二次メディアデータ検索手段107が複数個の二次メディアデータインデクスと区間を出力するケースが多いと考えられる。この場合は、一次メディアデータ検索手段106はその各々について上述の手順を踏み、複数個の一次メディアデータインデクスまたは一次メディアデータの内部の位置を出力する。
【0046】
次に、以上述べた一次メディアデータの検索手続きについて図を用いて説明する。図3は、本発明の第2の実施形態における一次メディアデータの検索手続きを模式的に示した図である。図3において、一次メディアデータA1の区間a1、一次メディアデータA3の区間a3、および一次メディアデータA4の区間a4が編集されて、二次メディアデータに含まれている。含まれる際の時間的対応関係は、リンク情報としてリンク情報格納手段103に保持されている。
【0047】
このような状況で、音声認識手段105は、二次メディアデータに対して音声認識を行い、二次メディアデータとの時間的な対応が付いた音声認識結果「****XYZ*****XYZ***」を認識結果格納手段101に格納する。検索キー「XYZ」が入力された際に、二次メディア検索手段107は、検索キーと一致する部分(XYZ)を音声認識結果から探し出し、探し出された部分と対応する二次メディアデータの区間B3、区間B4を特定する。一次メディア検索手段106は、二次メディアデータの区間B3、区間B4とそれぞれ対応する一次メディアデータA3の区間b3、および一次メディアデータA4の区間b4を、リンク情報をたどることにより特定し、検索の最終結果として出力することができる。
【0048】
[第2の実施形態]
次に、本発明の第2の実施形態について、図面を参照して説明する。図4は、本発明の第2の実施形態に係るメディア検索装置のブロック図である。図4において、メディア検索装置は、一次メディアデータ格納手段504と、二次メディアデータ格納手段502と、リンク情報格納手段503と、音声認識手段505と、認識結果格納手段501と、原稿時刻付与手段510と、時刻付き原稿格納手段509と、検索キー入力手段508と、二次メディアデータ検索手段507と、一次メディアデータ検索手段506とを備える。
【0049】
一次メディアデータ格納手段504は、任意かつ多数のメディアデータ、すなわち一次メディアを格納する。二次メディアデータ格納手段502は、一次メディアデータを編集し組み合わせて作成された多数の二次的なメディアデータ、すなわち二次メディアデータを格納する。リンク情報格納手段503は、一次メディアデータが二次メディアデータのどの位置に使われているかを示すリンク情報を格納する。音声認識手段505は、二次メディアデータに対して音声認識を行い、二次メディアデータの各時刻における音声認識結果文字列を出力する。認識結果格納手段501は、音声認識手段505が出力する音声認識結果文字列を二次メディアデータの時刻と対応付けて格納する。原稿時刻付与手段510は、二次メディアデータ制作時に使用されたナレーション原稿や台本等のテキストデータがある場合に、このテキストデータと認識結果格納手段501に格納された音声認識結果とのマッチングを行い、原稿や台本等のテキストデータと二次メディアデータとの時間的対応関係を求める。時刻付き原稿格納手段509は、原稿時刻付与手段510の出力である、原稿や台本等のテキストデータと二次メディアデータとの時間的対応関係を、テキストデータとともに格納する。検索キー入力手段508は、検索のための検索キーの入力を受け付ける。二次メディアデータ検索手段507は、認識結果格納手段501に格納された認識結果文字列と検索キーとのマッチングを行い、検索キーを含む二次メディアデータおよび二次メディアデータ内で検索キーが現れる位置を特定する。一次メディアデータ検索手段506は、二次メディアデータ検索手段507が特定した二次メディアデータおよび二次メディアデータの内部の位置を入力として、リンク情報格納手段503が持つリンク情報に従って、入力に対応する一次メディアデータおよび一次メディアデータの内部の位置を算出し出力する。なお、各々の手段は、それぞれ計算機上に記憶されたプログラムとして動作させることによっても実現可能である。
【0050】
次に、第2の実施形態に係るメディア検索装置の動作について、順を追って説明する。
【0051】
なお、認識結果格納手段501、二次メディアデータ格納手段502、リンク情報格納手段503、一次メディアデータ格納手段504、音声認識手段505、一次メディアデータ検索手段506、検索キー入力手段508は、それぞれ本発明の第一の実施の形態における認識結果格納手段101、二次メディアデータ格納手段102、リンク情報格納手段103、一次メディアデータ格納手段104、音声認識手段105、一次メディアデータ検索手段106、検索キー入力手段108と同じものであって、本発明の第一の実施の形態で説明した動作と同じ動作をする。
【0052】
原稿時刻付与手段510は、二次メディアデータ制作時に使用されたナレーション原稿や台本等のテキストデータと、認識結果格納手段501に格納された認識結果文字列とでマッチングを行い、同じく認識結果格納手段501に格納された認識結果文字列と二次メディアデータとの時間的対応関係を用いて、テキストデータと二次メディアデータの間の時間的対応関係を求める。所与の2つの文字列間の対応関係を求める方法については種々知られている。例えば、特開2000−270263号公報(特許文献2参照)記載の自動字幕番組制作システムには、アナウンスの音声の進行と同期して、提示単位字幕文の作成、及びその始点/終点の各々に対応する高精度のタイミング情報付与の自動化について記載されている。本実施の形態の場合、2つの文字列間の対応関係さえ求まれば、そのうちの1つの文字列すなわち認識結果文字列と二次メディアデータとの時間的対応関係がわかっているので、テキストデータと二次メディアデータとの時間的対応関係も容易に求めることができる。
【0053】
なお、原稿や台本等のテキストデータと二次メディアデータとの時間的対応関係を求めたい場合、上述のように音声認識結果を媒介として利用する方法の他に、前述のヴィタビ(Viterbi)アルゴリズムを用いて、原稿や台本等のテキストデータと二次メディアデータ音声信号との時間的対応関係を直接求めてしまう方法も可能である。
【0054】
時刻付き原稿格納手段509は、原稿時刻付与手段510が出力した、テキストデータと二次メディアデータとの時間的対応関係を、テキストデータとともに受け取り、格納する。格納される情報の形式は、認識結果格納手段501と同様に、単語と単語の二次メディアデータ上での位置を示す時刻数値との多数の組からなる集合である。
【0055】
二次メディアデータ検索手段507は、検索キー入力手段508から受け取った検索キーと、認識結果格納手段501に格納された音声認識結果および時刻付き原稿格納手段509に格納押された原稿や台本等のテキストデータとのマッチングを行い、二次メディアデータ内で検索キーと一致する部分をすべて検出し、一次メディアデータ検索手段506に送る。例えば、検索キーを単語Vとすると、二次メディアデータ検索手段507は、V=W(i,j)となるすべての二次メディアデータのインデクスiおよび区間T(i,j)〜T(i,j)+D(i,j)を、認識結果格納手段501および時刻付き原稿格納手段509から検出し、一次メディアデータ検索手段506に送る。
【0056】
次に、以上述べた一次メディアデータの検索手続きについて図を用いて説明する。図5は、本発明の第2の実施形態における一次メディアデータの検索手続きを模式的に示した図である。一次メディアデータA6の区間a6、一次メディアデータA3の区間a3、および一次メディアデータA4の区間a4が、編集されて、二次メディアデータに含まれている。含まれる際の時間的対応関係は、リンク情報としてリンク情報格納手段503に保持されている。
【0057】
このような状況で、音声認識手段505は、二次メディアデータに対して音声認識を行い、二次メディアデータとの時間的な対応が付いた音声認識結果「…****XYZ*****XYZ***…」を認識結果格納手段501に格納する。また、原稿時刻付与手段510は、二次メディアデータに対して原稿や台本等のテキストデータに基づいて二次メディアデータとの時間的な対応が付いた時刻付き原稿「*****XYZ*****」を時刻付き原稿格納手段509に格納する。検索キー「XYZ」が入力された際に、二次メディア検索手段507は、検索キーと一致する部分(XYZ)を音声認識結果および時刻付き原稿から探し出し、探し出された部分と対応する二次メディアデータの区間B6、区間B3、および区間B4を特定する。一次メディア検索手段506は、二次メディアデータの区間B6、区間B3、および区間B4とそれぞれ対応する一次メディアデータA6の区間b6、一次メディアデータA3の区間b3、および一次メディアデータA4の区間b4を、リンク情報をたどることにより特定し、検索の最終結果として出力することができる。
【0058】
第二の実施の形態では第一の実施の形態における検索手続きと比べ、検索キーに基づく二次メディアデータの検索範囲を原稿や台本等のテキストデータにまで広げ、原稿や台本等のテキストデータを検索に利用している点が異なる。
【0059】
[第3の実施形態]
次に、本発明の第3の実施形態について、図面を参照して説明する。図6は、本発明の第3の実施形態に係るメディア検索装置のブロック図である。図6において、メディア検索装置は、一次メディアデータ格納手段704と、二次メディアデータ格納手段702と、音声認識手段705と、認識結果格納手段701と、検索キー入力手段708と、二次メディアデータ検索手段707と、一次メディアデータ検索手段706とを備える。
【0060】
一次メディアデータ格納手段704は、任意かつ多数のメディアデータ、すなわち一次メディアを格納する。二次メディアデータ格納手段702は、一次メディアデータ格納手段704には全く同じものが必ずしも含まれてない不特定の一次メディアデータを編集し組み合わせて作成された多数の二次メディアデータを格納する。音声認識手段705は、二次メディアデータに対して音声認識を行い、二次メディアデータの各時刻における音声認識結果文字列を出力する。認識結果格納手段701は、音声認識手段705が出力する音声認識結果文字列を二次メディアデータの時刻と対応付けて格納する。検索キー入力手段708は、検索のための検索キーの入力を受け付ける。二次メディアデータ検索手段707は、認識結果格納手段701に格納された認識結果文字列と検索キーとのマッチングを行い、検索キーを含む二次メディアデータおよび二次メディアデータ内で検索キーが現れる位置を特定する。一次メディアデータ検索手段706は、二次メディアデータ検索手段707が特定した二次メディアデータ内の区間に含まれる映像や音声を新たな検索キーとして、映像や音声の類似性に基づいて一次メディアデータ格納手段704から一次メディアデータを検索し出力する。なお、各々の手段は、それぞれ計算機上に記憶されたプログラムとして動作させることによっても実現可能である。
【0061】
以下、第3の実施形態に係るメディア検索装置の動作について、順を追って説明する。
【0062】
なお、認識結果格納手段701、二次メディアデータ格納手段702、一次メディアデータ格納手段704、音声認識手段705、二次メディアデータ検索手段707、検索キー入力手段708は、それぞれ本発明の第一の実施の形態における認識結果格納手段101、二次メディアデータ格納手段102、一次メディアデータ格納手段104、音声認識手段105、二次メディアデータ検索手段107、検索キー入力手段108と同じもので、本発明の第一の実施の形態で述べた動作と同じ動作をする。
【0063】
ただし、一次メディアデータ格納手段704に格納される一次メディアデータは、必ずしも二次メディアデータ格納手段702に格納された二次メディアデータ中で使用されていなくてもよいという点で、検索対象となるメディアデータに関する制約は、本発明の第一の実施の形態よりも緩い。さらに、一次メディアデータ格納手段704に格納される一次メディアデータは、不図示のネットワーク上に存在する不特定のあらゆるメディアデータであってもよい。
【0064】
一次メディアデータ検索手段706は、検索キー入力手段708より入力された検索キーと一致する二次メディアデータの区間を二次メディアデータ検索手段707より受け取り、その区間の映像や音声を特徴量に変換する。ここで特徴量とは、もとの映像や音声の持つ性質を保ちつつ、より少数のデータで表現できるようなパラメータセットである。現在、映像や音声の検索、分類、認識の分野で広く使われている特徴量は、極めて多岐にわたっており、すべてを列挙することはできないが、ここでは広く知られた特徴量の中から、目的に応じて適宜選択すればよい。一例として、映像の特徴量には、映像フレームを縦横に各々数個の領域に分割し、各領域の色の分布ヒストグラムや物体境界(エッジ)の方向ヒストグラムを計算したものの時系列、あるいはある区間全体にわたる平均等を用いることができる。また、音声の特徴量には、スペクトルパワーやケプストラムの時系列、あるいはその区間全体にわたる平均等を用いることが考えられる。
【0065】
一次メディアデータ検索手段706は、さらに、一次メディアデータ格納手段704に格納された各メディアデータに対しても、同じ手順によって特徴量を計算して、二次メディアデータの区間と一次メディアデータを特徴量レベルで比較し、類似度を計算する。ここで類似度とは、特徴量が静的なベクトルであれば、例えばユークリッド距離(その符号を反転したもの)として容易に計算できる。また、特徴量が時系列、すなわちベクトルの系列であるような場合でも、動的計画法に基づくマッチング、すなわちDPマッチングにより特徴量間の距離が計算できるので、その符号を反転したものを類似度と定義すればよい。
【0066】
なお、一次メディアデータに関する特徴量計算は、検索のたびに行う必要はなく、各一次メディアデータに対して一度だけ行っておけば、以後は計算の結果をくり返し使用することができる。
【0067】
最終的に、一次メディアデータ検索手段706は、二次メディアデータの区間ともっとも類似度の高い1個あるいは複数個の一次メディアデータを、検索結果として出力する。
【0068】
第3の実施形態に係るメディア検索装置は、以上の説明のように動作するので、一次メディアデータのある部分と二次メディアデータのある部分が完全に一致していなくてもデータを検索することができるようになる。例えば、春の富士山の映像と夏の富士山の映像とのように絵の構図が似ていればデータも似ていると判定できる。また、同じ人が昨日話しているシーンと今日話しているシーンとのように声の性質が似ていればデータが似ていると判定できることになる。すなわち、二次メディアデータに一次メディアデータのある部分が必ずしも含まれていない場合であっても、類似度を計算して類似度の高いものを選択することで検索することができる。
【0069】
[第4の実施形態]
次に、本発明の第4の実施形態について、図面を参照して説明する。図7は、本発明の第4の実施形態に係るメディア検索装置のブロック図である。図7において、メディア検索装置は、一次メディアデータ格納手段804と、二次メディアデータ格納手段802と、リンク情報格納手段803と、背景雑音減算手段809と、音声認識手段805と、認識結果格納手段801と、検索キー入力手段808と、二次メディアデータ検索手段807と、一次メディアデータ検索手段806とを備える。
【0070】
一次メディアデータ格納手段804は、任意かつ多数のメディアデータ、すなわち一次メディアを格納する。二次メディアデータ格納手段802は、一次メディアデータを編集し組み合わせて作成された多数の二次的なメディアデータ、すなわち二次メディアデータを格納する。リンク情報格納手段803は、一次メディアデータが二次メディアデータのどの位置に使われているかを示すリンク情報を格納する。背景雑音減算手段809は、リンク情報を利用して二次メディアデータ中に含まれる一次メディアデータの音声を二次メディアデータから減算する。音声認識手段805は、背景雑音減算手段809によって背景雑音が除去された二次メディアデータを受け取り、これに対して音声認識を行い、二次メディアデータの各時刻における音声認識結果文字列を出力する。認識結果格納手段801は、音声認識手段805が出力する音声認識結果文字列を二次メディアデータの時刻と対応付けて格納する。検索キー入力手段808は、検索のための検索キーの入力を受け付ける。二次メディアデータ検索手段807は、認識結果格納手段801に格納された認識結果文字列と検索キーとのマッチングを行い、検索キーを含む二次メディアデータおよび二次メディアデータ内で検索キーが現れる位置を特定する。一次メディアデータ検索手段806は、二次メディアデータ検索手段807が特定した二次メディアデータおよび二次メディアデータの内部の位置を入力として、リンク情報格納手段803が持つリンク情報に従って、入力に対応する一次メディアデータおよび一次メディアデータの内部の位置を算出し出力する。各々の手段は、それぞれ計算機上に記憶されたプログラムとして動作させることにより実現可能である。
【0071】
以下、第4の実施形態に係るメディア検索装置の動作について、順を追って説明する。
【0072】
まず、認識結果格納手段801、二次メディアデータ格納手段802、リンク情報格納手段803、一次メディアデータ格納手段804、一次メディアデータ検索手段806、二次メディアデータ検索手段807、検索キー入力手段808は、それぞれ本発明の第一の実施の形態における認識結果格納手段101、二次メディアデータ格納手段102、リンク情報格納手段103、一次メディアデータ格納手段104、一次メディアデータ検索手段106、二次メディアデータ検索手段107、検索キー入力手段108と同じもので、本発明の第一の実施の形態で述べたのと同じ動作をする。
【0073】
二次メディアデータ格納手段802に格納された二次メディアデータの音声が2種類の音声信号、すなわち、一次メディアデータに元々含まれていた音声と、ナレーション音声のような二次メディアデータ固有の音声との重ね合わせであると仮定する。その上で背景雑音減算手段809は、一次メディアデータに元々含まれていた音声を背景雑音とした背景雑音除去を、二次メディアデータに対して行う。背景雑音除去の方法について次に説明する。
【0074】
今、一次メディアデータと、二次メディアデータの対応する区間の音声信号をそれぞれS1(t)、S2(t)とする。一次メディアデータと二次メディアデータの対応する区間は、リンク情報格納手段803に格納されたリンク情報
[M1(l),TS1(l),TE1(l)]←→[M2(l),TS2(l),TE2(l)](l=1,2,3,…)
から知ることができる。なお、tは、時刻インデクスであり、t=0、t=Tがそれぞれ一次メディアデータM1(l)の時刻TS1(l)、TE1(l)、および二次メディアデータM2(l)の時刻TS2(l)、TE2(l)に対応しているとする。一次および二次メディアデータの区間長TE1(l)−TS1(l)およびTE2(l)−TS2(l)は等しいと仮定している。このとき、背景雑音除去によって得られる二次メディアデータ固有の音声信号S2’(t)は、S2’(t)=S2(t)−S1(t)により算出することができる。ただし、t∈[0,T]である。
【0075】
なお、上述の背景雑音除去の方法では、一次メディアデータに元々含まれていた音声信号S1(t)と二次メディアデータ固有の音声信号S2’(t)とが1:1の比率で重ね合わせられて二次メディアデータの音声信号S2(t)が生成されると仮定しているが、一般にはそうではないケースもあり得る。そのようなケース、例えばα:1(αは正定数)で重ね合わせられている場合、すなわち、一次メディアデータの音声信号が振幅をα倍に増幅して二次メディアデータに挿入されている場合は、S2’(t)=S2(t)−α×S1(t)によって二次メディアデータの背景雑音除去を行えばよい。
【0076】
重ね合わせ比率αの値が未知の場合は、αの値を自動的に決定する必要があるが、例えばS2’(t)のSN比(信号雑音比)が大きくなるように決めればよい。すなわち、音声信号S1(t)、S2(t)に対応する対数パワー(局所スペクトルの周波数領域での積分値)をそれぞれP1(t)、P2(t)とすると、mint{P2(t)−α×P1(t)}=εとなるようにαを決めればよい。ここに、εは十分小さい正の定数で、mintは、tに関する最小値を意味する。
【0077】
また、αの値を自動的に決定する別の方法として、二次メディアデータ音声信号S2(t)の一部の区間、例えば先頭のΔt秒の区間に二次メディアデータ固有の音声が存在しないことを想定して、この区間を使ってαを推定することが考えられる。この場合、S1(t)およびS2(t)の区間t∈[0,ΔT]にわたる積分値を計算し、それぞれの積分値の比をαとする。
【0078】
音声認識手段805は、背景雑音除去が施された二次メディアデータを背景雑音減算手段809から受け取り、これらに対して音声認識を行って、認識結果を認識結果格納手段801に格納する。
【0079】
次に、本発明に係るメディア検索プログラムについて、図面を参照して説明する。図1は、本発明に係るメディア検索装置の構成図である。図1において、メディア検索装置は、記憶部10、データ処理部20、入出力部30を備える。記憶部10は、メディア検索プログラムを記録した記録媒体11、認識結果記録媒体13、二次メディアデータ記録媒体14、リンク情報記録媒体15、一次メディアデータ記録媒体16を備える。記録媒体11は、CD−ROM、磁気ディスク、半導体メモリその他の記録媒体であってよく、また、メディア検索プログラムは、不図示のネットワークを介して流通する場合も含む。
【0080】
メディア検索プログラムは、記録媒体11からデータ処理部20に読み込まれ、メディア検索装置における各手段を機能させる。また、入出力部30は、メディア検索装置におけるマンマシンインタフェースを司り、検索時の検索キーの入力などを行う。認識結果記録媒体13、二次メディアデータ記録媒体14、リンク情報記録媒体15、一次メディアデータ記録媒体16は、磁気ディスク、半導体メモリその他の記録媒体であってよく、メディア検索装置における各種データを記録する。
【0081】
データ処理部20は、メディア検索プログラムの制御により、第一の実施の形態における音声認識手段105、一次メディアデータ検索手段106、二次メディアデータ検索手段107、検索キー入力手段108による処理を実行する。また、処理を実行するにあたり、認識結果格納手段101、二次メディアデータ格納手段102、リンク情報格納手段103、一次メディアデータ格納手段104とそれぞれ同等の情報を有する認識結果記録媒体13、二次メディアデータ記録媒体14、リンク情報記録媒体15、一次メディアデータ記録媒体16を参照することでメディアデータの検索結果を出力する。
【0082】
なお、一次メディアデータの編集、二次メディアデータの作成、および一次メディアデータの各区間と二次メディアデータの各区間との対応関係を表すリンク情報の作成は、データ処理部20で実行されるようにしても良い。また、データ処理部20とは異なる不図示の編集装置等において作成し、ネットワークを介して、あるいはオフラインによって、一次メディアデータ記録媒体16、二次メディアデータ記録媒体14、リンク情報記録媒体15に記録しておいてもよい。さらに、二次メディアデータを文字列で表すための認識結果を編集装置等で得て、認識結果をネットワークを介して、あるいはオフラインによって、認識結果記録媒体13に記録しておいてもよい。
【0083】
以上の説明では第1の実施形態について説明したが、記憶部10に他の実施の形態における記録媒体を備え、記録媒体11に他の実施の形態におけるメディア検索プログラムを記録することで他の実施の形態における処理を同様の構成において実現できることは言うまでも無い。
【0084】
【発明の効果】
以上説明したように、一般に、任意のメディアデータは背景雑音や自由な話し言葉を多く含んでいる、あるいは音声が一切含まれない、といった理由により、正確な音声認識が困難であり、したがって音声認識結果と検索キーとのマッチングに基づくメディア検索が困難であったが、このような任意のメディアデータを一次メディアデータとして用いて制作された二次メディアデータは、丁寧な発声で読み上げられたナレーション部分等、正確な音声認識が比較的容易な個所を多く含んでいる。本発明によれば、音声認識を利用した検索が困難な一次メディアデータに対して、検索が比較的容易な二次メディアデータを介して検索することができるため、高い検索精度を実現することができる。
【図面の簡単な説明】
【図1】本発明に係るメディア検索装置の構成図である。
【図2】本発明の第1の実施形態に係るメディア検索装置のブロック図である。
【図3】本発明の第1の実施形態における一次メディアデータの検索手続きを模式的に示した図である。
【図4】本発明の第2の実施形態に係るメディア検索装置のブロック図である。
【図5】本発明の第2の実施形態における一次メディアデータの検索手続きを模式的に示した図である。
【図6】本発明の第3の実施形態に係るメディア検索装置のブロック図である。
【図7】本発明の第4の実施形態に係るメディア検索装置のブロック図である。
【図8】従来の技術に基づくメディア検索装置のブロック図である。
【符号の説明】
10 記憶部
11 記録媒体
13 認識結果記録媒体
14 二次メディアデータ記録媒体
15 リンク情報記録媒体
16 一次メディアデータ記録媒体
20 データ処理部
30 入出力部
101、501、701、801 認識結果格納手段
102、502、702、802 二次メディアデータ格納手段
103、503、803 リンク情報格納手段
104、504、704、804 一次メディアデータ格納手段
105、505、705、805 音声認識手段
106、506、706、806 一次メディアデータ検索手段
107、507、707、807 二次メディアデータ検索手段
108、508、708、808 検索キー入力手段
509 時刻付き原稿格納手段
510 原稿時刻付与手段
809 背景雑音減算手段

Claims (13)

  1. 1種類以上のメディアのデータを含む第1のメディアデータを格納する一次メディアデータ格納手段と、
    前記一次メディアデータ格納手段内の複数の前記第1のメディアデータの一部または全部の区間を含むと共に前記第1のメディアデータと比較して認識の容易な第2のメディアデータ上のある区間が前記第1のメディアデータ上のどの区間に対応して配置されているかを示すリンク情報を格納するリンク情報格納手段と、
    前記第2のメディアデータの各区間を検索対象となる文字に対応させて認識し、前記第2のメディアデータの所要区間を前記文字の組となる文字列で表して格納する認識結果格納手段と、
    前記認識結果格納手段に格納された文字列中の部分と検索のために入力された文字列とが一致する前記第2のメディアデータの区間を特定する二次メディアデータ検索手段と、
    前記リンク情報格納手段が持つリンク情報に従って前記特定された区間に対応する第1のメディアデータまたは第1のメディアデータ上の区間を出力する一次メディアデータ検索手段と、
    を備えることを特徴とするメディア検索装置。
  2. 1種類以上のメディアのデータを含む第1のメディアデータを格納する一次メディアデータ格納手段と、
    前記一次メディアデータ格納手段内の複数の前記第1のメディアデータを編集して作成されると共に前記第1のメディアデータと比較して音声認識の容易な第2のメディアデータを格納する二次メディアデータ格納手段と、
    前記第2のメディアデータ上のある区間が前記第1のメディアデータ上のどの区間に対応して配置されているかを示すリンク情報を格納するリンク情報格納手段と、
    前記第2のメディアデータに対して音声認識を行い、認識結果を音声認識結果文字列として前記第2のメディアデータの区間に対応させて出力する音声認識手段と、
    前記音声認識結果文字列を前記第2のメディアデータの区間に対応付けて格納する認識結果格納手段と、
    検索のための検索キー文字列を入力する検索キー入力手段と、
    前記認識結果格納手段に格納された音声認識結果文字列と前記検索キー文字列とのマッチングを行い、前記検索キー文字列が存在する第2のメディアデータ上の区間を特定する二次メディアデータ検索手段と、
    前記二次メディアデータ検索手段が特定した第2のメディアデータ上の区間を入力として、前記リンク情報格納手段が持つリンク情報に従って前記区間に対応する第1のメディアデータまたは第1のメディアデータ上の区間を出力する一次メディアデータ検索手段と、
    を備えることを特徴とするメディア検索装置。
  3. 前記一次メディアデータ検索手段が、前記リンク情報格納手段が有するリンク情報に従って第2のメディアデータ上の区間から第1のメディアデータを検索するに際し、前記第2のメディアデータ上の区間をT〜T+Dとする時、T−ΔTb〜T+D+ΔTf(ΔTb、ΔTfは正数であって等しくとも良い)の区間において、前記第1のメディアデータを検索することを特徴とする請求項2記載のメディア検索装置。
  4. 前記一次メディアデータ検索手段が前記第1のメディアデータを検索するために前記第2のメディアデータ上の区間T〜T+Dの両端を前記第2のメディアデータにおける所定の変化点とすることを特徴とする請求項3記載のメディア検索装置。
  5. 前記所定の変化点は、話題の変化点であることを特徴とする請求項4記載のメディア検索装置。
  6. 前記所定の変化点は、話者の交替した点であることを特徴とする請求項4記載のメディア検索装置。
  7. 前記所定の変化点は、映像シーンの変化点であることを特徴とする請求項4記載のメディア検索装置。
  8. 前記音声認識手段が前記第2のメディアデータに対して音声認識を行う際に、前記リンク情報および前記第1のメディアデータの音声データを利用して、前記第2のメディアデータに重畳した前記第1のメディアデータの音声データを背景雑音として除去する背景雑音減算手段を備えることを特徴とする請求項2記載のメディア検索装置。
  9. 前記第2のメディアデータの作成時に使用されたナレーション原稿や台本であるテキストデータと、前記第2のメディアデータ上の区間との対応付けを行う原稿時刻付与手段と、
    前記原稿時刻付与手段が出力する前記対応付けの情報を前記テキストデータとともに格納する時刻付き原稿格納手段とを備え、
    前記二次メディアデータ検索手段は、前記認識結果格納手段に格納された音声認識結果文字列および前記時刻付き原稿格納手段に格納されたテキストデータと前記検索キー文字列との間でマッチングを行い、前記検索キー文字列が存在する第2のメディアデータ上の区間を特定することを特徴とする請求項2記載のメディア検索装置。
  10. 前記原稿時刻付与手段が、前記テキストデータと前記認識結果格納手段に格納された音声認識結果文字列との対応関係を求め、前記対応関係に基づき前記テキストデータと前記第2のメディアデータとの時刻の対応関係を求めることを特徴とする請求項9記載のメディア検索装置。
  11. 1種類以上のメディアのデータを含む第1のメディアデータを格納する一次メディアデータ格納手段と、
    1種類以上のメディアのデータを含む任意の複数のメディアデータを編集して作成されると共に前記第1のメディアデータと比較して音声認識の容易な第2のメディアデータを格納する二次メディアデータ格納手段と、
    前記第2のメディアデータに対して音声認識を行い、認識結果を音声認識結果文字列として前記第2のメディアデータの区間に対応させて出力する音声認識手段と、
    前記音声認識結果文字列を前記第2のメディアデータの区間に対応付けて格納する認識結果格納手段と、
    検索のための検索キー文字列を入力する検索キー入力手段と、
    前記認識結果格納手段に格納された音声認識結果文字列と前記検索キー文字列とのマッチングを行い、前記検索キー文字列が存在する第2のメディアデータ上の区間を特定する二次メディアデータ検索手段と、
    前記二次メディアデータ検索手段が特定した第2のメディアデータ上の区間の映像的あるいは音声的特徴と、前記一次メディアデータ格納手段に格納された第1のメディアデータの映像的あるいは音声的特徴とを比較し、前記第2のメディアデータ上の区間と類似した映像あるいは音声を一次メディアデータ格納手段に格納された第1のメディアデータから検索し出力する一次メディアデータ検索手段と、
    を備えることを特徴とするメディア検索装置。
  12. メディア検索装置を構成するコンピュータに、
    1種類以上のメディアのデータを含む複数の第1のメディアデータの一部または全部の区間を含むと共に前記第1のメディアデータと比較して音声認識の容易な第2のメディアデータに対して音声認識を行い、音声認識結果文字列と前記第2のメディアデータ上の時刻との対応関係を記憶する処理と、
    外部から入力される検索キー文字列を入力する処理と、
    前記検索キー文字列と前記音声認識結果文字列とのマッチングを行い、前記検索キー文字列と一致する前記音声認識結果文字列中の部分に対応する第2のメディアデータ上の区間を同定する処理と、
    前記第2のメディアデータ上の区間と対応する前記第1のメディアデータあるいは前記第1のメディアデータ上の区間を、あらかじめ用意された前記第1のメディアデータと前記第2メディアデータとの対応関係を表すリンク情報を参照して同定し、前記第1のメディアデータあるいは前記第1のメディアデータ上の区間を出力する処理と、
    を実行させるプログラム。
  13. メディア検索装置を構成するコンピュータに、
    1種類以上のメディアのデータを含む第1のメディアデータを格納する処理と、
    格納された複数の前記第1のメディアデータを編集して作成されると共に前記第1のメディアデータと比較して音声認識の容易な第2のメディアデータを格納する処理と、
    前記第2のメディアデータ上のある区間が前記第1のメディアデータ上のどの区間に対応して配置されているかを示すリンク情報を格納する処理と、
    前記第2のメディアデータに対して音声認識を行い、認識結果を音声認識結果文字列として前記第2のメディアデータの区間に対応させて出力する処理と、
    前記音声認識結果文字列を前記第2のメディアデータの区間に対応付けて格納する処理と、
    検索のための検索キー文字列を入力する処理と、
    格納された前記音声認識結果文字列と前記検索キー文字列とのマッチングを行い、前記検索キー文字列が存在する第2のメディアデータ上の区間を特定する処理と、
    前記特定した第2のメディアデータ上の区間を入力として、前記リンク情報に従って前記区間に対応する第1のメディアデータまたは第1のメディアデータ上の区間を出力する処理と、
    を実行させるプログラム。
JP2003127927A 2003-05-06 2003-05-06 メディア検索装置およびメディア検索プログラム Expired - Fee Related JP4631251B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003127927A JP4631251B2 (ja) 2003-05-06 2003-05-06 メディア検索装置およびメディア検索プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003127927A JP4631251B2 (ja) 2003-05-06 2003-05-06 メディア検索装置およびメディア検索プログラム

Publications (2)

Publication Number Publication Date
JP2004333737A JP2004333737A (ja) 2004-11-25
JP4631251B2 true JP4631251B2 (ja) 2011-02-16

Family

ID=33504262

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003127927A Expired - Fee Related JP4631251B2 (ja) 2003-05-06 2003-05-06 メディア検索装置およびメディア検索プログラム

Country Status (1)

Country Link
JP (1) JP4631251B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4731522B2 (ja) * 2007-06-04 2011-07-27 日本放送協会 特徴量生成装置、要約映像検出装置、及びプログラム
US8868410B2 (en) 2007-08-31 2014-10-21 National Institute Of Information And Communications Technology Non-dialogue-based and dialogue-based learning apparatus by substituting for uttered words undefined in a dictionary with word-graphs comprising of words defined in the dictionary
JP5533865B2 (ja) * 2009-06-18 2014-06-25 日本電気株式会社 編集支援システム、編集支援方法および編集支援プログラム
CN113779201B (zh) * 2021-09-16 2023-06-30 北京百度网讯科技有限公司 用于识别指令的方法、装置以及语音交互屏幕

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10149193A (ja) * 1996-11-21 1998-06-02 Sony Corp 情報処理装置および方法
JPH10312389A (ja) * 1997-05-13 1998-11-24 Dainippon Screen Mfg Co Ltd 音声データベースシステムおよび記録媒体
JP2000224480A (ja) * 1999-01-28 2000-08-11 Matsushita Electric Ind Co Ltd 文字動画連動装置
JP2001101195A (ja) * 1999-09-27 2001-04-13 Nippon Hoso Kyokai <Nhk> テレビ番組検索装置および自動番組選択装置
JP2001134613A (ja) * 1999-08-26 2001-05-18 Sony Corp 音響検索処理方法、音響情報検索装置、音響情報蓄積方法、音響情報蓄積装置および音響映像検索処理方法、音響映像情報検索装置、音響映像情報蓄積方法、音響映像情報蓄積装置
JP2001168820A (ja) * 1999-12-14 2001-06-22 Sony Corp ノンリニア編集装置およびノンリニア編集方法ならびに記録媒体
JP2001309282A (ja) * 2000-04-20 2001-11-02 Sony Corp 放送番組記録方法及び放送番組記録装置及び放送番組記録再生装置
JP2001312288A (ja) * 2000-04-28 2001-11-09 Fujitsu Ten Ltd 音楽データ処理装置
JP2002229591A (ja) * 2001-02-02 2002-08-16 Hitachi Ltd 音声通訳システムおよび音声通訳方法
JP2002312370A (ja) * 2001-04-11 2002-10-25 J-Fit Co Ltd マルチメディアデータ検索装置、マルチメディアデータ検索方法およびマルチメディアデータ検索プログラム
JP2002344877A (ja) * 2001-05-17 2002-11-29 Sanyo Electric Co Ltd デジタル記録再生装置、およびそれに用いる記録媒体、プログラム、プログラムを記録した記録媒体
JP2002374494A (ja) * 2001-06-14 2002-12-26 Fuji Electric Co Ltd ビデオコンテンツファイル生成システムおよびビデオコンテンツファイル検索方法。
WO2003030533A1 (fr) * 2001-09-14 2003-04-10 Sanyo Electric Co., Ltd. Support d'enregistrement, dispositif de reproduction et dispositif d'enregistrement/reproduction

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10149193A (ja) * 1996-11-21 1998-06-02 Sony Corp 情報処理装置および方法
JPH10312389A (ja) * 1997-05-13 1998-11-24 Dainippon Screen Mfg Co Ltd 音声データベースシステムおよび記録媒体
JP2000224480A (ja) * 1999-01-28 2000-08-11 Matsushita Electric Ind Co Ltd 文字動画連動装置
JP2001134613A (ja) * 1999-08-26 2001-05-18 Sony Corp 音響検索処理方法、音響情報検索装置、音響情報蓄積方法、音響情報蓄積装置および音響映像検索処理方法、音響映像情報検索装置、音響映像情報蓄積方法、音響映像情報蓄積装置
JP2001101195A (ja) * 1999-09-27 2001-04-13 Nippon Hoso Kyokai <Nhk> テレビ番組検索装置および自動番組選択装置
JP2001168820A (ja) * 1999-12-14 2001-06-22 Sony Corp ノンリニア編集装置およびノンリニア編集方法ならびに記録媒体
JP2001309282A (ja) * 2000-04-20 2001-11-02 Sony Corp 放送番組記録方法及び放送番組記録装置及び放送番組記録再生装置
JP2001312288A (ja) * 2000-04-28 2001-11-09 Fujitsu Ten Ltd 音楽データ処理装置
JP2002229591A (ja) * 2001-02-02 2002-08-16 Hitachi Ltd 音声通訳システムおよび音声通訳方法
JP2002312370A (ja) * 2001-04-11 2002-10-25 J-Fit Co Ltd マルチメディアデータ検索装置、マルチメディアデータ検索方法およびマルチメディアデータ検索プログラム
JP2002344877A (ja) * 2001-05-17 2002-11-29 Sanyo Electric Co Ltd デジタル記録再生装置、およびそれに用いる記録媒体、プログラム、プログラムを記録した記録媒体
JP2002374494A (ja) * 2001-06-14 2002-12-26 Fuji Electric Co Ltd ビデオコンテンツファイル生成システムおよびビデオコンテンツファイル検索方法。
WO2003030533A1 (fr) * 2001-09-14 2003-04-10 Sanyo Electric Co., Ltd. Support d'enregistrement, dispositif de reproduction et dispositif d'enregistrement/reproduction

Also Published As

Publication number Publication date
JP2004333737A (ja) 2004-11-25

Similar Documents

Publication Publication Date Title
JP4600828B2 (ja) 文書対応付け装置、および文書対応付け方法
JP4873018B2 (ja) データ処理装置、データ処理方法、及び、プログラム
US9153233B2 (en) Voice-controlled selection of media files utilizing phonetic data
JP3984207B2 (ja) 音声認識評価装置、音声認識評価方法、及び音声認識評価プログラム
US20070198273A1 (en) Voice-controlled data system
US20080065382A1 (en) Speech-driven selection of an audio file
US20090234854A1 (en) Search system and search method for speech database
CN106688035B (zh) 声音合成装置及声音合成方法
JP2008022103A (ja) テレビ番組動画像ハイライト抽出装置及び方法
JP6011565B2 (ja) 音声検索装置、音声検索方法及びプログラム
JP2007519987A (ja) 内部及び外部オーディオビジュアルデータの統合解析システム及び方法
US9754024B2 (en) Voice retrieval apparatus, voice retrieval method, and non-transitory recording medium
JP2000347681A (ja) テキスト・ベースの音声合成を利用した音声制御システム用の再生方法
JP2005092295A (ja) メタ情報生成方法、メタ情報生成装置、検索方法および検索装置
JP4631251B2 (ja) メディア検索装置およびメディア検索プログラム
JP4697432B2 (ja) 音楽再生装置、音楽再生方法及び音楽再生用プログラム
JP2019056791A (ja) 音声認識装置、音声認識方法およびプログラム
JP5196114B2 (ja) 音声認識装置およびプログラム
JP2004233541A (ja) ハイライトシーン検出システム
JP4736478B2 (ja) 音声書き起こし支援装置およびその方法ならびにプログラム
JPH11242496A (ja) 情報再生装置
JP4033049B2 (ja) 映像音声とシナリオテキストとの整合方法および装置、並びに前記方法を記録した記憶媒体とコンピュータソフトウェア
JP6565416B2 (ja) 音声検索装置、音声検索方法及びプログラム
US12142047B1 (en) Automated audio description system and method
KR20050051857A (ko) 오디오 정보를 이용한 영상 검색 장치 및 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060414

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090617

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090915

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091116

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101019

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101101

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4631251

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131126

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees