JP4631251B2

JP4631251B2 - メディア検索装置およびメディア検索プログラム

Info

Publication number: JP4631251B2
Application number: JP2003127927A
Authority: JP
Inventors: 孝文越仲; 健一磯
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2003-05-06
Filing date: 2003-05-06
Publication date: 2011-02-16
Anticipated expiration: 2023-05-06
Also published as: JP2004333737A

Description

【０００１】
【発明の属する技術分野】
本発明は、メディア検索装置およびメディア検索プログラムに関し、特に、音声、画像、映像等のメディアのデータにより構成される多数のメディアデータから、所望のメディアデータを検索して提示するメディア検索装置およびメディア検索プログラムに関する。
【０００２】
【従来の技術】
従来、この種のメディア検索装置として、例えば、特許文献１にあるような放送番組記録技術が知られている。この技術は、放送番組の音声信号を音声認識し、音声認識された音声信号を文字データに変換して記録・蓄積させることで、記録した放送番組をユーザがキーワードで検索できるものである。すなわち、検索対象である全メディアデータに含まれる音声信号に対して音声認識を行い、各メディアデータの各時刻に発声があるかどうか、またある場合はどのような発声があるかを予め全て記録しておく。検索時には、音声認識の結果で得られる文字列から、ユーザが入力する検索キー文字列とマッチングする部分を探し出し、その部分に対応するメディアデータの対応する時刻を出力するものである。
【０００３】
以下、従来技術について、図面を参照して説明する。図８は、従来の技術に基づくメディア検索装置のブロック図である。図８において、検索対象となるメディアデータを格納するためのメディアデータ格納手段９０２と、メディアデータ格納手段９０２に格納された各メディアデータから音声信号を抽出して音声区間検出を行い、検出された各音声区間に対して音声認識を行う音声認識手段９０３と、音声認識手段９０３が出力する各音声区間の音声認識結果文字列、および音声認識結果文字列とメディアデータの時間的対応関係（例えば、音声認識結果文字列中の各単語の始終端時刻）を格納する認識結果格納手段９０１と、検索を行おうとする者がキーワード等の検索キーを入力する検索キー入力手段９０５と、検索キー入力手段９０５から入力された検索キーと認識結果格納手段９０１に格納された認識結果文字列とのマッチングを行い、検索キーと一致した箇所に対応するメディアデータをメディアデータ格納手段９０２から選択して出力するメディアデータ検索手段９０４を備える。
【０００４】
音声認識結果格納手段９０１に格納される音声認識結果は、例えば以下のような形式で示される。
【０００５】
メディアデータ１：｛Ｗ（１，１），Ｔ（１，１），Ｄ（１，１）｝，｛Ｗ（１，２），Ｔ（１，２），Ｄ（１，２）｝，…
メディアデータ２：｛Ｗ（２，１），Ｔ（２，１），Ｄ（２，１）｝，｛Ｗ（２，２），Ｔ（２，２），Ｄ（２，２）｝，…
：
：
メディアデータＮ：｛Ｗ（Ｎ，１），Ｔ（Ｎ，１），Ｄ（Ｎ，１）｝，｛Ｗ（Ｎ，２），Ｔ（Ｎ，２），Ｄ（Ｎ，２）｝，…
【０００６】
ここで、Ｗ（ｉ，１）、Ｗ（ｉ，２）、…は、メディアデータｉに対する音声認識の結果として得られる単語列である。また、Ｔ（ｉ，ｊ）、Ｄ（ｉ，ｊ）は、それぞれメディアデータｉ内での単語Ｗ（ｉ，ｊ）の始端時刻、継続時間長である。音声認識結果｛Ｗ（ｉ，ｊ），Ｔ（ｉ，ｊ），Ｄ（ｉ，ｊ）｝の作成は、原則として各メディアデータに対して一度だけ行われ、検索前に完了しているものとする。検索キー入力手段９０５より検索キーとして単語Ｖが入力されたとすると、メディアデータ検索手段９０４は、単語Ｗ（ｉ，ｊ）と単語Ｖとを比較し、Ｗ（ｉ，ｊ）とＶが一致するようなすべてのｉについて、メディアデータｉの中の区間Ｔ（ｉ，ｊ）〜Ｔ（ｉ，ｊ）＋Ｄ（ｉ，ｊ）付近を検索結果として返すことによりメディアデータの検索を実現している。
【０００７】
【特許文献１】
特開２００１−３０９２８２号公報（第１図）
【特許文献２】
特開２０００−２７０２６３号公報
【０００８】
【発明が解決しようとする課題】
一般に、音声認識を用いると、静かな環境で書き言葉調により発話された音声は、比較的精度よく認識される。しかし、背景雑音が顕著な場合や、自由な話し言葉で話される場合の発話は、正確に認識されず、認識結果には誤りを多く含むものとなる。このような誤りを多く含む認識結果に対して検索を行っても、高精度な検索を実現できないというのは自明である。また、音声を全く含まないようなメディアデータ、例えば自然風景のみを撮影した映像の検索では、音声認識を行うことが原理的に不可能である。したがって、従来のメディア検索装置では、大きい背景雑音の重畳した音声、または自由な話し言葉調で発話された音声を含むメディアデータ、あるいは音声を含まないメディアデータを十分な精度で検索することができない。
【０００９】
本発明は、このような課題を解決するために、音声認識が困難なメディアデータに対しても、高精度な検索が実現できるような技術を提供することを目的とする。
【００１０】
前記目的を達成するために、本発明のメディア検索装置は、第１の視点によれば、１種類以上のメディアのデータを含む第１のメディアデータを格納する一次メディアデータ格納手段と、一次メディアデータ格納手段内の複数の第１のメディアデータの一部または全部の区間を含むと共に第１のメディアデータと比較して認識の容易な第２のメディアデータ上のある区間が第１のメディアデータ上のどの区間に対応して配置されているかを示すリンク情報を格納するリンク情報格納手段と、第２のメディアデータの各区間を検索対象となる文字に対応させて認識し、第２のメディアデータの所要区間を文字の組となる文字列で表して格納する認識結果格納手段と、認識結果格納手段に格納された文字列中の部分と検索のために入力された文字列とが一致する第２のメディアデータの区間を特定する二次メディアデータ検索手段と、リンク情報格納手段が持つリンク情報に従って特定された区間に対応する第１のメディアデータまたは第１のメディアデータ上の区間を出力する一次メディアデータ検索手段とを備える構成とされる。
【００１１】
［発明の概要］
本発明の原理・作用について説明する。まず、１種類以上のメディアのデータを含むメディアデータを２種類のクラスに分類する。その上で、音声認識が比較的容易な一方のメディアデータを検索した結果を利用して、音声認識が困難な他方のメディアデータを再度検索することにより、音声認識が困難なメディアデータを検索する。ここで２種類のクラスとは、音声認識が一般に困難な任意のメディアデータを含む第１のクラス、および、第１のクラスに含まれるメディアデータを加工したり、組み合わせたりする編集作業によって二次的に生成されたメディアデータである第２のクラスである。第１のクラスに含まれるメディアデータを一次メディアデータ（第１のメディアデータ）、第２のクラスに含まれるメディアデータを二次メディアデータ（第２のメディアデータ）と呼ぶこととする。
【００１２】
上述のようなメディアデータの２クラスへの分類は、常に可能というわけではないが、可能なケースが現実に多く存在する。例えば、放送業務における番組制作作業においては、取材によって得られた多数の映像データを編集して番組に埋め込み、ナレーターや番組出演者の発声を加えることにより、１本の番組データが作られる。この場合、取材で得られた映像データが一次メディアデータで、編集作業によって完成された番組が二次メディアデータに相当する。あるいは、一般の教育、研修等に使われるビデオ教材においても、種々の映像や音楽とナレーターの読上げ発声とを組み合わせて１本のビデオ教材が作成される。ここでも一次メディアデータと二次メディアデータが存在する。
【００１３】
一次メディアデータと二次メディアの関係は、以下の通りである。二次メディアデータは、通常複数個の一次メディアデータを内部に含む。すなわち、二次メディアデータと一次メディアデータとは一対多の関係にある。また、一次メディアデータは、一般に任意の映像、音声を含むために音声認識が困難という性質を持つのに対し、二次メディアデータは、訓練された話し手によるナレーション等が含まれているために音声認識が比較的容易である。さらに、訓練された話し手によるナレーション等は、二次メディアデータ内部に含まれる一次メディアデータに対する説明のような、一次メディアデータと関連のある内容を含んでいる場合が多い。
【００１４】
そこで、本発明におけるメディア検索装置およびメディア検索プログラムは、二次メディアデータと一次メディアデータの間の一対多関係、すなわち、一次メディアデータが二次メディアデータのどこに埋め込まれているかを表す対応関係を記憶しておく。また、検索に際しては、音声認識が比較的容易な二次メディアデータをまず検索し、二次メディアデータ上での所望のメディアデータの存在位置を特定する。さらに、二次メディアデータと一次メディアデータの対応関係をたどって、所望の一次メディアデータを見つけ出すことにより、音声認識が困難なメディアデータの検索を実現することができる。
【００１５】
【発明の実施の形態】
次に、本発明の実施の形態について、図面を参照して詳細に説明する。
【００１６】
［第１の実施形態］
図２は、本発明の第１の実施形態に係るメディア検索装置のブロック図である。図２において、メディア検索装置は、一次メディアデータ格納手段１０４と、二次メディアデータ格納手段１０２と、リンク情報格納手段１０３と、音声認識手段１０５と、認識結果格納手段１０１と、検索キー入力手段１０８と、二次メディアデータ検索手段１０７と、一次メディアデータ検索手段１０６とを備える。
【００１７】
一次メディアデータ格納手段１０４は、任意かつ多数のメディアデータ、すなわち一次メディアデータを格納する。二次メディアデータ格納手段１０２は、一次メディアデータを編集し組み合わせて作成された多数の二次的なメディアデータ、すなわち二次メディアデータを格納する。リンク情報格納手段１０３は、一次メディアデータが二次メディアデータのどの位置に使われているかを示すリンク情報を格納する。音声認識手段１０５は、二次メディアデータに対して音声認識を行い、二次メディアデータの各時刻における音声認識結果を文字列として出力する。認識結果格納手段１０１は、音声認識手段１０５が出力する音声認識結果文字列を二次メディアデータの時刻と対応付けて格納する。検索キー入力手段１０８は、検索のための検索キーの入力を受け付ける。二次メディアデータ検索手段１０７は、認識結果格納手段１０１に格納された認識結果文字列と検索キーとのマッチングを行い、検索キーを含む二次メディアデータおよび二次メディアデータ内で検索キーが現れる位置を特定する。一次メディアデータ検索手段１０６は、二次メディアデータ検索手段１０７が特定した二次メディアデータおよび二次メディアデータ内部の位置を入力として、リンク情報格納手段１０３が持つリンク情報に従って、入力に対応する一次メディアデータおよび一次メディアデータ内部の位置を算出し出力する。なお、各々の手段は、それぞれ計算機上に記憶されたプログラムとして動作させることによっても実現可能である。
【００１８】
次に、第１の実施形態に係るメディア検索装置の動作について、順を追って説明する。
【００１９】
一次メディアデータ格納手段１０４には、検索対象となる任意のメディアデータ、すなわち一次メディアデータが多数格納されている。一次メディアデータの形式は、音声、映像、音声を伴う映像、図面や写真等の静止画像等々、任意である。二次メディアデータ格納手段１０２には、一次メディアデータ格納手段１０４に格納された一次メディアデータのうちのいくつかを何らかの形で含んだメディアデータが多数格納されている。二次メディアデータの形式は、音声、あるいは音声を伴う映像である。
【００２０】
一次メディアデータが二次メディアデータの中にどのような形態で含まれるかについては、種々のバリエーションがあり得る。もっとも単純なケースは、ある一次メディアデータの全体もしくは一部分が、二次メディアデータの一部に埋め込まれた形で、単独で存在する場合である。単独で存在しないケースとは、一次メディアデータに重畳して二次メディアデータ固有のナレーションや字幕が加わる場合、あるいは、映像に背景音楽（ＢＧＭ）が重畳するというような、ある一次メディアデータに別の一次メディアデータが重畳する場合である。さらにはこれらの複合した形態もあり得る。
【００２１】
ただし、上述したいずれのケースでも、一次メディアデータが二次メディアデータのどの位置に使われているかという対応関係は、定量的なデータとして保持できる。リンク情報格納手段１０３は、一次メディアデータ格納手段１０４に格納された一次メディアデータと、一次メディアデータ格納手段１０４に格納された二次メディアデータとの対応関係を示すリンク情報を格納しておく。リンク情報の形式を次のように表すものとする。
【００２２】
［Ｍ１（ｉ），ＴＳ１（ｉ），ＴＥ１（ｉ）］←→［Ｍ２（ｉ），ＴＳ２（ｉ），ＴＥ２（ｉ）］（ｉ＝１，２，３，…）
【００２３】
ここに、Ｍ１およびＭ２は、それぞれ一次および二次メディアデータのうちの一つを特定するインデクス番号である。ＴＳ１およびＴＥ１は、Ｍ１で指定される一次メディアデータ上のある区間を指定する時刻パラメータで、それぞれ区間始端および区間終端の時刻である。同様に、ＴＳ２およびＴＥ２は、それぞれＭ２で指定される二次メディアデータ上のある区間の始端および終端の時刻である。上記は、一次メディアデータ上の区間［Ｍ１（ｉ），ＴＳ１（ｉ），ＴＥ１（ｉ）］が二次メディアデータ上の区間［Ｍ２（ｉ），ＴＳ２（ｉ），ＴＥ２（ｉ）］と対応していることを表している。ｉは１つの対応関係を特定するインデクスである。
【００２４】
なお、多くの場合、一次メディアデータ上の区間［Ｍ１，ＴＳ１，ＴＥ１］と二次メディアデータ上の区間［Ｍ２，ＴＳ２，ＴＥ２］とは長さが等しい。しかし、一次メディアが静止画であったり、一次メディアが二次メディア上に埋め込まれる際にスロー再生されたりしていれば、長さが異なるので、一般性を持たせて上記のような形式としている。
【００２５】
リンク情報格納手段１０３が持つリンク情報は、人手で作成することも可能である。また、一次メディアデータを使って二次メディアデータを作成する編集作業の際に、作業者が行った編集操作をすべて記録しておけば、その記録から自動的にリンク情報を生成することも可能である。さらに、編集操作の記録が残っていない場合は、一次メディアデータの映像や音声の部分パターンを二次メディアデータの部分パターンと照合するパターンマッチングを行うことによって、リンク情報を得ることができる。
【００２６】
音声認識手段１０５は、二次メディアデータ格納手段１０２に格納された二次メディアデータに対して音声認識を行い、音声認識の結果を出力する。出力された音声認識結果は、認識結果格納手段１０１に格納される。音声認識結果は、主要部分である認識結果文字列、および認識結果文字列と二次メディアデータとの時間的対応関係を規定する情報を備えていれば、特に形式は問わない。音声認識結果格納手段１０１に格納される音声認識結果の形式は、例えば、以下に示すような認識結果である単語と、二次メディアデータ上での位置のセット｛Ｗ（ｉ，ｊ），Ｔ（ｉ，ｊ），Ｄ（ｉ，ｊ）｝とする。
【００２７】
二次メディアデータ１：｛Ｗ（１，１），Ｔ（１，１），Ｄ（１，１）｝，｛Ｗ（１，２），Ｔ（１，２），Ｄ（１，２）｝，…
二次メディアデータ２：｛Ｗ（２，１），Ｔ（２，１），Ｄ（２，１）｝，｛Ｗ（２，２），Ｔ（２，２），Ｄ（２，２）｝，…
：
：
二次メディアデータＮ：｛Ｗ（Ｎ，１），Ｔ（Ｎ，１），Ｄ（Ｎ，１）｝，｛Ｗ（Ｎ，２），Ｔ（Ｎ，２），Ｄ（Ｎ，２）｝，…
【００２８】
ここで、Ｗ（ｉ，１），Ｗ（ｉ，２），…は、二次メディアデータｉに対する音声認識の結果として得られる単語列である。また、Ｔ（ｉ，ｊ）、Ｄ（ｉ，ｊ）は、それぞれメディアデータｉ内での単語Ｗ（ｉ，ｊ）の始端時刻、継続時間長であり、単語Ｗ（ｉ，ｊ）の二次メディアデータｉ上での位置を規定する。
【００２９】
上述の音声認識結果の形式において、単語の始端時刻Ｔ（ｉ，ｊ）や継続時間長Ｄ（ｉ，ｊ）といった時刻情報を得るのは、音声認識手段としてよく知られた隠れマルコフモデルを用いる方法では容易である。すなわち、同じく音声認識分野でよく知られたヴィタビ（Ｖｉｔｅｒｂｉ）アルゴリズム等によって、各単語と音声信号との時間的な対応（アラインメント）を効率的に計算することができる。
【００３０】
上述の音声認識結果は、単語を単位としているが、音声認識結果の単位としては、音節や音素等、任意のものでよい。また、上述の音声認識結果は、各音声信号に対してもっとも確からしい認識結果を１つだけ持つような形式としているが、複数個の認識結果候補を持つように拡張することも可能である。拡張された場合は、一つの二次メディアデータに対して、単語列を１個でなく複数個持つような形式、あるいは、認識結果の候補を単語のネットワークで表現したワードグラフとして持つような形式となる。
【００３１】
上記音声認識結果｛Ｗ（ｉ，ｊ），Ｔ（ｉ，ｊ），Ｄ（ｉ，ｊ）｝の作成は、原則として各二次メディアデータに対して一度だけ行い、検索前に完了しているものとする。
【００３２】
検索キー入力手段１０８は、キーワードなど、検索に用いる検索キー入力を受け付け、二次メディアデータ検索手段１０７へ送る。
【００３３】
二次メディアデータ検索手段１０７は、検索キー入力手段１０８から受け取った検索キーと、認識結果格納手段１０１に格納された音声認識結果とのマッチングを行い、二次メディアデータ内で検索キーと一致する部分をすべて検出し、一次メディアデータ検索手段１０６に送る。例えば、検索キーを単語Ｖとすると、二次メディアデータ検索手段１０７は、Ｖ＝Ｗ（ｉ，ｊ）となる全ての二次メディアデータのインデクスｉと、区間Ｔ（ｉ，ｊ）〜Ｔ（ｉ，ｊ）＋Ｄ（ｉ，ｊ）とを検出し、一次メディアデータ検索手段１０６に送る。
【００３４】
なお、二次メディアデータ検索手段１０７における検索の手続きは、文字列と文字列のマッチングに基づくものであり、この種の検索で一般的に使われる方法を使うことができる。例えば、文字列の部分的な不一致を許容したマッチングを行うことにより再現率を高める曖昧検索、複数のキーワードをＡＮＤやＯＲ等で組み合わせた論理式で検索して適合率を上げるような絞り込み検索などを使うことができる。
【００３５】
一次メディアデータ検索手段１０６は、二次メディアデータ検索手段１０７の出力、すなわち、検索キーとマッチする二次メディアデータのインデクスｉおよび区間Ｔ（ｉ，ｊ）〜Ｔ（ｉ，ｊ）＋Ｄ（ｉ，ｊ）とを受け取り、この区間に対応する一次メディアデータのインデクスｋおよび一次メディアデータの内部の位置を、リンク情報格納手段１０３に格納された一次メディアデータと二次メディアデータとの対応関係から割り出し、出力する。
【００３６】
一次メディアデータ検索手段１０６が、二次メディアデータインデクスｉおよび区間Ｔ（ｉ，ｊ）〜Ｔ（ｉ，ｊ）＋Ｄ（ｉ，ｊ）から、一次メディアデータインデクスｋおよび一次メディアデータの内部の位置を割り出す方法は、以下の通りである。
【００３７】
先に説明したように、リンク情報格納手段１０３に格納されているリンク情報、すなわち一次メディアデータと二次メディアデータとの対応関係は、次に示すようなものである。
【００３８】
［Ｍ１（ｌ），ＴＳ１（ｌ），ＴＥ１（ｌ）］←→［Ｍ２（ｌ），ＴＳ２（ｌ），ＴＥ２（ｌ）］（ｌ＝１，２，３，…）
【００３９】
ここで、Ｍ１およびＭ２は、それぞれ一次および二次メディアデータインデクスである。ＴＳ１およびＴＥ１は、それぞれ一次メディアデータＭ１上のある区間の始端および終端時刻、ＴＳ２およびＴＥ２は、それぞれ二次メディアデータＭ２上のある区間の始端および終端の時刻である。ｌは、対応関係を特定するインデクスである。
【００４０】
一次メディアデータ検索手段１０６が、二次メディアデータｉ上の区間Ｔ（ｉ，ｊ）〜Ｔ（ｉ，ｊ）＋Ｄ（ｉ，ｊ）を二次メディアデータ検索手段１０７から受け取ったとすると、一次メディアデータ検索手段１０６は、リンク情報格納手段１０３に格納されたリンク情報の右辺［Ｍ２（ｌ），ＴＳ２（ｌ），ＴＥ２（ｌ）］から、［ｉ，Ｔ（ｉ，ｊ），Ｔ（ｉ，ｊ）＋Ｄ（ｉ，ｊ）］と重複を持つものをすべて検出し、これらに対応するリンク情報左辺［Ｍ１（ｌ），ＴＳ１（ｌ），ＴＥ１（ｌ）］に相当する一次メディアデータの部分を出力する。例えば、二次メディアデータの区間［Ｍ２（ｌ），ＴＳ２（ｌ），ＴＥ２（ｌ）］の部分区間［Ｍ２（ｌ），ＴＳ２’，ＴＥ２’］（ただし、ＴＳ２（ｌ）≦ＴＳ２’かつＴＥ２’≦ＴＥ２（ｌ））が区間［ｉ，Ｔ（ｉ，ｊ），Ｔ（ｉ，ｊ）＋Ｄ（ｉ，ｊ）］と重複していたとすると、上記部分区間に対応する一次メディアデータの区間は、比例関係を仮定すれば、［Ｍ１（ｌ），ＴＳ１（ｌ）＋（ＴＥ１（ｌ）−ＴＳ１（ｌ））＊（ＴＳ２’−ＴＳ２（ｌ））／（ＴＥ２（ｌ）−ＴＳ２（ｌ）），ＴＥ１（ｌ）−（ＴＥ１（ｌ）−ＴＳ１（ｌ））＊（ＴＥ２（ｌ）−ＴＥ２’）／（ＴＥ２（ｌ）−ＴＳ２（ｌ））］となるから、一次メディアデータ検索手段１０６は、この区間に相当する一次メディアデータの部分を出力する。
【００４１】
一次メディアデータ検索手段１０６が出力する一次メディアデータの区間長は、適宜調整してもよい。例えば、上述の例では出力される区間は単語１個分の短いものとなるから、前後に数秒ずつ延長した区間の一次メディアデータを出力してもよい。また、区間［ｉ，Ｔ（ｉ，ｊ），Ｔ（ｉ，ｊ）＋Ｄ（ｉ，ｊ）］と重複を持つようなリンク情報右辺［Ｍ２（ｌ），ＴＳ２（ｌ），ＴＥ２（ｌ）］がまったく存在しない場合は、［ｉ，Ｔ（ｉ，ｊ），Ｔ（ｉ，ｊ）＋Ｄ（ｉ，ｊ）］と時間的に近いもの（近くの区間）を選べばよい。ここで時間的な近さとは、例えば、一方の区間内の任意の時刻と他方の区間の任意の時刻との差の最小値などと定義しておけばよい。
【００４２】
また、区間［ｉ，Ｔ（ｉ，ｊ），Ｔ（ｉ，ｊ）＋Ｄ（ｉ，ｊ）］と重複を持つようなリンク情報右辺［Ｍ２（ｌ），ＴＳ２（ｌ），ＴＥ２（ｌ）］がまったく存在しない場合への対処としては、時間的な近さにあるしきい値ΔＴを設けて、もとの区間を前後に広げた区間［ｉ，Ｔ（ｉ，ｊ）−ΔＴ，Ｔ（ｉ，ｊ）＋Ｄ（ｉ，ｊ）＋ΔＴ］とリンク情報右辺［Ｍ２（ｌ），ＴＳ２（ｌ），ＴＥ２（ｌ）］との重複を調べてもよい。この場合、区間［ｉ，Ｔ（ｉ，ｊ），Ｔ（ｉ，ｊ）＋Ｄ（ｉ，ｊ）］から極端に遠い位置にあるような［Ｍ２（ｌ），ＴＳ２（ｌ），ＴＥ２（ｌ）］は、検索にかからないようにできるため、検索精度（適合率）が高まる。なお、区間を広げる際に、しきい値ΔＴを適宜設定することで出力される一次メディアデータの数量を調整してもよい。
【００４３】
さらに、上述のΔＴを固定値ではなく、二次メディアデータの内容構造に応じて決定することも可能である。二次メディアデータの内容構造とは、話題、話者、映像シーン等の変化である。検索キーと一致する二次メディアデータの区間として［ｉ，Ｔ（ｉ，ｊ），Ｔ（ｉ，ｊ）＋Ｄ（ｉ，ｊ）］が見つかったとき、その区間を［ｉ，Ｔ（ｉ，ｊ）−ΔＴｂ，Ｔ（ｉ，ｊ）＋Ｄ（ｉ，ｊ）＋ΔＴｆ］と広げる（ただし、ΔＴｂ、ΔＴｆは正数）。広げる際、Ｔ（ｉ，ｊ）−ΔＴｂおよびＴ（ｉ，ｊ）＋Ｄ（ｉ，ｊ）＋ΔＴｆが話題、話者、映像シーンの変化点となるようにΔＴｂ、ΔＴｆを決定する。これらの変化点は、音声認識手段１０５が二次メディアデータの音声認識結果を作成する際に同時に作成して、認識結果格納手段１０１に格納しておけばよい。
【００４４】
メディアデータの話題、話者、映像シーンの変化点は、人手で抽出してもよいし、自動的に求める方法も種々知られている。例えば、話題に関しては、認識結果の単語列の一定長さ区間内で単語ごとの出現頻度を求め、これを話題の特徴ベクトルとし、この特徴ベクトルが急激に変化する時刻を話題の変化点として求めることができる。また、話者に関しては、音声認識でよく知られたケプストラム特徴量を音声信号から計算し、音声信号の一定長さ区間での平均を話者の特徴ベクトルとし、話者の特徴ベクトルが急激に変化する時刻を話者の変化点として求めることができる。映像シーンの変化点は、各映像フレームの画素値ヒストグラム、すなわち画素値の頻度分布が大きく変動する時刻として検出することができる。
【００４５】
なお、通常は、二次メディアデータ検索手段１０７が複数個の二次メディアデータインデクスと区間を出力するケースが多いと考えられる。この場合は、一次メディアデータ検索手段１０６はその各々について上述の手順を踏み、複数個の一次メディアデータインデクスまたは一次メディアデータの内部の位置を出力する。
【００４６】
次に、以上述べた一次メディアデータの検索手続きについて図を用いて説明する。図３は、本発明の第２の実施形態における一次メディアデータの検索手続きを模式的に示した図である。図３において、一次メディアデータＡ１の区間ａ１、一次メディアデータＡ３の区間ａ３、および一次メディアデータＡ４の区間ａ４が編集されて、二次メディアデータに含まれている。含まれる際の時間的対応関係は、リンク情報としてリンク情報格納手段１０３に保持されている。
【００４７】
このような状況で、音声認識手段１０５は、二次メディアデータに対して音声認識を行い、二次メディアデータとの時間的な対応が付いた音声認識結果「＊＊＊＊ＸＹＺ＊＊＊＊＊ＸＹＺ＊＊＊」を認識結果格納手段１０１に格納する。検索キー「ＸＹＺ」が入力された際に、二次メディア検索手段１０７は、検索キーと一致する部分（ＸＹＺ）を音声認識結果から探し出し、探し出された部分と対応する二次メディアデータの区間Ｂ３、区間Ｂ４を特定する。一次メディア検索手段１０６は、二次メディアデータの区間Ｂ３、区間Ｂ４とそれぞれ対応する一次メディアデータＡ３の区間ｂ３、および一次メディアデータＡ４の区間ｂ４を、リンク情報をたどることにより特定し、検索の最終結果として出力することができる。
【００４８】
［第２の実施形態］
次に、本発明の第２の実施形態について、図面を参照して説明する。図４は、本発明の第２の実施形態に係るメディア検索装置のブロック図である。図４において、メディア検索装置は、一次メディアデータ格納手段５０４と、二次メディアデータ格納手段５０２と、リンク情報格納手段５０３と、音声認識手段５０５と、認識結果格納手段５０１と、原稿時刻付与手段５１０と、時刻付き原稿格納手段５０９と、検索キー入力手段５０８と、二次メディアデータ検索手段５０７と、一次メディアデータ検索手段５０６とを備える。
【００４９】
一次メディアデータ格納手段５０４は、任意かつ多数のメディアデータ、すなわち一次メディアを格納する。二次メディアデータ格納手段５０２は、一次メディアデータを編集し組み合わせて作成された多数の二次的なメディアデータ、すなわち二次メディアデータを格納する。リンク情報格納手段５０３は、一次メディアデータが二次メディアデータのどの位置に使われているかを示すリンク情報を格納する。音声認識手段５０５は、二次メディアデータに対して音声認識を行い、二次メディアデータの各時刻における音声認識結果文字列を出力する。認識結果格納手段５０１は、音声認識手段５０５が出力する音声認識結果文字列を二次メディアデータの時刻と対応付けて格納する。原稿時刻付与手段５１０は、二次メディアデータ制作時に使用されたナレーション原稿や台本等のテキストデータがある場合に、このテキストデータと認識結果格納手段５０１に格納された音声認識結果とのマッチングを行い、原稿や台本等のテキストデータと二次メディアデータとの時間的対応関係を求める。時刻付き原稿格納手段５０９は、原稿時刻付与手段５１０の出力である、原稿や台本等のテキストデータと二次メディアデータとの時間的対応関係を、テキストデータとともに格納する。検索キー入力手段５０８は、検索のための検索キーの入力を受け付ける。二次メディアデータ検索手段５０７は、認識結果格納手段５０１に格納された認識結果文字列と検索キーとのマッチングを行い、検索キーを含む二次メディアデータおよび二次メディアデータ内で検索キーが現れる位置を特定する。一次メディアデータ検索手段５０６は、二次メディアデータ検索手段５０７が特定した二次メディアデータおよび二次メディアデータの内部の位置を入力として、リンク情報格納手段５０３が持つリンク情報に従って、入力に対応する一次メディアデータおよび一次メディアデータの内部の位置を算出し出力する。なお、各々の手段は、それぞれ計算機上に記憶されたプログラムとして動作させることによっても実現可能である。
【００５０】
次に、第２の実施形態に係るメディア検索装置の動作について、順を追って説明する。
【００５１】
なお、認識結果格納手段５０１、二次メディアデータ格納手段５０２、リンク情報格納手段５０３、一次メディアデータ格納手段５０４、音声認識手段５０５、一次メディアデータ検索手段５０６、検索キー入力手段５０８は、それぞれ本発明の第一の実施の形態における認識結果格納手段１０１、二次メディアデータ格納手段１０２、リンク情報格納手段１０３、一次メディアデータ格納手段１０４、音声認識手段１０５、一次メディアデータ検索手段１０６、検索キー入力手段１０８と同じものであって、本発明の第一の実施の形態で説明した動作と同じ動作をする。
【００５２】
原稿時刻付与手段５１０は、二次メディアデータ制作時に使用されたナレーション原稿や台本等のテキストデータと、認識結果格納手段５０１に格納された認識結果文字列とでマッチングを行い、同じく認識結果格納手段５０１に格納された認識結果文字列と二次メディアデータとの時間的対応関係を用いて、テキストデータと二次メディアデータの間の時間的対応関係を求める。所与の２つの文字列間の対応関係を求める方法については種々知られている。例えば、特開２０００−２７０２６３号公報（特許文献２参照）記載の自動字幕番組制作システムには、アナウンスの音声の進行と同期して、提示単位字幕文の作成、及びその始点／終点の各々に対応する高精度のタイミング情報付与の自動化について記載されている。本実施の形態の場合、２つの文字列間の対応関係さえ求まれば、そのうちの１つの文字列すなわち認識結果文字列と二次メディアデータとの時間的対応関係がわかっているので、テキストデータと二次メディアデータとの時間的対応関係も容易に求めることができる。
【００５３】
なお、原稿や台本等のテキストデータと二次メディアデータとの時間的対応関係を求めたい場合、上述のように音声認識結果を媒介として利用する方法の他に、前述のヴィタビ（Ｖｉｔｅｒｂｉ）アルゴリズムを用いて、原稿や台本等のテキストデータと二次メディアデータ音声信号との時間的対応関係を直接求めてしまう方法も可能である。
【００５４】
時刻付き原稿格納手段５０９は、原稿時刻付与手段５１０が出力した、テキストデータと二次メディアデータとの時間的対応関係を、テキストデータとともに受け取り、格納する。格納される情報の形式は、認識結果格納手段５０１と同様に、単語と単語の二次メディアデータ上での位置を示す時刻数値との多数の組からなる集合である。
【００５５】
二次メディアデータ検索手段５０７は、検索キー入力手段５０８から受け取った検索キーと、認識結果格納手段５０１に格納された音声認識結果および時刻付き原稿格納手段５０９に格納押された原稿や台本等のテキストデータとのマッチングを行い、二次メディアデータ内で検索キーと一致する部分をすべて検出し、一次メディアデータ検索手段５０６に送る。例えば、検索キーを単語Ｖとすると、二次メディアデータ検索手段５０７は、Ｖ＝Ｗ（ｉ，ｊ）となるすべての二次メディアデータのインデクスｉおよび区間Ｔ（ｉ，ｊ）〜Ｔ（ｉ，ｊ）＋Ｄ（ｉ，ｊ）を、認識結果格納手段５０１および時刻付き原稿格納手段５０９から検出し、一次メディアデータ検索手段５０６に送る。
【００５６】
次に、以上述べた一次メディアデータの検索手続きについて図を用いて説明する。図５は、本発明の第２の実施形態における一次メディアデータの検索手続きを模式的に示した図である。一次メディアデータＡ６の区間ａ６、一次メディアデータＡ３の区間ａ３、および一次メディアデータＡ４の区間ａ４が、編集されて、二次メディアデータに含まれている。含まれる際の時間的対応関係は、リンク情報としてリンク情報格納手段５０３に保持されている。
【００５７】
このような状況で、音声認識手段５０５は、二次メディアデータに対して音声認識を行い、二次メディアデータとの時間的な対応が付いた音声認識結果「…＊＊＊＊ＸＹＺ＊＊＊＊＊ＸＹＺ＊＊＊…」を認識結果格納手段５０１に格納する。また、原稿時刻付与手段５１０は、二次メディアデータに対して原稿や台本等のテキストデータに基づいて二次メディアデータとの時間的な対応が付いた時刻付き原稿「＊＊＊＊＊ＸＹＺ＊＊＊＊＊」を時刻付き原稿格納手段５０９に格納する。検索キー「ＸＹＺ」が入力された際に、二次メディア検索手段５０７は、検索キーと一致する部分（ＸＹＺ）を音声認識結果および時刻付き原稿から探し出し、探し出された部分と対応する二次メディアデータの区間Ｂ６、区間Ｂ３、および区間Ｂ４を特定する。一次メディア検索手段５０６は、二次メディアデータの区間Ｂ６、区間Ｂ３、および区間Ｂ４とそれぞれ対応する一次メディアデータＡ６の区間ｂ６、一次メディアデータＡ３の区間ｂ３、および一次メディアデータＡ４の区間ｂ４を、リンク情報をたどることにより特定し、検索の最終結果として出力することができる。
【００５８】
第二の実施の形態では第一の実施の形態における検索手続きと比べ、検索キーに基づく二次メディアデータの検索範囲を原稿や台本等のテキストデータにまで広げ、原稿や台本等のテキストデータを検索に利用している点が異なる。
【００５９】
［第３の実施形態］
次に、本発明の第３の実施形態について、図面を参照して説明する。図６は、本発明の第３の実施形態に係るメディア検索装置のブロック図である。図６において、メディア検索装置は、一次メディアデータ格納手段７０４と、二次メディアデータ格納手段７０２と、音声認識手段７０５と、認識結果格納手段７０１と、検索キー入力手段７０８と、二次メディアデータ検索手段７０７と、一次メディアデータ検索手段７０６とを備える。
【００６０】
一次メディアデータ格納手段７０４は、任意かつ多数のメディアデータ、すなわち一次メディアを格納する。二次メディアデータ格納手段７０２は、一次メディアデータ格納手段７０４には全く同じものが必ずしも含まれてない不特定の一次メディアデータを編集し組み合わせて作成された多数の二次メディアデータを格納する。音声認識手段７０５は、二次メディアデータに対して音声認識を行い、二次メディアデータの各時刻における音声認識結果文字列を出力する。認識結果格納手段７０１は、音声認識手段７０５が出力する音声認識結果文字列を二次メディアデータの時刻と対応付けて格納する。検索キー入力手段７０８は、検索のための検索キーの入力を受け付ける。二次メディアデータ検索手段７０７は、認識結果格納手段７０１に格納された認識結果文字列と検索キーとのマッチングを行い、検索キーを含む二次メディアデータおよび二次メディアデータ内で検索キーが現れる位置を特定する。一次メディアデータ検索手段７０６は、二次メディアデータ検索手段７０７が特定した二次メディアデータ内の区間に含まれる映像や音声を新たな検索キーとして、映像や音声の類似性に基づいて一次メディアデータ格納手段７０４から一次メディアデータを検索し出力する。なお、各々の手段は、それぞれ計算機上に記憶されたプログラムとして動作させることによっても実現可能である。
【００６１】
以下、第３の実施形態に係るメディア検索装置の動作について、順を追って説明する。
【００６２】
なお、認識結果格納手段７０１、二次メディアデータ格納手段７０２、一次メディアデータ格納手段７０４、音声認識手段７０５、二次メディアデータ検索手段７０７、検索キー入力手段７０８は、それぞれ本発明の第一の実施の形態における認識結果格納手段１０１、二次メディアデータ格納手段１０２、一次メディアデータ格納手段１０４、音声認識手段１０５、二次メディアデータ検索手段１０７、検索キー入力手段１０８と同じもので、本発明の第一の実施の形態で述べた動作と同じ動作をする。
【００６３】
ただし、一次メディアデータ格納手段７０４に格納される一次メディアデータは、必ずしも二次メディアデータ格納手段７０２に格納された二次メディアデータ中で使用されていなくてもよいという点で、検索対象となるメディアデータに関する制約は、本発明の第一の実施の形態よりも緩い。さらに、一次メディアデータ格納手段７０４に格納される一次メディアデータは、不図示のネットワーク上に存在する不特定のあらゆるメディアデータであってもよい。
【００６４】
一次メディアデータ検索手段７０６は、検索キー入力手段７０８より入力された検索キーと一致する二次メディアデータの区間を二次メディアデータ検索手段７０７より受け取り、その区間の映像や音声を特徴量に変換する。ここで特徴量とは、もとの映像や音声の持つ性質を保ちつつ、より少数のデータで表現できるようなパラメータセットである。現在、映像や音声の検索、分類、認識の分野で広く使われている特徴量は、極めて多岐にわたっており、すべてを列挙することはできないが、ここでは広く知られた特徴量の中から、目的に応じて適宜選択すればよい。一例として、映像の特徴量には、映像フレームを縦横に各々数個の領域に分割し、各領域の色の分布ヒストグラムや物体境界（エッジ）の方向ヒストグラムを計算したものの時系列、あるいはある区間全体にわたる平均等を用いることができる。また、音声の特徴量には、スペクトルパワーやケプストラムの時系列、あるいはその区間全体にわたる平均等を用いることが考えられる。
【００６５】
一次メディアデータ検索手段７０６は、さらに、一次メディアデータ格納手段７０４に格納された各メディアデータに対しても、同じ手順によって特徴量を計算して、二次メディアデータの区間と一次メディアデータを特徴量レベルで比較し、類似度を計算する。ここで類似度とは、特徴量が静的なベクトルであれば、例えばユークリッド距離（その符号を反転したもの）として容易に計算できる。また、特徴量が時系列、すなわちベクトルの系列であるような場合でも、動的計画法に基づくマッチング、すなわちＤＰマッチングにより特徴量間の距離が計算できるので、その符号を反転したものを類似度と定義すればよい。
【００６６】
なお、一次メディアデータに関する特徴量計算は、検索のたびに行う必要はなく、各一次メディアデータに対して一度だけ行っておけば、以後は計算の結果をくり返し使用することができる。
【００６７】
最終的に、一次メディアデータ検索手段７０６は、二次メディアデータの区間ともっとも類似度の高い１個あるいは複数個の一次メディアデータを、検索結果として出力する。
【００６８】
第３の実施形態に係るメディア検索装置は、以上の説明のように動作するので、一次メディアデータのある部分と二次メディアデータのある部分が完全に一致していなくてもデータを検索することができるようになる。例えば、春の富士山の映像と夏の富士山の映像とのように絵の構図が似ていればデータも似ていると判定できる。また、同じ人が昨日話しているシーンと今日話しているシーンとのように声の性質が似ていればデータが似ていると判定できることになる。すなわち、二次メディアデータに一次メディアデータのある部分が必ずしも含まれていない場合であっても、類似度を計算して類似度の高いものを選択することで検索することができる。
【００６９】
［第４の実施形態］
次に、本発明の第４の実施形態について、図面を参照して説明する。図７は、本発明の第４の実施形態に係るメディア検索装置のブロック図である。図７において、メディア検索装置は、一次メディアデータ格納手段８０４と、二次メディアデータ格納手段８０２と、リンク情報格納手段８０３と、背景雑音減算手段８０９と、音声認識手段８０５と、認識結果格納手段８０１と、検索キー入力手段８０８と、二次メディアデータ検索手段８０７と、一次メディアデータ検索手段８０６とを備える。
【００７０】
一次メディアデータ格納手段８０４は、任意かつ多数のメディアデータ、すなわち一次メディアを格納する。二次メディアデータ格納手段８０２は、一次メディアデータを編集し組み合わせて作成された多数の二次的なメディアデータ、すなわち二次メディアデータを格納する。リンク情報格納手段８０３は、一次メディアデータが二次メディアデータのどの位置に使われているかを示すリンク情報を格納する。背景雑音減算手段８０９は、リンク情報を利用して二次メディアデータ中に含まれる一次メディアデータの音声を二次メディアデータから減算する。音声認識手段８０５は、背景雑音減算手段８０９によって背景雑音が除去された二次メディアデータを受け取り、これに対して音声認識を行い、二次メディアデータの各時刻における音声認識結果文字列を出力する。認識結果格納手段８０１は、音声認識手段８０５が出力する音声認識結果文字列を二次メディアデータの時刻と対応付けて格納する。検索キー入力手段８０８は、検索のための検索キーの入力を受け付ける。二次メディアデータ検索手段８０７は、認識結果格納手段８０１に格納された認識結果文字列と検索キーとのマッチングを行い、検索キーを含む二次メディアデータおよび二次メディアデータ内で検索キーが現れる位置を特定する。一次メディアデータ検索手段８０６は、二次メディアデータ検索手段８０７が特定した二次メディアデータおよび二次メディアデータの内部の位置を入力として、リンク情報格納手段８０３が持つリンク情報に従って、入力に対応する一次メディアデータおよび一次メディアデータの内部の位置を算出し出力する。各々の手段は、それぞれ計算機上に記憶されたプログラムとして動作させることにより実現可能である。
【００７１】
以下、第４の実施形態に係るメディア検索装置の動作について、順を追って説明する。
【００７２】
まず、認識結果格納手段８０１、二次メディアデータ格納手段８０２、リンク情報格納手段８０３、一次メディアデータ格納手段８０４、一次メディアデータ検索手段８０６、二次メディアデータ検索手段８０７、検索キー入力手段８０８は、それぞれ本発明の第一の実施の形態における認識結果格納手段１０１、二次メディアデータ格納手段１０２、リンク情報格納手段１０３、一次メディアデータ格納手段１０４、一次メディアデータ検索手段１０６、二次メディアデータ検索手段１０７、検索キー入力手段１０８と同じもので、本発明の第一の実施の形態で述べたのと同じ動作をする。
【００７３】
二次メディアデータ格納手段８０２に格納された二次メディアデータの音声が２種類の音声信号、すなわち、一次メディアデータに元々含まれていた音声と、ナレーション音声のような二次メディアデータ固有の音声との重ね合わせであると仮定する。その上で背景雑音減算手段８０９は、一次メディアデータに元々含まれていた音声を背景雑音とした背景雑音除去を、二次メディアデータに対して行う。背景雑音除去の方法について次に説明する。
【００７４】
今、一次メディアデータと、二次メディアデータの対応する区間の音声信号をそれぞれＳ１（ｔ）、Ｓ２（ｔ）とする。一次メディアデータと二次メディアデータの対応する区間は、リンク情報格納手段８０３に格納されたリンク情報
［Ｍ１（ｌ），ＴＳ１（ｌ），ＴＥ１（ｌ）］←→［Ｍ２（ｌ），ＴＳ２（ｌ），ＴＥ２（ｌ）］（ｌ＝１，２，３，…）
から知ることができる。なお、ｔは、時刻インデクスであり、ｔ＝０、ｔ＝Ｔがそれぞれ一次メディアデータＭ１（ｌ）の時刻ＴＳ１（ｌ）、ＴＥ１（ｌ）、および二次メディアデータＭ２（ｌ）の時刻ＴＳ２（ｌ）、ＴＥ２（ｌ）に対応しているとする。一次および二次メディアデータの区間長ＴＥ１（ｌ）−ＴＳ１（ｌ）およびＴＥ２（ｌ）−ＴＳ２（ｌ）は等しいと仮定している。このとき、背景雑音除去によって得られる二次メディアデータ固有の音声信号Ｓ２’（ｔ）は、Ｓ２’（ｔ）＝Ｓ２（ｔ）−Ｓ１（ｔ）により算出することができる。ただし、ｔ∈［０，Ｔ］である。
【００７５】
なお、上述の背景雑音除去の方法では、一次メディアデータに元々含まれていた音声信号Ｓ１（ｔ）と二次メディアデータ固有の音声信号Ｓ２’（ｔ）とが１：１の比率で重ね合わせられて二次メディアデータの音声信号Ｓ２（ｔ）が生成されると仮定しているが、一般にはそうではないケースもあり得る。そのようなケース、例えばα：１（αは正定数）で重ね合わせられている場合、すなわち、一次メディアデータの音声信号が振幅をα倍に増幅して二次メディアデータに挿入されている場合は、Ｓ２’（ｔ）＝Ｓ２（ｔ）−α×Ｓ１（ｔ）によって二次メディアデータの背景雑音除去を行えばよい。
【００７６】
重ね合わせ比率αの値が未知の場合は、αの値を自動的に決定する必要があるが、例えばＳ２’（ｔ）のＳＮ比（信号雑音比）が大きくなるように決めればよい。すなわち、音声信号Ｓ１（ｔ）、Ｓ２（ｔ）に対応する対数パワー（局所スペクトルの周波数領域での積分値）をそれぞれＰ１（ｔ）、Ｐ２（ｔ）とすると、ｍｉｎｔ｛Ｐ２（ｔ）−α×Ｐ１（ｔ）｝＝εとなるようにαを決めればよい。ここに、εは十分小さい正の定数で、ｍｉｎｔは、ｔに関する最小値を意味する。
【００７７】
また、αの値を自動的に決定する別の方法として、二次メディアデータ音声信号Ｓ２（ｔ）の一部の区間、例えば先頭のΔｔ秒の区間に二次メディアデータ固有の音声が存在しないことを想定して、この区間を使ってαを推定することが考えられる。この場合、Ｓ１（ｔ）およびＳ２（ｔ）の区間ｔ∈［０，ΔＴ］にわたる積分値を計算し、それぞれの積分値の比をαとする。
【００７８】
音声認識手段８０５は、背景雑音除去が施された二次メディアデータを背景雑音減算手段８０９から受け取り、これらに対して音声認識を行って、認識結果を認識結果格納手段８０１に格納する。
【００７９】
次に、本発明に係るメディア検索プログラムについて、図面を参照して説明する。図１は、本発明に係るメディア検索装置の構成図である。図１において、メディア検索装置は、記憶部１０、データ処理部２０、入出力部３０を備える。記憶部１０は、メディア検索プログラムを記録した記録媒体１１、認識結果記録媒体１３、二次メディアデータ記録媒体１４、リンク情報記録媒体１５、一次メディアデータ記録媒体１６を備える。記録媒体１１は、ＣＤ−ＲＯＭ、磁気ディスク、半導体メモリその他の記録媒体であってよく、また、メディア検索プログラムは、不図示のネットワークを介して流通する場合も含む。
【００８０】
メディア検索プログラムは、記録媒体１１からデータ処理部２０に読み込まれ、メディア検索装置における各手段を機能させる。また、入出力部３０は、メディア検索装置におけるマンマシンインタフェースを司り、検索時の検索キーの入力などを行う。認識結果記録媒体１３、二次メディアデータ記録媒体１４、リンク情報記録媒体１５、一次メディアデータ記録媒体１６は、磁気ディスク、半導体メモリその他の記録媒体であってよく、メディア検索装置における各種データを記録する。
【００８１】
データ処理部２０は、メディア検索プログラムの制御により、第一の実施の形態における音声認識手段１０５、一次メディアデータ検索手段１０６、二次メディアデータ検索手段１０７、検索キー入力手段１０８による処理を実行する。また、処理を実行するにあたり、認識結果格納手段１０１、二次メディアデータ格納手段１０２、リンク情報格納手段１０３、一次メディアデータ格納手段１０４とそれぞれ同等の情報を有する認識結果記録媒体１３、二次メディアデータ記録媒体１４、リンク情報記録媒体１５、一次メディアデータ記録媒体１６を参照することでメディアデータの検索結果を出力する。
【００８２】
なお、一次メディアデータの編集、二次メディアデータの作成、および一次メディアデータの各区間と二次メディアデータの各区間との対応関係を表すリンク情報の作成は、データ処理部２０で実行されるようにしても良い。また、データ処理部２０とは異なる不図示の編集装置等において作成し、ネットワークを介して、あるいはオフラインによって、一次メディアデータ記録媒体１６、二次メディアデータ記録媒体１４、リンク情報記録媒体１５に記録しておいてもよい。さらに、二次メディアデータを文字列で表すための認識結果を編集装置等で得て、認識結果をネットワークを介して、あるいはオフラインによって、認識結果記録媒体１３に記録しておいてもよい。
【００８３】
以上の説明では第１の実施形態について説明したが、記憶部１０に他の実施の形態における記録媒体を備え、記録媒体１１に他の実施の形態におけるメディア検索プログラムを記録することで他の実施の形態における処理を同様の構成において実現できることは言うまでも無い。
【００８４】
【発明の効果】
以上説明したように、一般に、任意のメディアデータは背景雑音や自由な話し言葉を多く含んでいる、あるいは音声が一切含まれない、といった理由により、正確な音声認識が困難であり、したがって音声認識結果と検索キーとのマッチングに基づくメディア検索が困難であったが、このような任意のメディアデータを一次メディアデータとして用いて制作された二次メディアデータは、丁寧な発声で読み上げられたナレーション部分等、正確な音声認識が比較的容易な個所を多く含んでいる。本発明によれば、音声認識を利用した検索が困難な一次メディアデータに対して、検索が比較的容易な二次メディアデータを介して検索することができるため、高い検索精度を実現することができる。
【図面の簡単な説明】
【図１】本発明に係るメディア検索装置の構成図である。
【図２】本発明の第１の実施形態に係るメディア検索装置のブロック図である。
【図３】本発明の第１の実施形態における一次メディアデータの検索手続きを模式的に示した図である。
【図４】本発明の第２の実施形態に係るメディア検索装置のブロック図である。
【図５】本発明の第２の実施形態における一次メディアデータの検索手続きを模式的に示した図である。
【図６】本発明の第３の実施形態に係るメディア検索装置のブロック図である。
【図７】本発明の第４の実施形態に係るメディア検索装置のブロック図である。
【図８】従来の技術に基づくメディア検索装置のブロック図である。
【符号の説明】
１０記憶部
１１記録媒体
１３認識結果記録媒体
１４二次メディアデータ記録媒体
１５リンク情報記録媒体
１６一次メディアデータ記録媒体
２０データ処理部
３０入出力部
１０１、５０１、７０１、８０１認識結果格納手段
１０２、５０２、７０２、８０２二次メディアデータ格納手段
１０３、５０３、８０３リンク情報格納手段
１０４、５０４、７０４、８０４一次メディアデータ格納手段
１０５、５０５、７０５、８０５音声認識手段
１０６、５０６、７０６、８０６一次メディアデータ検索手段
１０７、５０７、７０７、８０７二次メディアデータ検索手段
１０８、５０８、７０８、８０８検索キー入力手段
５０９時刻付き原稿格納手段
５１０原稿時刻付与手段
８０９背景雑音減算手段

Claims

１種類以上のメディアのデータを含む第１のメディアデータを格納する一次メディアデータ格納手段と、
前記一次メディアデータ格納手段内の複数の前記第１のメディアデータの一部または全部の区間を含むと共に前記第１のメディアデータと比較して認識の容易な第２のメディアデータ上のある区間が前記第１のメディアデータ上のどの区間に対応して配置されているかを示すリンク情報を格納するリンク情報格納手段と、
前記第２のメディアデータの各区間を検索対象となる文字に対応させて認識し、前記第２のメディアデータの所要区間を前記文字の組となる文字列で表して格納する認識結果格納手段と、
前記認識結果格納手段に格納された文字列中の部分と検索のために入力された文字列とが一致する前記第２のメディアデータの区間を特定する二次メディアデータ検索手段と、
前記リンク情報格納手段が持つリンク情報に従って前記特定された区間に対応する第１のメディアデータまたは第１のメディアデータ上の区間を出力する一次メディアデータ検索手段と、
を備えることを特徴とするメディア検索装置。
１種類以上のメディアのデータを含む第１のメディアデータを格納する一次メディアデータ格納手段と、
前記一次メディアデータ格納手段内の複数の前記第１のメディアデータを編集して作成されると共に前記第１のメディアデータと比較して音声認識の容易な第２のメディアデータを格納する二次メディアデータ格納手段と、
前記第２のメディアデータ上のある区間が前記第１のメディアデータ上のどの区間に対応して配置されているかを示すリンク情報を格納するリンク情報格納手段と、
前記第２のメディアデータに対して音声認識を行い、認識結果を音声認識結果文字列として前記第２のメディアデータの区間に対応させて出力する音声認識手段と、
前記音声認識結果文字列を前記第２のメディアデータの区間に対応付けて格納する認識結果格納手段と、
検索のための検索キー文字列を入力する検索キー入力手段と、
前記認識結果格納手段に格納された音声認識結果文字列と前記検索キー文字列とのマッチングを行い、前記検索キー文字列が存在する第２のメディアデータ上の区間を特定する二次メディアデータ検索手段と、
前記二次メディアデータ検索手段が特定した第２のメディアデータ上の区間を入力として、前記リンク情報格納手段が持つリンク情報に従って前記区間に対応する第１のメディアデータまたは第１のメディアデータ上の区間を出力する一次メディアデータ検索手段と、
を備えることを特徴とするメディア検索装置。
前記一次メディアデータ検索手段が、前記リンク情報格納手段が有するリンク情報に従って第２のメディアデータ上の区間から第１のメディアデータを検索するに際し、前記第２のメディアデータ上の区間をＴ〜Ｔ＋Ｄとする時、Ｔ−ΔＴｂ〜Ｔ＋Ｄ＋ΔＴｆ（ΔＴｂ、ΔＴｆは正数であって等しくとも良い）の区間において、前記第１のメディアデータを検索することを特徴とする請求項２記載のメディア検索装置。
前記一次メディアデータ検索手段が前記第１のメディアデータを検索するために前記第２のメディアデータ上の区間Ｔ〜Ｔ＋Ｄの両端を前記第２のメディアデータにおける所定の変化点とすることを特徴とする請求項３記載のメディア検索装置。
前記所定の変化点は、話題の変化点であることを特徴とする請求項４記載のメディア検索装置。
前記所定の変化点は、話者の交替した点であることを特徴とする請求項４記載のメディア検索装置。
前記所定の変化点は、映像シーンの変化点であることを特徴とする請求項４記載のメディア検索装置。
前記音声認識手段が前記第２のメディアデータに対して音声認識を行う際に、前記リンク情報および前記第１のメディアデータの音声データを利用して、前記第２のメディアデータに重畳した前記第１のメディアデータの音声データを背景雑音として除去する背景雑音減算手段を備えることを特徴とする請求項２記載のメディア検索装置。
前記第２のメディアデータの作成時に使用されたナレーション原稿や台本であるテキストデータと、前記第２のメディアデータ上の区間との対応付けを行う原稿時刻付与手段と、
前記原稿時刻付与手段が出力する前記対応付けの情報を前記テキストデータとともに格納する時刻付き原稿格納手段とを備え、
前記二次メディアデータ検索手段は、前記認識結果格納手段に格納された音声認識結果文字列および前記時刻付き原稿格納手段に格納されたテキストデータと前記検索キー文字列との間でマッチングを行い、前記検索キー文字列が存在する第２のメディアデータ上の区間を特定することを特徴とする請求項２記載のメディア検索装置。
前記原稿時刻付与手段が、前記テキストデータと前記認識結果格納手段に格納された音声認識結果文字列との対応関係を求め、前記対応関係に基づき前記テキストデータと前記第２のメディアデータとの時刻の対応関係を求めることを特徴とする請求項９記載のメディア検索装置。
１種類以上のメディアのデータを含む第１のメディアデータを格納する一次メディアデータ格納手段と、
１種類以上のメディアのデータを含む任意の複数のメディアデータを編集して作成されると共に前記第１のメディアデータと比較して音声認識の容易な第２のメディアデータを格納する二次メディアデータ格納手段と、
前記第２のメディアデータに対して音声認識を行い、認識結果を音声認識結果文字列として前記第２のメディアデータの区間に対応させて出力する音声認識手段と、
前記音声認識結果文字列を前記第２のメディアデータの区間に対応付けて格納する認識結果格納手段と、
検索のための検索キー文字列を入力する検索キー入力手段と、
前記認識結果格納手段に格納された音声認識結果文字列と前記検索キー文字列とのマッチングを行い、前記検索キー文字列が存在する第２のメディアデータ上の区間を特定する二次メディアデータ検索手段と、
前記二次メディアデータ検索手段が特定した第２のメディアデータ上の区間の映像的あるいは音声的特徴と、前記一次メディアデータ格納手段に格納された第１のメディアデータの映像的あるいは音声的特徴とを比較し、前記第２のメディアデータ上の区間と類似した映像あるいは音声を一次メディアデータ格納手段に格納された第１のメディアデータから検索し出力する一次メディアデータ検索手段と、
を備えることを特徴とするメディア検索装置。
メディア検索装置を構成するコンピュータに、
１種類以上のメディアのデータを含む複数の第１のメディアデータの一部または全部の区間を含むと共に前記第１のメディアデータと比較して音声認識の容易な第２のメディアデータに対して音声認識を行い、音声認識結果文字列と前記第２のメディアデータ上の時刻との対応関係を記憶する処理と、
外部から入力される検索キー文字列を入力する処理と、
前記検索キー文字列と前記音声認識結果文字列とのマッチングを行い、前記検索キー文字列と一致する前記音声認識結果文字列中の部分に対応する第２のメディアデータ上の区間を同定する処理と、
前記第２のメディアデータ上の区間と対応する前記第１のメディアデータあるいは前記第１のメディアデータ上の区間を、あらかじめ用意された前記第１のメディアデータと前記第２メディアデータとの対応関係を表すリンク情報を参照して同定し、前記第１のメディアデータあるいは前記第１のメディアデータ上の区間を出力する処理と、
を実行させるプログラム。
メディア検索装置を構成するコンピュータに、
１種類以上のメディアのデータを含む第１のメディアデータを格納する処理と、
格納された複数の前記第１のメディアデータを編集して作成されると共に前記第１のメディアデータと比較して音声認識の容易な第２のメディアデータを格納する処理と、
前記第２のメディアデータ上のある区間が前記第１のメディアデータ上のどの区間に対応して配置されているかを示すリンク情報を格納する処理と、
前記第２のメディアデータに対して音声認識を行い、認識結果を音声認識結果文字列として前記第２のメディアデータの区間に対応させて出力する処理と、
前記音声認識結果文字列を前記第２のメディアデータの区間に対応付けて格納する処理と、
検索のための検索キー文字列を入力する処理と、
格納された前記音声認識結果文字列と前記検索キー文字列とのマッチングを行い、前記検索キー文字列が存在する第２のメディアデータ上の区間を特定する処理と、
前記特定した第２のメディアデータ上の区間を入力として、前記リンク情報に従って前記区間に対応する第１のメディアデータまたは第１のメディアデータ上の区間を出力する処理と、
を実行させるプログラム。