JP2010245853A

JP2010245853A - 動画インデクシング方法及び動画再生装置

Info

Publication number: JP2010245853A
Application number: JP2009092572A
Authority: JP
Inventors: Kazue Hiroi; 和重廣井; Masayuki Chikamatsu; 昌幸親松; Maki Furui; 眞樹古井; Kenji Katsumata; 賢治勝又; Hidekazu Takeda; 秀和武田; Takehito Kishi; 岳人岸; Takanori Eda; 隆則江田
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2009-04-07
Filing date: 2009-04-07
Publication date: 2010-10-28
Also published as: US20100257156A1; CN101859586A

Abstract

【課題】ハードウェアリソースの負荷を抑えるインデクシング処理に関する装置または方法を提供する。
【解決手段】動画インデクシング方法は、動画シーンに関する文字データを入力し、動画のジャンルを判別し、判別した動画ジャンルに固有な定型句キーワード辞書と前記入力した動画シーンに関する文字データとを基に動画データのシーンに対する文字列を符号化し、提示するキーワードを規定した辞書とシーン文字列符号化データとに基づいて、動画データのシーンに対するインデクシングデータを生成する、構成とする。また、動画データに対して固有の辞書を生成し、該生成した動画固有辞書と入力した動画シーンの文字データを基に動画データのシーンに対する文字列を符号化し、該シーン文字列符号化データと生成した動画固有辞書とに基づいて、動画データのシーンに対するインデクシングデータを生成する、構成とする。
【選択図】図１９

Description

本発明は、動画データのシーンにインデックスを付与するインデクシング方法、及び動画再生装置に係り、特に、動画データを記録再生可能なテレビ、レコーダ、及びＰＣの他、動画データにインデックスを付与して配信する動画配信サービスやインデクスを利用したシーンを選択する動画データ再生装置に関する。

地上波デジタル、ＢＳ、ＣＳ、ネット動画等、視聴可能な動画データが増加している。加えて、ＨＤＤの大容量化及び動画圧縮技術の進化により、ユーザが保有する機器への動画データ保有可能量が増えている。しかしながら、どんなに視聴可能な動画データが多くなっても、ユーザにとって視聴可能な時間自体は変わらず、限りがあるため、動画データを効率よく視聴する仕組みが必要となる。

このような仕組みを提供する技術として、例えば、非特許文献１や特許文献１で開示されているように、動画データの要約動画を生成・再生する技術が知られている。

また、特許文献２に開示されているように、動画データに付随する字幕データを保存し、ユーザから入力された文字列を字幕として含むシーンを検索して表示する技術が開示されている。

さらに、特許文献３では、動画データに付随する字幕データからキーワードを抽出し、動画データのシーンに見出しを付けることで、ユーザが所望のシーンを視聴しやすくする技術が開示されている。

さらに、特許文献４では、特に動画データとして、放送番組を対象として、その放送番組の種別を考慮して、番組情報や字幕情報に基づいて、動画データの中からユーザが所望の出演者が登場しているシーンを検索して視聴することを可能とする技術が開示されている。

特開２００６−１８０３０５号公報特開２００９−４８７２号公報特開２００８−１３４８２５号公報特開２００８−２２２９２号公報

D.DeMenthon, V.Kobla, and D.Doermann, Video Summarization by Curve Simplification ACM Multimedia 98, Bristol, England, pp.211-218, 1998

以上の通り、動画データを効率よく視聴する技術が開示されているが、例えば、非特許文献１及び特許文献１で開示されている技術では、動画データの映像及び音声を処理する必要があり、ハードウェアリソースに与える負荷が大きく、特に、テレビなどのコスト最適化した組込み機器では、当該技術を搭載することは困難であるという問題がある。また、本技術では、動画データの要約動画を視聴可能となるが、必ずしもユーザが望むシーンを見ることが出来るとは限らないという問題がある。

一方、特許文献２で開示されている技術では、映像及び音声を処理する必要が無く、字幕テキストデータのみを処理するため、ハードウェアリソースに与える負荷を抑えることが実現可能である。しかし、本技術では、動画データに含まれるキーワードをユーザがあらかじめ知っていないと所望のシーンを検索できないという問題がある。また、キーワードを入力する際にも、文字列を直接リモコンなどから入力する必要があり、操作が煩雑であるという問題がある。
さらに、特許文献３で開示されている技術では、動画データに付随する字幕データからキーワードを抽出し、動画データのシーンに見出しを付けることで、ユーザがキーワードを選択的に指定して、所望のシーンを視聴可能となるが、キーワードを抽出するために、形態素解析や意味解析を行う必要があり、やはりリソースに与える負荷が高くなるという問題に帰着する。
さらに、特許文献４で開示されている技術では、動画データの中からユーザが所望の出演者が登場しているシーンを検索して視聴することが可能となるが、この場合、出演者辞書を必要とするため、辞書保持に要するメモリ量が増加してしまう。また、辞書データを定期的に更新する必要があり、この更新を人手で更新するにはコストがかかる。さらに、理想的にはリアルタイムに辞書を更新する必要があるが、実質的にはこのような更新を人手で行うことは不可能であるという問題がある。

本発明は、上記の課題を解決するためになされたものであり、その目的は、ハードウェアリソースの負荷を抑えるインデクシング処理に関する装置または方法を提供する。また、作成されたインデクシングデータを用いた動画再生処理に関する装置、ユーザインタフェース、または方法を提供することを目的とする。

上述した課題の少なくとも一つを解決するために、本発明の動画インデクシング方法の一態様は、動画シーンに関する文字データを入力し、動画のジャンルを判別し、判別した動画ジャンルに固有な定型句キーワード辞書と前記入力した動画シーンに関する文字データとを基に動画データのシーンに対する文字列を符号化し、提示するキーワードを規定した辞書とシーン文字列符号化データとに基づいて、動画データのシーンに対するインデクシングデータを生成する、構成とする。

また、第二の態様では、動画データに対して固有の辞書を生成し、該生成した動画固有辞書と入力した動画シーンの文字データを基に動画データのシーンに対する文字列を符号化し、該シーン文字列符号化データと生成した動画固有辞書とに基づいて、動画データのシーンに対するインデクシングデータを生成する、構成とする。

第三の態様として、動画のジャンルに固有な定型句キーワード辞書と動画情報とを基に動画データに対して固有の辞書を生成し、生成した動画固有辞書と、定型句キーワード辞書と、動画シーンに関する文字データと、を基に動画データのシーンに対する文字列を符号化し、定型句キーワード辞書に対して提示するキーワードを規定した辞書を入力する対定型句提示キーワード辞書とシーン文字列符号化データと生成した動画固有辞書と前記入力した対定型句提示キーワード辞書とに基づいて、動画データのシーンに対するインデクシングデータを生成する、構成とする。
また、別の態様として、動画データのインデクシングデータに基づいてキーワードリストを表示装置に出力し、キーワードリストの中からユーザが選択したキーワードを入力を受け、キーワードとインデクシングデータからキーワードのシーンを取得して、該キーワードのシーンを再生する動画再生装置を構成する。

本発明により、低コストでユーザが観たいシーンのみを視聴可能とする動画インデクシング方法を提供する。また、ユーザが観たいシーンを容易に選択可能とする動画再生装置を提供可能となる。

本発明の第一の実施形態に係る動画インデクシング方法のブロック図である。本発明の実施形態に係る動画ジャンル記述データの一例を示す図である。本発明の第一及び第三の実施形態に係る定型句キーワード辞書のデータ構造の一例を示す図である。本発明の第一の実施形態に係るシーン文字列符号化データのデータ構造の一例を示す図である。本発明の第一及び第三の実施形態に係る対定型句提示キーワード辞書データのデータ構造の一例を示す図である。本発明の第一の実施形態に係るインデクシングデータのデータ構造の一例を示す図である。本発明の第一の実施形態に係るインデクシング方法の処理内容の一例を示すフローチャートである。本発明の第一の実施形態に係るインデクシング方法の説明図である。本発明の実施形態に係る動画再生装置のブロック図である。本発明の実施形態に係る動画再生装置の処理内容の一例を示すフローチャートである。本発明の実施形態に係る動画再生装置のキーワードリスト提示画面の一例を示す図である。本発明の第二の実施形態に係る動画インデクシング方法のブロック図である。本発明の第二及び第三の実施形態に係る動画情報データの一例を示す図である。本発明の第二及び第三野実施形態に係る動画固有辞書のデータ構造の一例を示す図である。本発明の第二の実施形態に係るシーン文字列符号化データのデータ構造の一例を示す図である。本発明の第二の実施形態に係るインデクシングデータのデータ構造の一例を示す図である。本発明の第二の実施形態に係るインデクシング方法の処理内容の一例を示すフローチャートである。本発明の第三の実施形態に係るインデクシング方法の説明図である。本発明の第三の実施形態に係る動画インデクシング方法のブロック図である。本発明の第三の実施形態に係るシーン文字列符号化データのデータ構造の一例を示す図である。本発明の第三の実施形態に係るインデクシングデータのデータ構造の一例を示す図である。本発明の第三の実施形態に係るインデクシング方法の処理内容の一例を示すフローチャートである。本発明の第三の実施形態に係るインデクシング方法の説明図である。インデクシング方法を実現するインデクシング装置の構成の一例である。動画再生装置の構成の一例である。

以下、本発明の第一の実施形態を図面を参照して説明する。

図１は、本発明の第一の実施形態の機能ブロック図である。

図１に示す機能ブロックは、動画シーン文字データ入力処理部１０１と、動画ジャンル判別処理部１０５と、定型句キーワード辞書入力処理部１０４と、シーン文字列符号化処理部１０２と、対定型句提示キーワード辞書入力処理部１０６と、シーンインデクシング処理部１０３と、定型句キーワード辞書１０７乃至１０８と、対定型句提示キーワード辞書１０９乃至１１０により構成される。

動画ジャンル判別処理部１０５は、動画データのジャンル（音楽番組、バラエティ、等）を判別する。例えば、動画データのジャンルが記述されたデータを取得して当該ジャンルを判断するか、あるいは動画データのメタデータが提供されていれば、当該メタデータを取得してジャンル情報から判断するように構成すればよい。あるいは、動画データのＳＩ（ＳｅｒｖｉｃｅＩｎｆｏｒｍａｔｉｏｎ:番組情報）情報を取得し、後述する図２に示すとおり、当該ＳＩ情報のジャンル記述セクションを参照することによって、当該動画データのジャンルを取得するように構成すればよい。

図２は、ＳＩ情報の内容２００を示しており、２０１はジャンル記述セクションを示しているが、ジャンル記述セクション２０１は、ＳＩ情報２００の決められた位置あるいはタグが打たれた位置に存在する。

そして、ジャンル記述セクション２０１には、動画データのジャンルが記述されており、例えばこのジャンル記述セクション２０１にバラエティを意味する数値（例えば０ｘ６０）が記述されている場合には、当該動画データのジャンルが「バラエティ」であると判断することができる。なお、例えば、動画データがテレビ番組であり、当該テレビ番組の録画データに対してインデクシングを行う場合には、例えば、録画開始時に、このＳＩ情報を取得して動画データのジャンルを判別するように構成すれば良い。

動画ジャンル判別処理部１０５は、タグや所定の位置を判別し、当該ジャンル記述セクション２０１を取得する。

図１に戻り、動画シーン文字データ入力処理部１０１は、動画シーンに関する文字データを入力する。これは、例えば、動画データに付随する字幕データとＰＴＳ（ＰｒｅｓｅｎｔａｔｉｏｎＴｉｍｅＳｔａｍｐ：字幕データの表示反映時刻）を１パケットごとに取得して、すでに知られる字幕デコード技術によって、当該パケットごとの字幕データから文字列に変換して、当該変換した文字列をそのＰＴＳとともに取得するように構成する。あるいは、動画像の１枚ごとにオーバーレイされているテロップ画像を既に知られるＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ：光学文字認識）技術によって認識し、その認識結果の文字列が異なった際の文字列と当該文字列のテロップが表示された時刻を取得するように構成しても良い。あるいは、すでに知られる音声認識技術によって、動画データ内の音声を認識し、しゃべられている内容を文字列化して、当該文字列とその文字列がしゃべられた時刻を取得するように構成しても良い。あるいは、動画データのシーンに関する記述を含むメタデータを入力するように構成しても良い。

定型句キーワード辞書入力処理部１０４は、動画ジャンル判別処理部１０５で判別した動画ジャンルに固有な定型句キーワード辞書を入力する。これは、例えば、ハードディスクやＲＯＭなどの記憶装置（１１１）あるいはネットワークを介して接続されている情報処理装置に記憶されている動画ジャンルごとの定型句キーワード辞書１（１０７）乃至定型句キーワード辞書Ｎ（１０８）から、動画ジャンルの定型句キーワード辞書を取得し、後述するシーン文字列符号化処理部１０２が参照できるように構成する。なお、定型句キーワード辞書のデータ構造の一例については図３に例示したが、これについては後で詳述する。

シーン文字列符号化処理部１０２は、前述の定型句キーワード辞書入力処理部１０４で入力した定型句キーワード辞書と前述した動画シーン文字データ入力処理部１０１で入力した動画シーン文字データを基に動画データのシーンに対する文字列を符号化する。例えば、シーン文字列符号化処理部１０２は、動画シーン文字データ入力処理部１０１で入力した１パケット分の動画シーン文字データごとに、定型句キーワード辞書入力処理部１０４で入力した定型句キーワード辞書１０７、１０８と照合し、当該定型句キーワード辞書に記述されたキーワードが動画シーン文字データに現れた場合に、そのパケットの動画シーン文字データのＰＴＳとともに、そのパケットの動画シーン文字データを符号化するように構成する。さらに詳細には、例えば、シーン文字列符号化処理部１０２は、後で詳細に説明する定型句キーワード辞書１０７、１０８に「続いては」というキーワードを定型句符号「１」に符号化するように定型句キーワード辞書に記述されている場合、動画シーン文字データのパケットごとに「続いては」という文字列を検索し、当該文字列が見つかった場合に、シーン文字列符号化処理部１０２は、後で詳細に説明する図４に示すように、その動画シーン文字データのパケットのＰＴＳとともに定型句符号「１」をシーン文字列符号化データとして記述することでシーン文字列符号化データを作成する。このとき、定型句キーワード辞書中のいずれかのキーワードが現れた場合について、シーン文字列符号化処理部１０２は、そのパケットすべてを符号化したシーン文字列符号化データを作成する。なお、定型句キーワード辞書中のいずれのキーワードも現れなかったパケットに対しては、必ずしもシーン文字列符号化データに含まれる必要はないが、定型句キーワード辞書に規定されていない定型句符号（例えば「０」など）を記述することで、シーン文字列符号化データに含まれるように構成しても良い。また、本シーン文字列符号化処理部１０２は、ある特定の文字列や記号（例えば音符マーク）、あるいは文字列の消去を示す制御コードのパケット等、動画ジャンルに無関係に使用可能な情報を、例えばそれぞれ、符号「２」、「１」、「０」などと符号化して、パケットの種別をシーン文字列符号化データに含めても良い。いずれにしても、本シーン文字列符号化処理部１０２は、動画データ中の動画シーン文字データのすべてのパケットに対して、定型句キーワード辞書と照合して、シーン文字列符号化データを作成する。なお、シーン文字列符号化処理部１０２は、作成したシーン文字列符号化データを揮発性メモリに保持し、あるいは不揮発性メモリに保持し、所定の期間経過後に削除してもよい。

対定型句提示キーワード辞書入力処理部１０６は、前記定型句キーワード辞書に記述された各キーワードが出ているシーンに対して提示するキーワードを規定した辞書を入力する。これは、例えば、動画ジャンル判別処理部１０５で判別した動画ジャンルに応じて、ハードディスクやＲＯＭなどの記憶装置（１１１）あるいはネットワークを介して接続されている情報処理装置に記憶されている対定型句提示キーワード辞書１（１０９）乃至対定型句提示キーワード辞書Ｎ（１１０）を取得し、後述するシーンインデクシング処理部１０３が参照できるように構成する。なお、対定型句提示キーワード辞書のデータ構造の一例については図５に例示したが、これについては後で詳述する。

シーンインデクシング処理部１０３は、シーン文字列符号化処理部１０２で生成したシーン文字列符号化データと前記対定型句提示キーワード辞書入力処理部１０６で入力した対定型句提示キーワード辞書に基づいて、動画データのシーンに対するインデクシングデータを生成する。これは、例えば、シーンインデクシング処理部１０３は、シーン文字列符号化処理部１０２で生成したシーン文字列符号化データの中から、各パケットの符号値と同じ符号値を持つキーワードを前記対定型句提示キーワード辞書入力処理部１０６で入力した対定型句提示キーワード辞書から探し出し、当該キーワードとシーン文字列符号化データ内の時刻情報をセットにして、インデクシングデータとして記述することで、インデクシングデータを作成する。さらに詳細には、例えば、シーンインデクシング処理部１０３は、後で詳細に説明する図４のシーン文字列符号化データから、定型句符号４０３が「１」のエントリ４０４を取得して、この定型句符号「１」と同じ定型句符号５０１を持つエントリ５０３を対定型句提示キーワード辞書から探し出し、キーワード５０２に記述されているキーワード「トピック」を取得する。続いて、シーンインデクシング処理部１０３は、当該定型句符号「１」を持つ時刻４０１の時刻「１０、２００」を取得して、当該キーワード「トピック」と時刻「１０、２００」と時刻の数を、それぞれインデクシングデータとして、それぞれキーワード６０１、時刻情報６０３、位置数６０２に記述する。本処理をシーン文字列符号化データ中の全定型句符号４０３の種類に対して行うことで、インデクシングデータを生成する。生成したインデクシングデータを、シーンインデクシング処理部１０３は、記憶装置１１１に格納する。図１では図示していないが、図２４で後述する。なお、インデクシングデータのデータ構造については後で詳細に説明する。

次に、本発明の第一の実施形態で生成するデータについて詳細に説明する。

まず、定型句キーワード辞書入力処理部１０４で入力され、シーン文字列符号化処理部１０２で参照される定型句キーワード辞書のデータ構造について説明する。

前述のとおり、定型句キーワード辞書は、動画ジャンルごとに用意し、定型句キーワード辞書入力処理部１０４で動画ジャンルに応じた辞書が入力されるように構成する。

図３は定型句キーワード辞書のデータ構造の一例であり、特に、図３Ａは、ジャンルが「ニュース」の動画に対する定型句キーワード辞書のデータ構造の一例である。また、図３Ｂは、ジャンルが「野球」の動画に対する定型句キーワード辞書のデータ構造の一例である。

図３において、３０３は定型句符号であり、３０２はキーワードである。また、３０４ないし３０５及び３０６ないし３０７は、固有のキーワードとそれに対応する定型句符号のエントリを示している。これにより、例えば、動画シーン文字データ入力処理部１０１において、「続いては」という文字列が含まれるパケットを入力したとき、シーン文字列符号化処理部１０２が、定型句符号「１」をシーン文字列符号化データとして生成する。なお、定型句キーワード辞書においては、キーワードについてはジャンルに対して一意とするが、定型句符号は一意とする必要はない。つまり、例えば、図３に示すとおり、「続いては」というキーワードに対して定型句符号「１」を割り当てているが、同様に「次に、」というキーワードに対しても「１」を割り当てる（つまり、定型句符号が重複する）ように辞書データを構成してもよい。

これにより、シーン文字列符号化処理部１０２は、「続いては」という文字列が現れる動画シーン文字データのパケットに対して「１」という定型句符号を割り当て、「次に、」という文字列が現れる動画シーン文字データのパケットに対しても「１」という定型句符号を割り当て、、後のシーンインデクシング処理部１０３において、どちらのパケットの時刻にも同じキーワード（後述する図５の対定型句提示キーワード辞書を使用した場合にはキーワード「トピック」）がインデクシングされるように構成できる。

次に、シーン文字列符号化処理部１０２で生成され、シーンインデクシング処理部１０３で参照されるシーン文字列符号化データのデータ構造について説明する。

図４はシーン文字列符号化データのデータ構造の一例である。

図４において、４０１は、動画シーン文字データの各パケットの時刻であり、各パケットのＰＴＳとすることができる。また、４０２は、動画シーン文字データの各パケットに含まれるデータの種別であり、例えば、通常の文字列の場合には「１」、音符のマークを含んでいる場合には「２」、文字列の消去を示す制御コード等特定の制御コードのみを含んでいる場合には「０」等、動画ジャンルに無関係に使用可能な情報を符号化するための符号値を示す。また、４０３は、定型句符号を格納する領域であり、動画シーン文字データの各パケットに、定型句キーワード辞書のキーワードが含まれていた場合の符号値を格納する。具体的には、動画シーン文字データの各パケット中に定型句キーワード辞書のキーワード３０２が見つかった場合に、当該キーワードに対応する定型句符号３０３の値が入力されるように構成する。なお、定型句キーワード辞書のキーワード３０２が見つからなかった場合には、当該定型句キーワード辞書の定型句符号３０３で規定されていない値（例えば、図３の辞書の例では「０」）を入力するように構成すれば良い。さらに、４０４乃至４１１は、シーン文字列符号化データのエントリであり、動画シーン文字データの各パケットに対応する値が羅列されたエントリである。すなわち、図３の（ａ）及び図４の例では、エントリ４０４では、動画シーン文字データ入力処理部１０１により、時刻「１０」のＰＴＳがつけられた通常の文字列のパケットを入力し、このパケットには「続いては」という文字列が含まれていたことを示している。同様に、エントリ４０５、４０６、及び４０９は、それぞれ次のことを意味している。
エントリ４０５は、「「２０」のＰＴＳがつけられた音符マークを含むパケットを入力し、このパケットには定型句キーワード辞書で規定されているキーワードが含まれていなかった。」、ことを意味している。
エントリ４０６は、「「３０」のＰＴＳがつけられた通常の文字列を含むパケットを入力し、このパケットには定型句キーワード辞書で規定されているキーワードが含まれていなかった」、ことを意味している。
エントリ４０９は、「「１５０」のＰＴＳがつけられた通常の文字列を含むパケットを入力し、このパケットには「スポーツです。」という文字列が含まれていた」、ことを意味している。

なお、シーン文字列符号化処理部１０２は、動画シーン文字データ入力処理部１０１で入力される全てのパケットに含まれるデータに対して符号化を行ってもよい。または、シーン文字列符号化処理部１０２は、定型句キーワード辞書のキーワードが含まれていたパケットに対してのみ符号化するようにしても良い。本シーン文字列符号化処理部１０２により、動画シーン文字データの文字列そのものを保持する必要がなくなるため、使用するメモリ量を著しく削減できるという利点がある。また、動画シーン文字データの文字列そのものを保持しないので、著作権保護の観点からも望ましい構成とすることができる。

次に、対定型句提示キーワード辞書入力処理部１０６で入力され、シーンインデクシング処理部１０３で参照される対定型句提示キーワード辞書のデータ構造について説明する。

前述のとおり、対定型句提示キーワード辞書は、動画ジャンルごとに用意し、対定型句提示キーワード辞書入力処理部１０６で動画ジャンルに応じた対定型句提示キーワード辞書が入力されるように構成する。

図５は、定型句キーワード辞書のデータ構造の一例であり、特に図５Ａは、ジャンルが「ニュース」の動画に対する対定型句提示キーワード辞書のデータ構造の一例である。また、図５Ｂは、ジャンルが「野球」の動画に対する対定型句提示キーワード辞書のデータ構造の一例である。

図５において、５０１は定型句符号であり、５０２は提示キーワードである。また、５０３ないし５０４及び５０５ないし５０６は、対定型句提示キーワードのエントリであり、定型句符号５０１と当該定型句符号が見つかった際にその時刻の位置に提示されるキーワード５０２をセットにしたものである。これにより、例えば、動画データがニュースの場合には、対定型句提示キーワード辞書入力処理部１０６により、図５Ａの対定型句提示キーワード辞書が入力され、動画シーン文字データ入力処理部１０１において、「続いては」という文字列が含まれるパケットを入力したときは、シーン文字列符号化処理部１０２が、定型句符号「１」と時刻「１０」をシーン文字列符号化データに書き込み、シーンインデクシング処理部１０３が、時刻「１０」の位置にキーワード「トピック」としてインデクシングデータを生成可能となる。なお、ひとつの定型句符号に複数のキーワードが対応付けられていてもよい。

次に、シーンインデクシング処理部１０３で生成されるインデクシングデータのデータ構造について説明する。

図６は、インデクシングデータのデータ構造の一例である。

図６において、６０１は、シーンのキーワードであり、対定型句提示キーワード辞書で規定されたキーワード５０２である。６０２は、キーワード６０１が付される位置数である。６０３は、キーワード６０１が付される位置数６０２分の時刻情報である。また、６０４乃至６０５は、キーワード６０１に対して、当該キーワードを付する位置数６０２と時刻情報６０３をセットにしたインデクシングデータのエントリである。

これは、シーンインデクシング処理部１０３が、シーン文字列符号化データから定型句符号４０３と時刻４０１を取得するとともに、当該定型句符号と同値の定型句符号を持つエントリの数を数えることで位置数をカウントし、当該定型句符号と同値の定型句符号５０１を持つキーワード５０２を対定型句提示キーワード辞書から取得して、当該キーワード５０２と、先にカウントした位置数と、それぞれの時刻とを、それぞれ６０１と、６０２と、６０３に記述することで生成可能となる。本インデクシングデータにより、当該インデクシングデータを参照する動画再生装置は、「トピック」や「スポーツ」等のキーワードを表示するとともに、キーワードがユーザから選ばれた場合に、そのキーワードのシーンの位置を表示あるいは再生可能となる。

次に、本発明の第一の実施形態に係る動画インデクシング方法における全体の処理の流れを説明する。

図７は、本発明の第一の実施形態に係る動画インデクシング方法における全体の処理の流れの一例を説明するフローチャートである。

まず、動画ジャンル判別処理部１０５により、動画データのジャンルを判別し（ステップ７０１）、定型句キーワード辞書入力処理部１０４により、ステップ７０１で判別した動画ジャンルに固有な定型句キーワード辞書を、記憶装置１１１から読み出し、入力する（ステップ７０２）。続いて、動画シーン文字データ入力処理部１０１により、動画シーンに関する文字データ（動画シーン文字データ）を１パケットずつ入力し（ステップ７０３）、シーン文字列符号化処理部１０２により、ステップ７０２で入力した定型句キーワード辞書を参照しながら、ステップ７０３で入力したパケットの動画シーン文字データを符号化することでシーン文字列符号化データを生成する（ステップ７０４）。
そして、ステップ７０３とステップ７０４を繰り返して、動画データにおける全てのパケットの動画シーン文字データを符号化した後（ステップ７０５）、対定型句提示キーワード辞書入力処理部１０６により、ステップ７０１で判別した動画ジャンルに固有な定型句キーワード辞書に対応する（すなわち、定型句キーワード辞書に対して提示するキーワードを規定した）対定型句提示キーワード辞書を入力し（ステップ７０６）、シーンインデクシング処理部１０３により、ステップ７０４で生成したシーン文字列符号化と、ステップ７０６で入力した対定型句提示キーワード辞書に基づいて、動画データのシーンに対してインデクシングを行い、インデクシングデータを生成し、記憶装置に１１１に格納する。

例えば、カテゴリがニュースの動画データに対し、図８に示すとおり、「続いては」という文字列８１１及び８１３が動画シーン文字データ中に現れた時刻「１０」８０１及び「２００」８０３の動画シーン文字データを定型句符号「１」８２１及び８２３として符号化する。また、「スポーツです。」という文字列８１２が動画シーン文字データ中に現れた時刻「１５０」８０２の動画シーン文字データを定型句符号「２」８２２として符号化するので文字列そのものを保持する場合と比べ使用メモリ量を削減することが出来る。また、動画シーン文字データ中に「続いては」という文字列８１１及び８１３が現れた位置にキーワード「トピック」８５１としてインデックスを付与したインデクシングデータを生成し、動画シーン文字データ中に「スポーツです。」という文字列８１２が現れた位置にキーワード「スポーツ」８５２としてインデックスを付与したインデクシングデータを生成する。

そして、後述するとおり、本インデクシングデータを読み込む再生装置において、ユーザに「トピック」８５１及び「スポーツ」８５２のキーワードを提示し、ユーザから「トピック」８５１というキーワードが指定された時に、時刻「１０」８０１あるいは「２００」８０３の位置から動画データを再生することで、「トピック」８５１をキーワードとするシーンから再生することが可能となる。同様に、ユーザから「スポーツ」８５２というキーワードが指定された時に、時刻「１５０」８０２の位置から動画データを再生することで、「スポーツ」８５２をキーワードとするシーンから再生することが可能となる。なお、図８において、８００は時間軸をであり、８０１、８０２、及び８０３は、それぞれ時刻「１０」、「１５０」、及び「２００」の時間軸上の位置である。また、８１１、８１２、及び８１３は、それぞれ、時刻「１０」８０１、「１５０」８０２、及び「２００」８０３の動画シーン文字データのパケットに含まれる文字列を示し、８２１、８２２、及び８２３は、それぞれ、動画シーン文字データ８２１、８２２、及び８２３の定型句符号値を示している。さらに、８３１及び８３３は、キーワード「トピック」８５１のシーンを時間軸上にプロットした点を示し、８３２は、キーワード「スポーツ」８５１のシーンを時間軸上にプロットした点を示している。
以上説明した本発明の第一の実施形態の動画インデクシング方法により、ハードウェアリソースの負荷を抑え、動画データのシーンにキーワードを付すと共に、当該キーワードを提示ことにより、ユーザがキーワードを指定することで動画データの中から、観たいシーンのみを視聴可能とするインデクシングデータを生成できる。また、動画のシーンに対するキーワードを抽出するに当たり、辞書データを可能な限り小さくし、当該辞書データの保持に有するメモリ量を可能な限り削減すると共に、当該辞書データの人手による更新を不要とすることが可能となる。
次に、本発明の実施形態に係る動画再生装置を図面を参照して説明する。

図２５は、本発明の実施形態に係る動画再生装置のハードウェア構成の一例である。図２５は、中央処理装置２５０１と、動画入力装置２５０２と、記憶装置２５０３と、再生装置２５０４と、入力装置２５０５と、表示装置２５０６と、音声出力装置２５０７を有して構成される。そして、各装置は、バス２５０８によって接続され、各装置間で、相互にデータの送受信が可能なように構成されている。

中央処理装置２５０１は、マイクロプロセッサを主体に構成されており、記憶装置２５０３に格納されているプログラムを実行する。

動画入力装置２５０２は、記憶装置２５０３に記憶されている再生対象の動画データを入力したり、ネットワーク経由で動画データを入力する場合には、図示しないLANカード等のネットワークカードから再生対象の動画データを取得する。

記憶装置２５０３は、例えばランダムアクセスメモリ(RAM)やリードオンリーメモリ(ROM)、ハードディスクやDVD、CDとそれらのドライブ、あるいはフラッシュメモリ等の不揮発性メモリやiVDR等のリムーバブルハードディスク等により構成され、中央処理装置２４５１によって実行されるプログラムやインデクシングデータ2512等の本動画再生装置において必要となるデータ、あるいは動画データ2522等を格納する。図２５では、インデクシングデータ入力プログラム２５１１，キーワードリスト提示プログラム２５２１及びキーワード入力プログラム２５３１が記憶装置２５０３に格納されていることを示している。再生装置２５０４は、動画入力装置２５０２で入力した動画データをデコードして、表示用の映像データや、出力用の音声データを生成する装置であり、すでに公知のハードウェアあるいは中央処理装置２５０１内で動作するプログラムとすることが出来る。

入力装置２５０５は、例えばリモコン、あるいはキーボードやマウス等のポインティングデバイスによって実現され、本動画再生装置で再生する動画データを指定することで，利用者が視聴する動画データを指定したり，後述するキーワードを指定可能とする。

表示装置２５０６は、例えばディスプレイアダプタと液晶パネルやプロジェクタ等によって実現され、再生装置２５０４で再生した映像や利用者が本動画再生装置に対して操作するためのメニューあるいは後述するキーワードや走行バー等を表示する。

音声出力装置２５０７は、例えばサウンドカードとスピーカ等によって実現され、再生装置２５０４で再生した音声を出力する。

図９は、本発明の実施形態に係る動画再生装置のブロック図である。

図９を用いて本実施形態に係る動画再生装置の構成を説明する。図９では、再生対象の動画データのインデクシングデータを入力するインデクシングデータ入力処理部９０２と、入力したインデクシングデータに基づいて、シーンのキーワードリストをユーザに提示するキーワードリスト提示処理部９０３と、提示されたキーワードリストの中からユーザが選択したキーワードを入力するキーワード入力処理部９０４と、入力したキーワードのシーンをインデクシングデータから取得して、そのキーワードのシーンを再生するシーン再生処理部９０５を備える。なお、本再生装置において、動画データを再生する処理部や指定された時刻のシーンにジャンプして再生する処理部、あるいはリモコンなどのユーザからの指示を入力する処理部は、すでに備えているものとするが、これらについては通常のTVやレコーダあるいはコンピュータにおいてすでに実施されているので、これらの処理部を適用可能であり、説明を省略する。また、上記処理部は、図２５で説明した中央処理装置２５０１が各プログラムを記憶装置２５０３から読み出し、メモリ（図示せず）に展開し、図９の機能ブロックを実行する。本実施の形態では、各処理部は、ソフトウェアとして構成するものとして説明するが、それぞれ個別のハードウェアとして実現しても良い。

さて、図９において、インデクシングデータ入力処理部９０２は、再生対象の動画データのシーンのキーワードを含むインデクシングデータを入力する。例えば、インデクシングデータ入力処理部９０２は、第１の実施形態で説明した動画インデクシング方法で生成したインデクシングデータを記憶装置２５０３あるいは図示しないネットワークデータ入力装置によりネットワーク経由で入力する。例えば、インデクシングデータ入力処理部９０２は、録画された動画データの場合には、本発明の動画インデクシング方法で生成したインデクシングデータを録画動画データと同じファイル名で拡張子のみを変えた形式で記憶装置２５０３に保存されるようにし、本インデクシングデータ入力処理部９０２では、再生動画データのファイル名をもとにインデクシングデータを記憶装置２５０３から読み込むようにするなど、動画データと関連付けた保存読み出しの仕組みを使うことによって実現できる。あるいは、ネットワーク上に存在する動画データに対しても同様に動画データとインデクシングデータを関連付けて保存し、動画データを読み込んだ際に当該関連付けられたインデクシングデータを図示しないネットワークデータ入力装置から読み込めるように構成してもよい。また、インデクシングデータを動画データ中に付加データとしてインターリーブして保存されるようにし、本インデクシングデータ入力処理部９０２が動画入力装置２５０２で入力した動画データ中からインデクシングデータを取り出して読み込むようにしてもよい。

キーワードリスト提示処理部９０３は、入力したインデクシングデータに基づいて、シーンのキーワードリストをユーザに提示する。これは、例えば、動画データの再生開始時、あるいはユーザからキーワード表示指示があった際に、インデクシングデータに記述されているキーワードを読み出して、当該キーワードを一覧として、表示装置２５０６上に出力し、表示装置２５０６は、表示画面上に表示する。なお、表示画面の一例については図１１に示しているが、これについては後で詳細に説明する。

キーワード入力処理部９０４は、表示装置２５０６に表示されることにより、提示されたキーワードリストの中からユーザが選択したキーワードを入力装置２５０５を介して入力する。例えば、キーワード入力処理部９０４は、キーワードリスト提示処理部９０３で提示されたキーワードリストの中から入力装置２５０５により特定のキーワードを選択した場合に、当該選択されたキーワードを取得する。なお、このとき、キーワード入力処理部９０４は、入力したキーワードのシーンの位置をインデクシングデータの位置情報６０３を取得することによって取得し、当該位置（時刻）を後述する図１１で説明するように走行バー１１３０上にチャプターマーカー（１１４１乃至１１４３）等でチャプタ位置として表示されるようにしてもよい。これにより、例えば、リモコンの上下ボタンにより、キーワードリストの中からキーワードを選択するたびにスライドバー上にシーンの位置が表示されるので、シーンの位置関係を目視することが可能となるインターフェースを提供できる。

シーン再生処理部９０５は、入力したキーワードのシーンを再生する。例えば、シーン再生処理部９０５は、入力したキーワードのシーンの位置をインデクシングデータの位置情報６０３を取得することによって取得し、当該位置（時刻）の内、現在の再生位置よりも時間的に後で最も近い位置にジャンプして再生装置２５０４により再生する。

次に、本発明の実施形態に係る動画装置における全体的な動作の流れを説明する。

図１０は、本発明の実施形態に係る動画再生装置における動作の流れの一例を説明するフローチャートである。

図１０に示すとおり、本発明の実施形態に係る動画再生装置は、動画データの再生が指示された場合、あるいは、ユーザから入力装置２５０５を介してキーワードリストの表示が指示された場合、インデクシングデータ入力処理部９０２により、再生対象の動画データのインデクシングデータを入力し（ステップ１００１）、キーワードリスト提示処理部９０３により、インデクシングデータに記述されているキーワード読み出して、当該キーワードを一覧として、表示装置２５０６の表示画面上に表示する（ステップ１００２）。続いて、ユーザからキーワードが選択されると、キーワード入力処理部９０４により入力されたキーワードを取得し（ステップ１００３）、シーン再生処理部９０５により、入力したキーワードのシーンの位置をインデクシングデータから取得して、再生装置２５０４により当該位置（時刻）の内、現在の再生位置よりも時間的に後で最も近い位置にジャンプして再生する（ステップ１００４）。

次に、動画再生装置の表示画面例を説明する。

図１１は、動画再生装置の表示画面の一例を示す図である。１１０１は動画表示エリアであり、動画データの再生画像が表示される。１１１０はキーワードリスト表示エリアである。キーワードリスト提示処理部９０３は、インデクシングデータに記述されているキーワードをがキーワードリストとしてキーワードリスト表示エリア１１１０に出力する。１１１１乃至１１１６はキーワード表示エリアであり、キーワードリスト提示処理部９０３は、インデクシングデータに記述されている個々のキーワードをキーワード表示エリア１１１１乃至１１１１６に表示する。１１２０は選択キーワード表示エリアであり、キーワード入力処理部９０４によりキーワードリストの中からユーザが選択したキーワードを表示する。例えば、選択キーワード表示エリア１１２０は、ユーザがリモコンの上下ボタン等でキーワードリストの中からキーワードを選択する際、フォーカスされているキーワードを表示するエリアである。１１３０は走行バーであり、後述する現在の再生位置１１５０及びチャプターマーカーを表示する。１１４１乃至１１４５はチャプターマーカーであり、選択されているキーワードのシーンの位置を示す。１１５０は現在の再生位置であり、チャプターマーカー１１４１乃至１１４５と現在の再生位置１１５０により、選択したキーワードのシーンと現在の再生位置の位置関係を確認できる。なお、これらは、動画の再生開始時あるいはユーザからリモコン等を介してキーワードリストの表示が指示された場合に表示されるように構成すると、再生動画を視聴中の邪魔にならずによい。また、ユーザがリモコンの上下ボタン等でキーワードリストの中からキーワードを選択する際、キーワード入力処理部９０４において、上下ボタンの動きに応じて、フォーカスされているキーワードのキーワード表示エリアを反転表示するとともに、当該フォーカスされているキーワードを選択キーワード表示エリア１１２０に表示するように現在選択しているキーワードならびに選択しようとしているキーワードがわかりやすくなる。また、このとき、上下ボタンの動きに応じて、フォーカスされているキーワードのシーンのチャプターマーカー１１４１乃至１１４５が走行バー１１３０上に逐次表示されるように構成しても良い。これにより、選択しようとしているキーワードのシーンと在の再生位置の位置関係を確認できるユーザインターフェースを提供可能となる。
例えば、図１１において、（ａ）は、キーワード「トピック」１１１６が選択されている状態を示しており、キーワード「トピック」のシーン位置に対応するチャプターマーカー１１４１ないし１１４５が表示されている。そして、図１１（ｂ）に示すように、ユーザがリモコンの上下ボタン等により、キーワード「スポーツ」１１１５にフォーカスすると、キーワード「スポーツ」のシーン位置に対応するチャプターマーカー１１４４が表示され、図１１（ｃ）に示すように、キーワード「お天気」１１１４にフォーカスが移ると、キーワード「お天気」のシーン位置に対応するチャプタマーカー１１４５が表示されるように構成すると良い。このときフォーカスされているキーワードのチャプタ位置に自動的に再生位置１１５０を移動させても良いし、ユーザから決定が指示されたときに、再生位置１１５０を選択されているキーワードのチャプタ位置に移動するように攻勢しても良い。
以上説明した、動画再生装置により、動画データにおけるシーンのキーワードを提示し、ユーザがキーワードを指定することで動画データの中から、観たいシーンを簡単に視聴可能とするユーザインターフェースを提供することができる。

次に、本発明の第二の実施形態に係る動画インデクシング方法を図面を参照して説明する。

図１２は、本発明の第二の実施形態に係る動画インデクシング方法の機能ブロック図である。図１２に示す機能ブロックは、動画シーン文字データ入力処理部１０１と、動画ジャンル判別処理部１０５と、動画情報入力処理部１２０１と、動画固有辞書生成処理部１２０２と、シーン文字列符号化処理部１０２と、シーンインデクシング処理部１２０５、動画固有辞書保持部１２０３及びシーンインデクシングデータ記憶部とを有する。。ここで、動画ジャンル判別処理部１０５及び動画シーン文字データ入力処理部１０１については、本発明の第一の実施形態と同様であるので、説明を省略する。

動画情報入力処理部１２０１は、動画データの情報が記述された動画情報を入力する。動画情報入力処理部１２０１は、例えば、動画データの出演者等が記述されたデータ、あるいは動画データのメタデータが提供されていれば、当該メタデータを取得するように構成すればよい。あるいは、テレビ番組の場合には、例えば、動画データのＳＩ（ＳｅｒｖｉｃｅＩｎｆｏｒｍａｔｉｏｎ:番組情報）情報を取得しても良い。この場合、図１３に示すとおり、ＳＩ情報には図２で示した、ジャンル記述セクション２０１の他にも内容記述セクション１３０１が含まれており、当該内容記述セクション１３０１にはさらに出演者タグ１３０２や番組内容タグ１３０５が存在する。また、出演者タグ１３０２に続いては、司会者１３０３やゲスト１３０４あるいは歌手１３０７等、動画データに出演する人名などが含まれているため、動画情報入力処理部１２０１では、これらの情報を取得するように構成すれば良い。

動画固有辞書生成処理部１２０２は、動画情報入力処理部１２０１で入力した動画情報及び動画ジャンル判別処理部で判別した動画ジャンルを基にして、動画ジャンル及び動画データに対して固有の辞書を生成する。例えば、動画情報入力処理部１２０１は、動画ジャンル判別処理部１０５で判別した動画ジャンルに応じて、動画情報入力処理部１２０１で入力した動画情報から必要な情報を取得して、後で詳細に説明する図１４に示すとおり、キーワードと符号値をセットにした辞書を生成する。さらに詳細には、例えば図１３に示す動画情報の場合、例えば動画データのジャンルが音楽の場合には、歌手１３０７やゲスト１３０４の人名をキーワードとして、後で詳細に説明する図１４に示すように、動画情報入力処理部１２０１は、キーワードと、そのキーワードが動画シーン文字データ中に出現した際に、シーン文字列符号化データに記録する固有辞書符号とセットにして動画固有辞書を生成する。動画情報入力処理部１２０１は、動画データのジャンルがバラエティの場合には、司会１３０３やゲスト１３０４の人名をキーワードとして、同様に固有辞書符号とセットにして動画固有辞書を生成して、後述するシーン文字列符号化処理部１０２が参照できるよう、動画固有辞書保持部１２０３に、動画固有辞書を保持する。

シーン文字列符号化処理部１２０４は、第一の実施形態におけるシーン文字列符号化処理部１０２とほぼ同じであるが、第二の実施形態においては、定型句キーワード辞書入力処理部１０４で入力した定型句キーワード辞書の代わりに、前述の動画固有辞書生成処理部１２０２で生成した動画固有辞書を参照して、動画シーン文字データ入力処理部１０１で入力した動画シーン文字データをパケットごとに符号化する。これは、例えば、シーン文字列符号化処理部１２０４は、動画シーン文字データ入力処理部１０１で入力した１パケット分の動画シーン文字データごとに、動画固有辞書生成処理部１２０２で生成した動画固有辞書と照合し、当該動画固有辞書に記述されたキーワードが動画シーン文字データに現れた場合に、そのパケットの動画シーン文字データのＰＴＳとともに、そのパケットの動画シーン文字データを符号化するように構成する。さらに詳細には、例えば、後で詳細に説明する図１４の動画固有辞書のとおり、「ｘｘｘ」というキーワードを固有辞書符号「１」で符号化するように動画固有辞書に記述されている場合、シーン文字列符号化処理部１２０４は、動画シーン文字データのパケットごとに「ｘｘｘ」という文字列を検索し、当該文字列が見つかった場合に、後で詳細に説明する図１５に示すように、シーン文字列符号化処理部１２０４は、その動画シーン文字データのパケットのＰＴＳとともに固有辞書符号「１」をシーン文字列符号化データとして記述することでシーン文字列符号化データを作成する。このとき、動画固有辞書中のいずれかのキーワードが現れた場合について、シーン文字列符号化処理部１２０４は、そのパケットすべてを符号化したシーン文字列符号化データを作成する。なお、動画固有辞書中のいずれのキーワードも現れなかったパケットに対しては、必ずしもシーン文字列符号化データに含まれる必要はないが、動画固有辞書に規定されていない固有辞書符号（例えば「０」など）を記述することで、シーン文字列符号化データに含まれるように構成しても良い。また、本シーン文字列符号化処理部１０２は、ある特定の文字列や記号（例えば音符マーク）、あるいは文字列の消去を示す制御コードのパケット等、動画ジャンルに無関係に使用可能な情報を、例えばそれぞれ、符号「２」、「１」、「０」などと符号化して、パケットの種別をシーン文字列符号化データに含めても良い。いずれにしても、本シーン文字列符号化処理部１０２は、動画データ中の動画シーン文字データのすべてのパケットに対して、動画固有辞書と照合して、シーン文字列符号化データを作成する。

シーンインデクシング処理部１２０５は、第一の実施形態におけるシーンインデクシング処理部１０３とほぼ同じであるが、第二の実施形態におけるシーンインデクシング処理部１２０５は、対定型句提示キーワード辞書入力処理部１０６で入力した対定型句提示キーワード辞書の代わりに、前述の動画固有辞書生成処理部１２０２で生成した動画固有辞書を参照して、動画データのシーンに対してインデクシングすることでインデクシングデータを生成する。これは、例えば、シーンインデクシング処理部１２０５は、前記シーン文字列符号化処理部１０２で生成したシーン文字列符号化データの中から、各パケットの符号値と同じ符号値を持つキーワードを、画固有辞書生成処理部１２０２で生成した動画固有辞書から検索する。検索結果、抽出したキーワードとシーン文字列符号化データ内の時刻情報をセットにして、シーンインデクシング処理部１２０５は、インデクシングデータとして記述し、インデクシングデータを作成する。シーンインデクシング処理部１２０５は、作成されたインデクシングデータをシーンインデクシングデータ記憶部１２０６に格納する。さらに詳細には、例えば、シーンインデクシング処理部１２０５は、後で詳細に説明する図１５のシーン文字列符号化データから、固有辞書符号１５０３が「１」のエントリ１５０４を取得して、この固有辞書符号「１」と同じ固有辞書符号１４０４を持つエントリ１４０５を動画固有辞書（後述の図１４参照）から探し出し、キーワード１４０３に記述されているキーワード「ｘｘｘ」を取得する。続いて、シーンインデクシング処理部１２０５は、図１５の固有辞書符号「１」を持つ時刻１５０１の時刻「１０、２００」を取得して、当該キーワード「ｘｘｘ」と時刻「１０、２００」と時刻の数を、それぞれインデクシングデータとして、それぞれ、後で詳細に説明する図１６に示すように、キーワード１６０１、時刻情報１６０３、位置数１６０２に記述する。本処理をシーン文字列符号化データ中の全固有辞書符号１５０３の種類に対して行い、シーンインデクシング処理部１２０５は、インデクシングデータを生成する。なお、インデクシングデータのデータ構造については後で詳細に説明する。

次に、第二の実施形態に係る動画インデクシング方法で生成するデータについて詳細に説明する。

まず、動画固有辞書生成処理部１２０２で生成され、シーン文字列符号化処理部１０２で参照される動画固有辞書のデータ構造について説明する。前述のとおり、本動画固有辞書は、例えば、動画ジャンル判別処理部１０５で判別した動画ジャンルに応じて、動画データごとに生成されるように構成する。

図１４は動画固有辞書のデータ構造の一例であり、特に図１３の動画情報の例に対応して、動画データのジャンルが「音楽」の動画に対する動画固有辞書の例を示している。図１４において、１４０４は固有辞書符号であり、１４０３はキーワードである。また、１４０５ないし１４０６は、固有のキーワードとそれに対応する固有辞書符号のエントリを示している。本固有辞書を参照することにより、動画シーン文字データ入力処理部１０１において、例えば、「ｘｘｘ」という文字列が含まれるパケットを入力したとき、シーン文字列符号化処理部１０２が、固有辞書符号「１」をシーン文字列符号化データとして生成することができる。また、シーンインデクシング処理部１２０５は、は、シーン文字列符号化データの固有辞書符号「１」が付けられたエントリの時刻に対して、キーワード「ｘｘｘ」としてインデクシングデータを生成する。

次に、シーン文字列符号化処理部１０２で生成され、シーンインデクシング処理部１２０５で参照されるシーン文字列符号化データのデータ構造について説明する。

図１５は、本発明の第二の実施形態にかかるシーン文字列符号化データのデータ構造の一例である。図１５に示すとおり、第二の実施形態にかかるシーン文字列符号化データでは、図４に示す第一の実施形態におけるシーン文字列符号化データに対して、定型句符号４０３を固有辞書符号１５０３に置き換えたものとし、定型句符号の代わりに固有辞書符号を格納できるようにすればよい。すなわち、１５０３は、動画シーン文字データの各パケットに、動画固有辞書のキーワードが含まれていた場合の符号値であり、動画固有辞書のキーワード１４０３が見つかった場合には、当該キーワードに対応する固有辞書符号１４０４の値が入力されるように構成する。なお、動画固有辞書のキーワード１４０３が見つからなかった場合には、当該動画固有辞書の固有辞書符号１４０４で規定されていない値（例えば、図１４の辞書の例では「０」）を入力するように構成すれば良い。さらに、４０４乃至４１１は、シーン文字列符号化データのエントリであり、動画シーン文字データの各パケットに対応する値が羅列されたエントリである。すなわち、図１４の例では、エントリ４０４及び４１０は、「動画シーン文字データ入力処理部１０１が時刻「１０」及び時刻「２００」のＰＴＳがつけられたパケットを入力し、このパケットには「ｘｘｘ」という文字列が含まれていた」ということをシーン文字列符号化処理部１０２が符号化していることを示している。また、エントリ４０９は、時刻「１５０」のＰＴＳがつけられたパケットを入力し、このパケットには「ｏｏｏ」という文字列が含まれていたということを示す。

なお、シーン文字列符号化処理部１０２を、動画シーン文字データ入力処理部１０１で入力される全てのパケットに含まれるデータに対して符号化が行われるように構成しても良いし、動画固有辞書のキーワードが含まれていたパケットに対してのみ符号化するように構成しても良い。本シーン文字列符号化処理部１０２により、動画シーン文字データの文字列そのものを保持する必要がなくなるため、使用するメモリ量を削減できるという利点がある。動画データ及びそのジャンルに固有のキーワードのみ符号化されるので、使用するメモリ量を著しく削減できる。さらに、動画シーン文字データの文字列そのものを保持しないので、著作権保護の観点からも望ましい構成とすることができる。

次に、第二の実施形態にかかるシーンインデクシング処理部１２０５で生成されるインデクシングデータのデータ構造について説明する。

図１６は、第二の実施形態にかかるインデクシングデータのデータ構造の一例である。図１６に示すとおり、第二の実施形態にかかるインデクシングデータのデータ構造のうち、、キーワード１６０１に記述されるキーワードが動画固有辞書で規定されたキーワード１４０３のキーワードとなり、図４に示す、定型句符号４０３と異なる。これは、シーンインデクシング処理部１２０５が、シーン文字列符号化データから固有辞書符号１５０３と時刻４０１を取得するとともに、文字列符号化データにおいて、当該固有辞書符号と同値の固有辞書符号を持つエントリの数を数えることで位置数をカウントし、当該固有辞書符号と同値の固有辞書符号１４０４を持つキーワード１４０３を動画固有辞書から取得して、当該キーワードと、先にカウントした位置数と、それぞれの時刻とを、それぞれキーワード１６０１と、位置数６０２と、時刻情報６０３に記述することでインデクシングデータを生成可能となる。本インデクシングデータにより、当該インデクシングデータを参照する動画再生装置は、例えば出演者名等の動画固有のキーワードを表示するとともに、出演者名がユーザから選ばれた場合に、その出演者のシーンの位置を表示あるいは再生可能となる。

次に、第二の実施形態に係る動画インデクシング方法における全体の処理の流れを説明する。

図１７は、第二の実施形態に係る動画インデクシング方法における全体の処理の流れの一例を説明するフローチャートである。

図１７に示すとおり、第二の実施形態に係る動画インデクシング方法では、まず、動画情報入力処理部１２０１により動画データの情報が記述された動画情報を入力し（ステップ１７０１）、動画ジャンル判別処理部１０５により、動画データのジャンルを判別する（ステップ１７０２）。続いて、動画固有辞書生成処理部１２０２により、ステップ１７０２で入力した動画情報を基にして、動画ジャンル及び動画データに対して固有の辞書を生成し、固有の辞書を動画固有辞書保持部に保持する（ステップ１７０３）。続いて、動画シーン文字データ入力処理部１０１により、動画シーンに関する文字データ（動画シーン文字データ）を１パケットづつ入力し（ステップ１７０４）、シーン文字列符号化処理部１０２により、ステップ１７０３で生成した動画固有辞書を参照しながら、ステップ１７０４で入力したパケットの動画シーン文字データを符号化することでシーン文字列符号化データを生成する（ステップ１７０５）。

そして、ステップ１７０４とステップ１７０５を繰り返して、動画データにおける全てのパケットの動画シーン文字データを符号化した後（ステップ１７０６）、シーンインデクシング処理部１２０５は、ステップ１７０５で生成したシーン文字列符号化データと、ステップ１７０３で入力した動画固有辞書に基づいて、動画データのシーンに対してインデクシングを行うことでインデクシングデータを生成し、シーンインデクシングデータ記憶部１２０６に記憶する。

これにより、例えば、カテゴリが音楽の動画データに対し、図１８に示すとおり、「ｘｘｘ」という文字列１８１１及び１８１３が、動画シーン文字データ中に現れた時刻「１０」１８０１及び「２００」１８０３の動画シーン文字データを固有辞書符号「１」１８２１及び１８２３として符号化される。また、同様に「ｏｏｏ」という文字列１８１２が動画シーン文字データ中に現れた時刻「１５０」１８０２の動画シーン文字データを固有辞書符号「２」１８２２として符号化することが出来るので文字列そのものを保持する場合と比べ使用メモリ量を削減することが出来る。また、シーンインデクシング処理部１２０５は、動画シーン文字データ中に「ｘｘｘ」という文字列１８１１及び１８１３が現れた位置にキーワード「ｘｘｘ」１８５１としてインデックスを付与してインデクシングデータを生成し、動画シーン文字データ中に「ｏｏｏ」という文字列１８１２が現れた位置にキーワード「ｏｏｏ」１８５２としてインデックスを付与してインデクシングデータを生成する。

そして、本インデクシングデータを読み込む再生装置において、ユーザに「ｘｘｘ」１８５１及び「ｏｏｏ」１８５２のキーワードを提示し、ユーザから「ｘｘｘ」１８５１というキーワードが指定された時に、時刻「１０」１８０１あるいは「２００」１８０３の位置から動画データを再生することで、「ｘｘｘ」１８５１をキーワードとするシーンから再生することが可能となる。同様に、ユーザから「ｏｏｏ」１８５２というキーワードが指定された時に、時刻「１５０」１８０２の位置から動画データを再生することで、「ｏｏｏ」１８５２をキーワードとするシーンから再生することが可能となる。なお、図１８において、１８００は時間軸を示し、１８０１、１８０２、及び１８０３は、それぞれ時刻「１０」、「１５０」、及び「２００」の時間軸上の位置である。また、１８１１、１８１２、及び１８１３は、それぞれ、時刻「１０」１８０１、「１５０」１８０２、及び「２００」１８０３の動画シーン文字データのパケットに含まれる文字列を示し、１８２１、１８２２、及び１８２３は、それぞれ、動画シーン文字データ１８２１、１８２２、及び１８２３の固有辞書符号値を示している。さらに、１８３１及び１８３３は、キーワード「ｘｘｘ」１８５１のシーンを時間軸上にプロットした点を示し、１８３２は、キーワード「ｏｏｏ」１８５１のシーンを時間軸上にプロットした点を示している。

以上説明した第二の実施形態により、ハードウェアリソースの負荷を抑え、動画データのシーンにキーワードを付すと共に、当該キーワードを提示ことにより、ユーザがキーワードを指定することで動画データの中から、観たいシーンのみを視聴可能とするインデクシングデータを生成でき、特に、動画データ固有の辞書を生成して使用するので、辞書データに必要以上のメモリを使用することなく、再生対象の動画データに適したシーンのキーワードを提示することが出来ると共に、当該辞書データの人手による更新を不要とすることが可能となる。

なお、第二の実施形態に係る動画再生装置については、本発明の第一の実施形態に係る動画再生装置をそのまま適用可能であり、動画データにおけるシーンのキーワードを提示し、ユーザがキーワードを指定することで動画データの中から、観たいシーンを簡単に視聴可能とすることができる。

次に、本発明の第三の実施形態に係る動画インデクシング方法を図面を参照して説明する。

図１９は、第三の実施形態に係る動画インデクシング方法のブロック図である。図１９に示すとおり、本発明の第三の実施形態に係る動画インデクシング方法は、動画シーン文字データ入力処理部１０１と、動画ジャンル判別処理部１０５と、動画情報入力処理部１２０１と、定型句キーワード辞書入力処理部１０４と、動画固有辞書生成処理部１２０２と、シーン文字列符号化処理部１９０２と、対定型句提示キーワード辞書入力処理部１０６と、シーンインデクシング処理部１０３と、定型句キーワード辞書１０７乃至１０８と、対定型句提示キーワード辞書１０９乃至１１０からなる。

ここで、動画ジャンル判別処理部１０５、動画シーン文字データ入力処理部１０１については、本発明の第一及び第二の実施形態で使用した処理部と同様であり、定型句キーワード辞書入力処理部１０４、対定型句提示キーワード辞書入力処理部１０６、定型句キーワード辞書１０７乃至１０８、及び対定型句提示キーワード辞書１０９乃至１１０については、本発明の第一の実施形態と同様である。また、動画情報入力処理部１２０１及び動画固有辞書生成処理部１２０２については、本発明の第二の実施形態と同様である。図示はしていないが、動画固有辞書保持部１２０３及びシーンインデクシングデータ記憶部１２０６も備える。

シーン文字列符号化処理部１９０２は、本発明の第一及び第二の実施形態におけるシーン文字列符号化処理部１０２とほぼ同じであるが、本発明の第三の実施形態においては、定型句キーワード辞書入力処理部１０４で入力した定型句キーワード辞書及び動画固有辞書生成処理部１２０２で生成した動画固有辞書を参照して、動画シーン文字データ入力処理部１０１で入力した動画シーン文字データをパケットごとに符号化する。これは、例えば、シーン文字列符号化処理部１９０２は、動画シーン文字データ入力処理部１０１で入力した１パケット分の動画シーン文字データごとに、定型句キーワード辞書入力処理部１０４で入力した定型句キーワード辞書及び動画固有辞書生成処理部１２０２で生成した動画固有辞書と照合し、当該定型句キーワード辞書あるいは動画固有辞書に記述されたキーワードが動画シーン文字データに現れた場合に、そのパケットの動画シーン文字データのＰＴＳとともに、そのパケットの動画シーン文字データを符号化するように構成する。詳細には、シーン文字列符号化処理部１９０２は、本発明の第一の実施形態のシーン文字列符号化処理部１０２と同様に定型句キーワード辞書に記述されているキーワードが動画シーン文字データのパケットに見つかった場合に、定型句キーワード辞書に記述されている定型句符号を、後で詳細に説明する図２０に示すように、シーン文字列符号化データ中の定型句符号４０３に書き込む。また、同時に、シーン文字列符号化処理部１９０２は、本発明の第二の実施形態のシーン文字列符号化処理部１０２と同様に動画固有辞書に記述されているキーワードが動画シーン文字データのパケットに見つかった場合に、動画固有辞書に記述されている固有辞書符号を、後で詳細に説明する図２０に示すように、シーン文字列符号化データ中の固有辞書符号１５０３に書き込む。例えば、図３の定型句キーワード辞書のとおり、「続いては」というキーワードを定型句符号「１」で符号化するように定型句キーワード辞書に記述されている場合、シーン文字列符号化処理部１９０２は、動画シーン文字データのパケットごとに「続いては」という文字列を検索し、当該文字列が見つかった場合に、後で詳細に説明する図２０に示すように、その動画シーン文字データのパケットのＰＴＳとともに定型句符号「１」をシーン文字列符号化データの定型句符号４０３として記述し、図１４の動画固有辞書のとおり、「ｘｘｘ」というキーワードを固有辞書符号「１」で符号化するように動画固有辞書に記述されている場合、動画シーン文字データのパケットごとに「ｘｘｘ」という文字列を検索し、当該文字列が見つかった場合に、後で詳細に説明する図２０に示すように、その動画シーン文字データのパケットのＰＴＳとともに固有辞書符号「１」をシーン文字列符号化データの固有辞書符号１５０３として記述することでシーン文字列符号化データを作成する。

シーンインデクシング処理部１０３は、本発明の第一の実施形態のシーンインデクシング処理部１０３や及び第二の実施例におけるシーンインデクシング処理部１２０５とほぼ同じであるが、第三の実施形態においては、対定型句提示キーワード辞書入力処理部１０６で入力した対定型句提示キーワード辞書と動画固有辞書生成処理部１２０２で生成した動画固有辞書を参照して、動画データのシーンに対してインデクシングすることでインデクシングデータを生成するように構成する。これは、例えば、前記シーン文字列符号化処理部１０２で生成したシーン文字列符号化データの中から、各パケットの定型句符号４０３の値及び固有辞書符号１５０３の値と同じ符号値を持つキーワードを、それぞれ、対定型句提示キーワード辞書入力処理部１０６で入力した対定型句提示キーワード辞書及び画固有辞書生成処理部１２０２で生成した動画固有辞書から探し出し、当該キーワードとシーン文字列符号化データ内の時刻情報をセットにして、インデクシングデータとして記述することで、インデクシングデータを作成する。

さらに詳細には、例えば、後で詳細に説明する図２０のシーン文字列符号化データから、定型句符号４０３が「１」のエントリ４０４を取得して、この定型句符号「１」と同じ定型句符号５０１を持つエントリ５０３を対定型句提示キーワード辞書から探し出し、キーワード５０２に記述されているキーワード「トピック」を取得する。続いて、当該定型句符号「１」を持つ時刻４０１の時刻「３０」を取得して、当該キーワード「トピック」と時刻「３０」と時刻の数を、それぞれ、後述する図２１のようにインデクシングデータとして、それぞれキーワード２１０１、時刻情報２１０３、位置数２１０２に記述する。次に、例えば、後で詳細に説明する図２０のシーン文字列符号化データから、固有辞書符号１５０３が「１」のエントリ２００３を取得して、この固有辞書符号「１」と同じ固有辞書符号（例えば図１４の場合には１４０４）を持つエントリ１４０５を動画固有辞書から探し出し、キーワード１４０３に記述されているキーワード「ｘｘｘ」を取得する。

続いて、図２０の固有辞書符号「１」を持つ時刻２００１の時刻「１０」を取得して、当該キーワード「ｘｘｘ」と時刻「１０」と時刻の数を、それぞれインデクシングデータとして、それぞれ、後で詳細に説明する図２１に示すように、キーワード２１０１、時刻情報２１０３、位置数２１０２に記述する。本処理をシーン文字列符号化データ中の全定型句符号４０３の種類及び全固有辞書符号１５０３の種類に対して行うことで、インデクシングデータを生成する。

なお、固有辞書符号により付けたインデックスの時刻は時刻的に、当該時刻より後の定型句キーワード辞書及び対定型句提示キーワード辞書により付けた時刻に設定しても良い。例えば、図２０の例では、動画シーン文字データの時刻「１０」のパケットに「ｘｘｘ」という文字列が含まれており、シーン文字列符号化データの時刻「１０」のエントリに固有辞書符号「１」が付されている。また、動画シーン文字データの時刻「３０」のパケットに「続いては」という文字列が含まれており、シーン文字列符号化データの時刻「３０」のエントリに定型句符号「１」が付されている。先に説明した、シーンインデクシング処理部１０３は、時刻「１０」に「ｘｘｘ」というキーワードのインデクシングを行うが、この時刻より後の定型句辞書及び対定型句提示キーワード辞書により付けた時刻、すなわち時刻「３０」に「ｘｘｘ」というキーワードのインデクシングを行ってもよい。これにより、例えば、「ｘｘｘ」が出演者名の場合、単に出演者が出てきたシーンにインデクシングするのではなく、その出演者が実際に出演しているトピックの開始シーンにインデクシングしたインデクシングデータを生成できる。また、この動作は、例えば、動画固有辞書に規定されても良い。この場合、例えば図１４で固有辞書符号１４０４の後に属性をつけ、この属性が、インデクシング位置の補正を意味する値が記述されていてときに、当該エントリに記述されたキーワードのインデックスを当該キーワードの出現時刻よりも時間的に後の定型句キーワード提示位置にインデクシングするように構成すればよい。また、定型句符号と固有辞書符号が一致する定型句符号から導かれる定型句キーワード提示位置にインデクシングするように構成してもよい。こうすることで、例えば人名が選ばれたときにその人が現れるトピックの先頭から視聴することが可能となる。

次に、第三の実施形態に係る動画インデクシング方法で生成するデータについて詳細に説明するまず、第三の実施形態にかかるシーン文字列符号化データのデータ構造について説明する。

図２０は、第三の実施形態にかかるシーン文字列符号化データのデータ構造の一例である。図２０に示すとおり、第三の実施形態にかかるシーン文字列符号化データでは、本発明の第一の実施形態におけるシーン文字列符号化データに、本発明の第二の実施形態にかかるシーン文字列符号化データの固有辞書符号１５０３を加えたものとなっている。そして、動画シーン文字データの各パケットに、定型句キーワード辞書のキーワードが含まれていた場合には、当該キーワードに対応する定型句キーワード辞書の定型句符号３０３の値が入力されるように構成し、動画シーン文字データの各パケットに、動画固有辞書のキーワードが含まれていた場合には、当該キーワードに対応する動画キーワード辞書の固有辞書符号１４０４の値が入力されるように構成する。その他については本発明の第一及び第二の実施形態と同様に運用すればよい。なお、図２０においては、図３の定型句キーワード辞書及び図１４の動画固有辞書に基づいたとすると、時刻「１０」に固有辞書符号が「１」となっているので、動画シーン文字データの時刻「１０」のパケットに「ｘｘｘ」という文字列が含まれていたことを示しており、時刻「３０」に定型句符号が「１」となっているので、動画シーン文字データの時刻「３０」のパケットに「続いては」という文字列が含まれていたことを示している。同様に、時刻「５０」に固有辞書符号が「２」となっているので、動画シーン文字データの時刻「５０」のパケットに「ｏｏｏ」という文字列が含まれていたことを示しており、時刻「１５０」に定型句符号が「２」となっているので、動画シーン文字データの時刻「１５０」のパケットに「スポーツです。」という文字列が含まれていたことを示している。

次に、第三の実施形態にかかるインデクシングデータのデータ構造について説明する。

図２１は、第三の実施形態にかかるインデクシングデータのデータ構造の一例である。図２１に示すとおり、第三の実施形態にかかるインデクシングデータのデータ構造自体は本発明の第一及び第二の実施形態にかかるインデクシングデータのデータ構造と同じであるが、キーワード１６０１に記述されるキーワードとしては対定型句提示キーワード辞書で規定されたキーワード５０２と動画固有辞書で規定されたキーワード１４０３のキーワードが混在することになる。なお、図２１においては、先に説明したとおり、固有辞書符号により付けたインデックスの時刻は時刻的に、当該時刻より後の定型句キーワード辞書及び対定型句提示キーワード辞書により付けた時刻に設定しており、キーワード「ｘｘｘ」の時刻情報は「１０」ではなく、次の定型句キーワード辞書のキーワード出現位置、すなわちキーワード「トピック」の時刻情報「３０」に設定している。同様に、キーワード「ｏｏｏ」の時刻情報は「５０」ではなく、次の定型句キーワード辞書のキーワード出現位置、すなわちキーワード「スポーツ」の時刻情報「１５０」に設定している。

次に、第三の実施形態に係る動画インデクシング方法における全体の処理の流れを説明する。図２２は、第三の実施形態に係る動画インデクシング方法における全体の処理の流れの一例を説明するフローチャートである。
図２２に示すとおり、第三の実施形態に係る動画インデクシング方法では、まず、動画情報入力処理部１２０１により動画データの情報が記述された動画情報を入力し（ステップ２２０１）、動画ジャンル判別処理部１０５により、動画データのジャンルを判別する（ステップ２２０２）。次に、定型句キーワード辞書入力処理部１０４により、ステップ２２０２で判別した動画ジャンルに固有な定型句キーワード辞書を入力した後（ステップ２２０３）、動画固有辞書生成処理部１２０２により、ステップ２２０２で判別した動画ジャンル及びステップ２２０１で入力した動画情報を基にして、動画ジャンル及び動画データに対して固有の辞書を生成する（ステップ２２０４）。続いて、動画シーン文字データ入力処理部１０１により、動画シーンに関する文字データ（動画シーン文字データ）を１パケットづつ入力し（ステップ２２０４）、シーン文字列符号化処理部１０２により、ステップ２２０３で入力した定型句キーワード辞書及びステップ２２０４で生成した動画固有辞書を参照しながら、ステップ２２０５で入力したパケットの動画シーン文字データを符号化することでシーン文字列符号化データを生成する（ステップ２２０６）。

そして、ステップ２２０５とステップ２２０６を繰り返して、動画データにおける全てのパケットの動画シーン文字データを符号化した後（ステップ２２０７）、対定型句提示キーワード辞書入力処理部１０６により、ステップ２２０２で判別した動画ジャンルに固有な定型句キーワード辞書に対応する（すなわち、定型句キーワード辞書に対して提示するキーワードを規定した）対定型句提示キーワード辞書を入力し（ステップ２２０８）、シーンインデクシング処理部１０３により、ステップ２２０６で生成したシーン文字列符号化と、ステップ２２０８で入力した対定型句提示キーワード辞書と、ステップ２２０４で生成した動画固有辞書に基づいて、動画データのシーンに対してインデクシングを行うことで、インデクシングデータを生成する（ステップ２２０９）。例えば、シーンインデクシング処理部１０３は、カテゴリがニュースの動画データに対し、図２３に示すとおり、「続いては」という文字列２３１２が動画シーン文字データ中に現れた時刻「３０」２３０３の動画シーン文字データに対して定型句符号２３２０を「１」２３２１として符号化し、「スポーツです。」という文字列１５０が動画シーン文字データ中に現れた時刻「１５０」２３０４の動画シーン文字データに対して定型句符号２３２０を「２」２３２２として符号化する。

また、シーンインデクシング処理部１０３は、「ｘｘｘ」という文字列２３１１が動画シーン文字データ中に現れた時刻「１０」２３０１の動画シーン文字データに対して固有辞書符号２３２０を「１」２３３１として符号化し、同様に「ｏｏｏ」という文字列２３１３が動画シーン文字データ中に現れた時刻「５０」２３０２の動画シーン文字データに対して固有辞書符号２３２０を「２」２３３２として符号化する。そして、シーンインデクシング処理部１０３は、動画シーン文字データ中に「続いては」という文字列２３１２が現れた位置２３４１にキーワード「トピック」２３４０としてインデックスを付与し、動画シーン文字データ中に「スポーツです。」という文字列２３１４が現れた位置２３５１にキーワード「スポーツ」２３６１としてインデックスを付与したインデクシングデータを生成する。また、シーンインデクシング処理部１０３は、動画シーン文字データ中に「ｘｘｘ」という文字列２３１１が現れた位置２３６２にキーワード「ｘｘｘ」２３６０としてインデックスを付与し、動画シーン文字データ中に「ｏｏｏ」という文字列２３１３が現れた位置２３７２にキーワード「ｏｏｏ」２３７０としてインデックスを付与したインデクシングデータを生成する。このとき、先に述べたとおり、固有辞書符号により付けたインデックスの時刻を時刻的に、当該時刻より後の定型句キーワード辞書及び対定型句提示キーワード辞書により付けた時刻に設定することで、位置２３６１にキーワード「ｘｘｘ」としてインデックスを付与したインデクシングデータを生成する。また、シーンインデクシング処理部１０３は、同様に、位置２３７１にキーワード「ｏｏｏ」２３７０としてインデックスを付与したインデクシングデータを生成する。こうすることで、例えばユーザーから人名「ｘｘｘ」のキーワードが選ばれたときに、本インデクシングデータを読み込む動画再生装置において、その人が現れるトピックの先頭から視聴することが可能となる。

以上により、本発明の第三の実施形態のインデクシング方法により生成されたインデクシングデータを読み込む画再生装置において、ユーザに「トピック」２３４０、「スポーツ」２３５０等の定型キーワードおよび「ｘｘｘ」２３６０及び「ｏｏｏ」２３７０のキーワードを提示し、ユーザからこれらのキーワードが指定された時に、それぞれのキーワードのインデックスの位置から動画データを再生することで、それぞれのキーワードのシーンから再生することが可能となる。

なお、図２３において、２３００は時間軸をであり、２３０１、２３０２、２３０３及び２３０４は、それぞれ時刻「１０」、「３０」、「５０」及び「１５０」の時間軸上の位置である。また、２３１１、２３１２、２３１３及び２３１４は、それぞれ、時刻「１０」２３０１、「３０」２３０３、「５０」２３０２及び「１５０」２３０４の動画シーン文字データのパケットに含まれる文字列を示し、２３２１及び２３２２は、それぞれ、動画シーン文字データ２３１２及び２３１４の定型句符号２３２０の値と時間的な位置を示している。また、２３３１及び２３３２は、それぞれ、動画シーン文字データ２３１１及び２３１２の固有辞書符号２３３０の値と時間的な位置を示している。そして、２３４１は、キーワード「トピック」２３４０のインデックス位置を時間軸上にプロットした点を示し、２３５１は、キーワード「スポーツ」２３５０のインデックス位置を時間軸上にプロットした点を示している。また、２３６２及び２３６１は、キーワード「ｘｘｘ」２３６０のインデックス位置を時間軸上にプロットした点を示しており、特に２３６１は、固有辞書符号により付けたインデックスの時刻を時刻的に、当該時刻より後の定型句キーワード辞書及び対定型句提示キーワード辞書により付けた時刻に設定した場合の位置である。また、２３７２及び２３７１は、キーワード「ｏｏｏ」２３７０のインデックス位置を時間軸上にプロットした点を示しており、特に２３７１は、固有辞書符号により付けたインデックスの時刻を時刻的に、当該時刻より後の定型句キーワード辞書及び対定型句提示キーワード辞書により付けた時刻に設定した場合の位置である。

以上説明した本発明の第三の実施形態の動画インデクシング方法により、ハードウェアリソースの負荷を抑え、動画データのシーンにキーワードを付すと共に、当該キーワードを提示ことにより、ユーザがキーワードを指定することで動画データの中から、観たいシーンのみを視聴可能とするインデクシングデータを生成でき、特に、動画データのジャンルに固有の辞書と動画データ固有の辞書を生成して使用して、動画データに適したシーンのキーワードを提示することが出来ると共に、当該辞書データの人手による更新を不要とすることが可能となる。
なお、第三の実施形態に係る動画再生装置については、本発明の第一及び第二の実施形態に係る動画再生装置をそのまま適用可能であり、動画データにおけるシーンのキーワードを提示し、ユーザがキーワードを指定することで動画データの中から、観たいシーンを簡単に視聴可能とすることができる。

最後にインデクシング方法を実現するインデクシング装置のハードウェア構成の一例を説明する。
図２４は、インデクシング方法を実現するインデクシング装置のハードウェア構成の一例である。図２４に示すとおり、本発明インデクシング方法を実現するインデクシング装置は、中央処理装置２４０１と、動画入力装置２４０２と、記憶装置２４０３を有して構成される。そして、各装置は、バス２４０４によって接続され、各装置間で、相互にデータの送受信が可能なように構成されている。
動画入力装置２４０２は、記憶装置２４０３に記憶されている動画データを入力したり、ネットワーク経由で動画データを入力する場合には、図示しないLANカード等のネットワークカードから動画データを取得する。
記憶装置２４０３は、例えばランダムアクセスメモリ(RAM)やリードオンリーメモリ(ROM)、ハードディスクやDVD、CDとそれらのドライブ、あるいはフラッシュメモリ等の不揮発性メモリやiVDR等のリムーバブルハードディスク等により構成され、中央処理装置２４０１によって実行されるプログラムや本インデクシング方法において必要となるデータ、あるいは動画データ等を格納する。
中央処理装置２４０１は、マイクロプロセッサを主体に構成されており、記憶装置２４０３に格納されているプログラムを実行する。本構成において、前述したインデクシング方法における処理部（図１、図１２、あるいは図１９における各処理部）を中央処理装置２４０１によって実行されるプログラムとして構成することによって、本発明のインデクシング方法を実現するインデクシング装置を実現可能となる。例えば、図２４に示す、各プログラム２４１３、２４２３，２４３３，２４４３，２４５３，及び２４６３や、定型句キーワード辞書２４１４や対定型句提示キーワード辞書２４２４が記憶装置２４０３に格納される。中央処理装置２４０１がプログラムそれぞれを呼び出し、図１，１２あるいは図１９の各処理部を構成してもよい。なお、上記では、前述したインデクシング方法における処理部（図１、図１２、あるいは図１９における各処理部）を中央処理装置２４０１によって実行されるプログラムとして実現する例を説明したが、それぞれの処理部がハードウェアによって構成されても良いことはいうまでもない。上述した種々の実施形態によると、動画のシーンに対するキーワードを抽出するに当たり、辞書データの容量を小さくし、当該辞書データの保持に有するメモリ量を可能な限り削減すると共に、当該辞書データの人手による更新を不要とする、動画データのシーンに対してキーワードを付与したシーンインデクシングデータを生成することが可能となる。また、動画データのシーンにキーワードを付すと共に、当該キーワードとともに、再生位置を提示するユーザインターフェースを提供することにより、ユーザのシーン選択をより容易に行うことが可能となる。

インデクシング装置と動画再生装置を別々の装置で構成される例を説明したが、ひとつの装置に、インデクシング処理と再生処理とを備えるように構成してもよい。

１０１…動画シーン文字データ入力処理部、１０５…動画ジャンル判別処理部、１０４…定型句キーワード辞書入力処理部、１０２…シーン文字列符号化処理部、１０６…対定型句提示キーワード辞書入力処理部、１０３…シーンインデクシング処理部、１０７…定型句キーワード辞書１、１０８…定型句キーワード辞書Ｎ、１０９…対定型句提示キーワード辞書１、１１０…対定型句提示キーワード辞書Ｎ、９０１…動画入力処理部、９０２…インデクシングデータ入力処理部、９０３…キーワードリスト提示処理部、９０４…キーワード入力処理部、９０５…シーン再生処理部、１２０１…動画情報入力処理部、１２０２…動画固有辞書生成処理部

Claims

動画データのインデクシングを行う動画インデクシング方法であって、該動画インデクシング方法は、動画シーンに関する文字データを入力する動画シーン文字データ入力ステップと、動画のジャンルを判別する動画ジャンル判別ステップと、該判別した動画ジャンルに固有な定型句キーワード辞書を入力する定型句キーワード辞書入力ステップと、該入力した定型句キーワード辞書と前記入力した動画シーン文字データを基に動画データのシーンに対する文字列を符号化することでシーン文字列符号化データを生成するシーン文字列符号化ステップと、前記定型句キーワード辞書に対して提示するキーワードを規定した辞書を入力する対定型句提示キーワード辞書入力ステップと、前記シーン文字列符号化データと前記入力した対定型句提示キーワード辞書に基づいて、動画データのシーンに対してインデクシングを行うことでシーンインデクシングデータを生成するシーンインデクシングステップを備え、容量の小さな辞書データ、かつ、該辞書データの人手による更新を不要として、動画データのシーンに対してキーワードを付与したシーンインデクシングデータを生成することを特徴とする動画インデクシング方法。
動画データのインデクシングを行う動画インデクシング方法であって、該動画インデクシング方法は、動画シーンに関する文字データを入力する動画シーン文字データ入力ステップと、動画のジャンルを判別する動画ジャンル判別ステップと、動画データの情報が記述された動画情報を入力する動画情報入力ステップと、該入力した動画情報を基に動画データに対して固有の辞書を生成する動画固有辞書生成ステップと、該生成した動画固有辞書と前記入力した動画シーン文字データを基に動画データのシーンに対する文字列を符号化することでシーン文字列符号化データを生成するシーン文字列符号化ステップと、該シーン文字列符号化データと前記生成した動画固有辞書に基づいて、動画データのシーンに対してインデクシングを行うことでシーンインデクシングデータを生成するシーンインデクシングステップを備え、容量の小さな辞書データ、かつ、該辞書データの人手による更新を不要として、動画データのシーンに対してキーワードを付与したシーンインデクシングデータを生成することを特徴とする動画インデクシング方法。
動画データのインデクシングを行う動画インデクシング方法であって、該動画インデクシング方法は、動画シーンに関する文字データを入力する動画シーン文字データ入力ステップと、動画のジャンルを判別する動画ジャンル判別ステップと、該判別した動画ジャンルに固有な定型句キーワード辞書を入力する定型句キーワード辞書入力ステップと、動画データの情報が記述された動画情報を入力する動画情報入力ステップと、該入力した動画情報を基に動画データに対して固有の辞書を生成する動画固有辞書生成ステップと、該生成した動画固有辞書と、前記入力した定型句キーワード辞書と、前記入力した動画シーン文字データを基に動画データのシーンに対する文字列を符号化することでシーン文字列符号化データを生成するシーン文字列符号化ステップと、前記定型句キーワード辞書に対して提示するキーワードを規定した辞書を入力する対定型句提示キーワード辞書入力ステップと、前記シーン文字列符号化データと前記生成した動画固有辞書と前記入力した対定型句提示キーワード辞書に基づいて、動画データのシーンに対してインデクシングを行うことでシーンインデクシングデータを生成するシーンインデクシングステップと、を備えることを特徴とする動画インデクシング方法。
請求項２及び請求項３に記載の動画インデクシング方法において、前記動画情報入力ステップは、動画データの情報が記載された動画情報として、動画データに付随のＳＩ情報を入力することを特徴とする動画インデクシング方法。
請求項２及び請求項３に記載の動画インデクシング方法において、前記動画情報入力ステップは、動画データの情報が記載された動画情報として、動画データに関するメタデータを入力することを特徴とする動画インデクシング方法。
請求項１乃至請求項５に記載の動画インデクシング方法において、前記動画シーン文字データ入力ステップは、動画データに付随する字幕データの文字列を取得することを特徴とする動画インデクシング方法。
請求項１乃至請求項５に記載の動画インデクシング方法において、前記動画シーン文字データ入力ステップは、動画データの画像上にオーバーレイされたテロップ画像のＯＣＲ結果を入力することを特徴とする動画インデクシング方法。
請求項１乃至請求項５に記載の動画インデクシング方法において、前記動画シーン文字データ入力ステップは、動画データの音声の認識結果の文字列を入力することを特徴とする動画インデクシング方法。
請求項１乃至請求項５に記載の動画インデクシング方法において、前記動画シーン文字データ入力ステップは、動画データのメタデータを入力することを特徴とする動画インデクシング方法。
動画データを再生する動画再生装置であって、再生対象の動画データのシーンに対するキーワードを含むインデクシングデータを入力するインデクシングデータ入力処理部と、該入力したインデクシングデータに基づいて、シーンのキーワードリストを表示装置に出力するキーワードリスト出力処理部と、該出力されたキーワードリストの中から選択されたキーワードを入力するキーワード入力処理部と、該入力したキーワードと前記インデクシングデータから前記キーワードのシーンを取得して、該キーワードのシーンを再生するシーン再生処理部を備えることを特徴とする動画再生装置
請求項１０に記載の動画再生装置において、さらに、再生位置を示す走行バーを表示装置に出力するバー出力処理部を備え、前記バー出力処理部は、キーワード入力処理部により、キーワードの入力を受けると、該選択されたキーワードの位置を前記走行バー上に表示することを特徴とする動画再生装置。