JPH08235198A - マルチメディア情報管理システム - Google Patents
マルチメディア情報管理システムInfo
- Publication number
- JPH08235198A JPH08235198A JP7034986A JP3498695A JPH08235198A JP H08235198 A JPH08235198 A JP H08235198A JP 7034986 A JP7034986 A JP 7034986A JP 3498695 A JP3498695 A JP 3498695A JP H08235198 A JPH08235198 A JP H08235198A
- Authority
- JP
- Japan
- Prior art keywords
- information
- multimedia information
- management system
- commonality
- information management
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【目的】 人間の記憶の仕方や記憶の辿り方を疑似した
情報管理を可能とし、マルチメディア情報の記録および
検索を高効率化する。 【構成】 マルチメディア情報を、このマルチメディア
情報の物理的特徴の共通性に基づきグループ分けする分
割手段(エピソード抽出処理部8)と、この分割手段で
分けた各グループを、各グループの共通性が有する関連
性に基づき、上位のグループにまとめ、かつ、この上位
グループのさらなる上位グループへのまとめを繰り返し
てグループを階層構造に生成すると共に、言語情報の意
味に基づき言語間を連結する意味ネットワークを、階層
構造の各グループの共通性情報および関連性情報に対応
付ける要約手段(記憶構造学習処理9)とを設け、各グ
ループの共通性情報と関連性情報および言語情報をマル
チメディア情報の検索条件として用いる。
情報管理を可能とし、マルチメディア情報の記録および
検索を高効率化する。 【構成】 マルチメディア情報を、このマルチメディア
情報の物理的特徴の共通性に基づきグループ分けする分
割手段(エピソード抽出処理部8)と、この分割手段で
分けた各グループを、各グループの共通性が有する関連
性に基づき、上位のグループにまとめ、かつ、この上位
グループのさらなる上位グループへのまとめを繰り返し
てグループを階層構造に生成すると共に、言語情報の意
味に基づき言語間を連結する意味ネットワークを、階層
構造の各グループの共通性情報および関連性情報に対応
付ける要約手段(記憶構造学習処理9)とを設け、各グ
ループの共通性情報と関連性情報および言語情報をマル
チメディア情報の検索条件として用いる。
Description
【0001】
【産業上の利用分野】本発明は、動画像や音声等からな
るマルチメディア情報の記録および検索技術に係り、特
に、人間の記憶の仕方および人間の記憶の辿り方を疑似
し、マルチメディア情報の記録および検索を効率良く行
なうのに好適なマルチメディア情報管理システムに関す
るものである。
るマルチメディア情報の記録および検索技術に係り、特
に、人間の記憶の仕方および人間の記憶の辿り方を疑似
し、マルチメディア情報の記録および検索を効率良く行
なうのに好適なマルチメディア情報管理システムに関す
るものである。
【0002】
【従来の技術】人間の活動の多くは、本人や他人の過去
の経験や知見に基づいて進められる。このような過去の
経験や知見を伝達する優れたメディアとして文書がある
が、近年、ビデオカメラやVTR(ビデオテープレコー
ダ)、レ−ザディスク装置等における技術の進歩に伴
い、音声や動画像を含むマルチメディア情報の記録、伝
達が可能になってきた。さらに、電子計算機(コンピュ
ータ)が高速化し、大きな記憶容量を持つことが可能に
なった。これにより、蓄積された映像をVTRのように
単に逐次に再生するのみでなく、所望の映像をランダム
にアクセスして利用可能な環境が整ってきた。そして、
蓄積される情報が膨大になるに伴い、所望の映像を迅速
に検索できる機能が重要となる。
の経験や知見に基づいて進められる。このような過去の
経験や知見を伝達する優れたメディアとして文書がある
が、近年、ビデオカメラやVTR(ビデオテープレコー
ダ)、レ−ザディスク装置等における技術の進歩に伴
い、音声や動画像を含むマルチメディア情報の記録、伝
達が可能になってきた。さらに、電子計算機(コンピュ
ータ)が高速化し、大きな記憶容量を持つことが可能に
なった。これにより、蓄積された映像をVTRのように
単に逐次に再生するのみでなく、所望の映像をランダム
にアクセスして利用可能な環境が整ってきた。そして、
蓄積される情報が膨大になるに伴い、所望の映像を迅速
に検索できる機能が重要となる。
【0003】従来、蓄積された文書や映像に、標題や日
時、キ−ワ−ドを付与し、検索を容易にする技術が多く
採り入れられている。しかし、後で思い出し易いキ−ワ
−ドを付けることは、本人であっても難しい。このよう
な問題を解決するための従来技術としては、例えば、特
公平5−84538号公報に示された文書の情報記憶検
索システムがある。この技術では、あいまいな記憶から
の検索を可能とするため、知識ベ−スとして、概念間の
関係を示すネットワ−クを構築し、この知識ベ−スに基
づいた推論により文書の検索を実現する。例えば、「埼
玉県にある○○会社が製造したワ−クステ−ションの記
事」の情報により記録された文書を、あいまいな検索
文:「関東の電機会社が作った計算機の記事」で検索可
能となる。
時、キ−ワ−ドを付与し、検索を容易にする技術が多く
採り入れられている。しかし、後で思い出し易いキ−ワ
−ドを付けることは、本人であっても難しい。このよう
な問題を解決するための従来技術としては、例えば、特
公平5−84538号公報に示された文書の情報記憶検
索システムがある。この技術では、あいまいな記憶から
の検索を可能とするため、知識ベ−スとして、概念間の
関係を示すネットワ−クを構築し、この知識ベ−スに基
づいた推論により文書の検索を実現する。例えば、「埼
玉県にある○○会社が製造したワ−クステ−ションの記
事」の情報により記録された文書を、あいまいな検索
文:「関東の電機会社が作った計算機の記事」で検索可
能となる。
【0004】しかし、人間が過去に目にした文書やその
格納場所を思い出そうとするとき、上述のような文書の
内容よりも、その文書を目にしたときの状況からの連想
で思い出そうとすることが多い。すなわち、いつ、どこ
で、どんな状況で見ていたかを思い出すことにより、文
書の内容や格納場所をより詳細に思い出す。上述の従来
技術では、このようなエピソ−ド的な検索ができない。
また、上述の従来技術では、文書に付けられる検索キ−
が、単語から構造を持つ文になったことにより、検索の
柔軟性が向上するが、検索キ−の文は登録者の主観によ
って要約された結果である。このため、検索者が登録者
と異なる場合等においては、登録時の観点と検索時の観
点とが異なり、不適正な検索キーが入力される可能性が
あり、このような場合には検索ができない。
格納場所を思い出そうとするとき、上述のような文書の
内容よりも、その文書を目にしたときの状況からの連想
で思い出そうとすることが多い。すなわち、いつ、どこ
で、どんな状況で見ていたかを思い出すことにより、文
書の内容や格納場所をより詳細に思い出す。上述の従来
技術では、このようなエピソ−ド的な検索ができない。
また、上述の従来技術では、文書に付けられる検索キ−
が、単語から構造を持つ文になったことにより、検索の
柔軟性が向上するが、検索キ−の文は登録者の主観によ
って要約された結果である。このため、検索者が登録者
と異なる場合等においては、登録時の観点と検索時の観
点とが異なり、不適正な検索キーが入力される可能性が
あり、このような場合には検索ができない。
【0005】エピソード的な検索を可能とするものとし
て、特開平5−282379号公報に示された動画像の
管理装置がある。この装置では、動画像を物理的変化や
意味内容に則して分割し、それを時間方向に順次階層的
にまとめあげ、その階層関係を木構造で表現する。木構
造の各ノ−ドには、代表となる静止画と属性を検索キ−
として付与する。この木構造と検索キ−により、ランダ
ムな画像の検索を行なう。この技術では、時間的なエピ
ソ−ドの記憶・検索が可能である。しかし、活動の時間
を超えた要約や、活動における空間的なエピソ−ドの表
現が考慮されていない。また、各ノ−ドの内容に基づく
検索については、固定的である。そのために、人間が記
憶しやすい(覚えやすい)情報や、思い出しやすい情報
に基づいた検索を行なうには十分ではない。
て、特開平5−282379号公報に示された動画像の
管理装置がある。この装置では、動画像を物理的変化や
意味内容に則して分割し、それを時間方向に順次階層的
にまとめあげ、その階層関係を木構造で表現する。木構
造の各ノ−ドには、代表となる静止画と属性を検索キ−
として付与する。この木構造と検索キ−により、ランダ
ムな画像の検索を行なう。この技術では、時間的なエピ
ソ−ドの記憶・検索が可能である。しかし、活動の時間
を超えた要約や、活動における空間的なエピソ−ドの表
現が考慮されていない。また、各ノ−ドの内容に基づく
検索については、固定的である。そのために、人間が記
憶しやすい(覚えやすい)情報や、思い出しやすい情報
に基づいた検索を行なうには十分ではない。
【0006】また、特開平3−52070号公報には、
画面上の一つの事物をマウス等によりポイントすること
で、このポイントされた事物に予め対応付けられている
関連情報を呼び出す技術が、さらに、特願平6−260
013号には、この技術を改善して、予め対応付けられ
ていない情報に関しても、ユーザが記憶を連想的に辿り
ながら所望のシーンを見つけだすことができる技術が記
載されている。特願平6−260013号に記載の技術
では、例えば、検索対象である被写体Bがインデクスと
して登録されていない場合にも、ユーザは、被写体Bが
被写体Aと同時に現われるという連想を基に、インデク
スに登録されている被写体Aを通して、連想的に、被写
体Bが出ている特定のシーンまで辿ることができる。さ
らに、この技術では、単に複数の被写体間の連想に限ら
ず、シーン自体や、言葉、BGM、字幕といった、映像
中のマルチメディア情報に基づいた連想を用いて検索を
行なうことができる。
画面上の一つの事物をマウス等によりポイントすること
で、このポイントされた事物に予め対応付けられている
関連情報を呼び出す技術が、さらに、特願平6−260
013号には、この技術を改善して、予め対応付けられ
ていない情報に関しても、ユーザが記憶を連想的に辿り
ながら所望のシーンを見つけだすことができる技術が記
載されている。特願平6−260013号に記載の技術
では、例えば、検索対象である被写体Bがインデクスと
して登録されていない場合にも、ユーザは、被写体Bが
被写体Aと同時に現われるという連想を基に、インデク
スに登録されている被写体Aを通して、連想的に、被写
体Bが出ている特定のシーンまで辿ることができる。さ
らに、この技術では、単に複数の被写体間の連想に限ら
ず、シーン自体や、言葉、BGM、字幕といった、映像
中のマルチメディア情報に基づいた連想を用いて検索を
行なうことができる。
【0007】しかし、特願平6−260013号に記載
の技術は、ユーザが検索対象物に関して持っている知識
を利用して連想を行なうものであり、連想に用いるイン
デクスを、ユーザ自身が探しださなければならない。も
し、ユーザの知識が間違っている場合には、連想は正し
く行なわれず、所望の検索を得ることができない。この
特願平6−260013号に記載の技術においては、こ
のようなユーザの連想を高信頼化させる支援技術に関し
ての考慮がなされていない。すなわち、上述のように、
人間が記憶しやすい(覚えやすい)情報や、思い出しや
すい情報に基づいた検索を行なうことに関しての考慮が
なされていない。
の技術は、ユーザが検索対象物に関して持っている知識
を利用して連想を行なうものであり、連想に用いるイン
デクスを、ユーザ自身が探しださなければならない。も
し、ユーザの知識が間違っている場合には、連想は正し
く行なわれず、所望の検索を得ることができない。この
特願平6−260013号に記載の技術においては、こ
のようなユーザの連想を高信頼化させる支援技術に関し
ての考慮がなされていない。すなわち、上述のように、
人間が記憶しやすい(覚えやすい)情報や、思い出しや
すい情報に基づいた検索を行なうことに関しての考慮が
なされていない。
【0008】人間の記憶には、「ペンギンは鳥の一種で
ある」ということや、「リンゴは重力により地面に落ち
る」というような学校で習うような知識の記憶と、「昨
日、動物園に行った」ことや、「太郎がはしごから落ち
た」といった個人的な経験に関する記憶とがある。心理
学者のTulvingは、前者を「意味記憶」、後者を
「エピソ−ド記憶」と名付けた。記憶法の研究におい
て、記憶に残る、忘れにくい意味記憶とエピソ−ド記憶
は、それぞれ互いに関連つけられたものであることが知
られている。
ある」ということや、「リンゴは重力により地面に落ち
る」というような学校で習うような知識の記憶と、「昨
日、動物園に行った」ことや、「太郎がはしごから落ち
た」といった個人的な経験に関する記憶とがある。心理
学者のTulvingは、前者を「意味記憶」、後者を
「エピソ−ド記憶」と名付けた。記憶法の研究におい
て、記憶に残る、忘れにくい意味記憶とエピソ−ド記憶
は、それぞれ互いに関連つけられたものであることが知
られている。
【0009】このように、人間の記憶においては、既知
の単語や事実、概念などの多くの情報と関係付けられた
単語や事実ほど、忘れにくく記憶に残りやすい。機械に
このような記憶を実現することにより、利用者が覚えて
いる情報、思い出しやすい情報に基づいた迅速な検索が
可能になる。このためには、映像の意味的な内容に加え
て、イメ−ジに近い、時間や、場所などの空間的な情報
を含むエピソ−ド的な情報をも統合的に管理可能である
必要がある。また、人手による画像情報等のラベル付け
は、主観的になりやすい。このため、実映像に基づいた
ラベル付け、構造化が必要である。しかし、上述したよ
うに、従来の技術においては、このような人間が記憶し
やすい(覚えやすい)情報や、思い出しやすい情報に基
づいた検索を行なうことに関しての考慮がなされていな
い。
の単語や事実、概念などの多くの情報と関係付けられた
単語や事実ほど、忘れにくく記憶に残りやすい。機械に
このような記憶を実現することにより、利用者が覚えて
いる情報、思い出しやすい情報に基づいた迅速な検索が
可能になる。このためには、映像の意味的な内容に加え
て、イメ−ジに近い、時間や、場所などの空間的な情報
を含むエピソ−ド的な情報をも統合的に管理可能である
必要がある。また、人手による画像情報等のラベル付け
は、主観的になりやすい。このため、実映像に基づいた
ラベル付け、構造化が必要である。しかし、上述したよ
うに、従来の技術においては、このような人間が記憶し
やすい(覚えやすい)情報や、思い出しやすい情報に基
づいた検索を行なうことに関しての考慮がなされていな
い。
【0010】
【発明が解決しようとする課題】解決しようとする問題
点は、従来の技術では、人間が記憶しやすい(覚えやす
い)情報や、思い出しやすい情報に基づくマルチメディ
ア情報の記録および検索を行なうことができない点であ
る。本発明の目的は、これら従来技術の課題を解決し、
マルチメディア情報の記録および検索を高効率化するこ
とが可能なマルチメディア情報管理システムを提供する
ことである。
点は、従来の技術では、人間が記憶しやすい(覚えやす
い)情報や、思い出しやすい情報に基づくマルチメディ
ア情報の記録および検索を行なうことができない点であ
る。本発明の目的は、これら従来技術の課題を解決し、
マルチメディア情報の記録および検索を高効率化するこ
とが可能なマルチメディア情報管理システムを提供する
ことである。
【0011】
【課題を解決するための手段】上記目的を達成するた
め、本発明のマルチメディア情報管理システムは、
(1)マルチメディア情報を、このマルチメディア情報
の物理的特徴の共通性に基づきグループ分けする分割手
段(エピソード抽出処理部8)と、この分割手段で分け
た各グループを、各グループの共通性が有する関連性に
基づき、上位のグループに要約し、かつ、この上位グル
ープのさらなる上位グループへの要約を繰り返してグル
ープを階層構造に生成すると共に、言語情報の意味に基
づき言語間を連結する意味ネットワークを、階層構造の
各グループの共通性情報および関連性情報に対応付ける
要約手段(記憶構造学習処理9)とを設け、階層構造の
各グループの共通性情報と関連性情報、および言語情報
を、マルチメディア情報の検索条件として用いることを
特徴とする。
め、本発明のマルチメディア情報管理システムは、
(1)マルチメディア情報を、このマルチメディア情報
の物理的特徴の共通性に基づきグループ分けする分割手
段(エピソード抽出処理部8)と、この分割手段で分け
た各グループを、各グループの共通性が有する関連性に
基づき、上位のグループに要約し、かつ、この上位グル
ープのさらなる上位グループへの要約を繰り返してグル
ープを階層構造に生成すると共に、言語情報の意味に基
づき言語間を連結する意味ネットワークを、階層構造の
各グループの共通性情報および関連性情報に対応付ける
要約手段(記憶構造学習処理9)とを設け、階層構造の
各グループの共通性情報と関連性情報、および言語情報
を、マルチメディア情報の検索条件として用いることを
特徴とする。
【0012】また、(2)上記(1)に記載のマルチメ
ディア情報管理システムにおいて、階層構造の各グルー
プの共通性情報と関連性情報および言語情報を表示する
手段(中央処理装置20、インターフェイス部6、ディ
スプレイ3)を設けることを特徴とする。また、(3)
上記(1)、もしくは、(2)のいずれかに記載のマル
チメディア情報管理システムにおいて、分割手段(エピ
ソード抽出処理部8)は、マルチメディア情報の動画像
内の事物の共通性に基づき、マルチメディア情報のグル
ープ分けを行なうことを特徴とする。
ディア情報管理システムにおいて、階層構造の各グルー
プの共通性情報と関連性情報および言語情報を表示する
手段(中央処理装置20、インターフェイス部6、ディ
スプレイ3)を設けることを特徴とする。また、(3)
上記(1)、もしくは、(2)のいずれかに記載のマル
チメディア情報管理システムにおいて、分割手段(エピ
ソード抽出処理部8)は、マルチメディア情報の動画像
内の事物の共通性に基づき、マルチメディア情報のグル
ープ分けを行なうことを特徴とする。
【0013】また、(4)上記(3)に記載のマルチメ
ディア情報管理システムにおいて、動画像を撮影したカ
メラの動きに基づき、分割手段(エピソード抽出処理部
8)で用いる共通性情報を定めることを特徴とする。ま
た、(5)上記(3)、もしくは、上記(4)のいずれ
かに記載のマルチメディア情報管理システムにおいて、
動画像を撮影したカメラの動きに基づき、各グループ間
の位置関係を求め、この各グループ間の位置関係を、要
約手段(記憶構造学習処理9)で用いる関連性情報とす
ることを特徴とする。
ディア情報管理システムにおいて、動画像を撮影したカ
メラの動きに基づき、分割手段(エピソード抽出処理部
8)で用いる共通性情報を定めることを特徴とする。ま
た、(5)上記(3)、もしくは、上記(4)のいずれ
かに記載のマルチメディア情報管理システムにおいて、
動画像を撮影したカメラの動きに基づき、各グループ間
の位置関係を求め、この各グループ間の位置関係を、要
約手段(記憶構造学習処理9)で用いる関連性情報とす
ることを特徴とする。
【0014】また、(6)上記(1)から(5)のいず
れかに記載のマルチメディア情報管理システムにおい
て、マルチメディア情報内の複数の事物間の空間的位置
関係を、グループの共通性情報として用いることを特徴
とする。また、(7)上記(1)から(6)のいずれか
に記載のマルチメディア情報管理システムにおいて、共
通性情報および関連性情報を、パターンにより形成し、
パターン認識により共通性および関連性の判別を行なう
ことを特徴とする。また、(8)上記(1)から(7)
のいずれかに記載のマルチメディア情報管理システムに
おいて、共通性情報および関連性情報を、記号を含む言
語により形成し、意味解析により共通性および関連性の
判別を行なうことを特徴とする。
れかに記載のマルチメディア情報管理システムにおい
て、マルチメディア情報内の複数の事物間の空間的位置
関係を、グループの共通性情報として用いることを特徴
とする。また、(7)上記(1)から(6)のいずれか
に記載のマルチメディア情報管理システムにおいて、共
通性情報および関連性情報を、パターンにより形成し、
パターン認識により共通性および関連性の判別を行なう
ことを特徴とする。また、(8)上記(1)から(7)
のいずれかに記載のマルチメディア情報管理システムに
おいて、共通性情報および関連性情報を、記号を含む言
語により形成し、意味解析により共通性および関連性の
判別を行なうことを特徴とする。
【0015】また、(9)上記(1)から(8)のいず
れかに記載のマルチメディア情報管理システムにおい
て、グループ間を、時間方向の前後関係で関連付け、こ
の関連付け情報をマルチメディア情報の検索条件として
用いることを特徴とする。また、(10)上記(1)か
ら(9)のいずれかに記載のマルチメディア情報管理シ
ステムにおいて、グループ間を、空間的な位置関係で関
連付け、この関連付け情報をマルチメディア情報の検索
条件として用いることを特徴とする。また、(11)上
記(1)から(10)のいずれかに記載のマルチメディ
ア情報管理システムにおいて、操作者からの指示入力に
基づき、階層構造のグループ分けの訂正を行なうことを
特徴とする。
れかに記載のマルチメディア情報管理システムにおい
て、グループ間を、時間方向の前後関係で関連付け、こ
の関連付け情報をマルチメディア情報の検索条件として
用いることを特徴とする。また、(10)上記(1)か
ら(9)のいずれかに記載のマルチメディア情報管理シ
ステムにおいて、グループ間を、空間的な位置関係で関
連付け、この関連付け情報をマルチメディア情報の検索
条件として用いることを特徴とする。また、(11)上
記(1)から(10)のいずれかに記載のマルチメディ
ア情報管理システムにおいて、操作者からの指示入力に
基づき、階層構造のグループ分けの訂正を行なうことを
特徴とする。
【0016】
【作用】本発明においては、人間の記憶と同様に、意味
に関する情報と、個人の経験である画像や音声等のマル
チメディア情報の要約結果とを対応付けて、マルチメデ
ィア情報の検索に用いるので、人間が思い出しやすい情
報を検索条件として提供できる。人間のエピソ−ド記憶
における経験の記憶は、時間や空間的なイメ−ジに近い
情報を持つが、それは、写真やレコ−ドのような厳密な
イメ−ジではない。また、例えば、撮影された動画像デ
−タは、視点の違いにより、意味的に一まとまりと認知
される区間が異なる。
に関する情報と、個人の経験である画像や音声等のマル
チメディア情報の要約結果とを対応付けて、マルチメデ
ィア情報の検索に用いるので、人間が思い出しやすい情
報を検索条件として提供できる。人間のエピソ−ド記憶
における経験の記憶は、時間や空間的なイメ−ジに近い
情報を持つが、それは、写真やレコ−ドのような厳密な
イメ−ジではない。また、例えば、撮影された動画像デ
−タは、視点の違いにより、意味的に一まとまりと認知
される区間が異なる。
【0017】本発明では、例えば画像デ−タからの特徴
の抽出結果に基づき、撮影された動画像デ−タを分割
(グループ分け)する。これにより、主観に依存せず、
客観的に同じ意味のまとまりの区間を検出することがで
きる。さらに分割した動画像デ−タを1つの単位(ノ−
ド)として、各ノ−ド間における、動画像デ−タの物理
的特徴や意味的な共通性(関連性)に基づいて、階層的
に要約する(まとめる)。これにより、人や物のような
具象物のみでなく、活動のような抽象的な概念(例え
ば、会議や移動区間)によりラベル付けされたまとめ上
げが同じ枠組みの下で実現でき、多視点に応じた要約が
可能となる。さらに、各ノ−ドには、付加情報として、
画像に写っている事物と各事物間の空間上の位置関係を
持たせることにより、空間的情報をも含むイメ−ジに近
い情報を、ノ−ドに持たせることができる。また、ノ−
ドを特徴付ける記号や言葉を持たせることにより、意味
記憶との対応をとることができる。さらに、ノ−ドを特
徴付けるパターンと認識の手続きをそれぞれ記憶するこ
とにより、ノ−ドをパターンレベルにおいても同定可能
となる。
の抽出結果に基づき、撮影された動画像デ−タを分割
(グループ分け)する。これにより、主観に依存せず、
客観的に同じ意味のまとまりの区間を検出することがで
きる。さらに分割した動画像デ−タを1つの単位(ノ−
ド)として、各ノ−ド間における、動画像デ−タの物理
的特徴や意味的な共通性(関連性)に基づいて、階層的
に要約する(まとめる)。これにより、人や物のような
具象物のみでなく、活動のような抽象的な概念(例え
ば、会議や移動区間)によりラベル付けされたまとめ上
げが同じ枠組みの下で実現でき、多視点に応じた要約が
可能となる。さらに、各ノ−ドには、付加情報として、
画像に写っている事物と各事物間の空間上の位置関係を
持たせることにより、空間的情報をも含むイメ−ジに近
い情報を、ノ−ドに持たせることができる。また、ノ−
ドを特徴付ける記号や言葉を持たせることにより、意味
記憶との対応をとることができる。さらに、ノ−ドを特
徴付けるパターンと認識の手続きをそれぞれ記憶するこ
とにより、ノ−ドをパターンレベルにおいても同定可能
となる。
【0018】
【実施例】以下、本発明の実施例を、図面により詳細に
説明する。図1は、本発明のマルチメディア情報管理シ
ステムの本発明に係る構成の一実施例を示すブロック図
であり、図2は、図1におけるマルチメディア情報管理
システムの動作に用いる各装置構成例を示すブロック図
である。図2における各装置は、オフィスなどにおける
日常活動を撮影した映像の記録、検索を行なうために設
けたものであり、中央処理装置(図中、CPUと記載)
20、磁気ディスク装置(図中、HDDと記載)10、
メモリ装置(図中、メモリと記載)30、カメラ1やマ
イク2からの動画像や音声をAD変換してディジタル化
した後にバス50に送信する制御部(図中、CONTと
記載)40、ディスプレイ(図中、CRTと記載)3や
キーボード(図中、KEYと記載)4、マウス5の情報
の入出力の制御を行うインタフェース部(図中、IFと
記載)6により構成される。
説明する。図1は、本発明のマルチメディア情報管理シ
ステムの本発明に係る構成の一実施例を示すブロック図
であり、図2は、図1におけるマルチメディア情報管理
システムの動作に用いる各装置構成例を示すブロック図
である。図2における各装置は、オフィスなどにおける
日常活動を撮影した映像の記録、検索を行なうために設
けたものであり、中央処理装置(図中、CPUと記載)
20、磁気ディスク装置(図中、HDDと記載)10、
メモリ装置(図中、メモリと記載)30、カメラ1やマ
イク2からの動画像や音声をAD変換してディジタル化
した後にバス50に送信する制御部(図中、CONTと
記載)40、ディスプレイ(図中、CRTと記載)3や
キーボード(図中、KEYと記載)4、マウス5の情報
の入出力の制御を行うインタフェース部(図中、IFと
記載)6により構成される。
【0019】磁気ディスク装置10は、意味的情報(言
語情報)を記憶する意味記憶装置(図中、言語と記載)
101、エピソード的情報を記憶するエピソード記憶装
置(図中、EPSと記載)102、カメラ1やマイク2
からの動画像や音声を記憶するマルチメディア情報記憶
装置(図中、DATAと記載)103から構成される。
ここで、マルチメディア情報記憶装置103は、磁気デ
ィスク装置でなく、レーザディスク装置のような外部記
憶装置でも良い。この場合、カメラ1やマイク2からの
動画像や音声は、制御部40を経由しないで、直接マル
チメディア情報記憶装置103に登録する構成も可能で
ある。
語情報)を記憶する意味記憶装置(図中、言語と記載)
101、エピソード的情報を記憶するエピソード記憶装
置(図中、EPSと記載)102、カメラ1やマイク2
からの動画像や音声を記憶するマルチメディア情報記憶
装置(図中、DATAと記載)103から構成される。
ここで、マルチメディア情報記憶装置103は、磁気デ
ィスク装置でなく、レーザディスク装置のような外部記
憶装置でも良い。この場合、カメラ1やマイク2からの
動画像や音声は、制御部40を経由しないで、直接マル
チメディア情報記憶装置103に登録する構成も可能で
ある。
【0020】図1において、7はカメラ1やマイク2か
ら送られてきた動画像や音声等をマルチメディア情報記
憶装置103に格納するメディア情報管理部、8はカメ
ラ1から送られてきた動画像分割する本発明に係る分割
手段としてのエピソード抽出処理部、9はエピソード記
憶装置102に記録されたカット間の共通性に基づいて
要約を行う本発明に係る要約手段としての記憶構造学習
処理部、11はキーボード4から入力された言語の意味
解析を行なう言語解析部、12は言語に基づく情報検索
を行なう検索部、13はブラウザである。
ら送られてきた動画像や音声等をマルチメディア情報記
憶装置103に格納するメディア情報管理部、8はカメ
ラ1から送られてきた動画像分割する本発明に係る分割
手段としてのエピソード抽出処理部、9はエピソード記
憶装置102に記録されたカット間の共通性に基づいて
要約を行う本発明に係る要約手段としての記憶構造学習
処理部、11はキーボード4から入力された言語の意味
解析を行なう言語解析部、12は言語に基づく情報検索
を行なう検索部、13はブラウザである。
【0021】このような構成により、本実施例のマルチ
メディア情報管理システムでは、入力されたマルチメデ
ィア情報を分割し、かつ、要約した情報(共通性情報、
関連性情報)を、意味に関する情報(言語情報)に対応
付けて管理する。このことにより、機械における情報の
獲得および記憶形態を、人間の記憶の生成や想起の特性
に合致したものとすることができる。このような本発明
に係る特徴的な動作の概要を以下に説明する。
メディア情報管理システムでは、入力されたマルチメデ
ィア情報を分割し、かつ、要約した情報(共通性情報、
関連性情報)を、意味に関する情報(言語情報)に対応
付けて管理する。このことにより、機械における情報の
獲得および記憶形態を、人間の記憶の生成や想起の特性
に合致したものとすることができる。このような本発明
に係る特徴的な動作の概要を以下に説明する。
【0022】まず、画像データからの特徴の抽出結果
(共通性情報)に基づき、撮影された動画像データを分
割すると共に、分割された動画像データを1つの単位
(ノード)として、各ノード間における、動画像データ
の物理的特徴や意味的な共通性(関連性情報)に基づい
て、階層的に要約する。この要約した結果も上位のノー
ドとして要約処理を行なう。そして、対応するマルチメ
ディア情報の記憶場所のポインタや、画像に写っている
事物と各事物間の空間上の位置関係、ノードを特徴付け
る記号や言葉、ノードを特徴付けるパターンと認識の手
続き等を、付加情報として、各ノードに付加して、要約
結果を記憶する。さらに、各ノード間の関係として、時
間方向の前後関係や空間における位置関係、ノード間の
階層関係、および、ノードの部分/全体の関係である集
約関係を記憶する。
(共通性情報)に基づき、撮影された動画像データを分
割すると共に、分割された動画像データを1つの単位
(ノード)として、各ノード間における、動画像データ
の物理的特徴や意味的な共通性(関連性情報)に基づい
て、階層的に要約する。この要約した結果も上位のノー
ドとして要約処理を行なう。そして、対応するマルチメ
ディア情報の記憶場所のポインタや、画像に写っている
事物と各事物間の空間上の位置関係、ノードを特徴付け
る記号や言葉、ノードを特徴付けるパターンと認識の手
続き等を、付加情報として、各ノードに付加して、要約
結果を記憶する。さらに、各ノード間の関係として、時
間方向の前後関係や空間における位置関係、ノード間の
階層関係、および、ノードの部分/全体の関係である集
約関係を記憶する。
【0023】情報の検索時においては、記憶した要約結
果(共通性情報、関連性情報)と、記憶した意味に関す
る情報(言語情報)および両者の対応付けの一部あるい
は全部を表示する。そして、操作者からのノードの表示
の指示により、対応付けられた画像や音声の情報を再生
する。さらに、操作者の言語(言語情報)による検索の
問い合わせに基づいて、所望の記憶された画像や音声の
情報を検索し、表示する。このようにして、操作者は、
対話的に表示内容を操作し、所望の表示内容を容易に検
索することができる。また、情報のメンテナンスにおい
ては、記憶した要約結果と、意味に関する情報を表示
し、操作者からの処理結果の内容の正否の教示入力に基
づき、要約処理や要約結果、意味に関する情報を変更す
る。このように、本実施例では、マルチメディア情報の
記録および検索を、人間の記憶の仕方や、人間の記憶の
辿り方(思い出し方)を疑似して行なうことができる。
果(共通性情報、関連性情報)と、記憶した意味に関す
る情報(言語情報)および両者の対応付けの一部あるい
は全部を表示する。そして、操作者からのノードの表示
の指示により、対応付けられた画像や音声の情報を再生
する。さらに、操作者の言語(言語情報)による検索の
問い合わせに基づいて、所望の記憶された画像や音声の
情報を検索し、表示する。このようにして、操作者は、
対話的に表示内容を操作し、所望の表示内容を容易に検
索することができる。また、情報のメンテナンスにおい
ては、記憶した要約結果と、意味に関する情報を表示
し、操作者からの処理結果の内容の正否の教示入力に基
づき、要約処理や要約結果、意味に関する情報を変更す
る。このように、本実施例では、マルチメディア情報の
記録および検索を、人間の記憶の仕方や、人間の記憶の
辿り方(思い出し方)を疑似して行なうことができる。
【0024】以下、各処理部単位に、本発明に係る動作
説明を行なう。各処理部のプログラムやデータおよび、
処理の途中結果は、図2のメモリ30に格納され、図1
の中央処理装置20で実行される。本実施例において
は、カメラ1やマイク2を作業者の頭に取り付けている
ものとする。このカメラ1やマイク2から収録されたオ
フィスなどの活動の動画像や音声は、メディア情報管理
部7とエピソード抽出処理部8に送られる。メディア情
報管理部7は、送られてきた動画像や音声を、そのまま
マルチメディア情報記憶装置103に格納する。
説明を行なう。各処理部のプログラムやデータおよび、
処理の途中結果は、図2のメモリ30に格納され、図1
の中央処理装置20で実行される。本実施例において
は、カメラ1やマイク2を作業者の頭に取り付けている
ものとする。このカメラ1やマイク2から収録されたオ
フィスなどの活動の動画像や音声は、メディア情報管理
部7とエピソード抽出処理部8に送られる。メディア情
報管理部7は、送られてきた動画像や音声を、そのまま
マルチメディア情報記憶装置103に格納する。
【0025】エピソード抽出処理部8は、送られてきた
動画像を分割する。この分割された区間を以降カットと
呼ぶことにする。一般に動画像は、30フレーム/秒で
入力される。このため、カットは、連続した1つ以上の
フレームである。エピソード抽出処理部8は、抽出した
カットと、マルチメディア情報記憶装置103に格納さ
れた対応する画像のフレームとの対応(始終点のフレー
ム番号など)を記録する。さらに、動画像や音声などの
情報から、そのカットに登場する人や物、さらには背景
や雰囲気などを認識し、エピソード記憶装置102に記
録する。記憶構造学習処理部9は、エピソード記憶装置
102に記録されたカット間の共通性に基づいて要約を
行い、図3に示すように構造化する。メディア情報管理
部7は、構造化の内容に基づき、マルチメディア情報記
憶装置103を整理し、必要な情報のみを残す。
動画像を分割する。この分割された区間を以降カットと
呼ぶことにする。一般に動画像は、30フレーム/秒で
入力される。このため、カットは、連続した1つ以上の
フレームである。エピソード抽出処理部8は、抽出した
カットと、マルチメディア情報記憶装置103に格納さ
れた対応する画像のフレームとの対応(始終点のフレー
ム番号など)を記録する。さらに、動画像や音声などの
情報から、そのカットに登場する人や物、さらには背景
や雰囲気などを認識し、エピソード記憶装置102に記
録する。記憶構造学習処理部9は、エピソード記憶装置
102に記録されたカット間の共通性に基づいて要約を
行い、図3に示すように構造化する。メディア情報管理
部7は、構造化の内容に基づき、マルチメディア情報記
憶装置103を整理し、必要な情報のみを残す。
【0026】図3は、本発明に係る記憶構造例を示す説
明図である。本図3は、作業者が自分の机で、デスクワ
ーク作業をした後、用事で移動した状況のエピソードの
表現例を示したものである。入力された動画像や音声
は、マルチメディア情報記憶装置103に格納されると
共に、エピソード抽出処理部8で、カット1020〜1
023以下に分割され、両記憶の対応が記録される。カ
ット1020〜1023は、二つの違った場所(例え
ば、ディスプレイと資料)を繰り返し交互に見ている場
面である。
明図である。本図3は、作業者が自分の机で、デスクワ
ーク作業をした後、用事で移動した状況のエピソードの
表現例を示したものである。入力された動画像や音声
は、マルチメディア情報記憶装置103に格納されると
共に、エピソード抽出処理部8で、カット1020〜1
023以下に分割され、両記憶の対応が記録される。カ
ット1020〜1023は、二つの違った場所(例え
ば、ディスプレイと資料)を繰り返し交互に見ている場
面である。
【0027】図4は、図1におけるエピソード抽出処理
部と記憶構造学習処理部の詳細構成例を示すブロック図
である。本図4は、特に、エピソード抽出処理部8と記
憶構造学習処理部9の処理の流れを示した図であり、特
徴抽出部81は、画像から輝度やエッジなどの特徴を抽
出する。動きの分類部82では、例えば、輝度の差分
や、あるいは画像のオプティカルフローを求めることに
より各点の動きのベクトルを計算する。そして、この輝
度の差分値や動きのベクトルから、カメラの動きを求め
る。この動きの特徴から、例えば、カット分割処理部8
3では、動画像を動きの激しいカットと、動きの少ない
カットに分割する。図3では、動きの少ないカットのみ
を表示している。カット分割処理部83では、動きの激
しいカットに関しては、オプティカルフローなどからそ
の動きの方向を抽出する。以上の各処理は、既存の画像
処理技術で実現可能である。
部と記憶構造学習処理部の詳細構成例を示すブロック図
である。本図4は、特に、エピソード抽出処理部8と記
憶構造学習処理部9の処理の流れを示した図であり、特
徴抽出部81は、画像から輝度やエッジなどの特徴を抽
出する。動きの分類部82では、例えば、輝度の差分
や、あるいは画像のオプティカルフローを求めることに
より各点の動きのベクトルを計算する。そして、この輝
度の差分値や動きのベクトルから、カメラの動きを求め
る。この動きの特徴から、例えば、カット分割処理部8
3では、動画像を動きの激しいカットと、動きの少ない
カットに分割する。図3では、動きの少ないカットのみ
を表示している。カット分割処理部83では、動きの激
しいカットに関しては、オプティカルフローなどからそ
の動きの方向を抽出する。以上の各処理は、既存の画像
処理技術で実現可能である。
【0028】記憶構造学習処理部9は、カットを、動画
像や音声の物理的特徴や意味的な共通性に基づいて要約
する。物理的特徴に基づく要約処理部91では、物理的
特徴として、例えば、カット間の場所の共通性に基づい
て要約する。場所の共通性は、例えば、カットの画像同
士のパターンマッチングにより検出可能である。互いに
よくマッチングした大きな類似度を示すカット同士が同
じ場所のカットと判断できる。この処理により、図3の
カット1020と1022はノード1026に、カット
1021と1023はノード1027にまとめられる。
要約されたノードを、以降シーンと呼ぶ。このシーン1
026とシーン1027に関しては、エピソード抽出処
理部8で抽出される両カット間の動きの方向の情報に基
づき、図3に示すように、シーンの空間的位置関係(図
中、上,下と記載)や距離(図示しない)を登録する。
物理的特徴に基づく要約処理部91は、さらに空間の移
動範囲によって、図3に示すように、机の周辺の活動の
シーン1028と、用事で移動したシーン1029に要
約する。
像や音声の物理的特徴や意味的な共通性に基づいて要約
する。物理的特徴に基づく要約処理部91では、物理的
特徴として、例えば、カット間の場所の共通性に基づい
て要約する。場所の共通性は、例えば、カットの画像同
士のパターンマッチングにより検出可能である。互いに
よくマッチングした大きな類似度を示すカット同士が同
じ場所のカットと判断できる。この処理により、図3の
カット1020と1022はノード1026に、カット
1021と1023はノード1027にまとめられる。
要約されたノードを、以降シーンと呼ぶ。このシーン1
026とシーン1027に関しては、エピソード抽出処
理部8で抽出される両カット間の動きの方向の情報に基
づき、図3に示すように、シーンの空間的位置関係(図
中、上,下と記載)や距離(図示しない)を登録する。
物理的特徴に基づく要約処理部91は、さらに空間の移
動範囲によって、図3に示すように、机の周辺の活動の
シーン1028と、用事で移動したシーン1029に要
約する。
【0029】ここで、要約の途中結果は、一時、短期作
業領域92に格納され、例えば、図3のシーン1028
からシーン1029のような、シーンの変化が検出され
たとき、エピソード記憶装置102に登録する。また、
時間構造が保持さるシーンは、図3においてシーン10
28からシーン1029の間に示される「時間」のよう
に、その時間関係を登録する。図3においては、カット
1020〜1023間も時間構造を保持するが、図では
記載を省略している。シーンとマルチメディア情報記憶
装置103に格納された画像との対応は、カットと個別
に記録する。これにより、シーンを特徴付ける動画像を
表示することができる。
業領域92に格納され、例えば、図3のシーン1028
からシーン1029のような、シーンの変化が検出され
たとき、エピソード記憶装置102に登録する。また、
時間構造が保持さるシーンは、図3においてシーン10
28からシーン1029の間に示される「時間」のよう
に、その時間関係を登録する。図3においては、カット
1020〜1023間も時間構造を保持するが、図では
記載を省略している。シーンとマルチメディア情報記憶
装置103に格納された画像との対応は、カットと個別
に記録する。これにより、シーンを特徴付ける動画像を
表示することができる。
【0030】本実施例では、図3の構造化の結果を、図
1および図2のディスプレイ3により表示する。そし
て、利用者からの分割結果や要約結果の評価に応じて、
動きの分類学習部93や場所分類学習部94は、分類基
準を変更する。例えば、利用者は、分割が不足、あるい
は、し過ぎの指示を図1、2に示すキーボード4などに
より行う。動きの分類学習部93や場所分類学習部94
は、この指示に応じて、カット分割における動きの閾値
や場所の類似度の閾値を変更する。
1および図2のディスプレイ3により表示する。そし
て、利用者からの分割結果や要約結果の評価に応じて、
動きの分類学習部93や場所分類学習部94は、分類基
準を変更する。例えば、利用者は、分割が不足、あるい
は、し過ぎの指示を図1、2に示すキーボード4などに
より行う。動きの分類学習部93や場所分類学習部94
は、この指示に応じて、カット分割における動きの閾値
や場所の類似度の閾値を変更する。
【0031】図1、2の意味記憶装置101では、例え
ば、特公平5−84538号公報記載の概念の意味ネッ
トワークを利用して、図3に示すように、意味的情報を
構築する。ここでは、言語による単語間の関係が表現さ
れる。例えば、図3において、意味的情報1011(会
議資料作成)には、意味的情報1010(デスクワー
ク)や、図示しない打合せや調査等の活動が含まれる。
カットやシーンに、言語によるラベル付けをすることに
より、意味記憶装置101の意味と関係付ける。例え
ば、図3において、シーン1028は、デスクワークの
単語でラベル付けできる。また、文や図5の意味ネット
ワーク構成例に示すような動詞を中心としたネットワー
ク表現でも可能である。これにより、言語と実世界との
関係をとることができる。ここで、例えば、登場人物に
関しては、人手によらずに、エピソード抽出処理部8で
の認識結果に基づき、自動的にラベル付け可能である。
認識においては、人物を厳密に特定する必要はなく、
「早口の男性と一緒」のようなあいまいなラベル付けも
可能である。
ば、特公平5−84538号公報記載の概念の意味ネッ
トワークを利用して、図3に示すように、意味的情報を
構築する。ここでは、言語による単語間の関係が表現さ
れる。例えば、図3において、意味的情報1011(会
議資料作成)には、意味的情報1010(デスクワー
ク)や、図示しない打合せや調査等の活動が含まれる。
カットやシーンに、言語によるラベル付けをすることに
より、意味記憶装置101の意味と関係付ける。例え
ば、図3において、シーン1028は、デスクワークの
単語でラベル付けできる。また、文や図5の意味ネット
ワーク構成例に示すような動詞を中心としたネットワー
ク表現でも可能である。これにより、言語と実世界との
関係をとることができる。ここで、例えば、登場人物に
関しては、人手によらずに、エピソード抽出処理部8で
の認識結果に基づき、自動的にラベル付け可能である。
認識においては、人物を厳密に特定する必要はなく、
「早口の男性と一緒」のようなあいまいなラベル付けも
可能である。
【0032】エピソード記憶装置102内の図3に示す
カットやシーンは、図6に示すデータ構造で実現でき
る。図6は、本発明に係る共通情報および関連情報のデ
ータ構造例を示す説明図である。本図6に示すデータ構
造例は、現在のオブジェックト指向データベースで採ら
れている技法で記述した例である。カットやシーンは、
場と名付けたクラス(以降、場クラスと呼ぶ)で表現す
る。クラスは、フレーム理論などで提案されたフレーム
と同様、複数の項目(属性)と値の対で構成される表形
式の枠組みである。クラスをコピーし、属性に具体的値
を格納したものがインスタンスと呼ばれる。
カットやシーンは、図6に示すデータ構造で実現でき
る。図6は、本発明に係る共通情報および関連情報のデ
ータ構造例を示す説明図である。本図6に示すデータ構
造例は、現在のオブジェックト指向データベースで採ら
れている技法で記述した例である。カットやシーンは、
場と名付けたクラス(以降、場クラスと呼ぶ)で表現す
る。クラスは、フレーム理論などで提案されたフレーム
と同様、複数の項目(属性)と値の対で構成される表形
式の枠組みである。クラスをコピーし、属性に具体的値
を格納したものがインスタンスと呼ばれる。
【0033】オブジェックト指向データベースでは、ク
ラスをコピーし、インスタンスを作ることにより、はじ
めて図2のメモリ30上に実体のオブジェックトが生成
される。インスタンスを生成すると、インスタンスに
は、生成されるインスタンスを識別するための識別子が
付く。例えば、場クラスを1つコピーすると、場「0」
の識別子のインスタンスが作られ、さらにコピーする
と、場「1」の識別子のインスタンスが作られる。イン
スタンスの各属性には、記号や数字あるいはインスタン
スの識別子を複数個格納可能である。特に、複数のイン
スタンスの識別子が格納できることにより、インスタン
ス間の1対多の関係を表現できる。
ラスをコピーし、インスタンスを作ることにより、はじ
めて図2のメモリ30上に実体のオブジェックトが生成
される。インスタンスを生成すると、インスタンスに
は、生成されるインスタンスを識別するための識別子が
付く。例えば、場クラスを1つコピーすると、場「0」
の識別子のインスタンスが作られ、さらにコピーする
と、場「1」の識別子のインスタンスが作られる。イン
スタンスの各属性には、記号や数字あるいはインスタン
スの識別子を複数個格納可能である。特に、複数のイン
スタンスの識別子が格納できることにより、インスタン
ス間の1対多の関係を表現できる。
【0034】本図6において、菱形の印が付加された部
分属性や、黒丸と線分で表現された登場人物・物属性が
この関係で表現できる。前者は、集約関係を表す関係
で、菱形の印が付いたインスタンスが全体を、そこに線
分で結ばれたインスタンスが部分を示す。会社組織にお
ける、部と課、課と係の関係がこの集約関係である。詳
細属性も同様の関係を表現するが、時間的に連続した下
位概念の要約の構造を表現する。場クラス201は、場
のインスタンスの識別子を属性値にもつ時間属性を持
つ。これにより、カットやシーン間の時間関係を表現す
る。
分属性や、黒丸と線分で表現された登場人物・物属性が
この関係で表現できる。前者は、集約関係を表す関係
で、菱形の印が付いたインスタンスが全体を、そこに線
分で結ばれたインスタンスが部分を示す。会社組織にお
ける、部と課、課と係の関係がこの集約関係である。詳
細属性も同様の関係を表現するが、時間的に連続した下
位概念の要約の構造を表現する。場クラス201は、場
のインスタンスの識別子を属性値にもつ時間属性を持
つ。これにより、カットやシーン間の時間関係を表現す
る。
【0035】図7は、図6におけるクラス定義に基づく
本発明に係るエピソード記憶構造の表現例を示す説明図
である。場インスタンス2010の時間属性に、場イン
スタンス2011の識別子を格納することにより、場イ
ンスタンス2010が場インスタンス2011に時間的
に先行することを表す。位置関係インスタンス2020
は、図3のシーン1026とシーン1027の位置関係
を表現する。また、部分属性は、図3のシーン1026
とカット1020およびカット1022の集約関係を表
現する。それぞれ、場インスタンス2010、場インス
タンス2013、場インスタンス2014に対応する。
さらに、詳細属性には、時間関係が保存された、下位の
先頭の場のインスタンスの識別子を格納する。このよう
に、場の間の時空間の関係を表現可能である。
本発明に係るエピソード記憶構造の表現例を示す説明図
である。場インスタンス2010の時間属性に、場イン
スタンス2011の識別子を格納することにより、場イ
ンスタンス2010が場インスタンス2011に時間的
に先行することを表す。位置関係インスタンス2020
は、図3のシーン1026とシーン1027の位置関係
を表現する。また、部分属性は、図3のシーン1026
とカット1020およびカット1022の集約関係を表
現する。それぞれ、場インスタンス2010、場インス
タンス2013、場インスタンス2014に対応する。
さらに、詳細属性には、時間関係が保存された、下位の
先頭の場のインスタンスの識別子を格納する。このよう
に、場の間の時空間の関係を表現可能である。
【0036】画像先頭フレームと画像フレーム長属性
は、それぞれ、図1、2におけるマルチメディア情報記
憶装置103の画像の先頭ポインタとフレーム長を格納
する。登場人物・物属性には、キャラクタインスタンス
の識別子を格納する。キャラクタインスタンス間の位置
関係も、場インスタンス2010と2012と同様に位
置関係クラス204により表現する。本図7では、両者
は、人であり、互いに右下/左上の位置関係がある。キ
ャラクタインスタンスには、属性に対応する概念のイン
スタンスの識別子を格納することにより、人のみでなく
物や場所なども格納できる。このように、画像に登場す
る人物や物、およびその位置関係をも保存して記憶でき
る。図5の言語表現は、それ自身を、例えば、言語表現
クラスのインスタンスとして、その識別子を図6の説明
文属性に登録する。
は、それぞれ、図1、2におけるマルチメディア情報記
憶装置103の画像の先頭ポインタとフレーム長を格納
する。登場人物・物属性には、キャラクタインスタンス
の識別子を格納する。キャラクタインスタンス間の位置
関係も、場インスタンス2010と2012と同様に位
置関係クラス204により表現する。本図7では、両者
は、人であり、互いに右下/左上の位置関係がある。キ
ャラクタインスタンスには、属性に対応する概念のイン
スタンスの識別子を格納することにより、人のみでなく
物や場所なども格納できる。このように、画像に登場す
る人物や物、およびその位置関係をも保存して記憶でき
る。図5の言語表現は、それ自身を、例えば、言語表現
クラスのインスタンスとして、その識別子を図6の説明
文属性に登録する。
【0037】オブジェックト指向データベースなどのオ
ブジェックト指向技法の特徴は、データのみでなく、手
続きプログラムもリンクして格納できる。本実施例で
は、シーンやカットを特徴付けるパターンと、入力され
る音声や画像とそのパターンとのマッチングをとる認識
手続きを格納した図6の認識用パターン205のインス
タンスの識別子を格納する属性を持つ。これにより、入
力が、そのシーンやカットであるかを言語では言い表せ
ない場合も、パターンレベルで問い合わせ応答可能であ
る。この機能は、図4の物理的特徴に基づく要約処理部
91でも利用可能である。
ブジェックト指向技法の特徴は、データのみでなく、手
続きプログラムもリンクして格納できる。本実施例で
は、シーンやカットを特徴付けるパターンと、入力され
る音声や画像とそのパターンとのマッチングをとる認識
手続きを格納した図6の認識用パターン205のインス
タンスの識別子を格納する属性を持つ。これにより、入
力が、そのシーンやカットであるかを言語では言い表せ
ない場合も、パターンレベルで問い合わせ応答可能であ
る。この機能は、図4の物理的特徴に基づく要約処理部
91でも利用可能である。
【0038】情報の検索においては、人の想起における
再認と再生機能を支援する。この再認の支援について、
図1を用いて説明する。ブラウザ13は、図3の要約結
果をディスプレイ3に表示する。シーンやカットは、例
えば、言語によるラベルや、それを特徴づける静止画あ
るいは、対応する動画像の繰り返し再生画像をアイコン
として表示する。利用者は、キーボード4やマウス5を
用いて対話的に検索する。図3の要約結果は、時間や空
間の情報を多く保存した、意味付けされた過去の経験の
要約である。このため、これをインデックスとして検索
することにより、時間や意味のいろいろな単位により、
画像を迅速に検索できる。さらに、この検索から、忘れ
ていたことを思い出すのを支援できる。
再認と再生機能を支援する。この再認の支援について、
図1を用いて説明する。ブラウザ13は、図3の要約結
果をディスプレイ3に表示する。シーンやカットは、例
えば、言語によるラベルや、それを特徴づける静止画あ
るいは、対応する動画像の繰り返し再生画像をアイコン
として表示する。利用者は、キーボード4やマウス5を
用いて対話的に検索する。図3の要約結果は、時間や空
間の情報を多く保存した、意味付けされた過去の経験の
要約である。このため、これをインデックスとして検索
することにより、時間や意味のいろいろな単位により、
画像を迅速に検索できる。さらに、この検索から、忘れ
ていたことを思い出すのを支援できる。
【0039】再生の支援では、言語を基本とした検索が
可能である。単語や文で検索文が入力されると、言語解
析部11は、検索文を、例えば、図5のように解析す
る。そして、検索部12は、意味記憶装置101の知識
に基づいて、検索を行う。例えば、「Aさんと会ったと
き」の問いに対して、意味記憶装置101に、Aさんは
男、Aさんは30歳、Aさんは早口などの知識があれ
ば、前述した「早口の男性と一緒」のシーンは候補とし
て検索できる。また、エピソード記憶装置102にAさ
んの人のインスタンスを登録し、その声の特徴と認識プ
ログラムを属性として格納する。そして、意味記憶装置
101のAさんとリンクを登録する。同様に、図7にお
ける人のインスタンスにも声の特徴を登録しておく。検
索時に、この声の特徴を入力として、Aさんの声の特徴
との話者認識をすることにより、登録時にAさんを認識
しなくても、人に基づく検索が可能である。声の特徴と
しては、例えば、長時間スペクトラムを登録する。
可能である。単語や文で検索文が入力されると、言語解
析部11は、検索文を、例えば、図5のように解析す
る。そして、検索部12は、意味記憶装置101の知識
に基づいて、検索を行う。例えば、「Aさんと会ったと
き」の問いに対して、意味記憶装置101に、Aさんは
男、Aさんは30歳、Aさんは早口などの知識があれ
ば、前述した「早口の男性と一緒」のシーンは候補とし
て検索できる。また、エピソード記憶装置102にAさ
んの人のインスタンスを登録し、その声の特徴と認識プ
ログラムを属性として格納する。そして、意味記憶装置
101のAさんとリンクを登録する。同様に、図7にお
ける人のインスタンスにも声の特徴を登録しておく。検
索時に、この声の特徴を入力として、Aさんの声の特徴
との話者認識をすることにより、登録時にAさんを認識
しなくても、人に基づく検索が可能である。声の特徴と
しては、例えば、長時間スペクトラムを登録する。
【0040】以上、図1〜図7を用いて説明したよう
に、本実施例のマルチメディア情報管理システムでは、
入力されたマルチメディア情報を分割して要約した情報
を、意味に関する情報に対応付けて管理することによ
り、機械における情報の獲得および記憶形態を、人間の
記憶の生成や想起の特性に合致したものとすることがで
きる。このように、マルチメディア情報の記録および検
索を、人間の記憶の仕方や、人間の記憶の辿り方(思い
出し方)を疑似して行なうことにより、後で検索が容易
なように編集され加工された映像のみでなく、日常活動
を撮影した長時間の動画像等に関しても、自動的に効率
良く整理して記憶し、所望のシーンを迅速に検索でき、
かつ、利用者が覚えやすい情報や思い出しやすい情報に
基づいて、正確かつ迅速に検索できる。
に、本実施例のマルチメディア情報管理システムでは、
入力されたマルチメディア情報を分割して要約した情報
を、意味に関する情報に対応付けて管理することによ
り、機械における情報の獲得および記憶形態を、人間の
記憶の生成や想起の特性に合致したものとすることがで
きる。このように、マルチメディア情報の記録および検
索を、人間の記憶の仕方や、人間の記憶の辿り方(思い
出し方)を疑似して行なうことにより、後で検索が容易
なように編集され加工された映像のみでなく、日常活動
を撮影した長時間の動画像等に関しても、自動的に効率
良く整理して記憶し、所望のシーンを迅速に検索でき、
かつ、利用者が覚えやすい情報や思い出しやすい情報に
基づいて、正確かつ迅速に検索できる。
【0041】尚、本発明は、図1〜図7を用いて説明し
た実施例に限定されるものではなく、その要旨を逸脱し
ない範囲において種々変更可能である。例えば、本実施
例では、オブジェックト指向技術を用いてシステム構成
を行なっているが、他のプログラム言語を用いたプログ
ラムによっても本発明に係る動作を行なうシステム構成
は可能である。また、図3における各ノード(カット1
020〜1023、シーン1026〜1029等)の表
示に関しては、全てを表示しても、あるいは、「シーン
1028」+「シーン1026」+「シーン1027」
の組合せや、「シーン1028」+「カット1020」
の組合せ等に限定して表示しても良い。
た実施例に限定されるものではなく、その要旨を逸脱し
ない範囲において種々変更可能である。例えば、本実施
例では、オブジェックト指向技術を用いてシステム構成
を行なっているが、他のプログラム言語を用いたプログ
ラムによっても本発明に係る動作を行なうシステム構成
は可能である。また、図3における各ノード(カット1
020〜1023、シーン1026〜1029等)の表
示に関しては、全てを表示しても、あるいは、「シーン
1028」+「シーン1026」+「シーン1027」
の組合せや、「シーン1028」+「カット1020」
の組合せ等に限定して表示しても良い。
【0042】
【発明の効果】本発明によれば、人間の記憶の仕方や、
人間の記憶の辿り方(思い出し方)を疑似したマルチメ
ディア情報の管理ができ、利用者が覚えやすい情報や思
い出しやすい情報に基づいた正確かつ迅速な検索がで
き、マルチメディア情報の記録および検索を高効率化す
ることが可能である。
人間の記憶の辿り方(思い出し方)を疑似したマルチメ
ディア情報の管理ができ、利用者が覚えやすい情報や思
い出しやすい情報に基づいた正確かつ迅速な検索がで
き、マルチメディア情報の記録および検索を高効率化す
ることが可能である。
【図1】本発明のマルチメディア情報管理システムの本
発明に係る構成の一実施例を示すブロック図である。
発明に係る構成の一実施例を示すブロック図である。
【図2】図1におけるマルチメディア情報管理システム
の動作に用いる各装置構成例を示すブロック図である。
の動作に用いる各装置構成例を示すブロック図である。
【図3】本発明に係る記憶構造例を示す説明図である。
【図4】図1におけるエピソード抽出処理部と記憶構造
学習処理部の詳細構成例を示すブロック図である。
学習処理部の詳細構成例を示すブロック図である。
【図5】図1の意味記憶装置における意味ネットワーク
構成例を示す説明図である。
構成例を示す説明図である。
【図6】本発明に係る共通情報および関連情報のデータ
構造例を示す説明図である。
構造例を示す説明図である。
【図7】図6におけるクラス定義に基づく本発明に係る
エピソード記憶構造の表現例を示す説明図である。
エピソード記憶構造の表現例を示す説明図である。
1:カメラ、2:マイク、3:ディスプレイ、4:キー
ボード、5:マウス、6:インタフェース部、7:メデ
ィア情報管理部、8:エピソード抽出処理部、9:記憶
構造学習処理部、10:磁気ディスク装置、11:言語
解析部、12:検索部、13:ブラウザ、20:中央処
理装置、30:メモリ、40:制御部、50:バス、8
1:特徴抽出部、82:動きの分類部、83:カット分
割処理部、91:物理的特徴に基づく要約処理部、9
2:短期作業領域、93:動きの分類学習部、94:場
所分類学習部、101:意味記憶装置、102:エピソ
ード記憶装置、103:マルチメディア情報記憶装置、
201:場クラス、202:位置関係クラス、203:
キャラクタクラス、204:位置関係クラス、1010
〜1013:意味的情報、1020〜1023:カッ
ト、1026〜1029:シーン、2010〜201
4:場インスタンス、2020:位置関係インスタン
ス、2030,2031:キャラクタインスタンス
ボード、5:マウス、6:インタフェース部、7:メデ
ィア情報管理部、8:エピソード抽出処理部、9:記憶
構造学習処理部、10:磁気ディスク装置、11:言語
解析部、12:検索部、13:ブラウザ、20:中央処
理装置、30:メモリ、40:制御部、50:バス、8
1:特徴抽出部、82:動きの分類部、83:カット分
割処理部、91:物理的特徴に基づく要約処理部、9
2:短期作業領域、93:動きの分類学習部、94:場
所分類学習部、101:意味記憶装置、102:エピソ
ード記憶装置、103:マルチメディア情報記憶装置、
201:場クラス、202:位置関係クラス、203:
キャラクタクラス、204:位置関係クラス、1010
〜1013:意味的情報、1020〜1023:カッ
ト、1026〜1029:シーン、2010〜201
4:場インスタンス、2020:位置関係インスタン
ス、2030,2031:キャラクタインスタンス
フロントページの続き (72)発明者 木村 宏一 東京都国分寺市東恋ケ窪1丁目280番地 株式会社日立製作所中央研究所内 (72)発明者 藤澤 浩道 東京都国分寺市東恋ケ窪1丁目280番地 株式会社日立製作所中央研究所内
Claims (11)
- 【請求項1】 マルチメディア情報を記録し、操作者の
検索条件の入力操作に基づき、検索条件に対応するマル
チメディア情報を出力する情報管理システムであって、
上記マルチメディア情報を、該マルチメディア情報の物
理的特徴の共通性に基づきグループ分けする分割手段
と、該分割手段で分けた各グループを、各グループの上
記共通性の関連性に基づき、上位のグループにまとめ、
かつ、該上位グループのさらなる上位グループへのまと
めを繰り返して上記グループを階層構造に生成すると共
に、言語情報の意味に基づき言語間を連結する意味ネッ
トワークを、上記階層構造の各グループの共通性情報お
よび関連性情報に対応付ける要約手段とを設け、上記階
層構造の各グループの共通性情報と関連性情報、および
上記言語情報を、上記マルチメディア情報の検索条件と
して用いることを特徴とするマルチメディア情報管理シ
ステム。 - 【請求項2】 請求項1に記載のマルチメディア情報管
理システムにおいて、上記階層構造の各グループの共通
性情報と関連性情報および上記言語情報を表示する手段
を設けることを特徴とするマルチメディア情報管理シス
テム。 - 【請求項3】 請求項1、もしくは、請求項2のいずれ
かに記載のマルチメディア情報管理システムにおいて、
上記分割手段は、上記マルチメディア情報の動画像内の
事物の共通性に基づき、上記マルチメディア情報のグル
ープ分けを行なうことを特徴とするマルチメディア情報
管理システム。 - 【請求項4】 請求項3に記載のマルチメディア情報管
理システムにおいて、上記動画像を撮影したカメラの動
きに基づき、上記分割手段で用いる共通性情報を定める
ことを特徴とするマルチメディア情報管理システム。 - 【請求項5】 請求項3、もしくは、請求項4のいずれ
かに記載のマルチメディア情報管理システムにおいて、
上記動画像を撮影したカメラの動きに基づき上記各グル
ープ間の位置関係を求め、該各グループ間の位置関係を
上記要約手段で用いる関連性情報とすることを特徴とす
るマルチメディア情報管理システム。 - 【請求項6】 請求項1から請求項5のいずれかに記載
のマルチメディア情報管理システムにおいて、上記マル
チメディア情報内の複数の事物間の空間的位置関係を、
上記グループの共通性情報として用いることを特徴とす
るマルチメディア情報管理システム。 - 【請求項7】 請求項1から請求項6のいずれかに記載
のマルチメディア情報管理システムにおいて、上記共通
性情報および関連性情報を、パターンにより形成し、パ
ターン認識により上記共通性および関連性の判別を行な
うことを特徴とするマルチメディア情報管理システム。 - 【請求項8】 請求項1から請求項7のいずれかに記載
のマルチメディア情報管理システムにおいて、上記共通
性情報および関連性情報を、記号を含む言語により形成
し、意味解析により上記共通性および関連性の判別を行
なうことを特徴とするマルチメディア情報管理システ
ム。 - 【請求項9】 請求項1から請求項8のいずれかに記載
のマルチメディア情報管理システムにおいて、上記グル
ープ間を、時間方向の前後関係で関連付け、該関連付け
情報を上記マルチメディア情報の検索条件として用いる
ことを特徴とするマルチメディア情報管理システム。 - 【請求項10】 請求項1から請求項9のいずれかに記
載のマルチメディア情報管理システムにおいて、上記グ
ループ間を、空間的な位置関係で関連付け、該関連付け
情報を上記マルチメディア情報の検索条件として用いる
ことを特徴とするマルチメディア情報管理システム。 - 【請求項11】 請求項1から請求項10のいずれかに
記載のマルチメディア情報管理システムにおいて、操作
者からの指示入力に基づき上記階層構造のグループ分け
の訂正を行なうことを特徴とするマルチメディア情報管
理システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP7034986A JPH08235198A (ja) | 1995-02-23 | 1995-02-23 | マルチメディア情報管理システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP7034986A JPH08235198A (ja) | 1995-02-23 | 1995-02-23 | マルチメディア情報管理システム |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH08235198A true JPH08235198A (ja) | 1996-09-13 |
Family
ID=12429474
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP7034986A Pending JPH08235198A (ja) | 1995-02-23 | 1995-02-23 | マルチメディア情報管理システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH08235198A (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10154163A (ja) * | 1996-11-25 | 1998-06-09 | Casio Comput Co Ltd | 携帯型行動記録装置 |
EP1021226A2 (en) * | 1996-07-08 | 2000-07-26 | Survivors of the Shoah Visual History Foundation | Method and apparatus for cataloguing multimedia data |
JP2001084381A (ja) * | 1999-08-30 | 2001-03-30 | Mitsubishi Electric Inf Technol Center America Inc | マルチメディア・コンテンツの表現を生成する方法 |
JP2001160057A (ja) * | 1999-12-03 | 2001-06-12 | Nippon Telegr & Teleph Corp <Ntt> | 画像の階層的分類方法、および画像の分類・検索装置、およびこの方法を実行するプログラムを記録した記録媒体 |
KR100357261B1 (ko) * | 1999-12-30 | 2002-10-18 | 엘지전자 주식회사 | 멀티미디어 데이터의 의미적/구조적 정보 생성방법 및 그 정보의 기록매체와 멀티미디어 검색 및 브라우징 방법 |
JP2007052566A (ja) * | 2005-08-16 | 2007-03-01 | Fuji Xerox Co Ltd | 情報処理システムおよび情報処理方法 |
JP2010244194A (ja) * | 2009-04-02 | 2010-10-28 | Toyota Motor Corp | 物体識別装置 |
-
1995
- 1995-02-23 JP JP7034986A patent/JPH08235198A/ja active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1021226A2 (en) * | 1996-07-08 | 2000-07-26 | Survivors of the Shoah Visual History Foundation | Method and apparatus for cataloguing multimedia data |
EP1021226A4 (en) * | 1996-07-08 | 2000-07-26 | Survivors Of The Shoah Visual | METHOD AND DEVICE FOR CATALOGING MULTIMEDIA DATA |
JPH10154163A (ja) * | 1996-11-25 | 1998-06-09 | Casio Comput Co Ltd | 携帯型行動記録装置 |
JP2001084381A (ja) * | 1999-08-30 | 2001-03-30 | Mitsubishi Electric Inf Technol Center America Inc | マルチメディア・コンテンツの表現を生成する方法 |
JP2001160057A (ja) * | 1999-12-03 | 2001-06-12 | Nippon Telegr & Teleph Corp <Ntt> | 画像の階層的分類方法、および画像の分類・検索装置、およびこの方法を実行するプログラムを記録した記録媒体 |
KR100357261B1 (ko) * | 1999-12-30 | 2002-10-18 | 엘지전자 주식회사 | 멀티미디어 데이터의 의미적/구조적 정보 생성방법 및 그 정보의 기록매체와 멀티미디어 검색 및 브라우징 방법 |
JP2007052566A (ja) * | 2005-08-16 | 2007-03-01 | Fuji Xerox Co Ltd | 情報処理システムおよび情報処理方法 |
JP4674508B2 (ja) * | 2005-08-16 | 2011-04-20 | 富士ゼロックス株式会社 | 情報処理システムおよび情報処理プログラム |
JP2010244194A (ja) * | 2009-04-02 | 2010-10-28 | Toyota Motor Corp | 物体識別装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109416816B (zh) | 支持交流的人工智能系统 | |
Zhang et al. | A natural language approach to content-based video indexing and retrieval for interactive e-learning | |
Kurzhals et al. | Visual movie analytics | |
Pal et al. | A semi-automatic metadata extraction model and method for video-based e-learning contents | |
US20050114357A1 (en) | Collaborative media indexing system and method | |
KR20080024157A (ko) | 사용자 액티비티, 주의, 관심 측정을 활용하는 데이터감지, 저장, 인덱싱, 및 탐색 | |
CN113395578A (zh) | 一种提取视频主题文本的方法、装置、设备及存储介质 | |
Maybury | Multimedia information extraction: Advances in video, audio, and imagery analysis for search, data mining, surveillance and authoring | |
CN112749328A (zh) | 搜索方法、装置和计算机设备 | |
Jain et al. | Experiential meeting system | |
Otani et al. | Video summarization using textual descriptions for authoring video blogs | |
JPH08235198A (ja) | マルチメディア情報管理システム | |
JPH0765021A (ja) | 情報検索装置 | |
Abdulmunem et al. | Semantic based video retrieval system: survey | |
Zhang et al. | A video database system for digital libraries | |
CN117851654A (zh) | 基于人工智能语音与图像识别的档案库资源检索系统 | |
Christel | Automated metadata in multimedia information systems | |
JPWO2020054822A1 (ja) | 音解析装置及びその処理方法、プログラム | |
Kim et al. | PERSONE: personalized experience recoding and searching on networked environment | |
Leung et al. | Content-based retrieval in multimedia databases | |
CN115130453A (zh) | 互动信息生成方法和装置 | |
Song et al. | Domain knowledge ontology building for semantic video event description | |
CN118193850B (zh) | 一种基于知识图谱的舆情信息推荐方法 | |
Luo et al. | Integrating multi-modal content analysis and hyperbolic visualization for large-scale news video retrieval and exploration | |
Dalla Torre et al. | Deep learning-based lexical character identification in TV series |