Nothing Special   »   [go: up one dir, main page]

JP5134664B2 - アノテーション装置 - Google Patents

アノテーション装置 Download PDF

Info

Publication number
JP5134664B2
JP5134664B2 JP2010206166A JP2010206166A JP5134664B2 JP 5134664 B2 JP5134664 B2 JP 5134664B2 JP 2010206166 A JP2010206166 A JP 2010206166A JP 2010206166 A JP2010206166 A JP 2010206166A JP 5134664 B2 JP5134664 B2 JP 5134664B2
Authority
JP
Japan
Prior art keywords
image
metadata
unit
local
local feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010206166A
Other languages
English (en)
Other versions
JP2012063890A (ja
Inventor
紘一郎 森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2010206166A priority Critical patent/JP5134664B2/ja
Priority to US13/046,941 priority patent/US9076069B2/en
Publication of JP2012063890A publication Critical patent/JP2012063890A/ja
Application granted granted Critical
Publication of JP5134664B2 publication Critical patent/JP5134664B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/21805Source of audio or video content, e.g. local disk arrays enabling multiple viewpoints, e.g. using a plurality of cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/33Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/231Content storage operation, e.g. caching movies for short term storage, replicating data over plural servers, prioritizing data for deletion
    • H04N21/23109Content storage operation, e.g. caching movies for short term storage, replicating data over plural servers, prioritizing data for deletion by placing content in organized collections, e.g. EPG data repository
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/266Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
    • H04N21/26603Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel for automatically generating descriptors from content, e.g. when it is not made available by its provider, using content analysis techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/266Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
    • H04N21/2665Gathering content from different sources, e.g. Internet and satellite
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42204User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
    • H04N21/42206User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor characterized by hardware details
    • H04N21/42224Touch pad or touch panel provided on the remote control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/65Transmission of management data between client and server
    • H04N21/654Transmission by server directed to the client
    • H04N21/6547Transmission by server directed to the client comprising parameters, e.g. for client setup
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/65Transmission of management data between client and server
    • H04N21/658Transmission by the client directed to the server
    • H04N21/6582Data stored in the client, e.g. viewing habits, hardware capabilities, credit card number
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/445Receiver circuitry for the reception of television signals according to analogue transmission standards for displaying additional information
    • H04N5/44504Circuit details of the additional information generator, e.g. details of the character or graphics signal generator, overlay mixing circuits

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Astronomy & Astrophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Human Computer Interaction (AREA)
  • Computer Graphics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)
  • Document Processing Apparatus (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Description

本発明の実施形態は、アノテーション装置に関する。
携帯端末のカメラなどで撮影した被写体に関する情報をサーバから取得し、携帯端末上に提示するシステムが提案されている。特許文献1では、画像全体ではなく、画像から抽出した部分領域に対してその領域の類似画像を検索し、その画像に関連付けられたキーワードを付与する装置が提案されている。
特開2010−9337号公報
ユーザが撮影した画像に任意のメタデータを任意の位置に付与したり、撮影画像に付与したメタデータを他のユーザと相互的に共有したりできなかった。
本発明が解決しようとする課題は、画像に対してメタデータを付与し、共有可能なアノテーション装置である。
上記課題を解決するために、本発明の実施形態に係るアノテーション装置は、第1画像と、第1メタデータと、前記第1メタデータを表示するための前記第1の画像中の第1位置とを取得する第1の取得部と、前記第1画像から局所特徴量を抽出する抽出部と、前記第1位置と所定の距離内にある前記局所特徴量の集合を探索し、前記集合の代表点を算出する算出部と、抽出された前記局所特徴量を用いて、前記第1画像とデータベースに保存された複数の画像とを照合し、前記局所特徴量と一致すると判定された第2画像を検索する検索部と、前記代表点に対応する前記第2画像中の第2位置を算出し、前記第2位置と前記第1メタデータとを前記第2の画像のメタデータとして登録する登録部とを備えることを特徴とする。
ユーザ1とユーザ2とが同じ被写体を異なる視点から撮影した画像を表した例。 絵画を撮影した画像の例を示す図。 本実施形態に係るアノテーション装置の構成を表わす図。 本実施形態に係るメタデータ登録処理に係るフローチャート。 本実施形態に係るアノテーション装置を含むシステムを表わす図。 携帯端末から入力を受け付ける場合のシステムを表わす図。 メタデータ管理サーバの一例を表す図。 モデル画像データベースの一例を説明する図。 グローバルメタデータ読み込みを説明するフローチャート。 グローバルメタデータ登録を説明するフローチャート。 ローカルメタデータ登録を説明するフローチャート。 ローカルメタデータ登録の具体例を表わす図。 ローカルメタデータ読み込みを説明するフローチャート。 ローカルメタデータ読み込みの具体例を表わす図。
画像に対するキーワードやURLなどのメタデータは予め与えられたデータである場合がほとんどである。この場合、ユーザが撮影した撮影画像と相互的に任意のメタデータを付与することや、メタデータを画像の任意の位置に付与したり、撮影画像に付与したメタデータを他のユーザと共有したりすることが難しい。
例えば同一被写体を撮影したとしてもユーザによって撮影画像が異なるためメタデータの位置を指定できないということがある。図1は、ユーザ1とユーザ2が同一の絵画をそれぞれ異なる視点から撮影した画像を表した例である。ユーザ1の撮影画像10はカメラをズームアウトして絵画全体を収める位置で撮影している。一方、ユーザ2の撮影画像11はカメラをズームインして人物を中心に収める位置で撮影している。ここで、ユーザ1が人物に対して「A氏」というローカルメタデータを付与し、ユーザ2の撮影画像上にユーザ1の付与した「A氏」というメタデータを表示する(復元する)場合について説明する。ユーザ1の撮影画像10において「A氏」を表示するローカルメタデータの座標は(X1,Y1)である。一方、ユーザ2の撮影画像11における人物の座標は(X2,Y2)である。この場合は(X1,Y1)と(X2,Y2)は異なるため、単純に座標を保存する方法では利用できない。つまり、他のユーザが付与したローカルメタデータは、別のユーザの撮影画像上には復元できない。
そこで、本実施形態では異なるユーザ間のローカルメタデータを画像上の適切な位置に表示するためのメタデータの登録を行う。
ここで、メタデータにはグローバルメタデータとローカルメタデータの二種類ある。グローバルメタデータは画像全体に対して付与されたメタデータであり、ローカルメタデータは画像の一部分に対して付与されたメタデータである。
たとえば、図2にはある絵画を撮影した画像の例を示している。グローバルメタデータ202は撮影画像全体201に対して付与されるメタデータである。図2では、「作者:B氏」「美しい山の情景が描かれた作品」などがグローバルメタデータに該当する。表示される位置は任意である。グローバルメタデータは、アイコンで表示する、テキストをスクロールするなどいろいろな表示方法が可能である。一方、ローカルメタデータ203は、画像の一部分に対して付与されるメタデータである。図2では、「A氏」「C山」「D湖」などが該当する。ローカルメタデータは画像の一部分に付与されるためどこに付与されたかわかるように矢印204で指し示すなどの表示方法を用いる場合がある。
以下図面を参照して本実施形態に係るアノテーション装置を説明する。
(第1の実施例)
図3は本実施形態に係るアノテーション装置の構成を表わす図である。本実施形態に係るアノテーション装置は第1の取得部101と、抽出部102と、算出部103と、検索部104と、登録部105と、照合する画像を格納するデータベース106とを有する。
ここで、本実施形態では次のような状況を想定し、本実施形態に係るアノテーション装置について説明する。まず、ユーザはカメラで被写体を撮影する。例えば携帯端末で撮影した図2のような絵画の画像がインターネットを通して画像やメタデータ等を管理する管理サーバ(データベース)にアップロードされる。管理サーバは撮影された画像と類似する画像を検索し、登録されているメタデータ(絵画の情報、他ユーザのコメントなど)をユーザに送信する。送信されたメタデータは撮影画像とオーバラップして携帯端末の表示部に表示される。画像は静止画には限らず動画でもよい。例えば動画の各フレーム画像をサーバに送り動画に対してメタデータをリアルタイムに表示する場合でもよい。
図4は、ローカルメタデータを登録するフローチャートである。ユーザが撮影画像の一部分を指定してメタデータを入力し、携帯端末が、画像、指定した画像の位置(座標)、およびメタデータをサーバへ送信してローカルメタデータを登録する。図4を参照しながら、本実施形態に係るアノテーション装置によるローカルメタデータの登録処理について説明する。
まず、ユーザは所望の画像を撮影し(S401)、ユーザがタッチパネルやポインティングデバイスなどの入力部からメタデータを付与したい撮影画像上の位置を指定する(S402)。指定された撮影画像上の位置を座標(X1,Y1)として検出し保存する。別に、テキストや音声をキーボードやマイクなどの入力部により、ユーザが付与したいメタデータとして入力する(S403)。撮影された画像、座標、メタデータは管理サーバへ送信する(S404)。
第1の取得部101は、画像と座標とメタデータを取得し、抽出部102へ送る。抽出部102は、撮影画像の局所特徴量を抽出する(S405)。抽出した局所特徴量は算出部103及び検索部104へ送られる。算出部103では指定座標と所定の距離内にある局所特徴量の集合を探索し、集合の代表点を算出する。
検索部104は、撮影された画像とデータベースに保存された複数の画像とを局所特徴量を用いて照合し、撮影された画像と一致する画像か否か判定する(S406)。撮影画像ともっとも類似すると判定された画像(以下「モデル画像」と称する)がある場合には(S407)の画像IDを登録部105送る。
算出部103は、撮影画像上でユーザが指定した座標(X1,Y1)と所定の距離内にある局所特徴点の集合を取得する(S408)。たとえば、(X1,Y1)の半径Rに含まれる点を探索する、K−近傍(距離が近い上位K個の点)を探索するなどの方法で行われる。ここで、探索によって得られた局所特徴点は指定座標(X1,Y1)の近傍点と呼ぶ。
次に撮影画像の近傍点の各々に対応するモデル画像上の局所特徴点を求める。局所特徴点同士のマッチングはユークリッド距離の閾値を用いる方法などで行えばよい。撮影画像とモデル画像との対応関係は、ステップS406の類似画像検索時に計算しておけばよい。
撮影画像ともっとも類似すると判定された画像(以下「モデル画像」と称する)がない場合には(S407)携帯端末に送信するメタデータは存在しないため処理は終了する。携帯端末のディスプレイに「登録されていない画像です」などメッセージを表示してもよい。
登録部105は近傍点に対応するモデル画像の局所特徴点それぞれに対してメタデータを付与する。例えばローカルメタデータを格納するデータベース(DB)に対して新規のエントリとして追加すればよい。
(第2の実施例)
次に、本実施形態におけるアノテーション装置の具体的な処理について説明する。図5は本実施形態のアノテーション装置によって、他のユーザが付与したグローバルメタデータとローカルメタデータとを相互的にやりとりするシステムの構成例である。本システムは、携帯端末501または携帯端末502やパーソナルコンピュータ(PC)503などのクライアントとメタデータ管理サーバ504とを有し、クライアントとサーバはインターネット505で接続されている。携帯端末やPCのインターネット接続は有線、無線を問わない。
図6は、携帯端末501または携帯端末502などから入力を受け付ける場合のシステムの詳細を表す図である。以下、携帯端末501を例に説明するが、携帯端末501は携帯端末502またはPC503であってもよい。携帯端末501は被写体を撮影するカメラ601、メタデータを入力するためのキーボード603、メタデータを付与した画像を表示するディスプレイ605、ローカルメタデータで位置を指定するためのタッチパネル606を有する。カメラで画像を撮影する代わりにハードディスクなどの格納部602にすでに保存された画像データを用いてもよい。また、メタデータをキーボードで入力する代わりにマイク604を用いて音声を入力してもよい。音声を認識し、テキストに変換したデータを入力してもよい。ローカルメタデータの位置指定にはタッチパネル以外にもマウスなどのポインティングデバイス607を用いてもよい。
携帯端末はRAMなどの記憶部612を介して、画像入力部608、メタデータ入力部609、表示部610、位置入力部611の4つのモジュールを読み込む(ロードする)。画像入力部608は画像を保存し、ネットワーク入出力部(ネットワークI/O)614を介してメタデータ管理サーバ504へ画像を送信する。メタデータ入力部609は、ユーザが入力したメタデータやサーバから受信したメタデータを管理する。表示部610は、画像やメタデータをディスプレイに表示する。位置入力部611は、ローカルメタデータの指定位置を検出し、サーバへ送信する。制御部613は、画像入力部608、メタデータ入力部609、表示部610、位置入力部611などモジュールの動作を制御する。
図7は、携帯端末501などから得た画像、ローカルメタデータを得て処理するメタデータ管理サーバ504などの一例を表す図である。サーバのRAMなどの記憶部708には、画像入力部701、局所特徴量抽出部702、類似画像検索部703、メタデータ検索部704、メタデータ登録部705、近傍点探索部706、代表点算出部707の7つのモジュールをロードする。図7では、システム内でのデータの授受を実線で、各データベースとのデータの授受を破線で示した。
画像入力部701は、携帯端末501から取得した画像を一時保存する。保存された画像は局所特徴量抽出部702が局所特徴量を抽出する。局所特徴量は画像特徴量であり、SIFTやSURFといった局所特徴量抽出アルゴリズムによって算出すればよい。SIFTは、解像度(スケール)が変化しても安定して存在する特徴点を画像から抽出し、その特徴点の周辺の輝度勾配情報を用いて128次元の実数値ベクトルを求める手法である。局所特徴量は、画像の特徴点の位置とその点の特徴ベクトルから成る。たとえば、SIFTの特徴ベクトルは128次元の実数値ベクトルで表わされる。特徴点同士のマッチング(照合)は特徴ベクトル間のユークリッド距離で計算する。
類似画像検索部703は、入力画像に類似した画像をモデル画像を格納するデータベース(以下「モデル画像DB」と称する。)709から検索する。ここで図8は、モデル画像DB709の例である。モデル画像DB709は、他のユーザが撮影してメタデータを付与した画像を保存しておくデータベースである。各モデル画像はテーブル801で管理し、ユニークな画像IDとモデル画像のファイル名を組にして登録する。たとえば、図2で挙げた絵画の例では絵画のモデル画像IDが2で0002.jpgという画像ファイル802とともに格納されている。ここでは、図1で示した各ユーザの撮影画像にもっとも類似した画像として類似画像検索部703が画像ID=2を返すとする。
一般に入力画像と類似した画像を検索する過程を特定物体認識と呼ぶ。特定物体認識は特徴ベクトル間のユークリッド距離と投票戦略を用いた手法で行えばよい。投票戦略では、撮影画像の各特徴点に対してユークリッド距離がもっとも小さいモデル画像の特徴点を検索し、その特徴点を含むモデル画像に一票を投じる。この処理をすべての画像の特徴点について行い、もっとも多くの投票数を獲得したモデル画像が最終的な認識結果となる。モデル画像DB709に登録されていない画像は新規の画像として、モデル画像DBに保存する。画像から抽出した局所特徴量は局所特徴量データベース(DB)710へ保存する。
表1は、局所特徴量DB710に格納されたローカルメタデータの例である。局所特徴量は1つの画像に対して数百から数千個の点が抽出されるため局所特徴点IDで区別し、128次元の特徴ベクトルとともに格納する。ローカルメタデータの登録、読み込みについては後述する。
Figure 0005134664
メタデータ検索部704は、取得した画像と類似したモデル画像に付与されたメタデータを取得する。メタデータ登録部705は、クライアントから送信されたメタデータをグローバルメタデータDB711やローカルメタデータDB712に格納する。これらのデータベース(DB)にメタデータを格納し、他のユーザとメタデータを共有する。
表2は、グローバルメタデータDB711の例である。グローバルメタデータは、画像全体に対して付与されるため画像IDと組にして格納する。図8の例では画像IDが2の画像に対して5つのメタデータが登録されている。グローバルメタデータの登録は後述する。
また、表3は、ローカルメタデータDB712の例である。画像IDが2の局所特徴点1、2、3に対して「A氏」というメタデータを付与した様子を表す。
Figure 0005134664
Figure 0005134664
図7に戻る。近傍点探索部706は取得したローカルメタデータを付与する局所特徴点の位置を算出する。また、代表点算出部707はローカルメタデータを付与する位置を決定する。制御部713は、前述の7つのモジュールの動作を制御する。また、携帯端末501と管理サーバ504とはネットワークI/O714を介して画像やメタデータを送受信する。
次にグローバルメタデータの登録処理について説明する。図9は、グローバルメタデータを読み込むためのフローチャートである。このフローチャートでは、携帯端末が画像をサーバへ送信し、サーバから受信したメタデータを携帯端末のディスプレイに表示する処理を示す。
まず、ユーザは携帯端末のカメラなどの画像入力部を用いて被写体の画像を撮影する(S901)。または、ハードディスクなどに予め撮影した画像を選択してもよい。次に携帯端末の制御部が画像入力部に読み込んだ撮影画像をサーバへ送信する(S902)。サーバの制御部が画像を受信し、サーバの画像入力部へ格納後、局所特徴量抽出部で撮影画像の局所特徴量を抽出する(S903)。
類似画像検索部は、抽出した撮影画像の局所特徴量と類似するモデル画像をモデル画像DBから検索する(S904)。類似画像検索部は、画像ともっとも類似したモデル画像の画像ID(類似画像ID)を返す。次に類似画像検索部が画像と類似した画像が見つかったかを判定する(S905)。類似画像が見つからなかった場合は、携帯端末に送信するメタデータは存在しないため処理は終了する。携帯端末のディスプレイに「登録されていない画像です」などメッセージを表示してもよい。
ユーザは新たにグローバルメタデータを登録してもよい。図10は、グローバルメタデータを登録するフローチャートである。以下、ユーザが画像とともにメタデータを入力し、画像とメタデータをサーバへ送信してグローバルメタデータとして登録する処理について説明する。なお、図10のフローチャートは図9のステップを一部含むため差分のみ説明する。
まず、メタデータ入力部がキーボードやマイクから入力されたメタデータを取得する(S1002)。制御部は画像とメタデータを組にしてサーバへ送信する(S1003)。S1004〜S1006は図9の処理と同様である。メタデータ登録部が撮影画像と類似したモデル画像に対してグローバルメタデータを登録する(S1007)。グローバルメタデータDBに類似画像IDとユーザが入力した新規メタデータとを組にして追加すればよい。類似画像が見つからなかった場合、画像はモデル画像DBに含まれないため画像入力部が新しいモデル画像としてモデル画像DBに新規登録する(S1008)。また、画像から抽出した局所特徴量も局所特徴量抽出部が局所特徴量DB709に新規登録する。
類似画像検索部が、撮影画像と異なる画像を類似画像と誤判定した場合に備えて、類似画像を携帯端末に一度送信し、ユーザに検索結果が正しいことを確認させてからメタデータ入力を促してもよい。
登録において新規画像を無制限に登録するとデータベースの容量が圧迫する恐れがある。その場合、類似画像としてアクセスされた回数をモデル画像DBに保存しておき、定期的にアクセス回数が低いモデル画像を削除すればよい。
図9に戻る。メタデータ検索部は、類似画像IDに付与されたグローバルメタデータをグローバルメタデータDBから取得する(S906)。表2に示すように同一の画像IDに複数のグローバルメタデータが付与されている場合はすべて返す。表2には図示していないが、メタデータの重要度を表すスコアを付与し、スコアが高い有益なメタデータのみ返すとしてもよい。次に制御部が取得したグローバルメタデータをクライアントに送信する(S907)。携帯端末のメタデータ入力部が、メタデータを受信し、表示部がディスプレイに撮影画像とメタデータを表示する(S908)。以上の処理により、図2に示すような撮影画像とメタデータを表示した画像が携帯端末のディスプレイに表示される。
次にローカルメタデータの登録について説明する。図11は、ローカルメタデータを登録するフローチャートである。ユーザは画像の一部分を指定してメタデータを入力し、携帯端末が、画像、座標、メタデータをサーバへ送信してローカルメタデータを登録する処理を例にして説明する。なお、図11のフローチャートはグローバルメタデータを登録する図10のフローチャートを一部含むため差分のみ説明する。
まずユーザがタッチパネルやポインティングデバイスを用いてメタデータを付与したい撮影画像上の位置を指定する(S1102)。指定した位置に登録するメタデータをユーザが入力する(S1103)。位置入力部は、指定された画像上の座標(X1,Y1)を検出して保存する。携帯端末の制御部が画像、座標、メタデータを収集し、サーバへ送信する(S1104)。ステップS1105からステップS1107までは、グローバルメタデータ登録時と同様に撮影画像の局所特徴量を取得し、類似画像を検索する。
近傍点探索部は、撮影画像上でユーザが指定した座標(X1,Y1)の周囲にある局所特徴点集合を取得する(S1108)。これは、(X1,Y1)の半径Rに含まれる点を検索する、K−近傍(距離が近い上位K個の点)を検索するなどの方法を用いればよい。見つかった局所特徴点は指定座標(X1,Y1)の近傍点である。
そして近傍点の各々に対応するモデル画像上の局所特徴点を求める(S1109)。局所特徴点同士のマッチングはユークリッド距離の閾値を用いる方法を用いればよい。この対応関係は、ステップS1106の類似画像検索時に算出した対応関係を用いればよく、改めて算出しなくてもよい。そして近傍点に対応するモデル画像の局所特徴点それぞれに対してメタデータを付与する(S1109)。これは、ローカルメタデータDBに対して新規エントリを追加すればよい。
図12を用いて上記ローカルメタデータの登録方法を具体的に説明する。携帯端末からは画像1201、指定座標1202、ローカルメタデータ1203がサーバへ送付される。サーバでは、画像の類似画像をモデル画像DBから検索し、モデル画像1206が見つかったとする。サーバではローカルメタデータ「A氏」を登録するために指定座標の半径Rの円1204に含まれる局所特徴点を検索する。その結果、4つの近傍点1205が見つかったとする。この近傍点に対応するモデル画像側の局所特徴点1207を計算し、これらの局所特徴点に対してローカルメタデータ1208を付与する。ここでは、説明の都合上、モデル画像上に「A氏」というメタデータを描画するように図示したが、実際はローカルメタデータDBに保存するだけでモデル画像上に描画しない。
次にローカルメタデータの読み込みに関する処理について説明する。図13は、ローカルメタデータを読み込むフローチャートである。ここではモデル画像に付与されたローカルメタデータの位置を保ったまま撮影画像上に表示する処理である。なお、図13のフローチャートはグローバルメタデータを読み込む図9のフローチャートを一部含むため差分のみ説明する。
まず、ユーザから送られた画像から局所特徴点を抽出し、類似画像の有無を判定する(S1301〜S1305)。メタデータ検索部は、類似画像のローカルメタデータが付与された局所特徴点集合をローカルメタデータDBから取得する(S1306)。
代表点算出部707は、取得したモデル画像の局所特徴点に対応する撮影画像側の局所特徴点を求める(S1307)。そして、取得した画像の局所特徴点集合代表点を求める。ここで、代表点は集合の重心座標である場合を例に説明する。局所特徴量の集合の位置から重心座標を算出し、重心座標にローカルメタデータを付与する。
制御部はローカルメタデータと重心座標を携帯端末に送信する(S1308)。携帯端末の表示部が撮影画像の重心座標に対してローカルメタデータを表示する(S1309)。以上の処理により、図2に示すようなローカルメタデータを重心座標に描画した画像が携帯端末のディスプレイに表示される。ここでは代表点を重心座標の位置としたが、ユーザが指定した位置と所定距離にある局所特徴点の位置にメタデータを付与してもよい。ユーザが指定した位置と所定距離にある局所特徴点を用いる場合、ユーザの指定したい希望を反映させることができる。たとえば、ユーザは被写体の名称等を付与したいのではなく、被写体の一部に示したい名称等を付与したい場合を想定する。ユーザが指定した位置に最も被写体の局所特徴点の位置にユーザが入力したメタデータを付与することによって、画像を相互的にやりとりする場合に他のユーザとメタデータの内容を容易に共有することができる。
また、重心座標の位置にメタデータを付与する場合には、同様の被写体でも撮影位置が個々に異なる複数の画像にメタデータを復元できるため有効である。図14を用いて上記ローカルメタデータの読み込み方法を具体的に説明する。サーバにアップロードされた撮影画像1401に対してローカルメタデータを付与すること場合を考える。この撮影画像1401は、撮影画像1201と撮影位置が異なっているためまったく同じ画像ではない。画像の類似画像としてモデル画像1402が見つかったとする。ここで、重心座標にメタデータを付与する場合撮像とモデル画像は完全に一致していなくてもローカルメタデータを正しい位置に復元できる。メタデータ検索部が、ローカルメタデータDBを検索し、ローカルメタデータ「A氏」が付与された局所特徴点1403が4つ見つかっているとする。これらの局所特徴点に対応したユーザの画像側の局所特徴点1404を求め、その重心座標1405に対してローカルメタデータ「A氏」1406を付与すればよい。
特に複数の局所特徴点の重心に対してローカルメタデータを付与する場合、表示部での復元が安定する。一つは、局所特徴点が図14の局所特徴点1407のように画像の変化で抽出できず欠損する場合がある。複数の局所特徴点にローカルメタデータを保存しておけば欠損が起きた場合でも残りの点から重心座標を復元できる。もう一つは、局所特徴点のマッチングに誤りが含まれる場合でも多数の局所特徴点の平均を取れば重心位置が大きく揺らがずに安定する。この重心の安定性をさらに高めるために外れ値検出の手法を用いて大きく外れる局所特徴点を重心計算から除いてもよい。一つのモデル画像に対し、複数のローカルメタデータがある場合は、同一のローカルメタデータごとに重心座標を計算すれば図2に示すように複数のローカルメタデータを一枚の撮影画像に対して付与できる。
メタデータはテキストに限らず、ハイパーリンクが可能なURL、画像、音楽、動画などでもよい。撮影対象に絵画の例をあげたが他にも書籍カバー、CD・DVDジャケット、ポスター、商品、人物などどのようなものでもかまわない。また、類似画像検索を高精度化するためには対象物に合わせて最適な局所特徴点抽出アルゴリズムを選択するとよい。例えば顔の検出の場合にはHaar-like特徴量、人物全体などを検出する場合にはco−HoG特徴量などを用いればよい。
本発明は、上記のようにユーザによって撮影画像が異なったとしても他のユーザが同じ被写体に対して付与したグローバルメタデータ、ローカルメタデータをサーバから取得し、撮影画像中の適切な位置に表示できる。
特に、システムが予め抽出した領域に対してメタデータを付与するのではなく、ユーザが任意の指定位置に対してメタデータを付与できる。また、複数のユーザが同一被写体を撮影する際、撮影画像によって位置や向きが変化していてもメタデータを付与した位置を復元できる。また、撮影画像の全体、または一部分に対してメタデータを付与でき、ローカルメタデータの位置を保ったまま共有・表示することによって、他のユーザと共有できる。
本実施の形態にかかるアノテーション装置は、CPU(Central Processing Unit)などの制御装置と、ROM(Read Only Memory)やRAM(Random Access Memory)などの記憶装置と、ネットワークなどに接続して通信を行う通信I/Fと、HDD(Hard Disk Drive)、CD(Compact Disc)ドライブ装置などの外部記憶装置と、ディスプレイ装置などのアノテーションのために提示を行う表示装置と、オペレータが識別処理や結果取得などを行うためのキーボードやマウスなどの入力装置と、各部を接続するバスを備えており、通常のコンピュータを利用したハードウェア構成となっている。
本実施の形態にかかるアノテーション装置で実行される処理プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録されて提供することが可能である。
また、本実施の形態にかかるアノテーション装置で実行される処理プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、本実施の形態にかかるアノテーション装置で実行される処理プログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
また、本実施の形態の処理プログラムを、ROM等に予め組み込んで提供するように構成してもよい。
なお、本発明は、上記実施の形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化することができる。また、上記実施の形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成することができる。例えば、実施の形態に示される全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施の形態にわたる構成要素を適宜組み合わせても良い。
101・・・第1の取得部、102・・・第2の取得部、103・・・算出部、104・・・検索部、105・・・登録部、106・・・データベース

Claims (7)

  1. 第1画像と、第1メタデータと、前記第1メタデータを表示するための前記第1の画像中の第1位置とを取得する第1の取得部と、
    前記第1画像から局所特徴量を抽出する抽出部と、
    前記第1位置と所定の距離内にある前記局所特徴量の集合を探索し、前記集合の代表点を算出する算出部と、
    抽出された前記局所特徴量を用いて、前記第1画像とデータベースに保存された複数の画像とを照合し、前記局所特徴量と一致すると判定された第2画像を検索する検索部と、
    前記代表点に対応する前記第2画像中の第2位置を算出し、前記第2位置と前記第1メタデータとを前記第2の画像のメタデータとして登録する登録部と
    を備えることを特徴とするアノテーション装置。
  2. 前記第2画像に付与されている第2メタデータを取得する第2の取得部と、
    前記第2画像を表示する表示部とを更に有し、
    前記表示部は、前記第1メタデータ及び前記第2メタデータを前記第2画像に表示する表示部であることを特徴とする請求項1記載のアノテーション装置。
  3. 前記第2画像に付与されている第2メタデータを取得する第2の取得部と、
    前記第1画像を表示する表示部とを更に有し、
    前記表示部は、前記第1メタデータ及び前記第2メタデータを前記第1画像に表示する表示部であることを特徴とする請求項1記載のアノテーション装置。
  4. 前記算出部は、前記代表点を第1の取得部が取得した前記第1の画像中の位置と所定距離にある局所特徴点の位置とすることを特徴とする請求項1乃至3いずれか1項に記載のアノテーション装置。
  5. 前記算出部は、前記代表点を前記局所特徴量の集合の重心位置とすることを特徴とする請求項1乃至3いずれか1項に記載のアノテーション装置。
  6. ユーザが前記第1メタデータまたは前記第1位置を入力するための入力部を更に備えることを特徴とする請求項1乃至5いずれか1項記載のアノテーション装置。
  7. 前記入力部は、タッチパネルまたはポインティングデバイスなどの入力装置を用いてユーザがメタデータを付与する位置を指定することを特徴とする請求項6に記載のアノテーション装置。
JP2010206166A 2010-09-14 2010-09-14 アノテーション装置 Active JP5134664B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2010206166A JP5134664B2 (ja) 2010-09-14 2010-09-14 アノテーション装置
US13/046,941 US9076069B2 (en) 2010-09-14 2011-03-14 Registering metadata apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010206166A JP5134664B2 (ja) 2010-09-14 2010-09-14 アノテーション装置

Publications (2)

Publication Number Publication Date
JP2012063890A JP2012063890A (ja) 2012-03-29
JP5134664B2 true JP5134664B2 (ja) 2013-01-30

Family

ID=45806264

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010206166A Active JP5134664B2 (ja) 2010-09-14 2010-09-14 アノテーション装置

Country Status (2)

Country Link
US (1) US9076069B2 (ja)
JP (1) JP5134664B2 (ja)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5995520B2 (ja) * 2011-06-14 2016-09-21 キヤノン株式会社 画像に関する処理支援システム、情報処理装置、及び画像に関する処理影支援方法
US10525347B2 (en) 2012-03-13 2020-01-07 Sony Interactive Entertainment America Llc System and method for capturing and sharing console gaming data
US10486064B2 (en) 2011-11-23 2019-11-26 Sony Interactive Entertainment America Llc Sharing buffered gameplay in response to an input request
US9116555B2 (en) 2011-11-23 2015-08-25 Sony Computer Entertainment America Llc Gaming controller
US10960300B2 (en) 2011-11-23 2021-03-30 Sony Interactive Entertainment LLC Sharing user-initiated recorded gameplay with buffered gameplay
US10685234B2 (en) * 2012-03-31 2020-06-16 Xerox Corporation Automatic and semi-automatic metadata generation via inheritance in homogeneous and heterogeneous environments
US9665798B2 (en) * 2012-05-24 2017-05-30 Hitachi, Ltd. Device and method for detecting specified objects in images using metadata
CN102968473A (zh) * 2012-11-14 2013-03-13 广东欧珀移动通信有限公司 基于人脸图像的信息检索方法及系统
RU2535184C2 (ru) * 2013-01-11 2014-12-10 Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Южно-Российский государственный университет экономики и сервиса" (ФГБОУ ВПО "ЮРГУЭС") Способ и устройство детектирования локальных особенностей на изображении
JP6064618B2 (ja) * 2013-01-23 2017-01-25 富士ゼロックス株式会社 情報処理装置及びプログラム
JP5931804B2 (ja) * 2013-06-18 2016-06-08 日本電信電話株式会社 Gui部品メタ情報付与装置およびその方法、並びに操作ログ自動生成装置
US11250203B2 (en) 2013-08-12 2022-02-15 Microsoft Technology Licensing, Llc Browsing images via mined hyperlinked text snippets
US9384213B2 (en) * 2013-08-14 2016-07-05 Google Inc. Searching and annotating within images
JP5808371B2 (ja) * 2013-08-28 2015-11-10 ヤフー株式会社 画像認識装置、画像認識方法及び画像認識プログラム
US9323447B2 (en) * 2013-10-15 2016-04-26 Sharp Laboratories Of America, Inc. Electronic whiteboard and touch screen method for configuring and applying metadata tags thereon
JP6384091B2 (ja) * 2014-03-31 2018-09-05 大日本印刷株式会社 サーバ装置、プログラム及び通信方法
JP6355400B2 (ja) * 2014-04-14 2018-07-11 キヤノン株式会社 画像処理装置、画像検索装置、画像処理装置の制御方法
US9594981B2 (en) * 2014-04-14 2017-03-14 Canon Kabushiki Kaisha Image search apparatus and control method thereof
JP6327918B2 (ja) * 2014-04-14 2018-05-23 キヤノン株式会社 画像検索装置及びその制御方法
CN105898129A (zh) * 2014-09-26 2016-08-24 贺江涛 一种基于移动设备的人脸抓拍的方法与装置
JP7282519B2 (ja) * 2018-12-28 2023-05-29 キヤノン株式会社 画像処理装置または画像処理サーバー
US11334617B2 (en) * 2019-09-25 2022-05-17 Mercari, Inc. Paint-based image search

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6711293B1 (en) 1999-03-08 2004-03-23 The University Of British Columbia Method and apparatus for identifying scale invariant features in an image and use of same for locating an object in an image
AUPQ717700A0 (en) * 2000-04-28 2000-05-18 Canon Kabushiki Kaisha A method of annotating an image
US6804684B2 (en) * 2001-05-07 2004-10-12 Eastman Kodak Company Method for associating semantic information with multiple images in an image database environment
US8421872B2 (en) * 2004-02-20 2013-04-16 Google Inc. Image base inquiry system for search engines for mobile telephones with integrated camera
JP2006004298A (ja) * 2004-06-18 2006-01-05 Fuji Xerox Co Ltd 文書処理装置、文書処理方法及び文書処理プログラム
US7403642B2 (en) * 2005-04-21 2008-07-22 Microsoft Corporation Efficient propagation for face annotation
US7519200B2 (en) * 2005-05-09 2009-04-14 Like.Com System and method for enabling the use of captured images through recognition
US8369570B2 (en) * 2005-09-28 2013-02-05 Facedouble, Inc. Method and system for tagging an image of an individual in a plurality of photos
US20070098303A1 (en) * 2005-10-31 2007-05-03 Eastman Kodak Company Determining a particular person from a collection
US8160400B2 (en) * 2005-11-17 2012-04-17 Microsoft Corporation Navigating images using image based geometric alignment and object based controls
US7694885B1 (en) * 2006-01-26 2010-04-13 Adobe Systems Incorporated Indicating a tag with visual data
US7831141B2 (en) * 2007-03-29 2010-11-09 Sony Ericsson Mobile Communications Ab Mobile device with integrated photograph management system
JP5139716B2 (ja) * 2007-05-16 2013-02-06 キヤノン株式会社 画像検索装置及び画像検索方法
JP2009130549A (ja) * 2007-11-21 2009-06-11 Fuji Xerox Co Ltd 表示指示システム、表示指示装置、表示指示プログラム、表示制御装置、及び表示制御プログラム
US8150098B2 (en) * 2007-12-20 2012-04-03 Eastman Kodak Company Grouping images by location
JP5188290B2 (ja) * 2008-06-27 2013-04-24 株式会社デンソーアイティーラボラトリ アノテーション装置、アノテーション方法およびプログラム

Also Published As

Publication number Publication date
JP2012063890A (ja) 2012-03-29
US9076069B2 (en) 2015-07-07
US20120062597A1 (en) 2012-03-15

Similar Documents

Publication Publication Date Title
JP5134664B2 (ja) アノテーション装置
CN103140862B (zh) 用户界面系统及其操作方法
US20170193693A1 (en) Systems and methods for generating time discrete 3d scenes
US9418482B1 (en) Discovering visited travel destinations from a set of digital images
JP6446766B2 (ja) プログラム、表示制御装置、記録媒体及び表示制御システム
JP4770960B2 (ja) 画像検索システム及び画像検索方法
JP5467177B2 (ja) 情報提供装置、情報提供方法、情報提供処理プログラム、情報提供処理プログラムを記録した記録媒体、及び情報提供システム
TW201115252A (en) Document camera with image-associated data searching and displaying function and method applied thereto
JP2014112302A (ja) 所定領域管理システム、通信方法、及びプログラム
JP2007041964A (ja) 画像処理装置
SG194265A1 (en) A system for learning trail application creation
JP6046501B2 (ja) 特徴点出力装置、特徴点出力プログラム、特徴点出力方法、検索装置、検索プログラムおよび検索方法
KR20190143666A (ko) 이미지를 위치 데이터로 변환하여 제공하는 방법과 시스템 및 비-일시적인 컴퓨터 판독 가능한 기록 매체
JP6115113B2 (ja) 所定領域管理システム、所定領域管理方法、及びプログラム
JP6323548B2 (ja) 撮影補助システム、撮像装置、情報処理装置、撮影補助プログラム及び撮影補助方法
WO2013002960A1 (en) Spatially organized image collections on mobile devices
JP2020035086A (ja) 情報処理システム、情報処理装置およびプログラム
JP5739239B2 (ja) 撮影支援システム及び撮像装置
US20180189602A1 (en) Method of and system for determining and selecting media representing event diversity
US20220415035A1 (en) Machine learning model and neural network to predict data anomalies and content enrichment of digital images for use in video generation
JP5932107B2 (ja) 画像処理サーバ及び撮像装置
JP6179315B2 (ja) 情報処理装置、画像処理システム、情報処理装置における画像処理方法及びプログラム
JP2013214158A (ja) 表示画像検索装置、表示制御システム、表示制御方法、およびプログラム
JP5440197B2 (ja) 撮影対象スポットデータベースの構築装置、構築システム、及び構築方法
JP6115673B2 (ja) 装置、及びプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120718

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120720

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121012

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121109

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151116

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 5134664

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151116

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350