JP2010067014A - 画像分類装置及び画像分類方法 - Google Patents
画像分類装置及び画像分類方法 Download PDFInfo
- Publication number
- JP2010067014A JP2010067014A JP2008232793A JP2008232793A JP2010067014A JP 2010067014 A JP2010067014 A JP 2010067014A JP 2008232793 A JP2008232793 A JP 2008232793A JP 2008232793 A JP2008232793 A JP 2008232793A JP 2010067014 A JP2010067014 A JP 2010067014A
- Authority
- JP
- Japan
- Prior art keywords
- image
- similarity
- keyword
- input image
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Processing Or Creating Images (AREA)
Abstract
【課題】ユーザの負担を最小限に抑えつつ、カスタマイズ可能で、且つ画像全体を用いた分類を行うことができる画像分類装置及び画像分類方法を提供すること。
【解決手段】画像分類装置10は、画像登録装置20を備え、画像登録装置20は、画像の局所領域において入力画像に対する画像の類似度を算出する第1の類似度算出手段21と、ユーザにとって具体的なキーワードがタグとして付される画像のデータを記憶する第1の画像DB22と、第1の類似判定を行う第1の類似判定手段23と、入力画像に対して画像全体の類似度を算出する第2の類似度算出手段24と、曖昧なキーワードのタグが付される画像のデータを記憶する第2の画像DB25と、第2の類似判定を行う第2の類似判定手段26とを備える。
【選択図】図1
【解決手段】画像分類装置10は、画像登録装置20を備え、画像登録装置20は、画像の局所領域において入力画像に対する画像の類似度を算出する第1の類似度算出手段21と、ユーザにとって具体的なキーワードがタグとして付される画像のデータを記憶する第1の画像DB22と、第1の類似判定を行う第1の類似判定手段23と、入力画像に対して画像全体の類似度を算出する第2の類似度算出手段24と、曖昧なキーワードのタグが付される画像のデータを記憶する第2の画像DB25と、第2の類似判定を行う第2の類似判定手段26とを備える。
【選択図】図1
Description
本発明は、例えばデジタルスチルカメラで撮影した画像を蓄積する際に画像を比較して分類する画像分類装置及び画像分類方法に関する。
近年、デジタルスチルカメラの爆発的な普及や、デジタルスチルカメラに搭載される記憶容量の増大に伴って、一般的な写真撮影方法に大きな変化が見られるようになった。即ち、従来の銀塩カメラでは一回のフィルム交換で20回程度の撮影しか行えず、それぞれの写真に対して撮り直しもできなかったため、ユーザは撮影するシーン、人物、タイミングを吟味し、ここぞという場面でシャッターを押すことで、厳選された写真のみを取得していた。
これに対し、デジタルスチルカメラでは、何百枚もの画像を撮影することができる上に、一度撮影した画像を液晶モニタ上で確認し、不要な画像を容易に削除できるため、昨今ではとりあえず様々な場面で何度もシャッターを切り、後でそれらを吟味し、取捨選択を行うといった撮影方法が主流となっており、ユーザの保持する画像数は増大の一途である。さらに言えば、デジタルスチルカメラで撮影した画像を保持しておくPCのハードディスクや光ディスクといった記憶装置の容量も年々増加しており、いまやユーザは天文学的な枚数の画像を保持することが可能となっている。その結果、取捨選択を行わずにそのまま記憶装置に大量の画像を保持しておくユーザも少なくない。
一方、そのように莫大な数の画像がPCの記憶領域内に保持されているとなると、場合によっては必要な画像を探す際には長大な時間を要することになる。例えば、必要な画像を探さなければならない場合の例として、運動会の日に子供が友人と一緒に写っている写真を選択して印刷し、その友人に配る場合が挙げられる。このような場合、ユーザの一般的な画像の探し方は以下のとおりである。
まず、画像に付加された情報で画像を絞り込み(第1の絞り込み)、絞り込まれた画像を縮小表示して並べてその中から友人が写っていると思しき画像を絞り込む(第2の絞り込み)。最後に一枚一枚画像を拡大表示し、確認しながら所望の画像を探す(第3の絞り込み)ことになる。このように一枚一枚画像を確認しながら過去を振り返ることは、写真の醍醐味ではあるが、先程例に挙げた様に他人に配るための画像を検索する場合は効率的な作業が求められる。
このとき、画像の絞り込み、特に第1の絞り込みで十分に画像を絞り込むことができれば、それほどユーザの負担は大きくない。しかし、第1の絞り込みで利用する付加情報のうち、人手を介さず自動的に付加される付加情報は、一般に画像に対して間接的である場合が多い。例えば、最も一般的な付加情報は撮影日時であるが、イベントの日時を正確に記憶しているユーザは少なく、そのようなユーザにとって、撮影日時はイベントと画像を繋ぐ間接的な情報でしかない。また、その他の一般的な付加情報として、撮影モード等もあるが、これは更に間接的な情報である。例えば撮影時にフラッシュが使用されたことが付加情報として保持されていても、その情報からユーザは室内で撮影が行われたのか、夜に撮影が行われたのか、天気が悪かったのか、といった推測を行う必要があるという問題がある。その結果、効果的な付加情報を得るためには、ユーザの手作業による分類に頼るしかなかった。なお、この分類手段について大別すると、ディレクトリ構造による分類、及び画像に何らかの手段でタグを付けるアノテーションの2種類がある。
以上の理由で、ユーザの手作業による分類を自動化するために、様々な技術が提案されている(例えば、特許文献1参照)。特許文献1では画像全体の特徴量を算出し、該特徴量に応じて自動的に画像を分類する技術が提案されている。この技術を用いることで、画像が自動的に分類されるので、ユーザの手作業を大幅に削減することができる。
ここで、この技術を使って写真画像を分類しようとする場合、どのような特徴量をどのカテゴリに分類するかという識別ルールを決定しなければならない。識別ルールの決定の仕方には様々な手段が考えられる。例えば、事前に分類された画像の中で入力画像と最も類似度の高い画像のカテゴリに分類するといった手法が考えられる。しかし、写真は、背景、人物、特定の物体など、様々な要素で構成されていることが多く、それぞれの要素の位置関係が変わるだけでも画像特徴量は大きく変わってしまう。その結果、例えば、風景画と肖像画とを分類するだけでも、様々なパターンの画像を用意しなければならない。ここで、例えば、一枚一枚の画像との類似度を判定するのではなく、非特許文献1に示されたSVM(Support Vector Machine)といった汎化性能の高い学習・識別器によって、カテゴリの傾向を算出しておけば、用意する画像数を削減できるが、それでも大量の画像を必要とする。このような大量の画像をユーザに用意させることは、ユーザにとって負荷が大きい。
これに対し、事前に、例えばソフトウェアでサービスを提供する場合にはソフトウェア出荷時に、様々な画像を用意しておくことで前述の問題は回避されるが、ユーザによるカスタマイズに対してフレキシブルな対応ができなくなる。例えば、肖像画であっても、自分やその親族が写ったものは、ユーザにとって特別な意味を持ち、ユーザがそのような画像を分類したくなることは容易に想像できる。一方、ソフトウェア出荷時に、ユーザの顔を登録しておくことは不可能である。以上のように、画像全体を用いてフレキシブルに画像を分類することは難しい。
一方、画像の局所に注目して分類する手法が提案されている(例えば、特許文献2参照)。特許文献2に記載のものは、画像から特定のオブジェクトを抽出し、抽出したオブジェクトに一度オブジェクト名を付加すると、オブジェクト名を付けたオブジェクトと類似するオブジェクトが以降撮影された場合、自動的にその画像にも同様にそのオブジェクト名を付加する。前述の画像全体を比較する手法に比べて、個々のオブジェクトを抽出しているので、それらの組み合わせパターンが劇的に少なくなり、比較的少ない画像数で分類可能である。しかし、ユーザ自身や親族の顔等は、一般的にユーザの保持する写真に大量に含まれている可能性が高く、特許文献2に記載の手法のみでは、十分な絞り込みが行えないという問題があった。
特許第4036009号公報
特開2006−333443号公報
C. Cortes and V.N. Vapnik,"Support vector Networks,"Machine Learning, vol.20, pp.273-297, 1995
本発明は、前述のような事情に鑑みてなされたものであり、ユーザの負担を最小限に抑えつつ、カスタマイズ可能で、且つ画像全体を用いた分類を行うことができる画像分類装置及び画像分類方法を提供することを目的とする。
本発明の画像分類装置は、キーワードが付与された画像と入力画像との類似性を比較して前記入力画像を分類する画像分類装置であって、前記キーワードが付与されて登録された第1及び第2の画像のデータをそれぞれ記憶する第1及び第2の画像データ記憶手段と、予め定めた大きさの局所領域を前記入力画像及び前記第1の画像から抽出する局所領域抽出手段と、抽出した前記局所領域において前記入力画像と前記第1の画像との類似度を算出する第1の類似度算出手段と、前記入力画像の画像全体と前記第2の画像の画像全体との類似度を算出する第2の類似度算出手段と、前記第1及び前記第2の類似度算出手段が算出した類似度に基づいてキーワードを前記入力画像に付与するキーワード付与手段とを備えた構成を有している。
この構成により、本発明の画像分類装置は、局所領域及び画像全体における類似度を算出することにより細やかな画像の分類が行えるので、ユーザの負担を最小限に抑えつつ、カスタマイズ可能で、且つ画像全体を用いた分類を行うことができる。
また、本発明の画像分類装置は、前記第1の画像データ記憶手段が、ユーザが具体的なキーワードを付与して登録した画像のデータを前記第1の画像のデータとして記憶するものである構成を有している。
この構成により、本発明の画像分類装置は、入力画像に対してユーザに具体的なキーワードを付与させるので、入力画像のカスタマイズが可能となる。
また、本発明の画像分類装置は、前記第2の画像データ記憶手段は、予め定めた曖昧なキーワードが付された画像のデータを前記第2の画像のデータとして記憶するものである構成を有している。
この構成により、本発明の画像分類装置は、曖昧なキーワードによって画像全体の類似度を算出することができる。また、第2の画像のデータが装置の工場出荷時に登録されていれば、ユーザが第2の画像を登録する手間を省略でき、ユーザの負担を抑えることができる。
また、本発明の画像分類装置は、前記局所領域抽出手段が、画像の特徴量が極値を示す極値画素を検出する極値画素検出部と、前記入力画像及び前記第1の画像のそれぞれにおいて前記極値画素近傍の画像特徴量を算出する特徴量算出手段と、算出した特徴量を比較する特徴量比較部と、前記入力画像及び前記第1の画像のそれぞれにおける極値画素の位置関係に基づいて極値画素を選定する極値画素選定部と、前記極値画素選定部が選定した極値画素の数に基づいて前記第1の画像に対応する画像領域を前記入力画像から抽出する対応領域抽出部とを備えた構成を有している。
この構成により、本発明の画像分類装置は、極値画素選定部が選定した極値画素の数に基づいて第1の画像に対応する画像領域を入力画像から抽出することができる。
また、本発明の画像分類装置は、前記第1の類似度算出手段が、前記対応領域抽出部が抽出した画像領域の画像と前記第1の画像とを比較して前記類似度を算出する画像比較手段を備えた構成を有している。
この構成により、本発明の画像分類装置は、抽出した画像領域における特徴量に基づいて類似度を算出することにより、類似度の算出精度を向上させることができる。
また、本発明の画像分類装置は、前記極値画素検出部は、ユーザが前記第1の画像として登録する際の画像の極値画素を検出するものであって、前記極値画素検出部が検出した前記極値画素の数が予め定めた数以下のとき前記ユーザに警告を与える警告手段を備えた構成を有している。
この構成により、本発明の画像分類装置は、登録される多数の画像に同じキーワードが付与されることを防止できるので、ユーザの利便性を向上させることができる。
また、本発明の画像分類装置は、前記入力画像の特定の領域を指定する領域指定手段を備え、前記第1の画像データ記憶手段は、前記領域指定手段が指定した領域の画像データを記憶するものである構成を有している。
この構成により、本発明の画像分類装置は、第1の画像の登録時に画像全体ではなく画像の一部領域だけを指定することができるので、ユーザはキーワードを付与したい被写体のみが写った画像を用意する必要がなく、ユーザの利便性を向上させることができる。
また、本発明の画像分類装置は、前記第1の類似度算出手段が算出した類似度に基づいて前記入力画像と前記第1の画像とが類似しているか否かを判定する類似判定手段を備え、前記第2の類似度算出手段は、前記入力画像と前記第1の画像とが類似していない場合にのみ前記画像全体に係る類似度を算出するものである構成を有している。
この構成により、本発明の画像分類装置は、1つの画像に1つのキーワードを付与する場合であって入力画像と第1の画像とが類似していない場合に、第2の類似度算出手段による処理を省略することができるので、画像登録時にユーザの待ち時間の短縮化を図ることができ、ユーザの利便性を向上させることができる。
本発明の画像分類方法は、キーワードが付与された画像と入力画像との類似性を比較して前記入力画像を分類する画像分類方法であって、前記キーワードが付与されて登録された第1及び第2の画像のデータをそれぞれ記憶するステップと、予め定めた大きさの局所領域を前記入力画像及び前記第1の画像から抽出するステップと、抽出した前記局所領域において前記入力画像と前記第1の画像との類似度を算出するステップと、前記入力画像の画像全体と前記第2の画像の画像全体との類似度を算出するステップと、前記第1及び前記第2の画像によって算出した類似度に基づいてキーワードを前記入力画像に付与するステップとを含む構成を有している。
この構成により、本発明の画像分類方法は、局所領域及び画像全体における類似度を算出することにより細やかな画像の分類が行えるので、ユーザの負担を最小限に抑えつつ、カスタマイズ可能で、且つ画像全体を用いた分類を行うことができる。
本発明は、ユーザの負担を最小限に抑えつつ、カスタマイズ可能で、且つ画像全体を用いた分類を行うことができるという効果を有する画像分類装置及び画像分類方法を提供することができるものである。
以下、本発明の実施形態について図面を用いて説明する。実施形態では、本発明に係る画像分類装置を、画像データをアップロードして管理できるウェブサービスシステムに適用した例を挙げて説明する。このウェブサービスシステムは、サーバPCと、複数のクライアントPCとを備えるものである。以下の説明では、クライアントPCからサーバPCにアップロードされる対象となる画像を入力画像という。
(第1実施形態)
まず、本発明に係る画像分類装置の第1実施形態における構成について説明する。
まず、本発明に係る画像分類装置の第1実施形態における構成について説明する。
図1に示すように、本実施形態における画像分類装置10は、入力画像を登録する画像登録装置20と、主にキーワードを登録するキーワード登録装置30とを備えている。
画像登録装置20は、第1の類似度を算出する第1の類似度算出手段21と、第1の検索対象画像のデータを記憶する第1の画像データベース(DB)22と、第1の類似判定を行う第1の類似判定手段23と、第2の類似度を算出する第2の類似度算出手段24と、第2の検索対象画像のデータを記憶する第2の画像DB25と、第2の類似判定を行う第2の類似判定手段26とを備えている。なお、第1の画像DB22及び第2の画像DB25は、それぞれ、本発明に係る第1及び第2の画像データ記憶手段を構成する。また、第1の類似判定手段23及び第2の類似判定手段26は、本発明に係るキーワード付与手段を構成する。
キーワード登録装置30は、入力画像において特定の領域を指定する領域指定手段31と、極値画素を検出する極値画素検出手段32と、キーワードや画像を登録する登録手段33と、ユーザに警告を与える警告手段34とを備えている。
第1の検索対象画像とは、画像の局所領域において入力画像に対する画像の類似度を算出するために第1の画像DB22から検索する画像をいい、ユーザが登録して蓄積した画像である。例えば、第1の検索対象画像は、「長男の顔」、「子供の友人Aさんの顔」というようなユーザにとって具体的なキーワードがタグとして付される画像である。また、第2の検索対象画像とは、入力画像に対して画像全体の類似度を算出するために第2の画像DB25から検索する画像をいい、例えばシステムの出荷時にメーカ側で登録して蓄積した画像である。具体例を挙げれば、第2の検索対象画像は、「肖像画」、「風景」、「動物」、「集合写真」というような曖昧な(換言すれば抽象的な)キーワードのタグが付される画像である。
なお、第1の検索対象画像に関しては、システム出荷時に何らかのサンプル画像が登録されていても構わない。また、第2の検索対象画像に関しては、曖昧なキーワードのタグを付すための画像をユーザが用意して蓄積するものであってもよい。
第1の類似度算出手段21は、図2に示すように、局所領域を抽出する局所領域抽出手段40と、画像を比較する画像比較手段50とを備えている。局所領域抽出手段40は、入力画像のSIFT(Scale-Invariant Feature Transform)を算出するSIFT算出部41、第1の検索対象画像のSIFTを算出するSIFT算出部42、SIFTを比較するSIFT比較部43、対応点を選定する対応点選定部44、対応領域を抽出する対応領域抽出部45を備えている。なお、SIFT算出部41及び42は、本発明に係る極値画素検出部、特徴量算出手段を構成する。また、SIFT比較部43は、本発明に係る特徴量比較部を構成する。また、対応点選定部44は、本発明に係る極値画素選定部を構成する。また、対応領域抽出部45は、本発明に係る対応領域抽出部を構成する。
図3は、本実施形態におけるウェブサービスシステムを構成するサーバPC及びクライアントPCとして用いられるコンピュータ60のブロック図であって、本実施形態における画像分類装置10は、コンピュータ60と、コンピュータ60にロードされるプログラムとによって実現される。
図3において、CPU61は中央処理装置であり、コンピュータ60の全体の制御及び演算処理等を行う。ROM62は読み出し専用メモリであり、システム起動プログラムの情報等の記憶領域を有する。RAM63はランダムアクセスメモリであり、データ記憶領域を有する。RAM63には、オペレーティングシステムや、デバイスドライバ、例えばウェブブラウザのようなアプリケーション、通信制御等のプログラムがロードされ、CPU61によって実行される。入出力部64は、キーボード、マウス等の入出力デバイスで構成され、ユーザが入出力デバイスに入力した情報をCPU61に伝達するものである。表示部65は例えば液晶ディスプレイ、表示制御部等を備えている。HDD66はハードディスク装置であり、検索対象画像のデータ、ウェブブラウザのプログラムファイル等を格納するようになっている。通信部67は、ネットワーク通信制御を行うようになっており、ネットワークに接続された他のコンピュータや周辺機器との通信が可能となっている。データバス68は、前述の構成要素間のデータの通路となるものである。なお、本実施形態では、第1の検索対象画像及び第2の検索対象画像がサーバPCのハードディスク装置に格納されているものとする。
前述の構成により、ユーザは、各クライアントPCから画像をサーバPCにアップロードし、アップロードした画像をクライアントPCから閲覧できるようになっている。各画像には、サーバPCやクライアントPCによって自動的に付与されたキーワードがタグ情報として付随している。なお、各画像ファイルにはキーワードが複数付随していることもある。
次に、本実施形態における画像分類装置10の動作について説明する。
(ユーザから見たシステムの動作)
最初にユーザから見たシステムの動作について説明する。
最初にユーザから見たシステムの動作について説明する。
まず、ユーザインターフェースについて説明する。ユーザは、サーバPCにアクセスする際、クライアントPCから例えばウェブブラウザを介して行う。具体的には、ユーザはウェブブラウザを立ち上げ、サーバPCのアドレス情報を入力すると、図4に示すようなダイアログ画面70がディスプレイに表示される。図4に示したダイアログ画面70は、キーワード入力ボックス71、検索ボタン72、画像登録ボタン73、キーワード登録ボタン74、画像表示領域75を有する。
ユーザがキーワード入力ボックス71に好みのキーワードを入力し、検索ボタン72を押すと、クライアントPCに保持された画像ファイルのうち該キーワードをタグとして保持する画像ファイルのサムネイルが画像表示領域75に整列されて表示される。
また、ユーザが画像登録ボタン73を押すことにより、ファイル選択ダイアログ画面が表示される。このファイル選択ダイアログ画面により、クライアントPCに保持された画像ファイルを指定すると、指定された画像ファイルがサーバPCにアップロードされる。サーバPCにアップロードされる画像(入力画像)には自動的に、タグが付与される。なお、どのようにタグを付与するかについては後述する。
ここで、サーバPCに既に登録されている画像と類似する画像を含む画像領域が入力画像に存在するか否かを判定し、存在する場合には、サーバPCに登録されている画像に関連付けられたキーワードをタグとして、アップロードされた画像に付与する。また、該ダイアログ画面のプログラムは画像に新規のキーワードをタグとして付与するためのインターフェース手段を備えている。
次に、ユーザがキーワード登録ボタン74を押すと、図5に示すようなダイアログ画面80がディスプレイに表示される。ダイアログ画面80は、画像選択ボタン81、キーワード入力ボックス82、登録ボタン83、表示領域84、警告表示領域85を有する。
画像選択ボタン81を押すことにより、ファイル選択ダイアログ画面が表示される。ここでクライアントPCに保持される画像ファイルを指定すると、当該画像ファイルに係る画像が表示領域84に表示される。表示領域84上でユーザがマウスをドラッグすると、図5の画像中に示したような矩形が描画される。
ユーザは、キーワード入力ボックス82に、画像に付けたいタグ情報をキーワードとして入力することができる。登録ボタン83が押されると、キーワード入力ボックス82に入力したキーワードが、表示領域84において矩形で囲まれた領域の画像とともに、第1の画像DB22に登録される。この時、サーバPCは、登録される画像が識別に適するか否かを判定し、識別に適さない場合、警告表示領域85に、例えば「選択領域は、上手く識別できません」といった警告を表示し、画像の登録をキャンセルするものとする。ここまでの処理は、以降入力される画像が、登録された画像に類似するか否かを判定し、類似している場合には自動的にキーワードを付与するためのテンプレートを作る作業である。しかし、平坦な画像領域(画面の広い範囲にわたり画素間の濃度変化の少ない画像領域)、例えば図5に示した人物画像の背景のような領域が指定された場合、様々な画像において類似しているとの判定が発生し、同じキーワードが殆どの画像に対して付与されてしまうことになる。そこで、本実施形態では、画像の登録の時点で、このような不具合が発生しそうな領域の指定に対して判定を行い、ユーザに警告を表示することにより、同じキーワードが殆どの画像に付与されるという問題を解消できる。なお、どのように、識別に適するか否かを判定するかについては後述する。
(サーバPCから見たシステムの動作)
次に、サーバPCから見たシステムの動作について説明する。
次に、サーバPCから見たシステムの動作について説明する。
まず、画像登録時のフローについて図1及び図6を用いて説明する。図6は、画像登録時のフローチャートである。
第1の類似度算出手段21は、入力画像及び第1の検索対象画像のデータを入力する(ステップS11、12)。また、第1の類似度算出手段21は、第1の検索対象画像に含まれる画像領域と類似する画像領域が入力画像内に存在するかを判定し、存在する場合には類似度を算出し(ステップS13)、類似度を示すデータを第1の類似判定手段23に転送する。なお、類似する領域が存在しない場合には、類似度0を算出し、第1の類似判定手段23に転送する。
ここで、第1の検索対象画像は、前述のようにユーザがキーワード登録した画像であり、画像には対応付けられたタグが付与されているものとする。また、後述するように、第1の類似度算出手段21は類似領域が存在するか否かを判定する際に、入力画像と検索対象画像とで様々な極値画素(Keypoint)を検出し、それぞれの極値画素周辺の情報を用いて、両画像間で対応する(類似する)極値を検出し、検出した極値画素の個数情報も同時に第1の類似判定手段23に転送するものとする。
第1の類似判定手段23は、入力画像と第1の検索対象画像とが類似しているか否かを判定する(ステップS14)。ステップS14において、第1の類似判定手段23は、入力画像と第1の検索対象画像とが類似している場合は、検索対象画像に付与されたタグを出力し(ステップS18)、入力画像と第1の検索対象画像とが類似していない場合は、タグを出力しない。なお、第1の類似判定手段23の詳細な動作については後述する。
続いて、第2の類似度算出手段24では入力画像の全領域と、第2の検索対象画像に保持される様々な画像の全領域との類似度を算出し、類似度を示すデータを第2の類似判定手段26に出力する。なお、第2の類似度算出手段の詳細な動作については後述する。
第2の類似判定手段26は、第2の類似度算出手段24が算出した類似度が所定の閾値(例えば0.7)以上か否かに基づき、入力画像と第2の検索対象画像とが画像全体で類似しているか否かを判定する(ステップS17)。ステップS17において、第2の類似判定手段26は、類似度の閾値以上となる第2の検索対象画像があった場合、当該第2の検索対象画像に付与されていたタグを出力する(ステップS18)。一方、第2の類似判定手段26は、類似度の閾値以上となる第2の検索対象画像がない場合はタグの出力は行わない。なお、類似度の閾値は、例えば予め実験を行って取得したデータを基に決定するのが好ましい。
以上の処理により、入力画像には自動的に複数のタグが付与される。前述のとおり、風景や肖像画といったタグは曖昧で、人物や背景など、複数の構成要素により構成されている。画像上においてそれら要素の位置関係が変わると、画像全体の特徴量が大きく変わってしまう。そのため、画像全体の特徴量からこれらのタグを判定するためには、非常に大量の画像を用意しなければならない。これを登録する作業はユーザにとって、非常に高い負荷になる。一方で、ユーザ自身や家族の顔、富士山といった具体的なオブジェクトの場合、単数の構成要素により構成されている場合が多い。また、複数の構成要素であっても、構成要素の位置関係が画像上で固定されている場合が多い。このような具体的なオブジェクトの画像に関しては、少ない画像を登録するだけで、高い精度で類似度を判定することができる。本実施形態のように、大量の画像との比較を行わなければならない曖昧なタグに関してはシステム出荷時に登録しておき、少数の画像との比較を行うだけでよい具体的なタグに関してはユーザに登録させるという構成によって、ユーザの負担を低減して様々なタグを付けられるとともに、ユーザによるカスタマイズが可能となる。
(第1の類似度算出手段21の動作)
次に、第1の類似度算出手段21において、どのように第1の検索対象画像に含まれる画像(以下検索対象画像)と類似する領域が入力画像内に存在するかを判定するかについて図2及び図7に基づき述べる。図7は、第1の類似度算出手段21の詳細な動作を示すフローチャートである。
(第1の類似度算出手段21の動作)
次に、第1の類似度算出手段21において、どのように第1の検索対象画像に含まれる画像(以下検索対象画像)と類似する領域が入力画像内に存在するかを判定するかについて図2及び図7に基づき述べる。図7は、第1の類似度算出手段21の詳細な動作を示すフローチャートである。
SIFT算出部41は、登録対象である入力画像のデータを入力し(ステップS21)、入力画像のSIFTを算出する(ステップS22)。また、SIFT算出部42は、第1の検索対象画像のデータを入力し(ステップS23)、第1の検索対象画像のSIFTを算出する(ステップS24)。
ここでSIFTとは、文献1(David G. Lowe, "Distinctive Image Features from Scale-Invariant Keypoints", International Journal of Computer Vision, 2004
)に記載された技術で、画像内で特徴的な画素を複数検出し、それぞれの画素について、周辺領域の情報から特徴量を算出する技術である。
)に記載された技術で、画像内で特徴的な画素を複数検出し、それぞれの画素について、周辺領域の情報から特徴量を算出する技術である。
ここでいう特徴的な画素とは、一言で言うと周辺に対して極大又は極小、即ち極値である画素のことをいう。但し、単純に画像内で極値というわけでない。SIFTでいう極値画素とは複数の、且つ連続したサイズ(分散)のガウシアンフィルタを画像に施し、複数枚のぼかした画像を作成し、サイズの順番に並べた後、連続に並んだ画像の差分画像(Difference of Gaussian:DoG)を作成したものである。特徴的な画素は、注目画素が同じDoGの画像内で極値なだけでなく、1つサイズが小さいDoG及び1つサイズが大きいDoGの注目画素と対応する画素に対して極値である場合に、極値として検出される。
このようにすることにより、極値を構成する山、あるいは谷がどのサイズのガウシアンに最も合致するかを知ることができる。以降、そのサイズのガウシアンによって得られたDoGを用いて周辺領域の特徴量を算出すれば、入力画像と、検索対象画像とのサイズが異なっていても、対応する点において類似する特徴量が得られる。つまり、SIFTは画像のスケールに対して不変量を算出することができることになる。
文献1では、これ以降の処理として、得られた特徴的な画素がエッジ上の点であるか否か、周辺画素のコントラストは閾値以上か、と言った処理によって検出された特徴的な画素の選定、及びパラボラフィッティングによる特徴的な画素の詳細な位置推定を行っているが、本発明の本質と離れるため、説明を省略する。
続いて、SIFTにおける特徴的な画素周辺の特徴量算出方法について述べる。SIFTでは検索対象画像が入力画像内で回転して存在していても、対応する特徴的な画素が検出できるように、特徴的な画素のオリエンテーション推定を行う。
そのためにまずは、勾配強度及び勾配方向を示すデータを算出する。画像の画素値L(u,v)、勾配強度m(u,v)、勾配方向θ(u,v)とすると、以下のように算出できる。
その後、勾配方向を10度ずつ、36方向に離散化したヒストグラムを用意する。該ヒストグラムには、勾配強度に対し、注目画素を中心とするガウシアンを掛け合わせた値を加算していく。該ヒストグラムにおいて最も大きな値を示す方向が特徴的な画素のオリエンテーションとなる。
次に、特徴的な画素のオリエンテーションが画像の上方に向くよう画像を回転させる。その後、特徴的な画素の周辺領域を一辺4ブロックの計16ブロックに分割する。ブロックごとに45度ずつ、8方向の勾配ヒストグラムを作成することにより、4×4×8=128次元の特徴量が得られる。このように特徴的な画素周辺の画素を、推定した特徴的な画素のオリエンテーションが画像の上方に向くよう正規化した後に、特徴量を算出するため、得られた特徴量は画像の回転に対して不変な特徴量になる。
以上述べたように、SIFT算出部41及び42は、SIFT特徴量を用いることにより、検索対象画像を入力画像内で探索する際に、両者のサイズの違いや回転に対して極めて安定して探索することができる。
続いて、SIFT比較部43は、検索対象画像に含まれる特徴的な画素と近い特徴量を持つ特徴的な画素(対応点)が入力画像内に存在するか否かを1つ1つ、総当たりで調べる(ステップS25)。ここでいう近い特徴量とは、特徴的な画素同士のユークリッド距離が所定の閾値(例えば300)以下であるものを指す。
SIFTは局所領域だけを参照して得られる特徴量なので、得られた対応点は必ずしも同じ画像に属するものではない。そこで、対応点選定部44は、対応点の位置関係から、対応点を選定する(ステップS26)。選定するために、文献1ではハフ(Hough)変換を用いている。即ち、1つの対応点のサイズ及びオリエンテーションから検索対象画像の平面が入力画像内にて、どのような姿勢をとっているかを推定することができる。この推定値を量子化し、それらの分布を見ることによって、対応点の選定を行う。同じ姿勢を示す対応点が多数有る場合、それらは信頼性の高い対応点であり、同じ姿勢を示す対応点が少数で有る場合、それらは信頼性の低い対応点であると言える。なお、本実施形態では、同じ姿勢を示す点の数を対応点数と呼ぶ。
対応点選定部44は、対応点数が3以上有る場合は、検索対象画像が入力画像内に存在していると判定し、対応点数が2以下である場合は、検索対象画像が入力画像内に存在しないとして類似度を0と算出する(ステップS27)。
検索対象画像が入力画像内に存在する場合、対応領域抽出部45は、入力画像から、検索対象画像と対応する領域を抽出する(ステップS28)。検索対象画像が入力画像内に存在する場合、前述のとおり、検索対象画像の平面が、入力画像内でどのような姿勢をとっているかを推定することができるので、該姿勢の平面を入力画像から抽出すればよい。
続いて、画像比較手段50は、抽出した画像と検索対象画像とを比較して、両者の類似度を算出する(ステップS29)。なお、画像比較手段50の詳細な動作については後述する。
以上のように、第1の類似度算出手段21は、検索対象画像が入力画像内に存在するか否かを判定し、存在すると判定した場合に類似度を算出することができる。
(画像比較手段50の動作)
画像比較手段50は、2つの画像から画像の特徴を示す特徴量を算出し、それらを比較することによって類似度を算出する。本実施形態では色、エッジ及び模様の3種類の特徴量を算出するものとする。
画像比較手段50は、2つの画像から画像の特徴を示す特徴量を算出し、それらを比較することによって類似度を算出する。本実施形態では色、エッジ及び模様の3種類の特徴量を算出するものとする。
前提として、画像内の各画素の色情報は、R(レッド)、G(グリーン)、B(ブルー)の3原色の階調をそれぞれ0〜255の256階調で示しているものとする。3原色の階調が何れも0である場合には、その画素の色は黒となる。また、3原色の階調が何れも255である場合には、その画素の色は白となる。このように、各画素には、sRGB表色系の3次元の色情報が割り当てられているものとする。
最初にエッジ特徴量の算出方法について述べる。まず、画像内の画素マトリクスの各画素に対し、図8に示すような3画素×3画素のフィルタリングマトリクスを用いて、畳み込み積分を施す。画像内の注目画素に対して、図示のフィルタリングマトリクスにおける中心画素の値"4"を割り当てるとともに、その注目画素の周囲に存在する画素に対して、フィルタリングマトリクスの中心画素の周囲に存在する画素の値を割り当てるのである。このような畳み込み積分を画像全体に施して、エッジ画像を得る。その後、所定の閾値(例えば128)を用いて画像を2値化する。次に、画像全体を例えば10×10の同サイズのブロックに等分して、それぞれのブロック中で2値化の閾値を超える画素をカウントする。以上の処理により100次元のベクトルが得られる。また、ブロックに含まれる全ての画素数で除算することで正規化し、ベクトルの各要素の値を0〜1に正規化しておく。
次に、色特徴量の算出方法について述べる。まず、画像に含まれる画素を全て255で除算し、正規化しておく。下記の数3〜数9に基づいて画像をsRGB表色系からLab表色系の色表現に変換する。
光源としてD65光源を想定した場合、Xn=0.95、Yn=1.00、Zn=1.09となる。このようにしてLab表色系に変換したら、次に、エッジ特徴量の算出と同様にして、画像を10×10のブロックに等分し、それぞれのブロックで平均Labを得る。更に得られたLabは以下の式で0〜1の値に正規化したL'a'b'に変換しておく。この結果、100×3=300次元のベクトルが得られる。
次に、模様特徴量の算出方法について述べる。模様特徴量の算出には、周知の濃度共起行列が用いられる。濃度共起行列は、ある小領域において図9に示すように濃淡画像の明るさがkの画素からδ(r,θ)で示される相対位置に1の画素が出現する頻度をpδ(r,θ)とする。sRGB表色系の画像をグレー画像に変換し、その後、各画素を16で割って余りを捨てることで16の階調に量子化する。その後、16の階調数をmとして、数13に基づいて16×16次元の濃度共起行列を得る。なお、得られたマトリクスの値を画像に含まれる画素数で割り、0〜1の値に正規化しておく。
本実施形態では、δ(1,0)、δ(1,45)及びδ(1,90)の3種類の濃度共起行列を得ているため、最終的には256×3=768次元の特徴量ベクトルが得られる。
濃度共起行列は画像の周波数情報の概略を示す特徴量であるため、テクスチャ特徴量の算出に用いることが可能である。なお、周波数情報の取得にはフーリエ変換を用いることが可能である。また、MFP(複合機)に記憶されている画像データファイルがJPEG方式で圧縮されているものであれば離散コサイン変換(Discrete Cosine Transform)を用いることで、容易に周波数情報を得ることができる。以上のようにして、最終的には100+300+768=1168次元の特徴量ベクトルが得られる。
以上の特徴量を2つの画像でそれぞれ算出し、それらのユークリッド距離を算出することで画像の類似度を算出することができる。特徴量は全て0〜1に正規化されているため、1からユークリッド距離を差し引けば0〜1の類似度が得られる。
以上のように、画像比較手段50が、SIFTの対応点だけでなく、画像の特徴量から類似度を算出することにより、第1の類似度算出手段21は、更に高精度に類似度を算出することができる。
(第1の類似判定手段23の動作)
次に、第1の類似判定手段23の動作について述べる。第1の類似判定手段23は、第1の類似度算出手段21が算出した類似度が所定の閾値を超えているか否かで、第1の検索対象画像に付与されたタグを入力画像に付けるか否かを決定する。ここで、通常の閾値は0.8とするが、対応点の数が例えば10よりも多い場合には、閾値を0.7とするのが好ましい。一般に、複数の対応点が同じ姿勢であると、誤って判定される可能性は低い。そのため、図7のステップS27では"3"という極めて少ない対応点の数が存在した場合に、検索対象画像が入力画像内に存在すると判定している。したがって、対応点が十分に多い場合は類似度が高い可能性が高いので、この場合に閾値を下げている。これにより、本来類似している画像を非類似と誤判定する可能性が低くなり、正しいタグ付けが行える可能性が高くなる。
次に、第1の類似判定手段23の動作について述べる。第1の類似判定手段23は、第1の類似度算出手段21が算出した類似度が所定の閾値を超えているか否かで、第1の検索対象画像に付与されたタグを入力画像に付けるか否かを決定する。ここで、通常の閾値は0.8とするが、対応点の数が例えば10よりも多い場合には、閾値を0.7とするのが好ましい。一般に、複数の対応点が同じ姿勢であると、誤って判定される可能性は低い。そのため、図7のステップS27では"3"という極めて少ない対応点の数が存在した場合に、検索対象画像が入力画像内に存在すると判定している。したがって、対応点が十分に多い場合は類似度が高い可能性が高いので、この場合に閾値を下げている。これにより、本来類似している画像を非類似と誤判定する可能性が低くなり、正しいタグ付けが行える可能性が高くなる。
(第2の類似度算出手段24の動作)
第2の類似度算出手段24の動作は、図7のステップS29における処理と同様であり、入力画像と第2の検索対象画像に含まれる画像との類似度を比較する。但し、ここでの比較は、画像の局所領域における比較を行うのではなく、画像全体同士を比較する。
第2の類似度算出手段24の動作は、図7のステップS29における処理と同様であり、入力画像と第2の検索対象画像に含まれる画像との類似度を比較する。但し、ここでの比較は、画像の局所領域における比較を行うのではなく、画像全体同士を比較する。
(キーワード登録時の動作)
次に、キーワード登録時のサーバPCの動作を図1及び図10に基づいて説明する。図10は、キーワード登録時のサーバPCの動作を示すフローチャートである。
次に、キーワード登録時のサーバPCの動作を図1及び図10に基づいて説明する。図10は、キーワード登録時のサーバPCの動作を示すフローチャートである。
領域指定手段31は入力画像のデータを入力し(ステップS31)、領域が指定された入力画像のデータを極値画素検出手段32に出力する。この入力画像に対し、極値画素検出手段32は、前述のSIFT算出(図7ステップS22)と同様の処理を行う(ステップS32)。但し、極値画素検出手段32は、入力画像内で特徴的な画素の検出を行うが、特徴量算出は行わない。極値画素検出手段32は、この処理により特徴的な画素の数を算出し、特徴的な画素の数が例えば20以下の場合は、領域が指定された入力画像は識別に不適としてユーザに警告を出す(ステップS33「No」)。一方、特徴的な画素の数が20よりも大きい場合は、画像とともにキーワードを登録する(ステップS33「Yes」)。なお、SIFTを用いた類似領域が存在するか否かを判定する手法において、対応点の選定を行うため、十分な数の特徴的な画素が存在しないと、類似領域が存在すると判定できる可能性が低くなる。ここで、十分な数の特徴的な画素が存在しない画像は、模様の少ない一様な画像であることが多い。一様な画像は前述のとおり様々な画像に存在しうるので識別には適さない。
以上のように、本実施形態における画像分類装置10によれば、第1の類似度算出手段21は、ユーザにとって具体的なキーワードがタグとして付された第1の検索対象画像と入力画像との局所領域における類似度を算出し、第2の類似度算出手段24は、曖昧なキーワードのタグが付された第2の検索対象画像と入力画像との画像全体における類似度を算出する構成としたので、ユーザの負担を最小限に抑えつつ、カスタマイズ可能で、且つ画像全体を用いた分類を行うことができる。
なお、前述の実施形態において、第1の検索対象画像をサーバPCのハードディスク装置に格納する構成を例に挙げて説明したが、本発明はこれに限定されるものではなく、第1の検索対象画像をクライアントPCのハードディスク装置に格納する構成としてもよい。また、例えば、サーバPCのハードディスク装置にユーザ毎のフォルダを設け、各ユーザと第1の検索対象画像とを関連付けて格納する構成としてもよい。
(第2実施形態)
まず、本発明に係る画像分類装置の第2実施形態における構成について説明する。
まず、本発明に係る画像分類装置の第2実施形態における構成について説明する。
図11に示すように、本実施形態における画像分類装置は、画像を登録する画像登録装置90を備えている。なお、第1実施形態と同様な構成には同一の符号を付し、構成の説明は省略する。
画像登録装置90は、第1の類似度を算出する第1の類似度算出手段21と、第1の検索対象画像のデータを記憶する第1の画像DB22と、第1の類似判定を行う第1の類似判定手段91と、第2の類似度を算出する第2の類似度算出手段92と、特徴量のデータを記憶する特徴量DB93と、第2の類似判定を行う第2の類似判定手段94とを備えている。
図11に示すように、本実施形態における画像登録装置90は、第1実施形態とほぼ構成を同じくするものであるが、2つの点で第1実施形態と異なる。
まず1つ目に、第1実施形態では、入力画像と、第1及び第2の検索対象画像を個々に比較していたが、本実施形態では、第2の検索対象画像について個々の画像と比較するのではなく、同じタグの付けられた様々な画像から特徴量を算出し、(特徴量算出方法については前述の画像比較手段50と同様)それらを用いて非特許文献1記載のSVMを用いることにより、識別を行うものとする。SVMは未知の入力に対して、比較的正確に分類を行うことのできる、即ち汎化性能の高い2値識別器である。そのため、SVMを利用することで、事前に、用意すべき画像の数が少なくて済む。更に、SVMはノイズ除去作用、同様のデータは無視すると言った特性を持つため、1つ1つの画像と比較するよりも、精度が高く、高速な識別が行える。なお、SVMの手法については後述する。
更に2つ目に、本実施形態では、画像にタグを付けるのではなく、所定のタグに関連付けられたフォルダに分類して保存することとしている。このとき、1つの画像に対して複数のタグを付けることができず、1つに絞らなければならない。一般的に、曖昧な情報よりも具体的な情報の方が優先されることが予想される。そのため、本実施形態では、第1の検索対象画像が入力画像に含まれている場合には、該検索対象画像に付与されたタグを入力画像に付与するとともに、第2の類似度算出手段92及び第2の類似判定手段94の処理を行わない構成とした。これにより、計算処理量が削減され、画像登録時にユーザの待ち時間が減ってユーザの利便性が向上する。
(SVMによる分類規則の生成方法)
次に、SVMによる分類規則の生成方法について説明する。SVMは数14に示すように入力ベクトルと重みベクトルωとの内積が特定の閾値を超えていればy=1を、超えていなければy=−1を出力する識別器であり、出力y=1のとき入力画像は文書画像であり、出力y=−1のとき入力画像は写真画像であると判定するものとする。つまり、SVMの学習とは重みベクトルω及び閾値hを決定する作業である。なお、SVMの学習についての詳細な説明は前述の文献1に記載されているが、その概要を以下説明する。
次に、SVMによる分類規則の生成方法について説明する。SVMは数14に示すように入力ベクトルと重みベクトルωとの内積が特定の閾値を超えていればy=1を、超えていなければy=−1を出力する識別器であり、出力y=1のとき入力画像は文書画像であり、出力y=−1のとき入力画像は写真画像であると判定するものとする。つまり、SVMの学習とは重みベクトルω及び閾値hを決定する作業である。なお、SVMの学習についての詳細な説明は前述の文献1に記載されているが、その概要を以下説明する。
図13はSVMの動作の概要を示したものである。まず前提条件として、図の左に示すように○×で表される2つの種類のベクトル群が存在するものとする。SVMはこれら2つのクラスを最適に分離するための超平面(図13の右参照)を決定するためのアルゴリズムといえる。SVMにおいて、2つのベクトル群を最適に分割するとは、未知のベクトルが入力されたときの対応能力、つまり汎化能力を最大とするということと等価である。これを実現するために、2つのベクトル群の境界位置に存在するベクトル(Support Vector)を見つけて、このベクトルと超平面との距離が最大となるよう超平面を設定する。
ここで、実動作上、誤った教師データも存在するため、誤りの許容量(ソフトマージン)を設定するパラメータを決める必要がある。以上は、線形SVMについての説明であるが、実際の教師データは線形判別できるベクトル群とは限らない。しかし、特徴量ベクトルを、より高次の空間に射影し(カーネルトリック)、その空間上で超平面を求めることで、非線形な問題にも対応できる。
以上を実現するには、結果的に、教師データ(xi,yi)を用いて数15の条件下で数16を最大化するラグランジェ乗数ベクトルαiを求めることになる。その後ラグランジェ乗数ベクトルの要素のうち0でない要素に対応する教師データ群S(これがサポートベクタとなる)と、そのうち、任意の1つの教師データ(x0,y0)を用いて超平面のパラメータω,hを求める(数17、数18)。
なお、数16において、K(x,y)はカーネルトリックを実現するためのカーネル関数を示す。カーネル関数には様々なものが考案されているが、今回の実施形態ではRBF(Radial Basis Function)を用いた。RBFは数19で示される関数でCは任意の数値である。以上述べたように、SVMを用いて学習を行うにはソフトマージンの許容量を設定するパラメータγとカーネル関数であるRBFを決定するためのCを設定する必要があるが、文献2(Chih-Chung Chang and Chih-Jen Lin, LIBSVM : a library for support vector machines, 2001)に記載されたように、C及びγの範囲と、それらの値のステップ幅とを予め定めて、総当たりで識別率を算出し、最も良い識別率が得られるC及びγを決定するのが好ましい。
次に、本実施形態における画像分類装置の動作について図11及び図12を用いて説明する。図12は、本実施形態における画像分類装置の動作を示すフローチャートである。
第1の類似度算出手段21は、入力画像及び第1の検索対象画像のデータを入力する(ステップS11、12)。また、第1の類似度算出手段21は、第1の検索対象画像に含まれる画像領域と類似する画像領域が入力画像内に存在するかを判定し、存在する場合には類似度を算出し(ステップS13)、類似度を示すデータを第1の類似判定手段23に転送する。なお、類似する領域が存在しない場合には、類似度0を算出し、第1の類似判定手段23に転送する。
第1の類似判定手段23は、入力画像と第1の検索対象画像とが類似しているか否かを予め定めた閾値に基づいて判定し(ステップS41)、類似している場合には、第1の検索対象画像に付与されたタグと関連付けられたフォルダに入力画像のデータを移動する(ステップS45)。
一方、ステップS41において、入力画像と第1の検索対象画像とが類似していない場合、第2の類似度算出手段92は、特徴量DB93から所定の特徴量データを読み出し(ステップS42)、SVMを用いて第2の類似度を算出する(ステップS43)。算出された第2の類似度のデータは、第2の類似判定手段94に送られる。
第2の類似判定手段94は、第2の類似度算出手段92により算出された類似度に基づき、入力画像と第2の検索対象画像とが画像全体で類似しているか否かを判定する(ステップS44)。
ステップS44において、第2の類似判定手段94は、入力画像と第2の検索対象画像とが画像全体で類似している場合、第2の検索対象画像に付与されたタグと関連付けられたフォルダに入力画像のデータを移動し(ステップS45)、入力画像と第2の検索対象画像とが画像全体で類似していない場合は処理を終了する。
以上のように、本実施形態における画像分類装置によれば、第2の類似度算出手段92は、入力画像と第1の検索対象画像とが類似していない場合にのみ類似度を算出する構成としたので、1画像について1つの画像分類を行う場合において、不要な処理を削減して高速に画像分類処理を行うことができ、画像登録時にユーザの待ち時間を減少させ、ユーザの利便性を向上させることができる。
以上のように、本発明に係る画像分類装置及び画像分類方法は、ユーザの負担を最小限に抑えつつ、カスタマイズ可能で、且つ画像全体を用いた分類を行うことができるという効果を有し、プリンタ、複写機、デジタルカメラ及びPCやサーバのソフトウェア等として有用である。
10 画像分類装置
20 画像登録装置
21 第1の類似度算出手段
22 第1の画像DB(第1の画像データ記憶手段)
23、91 第1の類似判定手段(類似判定手段、キーワード付与手段)
24、92 第2の類似度算出手段
25 第2の画像DB(第2の画像データ記憶手段)
26、94 第2の類似判定手段(キーワード付与手段)
30 キーワード登録装置
31 領域指定手段
32 極値画素検出手段
33 登録手段
34 警告手段
40 局所領域抽出手段
41、42 SIFT算出部(極値画素検出部、特徴量算出手段)
43 SIFT比較部(特徴量比較部)
44 対応点選定部(極値画素選定部)
45 対応領域抽出部(対応領域抽出部)
50 画像比較手段
71 キーワード入力ボックス
72 検索ボタン
73 画像登録ボタン
74 キーワード登録ボタン
75 画像表示領域
80 ダイアログ画面
81 画像選択ボタン
82 キーワード入力ボックス
83 登録ボタン
84 表示領域
85 警告表示領域
93 特徴量DB
20 画像登録装置
21 第1の類似度算出手段
22 第1の画像DB(第1の画像データ記憶手段)
23、91 第1の類似判定手段(類似判定手段、キーワード付与手段)
24、92 第2の類似度算出手段
25 第2の画像DB(第2の画像データ記憶手段)
26、94 第2の類似判定手段(キーワード付与手段)
30 キーワード登録装置
31 領域指定手段
32 極値画素検出手段
33 登録手段
34 警告手段
40 局所領域抽出手段
41、42 SIFT算出部(極値画素検出部、特徴量算出手段)
43 SIFT比較部(特徴量比較部)
44 対応点選定部(極値画素選定部)
45 対応領域抽出部(対応領域抽出部)
50 画像比較手段
71 キーワード入力ボックス
72 検索ボタン
73 画像登録ボタン
74 キーワード登録ボタン
75 画像表示領域
80 ダイアログ画面
81 画像選択ボタン
82 キーワード入力ボックス
83 登録ボタン
84 表示領域
85 警告表示領域
93 特徴量DB
Claims (9)
- キーワードが付与された画像と入力画像との類似性を比較して前記入力画像を分類する画像分類装置であって、
前記キーワードが付与されて登録された第1及び第2の画像のデータをそれぞれ記憶する第1及び第2の画像データ記憶手段と、予め定めた大きさの局所領域を前記入力画像及び前記第1の画像から抽出する局所領域抽出手段と、抽出した前記局所領域において前記入力画像と前記第1の画像との類似度を算出する第1の類似度算出手段と、前記入力画像の画像全体と前記第2の画像の画像全体との類似度を算出する第2の類似度算出手段と、前記第1及び前記第2の類似度算出手段が算出した類似度に基づいてキーワードを前記入力画像に付与するキーワード付与手段とを備えたことを特徴とする画像分類装置。 - 前記第1の画像データ記憶手段は、ユーザが具体的なキーワードを付与して登録した画像のデータを前記第1の画像のデータとして記憶するものであることを特徴とする請求項1に記載の画像分類装置。
- 前記第2の画像データ記憶手段は、予め定めた曖昧なキーワードが付された画像のデータを前記第2の画像のデータとして記憶するものであることを特徴とする請求項1又は請求項2に記載の画像分類装置。
- 前記局所領域抽出手段は、画像の特徴量が極値を示す極値画素を検出する極値画素検出部と、前記入力画像及び前記第1の画像のそれぞれにおいて前記極値画素近傍の画像特徴量を算出する特徴量算出手段と、算出した特徴量を比較する特徴量比較部と、前記入力画像及び前記第1の画像のそれぞれにおける極値画素の位置関係に基づいて極値画素を選定する極値画素選定部と、前記極値画素選定部が選定した極値画素の数に基づいて前記第1の画像に対応する画像領域を前記入力画像から抽出する対応領域抽出部とを備えたことを特徴とする請求項1から請求項3までのいずれか1項に記載の画像分類装置。
- 前記第1の類似度算出手段は、前記対応領域抽出部が抽出した画像領域の画像と前記第1の画像とを比較して前記類似度を算出する画像比較手段を備えたことを特徴とする請求項4に記載の画像分類装置。
- 前記極値画素検出部は、ユーザが前記第1の画像として登録する際の画像の極値画素を検出するものであって、
前記極値画素検出部が検出した前記極値画素の数が予め定めた数以下のとき前記ユーザに警告を与える警告手段を備えたことを特徴とする請求項4又は請求項5に記載の画像分類装置。 - 前記入力画像の特定の領域を指定する領域指定手段を備え、
前記第1の画像データ記憶手段は、前記領域指定手段が指定した領域の画像データを記憶するものであることを特徴とする請求項1から請求項6までのいずれか1項に記載の画像分類装置。 - 前記第1の類似度算出手段が算出した類似度に基づいて前記入力画像と前記第1の画像とが類似しているか否かを判定する類似判定手段を備え、
前記第2の類似度算出手段は、前記入力画像と前記第1の画像とが類似していない場合にのみ前記画像全体に係る類似度を算出するものであることを特徴とする請求項1から請求項7までのいずれか1項に記載の画像分類装置。 - キーワードが付与された画像と入力画像との類似性を比較して前記入力画像を分類する画像分類方法であって、
前記キーワードが付与されて登録された第1及び第2の画像のデータをそれぞれ記憶するステップと、予め定めた大きさの局所領域を前記入力画像及び前記第1の画像から抽出するステップと、抽出した前記局所領域において前記入力画像と前記第1の画像との類似度を算出するステップと、前記入力画像の画像全体と前記第2の画像の画像全体との類似度を算出するステップと、前記第1及び前記第2の画像によって算出した類似度に基づいてキーワードを前記入力画像に付与するステップとを含むことを特徴とする画像分類方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008232793A JP2010067014A (ja) | 2008-09-11 | 2008-09-11 | 画像分類装置及び画像分類方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008232793A JP2010067014A (ja) | 2008-09-11 | 2008-09-11 | 画像分類装置及び画像分類方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010067014A true JP2010067014A (ja) | 2010-03-25 |
Family
ID=42192551
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008232793A Pending JP2010067014A (ja) | 2008-09-11 | 2008-09-11 | 画像分類装置及び画像分類方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010067014A (ja) |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013134781A (ja) * | 2011-12-23 | 2013-07-08 | Thomson Licensing | 画像コレクション中の画像の自動管理方法及びそれに対応する装置 |
JP2013539273A (ja) * | 2010-08-09 | 2013-10-17 | クゥアルコム・インコーポレイテッド | 立体カメラのためのオートフォーカス |
US8953895B2 (en) | 2010-11-29 | 2015-02-10 | Panasonic Intellectual Property Corporation Of America | Image classification apparatus, image classification method, program, recording medium, integrated circuit, and model creation apparatus |
JP2015505984A (ja) * | 2011-12-02 | 2015-02-26 | シー・エス・アイ・アールCsir | ホログラム処理方法およびシステム |
US9294672B2 (en) | 2014-06-20 | 2016-03-22 | Qualcomm Incorporated | Multi-camera system using folded optics free from parallax and tilt artifacts |
JP2016062162A (ja) * | 2014-09-16 | 2016-04-25 | 学校法人光産業創成大学院大学 | 自動タグ生成装置、自動タグ生成システム |
US9374516B2 (en) | 2014-04-04 | 2016-06-21 | Qualcomm Incorporated | Auto-focus in low-profile folded optics multi-camera system |
US9386222B2 (en) | 2014-06-20 | 2016-07-05 | Qualcomm Incorporated | Multi-camera system using folded optics free from parallax artifacts |
US9383550B2 (en) | 2014-04-04 | 2016-07-05 | Qualcomm Incorporated | Auto-focus in low-profile folded optics multi-camera system |
US9398264B2 (en) | 2012-10-19 | 2016-07-19 | Qualcomm Incorporated | Multi-camera system using folded optics |
US9438889B2 (en) | 2011-09-21 | 2016-09-06 | Qualcomm Incorporated | System and method for improving methods of manufacturing stereoscopic image sensors |
US9541740B2 (en) | 2014-06-20 | 2017-01-10 | Qualcomm Incorporated | Folded optic array camera using refractive prisms |
US9549107B2 (en) | 2014-06-20 | 2017-01-17 | Qualcomm Incorporated | Autofocus for folded optic array cameras |
CN106548187A (zh) * | 2015-09-17 | 2017-03-29 | 杭州安存网络科技有限公司 | 一种图像认证方法及装置 |
US9819863B2 (en) | 2014-06-20 | 2017-11-14 | Qualcomm Incorporated | Wide field of view array camera for hemispheric and spherical imaging |
US9832381B2 (en) | 2014-10-31 | 2017-11-28 | Qualcomm Incorporated | Optical image stabilization for thin cameras |
US10013764B2 (en) | 2014-06-19 | 2018-07-03 | Qualcomm Incorporated | Local adaptive histogram equalization |
US10178373B2 (en) | 2013-08-16 | 2019-01-08 | Qualcomm Incorporated | Stereo yaw correction using autofocus feedback |
JP2019530062A (ja) * | 2016-08-12 | 2019-10-17 | アキフィ,インコーポレイティド | メディアドキュメントのメタデータを自動的に生成するシステム及び方法 |
CN110532413A (zh) * | 2019-07-22 | 2019-12-03 | 平安科技(深圳)有限公司 | 基于图片匹配的信息检索方法、装置、计算机设备 |
-
2008
- 2008-09-11 JP JP2008232793A patent/JP2010067014A/ja active Pending
Cited By (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013539273A (ja) * | 2010-08-09 | 2013-10-17 | クゥアルコム・インコーポレイテッド | 立体カメラのためのオートフォーカス |
US9485495B2 (en) | 2010-08-09 | 2016-11-01 | Qualcomm Incorporated | Autofocus for stereo images |
JP2016122198A (ja) * | 2010-08-09 | 2016-07-07 | クゥアルコム・インコーポレイテッドQualcomm Incorporated | 立体カメラのためのオートフォーカス |
US8953895B2 (en) | 2010-11-29 | 2015-02-10 | Panasonic Intellectual Property Corporation Of America | Image classification apparatus, image classification method, program, recording medium, integrated circuit, and model creation apparatus |
US9438889B2 (en) | 2011-09-21 | 2016-09-06 | Qualcomm Incorporated | System and method for improving methods of manufacturing stereoscopic image sensors |
JP2015505984A (ja) * | 2011-12-02 | 2015-02-26 | シー・エス・アイ・アールCsir | ホログラム処理方法およびシステム |
JP2013134781A (ja) * | 2011-12-23 | 2013-07-08 | Thomson Licensing | 画像コレクション中の画像の自動管理方法及びそれに対応する装置 |
US9398264B2 (en) | 2012-10-19 | 2016-07-19 | Qualcomm Incorporated | Multi-camera system using folded optics |
US9838601B2 (en) | 2012-10-19 | 2017-12-05 | Qualcomm Incorporated | Multi-camera system using folded optics |
US10165183B2 (en) | 2012-10-19 | 2018-12-25 | Qualcomm Incorporated | Multi-camera system using folded optics |
US10178373B2 (en) | 2013-08-16 | 2019-01-08 | Qualcomm Incorporated | Stereo yaw correction using autofocus feedback |
US9383550B2 (en) | 2014-04-04 | 2016-07-05 | Qualcomm Incorporated | Auto-focus in low-profile folded optics multi-camera system |
US9973680B2 (en) | 2014-04-04 | 2018-05-15 | Qualcomm Incorporated | Auto-focus in low-profile folded optics multi-camera system |
US9374516B2 (en) | 2014-04-04 | 2016-06-21 | Qualcomm Incorporated | Auto-focus in low-profile folded optics multi-camera system |
US9860434B2 (en) | 2014-04-04 | 2018-01-02 | Qualcomm Incorporated | Auto-focus in low-profile folded optics multi-camera system |
US10013764B2 (en) | 2014-06-19 | 2018-07-03 | Qualcomm Incorporated | Local adaptive histogram equalization |
US9549107B2 (en) | 2014-06-20 | 2017-01-17 | Qualcomm Incorporated | Autofocus for folded optic array cameras |
US9541740B2 (en) | 2014-06-20 | 2017-01-10 | Qualcomm Incorporated | Folded optic array camera using refractive prisms |
US9294672B2 (en) | 2014-06-20 | 2016-03-22 | Qualcomm Incorporated | Multi-camera system using folded optics free from parallax and tilt artifacts |
US9733458B2 (en) | 2014-06-20 | 2017-08-15 | Qualcomm Incorporated | Multi-camera system using folded optics free from parallax artifacts |
US9843723B2 (en) | 2014-06-20 | 2017-12-12 | Qualcomm Incorporated | Parallax free multi-camera system capable of capturing full spherical images |
US9854182B2 (en) | 2014-06-20 | 2017-12-26 | Qualcomm Incorporated | Folded optic array camera using refractive prisms |
US10084958B2 (en) | 2014-06-20 | 2018-09-25 | Qualcomm Incorporated | Multi-camera system using folded optics free from parallax and tilt artifacts |
US9819863B2 (en) | 2014-06-20 | 2017-11-14 | Qualcomm Incorporated | Wide field of view array camera for hemispheric and spherical imaging |
US9386222B2 (en) | 2014-06-20 | 2016-07-05 | Qualcomm Incorporated | Multi-camera system using folded optics free from parallax artifacts |
JP2016062162A (ja) * | 2014-09-16 | 2016-04-25 | 学校法人光産業創成大学院大学 | 自動タグ生成装置、自動タグ生成システム |
US9832381B2 (en) | 2014-10-31 | 2017-11-28 | Qualcomm Incorporated | Optical image stabilization for thin cameras |
CN106548187A (zh) * | 2015-09-17 | 2017-03-29 | 杭州安存网络科技有限公司 | 一种图像认证方法及装置 |
JP2019530062A (ja) * | 2016-08-12 | 2019-10-17 | アキフィ,インコーポレイティド | メディアドキュメントのメタデータを自動的に生成するシステム及び方法 |
CN110532413A (zh) * | 2019-07-22 | 2019-12-03 | 平安科技(深圳)有限公司 | 基于图片匹配的信息检索方法、装置、计算机设备 |
CN110532413B (zh) * | 2019-07-22 | 2023-08-08 | 平安科技(深圳)有限公司 | 基于图片匹配的信息检索方法、装置、计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2010067014A (ja) | 画像分類装置及び画像分類方法 | |
KR101346730B1 (ko) | 화상 처리 시스템, 화상 처리 장치 및 방법, 프로그램, 및기록 매체 | |
Yousif et al. | Animal Scanner: Software for classifying humans, animals, and empty frames in camera trap images | |
JP4908505B2 (ja) | 撮影者を利用した画像の分類 | |
JP6267224B2 (ja) | 最良の写真を検出及び選択する方法及びシステム | |
US8537409B2 (en) | Image summarization by a learning approach | |
JP4902270B2 (ja) | デジタル画像のコレクションの組み立て方法 | |
US8644563B2 (en) | Recognition of faces using prior behavior | |
CN100517328C (zh) | 显示控制装置和方法 | |
US9558401B2 (en) | Scanbox | |
US9436706B2 (en) | Image processing apparatus, image processing method, and storage medium for laying out images | |
CN108241645B (zh) | 图像处理方法及装置 | |
US20140198986A1 (en) | System and method for image selection using multivariate time series analysis | |
WO2012073421A1 (ja) | 画像分類装置、画像分類方法、プログラム、記録媒体、集積回路、モデル作成装置 | |
US20040145602A1 (en) | Organizing and displaying photographs based on time | |
US9400942B2 (en) | System and method for estimating/determining the date of a photo | |
JP2007206920A (ja) | 画像処理装置および方法、検索装置および方法、プログラム、並びに記録媒体 | |
US9280720B2 (en) | Apparatus, method, and computer-readable storage medium | |
JP2007129434A (ja) | 情報処理装置および方法、並びにプログラム | |
JP2002158870A (ja) | 画像の顕著性及びアピール性に基づいて写真印画の数、寸法、及び、倍率を変更する方法 | |
JP2002016792A (ja) | 写真画像の少なくとも一部分を写真受像体上に画像生成する方法 | |
US9542594B2 (en) | Information processing apparatus, method for processing information, and program | |
KR20150027011A (ko) | 영상 처리 방법 및 장치 | |
JP6109118B2 (ja) | 画像処理装置および方法、情報処理装置および方法、並びにプログラム | |
CN109660712A (zh) | 选择视频序列的帧的方法、系统和装置 |