Nothing Special   »   [go: up one dir, main page]

JP2016530641A - コンテンツベースの画像検索 - Google Patents

コンテンツベースの画像検索 Download PDF

Info

Publication number
JP2016530641A
JP2016530641A JP2016539453A JP2016539453A JP2016530641A JP 2016530641 A JP2016530641 A JP 2016530641A JP 2016539453 A JP2016539453 A JP 2016539453A JP 2016539453 A JP2016539453 A JP 2016539453A JP 2016530641 A JP2016530641 A JP 2016530641A
Authority
JP
Japan
Prior art keywords
query image
image
feature
feature descriptor
descriptors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016539453A
Other languages
English (en)
Other versions
JP6188954B2 (ja
Inventor
デ ラ コバ,シラ ペレス
デ ラ コバ,シラ ペレス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shazura inc
Original Assignee
Shazura inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shazura inc filed Critical Shazura inc
Publication of JP2016530641A publication Critical patent/JP2016530641A/ja
Application granted granted Critical
Publication of JP6188954B2 publication Critical patent/JP6188954B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5854Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using shape and object relationship
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5862Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)

Abstract

コンテンツベースの画像検索のための方法及び非一時的コンピュータ可読媒体。方法は、クエリ画像を選択することと、選択されたクエリ画像を、セグメント化技術を適用することによりセグメント化することと、色特徴記述子及びテクスチャ特徴記述子を含む少なくとも二つの特徴記述子を決定することにより、セグメント化された画像から特徴を抽出することと、セグメント化されたクエリ画像において決定された少なくとも二つの特徴記述子を使用して、データベース内に含まれる少なくとも二つの特徴記述子により抽出され計算された特徴を含む複数の画像に対するクエリ画像の類似度を決定することとを具備し、色特徴記述子及びテクスチャ特徴記述子は異なる色空間の同時の組み合わせを含み、全体的及び局所的な統計的測定が異なる色空間の同時の組み合わせに対して実施される。【選択図】図1

Description

本発明は、概ね、コンピュータのビジョン、オブジェクト、及び画像の認識技術に関する。特に、本発明は、独特の高レベル画像特徴の一般的記述子を使用したコンテンツベースの画像検索のための方法、及び非一時的コンピュータ可読媒体に関する。本発明はまた、客観的かつ任意に選択される主観的な重み付け類似度に基づく実行の使用と、クエリ画像と潜在的に類似する画像との間の距離の最適化された計算とに関する。
コンピュータ及び仮想分野が根付いているので、我々の社会において画像認識の重要性が日々増している。
視覚的探索エンジン、及びコンピュータのビジョン、オブジェクト及びパターンの認識技術の応用分野は広範であり、幅広い種々の用途及び領域に広がっている。例えば、工業的・機械的ビジョン、ナビゲーション、プロセス制御、国土安全保障、電子商取引、医療診断、生物学的研究、人物識別、バイオメトリクス、マーケティング、ソーシャルネットワークなどである。
特に、識別及び類似度のための視覚的探索の使用は、多大な関心が寄せられている分野である。デジタル画像及び動画の増加や、より高度化する内臓カメラを備えるスマートフォン、タブレットなどの最新の技術を用いてインターネットを使用することに伴い、商用アプリケーションが過去数十年にわたって開発されてきている。
視覚的探索の問題を解決する第一のアプローチは、キーワード、タグ、分類コード、またはアイテム名を使用して画像にインデックスが付される「テキストベースの検索」であった。従来技術に伴う制約は二つある。第一に、画像にインデックスやラベルが付される必要があるため、多大な時間とリソースを必要とすることである。第二に、各ユーザが異なる方法で画像を主観的に解釈し、定義し、かつ記述できるため、標準的な方法ではないということである。
テキストベースの検索に代替するアプローチは、コンテンツベースの画像検索(CBIR)技術であり、自動的に導出される画像特徴に基づいて、意味的に関連する画像を画像データベースから検索する。
画像処理はかなり複雑であり、画像処理が占める容量は別にして、高レベルの認知を低レベルの画像特徴に効率的に変換し、かつ周知の意味上の相違を解消することに真の課題がある。これらの技術は、以下を目的とするものとすることができる。
・応答時間を短縮すること
・精度を高めることと
・画像検索用のクエリを簡単にすること
・異なる環境、画像取込条件、及び視点変更に対するロバスト性及び不変性を高めること
・ボリューム、時間、及び画像性質に対するスケーラビリティ、すなわち、リアルタイムで変化し増加する大きなデータベースに対するスケーラビリティ、並びに、他のタイプのオブジェクト、画像、及び/またはパターンに対するフレキシビリティと拡張性
CBIRシステムが適切に機能するための重要な点の一つは、画像特徴の定義及び抽出、すなわち、画像または関心領域の視覚情報を、最小限の必要なデータで、できる限り完全かつ正確に記述する最適かつ適切なベクトルの選択であり、これは特徴記述子とも称される。この目的は、大きな画像データベースに適用される、効率的な探索及び比較方法により、クエリ画像または関心オブジェクトを同一なものや類似するものと一緒に認識し、特定し、ソートし、かつ分類することである。
これまで開発された分野の技術は、画像/オブジェクトの全体、または部分的な画像ウィンドウ/関心領域(ROI)に適用される、直接的な1:1の比較、パターンマッチング、または相関法に一般的に基づいている。このようなアプローチは正確であり、かつ、制限されかつトレーニングされたデータベースに関して既知の特定のオブジェクトの全体的構造を認識するのに適しているが、部分遮蔽、視点の著しい変化、または変形可能な変換に十分に対処できない(非特許文献1)。更に、それらは通常、照度変化または隣接する要素から受けるノイズの存在にロバストではなく、これらのシステムのスケーラビリティ及びフレキシビリティを非常にコストのかかるものにしており、その結果、CBIRの適応可能性を極めて疑わしいものにしている。
正しいCBIR記述子を定義するための別の重要な因子は、CBIR記述子が不変であるべきということであり、これはCBIR記述子が、異なる画像、オブジェクト取込条件、或いは環境に敏感なパラメータ、例えば照度、回転、スケール、反転、転換、アフィン変換、及び他の効果などにより影響されるべきではないということを意味している。
代替的に、異なる取込状況及び条件で画像またはオブジェクトをロバストに記述する一方、他方では、実行、必要なエネルギー消費及び処理に関して、より複雑でコストのかかる高レベル特徴の使用及び解析を回避する記述子に基づいて、不変の低レベル特徴を実行するCBIRシステムを開発する取り組みがなされている。
これらの低レベル特徴ベクトルの使用は、これらの特徴を記述するために数値を使用し、N次元空間内での一つのポイントとして画像またはオブジェクトを表して、視覚的な特性にインデックス付けすることからなる。このプロセスは、クエリ画像またはオブジェクトベクトル特徴を抽出することと、データベースに関して類似度を解析するためにメトリック及び分類方法を適用することとからなる。
現在、この種類の不変特徴を画像から抽出するためのアルゴリズム的方法が存在する。例えば、スケール不変特徴変換(SIFT)、一般化ロバスト不変特徴(G−RIF)、高速化ロバスト特徴(SURF)、PCA−SIFT、GLOHなどである。しかしながら、これらの方法は、1セットの関心点を選択し、既知の制限されたデータベースに適用される機械学習及びトレーニング方法により通常得られる、オブジェクトまたは画像の特定領域の具体的で局所的な外観を記述する。これは、対応する事前のトレーニングなしに他のオブジェクトやカテゴリに拡張できないことを意味している。
ここでは、フレキシブルでスケーラブルな方法により画像検索の速度を上げるインデックス付け構造を指定することを、課題に含んでいる。
したがって、低レベル特徴に対する別の代替案は、一般的なベクトルを開発するために、色、形状、テクスチャなどの特徴の記述子を使用することであり、いろいろな種類の画像やオブジェクトに適用することができる。上述のベクトル/記述子を最適化する方法では、情報に最小数のパラメータまたは変数を含む一方で、最大の情報を得ることを目的とする。このため、選択方法は、大きなデータベースにおいてアイテムを記述し照会するために、最も重要な特徴及びそれら特徴の組み合わせを決定するために使用され、高い性能精度の維持を試みる一方で、サーチ及び検索の複雑さ(時間とコンピュータ処理の両方に関して)を低減する。その上、このことは、正しい特徴と所与のデータベースの測定値とを自動的に関連付けることにより、エンドユーザを助ける(非特許文献2)。これらの方法は、次の二つのグループに分類することができる。
・主成分解析(PCA)統計手順、及び独立成分解析(ICA)計算方法など、オリジナルの特徴空間を最小次元空間にマッピングし、かつ新たな特徴ベクトルを構築する特徴変換方法。特徴変換アルゴリズムに関する問題は、ノイズに対するそれらの感度であり、かつ結果として得られる特徴がユーザにとって意味のないものであることである。
・ノイズに対してロバストであり、かつ結果として得られる特徴が高度に解釈可能である特徴選択方式。特徴選択の目的は、最小量の情報を失う一方で、特徴ベクトルの長さを低減するために、特徴のサブセットを選ぶことである。それらのサブセット評価方法によれば、特徴選択方式は更に二つのグループに分類される。
○本質的効果、及びクラスまたはクラスタへの自然な分離に基づいて、特徴が評価されるフィルタリング方法
○特徴のサブセットを評価するために学習方法の精度を利用する、ラッパー方法
調整されトレーニングされた特定の事例及びデータベースサンプルの精度及び結果を最適化することからなる機械学習及びトレーニング方法に基づく異なる手法により、CBIRシステムにおける特徴選択がこれまで達成されているが、これは、初期に考慮やトレーニングがされない他のまたは新たな事例及びデータベースサンプルに対して、または異なる種類の画像及びオブジェクトカテゴリに対して、一般的に拡張可能ではない。
これらの一般的な特徴ベクトルの全てのうち、色及びテクスチャは、最も関連する記述子のうちの二つであり、画像及び動画検索に最もよく使用される。結果として、企業及び研究者は、これらの記述子を改善し、これらの記述子をCBIRシステムのベースとすることに専心してきた。
色記述子または色特徴は、画像、領域またはオブジェクトに関して、シーンの表面の表面特性を記述する全体的な特徴である。色特徴を抽出する異なる方法が、非特許文献3において説明されている。
異なる色空間が、CBIRでの用途、及び認知色を特定する際の利点で広く知られている。色を異なる方法で解釈しモデル化することができるので、色空間を普遍的であると考えることができる色空間はない。多種多様な利用可能な色空間(例えば、RGB、CMY、YIQ、YUV、XYZ、rg、CIE Lab、Luv、HSVなど)と、画像及びオブジェクトの色を定義するための多種多様な記述子とについて、どの色空間及びどの特徴が、画像を記述するために測定されるべきであり、かつ画像と同一または最も類似しているものを特定できるとすべきであるかは明らかではない。ここで生じる問題は、特定のコンピュータビジョンタスクに対して最良の結果を提供する色モデルを、どのように選択するべきかである。これらの難題は、非特許文献4で詳細に説明されており、この文献では、一つの一般的な選択モデルまたは複数のモデル(不変)を提案している。
これまで開発されてきたこの種類の記述子の大部分は、多数の制約を有しており、最新の文献である非特許文献5で示されている。既存の色記述子は、通常、画像における局所的分布、空間的局所性、及び領域変化を記述することができない。要するに、特定の複雑なオブジェクトまたは画像、特定の高レベルパターン、画像領域、及び細部を、明確に解釈し、認識し、分類し、かつ特定するのには不十分であり、近いか意味的に類似する他の物を見つけることもできない。形状及びテクスチャの記述子は、複雑な計算プロセス、または事前のトレーニングを伴う特殊なモデルを必要とする。
要約すると、CBIRシステムのための記述子の選択と抽出で追求される目標に関して言えば、鍵となるジレンマが存在する。ロバスト性、不変性、フレキシビリティ、及びスケーラビリティが求められる場合には、精度が失われる。精度が達成された場合に失われるものは、他のタイプの画像、製品またはカテゴリに対するロバスト性、フレキシビリティ、拡張可能性である。
これらの特徴記述子に対する解決策、及びこれらの特徴記述子の進化として、いわゆる高レベル意味的記述子が生じる。この記述子は、我々人間の主観的な認知に最も近い方法で、精度、不変性、ロバスト性、フレキシビリティ、及びスケーラビリティに関して同時に最適である記述子を達成するために、我々の周囲の視覚世界を解釈するときに我々の脳が行うように、視覚情報を解釈しようと試みる。しかしながら、人知により近づくことを目指すこれらの記述子は、アルゴリズム、計算、及び記憶の複雑さのために障害に直面する。
<類似度解析>
検索された画像とデータベースとの間の類似度解析フェーズは、特にスケーラビリティ及び処理速度の点で、CBIRについての別の要点である。
この類似度解析は、解析中の記述子/ベクトルの種類に大きく依存する。主要かつ最も広く使用される技術は、クエリ画像と他のデータベース画像との距離の解析であり、それらの内のどれが同一または類似しており、どれがそうでないかを決定するために距離を測定する。
類似度解析は、二つの画像間のコンテンツ類似度を定量化する。特徴のタイプに応じて、類似度解析式及びその測定が著しく変化する。
類似度解析における距離ベースの類似度メトリックの使用に対する主な制約を、以下に示す。
・スケーラビリティ。記述子の数が多くなるほど、類似度メトリックシステムがより稼働しなければならないため、画像検索が多くなるほど、解析が遅くなる。
・意味的な相違。画像または目標オブジェクトの全体を適切に表していない低レベル特徴が使用される場合、類似度メトリックは、画像の真の意味をとらえ損なう可能性がある。
類似度メトリックの上記の制約を克服するために、類似度探索を改善し、かつスケーラブルなCBIRシステムを実現する目的で、類似度解析と組み合わされた学習方法に基づいた、代替的な学習方法が提案されている。非特許文献6で説明されているように、画像特徴と概念との間のリンクを確立するための三つの共通のフレームワーク、すなわち監視下での学習(教師あり学習)、非監視下での学習(教師なし学習)、及び対話型双方向モデルが存在する。これらの方法に関する問題は、監視下での方法と非監視下での方法の両方で同様に、それら方法がいくつかの種類の学習またはその他を必要とすることであり、これは、一定の変化及び成長で、無限かつリアルタイムで変化するデータベースにおいて生じ得る全ての可能性に対する正確な挙動を、確保できないことを意味している。
要約すると、この技術分野でなされた多くの進歩にもかかわらず、今日のCBIR技術の課題は依然として、我々の脳が行うように、単一の低レベルの形状、色、及びテクスチャだけではなく、多種多様な形状、幾何学的形状、多数の色及びテクスチャ、パターン、多数の領域、デザイン及び特定の細部について、画像における複雑な高レベルの視覚情報も区別しかつ測定する記述子に基づいて、同一または類似の画像/オブジェクトを正確に探索しかつ認識する能力である。更に、一般的、不変的かつロバストに解析される任意のカテゴリ、オブジェクトまたは画像性質に対してスケーラブルで、適用可能でかつ拡張可能であり、これにより、特定の予め定義されかつ制限されたデータベースセットに対するトレーニングを回避するCBIR技術が必要である。このように、方法は、任意のタイプの画像、オブジェクトまたはカタログに、またリアルタイムにデータベースで生じた変更に、拡張できかつスケーラブルであってもよく、これらはしばしば無限であるとともに、継続的に成長しかつ変化している。なおさらそうであるが、十分なオブジェクト情報の不足が常に要因であることを前提として、一般的に三次元ボリュームのフルデータは単一カメラで取り込まれるのではなく、むしろステレオカメラで取り込まれる。これにより、ノイズ及び他の変化と共に、不完全なまたは部分的なオブジェクト情報を有する二次元デジタル画像を生成し、更に、取り込まれた視点及び視野からの画像データのみを得る。最後に、現実のオブジェクトが一般に変化する傾向にあり、その一方で、新たなまたは異なるオブジェクトが、共通の既存のカテゴリ及び新たなクラスとモデルの両方で生じることに、更に留意すべきである。そのように、上記の方法は、使用される方法の継続的な再トレーニング、調整及び再調節を含まないように、フレキシブルで、かかる組み込み及び経時的進化が可能な状態であるべきである。
K. Grauman and B. Leibe Chapter 3 Local Features:Detection and Description.Visual Object Recognition.Synthesis Lectures on Artificial Intelligence and Machine Learning,Morgan & Claypool(2011) I. Guyon and A. Elisseff. An Introduction to Variable and Feature Selection. 2003) Journal of Machine Learning Research 3 (1157−1182) Lulu Fan、Zhonghu Yuan、Xiaowei Han、Wenwu Hua "Overview of Content−Based Image Feature Extraction Methods," International Conference on Computer, Networks and Communication Engineering (2013) (H.Stokman and T.Gevers"Selection and Fusion of Color Models for Image Feature Detection"IEEE transactions on pattern analysis and machine intelligence,vol.29,no.3,March 2007) Lulu Fan、Zhonghu Yuan、Xiaowei Han、Wenwu Hua "Overview of Content−Based Image Feature Extraction Methods,"International Conference on Computer,Networks and Communication Engineering(2013) G.Rafiee,S.S.Dlay,and W.L.Woo"A Review of Content−Based Image Retrieval"CSNDSP 2010 SIP 8(775−779)de
そこで、これまで使用されてきたトレーニング技術及び機械学習技術に対する代替方法を、見つけることが要請されている。その有効性が、既知で有界であり且つトレーニングされたデータベースに厳密に限定されている一方で、現在では、全てのタイプの画像またはオブジェクトの探索に関する問題を解決するために、スケーラビリティ及びロバスト性がますます必要とされているためである。要するに、全ての現在の探索可能性及び探索条件を含むだけでなく、将来的に現れるものにも対応できるように準備され、リアルタイムで100%スケーラブルなCBIR解決策を構築する方法が必要とされている。
本開示は、概ね、コンピュータビジョンシステムと統計的方法の組み合わせに基づく、新たなCBIR機構またはシステムに関する。実施形態は、従来技術で特定される制約の一部または全てに対処してもよく、かつ、改善された精度、スケーラビリティ、及び/または速度を提供するものとしてもよい。実施形態は、上述の従来技術の制約の何れかまたは全てに対処することは要請されない。
特に、実施形態によれば、同一及び類似の画像/オブジェクトを迅速かつ正確に見つけ探索し、並びに、任意の取込条件に対して一貫してかつ不変的に、異なる種類の画像またはオブジェクトの全てのカテゴリ及びタイプに適用可能なCBIRが提供される。そのように、実施形態は、継続的に成長しかつ変化する全てのタイプのカタログ、クラスまたはデータベースに拡張可能であり、かつ高度にスケーラブルであってもよい。つまり、100%にリアルタイムのスケーラビリティが提供されてもよく、照度、視点、及び他の取込条件に対してロバストに、全てのタイプの取込装置による使用及び用途を可能する。
この目的を達成するために、実施形態は以下を具備する第一の態様のコンテンツベースの画像検索方法を提供する。
・クエリ画像を選択することと
・選択されたクエリ画像を、任意の必要な事前の強調及び正規化画像フィルタリング技術を含み得るセグメント化技術を適用することにより、セグメント化することと
・セグメント化されたクエリ画像から、色特徴記述子とテクスチャ特徴記述子とを含む少なくとも二つの高レベル特徴記述子を決定することにより、特徴を抽出することと、及び
・セグメント化されたクエリ画像において決定された少なくとも二つの特徴記述子を使用して、データベース内に含まれる複数の画像であって、前記の少なくとも二つの特徴記述子により計算されて抽出された特徴をも含む複数の画像に対するクエリ画像の類似度を決定すること
一つの実施形態によれば、前記の計算された色特徴記述子及びテクスチャ特徴記述子(多色、多数のテクスチャ)は、異なる色空間の集合的かつ同時の組み合わせを含んでおり、これらの色空間それぞれの三つのチャンネルは同時に使用されると共に、それらの局所的及び全体的測定がなされる。これらの全ては、一次の統計的モーメント、平均、及び分散の少なくとも一つの一括計算を同時に含んでもよく、そのガウスモデル分布の+90%の代表的情報を測定し、これにより、単一の低レベル領域の単一の色特徴または単一のテクスチャ特徴における精度だけでなく、高レベル特徴も記述することを可能にする。一つの実施形態は、いくつかの色、テクスチャ、局所的分布、空間的局所性、織物、模様、パターン、写真、デザイン、及び/または幾何学的形状を有する異なる領域、並びに更に特定の複雑なオブジェクト及び正確な細部を含んでもよい。それゆえ、一つの実施形態は、低レベルの意味的記述子、すなわち単純な計算、小さなサイズ、低い実行複雑さ、フレキシビリティ、ロバスト性、2D回転の利点と共に、高レベルの意味的記述子を提供してもよく、大抵の場合では、好ましくはそれらを表す少なくとも36の数値を有するベクトルを使用して、3Dボリューム、奥行き回転、アフィン変換(視点、変形など)、遮蔽、反転、スケール、及び照度に対する不変性を維持する。
前記の色記述子及びテクスチャ記述子を、少なくとも形状/幾何学的形状記述子、及び向き記述子と組み合わせてもよい。これにより、2D回転、スケール、反転、転換、及び照度に対して不変でもある高度な形状/幾何学的形状記述子、及び向き記述子が提供される。
別の例示的な実施形態によれば、好ましくはユークリッド距離及び/またはマハラノビス距離の組み合わせと重み付けを使用して、客観的類似度関数解析をn次元メトリックにより実施することができる。
別の例示的な実施形態によれば、最適な特徴を選択し、冗長性を除去するために、種々の変換技術、及びフィルタリング方法を使用することができる。好ましくは、エントロピー統計解析は、任意の学習方法または調整されたラッパーの使用を回避するように使用される。
最後に、別の例示的な実施形態によれば、客観的空間メトリックと主観的重み付けとに基づいて、意味的類似度関数の解析及び定義を実行してもよい。解析下で、オブジェクト/画像の予め定義されたモデル(「クラスタ」)に基づく任意の学習、トレーニングまたは分類方法を必要とすることなく、視覚における類似度の人間の主観的認知により近づくためである。非限定的な例として、リアルタイムの超立方体をクエリ画像/オブジェクトの中心に位置させてもよく、それによってスケーラビリティと共に精度を維持することを可能にする。
別の態様によれば、一つの実施形態は、計算装置、デジタル信号プロセッサ、マイクロコントローラに集積された特定の回路、または任意の他のタイプのデータ処理システムで実行されたときにCBIRを実施するようになされたコードを有する、コンピュータプログラム製品を提供する。
以下の添付図面と共に以下の詳細な説明を参照することにより、前述の利点、特徴、及びその他をより良く理解することができる。
例示的な一実施形態により提案されたCBIRの方法を説明するフロー図である。 特徴記述子ベクトル、形状及び向きの可変密度関数から得られる例の図示である。 特徴記述子ベクトル、形状及び向きの可変密度関数から得られる例の図示である。 色及びテクスチャの特徴可変密度関数から得られる例の図示である。 色及びテクスチャの特徴可変密度関数から得られる例の図示である。 調整された超立方体クラスタの図示である。 例示的な一実施形態により定義される、0.1M、1M及び10Mのアイテムデータベースサイズでのクエリ探索の結果として得られる秒単位でのタイミングの例の図示である。 例示的な一実施形態により定義される、0.1M、1M及び10Mのアイテムデータベースサイズでのクエリ探索の結果として、探索された全てのクエリ画像の一番目の位置(Top1)、二十番目の位置(Top20)などに出現するパーセンテージとして得られる精度結果の例の図示である。 特徴記述子で使用された異なる色チャンネルにより、結果として提供される異なる色情報の例と、色及びテクスチャの特徴記述子ベクトルの局所的ROIの位置の図示である。 色、テクスチャ、形状及び幾何学的形状の特徴記述子を全て一緒に使用する種々の例示的な実施形態で得られる視覚的な例である。 色、テクスチャ、形状及び幾何学的形状の特徴記述子を全て一緒に使用する種々の例示的な実施形態で得られる視覚的な例である。 色及びテクスチャの特徴記述子のみ(つまり、形状及び幾何学的形状は測定されない)を使用する種々の例示的な実施形態で得られる、高レベルパターン及び模様類似度認識能力を示す視覚的な例である。 色及びテクスチャの特徴記述子のみ(つまり、形状及び幾何学的形状は測定されない)を使用する種々の例示的な実施形態で得られる、高レベルパターン及び模様類似度認識能力を示す視覚的な例である。 色及びテクスチャの特徴記述子のみ(つまり、形状及び幾何学的形状は測定されない)を使用する種々の例示的な実施形態で得られる、高レベルパターン及び模様類似度認識能力を示す視覚的な例である。 色、テクスチャ、形状及び幾何学形状の特徴記述子を全て一緒に使用する種々の例示的な実施形態で得られる、視点の3D回転に対するフレキシビリティと、照度変化に対するロバスト性と、紙、ガラスなどにおける図柄に関する異なる画像条件とを示す視覚的な例である。 色及びテクスチャの特徴記述子のみ(つまり、形状及び幾何学的形状は測定されない)を使用する種々の例示的な実施形態で得られる、異なる画像性質に対するフレキシビリティを示すと共に、高レベル複雑細部類似度認識能力に対するフレキシビリティを示し、異なるコンテキストにおいて動物の顔でさえ見つける視覚的な例である。 色及びテクスチャの特徴記述子のみ(つまり、形状及び幾何学的形状は測定されない)を使用する種々の例示的な実施形態で得られる、異なる画像性質に対するフレキシビリティを示すと共に、高レベル複雑細部類似度認識能力に対するフレキシビリティを示し、異なるコンテキストにおいて動物の顔でさえ見つける視覚的な例である。
図1には、一実施形態におけるCBIR機構のプロセス全体が示されており、解析、設計、及び実行を含む。この機構は、次の三つの主なステージに分割することができる。
第一ステージ:ラッパーまたは学習方法を使用することなく自己定義された特徴抽出をするための画像処理及びコンピュータビジョンアルゴリズム
第二ステージ:計画された意味的記述子を含むような特徴の最適化された評価、選択、抽出、及び圧縮のための高度な統計解析、定量的なエントロピー選択及びグループ化
第三ステージ:ユークリッド距離及び/またはマハラノビス距離に基づく客観的類似度関数の実行、オプションで人間の認知に対する主観的重み付け
<画像処理及びコンピュータビジョンアルゴリズム>
一般的かつスケーラブルな方法は、一実施形態によって提供され、全てのタイプの画像、オブジェクト、または関心領域(ROI)に対して、検出、セグメント化、及び認識を使用して、その方法を適用可能かつ拡張可能にし、それにより、システムのフレキシビリティ、相互運用性、スケーラビリティを常に維持する。
まず、図1を参照すると、ブロック100においてクエリ画像が入力される。次いで、ブロック105において、既知の現行技術を使用してセグメント化(好ましくは事前の強調及び正規化も)が行われる。次に、ブロック110での特徴抽出のために、初期の全体的/局所的特徴の記述子が計算され(好ましくは、形状、向き、色、及びテクスチャ)、その後、ブロック115においてクエリオブジェクト特徴として記憶される。記述子は、画像変換方法に基づいて、セグメント化されたクエリ画像においてほとんど不変でかつ無相関な変数を特定すると共に、視覚情報の目標とする特徴を最もよく表しかつ記述する。第一のアプローチは、スケール、照度、回転、転換、及び反転に対する不変性を最適化することである。第二のアプローチは、各記述子に対する最小のデータを使用して、最大の情報を提供することである。形状については、数学的幾何学変数が、局所的形状と全体的形状の両方を記述するために抽出され、不変統計的モーメント、偏心度、凸性、領域、境界、及びそれらの関係比などを含み、最大で合計約20〜30個の変数、及び測定値が初期に記述子に含まれる。向きについては、オブジェクトの外殻形状に基づく他の比率と共に、PCA計算が含まれる。色及びテクスチャについては、いくつかの統計的モーメントが同じく定義され、全体的測定値と局所的測定値の両方が、種々の照度の不変色空間に関する少なくとも平均及び分散(標準偏差)を含むが、これらの全てが同時に行われ、ここでもまた変数は最大で約20〜30個である。
形状特徴記述子の抽出は、低レベル記述と高レベル記述の両方の形状記述に効率的に寄与できる、全ての幾何学的不変変換特徴を測定することを含む。
図1を再び参照すると、ブロック120において提供されるデータベース内に含まれる複数の画像の各々について、画像はブロック125においてセグメント化される。これは、上記のブロック105におけるオブジェクトのセグメント化と同様である。
次に、ブロック130において特徴の抽出が行われ、その後、ブロック135において、記述子がデータベースアイテム特徴として記憶される。これは、ブロック110及び115に関して上述したものと同様である。
現実世界の最も重要でかつ可能な限り忠実な複製を測定するために、物理的/3Dオブジェクトが2Dデジタル画像表現に投影されることによって、オブジェクトに関するコア情報の大部分が失われることを留意して、3D回転と共に反転及び逆転に対する不変性を可能な限り維持する目的で、パラメータが求められる。従って、低レベルの不変Huモーメントは、オブジェクトに関する凸殻、偏心度、他の派生的に計算された形状、及びそれらの比率に基づいて、オブジェクトのボリュームに関連する他の線形及び無次元パラメータと共に、全体の最初に使用される。
内側輪郭及び他の高レベル特徴について、同等の境界に基づく比率及び詳細な局所的な内部形状と幾何学的測定値が使用される。内側及び外側の境界線について、凸性、偏心度など、凸欠陥領域、インバウンド領域、及び関連の線形比率が計算される。
向き記述子の抽出のために、本発明は、PCAの第一成分の角度値、及び/または他の関連の角度比の計算に依存する。例えば、他の幾何学的形状、角度、及び比率のうち、囲繞する矩形の長さ対高さの比などの長さである。
形状及び向きの初期の特徴抽出は、共に、合計35個の変数とすることが好ましい。
色及びテクスチャの特徴記述子を抽出するために、変換された特徴が計算され、これにより、オブジェクト内の多数の色、多数のテクスチャ、局所的及び全体的領域、高レベルパターン、及び模様特徴を効率的に記述でき、照度及び色変化に対する高いロバスト性及び不変性を維持する。照度及び色変化は、異なる画像取込条件によるだけでなく、陰影及び明るさの効果、ボリューム視野変化などを含む3D−2D投影により生じる。この実施形態は、いくつかの異なる色空間、すわなち、少なくともHSV、CieLAB及びCieXYZを使用する。なぜなら、色及び照度の不変性に基づく、知覚のための属性として適切であり、単一の色空間を使用する場合の色特徴の制限(例えば、HSVは、白色及び黒色値を測定するのに良好ではない)を補うからである。
更に、全体的な色及びテクスチャの特徴だけでなく、高レベルで局所的な色及びテクスチャの特徴を測定し、それゆえ、同じ記述子での空間的−局所的な測定値を含める目的で、主要な統計的モーメントを、オブジェクト領域の全体について測定すると共に、より小さな局所的ROIについても測定することができる。このように、色及びテクスチャの表現を測定するために、全体的な統計的モーメントが、三つの不変の色空間について少なくとも平均と分散を含むように計算される。ここでは、主要な色/パターンを(平均で)測定し、かつ主要なテクスチャ/模様を(分散で)測定することがより容易である。同様に単一のオブジェクトにおける異なる色/テクスチャの領域を区別できるという目的で、小さな局所的な特定のROIを、少なくとも平均値及び分散値が、ユークリッド距離によって測定される全体的な値に対して近い及び/または遠い状態で、オブジェクト画像の全体に含めることができる。
この例示的な実施形態において選択されたROIは、全オブジェクト領域の1%を構成し、オブジェクト/画像の全体から選択されるものであり、その局所的統計値から全体的統計値までの最も近い距離を満たすものである。つまり、距離(ROIとオブジェクト)は、次の数式1で表される。
Figure 2016530641
色及びテクスチャの初期の特徴抽出は、共に、少なくとも合計18個の変数とする。
<最適化された特徴の圧縮及び選択のための統計的多変量解析及び方法>
ベクトル記述子に含めるべき抽出された変数の初期の特徴が得られると、それらの特徴は、最も無関係で有用であり、かつ選択されるべき理論的データが最適化されたデータを得るために、統計的及びエントロピー的な点で十分に解析される。これは、どの変数が適切な特徴の記述を構成するかを決定して、視覚情報を提供せず、むしろノイズまたは冗長データを提供するものを排除する目的でなされる。更に、その目的は、定義されたクラスタまたはモデルのための特定のセットの画像またはアイテムを、トレーニングすることを回避することである。これらの一般的な記述子の基本的前提は、常に、任意のタイプのカテゴリ及び性質の中から、任意のタイプのオブジェクトを記述しなければならないことであるからである。
第一の特徴記述子の統計的高度多変量解析及び結果から、以下の結論が得られた。
・向き及び形状の特徴記述子について、エントロピー無相関視覚情報データの99.61%は、定義された変数を使用して達成される。このことは、このように定義されたこの記述子に基づいて、オブジェクトの外形及び向きの特徴に関して、オブジェクトを十分に測定しかつ記述することが可能であることを意味している。
・色及びテクスチャの特徴について、98.92%のエントロピー率が達成された。これにより、記述される全てのタイプのオブジェクトまたは関心領域について、現存する二つの領域の少なくともパターン/色、及び模様/テクスチャの十分な記述を提供すると考えられる。
上記のベクトルがエントロピー的及び確率的に解析されると、更なる圧縮及び特徴の意味的記述のために、定量解析が実施される。
形状及び向きの記述子について、結果として得られる統計的独立因子及びそれらの定量的解釈に基づく独立した定量的特徴は、ボリューム、向き、インバウンド、及び凸性であった。ボリューム及び向きが全体的特徴であるのに対して、インバウンド及び凸性は局所的特徴であり、同じ記述子ベクトル内で全体的記述と局所的記述の両方を組み合わせることにより、精度とフレキシビリティの双方に関して記述子全体が改善される。したがって、人間の認知及び統計的視覚情報に関して、オリジナルの記述子は、二つの独立した記述子、すなわち向き及び幾何学的形状全体(全体的及び局所的)の記述子と考えることができる。
色及びテクスチャの記述子について、独立した定量的な抽出された特徴は、色、テクスチャ、パターン、及び模様/細部であった。この場合、色及びテクスチャは全体的特徴であるのに対して、パターン、模様、幾何学的デザイン、及び特定の細部は局所的特徴であることに留意するべきである。更に、その全体的/局所的バランス、及び多数の色空間が同時に存在することを前提として、同じ画像またはオブジェクトにおいて、多数の領域、すなわち、二つ以上の色、テクスチャ、またはパターンを認識することが可能である。人間の意味的認知について、オリジナルの記述子をいくつか、すなわち、色/パターン、及び模様/細部(テクスチャ及び複雑な視覚情報を含む)に分割してもよい。
この理由により、この段階から、オリジナルの記述子が、他の独立した特徴記述子に分解されてもよいこと、また、そのように、主観的な人間の認知及び記述に基づいて、視覚の意味的精度を向上させるために別々に処理されるか、または他のユーザの目的及び用途の独立した選択のために使用されてもよいこと、を推測することができる。更に、達成される他の統計解析に基づいて、かついくつかの方法を使用する冗長な情報の低減に基づいて、以下の結果が得られる。
・形状、幾何学的形状及び向きを記述するための進歩した高レベルな意味的記述子は、好ましくは22個の変数から構成される(進歩した高レベルな意味的記述子を記述するための値がこの変数の正確な数にあるのではなく、概念上は、これらの数の変数が全体で測定するものにあるため、限定的なものではない)。これは、ロバストで、不変でかつ正確であり、これにより、元の35個の特徴から得られた解釈及び初期の記述を改善する。
・色、テクスチャ、パターン、模様、幾何学的設計、及び細部を記述するための進歩した高レベルな意味的記述子は、好ましくは36個の変数から構成される(ここでもまた限定的なものではない)。これは、ロバストで、不変でかつ正確であり、これにより、予想される解釈及び初期の記述を改善し、かつ任意の特定の主観的で意味的なクラスタリングを必要としない。
これらの高レベルな記述子のこの圧縮及び精度の記述が改善されてもよく、その結果、好ましい22個及び36個の変数値は、より圧縮される場合には低減されてもよく、かつ更なる情報を提供するために新たな変数が含まれる場合には増加してもよい。
図2を参照すると、例が示されている。図2a,2bは、特徴記述子ベクトル、形状及び向きの可変密度関数から得られる例を図示しており、図2c,2dは、色及びテクスチャの特徴可変密度関数から得られる例を図示している。
<スケーラブルな類似度関数を定義すること>
上述したように、精度は、従来技術の類似度誘発性の意味的CBIRシステムに影響を与える主な問題の一つである。これは、人間の脳により認知される高レベルの概念と、従来のシステムで頻繁に使用される低レベルな記述子との違いによるものである。更に、クエリ画像に最も類似する結果をソートする目的で、空間メトリック及び距離を使用することと、n次元の情報空間を、可変でありかつ一次元(距離)である空間へ数学的に低次元化することにより、意味的な点で部分的にまたは全体的に類似していない多くの結果が、客観的かつ数学的な距離的観点から最も類似する結果の妨げとなり、最も人間が認知する類似の結果の間に「ノイズ」を生成することが、頻繁に起こる。これは、低レベル数学的計算の点で、それらが全て、客観的に、高レベルの人間の主観的認知から、互いに最も接近しているが、それらが最も類似するものと認知されないためである。
加えて、クエリ画像とデータベースの画像のセットにおける各画像との間の1:1の距離を計算する場合に、スケーラビリティはコンスタントには成長せず、むしろ、処理される1:1の組み合わせの増加により線形に成長する。その結果、大きなデータベースから画像を検索することが、速度の制限及び計算処理の点で問題になる。この問題は通常、機械学習トレーニングラッパー方法によって解決される。これは、予め定義されたクラスタに分類し、モデル化し、かつ各クラスまたはクラスタそれぞれの重心に関して、クエリ画像において1:1の距離計算のみを行うものである。しかしながら、クラスタへの分類が、一定の調整された方式で前記特定のセットを定義し得て、トレーニングラッパー方法を使用して最適化されるような場合では、ここでもまた、その分類が、特定の既知のデータベースまたは制限されたセットにのみ有効であってもよい。更に、このような場合では、精度が悪影響を受ける。なぜなら、事例の全領域をクラスタにグループ化しなければならないため、分類誤差が生じやすいためである。このことは、n次元領域の広くかつ一般に別個の種々の事例及びポイントを表すために、中央モデルのみが使用され、それらの一部がしばしば最も代表的なクラスタに正確に分類されないことを意味している。このため、リアルタイムの無限で連続的に成長するデータベースセットに対して、これらの分類方法は有効でない場合がある。というのも、期待される精度レベルを維持するためには、分類方法は継続的に更新され再トレーニングされなければならないが、これも同様に減少し、それゆえ追加のコスト及びタスクを生成し、かつ全体的に一定の速度であることや、精度及びスケーラビリティを妨げるからである。
前述の制約の一部または全てに対処するために、新たな類似度関数が一実施形態によって提供される。これは、予め定義された分類方法にも、機械学習により最適化される空間メトリックシステムにも基づいておらず、むしろ4つの主要な柱に基づいている。
・全体的特徴と局所的な特徴とが組み合わされた少なくとも4つの高レベルな意味的記述子に基づく類似度解析
・調整された超立方体計算及び超平面階層的空間セグメント化に基づく「個別のサブセットクラスタ」のリアルタイム作成。
・クエリ画像の位置をn次元空間の中心に位置させること。
・サーチ速度を増大させ(前記空間内にのみ適用される)、かつ大規模で、及び/またはリアルタイムで連続的に変化しかつ成長するデータベースに対するスケーラビリティを可能にするために、このセット内のアイテムについて1:1の距離のみを計算すること。
再び図1を参照すると、クエリオブジェクトの特徴をブロック115において記憶し、かつデータベースアイテムの特徴をブロック135において記憶した後に、n次元空間内のクエリベクトルの中心に位置する超立方体クラスタがブロック140において決定され、その後、ブロック145においてクラスタ内の類似度計算が行われる。
図3aは、調整された超立方体クラスタ300を図示している。この場合、超立方体クラスタ300は、m次元半径を有するベクトルにより定義される。ここでは、mは、全ての記述子の変数/次元の合計n次元のサブセットであると共に、超平面で計算された次元毎に独立しかつ異なる半径値であり、かつ、クエリ画像位置の値の受け付けられた距離パーセンテージに基づき、n次元空間内の局所的クエリ位置に関して、サンプルの超立方体クラスタ及び空間密度内の線形の必要な1:1の距離を計算するために許容される最大速度の計算によっても制限される。
・組み合わされたマハラノビス距離及び/またはユークリッド距離に基づく、調整された超立方体サブセット内の類似度の分類は、各意味特徴記述子に別個に独立して適用され、その後、少なくとも2次関数で非線形である主観的視覚類似度に関して、次のように重み付けられる。
Figure 2016530641
これらのマトリクスは、各記述子内の変数間の相関関係を表すので、任意のオブジェクト及びカテゴリの記述に対する基準であり、それらが記述するオブジェクトやカテゴリのタイプから独立している。これにより、アルゴリズムに関する限りでは、スケーラビリティが可能である。
αを計算するために、初期の監視下の学習方法が適用される(学習方法のみが、主観的な人間の認知の重み付けの調整だけをするこの時点で適用され、客観的で一般的かつトレーニングされていない特徴記述子を定義する前に適用されるのではないことに留意されたい)。この学習方法は、人間の視覚認知に適するように、次の二つの基準に基づいて、多変量ロジスティック回帰によってサポートされる。
・α|クエリ画像と同一であるとの結果に至るための類似度関数のソート位置を最大化する。
・α|結果として得られる主観的な意味的類似度関数ソートにおいて認知される不変性を最小限に抑える。
現在の色及びテクスチャの記述子を改善するために、一実施形態では、新たな追加の色空間(例えば、RGB、CMYK、他のCIEなど)を含めること、付加的なより高次の統計的モーメント(例えば、共分散、相関関係、歪度、尖度など)を計算すること、空間的に同時に存在する多数サイズのROI(例えば、ROI 50%、ROI 25%、10%)、多形状のROI(例えば、三角形、六角形など)、及び他の関連性及び類似依存関係(例えば、全体的値に対して最も近い、最も遠い、中間)を追加で計算することを許容する。
更に、一実施形態の利点を、見積もられるスケーラビリティ要件の点から示す目的で、要請される不変性、速度、ロバスト性、及び精度特性を立証するために、詳細な統計的試験を実施した。
<実施された試験及び例>
1000万枚の画像を有する試験された最大のデータベースでの速度及びタイミングに関して、クエリ当たり平均3.25秒の時間が達成された。100万枚の画像に関しては、クエリ当たり平均約2.11秒の時間が達成され、100,000枚の画像のみに関しては、クエリ当たり平均1.37秒の時間が達成された。図3bに示すように、三つのみのサンプル点と、推定される初期外挿により、スケーリングは、線310で図示するように、非常に良好で、かつ対数増加の理論的限界、N個の製品に最適にインデックス付けされたサーチのための(logN)付近であり、これにより、データベースサイズの対数では線形に見える。(図3cにおけるx軸線がデータベース内の画像数を示し、かつy軸線がクエリ当たりの秒数を示すことに留意されたい。)
結果の完全な1:NのソートがNlogNとして増加することが予想できる一方で、それは、機械の数における対応する増加で補うことができることと、更に、最大で50,000枚もの画像を含み、かつサーチ毎に0.5秒未満を必要とするクエリ探索を行うことができるデータベース全体のリアルタイム超立方体クラスタサブセットに対するサーチを含む場合に最適化できること、が観察される。
精度に関して、各記述子により達成された最大のエントロピーデータが測定された。
向き及び形状の特徴ベクトル(選択された15個の変数)
===概要===
正確に分類された例 99.6129%
不正確に分類された例 0.3871%
カッパ統計量 0.9956
平均絶対誤差 0.0012
二乗平均平方根誤差 0.0241
相対絶対誤差 0.6564%
二乗相対平方根誤差 8.1031%
事例の範囲(0.95レベル) 100%
平均相対領域サイズ(0.95レベル)10.2194%
色、テクスチャ、色及びテクスチャの特徴ベクトル(選択された36個の変数)
===概要===
正確に分類された例 98.9204%
不正確に分類された例 1.0796%
カッパ統計量 0.974
平均絶対誤差 0.0053
二乗平均平方根誤差 0.0516
相対絶対誤差 3.5393%
二乗相対平方根誤差 18.8267%
事例の範囲(0.95レベル) 100%
平均相対領域サイズ(0.95レベル)9.1797%
以下を最適化するために、類似度関数のために最適なαが計算された。
・最初の結果においてクエリオブジェクトの出現のより高いパーセント
・クエリオブジェクトの結果に対する人間の主観的認知の類似度における最大の均一性
ヒット率%に関して、スケール、回転、反転、スケーラビリティ、変形、遮蔽、及び照度効果に対するロバスト性を測定するために、異なる試験が行われる。
低減されたスケール(オリジナル画像の50%)における112個よりも多いサンプルのサブセットで試験された、類似度関数(全ての記述子、すなわち、パターン、模様、形状、及び向きの記述子が含まれている)を伴う、1033個の要素のランダムなサブセットについて、
上位1:94.64%
上位2:97.32%
上位3:97.32%
上位4:97.32%
上位5:97.32%
上位6:97.32%
上位7:97.32%
上位8:97.32%
上位9:97.32%
上位10:97.32%
低減されたスケール(オリジナル画像の25%)における112個よりも多いサンプルのサブセットで試験された、類似度関数(全ての記述子、すなわち、パターン、模様、形状、及び向きの記述子が含まれている)を伴う、1033個の要素のランダムなサブセットについて、
上位1:93.75%
上位2:94.64%
上位3:94.64%
上位4:95.54%
上位5:95.54%
上位6:95.54%
上位7:95.54%
上位8:96.43%
上位9:96.43%
上位10:96.43%
一実施形態によるCBIRは、デジタルダウンサンプリング損失効果にもかかわらず、スケール低減分散に対してロバストである。その上、同じ試験(25%のスケールのダウンサンプリング)をより大きなデータベースに適用すると、以下のようである。
Figure 2016530641
ノイズ及び誤検出が増加しないことが観察される。つまり、正しい画像が上位20及び上位100に入るパーセンテージが、データベースのボリューム増加のスケーラビリティとは全く無関係であり、上位の結果についてごく一部に競争が観察される。
異なるビュー(画像反転及び2D回転など)における112個よりも多いサンプルのサブセットで試験された類似度関数(全ての記述子、すなわち、パターン、模様、形状、及び向きの記述子が含まれている)を伴う、1033個の要素のランダムなサブセットについて、
上位1:90.18%
上位2:91.07%
上位3:92.86%
上位4:94.64%
上位5:94.64%
上位6:95.54%
上位7:95.54%
上位8:95.54%
上位9:95.54%
上位10:95.54%
異なるビュー(画像反転/逆転及び2D回転など)における112個よりも多いサンプルのサブセットで試験された、色及びテクスチャの記述子のみを伴う、1033個の要素のランダムなサブセットについて、
上位1:76.22%
上位2:81.10%
上位3:82.93%
上位4:85.98%
上位5:86.59%
上位6:89.63%
上位7:92.07%
上位8:92.68%
上位9:93.29%
上位10:93.29%
異なる向きの角度(画像反転/逆転及び2D回転)における112個よりも多いサンプルのサブセットで試験された、形状及び向きの記述子のみを伴う、1033個の要素のランダムなサブセットについて、
上位1:75.89%
上位2:82.14%
上位3:83.93%
上位4:85.71%
上位5:86.61%
上位6:87.50%
上位7:88.39%
上位8:88.39%
上位9:88.39%
上位10:88.39%
ヒット率パーセンテージが上位1から上位10までで22%増加するのに対して、形状及び向きについては増加が16%であるため、全ての特徴が全体的な類似精度に寄与していること、及び、色及びテクスチャの特徴が明らかにより強いが、最初の結果で同一のオブジェクトを見つけるための類似初期精度を有していると、判断することができる。
また、スケール3D奥行き回転に対する正確なロバスト性及びフレキシビリティを確認する目的で、他のクエリ画像条件のために、ヒット率パーセンテージも計算され、かつ、記述子を考慮に入れることが、異なる視点を有しそれ故に異なる視覚情報を有する単一の2D画像に対して計算されている。
3D奥行き回転ビューでの112個よりも多いサンプルのサブセットで試験された、類似度関数(全ての記述子、すなわち、パターン、模様、形状、及び向きの記述子が含まれている)を伴う、1033個の要素のランダムなサブセットについて、
上位1:25.00%
上位2:33.93%
上位3:39.29%
上位4:44.64%
上位5:46.43%
上位6:48.21%
上位7:49.11%
上位8:51.79%
上位9:54.46%
上位10:54.46%
予想された唯一の計算2D記述子として、一実施形態によるCBIRは、アフィン歪みにより、3D奥行き回転分散に対して、初期には望まれているほどは強力ではなくてもよい。しかしながら、最初の10個の結果において、それらの事例の約半分がこのビューから適切に特定される場合に、それは良好な第一のステップである。3D奥行きにおけるこの分散を改善するために、別の実施形態によれば、完全な3Dオブジェクトから追加の2Dビューに、記述子及びその進化を組み込むことを含む新たなアクションが実施される。
要約すると、一実施形態によれば、以下の理由により、より高速で、より正確で、かつよりスケーラブルな、新たなCBIR方法が提供される。
計算の単純さ及び小さなベクトルの次元サイズの点で、最初は低レベル記述子であるように見えるが、変換方法による実行により、不変で、ロバストで、フレキシビリティがあり、かつスケーラブルであり、誘発トレーニング方法または強制トレーニング方法を適用することなく、元の本質的効果を維持し、これにより、拡張可能性及びスケーラビリティ、並びに任意のタイプの検索されたオブジェクト、カテゴリまたは画像での高いパフォーマンスを維持するものの自己選択。
エントロピー統計解析により、最適な特徴を選択しかつ冗長性を排除するための変換技術及びフィルタリング方法を適用し、これにより、学習方法またはラッパー方法の使用を回避すること。
初期に記述するように見えるものよりも更に複雑でかつ詳細なものを正確かつ効率的に認識し、ほぼ人間のような意味的概念を直接かつ簡単に解釈することを可能にする高いヒット率を達成することが可能な、詳細な視覚情報に対する精度、全体的及び局所的な特徴の同時の組み合わせと記述に対する複雑さに関して得られる高レベルな特徴記述子。
ユークリッド距離及び/またはマハラノビス距離を組み合わせて使用すると共に、任意選択的に後になされる人間の認知の調整のための主観的な重み付けをする、n次元メトリックによる解析及び類似度関数。クエリ画像の中心に位置させたリアルタイム超立方体の最適化された実行によりもたらされる改善による、効率及び速度の増加。
図4、図5、図6、図7a、図7b、図7c、図7d、図8a、及び図8bは、異なるタイプの選択画像に対して種々の実施形態により得られた種々の視覚的な例を示している。これらの例の元の色はカラーであるが、本出願における例はグレースケールで図示されており、異なる結果及びそれらの精度を解釈し観察することが、より容易であることに留意されたい。
図4は、複数の色空間の同時に使用し、全体的及び局所的な測定の存在下で(局所的測定は正方形のROIに適用された)、特徴記述子により測定された情報の例410、420、430、440、450、460、470及び480を図示している。
図5及び図6は、完全なCBIRソリューション、及び異なるクエリ画像条件(カタログ画像、実際のスナップショット、及び手書き図)により得られる結果の例500、505、510、515、520、525、530、535、540、545、550、555、600、605、610、615、620、625、630、635、640及び645を図示している。これらは、精度、スケーラビリティ及びフレキシビリティを実証すると共に、ノイズや照度変化に対するロバスト性と、回転、反転、転換、遮蔽、及びスケールに対する不変性を実証するものである。
図7a、図7b、図7cは、色及びテクスチャの特徴記述子のみを使用して得られる例700、705、710、715、720、725、730、732、734、736、738、740、742、744、750、755、760、765、770及び775を図示している。これらは、高レベルのパターン及び模様の類似度の認識能力、すなわち、比率(プロポーション)、ストライプ、チェック、星模様を維持している一方で、異なる色及びテクスチャを有するパターン、花・スタッド・ドット・バックルなど特定の細部、幾何学的デザイン、多数の領域を解析する能力を示すものである。
図7dは、色、テクスチャ、形状、及び幾何学形状の特徴記述子を、全て一緒に使用して得られる例780、782、784、786、788、及び790を図示している。これらは、視点3D回転に対するフレキシビリティと、照度変化や紙・ガラスなどの図柄における異なる画像条件に対するロバスト性とを示すものである。
最後に、図8a及び図8bは、色及びテクスチャの特徴記述子のみを使用する一実施形態によるシステムのスケーラビリティの例800、810、820、830、840、850、及び860を図示している。ここでは、同じカテゴリからのオブジェクトを解釈するためだけに同じ特徴記述子が使用されるのではなく、他のカテゴリからのオブジェクトも解釈するために同じ特徴記述子が使用される。サーチにおいて詳細かつ意味的に視覚情報を認識しかつ記述し、動物の顔の認識さえする。
前述の詳細な説明では、ブロック図、概略図、及び例を用いて、種々の実施形態を説明してきた。そのようなブロック図、概略図、及び例が一つまたは複数の機能、及び/または動作を含む限りにおいて、汎用コンピュータ上、または専用ハードウェアの形態で稼働するソフトウェアを含む、広範なハードウェア、ソフトウェア、またはこれらの実質的に任意の組み合わせによって、そのようなブロック図、フロー図、または例における各機能、及び/または各動作を、個別に及び/または集合的に、実行することができる。
本明細書で使用される「コンピュータ可読記録媒体」という語は、プロセッサに対する実行命令の提供に関与するディスクまたは半導体メモリなど、任意の有形媒体を指している。汎用コンピュータは、汎用コンピュータがそこから実行可能なコードを読み取ることができるハードドライブ、光学媒体(CDまたはDVD)、ディスク媒体、または任意の他の有形媒体などの記憶装置に接続されていてもよい。
ある特定の実施形態を説明してきたが、これらの実施形態は、例として提示されており、保護の範囲を限定することを意図するものではない。実際に、本明細書で説明した新たな方法及び装置を様々な他の形態で具体化してもよい。更に、保護の範囲を逸脱することなく、本明細書で説明した方法及びシステムの形態における種々の省略、置換及び変更を行ってもよい。添付の特許請求の範囲及びそれらの均等物は、保護の範囲及び概念に含まれるような形態または変形をカバーすることを意図したものである。

Claims (22)

  1. コンテンツベースの画像検索のための方法であって、
    クエリ画像を選択することと、
    選択された前記クエリ画像を、セグメント化技術を適用することによりセグメント化することと、
    色特徴記述子及びテクスチャ特徴記述子を含む少なくとも二つの特徴記述子を決定することにより、セグメント化された前記クエリ画像から特徴を抽出することと、
    前記セグメント化された前記クエリ画像で決定された前記少なくとも二つの特徴記述子を使用して、データベース内に含まれており、前記少なくとも二つの特徴記述子によって抽出され計算された特徴を含んでいる複数の画像に対する前記クエリ画像の類似度を決定することと、を具備し、
    前記決定された前記色特徴記述子及び前記テクスチャ特徴記述子が、それぞれ三つのチャンネルを有する異なる色空間の同時の組み合わせを含み、前記チャンネルが全て一緒に同時に使用され、局所的及び全体的な統計的測定が、前記異なる色空間の同時の組み合わせに対して実施され、前記統計的測定は前記異なる色空間内の平均及び分散の少なくとも一つの一括計算を含む
    ことを特徴とする方法。
  2. 前記色特徴記述子及び前記テクスチャ特徴記述子は、少なくとも形状特徴記述子及び向き特徴記述子と更に組み合わされる、
    請求項1に記載の方法。
  3. 前記クエリ画像内の異なる色領域及び/またはテクスチャ領域を区別するために、前記クエリ画像内のある画素サイズの関心領域ROIを計算することを更に具備し、
    前記関心領域ROIは平均及び分散を測定することにより計算され、
    前記関心領域ROIは前記全体的な統計的測定の値に最も近い、及び/または、最も遠い距離を満たす、
    請求項1に記載の方法。
  4. 前記画素サイズは、前記クエリ画像の全領域の少なくとも1%である、
    請求項3に記載の方法。
  5. 前記異なる色空間は、同時に組み合わされたHSV、CieLAB及びCieXYZを少なくとも含む、
    請求項1に記載の方法。
  6. 前記形状特徴記述子は、あるオブジェクトに関連する凸殻、偏心度、他の派生的に計算された形状、及び/または、比率を含む領域に基づいて、低レベル不変Huモーメントと、前記オブジェクトのボリュームに関連する他の非線形で無次元のパラメータとを使用することを含む、
    請求項2に記載の方法。
  7. 内側輪郭についての周長に基づく等価の比率と詳細な局所的形状、及び他の高レベル変数、及び/または、
    内側及び外側の境界線についての凸欠陥領域と関連する直線比、凸性、及び/または偏心度
    を計算することを更に具備する、
    請求項6に記載の方法。
  8. 前記向き特徴記述子は、主成分分析PCAの第一成分の少なくとも一つの角度値を使用して決定される、
    請求項2に記載の方法。
  9. 前記データベースに含まれる前記複数の画像に対する前記クエリ画像の類似度は、リアルタイムで調整される超立方体クラスタ内に適用される空間メトリックを使用して決定され、
    前記超立方体クラスタは、
    次元毎に独立しかつ異なる半径値を有する、少なくとも二つの特徴記述子の合計n次元のサブセットmの、m次元半径を有するベクトルにより定義され、
    クエリ画像位置の値について受け付けられた距離パーセンテージに基づくものであり、かつ
    前記クエリ画像の空間位置の中心に位置する前記超立方体クラスタ内で、全ての必要な1:1の距離を計算するために許容される最大速度の計算により制限される、
    請求項1に記載の方法。
  10. 前記m次元半径のベクトルは、多次元空間から一次元空間に数学的かつ幾何学的に変化する前記クエリ画像位置を少なくとも使用して、次元毎に計算される、
    請求項9に記載の方法。
  11. 前記少なくとも二つの特徴記述子は、多変量ロジスティック回帰分析に適用される統計的分類方法に基づく変換技術及びフィルタリング方法を適用することにより最適化される、
    請求項1に記載の方法。
  12. コンテンツベースの画像検索のための方法をコンピュータに実行させるプログラムを記憶している非一時的コンピュータ可読媒体であって、
    前記方法は、
    クエリ画像を選択することと、
    前記選択されたクエリ画像を、セグメント化技術を適用することによりセグメント化することと、
    色特徴記述子及びテクスチャ特徴記述子を含む少なくとも二つの特徴記述子を決定することにより、セグメント化された前記クエリ画像から特徴を抽出することと、
    セグメント化された前記クエリ画像で決定された前記少なくとも二つの特徴記述子を使用して、データベース内に含まれており、前記少なくとも二つの特徴記述子によって抽出され計算された特徴を含んでいる複数の画像に対する前記クエリ画像の類似度を決定することと、具備し、
    決定された前記色特徴記述子及び前記テクスチャ特徴記述子が、それぞれ三つのチャンネルを有する異なる色空間の同時の組み合わせを含み、前記チャンネルが全て一緒に同時に使用され、局所的及び全体的な統計的測定が、前記異なる色空間の同時の組み合わせに対して実施され、前記測定は前記異なる色空間内の平均及び分散の少なくとも一つの一括計算を含む
    ことを特徴とする非一時的コンピュータ可読媒体。
  13. 前記色特徴記述子及び前記テクスチャ特徴記述子は、少なくとも形状特徴記述子及び向き特徴記述子と更に組み合わされる、
    請求項12に記載の非一時的コンピュータ可読媒体。
  14. 前記クエリ画像内の異なる色領域及び/またはテクスチャ領域を区別するために、前記クエリ画像内のある画素サイズの関心領域ROIを計算することを更に具備し、
    前記関心領域ROIは平均及び分散を測定することにより計算され、
    前記関心領域ROIは前記全体的な統計的測定の値に最も近い、及び/または、最も遠い距離を満たす、
    請求項12に記載の非一時的コンピュータ可読媒体。
  15. 前記画素サイズは、前記クエリ画像の全領域の少なくとも1%である、
    請求項14に記載の非一時的コンピュータ可読媒体。
  16. 前記異なる色空間は、同時に組み合わされたHSV、CieLAB及びCieXYZを少なくとも含む、
    請求項12に記載の非一時的コンピュータ可読媒体。
  17. 前記形状特徴記述子は、あるオブジェクトに関連する凸殻、偏心度、他の派生的に計算された形状、及び/または、比率を含む領域に基づいて、低レベル不変Huモーメントと、前記オブジェクトのボリュームに関連する他の非線形で無次元のパラメータとを使用することを含む、
    請求項13に記載の非一時的コンピュータ可読媒体。
  18. 内側輪郭についての周長に基づく等価の比率と詳細な局所的形状、及び他の高レベル変数、及び/または、
    内側及び外側の境界線についての凸欠陥領域と関連する直線比、凸性、及び/または偏心度
    を計算することを更に具備する、
    請求項17に記載の非一時的コンピュータ可読媒体。
  19. 前記向き特徴記述子は、主成分分析PCAの第一成分の少なくとも一つの角度値を使用して決定される、
    請求項13に記載の非一時的コンピュータ可読媒体。
  20. 前記データベースに含まれる前記複数の画像に対する前記クエリ画像の類似度は、リアルタイムで調整される超立方体クラスタ内に適用される空間メトリックを使用して決定され、
    前記超立方体クラスタは、
    次元毎に独立しかつ異なる半径値を有する、少なくとも二つの特徴記述子の合計n次元のサブセットmの、m次元半径を有するベクトルにより定義され、
    クエリ画像位置の値について受け付けられた距離パーセンテージに基づくものであり、かつ
    前記クエリ画像の空間位置の中心に位置する前記超立方体クラスタ内で、全ての必要な1:1の距離を計算するために許容される最大速度の計算により制限される、
    請求項12に記載の非一時的コンピュータ可読媒体。
  21. 前記m次元半径のベクトルは、多次元空間から一次元空間に数学的かつ幾何学的に変化する前記クエリ画像位置を少なくとも使用して、次元毎に計算される、
    請求項20に記載の非一時的コンピュータ可読媒体。
  22. 前記少なくとも二つの特徴記述子は、多変量ロジスティック回帰分析に適用される統計的分類方法に基づく変換技術及びフィルタリング方法を適用することにより最適化される、
    請求項12に記載の非一時的コンピュータ可読媒体。
JP2016539453A 2013-09-04 2014-08-08 コンテンツベースの画像検索 Active JP6188954B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
ES201300816A ES2530687B1 (es) 2013-09-04 2013-09-04 Método implementado por ordenador para recuperación de imágenes por contenido y programa de ordenador del mismo
ESP201300816 2013-09-04
PCT/EP2014/067056 WO2015032585A1 (en) 2013-09-04 2014-08-08 Content based image retrieval

Publications (2)

Publication Number Publication Date
JP2016530641A true JP2016530641A (ja) 2016-09-29
JP6188954B2 JP6188954B2 (ja) 2017-08-30

Family

ID=51398601

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016539453A Active JP6188954B2 (ja) 2013-09-04 2014-08-08 コンテンツベースの画像検索

Country Status (11)

Country Link
US (1) US10353948B2 (ja)
EP (1) EP2948877B1 (ja)
JP (1) JP6188954B2 (ja)
CN (1) CN105518668B (ja)
AU (1) AU2014317351A1 (ja)
CA (1) CA2921127A1 (ja)
ES (1) ES2530687B1 (ja)
IL (1) IL244381B (ja)
MX (1) MX362373B (ja)
RU (1) RU2016112126A (ja)
WO (1) WO2015032585A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6829412B1 (ja) * 2019-11-11 2021-02-10 三菱電機株式会社 画像処理装置、画像処理システム、画像処理方法、及び画像処理プログラム

Families Citing this family (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201719572A (zh) * 2015-11-19 2017-06-01 國立交通大學 三維模型分析及搜尋方法
KR20180111979A (ko) 2016-02-11 2018-10-11 이베이 인크. 의미론적 카테고리 분류법
WO2017180072A1 (en) * 2016-04-14 2017-10-19 Ader Bilgisayar Hizmetleri Ve Ticaret A.S. Content based search and retrieval of trademark images
US10140315B1 (en) * 2016-06-20 2018-11-27 Shutterstock, Inc. Identifying visual portions of visual media files responsive to visual portions of media files submitted as search queries
US10977481B2 (en) * 2016-06-24 2021-04-13 Skusub LLC System and method for object matching using 3D imaging
CN107704864B (zh) * 2016-07-11 2020-10-27 大连海事大学 基于图像对象性语义检测的显著目标检测方法
US12020174B2 (en) 2016-08-16 2024-06-25 Ebay Inc. Selecting next user prompt types in an intelligent online personal assistant multi-turn dialog
CN106469299B (zh) * 2016-08-31 2019-07-19 北京邮电大学 一种车辆搜索方法及装置
AU2017204494B2 (en) * 2016-09-01 2019-06-13 Casio Computer Co., Ltd. Diagnosis assisting device, image processing method in diagnosis assisting device, and non-transitory storage medium having stored therein program
US11748978B2 (en) 2016-10-16 2023-09-05 Ebay Inc. Intelligent online personal assistant with offline visual search database
US10860898B2 (en) * 2016-10-16 2020-12-08 Ebay Inc. Image analysis and prediction based visual search
US11004131B2 (en) 2016-10-16 2021-05-11 Ebay Inc. Intelligent online personal assistant with multi-turn dialog based on visual search
US10970768B2 (en) 2016-11-11 2021-04-06 Ebay Inc. Method, medium, and system for image text localization and comparison
US10691979B2 (en) * 2017-01-04 2020-06-23 Aquifi, Inc. Systems and methods for shape-based object retrieval
CN108804476B (zh) * 2017-05-05 2021-05-25 北京京东尚科信息技术有限公司 图像搜索结果的排序方法、装置、电子设备和存储介质
US10229347B2 (en) * 2017-05-14 2019-03-12 International Business Machines Corporation Systems and methods for identifying a target object in an image
CN109697240B (zh) * 2017-10-24 2020-12-22 中移(杭州)信息技术有限公司 一种基于特征的图像检索方法及装置
US10902053B2 (en) * 2017-12-21 2021-01-26 Adobe Inc. Shape-based graphics search
CN110162654A (zh) * 2018-01-30 2019-08-23 西安邮电大学 一种基于融合特征与检索结果优化的现勘图像检索算法
CN108492260B (zh) * 2018-02-07 2019-01-08 长安大学 基于张量投票耦合霍夫变换的地质线性体提取方法
US20190251744A1 (en) * 2018-02-12 2019-08-15 Express Search, Inc. System and method for searching 3d models using 2d images
US10176202B1 (en) * 2018-03-06 2019-01-08 Xanadu Big Data, Llc Methods and systems for content-based image retrieval
WO2019190518A1 (en) * 2018-03-29 2019-10-03 Google Llc Similar medical image search
CN108829711B (zh) * 2018-05-04 2021-06-01 上海得见计算机科技有限公司 一种基于多特征融合的图像检索方法
US11698921B2 (en) 2018-09-17 2023-07-11 Ebay Inc. Search system for providing search results using query understanding and semantic binary signatures
CN109242042B (zh) * 2018-09-28 2019-12-20 百度在线网络技术(北京)有限公司 图片训练样本挖掘方法、装置、终端及计算机可读存储介质
CN109711432A (zh) * 2018-11-29 2019-05-03 昆明理工大学 一种基于颜色方差的图像相似判定方法
CN109753577B (zh) * 2018-12-29 2021-07-06 深圳云天励飞技术有限公司 一种搜索人脸的方法及相关装置
CN111475603B (zh) * 2019-01-23 2023-07-04 百度在线网络技术(北京)有限公司 企业标识识别方法、装置、计算机设备及存储介质
EP3948569A1 (en) * 2019-03-23 2022-02-09 British Telecommunications public limited company Configuring distributed sequential transactional databases
US11397731B2 (en) * 2019-04-07 2022-07-26 B. G. Negev Technologies And Applications Ltd., At Ben-Gurion University Method and system for interactive keyword optimization for opaque search engines
CN110413813B (zh) * 2019-06-25 2023-05-12 宁波图达信息技术有限公司 一种相同或相似图像搜索方法
US11468550B2 (en) 2019-07-22 2022-10-11 Adobe Inc. Utilizing object attribute detection models to automatically select instances of detected objects in images
US11302033B2 (en) * 2019-07-22 2022-04-12 Adobe Inc. Classifying colors of objects in digital images
US11631234B2 (en) 2019-07-22 2023-04-18 Adobe, Inc. Automatically detecting user-requested objects in images
US12175010B2 (en) * 2019-09-28 2024-12-24 Apple Inc. Devices, methods, and graphical user interfaces for interacting with three-dimensional environments
CN111145097B (zh) * 2019-12-31 2023-09-01 华为技术有限公司 图像处理方法、装置和图像处理系统
CN111368573A (zh) * 2020-03-02 2020-07-03 凌云光技术集团有限责任公司 一种基于几何特征约束的定位方法
US11645733B2 (en) 2020-06-16 2023-05-09 Bank Of America Corporation System and method for providing artificial intelligence architectures to people with disabilities
CN112183585B (zh) * 2020-09-08 2024-08-02 西安建筑科技大学 一种基于多特征测度的青铜器铭文相似性度量方法
US11972569B2 (en) 2021-01-26 2024-04-30 Adobe Inc. Segmenting objects in digital images utilizing a multi-object segmentation model framework
CN112818148B (zh) * 2021-04-16 2021-11-05 北京妙医佳健康科技集团有限公司 视觉检索的排序优化方法、装置、电子设备及存储介质
US20230009267A1 (en) 2021-07-06 2023-01-12 Ebay Inc. Visual facet search engine
CN113554091B (zh) * 2021-07-21 2022-12-09 长江存储科技有限责任公司 分解半导体结构的布局的方法、装置、系统和存储介质
CN114255468A (zh) * 2021-12-14 2022-03-29 科大讯飞股份有限公司 一种笔迹识别方法及其相关设备
US11835995B2 (en) * 2022-02-10 2023-12-05 Clarifai, Inc. Automatic unstructured knowledge cascade visual search
CN114863172B (zh) * 2022-05-06 2025-06-17 南京掌控网络科技有限公司 一种基于深度学习的图片查重的方法及系统
CN117218389B (zh) * 2023-09-17 2024-10-25 南京林业大学 融合主成分分析与双堆过滤的降维并行图像特征匹配算法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008292195A (ja) * 2007-05-22 2008-12-04 Toyota Central R&D Labs Inc 物体識別装置及びプログラム
US20090125487A1 (en) * 2007-11-14 2009-05-14 Platinumsolutions, Inc. Content based image retrieval system, computer program product, and method of use

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5253302A (en) * 1989-02-28 1993-10-12 Robert Massen Method and arrangement for automatic optical classification of plants
US5579471A (en) * 1992-11-09 1996-11-26 International Business Machines Corporation Image query system and method
US5893095A (en) * 1996-03-29 1999-04-06 Virage, Inc. Similarity engine for content-based retrieval of images
US6631364B1 (en) * 1997-03-26 2003-10-07 National Research Council Of Canada Method of searching 3-Dimensional images
US6016487A (en) * 1997-03-26 2000-01-18 National Research Council Of Canada Method of searching three-dimensional images
US6181817B1 (en) * 1997-11-17 2001-01-30 Cornell Research Foundation, Inc. Method and system for comparing data objects using joint histograms
AU2207599A (en) * 1997-12-29 1999-07-19 Cornell Research Foundation Inc. Image subregion querying using color correlograms
US6628824B1 (en) * 1998-03-20 2003-09-30 Ken Belanger Method and apparatus for image identification and comparison
US6345274B1 (en) * 1998-06-29 2002-02-05 Eastman Kodak Company Method and computer program product for subjective image content similarity-based retrieval
US6445834B1 (en) * 1998-10-19 2002-09-03 Sony Corporation Modular image query system
US6584221B1 (en) * 1999-08-30 2003-06-24 Mitsubishi Electric Research Laboratories, Inc. Method for image retrieval with multiple regions of interest
US6469706B1 (en) * 1999-11-16 2002-10-22 International Business Machines Corporation Method and apparatus for detecting regions belonging to a specified color surface in an unsegmented image
US6594383B1 (en) * 1999-11-16 2003-07-15 International Business Machines Corporation Method and apparatus for indexing and retrieving images from an images database based on a color query
US6522780B1 (en) * 2000-12-15 2003-02-18 America Online, Inc. Indexing of images and/or text
US7031523B2 (en) * 2001-05-16 2006-04-18 Siemens Corporate Research, Inc. Systems and methods for automatic scale selection in real-time imaging
US7043474B2 (en) * 2002-04-15 2006-05-09 International Business Machines Corporation System and method for measuring image similarity based on semantic meaning
US7116806B2 (en) * 2003-10-23 2006-10-03 Lumeniq, Inc. Systems and methods relating to AFIS recognition, extraction, and 3-D analysis strategies
US7697792B2 (en) * 2003-11-26 2010-04-13 Yesvideo, Inc. Process-response statistical modeling of a visual image for use in determining similarity between visual images
WO2005055138A2 (en) * 2003-11-26 2005-06-16 Yesvideo, Inc. Statical modeling of a visual image for use in determining similarity between visual images
US7590310B2 (en) * 2004-05-05 2009-09-15 Facet Technology Corp. Methods and apparatus for automated true object-based image analysis and retrieval
EP2084625B1 (en) * 2006-10-19 2011-01-12 Koninklijke Philips Electronics N.V. Dominant color descriptors
EP2279604A4 (en) * 2008-05-09 2013-08-21 Ltu Technologies S A S TOOL BOX FOR COLOR MATCHING
CN101989302B (zh) * 2010-10-22 2012-11-28 西安交通大学 一种基于多层位图颜色特征的图像检索方法
US9547807B2 (en) * 2011-10-19 2017-01-17 The Univeristy Of Sydney Image processing and object classification
CN103093203B (zh) * 2013-01-21 2016-07-27 信帧电子技术(北京)有限公司 一种人体再识别方法以及人体再识别系统
US10192117B2 (en) * 2015-06-25 2019-01-29 Kodak Alaris Inc. Graph-based framework for video object segmentation and extraction in feature space

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008292195A (ja) * 2007-05-22 2008-12-04 Toyota Central R&D Labs Inc 物体識別装置及びプログラム
US20090125487A1 (en) * 2007-11-14 2009-05-14 Platinumsolutions, Inc. Content based image retrieval system, computer program product, and method of use

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6829412B1 (ja) * 2019-11-11 2021-02-10 三菱電機株式会社 画像処理装置、画像処理システム、画像処理方法、及び画像処理プログラム
WO2021095085A1 (ja) * 2019-11-11 2021-05-20 三菱電機株式会社 画像処理装置、画像処理システム、画像処理方法、及び画像処理プログラム

Also Published As

Publication number Publication date
EP2948877A1 (en) 2015-12-02
IL244381A0 (en) 2016-04-21
ES2530687B1 (es) 2016-08-19
CN105518668B (zh) 2020-03-27
JP6188954B2 (ja) 2017-08-30
ES2530687A1 (es) 2015-03-04
US20160078057A1 (en) 2016-03-17
MX362373B (es) 2019-01-14
CA2921127A1 (en) 2015-03-12
WO2015032585A1 (en) 2015-03-12
US10353948B2 (en) 2019-07-16
AU2014317351A2 (en) 2016-05-12
AU2014317351A1 (en) 2016-03-24
EP2948877B1 (en) 2017-09-20
RU2016112126A (ru) 2017-10-09
CN105518668A (zh) 2016-04-20
MX2016002854A (es) 2016-09-13
IL244381B (en) 2019-10-31

Similar Documents

Publication Publication Date Title
JP6188954B2 (ja) コンテンツベースの画像検索
Soomro et al. Action recognition in realistic sports videos
Wang et al. Salient object detection: A discriminative regional feature integration approach
Guo et al. Discriminative features for texture description
Kim et al. Canonical correlation analysis of video volume tensors for action categorization and detection
IL267116A (en) A system and method for sharing a cnn neural network layer
An et al. Improving person re-identification by soft biometrics based reranking
Marini et al. Bird species classification based on color features
Pradhan et al. Principal texture direction based block level image reordering and use of color edge features for application of object based image retrieval
Bejaoui et al. Fully automated facial expression recognition using 3D morphable model and mesh-local binary pattern
Li et al. Texture analysis of remote sensing imagery with clustering and Bayesian inference
Soleimanipour et al. Classification of Anthurium flowers using combination of PCA, LDA and support vector machine.
Danapur et al. An efficient image retrieval based on an integration of HSV, RLBP, and CENTRIST features using ensemble classifier learning
CN111539470A (zh) 图像处理方法、装置、计算机设备及存储介质
JP2022176073A (ja) 画像照合システム
Farajzadeh et al. Study on the performance of moments as invariant descriptors for practical face recognition systems
Sethulekshmi et al. Ayurvedic leaf recognition for plant classification
EP3807782B1 (en) Hash-based appearance search
Moujahid et al. Multi-scale multi-block covariance descriptor with feature selection
Kaya et al. Gender classification from facial images using gray relational analysis with novel local binary pattern descriptors
Bakheet et al. Adaptive multimodal feature fusion for content-based image classification and retrieval
Doshi et al. Texture classification using multi-dimensional LBP variance
Li et al. An efficient robust eye localization by learning the convolution distribution using eye template
Mefteh et al. A novel multispectral corner detector and a new local descriptor: an application to human posture recognition
Pour et al. Classification of Anthurium flower cultivars based on combination of PCA, LDA and SVM classifier

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170330

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170411

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20170630

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170630

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170725

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170801

R150 Certificate of patent or registration of utility model

Ref document number: 6188954

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250