WO2024224751A1

WO2024224751A1 - 画像処理方法および画像処理装置

Info

Publication number: WO2024224751A1
Application number: PCT/JP2024/004653
Authority: WO
Inventors: テイテイ虎; 康治井村
Original assignee: パナソニックＩｐマネジメント株式会社
Priority date: 2023-04-27
Filing date: 2024-02-09
Publication date: 2024-10-31

Abstract

画像処理方法は、対象物が撮像された撮像画像を取得し、撮像画像から対象物の位置または姿勢の検出を行い、対象物のテンプレートを生成する第１処理を実行し、第１処理を実行中に撮像画像と対象物のテンプレートとに基づくテンプレートマッチングを実行し、対象物の移動に関する情報を取得する第２処理を複数回実行し、第１処理は、検出された対象物の位置または姿勢と、第２処理で複数回取得された対象物の移動に関する情報とに基づいて、対象物の姿勢を予測した予測姿勢に対応する対象物のテンプレートを生成する。

Description

画像処理方法および画像処理装置

　本開示は、画像処理方法および画像処理装置に関する。

　工場内の生産工程では、ロボットハンド等のエンドエフェクタによりピッキングしようとする部品が正しい部品（例えば工業製品の生産に使用する部品）であるか否かを判定することがある。このような判定の際には、判定処理をできるだけ高速に行うことにより生産工程のタクトタイムを低下させないことが求められる。従来の判定処理として、例えば予め用意された部品のテンプレート（例えば画像）と工場内に設置されたカメラにより撮像された部品の画像とを比較してマッチング処理するテンプレートマッチング法が知られている。

　特許文献１は、テンプレートマッチングにより物体の認識を行う物体認識装置で用いられるテンプレートのセットを作成するテンプレート作成装置を開示している。テンプレート作成装置は、一つの物体の異なる姿勢に対する複数の画像のそれぞれから複数のテンプレートを取得し、複数のテンプレートから選ばれる２つのテンプレート間の画像特徴の類似度を計算し、類似度に基づき複数のテンプレートを複数のグループに分けるクラスタリングを行う。テンプレート作成装置は、複数のグループのそれぞれについてグループ内の全てのテンプレートを１つの統合テンプレートへ統合し、グループごとに統合テンプレートを有したテンプレートセットを生成する。

日本国特開２０１６－２０７１４７号公報

　特許文献１では、物体認識装置は、階層的なテンプレートセットを作成し、解像度の低いテンプレートセットによるラフな認識を行い、その結果を用いて解像度の高いテンプレートセットによる詳細な認識を行う、といった階層的探索を行う。ところが、解像度の低いテンプレートセットを用いた認識処理、解像度の高いテンプレートセットを用いた認識処理のように少なくとも二段階でマッチング処理を行う必要があり、物体認識装置の処理負荷の増大を免れない。

　また、上述した工場内の生産工程においてエンドエフェクタによりピッキングしようとする部品が正しい部品であるかを判定するためにエンドエフェクタおよびカメラを移動させてピッキングしようとする部品をカメラで撮像する際に、特許文献１の技術を適用しようとすると次のような課題が生じる。具体的には、エンドエフェクタの移動に伴ってカメラも移動するとなると、エンドエフェクタの位置変化に伴ってカメラからの部品の見え方（言い換えると、部品の姿勢）が変化する。このため、テンプレートマッチングの際に、エンドエフェクタの位置（言うなれば、カメラの位置）を考慮しなければ、予め生成されたテンプレートセットを使っても効率的なテンプレートマッチングを行うことができず、テンプレートマッチングの信頼性も向上しない。

　本開示は、従来の事情に鑑みて案出され、撮像装置の移動に伴って撮像装置に対する対象物の姿勢が変化する場合でも対象物の高精度なテンプレートマッチングを実現する画像処理方法および画像処理装置を提供することを目的とする。

　本開示は、移動可能であって、かつ、対象物を撮像可能なカメラとの間で通信可能な画像処理装置が行う画像処理方法であって、前記対象物が撮像された撮像画像を取得し、前記撮像画像から前記対象物の位置または姿勢の検出を行い、前記対象物のテンプレートを生成する第１処理を実行し、前記第１処理を実行中に、前記撮像画像と前記対象物のテンプレートとに基づくテンプレートマッチングを実行し、前記対象物の移動に関する情報を取得する第２処理を複数回実行し、前記第１処理は、検出された前記対象物の位置または姿勢と、前記第２処理で複数回取得された前記対象物の移動に関する情報とに基づいて、前記対象物の姿勢を予測し、前記対象物の予測姿勢に対応する前記対象物のテンプレートを生成する、画像処理方法を提供する。

　また、本開示は、移動可能であって、かつ、対象物を撮像可能なカメラにより撮像された前記対象物の撮像画像を取得する取得部と、前記撮像画像から前記対象物の位置または姿勢の検出を行い、前記対象物のテンプレートを生成する第１処理部と、前記第１処理部による前記対象物のテンプレートの生成中に、複数回、前記撮像画像と前記対象物のテンプレートとに基づくテンプレートマッチングを実行し、前記対象物の移動に関する情報を取得する第２処理部と、を備え、前記第１処理部は、検出された前記対象物の位置または姿勢と、前記第２処理部で複数回取得された前記対象物の移動に関する情報とに基づいて、前記対象物の姿勢を予測し、前記対象物の予測姿勢に対応する前記対象物のテンプレートを生成する、画像処理装置を提供する。

　本開示によれば、撮像装置の移動に伴って撮像装置からの対象物の姿勢が可変となる状況下でも対象物の高精度なテンプレートマッチングを実現できる。

ピッキングシステムの構成例を説明する図ピッキングシステムの内部構成例を示すブロック図実施の形態１における第１処理部および第２処理部の機能を説明する機能ブロック図実施の形態１に係るピッキングシステムの全体動作手順例を説明する図実施の形態１における画像処理装置の第２処理手順例を示すフローチャート実施の形態１における画像処理装置の第１処理手順例を示すフローチャートテンプレート表示画面の一例を示す図実施の形態１の変形例１に係るピッキングシステムの全体動作手順例を説明する図実施の形態１の変形例２における画像処理装置の第１処理部の動作手順例を示すフローチャート

（本開示に至る経緯）
　従来、生産ライン等に対して移動不能な固定箇所に設置されたカメラから取り込まれた画像を用いて、ベルトコンベア上の物体のテンプレート作成装置を備える物体認識装置が開示されている。また、物体認識装置は、実際にマッチング処理を行う際に、グループごとの統合テンプレートに基づいて生成されたテンプレートセットがそのまま使用される。

　ところが、上述した工場内の生産工程においてエンドエフェクタによりピッキング対象である部品が正しい部品であるかを判定するために、エンドエフェクタおよびカメラを移動させてピッキング対象である部品をカメラで撮像する場合、特許文献１（日本国特開２０１６－２０７１４７号公報）の技術を適用しようとすると次のような課題が生じる。具体的には、エンドエフェクタの移動に伴ってカメラも移動するとなると、エンドエフェクタの位置変化に伴ってカメラからの部品の見え方（言い換えると、部品の姿勢）が変化する。このため、テンプレートマッチングの際に、エンドエフェクタの位置（言うなれば、カメラの位置）を考慮しなければ、予め生成されたテンプレートセットを使っても効率的なテンプレートマッチングを行うことができず、テンプレートマッチングの信頼性も向上しない。

　そこで、このような課題を解決において、マッチング処理速度に合わせてベルトコンベアを停止したり低速させたりする方法があるが、このような方法を採用した場合、部品のピッキング効率（言い換えると、生産効率）が低下する。したがって、ベルトコンベアおよびエンドエフェクタの動作を停止させずに部品のマッチング処理および部品のピッキング処理を実現可能にする物体認識装置が要望されていた。

　そこで、以下の各実施の形態では、撮像装置の移動に伴って撮像装置からの対象物の姿勢が可変となる状況下でもテンプレートマッチングに使用可能な対象物の高精度なテンプレートを登録する画像処理方法および画像処理装置の例を説明する。

　以下、添付図面を適宜参照しながら、本開示に係る画像処理方法および画像処理装置を具体的に開示した各実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。なお、添付図面及び以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の範囲に記載の主題を限定することは意図されていない。

（実施の形態１）
　実施の形態１では、例えば工場内の生産工程において、ロボットハンド等のエンドエフェクタによりピッキングしようとする部品（例えば工業製品の生産に使用する部品）を正しく認識するか否かをテンプレートマッチングによって判定するに際して、カメラにより撮像された撮像画像に物体認識処理を実行し、テンプレートマッチングに必要となるテンプレートを予測するユースケースを例示して説明する。本開示に係るテンプレート登録装置（例えば画像処理装置）は、対象物を撮像、かつ、移動により対象物に対する撮像位置が変更可能な撮像装置により撮像された対象物の入力画像に基づく情報（後述参照）と、対象物の入力画像に基づく情報（後述参照）とをテンプレートマッチングに用いるテンプレートとして、撮像装置の位置情報と対象物の入力画像に基づく情報（後述参照）とを関連付けて記憶部に登録する。

　図１は、ピッキングシステムの構成例を説明する図である。図２は、ピッキングシステムの内部構成例を示すブロック図である。図２に示すように、ピッキングシステム１００は、アクチュエータＡＣと、カメラＣＭと、画像処理装置Ｐ１と、ディスプレイ１３と、操作デバイス１４とを含む。アクチュエータＡＣと画像処理装置Ｐ１との間、カメラＣＭと画像処理装置Ｐ１との間、画像処理装置Ｐ１と操作デバイス１４との間は、それぞれデータ信号の入出力（送受信）が可能となるように接続されている。

　カメラＣＭと対象物Ｔｇとの間の位置関係について、図１を参照して説明する。なお、図１の説明は、実施の形態１だけでなく後述する実施の形態１の変形例にも同様に適用可能である。

　以下の説明において、対象物Ｔｇは、工場内に配備されるピッキングシステム１００のエンドエフェクタＥＦによりピッキングされる対象物であり、例えば工業部品、工業製品等である。工業部品であれば、例えばピッキングされた後に完成品を組み立てるために別のレーン（生産ライン）に移動される。工業製品であれば、例えばピッキングされた後に段ボール等の箱に収納される。なお、対象物Ｔｇの種類は、上述した工業部品、工業製品に限定されないことは言うまでもない。

　図１に示すように、アクチュエータＡＣは、カメラＣＭを３次元的に移動可能に制御することにより、ベルトコンベア上を移動する対象物Ｔｇと、対象物Ｔｇのピッキングを行うエンドエフェクタＥＦおよびエンドエフェクタＥＦに固定設置されたカメラＣＭとの間の位置関係を変更可能に制御する。

　アクチュエータＡＣは、複数軸によりエンドエフェクタＥＦと、エンドエフェクタＥＦに備えられたカメラＣＭとをそれぞれ３次元で移動可能に制御する。つまり、アクチュエータＡＣは、カメラＣＭの３次元位置（座標）の認識、維持、あるいは変更を制御可能である。

　エンドエフェクタＥＦは、例えばピッキングシステム１００に対応して配備されたロボットアームの先端部に設けられているロボットハンドであり、アクチュエータＡＣによる制御で対象物Ｔｇに接近し、対象物Ｔｇをピッキングする。

　カメラＣＭは、エンドエフェクタＥＦの近傍に配置され、アクチュエータＡＣの制御によってエンドエフェクタＥＦと一体的に移動して、対象物Ｔｇを撮像する。カメラＣＭは、対象物Ｔｇを所定のフレームレート（例えば、１０００ｆｒａｍｅ　ｐｅｒ　ｒａｔｅ（以降、「ｆｐｓ」と表記））で撮像し、この撮像の度に得られた対象物Ｔｇの撮像画像（入力画像の一例）を都度、画像処理装置Ｐ１に送信する。

　画像処理装置Ｐ１は、カメラＣＭから送信された対象物Ｔｇの撮像画像を取得する。画像処理装置Ｐ１は、カメラＣＭから送信された対象物Ｔｇの撮像画像を用いて、対象物Ｔｇの姿勢を検出し、対象物Ｔｇの姿勢を検出する間に、第２処理により得られる対象物Ｔｇの移動に関する情報に基づいて、対象物Ｔｇの動きを観察し、検出された対象物Ｔｇの姿勢と、対象物Ｔｇの動き情報とに基づいて、対象物Ｔｇの姿勢検出処理が終了するタイミングにおける対象物Ｔｇの姿勢を予測し、予測された対象物Ｔｇの姿勢（検出姿勢の一例）に対応する検出テンプレートを生成する第１処理（図４、図６参照）と、対象物Ｔｇの特徴量を抽出し、抽出された特徴量に基づく特徴マッチング（言い換えると、テンプレートマッチング）して対象物Ｔｇの位置情報を取得し、取得された対象物Ｔｇの位置情報をアクチュエータＡＣに常時あるいは周期的に送信（フィードバック）する第２処理（図４、図５参照）とを実行可能なコンピュータにより構成される。

　画像処理装置Ｐ１は、例えばＰｅｒｓｏｎａｌ　Ｃｏｍｐｕｔｅｒ（以降、「ＰＣ」と表記）でもよいし、上述した第１処理および第２処理のそれぞれの実行に特化した専用のハードウェア機器でもよい。画像処理装置Ｐ１は、上述した第１処理および第２処理のそれぞれを実行することにより、エンドエフェクタＥＦによりピッキングされる対象物Ｔｇの位置および姿勢の認識処理を実現する。画像処理装置Ｐ１は、通信部１０と、プロセッサ１１と、メモリ１２と、３ＤモデルデータベースＤＢとを含む。

　画像処理装置Ｐ１は、ユーザ操作を受け付け、ユーザ操作に基づいて後述するアイコンＰＰ１の位置および姿勢から見た対象物ＴｇのテンプレートＴＰ１（図７参照）と、第１処理により予測された対象物Ｔｇの予測姿勢に対応する対象物Ｔｇの予測テンプレートＴＰ２（図７参照）と、第１処理により検出された対象物Ｔｇの姿勢に対応する対象物Ｔｇの検出テンプレートＴＰ３（図７参照）とを含むテンプレート表示画面ＳＣ（図７参照）を生成してディスプレイ１３に表示する。

　通信部１０（取得部の一例）は、アクチュエータＡＣ、カメラＣＭ、ディスプレイ１３、および操作デバイス１４との間でそれぞれデータ通信可能に接続され、データの送受信を実行する。通信部１０は、カメラＣＭから送信された撮像画像と、操作デバイス１４から送信された制御指令とをそれぞれプロセッサ１１に出力する。通信部１０は、プロセッサ１１から出力されたテンプレート表示画面ＳＣ（図７参照）をディスプレイ１３に送信する。

　プロセッサ１１は、例えばＣｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ（ＣＰＵ）またはＦｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ（ＦＰＧＡ）を用いて構成されて、メモリ１２と協働して、各種の処理および制御を行う。具体的には、プロセッサ１１はメモリ１２に保持されたプログラムおよびデータを参照し、そのプログラムを実行することにより、第１処理部１１０および第２処理部１２０のそれぞれの機能を実現する。

　第１処理部１１０は、対象物Ｔｇの検出処理を実行し、対象物Ｔｇの予測テンプレートＴＰ２を生成する第１処理（図４、図６参照）を実行する。第１処理は、Ｄｅｅｐ　Ｌｅａｒｎｉｎｇ（深層学習）を用いた高度な画像処理であって、第２処理の実行に要する時間よりも長い時間（例えば、１７ｍｓ）を要する処理である。ここで、第１処理を実行する間に、対象物Ｔｇの位置および姿勢が変化し続ける。よって、第１処理部１１０は、第１処理が終了するタイミングで出力された検出テンプレートＴＰ３の有効性を保つため、第１処理を実行している間に複数回実行される第２処理部１２０により実行される第２処理の結果をそれぞれ用いて、対象物Ｔｇのテンプレート候補を予測する。これにより、第１処理部１１０は、第１処理の実行中に変化する対象物Ｔｇの姿勢変化にリアルタイムに追従し、第２処理部１２０により実行される特徴マッチングにより適したテンプレート候補を予測することができる。

　第２処理部１２０は、第１処理によって得られた予測テンプレートＴＰ２と、カメラＣＭにより撮像された撮像画像とを用いて特徴マッチングを実行し、対象物Ｔｇの位置情報を推測し、推測された対象物Ｔｇの位置情報をアクチュエータＡＣに送信する第２処理（図４、図５参照）を実行する。第２処理は、特徴マッチングを用いた簡易な画像処理であって、第１処理の実行に要する時間よりも短い時間（例えば、１ｍｓ）を要する処理である。第２処理部１２０は、第１処理部１１０が第１処理を１回実行する間に、第２処理を複数回実行する。

　メモリ１２は、例えばプロセッサ１１の各処理を実行する際に用いられるワークメモリとしてのＲａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ（ＲＡＭ）と、プロセッサ１１の動作を規定したプログラムおよびデータを格納するＲｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ（ＲＯＭ）とを有する。ＲＡＭには、プロセッサ１１により生成あるいは取得されたデータもしくは情報が一時的に保存される。ＲＯＭには、プロセッサ１１の動作を規定するプログラムが書き込まれている。

　３ＤモデルデータベースＤＢ（データベースの一例）は、例えばフラッシュメモリ、Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ（ＨＤＤ）あるいはＳｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ（ＳＳＤ）である。３ＤモデルデータベースＤＢは、ピッキング対象である少なくとも１つの対象物Ｔｇの３Ｄモデルのデータと、対象物Ｔｇに関する情報（例えば、対象物ごとの名称、識別番号等）とを対象物Ｔｇごとに格納（登録）する。

　ディスプレイ１３は、画像処理装置Ｐ１により生成されたテンプレート表示画面ＳＣ（図７参照）を出力（表示）するデバイスであり、例えばＬｉｑｕｉｄ　Ｃｒｙｓｔａｌ　Ｄｉｓｐｌａｙ（ＬＣＤ）あるいは有機Ｅｌｅｃｔｒｏｌｕｍｉｎｅｓｃｅｎｃｅ（ＥＬ）デバイスにより構成される。

　操作デバイス１４は、ユーザ操作の入力を検知するインターフェースであり、例えばマウス、キーボードあるいはタッチパネルにより構成される。操作デバイス１４は、ユーザ操作を受け付けると、ユーザ操作に基づく電気信号を生成して画像処理装置Ｐ１に送信する。

　次に、図３を参照して、第１処理部１１０および第２処理部１２０のそれぞれにより実現される機能について説明する。図３は、実施の形態１における第１処理部１１０および第２処理部１２０の機能を説明する機能ブロック図である。

　第１処理部１１０は、物体検出部１１１と、３Ｄモデル選択部１１２と、第１の時間予測部１１３と、３Ｄモデル合成部１１７とを含む。

　物体検出部１１１は、Ｄｅｅｐ　Ｌｅａｒｎｉｎｇ（深層学習）を用いて、カメラＣＭから送信された撮像画像に画像認識処理を実行し、撮像画像から物体（対象物Ｔｇ）を検出する。物体検出部１１１は、検出された物体（対象物Ｔｇ）の情報を３Ｄモデル選択部１１２および第１の時間予測部１１３にそれぞれ出力する。なお、物体検出部１１１が用いるＤｅｅｐ　Ｌｅａｒｎｉｎｇ（深層学習）は、例えば、Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ（ＣＮＮ）等の対象物Ｔｇの検出に適した任意の学習手法が用いられてよい。

　３Ｄモデル選択部１１２は、３ＤモデルデータベースＤＢに登録された少なくとも１つの対象物Ｔｇの３Ｄモデルのうち、ユーザ操作により指定された物体（対象物Ｔｇ）の情報に対応する３ＤモデルＭＤを選出する。３Ｄモデル選択部１１２は、選出された対象物Ｔｇの３ＤモデルＭＤを３Ｄマッチング部１１４および３Ｄモデル合成部１１７のそれぞれに出力する。

　第１の時間予測部１１３は、第１処理により対象物Ｔｇの検出処理を実行している間に、第２処理により得られた対象物Ｔｇの動き情報に基づいて、対象物Ｔｇの位置および姿勢の変化を追跡（観察）し、第１処理が終了するタイミングにおける対象物Ｔｇの姿勢に対応する予測テンプレートＴＰ２を生成する。第１の時間予測部１１３は、３Ｄマッチング部１１４と、テンプレート予測部１１５と、予測モデル更新部１１６とを含む。

　３Ｄマッチング部１１４は、物体検出部１１１から出力された物体（対象物Ｔｇ）の情報と、３Ｄモデル選択部１１２から出力された対象物Ｔｇの３ＤモデルＭＤとを３次元空間でマッチングする３Ｄマッチングを実行し、カメラＣＭにより撮像された撮像画像に写る対象物Ｔｇの姿勢（以降、「検出姿勢」と表記）を認識する。３Ｄマッチング部１１４は、対象物Ｔｇの検出姿勢に関する情報と、３Ｄマッチングに用いられた対象物Ｔｇの３ＤモデルＭＤとを対応付けて、テンプレート予測部１１５および３Ｄモデル合成部１１７のそれぞれに出力する。

　テンプレート予測部１１５は、３Ｄマッチング部１１４から送信された対象物Ｔｇの検出姿勢に関する情報および対象物Ｔｇの３ＤモデルＭＤと、予測モデル更新部１１６から出力された予測モデルとに基づいて、第１処理が終了するタイミングにおける対象物Ｔｇの姿勢に対応する予測テンプレートＴＰ２を生成する。なお、ここでいう予測モデルは、対象物Ｔｇの姿勢が予測された予測モデルであって、複数回実行された第２処理により得られた対象物Ｔｇの移動に関する情報に基づく数学的なモデルである。

　テンプレート予測部１１５は、予測結果に基づいて、次に取得される撮像画像が撮像される時のカメラＣＭの姿勢であって、対象物Ｔｇの予測姿勢（角度）から３ＤモデルＭＤを見た場合に得られる２Ｄ画像（以降、「予測テンプレート」と表記）を生成する。テンプレート予測部１１５は、対象物Ｔｇの姿勢に関する情報と、生成された対象物Ｔｇの予測テンプレートＴＰ２（図７参照）とを対応付けて、３Ｄモデル合成部１１７と、テンプレート更新部１２１とにそれぞれ出力する。

　予測モデル更新部１１６は、特徴マッチング部１２３から出力された特徴マッチング結果と、位置フィッティング部１２４から出力された対象物Ｔｇの動きとに基づいて、第１処理により対象物Ｔｇの検出処理を実行している間に変化する対象物Ｔｇの姿勢の変化を予測するための予測モデルを更新する。予測モデル更新部１１６は、更新後の予測モデルをテンプレート予測部１１５に出力する。

　３Ｄモデル合成部１１７は、３Ｄマッチング部１１４から出力された対象物Ｔｇの検出姿勢と、検出テンプレートＴＰ３（図７参照）とを取得し、対象物Ｔｇの検出姿勢に基づいて、撮像画像に写る対象物Ｔｇが撮像された角度を示すアイコンＰＰ３を生成する。３Ｄモデル合成部１１７は、テンプレート予測部１１５から出力された対象物Ｔｇの予測姿勢と、予測テンプレートＴＰ２とを取得し、対象物Ｔｇの予測姿勢に基づいて、次の撮像画像で撮像される対象物Ｔｇの角度を示すアイコンＰＰ２を生成する。

　３Ｄモデル合成部１１７は、対象物Ｔｇの３ＤモデルＭＤと、予測テンプレートＴＰ２と、検出テンプレートＴＰ３と、アイコンＰＰ１，ＰＰ２，ＰＰ３のそれぞれとに基づいて、テンプレート表示画面ＳＣを生成し、ディスプレイ１３に送信する。

　第２処理部１２０は、テンプレート更新部１２１と、特徴抽出部１２２と、特徴マッチング部１２３と、位置フィッティング部１２４と、第２の時間予測部１２５と、制御部１２６とを含む。

　テンプレート更新部１２１は、第１処理部１１０のテンプレート予測部１１５から出力された予測テンプレートＴＰ２を取得し、特徴マッチングに使用される対象物Ｔｇのテンプレート（２Ｄデータ）を、取得された予測テンプレートＴＰ２に更新する。

　特徴抽出部１２２は、カメラＣＭから送信された撮像画像から対象物Ｔｇの特徴量を抽出する。特徴抽出部１２２は、抽出された対象物Ｔｇの特徴量を特徴マッチング部１２３に出力する。

　特徴マッチング部１２３は、テンプレート更新部１２１から出力された予測テンプレートＴＰ２に含まれる対象物Ｔｇの特徴量と、特徴抽出部１２２から出力された対象物Ｔｇの特徴量とをマッチングする。特徴マッチング部１２３は、マッチング結果を予測モデル更新部と位置フィッティング部１２４とにそれぞれ出力する。

　位置フィッティング部１２４は、特徴マッチング部１２３から出力されたマッチング結果を取得する。位置フィッティング部１２４は、特徴マッチングの結果に基づいて、撮像画像に写る対象物Ｔｇの位置情報をフィッティングする。

　位置フィッティング部１２４は、位置フィッティング後の対象物Ｔｇの位置情報を予測モデル更新部１１６および第２の時間予測部１２５にそれぞれ出力する。

　第２の時間予測部１２５は、位置フィッティング部１２４から出力された対象物Ｔｇの位置情報に基づいて、第２処理を実行する間の対象物Ｔｇの動きを予測して、第２処理が終了するタイミングの対象物Ｔｇの位置を予測する。第２の時間予測部１２５は、予測された対象物Ｔｇの予測位置の情報を制御部１２６に出力する。

　制御部１２６は、第２の時間予測部１２５から出力された対象物Ｔｇの予測位置の情報をアクチュエータＡＣに出力する。

　次に、図４を参照して、ピッキングシステム１００の全体動作手順について説明する。図４は、実施の形態１に係るピッキングシステム１００の全体動作手順例を説明する図である。

　なお、図４に示すピッキングシステム１００の全体動作手順例は一例であって、これに限定されない。図４では、第１処理と第２処理との関係を分かりやすくするために１個の対象物Ｔｇのピッキングにおいて第１処理が１回、第２処理がＮ（Ｎ：３以上に整数）回実行される例を示しているが、第１処理および第２処理がそれぞれ実行される回数は、これに限定されない。ピッキングシステム１００は、１個の対象物Ｔｇのピッキングにおいて第１処理を複数回実行してもよいことは言うまでもない。

　アクチュエータＡＣは、カメラＣＭによってベルトコンベア上を搬送される対象物Ｔｇを所定のフレームレート（例えば、１０００ｆｐｓ）で撮像しながら、ピッキングする。図４に示すアクチュエータＡＣは、対象物Ｔｇのピッキングプロセスの一部（時刻ｔ１１～時刻ｔ１Ｎ）を示しており、例えば、対象物Ｔｇをピッキングするまで繰り返し実行される。

　画像処理装置Ｐ１は、カメラＣＭによって所定のフレームレートで撮像された対象物Ｔｇの撮像画像を取得し、取得された撮像画像に第２処理（ステップＳｔ１００）を実行する。

　また、画像処理装置Ｐ１は、第２処理と並列に、カメラＣＭによって撮像された撮像画像と、第１処理中に実行された複数回の第２処理により得られた特徴マッチングの結果（言い換えると、マッチング傾向）および対象物Ｔｇの移動量（言い換えると、動き情報）とに基づいて、第１処理（ステップＳｔ２００）を実行する。画像処理装置Ｐ１は、第１処理により得られた対象物Ｔｇのテンプレート候補である予測テンプレートＴＰ２（図７参照）を第２処理にフィードバックする。

　図４に示す例において、カメラＣＭは、時刻ｔ１１で対象物Ｔｇを撮像し、撮像された撮像画像Ｉｍｇ１１を画像処理装置Ｐ１に送信する。画像処理装置Ｐ１は、カメラＣＭから送信された１枚目の撮像画像Ｉｍｇ１１（画像データ）を取得し、１枚目の撮像画像Ｉｍｇ１１を用いて第１処理および第２処理のそれぞれを実行する。画像処理装置Ｐ１は、第２処理により得られた対象物Ｔｇのマッチング傾向と、対象物Ｔｇの動き情報とを第１処理部１１０に出力するとともに、対象物Ｔｇの予測位置（ｘ１，ｙ１，ｚ１）の情報をアクチュエータＡＣに送信する。アクチュエータＡＣは、取得された対象物Ｔｇの３次元の予測位置（ｘ１，ｙ１，ｚ１）に向かってエンドエフェクタＥＦを移動させる。

　時刻ｔ１２において、カメラＣＭは、対象物Ｔｇを撮像する。カメラＣＭは、撮像された撮像画像Ｉｍｇ１２を画像処理装置Ｐ１に送信する。画像処理装置Ｐ１は、カメラＣＭから送信された２枚目の撮像画像Ｉｍｇ１２（画像データ）を取得し、２枚目の撮像画像Ｉｍｇ１２を用いて第２処理を実行する。画像処理装置Ｐ１は、第２処理により得られた対象物Ｔｇのマッチング傾向と、対象物Ｔｇの動き情報とを第１処理部１１０に出力するとともに、対象物Ｔｇの予測位置（ｘ２，ｙ２，ｚ２）の情報をアクチュエータＡＣに送信する。アクチュエータＡＣは、取得された対象物Ｔｇの予測位置（ｘ２，ｙ２，ｚ２）に向かってエンドエフェクタＥＦを移動させる。

　時刻ｔ１３において、カメラＣＭは、対象物Ｔｇを撮像する。カメラＣＭは、撮像された撮像画像Ｉｍｇ１３を画像処理装置Ｐ１に送信する。画像処理装置Ｐ１は、カメラＣＭから送信された３枚目の撮像画像Ｉｍｇ１３（画像データ）を取得し、３枚目の撮像画像Ｉｍｇ１３を用いて第２処理を実行する。画像処理装置Ｐ１は、第２処理により得られた対象物Ｔｇのマッチング傾向と、対象物Ｔｇの動き情報とを第１処理部１１０に出力するとともに、対象物Ｔｇの予測位置（図示略）の情報をアクチュエータＡＣに送信する。アクチュエータＡＣは、取得された対象物Ｔｇの予測位置に向かってエンドエフェクタＥＦを移動させる。

　時刻ｔ１（Ｎ－２）において、カメラＣＭは、対象物Ｔｇを撮像する。カメラＣＭは、撮像された撮像画像Ｉｍｇ１（Ｎ－２）を画像処理装置Ｐ１に送信する。画像処理装置Ｐ１は、カメラＣＭから送信された（Ｎ－２）枚目の撮像画像Ｉｍｇ１（Ｎ－２）（画像データ）を取得し、（Ｎ－２）枚目の撮像画像Ｉｍｇ１（Ｎ－２）を用いて第２処理を実行する。画像処理装置Ｐ１は、第２処理により得られた対象物Ｔｇのマッチング傾向と、対象物Ｔｇの動き情報とを第１処理部１１０に出力するとともに、対象物Ｔｇの予測位置（図示略）の情報をアクチュエータＡＣに送信する。アクチュエータＡＣは、取得された対象物Ｔｇの予測位置に向かってエンドエフェクタＥＦを移動させる。

　時刻ｔ１（Ｎ－１）において、カメラＣＭは、対象物Ｔｇを撮像する。カメラＣＭは、撮像された撮像画像Ｉｍｇ１（Ｎ－１）を画像処理装置Ｐ１に送信する。画像処理装置Ｐ１は、カメラＣＭから送信された（Ｎ－１）枚目の撮像画像Ｉｍｇ１（Ｎ－１）（画像データ）を取得し、（Ｎ－１）枚目の撮像画像Ｉｍｇ１（Ｎ－１）を用いて第２処理を実行する。画像処理装置Ｐ１は、第２処理により得られた対象物Ｔｇのマッチング傾向と、対象物Ｔｇの動き情報とを第１処理部１１０に出力するとともに、対象物Ｔｇの予測位置（図示略）の情報をアクチュエータＡＣに送信する。アクチュエータＡＣは、取得された対象物Ｔｇの予測位置に向かってエンドエフェクタＥＦを移動させる。

　時刻ｔ１Ｎにおいて、カメラＣＭは、対象物Ｔｇを撮像する。カメラＣＭは、撮像された撮像画像Ｉｍｇ１Ｎを画像処理装置Ｐ１に送信する。画像処理装置Ｐ１は、カメラＣＭから送信されたＮ枚目の撮像画像Ｉｍｇ１Ｎ（画像データ）を取得し、Ｎ枚目の撮像画像Ｉｍｇ１Ｎを用いて第２処理を実行する。画像処理装置Ｐ１は、第２処理により得られた対象物Ｔｇのマッチング傾向と、対象物Ｔｇの動き情報とを第１処理部１１０に出力するとともに、対象物Ｔｇの予測位置（ｘＮ，ｙＮ，ｚＮ）の情報をアクチュエータＡＣに送信する。アクチュエータＡＣは、取得された対象物Ｔｇの予測位置（ｘＮ，ｙＮ，ｚＮ）に向かってエンドエフェクタＥＦを移動させて、対象物Ｔｇをピッキングする。画像処理装置Ｐ１は、時刻ｔ１（Ｎ＋１）で第１処理により得られた対象物Ｔｇのテンプレート候補（予測テンプレートＴＰ２）を第２処理部１２０にフィードバックし、テンプレート候補（予測テンプレートＴＰ２）を更新する。

　なお、図４に示す例では図示されていないが、画像処理装置Ｐ１は、以降に実行される第２処理において、再度第１処理により新たな予測テンプレートＴＰ２がフィードバックされるまでの間、取得された最新の予測テンプレートＴＰ２を用いて特徴マッチングを実行する。

　次に、図５を参照して、画像処理装置Ｐ１の第２処理について説明する。図５は、実施の形態１における画像処理装置Ｐ１の第２処理手順（ステップＳｔ１００）例を示すフローチャートである。

　第２処理部１２０は、操作デバイス１４を介して取得されたピッキング処理の開始を通知する制御指令に基づいて、対象物Ｔｇのテンプレートを更新するための更新フラグを「１」に設定する（Ｓｔ１１）。第２処理部１２０は、カメラＣＭから送信された撮像画像を取得する（Ｓｔ１２）。

　第２処理部１２０は、現在設定されている更新フラグが「１」であるか否かを判定する（Ｓｔ１３）。

　第２処理部１２０は、ステップＳｔ１３の処理において、現在設定されている更新フラグが「１」であると判定した場合（Ｓｔ１３，ＹＥＳ）、特徴マッチングに用いられる対象物Ｔｇのテンプレート（テンプレートＴＰ１または予測テンプレートＴＰ２）を更新する（Ｓｔ１４）。第２処理部１２０は、テンプレート候補（予測テンプレートＴＰ２）を生成するための対象物Ｔｇの撮像画像を第１処理部１１０に出力し（Ｓｔ１５）、更新フラグを「０」に設定する（Ｓｔ１６）。

　一方、第２処理部１２０は、ステップＳｔ１３の処理において、現在設定されている更新フラグが「１」でないと判定した場合（Ｓｔ１３，ＮＯ）、特徴マッチングに用いられる対象物Ｔｇのテンプレート（予測テンプレートＴＰ２）があるか否かを判定する（Ｓｔ１７）。

　第２処理部１２０は、ステップＳｔ１７の処理において、特徴マッチングに用いられる対象物Ｔｇのテンプレート（予測テンプレートＴＰ２）があると判定した場合（Ｓｔ１７，ＹＥＳ）、撮像画像から特徴量を抽出する（Ｓｔ１８）。

　一方、第２処理部１２０は、ステップＳｔ１７の処理において、特徴マッチングに用いられる対象物Ｔｇのテンプレート（予測テンプレートＴＰ２）がないと判定した場合（Ｓｔ１７，ＮＯ）、ステップＳｔ１３の処理に戻り、第１処理部１１０から対象物Ｔｇのテンプレート（テンプレートＴＰ１または予測テンプレートＴＰ２）がフィードバックされるまで待機する。

　第２処理部１２０は、撮像画像から抽出された特徴量（つまり、撮像画像の特徴量）と、テンプレートに基づく対象物Ｔｇの特徴量（つまり、テンプレートの特徴量）とを特徴マッチングする。第２処理部１２０は、マッチング結果に基づいて、カメラＣＭにより撮像された撮像画像に写る対象物Ｔｇの位置をフィッティングする（Ｓｔ１９）。

　第２処理部１２０は、特徴マッチングに用いられた撮像画像（つまり、最新の撮像画像）と、この撮像画像と連続して撮像された１つ前の撮像画像との間での対象物Ｔｇの移動量を算出する。第２処理部１２０は、算出された移動量に基づいて、第２処理を実行する間の対象物Ｔｇの移動量を予測し、第２処理が終了するタイミングにおける対象物Ｔｇの位置を予測し、予測された対象物Ｔｇの予測位置を取得する（Ｓｔ２０）。第２処理部１２０は、予測された対象物Ｔｇの予測位置をアクチュエータＡＣに送信する（Ｓｔ２１）。

　第２処理部１２０は、特徴マッチング結果であるマッチング傾向と、対象物Ｔｇの動き情報（移動情報）とを第１処理部１１０に出力する（Ｓｔ２２）。

　第２処理部１２０は、アクチュエータＡＣによる対象物Ｔｇのピッキング処理の終了を通知する制御指令に基づいて、対象物Ｔｇのピッキング処理が終了したか否かを判定する（Ｓｔ２３）。

　第２処理部１２０は、ステップＳｔ２３の処理において、対象物Ｔｇのピッキング処理が終了したと判定した場合（Ｓｔ２３，ＹＥＳ）、図５に示す第２処理（ステップＳｔ１００）を終了する。

　一方、第２処理部１２０は、ステップＳｔ２３の処理において、対象物Ｔｇのピッキング処理が終了していないと判定した場合（Ｓｔ２３，ＮＯ）、ステップＳｔ１１の処理に戻る。

　以上により、実施の形態１における画像処理装置Ｐ１は、第２処理により高フレームレートで撮像された撮像画像に基づいて、第２処理を実行する間の対象物Ｔｇの移動量を予測し、第２処理が終了するタイミングにおける対象物Ｔｇの位置を予測できる。これにより、画像処理装置Ｐ１は、アクチュエータＡＣによる対象物Ｔｇのリアルタイムな追跡を支援できる。

　次に、図６を参照して、画像処理装置Ｐ１の第１処理について説明する。図６は、実施の形態１における画像処理装置Ｐ１の第１処理手順（ステップＳｔ２００）例を示すフローチャートである。

　第１処理部１１０は、第２処理部１２０から出力された撮像画像を取得する（Ｓｔ３１）。第１処理部１１０は、Ｄｅｅｐ　Ｌｅａｒｎｉｎｇ等の高度な画像処理技術を用いて、取得された撮像画像から対象物Ｔｇを検出する（Ｓｔ３２）。

　第１処理部１１０は、検出された対象物Ｔｇに基づいて、３ＤモデルデータベースＤＢに格納された３Ｄモデルのうち対象物Ｔｇに対応する３ＤモデルＭＤを選出する。第１処理部１１０は、選出された３ＤモデルＭＤと、検出された対象物Ｔｇとを３Ｄマッチングして、撮像画像に写る対象物Ｔｇの検出姿勢（言い換えると、対象物Ｔｇが撮像された撮像姿勢）を取得する（Ｓｔ３３）。これにより、第１処理部１１０は、検出テンプレートＴＰ３（図７参照）を生成するための検出姿勢を取得できる。第１処理部１１０は、第２処理部１２０から取得された特徴マッチング結果および対象物Ｔｇの動き情報に基づいて、対象物Ｔｇの姿勢（言い換えると、撮像姿勢）を予測するための予測モデルを更新する（Ｓｔ３４）。

　第１処理部１１０は、更新された対象物Ｔｇの姿勢（言い換えると、撮像姿勢）を予測するための予測モデルと、対象物Ｔｇの検出姿勢とに基づいて、第１処理が終了するタイミング（時刻）における対象物Ｔｇの姿勢に対応するテンプレート候補を予測し（Ｓｔ３５）、予測されたテンプレート候補（予測テンプレートＴＰ２）を第２処理部１２０にフィードバック（出力）する（Ｓｔ３６）。

　第１処理部１１０は、対象物Ｔｇのテンプレートを更新するための更新フラグを「１」に設定する（Ｓｔ３７）。

　第１処理部１１０は、アクチュエータＡＣによる対象物Ｔｇのピッキング処理の終了を通知する制御指令に基づいて、対象物Ｔｇのピッキング処理が終了したか否かを判定する（Ｓｔ３８）。

　第１処理部１１０は、ステップＳｔ３８の処理において、対象物Ｔｇのピッキング処理が終了したと判定した場合（Ｓｔ３８，ＹＥＳ）、図６に示す第１処理（ステップＳｔ２００）を終了する。

　一方、第１処理部１１０は、ステップＳｔ３８の処理において、対象物Ｔｇのピッキング処理が終了していないと判定した場合（Ｓｔ３８，ＮＯ）、ステップＳｔ３１の処理に戻る。

　以上により、実施の形態１における画像処理装置Ｐ１は、第１処理によってより高度な画像認識処理を実行することで、第２処理で用いられる予測テンプレートＴＰ２を生成するための対象物Ｔｇの３ＤモデルＭＤをより高精度に選定できる。また、画像処理装置Ｐ１は、処理時間が短い第２処理部１２０から出力された特徴マッチング結果および対象物Ｔｇの動き情報のそれぞれに基づいて、第１処理中に変化する対象物Ｔｇの姿勢変化を追跡し、実際の対象物Ｔｇの姿勢により近い対象物Ｔｇのテンプレート（予測テンプレートＴＰ２）を生成できる。これにより、画像処理装置Ｐ１は、第２処理部１２０による特徴マッチング精度を向上させることができるとともに、対象物Ｔｇを追跡する追跡精度を向上させることができる。

　次に、図７を参照して、テンプレート表示画面について説明する。図７は、テンプレート表示画面ＳＣの一例を示す図である。なお、図７に示すテンプレート表示画面ＳＣは一例であってこれに限定されない。

　第１処理部１１０は、第１処理の結果に基づいて、テンプレート表示画面ＳＣを生成し、生成されたテンプレート表示画面ＳＣをディスプレイ１３に送信して表示させる。テンプレート表示画面ＳＣは、第１表示領域ＡＲ１と、第２表示領域ＡＲ２と、第３表示領域ＡＲ３と、第４表示領域ＡＲ４と、第５表示領域ＡＲ５と、登録ボタンＢＴとを含む。

　第１表示領域ＡＲ１は、第１処理における画像処理により得られた、または、後述する実施の形態１の変形例においてユーザ操作により選択された対象物Ｔｇの３ＤモデルＭＤと、この対象物Ｔｇの３ＤモデルＭＤのデータに設定されているＸＹＺ座標系とを含む。

　また、第１表示領域ＡＲ１は、テンプレートＴＰ１に対応するカメラＣＭの撮像角度を示すアイコンＰＰ１と、予測テンプレートＴＰ２に対応するカメラＣＭの撮像角度（第１撮像位置の一例）を示すアイコンＰＰ２と、検出テンプレートＴＰ３に対応するカメラＣＭの撮像角度（第２撮像位置の一例）を示すアイコンＰＰ３とを含む。

　アイコンＰＰ１は、操作デバイス１４を介して、ユーザ操作を受け付け可能である。画像処理装置Ｐ１は、ユーザ操作によりアイコンＰＰ１の位置が変更された場合、対象物Ｔｇの３ＤモデルＭＤをアイコンＰＰ１の位置（角度）から見た３ＤモデルＭＤのテンプレート（２Ｄ）を生成する。画像処理装置Ｐ１は、生成された３ＤモデルＭＤのテンプレート（２Ｄ）をテンプレートＴＰ１として第３表示領域ＡＲ３に表示したテンプレート表示画面ＳＣを生成して、ディスプレイ１３に送信して表示させる。

　アイコンＰＰ２は、予測テンプレートＴＰ２の３ＤモデルＭＤのテンプレート（２Ｄ）を撮像可能なカメラＣＭの位置（角度）であって、次に撮像される対象物Ｔｇの撮像位置を示す。画像処理装置Ｐ１は、第２処理により得られた対象物Ｔｇの予測位置に基づいて、第１処理により対象物Ｔｇの予測姿勢を予測した場合、予測された対象物Ｔｇの予測姿勢に基づいて、アイコンＰＰ２の位置と、第４表示領域ＡＲ４に表示される予測テンプレートＴＰ２の更新を実行する。画像処理装置Ｐ１は、アイコンＰＰ２の位置および予測テンプレートＴＰ２が更新されたテンプレート表示画面ＳＣを生成して、ディスプレイ１３に送信して表示させる。

　アイコンＰＰ３は、検出テンプレートＴＰ３の３ＤモデルＭＤのテンプレート（２Ｄ）を撮像可能なカメラＣＭの位置（角度）であって、画像処理が実行された撮像画像から検出された対象物Ｔｇの撮像位置を示す。画像処理装置Ｐ１は、第１処理により検出された対象物Ｔｇの姿勢に基づいて、アイコンＰＰ３の位置と、第５表示領域ＡＲ５に表示される検出テンプレートＴＰ３の更新を実行する。画像処理装置Ｐ１は、アイコンＰＰ３の位置および検出テンプレートＴＰ３が更新されたテンプレート表示画面ＳＣを生成して、ディスプレイ１３に送信して表示させる。

　第２表示領域ＡＲ２は、３ＤモデルデータベースＤＢに格納された少なくとも１つの対象物の３ＤモデルＭＤを含む。図７に示す第２表示領域ＡＲ２は、対象物「Ａ１２」の３ＤモデルＭＤ（３Ｄ）と、対象物「Ａ１３」の３ＤモデルＭＤ（３Ｄ）と、対象物「Ａ１４」の３ＤモデルＭＤ（３Ｄ）と、対象物「Ａ１５」の３ＤモデルＭＤ（３Ｄ）とを含む。

　なお、第２表示領域ＡＲ２は、操作デバイス１４を介して、いずれか１つの対象物を選択するユーザ操作を受け付け可能である。画像処理装置Ｐ１は、各対象物に対応する選択領域ＳＬ１，ＳＬ２，ＳＬ３，ＳＬ４のうちいずれか１つの選択領域を選択するユーザ操作を受け付け、ユーザ操作により指定されたいずれかの選択領域ＳＬ１～ＳＬ４に対応する３Ｄモデルを第１表示領域ＡＲ１に表示する。

　また、実施の形態１の変形例２における画像処理装置Ｐ１は、第１表示領域ＡＲ１に表示されたアイコンＰＰ１に対するユーザ操作を受け付け、ユーザ操作により移動されたアイコンＰＰ１の位置に基づいて、アイコンＰＰ１の位置に対応する３Ｄモデルのテンプレート（２Ｄ）を第３表示領域ＡＲ３に表示する。画像処理装置Ｐ１は、ユーザ操作により登録ボタンＢＴが選択（押下）された場合、第３表示領域ＡＲ３に表示されているテンプレート（２Ｄ）を、第２処理の特徴マッチングに使用されるテンプレートとして更新（登録）する。

　第３表示領域ＡＲ３は、アイコンＰＰ１の位置（角度）から対象物Ｔｇの３ＤモデルＭＤが撮像された場合のテンプレートＴＰ１（２Ｄ）を含む。

　第４表示領域ＡＲ４は、アイコンＰＰ２の位置（角度）、つまり、予測姿勢から対象物Ｔｇの３ＤモデルＭＤが撮像された場合の予測テンプレートＴＰ２（２Ｄ）を含む。

　第５表示領域ＡＲ５は、アイコンＰＰ３の位置（角度）、つまり、対象物Ｔｇが検出された姿勢から対象物Ｔｇの３ＤモデルＭＤが撮像された場合の検出テンプレートＴＰ３（２Ｄ）を含む。

　登録ボタンＢＴは、ユーザ操作に基づいて移動されたアイコンＰＰ１に対応するテンプレート（２Ｄ）の生成を受け付け可能なボタンである。

（実施の形態１の変形例１）
　実施の形態１に係るピッキングシステム１００は、３Ｄモデルを用いた３Ｄマッチングによりテンプレート予測を実行する例を示した。実施の形態１の変形例１に係るピッキングシステム１００は、第１処理で検出された対象物Ｔｇの位置と、第１処理を実行している間に実行された複数回の第２処理で得られた対象物Ｔｇの移動に関する情報および複数回の第２処理に用いられた撮像画像とに基づいて、テンプレート予測を実行する例について説明する。

　なお、実施の形態１の変形例１に係るピッキングシステム１００の内部構成例は、実施の形態１に係るピッキングシステム１００の内部構成例とほぼ同一の構成を有するため、説明を省略する。

　次に、図８を参照して、ピッキングシステム１００の全体動作手順について説明する。図８は、実施の形態１の変形例１に係るピッキングシステム１００の全体動作手順例を説明する図である。

　なお、図８に示すピッキングシステム１００の全体動作手順例は一例であって、これに限定されない。図８では、第１処理と第２処理との関係を分かりやすくするために１個の対象物Ｔｇのピッキングにおいて第１処理が１回、第２処理がＮ回実行される例を示しているが、第１処理および第２処理がそれぞれ実行される回数は、これに限定されない。ピッキングシステム１００は、１個の対象物Ｔｇのピッキングにおいて第１処理を複数回実行してもよいことは言うまでもない。

　アクチュエータＡＣは、カメラＣＭによってベルトコンベア上を搬送される対象物Ｔｇを所定のフレームレート（例えば、１０００ｆｐｓ）で撮像しながら、ピッキングする。図８に示すアクチュエータＡＣは、対象物Ｔｇのピッキングプロセスの一部（時刻ｔ１１～時刻ｔ１Ｎ）を示しており、例えば、対象物Ｔｇをピッキングするまで繰り返し実行される。

　また、画像処理装置Ｐ１は、第２処理と並列に、カメラＣＭによって撮像された撮像画像と、第１処理中に実行された複数回の第２処理により得られた対象物Ｔｇの動き情報等の移動に関する情報および複数回の第２処理に使用された撮像画像とに基づいて、第１処理（ステップＳｔ２００Ａ）を実行する。画像処理装置Ｐ１は、第１処理により得られた対象物Ｔｇのテンプレート候補である予測テンプレートＴＰ２（図７参照）を第２処理にフィードバックする。

　図８に示す例において、カメラＣＭは、時刻ｔ１１で対象物Ｔｇを撮像し、撮像された撮像画像Ｉｍｇ１１を画像処理装置Ｐ１に送信する。画像処理装置Ｐ１は、カメラＣＭから送信された１枚目の撮像画像Ｉｍｇ１１（画像データ）を取得し、１枚目の撮像画像Ｉｍｇ１１を用いて第１処理および第２処理のそれぞれを実行する。画像処理装置Ｐ１は、第２処理により得られた対象物Ｔｇの動き情報（移動に関する情報）と、第２処理に使用された１枚目の撮像画像Ｉｍｇ１１とを第１処理部１１０に出力するとともに、対象物Ｔｇの予測位置（ｘ１，ｙ１，ｚ１）の情報をアクチュエータＡＣに送信する。アクチュエータＡＣは、取得された対象物Ｔｇの３次元の予測位置（ｘ１，ｙ１，ｚ１）に向かってエンドエフェクタＥＦを移動させる。

　時刻ｔ１２において、カメラＣＭは、対象物Ｔｇを撮像する。カメラＣＭは、撮像された撮像画像Ｉｍｇ１２を画像処理装置Ｐ１に送信する。画像処理装置Ｐ１は、カメラＣＭから送信された２枚目の撮像画像Ｉｍｇ１２（画像データ）を取得し、２枚目の撮像画像Ｉｍｇ１２を用いて第２処理を実行する。画像処理装置Ｐ１は、第２処理により得られた対象物Ｔｇの動き情報（移動に関する情報）と、第２処理に使用された２枚目の撮像画像Ｉｍｇ１２とを第１処理部１１０に出力するとともに、対象物Ｔｇの予測位置（ｘ２，ｙ２，ｚ２）の情報をアクチュエータＡＣに送信する。アクチュエータＡＣは、取得された対象物Ｔｇの予測位置（ｘ２，ｙ２，ｚ２）に向かってエンドエフェクタＥＦを移動させる。

　以降、ピッキングシステム１００は、時刻ｔ１３～時刻ｔ１（Ｎ－１）で同様の処理を繰り返し実行する。

　時刻ｔ１Ｎにおいて、カメラＣＭは、対象物Ｔｇを撮像する。カメラＣＭは、撮像された撮像画像Ｉｍｇ１Ｎを画像処理装置Ｐ１に送信する。画像処理装置Ｐ１は、カメラＣＭから送信されたＮ枚目の撮像画像Ｉｍｇ１Ｎ（画像データ）を取得し、Ｎ枚目の撮像画像Ｉｍｇ１Ｎを用いて第２処理を実行する。画像処理装置Ｐ１は、第２処理により得られた対象物Ｔｇの動き情報（移動に関する情報）と、第２処理に使用されたＮ枚目の撮像画像Ｉｍｇ１Ｎとを第１処理部１１０に出力するとともに、対象物Ｔｇの予測位置（ｘＮ，ｙＮ，ｚＮ）の情報をアクチュエータＡＣに送信する。アクチュエータＡＣは、取得された対象物Ｔｇの予測位置（ｘＮ，ｙＮ，ｚＮ）に向かってエンドエフェクタＥＦを移動させて、対象物Ｔｇをピッキングする。画像処理装置Ｐ１は、ユーザ操作により選択された対象物ＴｇのテンプレートＩｍｇ３１を第２処理部１２０にフィードバックする。

　以上により、実施の形態１の変形例１における画像処理装置Ｐ１は、対象物Ｔｇの３ＤモデルＭＤを使用せずに、テンプレート予測を実行できる。

（実施の形態１の変形例２）
　実施の形態１に係るピッキングシステム１００は、第２処理により得られたマッチング傾向および対象物Ｔｇの移動に関する情報を使用してテンプレートを予測する例を示した。実施の形態１の変形例２に係るピッキングシステム１００は、ユーザ操作に基づいて得られたテンプレートＴＰ１を用いてテンプレートを生成する例について説明する。

　なお、実施の形態１の変形例２に係るピッキングシステム１００の内部構成例は、実施の形態１に係るピッキングシステム１００の内部構成例とほぼ同一の構成を有するため、説明を省略する。

　次に、図９を参照して、画像処理装置Ｐ１の第１処理について説明する。図９は、実施の形態１の変形例２における画像処理装置Ｐ１の第１処理手順（ステップＳｔ２００Ｂ）例を示すフローチャートである。

　なお、図９に示す第１処理の動作手順例は、図６に示した第１処理の動作手順例とステップＳｔ３１～ステップＳｔ３２、およびステップＳｔ３４～ステップＳｔ３８のそれぞれが同様であるため、説明を省略する。

　第１処理部１１０は、アイコンＰＰ１の操作および登録ボタンＢＴを押下操作するユーザ操作に基づく対象物ＴｇのテンプレートＴＰ１が登録されているか否かを判定する（Ｓｔ３０Ａ）。

　第１処理部１１０は、ステップＳｔ３０Ａの処理において、対象物ＴｇのテンプレートＴＰ１が登録されていると判定した場合（Ｓｔ３０Ａ，ＹＥＳ）、登録済みのテンプレートＴＰ１を予測テンプレートＴＰ２の代わりに第２処理部１２０にフィードバックする（Ｓｔ３０Ｂ）。

　一方、第１処理部１１０は、ステップＳｔ３０Ａの処理において、対象物ＴｇのテンプレートＴＰ１が登録されていないと判定した場合（Ｓｔ３０Ａ，ＮＯ）、第２処理部１２０から出力された撮像画像を取得する（Ｓｔ３１）。

　以上により、実施の形態１の変形例２における画像処理装置Ｐ１は、予測テンプレートＴＰ２の代わりに、ユーザにより指定されたテンプレートＴＰ１を用いた特徴マッチングを実行することで、第２処理部１２０による特徴マッチング精度を向上させることができるとともに、対象物Ｔｇを追跡する追跡精度を向上させることができる。

　以上により、実施の形態１および実施の形態１の変形例１に係る画像処理装置Ｐ１は、移動可能であって、かつ、対象物Ｔｇを撮像可能なカメラＣＭとの間で通信可能であって、対象物Ｔｇが撮像された撮像画像を取得し、撮像画像から対象物Ｔｇの位置または姿勢の検出を行い、対象物Ｔｇの予測テンプレートＴＰ２（テンプレートの一例）を生成する第１処理（ステップＳｔ２００，Ｓｔ２００Ａ）を実行し、第１処理を実行中に、撮像画像と対象物Ｔｇの予測テンプレートＴＰ２とに基づく特徴マッチング（テンプレートマッチングの一例）を実行し、対象物Ｔｇの移動に関する情報を取得する第２処理を複数回実行する。第１処理は、検出された対象物Ｔｇの位置または姿勢と、第２処理で複数回取得された対象物Ｔｇの移動に関する情報とに基づいて、対象物Ｔｇの姿勢を予測し、対象物Ｔｇの予測姿勢に対応する対象物Ｔｇの予測テンプレートＴＰ２を生成する。

　これにより、実施の形態１および実施の形態１の変形例１に係る画像処理装置Ｐ１は、第１処理によって予測テンプレートＴＰ２を生成するとともに、第２処理部１２０から出力された特徴マッチング結果および対象物Ｔｇの位置情報のそれぞれに基づいて、第１処理中に変化する対象物Ｔｇの姿勢変化を追跡し、実際の対象物Ｔｇの姿勢により近い対象物Ｔｇのテンプレート（予測テンプレートＴＰ２）を生成できる。

　また、実施の形態１および実施の形態１の変形例１に係る画像処理装置Ｐ１は、撮像画像から対象物Ｔｇの特徴量を抽出し、抽出された対象物Ｔｇの特徴量と予測テンプレートＴＰ２に写る対象物Ｔｇの特徴量とに基づいて、特徴マッチングを実行する。これにより、実施の形態１および実施の形態１の変形例１に係る画像処理装置Ｐ１は、特徴マッチングに基づく位置フィッティングにより、撮像画像に写る対象物Ｔｇの位置を取得できる。

　また、実施の形態１に係る画像処理装置Ｐ１における第１処理は、撮像画像から検出された対象物Ｔｇと、３ＤモデルデータベースＤＢ(データベースの一例)に記録された３ＤモデルＭＤとに基づく３Ｄマッチングを実行して、対象物Ｔｇの姿勢を特定し、複数回実行された第２処理により取得された対象物Ｔｇの移動に関する情報に基づいて、対象物Ｔｇの姿勢を予測し、対象物Ｔｇの予測テンプレートＴＰ２を生成する。これにより、実施の形態１に係る画像処理装置Ｐ１は、撮像画像に写る対象物Ｔｇの姿勢を取得できる。

　また、実施の形態１に係る画像処理装置Ｐ１は、対象物Ｔｇの予測姿勢に基づいて、３ＤモデルＭＤに対するカメラＣＭの第１撮像位置を取得し、３ＤモデルＭＤと、対象物Ｔｇの予測姿勢とに基づいて、予測姿勢に対応する予測テンプレートＴＰ２を生成し、３ＤモデルＭＤと、３ＤモデルＭＤに対する第１撮像位置と、予測テンプレートＴＰ２とを対応付けて、ディスプレイ１３に出力する。これにより、実施の形態１に係る画像処理装置Ｐ１は、予測テンプレートＴＰ２が対象物Ｔｇの３ＤモデルＭＤを第１撮像位置から撮像した場合のテンプレート（２Ｄ画像）である旨をユーザに可視化できる。ユーザは、予測テンプレートＴＰ２と、第１撮像位置とに基づいて、画像処理装置Ｐ１により認識されている対象物Ｔｇの３ＤモデルＭＤが正しい３ＤモデルＭＤであるか否かを目視確認できる。

　また、実施の形態１に係る画像処理装置Ｐ１は、撮像画像から対象物Ｔｇを検出して、検出された対象物Ｔｇの検出姿勢を特定し、検出姿勢に基づいて、３ＤモデルＭＤに対するカメラＣＭの第２撮像位置を取得し、３ＤモデルＭＤと、検出姿勢とに基づいて、検出姿勢に対応する検出テンプレートＴＰ３を生成し、３ＤモデルＭＤと、３ＤモデルＭＤに対する第２撮像位置と、検出テンプレートＴＰ３とを対応付けて、ディスプレイ１３に出力する。これにより、実施の形態１に係る画像処理装置Ｐ１は、検出テンプレートＴＰ３が対象物Ｔｇの３ＤモデルＭＤを第２撮像位置から撮像した場合のテンプレート（２Ｄ画像）である旨をユーザに可視化できる。ユーザは、検出テンプレートＴＰ３と、第２撮像位置とに基づいて、画像処理装置Ｐ１により認識されている対象物Ｔｇの３ＤモデルＭＤが正しい３ＤモデルＭＤであるか否かを目視確認できる。

　また、実施の形態１に係る画像処理装置Ｐ１は、３ＤモデルＭＤを指定する指定情報を取得し、指定情報に対応する３ＤモデルＭＤに基づいて、対象物Ｔｇの予測テンプレートＴＰ２を生成する。これにより、実施の形態１に係る画像処理装置Ｐ１は、対象物Ｔｇ以外の背景が綺麗、つまり、ノイズが少ないテンプレートを生成することによって、第２処理の特徴マッチング処理でより高精度な位置特定が可能になる。また、画像処理装置Ｐ１は、第１処理を行う間に変化する対象物Ｔｇの位置あるいは姿勢を補正した予測テンプレートＴＰ２を生成することによって、カメラＣＭにより撮像された対象物Ｔｇの姿勢または位置の変化をリアルタイムに追跡できる。

　また、実施の形態１の変形例２に係る画像処理装置Ｐ１は、テンプレートＴＰ１を指定する指定情報を取得し、撮像画像から対象物Ｔｇの特徴量を抽出し、抽出された対象物Ｔｇの特徴量と、指定情報に対応するテンプレートＴＰ１に写る対象物Ｔｇの特徴量とに基づいて、特徴マッチングを実行する。これにより、実施の形態１の変形例２に係る画像処理装置Ｐ１は、特徴マッチングに基づく位置フィッティングにより、撮像画像に写る対象物Ｔｇの位置を取得できる。

　また、実施の形態１および実施の形態１の変形例１，変形例２に係る画像処理装置Ｐ１において、カメラＣＭで撮像される撮像画像に対して、第２処理は、第１処理と異なるフレームレートで実行する。これにより、実施の形態１および実施の形態１の変形例１，変形例２に係る画像処理装置Ｐ１は、高度な低速画像処理（第１処理）と低度な高速画像処理技術（第２処理）とを組み合わせることで、カメラＣＭにより撮像された対象物Ｔｇの姿勢または位置の変化をリアルタイムに追跡できる。

　また、実施の形態１および実施の形態１の変形例１に係る画像処理装置Ｐ１は、移動可能であって、かつ、対象物Ｔｇを撮像可能なカメラＣＭにより撮像された対象物Ｔｇの撮像画像を取得する通信部１０（取得部の一例）と、撮像画像から対象物Ｔｇの位置または姿勢の検出を行い、対象物Ｔｇのテンプレートを生成する第１処理部１１０と、第１処理部１１０による対象物Ｔｇのテンプレートの生成中に、複数回、撮像画像と前記対象物Ｔｇのテンプレートとに基づくテンプレートマッチングを実行し、対象物Ｔｇの移動に関する情報を取得する第２処理部１２０と、を備える。第１処理部１１０は、検出された対象物Ｔｇの位置または姿勢と、第２処理部１２０で複数回取得された対象物Ｔｇの移動に関する情報とに基づいて、対象物Ｔｇの姿勢を予測し、対象物Ｔｇの予測姿勢に対応する対象物Ｔｇのテンプレートを生成する。

　これにより、実施の形態１および実施の形態１の変形例１に係る画像処理装置Ｐ１は、第１処理によって予測テンプレートＴＰ２を生成するため、第２処理部１２０から出力された特徴マッチング結果および対象物Ｔｇの位置情報のそれぞれに基づいて、第１処理中に変化する対象物Ｔｇの姿勢変化を追跡し、実際の対象物Ｔｇの姿勢により近い対象物Ｔｇのテンプレート（予測テンプレートＴＰ２）を生成できる。

　以上、添付図面を参照しながら各種の実施の形態について説明したが、本開示はかかる例に限定されない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例、修正例、置換例、付加例、削除例、均等例に想到し得ることは明らかであり、それらについても本開示の技術的範囲に属すると了解される。また、発明の趣旨を逸脱しない範囲において、上述した各種の実施の形態における各構成要素を任意に組み合わせてもよい。

　なお、本出願は、２０２３年４月２７日出願の日本特許出願（特願２０２３－０７３６１８）に基づくものであり、その内容は本出願の中に参照として援用される。

　本開示は、撮像装置の移動に伴って撮像装置からの対象物の姿勢が可変となる状況下でもテンプレートマッチングに使用可能な対象物の高精度なテンプレートを登録する画像処理方法および画像処理装置として有用である。

１０　通信部
１１　プロセッサ
１２　メモリ
１３　ディスプレイ
１４　操作デバイス
１１０　第１処理部
１２０　第２処理部
ＡＣ　アクチュエータ
ＣＭ　カメラ
ＤＢ　３Ｄモデルデータベース
ＭＤ　３Ｄモデル
Ｐ１　画像処理装置
Ｔｇ　対象物

Claims

　移動可能であって、かつ、対象物を撮像可能なカメラとの間で通信可能な画像処理装置が行う画像処理方法であって、
　前記対象物が撮像された撮像画像を取得し、前記撮像画像から前記対象物の位置または姿勢の検出を行い、前記対象物のテンプレートを生成する第１処理を実行し、
　前記第１処理を実行中に、前記撮像画像と前記対象物のテンプレートとに基づくテンプレートマッチングを実行し、前記対象物の移動に関する情報を取得する第２処理を複数回実行し、
　前記第１処理は、検出された前記対象物の位置または姿勢と、前記第２処理で複数回取得された前記対象物の移動に関する情報とに基づいて、前記対象物の姿勢を予測し、前記対象物の予測姿勢に対応する前記対象物のテンプレートを生成する、
　画像処理方法。
　前記撮像画像から前記対象物の特徴量を抽出し、抽出された前記対象物の特徴量と前記テンプレートに写る前記対象物の特徴量とに基づいて、テンプレートマッチングを実行する、
　請求項１に記載の画像処理方法。
　前記第１処理は、前記撮像画像から検出された前記対象物と、データベースに記録された３Ｄモデルとに３Ｄマッチングを実行して、前記対象物の姿勢を特定し、複数回実行された前記第２処理で取得された前記対象物の移動に関する情報に基づいて、前記対象物の姿勢を予測し、前記対象物のテンプレートを生成する、
　請求項１に記載の画像処理方法。
　前記対象物の予測姿勢に基づいて、前記３Ｄモデルに対する前記カメラの第１撮像位置を取得し、
　前記３Ｄモデルと前記対象物の予測姿勢とに基づいて、前記予測姿勢に対応する予測テンプレートを生成し、
　前記３Ｄモデルと、前記３Ｄモデルに対する前記第１撮像位置と、前記予測テンプレートとを対応付けて、ディスプレイに出力する、
　請求項３に記載の画像処理方法。
　前記撮像画像から前記対象物を検出して、検出された前記対象物の検出姿勢を特定し、
　前記検出姿勢に基づいて、前記３Ｄモデルに対する前記カメラの第２撮像位置を取得し、
　前記３Ｄモデルと、前記検出姿勢とに基づいて、前記検出姿勢に対応する検出テンプレートを生成し、
　前記３Ｄモデルと、前記３Ｄモデルに対する前記第２撮像位置と、前記検出テンプレートとを対応付けて、ディスプレイに出力する、
　請求項３に記載の画像処理方法。
　前記３Ｄモデルを指定する指定情報を取得し、
　前記指定情報に対応する３Ｄモデルに基づいて、前記対象物のテンプレートを生成する、
　請求項３に記載の画像処理方法。
　前記テンプレートを指定する指定情報を取得し、
　前記撮像画像から前記対象物の特徴量を抽出し、
　抽出された前記対象物の特徴量と、前記指定情報に対応するテンプレートに写る前記対象物の特徴量とに基づいて、テンプレートマッチングを実行する、
　請求項１に記載の画像処理方法。
　前記カメラで撮像される前記撮像画像に対して、前記第２処理は、前記第１処理と異なるフレームレートで実行する、
　請求項１に記載の画像処理方法。
　移動可能であって、かつ、対象物を撮像可能なカメラにより撮像された前記対象物の撮像画像を取得する取得部と、
　前記撮像画像から前記対象物の位置または姿勢の検出を行い、前記対象物のテンプレートを生成する第１処理部と、
　前記第１処理部による前記対象物のテンプレートの生成中に、複数回、前記撮像画像と前記対象物のテンプレートとに基づくテンプレートマッチングを実行し、前記対象物の移動に関する情報を取得する第２処理部と、を備え、
　前記第１処理部は、検出された前記対象物の位置または姿勢と、前記第２処理部で複数回取得された前記対象物の移動に関する情報とに基づいて、前記対象物の姿勢を予測し、前記対象物の予測姿勢に対応する前記対象物のテンプレートを生成する、
　画像処理装置。