JP2022160144A

JP2022160144A - 学習装置、学習方法、及び学習プログラム

Info

Publication number: JP2022160144A
Application number: JP2021064707A
Authority: JP
Inventors: 徳晃廣瀬; Noriaki Hirose; 峻田口; Shun Taguchi
Original assignee: Toyota Central R&D Labs Inc
Current assignee: Toyota Central R&D Labs Inc
Priority date: 2021-04-06
Filing date: 2021-04-06
Publication date: 2022-10-19
Anticipated expiration: 2041-04-06
Also published as: JP7264184B2

Abstract

【課題】シミュレータの観測量に対してだけでなく、実環境の観測量に対しても同様の性能を発揮するようにニューラルネットワークを学習することができる学習装置、学習方法、及び学習プログラムを提供する。【解決手段】学習装置１０は、シミュレータにより生成された観測量をニューラルネットワークに入力して得られる第１特徴量と、実環境から得られた観測量をニューラルネットワークに入力して得られる第２特徴量とを取得する取得部１１Ａと、第１特徴量と第２特徴量との差を含む評価関数を用いて、ニューラルネットワークを学習する学習部１１Ｂと、を備える。【選択図】図２

Description

本発明は、学習装置、学習方法、及び学習プログラムに関する。

例えば、非特許文献１には、シミュレータ上でロボットアームを用いたマニピュレーションタスクを実行する技術が記載されている。この技術では、箱の中の目標オブジェクトを取り出すことをタスクとしており、目標オブジェクトは、画像として与えられる。また、ロボットの観測量も画像として与えられる。この技術では、シミュレータで学習されたニューラルネットワークを実環境で動作させるために、シミュレータで生成された画像の色味が変化した場合に、ニューラルネットワークの特徴量の変化が小さくなるように学習している。具体的には、シミュレータの画像においてランダムにＲＧＢの数値を変更し、変更前後の画像をニューラルネットワークに入力し、その特徴間の誤差が小さくなるように学習する。

また、非特許文献２には、画像のみを用いたナビゲーションのための制御則を、人がロボットをテレオペレーションして収集したデータから学習する技術が記載されている。この技術では、目標ゴール、及びロボットの観測量は共に画像で与えられ、ロボット自身のカメラの画像が目標ゴールと一致するための制御入力（併進速度、旋回角速度）を出力し、学習する際に予測画像を利用することを特徴としている。この技術では、実環境だけでなく、シミュレータでも仮想的なロボットをテレオペレーションすることでデータを収集し、これらをランダムに混ぜて学習することで、実環境でのナビゲーション性能を向上させている。

Yasuhiro Fujita, et al. "Distributed Reinforcement Learning of Targeted Grasping with Active Vision for Mobile Manipulators" IROS2020 Noriaki Hirose, et al. "Deep visual MPC-policy learning for navigation" IEEE Robotics and Automation Letters, Vol.4, No.4, p.3184-3191, 2020

しかしながら、非特許文献１に記載の技術では、画像の色味（ＲＧＢ）を一様に変化させるのみであるため、その画像変化が実画像とシミュレータ画像との間の違いを表現できない状況では機能しない。また、色味を変化させたときの特徴差がでないニューラルネットワークになるため、例えば、複数の異なる色で同一形状のオブジェクトが入った箱の中から、特定の色のオブジェクトを取り出すことは難しい。

一方、非特許文献２に記載の技術では、実環境で容易にデータセット（特に真値）を集められる場合は、シミュレータのデータと実環境のデータとをランダムに混ぜ合わせることで学習することができる。ただし、実環境で自律移動する際には、目標画像を事前に収集しなければならない。このため、その解決策として、シミュレータの画像を目標画像とすることが考えられる。しかしながら、目標画像をシミュレータの画像、現在のロボットの画像を実環境の画像として学習していない、すなわち、学習では両方ともシミュレータの画像又は両方とも実環境の画像を用いるため、性能が劣化するという問題がある。

つまり、主にシミュレータの観測量を用いて学習されたニューラルネットワークでは、実環境の観測量に対して同様の性能が発揮できない場合がある。

本開示は、上記の事情に鑑みてなされたものであり、シミュレータの観測量に対してだけでなく、実環境の観測量に対しても同様の性能を発揮するようにニューラルネットワークを学習することができる学習装置、学習方法、及び学習プログラムを提供することを目的とする。

上記目的を達成するために、第１態様に係る学習装置は、ニューラルネットワークの学習装置であって、シミュレータにより生成された観測量を前記ニューラルネットワークに入力して得られる第１特徴量と、実環境から得られた観測量を前記ニューラルネットワークに入力して得られる第２特徴量とを取得する取得部と、前記第１特徴量と前記第２特徴量との差を含む評価関数を用いて、前記ニューラルネットワークを学習する学習部と、を備える。

また、第２態様に係る学習装置は、第１態様に係る学習装置において、前記実環境で動作する物体の複数の位置姿勢候補の各々に対応して、前記シミュレータを用いて複数の観測量を生成する生成部と、前記生成部により生成された複数の観測量のうち、前記実環境の前記物体から得られた観測量との類似度が最も高い観測量を、前記ニューラルネットワークに入力する前記シミュレータの観測量として決定する決定部と、を更に備える。

また、第３態様に係る学習装置は、第２態様に係る学習装置において、前記複数の位置姿勢候補が、前記実環境で前記物体が観測量を収集する際に自己位置を推定した結果から得られる。

また、第４態様に係る学習装置は、第１態様～第３態様の何れか１の態様に係る学習装置において、前記シミュレータにより生成された観測量が、前記シミュレータにより生成された画像として表され、前記実環境から得られた観測量が、前記実環境から得られた画像として表される。

また、第５態様に係る学習装置は、第１態様～第３態様の何れか１の態様に係る学習装置において、前記シミュレータにより生成された観測量が、前記シミュレータにより生成された画像及び当該画像の被写体までの距離を表す深度として表され、前記実環境から得られた観測量が、前記実環境から得られた画像及び当該画像の被写体までの距離を表す深度として表される。

更に、上記目的を達成するために、第６態様に係る学習方法は、ニューラルネットワークの学習装置が実行する学習方法であって、シミュレータにより生成された観測量を前記ニューラルネットワークに入力して得られる第１特徴量と、実環境から得られた観測量を前記ニューラルネットワークに入力して得られる第２特徴量とを取得し、前記第１特徴量と前記第２特徴量との差を含む評価関数を用いて、前記ニューラルネットワークを学習する。

更に、上記目的を達成するために、第７態様に係る学習プログラムは、ニューラルネットワークの学習プログラムであって、コンピュータを、シミュレータにより生成された観測量を前記ニューラルネットワークに入力して得られる第１特徴量と、実環境から得られた観測量を前記ニューラルネットワークに入力して得られる第２特徴量とを取得する取得部、及び、前記第１特徴量と前記第２特徴量との差を含む評価関数を用いて、前記ニューラルネットワークを学習する学習部、として機能させる。

本開示の技術によれば、シミュレータの観測量に対してだけでなく、実環境の観測量に対しても同様の性能を発揮するようにニューラルネットワークを学習することができる、という効果を有する。

第１の実施形態に係る学習システムの構成の一例を示すブロック図である。第１の実施形態に係る学習装置の機能的な構成の一例を示すブロック図である。実施形態に係るニューラルネットワークの一例を示す概念図である。第１の実施形態に係る学習プログラムによる処理の流れの一例を示すフローチャートである。第２の実施形態に係る学習装置の機能的な構成の一例を示すブロック図である。第２の実施形態に係る学習プログラムによる処理の流れの一例を示すフローチャートである。

以下、図面を参照して、本開示の技術を実施するための形態の一例について詳細に説明する。なお、動作、作用、機能が同じ働きを担う構成要素及び処理には、全図面を通して同じ符合を付与し、重複する説明を適宜省略する場合がある。各図面は、本開示の技術を十分に理解できる程度に、概略的に示してあるに過ぎない。よって、本開示の技術は、図示例のみに限定されるものではない。また、本実施形態では、本開示の技術と直接的に関連しない構成や周知な構成については、説明を省略する場合がある。

[第１の実施形態]
図１は、第１の実施形態に係る学習システム１００の構成の一例を示すブロック図である。

図１に示すように、本実施形態に係る学習システム１００は、学習装置１０と、シミュレータ２０と、ロボット３０と、を備えて構成される。

シミュレータ２０は、実環境でのロボット３０の動作をシミュレートするシミュレータである。シミュレータ２０は、例えば、公知のシミュレーションソフトウェアを用いて実現される。具体的に、シミュレータ２０は、シミュレーションソフトウェアが予めインストールされた情報処理装置として実現してもよいし、学習装置１０にシミュレーションソフトウェアをインストールして学習装置１０と一体的に実現してもよい。

ロボット３０は、実環境で動作する物体の一例である。ロボット３０には、センサ群及びカメラが設けられている。センサ群は、ロボット３０（自機）の周囲の状況を把握するための各種のセンサにより構成されている。センサ群は、例えば、外部の所定範囲に探査波を送信するミリ波レーダと、少なくとも前方の所定範囲をスキャンするＬＩＤＡＲ（ＬｉｇｈｔＤｅｔｅｃｔｉｏｎａｎｄＲａｎｇｉｎｇ／ＬａｓｅｒＩｍａｇｉｎｇＤｅｔｅｃｔｉｏｎａｎｄＲａｎｇｉｎｇ）と、を含んでいる。また、カメラは、自機の所定方向の所定範囲を撮影する。具体的に、カメラは、自機の全周囲に設けられており、自機の全周囲領域を撮影する。なお、実環境で動作する物体は、ロボット３０に限定されるものではなく、例えば、自動運転車両等であってもよい。

本実施形態に係る学習装置１０には、例えば、サーバコンピュータ、パーソナルコンピュータ（ＰＣ：ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）等の汎用的なコンピュータ装置が適用される。

学習装置１０は、プロセッサ１１と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１２と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１３と、入出力インターフェース（Ｉ／Ｏ）１４と、記憶部１５と、表示部１６と、操作部１７と、通信部１８と、を備えている。なお、プロセッサ１１は、一例として、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）もしくはＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、又は、ＣＰＵ及びＧＰＵの組み合わせであってもよい。

プロセッサ１１、ＲＯＭ１２、ＲＡＭ１３、及びＩ／Ｏ１４は、バスを介して各々接続されている。Ｉ／Ｏ１４には、記憶部１５と、表示部１６と、操作部１７と、通信部１８と、を含む各機能部が接続されている。これらの各機能部は、Ｉ／Ｏ１４を介して、プロセッサ１１と相互に通信可能とされる。

プロセッサ１１、ＲＯＭ１２、ＲＡＭ１３、及びＩ／Ｏ１４によって制御部が構成される。制御部は、学習装置１０の一部の動作を制御するサブ制御部として構成されてもよいし、学習装置１０の全体の動作を制御するメイン制御部の一部として構成されてもよい。制御部の各ブロックの一部又は全部には、例えば、ＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ）等の集積回路又はＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）チップセットが用いられる。上記各ブロックに個別の回路を用いてもよいし、一部又は全部を集積した回路を用いてもよい。上記各ブロック同士が一体として設けられてもよいし、一部のブロックが別に設けられてもよい。また、上記各ブロックのそれぞれにおいて、その一部が別に設けられてもよい。制御部の集積化には、ＬＳＩに限らず、専用回路又は汎用プロセッサを用いてもよい。

記憶部１５としては、例えば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、フラッシュメモリ等が用いられる。記憶部１５には、本実施形態に係る学習プログラム１５Ａが記憶される。なお、この学習プログラム１５Ａは、ＲＯＭ１２に記憶されていてもよい。

学習プログラム１５Ａは、例えば、学習装置１０に予めインストールされていてもよい。学習プログラム１５Ａは、不揮発性の記憶媒体に記憶して、又はネットワークを介して配布して、学習装置１０に適宜インストールすることで実現してもよい。なお、不揮発性の記憶媒体の例としては、ＣＤ-ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、光磁気ディスク、ＨＤＤ、ＤＶＤ-ＲＯＭ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、フラッシュメモリ、メモリカード等が想定される。

表示部１６には、例えば、液晶ディスプレイ（ＬＣＤ:ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）、有機ＥＬ（ＥｌｅｃｔｒｏＬｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイ等が用いられる。表示部１６は、タッチパネルを一体的に有していてもよい。操作部１７には、例えば、キーボードやマウス等の操作入力用のデバイスが設けられている。表示部１６及び操作部１７は、学習装置１０のユーザから各種の指示を受け付ける。表示部１６は、ユーザから受け付けた指示に応じて実行された処理の結果や、処理に対する通知等の各種の情報を表示する。

通信部１８は、インターネット、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）等のネットワークに接続されており、他のＰＣ等の外部機器との間でネットワークを介して通信が可能とされる。

ところで、上述したように、主にシミュレータの観測量を用いて学習されたニューラルネットワークでは、実環境の観測量に対して同様の性能が発揮できない場合がある。

このため、本実施形態に係る学習装置１０のプロセッサ１１は、記憶部１５に記憶されている学習プログラム１５ＡをＲＡＭ１３に書き込んで実行することにより、図２に示す各部として機能する。

図２は、第１の実施形態に係る学習装置１０の機能的な構成の一例を示すブロック図である。

図２に示すように、本実施形態に係る学習装置１０のプロセッサ１１は、取得部１１Ａ及び学習部１１Ｂとして機能する。

記憶部１５には、学習装置１０の機械学習により生成される学習モデルとしてニューラルネットワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋ：ＮＮ）が記憶される。また、記憶部１５には、ニューラルネットワークの学習に使用する学習用データとして、シミュレータ画像、実環境画像が記憶される。シミュレータ画像はシミュレータ２０により生成された画像であり、実環境画像はロボット３０のカメラによって実環境を撮影して得られた画像である。

ここで、図３を参照して、本実施形態に係るニューラルネットワークの概要について説明する。

図３は、本実施形態に係るニューラルネットワークの一例を示す概念図である。

図３に示すニューラルネットワークは、入力層ｘ_ｉ、隠れ層（中間層とも称する）ｙ_ｊ、及び出力層ｚを有している。

図３に示すニューラルネットワークは、説明を簡単化するために、最も単純な３層構成としているが、隠れ層ｙ_ｊを２層以上とした多層構成としてもよい。また、出力層ｚのノード（ニューロンともいう。）を１つにしているが、複数のノードで構成してもよい。

ここで、ニューラルネットワークに対して、入力が与えられたときの出力の計算は、入力から順に以下の式（１）を用いて行われる。なお、ｆ（・）は活性化関数と呼ばれ、一例としてシグモイド関数等が用いられる。また、ｘ_ｉは入力層ｘ_ｉの入力、ｙ_ｊは隠れ層ｙ_ｊの出力、ｚは出力層ｚの出力、ｗ_ｉｊ、ｕ_ｊは重み係数である。これらの重み係数ｗ_ｉｊ、ｕ_ｊを変化させることで同じ入力に対して異なる出力が得られる。つまり、狙った出力が得られるように重み係数ｗ_ｉｊ、ｕ_ｊを更新させることで、各モデルの学習が行われる。

・・・（１）

取得部１１Ａは、シミュレータ２０により生成された観測量をニューラルネットワークに入力して得られる第１特徴量と、実環境から得られた観測量をニューラルネットワークに入力して得られる第２特徴量とを取得する。但し、シミュレータ２０により生成された観測量とは、例えば、上記のシミュレータ画像であり、実環境から得られた観測量とは、例えば、上記の実環境画像である。なお、観測量は、画像に限定されるものではなく、例えば、上述のＬＩＤＡＲから得られる点群データ等であってもよい。観測量は、画像及び深度であってもよい。なお、深度は、画像の被写体までの距離として表される。

学習部１１Ｂは、取得部１１Ａにより取得された、第１特徴量と第２特徴量との差を含む評価関数を用いて、ニューラルネットワークを学習する。

本実施形態では、例えば、シミュレータ２０でデータセット（入力データと真値）が得られるが、実環境では入力データしか収集できない場合に好適である。以下では、単眼深度推定、走行可否判断、及び、画像を用いた自律移動を例に挙げて具体的に説明する。

[単眼深度推定]
単眼深度推定は、単眼カメラで撮影した画像から深度、つまり、画像の被写体までの距離を推定する技術であり、基本的に実環境で真値深度を得ることは難しい。一方、シミュレータ２０では真値深度は容易に収集できるため、以下のニューラルネットワークを学習することが可能とされる。以下、説明を簡単にするために、活性化関数ｆ（・）を単にニューラルネットワークと称する。

Ｚ_ｓｉｍ＝ｆ_ｚ（Ｉ_ｓｉｍ）
Ｄ_ｅｓｔ＝ｆ_{ｄｅｐｔｈ}（Ｚ_ｓｉｍ）

ここで、Ｉ_ｓｉｍはシミュレータ２０の画像を示し、Ｚ_ｓｉｍはニューラルネットワークｆ_ｚ（・）で抽出したシミュレータ画像Ｉ_ｓｉｍの特徴量（第１特徴量）を示す。Ｄ_ｅｓｔは推定された深度を示し、ｆ_{ｄｅｐｔｈ}（・）は深度を推定するニューラルネットワークを示す。通常、深度の真値Ｄ_ｇｔと推定値Ｄ_ｅｓｔとの誤差を最小とするように、ｆ_ｚ（・）及びｆ_{ｄｅｐｔｈ}（・）を学習するが、この場合、実環境画像Ｉ_ｒｅａｌを入力した場合に推定性能が劣化する場合がある。そこで、本実施形態では、以下の式（２）に示す評価関数Ｌを導入する。

Ｌ＝（Ｄ_ｇｔ－Ｄ_ｅｓｔ）^２＋ｑ（Ｚ_ｓｉｍ－Ｚ_ｒｅａｌ）^２・・・（２）
Ｚ_ｒｅａｌ＝ｆ_ｚ（Ｉ_ｒｅａｌ）

ここで、Ｚ_ｒｅａｌはニューラルネットワークｆ_ｚ（・）で抽出した実環境画像Ｉ_ｒｅａｌの特徴量（第２特徴量）を示す。ｑは重み係数を示す。上記式（２）において右辺第２項、つまり、第１特徴量Ｚ_ｓｉｍと第２特徴量Ｚ_ｒｅａｌとの差を加えることで、第１特徴量Ｚ_ｓｉｍと第２特徴量Ｚ_ｒｅａｌとの差が小さくなって、実環境画像Ｉ_ｒｅａｌを入力しても性能を維持することができる。

[走行可否判断]
単眼カメラで撮影した画像から機械学習で走行可否判断を行う場合、走行できたか、あるいは、走行できなかったか（障害物との衝突、もしくは障害物の落下）のデータを収集する必要がある。この場合、走行できないデータを実環境で収集することは危険を伴うため、望ましくない。一方、シミュレータ２０では危険を伴わずにデータを集めることが可能である。このとき、走行可能確率Ｐ_ｅｓｔは次式によって推定されるとする。

Ｚ_ｓｉｍ＝ｆ_ｚ（Ｉ_ｓｉｍ）
Ｐ_ｅｓｔ＝ｆ_ｔｒａｖ（Ｚ_ｓｉｍ）

ここで、ｆ_ｚ（・）はシミュレータ画像Ｉ_ｓｉｍから第１特徴量Ｚ_ｓｉｍを抽出するニューラルネットワークを示し、ｆ_ｔｒａｖ（・）は走行可能確率Ｐ_ｅｓｔを推定するニューラルネットワークを示す。通常、走行可能確率の真値ｐ_ｇｔ（走行可能の場合：１、走行不可の場合：０）との差が小さくなるように学習するが、この場合、上記単眼深度推定と同様に実環境画像Ｉ_ｒｅａｌが入力された場合に性能が劣化する場合がある。そこで、本実施形態では、以下の式（３）に示す評価関数Ｌを導入する。

Ｌ＝（Ｐ_ｇｔ－Ｐ_ｅｓｔ）^２＋ｑ（Ｚ_ｓｉｍ－Ｚ_ｒｅａｌ）^２・・・（３）
Ｚ_ｒｅａｌ＝ｆ_ｚ（Ｉ_ｒｅａｌ）

ここで、Ｚ_ｒｅａｌはニューラルネットワークｆ_ｚ（・）で抽出した実環境画像Ｉ_ｒｅａｌの特徴量（第２特徴量）を示す。ｑは重み係数を示す。上記式（３）において右辺第２項、つまり、第１特徴量Ｚ_ｓｉｍと第２特徴量Ｚ_ｒｅａｌとの差を加えることで、第１特徴量Ｚ_ｓｉｍと第２特徴量Ｚ_ｒｅａｌとの差が小さくなって、実環境画像Ｉ_ｒｅａｌを入力しても性能を維持することができる。

[画像を用いた自律移動]
まず、上述の非特許文献２を要約して、その手法の概要を説明する。制御則は、次式によって定められる。

Ｚ_ｃ＝ｆ_ｚ（Ｉ_ｃ）
Ｚ_ｇ＝ｆ_ｚ（Ｉ_ｇ）
Ｖ＝ｆ_ｎａｖ（Ｚ_ｃ、Ｚ_ｇ）

ここで、Ｉ_ｃは現在の画像を示し、Ｉ_ｇは目標ゴールの画像を示す。Ｚ_ｃは現在の画像Ｉ_ｃからニューラルネットワークｆ_ｚ（・）によって抽出された特徴量を示し、Ｚ_ｇは目標ゴールの画像Ｉ_ｇからニューラルネットワークｆ_ｚ（・）によって抽出された特徴量を示す。

なお、現在の画像Ｉ_ｃ及び目標ゴールの画像Ｉ_ｇは共にシミュレータ２０もしくは実環境のデータセットからランダムに選択される。また、Ｖは制御入力のベクトルを示し、現在から未来にかけてｎステップ分の制御入力を有する。ｆ_ｎａｖ（・）は制御入力Ｖを出力するニューラルネットワークを示す。ｆ_ｎａｖ（・）及びｆ_ｚ（・）を学習する際には、次式に示すように、制御入力Ｖと現在の画像Ｉ_ｃを入力として、制御入力Ｖで移動した場合に観測する画像を推定する。

Ｉ_１、・・・、Ｉ_ｎ＝ｆ_ｖｉｅｗ（Ｉ_ｃ、Ｖ）

ここで、Ｉ_１、・・・、Ｉ_ｎは、制御入力Ｖのｎステップ分の制御入力で移動した場所で観測される画像の推定値を示す。上述の非特許文献２では、推定された画像Ｉ_ｊと目標ゴールの画像Ｉ_ｇとの差が小さくなるように、ｆ_ｎａｖ（・）及びｆ_ｚ（・）を学習する。この場合、目標ゴールの画像のみがシミュレータ２０から与えられた場合に性能が劣化する問題が発生する。そこで、本実施形態では、以下の式（４）に示す評価関数Ｌを導入する。

Ｌ＝Σ（Ｉ_ｇ－Ｉ_ｊ）^２＋ｑ｛（Ｚ_ｃ－Ｚ_ｃｘ）^２＋（Ｚ_ｇ－Ｚ_ｇｘ）^２｝（４）

但し、Ｚ_ｃｘとＺ_ｇｘは、以下の式によって抽出される特徴量である。

Ｚ_ｃｘ＝ｆ_ｚ（Ｉ_ｃｘ）
Ｚ_ｇｘ＝ｆ_ｚ（Ｉ_ｇｘ）

ここで、画像Ｉ_ｃｘ及び画像Ｉ_ｇｘは、画像Ｉ_ｃ及び画像Ｉ_ｇがシミュレータ２０の画像である場合は同様の位置姿勢での実環境の画像とされる。つまり、特徴量Ｚ_ｃ及び特徴量Ｚ_ｇが第１特徴量とされ、特徴量Ｚ_ｃｘ及び特徴量Ｚ_ｇｘが第２特徴量とされる。また、画像Ｉ_ｃｘ及び画像Ｉ_ｇｘは、画像Ｉ_ｃ及び画像Ｉ_ｇが実環境の画像である場合は同様の位置姿勢でのシミュレータ２０の画像とされる。つまり、特徴量Ｚ_ｃ及び特徴量Ｚ_ｇが第２特徴量とされ、特徴量Ｚ_ｃｘ及び特徴量Ｚ_ｇｘが第１特徴量とされる。ｑは重み係数を示す。

上述の[単眼深度推定]及び[走行可否判断]の例と同様に、上記式（４）において右辺第２項、つまり、第１特徴量Ｚ_ｃと第２特徴量Ｚ_ｃｘとの差、及び、第１特徴量Ｚ_ｇと第２特徴量Ｚ_ｇｘとの差を加えることで、これら第１特徴量Ｚ_ｃと第２特徴量Ｚ_ｃｘとの差、及び、第１特徴量Ｚ_ｇと第２特徴量Ｚ_ｇｘとの差が小さくなる。あるいは、第２特徴量Ｚ_ｃと第１特徴量Ｚ_ｃｘとの差、及び、第２特徴量Ｚ_ｇと第１特徴量Ｚ_ｇｘとの差を加えることで、これら第２特徴量Ｚ_ｃと第１特徴量Ｚ_ｃｘとの差、及び、第２特徴量Ｚ_ｇと第１特徴量Ｚ_ｇｘとの差が小さくなる。すなわち、シミュレータ２０の画像から生成される特徴量と実環境の画像から生成される特徴量とが近くなるため、目標画像をシミュレータ２０から与えても、良好な性能を得ることができる。

上述の具体例はあくまで一例であり、様々なタスクに応用できることを述べておく。例えば、セマンティックセグメンテーション、自己位置推定等にも有効であることは容易に想像される。

次に、図４を参照して、第１の実施形態に係る学習装置１０の作用について説明する。

図４は、第１の実施形態に係る学習プログラム１５Ａによる処理の流れの一例を示すフローチャートである。

まず、学習装置１０が学習処理の開始の指示を受け付けると、プロセッサ１１が学習プログラム１５Ａを読み出して実行する。

図４のステップＳ１０１では、プロセッサ１１が、第１特徴量及び第２特徴量を取得する。第１特徴量は、シミュレータ２０により生成された観測量の一例であるシミュレータ画像をニューラルネットワークに入力して得られる特徴量である。また、第２特徴量は、実環境から得られた観測量の一例である実環境画像をニューラルネットワークに入力して得られる特徴量である。

ステップＳ１０２では、プロセッサ１１が、ステップＳ１０１で取得された、第１特徴量と第２特徴量との差を含む評価関数を導出する。評価関数としては、タスクに応じて、例えば、上述の式（２）～式（４）のいずれかが適用される。

ステップＳ１０３では、プロセッサ１１が、ステップＳ１０２で導出した評価関数を用いて、シミュレータ２０の第１特徴量と、実環境の第２特徴量との差が小さくなるように、ニューラルネットワークを学習し、本学習プログラム１５Ａによる一連の処理を終了する。

このように本実施形態によれば、シミュレータから得られる観測量の特徴量と、実環境から得られる観測量の特徴量との差が小さくなるように、ニューラルネットワークが学習される。このため、主にシミュレータで学習されたニューラルネットワークが実環境でも同様の性能を発揮することができる。

[第２の実施形態]
上記第１の実施形態で説明した学習方法をより精度良く機能させるためには、実環境画像Ｉ_ｒｅａｌ及びシミュレータ画像Ｉ_ｓｉｍを取得したときのそれぞれの環境及び位置姿勢を一致させることが望ましい。環境は、例えば、実環境を撮影した結果を用いてシミュレータを構築する参考文献１に記載の方法を用いて対応すればよい。

[参考文献１]
Fei Xia and et al., “Interactive Gibson Benchmark” IEEE Robotics and Automation Letters, 2020

一方、位置姿勢を一致させることは困難である。本実施形態では、位置姿勢を一致させる形態について説明する。

図５は、第２の実施形態に係る学習装置１０Ａの機能的な構成の一例を示すブロック図である。

図５に示すように、本実施形態に係る学習装置１０Ａのプロセッサ１１は、取得部１１Ａ、学習部１１Ｂ、生成部１１Ｃ、及び決定部１１Ｄとして機能する。なお、上記第１の実施形態で説明した学習装置１０が有する構成要素と同一の構成要素には同一の符号を付し、その繰り返しの説明は省略する。

生成部１１Ｃは、実環境で動作するロボット３０の複数の位置姿勢候補の各々に対応して、シミュレータ２０を用いて複数の観測量の一例である複数のシミュレータ画像を生成する。なお、複数の位置姿勢候補は、例えば、実環境でロボット３０が実環境画像を収集する際に自己位置を推定した結果から得られる。

決定部１１Ｄは、生成部１１Ｃにより生成された複数のシミュレータ画像のうち、実環境のロボット３０から得られた実環境画像との類似度が最も高いシミュレータ画像を、ニューラルネットワークに入力するシミュレータ画像として決定する。

次に、図６を参照して、シミュレータ２０と実環境での位置姿勢が一致する画像を収集する方法を説明する。

図６は、第２の実施形態に係る学習プログラム１５Ａによる処理の流れの一例を示すフローチャートである。

まず、学習装置１０が位置姿勢一致処理の開始の指示を受け付けると、プロセッサ１１が学習プログラム１５Ａを読み出して実行する。

図６のステップＳ１１１では、プロセッサ１１が、ロボット３０に備え付けられた内界センサ（例えば、ＬＩＤＡＲ）を利用して、自己位置推定しながら、実環境画像Ｉ_ｒｅａｌを収集する。自己位置は分布として推定される。推定される位置姿勢候補を、

｛Ｐ_ｉ｝_{ｉ＝１，・・・，Ｎ}

と表す。自己位置推定には、例えば、パーティクルフィルタが用いられる。パーティクルフィルタによって自己位置推定する場合には、そのときのパーティクルの位置姿勢を利用すれば良い。Ｎは候補の数である。

ステップＳ１１２では、プロセッサ１１が、ステップＳ１１１で推定した位置姿勢候補でのシミュレータ２０での画像を生成する。生成するシミュレータ画像を、

｛Ｉ_ｉ｝_{ｉ＝１，・・・，Ｎ}

と表す。

ステップＳ１１３では、プロセッサ１１が、ステップＳ１１１で収集した実環境画像Ｉ_ｒｅａｌと、ステップＳ１１２で生成したシミュレータ画像｛Ｉ_ｉ｝_{ｉ＝１，・・・，Ｎ}とを比較して、その類似度｛Ｓ_ｉ｝_{ｉ＝１，・・・，Ｎ}を評価する。類似度の評価方法としては、例えば、ピクセル毎の誤差、ＳＳＩＭ（ＳｔｒｕｃｔｕａｌＳｉｍｌａｌｉｔｙ）、ＳｉａｍｉｓｅＮｅｔｗｏｒｋによる類似度推定、及びその組み合わせ等が考えられる。但し、本実施形態では、これらの類似度の評価方法に限定されるものではない。

ステップＳ１１４では、プロセッサ１１が、ステップＳ１１３で評価した類似度が最も高いシミュレータ画像Ｉ_ｉ＊を特定する。

ステップＳ１１５では、プロセッサ１１が、終了条件として、ステップＳ１１４で特定したシミュレータ画像Ｉ_ｉ＊の類似度が閾値以上か否かを判定する。シミュレータ画像Ｉ_ｉ＊の類似度が閾値以上であると判定した場合（肯定判定の場合）、ステップＳ１１６に移行し、シミュレータ画像Ｉ_ｉ＊の類似度が閾値未満であると判定した場合（否定判定の場合）、ステップＳ１１７に移行する。

ステップＳ１１６では、プロセッサ１１が、ステップＳ１１１で収集した実環境画像Ｉ_ｒｅａｌと、ステップＳ１１４で特定したシミュレータ画像Ｉ_ｉ＊とを記憶部１５に記憶し、本学習プログラム１５Ａによる一連の処理を終了する。つまり、十分高い類似度が得られた場合は、実環境画像Ｉ_ｒｅａｌの位置姿勢で得られるシミュレータ画像Ｉ_ｓｉｍとして、最も類似度の高いシミュレータ画像Ｉ_ｉ＊を採用する。一方、十分高い類似度が得られない場合は再サンプリングに移行する。

ステップＳ１１７では、プロセッサ１１が、再サンプリングを実行し、ステップＳ１１２に移行し、処理を繰り返す。再サンプリングでは、実環境画像Ｉ_ｒｅａｌの位置姿勢候補｛Ｐ’_ｉ｝_{ｉ＝１，・・・，Ｎ}が生成される。本実施形態では、再サンプリングの手法に依存しないが、例えば、パーティクルフィルタ、遺伝的アルゴリズムの方法等が適用される。

本実施形態によれば、実環境で収集した全ての実環境画像に対して、それに対応するシミュレータのシミュレータ画像が得られる。ただし、類似度が十分高いシミュレータ画像を得られない場合は、そのシミュレータ画像を学習に利用しないという選択も可能であることを付記しておく。

このように本実施形態によれば、実環境での位置姿勢とシミュレータでの位置姿勢とが一致した状態で、学習用データとしての実環境の観測量及びシミュレータの観測量が取得される。このため、ニューラルネットワークをより精度良く学習することが可能とされる。

また、実環境で観測量を取得したときの位置姿勢を精度良く推定するために、実環境の位置姿勢の候補群から最適な位置姿勢（真値に近い位置姿勢）がオフライン最適化で定められる。このため、シミュレータの位置姿勢と実環境の位置姿勢との一致度を高めることができる。

なお、上記各実施形態において、プロセッサとは広義的なプロセッサを指し、汎用的なプロセッサ（例えば、ＣＰＵ：ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、等）や、専用のプロセッサ（例えば、ＧＰＵ：ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＡＳＩＣ：ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ、ＦＰＧＡ：ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ、プログラマブル論理デバイス、等）を含むものである。

また、上記各実施形態におけるプロセッサの動作は、１つのプロセッサによって成すのみでなく、物理的に離れた位置に存在する複数のプロセッサが協働して成すものであってもよい。また、プロセッサの各動作の順序は、上記各実施形態において記載した順序のみに限定されるものではなく、適宜変更してもよい。

以上、実施形態に係る学習装置を例示して説明した。実施形態は、学習装置が備える各部の機能をコンピュータに実行させるためのプログラムの形態としてもよい。実施形態は、これらのプログラムを記憶したコンピュータが読み取り可能な非一時的記憶媒体の形態としてもよい。

その他、上記実施形態で説明した学習装置の構成は、一例であり、主旨を逸脱しない範囲内において状況に応じて変更してもよい。

また、上記実施形態で説明したプログラムの処理の流れも、一例であり、主旨を逸脱しない範囲内において不要なステップを削除したり、新たなステップを追加したり、処理順序を入れ替えたりしてもよい。

また、上記実施形態では、プログラムを実行することにより、実施形態に係る処理がコンピュータを利用してソフトウェア構成により実現される場合について説明したが、これに限らない。実施形態は、例えば、ハードウェア構成や、ハードウェア構成とソフトウェア構成との組み合わせによって実現してもよい。

１０、１０Ａ学習装置
１１プロセッサ
１１Ａ取得部
１１Ｂ学習部
１１Ｃ生成部
１１Ｄ決定部
１２ＲＯＭ
１３ＲＡＭ
１４Ｉ／Ｏ
１５記憶部
１５Ａ学習プログラム
１６表示部
１７操作部
１８通信部
２０シミュレータ
３０ロボット
１００学習システム

Claims

ニューラルネットワークの学習装置であって、
シミュレータにより生成された観測量を前記ニューラルネットワークに入力して得られる第１特徴量と、実環境から得られた観測量を前記ニューラルネットワークに入力して得られる第２特徴量とを取得する取得部と、
前記第１特徴量と前記第２特徴量との差を含む評価関数を用いて、前記ニューラルネットワークを学習する学習部と、
を備えた学習装置。
前記実環境で動作する物体の複数の位置姿勢候補の各々に対応して、前記シミュレータを用いて複数の観測量を生成する生成部と、
前記生成部により生成された複数の観測量のうち、前記実環境の前記物体から得られた観測量との類似度が最も高い観測量を、前記ニューラルネットワークに入力する前記シミュレータの観測量として決定する決定部と、
を更に備えた
請求項１に記載の学習装置。
前記複数の位置姿勢候補は、前記実環境で前記物体が観測量を収集する際に自己位置を推定した結果から得られる
請求項２に記載の学習装置。
前記シミュレータにより生成された観測量は、前記シミュレータにより生成された画像として表され、
前記実環境から得られた観測量は、前記実環境から得られた画像として表される
請求項１～請求項３の何れか１項に記載の学習装置。
前記シミュレータにより生成された観測量は、前記シミュレータにより生成された画像及び当該画像の被写体までの距離を表す深度として表され、
前記実環境から得られた観測量は、前記実環境から得られた画像及び当該画像の被写体までの距離を表す深度として表される
請求項１～請求項３の何れか１項に記載の学習装置。
ニューラルネットワークの学習装置が実行する学習方法であって、
シミュレータにより生成された観測量を前記ニューラルネットワークに入力して得られる第１特徴量と、実環境から得られた観測量を前記ニューラルネットワークに入力して得られる第２特徴量とを取得し、
前記第１特徴量と前記第２特徴量との差を含む評価関数を用いて、前記ニューラルネットワークを学習する、
学習方法。
ニューラルネットワークの学習プログラムであって、
コンピュータを、
シミュレータにより生成された観測量を前記ニューラルネットワークに入力して得られる第１特徴量と、実環境から得られた観測量を前記ニューラルネットワークに入力して得られる第２特徴量とを取得する取得部、及び、
前記第１特徴量と前記第２特徴量との差を含む評価関数を用いて、前記ニューラルネットワークを学習する学習部、
として機能させるための学習プログラム。