WO2020196066A1

WO2020196066A1 - ニューラルネットワークの学習方法、ニューラルネットワークの生成方法、学習済装置、携帯端末装置、学習処理装置及びコンピュータプログラム

Info

Publication number: WO2020196066A1
Application number: PCT/JP2020/011577
Authority: WO
Inventors: 順之介寺前
Original assignee: 国立大学法人京都大学
Priority date: 2019-03-28
Filing date: 2020-03-17
Publication date: 2020-10-01
Also published as: US20220188603A1; JP7356738B2; JPWO2020196066A1

Abstract

誤差逆伝播法を用いる必要がないニューラルネットワークの学習方法、ニューラルネットワークの生成方法、学習済装置、携帯端末装置、学習処理装置及びコンピュータプログラムを提供する。　ニューラルネットワーク内の各ニューロンを、二値を取り得る確率変数とし、ニューロン間の結合重みを、各シナプスに所要の結合係数が乗算された複数のシナプスで表現し、複数のシナプスを、二値を取り得る確率変数とし、中間層のニューロンに初期データを与え、入力層及び出力層それぞれのニューロンの確率変数が訓練データの値であるという条件の下での条件付き確率分布から、マルコフ連鎖モンテカルロ法に基づくサンプリングを行って中間層の各ニューロン及び各シナプスそれぞれの状態値を更新する処理を繰り返し、更新された各シナプスの状態値に基づいてニューロン間の結合重みを算出する。

Description

ニューラルネットワークの学習方法、ニューラルネットワークの生成方法、学習済装置、携帯端末装置、学習処理装置及びコンピュータプログラム

　本発明は、ニューラルネットワークの学習方法、ニューラルネットワークの生成方法、学習済装置、携帯端末装置、学習処理装置及びコンピュータプログラムに関する。

　ニューラルネットワークは、近年の急速に発展している機械学習（人工知能）の実体をなす基盤技術であり、ネットワークに含まれる多数のパラメータを与えられた訓練データによって調整（学習）することによって生成される。

　特許文献１には、ニューラルネットワークの学習で中心的に用いられている誤差逆伝播法と呼ばれる近似的な最適化法が開示されている。

特開平６－２８２５３１号公報

　しかし、誤差逆伝播法は、出力層で計算された誤差をネットワーク全体に同期的に伝播させることで学習を実現するため、入力から誤差を計算するための順方向計算と、誤差をネットワークに伝播させる逆方向計算の二種類の計算を交互に繰り返す必要がある。また、誤差逆伝播法は、一方向ネットワークのみ適用が可能であり、最適性が保証されておらず、誤差関数（目的関数）を人工的に設計する必要があり、過学習を起こしやすく、学習には大量のデータを必要とし、また、学習率（学習パラメータ）の微調整なども必要となる。このように、誤差逆伝播法には、様々な課題がある。

　本発明は斯かる事情に鑑みてなされたものであり、誤差逆伝播法を用いる必要がないニューラルネットワークの学習方法、ニューラルネットワークの生成方法、学習済装置、携帯端末装置、学習処理装置及びコンピュータプログラムを提供することを目的とする。

　本発明の実施の形態に係るニューラルネットワークの学習方法は、ニューラルネットワーク内の各ニューロンを、二値を取り得る確率変数とし、ニューラルネットワーク内のニューロン間の結合重みを、各シナプスに所要の結合係数が乗算された複数のシナプスで表現し、前記複数のシナプスを、二値を取り得る確率変数とし、入力層及び出力層それぞれのニューロンに訓練データを与え、中間層のニューロンに初期データを与え、入力層及び出力層それぞれのニューロンの確率変数が前記訓練データの値であるという条件の下での条件付き確率分布から、マルコフ連鎖モンテカルロ法に基づくサンプリングを行って前記中間層の各ニューロン及びニューラルネットワーク内の各シナプスそれぞれの状態値を更新する処理を繰り返し、更新された各シナプスの状態値に基づいてニューロン間の結合重みを算出する。

　本発明の実施の形態に係るニューラルネットワークの学習方法は、ニューラルネットワークの入力層及び出力層それぞれのニューロンに訓練データを与え、前記ニューラルネットワークの中間層のニューロン及び前記ニューラルネットワークのニューロン間の結合重みに初期データを与え、前記中間層のニューロンの状態値を、前記ニューロンに入力される信号値の和と、前記ニューロンに繋がる後ニューロンからのバイアス値との和を活性化関数によって変換した値に基づいて更新し、更新された各ニューロンの状態値に基づいてニューロン間の結合重みを更新する。

　本発明の実施の形態に係るニューラルネットワークの生成方法は、ニューラルネットワーク内の各ニューロンを、二値を取り得る確率変数とし、ニューラルネットワーク内のニューロン間の結合重みを、各シナプスに所要の結合係数が乗算された複数のシナプスで表現し、前記複数のシナプスを、二値を取り得る確率変数とし、入力層及び出力層それぞれのニューロンに訓練データを与え、中間層のニューロンに初期データを与え、入力層及び出力層それぞれのニューロンの確率変数が前記訓練データの値であるという条件の下での条件付き確率分布から、マルコフ連鎖モンテカルロ法に基づくサンプリングを行って前記中間層の各ニューロン及びニューラルネットワーク内の各シナプスそれぞれの状態値を更新する処理を繰り返し、更新された各シナプスの状態値に基づいてニューロン間の結合重みを算出してニューラルネットワークを生成する。

　本発明の実施の形態に係るニューラルネットワークの生成方法は、ニューラルネットワークの入力層及び出力層それぞれのニューロンに訓練データを与え、前記ニューラルネットワークの中間層のニューロン及び前記ニューラルネットワークのニューロン間の結合重みに初期データを与え、前記中間層のニューロンの状態値を、前記ニューロンに入力される信号値の和と、前記ニューロンに繋がる後ニューロンからのバイアス値との和を活性化関数によって変換した値に基づいて更新し、更新された各ニューロンの状態値に基づいてニューロン間の結合重みを更新する。

　本発明の実施の形態に係る学習済装置は、ニューラルネットワークを有する学習済装置であって、コンピュータに、ニューラルネットワーク内の各ニューロンを、二値を取り得る確率変数とし、ニューラルネットワーク内のニューロン間の結合重みを、各シナプスに所要の結合係数が乗算された複数のシナプスで表現し、前記複数のシナプスを、二値を取り得る確率変数とし、入力層及び出力層それぞれのニューロンに訓練データを与え、中間層のニューロンに初期データを与え、入力層及び出力層それぞれのニューロンの確率変数が前記訓練データの値であるという条件の下での条件付き確率分布から、マルコフ連鎖モンテカルロ法に基づくサンプリングを行って前記中間層の各ニューロン及びニューラルネットワーク内の各シナプスそれぞれの状態値を繰り返し更新し、更新された各シナプスの状態値に基づいてニューロン間の結合重みを算出する、処理を実行させて生成されてある。

　本発明の実施の形態に係る学習済装置は、ニューラルネットワークを有する学習済装置であって、コンピュータに、ニューラルネットワークの入力層及び出力層それぞれのニューロンに訓練データを与え、前記ニューラルネットワークの中間層のニューロン及び前記ニューラルネットワークのニューロン間の結合重みに初期データを与え、前記中間層のニューロンの状態値を、前記ニューロンに入力される信号値の和と、前記ニューロンに繋がる後ニューロンからのバイアス値との和を活性化関数によって変換した値に基づいて更新し、更新された各ニューロンの状態値に基づいてニューロン間の結合重みを更新する、処理を実行させて生成されてある。

　本発明の実施の形態に係る携帯端末装置は、前述の学習済装置を備える携帯端末装置であって、前記学習済装置は、画像データ、音声データ及び文字列データの少なくとも一方を訓練データとして用いて生成してある。

　本発明の実施の形態に係る学習処理装置は、プロセッサを備え、ニューラルネットワークを学習させる学習処理装置であって、前記プロセッサは、ニューラルネットワーク内の各ニューロンを、二値を取り得る確率変数とし、ニューラルネットワーク内のニューロン間の結合重みを、各シナプスに所要の結合係数が乗算された複数のシナプスで表現し、前記複数のシナプスを、二値を取り得る確率変数とし、入力層及び出力層それぞれのニューロンに訓練データを与え、中間層のニューロンに初期データを与え、入力層及び出力層それぞれのニューロンの確率変数が前記訓練データの値であるという条件の下での条件付き確率分布から、マルコフ連鎖モンテカルロ法に基づくサンプリングを行って前記中間層の各ニューロン及びニューラルネットワーク内の各シナプスそれぞれの状態値を繰り返し更新し、更新された各シナプスの状態値に基づいてニューロン間の結合重みを算出する、処理を実行する。

　本発明の実施の形態に係る学習処理装置は、プロセッサを備え、ニューラルネットワークを学習させる学習処理装置であって、前記プロセッサは、ニューラルネットワークの入力層及び出力層それぞれのニューロンに訓練データを与え、前記ニューラルネットワークの中間層のニューロン及び前記ニューラルネットワークのニューロン間の結合重みに初期データを与え、前記中間層のニューロンの状態値を、前記ニューロンに入力される信号値の和と、前記ニューロンに繋がる後ニューロンからのバイアス値との和を活性化関数によって変換した値に基づいて更新し、更新された各ニューロンの状態値に基づいてニューロン間の結合重みを更新する、処理を実行する。

　本発明の実施の形態に係るコンピュータプログラムは、コンピュータに、ニューラルネットワーク内の各ニューロンを、二値を取り得る確率変数とし、ニューラルネットワーク内のニューロン間の結合重みを、各シナプスに所要の結合係数が乗算された複数のシナプスで表現し、前記複数のシナプスを、二値を取り得る確率変数とし、入力層及び出力層それぞれのニューロンに訓練データを与え、中間層のニューロンに初期データを与え、入力層及び出力層それぞれのニューロンの確率変数が前記訓練データの値であるという条件の下での条件付き確率分布から、マルコフ連鎖モンテカルロ法に基づくサンプリングを行って前記中間層の各ニューロン及びニューラルネットワーク内の各シナプスそれぞれの状態値を繰り返し更新し、更新された各シナプスの状態値に基づいてニューロン間の結合重みを算出する、処理を実行させる。

　本発明の実施の形態に係るコンピュータプログラムは、コンピュータに、ニューラルネットワークの入力層及び出力層それぞれのニューロンに訓練データを与え、前記ニューラルネットワークの中間層のニューロン及び前記ニューラルネットワークのニューロン間の結合重みに初期データを与え、前記中間層のニューロンの状態値を、前記ニューロンに入力される信号値の和と、前記ニューロンに繋がる後ニューロンからのバイアス値との和を活性化関数によって変換した値に基づいて更新し、更新された各ニューロンの状態値に基づいてニューロン間の結合重みを更新する、処理を実行させる。

　本発明によれば、誤差逆伝播法を用いる必要がなく、一種類の計算だけで学習でき、ネットワークの学習を、局所的かつ非同期な計算で実現できる。

ニューラルネットワークの構成の一例を示す模式図である。本実施の形態のシナプスの構成の一例を示す模式図である。ニューラルネットワークの学習方法の概要を示す模式図である。ニューロンに入力される信号の和の一例を示す模式図である。後ニューロンからのバイアスの様子の一例を示す模式図である。ギブスサンプリングの処理の一例を示す説明図である。前ニューロンと後ニューロンとを結合するシナプスの様子の一例を示す模式図である。リカレントニューラルネットワークの構成の一例を示す模式図である。リカレントニューラルネットワークの構成の一例を示す模式図である。ニューラルネットワークの学習に用いられる情報処理装置の構成の一例を示すブロック図である。ニューラルネットワークの学習の処理手順の一例を示すフローチャートである。本実施の形態の学習方法による第１評価結果を示す説明図である。本実施の形態の学習方法による第２評価結果を示す説明図である。本実施の形態の学習方法による第３評価結果を示す説明図である。第２実施形態のシナプスの構成の一例を示す模式図である。第２実施形態でのニューラルネットワークの学習方法の概要を示す模式図である。後ニューロンからのバイアスの様子の一例を示す模式図である。前ニューロンと後ニューロンとを結合する結合重みの様子の一例を示す模式図である。第２実施形態のニューラルネットワークの学習の処理手順の一例を示すフローチャートである。第２実施形態の学習方法による評価結果の一例を示す説明図である。携帯端末装置の構成の一例を示すブロック図である。

（第１実施形態）
　以下、本発明をその実施の形態を示す図面に基づいて説明する。図１はニューラルネットワークの構成の一例を示す模式図である。ニューラルネットワークは、入力層、出力層及び複数の中間層から構成されている。なお、図１では、便宜上、３つ中間層を図示しているが、中間層の数は３つに限定されない。

　入力層、出力層及び中間層には、ニューロン（図中丸で示す）が存在し、隣り合うニューロンは、結合重みで結合されている。図１に示すように、ｉ番目のニューロンをｘ_iで表し、ｊ番目のニューロンをｘ_jで表す。ｉ、ｊはニューロン番号のインデックスである。ニューロンｘ_iからニューロンｘ_jへの結合重みをｗ_ijと表し、ニューロンｘ_jからニューロンｘ_iへの結合重みをｗ_jiと表す。ここで、ｗ_ijとｗ_jiとは同じ値でもよく、異なる値でもよい。一般的には、ｗ_ijとｗ_jiとは異なる値でよい。

　本実施の形態では、ニューラルネットワーク内の各ニューロンを、二値を取り得る確率変数とする。二値は、例えば、「１」、「０」とすることができ、確率変数は、活性化関数によって変換された値の確率に従って決定される二値を取り得る変数とすることができる。例えば、各ニューロンｘ_iは、０か１の値を取る。ｘ_i＝１はニューロンが発火状態、ｘ_i＝０はニューロンが非発火状態であることを表す。

　各ニューロンは、式（１）で表される式に基づく確率で１を取る。ｍはニューロン番号のインデックスである。Σは、例えば、ｍ＝１からＭまでの和を表す。Ｍは、ニューロンｘ_iに対して入力信号を与えるニューロンの数である。σはニューロンの活性化関数であり、式（２）で表す、シグモイド関数とすることができる。

　図２は本実施の形態のシナプスの構成の一例を示す模式図である。図２に示すように、本実施の形態では、ニューラルネットワーク内のニューロン間の結合重みを、所要の結合係数がそれぞれ乗算された複数のシナプスに分解する。例えば、図２に示すように、ニューロンｘ_iからニューロンｘ_jへの結合重みｗ_ijとし、シナプスをｓ_ijkとすると、結合重みｗ_ijは、式（３）で表すことができる。

　ここで、ａ_ijkは所要の結合係数であり、学習によって変化しない比較的小さな定数とすることができる。Σは、例えば、ｋ＝１からＫまでの和を表す。

　同様に、ニューロンｘ_jからニューロンｘ_iへの結合重みｗ_jiとし、シナプスをｓ_jikとすると、ｗ_ji＝Σｓ_jik・ａ_jikと表すことができる。ここで、ａ_jikは所要の結合係数であり、学習によって変化しない比較的小さな定数とすることができる。Σは、例えば、ｋ＝１からＫまでの和を表す。

　また、本実施の形態では、ニューラルネットワーク内の各シナプスを、二値を取り得る確率変数とする。二値は、例えば、「１」、「０」とすることができ、確率変数は、活性化関数によって変換された値の確率に従って決定される二値を取り得る変数とすることができる。例えば、シナプスｓ_ijkは、０か１の値を取る。ｓ_ijk＝１は結合状態、ｓ_ijk＝０は非結合状態を表す。図２では、二値を取り得ることを黒丸と白丸で模式的に表している。

　ニューラルネットワークの学習方法は、入力層及び出力層それぞれのニューロンに訓練データを与え、中間層のニューロンに初期データを与える。そして、入力層及び出力層それぞれのニューロンの確率変数が訓練データの値であるという条件の下での条件付き確率分布から、マルコフ連鎖モンテカルロ法に基づくサンプリングを行って中間層の各ニューロン及びニューラルネットワーク内の各シナプスそれぞれの状態値を更新する処理を繰り返す。

　図３はニューラルネットワークの学習方法の概要を示す模式図である。図３に示すように、入力層のニューロンは、データのインデックスｄの訓練データに対応するニューロンの状態ｘ_d ⁱⁿに固定する。出力層のニューロンは、データのインデックスｄの訓練データに対応するニューロンの状態ｘ_d ^outに固定する。中間層の全てのニューロンの状態を{ｘ_di}と表す。また、中間層の全てのシナプスの状態を{ｓ_ijk}と表す。マルコフ連鎖モンテカルロ法に基づくサンプリングは、式（４）で表すように、入力層のニューロンの状態ｘ_d ⁱⁿ及び出力層のニューロンの状態ｘ_d ^outが与えられた条件下で、条件付き確率分布Ｐから、中間層の全てのニューロンの状態{ｘ_di}と、中間層の全てのシナプスの状態{ｓ_ijk}とをサンプリングして更新する処理を繰り返す。

　すなわち、ニューロンのスパイク発火活動と、シナプスが変化する様子（シナプス可塑性）の両方を統一的に扱い、訓練データ（学習用の入力データと教師データ）が与えられた条件下での、条件付き確率分布からのサンプリングを繰り返すことにより、中間層の各ニューロン及びニューラルネットワーク内の各シナプスそれぞれの状態値を更新する。この場合、入力層のニューロンの状態値及び出力層のニューロンの状態値は、訓練データの値に固定する。

　マルコフ連鎖モンテカルロ法には、例えば、ギブスサンプリング法、メトロポリス・ヘイスティング法などが含まれる。これらのサンプリング手法では、サンプリングを繰り返すことにより、サンプリングした値が、初期値（例えば、中間層のニューロンに与えた初期データ）に依存せず、真の分布からサンプリングした値に収束するという性質を有している。

　すなわち、後述の所要の更新則を用いることによって、入力層のニューロン及び出力層のニューロンを訓練データに固定した条件下での、条件付き確率分布からのサンプリングが可能となり、中間層の各ニューロン及びニューラルネットワーク内の各シナプスそれぞれの値を得ることができる。また、サンプリングの順序は問わず、特定の順番でもよく、ランダムに行ってもよい。

　中間層の各ニューロンは、当該ニューロンと繋がる前ニューロン（入力側のニューロン）及び後ニューロン（出力側のニューロン）からの影響を考慮すればよく、また、各シナプスも、当該シナプスが結合する前ニューロン及び後ニューロンからの影響を考慮すればよいので、ネットワークの大域的な状態を考慮する必要がなく、局所的かつ非同期に計算を行うことができる。

　更新された各シナプスの状態値に基づいてニューロン間の結合重みを算出する。結合重みの計算は式（３）、すなわち、ｗ_ij＝Σｓ_ijk・ａ_ijkという式から求めることができる。ａ_ijkは比較的小さい定数とすることができ、定数の数の和Ｋを適当な値に設定できる。各シナプスｓ_ijkの値を、１か０にするだけで結合重みｗ_ijの値を適当な値にすることができる。

　上述のように、誤差逆伝播法を用いる必要がなく、一種類の計算だけで学習でき、ネットワークの学習を、局所的かつ非同期な計算で実現でき、多様なネットワークにも適用することができる。また、誤差関数の設計が不要であり、学習率が不要であり、十分なデータ数がある場合には、最適性が保証される。

　次に、ニューロンの更新則及びシナプスの更新則について説明する。また、以下では、ギブスサンプリング法を用いて説明する。まず、ニューロンの更新則について説明する。

　中間層のニューロンの状態値を、当該ニューロンに入力される信号値の和と、当該ニューロンに繋がる後ニューロンからのバイアス値との和を活性化関数によって変換した値に基づいて更新する。より具体的には、中間層のニューロンの状態値を、活性化関数によって変換した値の確率で１に更新する。活性化関数によって変換される値は、０から１までの値を取り得る。変換された値が、例えば、０．８である場合、中間層のニューロンの状態値を０．８の確率で１に更新し、残りの確率０．２（＝１－０．８）で０に更新する。

　中間層の各ニューロンは、式（５）で表す式に基づいて更新することができる。

　σは活性化関数（例えば、シグモイド関数）である。ｄはデータのインデックスであり、中間層の全てのニューロンを１回更新する際に用いられるミニバッチのインデックスでもある。

　図４はニューロンに入力される信号の和の一例を示す模式図である。図４に示すように、ニューロンｘ_diに入力される信号値の和ｖ_diは、ｖ_di＝（Σｘ_dm・ｗ_mi）という式で表され（便宜上、Σの下のｍは省略する）、Σは、例えば、ｍ＝１からＭまでの和を表す。Ｍは、ニューロンｘ_diの入力側で繋がっているニューロン（前ニューロン）の数である。

　式（５）において、ｂ_diは、後ニューロンから当該ニューロンｘ_diへの発火確率のバイアスを与えることができる。すなわち、逆行性のバイアス項ｂ_diの存在によって、出力層のニューロンに与えられた訓練データの情報を、ネットワークの中間層に波及させることが可能となる。この意味で、バイアス項ｂ_diは、誤差逆伝播法の誤差伝播のサンプリングに基づく確率的な表現とみなすことができる。これにより、誤差逆伝播を用いなくても、出力層のニューロンに与えられた訓練データの情報に基づく学習が可能となる。

　次に、バイアス項ｂ_diについて説明する。

　後ニューロンからのバイアス値を、後ニューロンの状態値と後ニューロンの期待値との差に基づいて算出する。バイアス値ｂ_diは、式（６）で算出することができる。式（６）において、ｘ_djは後ニューロンｘ_jの状態値を表し、σ（ｖ_dj）は、後ニューロンｘ_jに入力される信号の和によって得られる後ニューロンの状態の期待値（予測値）を表す。

　図５は後ニューロンからのバイアスの様子の一例を示す模式図である。図５に示すように、当該ニューロンｘ_diの後ニューロンをｘ_djと表す。ｊは、例えば、ｊ＝１～Ｊとすることができる。Ｊは後ニューロンの数である。

　式（６）が意味するところは、後ニューロンの状態が期待値よりも大きい場合には、バイアス値ｂ_diが正になることにより、Ｐ（ｘ_di＝１）＝σ（ｖ_di＋ｂ_di）という式の（ｖ_di＋ｂ_di）が大きくなり、当該ニューロンｘ_iを発火しやすくする効果がある。また、後ニューロンの状態が期待値よりも小さい場合には、バイアス値ｂ_diが負になることにより、Ｐ（ｘ_di＝１）＝σ（ｖ_di＋ｂ_di）という式の（ｖ_di＋ｂ_di）が小さくなり、当該ニューロンｘ_iを発火しにくくする効果がある。

　このように、式（６）は、逆行性の誤差伝播とみなすことができ、従来の誤差逆伝播法とは異なり、この逆行性の誤差伝播はネットワーク全体の協調的動作を必要とせずに実現することができる。

　ギブスサンプリング法では、中間層の各ニューロンの所要の更新則として、式（５）及び式（６）に基づいてサンプリングを行う。

　図６はギブスサンプリングの処理の一例を示す説明図である。なお、図６では、便宜上確率変数をｘ₁、…、ｘ_Nとして説明する。まず、ステップＳ１では、初期値ｘ⁽⁰⁾＝{ｘ₁ ⁽⁰⁾、ｘ₂ ⁽⁰⁾、…、ｘ_N ⁽⁰⁾}を決定する。ステップＳ２では、ｔ＝０とする。ステップＳ３では、ｘ₂ ⁽⁰⁾、…、ｘ_N ⁽⁰⁾が与えられた条件下で、ｘ₁ ⁽¹⁾をサンプリングする。ここで、ｘ₁ ⁽¹⁾の値が得られる。ステップＳ４では、ステップＳ３で得られたｘ₁ ⁽¹⁾の値を用いて、ｘ₁ ⁽¹⁾、ｘ₃ ⁽⁰⁾、…、ｘ_N ⁽⁰⁾ が与えられた条件下で、ｘ₂ ⁽¹⁾をサンプリングする。以下、同様にして、ｘ_N ⁽¹⁾をサンプリングする。これにより、ｘ₁ ⁽¹⁾、ｘ₂ ⁽¹⁾、…、ｘ_N ⁽¹⁾を得ることができる。ステップＳ６で、ｔ＝ｔ＋１とし、ステップＳ７でステップＳ３以降の処理を繰り返す。

　ギブスサンプリングは、真の分布（今は真の事後分布）からのサンプリングを変数ごとのサンプリングの繰り返しで実現する手法であり、十分な繰り返し回数の後は、真の分布からのサンプリングが実現できることが保証されている。事後分布からサンプリングされた値は、データ数が多い場合には、最適解（教師データの対数尤度が最大）に一致することが保証される。

　次に、シナプスの更新則について説明する。

　前ニューロンと後ニューロンとを結合する複数のシナプスの状態値を、前ニューロンの状態値及び後ニューロンの状態値に基づく値に更新する。

　前ニューロンと後ニューロンとを結合する複数のシナプスｓ_ijkは、式（７）に基づいて更新することができる。

　式（７）において、σは活性化関数（例えば、シグモイド関数）である。ｑ_0,ijkは、初期値であり、例えば、０としてもよい。ｑ_ijkは前ニューロンの状態及び後ニューロンの状態に依存するバイアス項である。前ニューロンの状態が非発火（ｘ_di＝０）であれば、シナプスを考慮する必要がない。また、前ニューロンの状態が発火（ｘ_di＝１）であれば、後ニューロンの状態に応じたバイアスによって複数のシナプスの状態を更新できる。

　次に、バイアス項ｑ_ijkについて説明する。

　より具体的には、前ニューロンと後ニューロンとを結合する複数のシナプスの状態値は、前ニューロンの状態値に、後ニューロンの状態値と後ニューロンの期待値との差を乗算した値を活性化関数によって変換した値に基づいて更新することができる。すなわち、シナプスの状態値を、活性化関数によって変換した値の確率で１に更新し、残りの確率で０に更新する。変換された値が、例えば、０．８である場合、シナプスの状態値を０．８の確率で１に更新し、残りの確率０．２（＝１－０．８）で０に更新する。

　バイアス項ｑ_ijkは、式（８）で更新することができる。式（８）において、Σはデータのインデックスｄについての和である。すなわち、中間層の全てのニューロンを１回更新する際に用いられるミニバッチのインデックスｄそれぞれについての和であり、Σによる和の計算は、中間層の各ニューロンの更新が、データ毎に行われるのに対し、ニューラルネットワーク内のシナプスの更新は、全てのデータについての和となる。σは活性化関数（例えば、シグモイド関数）である。

　図７は前ニューロンと後ニューロンとを結合するシナプスの様子の一例を示す模式図である。ｘ_diは前ニューロンの状態値を表す。ｘ_djは後ニューロンの状態値を表す。σ（ｖ_dj）は、後ニューロンｘ_jに入力される信号の和によって得られる後ニューロンの状態の期待値を表す。

　前ニューロンが発火しなければｘ_di＝０であり、バイアス項ｑ_ijkは０となる。前ニューロンが発火したとき（ｘ_di＝１）、後ニューロンｘ_djが発火すれば（ｘ_dj＝１）、バイアス項ｑ_ijkに正の寄与を与え、シナプスを増強し（結果として、結合重みｗ_ijを大きくする）、後ニューロンｘ_djが発火しなければ（ｘ_dj＝０）、バイアス項ｑ_ijkに負の寄与を与え、シナプスを抑制する（結果として、結合重みｗ_ijを小さくする）ことができる。

　ニューラルネットワーク内の各シナプスそれぞれの状態値は、中間層の各ニューロンそれぞれの更新された状態値を用いて更新することができる。すなわち、インデックスｄ毎のデータを用いて、中間層の全てのニューロンをデータ毎に１回更新する。そして、すべてのインデックスｄのデータについて更新した全てのニューロンの値を用いてニューラルネットワーク内の各シナプスそれぞれの状態値を求める。これにより、データ毎（例えば、ミニバッチのデータ）に中間層の全てのニューロンの状態が決定され、全てのインデックスのデータについて決定された全てのニューロンの状態に基づいてニューラルネットワーク内の各シナプスの状態を求めることができる。

　別言すれば、脳内では、シナプスもニューロンと同様に確率的に振る舞うことが知られており、シナプスの確率的動作は、ニューロンの動作に比べて遅いスケールで実現する。上述の構成は、シナプスの更新が、ニューロンの更新に対して遅い時間スケールで動作することを意味しており、ニューロンとシナプスとが、それぞれ異なった時間スケールの確率的更新則に従うことが導かれる。

　本実施の形態は、リカレントニューラルネットワークのような多様なニューラルネットワークにも適用することができる。

　図８Ａ及び図８Ｂはリカレントニューラルネットワークの構成の一例を示す模式図である。便宜上、図８Ａに示すような、入力層、１つの中間層及び出力層で構成されるリカレントニューラルネットワークを考える。ｘ₀、ｘ₁、ｘ₂は、入力層、中間層、出力層のニューロンとする。

　図８Ｂは、図８Ａに示す中間層のループ構造を展開させたものであり、図１に示すような、一般的なニューラルネットワークの構成にすることができ、前述の更新則を用いて中間層の全てのニューロン及びニューラルネットワークの各シナプスを更新することができる。なお、図８Ｂのように展開しなくてもよい。

　図９はニューラルネットワークの学習に用いられる情報処理装置５０の構成の一例を示すブロック図である。学習処理装置としての情報処理装置５０は、プロセッサ５１、操作部５２、インタフェース部５３、表示パネル５４、ＲＯＭ５５、メモリ５６（例えば、ＲＡＭ）、記憶部５７及び記録媒体読取部５８を備える。記憶部５７には、ニューラルネットワークの学習を行うコンピュータプログラムやデータなどが含まれる学習処理部５７１、学習モデル５７２が記憶される。なお、学習モデル５７２は、ニューラルネットワークを有し、学習前、学習途中、あるいは学習済の学習モデル（学習済装置）とすることができる。なお、情報処理装置５０は、１台の装置で構成してもよく、あるいは複数台の装置で構成してもよい。この場合、情報処理装置５０の各部を複数台の装置で分散させて構成することができ、例えば、学習処理部５７１及び学習モデル５７２の少なくとも一方を、情報処理装置５０と異なる別の装置に備えることができる。また、学習処理部５７１及び学習モデル５７２それぞれを、情報処理装置５０と異なる別の装置それぞれに備えるようにしてもよい。

　プロセッサ５１及び学習処理部５７１は、例えば、ＣＰＵ（例えば、１個のプロセッサ又は複数のプロセッサコアを実装したマルチ・プロセッサなど）、ＧＰＵ（Graphics Processing Units）、ＤＳＰ（Digital Signal Processors）、ＦＰＧＡ（Field-Programmable Gate Arrays）などのハードウェアを組み合わせることによって構成することができる。

　表示パネル５４は、液晶パネル又は有機ＥＬ（Electro Luminescence）ディスプレイ等で構成することができる。

　操作部５２は、例えば、ハードウェアキーボード、マウスなどで構成され、表示パネル２４に表示されたアイコンなどの操作、文字等の入力などを行うことができる。なお、操作部５２は、タッチパネルで構成してもよい。

　インタフェース部５３は、ニューラルネットワークの学習に必要な訓練データ、テストデータなどを外部の装置等から取得することができる。また、インタフェース部５３は、ニューラルネットワークの学習の過程で得られたデータなどを出力することができる。

　記憶部５７は、ハードディスク又はフラッシュメモリなどで構成することができる。記憶部５７に記憶された学習処理部５７１、学習モデル５７２をメモリ５６に読み込んでプロセッサ５１によって処理することにより、ニューラルネットワークの学習を行うことができる。

　記録媒体読取部５８は、コンピュータプログラムを記録した記録媒体Ｍ（例えば、ＤＶＤなどのメディア）からコンピュータプログラム（例えば、図１０及び図１８に示す処理手順など）を読み取ることが可能である。なお、図示していないが、記録媒体Ｍに記録されたコンピュータプログラムは、持ち運びが自由なメディアに記録されたものに限定されるものではなく、インターネット又は他の通信回線を通じて伝送されるコンピュータプログラムも含めることができる。

　学習処理部５７１（プロセッサ５１を含めてもよい）は、ニューラルネットワーク内の各ニューロンを、二値を取り得る確率変数とする処理と、ニューラルネットワーク内のニューロン間の結合重みを、所要の結合係数がそれぞれ乗算された複数のシナプスで表現した当該複数のシナプスを、二値を取り得る確率変数とする処理と、入力層及び出力層それぞれのニューロンに訓練データを与え、中間層のニューロンに初期データを与える処理と、入力層及び出力層それぞれのニューロンの確率変数が当該訓練データの値であるという条件の下での条件付き確率分布から、マルコフ連鎖モンテカルロ法に基づくサンプリングを行って中間層の各ニューロン及びニューラルネットワーク内の各シナプスそれぞれの状態値を繰り返し更新する処理と、更新された各シナプスの状態値に基づいてニューロン間の結合重みを算出する処理とを実行することができる。

　図１０はニューラルネットワークの学習の処理手順の一例を示すフローチャートである。以下では、便宜上、処理の主体をプロセッサ５１として説明する。プロセッサ５１は、訓練データを入力層及び出力層のニューロンに代入し（Ｓ１１）、ニューラルネットワーク内のシナプス及び中間層のニューロンに初期値を代入する（Ｓ１２）。

　プロセッサ５１は、中間層のニューロンを選んでバイアス値ｂ_diを式（６）に基づいて更新し（Ｓ１３）、ニューロンｘ_diを式（５）に基づいて更新する（Ｓ１４）。プロセッサ５１は、中間層の全てのニューロンの更新を終了したか否かを判定し（Ｓ１５）、全てのニューロンの更新を終了していない場合（Ｓ１５でＮＯ）、ステップＳ１３以降の処理を繰り返す。

　全てのニューロンの更新を終了した場合（Ｓ１５でＹＥＳ）、すなわち、１つのインデックスのデータを用いて更新が終了した場合、プロセッサ５１は、訓練データがあるか否かを判定する（Ｓ１６）。ステップＳ１６では、更新に用いられていない他のインデックスのデータがあるか否かを判定する。

　訓練データがある場合（Ｓ１６でＹＥＳ）、プロセッサ５１は、次のセット（すなわち、次のインデックス）の訓練データを取得し（Ｓ１７）、ステップＳ１１以降の処理を繰り返す。訓練データがない場合（Ｓ１６でＮＯ）、プロセッサ５１は、ニューラルネットワーク内のシナプスを選んでバイアス値ｑ_ijkを式（８）に基づいて更新し（Ｓ１８）、シナプスｓ_ijkを式（７）に基づいて更新する（Ｓ１９）。

　プロセッサ５１は、ニューラルネットワーク内の全てのシナプスの更新を終了したか否かを判定し（Ｓ２０）、全てのシナプスの更新を終了していない場合（Ｓ２０でＮＯ）、ステップＳ１８以降の処理を繰り返す。全てのシナプスの更新を終了した場合（Ｓ２０でＹＥＳ）、プロセッサ５１は、更新したシナプスの値に基づいて結合重みｗ_ijを算出する（Ｓ２１）。

　プロセッサ５１は、処理を繰り返すか否かを判定する（Ｓ２２）。処理を繰り返すか否かは、例えば、ステップＳ２１で算出した結合重みの性能を評価し、必要な性能が得られているか否かに基づいて判定してもよく、あるいは、予め定められた回数の処理が終了したか否かに基づいて判定してもよい。処理を繰り返す場合（Ｓ２２でＹＥＳ）、プロセッサ５１は、ステップＳ１１以降の処理を繰り返し、処理を繰り返さない場合（Ｓ２２でＮＯ）、処理を終了する。

　上述の実施の形態において、式（６）及び式（８）で示す更新則は、それぞれ式（９）及び式（１０）を用いることにより、より正確に更新することができる。ここで、ｆ_dj（ｘ）は、式（１１）で表すことができ、ｖ_dj,-iは式（１２）で表すことができ、ｖ_dj,-ikは式（１３）で表すことができる。ここでは、ｉ番目のニューロンの状態をサンプリングで求める場合、ｉ番目のニューロンの寄与を除くようにし、またｑ_ijkの状態をサンプリングする場合、ｑ_ijkの寄与を除くようにしているので、ギブスサンプリングをより正確に適用することができる。

　また、上述の実施の形態において、式（６）及び式（８）で示す更新則に代えて、それぞれ式（１４）及び式（１５）を用いることもできる。ここでは、ｂ_diの更新において、現在のｂ_diの値を反映し、ｑ_ijkの更新において、現在のｑ_ijkの値を反映している。

　同様に、上述の実施の形態において、式（５）及び式（７）で示す更新則に代えて、それぞれ式（１６）及び式（１７）を用いることもできる。ここでは、ｘ_diの更新において、現在のｘ_diの値を反映し、ｓ_ijkの更新において、現在のｓ_ijkの値を反映している。式（１４）～式（１７）は、メトロポリス・ヘイスティング法によるサンプリングを行うことに対応する。

　式（１６）及び式（１７）において、ｒ_x、ｒ_sは、例えば、０より大きく１より小さい値とすることができる。式（１６）及び式（１７）は、確率ｒ_x、ｒ_sで各ニューロン及び各シナプスのサンプリングを行うが、（１－ｒ_x）、（１－ｒ_s）の確率でサンプリングを行わず現在の値を維持するように現状維持のバイアスをかけることを意味している。なお、この現状維持確率の導入は、メトロポリス・ヘイスティング法での提案分布の変更として導くこともできる。

　また、式（１４）～式（１７）を用いることにより、ＧＰＵなどの同期的な並列計算機を用いる場合に、同期更新してもネットワーク内の一部のニューロンとシナプスだけが更新されるようにすることができる。すなわち、一部のニューロンとシナプスだけが更新されるので、非同期更新の実現に無駄に時間がかかることを防止して、並列計算機による計算を効率的に行うことができる。

　本実施の形態の学習方法に必要な計算量のオーダは、結合重みの数をＷ、データ数をＤ、結合あたりのシナプス数をＫとして、データ数が多い場合はＯ（Ｗ（Ｄ＋Ｋ））＝Ｏ（ＷＤ）となり、誤差逆伝播法と同様である。

　本実施の形態の学習方法によって生成された学習済装置は、例えば、携帯端末装置などに組み込むことができる。この場合、学習済装置は、画像データ、音声データ及び文字列データの少なくとも一方を訓練データとして用いて生成しておくことができる。これにより、携帯端末装置は、画像データが入力されると、所要の対象物を検出するような画像認識、画像分類などの処理を行うことができる。携帯端末装置は、音声データが入力されると、音声認識などの処理を行うことができる。また、携帯端末装置は、文字列データが入力されると、自然言語処理などを行うことができる。

　次に、本実施の形態の学習方法の有効性について説明する。

　図１１は本実施の形態の学習方法による第１評価結果を示す説明図である。図１１は、機械学習でよく用いられる代表的な手書き文字認識データセット（ＭＮＩＳＴ）を用いた評価結果を示す。ニューラルネットワークは、入力層、２つの中間層及び出力層であり、入力層のニューロンは７８４個、出力層のニューロンは１０個、中間層の各層のニューロンは５００個とした。１回のサンプリングで６万のデータを使用している。１エポックは、学習において訓練データを全て使い切ったときの回数に相当する。図１１に示すように、訓練データに基づく推定精度と、テストデータに基づく推定精度とは同じように推移していることが分かる。

　図１２は本実施の形態の学習方法による第２評価結果を示す説明図である。図１２では、一方向結合ではないリカレントニューラルネットワークの場合を示し、入力層のニューロンは８０個、出力層のニューロンは３個、中間層のニューロンは２００個とした。入力の画素（ｉ＝０～８０）に対して、出力値（ｉ＝０～３）を出力するネットワークである。図１２に示すように、訓練データに基づく推定精度と、テストデータに基づく推定精度とは同じように推移していることが分かる。

　図１３は本実施の形態の学習方法による第３評価結果を示す説明図である。図１３では、リカレントニューラルネットワークの場合を示し、入力層のニューロンは２０個、出力層のニューロンは２０個、中間層のニューロンは４０個とした。リカレントニューラルネットワークを用いた時系列予測の学習（次時刻の入力を出力とする学習）を行った結果を示す。図１３に示すように、時刻ｔ１の入力に基づいて、時刻ｔ２の入力が出力されるように学習し、時刻ｔ２の入力に基づいて、時刻ｔ３の入力が出力されるように学習させた。以降、他の時刻も同様である。図１３に示すように、テストデータに基づく推定精度は高い値で推移している。なお、時刻ｔ３と時刻ｔ５とでは、入力データが同じであるにも関わらず、過去の入力データ（時刻ｔ３に対して時刻ｔ２、時刻ｔ５に対して時刻ｔ４）に依存する結果、推定精度が若干低下している。

（第２実施形態）
　前述の第１実施形態では、ニューロンの状態値とシナプスの状態値を二値変数（確率変数）としたが、これに限定されるものではない。第２実施形態では、ニューロンの状態値及びシナプスの状態値を連続変数（例えば、０から１までの値を取り得る連続値）とする場合について説明する。なお、情報処理装置５０の構成は、第１実施形態の場合と同様であるので、説明は省略する。

　図１４は第２実施形態のシナプスの構成の一例を示す模式図である。図１４では、便宜上、シナプスの数を６として説明する。シナプスの状態値を連続値とすることにより、式（７）は、式（１８）に置き換えることができる。σは活性化関数（例えば、シグモイド関数）である。ｑ_ijkは前ニューロンの状態及び後ニューロンの状態に依存するバイアス項である。なお、初期値ｑ_0,ijkは、０としている。

　式（３）に式（１８）を代入すると、結合重みｗ_ijは、式（１９）で表すことができる。ここで、式（２０）で示すように、各結合重みｗ_ijに対する各シナプスの寄与ａ_jikを、＋ａまたは-ａのいずれかとするとともに、シナプスの数Ｋ（図１４の例では、Ｋ＝６）のうち半分を＋ａとし、残りの半分を-ａとする。そうすると、結合重みｗ_ijは、式（２１）で表すことができる。

　また、シグモイド関数σについては、式（２２）で表される公式が成り立つので、結合重みｗ_ijは、式（２３）で表すことができる。ｑ_ijは前ニューロンの状態及び後ニューロンの状態に依存するバイアス値である。すなわち、ニューラルネットワークのニューロン間の結合重みｗ_ijを多数のシナプスｓ_ijkで表す必要がなくなる。また、定数ａは、単純に１でもよく、あるいは、０．１、０．５などの数値でもよい。なお、定数ａとＫの乗算値ａ・Ｋは、ある程度大きくする方が好ましい。

　図１５は第２実施形態でのニューラルネットワークの学習方法の概要を示す模式図である。図１５に示すように、入力層のニューロンは、データのインデックスｄの訓練データに対応するニューロンの状態ｘ_d ⁱⁿに固定する。出力層のニューロンは、データのインデックスｄの訓練データに対応するニューロンの状態ｘ_d ^outに固定する。中間層の全てのニューロンの状態を{ｘ_di}と表す。前述のように、ニューラルネットワークのニューロン間の結合重みｗ_ijを多数のシナプスｓ_ijkで表す必要がないので、シナプスｓ_ijkに代えて、ニューロン間の結合重みを{ｗ_ijk}と表す。第２実施形態では、ニューラルネットワークの入力層及び出力層それぞれのニューロンに訓練データを与え、ニューラルネットワークの中間層のニューロン及びニューラルネットワークのニューロン間の結合重みに初期データを与え、中間層のニューロンの状態値を更新し、更新された各ニューロンの状態値に基づいてニューロン間の結合重みを更新することにより、ニューラルネットワークの学習を行う。以下、具体的に説明する。

　まず、ニューロンの状態値の更新について説明する。

　中間層のニューロンの状態値を、当該ニューロンに入力される信号値の和と、当該ニューロンに繋がる後ニューロンからのバイアス値との和を活性化関数によって変換した値（「関数値」ともいう）に基づいて更新する。より具体的には、中間層のニューロンの状態値を、活性化関数によって変換した値に更新する。活性化関数によって変換される値は、０から１までの値を取り得る。活性化関数によって変換される値が、例えば、０．８である場合、中間層のニューロンの状態値を０．８に更新する。

　中間層の各ニューロンは、式（２４）に基づいて更新することができる。

　式（２４）において、ｂ_diは、後ニューロンから当該ニューロンｘ_diへの発火確率のバイアスを与えることができる。すなわち、逆行性のバイアス項ｂ_diの存在によって、出力層のニューロンに与えられた訓練データの情報を、ネットワークの中間層に波及させることが可能となる。この意味で、バイアス項ｂ_diは、誤差逆伝播法の誤差伝播のサンプリングに基づく確率的な表現とみなすことができる。これにより、誤差逆伝播を用いなくても、出力層のニューロンに与えられた訓練データの情報に基づく学習が可能となる。

　次に、バイアス項ｂ_diについて説明する。

　後ニューロンからのバイアス値を、後ニューロンの状態値と、後ニューロンに入力される信号値の和を活性化関数によって変換した値との差に基づいて算出する。バイアス値ｂ_diは、式（２５）で算出することができる。式（２５）において、ｘ_djは後ニューロンｘ_jの状態値を表し、σ（ｖ_dj）は、後ニューロンｘ_jに入力される信号の和を活性化関数によって変換した値（関数値）を表す。

　図１６は後ニューロンからのバイアスの様子の一例を示す模式図である。図１６に示すように、当該ニューロンｘ_diの後ニューロンをｘ_djと表す。ｊは、例えば、ｊ＝１～Ｊとすることができる。Ｊは後ニューロンの数である。

　式（２５）が意味するところは、後ニューロンの状態値ｘ_djが関数値σ（ｖ_dj）よりも大きい場合には、バイアス値ｂ_diが正になることにより、式（２４）で表す、ｘ_di＝σ（ｖ_di＋ｂ_di）という式の（ｖ_di＋ｂ_di）が大きくなり、当該ニューロンｘ_iの状態値を大きくする効果がある。また、後ニューロンの状態値ｘ_djが関数値σ（ｖ_dj）よりも小さい場合には、バイアス値ｂ_diが負になることにより、ｘ_di＝σ（ｖ_di＋ｂ_di）という式の（ｖ_di＋ｂ_di）が小さくなり、当該ニューロンｘ_iの状態値を小さくする効果がある。

　このように、式（２５）は、逆行性の誤差伝播とみなすことができ、従来の誤差逆伝播法とは異なり、この逆行性の誤差伝播はネットワーク全体の協調的動作を必要とせずに実現することができる。

　また、ニューロンの状態値の更新は、式（２６）、式（２７）を用いることもできる。

　ｒ_x、ｒ_bは、例えば、０より大きく１より小さい値とすることができる。式（２７）に示すように、バイアス値ｂ_diの更新において、（１－ｒ_b）の重み付けで現在のｂ_diの値を維持し、ｒ_bの重み付けでｂ_diの値を更新し、両者の和を更新後のバイアス値ｂ_diとしている。また、式（２６）に示すように、ニューロンｘ_diの更新において、（１－ｒ_x）の重み付けで現在のｘ_diの値を維持し、ｒ_xの重み付けでｘ_diの値を更新し、両者の和を更新後のニューロンの状態値ｘ_diとしている。

　次に、結合重みの更新について説明する。

　結合重みは、式（２８）、式（２９）に基づいて更新することができる。

　式（２８）に示すように、前ニューロンと後ニューロンとの間の結合重みｗ_ijは、バイアス値ｑ_ijを活性化関数によって変換した値に基づいて更新する。式（２８）は、前述の式（２３）と同じ式である。バイアス値ｑ_ijは前ニューロンの状態値及び後ニューロンの状態値に依存する値である。

　そして、式（２９）に示すように、バイアス値ｑ_ijは、後ニューロンの状態値ｘ_djから、後ニューロンに入力される信号値の和ｖ_djを活性化関数によって変換した値σ（ｖ_dj）を減算した減算値を、前ニューロンの状態値ｘ_diに乗算した乗算値に基づいて更新する。

　図１７は前ニューロンと後ニューロンとを結合する結合重みの様子の一例を示す模式図である。ｘ_diは前ニューロンの状態値を表す。ｘ_djは後ニューロンの状態値を表す。σ（ｖ_dj）は、後ニューロンｘ_jに入力される信号の和を活性化関数によって変換した関数値を表す。式（２９）が意味するところは、後ニューロンの状態値ｘ_djが関数値σ（ｖ_dj）よりも大きい場合には、バイアス値ｑ_ijが正になることにより、式（２８）で表す、σ（ａ・ｑ_ij）が大きくなり、結合重みｗ_ijを大きくする効果がある。また、後ニューロンの状態値ｘ_djが関数値σ（ｖ_dj）よりも小さい場合には、バイアス値ｑ_ijが負になることにより、式（２８）で表す、σ（ａ・ｑ_ij）が小さくなり、結合重みｗ_ijを小さくする効果がある。

　このように、式（２９）は、逆行性の誤差伝播とみなすことができ、従来の誤差逆伝播法とは異なり、この逆行性の誤差伝播はネットワーク全体の協調的動作を必要とせずに実現することができる。

　また、結合重みの更新は、式（３０）、式（３１）を用いることもできる。

　ｒ_w、ｒ_qは、例えば、０より大きく１より小さい値とすることができる。式（３１）に示すように、バイアス値ｑ_ijの更新において、（１－ｒ_q）の重み付けで現在のｑ_ijの値を維持し、ｒ_qの重み付けでｑ_ijの値を更新し、両者の和を更新後のバイアス値ｑ_ijとしている。また、式（３０）に示すように、結合重みｗ_ijの更新において、（１－ｒ_w）の重み付けで現在のｗ_ijの値を維持し、ｒ_wの重み付けでｗ_ijの値を更新し、両者の和を更新後の結合重みｗ_ijとしている。

　図１８は第２実施形態のニューラルネットワークの学習の処理手順の一例を示すフローチャートである。プロセッサ５１は、訓練データを入力層及び出力層のニューロンに代入し（Ｓ３１）、ニューラルネットワーク内の結合重み及び中間層のニューロンに初期値を代入する（Ｓ３２）。

　プロセッサ５１は、中間層のニューロンを選んでバイアス値ｂ_diを式（２５）又は式（２７）に基づいて更新し（Ｓ３３）、ニューロンｘ_diを式（２４）又は式（２６）に基づいて更新する（Ｓ３４）。プロセッサ５１は、中間層の全てのニューロンの更新を終了したか否かを判定し（Ｓ３５）、全てのニューロンの更新を終了していない場合（Ｓ３５でＮＯ）、ステップＳ３３以降の処理を繰り返す。

　全てのニューロンの更新を終了した場合（Ｓ３５でＹＥＳ）、すなわち、１つのインデックスのデータを用いて更新が終了した場合、プロセッサ５１は、訓練データがあるか否かを判定する（Ｓ３６）。ステップＳ３６では、更新に用いられていない他のインデックスのデータがあるか否かを判定する。

　訓練データがある場合（Ｓ３６でＹＥＳ）、プロセッサ５１は、次のセット（すなわち、次のインデックス）の訓練データを取得し（Ｓ３７）、ステップＳ３１以降の処理を繰り返す。訓練データがない場合（Ｓ３６でＮＯ）、プロセッサ５１は、ニューラルネットワーク内のニューロン間の結合を選んでバイアス値ｑ_ijを式（２９）又は式（３１）に基づいて更新し（Ｓ３８）、結合重みｗ_ijを式（２８）又は式（３０）に基づいて更新する（Ｓ３９）。

　プロセッサ５１は、ニューラルネットワーク内の全ての結合重みの更新を終了したか否かを判定し（Ｓ４０）、全ての結合重みの更新を終了していない場合（Ｓ４０でＮＯ）、ステップＳ３８以降の処理を繰り返す。全ての結合重みの更新を終了した場合（Ｓ４０でＹＥＳ）、プロセッサ５１は、処理を繰り返すか否かを判定する（Ｓ４１）。

　処理を繰り返すか否かは、更新した結合重みの性能を評価し、必要な性能が得られているか否かに基づいて判定してもよく、あるいは、予め定められた回数の処理が終了したか否かに基づいて判定してもよい。処理を繰り返す場合（Ｓ４１でＹＥＳ）、プロセッサ５１は、ステップＳ３１以降の処理を繰り返し、処理を繰り返さない場合（Ｓ４１でＮＯ）、処理を終了する。

　図１９は第２実施形態の学習方法による評価結果の一例を示す説明図である。図１９は、図１１の場合と同様に、機械学習でよく用いられる代表的な手書き文字認識データセット（ＭＮＩＳＴ）を用いた評価結果を示す。第１実施形態の場合、訓練データの認識精度は約９５％、テストデータの認識精度は約９４％であるのに対し、第２実施形態の場合、訓練データの認識精度は約９９％、テストデータの認識精度は約９７％である。このように、第２実施形態の場合の方が、学習精度が向上する傾向が見られる。これは、二値に代えて連続値を用いるので、ニューロンの状態値及び結合重みが取り得る値が一層細かくなったためと考えられる。また、第１実施形態の場合と比べて、ニューラルネットワーク内のニューロン間の結合を多数のシナプスで表す必要がないので、学習の際に必要となる変数の数を大幅に削減することができ、それに伴ってＧＰＵ等による計算時間も削減でき、計算機上での実装が容易になる。

　図２０は携帯端末装置１００の構成の一例を示すブロック図である。携帯端末装置１００は、通信ネットワークを介して、学習処理装置としてのサーバ２００に接続することができる。携帯端末装置１００は、装置全体を制御するプロセッサ１０１、カメラ部１０２、マイク１０３、スピーカ１０４、表示パネル１０５、操作部１０６、通信部１０７、ＲＯＭ１０８、メモリ１０９及び記憶部１１０を備える。記憶部１１０には、ニューラルネットワークの学習を行うコンピュータプログラムやデータなどが含まれる学習処理部１１１、学習モデル１１２が記憶される。学習処理部１１１、学習モデル１１２は、図９の例と同様の構成を有する。

　カメラ部１０２は、画像（動画を含む）を撮像することができる。マイク１０３は、音声データを取得することができる。スピーカは、音声を出力することができる。

　通信部１０７は、通信ネットワーク１を介して、サーバ２００の通信部２０２との間の通信機能を有する。なお、通信部１０７は、他の装置（不図示）との間で情報の送受信を行うことができる。表示パネル１０５、操作部１０６、ＲＯＭ１０８、メモリ１０９及び記憶部１１０は、図９の例と同様であるので説明は省略する。

　学習済装置としての学習モデル１１２は、ニューラルネットワークを有し、本実施の形態のニューラルネットワークの学習方法によって学習済であり、あるいは本実施の形態のニューラルネットワークの生成方法によって生成されている。なお、学習モデル１１２は、学習処理部１１１によって、再学習することもできる。学習モデル１１２を再学習させない場合には、学習処理部１１１を具備しなくてもよい。

　学習モデル１１２は、画像データ、音声データ及び文字列データの少なくとも一方を訓練データとして用いて生成又は学習してある。なお、学習モデル１１２の学習は、教師ラベルのない教師なし学習でもよく、教師ラベルのある教師あり学習でもよい。

　画像データを訓練データとして用いて学習モデル１１２を生成又は学習してあることにより、携帯端末装置１００は、例えば、カメラ部１０２で撮像した画像に写っている人や物体を認識することができる。また認識結果をスピーカ１０４から音声で出力することができる。

　音声データを訓練データとして用いて学習モデル１１２を生成又は学習してあることにより、携帯端末装置１００は、例えば、マイク１０３で取得した話相手の音声に基づいて、その内容を理解し、スピーカ１０４から音声で出力して話相手とコミュニケーションをとることができる。

　文字列データを訓練データとして用いて学習モデル１１２を生成又は学習してあることにより、携帯端末装置１００は、例えば、カメラ部１０２で撮像した画像に写っている文字情報や、通信部１０７を介して取得した文字情報などの内容を理解し、文字情報の要約や文字情報に対する応答内容などを表示パネル１０５に表示し、あるいはスピーカ１０４から音声で出力することができる。

　サーバ２００は、学習処理装置としての機能を有する。サーバ２００は、プロセッサ２０１、通信部２０２、ＲＯＭ２０３、メモリ２０４及び記憶部２０５を備える。記憶部２０５には、学習処理部２０６、学習モデル２０７が記憶されている。ＲＯＭ２０３、メモリ２０４、記憶部２０５、学習処理部２０６、学習モデル２０７は、図９の例と同様である。サーバ２００は、１台で構成してもよく、あるいは複数台のサーバで構成してもよい。この場合、サーバ２００の各部を複数台のサーバで分散させて構成することができ、例えば、学習処理部２０６及び学習モデル２０７の少なくとも一方を、サーバ２００と異なる別のサーバに備えることができる。また、学習処理部２０６及び学習モデル２０７それぞれを、サーバ２００と異なる別のサーバそれぞれに備えるようにしてもよい。

　学習処理部２０６（プロセッサ２０１を含めてもよい）は、ニューラルネットワーク内の各ニューロンを、二値を取り得る確率変数とする処理と、ニューラルネットワーク内のニューロン間の結合重みを、所要の結合係数がそれぞれ乗算された複数のシナプスで表現した当該複数のシナプスを、二値を取り得る確率変数とする処理と、入力層及び出力層それぞれのニューロンに訓練データを与え、中間層のニューロンに初期データを与える処理と、入力層及び出力層それぞれのニューロンの確率変数が当該訓練データの値であるという条件の下での条件付き確率分布から、マルコフ連鎖モンテカルロ法に基づくサンプリングを行って中間層の各ニューロン及びニューラルネットワーク内の各シナプスそれぞれの状態値を繰り返し更新する処理と、更新された各シナプスの状態値に基づいてニューロン間の結合重みを算出する処理とを実行することができる。

　携帯端末装置１００は、サーバ２００から学習済の学習モデル２０７をダウンロードして、記憶部１１０に記憶することもできる。この場合、携帯端末装置１００は、サーバ２００の学習処理部２０６で再学習した学習モデル２０７をダウンロードして、学習モデル１１２を更新することもできる。学習モデルをサーバ２００からダウンロードする場合、携帯端末装置１００は、学習処理部１１１を具備しなくてもよい。

　５０　情報処理装置
　５１　プロセッサ
　５２　操作部
　５３　インタフェース部
　５４　表示パネル
　５５　ＲＯＭ
　５６　メモリ
　５７　記憶部
　５８　記録媒体読取部
　５７１　学習処理部
　５７２　学習モデル
　１００　携帯端末装置
　１０１　プロセッサ
　１０２　カメラ部
　１０３　マイク
　１０４　スピーカ
　１０５　表示パネル
　１０６　操作部
　１０７　通信部
　１０８　ＲＯＭ
　１０９　メモリ
　１１０　記憶部
　１１１　学習処理部
　１１２　学習モデル
　２００　サーバ
　２０１　プロセッサ
　２０２　通信部
　２０３　ＲＯＭ
　２０４　メモリ
　２０５　記憶部
　２０６　学習処理部
　２０７　学習モデル

Claims

　ニューラルネットワーク内の各ニューロンを、二値を取り得る確率変数とし、
　ニューラルネットワーク内のニューロン間の結合重みを、各シナプスに所要の結合係数が乗算された複数のシナプスで表現し、前記複数のシナプスを、二値を取り得る確率変数とし、
　入力層及び出力層それぞれのニューロンに訓練データを与え、中間層のニューロンに初期データを与え、
　入力層及び出力層それぞれのニューロンの確率変数が前記訓練データの値であるという条件の下での条件付き確率分布から、マルコフ連鎖モンテカルロ法に基づくサンプリングを行って前記中間層の各ニューロン及びニューラルネットワーク内の各シナプスそれぞれの状態値を更新する処理を繰り返し、
　更新された各シナプスの状態値に基づいてニューロン間の結合重みを算出する、
　ニューラルネットワークの学習方法。
　前記中間層のニューロンの状態値を、
　前記ニューロンに入力される信号値の和と、前記ニューロンに繋がる後ニューロンからのバイアス値との和を活性化関数によって変換した値に基づいて更新する、
　請求項１に記載のニューラルネットワークの学習方法。
　前記後ニューロンからのバイアス値を、
　前記後ニューロンの状態値と前記後ニューロンの期待値との差に基づいて算出する、
　請求項２に記載のニューラルネットワークの学習方法。
　前ニューロンと後ニューロンとを結合する複数のシナプスの状態値を、
　前ニューロンの状態値及び後ニューロンの状態値に基づく値に更新する、
　請求項１から請求項３のいずれか一項に記載のニューラルネットワークの学習方法。
　前ニューロンと後ニューロンとを結合する複数のシナプスの状態値を、
　前記前ニューロンの状態値に、前記後ニューロンの状態値と前記後ニューロンの期待値との差を乗算した値を活性化関数によって変換した値に基づいて更新する、
　請求項１から請求項４のいずれか一項に記載のニューラルネットワークの学習方法。
　ニューラルネットワーク内の各シナプスそれぞれの状態値を、
　前記中間層の各ニューロンそれぞれの更新された状態値を用いて更新する、
　請求項１から請求項５のいずれか一項に記載のニューラルネットワークの学習方法。
　ニューラルネットワークの入力層及び出力層それぞれのニューロンに訓練データを与え、
　前記ニューラルネットワークの中間層のニューロン及び前記ニューラルネットワークのニューロン間の結合重みに初期データを与え、
　前記中間層のニューロンの状態値を、
　前記ニューロンに入力される信号値の和と、前記ニューロンに繋がる後ニューロンからのバイアス値との和を活性化関数によって変換した値に基づいて更新し、
　更新された各ニューロンの状態値に基づいてニューロン間の結合重みを更新する、
　ニューラルネットワークの学習方法。
　前記後ニューロンからのバイアス値を、
　前記後ニューロンの状態値と、前記後ニューロンに入力される信号値の和を活性化関数によって変換した値との差に基づいて算出する、
　請求項７に記載のニューラルネットワークの学習方法。
　前ニューロンと後ニューロンとの間の結合重みを、
　前ニューロンの状態値及び後ニューロンの状態値に基づくバイアス値を活性化関数によって変換した値に基づいて更新する、
　請求項７又は請求項８に記載のニューラルネットワークの学習方法。
　前記バイアス値を、
　前記後ニューロンの状態値から前記後ニューロンに入力される信号値の和を活性化関数によって変換した値を減算した減算値を、前記前ニューロンの状態値に乗算した乗算値に基づいて更新する、
　請求項９に記載のニューラルネットワークの学習方法。
　ニューラルネットワーク内の各ニューロンを、二値を取り得る確率変数とし、
　ニューラルネットワーク内のニューロン間の結合重みを、各シナプスに所要の結合係数が乗算された複数のシナプスで表現し、前記複数のシナプスを、二値を取り得る確率変数とし、
　入力層及び出力層それぞれのニューロンに訓練データを与え、中間層のニューロンに初期データを与え、
　入力層及び出力層それぞれのニューロンの確率変数が前記訓練データの値であるという条件の下での条件付き確率分布から、マルコフ連鎖モンテカルロ法に基づくサンプリングを行って前記中間層の各ニューロン及びニューラルネットワーク内の各シナプスそれぞれの状態値を更新する処理を繰り返し、
　更新された各シナプスの状態値に基づいてニューロン間の結合重みを算出してニューラルネットワークを生成する、
　ニューラルネットワークの生成方法。
　ニューラルネットワークの入力層及び出力層それぞれのニューロンに訓練データを与え、
　前記ニューラルネットワークの中間層のニューロン及び前記ニューラルネットワークのニューロン間の結合重みに初期データを与え、
　前記中間層のニューロンの状態値を、
　前記ニューロンに入力される信号値の和と、前記ニューロンに繋がる後ニューロンからのバイアス値との和を活性化関数によって変換した値に基づいて更新し、
　更新された各ニューロンの状態値に基づいてニューロン間の結合重みを更新する、
　ニューラルネットワークの生成方法。
　ニューラルネットワークを有する学習済装置であって、
　コンピュータに、
　ニューラルネットワーク内の各ニューロンを、二値を取り得る確率変数とし、
　ニューラルネットワーク内のニューロン間の結合重みを、各シナプスに所要の結合係数が乗算された複数のシナプスで表現し、前記複数のシナプスを、二値を取り得る確率変数とし、
　入力層及び出力層それぞれのニューロンに訓練データを与え、中間層のニューロンに初期データを与え、
　入力層及び出力層それぞれのニューロンの確率変数が前記訓練データの値であるという条件の下での条件付き確率分布から、マルコフ連鎖モンテカルロ法に基づくサンプリングを行って前記中間層の各ニューロン及びニューラルネットワーク内の各シナプスそれぞれの状態値を繰り返し更新し、
　更新された各シナプスの状態値に基づいてニューロン間の結合重みを算出する、
　処理を実行させて生成されてある学習済装置。
　ニューラルネットワークを有する学習済装置であって、
　コンピュータに、
　ニューラルネットワークの入力層及び出力層それぞれのニューロンに訓練データを与え、
　前記ニューラルネットワークの中間層のニューロン及び前記ニューラルネットワークのニューロン間の結合重みに初期データを与え、
　前記中間層のニューロンの状態値を、
　前記ニューロンに入力される信号値の和と、前記ニューロンに繋がる後ニューロンからのバイアス値との和を活性化関数によって変換した値に基づいて更新し、
　更新された各ニューロンの状態値に基づいてニューロン間の結合重みを更新する、
　処理を実行させて生成されてある学習済装置。
　請求項１３又は請求項１４に記載の学習済装置を備える携帯端末装置であって、
　前記学習済装置は、
　画像データ、音声データ及び文字列データの少なくとも一方を訓練データとして用いて生成してある携帯端末装置。
　プロセッサを備え、ニューラルネットワークを学習させる学習処理装置であって、
　前記プロセッサは、
　ニューラルネットワーク内の各ニューロンを、二値を取り得る確率変数とし、
　ニューラルネットワーク内のニューロン間の結合重みを、各シナプスに所要の結合係数が乗算された複数のシナプスで表現し、前記複数のシナプスを、二値を取り得る確率変数とし、
　入力層及び出力層それぞれのニューロンに訓練データを与え、中間層のニューロンに初期データを与え、
　入力層及び出力層それぞれのニューロンの確率変数が前記訓練データの値であるという条件の下での条件付き確率分布から、マルコフ連鎖モンテカルロ法に基づくサンプリングを行って前記中間層の各ニューロン及びニューラルネットワーク内の各シナプスそれぞれの状態値を繰り返し更新し、
　更新された各シナプスの状態値に基づいてニューロン間の結合重みを算出する、
　処理を実行する学習処理装置。
　プロセッサを備え、ニューラルネットワークを学習させる学習処理装置であって、
　前記プロセッサは、
　ニューラルネットワークの入力層及び出力層それぞれのニューロンに訓練データを与え、
　前記ニューラルネットワークの中間層のニューロン及び前記ニューラルネットワークのニューロン間の結合重みに初期データを与え、
　前記中間層のニューロンの状態値を、
　前記ニューロンに入力される信号値の和と、前記ニューロンに繋がる後ニューロンからのバイアス値との和を活性化関数によって変換した値に基づいて更新し、
　更新された各ニューロンの状態値に基づいてニューロン間の結合重みを更新する、
　処理を実行する学習処理装置。
　コンピュータに、
　ニューラルネットワーク内の各ニューロンを、二値を取り得る確率変数とし、
　ニューラルネットワーク内のニューロン間の結合重みを、各シナプスに所要の結合係数が乗算された複数のシナプスで表現し、前記複数のシナプスを、二値を取り得る確率変数とし、
　入力層及び出力層それぞれのニューロンに訓練データを与え、中間層のニューロンに初期データを与え、
　入力層及び出力層それぞれのニューロンの確率変数が前記訓練データの値であるという条件の下での条件付き確率分布から、マルコフ連鎖モンテカルロ法に基づくサンプリングを行って前記中間層の各ニューロン及びニューラルネットワーク内の各シナプスそれぞれの状態値を繰り返し更新し、
　更新された各シナプスの状態値に基づいてニューロン間の結合重みを算出する、
　処理を実行させるコンピュータプログラム。
　コンピュータに、
　ニューラルネットワークの入力層及び出力層それぞれのニューロンに訓練データを与え、
　前記ニューラルネットワークの中間層のニューロン及び前記ニューラルネットワークのニューロン間の結合重みに初期データを与え、
　前記中間層のニューロンの状態値を、
　前記ニューロンに入力される信号値の和と、前記ニューロンに繋がる後ニューロンからのバイアス値との和を活性化関数によって変換した値に基づいて更新し、
　更新された各ニューロンの状態値に基づいてニューロン間の結合重みを更新する、
　処理を実行させるコンピュータプログラム。