WO2024116293A1

WO2024116293A1 - 特徴量作成装置、特徴量作成方法およびプログラム

Info

Publication number: WO2024116293A1
Application number: PCT/JP2022/044039
Authority: WO
Inventors: 友輝山田; 友哉小杉; 聡鈴木; 絵莉奈竹下
Original assignee: 日本電信電話株式会社
Priority date: 2022-11-29
Filing date: 2022-11-29
Publication date: 2024-06-06

Abstract

本開示に係る特徴量作成装置（１０）は、分布関数の推定のための学習用データと、学習用データに関する第１の特徴量とを取得し、学習用データと、第１の特徴量とに基づいて、学習用データの分布関数を推定し、分布関数から前記１以上のパラメータを算出する分布推定部（１２）と、算出されたパラメータごとに、該パラメータと第１の特徴量との相関を評価し、評価の結果に基づき、パラメータと相関する第２の特徴量を作成する特徴量作成部（１３）と、を備える。

Description

特徴量作成装置、特徴量作成方法およびプログラム

　本開示は、特徴量作成装置、特徴量作成方法およびプログラムに関する。

　従来、通信ネットワークを設計する際には、将来の通信ネットワークの物理リンクの必要帯域を計算することにより、設備投資の効率化が図られている。非特許文献１には、トラヒックの発生確率分布（トラヒック分布）を予測（分布推定）することで、高精度に必要帯域を見積もることができることが記載されている。そして、非特許文献１には、トラヒックデータと、フロー特徴ベクトル（複数の着信フローの、フローごとのピークレートに関する情報を表すベクトル）とから、トラヒックの発生確率分布を予測し、トラヒックの発生確率分布と、将来のフロー特徴ベクトルとを用いて、必要帯域を計算する技術が記載されている。

　分布推定には、分布関数のパラメータ（例えば、正規分布なら平均および分散）の予測が必要である。

　機械学習では、特徴量エンジニアリングを用いた予測精度の向上が知られている。非特許文献２には、四則計算あるいは対数などの数値変換を行うことで、予測により効果的な特徴量を作成する技術が記載されている。この技術を適用することで、予測対象のターゲット（例えば、トラヒック）に対して相関の高い特徴量を数値変換により作成することが考えられる。

E. Takeshita, T. Kosugi, T. Yoshida, "Traffic Statistical Upper Limit Prediction from Flow Features in Network Provisioning", GLOBECOM 2021: 1-6 Udayan Khurana, et.al., "Cognito: Automated Feature Engineering for Supervised Learning", ICDMW 2016 ［令和４年１１月１８日検索］、インターネット＜ＵＲＬ：https://ieeexplore.ieee.org/abstract/document/7836821＞

　分布推定に特徴量エンジニアリングを適用する場合、予測対象の分布関数の全てのパラメータに対して相関が高い特徴量を作成することが考えられる。しかしながら、分布関数の全てのパラメータに対して相関が高い特徴量を常に作成することができるとは限らず、その結果、分布関数を高精度に予測することができないことがある。例えば、パラメータ同士の相関係数が小さい場合、全てのパラメータと相関する特徴量を作成することはできない。

　また、非特許文献２に記載の技術では、有効な特徴量を作成するための数値変換のパターンが予測ごとに異なるため、数値変換のパターンを見つけて予測に有効な特徴量を作成するには高度な技術と多くの時間が必要となる。

　上記のような問題点に鑑みてなされた本開示の目的は、分布関数の複数のパラメータそれぞれについて、当該パラメータと相関する特徴量を作成し、分布関数の推定の精度向上を図ることができる、特徴量作成装置、特徴量作成方法およびプログラムを提供することにある。

　上記課題を解決するための、本開示に係る特徴量作成装置は、深層学習を用いた分布関数の推定における、前記分布関数の１以上のパラメータそれぞれについて、該パラメータと相関する特徴量を作成する特徴量作成装置であって、前記分布関数の推定のための学習用データと、前記学習用データに関する第１の特徴量とを取得し、前記学習用データと、前記第１の特徴量とに基づいて、前記学習用データの分布関数を推定し、前記分布関数から前記１以上のパラメータを算出する分布推定部と、前記算出されたパラメータごとに、該パラメータと前記第１の特徴量との相関を評価し、前記評価の結果に基づき、前記パラメータと相関する第２の特徴量を作成する特徴量作成部と、を備える。

　また、上記課題を解決するため、本開示に係る特徴量作成方法は、深層学習を用いた分布関数の推定における、前記分布関数の１以上のパラメータそれぞれについて、該パラメータと相関する特徴量を作成する特徴量作成装置による特徴量作成方法であって、前記分布関数の推定のための学習用データと、前記学習用データに関する第１の特徴量とを取得し、前記学習用データと、前記第１の特徴量とに基づいて、前記学習用データの分布関数を推定し、前記分布関数から前記１以上のパラメータを算出するステップと、前記算出されたパラメータごとに、該パラメータと前記第１の特徴量との相関を評価し、前記評価の結果に基づき、前記パラメータと相関する第２の特徴量を作成するステップと、を含む。

　また、上記課題を解決するため、本開示に係るプログラムは、コンピュータを、上述した特徴量作成装置として動作させる。

　本開示に係る特徴量作成装置、特徴量作成方法およびプログラムによれば、分布関数の複数のパラメータそれぞれについて、当該パラメータと相関する特徴量を作成し、分布関数の推定の精度向上を図ることができる

本開示の一実施形態に係る特徴量作成装置を含む予測システムの構成例を示す図である。本開示に係る特徴量作成装置の構成例を示す図である。図１に示す予測システムの動作の一例を示すフローチャートである。図３に示すステップＳ１，Ｓ２の処理をより詳細に説明するためのフローチャートである。図２に示す記憶部が作成する第１のテーブルの構成例を示す図である。図２に示す分布推定部が作成する第２のテーブルの構成例を示す図である。図２に示す特徴量作成部が作成する第３のテーブルの構成例を示す図である。図３に示すステップＳ３，Ｓ４の処理をより詳細に説明するためのフローチャートである。図２に示す特徴量作成部が作成する第４のテーブルの構成例を示す図である。図３に示すステップＳ５，Ｓ６の処理をより詳細に説明するためのフローチャートである。図２に示す特徴量作成部が作成する第５のテーブルの構成例を示す図である。図２に示す特徴量作成部の動作の別の一例を示すフローチャートである。図２に示す特徴量作成装置のハードウェア構成の一例を示す図である。

　以下、本開示の実施の形態について図面を参照して説明する。

　図１は、本開示の一実施形態に係る特徴量作成装置１０を含む予測システム１の構成例を示す図である。予測システム１は、予測対象の過去のデータから予測対象の将来の発生確率分布（分布関数）を予測（分布推定）するものである。以下では、予測対象は、通信ネットワークにおけるトラヒックである例を用いて説明するが、本開示はこれに限られるものではない。

　図１に示すように、予測システム１は、トラヒック収集装置２と、特徴量データソース３と、特徴量作成装置１０と、トラヒック分布推定装置４とを備える。

　トラヒック収集装置２は、通信装置間の複数の回線を流れるトラヒックを合計したトラヒックデータを所定の時間間隔（例えば、５分間隔）で収集する装置である。トラヒック収集装置２は、取得したトラヒックデータを学習用データとして、特徴量作成装置１０およびトラヒック分布推定装置４に出力する。

　特徴量データソース３は、学習用データに関する特徴量が登録されるデータベースである。本実施形態においては、特徴量データソース３は、通信ネットワークにおける複数の回線それぞれの特徴量が登録されるデータベースである。特徴量は、通信ネットワークにおけるトラヒックに影響する情報、例えば、回線ごとの提供サービスを示すサービス情報、回線ごとに付されたオプションを示すオプション情報などがある。これらの情報は、例えば、回線ごとの契約情報に基づき、特徴量データソース３に登録される。以下では、特徴量データソース3に登録される特徴量を第１の特徴量と称する。特徴量データソース３は、登録された第１の特徴量を特徴量作成装置１０に出力する。

　特徴量作成装置１０は、深層学習を用いた分布関数の推定における、分布関数の１以上のパラメータそれぞれについて、そのパラメータと相関する特徴量を作成する。特徴量作成装置１０は、トラヒック収集装置２からトラヒックデータ（学習用データ）が入力され、特徴量データソース３から第１の特徴量が入力される。特徴量作成装置１０の動作フェーズには、学習フェーズと、推定フェーズとがある。

　学習フェーズでは、特徴量作成装置１０は、学習用データとして入力されたトラヒックデータと、第１の特徴量とに基づき、トラヒックデータの分布関数を推定する。そして、特徴量作成装置１０は、推定した分布関数の１以上のパラメータそれぞれについて、当該パラメータと相関する第２の特徴量を作成する。分布関数が正規分布であるとすると、パラメータは分散σ^２および平均μである。この場合、特徴量作成装置１０は、第２の特徴量として、分散σ^２に相関する特徴量と、平均μに相関する特徴量とを作成する。

　推定フェーズでは、特徴量作成装置１０は、詳細は後述するが、第１の特徴量と第２の特徴量との対応関係に基づき、分布関数の推定用に入力された第１の特徴量を変換して第２の特徴量を作成する。

　特徴量作成装置１０は、作成した第２の特徴量をトラヒック分布推定装置４に出力する。

　トラヒック分布推定装置４は、学習フェーズでは、トラヒック収集装置２から出力されたトラヒックデータと、特徴量作成装置１０から出力された第２の特徴量とに基づき、トラヒックの分布関数を推定する学習済モデルを作成する。トラヒック分布推定装置４は、推定フェーズでは、作成した学習済モデルに、特徴量作成装置１０から出力された、推定用の第１の特徴量から作成された第２の特徴量を入力して、トラヒックの分布関数を推定する。

　次に、本実施形態に係る特徴量作成装置１０の構成について説明する。図２は、本実施形態に係る特徴量作成装置１０の構成例を示す図である。

　図２に示すように、本実施形態に係る特徴量作成装置１０は、記憶部１１と、分布推定部１２と、特徴量作成部１３とを備える。

　記憶部１１は、トラヒック収集装置２から出力されたトラヒックデータ、および、特徴量データソース３から出力された第１の特徴量を記憶する。また、記憶部１１は、後述する分布推定部１２および特徴量作成部１３により作成された各種テーブルを記憶する。

　分布推定部１２は、記憶部１１に記憶されている、学習用データとしてのトラヒックデータと、第１の特徴量とを取得する。分布推定部１２は、取得したトラヒックデータと、第１の特徴量とに基づいて、トラヒックの分布関数を推定し、推定した分布関数から１以上のパラメータを算出する。

　特徴量作成部１３は、分布推定部１２により算出されたパラメータごとに、そのパラメータと第１の特徴量との相関を評価し、評価の結果に基づき、そのパラメータと相関する第２の特徴量を作成する。作成された第２の特徴量は、記憶部１１を介して、トラヒック分布推定装置４に出力される。

　次に、図１に示す予測システム１の動作について説明する。図３は、予測システム１の動作の一例を示すフローチャートであり、本実施形態に係る特徴量作成装置１０による特徴量作成方法について説明するための図である。

　特徴量作成装置１０は、トラヒック収集装置２からトラヒックデータを取得し、特徴量データソース３から第１の特徴量を取得する（ステップＳ１）。特徴量作成装置１０は、取得したトラヒックデータと第１の特徴量とに基づき、トラヒックの分布関数を推定する（ステップＳ２）。

　特徴量作成装置１０は、推定した分布関数の１以上のパラメータそれぞれについて、当該パラメータと相関する第２の特徴量を作成する（ステップＳ３）。トラヒック分布推定装置４は、トラヒックデータと、特徴量作成装置１０により作成された第２の特徴量とに基づき、トラヒックの分布関数を推定する学習済モデルを作成する（ステップＳ４）。学習済モデルの作成により、学習フェーズが終了する。

　推定フェーズでは、特徴量作成装置１０は、将来のトラヒックの分布関数の推定用の第１の特徴量を特徴量データソース３から取得する。特徴量作成装置１０は、学習フェーズにおいて、第１の特徴量と、第１の特徴量から作成された第２の特徴量との対応関係に基づき、取得した第１の特徴量を変換して第２の特徴量を作成する（ステップＳ５）。

　トラヒック分布推定装置４は、作成した学習済モデルに、特徴量作成装置１０から出力された第２の特徴量を入力して、トラヒックデータの分布関数を推定する（ステップＳ６）。

　上述したステップＳ１～Ｓ６の処理について、より詳細に説明する。なお、以下では、分布関数は正規分布であり、分布関数のパラメータは分散σ^２および平均μであるとして説明する。また、以下では、分布関数の推定の対象は、回線１～４を流れるトラヒックの合計（以下、単に「トラヒック」と称することがある。）であるとする。また、第１の特徴量はＡ，Ｂ，Ｃ・・・を取りうるものとする。第１の特徴量は、例えば、契約などで定まっている回線ごとのサービス情報である。

　図４は、図３に示すステップＳ１，Ｓ２の処理をより詳細に示すフローチャートである。

　記憶部１１は、日付ｉにおけるトラヒックデータおよび第１の特徴量を取得する。上述したように、記憶部１１は、トラヒック収集装置２からトラヒックデータを取得し、特徴量データソース３から第１の特徴量を取得する。記憶部１１は、取得したトラヒックデータと第１の特徴量とを含む第１のテーブルを作成し、保存する（ステップＳ１１）。

　図５は、記憶部１１が保存する第１のテーブルの構成例を示す図である。

　上述したように、トラヒックデータは、所定の時間間隔（以下、５分間隔）でトラヒックを収集したデータである。

　記憶部１１は、図５に示すように、日付ｉに対応付けて、日付ｉの各時刻におけるトラヒックデータ（図５に示す例では、５分ごとのトラヒック）を第１のテーブルに保存する（ステップＳ１１）。また、記憶部１１は、図５に示すように、日付ｉに対応付けて、日付ｉにおける、回線１～４それぞれについての第１の特徴量（Ａ，Ｂ，Ｃ，・・・）を記憶する。なお、図５においては、１日単位でトラヒックデータと第１の特徴量とを保存する例を示しているが、本開示はこれに限られるものではない。記憶部１１は、第１の特徴量が変化しない所定の期間単位でまとめて、トラヒックデータと第１の特徴量とを保存する。したがって、第１の特徴量が変化しない範囲であれば、記憶部１１は、１日よりも短い単位で、あるいは、１日よりも長い単位でまとめて、トラヒックデータと、第１の特徴量とを保存してよい。また、第１の特徴量として複数種類の特徴量が存在する場合、記憶部１１は、日付ｉに対応付けて、複数種類の特徴量それぞれを保存してよい。ステップＳ１１の処理は、図３に示すステップＳ１の処理に対応するものである。

　図４を再び参照すると、分布推定部１２は、記憶部１１に記憶されている第１のテーブルを読み出し、第１のテーブルに記憶されている、日付ｉの各時刻におけるトラヒックと、第１の特徴量とを取得する。そして、分布推定部１２は、取得した日付ｉの各時刻におけるトラヒックと、第１の特徴量とに基づき、日付ｉにおけるトラヒックの分布関数を推定する（ステップＳ２１）。分布関数には、例えば、正規分布を用いればよい。分布推定部１２は、例えば最尤推定または平均二乗法などを用いて、日付ｉにおけるトラヒックの分布関数を推定する。

　次に、分布推定部１２は、推定した日付ｉにおけるトラヒックの分布関数から、当該分布関数のパラメータを算出する。分布関数が正規分布であるとすると、分布推定部１２は、日付ｉにおけるトラヒックの分布関数から、分散σ^２ _ｉおよび平均μ_ｉを算出し、記憶部１１に保存する（ステップＳ２２）。具体的には、分布推定部１２は、図６に示すように、第１のテーブルに、日付ｉにおけるトラヒックの分布関数から算出した分散σ^２ _ｉおよび平均μ_ｉを追加した第２のテーブルを作成し、記憶部１１に記憶させる。

　図４を再び参照すると、特徴量作成部１３は、記憶部１１に記憶されている第２のテーブルを読み出し、第２のテーブルに記憶されている、日付ｉにおける第１の特徴量それぞれに対応する回線数（ｎ_ａｉ，ｎ_ｂｉ，ｎ_ｃｉ，・・・）をカウントする（ステップＳ２３）。すなわち、特徴量作成部１３は、日付ｉにおける第１の特徴量それぞれの出現数をカウントする。特徴量作成部１３は、図７に示すように、第２のテーブルに、日付ｉにおける第１の特徴量それぞれに対応する回線数（ｎ_ａｉ，ｎ_ｂｉ，ｎ_ｃｉ，・・・）を追加した第３のテーブルを作成し、記憶部１１に保存する（ステップＳ２４）。ステップＳ２１～Ｓ２４の処理は、図３に示すステップＳ２の処理に対応するものである。

　ステップＳ２４の処理の後、ｉに１が加算され、ステップＳ１１の処理に戻る。したがって、日付ごと（１月１日、１月２日、・・・）に、分布関数と、分布関数のパラメータ（μ_ｉ，σ^２ _ｉ）と、第１の特徴量それぞれの回線数（ｎ_ａｉ，ｎ_ｂｉ，ｎ_ｃｉ，・・・）とが記憶部１１に保存される。図４に示す処理は、例えば、手動で日時を指定して開始されてもよいし、予め設定されたタイミングで自動的に開始されてもよい。

　図８は、図３に示すステップＳ３，Ｓ４の処理をより詳細に示すフローチャートである。

　特徴量作成部１３は、記憶部１１に記憶されている第３のテーブルを読み出し、第３のテーブルの記憶されているパラメータごとに、当該パラメータと第１の特徴量（Ａ，Ｂ，Ｃ，・・・）との相関を評価する。具体的には、特徴量作成部１３は、パラメータ（σ^２，μ）を従属変数とし、第１の特徴量それぞれの回線数（ｎ_ａｉ，ｎ_ｂｉ，ｎ_ｃｉ，・・・）を説明変数とし、以下の式（１），（２）に示される重回帰分析を行う（ステップＳ３１，Ｓ３３）。

　特徴量作成部１３は、式（１）に基づく重回帰分析により、分散ベクトルについて、特徴量Ａ，Ｂ，Ｃの出現数ベクトルそれぞれの係数α_Ａ，α_Ｂ，α_Ｃを算出する。また、特徴量作成部１３は、式（２）に基づく重回帰分析により、平均ベクトルについて、特徴量Ａ，Ｂ，Ｃの出現数ベクトルそれぞれの係数β_Ａ，β_Ｂ，β_Ｃを算出する。

　特徴量作成部１３は、重回帰分析により算出された説明変数（特徴量Ａ，Ｂ，Ｃの出現数）の係数に基づき、第２の特徴量を作成する。具体的には、特徴量作成部１３は、特徴量Ａ，Ｂ，Ｃの出現数ベクトルそれぞれの係数α_Ａ，α_Ｂ，α_Ｃを用いて、第１の特徴量Ａ，Ｂ，Ｃを数値化し、分散σ^２に相関する第２の特徴量を作成する（ステップＳ３２）。また、特徴量作成部１３は、特徴量Ａ，Ｂ，Ｃの出現数ベクトルそれぞれの係数β_Ａ，β_Ｂ，β_Ｃを用いて、第１の特徴量Ａ，Ｂ，Ｃを数値化し、平均μに相関する第２の特徴量を作成する（ステップＳ３４）。特徴量作成部１３は、日付ｉごとに、分散σ^２および平均μそれぞれについて第２の特徴量を作成する。特徴量作成部１３は、作成した第２の特徴量を示す第４のテーブルを作成し、記憶部１１に保存する。

　特徴量作成部１３は、例えば、特徴量Ａ，Ｂ，Ｃの出現数ベクトルそれぞれの係数α_Ａ，α_Ｂ，α_Ｃを、分散σ^２に相関する第２の特徴量とする。また、特徴量作成部１３は、例えば、特徴量Ａ，Ｂ，Ｃの出現数ベクトルそれぞれの係数β_Ａ，β_Ｂ，β_Ｃを、平均μに相関する第２の特徴量とする。この場合、特徴量作成部１３は、図９に示すように、日付ｉごとに、特徴量Ａ，Ｂ，Ｃをそれぞれα_Ａ，α_Ｂ，α_Ｃに置き換えた分散σ^２に相関する第２の特徴量と、特徴量Ａ，Ｂ，Ｃをそれぞれβ_Ａ，β_Ｂ，β_Ｃに置き換えた平均μに相関する第２の特徴量とを含む第４のテーブルを作成する。

　ステップＳＳ３２，Ｓ３４における数値変換により、第１の特徴量と第２の特徴量とに対応関係が得らえる。図９に示す例では、分散σ^２については、第１の特徴量Ａ，Ｂ，Ｃがそれぞれ、第２の特徴量α_Ａ，α_Ｂ，α_Ｃに対応するという対応関係が得られる。また、平均μについては、第１の特徴量Ａ，Ｂ，Ｃがそれぞれ、第２の特徴量β_Ａ，β_Ｂ，β_Ｃに対応するという対応関係が得られる。

　第１の特徴量として複数の種類の特徴量が存在する場合、特徴量作成部１３は、複数の第１の特徴量それぞれについて、ステップＳ３１～Ｓ３４の処理を行う。

　なお、本実施形態においては、重回帰分析により、複数のパラメータそれぞれと、第１の特徴量との相関を評価する例を用いて説明したが、これに限られるものではない。特徴量作成部１３は、例えば、主成分分析あるいは重相関分析などを用いて、複数のパラメータそれぞれと、第１の特徴量との相関を評価してもよい。また、本実施形態においては、第１の特徴量Ａ，Ｂ，Ｃの出現数を説明変数として用いる例を説明したが、これに限られるものではない。第１の特徴量が数値である場合には、その数値を説明変数として用いて、重回帰分析などを行ってもよい。また、本実施形態においては、説明変数の係数をそのまま第２の特徴量とする例を説明したが、これに限られるものではない。特徴量作成部１３は、例えば、説明変数の係数を定数倍して、第２の特徴量としてもよい。

　上述したステップＳ３１～Ｓ３４の処理は、図３に示すステップＳ３の処理に対応するものである。

　図８を再び参照すると、トラヒック分布推定装置４は、記憶部１１に記憶されている第４のテーブルを読み出す。トラヒック分布推定装置４は、トラヒック収集装置２から出力されたトラヒックデータと、読み出した第４のテーブルに示される第２の特徴量（分散σ^２に相関する第２の特徴量α_Ａ，α_Ｂ，α_Ｃおよび平均μに相関する第２の特徴量β_Ａ，β_Ｂ，β_Ｃ）とに基づき、トラヒックの分布関数を推定する学習済モデルを作成する（ステップＳ４１）。ステップＳ４１の処理は、図３に示すステップＳ４の処理に対応するものである。

　図１０は、図３に示すステップＳ５，Ｓ６の処理をより詳細に示すフローチャートである。

　トラヒックの指定対象となる日付（１月Ｘ日）における第１の特徴量（分布間の推定対象に関する第１の特徴量）が特徴量データソース３から出力され、記憶部１１に記憶される。特徴量作成部１３は、記憶部１１に記憶されている、推定用の第１の特徴量を取得する（ステップＳ６１）。特徴量作成部１３は、図８を参照して説明した学習フェーズにおける、第１の特徴量を第２の特徴量に変換するための、第１の特徴量と第２の特徴量との対応関係に基づき、取得した第１の特徴量を第２の特徴量に変換する（第２の特徴量を作成する）（ステップＳ６２）。そして、特徴量作成部１３は、図１１に示すように、分散σ^２および平均μそれぞれについて、第１の特徴量を変換して作成した第２の特徴量を示す第５のテーブルを作成する。ステップＳ５１，Ｓ５２の処理は、図３に示すステップＳ５の処理に対応するものである。

　図１０を再び参照すると、トラヒック分布推定装置４は、記憶部１１に記憶されている第５のテーブルを読み出し、第５のテーブルに示される第２の特徴値を、学習済モデルに入力し、推定対象のトラヒックの分布関数を推定する（ステップＳ６１）ステップＳ６１の処理は、図３に示すステップＳ６の処理に対応するものである。

　特徴量作成部１３は、パラメータごとの、第１の特徴量との相関の評価に対して重み付けを行って第２の特徴量を作成してもよい。図１２は、第１の特徴量との相関の評価に対して重み付けを行う場合の、特徴量作成部１３の動作について説明するための図である。図１２において、図８と同様の処理には同じ符号を付し、説明を省略する。

　特徴量作成部１３は、学習用データを所定の期間ごとの学習用データに分割する。例えば、特徴量作成部１３は、１月１日から１月３日までの学習用データ、１月４日から１月５日までの学習用というように、時系列的なデータである学習用データを複数の学習用データに分割する。

　そして、特徴量作成部１３は、分散σ^２（分散ベクトル）を従属変数とし、特徴量Ａ，Ｂ，Ｃの出現数（特徴量Ａ，Ｂ，Ｃの出現数ベクトル）を説明変数として、分割した期間ごとに、重回帰分析を行う（ステップＳ３５）。上述した例では、特徴量作成部１３は、１月１日から１月３日までの各日付における分散σ^２を従属変数とし、特徴量Ａ，Ｂ，Ｃの出現数を説明変数として重回帰分析を行う。また、特徴量作成部１３は、１月４日から１月５日までの各日付における分散σ^２を従属変数とし、特徴量Ａ，Ｂ，Ｃの出現数を説明変数として重回帰分析を行う。

　また、特徴量作成部１３は、平均（平均ベクトル）を従属変数とし、特徴量Ａ，Ｂ，Ｃの出現数（特徴量Ａ，Ｂ，Ｃの出現数ベクトル）を説明変数として、分割した期間ごとに、重回帰分析を行う（ステップＳ３６）。上述した例では、特徴量作成部１３は、１月１日から１月３日までの各日付における平均μを従属変数とし、第１の特徴量Ａ，Ｂ，Ｃの出現数を説明変数として重回帰分析を行う。また、特徴量作成部１３は、１月４日から１月５日までの各日付における平均μを従属変数とし、特徴量Ａ，Ｂ，Ｃの出現数を説明変数として重回帰分析を行う。

　特徴量作成部１３は、分散σ^２について重回帰分析により算出した特徴量Ａ，Ｂ，Ｃの出現数ベクトルの係数に、期間に応じた重みをつけて平均をとる。そして、特徴量作成部１３は、その平均値を用いて、第１の特徴量Ａ，Ｂ，Ｃを変換し、分散σ^２に相関する第２の特徴量を作成する（ステップＳ３７）。

　また、特徴量作成部１３は、平均μについて重回帰分析により算出した特徴量Ａ，Ｂ，Ｃの出現数ベクトルの係数に、期間に応じた重みをつけて平均をとる。そして、特徴量作成部１３は、その平均値を用いて、第１の特徴量Ａ，Ｂ，Ｃを変換し、平均μに相関する第２の特徴量を作成する（ステップＳ３８）。

　このように、特徴量作成部１３は、時系列的な学習用データを所定期間ごとの学習用データに分割する。そして、特徴量作成部１３は、分割した学習用データごとの評価の結果（例えば、重回帰分析により算出される説明変数の係数）に対して、学習用データに対応する期間に応じた重み付けを行い、第２の特徴量を作成する。

　一般に、トラヒック予測などでは、ネットワークの構成変化などが定期的に生じるため、古い情報よりも新しい情報の方が、予測を行う上で重要度が高い。そこで、評価の結果に対して学習用データの期間に対応する重み付けを行う（例えば、最近の期間ほど重み付けを大きくする）ことで、パラメータとの相関が高い第２の特徴量を作成することができる。

　次に、本実施形態に係る特徴量作成装置１０のハードウェア構成について説明する。

　図１３は、本実施形態に係る特徴量作成装置１０のハードウェア構成の一例を示す図である。図１３においては、特徴量作成装置１０がプログラム命令を実行可能なコンピュータにより構成される場合の、特徴量作成装置１０のハードウェア構成の一例を示している。ここで、コンピュータは、汎用コンピュータ、専用コンピュータ、ワークステーション、ＰＣ（Personal computer）、電子ノートパッドなどであってもよい。プログラム命令は、必要なタスクを実行するためのプログラムコード、コードセグメントなどであってもよい。

　図１３に示すように、特徴量作成装置１０は、プロセッサ２１、ＲＯＭ（Read Only Memory）２２、ＲＡＭ（Random Access Memory）２３、ストレージ２４、入力部２５、表示部２６および通信インタフェース（Ｉ／Ｆ）２７を有する。各構成は、バス２９を介して相互に通信可能に接続されている。プロセッサ２１は、具体的にはＣＰＵ(Central Processing Unit)、ＭＰＵ（Micro Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＳｏＣ（System on a Chip）などであり、同種または異種の複数のプロセッサにより構成されてもよい。

　プロセッサ２１は、各構成の制御および各種の演算処理を実行する制御部である。すなわち、プロセッサ２１は、ＲＯＭ２２またはストレージ２４からプログラムを読み出し、ＲＡＭ２３を作業領域としてプログラムを実行する。プロセッサ２１は、ＲＯＭ２２あるいはストレージ２４に記憶されているプログラムに従って、上記各構成の制御および各種の演算処理を行う。本実施形態では、ＲＯＭ２２またはストレージ２４には、コンピュータを本開示に係る特徴量作成装置１０として動作させるためのプログラムが格納されている。当該プログラムがプロセッサ２１により読み出されて実行されることで、特徴量作成装置１０の各構成、すなわち、分布推定部１２および特徴量作成部１３が実現される。

　プログラムは、ＣＤ－ＲＯＭ（Compact Disk Read Only Memory）、ＤＶＤ－ＲＯＭ（Digital Versatile Disk Read Only Memory）、ＵＳＢ（Universal Serial Bus）メモリなどの非一時的（non-transitory）記憶媒体に記憶された形態で提供されてもよい。また、プログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。

　ＲＯＭ２２は、各種プログラムおよび各種データを格納する。ＲＡＭ２３は、作業領域として一時的にプログラムまたはデータを記憶する。ストレージ２４は、ＨＤＤ（Hard Disk Drive）またはＳＳＤ（Solid State Drive）により構成され、オペレーティングシステムを含む各種プログラムおよび各種データを格納する。上述した第１から第５のテーブルは、ＲＯＭ２２、ＲＡＭ２３またはストレージ２４に記憶されてよい。

　入力部２５は、マウスなどのポインティングデバイス、およびキーボードを含み、各種の入力を行うために使用される。

　表示部２６は、例えば、液晶ディスプレイであり、各種の情報を表示する。表示部２６は、タッチパネル方式を採用して、入力部２５として機能してもよい。

　通信インタフェース２７は、他の装置（例えば、対象物を撮影したカメラ）と通信するためのインタフェースであり、例えば、ＬＡＮ用のインタフェースである。

　上述した特徴量作成装置１０の各部として機能させるためにコンピュータを好適に用いることが可能である。そのようなコンピュータは、特徴量作成装置１０の各部の機能を実現する処理内容を記述したプログラムを該コンピュータの記憶部に格納しておき、該コンピュータのプロセッサによってこのプログラムを読み出して実行させることで実現することができる。すなわち、当該プログラムは、コンピュータを、上述した特徴量作成装置１０として機能させることができる。また、当該プログラムを非一時的記憶媒体に記憶することも可能である。また、当該プログラムを、ネットワークを介して提供することも可能である。

　このように、本実施形態に係る特徴量作成装置１０は、分布推定部１２と、特徴量作成部１３とを備える。分布推定部１２は、分布関数の推定のための学習用データと、学習用データに関する第１の特徴量とを取得する。分布推定部１２は、取得した学習用データと、第１の特徴量とに基づいて、学習用データの分布関数を推定し、分布関数から１以上のパラメータを算出する。特徴量作成部１３は、算出されたパラメータごとに、当該パラメータと第１の特徴量との相関を評価し、評価の結果に基づき、パラメータと相関する第２の特徴量を作成する。

　分布関数のパラメータごとに、第１の特徴量との相関を評価し、その評価の結果に基づき、第２の特徴量を作成することで、複数のパラメータそれぞれについて、当該パラメータと相関する第２の特徴量を作成することができ、その結果、分布関数の推定精度の向上を図ることができる。また、従来の方法では、予測に有効な特徴量を作成するための数値変換のパターンが予測ごとに異なるため、必要な数値変換のパターンを決定し、特徴量を作成するためには高度な技術と多くの時間とが必要であった。一方、本実施形態に係る特徴量作成装置１０によれば、解析的に複数のパラメータそれぞれと相関する第２の特徴量を作成することができるので、より簡易に複数のパラメータそれぞれと相関する第２の特徴量を作成することができる。

　以上の実施形態に関し、更に以下の付記を開示する。

　［付記項１］
　深層学習を用いた分布関数の推定における、前記分布関数の１以上のパラメータそれぞれについて、該パラメータと相関する特徴量を作成する特徴量作成装置であって、
　メモリと、
　前記メモリに接続された制御部と、
を備え、
　前記制御部は、
　前記分布関数の推定のための学習用データと、前記学習用データに関する第１の特徴量とを取得し、前記学習用データと、前記第１の特徴量とに基づいて、前記学習用データの分布関数を推定し、前記分布関数から前記１以上のパラメータを算出し、
　前記算出されたパラメータごとに、該パラメータと前記第１の特徴量との相関を評価し、前記評価の結果に基づき、前記パラメータと相関する第２の特徴量を作成する、特徴量作成装置。

　［付記項２］
　付記項１に記載の特徴量作成装置において、
　前記制御部は、分布関数の推定対象に関する前記第１の特徴量を取得し、前記学習用データに関する前記第１の特徴量と前記作成した第２の特徴量との対応関係に基づき、前記取得した第１の特徴量を変換して前記第２の特徴量を作成する、特徴量作成装置。

　［付記項３］
　付記項１または２に記載の特徴量作成装置において、
　前記制御部は、前記パラメータを従属変数とし、前記第１の特徴量の出現数または前記第１の特徴量の値を説明変数とする重回帰分析を行い、前記重回帰分析により算出された前記説明変数の係数に基づき前記第２の特徴量を作成する、特徴量作成装置。

　［付記項４］
　付記項１から３のいずれか一項に記載の特徴量作成装置において、
　前記学習用データは時系列的なデータであり、
　前記制御部は、前記学習用データを所定期間ごとの学習用データに分割し、該分割した学習用データごとの前記評価の結果に対して当該学習用データに対応する期間に応じた重み付けを行い、前記第２の特徴量を作成する、特徴量作成装置。

　［付記項５］
　深層学習を用いた分布関数の推定における、前記分布関数の１以上のパラメータそれぞれについて、該パラメータと相関する特徴量を作成する特徴量作成装置による特徴量作成方法であって、
　前記分布関数の推定のための学習用データと、前記学習用データに関する第１の特徴量とを取得し、前記学習用データと、前記第１の特徴量とに基づいて、前記学習用データの分布関数を推定し、前記分布関数から前記１以上のパラメータを算出し、
　前記算出されたパラメータごとに、該パラメータと前記第１の特徴量との相関を評価し、前記評価の結果に基づき、前記パラメータと相関する第２の特徴量を作成する、特徴量作成方法。

　［付記項６］
　コンピュータによって実行可能なプログラムを記憶した非一時的記憶媒体であって、前記コンピュータを、付記項１から４のいずれか一項に記載の特徴量作成装置として動作させる、プログラムを記憶した非一時的記憶媒体。

　上述の実施形態は代表的な例として説明したが、本開示の趣旨および範囲内で、多くの変更および置換ができることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、請求の範囲から逸脱することなく、種々の変形または変更が可能である。例えば、実施形態の構成図に記載の複数の構成ブロックを１つに組み合わせたり、あるいは１つの構成ブロックを分割したりすることが可能である。

　１　　予測システム
　２　　トラヒック収集装置
　３　　特徴量データソース
　４　　トラヒック分布推定装置
　１０　　特徴量作成装置
　１１　　記憶部
　１２　　分布推定部
　１３　　特徴量作成部
　２１　　プロセッサ
　２２　　ＲＯＭ
　２３　　ＲＡＭ
　２４　　ストレージ
　２５　　入力部
　２６　　表示部
　２７　　通信Ｉ／Ｆ
　２９　　バス

Claims

　深層学習を用いた分布関数の推定における、前記分布関数の１以上のパラメータそれぞれについて、該パラメータと相関する特徴量を作成する特徴量作成装置であって、
　前記分布関数の推定のための学習用データと、前記学習用データに関する第１の特徴量とを取得し、前記学習用データと、前記第１の特徴量とに基づいて、前記学習用データの分布関数を推定し、前記分布関数から前記１以上のパラメータを算出する分布推定部と、
　前記算出されたパラメータごとに、該パラメータと前記第１の特徴量との相関を評価し、前記評価の結果に基づき、前記パラメータと相関する第２の特徴量を作成する特徴量作成部と、を備える特徴量作成装置。
　請求項１に記載の特徴量作成装置において、
　前記特徴量作成部は、分布関数の推定対象に関する前記第１の特徴量を取得し、前記学習用データに関する前記第１の特徴量と前記作成した第２の特徴量との対応関係に基づき、前記取得した第１の特徴量を変換して前記第２の特徴量を作成する、特徴量作成装置。
　請求項１に記載の特徴量作成装置において、
　前記特徴量作成部は、前記パラメータを従属変数とし、前記第１の特徴量の出現数または前記第１の特徴量の値を説明変数とする重回帰分析を行い、前記重回帰分析により算出された前記説明変数の係数に基づき前記第２の特徴量を作成する、特徴量作成装置。
　請求項１に記載の特徴量作成装置において、
　前記学習用データは時系列的なデータであり、
　前記特徴量作成部は、前記学習用データを所定期間ごとの学習用データに分割し、該分割した学習用データごとの前記評価の結果に対して当該学習用データに対応する期間に応じた重み付けを行い、前記第２の特徴量を作成する、特徴量作成装置。
　深層学習を用いた分布関数の推定における、前記分布関数の１以上のパラメータそれぞれについて、該パラメータと相関する特徴量を作成する特徴量作成装置による特徴量作成方法であって、
　前記分布関数の推定のための学習用データと、前記学習用データに関する第１の特徴量とを取得し、前記学習用データと、前記第１の特徴量とに基づいて、前記学習用データの分布関数を推定し、前記分布関数から前記１以上のパラメータを算出するステップと、
　前記算出されたパラメータごとに、該パラメータと前記第１の特徴量との相関を評価し、前記評価の結果に基づき、前記パラメータと相関する第２の特徴量を作成するステップと、を含む特徴量作成方法。
　コンピュータを、請求項１に記載の特徴量作成装置として動作させる、プログラム。