Nothing Special   »   [go: up one dir, main page]

JP7310171B2 - 配分方法、抽出方法、配分プログラム、抽出プログラム、配分装置及び抽出装置 - Google Patents

配分方法、抽出方法、配分プログラム、抽出プログラム、配分装置及び抽出装置 Download PDF

Info

Publication number
JP7310171B2
JP7310171B2 JP2019036945A JP2019036945A JP7310171B2 JP 7310171 B2 JP7310171 B2 JP 7310171B2 JP 2019036945 A JP2019036945 A JP 2019036945A JP 2019036945 A JP2019036945 A JP 2019036945A JP 7310171 B2 JP7310171 B2 JP 7310171B2
Authority
JP
Japan
Prior art keywords
data
unit
objective variable
combination
importance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019036945A
Other languages
English (en)
Other versions
JP2020140572A (ja
Inventor
啓介 後藤
達哉 浅井
洋哲 岩下
耕太郎 大堀
好伸 塩田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2019036945A priority Critical patent/JP7310171B2/ja
Priority to EP20156872.2A priority patent/EP3702977A3/en
Priority to US16/795,706 priority patent/US20200279178A1/en
Priority to CN202010116720.XA priority patent/CN111626760B/zh
Publication of JP2020140572A publication Critical patent/JP2020140572A/ja
Priority to US18/185,924 priority patent/US20230222367A1/en
Application granted granted Critical
Publication of JP7310171B2 publication Critical patent/JP7310171B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0273Determination of fees for advertising
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0242Determining effectiveness of advertisements
    • G06Q30/0246Traffic
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0249Advertisements based upon budgets or funds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0277Online advertisement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、配分方法、抽出方法、配分プログラム、抽出プログラム、配分装置及び抽出装置に関する。
従来、広告出稿の最適化を図る技術が知られている。特にデジタルマーケティングにおいては、ログデータの分析結果に基づき、最適化のための施策の立案や実施が行われる場合がある。
特開2015-028732号公報
しかしながら、上記の技術では、施策の立案及び実施を効率化することが困難な場合があるという問題がある。例えば、ログデータの項目値それぞれの重要度をロジスティクス回帰等の手法で計算し、さらに重要度に基づき複数の項目値を組み合わせて分析を行う場合を考える。この場合、組み合わせの数は膨大になるため、従来の技術では、全ての組み合わせを考慮した分析を行うことは難しい。このため、従来の技術では、ログデータの分析結果を、施策の立案及び実施の効率化につなげることが困難な場合がある。
1つの側面では、施策の立案及び実施を効率化することを目的とする。
1つの態様において、配分プログラムは、目的変数と目的変数に対応する1つ以上の説明変数を含むデータの一部を学習データとして、データの説明変数から目的変数を予測するモデルの学習を行う処理をコンピュータに実行させる。また、配分プログラムは、データから学習データを除いたテストデータを、データの説明変数の少なくとも一部に関する分類条件によりグループに分類する処理をコンピュータに実行させる。また、配分プログラムは、分類する処理によって分類されたグループごとに、学習済みのモデルを用いて、テストデータの説明変数から目的変数を予測する処理をコンピュータに実行させる。また、配分プログラムは、予測する処理によって予測されたグループごとの目的変数に基づき、グループのそれぞれに分配される所定のリソースの量を計算する処理をコンピュータに実行させる。
1つの態様において、抽出プログラムは、データに含まれる複数の項目値に関する条件の組み合わせを生成する処理をコンピュータに実行させる。また、抽出プログラムは、データを学習したモデルを用いて、組み合わせごとの、データにおける共起性の度合いである重要度を計算する処理をコンピュータに実行させる。また、抽出プログラムは、条件又は重要度に基づいて、組み合わせの中から特定の組み合わせを、条件の少なくとも一部である分類条件により分類したグループごとに抽出する処理をコンピュータに実行させる。
1つの側面では、施策の立案及び実施を効率化することができる。
図1は、実施例1に係る抽出装置の機能構成の一例を示す図である。 図2は、ログデータの一例を示す図である。 図3は、仮説情報の一例を示す図である。 図4は、変数情報の一例を示す図である。 図5は、学習手法を説明する説明図である。 図6は、学習手法を説明する説明図である。 図7は、変数とデータの関係を説明する説明図である。 図8は、仮説の生成を説明する説明図である。 図9は、仮説の生成を説明する説明図である。 図10は、仮説の生成を説明する説明図である。 図11は、生成された仮説の一例を示す説明図である。 図12は、ロジスティック回帰による重要度の計算を説明する説明図である。 図13は、実施例1に係る抽出処理の流れを示すフローチャートである。 図14は、実施例2に係る抽出装置の機能構成の一例を示す図である。 図15は、ログデータの一例を示す図である。 図16は、仮説情報の一例を示す図である。 図17は、グループ情報の一例を示す図である。 図18は、グループごとの仮説の表示を説明する説明図である。 図19は、実施例2に係る抽出処理の流れを示すフローチャートである。 図20は、予算配分の周期について説明する説明図である。 図21は、実施例3に係る配分装置の機能構成の一例を示す図である。 図22は、予算配分の最適化について説明する説明図である。 図23は、データの分類について説明する説明図である。 図24は、CVスコアについて説明する説明図である。 図25は、ランキングについて説明する説明図である。 図26は、実施例3に係る配分処理の流れを示すフローチャートである。 図27は、ハードウェア構成例を説明する図である。
以下に、本発明に係る配分方法、抽出方法、配分プログラム、抽出プログラム、配分装置及び抽出装置の実施例を図面に基づいて詳細に説明する。なお、この実施例により本発明が限定されるものではない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる。
[機能構成]
図1を用いて、実施例1に係る抽出装置の機能構成について説明する。図1は、実施例1に係る抽出装置の機能構成の一例を示す図である。図1に示すように、抽出装置10は、通信部11、入力部12、出力部13、記憶部14及び制御部15を有する。
通信部11は、他の装置との間でデータの通信を行うためのインタフェースである。例えば、通信部11はNIC(Network Interface Card)であり、インターネットを介してデータの通信を行う。
入力部12は、ユーザが情報を入力するための装置である。例えば、入力部12は、マウス及びキーボードである。また、出力部13は、画面を表示するディスプレイ等である。また、入力部12及び出力部13は、タッチパネルディスプレイであってもよい。
記憶部14は、データや制御部15が実行するプログラム等を記憶する記憶装置の一例であり、例えばハードディスクやメモリ等である。記憶部14は、ログデータ141、仮説情報142及び変数情報143を記憶する。
ログデータ141は、項目値として、目的変数及び目的変数に対する複数の説明変数を持つデータである。図2は、ログデータの一例を示す図である。図2に示すように、ログデータ141は、キーとして日時を持つ。このように、ログデータ141は、キーとして日時を持ち、さらに時間の経過にともないデータが増加していく時系列データであってもよい。
実施例1において、ログデータ141は、所定の日時に収集された、Web上に出稿した広告に関する情報と、当該情報に対して行われた施策とを対応付けたデータであるものとする。
ログデータ141は、有効な施策を導出するためのモデルを訓練するための訓練データとして利用される場合がある。このため、例えば、ログデータ141における施策は、熟練した立案者によって立案されたものであってもよい。また、ログデータ141は、実施した施策が成功したケースのデータを集めたものであってもよい。
図2に示すように、ログデータ141は、説明変数として「クリック数」、「曜日」、「時間帯」、「直前」、「残予算」を有する。また、ログデータ141は、目的変数として「広告価格」を有する。目的変数「広告価格」は、施策が、広告価格を上げるものであるか、広告価格を維持するものであるか、広告価格を下げるものであるかを表す。
例えば、図2の1行目には、休日の午後に、ある広告のクリック数が100回であり、当該広告の残予算が10,000円であったという情報が、2019/6/5の10:00に収集されたことが示されている。さらに、図2の1行目には、当該広告に対しては、広告価格を下げる施策が行われたことが示されている。
仮説情報142は、目的変数と目的変数に対応する1つ以上の説明変数に関する条件との組み合わせと、重要度とを対応付けた情報である。図3は、仮説情報の一例を示す図である。以降の説明では、仮説情報142における組み合わせを、仮説と呼ぶ場合がある。また、重要度の計算方法については後に説明する。
例えば、図3の1行目には、「残り予算が存在∧クリック数≧100∧曜日=休日である場合に、広告価格を上げる」という仮説の重要度が0.85であることが示されている。
また、仮説は、説明変数と目的変数とを区別せずに、複数の項目値に関する条件の組み合わせということができる。その場合、図3の1行目の仮説は、「残り予算が存在∧クリック数≧100∧曜日=休日∧広告価格が上げ」のように表されてもよい。
変数情報143は、変数ごとの重要度である。図4は、変数情報の一例を示す図である。例えば、図4の1行目には、変数「残予算」の重要度が0.91であることが示されている。変数ごとの重要度は、仮説の重要度と同じ方法で計算されたものであってもよいし、仮説の重要度とは異なる方法で計算されたものであってもよい。例えば、変数ごとの重要度は、ロジスティック回帰等の既知の手法により計算されたものであってもよい。
制御部15は、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)等によって、内部の記憶装置に記憶されているプログラムがRAMを作業領域として実行されることにより実現される。また、制御部15は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されるようにしてもよい。制御部15は、生成部151、計算部152及び抽出部153を有する。
生成部151は、データに含まれる複数の項目値に関する条件の組み合わせ、すなわち仮説を生成する。生成部151は、ログデータ141のような、説明変数と目的変数を持つデータから仮説を生成することができる。この場合、生成部151は、目的変数と目的変数に対応する1つ以上の説明変数に関する条件との組み合わせを仮説として生成する。
また、生成部151は、時間経過により増加するデータに含まれる複数の項目値に関する条件の組み合わせを生成する。例えば、生成部151は、ログデータ141のような、時間経過とともにデータが追加されていく時系列データから組み合わせを生成することができる。
ここで、抽出装置10の学習手法の一例を説明する。抽出装置10は、学習により、仮説と重要度とを組み合わせたモデルを生成する。図5と図6は、学習手法を説明する図である。一般的に、深層学習(Deep Learning)は、人間の脳の神経回路の構造を模倣したニューラルネットワークを何層にも重ね、1つのモデルを洗練化することで精度向上を実現するので、人間が理解できない複雑なモデルである。一方、図5に示すように、抽出装置10は、データ項目を組み合わせて大量の仮説を抽出し、仮説(ナレッジチャンク(以下では、単に「チャンク」と記載する場合がある))の重要度を調整し高精度な分類モデルを構築する機械学習(例えば、Wide Learning)を実行する。ナレッジチャンクとは、人間が理解できる単純なモデルであり、入出力の関係として成立する可能性のある仮説を論理的な表現で記載したモデルである。
具体的には、抽出装置10は、入力データの全てのデータ項目の組み合わせパターンを仮説(チャンク)とし、各仮説に対する分類ラベルのヒット率で、その仮説の重要度を判断する。そして、抽出装置10は、抽出した複数のナレッジチャンクとラベル(目的変数)に基づきモデルを構築する。この際に、抽出装置10は、ナレッジチャンクを構成する項目が他のナレッジチャンクを構成する項目と重複が多い場合に、重要度が小さくなるように制御する。
図6を用いて具体例を説明する。ここでは、ある商品やサービスを購入する顧客を判断したい時の例を考える。顧客データには、「性別」、「免許の有無」、「婚姻」、「年齢」、「年収」等様々な項目がある。これらの項目の全ての組み合わせを仮説とし、各仮説の重要度を考える。例えば、「「男」、「所有」、「既婚」」という項目を組み合わせた仮説に当てはまる顧客がデータの中に10人いる。この10人のうち、9人が商品等を購入していれば、「「男」、「所有」、「既婚」の人は購入」というヒット率の高い仮説とし、これをナレッジチャンクとして抽出する。なお、ここでは、例として、商品を購入したか否かを二値で表したものをラベル、すなわち目的変数としている。
一方、「「男」、「所有」」という項目を組み合わせた仮説に当てはまる顧客がデータの中に100人いる。この100人のうち60人しか商品等を購入してない場合、購入するヒット率が60%となり、閾値(例えば80)未満であることから、「「男」、「所有」の人は購入」というヒット率の低い仮説とし、ナレッジチャンクとして抽出しない。
また、「「男」、「未所有」、「未婚」」という項目を組み合わせた仮説に当てはまる顧客がデータの中に20人いる。この20人のうち18人が商品等を未購入の場合、未購入であるヒット率が90%となり、閾値(例えば80)以上であることから、「「男」、「未所有」、「未婚」の人は未購入」というヒット率の高い仮説とし、ナレッジチャンクとして抽出する。
このようにして、抽出装置10は、購入を支持するナレッジチャンクや未購入を支持するナレッジチャンクを数千万や数億個取り出し、モデルの学習を実行する。このように学習されたモデルは、特徴の組み合わせを仮説(チャンク)として列挙し、各仮説には確からしさを示す尤度の一例である重要度が付加され、入力データに出現する仮説の重要度の総和がスコアとなり、スコアが閾値以上であれば正例と出力する。
すなわち、スコアとは、その状態の確からしさを示す指標であり、各モデル生成されるチャンク(仮説)のうち、属する特徴をすべて満たすチャンクの重要度の合算値である。例えば、チャンクAに「重要度:20,特徴(A1、A2)」、チャンクBに「重要度:5,特徴(B1)」、チャンクCに「重要度:10,特徴(C1、C2)」が対応付けられている状態で、ユーザログに行動(A1、A2、B1、C1)が存在したとする。このとき、チャンクAとチャンクBの特徴がすべて出現していることになるので、スコアは「20+5=25」となる。また、ここでの特徴とは、ユーザの行動等が該当する。
図7から図11を用いて、生成部151による具体的なモデルの生成方法を説明する。図7は、変数とデータの関係を説明する説明図である。ここで、図7に示すように、ログデータ141の各説明変数に関する条件には、A、B、C及びDの4つがあるものとする。また、Aの否定をA(Aの直上に-)のように表す。例えば、Aが「残り予算が存在」という条件を表している場合、Aは、「残り予算が存在しない」という条件を表す。また、例えば、Bが「クリック数≧100」という条件を表している場合、Bは、「クリック数<100」という条件を表す。
また、P、P、P、P、N、N、Nは、ログデータ141に含まれるデータであって、目的変数と説明変数の条件とを対応付けたデータを表す。ここでは、Pは目的変数の値が「上げ」であるデータを表し、Pは目的変数の値が「下げ」であるデータを表すものとする(ただし、i及びjは任意の整数)。なお、図2に示すように、ログデータ141において、目的変数の値には「上げ」、「下げ」の他に「価格維持」が存在するが、ここでは、目的変数の値が「上げ」又は「下げ」の2種類であるものとして説明する。また、以降説明では、「上げ」を+、「下げ」を-と表現する場合がある。
まず、図8に示すように、生成部151は、P、P、P、P、N、N、Nに含まれる説明変数のそれぞれについて、取り得る値の組み合わせを網羅的に列挙する。図8は、仮説の生成を説明する説明図である。ここで、取り得る値は、*(使用しない)、1(使用する)、0(条件の否定を使用する)である。
なお、生成部151は、組み合わせる説明変数の数が所定の数以下となるように制限してもよい。例えば、生成部151は、A~Dの4つの説明変数の場合、組み合わせる説明変数の数を2以下とするように制限してもよい。この場合、生成部151は、4つの説明変数のうち*(使用しない)とするものを少なくとも2つ組み合わせる。説明変数の数が増加すると(例えば1000個)、組み合わせの数は爆発的に増加する。このため、制限により、列挙する組み合わせの数の増加を事前に抑止できる。
そして、生成部151は、列挙した組み合わせがP、P、P、P、N、N、Nのいずれであるかを分類し、また、特定の条件を満たす有効な組み合わせであるか否かを判定する。例えば、特定の条件は、説明変数の条件が、ログデータ141のデータに合致する回数が所定値以上であることである。この場合、生成部151は、条件のうち、データと合致する回数が所定値以上である条件の組み合わせを生成することができる。
図8の例では、生成部151は、A~Dの4つの説明変数の全てが*である組み合わせC01、Cである組み合わせC04、CD(C及びDが1、かつA及びBが*)である組み合わせC09等を列挙する。
図8に示すように、生成部151は、P、P、P、P、N、N、Nの説明変数を基に、組み合わせC01~C09のそれぞれに該当するデータを列挙する。例えば、生成部151は、組み合わせC02に該当するデータとして、P、N、Nを列挙する。この場合、組み合わせC02について列挙されたデータには、目的変数が+であるデータ(P)と目的変数が-であるデータ(N、N)とが混在している。このため、組み合わせC02は、目的変数が+であるか-であるかを正しく説明する仮説としての可能性が低い。その結果、生成部151は、組み合わせC02を有効な仮説として採用しない。
一方、生成部151は、組み合わせC08に該当するデータとして、N、Nを列挙する。この場合、組み合わせC08について列挙されたデータには、目的変数が-であるデータ(N、N)のみが存在する。このため、生成部151は、組み合わせC08を有効な仮説として採用する。
また、生成部151は、異なる目的変数が混在している場合であっても、混在の割り合いに応じて組み合わせを有効な仮説として採用してもよい。例えば、ある組み合わせに対応するデータの例えば80%以上の目的変数が+であれば、生成部151は当該組み合わせを有効な仮説として採用するようにしてもよい。
また、生成部151は、ある組み合わせの特殊ケースに該当する組み合わせを仮説から除外する。例えば、図8の組み合わせC05及びC06は、組み合わせC04の特殊ケースである。これは、組み合わせC05及びC06が、組み合わせC04にリテラルを付加したものに過ぎないからである。
そして、生成部151は、図9に示す組み合わせを仮説として採用する。すなわち、生成部151は、組み合わせC01、C02、C03、C04a、C07、C08、C09を仮説として採用する。なお、組み合わせC04aは、Cを満たす組み合わせのうち、C04の特殊ケースを省略したものである。
図9は、仮説の生成を説明する説明図である。図9は、図7及び図8の内容をカルノー図で表したものである。図9に示すように、生成部151は、A(B、C、Dは*(使用しない))の組み合わせ(S31)、A(B、C、Dは*(使用しない))の組み合わせ(S32)…の順に組み合わせを変更して有効な組み合わせを検討する(S31~S35…)。
ここで、S33のCの組み合わせには、目的変数が+であるデータ(P、P、P)が該当する。すなわち、S33では、+のクラスに分類されるデータ(P、P、P)の数又は割合が所定の値以上である。よって、生成部151は、S33のCの組み合わせを+のクラスに分類する有効な組み合わせ(仮説)と判定する。なお、以下の処理では、Cにリテラルを加える組み合わせは除外する。
次に、生成部151は、3つの説明変数を*(使用しない)とする全ての組み合わせの検討後に、2つの説明変数を*(使用しない)とする組み合わせの検討を開始する(S34)。ここで、S35のABの組み合わせでは、目的変数が+である訓練データ(P、P)が該当する。すなわち、S35では、+のクラスに分類される訓練データ(P、P)の数又は割合が所定の値以上である。よって、生成部151は、S35のABの組み合わせを+のクラスに分類する有効な組み合わせ(仮説)と判定する。
図10は、生成された仮説の一例を示す説明図である。図11に示すように、生成部151は、P、P、P、P、N、N、Nから、分類結果が+又は-となる仮説H1~H11を生成し、生成した仮説を仮説情報142として記憶部14に格納する。
仮説H1~H11のそれぞれは、各データの分類結果が+又は-となることについて正しく説明していることを要件とする独立した仮説である。よって、仮説H2と、仮説H6のように、相互には矛盾した仮説が存在する場合がある。
計算部152は、データを学習したモデルを用いて、組み合わせごとの、データにおける共起性の度合いである重要度を計算する。例えば、計算部152は、各仮説の重要度をロジスティック回帰により計算する。図12は、ロジスティック回帰による重要度の計算を説明する説明図である。計算部152は、図12に示すモデル式にログデータ141を適用し、最適な係数β~β11を計算する。計算部152は、仮説情報142の重要度を計算した係数で更新する。
このとき、各仮説の重要度は、ログデータ141における共起性が大きいほど大きくなる。また、重要度は、各説明変数の条件が満たされるときの目的変数の尤もらしさということができる。このため、計算部152は、組み合わせごとに、条件が満たされることに対する目的変数の尤度を、重要度として計算する。
抽出部153は、条件又は重要度に基づいて、組み合わせの中から特定の組み合わせを抽出する。つまり、抽出部153は、重要度を基に、特に重要と考えられる仮説を仮説情報142から抽出する。例えば、抽出部153は、組み合わせの中から、重要度が所定値以上である組み合わせを抽出する。
また、抽出部153によって抽出された仮説及び各仮説の重要度は、ディスプレイ等の表示装置として機能する出力部13によって一覧で表示される。このとき、出力部13は、変数単独では重要ではないが、他の変数と組み合わせた場合に重要になるような変数に関する条件を強調して表示する。
出力部13は、第1の条件と他の条件との組み合わせである第1の組み合わせの重要度が第1の基準を超え、第1の条件のみの重要度が第2の基準を超えない場合、第1の組み合わせを他の組み合わせと比べて強調表示する。
例えば、第1の基準が「仮説の重要度が0.5以上」であるとする。また、第2の基準が「変数の重要度が0.1以下」であるとする。このとき、図3より、「残り予算なし∧時間帯=午前の場合に価格を下げる」という仮説の重要度は0.78であり、第1の基準を超えている。また、図4より、変数「時間帯」の重要度は0.03であり、第2の基準を超えていない。このため、例えば、出力部13は、「時間帯=午前」の部分を、フォントやスタイルの変更、及びマーキング等により強調して表示する。
図13を用いて、抽出装置10による処理の流れを説明する。図13は、実施例1に係る抽出処理の流れを示すフローチャートである。図13に示すように、まず、抽出装置10は、目的変数及び所定数の説明変数の条件の組み合わせを列挙し、仮説を生成する(ステップS11)。例えば、抽出装置10は、列挙した組み合わせのうち、特定の条件を満たさない組み合わせや、ある組み合わせの特殊ケースである組み合わせを仮説に含めないようにする。
次に、抽出装置10は、仮説ごとの重要度を計算する(ステップS12)。そして、抽出装置10は、仮説と重要度を一覧表示するとともに、単独での重要度が所定値以下である変数についての条件を強調表示する(ステップS13)。
[効果]
これまで説明してきたように、抽出装置10は、データに含まれる複数の項目値に関する条件の組み合わせを生成する。抽出装置10は、データを学習したモデルを用いて、組み合わせごとの、データにおける共起性の度合いである重要度を計算する。抽出装置10は、条件又は重要度に基づいて、組み合わせの中から特定の組み合わせを抽出する。このように、抽出装置10は、複数の項目値を組み合わせた条件ごとの重要度の評価を行うことができる。このため、実施例によれば、項目値の組み合わせにより発生する膨大な数の仮説を評価し、施策の立案及び実施を効率化することができる。
抽出装置10は、目的変数と目的変数に対応する1つ以上の説明変数に関する条件との組み合わせを生成する。抽出装置10は、組み合わせごとに、条件が満たされることに対する目的変数の尤度を、重要度として計算する。このため、実施例によれば、説明変数から目的変数を推定するためのモデルに基づく仮説の評価が可能になる。
抽出装置10は、組み合わせの中から、重要度が所定値以上である組み合わせを抽出する。このように、抽出装置10は、各組み合わせについて網羅的に重要度を計算した上で、重要と考えられる組み合わせを抽出する。これにより、抽出装置10は、施策立案において特に重要な仮説を提供することができる。
抽出装置10は、抽出部によって抽出された組み合わせのうち、第1の条件と他の条件との組み合わせである第1の組み合わせの重要度が第1の基準を超え、第1の条件のみの重要度が第2の基準を超えない場合、第1の組み合わせを他の組み合わせと比べて強調した上で、抽出部によって抽出された組み合わせの一覧を表示する。単独での重要度が大きくない変数を含む仮説は、人間にとっては特に発見が困難である。実施例によれば、そのような仮説を、発見が困難なものであることを示しつつ提示することができる。
抽出装置10は、条件のうち、データと合致する回数が所定値以上である条件の組み合わせを生成する。このように、抽出装置10は、あらかじめ重要でないと考えられる条件を除外しておくことで、計算を効率化することができる。
抽出装置10は、時間経過により増加するデータに含まれる複数の項目値に関する条件の組み合わせを生成する。このため、抽出装置10は、データが少ないうちから仮説の抽出を行うことができる。
なお、上記の実施例では、目的変数が、広告価格を上げるか、現状維持にするか、又は下げるか、を表すものである場合について説明した。一方で、目的変数は、各広告のCV(conversion:コンバージョン)が発生したか否かを表すものであってもよい。この場合、図8等の例と同様に、目的変数を二値で表すことができる。
抽出装置10は、抽出した仮説を所定のグループに分類してもよい。実施例2として、抽出装置10が、分類条件にしたがって仮説を分類する場合の例を説明する。また、実施例2の説明においては、実施例1との共通事項については適宜説明を省略する。
[機能構成]
図14を用いて、実施例2に係る抽出装置の機能構成について説明する。図14は、実施例2に係る抽出装置の機能構成の一例を示す図である。図14に示すように、抽出装置10は、通信部11、入力部12、出力部13、記憶部14及び制御部15を有する。
記憶部14は、ログデータ141、仮説情報142、変数情報143及びグループ情報144を記憶する。実施例2では、実施例1と異なり、記憶部14は、グループ情報144を記憶する。実施例2におけるログデータ141、仮説情報142及び変数情報143は、実施例1と同様の用途で使用されるデータである。
図15は、ログデータの一例を示す図である。図15に示すように、ログデータ141は、説明変数として「ユーザID」、「性別」、「年代」、「アクセス回数」、「広告配信時間帯」、「居住地」を有する。また、ログデータ141は、目的変数として「CV」を有する。目的変数「CV」は、当該広告のCVが発生したか否かを表すものである。例えば、当該広告に対応する製品が購入された場合、又は当該広告に対応する製品の購入ページに遷移した場合にCVが発生したとみなされる。
例えば、図15の1行目には、ユーザIDが「U001」であるユーザの性別が「女性」、年代が「若者」、居住地が「首都圏」であり、広告配信時間帯が「午前」であり、アクセス回数が10回であり、かつCVが発生しなかったことが示されている。また、例えば、図15の2行目には、ユーザIDが「U002」であるユーザの性別が「男性」、年代が「中年」、居住地が「北海道」であり、広告配信時間帯が「午後」であり、アクセス回数が20回であり、かつCVが発生したことが示されている。
図16は、仮説情報の一例を示す図である。実施例2においても、仮説は、実施例1と同様の方法でログデータを基に生成される。例えば、図16の1行目には、「性別=男性∧アクセス回数≧20回∧居住地=北海道」の場合にCVが発生するという仮説の重要度が20であることが示されている。なお、実施例2の仮説に対する重要度は、CVが発生する可能性が高いほど大きくなる。
グループ情報144は、仮説をグループに分類するための分類条件である。図17は、グループ情報の一例を示す図である。図17に示すように、グループ情報144には、「グループID」及び「分類条件」が含まれる。
制御部15は、生成部151、計算部152、抽出部153及び更新部154を有する。生成部151及び計算部152は、実施例1と同様の処理を行う。生成部151は、データに含まれる複数の項目値に関する条件の組み合わせ、すなわち仮説を生成する。また、計算部152は、データを学習したモデルを用いて、組み合わせごとの、データにおける共起性の度合いである重要度を計算する。生成部151によって生成された仮説及び計算部152によって計算された重要度は、仮説情報142として記憶部14に格納される。
抽出部153は、条件又は重要度に基づいて、組み合わせの中から特定の組み合わせを、条件の少なくとも一部である分類条件により分類したグループごとに抽出する。抽出部153は、グループ情報144を参照し、仮説情報142の各仮説をグループに分類する。
図18は、グループごとの仮説の表示を説明する説明図である。出力部13は、抽出部153が抽出し、グループに分類した仮説を図18のように表示することができる。例えば、グループIDが「G001」であるグループの分類条件は、「性別=女性∧居住地=北海道」である。このため、図18に示すように、抽出部153は、「性別=女性∧居住地=北海道」である仮説をグループIDが「G001」であるグループに分類する。
更新部154は、生成部151によって生成された仮説に基づき、分類条件を更新する。例えば、更新部154は、生成部151によって生成された仮説に含まれ、分類条件に含まれない条件を、分類条件に追加する。
例えば、「居住地=関西」という条件を含む分類条件が存在しないものとする。このとき、「性別=男性∧アクセス回数≧20回∧居住地=関西」という仮説が生成された場合、更新部154は、「居住地=関西」という条件を含む分類条件を追加する。例えば、更新部154は、既存の分類条件を流用し、「性別=女性∧居住地=関西」、「性別=男性∧居住地=関西」のような分類条件を追加することができる。
図19を用いて、抽出装置10による処理の流れを説明する。図19は、実施例2に係る抽出処理の流れを示すフローチャートである。図19に示すように、まず、抽出装置10は、目的変数及び所定数の説明変数の条件の組み合わせを列挙し、仮説を生成する(ステップS21)。例えば、抽出装置10は、列挙した組み合わせのうち、特定の条件を満たさない組み合わせや、ある組み合わせの特殊ケースである組み合わせを仮説に含めないようにする。
次に、抽出装置10は、仮説ごとの重要度を計算する(ステップS22)。そして、抽出装置10は、抽出した仮説を分類条件にしたがいグループに分類した上で一覧表示する(ステップS23)。
[効果]
これまで説明してきたように、抽出装置10は、データに含まれる複数の項目値に関する条件の組み合わせを生成する。抽出装置10は、データを学習したモデルを用いて、組み合わせごとの、データにおける共起性の度合いである重要度を計算する。抽出装置10は、条件又は重要度に基づいて、組み合わせの中から特定の組み合わせを、条件の少なくとも一部である分類条件により分類したグループごとに抽出する。このように、抽出装置10は、複数の項目値を組み合わせた条件ごとの重要度の評価を行い、さらに各組み合わせをグループに分類することができる。このため、実施例によれば、項目値の組み合わせにより発生する膨大な数の仮説を評価し、かつグループ単位での仮説の有効性を把握しやすくすることができるため、施策の立案及び実施を効率化することができる。
抽出装置10は、生成された組み合わせに基づき、分類条件を更新する。これにより、ログデータの蓄積及び新たな仮説の生成に応じて、分類条件を最適化し、より施策立案に寄与するグループの分類が可能になる。
更新部154は、生成部151によって生成された組み合わせに含まれ、分類条件に含まれない条件を、分類条件に追加する。これにより、これまでになかった仮説が新たに生成されるようになった場合であっても、分類条件を追加していくことが可能になる。
これまでの実施例では、重要度に基づく仮説の抽出について説明した。一方で、計算した重要度は、目的変数を最適化するような施策立案のために利用することができる。
例えば、図20に示すように、広告出稿の場合、施策者は、よりCVが発生しやすくなるように、所定の周期で各広告への予算配分を調整する場合がある。図20は、予算配分の周期について説明する説明図である。
特に初めの方の周期では、限られたCVの実績データを基に、より効果的な予算配分を行う必要がある。そこで、既知のCVの実績データを学習したモデルを使って、データのCVを精度良く予測する方法を実施例3として説明する。ここで、既知のCVの実績データとは、実施例1の方法で抽出される仮説及び仮説ごとの重要度である。
[機能構成]
図21を用いて、実施例3に係る配分装置の機能構成について説明する。図21は、実施例3に係る配分装置の機能構成の一例を示す図である。図21に示すように、配分装置20は、通信部21、入力部22、出力部23、記憶部24及び制御部25を有する。
通信部21は、他の装置との間でデータの通信を行うためのインタフェースである。例えば、通信部21はNICであり、インターネットを介してデータの通信を行う。
入力部22は、ユーザが情報を入力するための装置である。例えば、入力部22は、マウス及びキーボードである。また、出力部23は、画面を表示するディスプレイ等である。また、入力部22及び出力部23は、タッチパネルディスプレイであってもよい。
記憶部24は、データや制御部25が実行するプログラム等を記憶する記憶装置の一例であり、例えばハードディスクやメモリ等である。記憶部24は、モデル情報241及びグループ情報242を記憶する。
モデル情報241は、説明変数を基に目的変数を予測するためのモデルを構築可能な情報である。例えば、実施例2における重要度は、CVが発生しやすいほど大きくなる。このため、モデル情報241によって構築されるモデルは、図16に示す説明変数の条件から重要度を計算するものであってもよい。また、実施例3では、モデルによって計算される重要度をCVスコアと呼ぶ。
グループ情報242は、仮説をグループに分類するための分類条件である。グループ情報242は、実施例2のグループ情報144と同様の情報である。
制御部25は、例えば、CPU、MPU、GPU等によって、内部の記憶装置に記憶されているプログラムがRAMを作業領域として実行されることにより実現される。また、制御部25は、例えば、ASICやFPGA等の集積回路により実現されるようにしてもよい。制御部25は、学習部251、予測部252及び計算部253を有する。
ここで、学習部251、予測部252及び計算部253は、予算配分の最適化に関する処理を行う。図22は、予算配分の最適化について説明する説明図である。図22に示すように、広告の配信前は、グループごとに予算が等分に配分される。そして、例えば、実施例2の抽出装置は、得られたログデータから仮説情報を生成する。
学習部251は、モデルの学習を行う。予測部252は、学習済みのモデルを用いて未知のデータの説明変数からCVスコアの予測を行う。そして、計算部253は、予測されたCVスコアから、配分する予算の額を計算する。以下、各部の処理について説明する。
学習部251は、目的変数と目的変数に対応する1つ以上の説明変数を含むデータの一部を学習データとして、データの説明変数から目的変数を予測するモデルの学習を行う。例えば、学習部251は、前述のWide Learningの手法によりモデルの学習行う。
図23に示すように、学習部251は、データ全体のうち一部を学習データとして用いる。図23は、データの分類について説明する説明図である。学習部251は、抽出装置によって生成された仮説情報の例えば8割を学習データとして用いる。なお、予測部252は、分類部としても機能する。
予測部252は、データから学習データを除いたテストデータを、データの説明変数の少なくとも一部に関する分類条件によりグループに分類する。予測部252は、抽出装置によって生成された仮説情報の例えば2割をテストデータとして用いる。また、予測部252は、グループ情報242の分類条件にしたがい仮説をグループに分類する。
予測部252は、グループごとに、学習済みのモデルを用いて、テストデータの説明変数から目的変数、すなわちCVスコアを予測する。図24は、CVスコアについて説明する説明図である。ここで、予測スコアがプラスであることは、CVが発生する可能性が高いこと(CV)を意味している。一方、予測スコアがマイナスであることは、CVが発生しない可能性が高いこと(not CV)を意味している。
また、予測部252は、グループ単位でのCVスコアの平均を計算する。さらに、図25に示すように、予測部252は、CVスコアの平均のグループ間でのランキングを計算する。図25は、ランキングについて説明する説明図である。
計算部253は、予測する処理によって予測されたグループごとの目的変数に基づき、グループのそれぞれに分配される予算の額を計算する。なお、予算の額はリソースの量の一例である。リソース量は、担当する人員の数、配信時間等であってもよい。
計算部253は、予測部252によって予測されたグループごとの目的変数の大きさの順位が高いほど、分配されるリソースの量が大きくなるように計算する。計算部253は、例えば(1)式により配分する予算を計算する。なお、haibunはあるグループの配分額、rankはグループのランク、yosanは総予算、eはあらかじめ設定される定数である。ここでは、例としてe=3とする。
haibun(rank, yosan, e) = (e-1) × yosan / erank・・・(1)
(1)式は、ランクが1位のグループに総予算の2/3を配分し、ランクが2位のグループに残り予算の2/3を配分し、同様にランクが下がるごとに残り予算の2/3が配分されていくことを意味している。この結果、図25に示すように、ランクが1位のグループ2に総予算100万円の約2/3である66万円が配分されている。また、ランクが2位のグループ1に残り予算34万円の約2/3である22万円が配分されている。
図26を用いて、配分装置20による処理の流れを説明する。図26は、実施例3に係る配分処理の流れを示すフローチャートである。図26に示すように、まず、配分装置20は、データの一部を学習データとしてCV予測モデルを学習する(ステップS51)。次に、配分装置20は、データのうち学習データを除いたデータであるテストデータをグループに分類する(ステップS52)。
配分装置20は、テストデータをグループごとにCV予測モデルに入力し、CVスコアを予測する(ステップS53)。そして、配分装置20は、グループのCVスコアのランキングを基に配分する予算を計算する(ステップS54)。
[効果]
これまで説明してきたように、配分装置20は、目的変数と目的変数に対応する1つ以上の説明変数を含むデータの一部を学習データとして、データの説明変数から目的変数を予測するモデルの学習を行う。配分装置20は、データから学習データを除いたテストデータを、データの説明変数の少なくとも一部に関する分類条件によりグループに分類する。配分装置20は、グループごとに、学習済みのモデルを用いて、テストデータの説明変数から目的変数を予測する。配分装置20は、予測する処理によって予測されたグループごとの目的変数に基づき、グループのそれぞれに分配される所定のリソースの量を計算する。このように、配分装置20は、実績データを基にした仮説を利用して、目的変数を予測することができる。このため、実施例によれば、実績データが限られている場合であっても、仮説に対する結果を予測し、効果的な施策立案を行うことが可能になる。
配分装置20は、予測部252によって予測されたグループごとの目的変数の大きさの順位が高いほど、分配されるリソースの量が大きくなるように計算する。これにより、例えばCVの発生等、施策上の最終的な目的を目的変数に設定しておくことで、当該目的達成に適した予算配分を直接計算することが可能になる。
[システム]
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。また、実施例で説明した具体例、分布、数値等は、あくまで一例であり、任意に変更することができる。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
[ハードウェア]
図27は、ハードウェア構成例を説明する図である。図27に示すように、抽出装置10は、通信インタフェース10a、HDD(Hard Disk Drive)10b、メモリ10c、プロセッサ10dを有する。また、図27に示した各部は、バス等で相互に接続される。なお、配分装置20についても、図27に示すハードウェア構成を有する装置によって実現される。
通信インタフェース10aは、ネットワークインタフェースカード等であり、他のサーバとの通信を行う。HDD10bは、図1に示した機能を動作させるプログラムやDBを記憶する。
プロセッサ10dは、図14に示した各処理部と同様の処理を実行するプログラムをHDD10b等から読み出してメモリ10cに展開することで、図1等で説明した各機能を実行するプロセスを動作させる。すなわち、このプロセスは、抽出装置10が有する各処理部と同様の機能を実行する。具体的には、プロセッサ10dは、生成部151、計算部152、抽出部153及び更新部154と同様の機能を有するプログラムをHDD10b等から読み出す。そして、プロセッサ10dは、生成部151、計算部152、抽出部153及び更新部154等と同様の処理を実行するプロセスを実行する。プロセッサ10dは、例えば、CPU、MPU、ASIC等のハードウェア回路である。
このように抽出装置10は、プログラムを読み出して実行することで分類方法を実行する情報処理装置として動作する。また、抽出装置10は、媒体読取装置によって記録媒体から上記プログラムを読み出し、読み出された上記プログラムを実行することで上記した実施例と同様の機能を実現することもできる。なお、この他の実施例でいうプログラムは、抽出装置10によって実行されることに限定されるものではない。例えば、他のコンピュータ又はサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、本発明を同様に適用することができる。
このプログラムは、インターネット等のネットワークを介して配布することができる。また、このプログラムは、ハードディスク、フレキシブルディスク(FD)、CD-ROM、MO(Magneto-Optical disk)、DVD(Digital Versatile Disc)等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行することができる。
10 抽出装置
11、21 通信部
12、22 入力部
13、23 出力部
14、24 記憶部
15、25 制御部
20 配分装置
141 ログデータ
142 仮説情報
143 変数情報
144、242 グループ情報
151 生成部
152 計算部
153 抽出部
154 更新部
241 モデル情報
251 学習部
252 予測部
253 計算部

Claims (9)

  1. 目的変数と前記目的変数に対応する1つ以上の説明変数を含むデータの一部を学習データとして、前記データの説明変数から目的変数を予測するモデルの学習を行い、
    前記データから前記学習データを除いたテストデータを、前記データの説明変数の少なくとも一部に関する分類条件によりグループに分類し、
    前記分類する処理によって分類されたグループごとに、学習済みの前記モデルを用いて、前記テストデータの説明変数から目的変数を予測し、
    前記予測する処理によって予測された前記グループごとの目的変数に基づき、前記グループのそれぞれに分配される所定のリソースの量を計算する
    処理をコンピュータに実行させることを特徴とする配分プログラム。
  2. 前記計算する処理は、前記予測する処理によって予測された前記グループごとの目的変数の大きさの順位が高いほど、分配される前記リソースの量が大きくなるように計算することを特徴とする請求項1に記載の配分プログラム。
  3. データに含まれる複数の項目値に関する条件の組み合わせを生成し、
    前記データを学習したモデルを用いて、生成した前記組み合わせごとの、前記データにおける共起性の度合いである重要度を計算し、
    前記条件又は前記重要度に基づいて、前記組み合わせの中から特定の組み合わせを抽出し、
    抽出した前記特定の組み合わせを、前記条件を1つ以上含む分類条件に基づいて複数のグループに分類した状態で表示する
    処理をコンピュータに実行させることを特徴とする抽出プログラム。
  4. 前記生成する処理によって生成された組み合わせに基づき、前記分類条件を更新する
    処理をコンピュータにさらに実行させることを特徴とする請求項3に記載の抽出プログラム。
  5. 前記更新する処理は、前記生成する処理によって生成された組み合わせに含まれ、前記分類条件に含まれない条件を、前記分類条件に追加することを特徴とする請求項4に記載の抽出プログラム。
  6. 目的変数と前記目的変数に対応する1つ以上の説明変数を含むデータの一部を学習データとして、前記データの説明変数から目的変数を予測するモデルの学習を行い、
    前記データから前記学習データを除いたテストデータを、前記データの説明変数の少なくとも一部に関する分類条件によりグループに分類し、
    前記分類する処理によって分類されたグループごとに、学習済みの前記モデルを用いて、前記テストデータの説明変数から目的変数を予測し、
    前記予測する処理によって予測された前記グループごとの目的変数に基づき、前記グループのそれぞれに分配される所定のリソースの量を計算する
    処理をコンピュータが実行することを特徴とする配分方法。
  7. データに含まれる複数の項目値に関する条件の組み合わせを生成し、
    前記データを学習したモデルを用いて、前記組み合わせごとの、前記データにおける共起性の度合いである重要度を計算し、
    前記条件又は前記重要度に基づいて、前記組み合わせの中から特定の組み合わせを抽出し、
    抽出した前記特定の組み合わせを、前記条件を1つ以上含む分類条件に基づいて複数のグループに分類した状態で表示する
    処理をコンピュータが実行することを特徴とする抽出方法。
  8. 目的変数と前記目的変数に対応する1つ以上の説明変数を含むデータの一部を学習データとして、前記データの説明変数から目的変数を予測するモデルの学習を行う学習部と、
    前記データから前記学習データを除いたテストデータを、前記データの説明変数の少なくとも一部に関する分類条件によりグループに分類する分類部と、
    前記分類部によって分類されたグループごとに、学習済みの前記モデルを用いて、前記テストデータの説明変数から目的変数を予測する予測部と、
    前記予測部によって予測された前記グループごとの目的変数に基づき、前記グループのそれぞれに分配される所定のリソースの量を計算する計算部と、
    を有することを特徴とする配分装置。
  9. データに含まれる複数の項目値に関する条件の組み合わせを生成する生成部と、
    前記データを学習したモデルを用いて、前記組み合わせごとの、前記データにおける共起性の度合いである重要度を計算する計算部と、
    前記条件又は前記重要度に基づいて、前記組み合わせの中から特定の組み合わせを抽出する抽出部と、
    抽出した前記特定の組み合わせを、前記条件を1つ以上含む分類条件に基づいて複数のグループに分類した状態で表示する出力部と
    を有することを特徴とする抽出装置。
JP2019036945A 2019-02-28 2019-02-28 配分方法、抽出方法、配分プログラム、抽出プログラム、配分装置及び抽出装置 Active JP7310171B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2019036945A JP7310171B2 (ja) 2019-02-28 2019-02-28 配分方法、抽出方法、配分プログラム、抽出プログラム、配分装置及び抽出装置
EP20156872.2A EP3702977A3 (en) 2019-02-28 2020-02-12 Allocation program, extraction program, allocation method, extraction method, allocation apparatus, and extraction apparatus
US16/795,706 US20200279178A1 (en) 2019-02-28 2020-02-20 Allocation method, extraction method, allocation apparatus, extraction apparatus, and computer-readable recording medium
CN202010116720.XA CN111626760B (zh) 2019-02-28 2020-02-25 分配方法和设备、提取方法和设备及计算机可读记录介质
US18/185,924 US20230222367A1 (en) 2019-02-28 2023-03-17 Allocation method, extraction method, allocation apparatus, extraction apparatus, and computer-readable recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019036945A JP7310171B2 (ja) 2019-02-28 2019-02-28 配分方法、抽出方法、配分プログラム、抽出プログラム、配分装置及び抽出装置

Publications (2)

Publication Number Publication Date
JP2020140572A JP2020140572A (ja) 2020-09-03
JP7310171B2 true JP7310171B2 (ja) 2023-07-19

Family

ID=69571952

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019036945A Active JP7310171B2 (ja) 2019-02-28 2019-02-28 配分方法、抽出方法、配分プログラム、抽出プログラム、配分装置及び抽出装置

Country Status (4)

Country Link
US (2) US20200279178A1 (ja)
EP (1) EP3702977A3 (ja)
JP (1) JP7310171B2 (ja)
CN (1) CN111626760B (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022168245A1 (ja) * 2021-02-04 2022-08-11 富士通株式会社 精度算出プログラム、精度算出方法および情報処理装置
EP4318333A4 (en) * 2021-03-31 2024-05-22 Fujitsu Limited INFORMATION PRESENTATION PROGRAM, INFORMATION PRESENTATION METHOD AND INFORMATION PRESENTATION DEVICE
WO2023152794A1 (ja) * 2022-02-08 2023-08-17 日本電気株式会社 ルール生成装置、判定装置、ルール生成方法、判定方法、およびプログラム
WO2024214137A1 (ja) * 2023-04-10 2024-10-17 三菱電機株式会社 情報処理装置、プログラム及び情報処理方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016170518A (ja) 2015-03-11 2016-09-23 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
WO2017159403A1 (ja) 2016-03-16 2017-09-21 日本電気株式会社 予測システム、方法およびプログラム
WO2019030840A1 (ja) 2017-08-09 2019-02-14 日本電気株式会社 疾病発症リスク予測システム、疾病発症リスク予測方法および疾病発症リスク予測プログラム

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05197703A (ja) * 1992-01-22 1993-08-06 Hitachi Ltd 学習支援装置
JP4322887B2 (ja) * 2006-06-01 2009-09-02 株式会社東芝 スレッド順位付け装置及び方法
CN101344937A (zh) * 2007-11-16 2009-01-14 武汉理工大学 基于地理信息系统的水上交通风险评价及预测方法
JP4987943B2 (ja) * 2009-11-11 2012-08-01 株式会社東芝 電子機器及び画像表示方法
US8589855B1 (en) * 2012-05-30 2013-11-19 International Business Machines Corporation Machine-learning based datapath extraction
JP6205700B2 (ja) * 2012-10-15 2017-10-04 富士通株式会社 情報提供システム、提供情報を受信する装置、提供情報を送信する装置、プログラム、及び情報提供方法
JP5726961B2 (ja) 2013-07-30 2015-06-03 株式会社ビデオリサーチ 出稿先選定装置及び出稿先選定方法
JP2015115024A (ja) * 2013-12-16 2015-06-22 コニカミノルタ株式会社 プロファイル管理システム、情報機器、プロファイル更新方法およびコンピュータープログラム
US20170017882A1 (en) * 2015-07-13 2017-01-19 Fujitsu Limited Copula-theory based feature selection
JP6555015B2 (ja) * 2015-08-31 2019-08-07 富士通株式会社 機械学習管理プログラム、機械学習管理装置および機械学習管理方法
JP6856023B2 (ja) * 2015-09-30 2021-04-07 日本電気株式会社 最適化システム、最適化方法および最適化プログラム
JP6819607B2 (ja) * 2015-11-30 2021-01-27 日本電気株式会社 情報処理システム、情報処理方法および情報処理用プログラム
JP2017162138A (ja) * 2016-03-09 2017-09-14 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
CN106126413B (zh) * 2016-06-16 2019-02-19 南通大学 基于类不平衡学习和遗传算法的包裹式特征选择的软件缺陷预测方法
JP2017228086A (ja) * 2016-06-22 2017-12-28 富士通株式会社 機械学習管理プログラム、機械学習管理方法、および機械学習管理装置
US10831585B2 (en) * 2017-03-28 2020-11-10 Xiaohui Gu System and method for online unsupervised event pattern extraction and holistic root cause analysis for distributed systems
WO2018207259A1 (ja) * 2017-05-09 2018-11-15 日本電気株式会社 情報処理システム、情報処理装置、予測モデル抽出方法および予測モデル抽出プログラム
CN107239798B (zh) * 2017-05-24 2020-06-09 武汉大学 一种面向软件缺陷个数预测的特征选择方法
US11232258B2 (en) * 2017-08-29 2022-01-25 International Business Machines Corporation Natural language processing of unstructured data
CN108171553A (zh) * 2018-01-17 2018-06-15 焦点科技股份有限公司 一种周期性服务或产品的潜在客户挖掘系统与方法
US11526695B2 (en) * 2018-07-13 2022-12-13 Accenture Global Solutions Limited Evaluating impact of process automation on KPIs
CN109325541A (zh) * 2018-09-30 2019-02-12 北京字节跳动网络技术有限公司 用于训练模型的方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016170518A (ja) 2015-03-11 2016-09-23 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
WO2017159403A1 (ja) 2016-03-16 2017-09-21 日本電気株式会社 予測システム、方法およびプログラム
WO2019030840A1 (ja) 2017-08-09 2019-02-14 日本電気株式会社 疾病発症リスク予測システム、疾病発症リスク予測方法および疾病発症リスク予測プログラム

Also Published As

Publication number Publication date
JP2020140572A (ja) 2020-09-03
CN111626760A (zh) 2020-09-04
US20200279178A1 (en) 2020-09-03
US20230222367A1 (en) 2023-07-13
CN111626760B (zh) 2023-09-08
EP3702977A3 (en) 2020-11-18
EP3702977A2 (en) 2020-09-02

Similar Documents

Publication Publication Date Title
JP7310171B2 (ja) 配分方法、抽出方法、配分プログラム、抽出プログラム、配分装置及び抽出装置
JP7215324B2 (ja) 予測プログラム、予測方法及び予測装置
US10380501B2 (en) Lookalike evaluation
US10387894B2 (en) Brand personality comparison engine
US10395258B2 (en) Brand personality perception gap identification and gap closing recommendation generation
EP3608802A1 (en) Model variable candidate generation device and method
JP6481794B1 (ja) 学習用データ生成方法、学習用データ生成プログラム
US11887167B2 (en) Utilizing machine learning models to generate an optimized digital marketing simulation
Liu et al. Identifying helpful quality-related reviews from social media based on attractive quality theory
Li et al. A Hybrid Prediction Model for E-Commerce Customer Churn Based on Logistic Regression and Extreme Gradient Boosting Algorithm.
Swarnakar et al. Assessing benefits of Lean Six Sigma approach in manufacturing industries: an Indian context
JP7139932B2 (ja) 需要予測方法、需要予測プログラムおよび需要予測装置
JP7231585B2 (ja) 評価装置、評価方法及び評価プログラム
WO2023162239A1 (ja) 解析装置、解析方法、および解析プログラム
CN113822390B (zh) 用户画像构建方法、装置、电子设备和存储介质
JP7268402B2 (ja) 抽出プログラム、抽出方法及び抽出装置
Branch A case study of applying som in market segmentation of automobile insurance customers
CN115759401A (zh) 一种电力市场成员竞价行为预测标签生成方法和系统
CN110580261B (zh) 针对高科技公司的深度技术追踪方法
JP2017129891A (ja) 情報処理装置、情報処理方法、及び、プログラム
Guo A study on data mining of digital display performance of brand advertisement
WO2021077227A1 (en) Method and system for generating aspects associated with a future event for a subject
Lin et al. Investigate the influence of online ratings and reviews in purchase behavior using customer choice sets
Zhong et al. A general personality prediction framework based on facebook profiles
Park Selection bias in estimation of peer effects in product adoption

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211208

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221114

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230203

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230606

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230619

R150 Certificate of patent or registration of utility model

Ref document number: 7310171

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150