以下に、本願に係る抽出装置、抽出方法及び抽出プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る抽出装置、抽出方法及び抽出プログラムが限定されるものではない。また、各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
〔1.抽出処理の一例〕
まず、図1を用いて、実施形態に係る抽出処理の一例について説明する。図1は、実施形態に係る抽出処理の一例を示す図である。図1では、本願に係る抽出装置100によって、電子商取引における商材を紹介するページ(コンテンツ)の抽出処理が行われる例を示す。
図1に示す抽出装置100は、電子商取引における商材を紹介するページ(コンテンツの一例)の生成処理を行うサーバ装置である。具体的には、抽出装置100は、商材に関するウェブページや、商材に対応付けられた情報に基づいて、商材を特徴付ける情報を抽出する。そして、抽出装置100は、抽出した特徴を元のウェブページに付加すること等により、ユーザに商材の特徴をアピールすることのできるページ(以下、「アピールページ」と表記する場合がある)を生成する。なお、図1では、商材として、不動産の賃貸物件を例に挙げて説明する。また、図1では、コンテンツの例としてページ(ウェブページ)を示しているが、コンテンツはページに限らず、広告コンテンツやアプリを介して提供される情報ページなど、種々の情報コンテンツを含むものとする。
図1に示すユーザ端末10は、ユーザによって利用される情報処理端末である。例えば、ユーザ端末10は、スマートフォンやタブレット端末である。ユーザ端末10は、ユーザの操作に従い、ネットワーク上のサービスを利用する。例えば、ユーザ端末10は、電子商取引サイト(以下、「商取引サイト」と表記する)にアクセスし、各種サービスに関する購買申込みを行ったり、問い合わせを行ったりすることができる。なお、実施形態では、ユーザ端末10をユーザと読み替える場合がある。例えば、「ユーザがウェブサイトにアクセスする」という記載は、実際には、「ユーザによって操作されたユーザ端末10がウェブサイトにアクセスする」という状況を示す場合がある。
ここで、実施形態で例示する不動産情報サイト等の商取引サイトには、複数の事業者(例えば、不動産業者)が、各々の取り扱う種々の商材(図1の例では物件)をサイトにアップロードしているものとする。
このような商取引サイトでは、通常、事業者によって物件のタイトルや説明文が作成され、物件の情報(商材情報)として対応付けられる。また、事業者は、物件の家賃や最寄り駅や、最寄り駅までの距離や、広さ(専有面積)や、築年数や、ペット飼育を許可するか否かなど、物件の詳細情報についても、物件の商材情報として対応付ける。
そして、事業者は、物件のタイトルや説明文やとともに、物件を撮像した画像やその他の商材情報等をアップロードする。商取引サイト側は、事業者からアップロードされた情報に基づいて物件の紹介ページを生成する。商取引サイトを利用するユーザは、商取引サイトにアクセスし、紹介ページに掲載されたタイトルや説明文を参照して、物件への申し込みや問い合わせを行う。
ここで、このような商取引サイトでは、物件に付与する情報(例えば、物件の説明文)の作成が事業者に委ねられる場合がある。このため、商取引サイトでは、適切な物件情報がユーザに提供されるとは限らないといった問題がある。すなわち、事業者が任意に説明文を付与する場合、例えばSEO対策(Search Engine Optimization)等が施されることにより、過度に長い説明文が付与されたり、関係のない語句が説明文に挿入されたりする場合がある。
この場合、ユーザが商取引サイトにアクセスして紹介ページを閲覧する際に、物件がどのような特徴を有するものかを判別し辛くなる場合がある。これにより、商取引サイト全体のユーザビリティが低下する可能性がある。
また、物件の紹介ページに記載される内容が事業者に委ねられる場合、当該物件の特徴が存分にアピールされない場合がある。例えば、ユーザからアクセスされた物件は、ユーザが検索対象として指定した集合(例えば、共通する最寄り駅を有する物件群)の中では、比較的家賃が安い物件であったり、ペットが飼育可能であったりという利点があるとする。しかし、事業者側は、そのような情報が他の物件と比較してアピールポイントとなりうるか否かを判断することが難しいため、紹介ページ(例えば、物件の説明文)では特に強調することがない場合がある。また、例え事業者が特徴を記載していたとしても、物件のページを閲覧したユーザに気付かれない場合もある。
ここで、商取引サイト側からの要請により、事業者に適切な説明文を付与することを義務付けるということも可能であるが、大量の物件をアップロードする事業者等にとっては、一つ一つの物件に適切な説明文を付与することは作業負担が大きい。このため、事業者が、当該商取引サイトへのアップロードを躊躇する可能性も生じる。この場合、商取引サイト側は、大口の事業者を失うことになるため、商取引サイトの運営にとって望ましくない。また、商取引サイト側が、アップロードされた全ての物件に対して人為的に適切な説明文(例えば、アピールポイントを明確に記載したような説明文)を付与するということも、アップロード数が膨大である場合には現実的ではない。
そこで、実施形態に係る抽出装置100は、以下に説明する手法により、事業者によって物件に対応付けられていた商材情報から、物件の特徴を示す情報を抽出する。さらに、抽出装置100は、抽出された特徴に基づいて、物件を紹介するページであって、物件を宣伝するための特徴情報(アピールポイント)が付与されたアピールページを生成する。かかる処理によって、抽出装置100は、事業者や商取引サイト側に負担を掛けることなく、ユーザに対して物件の特徴をアピールするページを生成することができる。これにより、抽出装置100は、商材に関する特徴をより柔軟にアピールすることができるので、ユーザに対する訴求効果を向上させることができる。以下、図1を用いて、抽出装置100によって行われる抽出処理の一例を流れに沿って説明する。
図1に示すように、抽出装置100は、学習フェーズとして、商材情報から特徴情報を抽出する処理を行うための学習を行う。まず、抽出装置100は、学習処理に用いるための学習データとして、商材情報を取得する(ステップS11)。
具体的には、抽出装置100は、商取引サイトにアップされた既存の物件紹介ページである商材B01、B02、B03等を取得する。商材B01等は、例えば、事業者がアップロードした物件の情報であり、各物件のスペックを示した詳細情報である商材情報が含まれるものとする。なお、学習データは、事業者によってアップロードされた情報に基づいて生成された商材B01等の紹介ページであってもよい。
例えば、抽出装置100は、既知の手法を用いてネットワーク上をクロール(crawl)することにより、商材B01等の情報を取得する。あるいは、抽出装置100は、不動産情報サイトを提供する所定のウェブサーバ等から、商材B01等の情報を取得する。なお、抽出装置100は、必ずしも同一の商取引サイトから商材B01等を取得しなくてもよい。すなわち、抽出装置100は、物件と、物件に対応付けられた商材情報が取得可能であれば、どのような商取引サイトから学習データを取得してもよい。
続けて、抽出装置100は、取得した商材情報に基づいて、商材情報の特徴となりうる項目をデータベース化する(ステップS12)。例えば、抽出装置100は、商材が物件等の不動産である場合、物件の家賃や、最寄り駅や、最寄り駅までの距離や、広さ(専有面積)や、築年数や、ペット飼育を許可するか否かなどを、商材情報のうち特徴となりうる項目と判定する。なお、抽出装置100は、かかる判定処理について、予め人為的に特徴となりうる項目の設定を受け付けていてもよい。例えば、抽出装置100は、商材のカテゴリ別(例えば、不動産など)に、特徴となりうる項目の設定を予め受け付けておく。かかる処理により、抽出装置100は、例えば処理対象とする商材を取得した場合に、当該商材情報のうち、特徴情報となりうる項目に対応する情報を迅速に抽出することができる。
また、抽出装置100は、取得した商材情報において、商材に対応付けられた説明文(テキストデータ)のうち、商材の特徴情報(アピールポイント)となりうる箇所についての学習を行う(ステップS13)。すなわち、抽出装置100は、テキストデータに含まれる特徴を抽出するための所定のモデル(学習器)を生成する。
詳細は後述するが、抽出装置100は、ある一つの手法に限らず、種々の手法を用いてモデルを生成してもよい。例えば、抽出装置100は、説明文とともに、手動によって説明文を要約した要約文を学習データとして利用する。すなわち、抽出装置100は、説明文が人為的に要約された要約文を正解データとして、その過程において抽出される語句を、その説明文における特徴情報として機械学習を行う。この場合、抽出装置100は、充分なサンプルを学習に利用することで、手動による要約処理の際に抽出される語句の特徴を学習できる。このため、抽出装置100は、新たな説明文をモデルに入力した場合に、手動によって要約文が作成される過程を模して、説明文から重要と想定される語句を抽出することができる。この抽出された情報が、説明文(言い換えれば、説明文に対応付けられている物件)の特徴情報となりうる。
また、抽出装置100は、統計処理による学習によってモデルを生成してもよい。例えば、抽出装置100は、ある説明文に含まれる語句であって、その説明文を特徴付ける語句を抽出するための学習を行う。かかる処理は、例えば、説明文を一つのドキュメントと捉えた場合、ドキュメントにおける各単語の重要度を算出し、その重要度に基づいてドキュメントから語句を抽出するようなルールを生成することによって行われる。例えば、抽出装置100は、tf−idf(Term Frequency−Inverse Document Frequency)等の指標値に基づいて、ある説明文(ドキュメント)が入力された場合に、当該説明文のうち、説明文を特徴付ける語句を抽出(出力)するようなモデルを生成してもよい。
また、抽出装置100は、例えばディープラーニング(Deep Learning)の手法を用いてモデルを生成してもよい。すなわち、抽出装置100は、ディープラーニングの手法を用いて、説明文において特徴となりうる箇所を抽出するための学習を行う。例えば、抽出装置100が生成するモデルは、入力されたデータに対する演算結果を出力する複数のノードを多層に接続したモデルであって、テキストデータが含む特徴を学習するためのモデルである。例えば、モデルは、複数のノードを有する層を多段に接続したニューラルネットワークであり、いわゆるディープラーニングの技術により実現されるDNN(Deep Neural Network)である。
例えば、モデルは、ディープラーニングの技術により、以下のような学習手法により生成される。モデルには、各ノードの間の接続係数が初期化され、様々な語句を有するテキストが入力される。そして、モデルは、モデルにおける出力と、入力との誤差が少なくなるようにパラメータ(接続係数)を補正するバックプロパゲーション(Backpropagation(誤差逆伝播法))等の処理により生成される。例えば、モデルは、説明文を構成するテキストデータが入力された際に、その説明文に含まれる特徴情報(例えば、説明文を特徴付ける語句)を出力するように、学習が行われる。なお、学習過程において、モデルの出力に対して、例えば手動によって適切なフィードバックを返すなどの調整が行われてもよい。
なお、モデルの学習手法や、生成されるモデルについては、上述した手法に限定されるものではなく、任意の公知技術が適用可能である。すなわち、抽出装置100は、テキストデータから抽象化された特徴を示す特徴情報を出力できるのであれば、任意のモデルを用いることができる。抽出装置100は、学習フェーズにおいて生成したモデルを所定の記憶部に格納する。上記が、実施形態に係る学習フェーズである。
その後、抽出装置100は、生成フェーズとして、ユーザが不動産情報サイト等を利用する場合に、物件に対応付けられた説明文のうち特にアピールポイントとなる点を抽出し、抽出された情報に基づいてアピールページを生成する処理を行う。
例えば、ユーザは、不動産情報サイトにおいて、商材に関する条件を入力することで、閲覧したい商材(物件)を指定する(ステップS21)。例えば、ユーザは、物件が所在する地域や最寄り駅といった条件を指定することで、閲覧を所望する物件を絞り込む。そして、ユーザは、図1の例において、絞り込んだ物件のうち所定の物件XXXを閲覧するものとする。例えば、ユーザは、条件を指定したのちに提示された物件群の中から、所定の物件XXXを閲覧するためのリンクをクリックしたものとする。
このとき、抽出装置100は、ユーザから指定された内容に基づいて形成される集合を特定する。ここで、集合とは、抽出装置100がデータベース化した物件のうち、ユーザから指定された内容に適合した複数の物件を示す。例えば、集合は、ユーザが指定した条件によって絞り込まれた物件群と共通する。
そして、抽出装置100は、ユーザが閲覧しようとする物件に含まれる商材情報のうち、集合に含まれる物件に対して、優位な項目を特徴情報として抽出する(ステップS22)。例えば、抽出装置100は、物件XXXという商材に対応付けられている商材情報のうち、集合に含まれる複数の物件の商材情報と比較した場合に優位な項目を抽出する。
例えば、抽出装置100は、予め構築していたデータベースを参照し、物件XXXに対応付けられている商材情報のうち、集合と比較して家賃が比較的安い(例えば、集合において家賃が安い順から上位2割に属するなど)という優位性を判定する。また、抽出装置100は、物件XXXに対応付けられている商材情報のうち、集合と比較して最寄り駅からの距離が比較的近い(例えば、集合において最寄り駅からの距離が近い順から上位2割に属するなど)という優位性を判定する。
さらに、抽出装置100は、物件XXXに対応付けられている商材情報として、事業者からアップロードされた説明文F10を取得する。そして、抽出装置100は、取得した説明文F10から、物件の特徴を示す情報である特徴情報を抽出する。具体的には、抽出装置100は、取得した説明文F10をモデルに入力し、説明文F10における特徴情報を出力させる。
例えば、抽出装置100は、商材のカテゴリ「不動産」に対応して生成されたモデルを用いることで、説明文F10における特徴情報として、「家賃」や「角部屋」や「駅からは」や「築年数」等を抽出するものとする。さらに、抽出装置100は、抽出した特徴情報の近傍(例えば、説明文F10を形態素解析した場合に、前後の所定数に含まれる語句)についても、特徴情報と関連する語句として抽出する。かかる処理には、例えば、重要文抽出等の既存の処理手法が応用されてもよい。
そして、抽出装置100は、抽出された特徴情報のうち、物件XXXが集合において優位である特徴をさらに特定する。図1の例では、物件XXXは、「家賃」と、「最寄り駅からの時間(距離)」に対応する項目が、集合において優位な特徴である。このため、抽出装置100は、抽出されたこれらの項目が物件XXXにおける特徴情報であると判定して、抽出された特徴情報をアピールするアピールページを生成する(ステップS23)。
具体的には、抽出装置100は、事業者によって物件XXXに対応付けられていた説明文F10のうち、「家賃」と「最寄り駅からの時間(距離)」の項目に対応する語句を強調表示した態様のアピールページを生成する。より具体的には、抽出装置100は、抽出された特徴を示す語句をハイライト表示したアピールページを生成する。
例えば、図1に示すように、抽出装置100は、説明文F10のうち、「家賃は、このあたりではお手頃価格の65000円」という箇所と、「駅からは徒歩5分」という箇所をハイライト表示したアピールページW10を生成する(図1では、図示のため、該当箇所を枠で囲う態様で表現している)。なお、抽出装置100は、アピールページW10を新たに生成するのではなく、元の物件の紹介ページに対して、強調表示する旨の命令(例えば、特徴情報に該当する箇所が強調表示される命令が記載されたスクリプト)を追加することにより、アピールページW10を生成してもよい。図1の例では、アピールページW10は、説明文F10や、物件XXXの画像P10を含む紹介ページに対して、「家賃」や「駅からの距離」等が強調表示されたコンテンツである。
そして、抽出装置100は、生成したアピールページW10をユーザに提供する(ステップS24)。ユーザは、アピールページW10を閲覧することにより、元の事業者によって対応付けられていた物件XXXの説明文F10に記載された情報のみならず、物件XXXが集合に対してどのような優れた特徴を有しているかを把握することができる。具体的には、ユーザは、物件XXXの説明文F10を閲覧しつつ、自身が所望する条件を満たす物件のなかでも、物件XXXは比較的家賃が安いことや、駅からの距離が近いことを把握することができる。すなわち、ユーザは、物件が紹介されたページを閲覧する際に、冗長な説明文F10を全て読まずとも、抽出装置100によって強調表示が施された特徴を読むことで、物件XXXの特徴を効率良く把握することができる。
このように、実施形態に係る抽出装置100は、ネットワーク上の商取引の対象である商材に対応付けられた商材情報を取得する。そして、抽出装置100は、ユーザから指定された内容に基づいて形成される集合に含まれる所定の商材において、所定の商材の商材情報のうち、集合において所定の条件を満たす情報(例えば、上位の2割に属するスペックを有する項目など)である特徴情報を抽出する。さらに、抽出装置100は、抽出された特徴情報に基づいて、所定の商材に関するアピールページを生成する。
具体的には、抽出装置100は、不動産情報サイトにおける物件紹介ページ等において、種々の事業者によって設定された商材情報から、物件の特徴を抽出し、抽出された特徴に基づいてアピールページW10を生成する。これにより、抽出装置100は、事業者によって付与された説明文F10等の情報は維持しつつ、集合において特に優れた特徴を有する物件であることを示す情報と採りいれたアピールページW10を生成することができる。結果として、抽出装置100は、商取引サイトにおける情報の伝達性を向上させるとともに、商材に関する特徴をより柔軟にアピールすることができるという効果を奏することができる。
なお、抽出装置100は、学習処理を補完するため、種々の情報を用いてもよい。例えば、上記で説明した学習フェーズにおいて、抽出装置100は、抽出装置100によって生成されたアピールページW10を介して、ユーザがコンバージョン(例えば、物件の問い合わせを行ったり、賃貸契約を申し込んだりしたこと等)に至ったかといった結果情報(ユーザの反応)を取得してもよい。そして、抽出装置100は、例えばコンバージョン率が高いなど、ユーザの反応が良かったアピールページW10に付与された特徴情報を正解データとして、学習処理にフィードバックしてもよい。これにより、抽出装置100は、ユーザにアピールするポイントを説明文から抽出するという処理を最適化するよう、学習を進めることができる。以下、このような処理を行う抽出装置100、及び、抽出装置100を含む抽出処理システム1の構成等について、詳細に説明する。
〔2.抽出処理システムの構成〕
次に、図2を用いて、実施形態に係る抽出装置100が含まれる抽出処理システム1の構成について説明する。図2は、実施形態に係る抽出処理システム1の構成例を示す図である。図2に例示するように、実施形態に係る抽出処理システム1には、ユーザ端末10と、事業者端末20と、ウェブサーバ30と、抽出装置100とが含まれる。これらの各種装置は、ネットワークNを介して、有線又は無線により通信可能に接続される。なお、図2に示した抽出処理システム1には、複数台のユーザ端末10や、複数台の事業者端末20や、複数台のウェブサーバ30が含まれてもよい。
ユーザ端末10は、例えば、スマートフォンや、デスクトップ型PC(Personal Computer)や、ノート型PCや、タブレット型端末や、携帯電話機、PDA(Personal Digital Assistant)、ウェアラブルデバイス(Wearable Device)等の情報処理装置である。ユーザ端末10は、ユーザによる操作に従って商取引サイトにアクセスし、商取引サイトにおいてユーザが情報を閲覧したり、物件に対する契約を申し込んだりするための処理を行う。
事業者端末20は、商取引サイトにおいて物件をアップロードする事業者によって利用される情報処理端末である。事業者端末20は、例えば、スマートフォンや、デスクトップ型PCや、ノート型PCや、タブレット型端末や、携帯電話機、PDA、ウェアラブルデバイス等の情報処理装置である。
事業者端末20は、事業者による操作に従って、商取引サイトに物件をアップロードするための種々の処理を実行する。例えば、事業者端末20は、物件のタイトルや説明文等のテキストデータを、商取引サイトを提供するウェブサーバ30にアップロードする。また、事業者端末20は、物件のスペック(家賃等)に関する情報を含む商材情報をウェブサーバ30にアップロードする。
ウェブサーバ30は、ユーザ端末10からアクセスされた場合に、コンテンツ(例えば、ウェブページ)を提供するサーバ装置である。実施形態では、ウェブサーバ30は、所定の商取引サイト(例えば不動産情報サイト)提供するが、他にも、ニュースサイト、天気予報サイト、ショッピングサイト、ファイナンス(株価)サイト、路線検索サイト、地図提供サイト、旅行サイト、飲食店紹介サイト、ウェブブログなどに関する各種ウェブページを提供してもよい。
なお、ウェブサーバ30によって提供されるウェブページには、広告を表示するための表示領域である広告枠や、商材に関するレコメンドを表示するための表示領域であるレコメンド枠が含まれてもよい。詳細は後述するが、抽出装置100は、広告枠やレコメンド枠に表示される商材の特徴情報を生成してもよい。
抽出装置100は、商材に対応付けられた商材情報を取得するとともに、ユーザから指定された内容に基づいて形成される集合に含まれる所定の商材において、所定の商材の商材情報のうち、集合において所定の条件を満たす情報である特徴情報を抽出する。さらに、抽出装置100は、抽出された特徴情報に基づいて、所定の商材に関するアピールページを生成する。
そして、抽出装置100は、ユーザからアクセスを受け付けた場合に、生成したアピールページをユーザ端末10に提供する。なお、実施形態に係る抽出装置100は、商取引サイトを運営や管理したり、事業者からアップロードされた情報を管理したりするような、ウェブサーバ30としての構成を兼ねてもよい。すなわち、抽出装置100とウェブサーバ30とは、別個の装置であってもよいし、双方の機能を兼ねる装置によって実現されてもよい。
〔3.抽出装置の構成〕
次に、図3を用いて、実施形態に係る抽出装置100の構成について説明する。図3は、実施形態に係る抽出装置100の構成例を示す図である。図3に示すように、抽出装置100は、通信部110と、記憶部120と、制御部130とを有する。なお、抽出装置100は、抽出装置100を利用する管理者等から各種操作を受け付ける入力部(例えば、キーボードやマウス等)や、各種情報を表示するための表示部(例えば、液晶ディスプレイ等)を有してもよい。
(通信部110について)
通信部110は、例えば、NIC(Network Interface Card)等によって実現される。かかる通信部110は、ネットワークNと有線又は無線で接続され、ネットワークNを介して、ユーザ端末10や、事業者端末20や、ウェブサーバ30との間で情報の送受信を行う。
(記憶部120について)
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部120は、商材情報記憶部121と、学習情報記憶部122と、提供情報記憶部123とを有する。
(商材情報記憶部121について)
商材情報記憶部121は、商取引サイトにアップロードされる商材に関する情報を記憶する。ここで、図4に、実施形態に係る商材情報記憶部121の一例を示す。図4は、実施形態に係る商材情報記憶部121の一例を示す図である。図4に示した例では、商材情報記憶部121は、「商材ID」、「商材情報」といった項目を有する。また、「商材情報」は、「カテゴリ」、「地域」、「間取り」、「家賃」、「最寄り駅からの時間」、「広さ」、「築年数」、「ペット」、「説明文」といった小項目を有する。
「商材ID」は、商材を識別するための識別情報を示す。なお、実施形態において、商材IDのような識別情報は、説明で用いる参照符号と共通するものとする。例えば、商材IDが「B01」である商材を「商材B01」と表記する場合がある。
「商材情報」は、商材に対応付けられている情報を示す。例えば、商材情報は、商材のスペックを示す項目と、項目ごとの値等によって構成される。また、商材情報には、商材の提供者である事業者によって設定された説明文や、商材のタイトル等の情報が含まれる。
なお、商材情報は、商材のカテゴリごとに異なる情報を含む。例えば、商材のカテゴリが「不動産」である場合には、商材情報に「家賃」や「広さ」等の項目が含まれる。あるいは、商材のカテゴリが「パソコン」である場合には、商材情報に「CPU」や「メモリ容量」等の項目が含まれる。
「カテゴリ」は、商取引サイトにおける商材が属するカテゴリを示す。「地域」は、商材(図4の例では、物件)が所在する地域を示す。「間取り」は、物件の間取りを示す。「家賃」は、物件の家賃を示す。「最寄り駅からの時間」は、最寄り駅からの距離、もしくは、最寄り駅からかかる移動時間等を示す。「広さ」は、物件の専有面積を示す。「築年数」は、物件が建てられてから経過した年数を示す。「ペット」は、ペット飼育が可能な物件が否かといった情報を示す。
「説明文」は、物件に対応付けられた説明文を示す。なお、図4で示した例では、「説明文」を「F01」といった概念で示しているが、実際には、説明文の項目には、説明文を構成するテキストデータが記憶される。
すなわち、図4に示したデータの一例は、商材ID「B01」によって識別される商材B01における商材のカテゴリは「不動産」であり、商材B01の商材情報は、所在する地域が「AAA区」であり、間取りが「1K」であり、家賃が「65000」円であり、最寄り駅からの時間が「徒歩5分」であり、広さが「22」平米であり、ペット飼育が「可」であり、説明文は「F01」であることを示している。
(学習情報記憶部122について)
学習情報記憶部122は、商材情報に基づく学習処理に関する情報を記憶する。ここで、図5に、実施形態に係る学習情報記憶部122の一例を示す。図5は、実施形態に係る学習情報記憶部122の一例を示す図である。図5に示した例では、学習情報記憶部122は、「学習データID」、「学習データ」、「カテゴリ」、「抽出項目」といった項目を有する。
「学習データID」は、学習データを識別するための識別情報を示す。「学習データ」は、実際に学習処理に用いられた学習データの内容を示す。例えば、実施形態に係る学習データは、商材に対応付けられた商材情報である。
「カテゴリ」は、商材が属するカテゴリを示す。例えば、抽出装置100は、商材のカテゴリごとに学習を行い、カテゴリごとにモデルを生成する。「抽出項目」は、各カテゴリにおいて特徴情報として抽出されるように学習された項目を示す。
すなわち、図5に示したデータの一例は、学習データID「C01」によって識別される学習データC01は、商材「B01」や商材「B02」や商材「B03」等を学習データとして学習されたことを示しており、そのカテゴリは「不動産」であり、特徴情報として抽出項目は、例えば、「家賃」や、「広さ」や、「最寄り駅からの時間」や、「築年数」であることを示している。
なお、学習情報記憶部122には、上記学習データに基づいて学習されたモデル自体が記憶されてもよい。また、抽出装置100は、学習情報記憶部122に記憶された学習データを適宜更新するとともに、生成したモデルの学習を継続しても
よい。
また、図5に示した例では、抽出項目として「家賃」等を示したが、抽出装置100は、必ずしも「家賃」という語句のみを抽出するのではなく、「家賃」を示すと想定される同義語等を抽出項目として記憶してもよい。例えば、抽出装置100は、手動による設定や、学習処理によって、「家賃」と「毎月の支払額」等の語句を同義と推定する。この場合、抽出装置100は、説明文の中に「家賃」という明確な語句が登場せずとも、「毎月の支払額は・・・」といった語句が登場した場合に、その語句を「家賃」に対応する特徴情報として抽出することができる。
また、図5での図示は省略するが、学習データの項目には、学習に用いる商材情報のみならず、例えば、特徴情報として抽出すべき項目として手動で設定された情報や、説明文に基づいて手動で作成された要約文等の正解データ等が含まれてもよい。また、学習においてディープラーニングの手法を用いる場合には、学習は、必ずしも正例(正解データ)が明確に判明している学習データのみを用いることを要しない。例えば、抽出装置100は、商材情報に含まれるテキストデータ(ドキュメント)の特徴を抽出し、当該テキストデータに含まれる特徴情報を認識できる学習が行えるのであれば、必ずしも正解データを必要としない。
(提供情報記憶部123について)
提供情報記憶部123は、ユーザに提供されるページであって、抽出装置100によって生成されるページ(アピールページ)に関する情報を記憶する。ここで、図6に、実施形態に係る提供情報記憶部123の一例を示す。図6は、実施形態に係る提供情報記憶部123の一例を示す図である。図6に示した例では、提供情報記憶部123は、「アピールページID」、「元の商材ID」、「集合情報」、「抽出項目」、「アピールポイント」、「効果測定情報」、「レビュー情報」といった項目を有する。
「アピールページID」は、抽出装置100によって生成されたアピールページを識別するための識別情報を示す。「元の商材ID」は、アピールページの元となった商材の識別情報を示す。
「集合情報」は、ユーザから指定された形成される集合に関する情報を示す。図6に示した例では、「集合情報」を「F01」といった概念で示しているが、実際には、種々の具体的な情報が記憶される。例えば、集合情報には、ユーザが指定した条件や、ユーザが指定した条件に基づいて形成された集合に含まれる複数の商材の識別情報等が含まれる。なお、集合情報は、動的な情報である。すなわち、集合は、ユーザが指定する条件等を変更するたびに変化するため、集合情報についても、ユーザが指定する条件等を変更するたびに変化する。また、集合が変化することに伴い、集合における優位な情報も変化することから、アピールページにおいて強調表示される項目(特徴情報)も変化することになる。
「抽出項目」は、図5で示した同一の項目に対応する。「アピールポイント」は、商材を特徴付ける情報として抽出された項目のうち、集合において優位である項目を示す。例えば、集合に含まれる複数の商材の中で、家賃の値段が他の商材と比較して優位である場合、アピールポイントには「家賃」の項目が含まれることになる。なお、上述のように、いずれの項目が「優位」であるかといった条件については、例えば抽出装置100の管理者等によって人為的に設定されてもよい。
「効果測定情報」は、アピールページに対するユーザの反応に関する情報のうち、アピールページが効果を発揮したことを示す結果情報を示す。「レビュー情報」は、アピールページに対するユーザの反応に関する情報のうち、アピールページに対してユーザから投稿されたレビューに関する情報を示す。なお、図6に示した例では、「効果測定情報」や「レビュー情報」を、「G01」や「H01」といった概念で示しているが、実際には、種々の具体的な情報が記憶される。
例えば、「効果測定情報」には、当該アピールページがユーザからアクセスされた数や、当該アピールページにおいてコンバージョン(Conversion)に至ったユーザの数や率が記憶されてもよい。コンバージョンの例としては、アピールページの物件の内覧申込みを行なったことや、物件の紹介ページ(例えば、物件を提供する事業者のウェブページ)にアクセスしたこと等が挙げられる。また、効果測定情報には、例えば、内覧等の具体的な行動に至らなくても、物件がユーザから選択された数(クリックやタッチされた数等)もしくは率が記憶されてもよい。また、効果測定情報には、ユーザがアピールページにアクセスする頻度や、アピールページに滞在した時間等が記憶されてもよい。すなわち、効果測定情報には、アピールページに対するユーザの反応に関する情報であれば、いずれの情報が記憶されてもよい。
また、「レビュー情報」には、アピールページに対するユーザレビューに関する情報が記憶される。例えば、アピールページにおいて、ユーザが5段階の数値で物件を評価するようなシステムが採用されている場合、レビュー情報には、ユーザから評価された点数が記憶される。例えば、レビュー情報には、ユーザから送信される「0」から「5」までの数値の平均値が記憶される。また、レビュー情報には、ユーザレビューがユーザから送信された数や率、あるいは、具体的なユーザレビューのコメント(テキストデータ)等が記憶されてもよい。すなわち、レビュー情報には、アピールページに対するユーザレビューに関する情報であれば、いずれの情報が記憶されてもよい。
すなわち、図6に示したデータの一例は、アピールページID「W01」で識別されるアピールページW01は、元の商材ID「B01」で識別される商材B01に関するページであることを示している。また、アピールページW01に対応付けられている集合情報は「F01」であり、抽出項目は、「家賃」や「広さ」や「最寄り駅からの時間」や「築年数」等であり、さらに、そのなかで集合に対して優位であるアピールポイントとなる項目は、「家賃」や「最寄り駅からの時間」等であることを示している。また、アピールページW01の効果測定情報は「G01」であり、レビュー情報は「H01」であることを示している。
(制御部130について)
制御部130は、例えば、コントローラ(controller)であり、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、抽出装置100内部の記憶装置に記憶されている各種プログラム(抽出プログラムの一例に相当)がRAMを作業領域として実行されることにより実現される。また、制御部130は、例えば、コントローラであり、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
図3に示すように、制御部130は、取得部131と、学習部132と、受付部133と、抽出部134と、生成部135と、提供部136とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部130の内部構成は、図3に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部130が有する各処理部の接続関係は、図3に示した接続関係に限られず、他の接続関係であってもよい。
(取得部131について)
取得部131は、各種情報を取得する。例えば、取得部131は、ネットワーク上の商取引の対象である商材に対応付けられた商材情報を取得する。
例えば、取得部131は、商材のスペックを示す項目と、当該項目に対応する値(数値や内容)を取得する。取得部131は、商材のカテゴリごとに異なる商材情報を取得する。一例として、取得部131は、商材のカテゴリが不動産であれば、商材情報として家賃や広さ等、図4で示した商材情報等を取得する。取得部131は、商材を特徴付けるスペック等の情報であれば、あらゆる情報を商材情報として取得してもよい。
そして、取得部131は、商材と商材情報とを対応付けて、図4に示したような商材情報記憶部121に格納する。すなわち、取得部131は、商取引サイトにおける商材に関するデータベースを構築する。かかるデータベースでは、例えば、家賃や広さ等に応じて、物件をソートしたり、ソートした場合の上位2割を抽出したりするデータ管理が可能であるものとする。
また、取得部131は、商材情報として、商材に対応付けられたテキストデータを取得する。例えば、取得部131は、商材を紹介するページにおいて、商材を説明するための説明文に対応するテキストデータを取得する。なお、商材を紹介するページとは、商材への申し込みを行うことができるページであったり、商材を購入したり売却したりといった取引を行うことのできるページを含む。
例えば商材が物件である場合、取得部131は、物件に対応付けられた説明文を形態素解析し、説明文に含まれる単語を取得する。さらに、取得部131は、物件の特徴を示す単語を取得する。より具体的には、取得部131は、物件の特徴を示す単語として、例えば家賃や、広さや、築年数や、距離や、最寄り駅等を示す単語を取得する。なお、取得部131は、説明文に限らず、タイトル等、商材に対応付けられているテキストデータであれば、あらゆる情報を取得してもよい。
なお、取得部131は、タイトルや説明文を形態素解析した場合に、ドキュメント(ここでは、タイトルや説明文)に含まれる単語(語句)の出現数等に基づいて、単語の出現頻度や、複数の説明文における各単語の重要度を算出してもよい。例えば、取得部131は、取得した説明文に関する単語のDF値を算出してもよい。また、取得部131は、DF値に限らず、tf−idf等の指標値を取得してもよい。そして、取得部131は、所定の閾値を超える単語のみを取得するようにしてもよい。これにより、取得部131は、様々なドキュメントに含まれる一般的な語句等を取得せず、物件を特徴付けると想定される単語のみを取得することができる。
また、取得部131は、実際にアピールページを閲覧したユーザから、当該アピールページに対する反応に関する情報を取得してもよい。例えば、取得部131は、アピールページもしくは商材に対するユーザの反応として、商材がユーザから選択された数もしくは率、又は、商材に関するコンバージョンの数もしくは率の少なくともいずれか一つを取得してもよい。また、取得部131は、ユーザから送信されるレビューに関する情報を取得してもよい。そして、後述する学習部132や抽出部134や生成部135は、取得部131によって取得されたユーザの反応に関する情報に基づいて、生成したモデルや、抽出する特徴情報を適宜チューニングするようにしてもよい。
なお、取得部131は、生成部135によって生成されたアピールページを閲覧したユーザに関する情報を取得してもよい。ユーザに関する情報とは、例えば、ユーザの属性情報(性別、年齢、居住地、職業等)や、ユーザの行動情報(ネットワーク上の過去の閲覧履歴や購買履歴等)である。例えば、取得部131は、ユーザ端末10から送信されるクッキー(cookie)に基づいてユーザを特定し、特定されたユーザに関する情報を取得する。
取得部131は、取得した情報を記憶部120の各部に適宜格納する。また、取得部131は、後述する各処理部が処理に用いる情報を記憶部120の各部から適宜取得するようにしてもよい。
(学習部132について)
学習部132は、取得部131によって取得された商材情報から、商材の特徴を示す情報である特徴情報を抽出するための学習を行う。
より具体的には、学習部132は、商材に対して事業者から予め設定されたテキストデータ(説明文)の中から、当該商材の特徴を示す特徴情報を抽出するための学習を行う。
例えば、学習部132は、商材情報から抽出する項目として予め設定された正解データを用いた学習処理(例えば、教師あり機械学習)に基づいて、特徴情報を抽出するための学習を行う。例えば、学習部132は、商材の特徴を示すと想定される項目や語句を人為的に抽出した情報を正解データとして取得する。そして、学習部132は、これらの正解データ(サンプル)を学習することにより、商材情報から抽出すべき特徴情報を学習する。
なお、学習部132は、商材のカテゴリごとに予め設定された所定の条件に基づいて、特徴情報を抽出するための学習を行ってもよい。具体的には、学習部132は、商材が「不動産」である場合には、抽出する特徴情報として、「家賃」や「広さ」等の項目を正解データとして受け付ける。そして、学習部132は、かかる正解データに基づいて、説明文のいずれの箇所が「家賃」や「広さ」等の項目に対応するかを学習する。このように、学習部132は、カテゴリ毎の正解データをサンプルとして用いることで、説明文のうちいずれの情報が商材の特徴を示すかを効率的に学習することができる。
また、学習部132は、商材情報のうち、商材に対応付けられた説明文を特徴付ける情報を抽出するよう学習されたモデル(学習器)を用いて、特徴情報を抽出するようにしてもよい。例えば、学習部132は、ディープラーニング等の手法を用いることで、明確な正解データを有しなくとも、各説明文を特徴付ける情報(特徴量)を抽出するためのモデルを生成することができる。
学習部132は、上記いずれの学習処理を用いてモデルを生成してもよい。また、学習部132は、上記で例示した以外の既知の学習処理を適宜用いてもよい。すなわち、学習部132が、後述する抽出部134による特徴情報の抽出処理や、生成部135によるアピールページの生成処理を実現するための学習を行うことが可能であれば、学習の手法は限定さない。
なお、学習部132は、ユーザの反応に関する情報に基づいて、抽出する特徴情報を調整する処理を行ってもよい。例えば、学習部132は、ユーザからの反応が所定の閾値を超えたアピールページ(例えば、コンバージョンが所定数を超えたページや、ユーザレビューの点数が所定の点数を超えたページ)において抽出した特徴情報を正解データと判定して、モデルを更新する。すなわち、学習部132は、ユーザからの反応が比較的良いアピールページは、適切に特徴情報が抽出できたページであるとして、モデル生成における正解データとして取り扱う。これにより、学習部132は、モデルを最適化していくことができる。
また、学習部132は、ユーザごとに異なる特徴情報を抽出するようなモデルを生成してもよい。例えば、アピールページにおいてアピールされる特徴情報の中には、ユーザの属性によって訴求効果が変化する特徴情報が存在する可能性がある。例えば、ある特徴が強調表示されたアピールページにおいて、女性ユーザに対してコンバージョン率が高いのに対して、男性ユーザに対してはコンバージョン率が低くなる可能性がある。このような場合、学習部132は、ユーザ属性に応じて、商材情報から抽出する項目を調整するような学習を行ってもよい。具体的には、学習部132は、女性ユーザ用のアピールページと男性用のアピールページとが異なる態様で表示されるように、特徴情報として抽出される項目を調整するような学習を行ってもよい。これにより、後述する生成部135は、同じ商材をアピールするページであっても、各々のユーザに対して訴求効果が高いと想定される各々の特徴情報が強調された、異なるアピールページを生成することができる。
学習部132は、学習に用いた学習データや、学習データに対応するモデルを学習情報記憶部122に適宜格納する。
(受付部133について)
受付部133は、商取引に関する種々の要求を受け付ける。例えば、受付部133は、ユーザ端末10から、商取引サイトにおいてユーザが所望する条件に適合する商材を検索する要求を受け付ける。
具体的には、受付部133は、商取引サイトにアクセスしたユーザ端末10から、物件を検索するための検索クエリを受け付ける。また、受付部133は、検索クエリに対応した検索結果ページを閲覧したユーザから、ユーザが所望する商材に関するページの閲覧(取得)要求を受け付ける。すなわち、受付部133は、ユーザが所望するアピールページへのアクセス要求を受け付ける。なお、受付部133は、ユーザ端末10から直接に種々の要求を受け付けるのではなく、ウェブサーバ30を介して受け付けてもよい。
(抽出部134について)
抽出部134は、ユーザから指定された内容に基づいて形成される集合に含まれる所定の商材において、当該所定の商材の商材情報のうち、当該集合において所定の条件を満たす情報である特徴情報を抽出する。
具体的には、抽出部134は、所定の条件として、集合に含まれる所定の商材の商材情報が当該集合において優位性を示す情報である場合に、当該商材情報を特徴情報として抽出する。
例えば、抽出部134は、商材のカテゴリごとに予め設定された所定の条件に基づいて、特徴情報を抽出する。具体的には、抽出部134は、まず学習部132によって生成されたモデルを用いて商材情報から特徴となる項目を抽出する。そして、抽出部134は、抽出された項目のうち、カテゴリごとに予め設定された所定の条件に適合する項目を、集合において優位性を示す情報であるとして、特徴情報として抽出する。
一例として、抽出部134は、カテゴリが不動産であれば、「ユーザが検索した条件に適合する複数の物件(すなわち、ユーザが指定した条件に基づいて形成される集合)の商材情報の項目のうちで、上位2割に属する情報を特徴情報として抽出する」といった条件を予め受け付ける。そして、抽出部134は、抽出した項目のうち、上記条件に適合する項目を特徴情報として抽出する。図1の例でいえば、抽出部134は、ユーザが閲覧しようとした物件XXXの商材情報のうち、「家賃」と「最寄り駅までの時間」という2つの項目が上記条件に適合したと判定する。そして、抽出部134は、これらの項目を特徴情報(アピールポイント)として抽出する。
なお、集合において優位性のある情報とは、必ずしも順位付けされる情報でなくてもよい。例えば、集合において優位性のある情報とは、集合において、他の商材が必ずしも有していない利点を示す情報であってもよい。具体的には、商材が物件である場合には、「ペット飼育可」であるという情報が、他の商材が必ずしも有していない利点を示す情報であるといえる。この場合、所定の条件として、例えば、「ユーザが検索した条件に適合する複数の物件の商材情報の項目のうちで、半数を超える商材が有していない所定のスペックを特徴情報として抽出する」といった設定がなされている場合、抽出部134は、「ペット飼育可」であるという情報を特徴情報として抽出する場合がある。
なお、抽出部134は、取得部131によって取得された商材情報から構築されたデータベースを参照することにより、上記の条件との適合等を判定する。
ここで、抽出部134は、商材に対応付けられる商材情報のうち、商材の説明文等(テキストデータ)から特徴情報を抽出する。かかる処理は、上述の学習部132によって生成されたモデルを用いることで実現される。
すなわち、抽出部134は、商材情報のうち、商材に対応付けられたテキストデータに対して設定される正解データを用いた学習処理に基づいて、特徴情報を抽出する。この場合、抽出部134は、予め人為的に正解データを与えられて学習されたモデルにテキストデータを入力することで、テキストデータのうち、いずれの箇所が「抽出されるべき項目」に該当するかを判定することができる。そして、抽出部134は、テキストデータから抽出された項目のうち、上記のような所定の条件を満たす項目を当該商材の特徴情報として抽出する。
また、抽出部134は、商材情報のうち、商材に対応付けられたテキストデータを特徴付ける情報を抽出するよう学習されたモデル(学習器)を用いて特徴情報を抽出してもよい。かかる処理は、例えばディープラーニング等の手法を用いて学習されたモデルを用いることで実現される。
すなわち、抽出部134は、商材情報のうち、商材に対応付けられたテキストデータを特徴付けると判定される語句や文を抽出する。そして、抽出部134は、抽出された語句や文と、商材のデータベースに含まれる各項目とを対応させることで、テキストデータのうち、いずれの箇所が「抽出されるべき項目」に該当するかを判定する。なお、このような、抽出された語句や文と、商材のデータベースに含まれる各項目とを対応させる処理についても、上記ディープラーニング等の手法を用いて学習されたモデルを用いることで実現される。そして、抽出部134は、テキストデータから抽出された項目のうち、上記のような所定の条件を満たす項目を当該商材の特徴情報として抽出する。
例えば、抽出部134は、特徴情報として、商材を特徴付ける語句を抽出する。すなわち、抽出部134は、商材を特徴付ける語句であって、集合において優位性を示す語句を抽出する。後述する生成部135は、抽出部134によって抽出された語句(アピールポイント)を強調表示することにより、アピールページを生成する。
なお、抽出部134によって抽出される特徴情報(語句)は、「家賃」や「広さ」等の一つの単語に限られない。例えば、抽出部134は、特徴情報として、「家賃」のことを記載していると想定される一文を抽出してもよい。また、抽出部134は、特徴情報として、「家賃」のことを記載していると想定される語句と、その前後の所定数の単語を抽出してもよい。なお、このような処理は、既知の重要文抽出処理等を利用することにより実現されてもよい。これにより、抽出部134は、「家賃」のことを記載していると想定される語句と、その前後の所定数の単語を抽出する場合であっても、ユーザにとって不自然とならないような箇所を選択して抽出することができる。
なお、抽出部134は、ユーザの反応に関する情報に基づいて、抽出する特徴情報を調整する処理を行ってもよい。例えば、抽出部134は、ユーザからの反応が所定の閾値を超えたアピールページ(例えば、コンバージョンが所定数を超えたページや、ユーザレビューの点数が所定の点数を超えたページ)において抽出した特徴情報を正解データと判定して、結果を学習部132にフィードバックする。すなわち、抽出部134は、ユーザからの反応が比較的良いアピールページは、適切に特徴情報が抽出できたページであるとして、モデル生成における正解データとして取り扱う。これにより、抽出部134は、抽出処理を最適化していくことができる。
また、抽出部134は、ユーザごとに異なる特徴情報を抽出してもよい。学習部132においても説明したように、商材におけるアピールポイントは、ユーザの属性に応じて訴求効果が変化する場合がありうる。このため、抽出部134は、例えばユーザの属性と、ユーザの反応との相関性に基づいて、商材に対して抽出する特徴情報を調整するようにしてもよい。
(生成部135について)
生成部135は、抽出部134によって抽出された特徴情報に基づいて、所定の商材に関するページを生成する。
例えば、生成部135は、商材に対応付けられたテキストデータのうち、抽出部134によって抽出された語句(特徴情報)が強調表示される態様のページを生成する。具体的には、生成部135は、テキストデータのうち、特徴情報に該当する箇所がハイライト表示されてアピールされたアピールページを生成する。これにより、生成部135は、ユーザ端末10に表示される商材において、集合に対してどのくらい優れた特徴があるのかといったスペックを示す情報を、即座にユーザにアピールすることができる。
また、生成部135は、ユーザからの反応に基づいてアピールページを生成するようにしてもよい。すなわち、上述した抽出部134と同様、生成部135も、ユーザの反応に基づいて、強調表示する範囲や特徴情報の表示の態様等を正解データ(もしくは不正解データ)として生成処理の学習を行い、生成するアピールページを最適化してもよい。
具体例として、物件がコンバージョンされる場合を説明する。アピールページにおいて、特徴情報として提示された情報(例えば、家賃について説明した箇所に対応するテキスト)を強調表示した箇所が適切でなかったり、強調表示する手法が適切でなかったりした場合、言い換えれば、商材のアピールポイントが上手くユーザに伝わっていない場合、ユーザは、当該物件を申し込むこと等を躊躇うと想定される。一方、物件がユーザからコンバージョンされる場合、アピールページでアピールされた特徴情報や、表示手法が正しかったと想定される。
そこで、生成部135は、このようなユーザの反応に基づいて、アピールページの態様や特徴情報の正否を推定する。例えば、生成部135は、予め所定の閾値を設定する。例えば、生成部135は、ある物件に関するコンバージョン率の閾値を設定する。そして、生成部135は、所定期間内や、一定数の閲覧の間に、閾値を超えるコンバージョン率を達成したか否かを判定する。
生成部135は、コンバージョン率が閾値を超えていた場合、当該物件に関するアピールページが正解であったものとして、当該アピールページを正例の1つとしてフィードバックする。また、生成部135は、コンバージョン率が閾値を超えなかった場合、当該物件に関するアピールページが不正解であったものとして、当該アピールページを負例の1つとしてフィードバックする。このように、ユーザの反応を利用して学習を継続することで、生成部135は、特徴情報をアピールする手法や、ページの色使いや、強調表示の処理(例えば、フォントの大小や、フォントの種類、ページ全体のレイアウト等)を向上させることができる。
なお、このようなユーザの反応を得る手法として、抽出装置100は、例えばクラウドソーシングを利用した人手による判定を実施してもよい。人手を利用して学習を行うことで、生成部135は、人が閲覧した場合に不自然のないアピールページを生成することができるようになる。
また、生成部135は、ユーザに関する情報に基づいて、ユーザごとに異なるアピールページを生成してもよい。すなわち、上述した抽出部134と同様、生成部135も、ユーザの属性情報や行動履歴等に基づいて、よりユーザに対して効果が高いと想定されるアピールページを生成するようにしてもよい。
(提供部136について)
提供部136は、各種情報を提供する。例えば、提供部136は、受付部133によって商材の閲覧要求が受け付けられた場合には、当該要求を送信したユーザにアピールページを提供(送信)する。また、提供部136は、受付部133によって商材を検索するための検索クエリが受け付けられた場合には、受け付けた検索クエリに対応する検索結果をユーザ端末10に提供する。
〔4.ウェブサーバの構成〕
次に、図7を用いて、実施形態に係るウェブサーバ30の構成について説明する。図7は、実施形態に係るウェブサーバ30の構成例を示す図である。図7に示すように、ウェブサーバ30は、通信部31と、コンテンツ記憶部32と、制御部33とを有する。
通信部31は、例えば、NIC等によって実現される。そして、通信部31は、ネットワークNと有線または無線で接続され、ユーザ端末10や事業者端末20や抽出装置100との間で情報の送受信を行う。
コンテンツ記憶部32は、例えば、RAM、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。そして、コンテンツ記憶部32は、コンテンツの一例であるウェブページを記憶する。例えば、コンテンツ記憶部32は、ウェブページを形成するHTMLファイルや、ウェブページに表示される静止画像や動画像を記憶する。なお、コンテンツ記憶部32に記憶されるウェブページには、ウェブページ上に表示させる広告コンテンツを取得するための広告取得命令が含まれる場合がある。
制御部33は、コントローラであり、例えば、CPUやMPU等によって、ウェブサーバ30内部の記憶装置に記憶されている各種プログラムがRAMを作業領域として実行されることにより実現される。また、制御部33は、コントローラであり、例えば、ASICやFPGA等の集積回路により実現される。
図7に示すように、制御部33は、受付部34と、配信部35とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部33の内部構成は、図7に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部33が有する各処理部の接続関係は、図7に示した接続関係に限られず、他の接続関係であってもよい。
受付部34は、ユーザ端末10からウェブページの取得要求を受け付ける。例えば、受付部34は、ウェブページの取得要求として、HTTPリクエストを受け付ける。また、受付部34は、事業者端末20から商材に関する情報を受け付ける。受付部34は、事業者端末20から受け付けた商材に関する情報をコンテンツ記憶部32に記憶する。
配信部35は、受付部34によってウェブページの取得要求が受け付けられた場合に、ウェブページをユーザ端末10に配信する。具体的には、配信部35は、コンテンツ記憶部32から取得要求対象のウェブページを取得し、取得したウェブページをユーザ端末10に配信する。上記の通り、コンテンツ記憶部32に記憶されているウェブページは、広告取得命令を含む。すなわち、ユーザ端末10は、取得したウェブページを表示する際に、ウェブページに含まれる広告取得命令に従い、抽出装置100に対して広告コンテンツの配信要求を送信する。
なお、上記実施形態では、抽出装置100に係る提供部136によってアピールページが提供される例を示したが、アピールページ等のウェブページは、ウェブサーバ30に係る配信部35によってユーザ端末10に配信されてもよい。この場合、ウェブサーバ30は、抽出装置100と連携し、アピールページを生成するために要する情報を抽出装置100に送信したり、抽出装置100からアピールページを取得したりする処理を行うものとする。
〔5.処理手順〕
次に、図8、図9及び図10を用いて、実施形態に係る抽出装置100による処理の手順について説明する。まず、図8を用いて、モデルの生成に関する処理手順を説明する。図8は、実施形態に係る処理手順を示すフローチャート(1)である。
図8に示すように、抽出装置100は、モデル生成のための学習データとして、抽出装置商材に対応付けられる商材情報を取得する(ステップS101)。
そして、抽出装置100は、取得した商材情報に基づいてデータベースを生成する(ステップS102)。また、抽出装置100は、取得した商材情報に基づいて学習モデルを生成する(ステップS103)。抽出装置上記の流れにより、抽出装置100による学習フェーズは終了する。
次に、図9を用いて、モデルを用いた抽出処理に関する処理手順を説明する。図9は、実施形態に係る処理手順を示すフローチャート(2)である。
図9に示すように、抽出装置100は、ユーザ端末10から、商材に関する指定を受け付けたか否かを判定する(ステップS201)。抽出装置100は、商材に関する指定を受け付けていない場合(ステップS201;No)、受け付けるまで待機する。
一方、商材に関する指定を受け付けた場合(ステップS201;Yes)、抽出装置100は、受け付けた指定(条件)に対応する集合を特定する(ステップS202)。そして、抽出装置100は、集合に含まれる所定の商材において、集合に対して優位性を有する特徴情報を抽出する(ステップS203)。
続けて、抽出装置100は、抽出した特徴情報に基づいてアピールページを生成する(ステップS204)。そして、抽出装置100は、商材に関する指定を行ったユーザに対して、アピールページを提供する(ステップS205)。上記の流れにより、抽出装置100による生成フェーズは終了する。
次に、図10を用いて、抽出処理及び生成処理に関するフィードバックの手順を説明する。図10は、実施形態に係る処理手順を示すフローチャート(3)である。
図10に示すように、抽出装置100は、アピールページに対する反応をユーザ端末10から受け付けたか否かを判定する(ステップS301)。抽出装置100は、反応を受け付けていない場合(ステップS301;No)、受け付けるまで待機する。
一方、反応を受け付けた場合(ステップS301;Yes)、抽出装置100は、ユーザからの反応を取得する(ステップS302)。そして、抽出装置100は、ユーザからの反応が所定の閾値を超えたか否かを判定する(ステップS303)。
抽出装置100は、ユーザからの反応が所定の閾値を超えていた場合(ステップS303;Yes)、ユーザに提供したアピールページにおける特徴情報(もしくは、アピールページ自体)を正解であったと判定する(ステップS304)。一方、抽出装置100は、ユーザからの反応が所定の閾値を超えていない場合(ステップS303;No)、特徴情報が不正解であったと判定する(ステップS305)。
そして、抽出装置100は、ステップS304及びステップS305で得られたデータを正例もしくは負例とした学習データを利用して、モデルを更新する(ステップS306)。言い換えれば、抽出装置100は、ユーザの反応に基づいて、モデルをさらに強化的に学習する。上記の流れを繰り返すことにより、抽出装置100は、より適切に特徴情報を抽出できるよう、モデルの最適化を図る。
〔6.変形例〕
上述した抽出装置100は、上記実施形態以外にも種々の異なる形態にて実施されてよい。そこで、以下では、抽出装置100の他の実施形態について説明する。
〔6−1.特徴情報の種類〕
上記実施形態では、抽出装置100は、商材の説明文のうち特徴情報に対応する箇所を強調表示する態様でアピールページを生成する例を示した。ここで、抽出装置100は、特徴情報は強調表示する態様とは異なる態様のアピールページを生成してもよい。
例えば、抽出装置100は、特徴情報に基づいて、商材に対応付けられた説明文の要約文を生成するとともに、要約文が付与されたアピールページを生成してもよい。具体的には、抽出装置100は、事業者によって予め商材に対応付けられた説明文に先立って、生成された要約文が配置される態様のアピールページを生成する。すなわち、抽出装置100は、集合と比較して優れた点などの商材の特徴のみを簡潔に伝える要約文を、説明文よりも先にユーザに伝えることができる。これにより、ユーザは、例えば説明文が冗長であったとしても、説明文自体を読まずに、商材の特徴を的確に捉えることができる。
〔6−2.検索結果への利用〕
抽出装置100は、生成した特徴情報を用いてアピールページを生成するのみならず、種々の処理に特徴情報を使用してもよい。例えば、抽出装置100は、商取引サイト等で行われる商材の検索において、検索結果とともに特徴情報を表示させるようにしてもよい。
すなわち、抽出装置100は、所定の検索処理の結果として商材が表示される場合において、商材の特徴情報を含む検索結果ページを生成してもよい。この場合、検索結果ページには、例えば、検索クエリに基づいて検索された商材の近傍に、商材に関する特徴情報(例えば、要約文)が表示される。このため、ユーザは、商材を検索した場合に、アピールページを表示せずとも商材の特徴を把握することができる。このように、抽出装置100は、商取引サイトを利用するユーザの利便性を向上させることができる。
〔6−3.レコメンドへの利用〕
抽出装置100は、商取引サイトのみならず、例えば、ウェブページ等とともに表示される商材のレコメンド(例えば、ウェブページの広告枠やレコメンド枠に表示される情報)において、特徴情報を表示するようにしてもよい。
例えば、商取引サイトに出品されている商材は、当該商材以外のウェブページ等にレコメンドとして表示される場合がある。この場合に、抽出装置100は、レコメンドされる商材とともに、特徴情報を表示させるようにする。これにより、ユーザは、レコメンドされる商材のアピールページへアクセスせずとも(現在閲覧しているページからアピールページに表示を遷移させなくても)、商材の特徴を把握することができる。
なお、抽出装置100は、当該商材のレコメンドがクリックされたか、あるいは、ユーザがコンバージョンに至ったかという情報を取得してもよい。例えば、レコメンドとして表示された特徴情報が不適切な場合や、訴求効果が低い場合には、ユーザは、クリックしたりコンバージョンしたりする反応を返さないものと想定される。一方、ユーザがクリックしたりコンバージョンしたりする反応を返した場合、当該レコメンドとともに表示された特徴情報は、商材の特徴を適切に示す情報であった(正解)と想定される。
そして、抽出装置100は、上記実施形態で説明したように、レコメンドに対する反応に応じて、特徴情報や特徴情報の処理の正否を判定する。これにより、抽出装置100は、アピールページ以外のユーザからの反応を利用して、抽出処理や抽出処理の精度を向上させる(学習を行う)ことができる。
〔6−4.商材〕
上記実施形態では、商材として、不動産の賃貸物件や、パソコン等を例に挙げたが、商材はこれらに限られない。すなわち、抽出装置100は、商取引サイトで取り扱われる商材であって、商材情報を取得可能な商材であれば、商品やサービスなどいずれの商材においても、実施形態に係る抽出処理を行うことができる。
〔6−5.コンテンツ〕
上記実施形態では、コンテンツとしてウェブページを例として挙げたが、コンテンツはこの例に限られない。例えば、コンテンツは、広告コンテンツであったり、アプリを介して提供される情報ページであったり、レコメンドに係るコンテンツであったりしてもよい。すなわち、抽出装置100が生成するコンテンツとは、ネットワークを介して提供される情報コンテンツであれば、いずれのコンテンツであってもよい。
例えば、抽出装置100は、所定の商品における特徴情報を抽出した場合には、抽出した特徴情報を、当該商品を宣伝するための広告コンテンツに反映させてもよい。例えば、抽出装置100は、広告主(商品の提供主)が入稿してきた広告コンテンツが宣伝する商品についての特徴情報を抽出する。そして、抽出装置100は、抽出した特徴情報から生成される宣伝情報(例えば、要約文)を広告コンテンツに付与して、広告コンテンツを生成する。具体的には、抽出装置100は、広告コンテンツにおいて、商品を宣伝するためのテキストデータが挿入される箇所に、特徴情報に基づいて生成した要約文を追加する。これにより、抽出装置100は、例えば多くの競合する商品(すなわち、商品の集合)に対して、より優位な特徴をアピールするような広告コンテンツを生成することができる。
〔7.ハードウェア構成〕
上述してきた実施形態に係る抽出装置100やユーザ端末10や事業者端末20やウェブサーバ30は、例えば図11に示すような構成のコンピュータ1000によって実現される。以下、抽出装置100を例に挙げて説明する。図11は、抽出装置100の機能を実現するコンピュータ1000の一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM1300、HDD1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、及びメディアインターフェイス(I/F)1700を有する。
CPU1100は、ROM1300又はHDD1400に記憶されたプログラムに基づいて動作し、各部の制御を行う。ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を記憶する。
HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を記憶する。通信インターフェイス1500は、通信網500(図2に示したネットワークNに対応)を介して他の機器からデータを受信してCPU1100へ送り、CPU1100が生成したデータを、通信網500を介して他の機器へ送信する。
CPU1100は、入出力インターフェイス1600を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。CPU1100は、入出力インターフェイス1600を介して、入力装置からデータを取得する。また、CPU1100は、入出力インターフェイス1600を介して生成したデータを出力装置へ出力する。
メディアインターフェイス1700は、記録媒体1800に記憶されたプログラム又はデータを読み取り、RAM1200を介してCPU1100に提供する。CPU1100は、かかるプログラムを、メディアインターフェイス1700を介して記録媒体1800からRAM1200上にロードし、ロードしたプログラムを実行する。記録媒体1800は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
例えば、コンピュータ1000が実施形態に係る抽出装置100として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、制御部130の機能を実現する。また、HDD1400には、記憶部120内のデータが記憶される。コンピュータ1000のCPU1100は、これらのプログラムを記録媒体1800から読み取って実行するが、他の例として、他の装置から通信網500を介してこれらのプログラムを取得してもよい。
〔8.その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、図3に示した取得部131と、受付部133とは統合されてもよい。また、例えば、記憶部120に記憶される情報は、ネットワークNを介して、外部に備えられた所定の記憶装置に記憶されてもよい。
また、上記実施形態では、抽出装置100が、例えば、商材情報を取得する取得処理と、特徴情報を抽出する抽出処理と、アピールページを生成する生成処理とを行う例を示した。しかし、上述した抽出装置100は、取得処理を行う取得装置と、抽出処理を行う抽出装置と、生成処理を行う生成装置とに分離されてもよい。この場合、取得装置は、少なくとも取得部131を有する。抽出装置は、少なくとも抽出部134を有する。生成装置は、少なくとも生成部135を有する。そして、上記の抽出装置100による処理は、取得装置と、抽出装置と、生成装置との各装置を有する抽出処理システム1によって実現される。
また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
〔9.効果〕
上述してきたように、実施形態に係る抽出装置100は、取得部131と、抽出部134とを有する。取得部131は、ネットワーク上の商取引の対象である商材に対応付けられた商材情報を取得する。抽出部134は、ユーザから指定された内容に基づいて形成される集合に含まれる所定の商材において、所定の商材の商材情報のうち、集合において所定の条件を満たす情報である特徴情報を抽出する。
このように、実施形態に係る抽出装置100は、例えば商取引サイトにおける商材紹介ページ等において、種々の事業者によって設定された商材情報から、商材の特徴を抽出する。すなわち、抽出装置100は、商材について、ユーザが指定した集合(他の商材)と比べた際に特徴となるアピールポイントを抽出することで、ユーザの指定に応じた動的な特徴をアピールすること、すなわち、商材に関する特徴をより柔軟にアピールすることができる。
また、抽出部134は、集合に含まれる所定の商材の商材情報が集合において優位性を示す情報である場合に、商材情報を特徴情報として抽出する。
このように、実施形態に係る抽出装置100は、ユーザが指定した集合と比べた際の優位性を有する特徴を抽出するので、商材が有する特徴を明確にユーザに伝えることができる。
また、抽出部134は、商材のカテゴリごとに予め設定された所定の条件に基づいて、特徴情報を抽出する。
このように、実施形態に係る抽出装置100は、カテゴリごとに条件を設定し、特徴情報を抽出する。これにより、抽出装置100は、様々な商材に対応した、的確な特徴情報を抽出することができる。
また、抽出部134は、商材情報のうち、商材に対応付けられたテキストデータに対して設定される正解データを用いた学習処理に基づいて、特徴情報を抽出する。
このように、実施形態に係る抽出装置100は、予め設定された正解データに基づいて学習を行うことで、人手によって抽出される特徴に類似するような特徴情報を抽出することができる。すなわち、抽出装置100は、的確に商材の特徴を示す特徴情報を抽出することができる。
また、抽出部134は、商材情報のうち、商材に対応付けられたテキストデータを特徴付ける情報を抽出するよう学習された学習器を用いて、特徴情報を抽出する。
このように、実施形態に係る抽出装置100は、例えばディープラーニング等の手法によって、テキストデータを特徴付けている特徴量を抽出する手法によって学習を行ってもよい。かかる処理によって、抽出装置100は、精度よく、また、効率的に特徴情報を抽出することができる。
また、実施形態に係る抽出装置100は、抽出部134によって抽出された特徴情報に基づいて、所定の商材に関するページ(コンテンツの一例)を生成する生成部135をさらに備える。
このように、実施形態に係る抽出装置100は、例えば商取引サイトにおける商材紹介ページ等において、商材の特徴を抽出し、抽出された特徴に基づいて特徴をアピールするためのページを生成する。これにより、抽出装置100は、ユーザの指定に応じた動的な特徴をアピールすることができる。
また、取得部131は、生成部135によって生成されたページを閲覧したユーザの反応を取得する。生成部135は、ユーザからの反応に基づいて、生成されたページを更新する。
このように、実施形態に係る抽出装置100は、ユーザの反応をフィードバックさせて抽出処理を行うことができる。これにより、抽出装置100は、生成するページを最適化することができる。
また、取得部131は、生成部135によって生成されたページを閲覧したユーザに関する情報を取得する。生成部135は、ユーザに関する情報に基づいて、所定の商材に関するページであって、ユーザに関する情報に対応したページを生成する。
このように、実施形態に係る抽出装置100は、ユーザごとに異なるページを生成してもよい。これにより、抽出装置100は、ユーザ一人一人の特徴に合わせた特徴情報がアピールされたページを提供できるので、ページの訴求効果を向上させることができる。
また、抽出部134は、特徴情報として、商材を特徴付ける語句を抽出する。生成部135は、商材に対応付けられたテキストデータのうち、抽出部134によって抽出された語句が強調表示される態様のページを生成する。
このように、実施形態に係る抽出装置100は、元の説明文に対して特徴のみを強調表示するような態様のページを生成してもよい。これにより、抽出装置100は、元の事業者の説明文の表示等のレイアウトや内容を崩さずに、集合に対して当該商材が優れている特徴をアピールすることができる。
また、生成部135は、特徴情報に基づいて、商材に対応付けられたテキストデータの要約文を生成するとともに、要約文が付与されたページを生成する。
このように、実施形態に係る抽出装置100は、特徴情報として、商材の特徴を要約した要約文を生成してもよい。これにより、抽出装置100は、冗長な説明文の代わりに、短い文章で商材の特徴をユーザに提示できるので、効率的に情報を伝えることのできるページを生成することができる。
また、生成部135は、商材に対応付けられたテキストデータに先立って、要約文が配置される態様のページを生成する。
このように、実施形態に係る抽出装置100は、元の説明文よりも先立って要約文を提示するページを生成することで、より速く的確に商材の特徴をユーザに伝えることができる。これにより、抽出装置100は、商取引サイトを利用するユーザのユーザビリティを向上させることができる。
また、生成部135は、所定の検索処理の結果として商材が表示される場合において、抽出部134によって抽出された特徴情報を含む検索結果ページを生成する。
このように、実施形態に係る抽出装置100は、検索結果とともに表示される情報として特徴情報が提示されるようなページを生成してもよい。これにより、抽出装置100は、わざわざユーザがアピールページにアクセスせずとも、商品の特徴をユーザに伝えることができる。
以上、本願の実施形態を図面に基づいて詳細に説明したが、これは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。