JP2013242676A - User attribute estimation device, user attribute estimation method and program - Google Patents
User attribute estimation device, user attribute estimation method and program Download PDFInfo
- Publication number
- JP2013242676A JP2013242676A JP2012115106A JP2012115106A JP2013242676A JP 2013242676 A JP2013242676 A JP 2013242676A JP 2012115106 A JP2012115106 A JP 2012115106A JP 2012115106 A JP2012115106 A JP 2012115106A JP 2013242676 A JP2013242676 A JP 2013242676A
- Authority
- JP
- Japan
- Prior art keywords
- attribute
- user
- probability
- stored
- storage means
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 22
- 230000001902 propagating effect Effects 0.000 claims abstract description 12
- 238000004364 calculation method Methods 0.000 claims description 39
- 238000000605 extraction Methods 0.000 claims description 14
- 230000000644 propagated effect Effects 0.000 abstract description 12
- 238000012545 processing Methods 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000000877 morphologic effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 235000008694 Humulus lupulus Nutrition 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
本発明は、ユーザ属性を推定するための技術に係り、特に、ソーシャルネットワークにおいてユーザ属性を公開していないユーザの属性を推定するための技術に関する。 The present invention relates to a technique for estimating a user attribute, and more particularly to a technique for estimating an attribute of a user who does not disclose a user attribute in a social network.
ユーザ属性を推定するための第1の従来技術として、地理属性とユーザ属性の関係を学習し利用することで、地理属性から未知のユーザ属性を推定するユーザ属性推定装置がある(例えば、特許文献1参照)。 As a first conventional technique for estimating a user attribute, there is a user attribute estimation device that estimates an unknown user attribute from a geographic attribute by learning and using the relationship between the geographic attribute and the user attribute (for example, Patent Documents). 1).
また、第2の従来技術として、ソーシャルネットワーク上における近さを定義し、近いユーザから属性を伝搬させることによって、未知のユーザ属性を推定するユーザ属性推定装置がある(例えば、非特許文献1参照)。 In addition, as a second conventional technique, there is a user attribute estimation device that estimates an unknown user attribute by defining proximity on a social network and propagating an attribute from a close user (see, for example, Non-Patent Document 1). ).
第1の従来技術と同様の手法を用いることで、ユーザが使う単語や、地理情報、時間情報などの特徴量をもとに、ユーザ属性を推定することができる。しかし、これらの情報を持たないような活発でないユーザに対してはユーザ属性を推定することができなかった。 By using a method similar to that of the first conventional technique, it is possible to estimate user attributes based on feature quantities such as words used by the user, geographic information, and time information. However, user attributes cannot be estimated for inactive users who do not have such information.
第2の従来技術はその課題に対し、ソーシャルネットワーク上で近いユーザの属性を利用し伝搬させることによって、活発でないユーザに対してもユーザ属性の推定を可能としている。しかし、近いユーザから全ての属性を伝搬させているため、伝搬される側のユーザが持たない属性も同時に伝搬させてしまうという問題点があった。 The second prior art makes it possible to estimate a user attribute even for an inactive user by using and propagating a user attribute close to the social network. However, since all attributes are propagated from a nearby user, there is a problem that attributes that the user on the side of propagation does not have are propagated at the same time.
本発明は、上記の点に鑑みなされたものであり、伝搬される側のユーザが持つ属性に絞ってユーザ属性を伝搬することで、高精度に未知のユーザ属性を推定することを可能とする技術を提供することを目的とする。 The present invention has been made in view of the above points, and it is possible to estimate an unknown user attribute with high accuracy by propagating the user attribute by focusing on the attribute of the user on the propagation side. The purpose is to provide technology.
上記の課題を解決するため、本発明は、会話ログ記憶手段に格納されているユーザ間の会話ログと、ユーザ属性記憶手段に格納されているユーザ属性が既知であるユーザ集合の属性集合とに基づいて、ユーザ属性が未知である入力ユーザのユーザ属性を推定するためのユーザ属性推定装置であって、
前記ユーザ属性記憶手段に格納されているユーザ集合から特定の属性を持つユーザ集合を抽出するユーザ集合抽出手段と、
前記特定の属性を持つユーザ集合と前記会話ログ記憶手段に格納されている各会話ログに基づいて、特定の属性を持つユーザ集合において特徴的に表れる特徴量を抽出し、各特徴量が各ユーザ属性に属する確率である属性確率を算出し、属性確率記憶手段に格納する属性確率算出手段と、
前記会話ログ記憶手段に格納されている各会話ログに基づいて、前記入力ユーザと各近隣ユーザ間の親密度を算出する親密度算出手段と、
前記親密度と前記属性確率記憶手段に格納されている各特徴量の属性確率に基づいて、近隣ユーザの各属性を前記入力ユーザに伝搬させる伝搬確率を算出する伝搬確率算出手段と、を有することを特徴とするユーザ属性推定装置として構成される。
In order to solve the above problems, the present invention provides a conversation log between users stored in the conversation log storage means and an attribute set of user sets whose user attributes stored in the user attribute storage means are known. A user attribute estimation device for estimating a user attribute of an input user whose user attribute is unknown,
User set extraction means for extracting a user set having a specific attribute from the user set stored in the user attribute storage means;
Based on the user set having the specific attribute and each conversation log stored in the conversation log storage unit, the feature quantity characteristically expressed in the user set having the specific attribute is extracted, and each feature quantity is each user. Calculating an attribute probability that is a probability belonging to the attribute, and storing the attribute probability in the attribute probability storage means;
A closeness calculating means for calculating a closeness between the input user and each neighboring user based on each conversation log stored in the conversation log storage means;
Propagation probability calculation means for calculating a propagation probability for propagating each attribute of a neighboring user to the input user based on the familiarity and the attribute probability of each feature quantity stored in the attribute probability storage means. It is comprised as a user attribute estimation apparatus characterized by.
前記ユーザ属性推定装置は、前記伝搬確率算出手段により算出された結果に基づいて、属性名に含まれる複数の属性値のうち、最も伝搬確率の高い属性値を前記入力ユーザの当該属性名における属性値として出力する出力手段を更に有してもよい。 The user attribute estimation device is configured to select an attribute value having the highest propagation probability among a plurality of attribute values included in the attribute name based on the result calculated by the propagation probability calculation unit as an attribute in the attribute name of the input user. You may further have an output means to output as a value.
前記伝搬確率算出手段は、例えば、前記入力ユーザと各近隣ユーザの会話において特徴量が含まれる確率と特徴量の属性確率とをかけて得られた確率に前記親密度をかけることにより伝搬確率を算出する。 The propagation probability calculation means, for example, calculates the propagation probability by multiplying the probability obtained by multiplying the probability that a feature amount is included in the conversation between the input user and each neighboring user and the attribute probability of the feature amount, by the intimacy. calculate.
また、本発明は、前記ユーザ属性推定装置が実行するユーザ属性推定方法として構成することもできる。また、本発明は、コンピュータを、前記ユーザ属性推定装置におけるユーザ集合抽出手段、属性確率算出手段、親密度算出手段、伝搬確率算出手段として機能させるためのプログラムとして構成することもできる。 Moreover, this invention can also be comprised as a user attribute estimation method which the said user attribute estimation apparatus performs. The present invention can also be configured as a program for causing a computer to function as user set extraction means, attribute probability calculation means, intimacy calculation means, and propagation probability calculation means in the user attribute estimation device.
本発明によれば、会話ログと学習ユーザ集合のユーザ属性に基づいて、伝搬する側のユーザが持つ属性を伝搬する際に、伝搬される側のユーザが持つ属性に絞ることができるので、伝搬される側のユーザが持たない属性も同時に伝搬させてしまうという問題を解決し、高精度に未知のユーザ属性を推定することが可能となる。 According to the present invention, when propagating the attributes of the user on the propagation side based on the user attributes of the conversation log and the learning user set, the attributes of the user on the propagation side can be narrowed down. It is possible to solve the problem that attributes that the user on the side to be transmitted does not have at the same time and to estimate unknown user attributes with high accuracy.
以下、図面を参照して本発明の実施の形態を説明する。なお、以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。 Embodiments of the present invention will be described below with reference to the drawings. The embodiment described below is only an example, and the embodiment to which the present invention is applied is not limited to the following embodiment.
(実施の形態の概要)
まず、本実施の形態の概要について説明する。本実施の形態に係る技術は、ソーシャルネットワーク上で関わりを持つ人同士は、全ての属性ではなく、一部の属性を共有している、という仮定と、2ユーザがソーシャルネットワーク上で会話する内容は2ユーザの共通性を含みやすい、という仮定に基づく。そして、会話ログの内容を解析することで、伝搬する側のユーザが持つ属性のうち、伝搬される側のユーザと共有する属性がどれであるのかを推定し、共有する属性に絞って伝搬を行うものである。
(Outline of the embodiment)
First, an outline of the present embodiment will be described. The technology according to the present embodiment is based on the assumption that people who are involved in a social network share some attributes, not all attributes, and the contents of the two users talking on the social network. Is based on the assumption that it is easy to include commonality between two users. Then, by analyzing the content of the conversation log, it is estimated which of the attributes of the user on the propagating side is shared with the user on the propagating side, and the propagation is limited to the attributes that are shared. Is what you do.
(ユーザ属性推定装置100の構成)
図1は、会話ログと学習ユーザ集合のユーザ属性に基づいて、ユーザがある属性を持つ確率を算出するためのユーザ属性推定装置100のブロック図を示す。
(Configuration of User Attribute Estimation Device 100)
FIG. 1 shows a block diagram of a user attribute estimation device 100 for calculating a probability that a user has a certain attribute based on the conversation log and the user attribute of the learning user set.
同図に示すように、ユーザ属性推定装置100は、ユーザ属性記憶部10、会話ログ記憶部20、ユーザ集合抽出部30、属性確率算出部40、属性確率記憶部50、入力部60、親密度算出部70、伝搬確率算出部80、出力部90を有する。
As shown in the figure, the user attribute estimation device 100 includes a user
上記各機能部のうち、ユーザ属性記憶部10、ユーザ集合抽出部30、会話ログ記憶部20、属性確率算出部40、及び属性確率記憶部50は、後述する学習の処理を行うものであり、学習部110を構成する。また、入力部60、会話ログ記憶部20、親密度算出部70、ユーザ属性記憶部10、属性確率記憶部50、伝搬確率算出部80、及び出力部90は、後述する推論の処理を行うものであり、推論部120を構成する。
Among the above functional units, the user
本実施の形態に係るユーザ属性推定装置100は、各記憶部となる記憶装置(メモリ、ハードディスク等)を備えるコンピュータに、ユーザ集合抽出部30、属性確率算出部40、入力部60、親密度算出部70、伝搬確率算出部80、出力部90の処理に対応するプログラムを実行させることにより実現可能である。当該プログラムは、可搬メモリ等の記憶媒体に格納して配布し、上記コンピュータにインストールして用いてもよいし、ネットワーク上のサーバからダウンロードして上記コンピュータにインストールしてもよい。また、ユーザ属性記憶部10、会話ログ記憶部20、属性確率記憶部50のいずれか又は全部を学習及び推論の処理を行うコンピュータ内に備えずに、当該コンピュータからネットワーク経由でアクセス可能な外部装置に備えてもよい。
The user attribute estimation apparatus 100 according to the present embodiment includes a user
(学習部110の処理内容)
以下、学習部110について詳述する。学習部110では、ユーザ属性記憶部10に格納されているユーザ属性と会話ログ記憶部20に格納されている会話ログに基づき、会話ログに含まれる各特徴量が各ユーザ属性に属する確率である属性確率を算出し、属性確率記憶部50に格納する。
(Processing content of learning unit 110)
Hereinafter, the learning unit 110 will be described in detail. The learning unit 110 is a probability that each feature amount included in the conversation log belongs to each user attribute based on the user attribute stored in the user
以下に学習部110の各構成・動作をより詳細に説明する。図2は、学習部110の動作を示すフローチャートであり、以下の説明において、対応する図2のステップ番号を適宜示すことにする。 Below, each structure and operation | movement of the learning part 110 are demonstrated in detail. FIG. 2 is a flowchart showing the operation of the learning unit 110. In the following description, the corresponding step numbers of FIG.
<ユーザ属性記憶部10>
ユーザ属性記憶部10に格納されるデータの例を図4に示す。
<User
An example of data stored in the user
ユーザ属性記憶部10では、ユーザ集合Uの属性集合Aを格納する。属性Aは属性名aiと属性値aijの組である。属性名には、性別、年代、居住地、出身地、母国語、利用可能な言語、職業、勤務先、学歴情報(出身または在学中の大学、高校…など)、所属集団名、宗教、指示する政党、経験スポーツ、嗜好(好きな食べ物、好きな音楽、好きな本…など)、趣味…などが含まれる。例えば、図4に示す例では、IDがIDaのユーザについて、属性名が「職業」である属性の属性値が「学生」であることが示されている。
The user
また、ユーザ属性記憶部10は、ユーザ集合Uのプロフィール集合Pを格納するものでもよい。プロフィールPには、自己紹介文や、友人などからの紹介文などが含まれる。この場合は、前処理として、プロフィールを形態素解析し、形態素解析結果に属性名が含まれるかのマッチングなどによって、属性集合Aを抽出する。
Further, the user
当該ユーザ属性記憶部10は、これらの情報が保存され、復元可能なものであればよく、特定のものに限定されない。例えば、データベースや、予め備えられた汎用的な記憶装置(メモリやハードディスク装置)の特定領域に記憶されるもの、もしくは、Webページを保持するWebサーバや、データベースを具備するデータベースサーバ等である。
The user
<会話ログ記憶部20>
会話ログ記憶部20に格納されるデータの例を図5に示す。
<Conversation
An example of data stored in the conversation
会話ログ記憶部20では、ユーザ集合Uの会話ログ集合Lを格納する。会話ログLは、投稿そのものの識別番号である投稿ID、その投稿が返信した投稿の識別番号である返信先投稿ID、投稿したユーザの識別番号である投稿元ユーザIDと、投稿されたユーザの識別番号である投稿先ユーザID、投稿内容を含む情報である。また、会話ログLは、投稿内容の投稿時間、投稿場所、ハイパーリンクのような記述内容への補足情報、友人情報といった情報を含んでもよい。なお、返信先投稿IDと投稿先ユーザIDは、単数でも複数でも値がなくともよい。これは、返信ではない投稿や返信されていない投稿も会話ログLに含まれることを意味する。投稿内容は、文章、文章の形態素解析結果、画像、映像、"共感情報"、"レーティング情報"などといった内容のいずれでも良い。"共感情報"とは、Facebook(登録商標)などにおける、『いいね!』ボタンなどのような、共感を示す情報を表す。"レーティング情報"とは、『食べログ(登録商標)』などにおける評価点のような、投稿内容に対する評価点を示す情報を表す。返信先投稿ID、投稿元ユーザID、投稿先ユーザIDなどは、投稿内容に一定のフォーマットで含まれていてもよい。投稿場所は、緯度経度情報でも、地名でもよい。友人情報は、Twitter(登録商標)のフォローのような友人登録の情報であり、片側からの登録であっても、両側からの登録であってもよい。
The conversation
当該会話ログ記憶部20は、これらの情報が保存され、復元可能なものであればよく、特定のものに限定されない。例えば、データベースや、予め備えられた汎用的な記憶装置(メモリやハードディスク装置)の特定領域に記憶されるもの、もしくは、Webページを保持するWebサーバや、データベースを具備するデータベースサーバ等である。
The conversation
<ユーザ集合抽出部30>
ユーザ集合抽出部30では、ユーザ属性記憶部10からユーザ集合Uの属性集合Aを入力として受け付ける。そして、各属性名aiについて属性値aijが等しい同属性ユーザ集合Uijを抽出し、属性確率算出部40に出力する(図2のステップ21)。
<User set
The user set
また、第1の従来技術と同様に、同属性ユーザ集合Uijが持つ投稿特徴量f'と属性値aijを学習データとして、会話ログ記憶部20に含まれる特徴量と各属性の関係性を学習し、これを利用して未知のユーザ属性を推定することで、同属性ユーザ集合Uijの拡張を行ってもよい(図2のステップ22、ステップ23)。この際、用いる特徴量としては、各ユーザが投稿に使う単語、地理情報、時間情報、投稿の頻度、投稿の時間帯…などが考えられる。
Further, similarly to the first prior art, as learning data post feature amount f 'and the attribute values a ij of the attribute user set U ij has the relationship of features and attributes included in the conversation
<属性確率算出部40>
属性確率算出部40では、ユーザ集合抽出部30から同属性ユーザ集合Uijと、会話ログ記憶部20から同属性ユーザ集合Uijの会話ログ集合LUijを入力として受け付ける。そして、与えられた全ての特徴量集合Fに含まれる特徴量fが各ユーザ属性に属する確率である属性確率P(aij|f)を算出し、属性確率記憶部50に格納する(図2のステップ24)。特徴量fには、各2ユーザが会話で使う単語、地理情報、時間情報、会話の頻度、文字数、返信が続く回数、返信の時間帯、などが含まれる。属性確率P(aij|f)の算出方法は、以下の方法などが考えられる。
<Attribute
The attribute
この処理を、全ての特徴量集合Fに対してではなく、一部に限ってもよい。全ての特徴量集合Fに対して検定などの処理を行うことで、同属性ユーザ集合Uijにおいて出現頻度が偏り特徴的に表れる特徴量を抽出できる。検定の方法としては、例えばχ2検定の式は下記で表される。 This processing may be limited to a part rather than all the feature amount sets F. By performing processing such as a test on all feature quantity sets F, it is possible to extract feature quantities whose appearance frequencies are biased and appear characteristically in the same attribute user set U ij . As a test method, for example, the formula of χ 2 test is expressed as follows.
<属性確率記憶部50>
属性確率記憶部50に格納されるデータの例を図6に示す。属性確率記憶部50では、属性確率算出部40から入力された属性確率を格納する。例えば、図6において、特徴量「期末試験」が、ユーザ属性「学生」に属する確率が0.7であることが示されている。
<Attribute
An example of data stored in the attribute
当該属性確率記憶部50は、これらの情報が保存され、復元可能なものであればよく、特定のものに限定されない。例えば、データベースや、予め備えられた汎用的な記憶装置(メモリやハードディスク装置)の特定領域に記憶されるもの、もしくは、Webページを保持するWebサーバや、データベースを具備するデータベースサーバ等である。
The attribute
(推論部120の処理内容)
以下、推論部120について詳述する。推論部120では、ユーザ属性記憶部10に格納されているユーザ属性と会話ログ記憶部20に格納されている会話ログと属性確率記憶部50に格納されている属性確率に基づき、ユーザ属性を伝搬することで未知のユーザ属性を推定し、出力する。
(Processing contents of the inference unit 120)
Hereinafter, the inference unit 120 will be described in detail. The inference unit 120 propagates the user attribute based on the user attribute stored in the user
以下に推論部120の各構成・動作をより詳細に説明する。図3は、推論部120の動作を示すフローチャートであり、以下の説明において、対応する図3のステップ番号を適宜示すことにする
<入力部60>
入力部60では、予測したいユーザの情報を入力として受け付ける。そして、ユーザIDへの変換を行い、親密度算出部70へと出力する(図3のステップ31)。
Below, each structure and operation | movement of the inference part 120 are demonstrated in detail. FIG. 3 is a flowchart showing the operation of the inference unit 120. In the following description, the corresponding step numbers of FIG.
<
The
<親密度算出部70>
親密度算出部70は、入力部60からユーザIDと、会話ログ記憶部20から会話ログ集合Lを入力として受け付ける。そして、まず、入力ユーザuのソーシャルネットワークにおける近隣ユーザ集合Suを抽出する(図3のステップ32)。次に、入力ユーザuと近隣ユーザu'間の親密度wuu'をそれぞれ算出し、伝搬確率算出部80に出力する(図3のステップ33)。
<
The
入力ユーザuのソーシャルネットワークにおける近隣ユーザ集合Suとは、会話ログ中で会話したことがあるユーザとしてもよく、会話ログの友人情報から友人関係を持つユーザを抜き出して用いてもよい。2ユーザ間の親密度wuu'の算出方法は、会話の頻度、文字数、返信が続く回数、返信が行われるまでにかかる時間、共通の友人数などを特徴量として算出する方法が考えられる。例えば、第2の従来技術においては、下記の式によって求められるが、下記の式に上記の特徴量の全てまたは一部を加えた方法であってもよい。また、wuu'を近隣ユーザ集合Suについて足し合わせると1になるよう正規化を行う。
ここで、distは下記の関数である。
ただし、Kは、ユーザuとユーザu'およびその共通の近隣ユーザを経由した経路集合であるとする。また、strengthは下記の関数である。
ここで、X'ijは下記のように求める。 Here, X ′ ij is obtained as follows.
<伝搬確率算出部80>
伝搬確率算出部80では、親密度算出部70から親密度wuu'と、ユーザ属性記憶部10から近隣ユーザ集合Suの属性集合ASuと、会話ログ記憶部20からユーザuと近隣ユーザ集合Suの会話ログ集合LuSuと、属性確率記憶部50から属性確率P(aij|f)を入力として受け付ける。そして、会話ログ集合LuSuをもとにユーザuと近隣各ユーザu'の会話において特徴量fが含まれる確率P(f|u,u')を算出したのち(図3のステップ34、ステップ35)、伝搬確率P(aij|u,u')を算出する(図3のステップ36)。伝搬確率に基づいて近隣ユーザ集合Suから属性を伝搬することによって、入力ユーザuが各属性を持つ確率P(aij|u)を算出し、出力部90へと出力する(図3のステップ37)。
<Propagation
In the propagation
ユーザuと近隣各ユーザu'の会話において特徴量fが含まれる確率P(f|u,u')の算出方法は、以下の方法が考えられる。 The following method can be considered as a method of calculating the probability P (f | u, u ′) that the feature quantity f is included in the conversation between the user u and each neighboring user u ′.
伝搬確率の算出方法は、以下の方法などが考えられる。 The following method etc. can be considered as a method for calculating the propagation probability.
<出力部90>
出力部90では、伝搬確率算出部80から入力ユーザuが各属性を持つ確率を入力として受け付ける。そして、伝搬された属性値aijのうち、属性名aiに含まれる属性値aijのうち最も確率の高い属性値をユーザuの属性名aiにおける属性値aijとして出力する(図3のステップ38)。
<
In the
ここで、出力とは、ディスプレイへの表示、プリンタへの印字、音出力、外部装置への送信等を含む概念である。出力部90は、ディスプレイやスピーカ等の出力デバイスを含むと考えても含まないと考えてもよい。出力部90は、出力デバイスのドライバソフトまたは、出力デバイスのドライバソフトと出力デバイス等で実現され得る。
Here, output is a concept including display on a display, printing on a printer, sound output, transmission to an external device, and the like. The
(具体例)
以下、具体的な例を用いて本実施の形態の処理について説明する。ここでは、下記のような条件における具体例を説明する。
(Concrete example)
Hereinafter, the processing of the present embodiment will be described using a specific example. Here, a specific example under the following conditions will be described.
・入力は入力ユーザuである
・属性名aiには職業と居住地が含まれる
・属性値a職業jには学生と会社員が含まれる
・属性値a居住地jには東京と神奈川が含まれる
・ユーザ属性記憶部10にはプロフィールが格納されている
・会話ログには形態素解析された投稿内容、時間情報、友人情報が含まれる
ユーザ集合抽出部30において、プロフィールに「学生」という文字を含むユーザを抽出することで、職業の属性値が学生であるユーザ集合U職業:学生を抽出し、同様にU職業:会社員、U居住地:東京、U居住地:神奈川を抽出する。そして、会話ログ記憶部20に問い合わせ、それぞれのユーザ集合に含まれるユーザの会話ログを抽出する。抽出した会話ログに含まれる特徴量について検定を行うことによって、U職業:学生の会話ログには「期末試験」「部活」などの単語が有意に含まれている他、「16時台に多く投稿が行われている」という特徴量を得る。そして、例えば、「期末試験」という単語を利用したユーザが5000人おり、「期末試験」という単語を利用し、かつ、職業:学生という人数が500人いたとすれば、P(職業:学生|期末試験)は0.1と算出できる。すると、ユーザが特徴量fを含む確率P(f|u)と特徴量fが属性aに属する確率P(a|f)をかけ合わせることによってユーザuがある属性aを持つ確率P(a|u)が算出できる。例えば、あるユーザが「期末試験」という単語を100回に1回使っているとすれば、0.01×0.1=0.001となる。これを全ての特徴量集合Fについて足し合わせればよい。各特徴量が独立である場合の以上のプロセスにより、各ユーザがU職業:学生に属する確率を算出することで、プロフィールに「学生」という文字が含まれていなくとも、U職業:学生を得ることができ、また、プロフィールに「学生」という文字が含まれていても、U職業:学生でないユーザを排除することができる。
・ Input is input user u ・ Attribute name a i includes occupation and residence ・ Attribute value a occupation j includes students and office workers ・ Attribute value a residence j includes Tokyo and Kanagawa Included-User
次に、属性確率算出部40において、先のステップで得たユーザ集合から、会話ログ記憶部20に問い合わせ、U職業:学生に含まれるユーザ間の会話ログを抽出する。ユーザ間の会話に含まれる特徴量について検定を行うことによって、U職業:学生同士の会話には「文化祭」などの単語や顔文字が有意に含まれている他、「文字数が少ない」「返信が続く回数が多い」などの特徴量を得る。そして、ユーザ集合抽出部30と同様に特徴量fが属性aに属する確率P(a|f)を算出し、属性確率記憶部50へと格納する。
Next, the attribute
親密度算出部70では、会話ログに問い合わせ、ユーザuの友人集合Suを抽出し、近隣ユーザu'とのそれぞれの親密度を算出する。親密度の算出は、2ユーザの全ての共通の友人について、共通の友人間における会話回数をホップ数でわったものを全て足し合わせることで行う。例えば、共通の友人がua、ubであり、ユーザuとユーザu'は5回、ユーザuとユーザuaは3回、ユーザu'とユーザuaは1回、ユーザuとユーザubは4回、ユーザu'とユーザubは6回会話していたとすると、5+(3+1)/2+(4+6)/2=12となる。これを正規化することで、例えば0.6となったとする。
In closeness
伝搬確率算出部80では、ユーザuとユーザu'において、ユーザu'が持つ属性値のうち、どの属性値を伝搬すべきかを算出する。まず、ユーザ属性記憶部10に問い合わせ、友人集合Suの属性を抽出する。会話ログ記憶部20に問い合わせ、ユーザuと友人集合Suの会話ログを抽出する。P(職業:学生|u)は、P(16時に会話|u,u')P(職業:学生|16時に会話)といった各特徴量ごとの属性確率を、全ての特徴量について足し合わせることによって算出する。そして、各属性値に対する確率値のうち、ユーザuとユーザu'の間で最も高いもののみをユーザu'からユーザuへ伝搬する。例えば、P(職業:学生|u,u')が0.8、P(職業:会社員|u,u')が0.2、P(居住地:東京|u,u')が0.4、P(居住地:神奈川|u,u')が0.6だったとする。この場合、最も確率値の高い「職業:学生」のみを伝搬し、次に確率値の高い「居住地:神奈川」は全く伝搬しないという方法でも、全ての属性を確率値に基づき伝搬するという方法でもよい。伝搬の際には、前に算出した親密度と確率値をかけ合わせ、全ユーザについて足し合わせる。つまり、ユーザu'からユーザuに職業:学生という属性値が伝搬する確率は、0.6×0.8=0.48となる。これを全てのユーザについて足し合わせればよく、結果、P(職業:学生|u)は0.7などとなる。同様に、P(職業:会社員|u)は0.3、P(居住地:東京|u)は0.6、P(居住地:神奈川|u)は0.4のように算出できる。
The propagation
出力部90では、属性名aiそれぞれの属性値aijのうち、最も確率が高いものを出力する。例えば、ユーザuの職業は、会社員よりも学生の属性値の方が高い確率を持つため、ユーザuの職業は学生であるとして出力する。以上の方法により、たとえユーザuが東京に住んでいるが、神奈川の学校に通っているため友人の中に神奈川に住む人が多かったとしても、それらの友人からは学校という属性値のみを伝搬し、過去に通っていた学校の友人などから東京という属性値が伝搬されることで、東京という正しい属性値を推定することができる。
The
本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。 The present invention is not limited to the above-described embodiments, and various modifications and applications are possible within the scope of the claims.
10 ユーザ属性記憶部
20 会話ログ記憶部
30 ユーザ集合抽出部
40 属性確率算出部
50 属性確率記憶部
60 入力部
70 親密度算出部
80 伝搬確率算出部
90 出力部
100 ユーザ属性推定装置
110 学習部
120 推論部
10 user
Claims (7)
前記ユーザ属性記憶手段に格納されているユーザ集合から特定の属性を持つユーザ集合を抽出するユーザ集合抽出手段と、
前記特定の属性を持つユーザ集合と前記会話ログ記憶手段に格納されている各会話ログに基づいて、特定の属性を持つユーザ集合において特徴的に表れる特徴量を抽出し、各特徴量が各ユーザ属性に属する確率である属性確率を算出し、属性確率記憶手段に格納する属性確率算出手段と、
前記会話ログ記憶手段に格納されている各会話ログに基づいて、前記入力ユーザと各近隣ユーザ間の親密度を算出する親密度算出手段と、
前記親密度と前記属性確率記憶手段に格納されている各特徴量の属性確率に基づいて、近隣ユーザの各属性を前記入力ユーザに伝搬させる伝搬確率を算出する伝搬確率算出手段と、
を有することを特徴とするユーザ属性推定装置。 Based on the conversation log between users stored in the conversation log storage means and the attribute set of the user set in which the user attributes stored in the user attribute storage means are known, the input user whose user attributes are unknown A user attribute estimation device for estimating a user attribute,
User set extraction means for extracting a user set having a specific attribute from the user set stored in the user attribute storage means;
Based on the user set having the specific attribute and each conversation log stored in the conversation log storage unit, the feature quantity characteristically expressed in the user set having the specific attribute is extracted, and each feature quantity is each user. Calculating an attribute probability that is a probability belonging to the attribute, and storing the attribute probability in the attribute probability storage means;
A closeness calculating means for calculating a closeness between the input user and each neighboring user based on each conversation log stored in the conversation log storage means;
Propagation probability calculating means for calculating a propagation probability for propagating each attribute of a neighboring user to the input user based on the attribute probability of each feature quantity stored in the familiarity and the attribute probability storage means;
The user attribute estimation apparatus characterized by having.
を更に有することを特徴とする請求項1に記載のユーザ属性推定装置。 Based on the result calculated by the propagation probability calculating means, output means for outputting the attribute value having the highest propagation probability among the plurality of attribute values included in the attribute name as the attribute value in the attribute name of the input user. The user attribute estimation device according to claim 1, further comprising:
ことを特徴とする請求項1又は2に記載のユーザ属性推定装置。 The propagation probability calculation means calculates the propagation probability by multiplying the probability obtained by multiplying the probability that the feature amount is included in the conversation between the input user and each neighboring user and the attribute probability of the feature amount by the familiarity. The user attribute estimation apparatus according to claim 1 or 2, wherein
前記ユーザ属性記憶手段に格納されているユーザ集合から特定の属性を持つユーザ集合を抽出するユーザ集合抽出ステップと、
前記特定の属性を持つユーザ集合と前記会話ログ記憶手段に格納されている各会話ログに基づいて、特定の属性を持つユーザ集合において特徴的に表れる特徴量を抽出し、各特徴量が各ユーザ属性に属する確率である属性確率を算出し、属性確率記憶手段に格納する属性確率算出ステップと、
前記会話ログ記憶手段に格納されている各会話ログに基づいて、前記入力ユーザと各近隣ユーザ間の親密度を算出する親密度算出ステップと、
前記親密度と前記属性確率記憶手段に格納されている各特徴量の属性確率に基づいて、近隣ユーザの各属性を前記入力ユーザに伝搬させる伝搬確率を算出する伝搬確率算出ステップと、
を有することを特徴とするユーザ属性推定方法。 Based on the conversation log between users stored in the conversation log storage means and the attribute set of the user set in which the user attributes stored in the user attribute storage means are known, the input user whose user attributes are unknown A user attribute estimation method executed by a user attribute estimation device for estimating a user attribute,
A user set extraction step of extracting a user set having a specific attribute from the user set stored in the user attribute storage means;
Based on the user set having the specific attribute and each conversation log stored in the conversation log storage unit, the feature quantity characteristically expressed in the user set having the specific attribute is extracted, and each feature quantity is each user. Calculating an attribute probability that is a probability belonging to the attribute, and storing the attribute probability in the attribute probability storage means;
A familiarity calculating step of calculating a familiarity between the input user and each neighboring user based on each conversation log stored in the conversation log storage means;
A propagation probability calculating step of calculating a propagation probability for propagating each attribute of a neighboring user to the input user based on the attribute probability of each feature quantity stored in the familiarity and the attribute probability storage means;
A user attribute estimation method characterized by comprising:
を更に有することを特徴とする請求項4に記載のユーザ属性推定方法。 Based on the result calculated by the propagation probability calculating step, an output step of outputting the attribute value having the highest propagation probability among the plurality of attribute values included in the attribute name as the attribute value in the attribute name of the input user. 5. The user attribute estimation method according to claim 4, further comprising:
ことを特徴とする請求項4又は5に記載のユーザ属性推定方法。 In the propagation probability calculation step, the user attribute estimation device multiplies the intimacy by a probability obtained by multiplying a probability that a feature amount is included in a conversation between the input user and each neighboring user and an attribute probability of the feature amount. The user attribute estimation method according to claim 4 or 5, wherein a propagation probability is calculated by:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012115106A JP5791565B2 (en) | 2012-05-18 | 2012-05-18 | User attribute estimation device, user attribute estimation method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012115106A JP5791565B2 (en) | 2012-05-18 | 2012-05-18 | User attribute estimation device, user attribute estimation method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013242676A true JP2013242676A (en) | 2013-12-05 |
JP5791565B2 JP5791565B2 (en) | 2015-10-07 |
Family
ID=49843512
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012115106A Expired - Fee Related JP5791565B2 (en) | 2012-05-18 | 2012-05-18 | User attribute estimation device, user attribute estimation method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5791565B2 (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013246757A (en) * | 2012-05-29 | 2013-12-09 | Kddi Corp | Classification estimation device for estimating ratio on each classification in entire member objects in a group, program and method |
JP2016118865A (en) * | 2014-12-19 | 2016-06-30 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | Generation device, generation method, and program |
JP2016181252A (en) * | 2015-03-24 | 2016-10-13 | ゼロックス コーポレイションXerox Corporation | Language identification on social media |
CN108921189A (en) * | 2018-05-23 | 2018-11-30 | 北京航空航天大学 | For the deduction method and device of social network user attribute |
CN112488867A (en) * | 2020-12-18 | 2021-03-12 | 北京航空航天大学 | User attribute deduction method and system in social information service |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009245143A (en) * | 2008-03-31 | 2009-10-22 | Nomura Research Institute Ltd | Conversation support device and method |
JP2011238169A (en) * | 2010-05-13 | 2011-11-24 | Nippon Telegr & Teleph Corp <Ntt> | User attribute estimating device, user attribute estimating method, and program |
US20120110071A1 (en) * | 2010-10-29 | 2012-05-03 | Ding Zhou | Inferring user profile attributes from social information |
JP2012094004A (en) * | 2010-10-27 | 2012-05-17 | Ntt Docomo Inc | Information processing apparatus, information providing method and program |
-
2012
- 2012-05-18 JP JP2012115106A patent/JP5791565B2/en not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009245143A (en) * | 2008-03-31 | 2009-10-22 | Nomura Research Institute Ltd | Conversation support device and method |
JP2011238169A (en) * | 2010-05-13 | 2011-11-24 | Nippon Telegr & Teleph Corp <Ntt> | User attribute estimating device, user attribute estimating method, and program |
JP2012094004A (en) * | 2010-10-27 | 2012-05-17 | Ntt Docomo Inc | Information processing apparatus, information providing method and program |
US20120110071A1 (en) * | 2010-10-29 | 2012-05-03 | Ding Zhou | Inferring user profile attributes from social information |
Non-Patent Citations (4)
Title |
---|
JPN6015029986; 池田和史他: '"マーケット分析のためのTwitter投稿者プロフィール推定手法"' 情報処理学会論文誌 コンシューマ・デバイス&システム[CD-ROM] Vol.2,No.1, 201204, pp.82-93 * |
JPN6015029988; 川中翔他: '"ソーシャルグラフを利用したユーザ属性の推定によるTwitterからのブランド特徴分析"' 電子情報通信学会技術研究報告 Vol.112,No.5, 201205, pp.121-126 * |
JPN6015029989; 奥川巧他: '"Twitterのリスト機能を用いたユーザの特徴抽出"' 情報処理学会第73回全国大会講演論文集 No.1, 201103, pp.687-688 * |
JPN7015002040; Alan MISLOVE, et al.: '"You Are Who You Know: Inferring User Profiles in Online Social Networks"' Proceedings of the third ACM international conference on Web search and data mining(WSDM 2010) , 201002, pp.251-260 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013246757A (en) * | 2012-05-29 | 2013-12-09 | Kddi Corp | Classification estimation device for estimating ratio on each classification in entire member objects in a group, program and method |
JP2016118865A (en) * | 2014-12-19 | 2016-06-30 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | Generation device, generation method, and program |
US10997612B2 (en) | 2014-12-19 | 2021-05-04 | International Business Machines Corporation | Estimation model for estimating an attribute of an unknown customer |
JP2016181252A (en) * | 2015-03-24 | 2016-10-13 | ゼロックス コーポレイションXerox Corporation | Language identification on social media |
CN108921189A (en) * | 2018-05-23 | 2018-11-30 | 北京航空航天大学 | For the deduction method and device of social network user attribute |
CN108921189B (en) * | 2018-05-23 | 2021-05-18 | 北京航空航天大学 | Deduction method and device for social network user attributes |
CN112488867A (en) * | 2020-12-18 | 2021-03-12 | 北京航空航天大学 | User attribute deduction method and system in social information service |
Also Published As
Publication number | Publication date |
---|---|
JP5791565B2 (en) | 2015-10-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108304526B (en) | Data processing method and device and server | |
Fischer | The 2004 GSS finding of shrunken social networks: An artifact? | |
Gillion | Protest and congressional behavior: assessing racial and ethnic minority protests in the district | |
Calvin et al. | # bully: Uses of hashtags in posts about bullying on Twitter | |
Gamal et al. | Twitter benchmark dataset for Arabic sentiment analysis | |
US10621181B2 (en) | System and method for screening social media content | |
Harris et al. | Suicidal and online: How do online behaviors inform us of this high-risk population? | |
Mahmoud et al. | Pandemic pains to Instagram gains! COVID-19 perceptions effects on behaviours towards fashion brands on Instagram in sub-Saharan Africa: tech-native vs non-native generations | |
JP5791565B2 (en) | User attribute estimation device, user attribute estimation method, and program | |
Thompson | Communicating a health risk/crisis: Exploring the experiences of journalists covering a proximate epidemic | |
JP5730741B2 (en) | Topic recommendation device, method and program | |
Hao et al. | Introducing news media sentiment analytics to residents’ attitudes research | |
Hansen et al. | The behaviour of political parties and MPs in the parliaments of the Weimar Republic | |
Abdul Reda et al. | Mobilizing the masses: measuring resource mobilization on Twitter | |
Lai et al. | # brexit: Leave or remain? The role of user’s community and diachronic evolution on stance detection | |
Condie et al. | The trouble with Tinder: The ethical complexities of researching location-aware social discovery apps | |
US20170032275A1 (en) | Entity matching for ingested profile data | |
Lennes | Queer (post-) migration experiences: Mexican men’s use of gay dating apps in the USA | |
Ynalvez et al. | International graduate science training and scientific collaboration | |
Nicholas et al. | The impact of the pandemic on early career researchers' work‐life and scholarly communications: A quantitative aerial analysis | |
Joshi et al. | Mapping the social landscape through social media | |
Potnis et al. | Addressing barriers to engaging with marginalized communities: Advancing research on information, communication and technologies for development (ICTD) | |
US11574125B2 (en) | Method for automatically determining target entities from unstructured conversation using natural language understanding | |
McKnight et al. | ‘You’re all a bunch of pinkos’: Rupert Murdoch and the politics of HarperCollins | |
CN115033675A (en) | Conversation method, conversation device, electronic equipment and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20141020 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150717 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150728 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150804 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5791565 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |