CN112148822A - 一种细粒度属性加权方法及系统 - Google Patents
一种细粒度属性加权方法及系统 Download PDFInfo
- Publication number
- CN112148822A CN112148822A CN202010889448.9A CN202010889448A CN112148822A CN 112148822 A CN112148822 A CN 112148822A CN 202010889448 A CN202010889448 A CN 202010889448A CN 112148822 A CN112148822 A CN 112148822A
- Authority
- CN
- China
- Prior art keywords
- attribute
- fine
- grained
- matrix
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 239000011159 matrix material Substances 0.000 claims abstract description 143
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 39
- 238000012546 transfer Methods 0.000 claims abstract description 8
- 238000005295 random walk Methods 0.000 claims description 20
- 230000000694 effects Effects 0.000 claims description 19
- 230000007704 transition Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 11
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 3
- 238000005259 measurement Methods 0.000 abstract description 9
- 230000006698 induction Effects 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 239000008358 core component Substances 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 235000012054 meals Nutrition 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Remote Sensing (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种细粒度属性加权方法及系统,其方法包括:首先将属性权值在属性值粒度上和类标粒度上细分,然后根据先验知识统计给对应不同属性值和不同类标的细粒度属性权值设置初始值;把细粒度属性权值的初始值矩阵作为随机重启游走中的初始状态矩阵,利用初始状态矩阵计算得到转移矩阵,根据初始状态矩阵和转移矩阵增量式的更新当前状态矩阵,完成随机重启游走获得细粒度属性权值的最优值矩阵。本技术方案可以增量式的更新细粒度属性权值状态矩阵而不需要考虑k‑近邻算法的归纳偏差,是兼具性能与时效的最优方案;且减少了违反名词性属性距离度量算法中的属性独立性假设而造成的k‑近邻算法在寻找用户最有可能访问的兴趣点时出现的预测偏差。
Description
技术领域
本发明涉及地理信息工程领域,尤其涉及一种细粒度属性加权方法及系统。
背景技术
随着GPS设备的日益普及,由GPS设备产生的用户轨迹数据也越来越丰富。这些数据记录了用户位置的时空信息(即,经纬度和时间戳)。明显地,原始的用户轨迹数据只包含单一的位置信息,而缺乏揭示用户行为的语义信息(例如,用户出行的目的和意图)。传统的用户轨迹语义增强是通过人工填写问卷的形式实现的。这种方法存在两个弊端:1)用户填写问卷与用户轨迹数据生成的时间不同,用户不记得自己做了什么而造成数据不完整;2)用户可能来自不同城市或国家,完成所有用户的问卷填写几乎不可能实现。现有的用户轨迹语义增强是根据兴趣点的签到数据与原始的用户轨迹数据来挖掘用户轨迹的语义。
用户轨迹语义增强的目的是从一系列的候选兴趣点中找出用户最有可能访问的兴趣点,从而推测出用户每个停留点的语义信息。k-近邻算法作为机器学习和数据挖掘领域的十种经典算法之一,可以为不确定性推理提供一种可解释的处理方法。在寻找用户最有可能访问的兴趣点时,k-近邻算法计算用户停留点与用户可能活动区域的所有兴趣点的的相似度,得到k个用户可能访问的兴趣点。然后,根据k个兴趣点来推断用户在该停留点的语义信息。
距离度量是一种用于测量两个样本之间的相似性的方法。它是k-近邻算法的核心组成部分。改进距离度量是提升k-近邻算法文本分类性能的关键。值差度量和反转类指定距离度量是两种最佳的名词性属性距离度量算法。它们的共同点是将名词性属性的距离度量转换成了条件概率的相似性计算。然而,它们在计算条件概率时引入了属性独立性假设,即属性之间相互独立,不存在任何依赖关系。明显地,在具有较强属性依赖关系的数据集上,这些基于属性独立性假设的名词性属性距离度量算法的距离度量性能会遭到破坏。
属性加权为避免违反这些名词性属性距离度量算法中的属性独立性假设而造成的k-近邻算法在进行分类时出现预测偏差提供了一种可行的改进方案。属性加权通过给不同的属性分配不同的权值以区分它们对算法的不同贡献和影响。然而,广义的属性加权给每一个属性分配一个权值,也就是说,同一属性的不同属性取值对应同一个权值,同一属性不同类标也对应相同的权值。事实上,同一属性不同属性取值对算法的贡献和影响是不一样的,不同类标对应不同的属性取值也应该拥有不同的权值。
发明内容
为了解决上述问题,本发明提供了一种细粒度属性加权方法及系统;在属性值粒度上和类标粒度上细分属性权值,获得了更加精细的细粒度属性权值。
本发明实施例提供的一种细粒度属性加权方法,主要包括以下步骤:
S101:获取对应活动区域所有兴趣点的用户签到数据集;所述用户签到数据集中包括多个用户在所述活动区域内的多个签到数据;每个所述签到数据包括多个属性值,每个属性值对应有一个类标;
S102:根据各属性值的物理意义,将各属性值分别进行细分;并将细分后的属性值对应的属性权值在属性值粒度上和类标粒度上细分;
S103:根据所述用户签到数据集的先验知识统计给各细粒度属性值对应不同类标下的细粒度属性权值设置初始值,得到初始值矩阵;
S104:将所述初始值矩阵作为随机重启游走中的初始状态矩阵;利用随机游走算法计算获得细粒度属性权值的最优值矩阵。
进一步地,步骤S103中,根据所述用户签到数据集的先验知识统计给各细粒度属性值对应不同类标下的细粒度属性权值设置初始值,得到初始值矩阵;具体包括:
S201:根据数据集的先验知识统计,找出无依赖关系或者在有限用户签到数据下,没有呈现依赖关系的类标和属性值,并给它们对应的细粒度属性权值分配权值零;
S202:将缺失的属性值对应的所有细粒度属性权值分配权值零;其中,若用户到达某兴趣点的经纬度或者时间没有记录下来,则用户在该兴趣点的签到数据存在缺失属性值;
S203:计算其余的属性值与类标对应的类成员概率,并将其设置为对应细粒度属性权值的初始值。
进一步地,步骤S203中,类成员概率P(ck|ail)计算公式如公式(1)所示:
上式中,P(ck|ail)表示第k个类标ck,第i个属性值的第l个细粒度属性值对应的类成员概率,将其设置为类标ck细粒度属性值ail对应的细粒度属性权值的初始值;l=1,2,…,S;S为第i个属性值细分后的细粒度属性值的总个数;j表示用户签到数据集D中的第j条签到数据,ai(j)表示第j条签到数据在第i个属性值上的属性取值,c(j)表示第j条签到数据中兴趣点所属的类标;n表示用户签到数据集D中签到数据的总个数,δ(x,y)为二值函数,
进一步地,步骤S104中,将所述初始值矩阵作为随机重启游走中的初始状态矩阵Q1,利用初始状态矩阵计算得到转移矩阵B;根据初始状态矩阵Q1和转移矩阵B,结合重启概率p和随机游走概率1-p增量式的更新当前状态矩阵Q2n-1;其中,2n-1表示当前游走步数;当两个连续的状态矩阵中的最大的元素的差值ε小于阈值θ时,停止随机重启游走,并将当前的状态矩阵作为细粒度属性权值的最优值矩阵Q;其中,所述的随机重启游算法的重启因子p、随机游走因子1-p、阈值θ均为超参数,预先人为设定。
进一步地,所述初始状态矩阵如公式(2)所示:
上式中,wk,u表示第u个属性值,第k个类标对应的细粒度属性权值;u=1,2,...,U,U是所有属性的所有取值的总个数;k=1,2,…,t,t为类标总个数;
所述转移矩阵B由所述初始状态矩阵与其转置相乘获得,具体公式如公式(3)所示:
上式中,初始状态矩阵与初始状态矩阵的转置相乘的前后顺序由类标总个数t和所有属性的所有属性取值的总个数U的大小决定;
增量式的更新当前状态矩阵Q2n-1;具体更新公式如公式(4)所示:
所述细粒度属性权值的最优值矩阵Q,在当两个连续的细粒度属性权值矩阵的差值ε小于阈值θ时获得,具体如公式(5)所示:
进一步地,一种细粒度属性加权系统,其特征在于:包括以下模块:
用户签到数据集获取模块,用于获取对应活动区域所有兴趣点的用户签到数据集;所述用户签到数据集中包括多个用户在所述活动区域内的多个签到数据;每个所述签到数据包括多个属性值,每个属性值对应有一个类标;
属性值细分模块,用于根据各属性值的物理意义,将各属性值分别进行细分;并将细分后的属性值对应的属性权值在属性值粒度上和类标粒度上细分;
细粒度属性权值设置模块,用于根据所述用户签到数据集的先验知识统计给各细粒度属性值对应不同类标下的细粒度属性权值设置初始值,得到初始值矩阵;
寻优模块,用于将所述初始值矩阵作为随机重启游走中的初始状态矩阵;利用随机游走算法计算获得细粒度属性权值的最优值矩阵。
进一步地,细粒度属性权值设置模块中,根据所述用户签到数据集的先验知识统计给各细粒度属性值对应不同类标下的细粒度属性权值设置初始值,得到初始状态矩阵;具体包括以下单元:
第一单元,用于根据数据集的先验知识统计,找出无依赖关系或者在有限用户签到数据下,没有呈现依赖关系的类标和属性值,并给它们对应的细粒度属性权值分配权值零;
第二单元,用于将缺失的属性值对应的所有细粒度属性权值分配权值零;其中,若用户到达某兴趣点的经纬度或者时间没有记录下来,则用户在该兴趣点的签到数据存在缺失属性值;
第三单元,用于计算其余的属性值与类标对应的类成员概率,并将其设置为对应细粒度属性权值的初始值。
进一步地,第三单元中,类成员概率P(ck|ail)计算公式如公式(6)所示:
上式中,P(ck|ail)表示第k个类标ck,第i个属性值的第l个细粒度属性值对应的类成员概率,将其设置为类标ck细粒度属性值ail对应的细粒度属性权值的初始值;l=1,2,…,S;S为第i个属性值细分后的细粒度属性值的总个数;j表示用户签到数据集D中的第j条签到数据,ai(j)表示第j条签到数据在第i个属性值上的属性取值,c(j)表示第j条签到数据中兴趣点所属的类标;n表示用户签到数据集D中签到数据的总个数,δ(x,y)为二值函数,
进一步地,寻优模块中,将所述初始值矩阵作为随机重启游走中的初始状态矩阵Q1,利用初始状态矩阵计算得到转移矩阵B;根据初始状态矩阵Q1和转移矩阵B,结合重启概率p和随机游走概率1-p增量式的更新当前状态矩阵Q2n-1;其中,2n-1表示当前游走步数;当两个连续的状态矩阵中的最大的元素的差值ε小于阈值θ时,停止随机重启游走,并将当前的状态矩阵作为细粒度属性权值的最优值矩阵Q;其中,所述的随机重启游算法的重启因子p、随机游走因子1-p、阈值θ均为超参数,预先人为设定。
进一步地,所述初始状态矩阵如公式(7)所示:
上式中,wk,u表示第u个属性值,第k个类标对应的细粒度属性权值;u=1,2,...,U,U是所有属性的所有取值的总个数;k=1,2,…,t,t为类标总个数;
所述转移矩阵B由所述初始状态矩阵与其转置相乘获得,具体公式如公式(8)所示:
上式中,初始状态矩阵与初始状态矩阵的转置相乘的前后顺序由类标总个数t和所有属性的所有属性取值的总个数U的大小决定;
增量式的更新当前状态矩阵Q2n-1;具体更新公式如公式(9)所示:
所述细粒度属性权值的最优值矩阵Q,在当两个连续的细粒度属性权值矩阵的差值ε小于阈值θ时获得,具体如公式(10)所示:
本发明提供的技术方案带来的有益效果是:
(1)本发明提出的技术方案与名词性属性的距离具体计算无关,所以可以移植到其他所有引入属性独立性假设的基于条件概率计算的距离度量改进中;
(2)增量式的更新细粒度属性权值状态矩阵而不需要考虑k-近邻算法的归纳偏差,是兼具性能与时效的最优方案;
(3)进一步减少了违反名词性属性距离度量算法中的属性独立性假设而造成k-近邻算法在寻找用户最有可能访问的兴趣点时出现的预测偏差。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例中一种细粒度属性加权方法的流程图;
图2是本发明实施例中采用随机游走算法计算最优值矩阵的流程示意图;
图3是本发明实施例中一种细粒度属性加权系统的模块连接示意图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。
本发明的实施例提供了一种细粒度属性加权方法及系统。首先对活动区域内描述用户签到数据的属性进行细分,再根据用户的签到数据集对k-近邻算法中的细粒度属性权值的最优值矩阵进行寻优,进而利用优化后的k-近邻算法标注用户在活动区域内最可能到达的兴趣点。改进后的k-近邻算法相当于一个通用的最优模型,利用该最优模型可以对各种各样用户在该活动区域内最可能到达的兴趣点进行标注。
请参考图1,图1是本发明实施例中一种细粒度属性加权方法的流程图,具体包括如下步骤:
S101:获取对应活动区域的用户签到数据集;所述用户签到数据集中包括多个用户在所述活动区域内的多个签到数据;每个所述签到数据包括多个属性值,每个属性值对应有一个类标;
假设用户在活动区域(例如武汉境内、长沙境内、湖北省境内等)的所有兴趣点上的签到数据集合为D(该签到数据可从一些专门做签到数据收集的网站上获取,例如http://sites.google.com/site/yangdingqi/home/foursquare-dataset),其中任意一条签到数据可以用向量(A1,A2,...,Ai,...,Am)表示,m是描述一条签到数据的所有属性的总个数,Ai表示第i个属性(例如,第i个属性为时间,则把一天分为24个时间段,该条签到数据中兴趣点最受欢迎的开放时间所属的时间段,即为该条签到数据在第i个属性上的取值)。该条签到数据中兴趣点所属类标(例如,用餐、购物、娱乐等等)用ck表示,其中k=1,2,...,t,t是所有兴趣点所属类标的总个数;
S102:根据各属性值的物理意义,将各属性值分别进行细分;并将细分后的属性值对应的属性权值在属性值粒度上和类标粒度上细分;得到各属性值细分后的多个细粒度属性权值;如表(a)和表(b)所示,其中,表(a)和表(b)分别为广义的属性加权权值示意表和细粒度属性加权权值示意表;将属性值Ai细分为ai1和ai2两个细粒度属性值(例如,若属性值Ai为时间,可以将其细分为上午时间和下午时间两个细粒度属性值);
将属性权值ωi(第i个属性值Ai对应的广义的加权权值,i=1,2,...,m)在属性值粒度上和类标粒度上细分为S为第i个属性值细分后的细粒度属性值的总个数。表(a)所示为广义的属性加权权值示意图,不同行对应不同的类标ck,不同列对应不同属性Ai,广义的属性加权给同一属性分配相应的权值,不同类标对应同一属性,权值相同。
表(b)所示为从属性值粒度和类标粒度上细分后的细粒度属性权值示意图,不同行对应不同的类标ck,不同列对应不同属性的不同细粒度属性值ail,表示第i个属性的第l个细粒度属性值。细粒度属性加权给不同细粒度属性值分配不同的权值,给对应同一细粒度属性值的不同类标分配不同的权值。
(a)广义的属性加权权值示意
(b)细粒度属性加权权值示意
S103:根据所述用户签到数据集的先验知识统计给各细粒度属性值对应不同类标下的细粒度属性权值设置初始值,得到初始值矩阵;所述的初始值矩阵由类标总个数行,所有属性的所有属性取值的总个数列的细粒度属性权值组成;所述初始值矩阵的值为相应行的类标和相应列的属性值对应的细粒度属性权值;
S104:将所述初始值矩阵作为随机重启游走中的初始状态矩阵;利用随机游走算法计算获得细粒度属性权值的最优值矩阵;
将所述最优值矩阵中的各细粒度属性值对应的各类标的细粒度属性权值对k-近邻算法中的距离度量进行改进,并利用改进后的算法标注用户在活动区域内最可能访问的兴趣点,以实现用户轨迹语义增强。
步骤S103中,根据所述用户签到数据集的先验知识统计给各细粒度属性值对应不同类标下的细粒度属性权值设置初始值,得到初始值矩阵;具体包括:
S201:根据数据集的先验知识统计,找出无依赖关系或者在有限用户签到数据下,没有呈现依赖关系的类标和属性值,并给它们对应的细粒度属性权值分配权值零;
S202:将缺失的属性值对应的所有细粒度属性权值分配权值零;其中,若用户到达某兴趣点的经纬度或者时间没有记录下来,则用户在该兴趣点的签到数据存在缺失属性值;
S203:计算其余的属性值与类标对应的类成员概率,并将其设置为对应细粒度属性权值的初始值。
步骤S203中,类成员概率P(ck|ail)计算公式如下:
上式中,P(ck|ail)表示第k个类标ck,第i个属性值的第l个细粒度属性值对应的类成员概率,将其设置为类标ck细粒度属性值ail对应的细粒度属性权值的初始值;l=1,2,…,S;S为第i个属性值细分后的细粒度属性值的总个数;j表示用户签到数据集D中的第j条签到数据,ai(j)表示第j条签到数据在第i个属性值上的属性取值,c(j)表示第j条签到数据中兴趣点所属的类标;n表示用户签到数据集D中签到数据的总个数,δ(x,y)为二值函数,即ai(j)=ail时,δ(ai(j),ail)=1;否则,δ(ai(j),ail)=0。
请参阅图2,图2是本发明实施例中采用随机游走算法计算最优值矩阵的流程示意图;步骤S104中,将所述初始值矩阵作为随机重启游走中的初始状态矩阵Q1,利用初始状态矩阵计算得到转移矩阵B;根据初始状态矩阵Q1和转移矩阵B,结合重启概率p和随机游走概率1-p增量式的更新当前状态矩阵Q2n-1;其中,2n-1表示当前游走步数;当两个连续的状态矩阵中的最大的元素的差值ε小于阈值θ时,停止随机重启游走,并将当前的状态矩阵作为细粒度属性权值的最优值矩阵Q;其中,所述的随机重启游算法的重启因子p、随机游走因子1-p、阈值θ均为超参数,预先人为设定。
所述初始状态矩阵为:
上式中,wk,u表示第u个属性值,第k个类标对应的细粒度属性权值;u=1,2,...,U,U是所有属性的所有取值的总个数(例如,一条用户签到数据包含3个属性,每个属性各自有1、2、3个属性取值,则U=1+2+3=6);k=1,2,…,t,t为类标总个数;
所述转移矩阵B由所述初始状态矩阵与其转置相乘获得,具体公式如下:
上式中,初始状态矩阵与初始状态矩阵的转置相乘的前后顺序由类标总个数t和所有属性的所有属性取值的总个数U的大小决定;
增量式的更新当前状态矩阵Q2n-1;具体更新公式如下:
所述细粒度属性权值的最优值矩阵Q,在当两个连续的状态矩阵的差值ε小于阈值θ时获得,具体如下:
请参阅图3,图3是本发明实施例中一种细粒度属性加权系统的模块连接示意图,包括依次连接的:用户签到数据集获取模块11、属性值细分模块12、细粒度属性权值设置模块13和寻优模块14;其中
用户签到数据集获取模块11,用于获取对应活动区域的用户签到数据集;所述用户签到数据集中包括多个用户在所述活动区域内的多个签到数据;每个所述签到数据包括多个属性值,每个属性值对应有一个类标;
属性值细分模块12,用于根据各属性值的物理意义,将各属性值分别进行细分;并将细分后的属性值对应的属性权值在属性值粒度上和类标粒度上细分;
细粒度属性权值设置模块13,用于根据所述用户签到数据集的先验知识统计给各细粒度属性值对应不同类标下的细粒度属性权值设置初始值,得到初始值矩阵;
寻优模块14,用于将所述初始值矩阵作为随机重启游走中的初始状态矩阵;利用随机游走算法计算获得细粒度属性权值的最优值矩阵。
在本发明实施例中,细粒度属性权值设置模块13中,根据所述用户签到数据集的先验知识统计给各细粒度属性值对应不同类标下的细粒度属性权值设置初始值,得到初始值矩阵;具体包括以下单元:
第一单元,用于根据数据集的先验知识统计,找出无依赖关系或者在有限用户签到数据下,没有呈现依赖关系的类标和属性值,并给它们对应的细粒度属性权值分配权值零;
第二单元,用于将缺失的属性值对应的所有细粒度属性权值分配权值零;其中,若用户到达某兴趣点的经纬度或者时间没有记录下来,则用户在该兴趣点的签到数据存在缺失属性值;
第三单元,用于计算其余的属性值与类标对应的类成员概率,并将其设置为对应细粒度属性权值的初始值。
在本发明实施例中,第三单元中,类成员概率P(ck|ail)计算公式如公式(6)所示:
上式中,P(ck|ail)表示第k个类标ck,第i个属性值的第l个细粒度属性值对应的类成员概率,将其设置为类标ck细粒度属性值ail对应的细粒度属性权值的初始值;l=1,2,…,S;S为第i个属性值细分后的细粒度属性值的总个数;j表示用户签到数据集D中的第j条签到数据,ai(j)表示第j条签到数据在第i个属性值上的属性取值,c(j)表示第j条签到数据中兴趣点所属的类标;n表示用户签到数据集D中签到数据的总个数,δ(x,y)为二值函数,即ai(j)=ail时,δ(ai(j),ail)=1;否则,δ(ai(j),ail)=0。
在本发明实施例中,寻优模块14中,将所述初始值矩阵作为随机重启游走中的初始状态矩阵Q1,利用初始状态矩阵计算得到转移矩阵B;根据初始状态矩阵Q1和转移矩阵B,结合重启概率p和随机游走概率1-p增量式的更新当前状态矩阵Q2n-1;其中,2n-1表示当前游走步数;当两个连续的状态矩阵中的最大的元素的差值ε小于阈值θ时,停止随机重启游走,并将当前的状态矩阵作为细粒度属性权值的最优值矩阵Q;其中,所述的随机重启游算法的重启因子p、随机游走因子1-p、阈值θ均为超参数,预先人为设定。
在本发明实施例中,所述初始状态矩阵如公式(7)所示:
上式中,wk,u表示第u个属性值,第k个类标对应的细粒度属性权值;u=1,2,...,U,U是所有属性的所有取值的总个数;k=1,2,…,t,t为类标总个数;
所述转移矩阵B由所述初始状态矩阵与其转置相乘获得,具体公式如公式(8)所示:
上式中,初始状态矩阵与初始状态矩阵的转置相乘的前后顺序由类标总个数t和所有属性的所有属性取值的总个数U的大小决定;
增量式的更新当前状态矩阵Q2n-1;具体更新公式如公式(9)所示:
所述细粒度属性权值的最优值矩阵Q,在当两个连续的细粒度属性权值矩阵的差值ε小于阈值θ时获得,具体如公式(10)所示:
本发明的有益效果是:本发明提出的技术方案具备以下优点:
(1)在属性值粒度上和类标粒度上细分属性权值,获得了更加精细的细粒度属性权值;
(2)本发明提出的技术方案与名词性属性的距离具体计算无关,所以可以移植到其他所有引入属性独立性假设的基于条件概率计算的距离度量改进中;
(3)增量式的更新细粒度属性权值状态矩阵而不需要考虑k-近邻算法的归纳偏差,是兼具性能与时效的最优方案;
(4)进一步减少了违反名词性属性距离度量算法中的属性独立性假设而造成k-近邻算法在寻找用户最有可能访问的兴趣点时出现的预测偏差。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种细粒度属性加权方法,其特征在于:包括以下步骤:
S101:获取对应活动区域所有兴趣点的用户签到数据集;所述用户签到数据集中包括多个用户在所述活动区域内的多个签到数据;每个所述签到数据包括多个属性值,每个属性值对应有一个类标;
S102:根据各属性值的物理意义,将各属性值分别进行细分;并将细分后的属性值对应的属性权值在属性值粒度上和类标粒度上细分;
S103:根据所述用户签到数据集的先验知识统计给各细粒度属性值对应不同类标下的细粒度属性权值设置初始值,得到初始值矩阵;
S104:将所述初始值矩阵作为随机重启游走中的初始状态矩阵;利用随机游走算法计算获得细粒度属性权值的最优值矩阵。
2.如权利要求1所述的一种细粒度属性加权方法,其特征在于:步骤S103中,根据所述用户签到数据集的先验知识统计给各细粒度属性值对应不同类标下的细粒度属性权值设置初始值,得到初始值矩阵;具体包括:
S201:根据数据集的先验知识统计,找出无依赖关系或者在有限用户签到数据下,没有呈现依赖关系的类标和属性值,并给它们对应的细粒度属性权值分配权值零;
S202:将缺失的属性值对应的所有细粒度属性权值分配权值零;其中,若用户到达某兴趣点的经纬度或者时间没有记录下来,则用户在该兴趣点的签到数据存在缺失属性值;
S203:计算其余的属性值与类标对应的类成员概率,并将其设置为对应细粒度属性权值的初始值。
4.如权利要求1所述的一种细粒度属性加权方法,其特征在于:步骤S104中,将所述初始值矩阵作为随机重启游走中的初始状态矩阵Q1,利用初始状态矩阵计算得到转移矩阵B;根据初始状态矩阵Q1和转移矩阵B,结合重启概率p和随机游走概率1-p增量式的更新当前状态矩阵Q2n-1;其中,2n-1表示当前游走步数;当两个连续的状态矩阵中的最大的元素的差值ε小于阈值θ时,停止随机重启游走,并将当前的状态矩阵作为细粒度属性权值的最优值矩阵Q;其中,所述的随机重启游算法的重启因子p、随机游走因子1-p、阈值θ均为超参数,预先人为设定。
5.如权利要求4所述的一种细粒度属性加权方法,其特征在于:所述初始状态矩阵如公式(2)所示:
上式中,wk,u表示第u个属性值,第k个类标对应的细粒度属性权值;u=1,2,...,U,U是所有属性的所有取值的总个数;k=1,2,…,t,t为类标总个数;
所述转移矩阵B由所述初始状态矩阵与其转置相乘获得,具体如公式(3)所示:
上式中,初始状态矩阵与初始状态矩阵的转置相乘的前后顺序由类标总个数t和所有属性的所有属性取值的总个数U的大小决定;
增量式的更新当前状态矩阵Q2n-1;具体更新公式如公式(4)所示:
所述细粒度属性权值的最优值矩阵Q,在当两个连续的细粒度属性权值矩阵的差值ε小于阈值θ时获得,具体如公式(5)所示:
6.一种细粒度属性加权系统,其特征在于:包括以下模块:
用户签到数据集获取模块,用于获取对应活动区域的用户签到数据集;所述用户签到数据集中包括多个用户在所述活动区域内所有兴趣点的多个签到数据;每个所述签到数据包括多个属性值,每个属性值对应有一个类标;
属性值细分模块,用于根据各属性值的物理意义,将各属性值分别进行细分;并将细分后的属性值对应的属性权值在属性值粒度上和类标粒度上细分;
细粒度属性权值设置模块,用于根据所述用户签到数据集的先验知识统计给各细粒度属性值对应不同类标下的细粒度属性权值设置初始值,得到初始值矩阵;
寻优模块,用于将所述初始值矩阵作为随机重启游走中的初始状态矩阵;利用随机游走算法计算获得细粒度属性权值的最优值矩阵。
7.如权利要求6所述的一种细粒度属性加权系统,其特征在于:细粒度属性权值设置模块中,根据所述用户签到数据集的先验知识统计给各细粒度属性值对应不同类标下的细粒度属性权值设置初始值,得到初始值矩阵;具体包括以下单元:
第一单元,用于根据数据集的先验知识统计,找出无依赖关系或者在有限用户签到数据下,没有呈现依赖关系的类标和属性值,并给它们对应的细粒度属性权值分配权值零;
第二单元,用于将缺失的属性值对应的所有细粒度属性权值分配权值零;其中,若用户到达某兴趣点的经纬度或者时间没有记录下来,则用户在该兴趣点的签到数据存在缺失属性值;
第三单元,用于计算其余的属性值与类标对应的类成员概率,并将其设置为对应细粒度属性权值的初始值。
9.如权利要求6所述的一种细粒度属性加权系统,其特征在于:寻优模块中,将所述初始值矩阵作为随机重启游走中的初始状态矩阵Q1,利用初始状态矩阵计算得到转移矩阵B;根据初始状态矩阵Q1和转移矩阵B,结合重启概率p和随机游走概率1-p增量式的更新当前状态矩阵Q2n-1;其中,2n-1表示当前游走步数;当两个连续的状态矩阵中的最大的元素的差值ε小于阈值θ时,停止随机重启游走,并将当前的状态矩阵作为细粒度属性权值的最优值矩阵Q;其中,所述的随机重启游算法的重启因子p、随机游走因子1-p、阈值θ均为超参数,预先人为设定。
10.如权利要求9所述的一种细粒度属性加权系统,其特征在于:所述初始状态矩阵如公式(7)所示:
上式中,wk,u表示第u个属性值,第k个类标对应的细粒度属性权值;u=1,2,...,U,U是所有属性的所有取值的总个数;k=1,2,…,t,t为类标总个数;
所述转移矩阵B由所述初始状态矩阵与其转置相乘获得,具体如公式(8)所示:
上式中,初始状态矩阵与初始状态矩阵的转置相乘的前后顺序由类标总个数t和所有属性的所有属性取值的总个数U的大小决定;
增量式的更新当前状态矩阵Q2n-1;具体更新公式如公式(9)所示:
所述细粒度属性权值的最优值矩阵Q,在当两个连续的细粒度属性权值矩阵的差值ε小于阈值θ时获得,具体如公式(10)所示:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010889448.9A CN112148822B (zh) | 2020-08-28 | 2020-08-28 | 一种细粒度属性加权方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010889448.9A CN112148822B (zh) | 2020-08-28 | 2020-08-28 | 一种细粒度属性加权方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112148822A true CN112148822A (zh) | 2020-12-29 |
CN112148822B CN112148822B (zh) | 2024-04-19 |
Family
ID=73889571
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010889448.9A Active CN112148822B (zh) | 2020-08-28 | 2020-08-28 | 一种细粒度属性加权方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112148822B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104809233A (zh) * | 2015-05-12 | 2015-07-29 | 中国地质大学(武汉) | 一种基于信息增益率的属性加权方法及文本分类方法 |
WO2017041541A1 (zh) * | 2015-09-08 | 2017-03-16 | 北京邮电大学 | 推送推荐信息的方法、服务器及存储介质 |
CN108629023A (zh) * | 2018-05-09 | 2018-10-09 | 北京京东金融科技控股有限公司 | 数据挖掘方法、装置以及计算机可读存储介质 |
CN109492166A (zh) * | 2018-08-06 | 2019-03-19 | 北京理工大学 | 基于签到时间间隔模式的连续兴趣点推荐方法 |
CN109669939A (zh) * | 2018-11-02 | 2019-04-23 | 建湖云飞数据科技有限公司 | 对象信息处理方法 |
CN109934306A (zh) * | 2019-04-04 | 2019-06-25 | 西南石油大学 | 基于随机游走的多标签属性值划分方法和装置 |
-
2020
- 2020-08-28 CN CN202010889448.9A patent/CN112148822B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104809233A (zh) * | 2015-05-12 | 2015-07-29 | 中国地质大学(武汉) | 一种基于信息增益率的属性加权方法及文本分类方法 |
WO2017041541A1 (zh) * | 2015-09-08 | 2017-03-16 | 北京邮电大学 | 推送推荐信息的方法、服务器及存储介质 |
CN108629023A (zh) * | 2018-05-09 | 2018-10-09 | 北京京东金融科技控股有限公司 | 数据挖掘方法、装置以及计算机可读存储介质 |
CN109492166A (zh) * | 2018-08-06 | 2019-03-19 | 北京理工大学 | 基于签到时间间隔模式的连续兴趣点推荐方法 |
CN109669939A (zh) * | 2018-11-02 | 2019-04-23 | 建湖云飞数据科技有限公司 | 对象信息处理方法 |
CN109934306A (zh) * | 2019-04-04 | 2019-06-25 | 西南石油大学 | 基于随机游走的多标签属性值划分方法和装置 |
Non-Patent Citations (1)
Title |
---|
HUAN ZHANG 等: "Class-specific attribute value weighting for Naive Bayes", INFORMATION SCIENCES, 28 August 2019 (2019-08-28), pages 260 - 274, XP085813292, DOI: 10.1016/j.ins.2019.08.071 * |
Also Published As
Publication number | Publication date |
---|---|
CN112148822B (zh) | 2024-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shaw et al. | Learning to rank for spatiotemporal search | |
Zheng et al. | GeoLife: A collaborative social networking service among user, location and trajectory. | |
Han et al. | A stacking-based approach to twitter user geolocation prediction | |
Baratchi et al. | A hierarchical hidden semi-markov model for modeling mobility data | |
Li et al. | T-DesP: Destination prediction based on big trajectory data | |
Liu et al. | A two-stage destination prediction framework of shared bicycles based on geographical position recommendation | |
Sarawagi et al. | Open-domain quantity queries on web tables: annotation, response, and consensus models | |
Shi et al. | Semantics-aware hidden Markov model for human mobility | |
CN105532030A (zh) | 用于分析目标实体的移动的装置、系统和方法 | |
Chen et al. | CEM: A convolutional embedding model for predicting next locations | |
Chen et al. | T-DBSCAN: A Spatiotemporal Density Clustering for GPS Trajectory Segmentation. | |
CN104361102A (zh) | 一种基于群组匹配的专家推荐方法及系统 | |
CN103294781A (zh) | 一种用于处理页面数据的方法与设备 | |
CN112000736B (zh) | 时空轨迹伴随分析方法、系统及电子设备和存储介质 | |
CN105224681A (zh) | 基于家庭工作地上下文环境的用户需求获取方法及系统 | |
CN113821592B (zh) | 一种数据处理方法、装置、设备以及存储介质 | |
Lee et al. | Crowd-sourced carpool recommendation based on simple and efficient trajectory grouping | |
Zhang et al. | An improved probabilistic relaxation method for matching multi-scale road networks | |
Zhang et al. | Sparse user check-in venue prediction by exploring latent decision contexts from location-based social networks | |
Liang et al. | Learning accurate very fast decision trees from uncertain data streams | |
Qian et al. | Vehicle trajectory modelling with consideration of distant neighbouring dependencies for destination prediction | |
Tiwari et al. | Mining popular places in a geo-spatial region based on GPS data using semantic information | |
Liao et al. | Fusing geographic information into latent factor model for pick-up region recommendation | |
CN104077288A (zh) | 网页内容推荐方法和网页内容推荐设备 | |
CN112148822A (zh) | 一种细粒度属性加权方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |