CN106384120B - 一种基于手机定位数据的居民活动模式挖掘方法及装置 - Google Patents
一种基于手机定位数据的居民活动模式挖掘方法及装置 Download PDFInfo
- Publication number
- CN106384120B CN106384120B CN201610749706.7A CN201610749706A CN106384120B CN 106384120 B CN106384120 B CN 106384120B CN 201610749706 A CN201610749706 A CN 201610749706A CN 106384120 B CN106384120 B CN 106384120B
- Authority
- CN
- China
- Prior art keywords
- activity
- stay
- stay area
- mobile phone
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000000694 effects Effects 0.000 title claims abstract description 381
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000007704 transition Effects 0.000 claims abstract description 29
- 239000000284 extract Substances 0.000 claims abstract description 11
- 238000005065 mining Methods 0.000 claims description 53
- 238000001914 filtration Methods 0.000 claims description 21
- 230000000875 corresponding effect Effects 0.000 claims description 17
- 230000002159 abnormal effect Effects 0.000 claims description 14
- 238000012546 transfer Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000007621 cluster analysis Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 5
- 238000005070 sampling Methods 0.000 abstract description 10
- 238000005516 engineering process Methods 0.000 abstract description 5
- 238000004422 calculation algorithm Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000008859 change Effects 0.000 description 7
- 238000007476 Maximum Likelihood Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000013551 empirical research Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/02—Services making use of location information
- H04W4/021—Services related to particular areas, e.g. point of interest [POI] services, venue services or geofences
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明涉及居民活动模式挖掘技术领域,特别涉及一种基于手机定位数据的居民活动模式挖掘方法及装置。所述基于手机定位数据的居民活动模式挖掘方法包括:步骤a:设定距离阈值和时间阈值,并对手机定位数据进行活动停留区域识别;步骤b:提取居民活动转移概率、分时段活动概率及活动停留区域兴趣点分布比例,并构建基于马尔科夫链的加权概率活动目的推断模型;步骤c:通过所述活动目的推断模型判断用户在所述活动停留区域的活动目的,根据活动目的提取居民活动模式。本发明通过大规模规则采样手机定位数据更为高效可靠的识别活动停留区域,克服数据源中自有的大时间间隔和定位误差等情况,具有更好的针对性和实用性,更加简单高效。
Description
技术领域
本发明涉及居民活动模式挖掘技术领域,特别涉及一种基于手机定位数据的居民活动模式挖掘方法及装置。
背景技术
城市的可持续发展需要通过了解城市居民的行为模式来掌握城市的脉搏,完成城市规划。然而目前对于居民活动模式的提取依旧依赖于定期抽样调查,其样本容量占比小,调查时间间隔长,往往并不能够及时、准确、有效地反应国内一线城市日新月异的居民特征。
随着近年来大数据热潮兴起和定位技术日益发展,越来越多的研究通过手机定位数据亦或者卫星定位(GPS)数据等数据源挖掘居民出行链,进而了解城市居民活动模式。相较于原始的人工抽样调查而言,利用大数据挖掘城市居民的活动模式不仅能够减少城市规划成本,更能够迅速地更新城市居民出行特征。
在现有的技术实现方案中,主要是利用活动停留区域所蕴含的空间信息和时间信息进行挖掘,常用的挖掘方法主要分为以下三类。一是基于相似度关联挖掘:主要依据相似度寻找相似出行序列,进而预测居民的活动目的。二是基于决策树分类挖掘:主要通过构建出行模式树和语义树,通过遍历树的方式寻找对应出行序列下的活动目的以实现推测。这两类挖掘方法均只需考虑出行序列的“活动-时间”关联特性,被广泛应用于活动目的预测。三是基于条件概率的机器学习:主要通过监督学习的方式,利用马尔可夫性质或者朴素贝叶斯理论实现居民活动目的挖掘。该方法考虑了用户在不同活动停留区域的时空联系,通过计算上下文联系或者活动停留区域的空间特征判断用户在某一活动停留区域的可能活动。
综上所述,现有居民活动目的挖掘方式存在的缺点在于:现有技术大多是基于居民出行模式相似度进行关联挖掘或者通过构建模式树分类进行挖掘,技术实现方案较为简单但对数据要求较高,一方面要求部分位置数据需携带活动目的等先验知识,一方面则要求位置数据记录的连续性和短间隔;因此现有技术条件下绝大多数实现方案都是通过志愿者提供的带有活动目的的高精度卫星定位(GPS)数据。然而就城市规划而言,使用少量卫星定位数据不具有宏观上的代表性,而现实生活中可取得并利用的大数据绝大多数为基站定位(GSM)数据,且不具有先验的活动目的,基于这一类数据的研究如若采用原有的研究方法不仅无法实现较高的准确率,也会因模式的指数增长而无法获得较好的算法效率。而基于条件概率的机器学习方法则能够获得可接受的挖掘精度,但一方面由于学习过程耗时冗长,另一方面学习率、网络初始权重等参数的选择将从主观上影响学习的效果,难以应对大数据背景下普适计算的空间需求。
发明内容
本发明提供了一种基于手机定位数据的居民活动模式挖掘方法及装置,旨在至少在一定程度上解决现有技术中的上述技术问题之一。
为了解决上述问题,本发明提供了如下技术方案:
一种基于手机定位数据的居民活动模式挖掘方法,包括:
步骤a:设定距离阈值和时间阈值,并对手机定位数据进行活动停留区域识别;
步骤b:提取居民活动转移概率、分时段活动概率及活动停留区域兴趣点分布比例,并构建基于马尔科夫链的加权概率活动目的推断模型;
步骤c:通过所述活动目的推断模型判断用户在所述活动停留区域的活动目的。
本发明实施例采取的技术方案还包括:在所述步骤a中,所述对手机定位数据进行活动停留区域识别具体还包括:对所述手机定位数据的所有记录点进行预处理,基于聚类分析的思想,通过设定距离阈值ε和时间阈值δ,将手机定位数据中超过时间阀值和距离阈值的连续记录点聚集成一个活动停留区域,并通过活动停留区域构建用户出行序列。
本发明实施例采取的技术方案还包括:所述步骤a还包括:根据设定的过滤规则过滤用户出行序列中的异常点和途经点;所述过滤规则为:
|Sk|≥θ
Num(Ski.Dis-Ski+1.Dis≤ε)≤ξ
Min(Ski.Ltime-Ski.Atime)≥δ
上述公式中,|Sk|代表第k个用户的活动停留区域个数;Num(Ski.Dis-Ski+1.Dis≤ε)代表第k个用户第i和第i+1个停留区域间距离超过阈值ε的区域个数;Min(Ski.Ltime-Ski.Atime)代表第k个用户在所有活动停留区域内的最短停留时间;当用户出行序列中活动停留区域数超过预设的停留区域阈值θ时,则依次检查该用户中连续停留区域间距离低于距离阈值ε的区域个数和最短的活动停留时间,如若个数超过预设阈值ξ或最短活动停留时间低于时间阈值δ,则依次合并同时满足相邻两点间距离小于距离阈值ε和活动停留时间低于时间阈值δ的点,并删除不符合过滤规则的记录。
本发明实施例采取的技术方案还包括:所述步骤b还包括:通过居民调查数据提取居民活动转移概率、分时段活动概率;并通过设定的距离阈值提取停留区域兴趣点分布比例。
本发明实施例采取的技术方案还包括:所述步骤b还包括:根据居民活动转移概率和分时段活动概率定义活动停留区域的“活动-时间”关联特征,根据停留区域兴趣点分布比例定义活动停留区域的“活动-空间”关联特征,根据“活动-时间”关联特征和“活动-空间”关联特征构建基于马尔科夫链和概率加权思想的活动目的推断模型,通过活动目的推断模型判断用户在该停留区域所进行的活动目的,并构建对应的活动目的序列。
本发明实施例采取的技术方案还包括:在所述步骤c中,所述判断活动停留区域的活动目的的判断公式为:
p(at=sj|at-1=si)=ω1βj+ω2αij
s.t.ω1+ω2=1,ω1,ω2∈[0,1]
在上述公式中,at代表不同活动停留区域的活动目的,活动目的可分为m种活动类别I={s1,s2,…,sm},活动目的挖掘将求解活动目的序列中任一停留区域对应的at∈I;βj代表第j种活动对应的兴趣点分布比例,si代表在初始时刻活动si的分布比例,αij为状态转移概率,表征在t时刻从活动i转移至活动j的发生概率。
本发明实施例采取的另一技术方案为:一种基于手机定位数据的居民活动模式挖掘装置,包括停留区域识别模块和活动目的判断模块;所述停留区域识别模块用于设定距离阈值和时间阈值,并对手机定位数据进行活动停留区域识别;所述活动目的判断模块用于提取居民活动转移概率、分时段活动概率及活动停留区域兴趣点分布比例,并构建基于马尔科夫链的加权概率活动目的推断模型,通过所述活动目的推断模型判断用户在所述活动停留区域的活动目的。
本发明实施例采取的技术方案还包括:所述停留区域识别模块还包括数据预处理单元,所述数据预处理单元用于对所述手机定位数据的所有记录点进行预处理,基于聚类分析的思想,通过设定距离阈值ε和时间阈值δ,将手机定位数据中超过时间阀值和距离阈值的连续记录点聚集成一个活动停留区域,并通过活动停留区域构建用户出行序列。
本发明实施例采取的技术方案还包括:所述停留区域识别模块还包括数据过滤单元,所述数据过滤单元用于将不同活动停留区域之间的连续记录点视为途经区域点,将在短时间内出现异常的位置差异的记录点视为异常点,并根据设定的过滤规则过滤用户出行序列中的异常点和途经点。
本发明实施例采取的技术方案还包括:所述活动目的判断模块还包括:
先验知识提取单元:用于通过居民调查数据提取居民活动转移概率、分时段活动概率;并通过设定的距离阈值提取停留区域兴趣点分布比例;
模型构建单元:用于根据居民活动转移概率和分时段活动概率定义活动停留区域的“活动-时间”关联特征,根据停留区域兴趣点分布比例定义活动停留区域的“活动-空间”关联特征,根据“活动-时间”关联特征和“活动-空间”关联特征构建基于马尔科夫链和概率加权思想的活动目的推断模型;
活动目的判断单元:用于根据活动目的推断模型判断用户在所述活动停留区域所进行的活动目的。
相对于现有技术,本发明实施例产生的有益效果在于:本发明实施例的基于手机定位数据的居民活动模式挖掘方法及装置通过大规模规则采样手机定位数据更为高效可靠的识别活动停留区域,克服数据源中自有的大时间间隔和定位误差等情况;通过从居民出行调查数据中提取分时段活动转移概率作为用户的“活动-时间”关联特征,并结合兴趣点分布比例这一“活动-空间”关联特征进行概率加权,比较不同权重下的活动目的挖掘效果并习得最优权值进行活动目的挖掘,相对于现有技术实现方案具有更好的针对性和实用性,更加简单高效。
附图说明
图1是本发明实施例的基于手机定位数据的居民活动模式挖掘方法的流程图;
图2是本发明实施例的活动停留区域识别示意图;
图3是本发明实施例的基于手机定位数据的居民活动模式挖掘装置的结构示意图;
图4是不同距离阈值下的活动停留区域识别结果示意图;
图5是本发明实施例的活动模式对比图(左:活动模式分布百分比;右:误差分布);
图6是本发明实施例的手机定位数据活动目的挖掘效果对比图(左:深圳市出行调查数据;右:手机定位数据)。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明实施例的基于手机定位数据的居民活动模式挖掘方法及装置通过针对海量手机定位数据制定基于马尔可夫性质和概率加权思想来实现高效推断居民活动目的。首先将通过设定适当的时间阈值和距离阈值,对手机定位数据进行活动观察点的分类、时空特征提取,识别观察点的“停留/途经”类型。此后,从出行调查数据获取模型所需的先验概率,如不同时间段居民所进行的活动类型的概率分布,居民活动转移概率等,作为居民活动模式的“活动-时间”关联特征值输入模型,并与作为“活动-空间”关联特征值的活动停留区域的兴趣点分布比例进行加权概率,进而实现停留点语义特征的提取,推断该点居民活动目的。
具体地,请参阅图1,是本发明实施例的基于手机定位数据的居民活动模式挖掘方法的流程图。本发明实施例的基于手机定位数据的居民活动模式挖掘方法包括以下步骤:
步骤100:通过大规模规则采样手机定位数据识别活动停留区域;
在步骤100中,请一并参阅图2,是本发明实施例的活动停留区域识别示意图。本发明实施例的活动停留区域识别方法具体包括以下步骤:
步骤101:对用户当天的手机定位数据的所有记录点进行预处理,基于聚类分析的思想,通过设定适当的距离阈值ε(出于提高识别精确度考虑,本发明采用球面距离的计算方式求解两点间距离)和时间阈值δ,将用户手机定位数据中超过时间阀值和距离阈值的连续记录点聚集成一个活动停留区域,并通过活动停留区域构建用户出行序列。
在步骤101中,本发明实施例将活动停留区域的时空条件约束定义如下:
Distance(pi,pj)≤ε
TimeInter(ti,tj)≥δ (1)
在公式(1)中,(pi,pj)分别代表同一用户的两次手机记录的基站位置,(ti,tj)则分别代表这两次手机记录的时间戳信息。上式的意义为:当且仅当个体在一段连续时间ΔT(ΔT≥δ)内,所有手机定位数据的位置信息(lngi,lati)均处于以位置为圆点、半径为ε的区域内时,这一部分的定位数据可以聚集为一个活动停留区域S。
步骤102:将不同活动停留区域之间的连续记录点视为途经区域点,将在短时间内出现异常的位置差异的记录点视为异常点,并根据设定的过滤规则过滤用户出行序列中的异常点和途经点:
在步骤102中,由于基站的定位漂移(基站定位时产生的错误定位现象或延迟更新现象)和乒乓效应(用户处于相邻基站覆盖区域边界时定位信号在基站之间频繁来回切换的情况)带来的定位数据误差问题将会直接影响到对活动停留区域的识别结果,例如将振荡的位置点误判为途经点滤除。因此,本发明实施例通过设定过滤规则对异常点和途经点进行过滤,具体过滤规则形式化表达如下:
|Sk|≥θ
Num(Ski.Dis-Ski+1.Dis≤ε)≤ξ
Min(Ski.Ltime-Ski.Atime)≥δ (2)
上述公式中,|Sk|代表第k个用户的活动停留区域个数;Num(Ski.Dis-Ski+1.Dis≤ε)代表第k个用户第i和第i+1个停留区域间距离超过距离阈值ε的区域个数;Min(Ski.Ltime-Ski.Atime)代表第k个用户在所有活动停留区域内的最短停留时间;当用户出行序列中活动停留区域数超过预设的停留区域阈值θ时,则依次检查该用户中连续停留区域间距离低于距离阈值ε的区域个数和最短的活动停留时间,如若个数超过预设阈值ξ或最短活动停留时间低于时间阈值δ,则依次合并同时满足相邻两点间距离小于距离阈值ε和活动停留时间低于时间阈值δ的点,并删除不符合过滤规则的记录。
步骤200:通过居民调查数据等辅助数据提取居民活动转移概率、分时段活动概率等先验知识;并通过设定的距离阈值提取活动停留区域兴趣点分布比例,根据民活动转移概率、分时段活动概率及活动停留区域兴趣点分布比例构建基于马尔科夫链的加权概率活动目的推断模型,通过活动目的推断模型判断用户在该停留区域所进行的活动目的,并构建对应的活动目的序列;
在步骤200中,活动停留区域的活动目的判断方法具体包括以下步骤:
步骤201:通过居民调查数据等辅助数据提取居民活动转移概率、分时段活动概率等先验知识;同时,通过设定的距离阈值提取停留区域兴趣点分布比例;
步骤202:根据居民活动转移概率和分时段活动概率定义活动停留区域的“活动-时间”关联特征,根据停留区域兴趣点分布比例定义活动停留区域的“活动-空间”关联特征,根据“活动-时间”关联特征和“活动-空间”关联特征构建一个基于马尔科夫链和概率加权思想的活动目的推断模型;
步骤203:根据活动目的推断模型判断用户在该活动停留区域所进行的活动目的。
在步骤203中,活动停留区域的活动目的挖掘算法具体为:对于任一用户出行序列,活动目的挖掘将通过活动停留区域的时空特征信息获取用户在对应停留区域的活动目的,并构造对应的活动目的序列:
seq=<a1,a2,…,at> (3)
在公式(3)中,at代表不同活动停留区域的活动目的,活动目的可分为m种活动类别I={s1,s2,…,sm}。活动目的挖掘算法将求解活动目的序列中任一停留区域对应的at∈I。通常可以采用空间推断的方法,从活动停留区域的兴趣点分布比例推测在该点的活动目的:
s.t.Distance(Si,pjk)≤ε (4)
在公式(4)中,βj代表第j种活动对应的兴趣点分布比例,pjk代表用户在该活动停留区域内可映射至第j种活动的第k个兴趣点,这些兴趣点应分布在距离活动停留区域中心半径为ε的停留区域内。但是,空间特征因素并不能作为唯一考虑因素,比如,用户在餐饮服务居多的停留区域内停留,既可能是就餐也可能是工作。因此,还需考虑活动在时间维度上的转移特性,即当前活动与上一活动的关联性。对任一活动目的序列,将这一性质以概率计算公式的形式表达为:
对于公式(5)中概率p(a1)的估计,采用最大似然估计法从训练样本中进行提取:
在公式(6)中,si代表在初始时刻活动si的分布比例。而对条件概率的p(at|at-1)的估计,由马尔可夫性质可知,在状态空间有限的情况下,用户随着时间推移将在不同的状态之间改变,用户在不同活动之间的转移可以视为一类离散一阶马尔可夫链。则在时间t进行活动类别为sj的概率为:
在公式(7)中,αij也称为状态转移概率,表征在t时刻从活动i转移至活动j的发生概率,可由最大似然估计法计算从训练样本中求得。用户活动的形成和变化在时间维度和空间维度上都有各自的特性,通过概率加权的方式能够综合两类特性进行活动目的推断,具体地,令:
p(at=sj|at-1=si)=ω1βj+ω2αij
s.t.ω1+ω2=1,ω1,ω2∈[0,1] (8)
即只需要定义合适的权值,即可结合用户活动停留区域的活动转移概率和兴趣点分布比例进行活动目的推断,推测用户在每一个活动停留区域的活动。
步骤300:根据活动目的序列提取居民活动模式,并分析统计居民在城市中的动态分布和变化情况。
请参阅图3,是本发明实施例的基于手机定位数据的居民活动模式挖掘装置的结构示意图。本发明实施例的基于手机定位数据的居民活动模式挖掘装置包括停留区域识别模块、活动目的判断模块和统计分析模块。
停留区域识别模块用于通过大规模规则采样手机定位数据识别活动停留区域;具体地,停留区域识别模块包括数据预处理单元和数据过滤单元;
数据预处理单元用于对用户当天的手机定位数据的所有记录点进行预处理,基于聚类分析的思想,通过设定适当的距离阈值ε(出于提高识别精确度考虑,本发明采用球面距离的计算方式求解两点间距离)和时间阈值δ,将用户手机定位数据中超过时间阀值和距离阈值的连续记录点聚集成一个活动停留区域,并通过活动停留区域构建用户出行序列。本发明实施例将活动停留区域的时空条件约束定义如下:
Distance(pi,pj)≤ε
TimeInter(ti,tj)≥δ (1)
在公式(1)中,(pi,pj)分别代表同一用户的两次手机记录的基站位置,(ti,tj)则分别代表这两次手机记录的时间戳信息。上式的意义为:当且仅当个体在一段连续时间ΔT(ΔT≥δ)内,所有手机定位数据的位置信息(lngi,lati)均处于以位置为圆点、半径为ε的区域内时,这一部分的定位数据可以聚集为一个活动停留区域S。
数据过滤单元用于将不同活动停留区域之间的连续记录点视为途经区域点,将在短时间内出现异常的位置差异的记录点视为异常点,并根据设定的过滤规则过滤用户出行序列中的异常点和途经点:其中,由于基站的定位漂移和乒乓效应带来的定位数据误差问题将会直接影响到对活动停留区域的识别结果,例如将振荡的位置点误判为途经点滤除。因此,本发明实施例通过设定过滤规则对异常点和途经点进行过滤,具体过滤规则形式化表达如下:
|Sk|≥θ
Num(Ski.Dis-Ski+1.Dis≤ε)≤ξ
Min(Ski.Ltime-Ski.Atime)≥δ (2)
上述公式中,|Sk|代表第k个用户的活动停留区域个数;Num(Ski.Dis-Ski+1.Dis≤ε)代表第k个用户第i和第i+1个停留区域间距离超过阈值ε的区域个数;Min(Ski.Ltime-Ski.Atime)代表第k个用户在所有活动停留区域内的最短停留时间;当用户出行序列中活动停留区域数超过预设的停留区域阈值θ时,则依次检查该用户中连续停留区域间距离低于距离阈值ε的区域个数和最短的活动停留时间,如若个数超过预设阈值ξ或最短活动停留时间低于时间阈值δ,则依次合并同时满足相邻两点间距离小于距离阈值ε和活动停留时间低于时间阈值δ的点,并删除不符合过滤规则的记录。
活动目的判断模块用于通过居民调查数据等辅助数据提取居民活动转移概率、分时段活动概率等先验知识;并通过设定的距离阈值提取活动停留区域兴趣点分布比例,根据民活动转移概率、分时段活动概率及活动停留区域兴趣点分布比例构建基于马尔科夫链的加权概率活动目的推断模型,通过活动目的推断模型判断用户在该停留区域所进行的活动目的,并构建对应的活动目的序列;具体地,活动目的判断模块包括先验知识提取单元、模型构建单元和活动目的判断单元;
先验知识提取单元用于通过居民调查数据等辅助数据提取居民活动转移概率、分时段活动概率等先验知识;同时,通过设定的距离阈值提取停留区域兴趣点分布比例;
模型构建单元用于根据居民活动转移概率和分时段活动概率定义活动停留区域的“活动-时间”关联特征,根据停留区域兴趣点分布比例定义活动停留区域的“活动-空间”关联特征,根据“活动-时间”关联特征和“活动-空间”关联特征构建一个基于马尔科夫链和概率加权思想的活动目的推断模型;
活动目的判断单元用于根据活动目的推断模型判断用户在该活动停留区域所进行的活动目的。其中,活动停留区域的活动目的挖掘算法具体为:对于任一用户出行序列,活动目的挖掘将通过活动停留区域的时空特征信息获取用户在对应停留区域的活动目的,并构造对应的活动目的序列:
seq=<a1,a2,...,at> (3)
在公式(3)中,at代表不同活动停留区域的活动目的,活动目的可分为m种活动类别I={s1,s2,…,sm}。活动目的挖掘算法将求解活动目的序列中任一停留区域对应的at∈I。通常可以采用空间推断的方法,从活动停留区域的兴趣点分布比例推测在该点的活动目的:
s.t.Distance(Si,pjk)≤ε (4)
在公式(4)中,βj代表第j种活动对应的兴趣点分布比例,pjk代表用户在该活动停留区域内可映射至第j种活动的第k个兴趣点,这些兴趣点应分布在距离活动停留区域中心半径为ε的停留区域内。但是,空间特征因素并不能作为唯一考虑因素,比如,用户在餐饮服务居多的停留区域内停留,既可能是就餐也可能是工作。因此,还需考虑活动在时间维度上的转移特性,即当前活动与上一活动的关联性。对任一活动目的序列,将这一性质以概率计算公式的形式表达为:
对于公式(5)中概率p(a1)的估计,采用最大似然估计法从训练样本中进行提取:
在公式(6)中,si代表在初始时刻活动si的分布比例。而对条件概率的p(at|at-1)的估计,由马尔可夫性质可知,在状态空间有限的情况下,用户随着时间推移将在不同的状态之间改变,用户在不同活动之间的转移可以视为一类离散一阶马尔可夫链。则在时间t进行活动类别为sj的概率为:
在公式(7)中,αij也称为状态转移概率,表征在t时刻从活动i转移至活动j的发生概率,可由最大似然估计法计算从训练样本中求得。用户活动的形成和变化在时间维度和空间维度上都有各自的特性,通过概率加权的方式能够综合两类特性进行活动目的推断,具体地,令:
p(at=sj|at-1=si)=ω1βj+ω2αij
s.t.ω1+ω2=1,ω1,ω2∈[0,1] (8)
即只需要定义合适的权值,即可结合用户活动停留区域的活动转移概率和兴趣点分布比例进行活动目的推断,推测用户在每一个活动停留区域的活动。
统计分析模块用于根据活动目的序列提取居民活动模式,并分析统计居民在城市中的动态分布和变化情况。
本发明实施例通过采用深圳市580万移动用户1天的手机跟踪定位数据(GSM数据)进行了实证研究,其中记录的坐标位置信息代表基站位置信息如附表1所示,采用的辅助数据有深圳市兴趣点数据如附表2所示,2010年深圳市居民出行调查数据如附表3所示:
附表1手机跟踪定位数据格式
附表2兴趣点数据格式
附表3居民出行调查数据备用字段格式
一、活动停留区域识别算法的识别结果和分析如下:
距离阈值ε的设定对活动停留区域的识别具有较大的影响,如图4所示,是不同距离阈值下的活动停留区域识别结果示意图。随着距离阈值的增加,识别的活动停留区域个数为1的用户占比不断增加,居民在日常出行中短途出行的情况可能会被过大的距离阈值掩盖。
本发明采用300米作为实证研究用的距离阈值,并将停留区域识别结果与深圳市居民出行调查数据相比较,如附表4所示:
附表4 300米距离阈值下活动停留区域识别结果
(左:手机数据活动停留区域识别结果;右:居民出行调查数据调查结果)
从比较结果中来看,一方面由于手机定位数据中识别的活动停留区域是用户被记录基站的覆盖区域,其半径远远大于出行调查数据中以社区尺度记录的活动停留区域面积,因此识别出的仅有一个停留区域的人数较多,占比24.32%;而另一方面,绝大部分用户在一天内的活动次数均在4次以内,整体差异仅为0.36%,这与出行调查数据的人均出行次数相比较为符合。
二、活动目的挖掘方法的识别结果和分析如下:
城市居民在现实生活中的活动目的丰富多样,本发明依据活动之间的同质性将用户活动目的划分为“居家”、“工作”、“上学”、“休闲就餐购物”和“其他”这五个大类,具体如附表5所示。此外,本发明引入了两条常识规则辅助活动目的挖掘:(1)当用户在0:00~8:00间在同一停留区域停留时间超过4小时,则该停留区域的活动目的将在“居家”和“工作”两类活动目的中推断;(2)当用户在9:00~22:00间在同一停留区域停留时间超过4小时,则该停留区域活动目的将在“工作”和“上学”这两类活动目的中推断。在此基础上,使用活动目的挖掘算法挖掘活动目的,并从中提取居民活动模式,比较其与居民出行调查数据中统计的活动模式之间的异同。
附表5手机跟踪定位数据挖掘出的主要活动模式
具体实现过程中,相关参数设定为距离阈值ε=300,时间间隔δ=1,过滤规则阈值θ=ξ=2,定义权值分别为ω1=0.6,ω2=0.4。活动模式挖掘结果如图5所示,是本发明实施例的活动模式对比图(左:活动模式分布百分比;右:误差分布)。本发明实施例采用相对误差、比例加权误差和指数加权误差来综合衡量识别效果,可以看到采用本研究提出的活动目的挖掘算法在识别居民主要活动模式上具有较高的准确率(如模式1,模式2,模式4),但在其他模式上的预测准确率较低,分析原因如下:
(1).手机用户群体某种程度上并非全样本数据,如中小学生群体覆盖面小,导致识别出来的属于学生群体活动模式的模式3数量误差较大;
(2).手机定位数据具有采样间隔时间长等客观因素,导致算法无法识别持续时间较短的活动,导致具有短时活动项的行为模式无法从手机定位数据中很好的识别出来,典型的如活动模式5,模式6,模式7等。
使用分时段活动分布情况表现居民在不同时间段内进行不同活动的情况,以及活动状态之间的变化情况。将手机定位数据中用户分时段活动分布情况绘制如图6所示,是本发明实施例的手机定位数据活动目的挖掘效果对比图(左:深圳市出行调查数据;右:手机定位数据)。由图6中可以看到,对于任意权重下,从手机定位数据中挖掘出来的活动分布比例与深圳市居民出行调查数据存在着以下几点显著的差别:
(1).“居家”和“工作”这两类典型的居民活动,其相互之间的状态转换并未呈现出如出行调查数据中的“朝九晚五”式转换:一是体现在手机跟踪定位数据挖掘的结果并未出现如居民出行调查数据中在8点至9点间突变的情况,而是从7点至10点这一区间内渐变,本研究认为这是由于定位数据能够连续反映居民出行状态变化,而问卷调查则易出现将转换时间离散化的情况;二则是活动目的挖掘结果显示在15点至16点之间“工作”这一活动目的的分布出现了一个峰值,推测这是由于延迟上班形成的记录累积现象;三则是活动目的挖掘结果并未显示居民在中午有“回家”的现象,而这一现象在居民出行调查数据中较为明显,推测这一现象一是由手机采样间隔长而忽略了短时间间隔的活动有关;
(2).“上学”这一活动目的在时间维度上的分布与居民调查数据结果的差异非常明显,本研究认为这是由于学生的社会属性决定的。由于学生在上学期间一般会受学校规章制度限制而无法携带手机,因此实际挖掘出来的活动目的会出现低于问卷调查值的情况;
(3).“休闲就餐购物”类活动在手机定位数据的活动目的挖掘中在晚间有一显著的高峰期,暗示着居民在下班后进行此类活动的比例较大,这与居民调查数据显示的结果有一定差异,但考虑到本数据集采样时间为周五,研究认为这一现象符合常识认知。
本发明实施例的基于手机定位数据的居民活动模式挖掘方法及装置通过大规模规则采样手机定位数据更为高效可靠的识别活动停留区域,克服数据源中自有的大时间间隔和定位误差等情况;通过从居民出行调查数据中提取分时段活动转移概率作为用户的“活动-时间”关联特征,并结合兴趣点分布比例这一“活动-空间”关联特征进行概率加权,比较不同权重下的活动目的挖掘效果并习得最优权值进行活动目的挖掘,相对于现有技术实现方案具有更好的针对性和实用性,更加简单高效。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (7)
1.一种基于手机定位数据的居民活动模式挖掘方法,其特征在于,包括:
步骤a:设定距离阈值和时间阈值,并对手机定位数据进行活动停留区域识别;
步骤b:提取居民活动转移概率、分时段活动概率及活动停留区域兴趣点分布比例,并构建基于马尔科夫链的加权概率活动目的推断模型;
步骤c:通过所述活动目的推断模型判断用户在所述活动停留区域的活动目的,并根据活动目的挖掘居民活动模式;
其中,所述步骤b包括:通过居民调查数据提取居民活动转移概率、分时段活动概率;并通过设定的距离阈值提取停留区域兴趣点分布比例;
根据居民活动转移概率和分时段活动概率定义活动停留区域的“活动-时间”关联特征,根据停留区域兴趣点分布比例定义活动停留区域的“活动-空间”关联特征,根据“活动-时间”关联特征和“活动-空间”关联特征构建基于马尔科夫链和概率加权思想的活动目的推断模型;
通过活动目的推断模型判断用户在该停留区域所进行的活动目的,并构建对应的活动目的序列。
2.根据权利要求1所述的基于手机定位数据的居民活动模式挖掘方法,其特征在于,在所述步骤a中,所述对手机定位数据进行活动停留区域识别具体还包括:对所述手机定位数据的所有记录点进行预处理,基于聚类分析的思想,通过设定距离阈值ε和时间阈值δ,将手机定位数据中超过时间阀值和距离阈值的连续记录点聚集成一个活动停留区域,并通过活动停留区域构建用户出行序列。
3.根据权利要求2所述的基于手机定位数据的居民活动模式挖掘方法,其特征在于,所述步骤a还包括:根据设定的过滤规则过滤用户出行序列中的异常点和途经点;所述过滤规则为:
|Sk|≥θ
Num(Ski.Dis-Ski+1.Dis≤ε)≤ξ
Min(Ski.Ltime-Ski.Atime)≥δ
上述公式中,|Sk|代表第k个用户的活动停留区域个数;Num(Ski.Dis-Ski+1.Dis≤ε)代表第k个用户第i和第i+1个停留区域间距离超过阈值ε的区域个数;Min(Ski.Ltime-Ski.Atime)代表第k个用户在所有活动停留区域内的最短停留时间;当用户出行序列中活动停留区域数超过预设的停留区域阈值θ时,则依次检查该用户中连续停留区域间距离低于距离阈值ε的区域个数和最短的活动停留时间,如若个数超过预设阈值ξ或最短活动停留时间低于时间阈值δ,则依次合并同时满足相邻两点间距离小于距离阈值ε和活动停留时间低于时间阈值δ的点,并删除不符合过滤规则的记录。
4.根据权利要求1所述的基于手机定位数据的居民活动模式挖掘方法,其特征在于,在所述步骤c中,所述判断活动停留区域的活动目的的判断公式为:
p(at=sj|at-1=si)=ω1βj+ω2αij
s.t.ω1+ω2=1,ω1,ω2∈[0,1]
在上述公式中,at代表不同活动停留区域的活动目的,活动目的可分为m种活动类别I={s1,s2,…,sm},活动目的挖掘将求解活动目的序列中任一停留区域对应的at∈I;βj代表第j种活动对应的兴趣点分布比例,si代表在初始时刻活动si的分布比例,αij为状态转移概率,表征在t时刻从活动i转移至活动j的发生概率。
5.一种基于手机定位数据的居民活动模式挖掘装置,其特征在于,包括停留区域识别模块和活动目的判断模块;所述停留区域识别模块用于设定距离阈值和时间阈值,并对手机定位数据进行活动停留区域识别;所述活动目的判断模块用于提取居民活动转移概率、分时段活动概率及活动停留区域兴趣点分布比例,并构建基于马尔科夫链的加权概率活动目的推断模型,通过所述活动目的推断模型判断用户在所述活动停留区域的活动目的,根据活动目的提取居民活动模式;
其中,所述活动目的判断模块包括:
先验知识提取单元:用于通过居民调查数据提取居民活动转移概率、分时段活动概率;并通过设定的距离阈值提取停留区域兴趣点分布比例;
模型构建单元:用于根据居民活动转移概率和分时段活动概率定义活动停留区域的“活动-时间”关联特征,根据停留区域兴趣点分布比例定义活动停留区域的“活动-空间”关联特征,根据“活动-时间”关联特征和“活动-空间”关联特征构建基于马尔科夫链和概率加权思想的活动目的推断模型;
活动目的判断单元:用于根据活动目的推断模型判断用户在所述活动停留区域所进行的活动目的。
6.根据权利要求5所述的基于手机定位数据的居民活动模式挖掘装置,其特征在于,所述停留区域识别模块还包括数据预处理单元,所述数据预处理单元用于对所述手机定位数据的所有记录点进行预处理,基于聚类分析的思想,通过设定距离阈值ε和时间阈值δ,将手机定位数据中超过时间阀值和距离阈值的连续记录点聚集成一个活动停留区域,并通过活动停留区域构建用户出行序列。
7.根据权利要求6所述的基于手机定位数据的居民活动模式挖掘装置,其特征在于,所述停留区域识别模块还包括数据过滤单元,所述数据过滤单元用于将不同活动停留区域之间的连续记录点视为途经区域点,将在短时间内出现异常的位置差异的记录点视为异常点,并根据设定的过滤规则过滤用户出行序列中的异常点和途经点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610749706.7A CN106384120B (zh) | 2016-08-29 | 2016-08-29 | 一种基于手机定位数据的居民活动模式挖掘方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610749706.7A CN106384120B (zh) | 2016-08-29 | 2016-08-29 | 一种基于手机定位数据的居民活动模式挖掘方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106384120A CN106384120A (zh) | 2017-02-08 |
CN106384120B true CN106384120B (zh) | 2019-08-23 |
Family
ID=57915955
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610749706.7A Active CN106384120B (zh) | 2016-08-29 | 2016-08-29 | 一种基于手机定位数据的居民活动模式挖掘方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106384120B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106767764B (zh) * | 2017-03-20 | 2021-05-18 | 联想(北京)有限公司 | 一种定位设置方法及电子设备 |
CN108256560B (zh) * | 2017-12-27 | 2021-05-04 | 同济大学 | 一种基于时空聚类的停驻识别方法 |
CN109299198A (zh) * | 2018-10-12 | 2019-02-01 | 元力云网络有限公司 | 一种基于多维数据的社交关系分析方法 |
CN109388758B (zh) * | 2018-10-22 | 2020-08-18 | 百度在线网络技术(北京)有限公司 | 人口迁徙目的确定方法、装置、设备及存储介质 |
CN111126103B (zh) * | 2018-10-30 | 2023-09-26 | 百度在线网络技术(北京)有限公司 | 用户人生阶段状态的判断方法和装置 |
CN109743689B (zh) * | 2019-01-09 | 2020-11-17 | 南京航空航天大学 | 一种基于稳定性值的室内轨迹停留区域发现方法 |
CN110032609B (zh) * | 2019-02-28 | 2023-09-12 | 东南大学 | 一种基于定位数据的生活圈识别方法 |
CN111104468B (zh) * | 2019-09-25 | 2023-03-28 | 西安交通大学 | 一种基于语义轨迹推断用户活动的方法 |
CN112085268B (zh) * | 2020-08-31 | 2024-03-05 | 北京百度网讯科技有限公司 | 居民出行信息的测算方法、装置、设备和可读存储介质 |
CN114584922B (zh) * | 2020-11-30 | 2024-08-16 | 中移(苏州)软件技术有限公司 | 一种出入界识别方法、装置、设备及存储介质 |
CN112949784B (zh) * | 2021-05-13 | 2021-10-29 | 深圳市城市交通规划设计研究中心股份有限公司 | 一种居民出行链模型构建方法及居民出行链获取方法 |
CN116703189B (zh) * | 2022-11-01 | 2024-07-12 | 清华大学 | 基于对象移动不平衡分析的区域信息处理方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102184512A (zh) * | 2011-05-10 | 2011-09-14 | 天津大学 | 利用手机数据发现城市活动中异常事件的方法 |
CN102438025A (zh) * | 2012-01-10 | 2012-05-02 | 中山大学 | 一种基于Web代理的间接分布式拒绝服务攻击抵御方法及系统 |
CN102607553A (zh) * | 2012-03-06 | 2012-07-25 | 北京建筑工程学院 | 一种基于出行轨迹数据的行程识别方法 |
CN102879791A (zh) * | 2012-10-09 | 2013-01-16 | 潮州市创佳电子有限公司 | 一种基于北斗定位终端的老人活跃度数据感知系统 |
CN103218442A (zh) * | 2013-04-22 | 2013-07-24 | 中山大学 | 一种基于移动设备传感器数据的生活模式分析方法及系统 |
CN105142106A (zh) * | 2015-07-29 | 2015-12-09 | 西南交通大学 | 基于手机信令数据的出行者职住地识别与出行链刻画方法 |
CN105678457A (zh) * | 2016-01-06 | 2016-06-15 | 成都小步创想畅联科技有限公司 | 基于地点挖掘的用户行为评估方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150359201A1 (en) * | 2014-06-11 | 2015-12-17 | Chris Kong | Methods and Apparatus for Tracking and Analyzing Animal Behaviors |
-
2016
- 2016-08-29 CN CN201610749706.7A patent/CN106384120B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102184512A (zh) * | 2011-05-10 | 2011-09-14 | 天津大学 | 利用手机数据发现城市活动中异常事件的方法 |
CN102438025A (zh) * | 2012-01-10 | 2012-05-02 | 中山大学 | 一种基于Web代理的间接分布式拒绝服务攻击抵御方法及系统 |
CN102607553A (zh) * | 2012-03-06 | 2012-07-25 | 北京建筑工程学院 | 一种基于出行轨迹数据的行程识别方法 |
CN102879791A (zh) * | 2012-10-09 | 2013-01-16 | 潮州市创佳电子有限公司 | 一种基于北斗定位终端的老人活跃度数据感知系统 |
CN103218442A (zh) * | 2013-04-22 | 2013-07-24 | 中山大学 | 一种基于移动设备传感器数据的生活模式分析方法及系统 |
CN105142106A (zh) * | 2015-07-29 | 2015-12-09 | 西南交通大学 | 基于手机信令数据的出行者职住地识别与出行链刻画方法 |
CN105678457A (zh) * | 2016-01-06 | 2016-06-15 | 成都小步创想畅联科技有限公司 | 基于地点挖掘的用户行为评估方法 |
Non-Patent Citations (1)
Title |
---|
Characterizing activity sequences using profile Hidden Marlcov Models;Feng Liu 等;《Expert Systems with Applications》;20150312;第5705-5722页 |
Also Published As
Publication number | Publication date |
---|---|
CN106384120A (zh) | 2017-02-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106384120B (zh) | 一种基于手机定位数据的居民活动模式挖掘方法及装置 | |
Lv et al. | The discovery of personally semantic places based on trajectory data mining | |
Lv et al. | Mining user similarity based on routine activities | |
Comito et al. | Mining human mobility patterns from social geo-tagged data | |
Xu et al. | Understanding mobile traffic patterns of large scale cellular towers in urban environment | |
Wu et al. | Inferring demographics from human trajectories and geographical context | |
CN106096631B (zh) | 一种基于手机大数据的流动人口分类识别分析方法 | |
Ye et al. | Mining individual life pattern based on location history | |
CN109089314B (zh) | 一种基于推荐算法的wifi序列辅助GPS的室内定位方法 | |
CN104217250B (zh) | 一种基于历史数据的城市轨道交通新线开通客流预测方法 | |
Yue et al. | Detect: Deep trajectory clustering for mobility-behavior analysis | |
CN106931974B (zh) | 基于移动终端gps定位数据记录计算个人通勤距离的方法 | |
Gao et al. | Detecting origin-destination mobility flows from geotagged tweets in greater Los Angeles area | |
CN109684373B (zh) | 基于出行和话单数据分析的重点关系人发现方法 | |
Falcone et al. | What is this place? Inferring place categories through user patterns identification in geo-tagged tweets | |
CN105045858A (zh) | 基于投票的出租车载客点推荐方法 | |
CN107977673A (zh) | 一种基于大数据的经济活动人口识别方法 | |
Guo et al. | Transportation mode recognition with deep forest based on GPS data | |
CN110399919A (zh) | 一种人类出行稀疏轨迹数据插值重构方法 | |
Sun et al. | Deep convolutional autoencoder for urban land use classification using mobile device data | |
Yu et al. | Using information entropy and a multi-layer neural network with trajectory data to identify transportation modes | |
Cheng et al. | An unsupervised approach for semantic place annotation of trajectories based on the prior probability | |
Zhang et al. | Exploring the relationship between travel pattern and social-demographics using smart card data and household survey | |
Li et al. | Multi-day activity pattern recognition based on semantic embeddings of activity chains | |
Meng et al. | Towards the inference of travel purpose with heterogeneous urban data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |