CN112949784B - 一种居民出行链模型构建方法及居民出行链获取方法 - Google Patents
一种居民出行链模型构建方法及居民出行链获取方法 Download PDFInfo
- Publication number
- CN112949784B CN112949784B CN202110523440.5A CN202110523440A CN112949784B CN 112949784 B CN112949784 B CN 112949784B CN 202110523440 A CN202110523440 A CN 202110523440A CN 112949784 B CN112949784 B CN 112949784B
- Authority
- CN
- China
- Prior art keywords
- individuals
- sample
- class
- time period
- individual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Position Fixing By Use Of Radio Waves (AREA)
Abstract
本发明提供了一种居民出行链模型构建方法及居民出行链获取方法,涉及交通技术领域,该居民出行链模型构建方法包括根据多出行数据源获取区域特征数据;基于预设的聚类算法和区域特征数据对区域样本个体进行聚类,获取区域样本个体的簇集合;将每个簇作为一个类,根据类的集合建立分类模型,并通过预设的机器学习分类算法对各类中的个体的出行特征进行分析,获取各类的特征函数,将各类的特征函数作为分类模型的分类标准,根据各类中的所有个体的出行行为建立各类的交通行为模型,进而构建居民出行链模型。该模型构建方法通过多出行数据源获取区域特征数据,并基于聚类算法和机器学习分类算法进行分析,因此,构建的模型具有较高的准确性。
Description
技术领域
本发明涉及交通技术领域,具体而言,涉及一种居民出行链模型构建方法及居民出行链获取方法。
背景技术
传统交通模型基于居民出行调查数据构建,但由于交通出行调查的频率一般以年为单位,交通出行调查需要大量的专业人员,调查员的素质对调查结果有影响;对于被调查者而言,由于很多出行数据涉及到个人隐私,被调查者可能会瞒报部分出行数据;且出行调查的调查时间一般限制在被调查者某一天或几天的出行,无法确认调查结果是否能代表其出行常态,因此,基于居民出行调查数据构建的交通模型难以反映目标区域的真实情况,具有较大的误差。
发明内容
本发明解决的问题是基于居民出行调查数据构建的交通模型难以反映目标区域的真实情况,具有较大的误差。
为解决上述问题,本发明第一方面提供一种居民出行链模型构建方法,包括:
根据多出行数据源获取一个时间周期内的区域特征数据,其中,所述出行数据源包括出行调查数据和一个时间周期内的GPS大数据,所述区域特征数据包括区域样本个体的属性和区域样本个体的出行行为,所述区域样本个体的属性包括性别、年龄和收入,所述区域样本个体的出行行为包括出行目的、出行方式、驻留位置和起止点;
基于预设的聚类算法和所述区域特征数据对区域样本个体进行聚类,获取所述区域样本个体的簇集合;
将每个簇作为一个类,根据类的集合建立分类模型,并通过预设的机器学习分类算法对各类中的个体的出行特征进行分析,获取各类的特征函数,将各类的特征函数作为所述分类模型的分类标准,其中,所述出行特征包括个体的属性和个体的GPS点位信息;
根据各类中的所有个体的出行行为建立各类的交通行为模型;
基于各类的交通行为模型和所述分类模型构建居民出行链模型。
通过多出行数据源获取区域特征数据,能够有效地提高区域特征数据的准确性和全面性,规避了出行数据代表性不够的问题,从而提高基于区域特征数据构建的居民出行链模型的准确性;另外,基于聚类算法对区域样本个体进行聚类,能够有效地对区域样本个体进行划分,使得同一个簇中的个体具有高度的同质性,不同簇间的个体都具有高度的异质性,基于此,结合机器学习分类算法可以构建具有准确分类能力的分类模型,分类模型将个体分类于相应类后,对应的交通行为模型可预测该个体的出行行为,进而获取个体的出行链;同时,由于GPS大数据是实时更新的,可通过分类模型不断对新增数据进行分析,实现对已记录个体和未记录个体的分类,实现类和类内个体的不断更新,由于各类的交通行为模型与类内个体的出行行为有关,则类和类内个体更新会导致交通行为模型的更新,最终实现居民出行链模型的更新和完善。因此,基于本发明所述的方法构建的模型具有较高的准确性,且具有自我更新和自我完善的能力。
进一步地,还包括:
当获取到未记录个体的GPS大数据时,根据各类的特征函数和所述未记录个体的GPS大数据判断所述未记录个体归类于各已有类的概率;
若所述未记录个体属于某一所述已有类的概率最高且最高概率高于或等于预设值,则将所述未记录个体归类于概率最高的所述已有类中;
若所述最高概率低于所述预设值,则建立新的类,将所述个体归类于新建类中。
进一步地,还包括:
根据各类的特征函数以时间顺序对已记录个体的多次新增GPS大数据进行分析,根据累积分析结果判断所述已记录个体是否满足预设条件;
若判定所述已记录个体满足第一预设条件,则将所述已记录个体归类于对应的原类的相似类中,其中,原类为所述已记录个体当前的归属类;
若判定所述已记录个体满足第二预设条件,则将所述已记录个体归类于对应的异质类中,其中,所述异质类为不属于原类及原类的相似类的已有类;
若判定所述已记录个体满足第三预设条件,则建立新的类,将所述已记录个体归类于新建类中。
进一步地,所述若判定所述已记录个体满足第一预设条件,则将所述已记录个体归类于对应的原类的相似类中包括:
若判定所述已记录个体连续n次属于所述原类的同一相似类,则将所述已记录个体归类于对应的所述相似类中;
所述若判定所述已记录个体满足第二预设条件,则将所述已记录个体归类于对应的异质类中包括:
若判定所述已记录个体连续m次属于同一异质类,则将所述已记录个体归类于所述异质类中,其中,m<n;
所述若判定所述已记录个体满足第三预设条件,则建立新的类,将所述已记录个体归类于新建类中包括:
若判定已记录个体连续m次不属于已有类,则建立新的类,将所述已记录个体归类于新建类中。
进一步地,还包括:
基于下一时间周期的多出行数据源获取下一时间周期的区域特征数据,根据所述下一时间周期的区域特征数据再次进行所述居民出行链模型的构建;或
变更单个时间周期的时间跨度,基于对应时间周期的多出行数据源获取对应时间周期的区域特征数据,根据所述对应时间周期的区域特征数据再次进行所述居民出行链模型的构建。
本发明第二方面提供一种居民出行链获取方法,包括:
基于多出行数据源获取目标区域相应时间段的样本个体集,其中,所述出行数据源至少包括GPS大数据和出行调查数据;
将所述样本个体集输入如上所述的居民出行链模型构建方法所构建的居民出行链模型中,获取所述目标区域相应时间段的所有样本个体的出行链的集合。
当获取目标区域的样本个体集后,将样本个体集输入上述的居民出行链模型,则分类模型会对样本个体集进行分类,将样本个体归类于各簇中,由于簇内交通行为模型可推算相应的簇内个体的出行行为,当分类完成后,基于各簇的簇内交通行为模型可获取对应样本个体的出行行为,从而获取目标区域的所有样本个体的出行链的集合。
进一步地,所述基于多出行数据源数据获取目标区域相应时间段的样本个体集包括:
基于所述多出行数据源对所述目标区域相应时间段的所述GPS大数据进行扩样,获取所述目标区域相应时间段的样本个体集,其中,所述样本个体集包括原始样本个体集和扩样样本个体集。
进一步地,所述基于所述多出行数据源对所述目标区域相应时间段的所述GPS大数据进行扩样,获取所述目标区域相应时间段的样本个体集包括:
分析所述GPS大数据和所述出行调查数据获取所述目标区域相应时间段的原始样本个体集及所有原始样本个体的出行行为;
根据辅助数据源和所述原始样本个体集获取所述目标区域相应时间段的各属性区间缺少的样本个体数,根据所述各属性区间缺少的样本个体数构建所述扩样样本个体集,其中,所述辅助数据源包括人口统计信息。
进一步地,所述根据辅助数据源和所述原始样本个体集获取所述目标区域相应时间段的各属性区间缺少的样本个体数包括:
根据所述辅助数据源获取所述目标区域相应时间段的各属性区间的样本个体数,根据所述原始样本个体集获取所述目标区域相应时间段的各属性区间的原始样本个体数,对比各属性区间的样本个体数和原始样本个体数,获取所述目标区域相应时间段的各属性区间缺少的样本个体数。
进一步地,所述获取所述目标区域相应时间段的所有样本个体的出行链的集合包括:
通过如上所述的居民出行链模型构建方法所建立的分类模型将各所述扩样样本个体分别归类于各类中;
基于如上所述的居民出行链模型构建方法所建立的各类的交通行为模型确定各所述扩样样本个体的出行行为;
结合所有所述原始样本个体的出行行为和所有所述扩样样本个体的出行行为,获取所述目标区域相应时间段的所有所述样本个体的出行链的集合。
附图说明
图1为本发明实施例的居民出行链模型构建方法的流程图;
图2为本发明实施例的居民出行链获取方法的流程图。
具体实施方式
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
本发明的说明书和权利要求书及上述附图中的术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含一系列步骤或单元的过程、方法或系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
本说明书描述的“第一”、“第二”和“第三”等术语,仅用于区分装置/组件/子组件/部件等,不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量,由此,限定有如“第一”、“第二”和“第三”等的特征可以明示或者隐含地表示包括至少一个该特征,除非另有明确具体的限定,“多个”的含义是至少两个,例如两个,三个等,对于本领域技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
如图1所示,本发明实施例的一种居民出行链模型构建方法,包括:
S101:根据多出行数据源获取一个时间周期内的区域特征数据,其中,所述出行数据源包括出行调查数据和一个时间周期内的GPS大数据,所述区域特征数据包括区域样本个体的属性和区域样本个体的出行行为,区域样本个体的属性包括但不限于性别、年龄和收入,区域样本个体的出行行为包括但不限于出行目的、出行方式、驻留位置和起止点。
应用中,上述的根据多出行数据源获取的区域特征数据为一个周期时间的数据,一个周期时间可以为一个月,也可以为一年,具体根据实际情况和实际需要选择。
本实施例中,GPS大数据为具有用户ID信息和GPS点位信息的交通大数据,例如手机信令数据,根据手机信令数据可获取用户ID、GPS点位以及用户基本信息。
其中,区域样本个体的属性和出行行为还兼容基于不同场景的本地化扩充属性,例如,在我国边境地区,个体属性应当包括国籍等,出行行为还应包括出发国家及目标国家(以跨境出行为目的的出行专属)等。
应用中,出行数据源还可以包括公交地铁运行运营数据,通过公交地铁运行运营数据对GPS大数据的点位误差进行校准,提升区域特征数据的准确性。
出行调查数据基于实际调查得出,具有较高的准确性,但存在覆盖不全面、代表性较差的问题,而GPS大数据可以长期大规模获取,数据覆盖较为全面,因此,出行调查数据结合GPS大数据解决了出行调查数据的连续性和代表性问题,基于多出行数据源获取的区域特征数据具有较高的准确性和代表性。
S102:基于预设的聚类算法和所述区域特征数据对区域样本个体进行聚类,获取所述区域样本个体的簇集合。
其中,本实施例中的聚类算法可为k-means算法或DBScan算法。实际应用中,还可以是其他算法,在此不做具体展开。
具体聚类分析方案如下:
基于基础属性(如性别、年龄等),将个体分为数个基础属性集,而后每个属性集内根据出行行为聚类,每个属性集-行为类型形成数个簇,例如,个体分为A、B、C三个基础属性集,A、B、C基础属性集内的个体根据出行行为类型聚类分别聚类为a个簇、b个簇和c个簇。
当聚类完成后,可基于小样本调查数据授权的用户GPS大数据(如手机信令数据)来验证聚类结果的可信性。例如,根据多个年龄、出行行为相似的学生被归入不同簇的情况的比例,验证聚类结果的准确性。
可选地,还包括:
对各簇的相似性进行分析,确定各簇的相似簇集;
其中,对各簇的相似性进行分析,确定各簇的相似簇集包括:
计算选定簇与其余各簇的分离度,将与所述选定簇的分离度小于预设值的簇确定为所述选定簇的相似簇;
遍历选定各簇,计算各簇间的分离度,确定各簇的相似簇集。
S103:将每个簇作为一个类,根据类的集合建立分类模型,并通过预设的机器学习分类算法对各类中的个体的出行特征进行分析,获取各类的特征函数,将各类的特征函数作为所述分类模型的分类标准,其中,所述出行特征包括个体的属性和个体的GPS点位信息。
其中,机器学习分类算法可以为KNN (k-nearest neighbors algorithm)算法。分类方法是一种对离散型随机变量建模或预测的监督学习方法。分类学习的目的是从给定的人工标注的分类训练样本数据集中学习出一个分类函数或者分类模型,也常常称作分类器(classifier),如上述的建立分类模型的过程。当新的数据到来时,可以根据该分类模型进行预测,将新数据项映射到给定类别中的某一个类中。
对于分类,输入的训练数据包含信息有特征(Feature),也称为属性(Attribute),如本实施例的出行特征,有标签(label),也常称之为类别(class),如本实施例的各类,具体可表示为(F1,F2,...Fn; label)。而所谓的学习,其本质就是找到特征与标签间的关系(mapping,即映射),即本实施例的特征函数。
具体地,由于出行数据源包括GPS大数据和出行调查数据,则所有样本个体的个体属性信息和个体的GPS点位信息是已知的,则各类中的个体的出行特征是已知的,通过对类中所有个体的出行特征进行机器学习可获取该类的特征函数。
其中,特征函数为概率模型,将个体的出行特征输入特征函数,特征函数会输出该个体属于该特征函数对应的簇的概率。
应用中,将每个簇分别作为分类模型的一个类,每个类均具有对应的特征函数,当获取到新增的GPS大数据时,由于本实施例中的GPS大数据包括用户ID和GPS点位信息,则根据用户ID可获取个体的属性信息,通过将个体的属性信息和个体的GPS点位信息分别输入各簇的特征函数,可得出该个体属于各簇的概率,以此为基础完成对个体的分类。
S104:根据各类中的所有个体的出行行为建立各类的类内交通行为模型,其中,所述类内交通行为模型用于推算类内个体选择各出行行为的概率。
本实施例中,通过对类内全部个体进行分析,可获取类内个体在不同时间段的各出行目的的比例,以及各出行目的下使用的各出行方式的比例,基于类内的同一时间段下各出行行为的个体数量的比例来构建类内交通行为模型,例如,在早上8点-9点时间段,基于通勤目的架车由M地前往N地的类内个体的占比为0.6,则该类的类内交通行为模型推算该类内的个体在早上8点-9点时间段,基于通勤目的架车由M地前往N地的概率为60%。
S105:基于各类的类内交通行为模型和所述分类模型构建居民出行链模型。
可选地,还包括:
通过所述分类模型对新增GPS大数据进行分析,根据分析结果将对应个体归类于已有类或新建类中。
应用中,例如手机信令数据的GPS大数据是实时更新的,每日均会存在新增的GPS大数据,因此,基于新增的GPS大数据可获取目标区域内已记录个体的新增数据和未记录个体的相关数据,通过分类模型对新增数据进行分析确定新增数据对应的个体分类于各类的概率。
对于未记录个体的新增数据,由于对应个体未记录,当接收到未记录个体的每日GPS大数据时,可根据分类模型的分析结果直接将该未记录个体归类于对应类中。
而对于已记录个体的每日新增GPS大数据,直接根据单日的新增GPS大数据对已记录个体进行归类可能存在偶然性误差。例如,X个体基于通勤目的每天从M地前往N地的交通方式是公交车,但是有一天X个体出发时间较早,从M地前往N地的方式是步行,但X个体基于通勤目的每天从M地前往N地的主要交通方式依然是公交车。因此,为了避免偶然误差,对于已记录个体,需要根据已记录个体连续多日的新增GPS大数据来判定已记录个体的应归属类。
可选地,还包括:
当获取到未记录个体的GPS大数据时,根据各类的特征函数和所述未记录个体的GPS大数据判断所述未记录个体归类于各所述已有类的概率;
若所述未记录个体属于某一所述已有类的概率最高且最高概率高于或等于预设值,则将所述未记录个体归类于概率最高的所述已有类中;
若所述最高概率低于所述预设值,则建立新的类,将所述个体归类于新建类中。
前面已经介绍过,将个体的出行特征输入特征函数,特征函数会输出该个体属于该特征函数对应的类的概率,因此,当获取到未记录个体的GPS大数据时,根据未记录个体的GPS大数据可获取该未记录个体的出行特征,将未记录个体的出行特征分别输入各类的特征函数中,可得到该未记录个体属于各类的概率。
若该未记录个体属于各类的概率均低于预设值(如20%),则表明该未记录个体不应属于已有类,则需要建立新的类,将该未记录个体归类于新建类中。其中,当新建类完成时,需要通过预设的分类算法对该新建类内的个体进行分析,获取该新建类的特征函数,然后将该新建类定义为分类模型的一个类,将新建类的特征函数定义为该类的分类标准。
可选地,还包括:
根据各类的特征函数以时间顺序分别对已记录个体的多次新增GPS大数据进行分析,根据累积分析结果判断所述已记录个体是否满足预设条件。
其中,依靠单日的新增GPS大数据得到的分析结果可能存在偶然性误差,则需要连续对已记录个体的每日新增GPS大数据进行分析,通过累积的分析结果来得出已记录个体是否属于原类,以及已记录个体的应归属类。
若判定所述已记录个体满足第一预设条件,则将所述已记录个体归类于对应的原类的相似类中,其中,原类为所述已记录个体当前的归属类;
若判定所述已记录个体满足第二预设条件,则将所述已记录个体归类于对应的异质类中,其中,所述异质类为不属于原类及原类的相似类的已有类;
若判定所述已记录个体满足第三预设条件,则建立新的类,将所述已记录个体归类于新建类中。
可选地,所述若判定所述已记录个体满足第一预设条件,则将所述已记录个体归类于对应的原类的相似类中包括:
若判定所述已记录个体连续n次属于所述原类的同一相似类,则将所述已记录个体归类于对应的所述相似类中;
其中,n为用户的预设值,本实施例中,优选n为10。
本实施例中,分类模型根据单日的新增GPS大数据做一次归属类分析,累计分析结果为分类模型对连续多日的新增GPS大数据的分析结果。
所述若判定所述已记录个体满足第二预设条件,则将所述已记录个体归类于对应的异质类中包括:
若判定所述已记录个体连续m次属于同一异质类,则将所述已记录个体归类于所述异质类中,其中,m<n;
具体地,m为用户的预设值,本实施例中,优选m为5。
所述若判定所述已记录个体满足第三预设条件,则建立新的类,将所述已记录个体归类于新建类中包括:
若判定已记录个体连续m次不属于已有类,则建立新的类,将所述已记录个体归类于新建类中。
应用中,当已记录个体被归类于非原类的其他类后,需要将已记录个体与原类相关的数据删除。
其中,若在分析过程中,判定已记录个体x(x<m)次属于同一异质类,判定已记录个体y(y<m)次不属于已有类,判定已记录个体z(x<n)次属于原类的同一相似类,其中,x、y、z为自然数;则此时需要依据n和m的函数关系确定转换函数,将x、y、z输入该转换函数后,若转换函数的输出结果达到预设条件,则根据预设规则来确定已记录个体的归属类,例如比较x、y、z的大小来确定已记录个体的归属类。示例性地,n和m的函数关系为n=2m,当2(x+y)+z≥n或(x+y)+z/2≥m时,比较x、y、z的大小,若x最大,将已记录个体归类于对应的异质类中,若y最大,则建立新的类,将已记录个体归类于对应的新建类中,若z最大,将已记录个体归类于对应的相似类中。若x=y>z, 将已记录个体归类于对应的所述异质类中,若x=y=z或x=z>y或y=z>x,将已记录个体归类于对应的相似类中。
例如,根据累计分析结果,已记录个体连续四次被判定属于原类的相似类,其后连续两次被判定属于非相似类,此时4+2/2=5,且已记录个体被判定属于原类的相似类的天数最多,因此,即使已记录个体未满足连续5天被判定属于原类的相似类,依然将已记录个体归类于对应的相似类中。
可选地,基于下一时间周期的多出行数据源获取下一时间周期的区域特征数据,根据所述下一时间周期的区域特征数据再次进行所述居民出行链模型的构建;或
变更单个时间周期的时间跨度,基于对应时间周期的多出行数据源获取对应时间周期的区域特征数据,根据所述对应时间周期的区域特征数据再次进行所述居民出行链模型的构建。
由于居民的区域特征在长时间后会有改变,因此区域特征数据在一定时间后也会相应地发生改变。因此,需要定期获取区域特征数据,以保证最终得到的出行链的准确性。
应用中,初始时,一个时间周期为一个月,即根据多出行数据源获取一个月的区域特征数据,基于一个月的区域特征数据构建居民出行链模型。当一个时间周期结束,即获取了下一个时间周期的GPS大数据时,即可基于获取到的该时间周期的GPS大数据获取该时间周期的区域特征数据,进而根据该时间周期的区域特征数据再次进行居民出行链模型的构建。其中,单个时间周期的时间跨度可进行变更,例如,由一个月变更为一年,以适应实际情况。
通过多出行数据源获取区域特征数据,能够有效地提高区域特征数据的准确性和全面性,规避了出行数据代表性不够的问题,从而提高基于区域特征数据构建的居民出行链模型的准确性;另外,基于聚类算法和机器学习分类算法可以构建具有准确分类能力的分类模型,分类模型将个体分类于相应类后,对应的交通行为模型可预测该个体的出行行为,进而获取个体的出行链;同时,由于GPS大数据是实时更新的,可通过分类模型不断对新增数据进行分析,实现对已记录个体和未记录个体的分类,实现类和类内个体的不断更新,由于各类的交通行为模型与类内个体的出行行为有关,则类和类内个体更新会导致交通行为模型的更新,最终实现居民出行链模型的更新和完善。因此,基于本实施例所述的方法构建的模型具有较高的准确性,且具有自我更新和自我完善的能力。
如图2所示,本发明另一实施例提供一种居民出行链获取方法,包括:
S201:基于多出行数据源获取目标区域相应时间段的样本个体集,其中,所述出行数据源至少包括GPS大数据和出行调查数据。
可选地,所述基于多出行数据源数据获取目标区域相应时间段的样本个体集包括:
基于所述多出行数据源对所述目标区域相应时间段的所述GPS大数据进行扩样,获取所述目标区域相应时间段的样本个体集,其中,所述样本个体集包括原始样本个体集和扩样样本个体集。
应用中,由于出行数据源包括GPS大数据和出行调查数据,则原始样本个体及扩样样本个体的属性和GPS点位信息是已知的,则各样本个体的出行特征是已知的。
其中,各样本个体均关联有相应的出行特征,当分类模型对样本个体进行分类时,分类模型会获取各样本个体的出行特征,然后基于各样本个体的出行特征将各样本个体分类于相应类中。其中,扩样样本个体仅用于完善目标区域相应时间段的居民出行链,在得到原始个体及扩样个体的出行行为时,会将各类中的扩样样本个体删除。
可选地,所述基于所述多出行数据源对所述目标区域相应时间段的所述GPS大数据进行扩样,获取所述目标区域相应时间段的样本个体集包括:
分析所述GPS大数据和所述出行调查数据获取所述目标区域相应时间段的原始样本个体集及所有原始样本个体的出行行为;
根据辅助数据源获取所述目标区域相应时间段的各属性区间缺少的样本个体数,根据所述各属性区间缺少的样本个体数构建所述扩样样本个体集,即根据所述各属性区间缺少的样本个体数构建对应属性和对应数量的扩样样本个体,以使各属性区间的扩样样本个体数与各属性区间缺少的样本个体数相同,其中,所述辅助数据源包括出行调查数据和人口统计信息。
可选地,所述根据辅助数据源和所述原始样本个体集获取所述目标区域相应时间段的各属性区间缺少的样本个体数包括:
根据所述辅助数据源获取所述目标区域相应时间段的各属性区间的样本个体数,根据所述原始样本个体集获取所述目标区域相应时间段的各属性区间的原始样本个体数,对比各属性区间的样本个体数和原始样本个体数,获取所述目标区域相应时间段的各属性区间缺少的样本个体数。
通过人口统计信息可获取目标区域相应时间段的人口总数和各属性区间的人口数,而对比原始样本个体数和人口总数可获取缺少的样本个体数,通过分析GPS大数据可获取原始样本个体集中于各属性区间的原始样本个体数,对比各属性区间的人口数和各属性区间的原始样本个体数可获取各属性区间缺少的的样本个体数,基于各属性区间缺少的的样本个体数对GPS大数据进行扩样,使扩样样本个体数等于缺少的样本个体数,并使各属性区间的扩样样本个体数等于各属性区间缺少的的样本个体数,由此,使得扩样样本具有较高的合理性和准确性。
S202:将所述样本个体集输入如上所述的居民出行链模型构建方法所构建的居民出行链模型中,获取所述目标区域相应时间段的所有样本个体的出行链的集合。
可选地,所述获取所述目标区域相应时间段的所有样本个体的出行链的集合包括:
通过如上所述的居民出行链模型构建方法所建立的分类模型将各所述扩样样本个体分别归类于各类中;
基于如上所述的居民出行链模型构建方法所建立的各类的交通行为模型确定各所述扩样样本个体的出行行为;
结合所有所述原始样本个体的出行行为和所有所述扩样样本个体的出行行为,获取所述目标区域相应时间段的所有所述样本个体的出行链的集合。
分析所述GPS大数据和所述出行调查数据可获取所述目标区域相应时间段的原始样本个体集及所有原始样本个体的出行行为,经过扩样过程可获取扩样样本个体集。当获取目标区域的样本个体集后,将样本个体集输入上述的居民出行链模型,则分类模型会对样本个体集进行分类,将样本个体归类于各类中,由于交通行为模型可推算相应的类内个体的出行行为,当分类完成后,基于各类的交通行为模型可获取所有扩样样本个体的出行行为,当获取所有原始样本个体的出行行为和所有扩样样本个体的出行行为时,即获取了目标区域相应时间段的所有样本个体的出行链的集合。
当获取目标区域相应时间段的所有样本个体的出行链的集合后,可以此居民出行链的集合为基础,进行诸如MATSim等交通仿真,并通过实测流量校核等方式,最终获得符合实际交通运行态势的出行链集合,为交通规划人员提供数据基础,以进行交通出行分析、出行态势推演和出行预测。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本发明实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述存储介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,存储介质不包括电载波信号和电信信号。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
虽然本公开披露如上,但本公开的保护范围并非仅限于此。本领域技术人员在不脱离本公开的精神和范围的前提下,可进行各种变更与修改,这些变更与修改均将落入本发明的保护范围。
Claims (8)
1.一种居民出行链模型构建方法,其特征在于,包括:
根据多出行数据源获取一个时间周期内的区域特征数据,其中,所述出行数据源包括出行调查数据和一个时间周期内的GPS大数据,所述区域特征数据包括区域样本个体的属性和区域样本个体的出行行为,所述区域样本个体的属性包括性别、年龄和收入,所述区域样本个体的出行行为包括出行目的、出行方式、驻留位置和起止点,所述GPS大数据包括用户ID和GPS点位信息,根据所述用户ID获取所述区域样本个体的属性;
基于预设的聚类算法和所述区域特征数据对区域样本个体进行聚类,获取所述区域样本个体的簇集合;
将每个簇作为一个类,根据类的集合建立分类模型,并通过预设的机器学习分类算法对各类中的个体的出行特征进行分析,获取各类的特征函数,将各类的特征函数作为所述分类模型的分类标准,其中,所述出行特征包括个体的属性和个体的GPS点位信息;
当获取到未记录个体的GPS大数据时,根据各类的特征函数和所述未记录个体的GPS大数据判断所述未记录个体归类于各已有类的概率;
若所述未记录个体属于某一所述已有类的概率最高且最高概率高于或等于预设值,则将所述未记录个体归类于概率最高的所述已有类中;
若所述最高概率低于所述预设值,则建立新的类,将所述未记录个体归类于新建类中;
根据各类的特征函数以时间顺序对已记录个体的多次新增GPS大数据进行分析,根据累积分析结果判断所述已记录个体是否满足预设条件;
若判定所述已记录个体满足第一预设条件,则将所述已记录个体归类于对应的原类的相似类中,其中,所述原类为所述已记录个体当前的归属类;
若判定所述已记录个体满足第二预设条件,则将所述已记录个体归类于对应的异质类中,其中,所述异质类为不属于原类及原类的相似类的已有类;
若判定所述已记录个体满足第三预设条件,则建立新的类,将所述已记录个体归类于新建类中;
根据各类中的所有个体的出行行为建立各类的交通行为模型;
基于各类的交通行为模型和所述分类模型构建居民出行链模型。
2.根据权利要求1所述的居民出行链模型构建方法,其特征在于,所述若判定所述已记录个体满足第一预设条件,则将所述已记录个体归类于对应的原类的相似类中包括:
若判定所述已记录个体连续n次属于所述原类的同一相似类,则将所述已记录个体归类于对应的所述相似类中;
所述若判定所述已记录个体满足第二预设条件,则将所述已记录个体归类于对应的异质类中包括:
若判定所述已记录个体连续m次属于同一异质类,则将所述已记录个体归类于所述异质类中,其中,m<n;
所述若判定所述已记录个体满足第三预设条件,则建立新的类,将所述已记录个体归类于新建类中包括:
若判定已记录个体连续m次不属于已有类,则建立新的类,将所述已记录个体归类于新建类中。
3.根据权利要求1所述的居民出行链模型构建方法,其特征在于,还包括:
基于下一时间周期的多出行数据源获取下一时间周期的区域特征数据,根据所述下一时间周期的区域特征数据再次进行所述居民出行链模型的构建;或
变更单个时间周期的时间跨度,基于对应时间周期的多出行数据源获取对应时间周期的区域特征数据,根据所述对应时间周期的区域特征数据再次进行所述居民出行链模型的构建。
4.一种居民出行链获取方法,其特征在于,包括:
基于多出行数据源获取目标区域相应时间段的样本个体集,其中,所述出行数据源至少包括GPS大数据和出行调查数据;
将所述样本个体集输入根据权利要求1至3任一项所述的居民出行链模型构建方法所构建的居民出行链模型中,获取所述目标区域相应时间段的所有样本个体的出行链的集合。
5.根据权利要求4所述的居民出行链获取方法,其特征在于,所述基于多出行数据源数据获取目标区域相应时间段的样本个体集包括:
基于所述多出行数据源对所述目标区域相应时间段的所述GPS大数据进行扩样,获取所述目标区域相应时间段的样本个体集,其中,所述样本个体集包括原始样本个体集和扩样样本个体集。
6.根据权利要求5所述的居民出行链获取方法,其特征在于,所述基于所述多出行数据源对所述目标区域相应时间段的所述GPS大数据进行扩样,获取所述目标区域相应时间段的样本个体集包括:
分析所述GPS大数据和所述出行调查数据获取所述目标区域相应时间段的原始样本个体集及所有原始样本个体的出行行为;
根据辅助数据源和所述原始样本个体集获取所述目标区域相应时间段的各属性区间缺少的样本个体数,根据所述各属性区间缺少的样本个体数构建所述扩样样本个体集,其中,所述辅助数据源包括人口统计信息。
7.根据权利要求6所述的居民出行链获取方法,其特征在于,所述根据辅助数据源和所述原始样本个体集获取所述目标区域相应时间段的各属性区间缺少的样本个体数包括:
根据所述辅助数据源获取所述目标区域相应时间段的各属性区间的样本个体数,根据所述原始样本个体集获取所述目标区域相应时间段的各属性区间的原始样本个体数,对比各属性区间的样本个体数和原始样本个体数,获取所述目标区域相应时间段的各属性区间缺少的样本个体数。
8.根据权利要求6所述的居民出行链获取方法,其特征在于,所述获取所述目标区域相应时间段的所有样本个体的出行链的集合包括:
通过根据权利要求1至3任一项所述的居民出行链模型构建方法所建立的分类模型将各所述扩样样本个体分别归类于各类中;
基于根据权利要求1至3任一项所述的居民出行链模型构建方法所建立的各类的交通行为模型确定各所述扩样样本个体的出行行为;
结合所有所述原始样本个体的出行行为和所有所述扩样样本个体的出行行为,获取所述目标区域相应时间段的所有所述样本个体的出行链的集合。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110523440.5A CN112949784B (zh) | 2021-05-13 | 2021-05-13 | 一种居民出行链模型构建方法及居民出行链获取方法 |
PCT/CN2022/070992 WO2022237213A1 (zh) | 2021-05-13 | 2022-01-10 | 一种居民出行链模型构建方法及居民出行链获取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110523440.5A CN112949784B (zh) | 2021-05-13 | 2021-05-13 | 一种居民出行链模型构建方法及居民出行链获取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112949784A CN112949784A (zh) | 2021-06-11 |
CN112949784B true CN112949784B (zh) | 2021-10-29 |
Family
ID=76233840
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110523440.5A Active CN112949784B (zh) | 2021-05-13 | 2021-05-13 | 一种居民出行链模型构建方法及居民出行链获取方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112949784B (zh) |
WO (1) | WO2022237213A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112949784B (zh) * | 2021-05-13 | 2021-10-29 | 深圳市城市交通规划设计研究中心股份有限公司 | 一种居民出行链模型构建方法及居民出行链获取方法 |
CN116233759B (zh) * | 2023-04-25 | 2023-07-28 | 北京城建交通设计研究院有限公司 | 一种居民出行轨迹调查方法及系统 |
CN118036853B (zh) * | 2024-04-11 | 2024-07-05 | 深圳市城市交通规划设计研究中心股份有限公司 | 一种个体出行链生成方法、装置及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109345296A (zh) * | 2018-09-20 | 2019-02-15 | 深圳市东部公共交通有限公司 | 民众出行需求预测方法、装置及计算机终端 |
CN110727714A (zh) * | 2019-10-21 | 2020-01-24 | 西南交通大学 | 融合时空聚类和支持向量机的居民出行特征提取方法 |
CN112133090A (zh) * | 2020-08-14 | 2020-12-25 | 南京瑞栖智能交通技术产业研究院有限公司 | 一种基于手机信令数据的多方式交通分布模型构建方法 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8817655B2 (en) * | 2011-10-20 | 2014-08-26 | Telefonaktiebolaget Lm Ericsson (Publ) | Creating and using multiple packet traffic profiling models to profile packet flows |
CN106384120B (zh) * | 2016-08-29 | 2019-08-23 | 深圳先进技术研究院 | 一种基于手机定位数据的居民活动模式挖掘方法及装置 |
US10636293B2 (en) * | 2017-06-07 | 2020-04-28 | International Business Machines Corporation | Uncertainty modeling in traffic demand prediction |
CN108053062B (zh) * | 2017-12-11 | 2022-04-29 | 北京航空航天大学 | 一种基于多源数据的定制公交线路生成方法 |
CN110390415A (zh) * | 2018-04-18 | 2019-10-29 | 北京嘀嘀无限科技发展有限公司 | 一种基于用户出行大数据进行出行方式推荐的方法及系统 |
CN110866775A (zh) * | 2019-10-12 | 2020-03-06 | 东南大学 | 一种基于机器学习的用户空铁联程城际出行信息处理方法 |
CN111737605A (zh) * | 2020-07-09 | 2020-10-02 | 南京瑞栖智能交通技术产业研究院有限公司 | 一种基于手机信令数据的出行目的识别方法及装置 |
CN112380398B (zh) * | 2020-11-12 | 2024-01-26 | 北京交通大学 | 一种空港旅客多交通方式换乘出行链构建装置 |
CN112512032B (zh) * | 2020-11-16 | 2021-09-14 | 南京瑞栖智能交通技术产业研究院有限公司 | 一种基于手机信令数据的对外出行人群识别方法 |
CN112381154A (zh) * | 2020-11-17 | 2021-02-19 | 深圳壹账通智能科技有限公司 | 预测用户概率的方法、装置和计算机设备 |
CN112381181B (zh) * | 2020-12-11 | 2022-10-04 | 桂林电子科技大学 | 一种建筑能耗异常的动态检测方法 |
CN112949784B (zh) * | 2021-05-13 | 2021-10-29 | 深圳市城市交通规划设计研究中心股份有限公司 | 一种居民出行链模型构建方法及居民出行链获取方法 |
-
2021
- 2021-05-13 CN CN202110523440.5A patent/CN112949784B/zh active Active
-
2022
- 2022-01-10 WO PCT/CN2022/070992 patent/WO2022237213A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109345296A (zh) * | 2018-09-20 | 2019-02-15 | 深圳市东部公共交通有限公司 | 民众出行需求预测方法、装置及计算机终端 |
CN110727714A (zh) * | 2019-10-21 | 2020-01-24 | 西南交通大学 | 融合时空聚类和支持向量机的居民出行特征提取方法 |
CN112133090A (zh) * | 2020-08-14 | 2020-12-25 | 南京瑞栖智能交通技术产业研究院有限公司 | 一种基于手机信令数据的多方式交通分布模型构建方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112949784A (zh) | 2021-06-11 |
WO2022237213A1 (zh) | 2022-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112949784B (zh) | 一种居民出行链模型构建方法及居民出行链获取方法 | |
Lin et al. | Real-time traffic accidents post-impact prediction: Based on crowdsourcing data | |
Pei et al. | A new insight into land use classification based on aggregated mobile phone data | |
Al-Sharif et al. | A novel approach for predicting the spatial patterns of urban expansion by combining the chi-squared automatic integration detection decision tree, Markov chain and cellular automata models in GIS | |
de Araujo et al. | End-to-end prediction of parcel delivery time with deep learning for smart-city applications | |
US20160125307A1 (en) | Air quality inference using multiple data sources | |
CN102298608A (zh) | 信息处理装置、信息处理方法和程序 | |
Du et al. | A comparative approach to modelling multiple urban land use changes using tree-based methods and cellular automata: the case of Greater Tokyo Area | |
Demissie et al. | Analysis of the pattern and intensity of urban activities through aggregate cellphone usage | |
CN113570867B (zh) | 一种城市交通状态预测方法、装置、设备及可读存储介质 | |
WO2022227303A1 (zh) | 信息处理方法、装置、计算机设备及存储介质 | |
CN111212383A (zh) | 区域常住人口数量的确定方法、装置、服务器和介质 | |
Li et al. | A regionalization method for clustering and partitioning based on trajectories from NLP perspective | |
Bununu | Integration of Markov chain analysis and similarity-weighted instance-based machine learning algorithm (SimWeight) to simulate urban expansion | |
Bonnetain et al. | Can we map-match individual cellular network signaling trajectories in urban environments? Data-driven study | |
CN110598917A (zh) | 一种基于路径轨迹的目的地预测方法、系统及存储介质 | |
CN113704373A (zh) | 基于移动轨迹数据的用户识别方法、装置及存储介质 | |
Cui et al. | Perspectives on stability and mobility of transit passenger's travel behaviour through smart card data | |
CN112364907A (zh) | 待测用户常驻地普查方法、系统、服务器和存储介质 | |
Zhang et al. | A hybrid model for high spatial and temporal resolution population distribution prediction | |
CN113158084B (zh) | 移动轨迹数据处理的方法、装置、计算机设备及存储介质 | |
Rahimipour et al. | A hybrid of neuro-fuzzy inference system and hidden Markov Model for activity-based mobility modeling of cellphone users | |
CN117827863B (zh) | 基于cldas数据库的大气环境监测分析方法及系统 | |
Mollgaard et al. | Correlations between human mobility and social interaction reveal general activity patterns | |
Pramanik et al. | Modeling traffic congestion in developing countries using google maps data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |