CN106845559A - 顾及poi数据空间异质性的地表覆盖验证方法及系统 - Google Patents
顾及poi数据空间异质性的地表覆盖验证方法及系统 Download PDFInfo
- Publication number
- CN106845559A CN106845559A CN201710113124.4A CN201710113124A CN106845559A CN 106845559 A CN106845559 A CN 106845559A CN 201710113124 A CN201710113124 A CN 201710113124A CN 106845559 A CN106845559 A CN 106845559A
- Authority
- CN
- China
- Prior art keywords
- poi
- data
- classification
- urban area
- ground mulching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000012795 verification Methods 0.000 title claims abstract description 27
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 54
- 239000011159 matrix material Substances 0.000 claims abstract description 28
- 238000013480 data collection Methods 0.000 claims abstract description 27
- 238000012360 testing method Methods 0.000 claims abstract description 14
- 244000097202 Rathbunia alamosensis Species 0.000 claims abstract description 11
- 235000009776 Rathbunia alamosensis Nutrition 0.000 claims abstract description 11
- 238000003066 decision tree Methods 0.000 claims description 52
- 238000012549 training Methods 0.000 claims description 30
- 238000012937 correction Methods 0.000 claims description 28
- 230000003044 adaptive effect Effects 0.000 claims description 24
- 238000009826 distribution Methods 0.000 claims description 13
- 241001269238 Data Species 0.000 claims description 7
- 238000005457 optimization Methods 0.000 claims description 5
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 5
- 238000007635 classification algorithm Methods 0.000 claims description 3
- 238000010968 computed tomography angiography Methods 0.000 claims description 3
- VMXUWOKSQNHOCA-UKTHLTGXSA-N ranitidine Chemical compound [O-][N+](=O)\C=C(/NC)NCCSCC1=CC=C(CN(C)C)O1 VMXUWOKSQNHOCA-UKTHLTGXSA-N 0.000 claims description 2
- 241000270322 Lepidosauria Species 0.000 claims 1
- 230000006870 function Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 2
- 238000013316 zoning Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000003287 bathing Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005201 scrubbing Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/13—Satellite images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/635—Overlay text, e.g. embedded captions in a TV program
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Astronomy & Astrophysics (AREA)
- Remote Sensing (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了顾及POI数据空间异质性的地表覆盖验证方法及系统;从新浪微博开放平台获取POI数据集,将OSM提供的城区建筑物数据与POI数据集进行叠加,划分出城市区域与非城市区域的POI,对划分结果进行修正;对确定的城市区域POI进行分类,得到城市区域的POI分类结果;对非城市区域不同类型的POI进行分类,得到非城市区域的POI分类结果;根据POI分类结果,生成栅格数据,采用多数投票算法,确定每个栅格的地表覆盖类型,生成基于POI的地表覆盖分类结果;利用混淆矩阵,得到基于POI的GlobeLand30地表覆盖数据产品的验证精度,实现顾及POI空间异质性的地表覆盖精度验证。
Description
技术领域
本发明涉及顾及POI数据空间异质性的地表覆盖验证方法及系统。
背景技术
地表覆盖及变化是环境变化研究、地理国情监测和可持续发展规划等不可或缺的重要因素,其精度验证是地表覆盖制图的重要组成部分。目前,国内外地表覆盖分类精度验证工作主要是通过遥感影像目视解译和野外实地调查等方式进行,该方法耗时耗力,验证周期长,难以满足地表覆盖产品快速验证的需求。为减少地表覆盖验证成本,更好地满足广大用户日快速验证的应用需求,需要发展一种新的地表覆盖验证方法。
近年来,随着地理时空大数据的发展和应用,出现了诸如Geo-wiki、GlobeLand30、Degrees of Confluence Project等地表覆盖产品分享和验证平台,同时,带有地理标记的文本、图片等众源地理数据,也被广泛应用于人造地表、森林和农作物等地表覆盖数据的精度验证。“Leung D,Newsam S.Land cover classification using geo-referencedphotos[J].Multimedia Tools&Applications,2015:1-21.”中指出,通过获取Flickr中带有地理位置信息的图片数据,利用数据中的图像、文本以及地理位置等信息来识别不同类型的地表覆盖产品。“Hou D,Chen J,Wu H,et al.Active collection of land coversample data from geo-tagged web texts[J].Remote Sensing,2015,7(5):5805-5827.”中提出了一种基于深度搜索的地表覆盖验证信息获取方法,自动爬取搜房网的文本信息,进行地表覆盖中人造地表的分类精度验证。“Foody G M,Boyd D S.Using volunteereddata in land cover map validation:Mapping West African forests[J].IEEEJournal of Selected Topics in Applied Earth Observations and Remote Sensing,2013,6(3):1305-1312.”中提出利用Degrees of Confluence Project地表覆盖共享平台,通过志愿者解译图片信息,验证非洲西部地表覆盖中森林的分类精度。
综上所述,将众源地理大数据应用到地表覆盖验证已成为当前研究的热点。然而,上述地表覆盖验证结果很大程度上依赖于志愿者的先验知识,难以准确地对结果做出客观的评判。同时,这类众源地理数据定位精度相对较低,在一定程度上影响了地表覆盖的验证结果。而兴趣点(Point of Interest,POI)作为一种开放的空间数据源,由于其大多搭载于地图导航平台,具有地理位置相对准确、更新速度快、分布范围广等特点,能够弥补众源地理数据定位精度低的不足。此外,POI文本中诸如“餐馆”、“牧场”、“渔场”等分类,分别对应于地表覆盖类型中的人造地表、草地和水体,易于地表覆盖类型的识别。然而,将POI数据应用于地表覆盖验证仍面临诸多挑战:一方面,某些POI类型诸如“未知分类”、“旅游景点”和“娱乐场所”等无法直接判断地表覆盖类型,需要对POI进行数据清理与分类;另一方面,POI在城市区域分布密集,而在非城市区域分布稀疏,具有显著的空间异质性分布特征,在非城市区域由于过少的POI难以表示大面积的地表覆盖,无法进行地表覆盖验证。因此,构建一套顾及POI数据空间异质性的地表覆盖验证方法,具有重要的理论和现实意义。
发明内容
本发明提供了顾及POI数据空间异质性的地表覆盖验证方法及系统,由于POI具有地理位置相对准确、其文本信息易于地表覆盖类型识别的特点,故可作为地表覆盖的验证数据。但POI在分布较为密集,而在非城市区域的空间分布不均匀,部分区域POI分布数量较少,存在空间异质性的特点,使得难以准确识别地表覆盖类型。
为解决上述问题,本发明提出了:
顾及POI数据空间异质性的地表覆盖验证方法,包括如下步骤:
步骤A:从新浪微博开放平台获取POI数据集,将OSM(OpenStreetMap)提供的城区建筑物数据与POI数据集进行叠加,划分出城市区域与非城市区域的POI,对划分结果进行修正;
步骤B:根据地表覆盖分类标准,对步骤A中确定的城市区域POI进行分类,得到城市区域的POI分类结果;
步骤C:针对步骤A中确定的非城市区域POI,依据步骤B中城市区域POI的分类方法,对非城市区域不同类型的POI进行分类,得到非城市区域的POI分类结果;
在POI分类的基础上,引入两个分类结果修正变量:POI与最近村庄的距离、POI与最近道路的距离,利用C5.0决策树算法构建顾及POI空间异质性的POI分类修正模型,得到非城市区域的POI分类结果;
步骤D:根据步骤B确定的城市区域POI分类结果和步骤C确定的非城市区域POI分类结果,生成以30m*30m像元为单位的栅格数据,依据落入栅格中各类型POI的数量,采用多数投票算法,确定每个栅格的地表覆盖类型,生成基于POI的地表覆盖分类结果;
步骤E:根据步骤D基于POI的地表覆盖分类结果,以GlobeLand30地表覆盖数据产品为验证数据,利用混淆矩阵,得到基于POI的GlobeLand30地表覆盖数据产品的验证精度,实现顾及POI空间异质性的地表覆盖精度验证。
所述步骤A包括:
步骤A1:从新浪微博开放平台获取POI数据集:利用其开放平台提供的API接口,以网络爬虫的方式,获取所需POI数据集,所述POI数据集包括描述POI类型的文本信息与表示空间位置的坐标信息;
步骤A2:利用ArcGIS软件将OSM城区建筑物数据与POI点数据进行空间叠加,使得同一地理坐标下的POI与城区建筑物位于同一空间位置;
步骤A3:通过判断POI点数据是否落入城区建筑物数据,来划分城市区域POI与非城市区域POI;若落入则为城市区域POI,若没有落入,则为非城市区域POI;
步骤A4:对划分结果进行人工修正:通过参考Google Earth中高分辨率遥感影像里的真实地物,对步骤A3中划分错误的POI进行修改。
所述根据地表覆盖分类标准:参照GlobeLand30中的地表覆盖类型的分类方式,将地表覆盖分为耕地、林地、草地、灌木丛、沼泽、水体、苔原、人造地表、裸地、冰川10种地表覆盖类型。
诸如POI文本中
“餐馆”对应地表覆盖中的人造地表;
“高尔夫球场”对应地表覆盖中的草地;
“海滨浴场”对应地表覆盖中的水体。
所述利用C5.0决策树算法构建顾及POI空间异质性的POI分类修正模型,得到非城市区域的POI分类结果的步骤为:
(C1)引入两个分类结果修正变量:POI与最近村庄的距离、POI与最近道路的距离,利用OSM中待测区域的村庄数据与道路数据,计算各非城市区域POI到距离最近的村庄和道路的最短距离;
(C2)利用C5.0决策树算法,引入步骤(C1)所述分类结果修正变量,构建顾及空间异质性的POI分类修正模型;
(C3)通过引入adaptive boosting算法和惩罚矩阵cost matrix进行分类修正模型的优化;
(C4)利用顾及空间异质性的POI分类修正模型,将经过步骤C得到的非城市区域的POI分类结果进一步分类。
由于C5.0决策树算法为监督分类算法,故将遥感影像分类结果作为POI正确分类,并将POI划分为训练数据与测试数据,构建顾及空间异质性的POI分类修正模型。
步骤E中,利用混淆矩阵的验证方法定义如下:
其中,AC(accuracy)表示人造地表识别结果的精度,TP(true positive)表示被模型预测为人造地表的正确样本,TN(true negative)表示被模型预测为非人造地表的错误样本,FP(false positive)表示被模型预测为人造地表的错误样本,FN(false negative)表示被模型预测为非人造地表的正确样本。
POI到最近的村庄的最短距离Dv计算公式如下:
其中,Px为POI的坐标经度,Py为POI的坐标纬度,Vx为村庄所在位置的坐标经度,Vy为村庄所在位置的坐标纬度;
POI距离最近的道路的最短距离Dr计算如下:
其中,A、B、C为计算道路的可调参数。
步骤(C2):
C5.0决策树算法基于信息熵计算POI数据集S中各分类结果中POI类型分布状况;
信息熵的值越大,表示数据集包含POI类型越多,反之越少;
信息熵的计算公式如下:
其中,c为基于POI数据集S划分的不同类别,pi为落入每一类POI的概率;i为POI数据集的类别;
pi的计算公式如下:
其中,ni为落入每一类POI的数量;
为准确将POI进行分类,C5.0决策树算法引入信息增益Gain修正为分类结果,具体计算公式如下:
Gain(A)=Entropy(S1)-Entropy(S2) (5);
其中,A为POI数据集S的用于分类的属性,即为各非城市区域POI到距离最近的村庄和道路的最短距离;S1、S2分别为经过分类前与分类后的数据集S;分类后数据集S2的信息熵计算公式如下:
步骤(C3)的步骤为:
adaptive boosting算法通过构建多个决策树分类模型及计算每个决策树分类模型的权重,构建最优地表覆盖分类器;
假设POI数据集S中有n个数据样本,adaptive boosting算法旨在构建T个决策树,每一轮决策树训练t中得到的决策树为Ct,为第t轮决策树训练中POI样本i的权重。同时,用于adaptive boosting算法的指示函数indicator function定义如下:
adaptive boosting算法参数初始化使得t=1,C5.0决策树算法在每一次训练中都会减少其训练误差,其中,训练误差函数如下:
基于训练误差函数εt的每个决策树权重αt定义如下:
更新第t轮决策树训练中POI样本i的权重如下:
得到每轮决策树训练中POI样本i的权重后,最终的adaptive boosting算法的最优分类器构建如下:
其中,CT即为基于adaptive boosting算法的地表覆盖最优分类器。
为提高属于人造地表的POI分类的准确率,引入惩罚矩阵(cost matrix),提高POI被错误分类为人造地表的代价,降低POI被错误分类为非人造地表的代价。惩罚矩阵构建如下。
分类为非人造地表 分类为人造地表
非人造地表 0 m
人造地表 n 0
由惩罚矩阵可知,POI被正确分类时的代价均为0,属于人造地表的POI被错误分类到非人造地表时,代价为n,属于非人造地表的POI被错误分类到人造地表时,代价为m。
顾及POI数据空间异质性的地表覆盖验证系统,包括:
划分模块:从新浪微博开放平台获取POI数据集,将OSM(OpenStreetMap)提供的城区建筑物数据与POI数据集进行叠加,划分出城市区域与非城市区域的POI,对划分结果进行修正;
第一分类模块:根据地表覆盖分类标准,对划分模块中确定的城市区域POI进行分类,得到城市区域的POI分类结果;
第二分类模块:针对划分模块中确定的非城市区域POI,依据第一分类模块中城市区域POI的分类方法,对非城市区域不同类型的POI进行分类,得到非城市区域的POI分类结果;
在POI分类的基础上,引入两个分类结果修正变量:POI与最近村庄的距离、POI与最近道路的距离,利用C5.0决策树算法构建顾及POI空间异质性的POI分类修正模型,得到非城市区域的POI分类结果;
分类结果生成模块:根据第一分类模块确定的城市区域POI分类结果和第二分类模块确定的非城市区域POI分类结果,生成以30m*30m像元为单位的栅格数据,依据落入栅格中各类型POI的数量,采用多数投票算法,确定每个栅格的地表覆盖类型,生成基于POI的地表覆盖分类结果;
验证精度获取模块:根据分类结果生成模块基于POI的地表覆盖分类结果,以GlobeLand30地表覆盖数据产品为验证数据,利用混淆矩阵,得到基于POI的GlobeLand30地表覆盖数据产品的验证精度,实现顾及POI空间异质性的地表覆盖精度验证。
本发明的有益效果:
本发明提出了一种顾及POI数据空间异质性的地表覆盖验证方法,利用所述基于POI文本信息的POI分类方法,根据地表覆盖的分类标准,对不同类型的POI进行分类;针对POI在非城市区域的空间异质性的问题,构建所述顾及POI空间异质性的POI分类修正模型,得到顾及空间异质性的POI分类结果;继而基于POI分类结果,利用多数投票法,生成地表覆盖格网数据,从而用于顾及POI空间异质性的地表覆盖分类精度验证。
附图说明
图1为北京地区新浪微博POI分布示意图;
图2为城市区域与非城市区域POI划分结果示意图;
图3(a)为所有POI与村庄的最短距离示意图;
图3(b)为所有POI与道路的最短距离示意图;
图4为基于多数投票法的地表覆盖类型分布示意图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
为了对本发明的技术特征、目的和效果有更加清楚的理解,现以北京地区的新浪微博POI数据和GlobeLand30地表覆盖数据为例,对照附图说明本发明的具体实施方式。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
本发明所提出的一种顾及POI数据空间异质性的地表覆盖验证方法,所述方法用于基于POI的地表覆盖验证;所述地表覆盖验证方法包括基于文本信息的POI分类和顾及空间异质性的POI分类修正模型;所述方法包括如下步骤:
A、所述地表覆盖分类方法从新浪微博开放平台获取北京市POI数据集,使用OpenStreetMap(OSM)提供的城区建筑物数据与POI进行叠加,划分出城市区域与非城市区域的POI,并利用人工检核的方式修正划分结果;
通过编写网络爬虫,利用新浪微博开放平台(网址)中获取POI(网址)的API接口,获得包括地理坐标、类型等属性的POI数据141745条,作为地表覆盖验证的数据源。其中,POI数据部分属性如表1所示。
表1新浪微博POI数据部分属性
针对POI数据分布不均的问题,本专利利用北京地区OMS建筑物数据,将POI划分为城市区域和非城市区域。具体实施步骤如下:
a.依据POI数据中经度与纬度两个属性,将POI进行空间可视化,从而进一步分析北京地区POI的空间分布特征。POI空间分布如图1所示;
b.将北京地区OSM城区建筑物数据与POI数据进行叠加分析,以此作为划分城市区域POI与非城市区域POI的依据,与城区建筑物叠加的POI数据划分为城市区域的POI,未与城区建筑物叠加的POI数据划分为非城市区域的POI;
c.由于OSM城区建筑物数据为众源地理数据,难以保证数据覆盖北京地区的所有城市区域,故采用人工检核的方式,依据北京市遥感影像数据修正城市区域与非城市区域POI的划分结果。城市区域与非城市区域POI划分结果如图2所示。
B、针对步骤A中确定的城市区域与非城市区域的POI,依据所述基于文本信息的POI分类方法,根据地表覆盖的分类标准,对不同类型的POI进行分类,得到城市区域的POI分类结果。
所述基于文本信息的POI分类方法实施步骤如下:
如表2所示,提取POI的类型属性这种文本信息作为分类依据,以GlobeLand30中的地表覆盖分类作为POI的分类标准。依照基于文本信息的POI分类结果,统计各类型POI数据占比。未识别分类由于无法应用于地表覆盖验证,故被剔除;草地和水体所对应的POI数量过少,仅占POI总数的0.91%和0.03%,故不作为验证数据。因此,本专利基于文本信息的POI分类结果,利用GlobeLand30为人造地表的POI数据,将其重分类为人造地表与非人造地表。其中,城市区域POI将被直接用于地表覆盖中人造地表的分类精度验证。
表2基于文本信息的POI分类结果
C、针对步骤A中确定的非城市区域POI,由于POI分布范围广、数据稀疏、具有空间异质性的特点,在步骤B所述POI分类的基础上,引入两个分类结果修正变量:POI与村庄的最近距离、POI与道路的最近距离,利用C5.0决策树算法构建所述顾及POI空间异质性的POI分类修正模型,得到非城市区域的POI分类结果;
顾及空间异质性的POI分类修正模型构建方法实施步骤如下:
a.引入两个分类结果修正变量:POI与村庄的最近距离、POI与道路的最近距离,利用OSM中北京地区的村庄数据与道路数据,计算各非城市区域POI到距离最近的村庄和道路的最短距离。POI到村庄的最短距离Dv计算公式如下。
其中,Px,Py分别为POI的坐标经度和坐标纬度,Vx,Vy则为村庄所在位置的经纬度。
POI距离道路的最短距离Dr计算如下.
其中,A、B、C为计算道路的可调参数。
两分类结果修正变量的统计结果如图3(a)、图3(b)所示。POI与村庄的最短距离多集中于2000m内,与道路的最短距离多集中于100m内,而零散分布于远离村庄与道路的POI,由于空间异质性的影响,不应作为人造地表的验证数据源,应被分为非人造地表的POI。故本专利将引入C5.0决策树算法,构建顾及空间异质性的POI分类修正模型。
b.利用C5.0决策树算法,引入步骤a.所述分类结果修正变量,构建顾及空间异质性的POI分类修正模型。
C5.0决策树算法基于信息熵计算POI数据集S中各分类结果中POI类型分布状况。信息熵的值越大,表示数据集包含POI类型越多,反之越少。信息熵的计算公式如下。
其中,c为基于POI数据集S划分的不同类别,pi为落入每一类POI的概率。pi的计算公式如下。
其中,ni为落入每一类POI的数量。
为准确将POI进行分类,C5.0决策树算法引入信息增益(Gain)修正为分类结果,具体计算公式如下。
Gain(A)=Entropy(S1)-Entropy(S2) (5)
其中,A为POI数据集S的用于分类的属性,即为各非城市区域POI到距离最近的村庄和道路的最短距离。S1、S2分别为经过分类前与分类后的数据集S。分类后数据集S2的信息熵计算公式如下。
尽管C5.0决策树算法能够基于信息熵的计算实现POI的自动分类,但为实现地表覆盖分类模型的优化以及提高属于人造地表的POI分类的准确率,本专利引入adaptiveboosting算法和惩罚矩阵(cost matrix)进行分类修正模型的优化。
c.通过引入adaptive boosting算法和惩罚矩阵(cost matrix)进行分类修正模型的优化。
adaptive boosting算法通过构建多个决策树分类模型及计算每个决策树分类模型的权重,构建最优地表覆盖分类器。假设POI数据集S中有n个数据样本,adaptiveboosting算法旨在构建T个决策树,每一轮决策树训练t中得到的决策树为Ct,为第t轮决策树训练中POI样本i的权重。同时,用于adaptive boosting算法的指示函数(indicatorfunction)定义如下。
adaptive boosting算法参数初始化使得t=1,C5.0决策树算法在每一次训练中都会减少其训练误差,其中,训练误差函数如下。
基于训练误差函数εt的每个决策树权重αt定义如下。
更新第t轮决策树训练中POI样本i的权重如下。
得到每轮决策树训练中POI样本i的权重后,最终的adaptive boosting算法的最优分类器构建如下。
其中,CT即为基于adaptive boosting算法的地表覆盖最优分类器。
为提高属于人造地表的POI分类的准确率,本专利引入惩罚矩阵(cost matrix),提高POI被错误分类为人造地表的代价,降低POI被错误分类为非人造地表的代价。惩罚矩阵构建如下。
分类为非人造地表 分类为人造地表
非人造地表 0 m
人造地表 n 0
由惩罚矩阵可知,POI被正确分类时的代价均为0,属于人造地表的POI被错误分类到非人造地表时,代价为n,属于非人造地表的POI被错误分类到人造地表时,代价为m。
d.利用顾及空间异质性的POI分类修正模型,将经过步骤B文本分类的北京地区18925个非城市区域的POI进一步分类。由于C5.0决策树算法为监督分类算法,故本专利将遥感影像分类结果作为POI正确分类,并将POI划分为训练数据与测试数据,构建顾及空间异质性的POI分类修正模型。表3为经过文本分类后的POI训练数据与测试数据及其分类正确率。
表3 POI训练数据与测试数据及其正确率
Adaptive boosting算法迭代错误率如表4.
表4 Adaptive boosting算法迭代错误率
迭代数 | 决策树数量 | 错误率 |
0 | 5 | 25.20% |
1 | 2 | 24.70% |
2 | 4 | 23.50% |
3 | 4 | 24.50% |
4 | 5 | 36.90% |
5 | 4 | 24.60% |
6 | 6 | 36.80% |
7 | 2 | 23.40% |
8 | 2 | 24.90% |
9 | 3 | 22.20% |
10 | 20.40% |
依据表4各迭代数的错误率,本专利采用10次迭代数来优化C5.0决策树模型。
此外,惩罚矩阵定义如下。
分类为非人造地表 分类为人造地表
非人造地表 0 4
人造地表 1 0
错误分类为人造地表的代价为错误分类为非人造地表的代价的4倍,以此提高人造地表的分类精度。
基于POI分类修正模型的训练数据分类结果与测试数据数据分类结果如表5、表6所示。
表5基于POI分类修正模型的训练数据分类结果
表6基于POI分类修正模型的测试数据分类结果
D、根据步骤B、C确定的城市区域与非城市区域POI分类结果,生成以30m*30m像元为单位的栅格,依据落入栅格中各类型POI的数量,利用多数投票算法,确定每个栅格的地表覆盖类型,生成基于POI的地表覆盖分类结果;
为了进行GlobeLand30地表覆盖分类精度的验证,需要将POI数据转换为与GlobeLand30分辨率相同的以30m*30m的像元为单元的栅格数据。由于栅格数据精度限制,落入同一栅格的POI所属地表覆盖类型可能不会完全相同,故本专利多数投票算法,确定每个栅格的地表覆盖类型,生成基于POI的地表覆盖分类结果。
计算每个栅格单元中中各类型POI的数量,存储单元v用来存储当前正在计算的POI类型,并定义计数器k,当前计算的POI类型与上一个POI类型相同时,计数器数目加1,否则,计数器k数目减1,直到k的值归零。当k的值为0时,当前正在计算的POI类型为存储单元v中的POI类型。基于多数投票法生成66058个代表不同地表覆盖类型的栅格单元,其地表覆盖空间分布分布如图4所示。
E、根据步骤D基于POI的地表覆盖分类结果,以GlobeLand30地表覆盖分类产品为验证数据,利用混淆矩阵,得到基于POI的GlobeLand30地表覆盖分类产品的验证精度,实现所述顾及POI空间异质性的地表覆盖精度验证。
基于混淆矩阵的验证方法定义如下。
其中AC(accuracy)表示人造地表识别结果的精度,TP(true positive)表示被模型预测为人造地表的正确样本,TN(true negative)表示被模型预测为非人造地表的错误样本,FP(false positive)表示被模型预测为人造地表的错误样本,FN(false negative)表示被模型预测为非人造地表的正确样本。
对GlobeLand30人造地表的分类精度验证结果见表7。
表7人造地表分类精度验证
本发明提出了一种顾及POI数据空间异质性的地表覆盖验证方法,利用所述基于POI文本信息的POI分类方法,根据地表覆盖的分类标准,对不同类型的POI进行分类;针对POI在非城市区域的空间异质性的问题,构建所述顾及POI空间异质性的POI分类修正模型,得到顾及空间异质性的POI分类结果;继而基于POI分类结果,利用多数投票法,生成地表覆盖栅格数据,从而用于顾及POI空间异质性的地表覆盖分类精度验证。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (10)
1.顾及POI数据空间异质性的地表覆盖验证方法,其特征是,包括如下步骤:
步骤A:从新浪微博开放平台获取POI数据集,将OSM(OpenStreetMap)提供的城区建筑物数据与POI数据集进行叠加,划分出城市区域与非城市区域的POI,对划分结果进行修正;
步骤B:根据地表覆盖分类标准,对步骤A中确定的城市区域POI进行分类,得到城市区域的POI分类结果;
步骤C:针对步骤A中确定的非城市区域POI,依据步骤B中城市区域POI的分类方法,对非城市区域不同类型的POI进行分类,得到非城市区域的POI分类结果;
在POI分类的基础上,引入两个分类结果修正变量:POI与最近村庄的距离、POI与最近道路的距离,利用C5.0决策树算法构建顾及POI空间异质性的POI分类修正模型,得到非城市区域的POI分类结果;
步骤D:根据步骤B确定的城市区域POI分类结果和步骤C确定的非城市区域POI分类结果,生成以30m*30m像元为单位的栅格数据,依据落入栅格中各类型POI的数量,采用多数投票算法,确定每个栅格的地表覆盖类型,生成基于POI的地表覆盖分类结果;
步骤E:根据步骤D基于POI的地表覆盖分类结果,以GlobeLand30地表覆盖数据产品为验证数据,利用混淆矩阵,得到基于POI的GlobeLand30地表覆盖数据产品的验证精度,实现顾及POI空间异质性的地表覆盖精度验证。
2.如权利要求1所述的顾及POI数据空间异质性的地表覆盖验证方法,其特征是,所述步骤A包括:
步骤A1:从新浪微博开放平台获取POI数据集:利用其开放平台提供的API接口,以网络爬虫的方式,获取所需POI数据集,所述POI数据集包括描述POI类型的文本信息与表示空间位置的坐标信息;
步骤A2:利用ArcGIS软件将OSM城区建筑物数据与POI点数据进行空间叠加,使得同一地理坐标下的POI与城区建筑物位于同一空间位置;
步骤A3:通过判断POI点数据是否落入城区建筑物数据,来划分城市区域POI与非城市区域POI;若落入则为城市区域POI,若没有落入,则为非城市区域POI;
步骤A4:对划分结果进行人工修正:通过参考Google Earth中高分辨率遥感影像里的真实地物,对步骤A3中划分错误的POI进行修改。
3.如权利要求1所述的顾及POI数据空间异质性的地表覆盖验证方法,其特征是,所述根据地表覆盖分类标准:参照GlobeLand30中的地表覆盖类型的分类方式,将地表覆盖分为耕地、林地、草地、灌木丛、沼泽、水体、苔原、人造地表、裸地、冰川10种地表覆盖类型。
4.如权利要求1所述的顾及POI数据空间异质性的地表覆盖验证方法,其特征是,所述利用C5.0决策树算法构建顾及POI空间异质性的POI分类修正模型,得到非城市区域的POI分类结果的步骤为:
(C1)引入两个分类结果修正变量:POI与最近村庄的距离、POI与最近道路的距离,利用OSM中待测区域的村庄数据与道路数据,计算各非城市区域POI到距离最近的村庄和道路的最短距离;
(C2)利用C5.0决策树算法,引入步骤(C1)所述分类结果修正变量,构建顾及空间异质性的POI分类修正模型;
(C3)通过引入adaptive boosting算法和惩罚矩阵cost matrix进行分类修正模型的优化;
(C4)利用顾及空间异质性的POI分类修正模型,将经过步骤C得到的非城市区域的POI分类结果进一步分类。
5.如权利要求4所述的顾及POI数据空间异质性的地表覆盖验证方法,其特征是,由于C5.0决策树算法为监督分类算法,故将遥感影像分类结果作为POI正确分类,并将POI划分为训练数据与测试数据,构建顾及空间异质性的POI分类修正模型。
6.如权利要求1所述的顾及POI数据空间异质性的地表覆盖验证方法,其特征是,步骤E中,利用混淆矩阵的验证方法定义如下:
其中,AC(accuracy)表示人造地表识别结果的精度,TP(true positive)表示被模型预测为人造地表的正确样本,TN(true negative)表示被模型预测为非人造地表的错误样本,FP(false positive)表示被模型预测为人造地表的错误样本,FN(false negative)表示被模型预测为非人造地表的正确样本。
7.如权利要求4所述的顾及POI数据空间异质性的地表覆盖验证方法,其特征是,
POI到最近的村庄的最短距离Dv计算公式如下:
其中,Px为POI的坐标经度,Py为POI的坐标纬度,Vx为村庄所在位置的坐标经度,Vy为村庄所在位置的坐标纬度;
POI距离最近的道路的最短距离Dr计算如下:
其中,A、B、C为计算道路的可调参数。
8.如权利要求4所述的顾及POI数据空间异质性的地表覆盖验证方法,其特征是,步骤(C2):
C5.0决策树算法基于信息熵计算POI数据集S中各分类结果中POI类型分布状况;
信息熵的值越大,表示数据集包含POI类型越多,反之越少;
信息熵的计算公式如下:
其中,c为基于POI数据集S划分的不同类别,pi为落入每一类POI的概率;i为POI数据集的类别;
pi的计算公式如下:
其中,ni为落入每一类POI的数量;
为准确将POI进行分类,C5.0决策树算法引入信息增益Gain修正为分类结果,具体计算公式如下:
Gain(A)=Entropy(S1)-Entropy(S2) (5);
其中,A为POI数据集S的用于分类的属性,即为各非城市区域POI到距离最近的村庄和道路的最短距离;S1、S2分别为经过分类前与分类后的数据集S;分类后数据集S2的信息熵计算公式如下:
9.如权利要求4所述的顾及POI数据空间异质性的地表覆盖验证方法,其特征是,步骤(C3)的步骤为:
adaptive boosting算法通过构建多个决策树分类模型及计算每个决策树分类模型的权重,构建最优地表覆盖分类器;
假设POI数据集S中有n个数据样本,adaptive boosting算法旨在构建T个决策树,每一轮决策树训练t中得到的决策树为Ct,为第t轮决策树训练中POI样本i的权重;同时,用于adaptive boosting算法的指示函数indicator function定义如下:
adaptive boosting算法参数初始化使得t=1,C5.0决策树算法在每一次训练中都会减少其训练误差,其中,训练误差函数如下:
基于训练误差函数εt的每个决策树权重αt定义如下:
更新第t轮决策树训练中POI样本i的权重如下:
得到每轮决策树训练中POI样本i的权重后,最终的adaptive boosting算法的最优分类器构建如下:
其中,CT即为基于adaptive boosting算法的地表覆盖最优分类器;
为提高属于人造地表的POI分类的准确率,引入惩罚矩阵(cost matrix),提高POI被错误分类为人造地表的代价,降低POI被错误分类为非人造地表的代价;惩罚矩阵构建如下:
分类为非人造地表 分类为人造地表
非人造地表 0 m
人造地表 n 0
由惩罚矩阵可知,POI被正确分类时的代价均为0,属于人造地表的POI被错误分类到非人造地表时,代价为n,属于非人造地表的POI被错误分类到人造地表时,代价为m。
10.顾及POI数据空间异质性的地表覆盖验证系统,其特征是,包括:
划分模块:从新浪微博开放平台获取POI数据集,将OSM(OpenStreetMap)提供的城区建筑物数据与POI数据集进行叠加,划分出城市区域与非城市区域的POI,对划分结果进行修正;
第一分类模块:根据地表覆盖分类标准,对划分模块中确定的城市区域POI进行分类,得到城市区域的POI分类结果;
第二分类模块:针对划分模块中确定的非城市区域POI,依据第一分类模块中城市区域POI的分类方法,对非城市区域不同类型的POI进行分类,得到非城市区域的POI分类结果;
在POI分类的基础上,引入两个分类结果修正变量:POI与最近村庄的距离、POI与最近道路的距离,利用C5.0决策树算法构建顾及POI空间异质性的POI分类修正模型,得到非城市区域的POI分类结果;
分类结果生成模块:根据第一分类模块确定的城市区域POI分类结果和第二分类模块确定的非城市区域POI分类结果,生成以30m*30m像元为单位的栅格数据,依据落入栅格中各类型POI的数量,采用多数投票算法,确定每个栅格的地表覆盖类型,生成基于POI的地表覆盖分类结果;
验证精度获取模块:根据分类结果生成模块基于POI的地表覆盖分类结果,以GlobeLand30地表覆盖数据产品为验证数据,利用混淆矩阵,得到基于POI的GlobeLand30地表覆盖数据产品的验证精度,实现顾及POI空间异质性的地表覆盖精度验证。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710113124.4A CN106845559B (zh) | 2017-02-28 | 2017-02-28 | 顾及poi数据空间异质性的地表覆盖验证方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710113124.4A CN106845559B (zh) | 2017-02-28 | 2017-02-28 | 顾及poi数据空间异质性的地表覆盖验证方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106845559A true CN106845559A (zh) | 2017-06-13 |
CN106845559B CN106845559B (zh) | 2019-09-24 |
Family
ID=59137437
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710113124.4A Expired - Fee Related CN106845559B (zh) | 2017-02-28 | 2017-02-28 | 顾及poi数据空间异质性的地表覆盖验证方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106845559B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108376183A (zh) * | 2017-12-29 | 2018-08-07 | 武汉大学 | 一种基于最大熵原理的城市ca模型构建方法 |
CN108717676A (zh) * | 2018-04-23 | 2018-10-30 | 深圳市数字城市工程研究中心 | 基于多数据融合的不同尺度下的职住空间评价方法及系统 |
CN108764193A (zh) * | 2018-06-04 | 2018-11-06 | 北京师范大学 | 融合poi和遥感影像的城市功能区划分方法 |
CN109508585A (zh) * | 2017-09-15 | 2019-03-22 | 中国科学院城市环境研究所 | 一种基于poi和高分辨率遥感影像提取城市功能区的方法 |
CN109635069A (zh) * | 2018-12-21 | 2019-04-16 | 北京航天泰坦科技股份有限公司 | 一种基于信息熵的地理空间数据自组织方法 |
CN109840452A (zh) * | 2017-11-28 | 2019-06-04 | 中国移动通信集团浙江有限公司 | 一种栅格覆盖场景自动识别方法及装置 |
CN110348506A (zh) * | 2019-07-03 | 2019-10-18 | 广州大学 | 基于遥感图像的土地利用分类方法、存储介质和计算设备 |
CN111191628A (zh) * | 2020-01-06 | 2020-05-22 | 河海大学 | 基于决策树与特征优化的遥感影像震害建筑物识别方法 |
CN115577294A (zh) * | 2022-11-22 | 2023-01-06 | 深圳市规划和自然资源数据管理中心(深圳市空间地理信息中心) | 一种基于兴趣点空间分布和语义信息的城市区域分类方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1619596A (zh) * | 2003-08-01 | 2005-05-25 | 索尼株式会社 | 地图显示系统、地图数据处理装置、地图显示装置和方法 |
US20110072005A1 (en) * | 2007-09-10 | 2011-03-24 | Vechersky Alexander | Nearest-Neighbor Geographic Search |
US8533146B1 (en) * | 2011-04-29 | 2013-09-10 | Google Inc. | Identification of over-clustered map features |
CN105138668A (zh) * | 2015-09-06 | 2015-12-09 | 中山大学 | 基于poi数据的城市商业中心与零售业态集聚区识别方法 |
-
2017
- 2017-02-28 CN CN201710113124.4A patent/CN106845559B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1619596A (zh) * | 2003-08-01 | 2005-05-25 | 索尼株式会社 | 地图显示系统、地图数据处理装置、地图显示装置和方法 |
US20110072005A1 (en) * | 2007-09-10 | 2011-03-24 | Vechersky Alexander | Nearest-Neighbor Geographic Search |
US8533146B1 (en) * | 2011-04-29 | 2013-09-10 | Google Inc. | Identification of over-clustered map features |
CN105138668A (zh) * | 2015-09-06 | 2015-12-09 | 中山大学 | 基于poi数据的城市商业中心与零售业态集聚区识别方法 |
Non-Patent Citations (2)
Title |
---|
邢汉发 等: "《地理信息博客模型实现》", 《测绘科学》 * |
马京振 等: "《河南省GlobeLand30数据精度评价及对比分析》", 《地球信息科学》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109508585A (zh) * | 2017-09-15 | 2019-03-22 | 中国科学院城市环境研究所 | 一种基于poi和高分辨率遥感影像提取城市功能区的方法 |
CN109840452A (zh) * | 2017-11-28 | 2019-06-04 | 中国移动通信集团浙江有限公司 | 一种栅格覆盖场景自动识别方法及装置 |
CN108376183A (zh) * | 2017-12-29 | 2018-08-07 | 武汉大学 | 一种基于最大熵原理的城市ca模型构建方法 |
CN108376183B (zh) * | 2017-12-29 | 2021-04-02 | 武汉大学 | 一种基于最大熵原理的城市ca模型构建方法 |
CN108717676B (zh) * | 2018-04-23 | 2021-07-06 | 深圳市数字城市工程研究中心 | 基于多数据融合的不同尺度下的职住空间评价方法及系统 |
CN108717676A (zh) * | 2018-04-23 | 2018-10-30 | 深圳市数字城市工程研究中心 | 基于多数据融合的不同尺度下的职住空间评价方法及系统 |
CN108764193A (zh) * | 2018-06-04 | 2018-11-06 | 北京师范大学 | 融合poi和遥感影像的城市功能区划分方法 |
CN108764193B (zh) * | 2018-06-04 | 2022-02-01 | 北京师范大学 | 融合poi和遥感影像的城市功能区划分方法 |
CN109635069A (zh) * | 2018-12-21 | 2019-04-16 | 北京航天泰坦科技股份有限公司 | 一种基于信息熵的地理空间数据自组织方法 |
CN109635069B (zh) * | 2018-12-21 | 2021-08-10 | 北京航天泰坦科技股份有限公司 | 一种基于信息熵的地理空间数据自组织方法 |
CN110348506A (zh) * | 2019-07-03 | 2019-10-18 | 广州大学 | 基于遥感图像的土地利用分类方法、存储介质和计算设备 |
CN111191628A (zh) * | 2020-01-06 | 2020-05-22 | 河海大学 | 基于决策树与特征优化的遥感影像震害建筑物识别方法 |
CN115577294A (zh) * | 2022-11-22 | 2023-01-06 | 深圳市规划和自然资源数据管理中心(深圳市空间地理信息中心) | 一种基于兴趣点空间分布和语义信息的城市区域分类方法 |
CN115577294B (zh) * | 2022-11-22 | 2023-03-24 | 深圳市规划和自然资源数据管理中心(深圳市空间地理信息中心) | 一种基于兴趣点空间分布和语义信息的城市区域分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106845559B (zh) | 2019-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106845559B (zh) | 顾及poi数据空间异质性的地表覆盖验证方法及系统 | |
Reichenbach et al. | A review of statistically-based landslide susceptibility models | |
Wu et al. | Mapping building carbon emissions within local climate zones in Shanghai | |
CN106919680B (zh) | 一种利用poi数据进行地表覆盖分类的方法及系统 | |
CN111401692B (zh) | 一种度量城市空间功能紧凑度的方法 | |
Di Sabatino et al. | Construction of digital elevation models for a southern European city and a comparative morphological analysis with respect to Northern European and North American cities | |
CN108090624B (zh) | 一种改进元胞自动机的城市生态安全模拟与预测的方法 | |
CN113360587B (zh) | 一种基于gis技术的土地测绘设备及测绘方法 | |
CN110458333A (zh) | 一种基于POIs数据的人口空间分布预测方法及系统 | |
CN108647721A (zh) | 基于网络图片自动识别的地表覆盖验证方法及系统 | |
Biljecki et al. | Raise the roof: Towards generating LOD2 models without aerial surveys using machine learning | |
CN114398951A (zh) | 一种基于随机森林和众源地理信息的土地利用变化驱动因子挖掘方法 | |
CN113516060B (zh) | 基于多时相高分辨率数据的建筑空间融合判别方法及装置 | |
CN112148821B (zh) | 一种城市混合职住空间计算方法和系统 | |
Guo-an et al. | Evaluation on the accuracy of digital elevation models | |
CN117610872A (zh) | 一种户外健身设施供需适配度智能化评测方法及系统 | |
CN113610346B (zh) | 基于多源数据的村庄发展潜力评价及村庄分类方法及装置 | |
CN113344247B (zh) | 一种基于深度学习的电力设施选址预测方法与系统 | |
Niu | Estimating housing vacancy rate in Qingdao city with NPP-VIIRS nighttime light and geographical national conditions monitoring data | |
CN115457386A (zh) | 一种村庄用地信息化生成方法 | |
CN115619275A (zh) | 一种铁路工程生态修复决策方法和装置 | |
Yu et al. | Research on site classification method based on BP neural network | |
Smith et al. | Map Comparison Methods for Three‐Dimensional Space and Time Voxel Data | |
Khoshoui et al. | Analyzing the homogeneity of the paired catchments using the fractal dimension of the drainage network and catchment shape | |
CN116644809B (zh) | 一种集成地理大数据和机器学习的城镇开发边界划定方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190924 |