赞
踩
【空间统计学习笔记】一、基本概念入门理解
【空间统计学习笔记】二、空间分布模式
物以类聚,人以群分。——周易
监督学习v.s.非监督学习
监督学习:从给定的已有标记
(类别)的数据集中,按照特定目标训练(学习、总结、拟合…)出一个函数,当新数据过来的时候,通过这个函数对数据进行分门别类。
监督学习常见于分类问题,如SVM、决策树等。
非监督学习:给定的数据集没有标记,也(可以)不设定结果和目标,由计算机按照一定的算法和流程,自己去决定如何去做。
例如,Kmeans聚类、DBSCAN聚类等。
常见的聚类算法有以下七大类:
1.基于划分的算法:k-means、PAM、CLARA、CLARANS、K-modes、ISODATA、FCM
2.基于层次的算法:BIRCH、CURE、CHAMELEON、AMOEBA、MSCMO
3. 基于密度的算法:DBSCAN、GDBSCAN、ST-DBSCAN、OPTICS、DENCLUE、SNN
4. 基于图论的方法:MST、AUTOCLUST、2-MSTClus
5. 基于模型的算法:EM、SOM、GEO-SOM
6. 基于网格的算法:STING、WareCluster
7. 基于混合的算法:NN-Density、CSM
聚类数越多越好?
错,类别数越多,细节越多。
在空间聚类中,相关性的度量,以临近关系强弱程度为核心。
空间关系是客观存在的,不以人的意志所转移。
空间分布特征决定了聚类的结果。
空间聚类可以分为两类:仅考虑空间位置信息 和 兼顾空间位置与专题属性。
兼顾空间位置与属性的聚类:局部空间自相关
局部空间自相关原理:
首先算出两个值:空间滞后值 和 标准化观测值。
以上“加权”的权,就是指空间权重。
算出以上两个值后,就可以将数据分成四个象限:
LL 和 HH 是聚集,而HL 和 LH属于离散。
局部莫兰指数
下面四张图,每一列的点要素相同,但是根据空间关系(临近关系)得出的空间分布结论不同。
在第一列的第一张图中,橙色的点周围共有6个点,而仅有一个橙色的点,1/6。
而在第二张图中,橙色的点邻接的都是蓝色的点,出现了LH型,属于离散。
可见,空间分布不仅仅取决于 位置,更与选择空间关系 息息相关。
注:高值是橙色,低值是蓝色。
例如,北京路网不仅仅承担了北京市内的交通压力,而且承担了华北地区通行的压力。例如从张家口到沧州,最快的路径就是绕行北京市的四环线。资源严重不均。
中国不同城市的GDP数据
100公里固定距离
高值聚集:仅苏州
低值聚集有海口、酒泉等。
150公里固定距离
200公里固定距离 等,太原对周边的虹吸效应,比较严重。
在异常值分析时,常用固定距离,“距离窗口”
1.莫兰指数结果超限的问题
有时计算的结果是莫兰指数超出-1到1之间
==答:==在莫兰指数分析中,设定空间权重矩阵时,有一个专门的选项,叫做行标准化(row选项),开启这个选项后,会对空间邻接的权重进行标准化。
2.分析样本数量的问题
为什么空间自相关软件建议样本数量在30个以上?
答: 30个是一个经验公式,最早出现在t检验中。莫兰指数在对样本进行检验时,采用的是Z检验,也就是说,需要样本量大于30.如果样本小于30个,得到的结果是:分析结论可能不可靠。
3.线要素是否可以进行空间自相关分析
4.只有空间位置,没有属性信息,可不可以做莫兰指数?
答: 不能直接用无(数值型)属性信息的空间数据做莫兰指数计算,因为空间自相关分析中,是空间信息和属性信息的共同作用。
5.不同软件计算结果不一致的问题
同一份数据,在GeoScene、GeoDa、R(spdep), Python(pysal)里面,计算的结果都不一致?这是为什么?最后应该以谁为准?
答: 首先检查他们各自使用的空间关系概念化模型,建议统一采用空间权重矩阵(文件)的方式,以方便对比。
6.莫兰指数还可以在哪些场合使用?
答: 莫兰指数号称空间统计学第一指路标,它几乎在所有空间统计算法里面都有应用:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。