当前位置:   article > 正文

【空间统计学习笔记】三、聚类与空间聚类_空间聚类和空间聚合的区别

空间聚类和空间聚合的区别

空间统计学习笔记 系列文章

【空间统计学习笔记】一、基本概念入门理解
【空间统计学习笔记】二、空间分布模式



一、聚类

物以类聚,人以群分。——周易

监督学习v.s.非监督学习

  1. 监督学习:从给定的已有标记(类别)的数据集中,按照特定目标训练(学习、总结、拟合…)出一个函数,当新数据过来的时候,通过这个函数对数据进行分门别类。
    监督学习常见于分类问题,如SVM、决策树等。
    在这里插入图片描述

  2. 非监督学习:给定的数据集没有标记,也(可以)不设定结果和目标,由计算机按照一定的算法和流程,自己去决定如何去做。
    例如,Kmeans聚类、DBSCAN聚类等。
    在这里插入图片描述
    常见的聚类算法有以下七大类:
    1.基于划分的算法:k-means、PAM、CLARA、CLARANS、K-modes、ISODATA、FCM
    2.基于层次的算法:BIRCH、CURE、CHAMELEON、AMOEBA、MSCMO
    3. 基于密度的算法:DBSCAN、GDBSCAN、ST-DBSCAN、OPTICS、DENCLUE、SNN
    4. 基于图论的方法:MST、AUTOCLUST、2-MSTClus
    5. 基于模型的算法:EM、SOM、GEO-SOM
    6. 基于网格的算法:STING、WareCluster
    7. 基于混合的算法:NN-Density、CSM
    聚类数越多越好?
    错,类别数越多,细节越多。

二、空间聚类

1.传统聚类vs空间聚类

在这里插入图片描述

2.空间聚类的理论基础

(1)相似度的度量

在空间聚类中,相关性的度量,以临近关系强弱程度为核心。

  • 空间临近的多样性
    几何距离度量 V.S. 可达性度量
    在这里插入图片描述

(2)空间关系

空间关系是客观存在的,不以人的意志所转移。

  • 空间关系的客观性

(3)空间概率

空间分布特征决定了聚类的结果。

  • 地理要素的空间分布特征决定了 聚类仅在某种特定情况下会发生
  • 聚类在自然条件下是小概率事件。(离散和聚类 是小概率事件)
    在这里插入图片描述

3.空间聚类算法

空间聚类可以分为两类:仅考虑空间位置信息 和 兼顾空间位置与专题属性。

(1)仅考虑空间位置的聚类

在这里插入图片描述

(2)兼顾空间位置与专题属性的聚类

在这里插入图片描述
兼顾空间位置与属性的聚类:局部空间自相关

  • 局部空间自相关,是通过局部关系从观察值以及他们的空间上的相邻来进行计算的。
  • 如果将整体关系破坏掉,那么就可以以此来计算每一个组成部分的局部空间自相关。
  • 这种局部的空间自相关,可以用来检验聚类区域,也可以用来验证观察值聚集的热点以及冷点。

局部空间自相关原理:
首先算出两个值:空间滞后值 和 标准化观测值。

  • 空间滞后值(spatial lag) :该要素周围邻居的观测值加权平均。
    滞后原指的是,时间上的落后和延迟。通常是从时间角度解释滞后变量:把变量的前期值,即带有滞后作用的变量称为滞后变量。
    在空间领域,在传统计量方法模型加入空间关系进行考量,所以空间滞后即,周边区域对研究区的影响
  • 标准化观测值:取该要素周围邻居的观测值进行标准化,然后进行加权平均。

以上“加权”的权,就是指空间权重。
算出以上两个值后,就可以将数据分成四个象限:
在这里插入图片描述
LL 和 HH 是聚集,而HL 和 LH属于离散。

局部莫兰指数

  • 局部莫兰指数是全局莫兰指数的组成部分。
  • I i = ( y i − y ˉ ) ∑ j = 1 n w i j ( y j − y ˉ ) ∑ i = 1 n n I_i=\frac{(y_i-\bar{y}) {\textstyle \sum_{j=1}^{n}w_{ij}(y_j-\bar{y})} } {\frac{ {\textstyle \sum_{i=1}^{n}} }{n} } Ii=ni=1n(yiyˉ)j=1nwij(yjyˉ)
  • 其中 y ˉ \bar y yˉ是所有样本的均值,假设它具有权威代表性。
  • 我们可以从预期值与计算值之间的差异,来计算局部统计数据的状态。

4.包围的概念

下面四张图,每一列的点要素相同,但是根据空间关系(临近关系)得出的空间分布结论不同。
在这里插入图片描述
在第一列的第一张图中,橙色的点周围共有6个点,而仅有一个橙色的点,1/6。
而在第二张图中,橙色的点邻接的都是蓝色的点,出现了LH型,属于离散。
可见,空间分布不仅仅取决于 位置,更与选择空间关系 息息相关。
注:高值是橙色,低值是蓝色。

三、案例:利用局部莫兰指数来探索中国城市群发展情况

1.背景知识:城市群与中心地理论

  • 20世纪30年代,德国的经济地理学家克里斯泰勒(Christaller)首次提出中心地理论,对地理上相邻的城市间等级体系的形机制展开了讨论。
  • 中心地理论在20世纪60年代,对人文地理、经济地理、城市规划、区域规划等学科的发展起到决定性的作用,所以克里斯泰勒被欧美地理学界称之为"理论地理学之父".
  • 它是研究城市群和城市化的基础理论之一,也是西方马克思主义地理学的建立基础之一。

2.中心地理理论基础

  • 各要素均质分布: 自然条件、资源、人口、收入、需求均为均质分布
  • 交通条件相同: 交通条件相同,所有的距离和运费成正比
  • 中心成本价格一致: 相同商品和服务的价格在所有中心地的价格均一致
  • 遵循就近原则: 所有需求均利用中心位置,一切都遵循就近原则

3.中心城市资源论示例

例如,北京路网不仅仅承担了北京市内的交通压力,而且承担了华北地区通行的压力。例如从张家口到沧州,最快的路径就是绕行北京市的四环线。资源严重不均。

4.数据说明

中国不同城市的GDP数据

5.空间位置的聚类

在这里插入图片描述

4.不同尺度的聚类与异常分析

100公里固定距离
在这里插入图片描述
高值聚集:仅苏州
低值聚集有海口、酒泉等。

150公里固定距离
在这里插入图片描述
200公里固定距离 等,太原对周边的虹吸效应,比较严重。
在异常值分析时,常用固定距离,“距离窗口”

四、莫兰指数小结

1.莫兰指数结果超限的问题
有时计算的结果是莫兰指数超出-1到1之间
==答:==在莫兰指数分析中,设定空间权重矩阵时,有一个专门的选项,叫做行标准化(row选项),开启这个选项后,会对空间邻接的权重进行标准化。

2.分析样本数量的问题
为什么空间自相关软件建议样本数量在30个以上?
答: 30个是一个经验公式,最早出现在t检验中。莫兰指数在对样本进行检验时,采用的是Z检验,也就是说,需要样本量大于30.如果样本小于30个,得到的结果是:分析结论可能不可靠。

3.线要素是否可以进行空间自相关分析

  • GeoScene软件支持用线图层做空间自相关(GeoDa不支持线要素),但是仅支持下面几种空间权重模式:
    . 反距离模式
    . 反距离平方模式
    . 距离范围模式
    . 无差别区域模式
    . 自定义权重文件模式
  • 注意:直接用距离模式的话,在GeoScene软件里面线与线的距离,用的中心点之间的距离,所以可能导致认知上的不一致,为了更好计算,建议自定义空间权重矩阵的方式来做
    空间自相关一般是对点、面数据来做。

4.只有空间位置,没有属性信息,可不可以做莫兰指数?
答: 不能直接用无(数值型)属性信息的空间数据做莫兰指数计算,因为空间自相关分析中,是空间信息和属性信息的共同作用。

  • 如果只有空间位置信息(比如一堆点),可以做空间聚类或者密度分析。
  • 如果这些点表示某种事件,比是一起疾病病例,或者是一起刑事案件,那么可以把点规约到面要素上面进行技术,如行政区划或者网格。

5.不同软件计算结果不一致的问题
同一份数据,在GeoScene、GeoDa、R(spdep), Python(pysal)里面,计算的结果都不一致?这是为什么?最后应该以谁为准?
答: 首先检查他们各自使用的空间关系概念化模型,建议统一采用空间权重矩阵(文件)的方式,以方便对比。

  • 其次,如果所有软件的空间权重阵的结果完全一致的情况下,计算出来的结果,可能只是小数位数上的细微差距,不会出现定性上的不同。(如果出现了定性上的误差,需要具体去分析数据和软件的情况)
  • 第三:以上软件在工业界和学术界均被认可,所以在发布成果的时候,只要声明你采用的软件平台和参数模型即可。

6.莫兰指数还可以在哪些场合使用?
答: 莫兰指数号称空间统计学第一指路标,它几乎在所有空间统计算法里面都有应用:

  • 首先,探索空间数据是否具备一定的分布特征,是莫兰指数的主要能力,也是它得以存在的意义,前面已经说过的度量经济空间分布特征随着时间的变化发生的变化,就是主要的应用之一,那么同样,也可以用来研究人口、民族、社会生活等等其他的方面。
  • 其次,在任何需要探索合适距离的场合,都可以用:
    • 在做聚类的时候,最关键的是选择聚类合适距离,那么你就可以用莫兰指数来进行探索。
    • 又或是做插值分析的时候,寻找多大距离内的点来进行插值,也很重要,那么你也可以用莫兰指数来进行探索。
  • 然后,还可以度量某些数据随着空间的变化发生的一些规则,比如总结某种社会舆情、疾病疫情等的趋势是否随空间和时间变化的传播情况﹣﹣这些观点、疾病或趋势是继续保持隔离和集中呢,还是已经传播开并变得更加分散了。
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/知新_RL/article/detail/234646
推荐阅读
相关标签
  

闽ICP备14008679号