多元统计分析——层次聚类方法_层次聚类代码案例

作者：Li_阴宅 | 2024-07-01 01:35:32

踩

层次聚类代码案例

一、代码实现与示例

1. 代码实现

from scipy.cluster.hierarchy import dendrogram, linkage,fcluster

◆ z=linkage(y, method=’single’, metric=’euclidean’) # 聚类结果

➢ y: 数据矩阵 ,

➢ method: 衡量簇与簇之间的远近程度的方法，主要有 ‘single:’ ：最小距

离； ‘complete’ ：最大距离； ‘average’ ：平均距离

➢ Metric 距离度量 : ， ’l1’ ， ’l2’ ， ’mantattan’ ， ’cosine’ ， ’precomputed’ 等

◆ fcluster(z, t=k, criterion=‘maxclust’)# 定义小类聚集准则

➢ Z 代表 Z 是 linkage 得到的矩阵 , 记录了层次聚类的层次信息

➢ t 为类的个数 , criterion='maxclust‘or ‘maxclust_monocrit’

➢ t 为阈值 , criterion= ‘inconsistent’, ‘distance’ or ‘monocrit’

◆ dendrogram(Z) # 制作谱系图

2. 代码示例


from scipy.cluster.hierarchy import dendrogram, linkage,fcluster
from matplotlib import pyplot as plt
X = [[1,2],[3,2],[4,4],[1,2],[1,3]]
Z = linkage(X, 'ward')
f = fcluster(Z,4,'distance')
fig = plt.figure(figsize=(5, 3))
dn = dendrogram(Z)
plt.show()

二、实验作业

案例一：世界银行样本数据集

创建世界银行的一个主要目标是对抗和消除贫困。在这个不断发展的世界中，世界银行持续的发展并精细地调整它的政策，已经帮助这个机构逐渐实现了消除贫困的目标。消除贫困的成果以下指标的改进衡量，这些指标包括健康、教育、卫生、基础设施以及其他需要用于改进穷人生活的服务。与此同时，发展成果必须保证以一种环保的、全社会的、经济可持续的方式达成。

1. 准备工作

为了进行层次聚类，我们需要使用从世界银行收集的数据集 WBClust2013.csv 。

2. 数据预处理

利用 DataFrame.head(5) 方法查看数据的前几行，发现各变量取值的量纲不一致，需要利用归一化数据的数据分析手段。

3. 模型训练

样本间距离 ：尝试使用的距离度量可以是欧式距离、最大距离、曼哈顿距离、堪培拉距离、二进制距离或闵可夫斯基距离。

类间距离： 使用离差平方和 (WARD) 或者类平均法等方法。

4. 绘制模型

5. 对比实验

选择不同的样本间举例或类间距离并观察聚类后的谱系图的变化情况

案例二：世界银行样本数据集

1999 ～ 2010 年， 33000 平方英里（ 85500 平方公里），即 2.8% 的亚马逊雨林被烧毁。这一结果是被 NASA 领导的研究项目发现的。该研究的主要目的是衡量森林树冠下暗火的蔓延程度。该研究发现火灾烧毁的森林比用于农耕而砍伐的森林面积大很多。然而，森林烧毁情况和火灾之间没有建立起联系。如何建立火灾和森林烧毁情况之间的联系，需要基于 NASA 的 Aqua 卫星上的大气红外探测仪（AIRS ）设备的湿度数据。火灾频率与夜间的低湿度相吻合，低湿度使得地表的低强度火灾能够持续燃烧。

2.1 准备工作

为了进行层次聚类，我们应该使用采集于亚马逊雨林（ 1999 ～ 2010 年）的数据集。NASAUnderstory.csv