赞
踩
随着城市化进程的加速,住房问题日益成为城市居民关注的焦点。公租房作为政府为解决中低收入家庭住房困难而推出的一种重要住房保障形式,其租金水平、居住条件及租住体验直接关系到广大租户的切身利益和生活质量。因此,深入研究公租房租金满意度的影响因素,不仅有助于提升公租房的管理和服务水平,还能为政府制定更加科学合理的住房政策提供有力支持。
近年来,数据分析与可视化技术在社会科学领域的应用日益广泛,为复杂问题的研究提供了强有力的工具。Python作为一种功能强大的编程语言,凭借其丰富的数据处理库和可视化工具,成为了数据分析领域的首选工具之一。本文旨在利用Python的回归、聚类及相关分析等方法,对上海地区公租房租金满意度的影响因素进行深入探讨,并通过数据可视化的方式直观展示分析结果,以期为相关政策制定者和管理者提供有价值的参考。
这份数据集涵盖了上海地区公租房租户的多方面信息,既有个人基本信息、工作与生活状况,也有对租住体验及政策看法的详细调查。
df = pd.read_excel(file_path)
# 显示数据的前几行以了解其结构
df.head()
根据提供的数据,我们可以从以下几个方面进行分析:
我将首先创建饼图,然后逐步进行其他类型的图表。
python复制
# 选择适合绘制饼图的分类变量 - 例如“您的性别.”
gender_counts = df['您的性别.'].value_counts()
# 绘制饼图
plt.figure(figsize=(8, 8))
plt.pie(gender_counts, labels=gender_counts.index, autopct='%1.1f%%', startangle=140, colors=normalized_colors[:2])
plt.title('性别分布')
plt.show()
饼图 - 性别分布
接下来,创建环状直方图来展示数值变量的分布。
环状直方图 - 平均月收入分布
接下来,进行数据分析。
分析公租房的分布特点与就业热点区域之间的空间关系。
这里我们使用“您的工作所在地”和“您的平均月收入”作为代表。
居住空间与通勤成本的关联
接下来,继续分析交通设施与通勤效率,以及政策效应评估的部分。
分析公共交通系统的覆盖程度、运营效率及对群体通勤的便利性
这里我们使用“您平时常使用的主要交通工具是”作为代表
transport_modes = df[['您平时常使用的主要交通工具是.1', '您平时常使用的主要交通工具是.2', '您平时常使用的主要交通工具是.3']]
# 统计各种交通工具的使用频率
transport_counts = transport_modes.apply(pd.Series.value_counts).fillna(0)
transport_counts = transport_counts.sum(axis=1)
# 绘制交通工具使用频率的分布图
plt.figure(figsize=(10, 6))
sns.barplot(x=transport_counts.values, y=transport_counts.index)
plt.title('主要交通工具使用频率')
plt.xlabel('人数')
plt.ylabel('交通工具')
plt.show()
- **主要交通工具使用频率**:图表展示了受访者主要使用的交通工具及其使用频率。可以看出,地铁是最受欢迎的交通工具,其次是出租车和私家车。这表明地铁在通勤效率上可能具有明显优势,而其他交通方式则根据个人偏好和实际情况有所不同。
接下来,进行政策效应评估的分析。
分析公租房政策对通勤成本的影响,这里我们使用“您对公租房租住体验满意吗.租金”作为代表
政策效应评估
综合以上分析,我们可以得出以下结论和建议:
这些分析和建议有助于上海实现更加“以人为本”的城市化进程,提升外来群体的生活品质。
变量间关系:探索不同变量之间的相关性,如年龄与婚姻状况、月收入与公租房租金、通勤时间与交通费用等。这有助于揭示变量之间的潜在联系和因果关系。 通勤与居住条件:分析通勤时间、交通费用与居住地点(如工作所在地、公租房位置)、房型等变量之间的关系,了解居住条件对通勤效率的影响。
首先,我将重新处理数据,确保特征和目标变量被正确处理。然后,我将使用相关性分析来探索不同变量之间的相关性。由于数据中存在一些缺失值,我将首先处理这些缺失值,然后构建模型。处理缺失值的常用方法包括删除含有缺失值的行或用某种策略填充缺失值。在这里,我将选择删除含有缺失值的行。
接下来,我将进行以下步骤:
相关性分析的结果已经可视化。从热图中可以看出不同变量之间的相关性系数。相关性系数的范围是-1到1,其中1表示完全正相关,-1表示完全负相关,0表示没有相关性。
首先,重新处理数据,确保特征和目标变量被正确处理。然后,将使用多元线性回归模型来分析影响租住者对公租房满意度的因素。由于数据中存在一些缺失值,我将首先处理这些缺失值,然后构建模型。处理缺失值的常用方法包括删除含有缺失值的行或用某种策略填充缺失值。在这里,我将选择删除含有缺失值的行。
接下来,进行以下步骤:
python复制 # 数据清洗和特征工程 # 1. 处理收入水平,将其转换为数值类型 data['收入水平'] = data['您的平均月收入是.'].apply(process_income) # 2. 房型编码 data['房型编码'] = label_encoder.fit_transform(data['您租住的公租房房型是.']) # 3. 家庭结构特征:家庭人数、工作人数、就学人数、退休人数 data['工作人数'] = data['您在上海居住的家庭结构是.其中工作人数..'] data['就学人数'] = data['您在上海居住的家庭结构是.其中就学人数..'] data['退休人数'] = data['您在上海居住的家庭结构是.其中退休人数..'] # 4. 满意度处理:将满意度转换为数值类型(这里简化处理,实际应用中可能需要更复杂的转换方式) def process_satisfaction(satisfaction_str): satisfaction_mapping = {'非常满意': 5, '满意': 4, '一般': 3, '不满意': 2, '非常不满意': 1} return satisfaction_mapping.get(satisfaction_str, None)
对于租住者满意度模型:
模型的评估指标显示决定系数(R²)为0.196,这表明模型只解释了约19.6%的目标变量的变异。
首先,我将选择一些可能适合进行聚类的变量,然后使用KMeans算法进行聚类分析。最后,我将可视化聚类结果,并输出模型参数。
由于数据集较大,包含多个变量,我将选择几个代表性的变量进行聚类分析。
从上图中,我们可以看到KMeans聚类分析的结果。图中的点代表不同的数据点,颜色表示它们所属的聚类。可以看出,数据被分为三个不同的聚类。
模型参数(聚类中心) :
模型误差(Inertia) :1345.55
通过KMeans聚类分析,我们可以看到数据在“平均月收入”和“工作所在地”两个维度上的聚类情况。不同的聚类可能代表了不同的收入和工作地点特征的人群。这有助于我们更好地理解数据中的不同群体。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。