当前位置:   article > 正文

2022 年首届“钉钉杯”大学生大数据挑战赛B题:航班数据分析与预测——国奖论文代码分享_2022钉钉杯优秀论文

2022钉钉杯优秀论文

2023年的钉钉杯挑战赛马上要来了~这里给大家分享一下去年的国奖论文思路与代码

摘要:

        随着民航事业的迅速发展 , 飞机出行已成为未来发展的一种必然趋势,然而近年来, 航班延误现象频频发生,成为困扰机场和航空公司的难题。对航班延误做出合理评价是 分析航班延误总体水平、降低延误成本,以及制定相关处置预案的重要基础,有着重要 的现实运用价值。
        针对机场聚类分析问题的第一部分,首先按照题目要求的五种属性对原始数据集进 行预处理和计算,整理成 2006-2008 年所有航班数据涉及的全部机场属性数据集。在进行聚类分析前,我们采用霍普金斯统计量判断数据集的聚类趋势,计算得到该值为 0.94 , 十分接近于 1 ,即可以认为数据集具有较好的聚集特性,适于采用聚类方法。接着,我们分别采用 k-means 聚类、层次聚类、 DBSCAN 聚类方法基于计算出的五种属性对机场进行分类讨论,并采用轮廓系数对聚类结果进行评价与比较。结果得出,K-means 聚类方法对于该问题的聚类效果最好,机场在五个维度的属性变量下被分为了四类。
      针对机场聚类分析问题的第二部分,首先需要基于 2006-2008 年的航班信息和机场数据进行特征属性的提取。综合考虑机场的延误情况、航班特征和地理位置,人工筛选以及计算出若干属性变量,接着利用低方差过滤的方法剔除方差过小的属性,得到 21个机场属性特征。然后对 21 个属性进行因子分析,提取出 5 个公因子,分别反映机场的出发延误属性,到达延误属性,航班起落属性,地理属性和航班异常属性。对其进行层次聚类分析,结合聚类结果及一致性聚类分析判断出机场被分成 4
本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
  

闽ICP备14008679号