赞
踩
2020中国高校计算机大赛——华为云大数据挑战赛(以下简称“大赛”)是由清华大学、中国人工智能学会和华为技术有限公司联合举办,华为云和北京信息科学与技术国家研究中心提供支持,以企业真实场景和实际数据为基础,面向全球开放的高端算法竞赛。大赛旨在通过竞技的方式,提升人们对数据分析与处理的算法研究与技术应用能力,探索大数据的核心科学与技术问题,尝试创新大数据技术,推动大数据的产学研用。
比赛链接
正式赛题——船运到达时间预测
在企业全球化业务体系中,海运物流作为其最重要的一项支撑。其中,船运公司会和数据供应公司进行合作,对运输用的船通过GPS进行定位以监控船的位置;在运输管理的过程中,货物到达目的港的时间是非常重要的一项数据,那么需要通过船运的历史数据构建模型,对目的港到达时间进行预测,预测时间简称为ETA(estimated time of arrival),目的港到达时间预测为ARRIVAL_ETA。
本次大赛提供历史运单GPS数据、历史运单事件数据、港口坐标数据,预测货物运单的到达时间,对应“历史运单事件”数据中EVENT_CODE字段值为ARRIVAL AT PORT时EVENT_CONVOLUTION_DATE的时间值。
主办方提供四类数据:历史运单GPS数据,测试运单数据,港口坐标数据以及历史运单事件数据。因为最后一类数据是人工录入的,所以误差较大,在整个比赛过程中并未使用。
数据量大小:训练集约1.5亿条GPS数据,运单数量约几万条
测试集约几万条GPS数据,有200多条运单数量
1、数据集来自华为实际业务,所以数据十分的脏乱
2、数据集有1.5亿条,对配置要求较高
3、对于一些运单,它并不只是从起点到终点的航线,可能中转了很多国家地点,导致预测的难度提升
4、对于船运来说,可能会存在塞港,停港,使得船运到达时间不可预测
5、赛题并没有给定标签,所以需要自己打标
这次比赛的数据并不是传统的时序问题,即过去预测未来。但数据的测试集的时间也在训练集之内,所以是单一时序问题。
这次的比赛由于是华为的工业数据集,数据集非常的脏,如订单重复:因为训练集中有很多是同一时刻同一船运的不同订单,所以gps数据的信息是相同的,我们只需保留一条数据最多的;路由缺失、经纬度异常、速度航向异常,同时数据集又非常庞大,所以数据清洗是这次比赛的关键。除了一些基本的去重,删除离群点,删除缺失值多的行列之外。还要把船的航运轨迹在世界地图上画出来,我使用的是python的一个库叫geopandas。
通过画图可以看出,有些运单实际开往的目的地和标签上的目的地并不相同,以及有些运单开到一半,它的GPS数据就丢失了,有些航线非常的稀疏,有些航线并没有按照正常轨迹执行,这些异常的数据都可以进行删除。
通过观察发现,有些运单速度已经为0,即已经到达目的港口,但是方向在不断变化,推测可能是在港口不断调整船向以便入港,根据官方的解释说明,这种情况已经算到港,所以可以删除运单尾部速度为0的数据。
import numpy as np def distance(LatA,LatB,LonA,LonB): EARTH_RADIUS = 6378.137 # 千米 def rad(d): return d * np.pi/ 180.0 s=0 radLatA = rad(LatA) radLatB = rad(LatB) a = radLatA-radLatB b = rad(LonA)-rad(LonB) s= 2 * np.arcsin(np.sqrt(np.power(np.sin(a / 2),2)+ np.cos(radLatA) * np.cos(radLatB)*np.power(np.sin(b / 2),2))) s=s* EARTH_RADIUS # 保留两位小数 s = np.round(s * 100)/100 s = s * 1000 # 转换成m return s
建模的方法有两种,一对运单进行建模,可以很容易将轨迹特征融入模型,但某条运单如果预测偏差大,对结果影响很大。对采样点进行建模,可以对预测结果进行平均,能使预测误差较稳定,我使用的是后一种方法。同时这个比赛标签需要自己给定,我给定的标签是当前GPS点的时间减去出发点的时间差作为便签。
因为是比赛,所以为了提升分数,所以我选择对训练集中和测试集轨迹相似的样本做训练,虽然这样做会影响模型的泛化性,但确实可以提升分数。
预测的模型我使用的目前最比赛很普遍使用的lightGBM5折交叉验证,当然其他的模型如XGBoost,随机森林,神经网络等我也都有过尝试,但是效果并不是很理想。同时,因为评价指标是MSE,即均方误差,所以模型融合是非常有必要的,我选择的是把根据一个运单的第一条数据和最后一条数据分别去预测然后把结果融合,当然融合的方法有很多种,事实证明,模型融合能显著的提高分数
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。