赞
踩
需要本项目的可以私信博主!!!!
出租车服务在任何时间、路线和停车点上都不受约束,人们的现代生活方式也趋向于选择这样直接、无障碍的出行方式。借助Python编程语言进行数据分析,我们对杭州市的出租车GPS数据进行了各项处理,包括数据导入、预处理和可视化分析。我们从时间和空间两个维度出发,分析了出租车在哪些时段、哪些地方的乘车需求最高。这些分析结果对出租车公司调整车辆分布、司机优化载客策略,以及乘客选择乘车地点以减少等车时间等方面都具有重要的参考价值。
设计流程
GPS数据导入 |
数据处理 |
数据清洗 |
数据变换 |
特征提取 |
数据分析 |
数据介绍
图3-1 前五行数据
图3-2 前五行数据
数据中主要字段代表名称如表3-1所示。
表3-1 字段含义
字 段 | 字段名称 | 备注 |
UNIQUEID | 编号 | |
Company | 出租车公司 | |
DeviceID | 车辆id | |
Heading | 行车方向 | |
Speed | 车辆速度 | 单位为:km/h |
BJ-Longitude | 经度 | 经度(北京为标准) |
BJ-Latitude | 维度 | 维度(北京为标准) |
TimeStamp | 时间 | |
Status | 车辆状态 | 0:为空载,1:为载客 |
数据预处理是数据分析与数据挖掘中一步很重要的操作。
通过数据清洗,可以去除不必要的数据,去除重复的数据,并且去除那些不符合分析目标的数据,从而有效地提取出有价值的信息。处理缺失值、异常值等。
(1)删除重复数据
(2)删除缺失值行无效数据
(3)删除只有一个值的变量
(4)删除速度值异常数据
(1)经度和纬度标准化
(2)时间标准化
通过对出租车不同时刻的速度、车流量和出租车热点位置主要这三方面分析在何时间段,何地打车人数最多等信息。
皮尔逊相关系数
通过提取出租车运行的时间和速度,对采用的杭州市出租车数据,绘制一个平均速度可视化折线图如图4-2所示。
平均速度
关键代码如下:
- from dateutil.parser import parse
-
- #复制TimeStamp为time提取小时
-
- df['time'] = df.TimeStamp
-
- df['hour'] = [x.strftime('%H') for x in df.time] #提取时间的小时数
-
- .......................
不同公司的出租车数量图
交通流量统计图
关键代码如下:
- import matplotlib.pyplot as plt
-
- from datetime import datetime
-
- from dateutil.parser import parse
-
- #复制TimeStamp为time提取小时
-
- df['time'] = df.TimeStamp
-
- .......................
乘客乘车热点区域的空间分布通常都具规律性,比如火车、高铁站,商场,体育或娱乐休闲场所和大学校园附近的乘坐率较高。
图4-5 出租车热力散点图
空间热力图
(2)选取晚上10点以后的出租车位置,绘制了散点图
图4-7 22点后出租车热力散点图
22点后出租车空间热力图
(3)样本车辆轨迹路线
样本出租车轨迹图
出租车载客热力散点图
载客热点区域空间热力图
本次研究的基于Python的出租车GPS数据分析已经快要结束了。在完成这次毕业设计过程中,从完成选题后通过本文绪论部分,得出了本文需要对出租车GPS数据进行时间和空间上的分析。接下来对杭州市出租车GPS数据进行导入,通过一系列的数据预处理,得到有效分析的数据。提取时间、速度、数量通过Matplotlib进行绘图可视化分析,综合得出在白天7点到15点,晚上19点到23点,这两个时间段打车人数可能较多。提取出租车的经纬度,通过地图可视化工具Folium绘制出出租车载客热点区域,可以看出在杭州市的拱墅区、西湖区、上城区、滨江区和萧山国际机场出租车行驶主要分布在这些地方,其中最集中的是拱墅区,因此在这些区域打车的人数可能比较多。
做事需要有长远的思考才能走的远
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。