install.packages("nycflights13") #安装数据包> library(dply..._dep_delay">
赞
踩
今天想和大家讨论的问题是:飞机航行距离和延误时间有没有关系呢?我们的数据是R 中nycflights13包的航班数据。好了,搬好小板凳,我们要开始分析了。
> install.packages("dplyr") #安装数据处理包 > install.packages("nycflights13") #安装数据包 > library(dplyr) #载入安装的数据处理包 > library(nycflights13) #载入安装的数据包 > flights # A tibble: 336,776 x 19 year month day dep_time sched_dep_time dep_delay arr_time sched_arr_time <int> <int> <int> <int> <int> <dbl> <int> <int> 1 2013 1 1 517 515 2 830 819 2 2013 1 1 533 529 4 850 830 3 2013 1 1 542 540 2 923 850 4 2013 1 1 544 545 -1 1004 1022 5 2013 1 1 554 600 -6 812 837 6 2013 1 1 554 558 -4 740 728 7 2013 1 1 555 600 -5 913 854 8 2013 1 1 557 600 -3 709 723 9 2013 1 1 557 600 -3 838 846 10 2013 1 1 558 600 -2 753 745 # ... with 336,766 more rows, and 11 more variables: arr_delay <dbl>, carrier <chr>, # flight <int>, tailnum <chr>, origin <chr>, dest <chr>, air_time <dbl>, # distance <dbl>, hour <dbl>, minute <dbl>, time_hour <dttm>
观察运行的程序能够得知所要分析的数据有336776行19列,包括航班日期:year,month、day;起飞延迟时间:dep_delay(以分为单位);到达延迟时间:arr_delay(分);航行距离:distance(英里);目的地:dest等数据。其实那么多数据,只选择足够分析问题的数据就好了。
数据处理之前,再看下分析目标:航班距离和到达延误时间的关系。
与分析目标相关的字段有:包括航班日期:year,month、day;起飞延迟时间:dep_delay(单位:分);到达延迟时间:arr_delay(单位:分);航行距离:distance(单位:英里);目的地:dest。
选择子集
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。