当前位置:   article > 正文

用pandas进行数据分析实战_cut_word

cut_word

安装pandas模块包,载入练习数据。

在pandas中,常用的载入函数是read_csv。除此之外还有read_excel和read_table,table可以读取txt。若是服务器相关的部署,则还会用到read_sql,直接访问数据库,但它必须配合mysql相关包。

read_csv拥有诸多的参数,encoding是最常用的参数之一,它用来读取csv格式的编码。这里使用了gb2312,该编码常见于windows,如果报错,可以尝试utf-8。

sep参数是分割符,有些csv文件用逗号分割列,有些是分号,有些是\t,这些都需要具体设置。header参数为是否使用表头作为列名。

names参数可以为列设置额外的名字,比如csv中的表头是中文,但是在pandas中最好转换成英文。

通过输出我们可以看到其表格的行与列数,但由于篇幅原因,显示中部分数据省略。我们可以通过调整展示的长度及宽度显示更多文件信息。

因为数据集的数据比较多,如果我们只想浏览部分的话,可以使用head函数,显示头部的数据,默认5,也可以自由设置参数,如果是尾部数据则是tail。

不设置head函数参数,输出结果如下:

设置head函数参数值为7,结果输出如下:

不设置tail函数参数,输出结果如下: 

设置tail函数参数为6,输出结果如下: 

检查是否有重复数据,其中positionId是职位ID,具备唯一性,我们通过此列进行重复数据检查。

我们得到唯一值只有5031个,但根据表格共有6876个数据,我们需要将重复数据清除。

使用drop_duplicates清除重复数据。

drop_duplicates函数通过subset参数选择以哪个列为去重基准。keep参数则是保留方式,first是保留第一个,删除后余重复值,last还是删除前面,保留最后一个。duplicated函数功能类似,但它返回的是布尔值。

接下来处理salary薪资数据。计算出薪资下限以及薪资上限。薪资内容没有特殊的规律,既有小写k,也有大K,还有k以上等用法,k以上只能上下限默认相同。

这里需要用到pandas中的apply。它可以针对DataFrame中的一行或者一数据进行操作,允许使用自定义函数。

定义一个cut_word函数,它查找「-」符号所在的位置,并且截取薪资范围开头至K之间的数字,也就是我们想要的薪资上限。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家自动化/article/detail/342845
推荐阅读
相关标签
  

闽ICP备14008679号