当前位置:   article > 正文

Python办公自动化学习笔记(三)—Python与数据分析_pandas自动识别家庭地址列

pandas自动识别家庭地址列

一、 利用Pandas进行租房数据统计分析

1. pandas简介

Pandas 是 Python 语言的一个扩展程序库,用于数据分析。

Pandas 是一个开放源码、BSD 许可的库,提供高性能、易于使用的数据结构和数据分析工具。

Pandas 名字衍生自术语 "panel data"(面板数据)和 "Python data analysis"(Python 数据分析)。

Pandas 一个强大的分析结构化数据的工具集,基础是 Numpy(提供高性能的矩阵运算)。

Pandas 可以从各种文件格式比如 CSV、JSON、SQL、Microsoft Excel 导入数据。

Pandas 可以对各种数据进行运算操作,比如归并、再成形、选择,还有数据清洗和数据加工特征。

Pandas 广泛应用在学术、金融、统计学等各个数据分析领域。

2. 安装pandas

pip install pandas

3. 安装openpyxl

pip install openpyxl

4. 实例:利用Pandas处理Excel

  1. import pandas as pd
  2. import os
  3. excel_path = '%s\\house.xlsx' % (os.getcwd())
  4. house = pd.read_excel(excel_path)
  5. # print(house.shape) # shape关键获取表格的行数和列数,打印结果:(9869, 18)
  6. # print(house.楼盘名称)#打印表格汇总表头是“楼盘名称”列的值
  7. # '''需求1:统计房租最贵/最便宜的前五个数据'''###################################
  8. house.房租 = house.房租.str.split('元', expand=True)[0].astype('int')
  9. # 统计房租最贵的前5个数据
  10. # print(house.sort_values('房租').tail(5))
  11. # 统计房租最便宜的前5个数据
  12. # print(house.sort_values('房租').head(5))
  13. # 返回最初行:head()
  14. # 返回最后行:tail()
  15. # '''需求2:统计北京每个区域发不了多少条租房信息'''###################################
  16. total = house.区域.value_counts() # 返回区域关联的数据行数,默认降序
  17. # print(total)
  18. # '''需求3:从数据中筛选出房租大于28万的'''###################################
  19. # print(house[house.房租 >= 280000]['房租'])
  20. len(house[house.房租 >= 280000])
  21. # '''需求4:统计比较受欢迎的租金价格'''###################################
  22. hot_counts = house.房租.value_counts() # 房租价格出现的次数
  23. top_counts = hot_counts[hot_counts >= 100].index # 房租价格出现100次及以上的数据
  24. # print(top_counts)
  25. # '''需求5:统计北京每个区域平均租金是多少'''###################################
  26. rate = house.groupby('区域').房租.mean().sort_values(ascending=False)
  27. # print(rate) #打印每个区域的平均租金
  28. # goupby 分组; mean() 平均值;
  29. # '''需求6:按地区分割成若干个Excel文件'''###################################
  30. area_list = house['区域'].unique() # 去重,变成列表
  31. # print(area_list)
  32. # isin 过滤,对数据进行抽取
  33. for i in area_list:
  34. data = house[house['区域'].isin([i])]
  35. # data.to_excel(i+'.xlsx',index=False,encoding='utf-8')
  36. # '''需求7:把分隔好的10Excel文件合并在一起'''###################################
  37. path = 'D:\\PycharmProjects\\Python_Office_Auto\\Day7\\'
  38. dfs = [] # 定义一个空的列表,用来装10个Excel文件
  39. for j in area_list:
  40. dfs.append(pd.read_excel(path + j + '.xlsx'))
  41. # !!!!!!!pandas合并的函数:concat
  42. df = pd.concat(dfs)
  43. df.to_excel('area_10.xlsx', index=False)
  44. # '''需求8:清除部分相同的数据,保留最后一个录入的数据'''###################################
  45. house_5 = house.loc[:5] # 从house中读取5条数据
  46. house_5.to_excel('house_5.xlsx', index=False) # 把读出来的5条数据放入表格中
  47. house_5_path = 'D:\\PycharmProjects\\Python_Office_Auto\\Day7\\house_5.xlsx'
  48. house_5 = pd.read_excel(house_5_path)
  49. # keep = 'first' 删除第一次出现的
  50. # keep = 'last' 删除最后一次出现的
  51. new_data = house_5.drop_duplicates(subset=['楼盘名称', '户型'], keep='first')
  52. print(new_data)

 二、 利用Pandas处理全量数据

1. Pandas 数据结构 - DataFrame

DataFrame 是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型值)。DataFrame 既有行索引也有列索引,它可以被看做由 Series 组成的字典(共同用一个索引)。

2.实例:去重、组合

以下代码中有用到numpy,需要提前安装好。安装命令:

pip3 install numpy scipy matplotlib -i https://pypi.tuna.tsinghua.edu.cn/simple

 NumPy(Numerical Python) 是 Python 语言的一个扩展程序库,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。

NumPy 最重要的一个特点是其 N 维数组对象 ndarray,它是一系列同类型数据的集合,以 0 下标为开始进行集合中元素的索引。

ndarray 对象是用于存放同类型元素的多维数组。

ndarray 中的每个元素在内存中都有相同存储大小的区域。

创建一个 ndarray 只需调用 NumPy 的 array 函数即可:

numpy.array(object, dtype = None, copy = True, order = None, subok = False, ndmin = 0)

参数说明:

名称描述
object数组或嵌套的数列
dtype数组元素的数据类型,可选
copy对象是否需要复制,可选
order创建数组的样式,C为行方向,F为列方向,A为任意方向(默认)
subok默认返回一个与基类类型一致的数组
ndmin指定生成数组的最小维度

 实例:

  1. import pandas as pd
  2. import numpy as np
  3. path = 'D:\\PycharmProjects\\Python_Office_Auto\\Day7\\全量.xlsx' # 定义文件路径
  4. ql = pd.read_excel(path) # 用pandas读取表格文件
  5. ##############把两列装到dataframe中##########
  6. # no.1 提取 描述、数字两个字段
  7. num_list = [str(x) for x in ql.数字.values]
  8. # print(num_list)
  9. # 列表生成式:把for和函数写在括号中。
  10. # 作用:生成一个全新的列表。
  11. # 示例
  12. # [i for i in range(3)] # 运行结果:[0,1,2]
  13. # 把 描述 列的值装到列表中
  14. # desc_list = [d for d in ql.描述.values]
  15. desc_list = ql.描述.values.tolist()
  16. # print(desc_list)
  17. # no.2 把两个列表装到DataFrame中
  18. df = pd.DataFrame({'描述': desc_list, '数字': num_list})
  19. # print(df) #验证dataframe数据结构
  20. ###################把描述进行分类,以描述和数字进行组合#################
  21. group_data = np.array(df.groupby(['描述']), dtype=None)
  22. group_num = len(group_data)
  23. # print(group_data[0]) # 一整个分类的数据,通过0,1,2来查询对应的分组
  24. # print(group_data[0][0]) # 只包含分类的名字
  25. # print(group_data[0][1]) # 只包含分类的数据
  26. # print(group_data[0][1]['描述']) # 只包含分类的数据里的描述字段和它的值
  27. # 创建一个空的字典
  28. dict_empty_desc = {}
  29. for j in range(group_num):
  30. num_group_list = [] # 定义空列表装分组的数字
  31. for i in group_data[j][1]['数字']:
  32. num_group_list.append(i)
  33. group_name = group_data[j][0]
  34. dict_empty_desc.update({group_name: num_group_list})
  35. # print(dict_empty_desc)
  36. ######################对原始全量数据进行去重##############################
  37. # 把dict_empty_desc里的list值拼接成字符串
  38. # 把拼接好的字符串,赋值给去重的数据的数据字段
  39. # 去重,保留第一行数据
  40. newdata = ql.drop_duplicates(subset=['描述'], keep='first')
  41. # 重置索引,连续的数据更好处理0,1,2
  42. newdata = newdata.reset_index(drop=True)
  43. # 把数字变成字符串,便于赋值处理
  44. newdata.数字 = newdata.数字.astype('str')
  45. # 验证被去重过的数据
  46. # print(newdata)
  47. # 把描述字段的值取出来,通过if判断
  48. # 如果去重数据里面的描述字段的值在dict_empty_desc里面
  49. # 就把dict_empty_desc里面的值拼接成123+233+2+3+4
  50. # {'abd':['123','233','2','3','4'],'卡卡':['8','4445','43434']}
  51. j = 0
  52. for i in newdata.描述:
  53. if i in dict_empty_desc.keys():
  54. str_desc_num_dict = '+'.join(dict_empty_desc[i])
  55. newdata.loc[j, '数字'] = str_desc_num_dict
  56. j = j + 1
  57. # print(newdata)
  58. newdata.to_excel('newdata.xlsx')

 三、 利用Openpyxl处理Excel与 利用Pyecharts生成可视化报告

1.  使用openyxl处理Excel:创建、插入、读取、删除

  1. # 安装:pip install openpyxl
  2. # 引入
  3. from openpyxl import Workbook
  4. # 创建工作簿
  5. workbook = Workbook()
  6. ws = workbook.active # 激活
  7. # 功能1:创建sheet工作表,起名,赋值
  8. def create_sheet():
  9. ws1 = workbook.create_sheet('Mysheet') # 创建工作表并起名
  10. ws12 = workbook.create_sheet('Mysheet1', 0)
  11. ws12.title = 'newMysheet1' # 修改sheet名称
  12. # 给工作表A1单元格赋值 32
  13. ws1['A1'] = 32
  14. # 给newMysheet1的A10单元格赋值为666
  15. ws12['A10'] = 666
  16. workbook.save('create_sheet.xlsx') # 保存
  17. # 功能2:给Excel表插入数据
  18. def insert_value():
  19. # 第一种插入方式
  20. ws['A1'] = '刘亦菲'
  21. ws['A2'] = '张韶涵'
  22. # 第二种插入方式
  23. ws.cell(row=4, column=2, value='赵丽颖')
  24. # 第三种插入方式
  25. ws.append([4, 5, 6]) # 在现有数据下方,按行追加
  26. workbook.save('insert_value.xlsx')
  27. # 功能3:获取并打印表格中数据
  28. from openpyxl import load_workbook
  29. def get_value():
  30. workbook2 = load_workbook('test.xlsx')
  31. ws2 = workbook2.active
  32. print(ws2['B4'].value)
  33. for row in ws2.iter_rows(min_row=1, max_row=2, min_col=1, max_col=2, values_only=True):
  34. print('打印Excel数据:', row) # ('杨幂!', '张小乐') 数据类型:元组,也可叫安全列表(元组中的值不允许修改)
  35. # 功能4:删除表格中的数据
  36. def del_value():
  37. workbook3 = load_workbook('test.xlsx')
  38. ws3 = workbook3.active
  39. ws3.delete_rows(4, 5) # 删除第4行到第5行
  40. ws3.delete_cols(3) # 删除第3列
  41. workbook3.save('del_value.xlsx')
  42. if __name__ == '__main__':
  43. # create_sheet()
  44. # insert_value()
  45. # get_value()
  46. del_value()

 2. 利用Pyecharts生成可视化报告:做统计图

安装:pip install pyecharts

 实例1:

  1. from pyecharts.charts import Bar
  2. from pyecharts import options as opts
  3. # 内置主题类型可查看 pyecharts.globals.ThemeType
  4. from pyecharts.globals import ThemeType
  5. from openpyxl import load_workbook
  6. # 读取表格数据
  7. def read_excel():
  8. wb = load_workbook('商品季度售卖表.xlsx')
  9. ws = wb.active
  10. # 创建四个列表,装四列数据
  11. shop_name_list = []
  12. first_count_list = []
  13. second_count_list = []
  14. third_count_list = []
  15. for row in ws.iter_rows(min_row=1, max_row=6, min_col=1, max_col=4, values_only=True):
  16. shop_name_list.append(row[0])
  17. first_count_list.append(row[1])
  18. second_count_list.append(row[2])
  19. third_count_list.append(row[3])
  20. shop_name_list.pop(0)
  21. first_count_list.pop(0)
  22. second_count_list.pop(0)
  23. third_count_list.pop(0)
  24. return shop_name_list, first_count_list, second_count_list, third_count_list
  25. def bar_base():
  26. name, first, second, third = read_excel()
  27. bar = (
  28. Bar(init_opts=opts.InitOpts(theme=ThemeType.LIGHT))
  29. .add_xaxis(name)
  30. .add_yaxis('第一周', first)
  31. .add_yaxis('第二周', second)
  32. .add_yaxis('第三周', third)
  33. .set_global_opts(title_opts=opts.TitleOpts(title="主标题", subtitle="副标题"))
  34. )
  35. # render():生成html文件
  36. return bar.render()
  37. if __name__ == '__main__':
  38. bar_base()

实例1的结果: 

还可以做饼状图、折线图等,详细可参考:
        https://pyecharts.org/#/zh-cn/quickstart

四、 Python的网络爬虫

1. 什么是爬虫

      爬虫:一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的信息。

2. 正确写爬虫代码的思路

  • 确定目标网址,查看robots文件(是否允许爬取的协议),比如:https://www.taobao.com/robots.txt
  • 确定目标网址里我们要抓取的内容
  • 发现某种规律
  • 按照规律,下载图片视频文本等
  • 将下载内容存储到文件夹、Excel、数据库等

3. 爬虫注意事项

  • 不要越权爬取网站本身禁止的内容
  • 不要使用高速,分布式爬虫这样会导致产生DDOS攻击行为
  • 抓取到大量的原创内容,不得随意发布和修改,商业发布一定要得到许可,并声明来源
  • 构成犯罪条件-对目标网站造成功能干扰、访问流量增大、系统响应缓慢,影响正常运营则触犯法律

4. 实例1:简单爬取页面

  1. # 安装:pip install requests
  2. # 引入
  3. import requests
  4. # 1. 访问同乐学堂首页,并返回请求数
  5. r = requests.get('http://www.ztloo.com')
  6. # 2. 判断获取请求是否成功
  7. print(r.status_code) # 200
  8. # 3. 判断请求的同乐学堂首页的内容的类型
  9. print(r.headers['content-type']) # text/html; charset=UTF-8
  10. # 4. 获取同乐学堂首页的文本(字符串)内容
  11. # print(r.text)
  12. # 5. 查看网站的编码
  13. print(r.encoding)
  14. ############################################################################
  15. # 6. 链接传参
  16. r1 = requests.get('http://www.ztloo.com', params={'s': 'python'})
  17. # 验证是否访问成功
  18. print(r1.status_code)
  19. # 查看最后访问的url
  20. print(r1.url) # 打印结果:http://www.ztloo.com/?s=python
  21. # 数据接口地址
  22. # http://www.ztloo.com/wp-json/wp/v2/posts?per_page=2
  23. # 接口内容详解:
  24. # id 文章id
  25. # date 文章发布日期
  26. # status 发布状态
  27. # link 前台文章地址
  28. # title 文章标题
  29. # content 文章内容
  30. # 返回json数据:通过基础数据结构进行嵌套,然后转换成字符串格式,进行数据的传输。
  31. ##############################################################################
  32. # 7. 访问同乐学堂json数据接口
  33. # http://www.ztloo.com/wp-json/wp/v2/posts?per_page=2
  34. params = {
  35. 'per_page': 2
  36. }
  37. url = 'http://www.ztloo.com/wp-json/wp/v2/posts'
  38. page = requests.get(url, params=params)
  39. b = page.json() # 把str的内容转换成list
  40. # 取出数据接口中的文章标题
  41. print(b[0]['title']['rendered']) # 打印结果:Pandas 的YYDS教程目录

5. 实例2:爬取网站,下载图片、翻页

  1. import time
  2. import requests
  3. from bs4 import BeautifulSoup
  4. import os
  5. import random
  6. # 定义url
  7. url = 'http://jandan.net/ooxx'
  8. # 定义头部
  9. headers = {
  10. 'referer': 'http://jiandan.net',
  11. 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'
  12. }
  13. # 定义变量:图片数量计数
  14. jpg_index = 0
  15. # 定义下载图片方法
  16. def get_jpg(url):
  17. # 将函数内容的变量定义为全局变量
  18. global jpg_index
  19. # 解析
  20. soup = BeautifulSoup(requests.get(url, headers=headers).text, 'lxml')
  21. # 查看网页源码,图片都有class属性,名称都为view_img_link。
  22. # 找到所有a标签中的图片
  23. img_list = soup.find_all('a', attrs={'class': 'view_img_link'})
  24. # 遍历图片列表
  25. for img in img_list:
  26. # 拼接图片链接
  27. img_url = 'http:' + img.get('href')
  28. # 爬虫限速,3~8s
  29. time.sleep(random.randint(3, 8))
  30. # 根据拼接的url解析页面
  31. r = requests.get(img_url)
  32. # 定义存储图片和路径和名称
  33. img_path = os.getcwd() + '\\images\\' + str(jpg_index + 1) + '.jpg'
  34. # 下载图片,存储
  35. with open(img_path, 'wb') as f:
  36. f.write(r.content)
  37. print('正在下载第%s条' % (jpg_index + 1))
  38. jpg_index += 1
  39. if __name__ == '__main__':
  40. # 定义一个循环,用于翻页
  41. for i in range(0, 2):
  42. # 执行下载图片的方法
  43. get_jpg(url)
  44. # 解析页面。找到【下一页】
  45. next_page = BeautifulSoup(requests.get(url, headers=headers).text, 'lxml').find('a', attrs={
  46. 'class': 'previous-comment-page'})
  47. # 如果有【下一页】,拼接下一页的URl,复制给全局变量URL
  48. if next_page != None:
  49. next_page_url = 'http:' + next_page.get('href')
  50. url = next_page_url # 更新url
  51. else:
  52. print('没有下一页存在,爬虫完成!')

6. 实例3:获取金融数据、股票信息

  • 安装读取股票数据函数库
  pip install pandas-datareader
  •  股票代码输入规则

        美股直接输入股票代码,如:BABA

        港股直接输入代码+对应股市,如腾讯:0700.hk

        国内股票需要区分上证和深证,股票代码后面加.ss或.sz

  1. from pandas_datareader import data
  2. # 阿里巴巴股票代码
  3. stocker_code = 'BABA'
  4. # 开始日期
  5. start_date = '2020-11-11'
  6. # 结束日期
  7. end_date = '2021-11-11'
  8. # 获取股票信息
  9. stocker_info = data.get_data_stooq(stocker_code, start_date, end_date)
  10. # 打印股票前五条信息
  11. print(stocker_info.head(5))
  12. # 打印股票后五条信息
  13. print(stocker_info.tail(5))
  14. # 把获取到的股票信息存到表格
  15. stocker_info.to_excel(stocker_code + '.xlsx')

注:上课的视频中用到的是get_data_yahoo,雅虎的不能用了,所以换成get_data_stooq

打印出的股票信息中表头的含义:

日期开盘价单股最高单独最低收盘价交易量
DateOpenHighLowCloseVolume

例子:抓股票信息,把收盘价生成折线图

  1. # 1. 引入库
  2. import pandas_datareader as data
  3. from pyecharts.charts import Line
  4. from pyecharts import options as opts
  5. # 2. 准备折线图的模板
  6. def fold_line():
  7. # 获取阿里巴巴2017双十一~2019双十一的股票信息
  8. alibaba = data.get_data_stooq('BABA', '2017-11-11', '2019-11-11')
  9. print(alibaba)
  10. # 获取,Adj Close的价格列表,作为统计图的Y轴 收盘价格
  11. adj_list = alibaba['Close'].values.tolist()
  12. # 获取,日期列表,作为统计图的X轴
  13. timelist = alibaba['Close'].index.tolist()
  14. # 日期列表
  15. date_list = []
  16. for i in timelist:
  17. date_list.append(i.strftime('%Y/%m/%d')) # 股票的日期时间格式化2019/11/11
  18. # 生成折线图
  19. c = (
  20. Line()
  21. .add_xaxis(date_list)
  22. .add_yaxis('收盘价格', adj_list, is_smooth=True)
  23. .set_global_opts(
  24. title_opts=opts.TitleOpts(title='阿里巴巴股票走势'),
  25. datazoom_opts=opts.DataZoomOpts()
  26. )
  27. )
  28. return c.render()
  29. if __name__ == '__main__':
  30. fold_line()

生成的折线图:

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/运维做开发/article/detail/834437
推荐阅读
相关标签
  

闽ICP备14008679号