当前位置:   article > 正文

python数据处理与分析案例,python如何进行数据处理_python数据处理案例

python数据处理案例

这篇文章主要介绍了基于python的数据处理案例,具有一定借鉴价值,需要的朋友可以参考下。希望大家阅读完这篇文章后大有收获,下面让小编带着大家一起了解一下。


pandas数据处理

1.合并数据

在这里插入图片描述

merge:按照指定的列把数据按照一定的方式合并到一起
默认的合并方式inner,交集
merge outer,并集,NaN补全
merge left,左边为准,NaN补全
merge right,右边为准,NaN补全

在这里插入图片描述

1) 堆叠合并

  1. #内连inner返回索引重叠部分,外连outer返回返回并集数据
  2. #1行对齐,0列对齐
  3. pd.concat([df1,df2],axis=1,join='inner')
  4. pd.concat([df1,df2],axis=1,join='outer')
  5. pd.concat([df3,df4],axis=0,join='inner')
  6. df3.append(df4) #纵向堆叠,列名必须一致

2) 主键合并

  1. pd.merge(detail1,order,left_on='order_id',right_on = 'info_id')
  2. data1=pd.merge(prior,products,on=["product_id","product_id"])
  3. order.rename({'info_id':'order_id'},inplace=True) #换名字
  4. detail1.join(order,on='order_id',rsuffix='1') #主键名必须一样

3) 重叠合并

  1. dict2 = {'ID':[1,2,3,4,5,6,7,8,9],
  2. 'System':[np.nan,np.nan,'win7',np.nan,
  3. 'win8','win7',np.nan,np.nan,np.nan],
  4. 'cpu':[np.nan,np.nan,'i3',np.nan,'i7',
  5. 'i5',np.nan,np.nan,np.nan]}
  6. ## 转换两个字典为DataFrame
  7. df5 = pd.DataFrame(dict1)
  8. df6 = pd.DataFrame(dict2)
  9. df5.combine_first(df6) #两表数据一一比较,完整表格内容

2.分组和聚合

在这里插入图片描述

grouped = df.groupby(by=“columns_name”)
grouped是一个DataFrameGroupBy对象,是可迭代的
grouped中的每一个元素是一个元组
元组里面是(索引(分组的值),分组之后的DataFrame)

  1. import pandas as pd
  2. import numpy as np
  3. file_path = "./starbucks_store_worldwide.csv"
  4. df = pd.read_csv(file_path)
  5. print(df.head(1))
  6. print(df.info())
  7. grouped = df.groupby(by="Country")
  8. # print(grouped)
  9. #DataFrameGroupBy
  10. #可以进行遍历
  11. for i,j in grouped:
  12. print(i)
  13. print("-"*100)
  14. print(j,type(j))
  15. print("*"*100)
  16. df[df["Country"]=="US"]
  17. #调用聚合方法,统计求和
  18. country_count = grouped["Brand"].count()
  19. print(country_count["US"])
  20. print(country_count["CN"])
  21. #统计中国每个省店铺的数量
  22. china_data = df[df["Country"] =="CN"]
  23. grouped = china_data.groupby(by="State/Province").count()["Brand"]
  24. print(grouped)
  25. #数据按照多个条件进行分组,返回Series
  26. grouped = df["Brand"].groupby(by=[df["Country"],df["State/Province"]]).count()
  27. print(grouped)
  28. print(type(grouped))
  29. #数据按照多个条件进行分组,返回DataFrame
  30. grouped1 = df[["Brand"]].groupby(by=[df["Country"],df["State/Province"]]).count()
  31. # grouped2= df.groupby(by=[df["Country"],df["State/Province"]])[["Brand"]].count()
  32. # grouped3 = df.groupby(by=[df["Country"],df["State/Province"]]).count()[["Brand"]]
  33. print(grouped1,type(grouped1))
  34. # print("*"*100)
  35. # print(grouped2,type(grouped2))
  36. # print("*"*100)
  37. # print(grouped3,type(grouped3))
  38. #索引的方法和属性
  39. print(grouped1.index)

3.索引和符合索引

简单的索引操作:
• 获取index:df.index
• 指定index :df.index = [‘x’,‘y’]
• 重新设置index : df.reindex(list(“abcedf”))
• 指定某一列作为index :df.set_index(“Country”,drop=False)
• 返回index的唯一值:df.set_index(“Country”).index.unique()
• a.set_index([“c”,“d”])即设置两个索引

Series复合索引

在这里插入图片描述
在这里插入图片描述
DataFrame复合索引

在这里插入图片描述

4.去除重复值

  1. detail['dishes_name'].drop_duplicates()#去重全部列
  2. detail.drop_duplicates(subset = ['order_id','emp_id']) #去重某些列

5.处理缺失值

对于NaN的数据,在numpy中我们是如何处理的?
在pandas中我们处理起来非常容易

判断数据是否为NaN:pd.isnull(df),pd.notnull(df)

处理方式1:删除NaN所在的行列t.dropna (axis=0, how=‘any’, inplace=False)
处理方式2:填充数据,t.fillna(t.mean()),t.fiallna(t.median()),t.fillna(0)

在这里插入图片描述
处理为0的数据:t[t==0]=np.nan
当然并不是每次为0的数据都需要处理
计算平均值等情况,nan是不参与计算的,但是0会

  1. detail.isnull().sum() #特征缺失的数目
  2. detail.notnull().sum() #特征非缺失的数目
  3. detail.dropna(axis = 1,how ='any') #去除缺失的列
  4. detail = detail.fillna(-99) #替换缺失值
  5. from scipy.interpolate import interp1d
  6. LinearInsValue1 = interp1d(x,y1,kind='linear') ##线性插值拟合x,y1
  7. print('当x为6、7时,使用线性插值y1为:',LinearInsValue1([6,7]))
  8. LargeInsValue1 = lagrange(x,y1) ##拉格朗日插值拟合x,y1
  9. SplineInsValue1 = spline(x,y1,xnew=np.array([6,7]))

6.处理离群值

  1. import matplotlib.pyplot as plt
  2. plt.figure(figsize=(10,8))
  3. p = plt.boxplot(detail['counts'].values,notch=True) ##画出箱线图
  4. outlier1 = p['fliers'][0].get_ydata() ##fliers为异常值的标签
  5. plt.savefig('../tmp/菜品异常数据识别.png')
  6. plt.show()
  1. ## 定义拉依达准则识别异常值函数
  2. def outRange(Ser1):
  3. boolInd = (Ser1.mean()-3*Ser1.std()>Ser1) | \
  4. (Ser1.mean()+3*Ser1.var()< Ser1)
  5. index = np.arange(Ser1.shape[0])[boolInd]
  6. outrange = Ser1.iloc[index]
  7. return outrange
  8. outlier = outRange(detail['counts'])
  9. print('使用3o原则拉依达准则判定异常值个数为:',outlier.shape[0])
  10. print('异常值的最大值为:',outlier.max())
  11. print('异常值的最小值为:',outlier.min())

7.标准化数据

1) 离差标准化函数

  1. ## 自定义离差标准化函数
  2. def MinMaxScale(data):
  3. data=(data-data.min())/(data.max()-data.min())
  4. return data
  5. ##对菜品订单表售价和销量做离差标准化
  6. data1=MinMaxScale(detail['counts'])

2) 标准差标准化函数

  1. ##自定义标准差标准化函数
  2. def StandardScaler(data):
  3. data=(data-data.mean())/data.std()
  4. return data
  5. ##对菜品订单表售价和销量做标准化
  6. data4=StandardScaler(detail['counts'])

3) 小数定标差标准化函数

  1. ##自定义小数定标差标准化函数
  2. def DecimalScaler(data):
  3. data=data/10**np.ceil(np.log10(data.abs().max()))
  4. return data
  5. ##对菜品订单表售价和销量做标准化
  6. data7=DecimalScaler(detail['counts'])

8.转换数据–离散处理

  1. ##哑变处理(非数值型数据处理)
  2. pd.get_dummies(data)
  1. ##等宽法离散
  2. price = pd.cut(detail['amounts'],5)
  3. ##自定义等频法离散化函数
  4. def SameRateCut(data,k):
  5. w=data.quantile(np.arange(0,1+1.0/k,1.0/k))
  6. data=pd.cut(data,w)
  7. return data
  8. result=SameRateCut(detail['amounts'],5).value_counts() #售价等频法离散化
  9. #自定义数据k-Means聚类离散化函数
  10. def KmeanCut(data,k):
  11. from sklearn.cluster import KMeans #引入KMeans
  12. kmodel=KMeans(n_clusters=k) #建立模型
  13. kmodel.fit(data.values.reshape((len(data), 1))) #训练模型
  14. c=pd.DataFrame(kmodel.cluster_centers_).sort_values(0) #输出聚类中心并排序
  15. w=c.rolling(2).mean().iloc[1:] #相邻两项求中点,作为边界点
  16. w=[0]+list(w[0])+[data.max()] #把首末边界点加上
  17. data=pd.cut(data,w)
  18. return data
  19. #菜品售价等频法离散化
  20. result=KmeanCut(detail['amounts'],5).value_counts()

9.时间序列

Lat,lng:经纬度

pd.date_range(start=None, end=None, periods=None, freq=‘10D’)#十天
start和end以及freq配合能够生成start和end范围内以频率freq的一组时间索引
start和periods以及freq配合能够生成从start开始的频率为freq的periods个时间索引

在这里插入图片描述
在这里插入图片描述
时间字符串转换成时间序列

index=pd.date_range(“20170101”,periods=10)
df = pd.DataFrame(np.random.rand(10),index=index)

回到最开始的911数据的案例中,我们可以使用pandas提供的方法把时间字符串转化为时间序列

df[“timeStamp”] = pd.to_datetime(df[“timeStamp”],format=“”)
format参数大部分情况下可以不用写,但是对于pandas无法格式化的时间字符串,我们可以使用该参数,比如包含中文

重采样

重采样:指的是将时间序列从一个频率转化为另一个频率进行处理的过程,将高频率数据转化为低频率数据为降采样,低频率转化为高频率为升采样

pandas提供了一个resample的方法来帮助我们实现频率转化

在这里插入图片描述

  1. t=pd.DataFrame(np.random.uniform(10,50,(100,1)),index=pd.date_range("20170101",periods=100))
  2. a=t.resample("10D").mean()
  3. b=t.resample("QS-JAN").count()#每季度最后一月第一个日历日
  4. print(b)

DatetimeIndex可以理解为时间戳
PeriodIndex可以理解为时间段

periods = pd.PeriodIndex(year=data["year"],month=data["month"],day=data["day"],hour=data["hour"],freq="H")

那么如果给这个时间段降采样呢?

data = df.set_index(periods).resample("10D").mean()

【案例】时间序列案例

显示中文,输出大列表处理

  1. plt.rcParams['font.sans-serif'] = 'SimHei'
  2. plt.rcParams['axes.unicode_minus'] = False ## 设置正常显示符号
  3. # 设置显示的最大列、宽等参数,消掉打印不完全中间的省略号
  4. # pd.set_option('display.max_columns', 1000)
  5. pd.set_option('display.width', 1000)#加了这一行那表格的一行就不会分段出现了
  6. # pd.set_option('display.max_colwidth', 1000)
  7. # pd.set_option('display.height', 1000)
  8. #显示所有列
  9. pd.set_option('display.max_columns', None)
  10. #显示所有行
  11. pd.set_option('display.max_rows', None)

案例1:911的紧急电话的数据

现在我们有2015到2017年25万条911的紧急电话的数据,请统计出出这些数据中不同类型的紧急情况的次数,如果我们还想统计出不同月份不同类型紧急电话的次数的变化情况,应该怎么做呢?

1)请统计出出这些数据中不同类型的紧急情况的次数

我的方法:用时太长

  1. import pandas as pd
  2. import matplotlib.pyplot as plt
  3. import numpy as np
  4. file_path = "./911.csv"
  5. df = pd.read_csv(file_path)
  6. # print(df.info())
  7. # print(df.head(10))
  8. #字符串转换成列表,取第一个字符串
  9. a=df["title"].str.split(":").tolist()
  10. type_list=[i[0] for i in a]
  11. # print(type_list)
  12. temp_list = type_list
  13. genre_list = list(set(type_list))
  14. #构造全为0的数组
  15. zeros_df = pd.DataFrame(np.zeros((df.shape[0],len(genre_list))),columns=genre_list)
  16. #给每个电影出现分类的位置赋值1
  17. for i in range(df.shape[0]):
  18. #zeros_df.loc[0,["Sci-fi","Mucical"]] = 1
  19. zeros_df.loc[i,temp_list[i]] = 1
  20. #统计每个分类的电影的数量和
  21. genre_count = zeros_df.sum(axis=0)
  22. print(genre_count)
  23. #排序
  24. genre_count = genre_count.sort_values()
  25. _x = genre_count.index
  26. _y = genre_count.values
  27. #画图
  28. plt.figure(figsize=(20,8),dpi=80)
  29. plt.bar(range(len(_x)),_y,width=0.4,color="orange")
  30. plt.xticks(range(len(_x)),_x)
  31. plt.show()

方法2:遍历次数减少,布尔索引赋值

  1. # coding=utf-8
  2. import pandas as pd
  3. import numpy as np
  4. from matplotlib import pyplot as plt
  5. df = pd.read_csv("./911.csv")
  6. print(df.head(5))
  7. #获取分类
  8. # print()df["title"].str.split(": ")
  9. temp_list = df["title"].str.split(": ").tolist()
  10. cate_list = list(set([i[0] for i in temp_list]))
  11. print(cate_list)
  12. #构造全为0的数组
  13. zeros_df = pd.DataFrame(np.zeros((df.shape[0],len(cate_list))),columns=cate_list)
  14. #赋值
  15. for cate in cate_list:
  16. zeros_df[cate][df["title"].str.contains(cate)] = 1
  17. # break
  18. # print(zeros_df)
  19. sum_ret = zeros_df.sum(axis=0)
  20. print(sum_ret)

方法3:添加一列,按照该列进行分组

  1. # coding=utf-8
  2. import pandas as pd
  3. import numpy as np
  4. from matplotlib import pyplot as plt
  5. df = pd.read_csv("./911.csv")
  6. print(df.head(5))
  7. #获取分类
  8. # print()df["title"].str.split(": ")
  9. temp_list = df["title"].str.split(": ").tolist()
  10. cate_list = [i[0] for i in temp_list]
  11. df["cate"] = pd.DataFrame(np.array(cate_list).reshape((df.shape[0],1)))
  12. # print(df.head(5))
  13. print(df.groupby(by="cate").count()["title"])
2)不同月份不同类型 、不同月份电话次数

第二问

  1. 统计出911数据中不同月份电话次数的变化情况
  2. 统计出911数据中不同月份不同类型的电话的次数的变化情况

重新定义时间格式,时间那一列更改

  1. import pandas as pd
  2. import numpy as np
  3. from matplotlib import pyplot as plt
  4. df = pd.read_csv("./911.csv")
  5. df["timeStamp"] = pd.to_datetime(df["timeStamp"])
  6. df.set_index("timeStamp",inplace=True)#原地替换
  7. #统计出911数据中不同月份电话次数的
  8. count_by_month = df.resample("M").count()["title"]
  9. print(count_by_month)
  10. #画图
  11. _x = count_by_month.index
  12. _y = count_by_month.values
  13. # for i in _x:
  14. # print(dir(i))
  15. # break
  16. _x = [i.strftime("%Y%m%d") for i in _x] #重新定义时间的格式
  17. plt.figure(figsize=(20,8),dpi=80)
  18. plt.plot(range(len(_x)),_y)
  19. plt.xticks(range(len(_x)),_x,rotation=45)
  20. plt.show()

第二问我的

  1. import pandas as pd
  2. import matplotlib.pyplot as plt
  3. import numpy as np
  4. file_path = "./911.csv"
  5. df = pd.read_csv(file_path)
  6. # print(df.info())
  7. df["timeStamp"] = pd.to_datetime(df["timeStamp"],format="")
  8. temp_list = df["title"].str.split(": ").tolist()
  9. cate_list = [i[0] for i in temp_list]
  10. df["cate"] = pd.DataFrame(np.array(cate_list).reshape((df.shape[0],1)))
  11. # print(df.info())
  12. data_mon=df.set_index("timeStamp")
  13. grouped=data_mon.groupby(by="cate")
  14. plt.figure(figsize=(20,8),dpi=80)
  15. for i,j in grouped:
  16. data1=j.resample("M").count()["title"]
  17. _x = data1.index
  18. _y = data1.values
  19. plt.plot(range(len(_x)),_y,label="i")
  20. _x = [i.strftime("%Y%m%d") for i in _x] #重新定义时间的格式
  21. plt.xticks(range(len(_x)),_x,rotation=45)
  22. plt.show()

第二问 分组后的遍历画图Group

  1. # coding=utf-8
  2. #911数据中不同月份不同类型的电话的次数的变化情况
  3. import pandas as pd
  4. import numpy as np
  5. from matplotlib import pyplot as plt
  6. #把时间字符串转为时间类型设置为索引
  7. df = pd.read_csv("./911.csv")
  8. df["timeStamp"] = pd.to_datetime(df["timeStamp"])
  9. #添加列,表示分类
  10. temp_list = df["title"].str.split(": ").tolist()
  11. cate_list = [i[0] for i in temp_list]
  12. # print(np.array(cate_list).reshape((df.shape[0],1)))
  13. df["cate"] = pd.DataFrame(np.array(cate_list).reshape((df.shape[0],1)))
  14. df.set_index("timeStamp",inplace=True)
  15. print(df.head(1))
  16. plt.figure(figsize=(20, 8), dpi=80)
  17. #分组
  18. for group_name,group_data in df.groupby(by="cate"):
  19. #对不同的分类都进行绘图
  20. count_by_month = group_data.resample("M").count()["title"]
  21. # 画图
  22. _x = count_by_month.index
  23. print(_x)
  24. _y = count_by_month.values
  25. _x = [i.strftime("%Y%m%d") for i in _x]
  26. plt.plot(range(len(_x)), _y, label=group_name)
  27. plt.xticks(range(len(_x)), _x, rotation=45)
  28. plt.legend(loc="best")
  29. plt.show()

在这里插入图片描述

案例2:空气质量数据

现在我们有北上广、深圳、和沈阳5个城市空气质量数据,请绘制出5个城市的PM2.5随时间的变化情况
观察这组数据中的时间结构,并不是字符串,这个时候我们应该怎么办?
数据来源: https://www.kaggle.com/uciml/pm25-data-for-five-chinese-cities
请绘制出5个城市的PM2.5随时间的变化情况

分开的时间数据处理,时间格式重新定义

  1. # coding=utf-8
  2. import pandas as pd
  3. from matplotlib import pyplot as plt
  4. file_path = "./PM2.5/BeijingPM20100101_20151231.csv"
  5. df = pd.read_csv(file_path)
  6. #把分开的时间字符串通过periodIndex的方法转化为pandas的时间类型
  7. period = pd.PeriodIndex(year=df["year"],month=df["month"],day=df["day"],hour=df["hour"],freq="H")
  8. df["datetime"] = period
  9. # print(df.head(10))
  10. #把datetime 设置为索引
  11. df.set_index("datetime",inplace=True)
  12. #进行降采样
  13. df = df.resample("7D").mean()
  14. print(df.head())
  15. #处理缺失数据,删除缺失数据
  16. # print(df["PM_US Post"])
  17. data =df["PM_US Post"]
  18. data_china = df["PM_Nongzhanguan"]
  19. print(data_china.head(100))
  20. #画图
  21. _x = data.index
  22. _x = [i.strftime("%Y%m%d") for i in _x]
  23. _x_china = [i.strftime("%Y%m%d") for i in data_china.index]
  24. print(len(_x_china),len(_x_china))
  25. _y = data.values
  26. _y_china = data_china.values
  27. plt.figure(figsize=(20,8),dpi=80)
  28. plt.plot(range(len(_x)),_y,label="US_POST",alpha=0.7)
  29. plt.plot(range(len(_x_china)),_y_china,label="CN_POST",alpha=0.7)
  30. plt.xticks(range(0,len(_x_china),10),list(_x_china)[::10],rotation=45)
  31. plt.legend(loc="best")
  32. plt.show()

案例3:简单的预测问题

在这里插入图片描述
缩小数据,选取部分数据;删除数据,分组后逆向操作;isin操作

  1. # 读取数据
  2. data = pd.read_csv("./data/FBlocation/train.csv")
  3. # print(data.head(10))
  4. # 处理数据
  5. # 1、缩小数据,查询数据晒讯
  6. data = data.query("x > 1.0 & x < 1.25 & y > 2.5 & y < 2.75")
  7. # 处理时间的数据
  8. time_value = pd.to_datetime(data['time'], unit='s')
  9. print(time_value)
  10. # 把日期格式转换成 字典格式
  11. time_value = pd.DatetimeIndex(time_value)
  12. # 构造一些特征
  13. data['day'] = time_value.day
  14. data['hour'] = time_value.hour
  15. data['weekday'] = time_value.weekday
  16. # 把时间戳特征删除
  17. data = data.drop(['time'], axis=1)#1表示列,0表示行
  18. print(data)#没有时间戳特征的数据
  19. # 把签到数量少于n个目标位置删除
  20. place_count = data.groupby('place_id').count()
  21. tf = place_count[place_count.row_id > 3].reset_index()#分组后逆操作,重新设置索引
  22. data = data[data['place_id'].isin(tf.place_id)]
  23. # 取出数据当中的特征值和目标值
  24. y = data['place_id']#取目标值
  25. x = data.drop(['place_id'], axis=1)#删除特征值就得到目标值

【案例】matplotlib绘图案例

案例一:店铺总数排名前10的国家+中国每个城市的店铺数量

使用matplotlib呈现出店铺总数排名前10的国家
使用matplotlib呈现出中国每个城市的店铺数量

  1. import pandas as pd
  2. import matplotlib.pyplot as plt
  3. file_path = "./starbucks_store_worldwide.csv"
  4. df = pd.read_csv(file_path)
  5. df1 = df[["Brand"]].groupby(by=[df["Country"]]).count()
  6. genre_count1 = df1.sort_values(by="Brand",ascending=False)[:10]
  7. _x = genre_count1.index
  8. _y = genre_count1.iloc[:,0]
  9. #画图
  10. plt.figure(figsize=(20,8),dpi=80)
  11. plt.bar(range(len(_x)),_y,width=0.4,color="orange")
  12. plt.xticks(range(len(_x)),_x)
  13. plt.show()
  1. import pandas as pd
  2. from matplotlib import pyplot as plt
  3. file_path = "./starbucks_store_worldwide.csv"
  4. df = pd.read_csv(file_path)
  5. #使用matplotlib呈现出店铺总数排名前10的国家
  6. #准备数据
  7. data1 = df.groupby(by="Country").count()["Brand"].sort_values(ascending=False)[:10]
  8. _x = data1.index
  9. _y = data1.values
  10. #画图
  11. plt.figure(figsize=(20,8),dpi=80)
  12. plt.bar(range(len(_x)),_y)
  13. plt.xticks(range(len(_x)),_x)
  14. plt.show()

在这里插入图片描述

  1. import pandas as pd
  2. import matplotlib.pyplot as plt
  3. plt.rcParams['font.sans-serif'] = 'SimHei'
  4. plt.rcParams['axes.unicode_minus'] = False ## 设置正常显示符号
  5. pd.set_option('display.width', 1000)#加了这一行那表格的一行就不会分段出现了
  6. pd.set_option('display.max_columns', None)
  7. pd.set_option('display.max_rows', None)
  8. file_path = "./starbucks_store_worldwide.csv"
  9. df = pd.read_csv(file_path)
  10. china_data = df[df["Country"] =="CN"]
  11. grouped = china_data.groupby(by="City").count()["Brand"].sort_values(ascending=False)
  12. print(grouped)
  13. data1=grouped[:25]
  14. _x = data1.index
  15. _y = data1.values
  16. #画图
  17. plt.figure(figsize=(20,8),dpi=80)
  18. plt.bar(range(len(_x)),_y,width=0.3)
  19. plt.xticks(range(len(_x)),_x,rotation=45)
  20. plt.show()

案例二:全球排名靠前的10000本书的数据

现在我们有全球排名靠前的10000本书的数据,那么请统计一下下面几个问题:

  1. 不同年份书的数量
  2. 不同年份书的平均评分情况

在这里插入图片描述

  1. import pandas as pd
  2. import matplotlib.pyplot as plt
  3. plt.rcParams['font.sans-serif'] = 'SimHei'
  4. plt.rcParams['axes.unicode_minus'] = False ## 设置正常显示符号
  5. pd.set_option('display.width', 1000)#加了这一行那表格的一行就不会分段出现了
  6. pd.set_option('display.max_columns', None)
  7. pd.set_option('display.max_rows', None)
  8. file_path = "books.csv"
  9. df = pd.read_csv(file_path)
  10. # print(df.info())
  11. # print(df.head(1))
  12. df1=df[pd.notnull(df["original_publication_year"])]#处理缺失值
  13. book_year_num=df1.groupby(by="original_publication_year").count()["id"].sort_values(ascending=False)
  14. #第二问:不同年份的书的平均评分
  15. book_mean_rates=df1["average_rating"].groupby(by=df1["original_publication_year"]).mean()
  16. #画图
  17. plt.figure(figsize=(20,10),dpi=80)
  18. _x=book_mean_rates.index
  19. _y=book_mean_rates.values
  20. plt.plot(range(len(_x)),_y)
  21. plt.xticks(list(range(len(_x)))[::10],_x[::10].astype(int))#rotation旋转90度
  22. plt.show()
文章知识点与官方知识档案匹配,可进一步学习相关知识
声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号