赞
踩
数据可以在赛事指南中按照文档描述进行下载,一共需要以下三个数据集.
数据的预处理,官方给了一个baseline.
根据数据准备阶段得到的数据.现在的数据结果如下.
其中,各个字段的意思如下:
下面计算各个党派所获得的捐款总额:
c_itcont.groupby('CAND_PTY_AFFILIATION').sum()
可以得到如下的结果:
对其进行排序:
c_itcont.groupby('CAND_PTY_AFFILIATION').sum().sort_values('TRANSACTION_AMT',ascending=False)
c_itcont.groupby('CAND_NAME').sum()
所有候选人所获得的捐款信息如下:
再对其进行排序,取前10个总统候选人
c_itcont.groupby('CAND_NAME').sum().sort_values('TRANSACTION_AMT',ascending=False).head(10)
可见,得到捐款最多的是拜登.其次是特朗普.
c_itcont.groupby('EMPLOYER').sum().sort_values('TRANSACTION_AMT',ascending=False)
可见,其实没有工作的人是捐的最多的.这个现象就非常有意思了.
c_itcont.groupby('STATE').sum().sort_values('TRANSACTION_AMT',ascending=False)
可以发现CA即加州的捐款最多.
import matplotlib.pyplot as plt
%matplotlib inline
from wordcloud import WordCloud,ImageColorGenerator
st_amt = c_itcont.groupby('STATE').sum().sort_values("TRANSACTION_AMT",ascending=False)[:10]
st_amt=pd.DataFrame(st_amt, columns=['TRANSACTION_AMT'])
st_amt.plot(kind='bar')
# 从所有数据中取出支持拜登的数据
biden = c_itcont[c_itcont['CAND_NAME']=='BIDEN, JOSEPH R JR']
# 统计各州对拜登的捐款总数
biden_state = biden.groupby('STATE').sum().sort_values("TRANSACTION_AMT", ascending=False).head(10)
# 饼图可视化各州捐款数据占比
biden_state.plot.pie(figsize=(10, 10),autopct='%0.2f%%',subplots=True)
wc = WordCloud(# FFFAE3
background_color="white", # 设置背景为白色,默认为黑色
width=890, # 设置图片的宽度
height=600, # 设置图片的高度
mask=bg, # 画布
margin=10, # 设置图片的边缘
max_font_size=100, # 显示的最大的字体大小
random_state=20, # 为每个单词返回一个PIL颜色
).generate_from_text(data)
# 图片背景
bg_color = ImageColorGenerator(bg)
plt.imshow(wc.recolor(color_func=bg_color))
plt.axis("off")
wc.to_file("datasets/pandas_president/biden_wordcloud.png")
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。