当前位置:   article > 正文

2023年第二届全国大学生数据统计与分析竞赛题目B:电影评分的大数据分析_2023 年全国高校数据统计与调查分析挑战赛 b 题

2023 年全国高校数据统计与调查分析挑战赛 b 题

竞赛信息

在大数据时代背景下,统计学作为大数据分析领域的基础显得尤为重要。为了帮助学生更好的学习和应用数据统计与分析的知识,促进统计、计算机、数学等相关专业的发展,培养具有数据分析与应用型人才,经研究决定,中国国际经济技术合作促进会教育发展工作委员会决定主办“第二届全国大学生数据统计与分析竞赛”(以下简称“竞赛”),为我国数据统计与分析行业提供人才支持,夯实人才队伍基础。欢迎各高等院校按照竞赛章程及有关规定组织同学报名参赛。

问题一:请分析附件 1 中最受欢迎的电影类型是什么?排名前 250 名电影中 出现次数最多的导演前 10 名是谁?出现次数最多的国家前 5 名是哪

详细代码关注公众号获取

读取附件1数据

  1. import pandas as pd
  2. import matplotlib.pyplot as plt
  3. import numpy as np
  4. plt.rcParams['font.sans-serif'] = 'SimHei' # 设置中文显示
  5. plt.rcParams['axes.unicode_minus'] = False
  6. encodings = [*****]
  7. for encoding in encodings:
  8. *******
  9. break
  10. except UnicodeDecodeError as e:
  11. print(f"{encoding} 编码解析失败")
  12. #详细代码+企鹅2869955900
  13. data.info()

输出

 最受欢迎的电影类型是什么

  1. # 提取电影类型列
  2. movie_genres = data['电影类型']
  3. # 初始化一个字典用于存储每种类型的出现次数
  4. genre_count = {}
  5. # 遍历每部电影的类型
  6. for genres in movie_genres:
  7. ****
  8. # 遍历拆分后的类型列表,统计每种类型的出现次数
  9. for genre in genre_list:
  10. if genre not in genre_count:
  11. *****
  12. else:
  13. *****
  14. # 输出统计结果
  15. print(genre_count)

 输出

  1. import seaborn as sns
  2. a = **********
  3. # 创建一个图形和轴对象
  4. ******
  5. # 使用Seaborn绘制条形图
  6. *********
  7. # 设置标题和坐标轴标签
  8. ax.set_title('电影类型数量分布', fontsize=16)
  9. ax.set_xlabel('电影类型', fontsize=14)
  10. ax.set_ylabel('数量', fontsize=14)
  11. # 旋转x轴刻度标签,以便更好地显示
  12. plt.xticks(rotation=45)
  13. plt.savefig('电影类型数量分布.png',bbox_inches = 'tight')
  14. # 显示图形
  15. plt.show()

 输出

排名前 250 名电影中出现次数最多的导演前 10 名是谁?

  1. data['导演']**********
  2. # 导演数据
  3. directors = ***
  4. # 提取数据
  5. names = list(directors.keys())
  6. values = list(directors.values())
  7. # 设置图表样式
  8. plt.style.use('ggplot')
  9. # 创建柱状图
  10. *****
  11. # 设置标题和坐标轴标签
  12. ax.set_title('Top 10 Directors')
  13. ax.set_xlabel('Director Names')
  14. ax.set_ylabel('Number of Movies')
  15. # 自动调整x轴标签角度以避免重叠
  16. plt.xticks(rotation=45)
  17. plt.savefig('排名前 250 名电影中出现次数最多的导演前 10 名是谁.png',bbox_inches = 'tight')
  18. # 显示图表
  19. plt.show()

 

出现次数最多的国家前 5 名是哪些国家

  1. data['国家']************
  2. # 数据准备
  3. countries = ['美国', '日本', '中国香港'*****]
  4. counts = *****
  5. # 创建柱状图
  6. plt.figure(figsize=(10, 6))
  7. ax = sns.barplot(x=countries, y=counts)
  8. # 添加数据标签
  9. for i in range(len(countries)):
  10. *********
  11. # 设置标题和坐标轴标签
  12. plt.title('Top250电影出现次数最多的国家前5名', fontsize=20)
  13. plt.xlabel('国家', fontsize=15)
  14. plt.ylabel('出现次数', fontsize=15)
  15. plt.savefig('出现次数最多的国家前 5 名是哪些国家.png',bbox_inches = 'tight')
  16. # 显示图表
  17. plt.show()
  18. 详细代码+企鹅2869955900

详细代码关注公众号获取

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/知新_RL/article/detail/901596
推荐阅读
相关标签
  

闽ICP备14008679号