当前位置:   article > 正文

计算机毕业设计hadoop+spark+hive高考志愿填报推荐推荐系统 高考数据分析可视化大屏 高考爬虫 高考分数线预测 数据仓库 大数据毕业设计

计算机毕业设计hadoop+spark+hive高考志愿填报推荐推荐系统 高考数据分析可视化大屏 高考爬虫 高考分数线预测 数据仓库 大数据毕业设计

流程:爬取阳光高考约50-100W历年高考数据(含2023年)存入mysql;使用dump命令将省控线、专业线、专业、学校、省份、软科排名、QS排名等表导出csv存到hdfs上;使用hive基于CSV文件建立数据仓库;一部分数据使用Spark进行实时分析,一部分数据使用Hive进行离线分析;分析结果使用sqoop导入mysql;使用flask+echarts进行可视化大屏实现。

开发技术:spark hadoop hive sqoop echarts flask requests爬虫技术 mysql
为啥不直接分析mysql中的数据?海量上百万的数据加上连表查询的话mysql不如hive数据仓库可靠和稳定,mysql很容易宕机以及响应慢!

创新点:爬虫、大屏、hadoop+hive离线计算+spark实时计算双实现、海量真实数据

核心算法代码分享如下:

  1. # -*- codeing = utf-8 -*-
  2. # 创建预测所需要的数据用
  3. #
  4. import datetime
  5. import numpy as np
  6. import pandas as pd
  7. import json
  8. from db import db_util
  9. d = db_util()
  10. db, cursor = d.get_conn()
  11. def insert_flow(name, n, v):
  12. sd1 = datetime.date(2023, 1, 1) # 把数字字符变换成日期类型,赋值给一个变量
  13. v1 = v
  14. for i in range(1, n + 1):
  15. # sd1 = sd1 + datetime.timedelta(days=1) # 加某个天数相加之后的日期
  16. sd1 = sd1 + datetime.timedelta(days=30) # 加某个天数相加之后的日期
  17. # print(i)
  18. v1 = v1 + np.random.randint(50, high=100)
  19. sql = "replace into tb_flow(name,name2, v) values('%s', '%s', %f)"\
  20. % (sd1.strftime('%Y%m%d'), name, v1)
  21. cursor.execute(sql)
  22. db.commit()
  23. print("end..")
  24. if __name__ == '__main__':
  25. v = 400
  26. #t = '换成学校名称'
  27. t = '武汉大学'
  28. insert_flow(t, 7, v)

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/IT小白/article/detail/843206
推荐阅读
相关标签
  

闽ICP备14008679号