当前位置:   article > 正文

计算机毕业设计hadoop+spark+hive物流大数据分析平台 物流预测系统 物流信息爬虫 物流大数据 机器学习 深度学习

计算机毕业设计hadoop+spark+hive物流大数据分析平台 物流预测系统 物流信息爬虫 物流大数据 机器学习 深度学习

流程:
1.Python爬虫采集物流数据等存入mysql和.csv文件;
2.使用pandas+numpy或者MapReduce对上面的数据集进行数据清洗生成最终上传到hdfs;
3.使用hive数据仓库完成建库建表导入.csv数据集;
4.使用hive之hive_sql进行离线计算,使用spark之scala进行实时计算;
5.将计算指标使用sqoop工具导入mysql;
6.使用Flask+echarts进行可视化大屏实现、数据查询表格实现、含预测算法;

核心算法代码分享如下:

  1. package com.car.process
  2. import org.apache.spark.sql.{DataFrame, SaveMode, SparkSession}
  3. object Table01 {
  4. def main(args: Array[String]): Unit = {
  5. // 创建spark入口 读取hive的元数据 查询hive中ods层的表
  6. val hiveSession: SparkSession = SparkSession.builder()
  7. .appName("table01")
  8. .master("local")
  9. .config("spark.hadoop.hive.metastore.uris", "thrift://bigdata:9083")
  10. .enableHiveSupport()
  11. .getOrCreate();
  12. /**
  13. * insert overwrite table tables01
  14. * select province,count(1) num
  15. * from ods_comments
  16. * group by province
  17. */
  18. // 网友分布中国地图
  19. val dataFrame: DataFrame = hiveSession.sql(
  20. """
  21. |select from_province,count(1) num
  22. |from hive_chinawutong.ods_chinawutong
  23. |group by from_province
  24. |""".stripMargin)
  25. dataFrame.show()
  26. // 写入到mysql中
  27. dataFrame
  28. .write
  29. .format("jdbc")
  30. .option("url", "jdbc:mysql://bigdata:3306/hive_chinawutong?useSSL=false")
  31. .option("user", "root")
  32. .option("password", "123456")
  33. .option("driver", "com.mysql.jdbc.Driver")
  34. .option("dbtable", "table01")
  35. .mode(SaveMode.Overwrite)
  36. .save()
  37. }
  38. }

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Cpp五条/article/detail/642349
推荐阅读
相关标签
  

闽ICP备14008679号