赞
踩
(一)Selenium自动化Python爬虫工具采集新浪微博评论、热搜、文章等约10万条存入.csv文件作为数据集;
(二)使用pandas+numpy或MapReduce对数据进行数据清洗,生成最终的.csv文件并上传到hdfs;
(三)使用hive数仓技术建表建库,导入.csv数据集;
(四)离线分析采用hive_sql完成,实时分析利用Spark之Scala完成;
(五)统计指标使用sqoop导入mysql数据库;
(六)使用Flask+echarts进行可视化大屏开发;
(七)使用机器学习、深度学习的算法进行个性化微博推荐;
(八)使用卷积神经网络KNN、CNN实现热搜话题流量预测;
(九)搭建springboot+vue.js前后端分离web系统进行个性化推荐界面、话题流量预测界面、知识图谱等实现;
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。