当前位置:   article > 正文

计算机毕业设计hadoop+spark+hive漫画推荐系统 动漫视频推荐系统 漫画分析可视化大屏 漫画爬虫 漫画推荐系统 漫画爬虫 知识图谱 大数据

计算机毕业设计hadoop+spark+hive漫画推荐系统 动漫视频推荐系统 漫画分析可视化大屏 漫画爬虫 漫画推荐系统 漫画爬虫 知识图谱 大数据

流程:
1.DrissionPage+Selenium自动爬虫工具采集漫画视频、详情、标签等约200万条漫画数据存入mysql数据库;
2.Mapreduce对采集的动漫数据进行数据清洗、拆分数据项等,转为.csv文件上传hadoop的hdfs集群;
3.hive建库建表导入.csv动漫数据;
4.一半指标使用hive_sql分析得出,一半指标使用Spark之Scala完成;
5.sqoop对分析结果导入mysql数据库;
6.Flask+echarts搭建可视化大屏;
创新点:Python全新DrissionPage+Selenium双爬虫使用、海量数据、爬虫、可视化大屏、离线hive+实时Spark双实现
可选装:推荐系统、预测系统、知识图谱、后台管理等。

核心算法代码分享如下:

  1. import csv
  2. import pymysql
  3. import requests
  4. connect = pymysql.connect(host="bigdata",port=3306, user="root",
  5. password="123456", database="hive_zymk")
  6. cur = connect.cursor()
  7. cur.execute("select * from tb_zymk " )
  8. rv = cur.fetchall()
  9. lines=0
  10. for result in rv:
  11. id=result[0]
  12. title=result[1]
  13. update_times=result[2]
  14. tags=result[3]
  15. content=result[4]
  16. readings=result[5]
  17. subscribes=result[6]
  18. rewards=result[7]
  19. monthtickets=result[8]
  20. recommends=result[9]
  21. comments=result[10]
  22. scores=result[11]
  23. author=result[12]
  24. zps=result[13]
  25. ctime=result[14]
  26. img=result[15]
  27. url=result[16]
  28. #title字段去掉特殊字符
  29. title = title.strip().replace(',', ',').replace('"', '').replace("'", '').replace("\n", '').replace('\r', '').replace('\t', '')
  30. # 内容字段去掉特殊字符
  31. content = content.strip().replace(',', ',').replace('"', '').replace("'", '').replace("\n", '').replace('\r', '').replace('\t', '')
  32. #zps
  33. zps = zps.strip().replace(',', ',').replace('"', '').replace("'", '').replace("\n", '').replace('\r', '').replace('\t', '')
  34. # 阅读量替换汉字数值入亿 万
  35. temp_readings=readings
  36. if '亿' in readings:
  37. temp_readings=float(readings.replace('亿',''))*100000000
  38. elif '万' in readings:
  39. temp_readings = float(readings.replace('万', '')) * 10000
  40. readings = str(int(temp_readings))
  41. #订阅量subscribes
  42. temp_subscribes=subscribes
  43. if '亿' in subscribes:
  44. temp_subscribes=float(subscribes.replace('亿',''))*100000000
  45. elif '万' in subscribes:
  46. temp_subscribes = float(subscribes.replace('万', '')) * 10000
  47. subscribes = str(int(temp_subscribes))
  48. #打赏rewards
  49. temp_rewards=rewards
  50. if '亿' in rewards:
  51. temp_rewards=float(rewards.replace('亿',''))*100000000
  52. elif '万' in rewards:
  53. temp_rewards = float(rewards.replace('万', '')) * 10000
  54. rewards = str(int(temp_rewards))
  55. #monthtickets月票
  56. temp_monthtickets=monthtickets
  57. if '亿' in monthtickets:
  58. temp_monthtickets=float(monthtickets.replace('亿',''))*100000000
  59. elif '万' in monthtickets:
  60. temp_monthtickets = float(monthtickets.replace('万', '')) * 10000
  61. monthtickets = str(int(temp_monthtickets))
  62. #recommends 推荐数
  63. temp_recommends=recommends
  64. if '亿' in recommends:
  65. temp_recommends=float(recommends.replace('亿',''))*100000000
  66. elif '万' in recommends:
  67. temp_recommends = float(recommends.replace('万', '')) * 10000
  68. recommends = str(int(temp_recommends))
  69. #ctime需要去掉空格
  70. ctime=ctime.strip()
  71. if update_times == None or len(update_times) == 0 or update_times == '' or update_times == 'None':
  72. update_times = '无'
  73. #tags标签字段拆分
  74. # 标签
  75. tags_arr=tags.split('|')
  76. for tag in tags_arr:
  77. print(tag)
  78. zps_arr = zps.split('|')
  79. for zp in zps_arr:
  80. print(zp)
  81. zymk_file = open("zymk.csv", mode="a+", newline='', encoding="utf-8")
  82. zymk_writer = csv.writer(zymk_file)
  83. zymk_writer.writerow(
  84. [id,title,update_times,tag,content,readings,subscribes,rewards,monthtickets,recommends,comments,scores,author,zp,ctime,img,url])
  85. zymk_file.close()
  86. print('国产动漫转CSV',id,title,update_times,tag,content,readings,subscribes,rewards,monthtickets,recommends,comments,scores,author,zp,ctime,img,url)
  87. lines=lines+1
  88. print('正在处理,当前总计处理数据', lines,'条')
  89. print('全部处理完毕','处理数据量',lines,'条')

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/空白诗007/article/detail/771547
推荐阅读
相关标签
  

闽ICP备14008679号