赞
踩
本系统为我的本科毕业设计项目,毕设题目为“基于用户画像的电影推荐系统的设计与实现”。
本系统是以Django作为基础框架,采用MTV模式,数据库使用MongoDB、MySQL和Redis,以从豆瓣平台爬取的电影数据作为基础数据源,主要基于用户的基本信息和使用操作记录等行为信息来开发用户标签,并使用Hadoop、Spark大数据组件进行分析和处理的推荐系统。管理系统使用的是Django自带的管理系统,并使用simpleui进行了美化。
django
python爬虫
pyspark
als推荐算法
协同过滤推荐算法
hadoop
mysql
邮箱技术
mongodb
redis
实时计算+离线计算双实现
机器学习/深度学习推荐模型
大数据技术
分布式计算
爬虫
SparkML机器学习模块
…10-20种创新点
数据计算部分代码
import ast import collections import datetime import findspark findspark.init() import math import numpy as np import pandas as pd from pyspark import Row, SparkContext, SparkConf from pyspark.sql import SQLContext from pyspark.sql.functions import col # 该文件为系统的电影推荐的spark离线处理脚本 # 可放置linux下单独运行,只需在liunx下安装python3同时安装相应的库即可运行 # 当然也可放置在windows下运行,但环境配置较复杂容易出错,不建议 # 内部需要改动mysql数据库配置信息(35行)、spark信息(24行)、hadoop信息(39行) # 注:该脚本做了数据量的限制,于 221行 可以取消数据量的限制 # 执行完成后会将数据更新到表“user_usermovierecommend”,同时在hadoop中路径movie_system会生成计算的相关相似度文件 class Calculator: def __init__(self): self.localClusterURL = "local[*]" self.clusterMasterURL = "spark://XXXX:7077" self.conf = SparkConf().setAppName('Movie_System').setMaster(self.localClusterURL ) self.sc = SparkContext.getOrCreate(self.conf) self.sqlContext = SQLContext(self.sc)
页面代码分析
#!/usr/bin/env python """Django's command-line utility for administrative tasks.""" import os import sys def main(): """Run administrative tasks.""" os.environ.setdefault('DJANGO_SETTINGS_MODULE', 'BiSheServer.settings') try: from django.core.management import execute_from_command_line except ImportError as exc: raise ImportError( "Couldn't import Django. Are you sure it's installed and " "available on your PYTHONPATH environment variable? Did you " "forget to activate a virtual environment?" ) from exc execute_from_command_line(sys.argv) if __name__ == '__main__': main()
计算机毕业设计吊打导师PySpark+Hadoop知识图谱电影推荐系统 电影数据分析 电影可视化 电影爬虫 电影大数据 大数据毕业设计 大数据毕设 机器学习
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。