当前位置:   article > 正文

【技术开发经验分享】计算机毕业设计PySpark+Hadoop知识图谱电影推荐系统 Django电影推荐系统 用户画像电影推荐系统 电影数据分析 电影可视化 电影爬虫 电影大数据 大数据毕业设计 大数_django hadoop

django hadoop

简介

本系统为我的本科毕业设计项目,毕设题目为“基于用户画像的电影推荐系统的设计与实现”。

本系统是以Django作为基础框架,采用MTV模式,数据库使用MongoDB、MySQL和Redis,以从豆瓣平台爬取的电影数据作为基础数据源,主要基于用户的基本信息和使用操作记录等行为信息来开发用户标签,并使用Hadoop、Spark大数据组件进行分析和处理的推荐系统。管理系统使用的是Django自带的管理系统,并使用simpleui进行了美化。
在这里插入图片描述

开发技术

django

python爬虫

pyspark

als推荐算法

协同过滤推荐算法

hadoop

mysql

邮箱技术

mongodb

redis
在这里插入图片描述

特色/创新点

实时计算+离线计算双实现

机器学习/深度学习推荐模型

大数据技术

分布式计算

爬虫

SparkML机器学习模块

…10-20种创新点

代码分析

数据计算部分代码

import ast
import collections
import datetime
import findspark
findspark.init()
import math
import numpy as np
import pandas as pd
from pyspark import Row, SparkContext, SparkConf
from pyspark.sql import SQLContext
from pyspark.sql.functions import col

# 该文件为系统的电影推荐的spark离线处理脚本
# 可放置linux下单独运行,只需在liunx下安装python3同时安装相应的库即可运行
# 当然也可放置在windows下运行,但环境配置较复杂容易出错,不建议
# 内部需要改动mysql数据库配置信息(35行)、spark信息(24行)、hadoop信息(39行)
# 注:该脚本做了数据量的限制,于  221行 可以取消数据量的限制
# 执行完成后会将数据更新到表“user_usermovierecommend”,同时在hadoop中路径movie_system会生成计算的相关相似度文件


class Calculator:
    def __init__(self):
        self.localClusterURL = "local[*]"
        self.clusterMasterURL = "spark://XXXX:7077"
        self.conf = SparkConf().setAppName('Movie_System').setMaster(self.localClusterURL )
        self.sc = SparkContext.getOrCreate(self.conf)
        self.sqlContext = SQLContext(self.sc)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27

页面代码分析

#!/usr/bin/env python
"""Django's command-line utility for administrative tasks."""
import os
import sys


def main():
    """Run administrative tasks."""
    os.environ.setdefault('DJANGO_SETTINGS_MODULE', 'BiSheServer.settings')
    try:
        from django.core.management import execute_from_command_line
    except ImportError as exc:
        raise ImportError(
            "Couldn't import Django. Are you sure it's installed and "
            "available on your PYTHONPATH environment variable? Did you "
            "forget to activate a virtual environment?"
        ) from exc
    execute_from_command_line(sys.argv)


if __name__ == '__main__':
    main()
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22

运行截图

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

运行视频

计算机毕业设计吊打导师PySpark+Hadoop知识图谱电影推荐系统 电影数据分析 电影可视化 电影爬虫 电影大数据 大数据毕业设计 大数据毕设 机器学习

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/weixin_40725706/article/detail/594470
推荐阅读
相关标签
  

闽ICP备14008679号