赞
踩
目录
大数据时代背景下,电商经营模式发生很大改变。在传统运营模式中,缺乏数据积累,人们在做出一些决策行为过程中,更多是凭借个人经验和直觉,发展路径比较自我封闭。而大数据时代,为人们提供一种全新的思路,通过大量的数据分析得出的结果将更加现实和准确。商家可以对客户的消费行为信息数据进行收集和整理,比如消费者购买产品的花费、选择产品的渠道、偏好产品的类型、产品回购周期、购买产品的目的、消费者家庭背景、工作和生活环境、个人消费观和价值观等。通过数据追踪,知道顾客从哪儿来,是看了某网站投放的广告还是通过朋友推荐链接,是新访客还是老用户,喜欢浏览什么产品,购物车有无商品,是否清空,还有每一笔交易记录,精准锁定一定年龄、收入、对产品有兴趣的顾客,对顾客进行分组、标签化,通过不同标签组合运用,获得不同目标群体,以此开展精准推送。
因数据驱动的零售新时代已经到来,没有大数据,我们无法为消费者提供这些体验,为完成电商的大数据分析工作,你所在的小组将应用大数据技术,以Scala作为整个项目的基础开发语言,基于大数据平台综合利用Spark、Flink、Vue.js等技术,对数据进行处理、分析及可视化呈现,你们作为该小组的技术人员,请按照下面任务完成本次工作。
环境说明:
服务端登录地址详见各模块服务端说明。 补充说明:宿主机可通过Asbru工具或SSH客户端进行SSH访问; 所有模块中应用命令必须采用绝对路径; 进入Master节点的方式为 docker exec -it master /bin/bash 进入Slave1节点的方式为 docker exec -it slave1 /bin/bash 进入Slave2节点的方式为 docker exec -it slave2 /bin/bash 三个容器节点的root密码均为123456 |
本环节需要使用root用户完成相关配置,安装Hadoop需要配置前置环境。命令中要求使用绝对路径,具体部署要求如下:
本环节需要使用root用户完成相关配置,安装HBase需要配置Hadoop和ZooKeeper等前置环境。命令中要求使用绝对路径,具体要求如下:
本环节需要使用root用户完成相关配置,具体要求如下:
环境说明:
服务端登录地址详见各模块服务端说明。 补充说明:各节点可通过Asbru工具或SSH客户端进行SSH访问; 主节点MySQL数据库用户名/密码:root/123456(已配置远程连接); Hive的配置文件位于主节点/opt/module/hive-3.1.2/conf/ Spark任务在Yarn上用Client运行,方便观察日志; 建议使用gson解析json数据。 |
编写Scala工程代码,将MySQL的db库中表table1、table2、table3、table4、table5、table6、table7、table8、table9、table10、table11的数据增量抽取到Hive的ods库中对应表table1、table2、table3、table4、table5、table6、table7、table8、table9、table10、table11中。
环境说明:
服务端登录地址详见各模块服务端说明。 补充说明:各节点可通过Asbru工具或SSH客户端进行SSH访问; 主节点MySQL数据库用户名/密码:root/123456(已配置远程连接); Flink任务在Yarn上用per job模式(即Job分离模式,不采用Session模式),方便Yarn回收资源; 建议使用gson解析json数据。 |
编写Java代码,使用Flink消费Kafka中Topic的数据并进行相应的数据统计计算。
编写Java工程代码,使用Flink消费Kafka中dwd层的Topic数据,表结构与离线数据表结构相同。
环境说明:
服务端登录地址详见各模块服务端说明。 补充说明:各节点可通过Asbru工具或SSH客户端进行SSH访问; 主节点MySQL数据库用户名/密码:root/123456(已配置远程连接); Hive的配置文件位于主节点/opt/module/hive-3.1.2/conf/ Spark任务在Yarn上用Client运行,方便观察日志; ClickHouse的jdbc连接端口8123,用户名/密码:default/123456,命令行客户端(tcp)端口9001; 建议使用gson解析json数据。 |
编写Scala工程代码,将ods库中表table1、table2、table3、table4、table5、table6、table7、table8、table9、table10、table11抽取到Hive的dwd库中对应表中。表中有涉及到timestamp类型的,均要求按照yyyy-MM-dd HH:mm:ss,不记录毫秒数,若原数据中只有年月日,则在时分秒的位置添加00:00:00,添加之后使其符合yyyy-MM-dd HH:mm:ss。
环境说明:
数据接口地址及接口描述详见各模块服务端说明。 |
编写Vue工程代码,根据接口,用柱状图展示XXXX年消费额最高的5个省份,同时将用于图表展示的数据结构在浏览器的console中进行打印输出,将图表可视化结果和浏览器console打印结果分别截图并粘贴至客户端桌面【Release\模块E提交结果.docx】中对应的任务序号下。
编写Vue工程代码,根据接口,用饼状图展示XXXX年各地区的消费总额占比,同时将用于图表展示的数据结构在浏览器的console中进行打印输出,将图表可视化结果和浏览器console打印结果分别截图并粘贴至客户端桌面【Release\模块E提交结果.docx】中对应的任务序号下。
编写Vue工程代码,根据接口,用折线图展示每年上架商品数量的变化情况,同时将用于图表展示的数据结构在浏览器的console中进行打印输出,将图表可视化结果和浏览器console打印结果分别截图并粘贴至客户端桌面【Release\模块E提交结果.docx】中对应的任务序号下。
任务一:XXXXXXXXXXXXXXXXXX,原因是什么?
将内容编写至客户端桌面【Release\模块F提交结果.docx】中对应的任务序号下。
任务二:XXXXXXX有哪些XXXXXXXX?列举并简要描述。
将内容编写至客户端桌面【Release\模块F提交结果.docx】中对应的任务序号下。
任务三:简要描述竞赛过程中的问题并进行总结。
将内容编写至客户端桌面【Release\模块F提交结果.docx】中对应的任务序号下。
MySQL数据库中已自带注释,自行连接使用工具查看。
scalac: No ‘scala-library*.jar’ in Scala compiler classpath in Scala SDK Maven: org.scala-lang:scala-library:2.12.0
则需要在Flie->Project Structure->Project Settings->Libraries->添加scala的包(2.12大版本一致即可)。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。