赞
踩
实验思路:
SparkSQL,创建表,查询数据
任务内容
某电商平台,需要对订单数据进行分析,已知订单数据包括两个文件,分别为订单数据orders和订单明细数据order_items,orders记录了用户购买商品的订单ID,订单号,用户ID及下单日期。order_items记录了商品ID,订单ID以及明细ID。它们的结构与关系如下图所示:
orders表:(order_id,order_number,buyer_id,create_dt)
order_items表:(item_id,order_id,goods_id )
创建orders表和order_items表,并统计该电商网站都有哪些用户购买了什么商品。
任务步骤
1.首先检查Hadoop相关进程,是否已经启动。若未启动,切换到/apps/hadoop/sbin目录下,启动Hadoop。
2.在Linux本地新建/data/spark5目录。
3.切换到/data/spark5目录下,使用wget命令,下载http://192.168.1.100:60000/allfiles/spark5中的orders和order_items。
4.首先,在HDFS上新建/myspark5目录,然后将/data/spark5目录下的orders与order_items文件,上传到HDFS的/myspark5目录下。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。