SparkSQL，创建表，查询数据，加载文件，处理文件，存储文件_sparksql,创建表,查询数据,加载文件,处理文件,存储文件

作者：码创造者 | 2024-07-09 05:02:41

踩

sparksql,创建表,查询数据,加载文件,处理文件,存储文件

实验思路：

SparkSQL，创建表，查询数据

任务内容

某电商平台，需要对订单数据进行分析，已知订单数据包括两个文件，分别为订单数据orders和订单明细数据order_items，orders记录了用户购买商品的订单ID，订单号，用户ID及下单日期。order_items记录了商品ID，订单ID以及明细ID。它们的结构与关系如下图所示：

orders表：（order_id,order_number,buyer_id,create_dt）

order_items表：（item_id,order_id,goods_id ）

创建orders表和order_items表，并统计该电商网站都有哪些用户购买了什么商品。

任务步骤

1.首先检查Hadoop相关进程，是否已经启动。若未启动，切换到/apps/hadoop/sbin目录下，启动Hadoop。

2.在Linux本地新建/data/spark5目录。

view plain copy

3.切换到/data/spark5目录下，使用wget命令，下载http://192.168.1.100:60000/allfiles/spark5中的orders和order_items。

4.首先，在HDFS上新建/myspark5目录，然后将/data/spark5目录下的orders与order_items文件，上传到HDFS的/myspark5目录下。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/码创造者/article/detail/801488