当前位置:   article > 正文

Spark SQL案例:统计每日新增用户_sparksql查询人数

sparksql查询人数


一、提出任务

  • 已知有以下用户访问历史数据,第一列为用户访问网站的日期,第二列为用户名:
2022-01-01,mike
2022-01-01,alice
2022-01-01,brown
2022-01-02,mike
2022-01-02,alice
2022-01-02,green
2022-01-03,alice
2022-01-03,smith
2022-01-03,brian

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 现需要根据上述数据统计每日新增的用户数量,期望统计结果
2022-01-01,3
2022-01-02,1
2022-01-03,2

  • 1
  • 2
  • 3
  • 4
  • 即2022-01-01新增了3个用户(分别为mike、alice、brown),2022-01-02新增了1个用户(green),2022-01-03新增了两个用户(分别为smith、brian)。
  • 预备工作:启动集群的HDFS与Spark

在这里插入图片描述

  • 在虚拟机创建user.txt文件

在这里插入图片描述

  • 将user.txt上传到HDFS/input目录下
    在这里插入图片描述
    在这里插入图片描述

二、完成任务

(一)新建Maven项目

  • 设置项目类型
    在这里插入图片描述
  • scala 目录(用的以前的gif不会影响)

在这里插入图片描述

(二)添加相关依赖和构建插件

  • 在pom.xml 添加依赖
<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>net.cch.sql</groupId>
    <artifactId
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/笔触狂放9/article/detail/745174
推荐阅读
相关标签
  

闽ICP备14008679号