当前位置:   article > 正文

Spark>SparkStreamingKafka 练习题_与spark stream有关的习题

与spark stream有关的习题

查看历史记录的命令
history | grep kafka
以下是RNG S8 8强赛失败后,官微发表道歉微博下一级评论

数据说明:
rng_comment.txt文件中的数据

字段 字段含义
index 数据id
child_comment 回复数量
comment_time 评论时间
content 评论内容
da_v 微博个人认证
like_status
pic 图片评论url
user_id 微博用户id
user_name 微博用户名
vip_rank 微博会员等级
stamp 时间戳

1.1、在kafak中创建rng_comment主题,设置2个分区2个副本
1.2、数据预处理,把空行过滤掉
1.3、请把给出的文件写入到kafka中,根据数据id进行分区,id为奇数的发送到一个分区中,偶数的发送到另一个分区
1.5、使用Spark Streaming对接kafka之后进行计算

  • 在mysql中创建一个数据库rng_comment
[root@node01 /]# mysql -uroot -p123456
mysql>create  databases rng_comment;
//切换
mysql>use rng_comment;
//查看表
mysql>show tables;
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 在数据库rng_comment创建vip_rank表,字段为数据的所有字段
create table vip_rank(
Indexx varchar(255) NOT NULL,
child_comment varchar(255) NOT NULL,
comment_time  varchar(255) NOT NULL,
content  varchar(255) NOT NULL,
da_v varchar(255) NOT NULL,
like_status varchar(255) NOT NULL,
pic varchar(255) NOT NULL,
user_id varchar(255) NOT NULL,
user_name varchar(255) NOT NULL,
vip_rank varchar(255) NOT NULL,
stamp varchar(255) NOT NULL,
PRIMARY KEY (‘indexx’)
)ENGINE=InnoDB AUTO_TNCREMENT=26 DEFAULT CHARSET=udf8;
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 在数据库rng_comment创建like_status表,字段为数据的所有字段
  • 在数据库rng_comment创建count_conmment表,字段为 时间,条数
    1.5.1、查询出微博会员等级为5的用户,并把这些数据写入到mysql数据库中的vip_rank表中
    1.5.2、查询出评论赞的个数在10个以上的数据,并写入到mysql数据库中的like_status表中
    1.5.3、分别计算出2018/10/20 ,2018/10/21,2018/10/22,2018/10/23这四天每一天的评论数是多少,并写入到mysql数据库中的count_conmment表中

数据如下

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/木道寻08/article/detail/1017775
推荐阅读
相关标签