赞
踩
目录
如果出错,则需要再添加一个hadoop 包,详细过程在本文章后面《上面整合jar包详细过程》那个标题
修改hadoop02上的flink配置文件flink-conf.yaml
local(本地)
本地单机模式,一般用于测试环境是否搭建成功,很少使用
standalone(独立集群模式)
flink自带集群,开发测试使用
StandAloneHA:独立集群的高可用模式,也是flink自带,用于开发测试环境
on yarn(flink on yarn)
计算资源统一由hadoop yarn管理,生产环境使用
https://pan.baidu.com/s/1xFn7ukWDp4bE0vNZI99AOQ?pwd=1234 提取码:1234
使环境变量起作用
source /etc/profile
准备好数据文件,放在/root
执行命令
benv.readTextFile("/root/a.txt").flatMap(_.split(" ")).map((_,1)).groupBy(0).sum(1).print()
ctrl+d退出交互
这里不知道为啥环境变量错了,真是难受
后来知道了,原来是开两个窗口不是互通的,有clone延迟
提交任务
flink run examples/batch/WordCount.jar --input /root/a.txt --output /root/output
查看结果
JobManager | TaskManager | |
hadoop01 | y | y |
hadoop02 | n | y |
hadoop03 | n | y |
注意:修改yml格式的配置文件时,key和value之间必须得有一个空格
分发flink
分发环境变量配置文件
使环境变量起作用
注意:
这就是刚才提到的那个,我把链接放这,把这个包放到这个lib目录里面
https://pan.baidu.com/s/1Jvo9n7y90TL2FjJRnDaCsg?pwd=1234 提取码:1234
详细过程在后面的标题《上面整合jar包详细过程》
flink run examples/batch/WordCount.jar --input hdfs://hadoop001:9000/input/ --output hdfs://hadoop001:9000/output/result.txt
出错了,发现是有out put 文件,必须先删除
一定要先删除output
hdfs dfs -rm -r /output
再重启运行
这里需要再删除output
flink run examples/batch/WordCount.jar --input hdfs://hadoop001:9000/input/ --output hdfs://hadoop001:9000/output/result.txt
查看结果
注意:运行过程中会出现问题,需要配置hadoop classpath的环境变量,获取classpath可以通过一下命令:
hadoop classpath
(上边已经改过了)
修改/etc/profile,添加HADOOP_CLASSPATH变量,值为前述命令的结果,复制粘贴过来即可
JobManager | TaskManager | |
hadoop01 | y | y |
hadoop02 | Y | y |
hadoop03 | n | y |
stop-cluster.sh
(笔者在这里出现了bug,改了一下午,发现是第一条高可用zookeeper只要配置ha总会出错,后面重装解决)
说明:如果发现相关的进程没有启动,是因为缺少flink整合hadoop的jar包,需要从flink官网下载,放入flink的lib目录,并分发至其他节点
要一个输出路径
说明集群能正常工作,高可用起作用
资源可以按需使用,提高集群的资源利用率
任务有优先级,可以根据优先级运行作业
基于yarn调度系统,能够自动化的处理各个角色的容错
跟standalone保持一致
JobManager | TaskManager | |
hadoop01 | y | y |
hadoop02 | Y | y |
hadoop03 | n | y |
修改hadoop的yarn的配置文件yarn-site.xml
分发到其他节点
flink on yarn提交任务模式有两种
session模式:会话模式
per-job模式:每任务模式
语法:
yarn-session.sh -n 2 -tm 800 -s 1 -d
说明:
-n:表示申请的容器,也就是worker的数量,也即cpu的核心数
-tm:表示每个worker(taskManager)的内存大小
-s:表示每个worker的slot的数量
-d:表示后台运行
当前的jps:
session一直在
查看任务详情
yarn application -kill application_1649658383623_0001
flink run -m yarn-cluster -yjm 1024 -ytm 1024 examples/batch/WordCount.jar
-m:jobmanager的地址
-yjm:jobmanager的内存大小
-ytm:taskmanager的内存大小
进程filed了
我这才想起来刚才进程已经杀死了
克隆一个起来
这下好了
发现又多了一个任务执行列表
我这里因为错误提交了好几次
发现没有相关的进程,也就是当任务执行完成后,进程自动关闭
有时候有延迟,延迟还很大
flink run --help
到这里flink的三种模式的安装部署测试与介绍就基本上完成了
flink的环境也搭建起来的,接下来(2)我们要介绍的是flink的入门案例
如遇侵权,请联系删除。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。