赞
踩
flink在努力地将Python 生态和大数据生态融合,但目前的版本还不够成熟,尤其是在官方对python现有资料有限的情况下,用户想要使用python完成一个flink job并提交到flink平台上,还是有很多雷需要踩的。
以下对pyflink环节问题,python job编写到提交做了总结,可减少不必要的弯路。
一、部署环境
JDK 1.8+ & Python 3.5+ (3.7.6) & apache-flink 1.12 & pyflink 1.0
二、官方API
flink为用户提供了多层API,对于python用户,主要使用Table API 和 SQL API,个人认为Table API有一点点类似python的Dataframe,故主要使用Table API完成作业开发。用户可以参考对应版本的官方文档和示例代码学习使用。官网1.12版地址:https://ci.apache.org/projects/flink/flink-docs-release-1.12/dev/table/tableApi.html
注:这里建议一定要看官方文档,因为目前pyflink版本之间差别较大,随便搜的资料由于版本差异会造成很多不必要的麻烦。
三、环境理解
在Table API层,flink提供了3类环境和两类 planner,用户需要理解环境之间的区别和属性,以便使用正确的环境和刚好地理解一些代码参数。
简单说:TableEnviroment实现
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。