赞
踩
Nifi 官网地址 https://nifi.apache.org/
Nifi 官网文档 https://nifi.apache.org/docs.html
Nifi GitHub源码地址 https://github.com/apache/nifi
Apache NiFi是一个易于使用、功能强大且可靠的系统,用于处理和分发数据,可以自动化管理系统间的数据流。最新版本为1.19.1
简单来说,NiFi是用来处理数据集成场景的数据分发。NiFi是基于Java的,使用Maven支持包的构建管理。 NiFi基于Web方式工作,后台在服务器上进行调度。用户可以为数据处理定义为一个流程,然后进行处理,后台具有数据处理引擎、任务调度等组件。
Apache NiFi支持数据路由、转换和系统中介逻辑的强大且可伸缩的有向图。
这种设计模型帮助NiFi成为构建强大且可伸缩的数据流的非常有效的平台,其好处如下:
NiFi的设计目的是充分利用它所运行的底层主机系统的功能,对IO、CPU、RAM高效使用,这种资源最大化在CPU和磁盘方面表现得尤为突出,详细信息在管理指南中的最佳实践和配置技巧中。
NiFi在主机操作系统上的JVM中执行,JVM上NiFi的主要组件如下:
NiFi也能够在集群中运行,NiFi 采用了零领导者集群,NiFi集群中的每个节点在数据上执行相同的任务,但每个节点操作不同的数据集。Apache ZooKeeper选择一个节点作为Cluster Coordinator,故障转移由ZooKeeper自动处理。所有集群节点都向集群协调器报告心跳和状态信息。集群协调器负责断开和连接节点。此外,每个集群都有一个主节点,也由ZooKeeper选举产生。作为DataFlow管理器,可通过任何节点的用户界面(UI)与NiFi集群交互,操作更改复制到集群中的所有节点,允许多个入口点。
Nifi高级概述包括流管理、易用性、安全性、可扩展的体系结构和灵活的伸缩模型。
# 下载最新版本1.19.1的nifi
wget --no-check-certificate https://dlcdn.apache.org/nifi/1.19.1/nifi-1.19.1-bin.zip
# 由于下载很慢我就直接下载源码安装了,最低建议JDK 11.0.16、Apache Maven 3.8.6,最新需求是JDK 8 Update 251Apache Maven 3.6.0
wget
# 解压源码包
tar -xvf nifi-1.19.1.tar.gz
# 进入源码根目录
cd nifi-rel-nifi-1.19.1
# 执行编译命令
mvn clean install -DskipTests
等待编译完成
编译好的目录和包目录如下
# 复制编译好的安装包nifi-1.19.1-bin.zip
cp -rf nifi-1.19.1-bin.zip /home/commons/
cd /home/commons/
# 解压编译好的安装包
unzip nifi-1.19.1-bin.zip
# 进入安装目录
cd nifi-1.19.1
nifi主要配置文件在conf/nifi.properties,默认的https的端口为8443,修改host为本机IP地址
# 启动nifi
./bin/nifi.sh start
# 得等一小会时间后查看nifi进程状态
./bin/nifi.sh status
# 查看授权的密码信息
grep Generated logs/nifi-app*log
# 可以使用自定义凭证替换随机用户名和密码,使用如下命令
./bin/nifi.sh set-single-user-credentials <username> <password>
# 其他命令如下,停止nifi ./bin/nifi.sh stop,重启nifi./bin/nifi.sh restart
在web浏览器中打开以下链接以访问NiFi:https://192.168.50.95:8443/nifi ,看到登录页面后输入上面的用户名和密码就可以进入nifi的首页。
想到创建数据流必须了解可供使用的处理器类型,NiFi包含许多开箱即用的不同处理器,这些处理器提供了从许多不同系统摄取数据、路由、转换、处理、分割和聚合数据以及将数据分发到许多系统的功能。几乎在每一个NiFi发行版中,可用的处理器数量都会增加。因此将不尝试为每个可用的处理器命名,下面重点介绍一些最常用的处理器,并根据它们的功能对它们进行分类。
我们使用演示一个从本地源文件夹拷贝到本地目的文件夹,主要使用到GetFile文件数据摄取处理器和PutFile文件发送处理器。
GetFile文件数据摄取处理器,详细属性可以在官方文档https://nifi.apache.org/docs.html的左边处理器菜单下找,例如GetFile处理器,从目录中的文件创建FlowFiles,NiFi将忽略它至少没有读权限的文件
这里我们使用默认参数,主要配置输入目录,添加一个GetFile处理器
"设置"中填写名称为my-first-get-file,属性填写输入目录。
PutFile文件数据摄取处理器,将FlowFile的内容写入本地文件系统,详细属性可直接查阅官方文档
添加一个PutFile处理器,"设置"中填写名称为my-first-put-file,属性填写目录
# 创建上传文件目录,如果没有创建在my-first-put-file的会有感叹号提示信息
mkdir /home/commons/data/nifi/input
从my-first-get-file上点击拉动到my-first-put-file处理器形成连接,连接名称为first-connection
为my-first-put-file设置终止关联关系
分别点击my-first-get-file和my-first-put-file启动按钮,启动两个的处理器
# 手工写入数据文件
echo "hello nifi" >> /home/commons/data/nifi/input/nifi.log
查看nifi上可以看到数据文件有复制数据
查看本地的output文件夹下也有上面手工写入后转移的nifi.log文件数据(由于PutFile创建缺失的目录默认属性设置是true,也即是会自动创建目录)
本地input文件转移就没有文件,重新执行上面写入一个重名的文件
echo "hello nifi" >> /home/commons/data/nifi/input/nifi.log
由于PutFile冲突解决的策略默认为false,所以同名文件不会放到输出目录下,就直接在页面出现警告信息,可设置为true就不会有警告信息了
本篇只是简单入门,nifi的功能非常强大,针对数据采集和数据集成场景需求可以满足大多数的场景
本人博客网站IT小神 www.itxiaoshen.com
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。