赞
踩
Kettle是一款国外开源的ETL工具,纯java编写,由于java具有跨平台的特性,故Kettle可以在Windows、Linux、Unix上运行,数据抽取高效稳定。
Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。
Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。
Kettle目前包括4个产品:Spoon、Pan、CHEF、Kitchen。
SPOON:允许你通过图形界面来设计ETL转换过程(Transformation)。
PAN:允许你批量运行由Spoon设计的ETL转换 (例如使用一个时间调度器)。Pan是一个后台执行的程序,没有图形界面。
CHEF: 允许你创建任务(Job)。 任务通过允许每个转换,任务,脚本等等,更有利于自动化更新数据仓库的复杂工作。任务通过允许每个转换,任务,脚本等等。任务将会被检查,看看是否正确地运行了。
KITCHEN:允许你批量使用由Chef设计的任务 (例如使用一个时间调度器)。KITCHEN也是一个后台运行的程序。
(1)安装jdk
jdk的安装比较简单,直接下一步就可以了。但是如果需要修改存储路径,则在如下图中所示的步骤中选择安装路径,然后再点击下一步即可。一般默认安装在C盘。
(2)JDK配置环境变量
右击“此电脑”–属性–高级系统设置-环境变量,在弹出的环境变量页面选择新建系统变量,在新增页面输入变量名和变量值,变量名可根据自己的习惯填写,变量值即为上一步存储的jdk的位置。
变量名:JAVA_HOME
变量值:C:\Program Files\Java\jdk1.8.0_211
在系统变量中找到Path,选中Path,点击“编辑”,在弹出的编辑环境变量页面点击“新建”,输入:
%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin;
在系统变量中找到CLASSPATH,选中Path,点击“编辑”,在弹出的编辑环境变量页面点击“新建”,输入:.;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar;
在cmd窗口输入java -version,出现如下信息,即为安装成功。
PENTAHO_JAVA_HOME
C:\Program Files\Java\jdk1.8.0_211
Kettle的安装比较简单,下载Kettle安装,直接解压即可。然后启动Spoon.bat。如下图。
步骤:
1在组件组-输入中找到组件-表输入
2.选择数据库连接(数据源)
3.填写SQL语句,可预览结果
步骤:
1、在组件组-输出中找到组件-表输出
2.建立表输入和表输出的连接
3.选择数据库连接(数据仓库)
4.录入目标表名,指定数据库字段
5.获取字段
6.执行SQL(建表)
步骤:
1在组件组-脚本中找到组件-执行SQL脚本
2.选择数据库连接(数据仓库)#此处选择必须谨慎,避免清理了数据源的数据
3.填写SQL语句
4.建立与表输入的关系
步骤:
1在组件组-通用中找到组件-START(作业开始,用于作业调度设置)
2.在组件组-通用中找到组件-转换(如有多个可以多次添加)
3.通过引用指定转换文件
4.在组件组-通用中找到组件-成功(作业结束)
5.按执行顺序建立组件间的关系
案例一:把stu1的数据按id同步到stu2,stu2有相同id则更新数据。
1、需求
把stu1的数据按id同步到stu2,stu2有相同id则更新数据。
2、在mysql中创建两张表并插入一些数据
create table stu1(id int,name varchar(20),age int);
create table stu2(id int,name varchar(20));
insert into stu1 values(1001,'xzw',20),(1002,'fq',18), (1003,'yxy',23);
insert into stu2 values(1001,'lyq');
3、在kettle中新建转换
4、分别在输入和输出中拉出表输入和插入/更新
5、双击表输入对象,填写相关配置信息。
6、双击更新/插入对象,填写相关配置信息
赞
踩
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。