当前位置:   article > 正文

ETL工具之Informatica

informatica

Informatica简介

Informatica平台是一套完善的技术,可支持多项复杂的企业级数据集成计划,包括:企业数据集成、大数据、数据质量控制、主数据管理、B2B Data Exchange、应用程序信息生命周期管理、复杂事件处理、超级消息和云数据集成。其下有众多产品,其中这里主要介绍 Informatica PowerCenter这款产品, Informatica PowerCenter用于访问和集成几乎任何业务系统、任何格式的数据,它可以按任意速度在企业内交付数据,具有高性能、高可扩展性、高可用性的特点。Informatica PowerCenter包括4个不同版本,即:标准版,实时版,高级版,云计算版。同时,它还提供了多个可选的组件,以扩展Informatica PowerCenter的核心数据集成功能,这些组件包括:数据清洗和匹配、数据屏蔽、数据验证、Teradata双负载、企业网格、元数据交换、下推优化(Pushdown Optimization)、团队开发和非结构化数据等。

PowerCenter功能简介

PowerCenter主要用于数据接入,清洗,调度,监控等功能,PowerCenter的开发过程大致可以分为以下几个步骤:

1.在客户端PowerCenter Designer中导入源表和目标表的结构定义。(只是表结构)

2.在PowerCenter Designer中执行的事件为:

a.创建Mapping。

b.拖动源和目标进入Mapping。(类似于定义变量)

c.建立源和目标的映射。(对变量进行赋值)
  • 1
  • 2
  • 3
  • 4
  • 5

3.运行Workflow,提供相对应的配置信息以及参数。在PowerCenter中的载体是Workflow和Session。

4.通过Workflow Monitor客户端进行监控。

全量接数/调度/监控

1.连接到服务端
2.右击源,从数据库导入
3.输入数据库用户名密码,连接
4.搜索需要接的表名,然后展开数据库,选中搜索到的表名,点击确定
在这里插入图片描述

5.此时可以将源里的表拖拽到右侧,点击保存
在这里插入图片描述

6点击右侧标识处,将源中的表直接拖过去
在这里插入图片描述

6.2双击右侧拖过来的表,点击列,根据业务情况可添加需要的字段,然后记得左上角选择保存,此时表就会被保存在目标表中
在这里插入图片描述

7.选中右侧标识处,将源中的表拖拽到右侧,然后点击目标,生成SQL
在这里插入图片描述

8.勾选需要生成的项,先生成SQL,然后编辑SQL检查一下,最后执行SQL,此时oracle默认数据库下就会生成一张表.(可断开连接,重新选择需要在那台服务器上的oracle上建表)
在这里插入图片描述

8.2 .点击执行SQL,此时需要选择odbc数据源(即在那台机上的默认数据库下建表),填写用户名密码,密码(注意多用户的数据库)
在这里插入图片描述

9.选中右侧标识处,在点击上方菜单栏的映射,创建映射,命名仿照已有的格式,然后将源中的表拖拽过来,自动生成如图所示关系.
在这里插入图片描述

10.在将目标中的表拖拽过来,在右击空白处,自动连接,弹出框,直接立即应用,确定即可
在这里插入图片描述

在这里插入图片描述

10.2在单击左上角标识处,此时鼠标会成十字架状,然后点击右侧区域随便拖拽,便会生成右上角的表,此时的表是独立的,需要配置并连线
在这里插入图片描述

11.(这一步类似赋值操作,前面新增了这两个字段,在这里赋值)双击右上角的空表,开始配置,点击端口.id相当于源表中的主键,名字无所谓,后面会连线(类似于血缘关系)
在这里插入图片描述

12.配置表达式时,点击标识处箭头,弹出编辑表达式的页面,需要赋什么值就给什么表达式(可以是字符串,函数等等),如mcc,就是一个字符串,sysdate就是一个系统时间
在这里插入图片描述

13.连线技巧,点击源表中的主键不放,一直拖拽到右侧对应的字段框中,id是和源表连,赋值的两个字段是和映射中的字段连接,最后点击左上角保存
在这里插入图片描述

在这里插入图片描述

14.进入W,配置工作流,点击中间标识处,在点击菜单栏任务,创建会话,命名规则仿照已有的
在这里插入图片描述

15.创建好了之后,点击确定,会弹出前面配好的映射,选择对应映射,确定保存

15.2.创建好后,双击图标,弹出如图信息,需要点击映射,配置源和目标(该步骤是在工作流运行时,配置从哪台机器的oracle拿数据,写入到哪台机器的oracle中)
在这里插入图片描述

15.3,具体配置,点击第1张图的源下的脚本,在点击箭头,弹出第2张图,此时可以看见很多配置信息,如果知道是哪一个直接选中,确定即可,如果不清楚配置信息,随便选择一个,点击覆盖,会弹出第3 张图,可查看相关信息,找到哪个配置后,关闭第3张图,回到第2 张图,选中,确定即可在这里插入图片描述

15.4,配置目标同理,只是多了一步,下面可勾选一些项(大概是权限的意思,即对目标表所做的操作权限)
在这里插入图片描述

16.点击如图所示位置,然后将需要配的会话属于哪个工作集,拖拽到右侧,然后再把要配的会话拖到对应工作集中
在这里插入图片描述

17.左上角保存,然后点开工作流,看看会话所在的工作集属于哪个工作流,然后右键对应工作流,点击验证,没问题后,点击右侧标识处,然后将工作流拖拽过去,在点击菜单栏,工作流,启动工作流即可
在这里插入图片描述

17.2单个任务运行时,点击上图右侧标识处,点击菜单栏工作流,创建,即可新建一个工作流,在这里可以直接将会话中的脚本拖拽到这里,点击运行即可

18.工作流开始后回自动跳转到M页面(相当于对工作流的一个监控页面),在这里可以实时查看工作流的运行状况
在这里插入图片描述

增量接数/调度/监控

1.设置参数和变量
在这里插入图片描述

2.添加变量,变量名,类型,初始默认值等,保存
在这里插入图片描述

3.点击图中1处,点击2端口处,第3点添加变量值,第4点即为具体变量值的设置
在这里插入图片描述

4.对我们之前的变量做具体的赋值操作,
SETVARIABLE( V D a t e , t o c h a r ( S E S S S T A R T T I M E , ′ y y y y − m m − d d h h 24 : m i : s s ′ ) ) 表 示 将 当 前 系 统 时 间 赋 值 给 VDate,to_char(SESSSTARTTIME,'yyyy-mm-dd hh24:mi:ss')) 表示将当前系统时间赋值给 VDate,tochar(SESSSTARTTIME,yyyymmddhh24:mi:ss))VDate
SETVARIABLE( V D a t e , A ) 将 A 的 值 赋 值 给 变 量 VDate,A)将A的值赋值给变量 VDate,A)AVDate ,A可以是表达式,也可以是字符串
在这里插入图片描述

在这里插入图片描述
5.在选中图中1 处,编辑2处,3处即为具体的增量表达式,表名点增量字段名+条件;
XX_XX_CUSTOMER_T.LAST_UPDATE_DATE>=to_date(‘ V D a t e ′ , ′ y y y y − m m − d d h h 24 : m i : s s ′ ) 表 示 只 接 入 该 表 的 增 量 字 段 L A S T U P D A T E D A T E > = 我 们 上 面 配 置 的 给 VDate','yyyy-mm-dd hh24:mi:ss') 表示只接入该表的增量字段 LAST_UPDATE_DATE >= 我们上面配置的给 VDate,yyyymmddhh24:mi:ss)LASTUPDATEDATE>=VDate 赋的值
在这里插入图片描述
6.点击图中1处,配置目标表;
delete from XX_XX_CUSTOMER_T
where LAST_UPDATE_DATE >=to_date(’$$VDate’,‘yyyy-mm-dd hh24:mi:ss’)
删除满足该条件的数据,在写入满足该条件的数据,先执行删除在执行写入
在这里插入图片描述

7.在初始化执行时,变量会取我们添加变量时设置的默认值,第二次跑的时候就会把默认值替换为上一次执行时获取的时间

调度/监控同全量步骤

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/盐析白兔/article/detail/867888
推荐阅读
相关标签
  

闽ICP备14008679号

        
cppcmd=keepalive&