赞
踩
数据同步节点任务是阿里云大数据平台对外提供的稳定高效、弹性伸缩的数据同步云服务。用户利用数据同步节点可以轻松地实现DRDS到ADS的数据同步。使用CDP将DRDS数据同步至ADS前需要在目标端创建相应的表结构,同步数据的具体操作如下:
1.登录Base管控台,单击顶部菜单栏中的项目管理,并选择相应的项目。
2. 进入数据源配置,单击新增数据源。
3. 在新建数据源弹出框中,选择数据源类型为 DRDS。
4. 配置 DRDS 数据源的各个信息项。
配置项说明:
l 数据源名称:由英文字母、数字、下划线组成且需以字符或下划线开头,长度不超过60个字符。
l 数据源描述:对数据源进行简单描述,不得超过80个字符。
l 数据源类型:当前选择的数据源类型DRDS。
l jdbcUrl:JDBC连接信息,格式为:jdbc://mysql://serverIP:Port/database。
l 用户名/密码:对应的用户名和密码。
5. 单击测试连通性。
6. 测试连通性通过后,单击确定。
1.登录Base管控台,单击顶部菜单栏中的项目管理,并选择相应的项目。
2. 进入数据源配置,单击新增数据源。
3. 在新建数据源弹出框中,选择数据源类型为 ADS。ADS数据源提供了其他数据源向 AnalyticDB 写入的功能,暂不能读取数据。
4. 配置 ADS 数据源的各个信息项。
配置项说明:
l 数据源名称:由英文字母、数字、下划线组成且需以字符或下划线开头,长度不超过60个字符。
l 数据源描述:对数据源进行简单描述,不得超过80个字符。
l 数据源类型:当前选择的数据源类型ADS。
l 连接Url:ADS连接信息,格式为:serverIP:Port。
l Schema:相应的 ADS Schema 信息。
l AccessID/AceessKey:访问密钥 AccessKey(AK) 相当于登录密码。
5. 单击测试连通性。
6. 测试连通性通过后,单击确定。
本节将新建一个同步节点drds2ads并进行配置,以把drds的t_app表中的数据写入到新环境ads的数据库中。具体操作如下:
1. 新建同步节点drds2ads,如下图所示:
2. 选择数据来源和目标
在数据同步任务配置过程中,首先需选择数据源和目标(新增数据源请联系项目管理员),并支持模糊匹配查找数据源和目标以及表名。当选择了源头和目标,其选项框末尾将显示对应数据源或目标类型。
3. 字段配置
需对字段映射关系进行配置,左侧“源头表字段”和右侧“目标表字段”为一一对应的关系。可批量编辑源表或宿表字段,通过此方式添加的表字段类型默认为空。
4. 数据抽取和加载控制
数据抽取控制即数据抽取的过滤条件,而数据加载控制即数据写入时的规则。不同场景的数据同步任务配置界面不同。DRDS到ADS的数据同步任务类型的配置界面如下所示:
l 抽取控制,可参考相应的SQL语法填写where过滤语句(不需要填写where关键字),该过滤条件将作为增量同步的条件。
说明:
where条件即针对源头数据筛选条件,根据指定的column、table、where条件拼接SQL进行数据抽取。利用where条件可进行全量同步和增量同步,具体说明如下:
• 全量同步
第一次做数据导入时通常为全量导入,可不用设置where条件;如只是在测试时,避免数据量过大,可将where条件指定为limit10。
• 增量同步
增量导入在实际业务场景中,往往会选择当天的数据进行同步,通常需要编写where条件语句,请先确认表中描述增量字段(时间戳)为哪一个。如tableA描述增量的字段为creat_time,那么在where条件中编写creat_time>${yesterday},在参数配置中为其参数赋值即可。
l 导入模式,支持批量导入(Load Data)和实时插入(Insert Ignore)两种模式。
l 清理规则:
▬写入前清理已有数据:导数据之前,清空表或者分区的所有数据,相当于 insert overwrite;
▬写入前保留已有数据:导数据前不清理任何数据,每次运行数据都是追加的,相当于insert into。
5. 流量与出错控制
流量与出错控制用来配置作业速率上限和脏数据检查规则,如下图所示:
l 作业速率上限:是指配置的当前数据同步作业可能达到的最高速率,其最终实际速率受网络环境、数据库配置等的影响,支持最大为10MB/s。
以下为脏数据检查规则,可配置一个或两个,两个规则之间的关系:
l 当出错记录数超过:当脏数据数量(即错误记录数)超过所配置的个数时,该数据同步任务结束。
l 错误百分比达到:当脏数据数量(即错误记录数)超过所配置的百分比时,该数据同步任务结束。
大数据开发套件提供了强大的调度能力,支持按照时间、依赖关系的任务触发机制,支持每日千万级别的任务按照DAG 关系准确、准时运行。支持分钟、小时、天、周和月多种调度周期配置。具体操作步骤如下:
1. 配置同步任务的调度属性
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。