当前位置:   article > 正文

DRDS向ADS数据迁移指南_dataworks 数据来源opds 数据去向drds 离线增量配置

dataworks 数据来源opds 数据去向drds 离线增量配置

点击查看全文


1 CDP简介

数据同步节点任务是阿里云大数据平台对外提供的稳定高效、弹性伸缩的数据同步云服务。用户利用数据同步节点可以轻松地实现DRDS到ADS的数据同步。使用CDP将DRDS数据同步至ADS前需要在目标端创建相应的表结构,同步数据的具体操作如下:

配置数据源

2.1 增加DRDS数据源

1.登录Base管控台,单击顶部菜单栏中的项目管理,并选择相应的项目。

2. 进入数据源配置,单击新增数据源

e0180ae0511e86c87442f925f320d5f050fde955

3. 在新建数据源弹出框中,选择数据源类型为 DRDS。

4. 配置 DRDS 数据源的各个信息项。

cbfee375a88a3f13e6d54d5300a23355008d9c24

配置项说明:

l  数据源名称:由英文字母、数字、下划线组成且需以字符或下划线开头,长度不超过60个字符。

l  数据源描述:对数据源进行简单描述,不得超过80个字符。

l  数据源类型:当前选择的数据源类型DRDS。

l  jdbcUrl:JDBC连接信息,格式为:jdbc://mysql://serverIP:Port/database。

l  用户名/密码:对应的用户名和密码。

5. 单击测试连通性

6. 测试连通性通过后,单击确定

2.2 增加ADS数据源

1.登录Base管控台,单击顶部菜单栏中的项目管理,并选择相应的项目。

2. 进入数据源配置,单击新增数据源

2359de806eea67c35b858d436bb00340904474ee

3. 在新建数据源弹出框中,选择数据源类型为 ADS。ADS数据源提供了其他数据源向 AnalyticDB 写入的功能,暂不能读取数据。

4. 配置 ADS 数据源的各个信息项。

3fed928253b69d86d0f8179638a905ab37ad4abb

配置项说明:

l  数据源名称:由英文字母、数字、下划线组成且需以字符或下划线开头,长度不超过60个字符。

l  数据源描述:对数据源进行简单描述,不得超过80个字符。

l  数据源类型:当前选择的数据源类型ADS。

l  连接UrlADS连接信息,格式为:serverIP:Port

l  Schema相应的 ADS Schema 信息。

l  AccessID/AceessKey访问密钥 AccessKeyAK 相当于登录密码。

5. 单击测试连通性。

6. 测试连通性通过后,单击确定。

创建同步任务

本节将新建一个同步节点drds2ads并进行配置,以把drdst_app表中的数据写入到新环境ads的数据库中。具体操作如下:

1. 新建同步节点drds2ads,如下图所示:

bed589db9d0a3dc1813c0674f8062193cb762e9d

fbcde91a7726922bb58761d7211edee0e821accb

2. 选择数据来源和目标

在数据同步任务配置过程中,首先需选择数据源和目标(新增数据源请联系项目管理员),并支持模糊匹配查找数据源和目标以及表名。当选择了源头和目标,其选项框末尾将显示对应数据源或目标类型。

e976a9976e6b2b1ca6665f3b6b824ca1dd2ef73d

3. 字段配置

需对字段映射关系进行配置,左侧源头表字段和右侧目标表字段为一一对应的关系。可批量编辑源表或宿表字段,通过此方式添加的表字段类型默认为空。

da2b7d5d6222c4389ef8ff93c672aae9b93ac245

4. 数据抽取和加载控制

数据抽取控制即数据抽取的过滤条件,而数据加载控制即数据写入时的规则。不同场景的数据同步任务配置界面不同。DRDS到ADS的数据同步任务类型的配置界面如下所示:

bb12f8ee810ef48abc8548dc887bdc9e5b9f3b96

l  抽取控制,可参考相应的SQL语法填写where过滤语句(不需要填写where关键字),该过滤条件将作为增量同步的条件。

说明:

where条件即针对源头数据筛选条件,根据指定的column、table、where条件拼接SQL进行数据抽取。利用where条件可进行全量同步和增量同步,具体说明如下:

    全量同步

第一次做数据导入时通常为全量导入,可不用设置where条件;如只是在测试时,避免数据量过大,可将where条件指定为limit10。

    增量同步

增量导入在实际业务场景中,往往会选择当天的数据进行同步,通常需要编写where条件语句,请先确认表中描述增量字段(时间戳)为哪一个。如tableA描述增量的字段为creat_time,那么在where条件中编写creat_time>${yesterday},在参数配置中为其参数赋值即可。

l  导入模式,支持批量导入(Load Data)和实时插入(Insert Ignore)两种模式。

l  清理规则:

▬写入前清理已有数据:导数据之前,清空表或者分区的所有数据,相当于 insert overwrite

▬写入前保留已有数据:导数据前不清理任何数据,每次运行数据都是追加的,相当于insert into

5. 流量与出错控制

流量与出错控制用来配置作业速率上限和脏数据检查规则,如下图所示:

d245092cc42fd7cb0ce5f34e7bfe8c287d9048a1

l  作业速率上限:是指配置的当前数据同步作业可能达到的最高速率,其最终实际速率受网络环境、数据库配置等的影响,支持最大为10MB/s

以下为脏数据检查规则,可配置一个或两个,两个规则之间的关系:

l  当出错记录数超过:当脏数据数量(即错误记录数)超过所配置的个数时,该数据同步任务结束。

l  错误百分比达到:当脏数据数量(即错误记录数)超过所配置的百分比时,该数据同步任务结束。

设置周期和依赖

大数据开发套件提供了强大的调度能力,支持按照时间、依赖关系的任务触发机制,支持每日千万级别的任务按照DAG 关系准确、准时运行。支持分钟、小时、天、周和月多种调度周期配置。具体操作步骤如下:

1. 配置同步任务的调度属性



点击查看全文


声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/知新_RL/article/detail/1013974
推荐阅读
  

闽ICP备14008679号