知新_RL

这个屌丝很懒，什么也没留下！

热门标签

DRDS向ADS数据迁移指南_dataworks 数据来源opds 数据去向drds 离线增量配置

作者：知新_RL | 2024-08-22 00:46:37

踩

dataworks 数据来源opds 数据去向drds 离线增量配置

点击查看全文

1 CDP简介

数据同步节点任务是阿里云大数据平台对外提供的稳定高效、弹性伸缩的数据同步云服务。用户利用数据同步节点可以轻松地实现DRDS到ADS的数据同步。使用CDP将DRDS数据同步至ADS前需要在目标端创建相应的表结构，同步数据的具体操作如下:

2 配置数据源

2.1 增加DRDS数据源

1.登录Base管控台，单击顶部菜单栏中的项目管理,并选择相应的项目。

2. 进入数据源配置，单击新增数据源。

e0180ae0511e86c87442f925f320d5f050fde955

3. 在新建数据源弹出框中，选择数据源类型为 DRDS。

4. 配置 DRDS 数据源的各个信息项。

cbfee375a88a3f13e6d54d5300a23355008d9c24

配置项说明：

lÂ 数据源名称：由英文字母、数字、下划线组成且需以字符或下划线开头，长度不超过60个字符。

lÂ 数据源描述：对数据源进行简单描述，不得超过80个字符。

lÂ 数据源类型：当前选择的数据源类型DRDS。

lÂ jdbcUrl：JDBC连接信息，格式为：jdbc://mysql://serverIP:Port/database。

lÂ 用户名/密码：对应的用户名和密码。

5. 单击测试连通性。

6. 测试连通性通过后，单击确定。

2.2 增加ADS数据源

1.登录Base管控台，单击顶部菜单栏中的项目管理,并选择相应的项目。

2. 进入数据源配置，单击新增数据源。

2359de806eea67c35b858d436bb00340904474ee

3. 在新建数据源弹出框中，选择数据源类型为 ADS。ADS数据源提供了其他数据源向 AnalyticDB 写入的功能，暂不能读取数据。

4. 配置 ADS 数据源的各个信息项。

3fed928253b69d86d0f8179638a905ab37ad4abb

配置项说明：

lÂ 数据源名称：由英文字母、数字、下划线组成且需以字符或下划线开头，长度不超过60个字符。

lÂ 数据源描述：对数据源进行简单描述，不得超过80个字符。

lÂ 数据源类型：当前选择的数据源类型ADS。

lÂ 连接Url：ADS连接信息，格式为：serverIP:Port。

lÂ Schema：相应的 ADS Schema 信息。

lÂ AccessID/AceessKey：访问密钥 AccessKey（AK）相当于登录密码。

5. 单击测试连通性。

6. 测试连通性通过后，单击确定。

3 创建同步任务

本节将新建一个同步节点drds2ads并进行配置，以把drds的t_app表中的数据写入到新环境ads的数据库中。具体操作如下：

1. 新建同步节点drds2ads，如下图所示：

bed589db9d0a3dc1813c0674f8062193cb762e9d

fbcde91a7726922bb58761d7211edee0e821accb

2. 选择数据来源和目标

在数据同步任务配置过程中，首先需选择数据源和目标（新增数据源请联系项目管理员），并支持模糊匹配查找数据源和目标以及表名。当选择了源头和目标，其选项框末尾将显示对应数据源或目标类型。

e976a9976e6b2b1ca6665f3b6b824ca1dd2ef73d

3. 字段配置

需对字段映射关系进行配置，左侧“源头表字段”和右侧“目标表字段”为一一对应的关系。可批量编辑源表或宿表字段，通过此方式添加的表字段类型默认为空。

da2b7d5d6222c4389ef8ff93c672aae9b93ac245

4. 数据抽取和加载控制

数据抽取控制即数据抽取的过滤条件，而数据加载控制即数据写入时的规则。不同场景的数据同步任务配置界面不同。DRDS到ADS的数据同步任务类型的配置界面如下所示：

bb12f8ee810ef48abc8548dc887bdc9e5b9f3b96

lÂ 抽取控制，可参考相应的SQL语法填写where过滤语句（不需要填写where关键字），该过滤条件将作为增量同步的条件。

说明:

where条件即针对源头数据筛选条件，根据指定的column、table、where条件拼接SQL进行数据抽取。利用where条件可进行全量同步和增量同步，具体说明如下：

• 全量同步

第一次做数据导入时通常为全量导入，可不用设置where条件；如只是在测试时，避免数据量过大，可将where条件指定为limit10。

• 增量同步

增量导入在实际业务场景中，往往会选择当天的数据进行同步，通常需要编写where条件语句，请先确认表中描述增量字段（时间戳）为哪一个。如tableA描述增量的字段为creat_time，那么在where条件中编写creat_time>${yesterday}，在参数配置中为其参数赋值即可。

lÂ 导入模式，支持批量导入（Load Data）和实时插入（Insert Ignore）两种模式。

lÂ 清理规则：

▬写入前清理已有数据：导数据之前，清空表或者分区的所有数据，相当于 insert overwrite；

▬写入前保留已有数据：导数据前不清理任何数据，每次运行数据都是追加的，相当于insert into。

5. 流量与出错控制

流量与出错控制用来配置作业速率上限和脏数据检查规则，如下图所示：

d245092cc42fd7cb0ce5f34e7bfe8c287d9048a1

lÂ 作业速率上限：是指配置的当前数据同步作业可能达到的最高速率，其最终实际速率受网络环境、数据库配置等的影响，支持最大为10MB/s。

以下为脏数据检查规则，可配置一个或两个，两个规则之间的关系：

lÂ 当出错记录数超过：当脏数据数量（即错误记录数）超过所配置的个数时，该数据同步任务结束。

lÂ 错误百分比达到：当脏数据数量（即错误记录数）超过所配置的百分比时，该数据同步任务结束。

4 设置周期和依赖

大数据开发套件提供了强大的调度能力，支持按照时间、依赖关系的任务触发机制，支持每日千万级别的任务按照DAG 关系准确、准时运行。支持分钟、小时、天、周和月多种调度周期配置。具体操作步骤如下：

1. 配置同步任务的调度属性

点击查看全文

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/知新_RL/article/detail/1013974