当前位置:   article > 正文

滴普FastData系列-自动化数据集成服务DCT可编程调度容器设计_滴普科技fastdata

滴普科技fastdata

作者:陈峰

针对传统数据传输面临的问题和挑战:数据源多样性、数据传输不一致问题、不能有效满足数据实时性需求,并且传统的ETL缺乏智能调度和监控功能;工业企业的数据治理急需一套高效、实时的数据同步工具,滴普在服务客户进行数据治理的过程中,打磨了一套先进的数据同步产品DCT,也是滴普FastData产品组合中的重要模块。

DCT在立项时曾确立了any2any的最终目标。Any2any意味着dct需要兼容各种数据源的读取与写入。据粗略统计,目前常用的数据源超过30种,按照排列组合计算,dct需要支持900种传输组合(按照30种计算)。图表 1两种any2any的架构设计,需要实现any2any有两种架构方式:不使用统一数据标准和使用统一数据标准。

两种架构方式各有优缺点,左图的架构优点在于简单,可以针对特殊数据源进行优化。但缺点也很明显,需要实现的组合太多,假设有N种数据源,那么最多可能需要实现N*N种组合,每个组合都是一套程序,最终就会出现工程量庞大的问题。

右图架构的主要思想是制定一个中间语言的数据标准(IL),然后任意数据源只需要实现一个读取程序和一个写入程序,读取程序将数据源转换为IL,写入程序将IL转换回该数据源支持的格式。这种架构的优势在于工程量小,假设有N种数据源,那么最多只需要实现2*N个程序即可满足需求。但缺点也很明显:设计一种数据源无关的IL成为了该架构方案的巨大挑战。

在这里插入图片描述

图表 1两种any2any的架构设计

除上述优缺点之外,以上两种结构再扩展性上也存在很大的不同,对于右侧的架构来说,其扩展非常灵活,非常适合再读取和写入的过程中增加转换动作,可以灵活适配ETL和ELT架构[ ETL架构指转换在写入目标库之前完成,ELT指转换在写入目标库之后完成。两种模式各有优缺点,大数据批处理时代由于存储成本降低,使用ELT模式比较多。但ELT模式的缺陷导致其不适用于实时计算的场景中,而ETL非常适用于实时计算的场景。]。而左侧的架构由于数据源组合实现已经经过了编译,再在其中增加转换过程几乎是不可能的,因此只适合ELT模式。

考虑到研发成本和扩展性,DCT最终适用于右侧架构。右侧架构关键在于数据标准的设计,在实现上则表现为组件化。本文将会重点介绍DCT 3.0的组件化机制——PSC(Programmable Scheduled Container,可编程调度容器),将为读者揭示PSC内部的具体结构,以及PSC是如何将多个组件整合成独立程序并完成迁移任务的。

本文主体部分分为3个大模块:概述、静态结构、动态结构和性能优化。概述章节说明了PSC的定义;静态结构章节展示了PSC组织不同组件的方式;动态结构章节揭示了PSC在运行过程中多个组件是如何进行交互的;性能优化章节描述了PSC在设计过程中可能遇到的性能问题以及PSC的解决思路。

第一章 概述

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/盐析白兔/article/detail/435119
推荐阅读
相关标签
  

闽ICP备14008679号