当前位置:   article > 正文

数据仓库解决方案——ODPS组件化改造之路

数据仓库解决方案——ODPS组件化改造之路

场景还原


不知道你是否在写离线代码时遇到过以下几种情况:

  • 相同的业务代码逻辑分散在各个地方,需要维护多份相似功能代码;

  • 存在多张相同结构的表输入,需要经过相同或相似的逻辑计算加工,并输出给下游表;

  • 有一个计算逻辑非常复杂,需要经过多个子流程或多个节点处理,如何理清楚这些这些节点的逻辑和层次关系?

这里举几个场景,好让你更形象地理解。

  1. 在某个系统中,数据分大促活动数据和日常数据。大促活动数据优先级较高,需要每小时地调度计算,日常数据优先级较低,只需要天级调度。PS:在这个场景中,我们处理这些数据的逻辑高度地相似甚至相同,并且输入表和输出表的schema也是一样的,唯一不同的是调度周期。

  2. 在某系统中需要统计分析不同维度下的销售数据,比如城市、省份、时间段(天、周、月)、区域等等

  3. 某平台需要给多个业务输出数据,希望不同业务间的数据做隔离,一个业务只能读取本业务范围内的数据。

不知道现在有没有体感了,如果有了,请继续往下看。


解决思路



其实以上问题归根结底,我们需要有一套代码模板来实现代码的复用,我们可以通过参数的控制实现差异化的功能。

开始,笔者想到的是通过Java后台来生成这套模板代码,然后在ODPS 上创建Python脚本,通过Http请求Java后台的服务,以动态脚本的方式离线调度执行。

但很快发现这种方式存在诸多问题:

  • 代码在JAVA侧,JAVA侧拼接SQL极易出错,需要经常发布JAVA应用来实现某个离线小功能的迭代,并且离线代码侵入后台系统本身也不太合理。

  • SQL是动态生成的,缺少代码格式化,只能通过运行日志找到实际运行的代码,可读性差。

  • 代码存在两个系统中,较为黑盒,代码测试和debug都较为困难。

最后,在翻阅ODPS的官方文档后发现,其实这些问题ODPS平台上已经具备相应的解决方案了——ODPS组件。

初识ODPS组件

============


▐  组件的定义

组件是一种带有多个输入参数和输出参数的SQL代码过程模板, SQL代码的处理过程一般是引入一到多个源数据表,通过过滤,连接,聚合等操作,加工出新的业务需要的目标表。

****▐  组件的价值

如上,在实际业务实践中,有大量的SQL代码过程很类似,过程中输入的表和输出的表的结构是一样的或者是类型兼容的,仅仅是名字不同而已。这个时候组件的开发者就可以将这样的一个 SQL 过程抽象成为一个SQL组件节点,将里面可变的输入表抽象成输入参数,把里面可变的输出表抽象成输出参数,就可以实现 SQL 代码的复用。

组件的使用者在使用 SQL 组件节点的时候,只要从组件列表中选择和自己业务处理过程类似的组件,为这些组件配置上自己业务中特定的 输入表和输出表,不用再重复复制代码,就可以直接生成新的组件 SQL 节点 从而极大提高了开发效率,避免了重复开发。

SQL 组件节点生成后的发布,调度的操作方法都和普通的 SQL 节点的操作方式是一样的。

▐  组件的结构

一个组件就像一个函数的定义一样,由输入参数,输出参数和组件代码过程构成。

组件的输入参数

组件的输入参数具有参数名,参数类型,参数描述,参数定义等属性, 参数类型有两种:一个是表类型 table,一种是字符串类型 string。

✎  表类型的参数

指定组件过程中要引用到的表,在使用组件的时候,组件的使用者可以为该参数填入其特定业务需要的表。

  字符串类型的参数

指定组件过程中需要变化的控制参数,比如指定过程的结果表只输出每个区域的头 N 个城市的销售额,这个 n 是 1 还是 3 就可以通过字符串类型的参数进行控制;另一个例子,要指定过程的结果表输出那个省份的销售总额,可以设置一个省份字符串参数,指定不同的省份,就能获得指定省份的销售数据。

  组件的输出参数

组件的输出参数具有参数名,参数类型,参数描述,参数定义等属性,参数类型只有一种:表类型 table。字符串类型的输出参数没有逻辑意义。

  组件的过程体

在过程体中参数的引用格式为:@@{参数名}

过程体通过编写抽象的sql 加工过程,将指定的输入表按照输入参数进行控制加工出有业务价值的输出表。

PS:其实作为码农,我们能很好地理解组件的概念,因为即使你没写过ODPS代码,不知道ODPS的组件,但你一定在你曾经用过的语言里找到类似的概念,例如,前端领域中的UI组件,移动Android开发中的组件,Java开发中的各种框架,Jar包等等都是一些组件。

===

牛刀小试

========


作为初识ODPS组件的小白,我们先尝试写一个helloword,实现从一张大表中按业务拆分出多张子表,分别给到各自业务各自的表。

▐  创建组件

过程体开发

PS: 组件过程的开发具有一定的技巧,组件过程的代码需要巧妙的利用输入参数和输出参数,使得组件过程能够在使用的时刻填入不同的输入参数和输出参数也能生成正确的可运行的sql代码。

填写输入输出参数

调试&运行

在做完以上两步后,我们可以直接在组件开发的界面点击运行,输入测试的参数进行调试运行。

发布

组件具有版本号的功能,每次发布,版本号会自增,后面组件使用的地方会用到。

▐  组件引用

在数据开发页面,在文件夹目录先右键选择创建SQL组件节点。

使用组件节点与SQL节点,大部分开发使用习惯都是一样的,包括调度配置也都一样,唯独不同的是组件节点关联了一个组件,如果需要更新节点,需要先更新组件的代码,然后更新节点的代码版本。

进阶使用

========


自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。

深知大多数Java工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年Java开发全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上Java开发知识点,真正体系化!

由于文件比较大,这里只是将部分目录截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且会持续更新!

如果你觉得这些内容对你有帮助,可以扫码获取!!(备注Java获取)

img

Spring全套教学资料

Spring是Java程序员的《葵花宝典》,其中提供的各种大招,能简化我们的开发,大大提升开发效率!目前99%的公司使用了Spring,大家可以去各大招聘网站看一下,Spring算是必备技能,所以一定要掌握。

目录:

部分内容:

Spring源码

  • 第一部分 Spring 概述
  • 第二部分 核心思想
  • 第三部分 手写实现 IoC 和 AOP(自定义Spring框架)
  • 第四部分 Spring IOC 高级应用
    基础特性
    高级特性
  • 第五部分 Spring IOC源码深度剖析
    设计优雅
    设计模式
    注意:原则、方法和技巧
  • 第六部分 Spring AOP 应用
    声明事务控制
  • 第七部分 Spring AOP源码深度剖析
    必要的笔记、必要的图、通俗易懂的语言化解知识难点

脚手框架:SpringBoot技术

它的目标是简化Spring应用和服务的创建、开发与部署,简化了配置文件,使用嵌入式web服务器,含有诸多开箱即用的微服务功能,可以和spring cloud联合部署。

Spring Boot的核心思想是约定大于配置,应用只需要很少的配置即可,简化了应用开发模式。

  • SpringBoot入门
  • 配置文件
  • 日志
  • Web开发
  • Docker
  • SpringBoot与数据访问
  • 启动配置原理
  • 自定义starter

微服务架构:Spring Cloud Alibaba

同 Spring Cloud 一样,Spring Cloud Alibaba 也是一套微服务解决方案,包含开发分布式应用微服务的必需组件,方便开发者通过 Spring Cloud 编程模型轻松使用这些组件来开发分布式应用服务。

  • 微服务架构介绍
  • Spring Cloud Alibaba介绍
  • 微服务环境搭建
  • 服务治理
  • 服务容错
  • 服务网关
  • 链路追踪
  • ZipKin集成及数据持久化
  • 消息驱动
  • 短信服务
  • Nacos Confifig—服务配置
  • Seata—分布式事务
  • Dubbo—rpc通信

Spring MVC

目录:

部分内容:

《互联网大厂面试真题解析、进阶开发核心学习笔记、全套讲解视频、实战项目源码讲义》点击传送门即可获取!
[外链图片转存中…(img-oMRpfL1o-1713710074339)]

Spring MVC

目录:

[外链图片转存中…(img-kjRT6HxX-1713710074340)]

[外链图片转存中…(img-iDewIqJH-1713710074340)]

[外链图片转存中…(img-xzBXfc9o-1713710074340)]

部分内容:

[外链图片转存中…(img-XXpkvjhq-1713710074340)]

[外链图片转存中…(img-zz8Kb2nP-1713710074340)]

《互联网大厂面试真题解析、进阶开发核心学习笔记、全套讲解视频、实战项目源码讲义》点击传送门即可获取!

本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号