赞
踩
数据汇聚是数据中台必须提供的核心工具,把各种异构网络、异构数据源的数据方便地采集到数据中台中进行集中存储,为后续的加工建模做准备。数据汇聚方式一般有数据库同步、埋点、网络爬虫、消息队列等;从汇聚的时效性来分,有离线批量汇聚和实时采集。
数据开发模块主要面向开发人员、分析人员,提供离线、实时、算法开发工具。
推荐依赖
随着业务的不断深入,数据开发人员需要开发的作业会不断累加。既能保证准确找到需要定位的上游作业,又能保证不会形成环路。
获取推荐依赖的核心原理在于上下游作业输入和输出的表级血缘依赖图;
通过血缘分析当前作业的输入和输出,找到合适的上游作业;
对合适的作业进行环路检测,剔除存在闭环的作业;
返回合适的节点列表。
数据权限
企业内部计算引擎多样化,数据权限管理面临如下问题:
任务的管理、代码发布、运维、监控、告警等一系列集成工具,方便使用,提升效率。重跑、重跑下游、补数据。
有了数据汇聚、数据开发模块,中台已经具备传统数据仓库(后面简称:数仓)平台的基本能力,可以做数据的汇聚以及各种数据开发,就可以建立企业的数据体系。之前说数据体系是中台的血肉,开发、管理、使用的都是数据。
中台数据体系应具备以下特征:
不同行业的数据体系建
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。