当前位置:   article > 正文

阿里巴巴大数据之路-数据整合&管理体系

阿里巴巴大数据之路

数据整合&管理体系

OneData

OneData 即是阿里巴巴内部进行数据整合及管理的方法体系和工 具。阿里巴巴的大数据工程师在这一体系下,构建统一、规范、可共享 的全域数据体系,避免数据的冗余和重复建设,规避数据烟囱和不一致 性,充分发挥阿里巴巴在大数据海量、多样性方面的独特优势。借助这 一统一化数据整合及管理的方法体系,我们构建了阿里巴巴的数据公共 层,并可以帮助相似的大数据项目快速落地实现。下面重点介绍 OneData 体系和实施方法论。

概述

阿里巴巴集团大数据建设方法论的核心是 :从业务架构设计到模型设计,从数据研发到数据服务,做到数据可管理、可追溯、可规避重复 建设。

定位及价值

  • 建设统一的、规范化的数据接人层( ODS )和数据中间层(DWD 和 DWS),通过数据服务和数据产品,完成服务于阿里巴巴的大数据系 统建设 ,即数据公共层建设。
  • 提供标准化的( Standard)、共享的( Shared)、 数据服务( Service)能力,降低数据互通成本,释放计算、存储、人力 等资源,以消除业务和技术之痛。

体系架构

  • 架构体系图

在这里插入图片描述

  • 业务板块

    • 根据业务的属性 划分出几个相对独立的业务板块,业务板块之间的指标或业务重叠性较小。如电商业务板块涵盖淘系、 B2B 系和 AliExpress 系等。
  • 规范定义

    • 结合行业的数据仓库建设经验和阿 里数据自身特点,设计出的一套数据规范命名体系,规范定义将会被用 在模型设计中。
  • 模型设计

    • 以维度建模理论为基础,基于维度建模总线架构,构建 一致性的维度和事实(进行规范定义)。

规范定义

规范定义指以维度建模作为理论基础 , 构建总线矩阵,划分和定义 数据域、业务过程、维度、度量 / 原子指标、修饰类型、修饰词、时间 周期、派生指标。

规范定义实例图

在这里插入图片描述

名词术语

  • 数据域

    • 指面向业务分析,将业务过程或者维度进行抽象的集合。 其中 , 业务过程可以概括为一个个不可拆分的行为事件, 在业务过程之下, 可以定义指标; 维度是指度量的环境,如买家下单事件,买家是维度。为保障整个体系的生命力,数据域是需要抽象提炼,并且长期维护和更新的, 但不轻易变动。 在划分数据域时, 既能涵盖当前所有的业务需求,又能在新业务进入时无影响地被包含进已有的数据域中和扩展 新的数据域
  • 业务过程

    • 指企业的业务活动事件,如下单、支付、退款都是业务过程。请注意,业务过程 是一个不可拆分的行为事件, 通俗地讲,业务过程就是企业活动中的事件
  • 时间周期

    • 用来明确数据统计的时间范用或者时间点,如最近 30 天、自然周、截至当日等
  • 修饰类型

    • 是对修饰词的一种抽象划分。 修饰类型从属于某个业务域,如日志域的访问终端 类型涵盖无线端、PC 端等修饰词
  • 修饰词

    • 指除了统计维度以外指标的业务场景限定抽象。 修饰词隶属于一种修饰类型,如 在日志域的访问终端类型下, 有修饰词 PC 端、无线端等
  • 度量/原子指标

    • 原子指标和度自含义相同,基于某一业务TjJ件行为下的度盟,是业务定义中不可再拆分的指标,具有明确业务含义的名词,如支付金额
  • 维度

    • 维度是度盟的环境,用来反映业务的一类属性, 这类属性的集合构成一个维度,也可以称为实体对象。 维度属于一个数据域,如地理维度(其中包挤罔家、地区、省以及城市等级别的内容)、时间维度(其中包括年、季、月、周、日等级别的内容)
  • 维度属性

    • 维度属性隶属于一个维度&#x
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/在线问答5/article/detail/1007129
推荐阅读
相关标签
  

闽ICP备14008679号