搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
在线问答5
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
如何利用Selenium Grid进行高效的UI自动化并发测试_selenium 并发
2
git如何拉取指定分支的代码_git拉取指定分支代码
3
【Docker系列】跨平台 Docker 镜像构建:深入理解`--platform`参数_docker --platform
4
Flink CDC整库同步_flinkcdc整库同步
5
手机可以用代理IP吗?它的优势是什么呢?
6
Vcenter 解决vlcs无法删除和创建的问题-vcls存储有问题_vmware 删除僵尸虚拟机vcls
7
nagios的安装部署_nagios 部署教程
8
高通平台 5G RF调试总结_qrct使用手册
9
每天五分钟计算机视觉:搭建人脸识别的Siamese深度神经网络模型
10
paddlenlp与paddlepaddle
当前位置:
article
> 正文
阿里巴巴大数据之路-数据整合&管理体系
作者:在线问答5 | 2024-08-20 12:18:57
赞
踩
阿里巴巴大数据之路
数据整合&管理体系
OneData
OneData 即是阿里巴巴内部进行数据整合及管理的方法体系和工 具。阿里巴巴的大数据工程师在这一体系下,构建统一、规范、可共享 的全域数据体系,避免数据的冗余和重复建设,规避数据烟囱和不一致 性,充分发挥阿里巴巴在大数据海量、多样性方面的独特优势。借助这 一统一化数据整合及管理的方法体系,我们构建了阿里巴巴的数据公共 层,并可以帮助相似的大数据项目快速落地实现。下面重点介绍 OneData 体系和实施方法论。
概述
阿里巴巴集团大数据建设方法论的核心是 :从业务架构设计到模型设计,从数据研发到数据服务,做到数据可管理、可追溯、可规避重复 建设。
定位及价值
建设统一的、规范化的数据接人层( ODS )和数据中间层(DWD 和 DWS),通过数据服务和数据产品,完成服务于阿里巴巴的大数据系 统建设 ,即数据公共层建设。
提供标准化的( Standard)、共享的( Shared)、 数据服务( Service)能力,降低数据互通成本,释放计算、存储、人力 等资源,以消除业务和技术之痛。
体系架构
架构体系图
业务板块
根据业务的属性 划分出几个相对独立的业务板块,业务板块之间的指标或业务重叠性较小。如电商业务板块涵盖淘系、 B2B 系和 AliExpress 系等。
规范定义
结合行业的数据仓库建设经验和阿 里数据自身特点,设计出的一套数据规范命名体系,规范定义将会被用 在模型设计中。
模型设计
以维度建模理论为基础,基于维度建模总线架构,构建 一致性的维度和事实(进行规范定义)。
规范定义
规范定义指以维度建模作为理论基础 , 构建总线矩阵,划分和定义 数据域、业务过程、维度、度量 / 原子指标、修饰类型、修饰词、时间 周期、派生指标。
规范定义实例图
名词术语
数据域
指面向业务分析,将业务过程或者维度进行抽象的集合。 其中 , 业务过程可以概括为一个个不可拆分的行为事件, 在业务过程之下, 可以定义指标; 维度是指度量的环境,如买家下单事件,买家是维度。为保障整个体系的生命力,数据域是需要抽象提炼,并且长期维护和更新的, 但不轻易变动。 在划分数据域时, 既能涵盖当前所有的业务需求,又能在新业务进入时无影响地被包含进已有的数据域中和扩展 新的数据域
业务过程
指企业的业务活动事件,如下单、支付、退款都是业务过程。请注意,业务过程 是一个不可拆分的行为事件, 通俗地讲,业务过程就是企业活动中的事件
时间周期
用来明确数据统计的时间范用或者时间点,如最近 30 天、自然周、截至当日等
修饰类型
是对修饰词的一种抽象划分。 修饰类型从属于某个业务域,如日志域的访问终端 类型涵盖无线端、PC 端等修饰词
修饰词
指除了统计维度以外指标的业务场景限定抽象。 修饰词隶属于一种修饰类型,如 在日志域的访问终端类型下, 有修饰词 PC 端、无线端等
度量/原子指标
原子指标和度自含义相同,基于某一业务TjJ件行为下的度盟,是业务定义中不可再拆分的指标,具有明确业务含义的名词,如支付金额
维度
维度是度盟的环境,用来反映业务的一类属性, 这类属性的集合构成一个维度,也可以称为实体对象。 维度属于一个数据域,如地理维度(其中包挤罔家、地区、省以及城市等级别的内容)、时间维度(其中包括年、季、月、周、日等级别的内容)
维度属性
维度属性隶属于一个维度&#x
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/在线问答5/article/detail/1007129
推荐阅读
article
Qwen2
-
1.5
B-
Instruct
Lora
微调...
最近做了一个基于
Qwen2
-
1.5
B-
Instruct
模型的比赛,记录一下自己的微调过程。怕自己以后忘了我就手把手一步一...
赞
踩
article
腾讯
云
轻量
云
服务器
打开报
服务器
暂时未响应
,
请刷新页面并重试
问题
解决
...
我检查了下
,
没有该
问题
,
即使退出vpn
,
也无法
解决
该
问题
。1、首先确定
,
是不是被禁止在公司访问
腾讯
云
的
问题
,
比如某些IP...
赞
踩
article
Cause
: com.
mysql
.cj.
jdbc
.
exceptions
.MySQLTransacti...
1.报错
Cause
: com.
mysql
.cj.
jdbc
.
exceptions
.MySQLTransactionRol...
赞
踩
article
Python
库之`
lxml
`的
高级
用法深度
解析
_
lxml
使用
iterparse
...
lxml
是一个功能强大的第三方库,它提供了对XML和HTML文档的高效处理能力。除了基本的
解析
和创建功能外,
lxml
还包...
赞
踩
article
Oracle
20c
新特性:Online
SecureFiles
Defragmentation ...
墨墨导读:在使用
LOB
的时候,可能大家都遇到过
碎片
和空间问题的困扰,在
20c
中,
Oracle
提供了对于 Secu...
赞
踩
article
《
Python
编程
:从入门到实践》习题答案
—
—
第
6
章
字典
...
【代码】《
Python
编程
:从入门到实践》习题解析
—
—
第
6
章
字典
。《
Python
编程
:从入门到实践》习题答案
—
—
第
6
章...
赞
踩
article
今天聊聊
检索
增强
的
自
回归
语言
模型
_
自
回归
似然
检索
...
检索
增强
的
自
回归
语言
模型
作为
自
然
语言
处理领域的创新技术,为文本生成任务引入了信息
检索
的思想,有效地提升了生成文本的质量和...
赞
踩
article
离线
运行
Llama3
:
本地
部署
终极指南
_
llama3.1
离线
包...
4月18日,Meta在官方博客官宣了
Llama3
,标志着人工智能领域迈向了一个重要的飞跃。经过笔者的个人体验,Llama...
赞
踩
article
从零开始学
Spring
Boot
系列-集成
Kafka
(1)_
springboot
整合
kafka
电...
Apache
Kafka
是一个开源的分布式流处理平台,由LinkedIn公司开发和维护,后来捐赠给了Apache软件基金...
赞
踩
article
Spring
Boot
集成并开发
Sa
-
token
_
springboot
集成sa
token
...
Sa
-Token是一个轻量级Java权限认证框架,用于登录认证、权限认证等。本文介绍了如何在
Spring
Boot
中集成S...
赞
踩
article
基于
javaweb
jsp ssm
的
电影售票
系统
毕业设计
实战
项目
分享...
基于
javaweb
jsp ssm
的
电影售票
系统
毕业设计
实战
项目
分享 ...
赞
踩
article
【
速览
】
Spring
(
更新
中)...
1. IoC (Inversion of Control, 控制反转)2. DI (Dependency Injecti...
赞
踩
article
低
代码
技术
在
生产
管理
中的应用与
优势
...
低
代码
技术
为企业提供了灵活、高效的开发工具,帮助其应对
生产
管理
中的各种挑战,实现业务流程的优化和数字化转型。企业应抓住
低
...
赞
踩
article
《
大
数据
之路:
阿里
巴巴
大
数据
实践
》-第3篇
数据
管理篇 -第
12
章 元
数据
_
阿里
大
数据
实践
之路pdf...
本文介绍了
阿里
巴巴
大
数据
实践
中的元
数据
管理,包括元
数据
的定义、分类和价值。元
数据
在
数据
仓库中起着关键作用,帮助管理
数据
的...
赞
踩
article
python
爬虫之
lxml
_
python
lxml
...
本文介绍了Python的
lxml
库,它是一个高效的HTML/XML解析器,提供了XPath和CSS选择器等功能。通过实例...
赞
踩
article
Maven
下载安装
、环境
配置
(超详细)(包括Windows、
IDEA
)_
maven
下载安装
配置
...
这篇博客主要是记录了如何
下载安装
Maven
,并且如何在本机Windows
配置
环境变量。其次写到了如何在
IDEA
中
配置
M...
赞
踩
article
干货分享 |
大
数据
零
基础
学习
路线:新手从入门
到
精通_
数据
仓库 零
基础
到
精通...
很多初学者在萌生向
大
数据
方向发展的想法之后,不免产生一些疑问,应该怎样入门?应该
学习
哪些技术?
学习
路线又是什么? 所有萌...
赞
踩
article
存算
分离
|Flink2.0
状态
存储
演进和优化...
本文探讨了Flink在
状态
存储
方面的发展,从早期的本地
存储
到云
存储
的转变,以及针对资源限制、性能瓶颈和云原生需求所做的改...
赞
踩
article
【leetcode.2
0
0
】
岛
屿
数量
_给你一个由
'
1
'
(
陆地
)和
'
0
'
(水)组成
的
的
二维
网格
,请...
一、题目描述给你一个由
'
1
'
(
陆地
)和
'
0
'
(水)组成
的
的
二维
网格
,请你计算
网格
中
岛
屿
的
数量
。
岛
屿
总是被水包围,并且每...
赞
踩
article
解决Unable to
fetch
some
archives
,
maybe
run
apt
-get...
第一种:sudo vim /etc/resolv.conf 添加nameserver 8.8.8.8第二种:/etc/...
赞
踩
相关标签
深度学习
人工智能
自然语言处理
pytorch
transformer
nlp
腾讯云
服务器
云计算
mysql
数据库
python
开发语言
爬虫
经验分享
大数据
AI大模型
AI
语言模型
langchain
spring boot
kafka
后端
java