搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
盐析白兔
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
2021-07-22_ecf paper id
2
2019最新《人工智能之量化交易全套最新教程》_量化交易百度网盘
3
几个好用的audio数字信号处理的开源地址marks(持续更新中)
4
Enhancing Knowledge Tracing via Adversarial Training
5
HarmonyOS鸿蒙开发指南:自适应布局 网格布局_鸿蒙os 控件高度设置自适应
6
【Stable Diffusion】Stable Diffusion免安装在线部署教程_stable diffusion在线
7
最全的maven的pom.xml文件详解_pom.xml最全
8
挖掘网络数据价值,构建运维场景化应用 ——数据驱动下的民生银行智能化运维创新实践...
9
机器学习基础概念(三):归纳与演绎_归纳学习 演绎学习
10
Python 第三方 PyQt5 库使用PyQt5-tools的依赖包安装和 Qt Designer、PyUIC、PyRcc三个工具的设置以及QT Designer实现拖拽进行可视化UI界面开发_pyqt5 tools
当前位置:
article
> 正文
数据中台(五)数据开发:数据价值提炼工厂_数据中台开源代码
作者:盐析白兔 | 2024-03-27 10:22:50
赞
踩
数据中台开源代码
数据中台(五)数据开发:数据价值提炼工厂
目的:数据开发(离线开发、实时开发、和算法开发)将数据转化为数据资产,转换成业务需要的新形态,提炼数据价值
一、数据计算能力的4种类型
批计算:主要应用于数据高延时场景,例如:大规模的数据清洗、数据挖掘。MapReduce、hive、Spark等计算框架,吞吐量大、延时高
1、MapReduce:分布式编程,分而治之
2、Spark:优势
数据处理技术:DAG执行计划
数据格式和内存布局:Spark RDD分布式索引
执行策略:Spark 支持Hash分布式聚合,调度采用更为通用任务执行DAG,每一轮输出结果都可缓存
流计算:主要应用于数据加工处理和较强时效性要求场景,例如:双11可视化大屏。Flink、SparkStreaming 和Storm计算框架
1、流式ETL:集成计算诸多通道与SQL灵活加工,流式数据进行实时清洗、归并、结构化处理,补充优化离线数仓,提供可计算通道
2、流式报表:实时采集、加工数据,监控展现各类指标BI,让数据运营实时化
3、监控预警:实时检测分析,实时检测发现危险
4、在线系统:实时计算各类数据指标
在线查询:主要用于数据在线查询的场景,例如:数据检索、条件过滤等。缓存性存储计算Redis、Tair;延时正常HBase、MySQL;条件检索用Elasticsearch等,企业多套并用。
1、画像服务:Redis可提供低延迟、高并发的查询服务能力;Hbase提供大规模数据查询服务能力;
2、搜索应用场景:提供搜索引擎能力,为用户提供模糊匹配、意图识别检索能力,快速检所需要的内容,如文档搜索、商品搜索等
3、圈人场景:条件规则,快速筛选业务所需群体,向运营、营销提供数据支撑
即席分析:分析与经验统计场景,例如:任意维度的交叉分析。用Kylin、Impala、ClickHouse等
1、ROLAP:以关系性数据库为核心
2、MOLAP:基于多维数据组织的实现,伊多为数据组织为核心,形成“立方块”的结构,通过立方块进行各类处理来产生多维数据报表;
3、交互式数据分析
4、群体对比分析场景
二、离线开发
作业调度(DAG有向无环图)
依赖调度:节点作业上下游
时间调度:指定具体时间执行
基线控制
大数据离线计算场景,基线管控方法用于统一管理数据处理作业的完成时间、优先级、告警策略,保障数据加工按时完成
异构存储
多种数据库并存场景,自定义创建作业类型,执行时自动根据作业的类型寻找相应的插件来执行作业,例如Hadoop——Hive、Spark、MapReduce
代码校验
语法校验
规则校验:安全脱敏加密
多环境级联
单一环境
经典环境:
复杂环境:研发人员在研发态测试数据模型,从研发态Dev发布到生产态Pro;同理数据管理员从生产态Pro数据同步加密脱敏到研发态Dev,
推荐依赖
智能推荐表上下游依赖
数据权限
RBAC:基于角色的访问控制,比如Cloudera的Sentry、华为的FusionInsight
PBAC:基于策略的访问控制,比如:Hortonworks 的Ranger
三、实时开发
元数据管理:管理选择数据存储格式,缓解资源压力,例如:JSON、AVRO等
SQL驱动:利用SQL普适性,流计算SQL可提高开发效率,将Hbase、CSV文件、MySq的表注册为临时视图,视图SQL转化处理,最后写入结果
组件开发:将流计算的输入源、转换逻辑、UDF函数、结果持久化封装为组件,通过直接拖拽组件来进行SQL代码编写与简单配置,同时可以对组件的数据量的吞吐、流速、做指标的统计分析,分析计算瓶颈,准确定位问题
实时计算必备的特点:Spark Streaming
实时且无界
持续且高效的计算
流式且实时的数据集成
四、算法开发
问题与挑战:
数据处理难度加大
业务处理要求高
烟囱式的开发模型
散落各地的模型服务
模型研发环节繁多
冗余分散的基础设施
特征工程\数据预处理
多角色企业研发团队
算法开发套件架构图
算法常见应用场景
金融风控和反欺诈:关联分析、标签传播、PageRank和社团发现等图算法组件,例如:Neo4j知识图谱的,构建金融反欺能力,鉴别数据真伪
文本挖掘分析:命名实体识别(NER)、图挖掘等文本算法能力,分析非结构化文本信息,构建关系网
广告精准营销:根据客户历史偏好、行为数据,利用特征分箱、LightGBM、PMI等算法组件构建的机器学习模型来挖掘潜在的客户,实现精准营销,提高点击率
个性化推荐:利用协同过滤、XBoost等推荐场景组件,分析海量数据构建多维用户画像,实时千人面的推荐,提高转化率
可视化建模
拖拽式实验流:机器学习\深度学习等算法组件
丰富算法组件:
实验周期调度:需支持细粒度的调度周期:分钟、小时、天、周、月等级别
告警通知:邮件、短信、钉钉,灵活适配用户习惯
多角色协同:权限分组算法建模开发、节点运维,专注工作、隔离数据安全
NoteBook建模
jupyterLab在线编程:
支持通过API方式调用标准算法组件
支持多言语:Scala、Python、R、Shell
高可用:支持共享存储,实现数据高可用和数据隔离;支持Kubernetes集群,保证服务的高可用和资源隔离
数据集管理
数据接入
数据标注
数据探查
核心算法组件
数据获取及存储:HDFS等平台读写保存数据
数据预处理:随机采样、加权采样、分层采样、拆分、join、归一化、标准化、缺失值填充、类型转换
特征工程
主成分分析PCA
特征维度、尺度变化
特征离散
特征异常平滑
奇异值分解
one-hot编码
统计分析:直方图、协方差、相关系数、正态分布、皮尔森系数、T检测、百分位、经验概率密度图等
机器学习
分类:GBDT二分类、线性支持SVM向量机、K邻值、决策时分类、多层感知分类(XGboost)、朴素贝叶斯分类、LightGBM分类(垂直地生长树)、随机森林分类、逻辑回归分析等……
回归:GBDT回归、随机森林回归、线性回归、LightGBM回归
聚类:Kmeans、高斯混合聚类……
深度学习框架
TensorFlow
Mxnet、PaddlePaddle
PyTorch、XGboost
……
文本分析
PLDA
TF-IDF
Word2Vec
词频统计、去停词、分词处理和关键词抽取
……
网状关系分析:提供图数据结构分析组件,标签传播分类、标签传播聚类、Modularity、树深度等,例如:医疗、金融风控知识图谱
工具类:自定义SQL、PySpark、表转文件、文件转表等组件
多算法框架
TensorFlow:谷歌,丰富API接口,常用必须掌握
CNTK
PyTorch:Facebook,动态计算图架构
paddlepaddle
Spark
XGboost
LightGBM:梯度Boosting框架,基于决策树
中台手记(三):选择适合自己的技术平台
系统必须具备三个条件:
丰富足够的存储形式
可拓展,至少未来5只够支持数据增量需求
良好的生态与工具支持
Hadoop开源架构需求的两大类工具
数据采集交换类
数据库数据同步:开源Sqoop、商业阿里DataX
系统日志的同步:开源Flume、logstash等,商业阿里loghub
非结构数据同步:阿里OSS数据到MaxCompute
互联网爬取:商业Nutch
数据开发类
开源数据开发:hadoop的HUE、zepplelin、Kettle等
商业数据开发:阿里DataWorks、Dataphin;数澜的数栖
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/盐析白兔/article/detail/323630
推荐阅读
article
JAVA
面试
大全
之
基础篇...
Java
面试
题大全
之
基础篇
JAVA
面试
大全
之
基础篇 目录 1、语法基础 1.1、面向对象特性?...
赞
踩
article
Android
系统启动(二)——
Zygote
启动_
android
file
:zygoteinit.j...
上一篇讲到了init启动
Zygote
的过程,这次分析
Zygote
涉及类/frameworks/base/cmds/app...
赞
踩
article
JVM
一个
类
的
加载
过程_jvm
类
加载
的
一个
过程...
七大步骤具体过程
加载
:classpath、jar包、网络、某个磁盘位置下
的
类
的
class二进制字节流读进来,在内存中生成...
赞
踩
article
微信
小
程序
如何
反编译
,如何
获取
线上任何
微信
小
程序
源码
_通过
微信
小
程序
逆向
获取
源码
...
微信
小
程序
的包和依赖包的后缀都是.wxapkg,真正的
小
程序
包大
小
1M左右,而依赖包大
小
2、3M甚至更多。
反编译
.wxa...
赞
踩
article
微信
小
程序
反编译
方法分享_
小
程序
反编译
教程...
在日常开展渗透测试的工作中,经常会遇到各种各样的
小
程序
,为了方便渗透测试人员及开发人员分析
小
程序
的前端源代码,了解
小
程序
...
赞
踩
article
linux
代码
诊断
有没有
link
,
Linux
下
判断
网线是否插入的
代码
...
Linux
下
判断
网线是否插入的
代码
参考ethtool-2.6.36.tar.gz
代码
:[guowenxue@local...
赞
踩
article
YOLOv9
有效
改进
专栏汇总|未来
更新
卷积
、主干、检测头
注意力
机制
、特征
融合
方式等创新![2024/...
。
YOLOv9
有效
改进
专栏汇总|未来
更新
卷积
、主干、检测头
注意力
机制
、特征
融合
方式等创新![2024/3/
23
] ...
赞
踩
article
Docker
进阶
Compose
——
swarm
集群_
compose
跟
swarm
...
Docker
进阶
Compose
——
swarm
集群_
compose
跟
swarm
compose
跟
swarm
...
赞
踩
article
Devchat
插件:
AI
智能
编程
助手,让你告别脏活累活。_
devin
智能
ai
...
随着人工
智能
技术的不断发展和普及,它正在深刻影响着各行各业,并逐渐成为改变世界的重要力量。在软件开发领域,人工
智能
技术也...
赞
踩
article
Stream
流 获取
list
中对象
的
某个字段组成新
的
list
_
steam
流取出一个字段
组合成
lis...
List
collect = projects.stream().map(dataDictionary ...
赞
踩
article
现在
java
工程师
薪资
是
多少
,
使用/教程/实例_
java
编程
工程师
薪资
多少
...
Java开发
工程师
就业前景分析在服务器端Java发挥高性能、安全稳健的特性。Java
工程师
的需求占全部需求量的60%~7...
赞
踩
article
HarmonyOS
应用
开
发者高级认证学习认证知识答疑笔记(七)_元
服务
包
每个
hap
包
不得超过多少,
以
...
在Column和Row容器组件中,alignItems用于设置子组件在主轴方向上的对齐格式,justifyContent...
赞
踩
article
【一步步
开发
AI
运动
小
程序
】八、利用
body
-
calc
进行
姿态
识别_
运动
ai
分析
开发
...
的检测规则都是对象化,所以
开发
者实际应用中可以考虑采用JSON方式持久化,放置在后端,便于
运动
、
姿态
的检测更新、配置化等...
赞
踩
article
安卓虚拟
摄像头
LSPosed
kotlin...
安卓虚拟
摄像头
- 基于Xposed的虚拟
摄像头
- 支持安卓13- 支持miui 14_安卓虚拟
摄像头
安卓虚拟
摄像头
...
赞
踩
article
互联网
公司
各个
岗位
的
薪资对比
_
qt
和
vue
哪个工资高点...
高级C++全栈开发工程师(20-30K)
岗位
职责:1. 负责桌面客户端以及Linux服务器端
的
设计.开发及维护2. 负责...
赞
踩
article
【
机器
学习之
---
数学】
马尔科夫
链
...
马尔科夫
链
Xt−2Xt−1XtXt−1...Xt−2Xt−1XtXt−1...,那么Xt−1X_{t-1}Xt−...
赞
踩
article
SAP
PP
生产
订单
的组件清单
获取
...
FUNCTION ZRFC_
PP
ORDER_GET.*"--------------------------------...
赞
踩
article
大
数据
视频课程
_
2020
黑马
大
数据
...
2019版https://pan.baidu.AAAcom/s/17mKzORJ48iwpBw3Xl2XbqQ#list...
赞
踩
article
真实
,
30W+
测开
社招
,
面经分享!(偏
java
测试
开发
)_
测开
社招面经...
面试的体验都非常好
,
比较顺利
,
最后顺利拿到 offer。项目经验我记得有一次面试 shopee
,
让我画架构图
,
后来思考了...
赞
踩
article
【论文笔记】
MLFF
-
GAN
:A Multilevel Fe
a
ture Fusion With
GAN
...
由于技术和预算的限制,单个遥感卫星的传感器往往难以同时具有高时间和高空间(HTHS)分辨率。在本文中,我们提出了一种新的...
赞
踩
相关标签
面试
职场和发展
java
android
微信小程序
小程序
前端
linux代码诊断有没有link
pytorch
YOLO
python
深度学习
人工智能
docker
容器
运维
DevChat
开发语言
后端
harmonyos
学习
笔记
华为
apache
uni-app