赞
踩
项目需求一般都是由产品经理提出来的,需要做哪些事情
产品经理又是从哪获取的需求呢?
(1)老板提出的需求
(2)客户提出的需求
(3)开发人员觉得这个需求对公司有用
需要重点关注我们是如何解决每一个需求的,也是考核我们对数仓的理解和学习的成都的重要指标;
(1)数据量大小
(2)实时性
(3)行业内经验
(4)技术成熟度
(5)开发维护成本以及总成本预算
本项目中使用的方案:
备选方案:
logStash 也可以采集文件日志;
其为ELK三大框架之一(ES、Kibana、logstash)
ELK框架针对的是中小型公司,数据量不大,分析指标不复杂;
DataX 也可以采集业务数据;
和Sqoop的市场占有率55开(全体起立)
本项目中使用的方案:
数仓中未使用到的:
本项目中使用的方案:
数仓项目未使用:
适用于临时查看一些需求指标;而不是数仓中稳定调度的报表指标;
离线场景中:
实时数仓中:
开源免费的:
收费的:
可以管理数仓中哪些表、字段可以给哪些用户查询或者修改
(1)WebApp到Niginx,Nginx负载均衡的作用
(2)日志文件保存30天;防止集群瘫痪,备份时间久一些;
(3)业务数据从Mysql通过Sqoop同步到HDFS
(4)日志数据通过Flume->kafka->HDFS kafka起缓存作用
(5)数仓五层,从DWD层的数据进行维度分析,并存储到HBase
(6)即席查询 可以从各层获取数据
(7)Ads数据通过sqoop导出到Mysql进行可视化展示,用superSet展示
(8)Azkaban任务调度
(9)元数据管理Altas
(10)权限管理Ranger
(11)质量管理自己写脚本,Python+Shell
CDH 6.3.2版本之后就开始收费了;
云服务是收费的,拥有齐全的组件;
云产品使用的多;
也就是说中型公司,日活100w左右的,数据存储半年的,大约需要10台服务器;
一般来说10台服务器够用了;
在企业中通常会搭建一套生产集群和一套测试集群。生产集群运行生产任务,测试集群用于上线前代码编写和测试。
1)生产集群组件搭配原则
(1)消耗内存的分开
(2)数据传输数据比较紧密的放在一起(Kafka 、Zookeeper),减少数据的网络传输
(3)客户端尽量放在一到两台服务器上,方便外部访问;涉及权限开放问题,所以尽量将客户端放置在同一台机器上
(4)有依赖关系的尽量放到同一台服务器(例如:Hive和Azkaban Executor)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。