赞
踩
1)Apache:运维麻烦,组件间兼容性需要自己调研。(一般大厂使用,技术实力雄厚,有专业的运维人员)
2)CDH:国内使用最多的版本,但 CM不开源,但其实对中、小公司使用来说没有影响(建议使用)
3)HDP:开源,可以进行二次开发,但是没有CDH稳定,国内使用较少
1)TDH:星环科技发布的大数据版本,既有开源版本,也又商业化版本
2)FusionInsight:华为发布的大数据版本
3)等都是基于Hadoop体系,封装更多的开源组件,形成整体套件
存储引擎包括文件存储系统,对象存储系统
相关组件包括
Yarn:(Yet Another Resource Negotiator)将MapReduce执行引擎和资源调度分离开来,这就是Yarn,2012年,Yarn成为一个独立的项目开始运营,随后被各类大数据产品支持,成为大数据平台上最主流的资源调度系统。Yarn基于Container进行资源调度。Java语言,依赖开源。
**Kubernetes:**俗称K8S,容器的编排引擎,云原生中编排引擎的事实标准,还有Docker公司开发Docker Swarm编排引擎。Go语言,Google主导。
大数据使用场景主要包括:数据分析和人工智能
数据分析:主要使用Hive、Spark SQL等SQL引擎完成
人工智能:数据挖掘与机器学习则有专门的机器学习框架TensorFlow(Google)、Caffe2(Facebook)、Pytorch(Facebook)、Mahout以及MLlib等,内置了主要的机器学习和数据挖掘算法。
分析主要通过SQL、AI框架已经NoSQL语言进行处理,包括OLTP(On-line Transaction processing 大数据中很少使用),OLAP(On-Line Analytical Processing),NoSQL(Not Only SQL)引擎,AI&BI(Artificial Intelligence/Business Inteligence)
OLAP按存储器的数据存储格式分为ROLAP(Relational OLAP)、MOLAP(Multi-dimensional OLAP)和 HOLAP(Hybrid OLAP)
**MOLAP :**基于多维数组的存储模型,也是OLAP最初的形态,特点是对数据进行预计算,以空间换效率,明细和聚合数据都保存在cube中。但生成cube需要大量时间和空间。可选Kylin、Druid等
**ROLAP :**完全基于关系模型进行存储数据,不需要预计算,按需即时查询。明细和汇总数据都保存在关系型数据库事实表中。可选Presto、impala等
**HOLAP :**混合模型,细节数据以ROLAP存放,聚合数据以MOLAP存放。这种方式相对灵活,且更加高效。可按企业业务场景和粒度进行取舍,没有最好,只有最适合
按照查询类型划分,OLAP一般分为即席查询和固化
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。