赞
踩
1)基于海量生产数据/日志数据,提供历史清单类数据快速查询服务
2)汇聚各应用生产数据/日志数据,建立数仓,进行数据清洗、分析、提供可视化报表服务
3)基于用户画像(行为)数据,建立数仓,结合标签定义,进行数据清洗、加工,为客户营销活动提供服务
狭义上讲,Haoop是一个架构平台,包括hdfs、mapreduce和yarn三部分,而广义上讲,Hadoop是一个大数据技术生态圈,还包括hive、hbase、flume、sqoop、kafka、flink等架构或组件,后续我们会针对各个组件一一进行交流分享。
1. 优点
2. 不适合场景/缺点
- 不适合低延时访问
- 不喜欢小文件
- 不支持多用户写入
- 不支持数据任意修改
注:以上主要是针对Hadoop核心存储架构hdfs来讲,原因后续剖析说明。
1)Apache Hadoop:开源,更新快,但是维护升级相对困难(各组件兼容性导致)
2)CDH:基于开源Hadoop,解决了兼容性,但是收费(企业推荐)
3)HDP:基于开源Hadoop,免费,且提供了界面维护Ambri(已经被CDH收购,前景不明朗)
HDFS解决海量数据的存储问题,主要包含如下三种角色:
MapReduce解决海量数据计算的问题,主要包含如下两个阶段:
Hadoop Common:支持其他模块的工具模块(Configuration、RPC、序列化机制、日志操作)。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。