赞
踩
什么是大数据? 大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。换句话数据量在TB,PB,甚至更大的多元化数据集合。多,杂的数据
当今数据处理模式:离线处理(先收集数据,再处理)----Hadoop;流式处理(实时处理)---spark
1,The Apache Hadoop project develops open-source software for reliable, scalable, distributed computing.Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
2,特点:reliable, scalable, distributed
3,核心组件及功能
功能:
HDFS:namenode: 存储元数据信息(元数据:谁创建,什么时间创建,创建在什么节点),管理者
datanode:真正存储数据的节点,执行者
Yarn:resourcemanager: 管理平台资源
nodemanager: 机器真正对应的资源—每个机器具体的节点
MapReduce:分布式计算框架
map端:将任务分配到不同的机器节点上(拆分任务)
shuffle:中间桥梁(内容拆分)
reduce端:map结果汇总
4,Hadoop框架的优缺点:
优点:效率高,适合离线处理
缺点:启动开销大(所以只能是数据量很大才适合用了)
1,Hive 将结构化的数据映射成表格,是数据仓库,使用类SQL语句,进行数据的读写管理
2,与数据库的异同点:
3,Hive与hadoop的关系
hive是建立在大数据平台Hadoop框架之上的大数据仓库,以HQL语句为实现形式,底层转化为经过MapRdeuce处理的,HDFS文件
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。