赞
踩
Hive简介
定义
Facebook为了解决海量日志数据的分析而开发了hive,后来开源给了Apache基金会组织。 hive是一种用SQL语句来协助读写、管理存储在HDFS上的大数据集的数据仓库软件。
为什么要使用Hive?
1) 从SQL角度,简单、容易上手、使用方便。
2) 从Hadoop角度,可以操作大规模的数据集,可以作为大数据的引擎。
3) 从MetaStore角度:有了这个之后,这些框架Pig/Impala/Presto/SparkSQL跟Hive可以共享元数据信息,
共享元数据即他们之间的元数据可以互通访问的,比如在Hive创建一张表,可以在SparkSQL能用,也可以在 Presto,Impala,Pig用。相反,在SparkSQL创建的表,在HIVE,Pig,Impala,Presto也能用。因为他们底层都是共享MetaStore。
Hive原理:
hive内核:
hive 的内核是驱动引擎,驱动引擎由四部分组成,这四部分分别是:
▪解释器:解释器的作用是将hiveSQL语句转换为语法树(AST)。
▪编译器:编译器是将语法树编译为逻辑执行计划。
▪优化器:优化器是对逻辑执行计划进行优化。
▪执行器:执行器是调用底层的运行框架执行逻辑执行计划。
hive底层存储:
hive的数据是存储在HDFS上,hive中的库和表可以看做是对HDFS上数据做的一个映射,所以hive必须运行在一个hadoop集群上。
hive程序执行过程
hive执行器是将最终要执行的mapreduce程序放到YARN上以一系列job的方式去执行。
hive特点:
▪ hive 最大的特点是通过类 SQL 来分析大数据,而避免了写 mapreduce Java 程序来分析数据,这样使得分析数据更容易。
▪数据是存储在HDFS上的,hive本身并不提供数据的存储功能
▪hive是将数据映射成数据库和一张张的表,库和表的元数据信息一般存在关系型数据库上(比如MySQL)。
▪数据存储方面:他能够存储很大的数据集,并且对数据完整性、格式要求并不严格。
▪数据处理方面:不适用于实时计算和响应,使用于离线分析。
什么是Storm?
Strom是一个老牌的实时数据处理框架,在Spark Streaming流行前,Storm统治者整个流式计算的江湖。
更详细的说,Storm是一个实时数据处理框架,具有低延迟/高可用/易扩展/数据不丢失等特点,同时,Storm还提供流类似与MapReduce的简单编程模型,便于开发。
Storm的使用场景
Strom的核心组件:
Nimbus:负责资源分配和任务调度
Supervisor:负责接收Nimbus分配的任务,启动和停止属于自己的Worker进程
Worker:运行具体的处理逻辑的进程,Work运行的任务种类只有两种,一种是Spout任务,一种是Blot任务
Task:Work中的每个Spout/Blot任务都是一个线程,这个线程就是Task。但在0.8版本以后,一个task不再对应一个物理线程,有可能不同但Task共享同一个线程。
storm的模型:
Topology:Storm中一个独立的实时计算应用但名称;
Spout:在一个Toplogy中获源数据流的组件;
Bolt:接收数据并进行处理的组件,可以在其中定义处理逻辑;
Tuple:Storm中消息的基本单元,在Spout/Blot之间传递的每条消息就是一个Tuple;
Stream:表示数据的流向,也可以理解为tuple流转流程
storm的优势:
支持水平扩展
在Storm集群中真正运行topology的主要有三个实体:工作进程、线程和任务。Storm集群中的每台机器上都可以运行多个工作进程,每个工作进程又可创建多个线程,每个线程可以执行多个任务,任务是真正进行数据处理的实体,我们开发的spout、bolt就是作为一个或者多个任务的方式执行的。
因此,计算任务在多个线程、进程和服务器之间并行进行,支持灵活的水平扩展。
容错性强
如果在消息处理过程中出了一些异常,Storm会重新安排这个出问题的处理单元。Storm保证一个处理单元永远运行(除非你显式杀掉这个处理单元)。
可靠的消息保证
Storm可以保证spout发出的每条消息都能被“完全处理”,这也是直接区别于其他实时系统的地方.
快速的消息处理
用ZeroMQ作为底层消息队列, 保证消息能快速被处理
本地模式,支持快速编程测试
Storm有一种“本地模式”,也就是在进程中模拟一个Storm集群的所有功能,以本地模式运行topology跟在集群上运行topology类似,这对于我们开发和测试来说非常有用
网络系统
1.Flume用来采集数据
2.Kafka用来临时保存数据
3.Storm用来实时计算数据
4.Redis作为内存数据库保存最终数据
记录学习,每天进步一点点的橘子大王。
喜欢就关注我吧。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。