赞
踩
目录
二、流计算的代表:storm、spark streaming和flink
4.storm、spark streaming和flink 对比
思想是:分而治之,将一个大的数据集,拆分成多个小数据集,然后再多台机器上并行map和reduce
流计算:实时处理不同数据源、连续到达的流数据、分析处理输出有价值的分析结果
流计算特性:高性能、海量式、分布式、易用性、可靠性
准实时或实时的大规模数管理和查询分析技术
建立在Hadoop之上的数据仓库,本身不存储和处理数据,当将MapReduce作为执行引擎时,Hive通过自身组件把HiveQL语句转化成MapReduce任务,快速实现数据仓库的分析统计
A. 用户接口模块:
a.用户可以直接使用Hive提供的CTL工具执行交互式的SQL语句
b.Hive提供了纯Java的JDBC驱动,使Java应用程序可以指定端口连接运行中的Hive服务器
c.用户可以通过web GUI即浏览器的方式输入SQL进行执行
B. 驱动模块:
包含编译器、优化器和执行器;对用户的输入内容进行解析、编译、计算优化,然后按照指定的步骤运行(启动MapReduce任务来执行)
C. 元数据模块:
存储在一个独立的关系型数据库中,通常使用Mysql或Derby数据库;元数据主要保存表模式和其他系统元数据,如表名称,表的列和属性,表的分区和属性及表属性和表中数据所在位置信息;
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。