赞
踩
首先简单介绍一下Hive:
Hive是一个构建在Hadoop之上的数据仓库软件,它可以使已经存储的数据结构化,它提供类似sql的查询语句HiveQL对数据进行分析处理。 Hive将HiveQL语句转换成一系列成MapReduce作业并执行。用户可以很方便的使用命令行和JDBC程序的方式来连接到hive。 目前,Hive除了支持MapReduce计算引擎,还支持Spark和Tez这两中分布式计算引擎。常用于离线批处理。
为什么要用Hive?
简单来说,Hive主要就是通过写SQL语句来实现Hadoop分布式框架的MapReduce计算引擎的功能,我们不要要通过编写繁琐的java代码,去实现MapReduce,再将jar包打包放进集群中运行,只需要写最容易上手的SQL语句,就能实现对数据进行分析处理。
Hive安装及配置:
安装Hive所需要用到的安装包:(可以根据自己需要自行去官网下载)
注意:安装Hive之前,必须确保hadoop集群能够正常启起来
1.首先,将压缩包解压到/opt/bigdata/hadoop/下,并改名为hive110(压缩包名字应该简短意赅)
2.启动hadoop集群(在/hadoop/hadoop260/sbin目录下)
[root@vmmaster sbin]# start-all.sh
3.修改hive110安装包的权限:(要将该安装包赋予root权限)
[root@vmmaster hadoop]# chown -R root:root hive 110/
4.将mysql连接java驱动包存放到/opt/install/hadoop下
5.在hive110目录下的conf目录下配置hive-site.xml文件
[root@vmmaster conf]# vi hive-site.xml
<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<?xml-stylesheet type="text/xsl" href=
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。