赞
踩
hive是大数据中非常重要的一个组件,让数据分析师可以很轻松地使用类SQL语句操作Hadoop中的数据,免去用Java编写MapReduce的门槛(这需要数据分析师有一定的Java编程技能)。
而hive的安装又不像Excel、tableau这类商业软件一样易于安装(鼠标下一步就可以),在学习hive的过程中,安装hive是第一步,面对黑洞洞的命令行经常出错,本文记录hive的安装及过程中涉及的知识。
hive是在Hadoop的之上的,Hadoop是必需的,JDK也是一样,其他必需环境如MySQL等
还有一个最基础的当然是安装有操作系统的机器(电脑或服务器),推荐使用Linux操作系统,如果使用的是Windows,最好安装个虚拟机,在虚拟机上跑Linux。
推荐一个跑Linux的方案,
使用Linux是因为这些组件大多是在Linux下开发的,跑在Windows下总可能出现各种莫名bug;而使用虚拟机是为了做环境隔离,同时折腾出问题了重装很方便;
最后再推荐docker,docker超级方便,有了docker可以不用看下面内容了,演示的安装环境就是Mac os + docker + centos。
jdk是必需的环境,一般安装jdk是通过下载安装包或.gz压缩包然后配置环境的方式安装,个人喜欢使用yum install 来安装,这种方式有两个好处,首先是方便,一行命令就解决,最主要的是更快(当然这需要之前配置过yum镜像源不然也慢,我用的清华镜像源,比从oracle下载快很多)。
yum install java-1.8.0-openjdk-headless.x86_64 -y
因为jdk不是经常要安装,所以总记不住包名,我一般搜下看下包名
yum search jdk #不记得安装包名可以搜一下,在结果中找到1.8版本的
等待安装完,接下来配置环境变量
vi ~/.bash_profile
用vi编辑bash_profile文件,在vi打开的界面的结尾按i输入以下内容,按:+wq退出
export JAVA_HOME=/etc/alternatives/jre_1.8.0
source ~/.bash_profile #执行.bash_profile文件使配置环境变量生效
使用yum install方式安装的jdk 默认是安装在/etc/alternatives/jre_1.8.0,测试jdk是否安装成功
java -version
#out >> openjdk version "1.8.0_242" 输出jdk版本号则安装成功
由于Hadoop依赖于ssh进行节点间操作的,所以对于非本地模式需要安装ssh
ssh分为server、client,在以伪集群方式安装Hadoop时,只需要server就可以了,安装方式还是通过yum install
yum install openssh-server.x86_64 -y #不记得报名用yum search ssh搜下
接下来生成密钥
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
#执行命令后会生成私钥和公钥分别保存在~/.ssh/id_rsa、~/.ssh/id_rsa.pub
#将公钥id_rsa.pub内容复制到authorized_keys
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 0600 ~/.ssh/authorized_keys
然后开启sshd服务,ssh是CS架构的,要开启server端服务才能使用。
这里会有些小问题,如果是在本地虚拟机或云服务器,使用systemctl开启
systemctl start sshd
如果和我一样是docker的centos容器,systemctl就不好用了
#将id_rsa,id_rsa.pub复制到/etc/ssh下
cp ~/.ssh/id_rsa /etc/ssh/ssh_host_rsa_key
cp ~/.ssh/id_rsa.pub /etc/ssh/ssh_host_rsa_key.pub
#然后开启sshd
/usr/sbin/sshd -D
测试下ssh是否能正常使用
ssh localhost
如果出现询问是否继续连接则ssh安装配置成功,输入yes
前序的必需环境已经全部搞定,终于要进入主菜了
首先到Apache的下载页面查看下载镜像http://www.apache.org/dyn/closer.cgi/hadoop/common/
就选择清华大学的镜像下载源
虽然最新的Hadoop3.2版本也是稳定版本了,但是由于之前装hive出现莫名问题,稳妥起见选择2.9.2版本的
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。