赞
踩
前阵子想学习一下数据仓库相关内容,发现要学习hive软件,然后最近这几天终于把配置的东西整得差不多明白了。
首先,hive是基于hadoop集群才能运行的软件,而hadoop又是要基于java环境采用MapReduce做计算,而hadoop通常运行在linux环境上。hive所执行的功能只不过是将你编写的SQL语句解释编译为MapReduce能够执行的程序而已。此外,hive具有把结构化文件映射为数据库的功能,那么这些映射关系就需要另一个关系型数据库来储存,我们这里用mysql。结构化文件比如下面这个:
- 1,zhangsan,24
- 2,lisi,30
- 3,manguo,24
OK,综上所述,我们需要先创建多个Linux虚拟机,然后再每个虚拟机上安装java编译环境,然后再安装hadoop软件,然后完成了hadoop配置之后,我们还要安装mysql数据库来储存映射关系。再之后,根据hive的启动要求启动相关的进程,就可以使用hive啦。
下面让我们开始;
首先在hadoop配置方面,已经有大佬给出了详细的教程,大家可以套娃过去,这个教程写的十分详细而且有相关代码可以直接复制,十分方便。如果过程中有不清楚的地方的话,还可以在哔站上搜hadooop尚硅谷的教程,下方这个文字的连接似乎就是根据尚硅谷那个整理出来的。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。