当前位置:   article > 正文

大数据三大组件(spark,hadoop,hive)的安装之spark之伪分布式_hadoop hive spark伪分布式集群搭建

hadoop hive spark伪分布式集群搭建

说明一下,本次安装的spark是经过编译后的可以直接处理hive数仓的spark2.4.0版本

相关软件我已经放在链接中了

链接:https://pan.baidu.com/s/17240ITPR14vcRku6_P0kug?pwd=me15 
提取码:me15

1、首先进入spark-shell命令窗口输入import org.apache.spark.sql.hive.HiveContext

如果出现截图就代表这个spark版本不可以操作hive

2、如果正确则出现下面这种情况

3、下面这个些命令是解压spark的,解压完可以直接用

  1. cd /home/hadoop/下载/
  2. sudo tar -zxf ~/下载/spark-2.1.0-bin-h27hive.tgz -C /usr/local
  3. #执行上面的解压缩命令时需要你输入当前登录用户的登录密码
  4. cd /usr/local
  5. sudo mv ./spark-2.1.0-bin-h27hive ./sparkwithhive
  6. sudo chown -R hadoop:hadoop ./sparkwithhive
  7. cd /usr/local/sparkwithhive/
  8. cp ./conf/spark-env.sh.template ./conf/spark-env.sh
  9. vim ./conf/spark-env.sh

4、运行这个

cd /usr/local/spark
cd /usr/local/sparkwithhive
#下面运行一个样例程序,测试是否成功安装
bin/run-example SparkPi 2>&1 | grep "Pi is"

出现,成功

5、测试是否可以正确访问hive中的数据库成功。

6、配置sparksql的远程连接。

第一步先启动Hadoop,然后在启动hive的metastore服务,hive --service metastore

然后在spark的安装目录下运行 sbin/start-thriftserver.sh

最后进入到spark的bin目录下运行beeline,然后测试!connect jdbc:hive2://localhost:10000

用netstat -ntulp |grep 10000查看10000端口是否启动

7、再到如下图去这个文件下添加这一行命令,重启服务。

8、测试链接,这个是我在datagrip测试的。

9、到此文章就结束了,如果写的不好,各位看不懂的,可以留言,我看到都会回复的,谢谢了。

提醒一下,如果想让别人访问自己搭建的这个大数据平台,可以把这些端口以内网穿透的方式映射出去,具体操作可以访问我前面的文章。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/寸_铁/article/detail/987924
推荐阅读
相关标签
  

闽ICP备14008679号