当前位置:   article > 正文

Hive——Hive安装全流程_hive 数据库的 安装操作

hive 数据库的 安装操作

1、基本准备

(1)Hive 官网地址

Hive官网

(2)文档查看地址

Hive文档查看地址

(3)下载地址

下载地址

(4)Github地址

Github地址

2、安装Hive

  • apache-hive-3.1.2-bin.tar.gz 上传到 Linux/opt/software 目录下

  • 解压 apache-hive-3.1.2-bin.tar.gz/opt/module/目录下面

    tar -zxvf /opt/software/apache-hive-3.1.2- bin.tar.gz -C /opt/module/
    
    • 1
  • 修改 apache-hive-3.1.2-bin.tar.gz 的名称为 hive

    mv /opt/module/apache-hive-3.1.2-bin/ /opt/module/hive
    
    • 1
  • 修改/etc/profile.d/my_env.sh,添加环境变量

    sudo vim /etc/profile.d/my_env.sh 
    
    • 1
  • 添加内容

    #HIVE_HOME
    export HIVE_HOME=/opt/module/hive export PATH=$PATH:$HIVE_HOME/bin
    
    • 1
    • 2
  • 解决日志 Jar 包冲突

    mv $HIVE_HOME/lib/log4j-slf4j-impl- 2.10.0.jar 
    $HIVE_HOME/lib/log4j-slf4j-impl-2.10.0.bak
    
    • 1
    • 2
  • 初始化元数据库

    bin/schematool -dbType derby -initSchema
    
    • 1

3、启动并使用Hive

3.1、启动Hive

bin/hive 
  • 1

3.2、使用Hive

# 查看有哪些数据库
show databases;
# 查看有哪些表
show tables;
# 创建一张表
create table test(id int);
# 插入一条元素
insert into test values(1); 
# 查询
select * from test;

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11

3.3、CRT 窗口中开启另一个窗口开启 Hive,在/tmp/atguigu 目录下监控hive.log文件

4、Hive元数据配置到 MySQL

4.1、拷贝驱动

MySQLJDBC 驱动拷贝到 Hivelib 目录下:

cp /opt/software/mysql-connector-java-5.1.37.jar $HIVE_HOME/lib
  • 1

4.2、配置 MetastoreMySQL

# 文件目录:$HIVE_HOME/conf/hive-site.xml 
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
  <!-- jdbc 连接的 URL -->
  <property>
    <name>javax.jdo.option.ConnectionURL</name>
    <value>jdbc:mysql://hadoop102:3306/metastore?useSSL=false</value>
  </property>
  
  <!-- jdbc 连接的 Driver-->
  <property>
    <name>javax.jdo.option.ConnectionDriverName</name>
    <value>com.mysql.jdbc.Driver</value>
  </property>
  
  <!-- jdbc 连接的 username-->
  <property>
    <name>javax.jdo.option.ConnectionUserName</name>
    <value>root</value>
  </property>
  
  <!-- jdbc 连接的 password -->
  <property>
    <name>javax.jdo.option.ConnectionPassword</name>
    <value>000000</value>
  </property>
  
  <!-- Hive 元数据存储版本的验证 -->
  <property>
    <name>hive.metastore.schema.verification</name>
    <value>false</value>
  </property>
  
  <!--元数据存储授权-->
  <property>
    <name>hive.metastore.event.db.notification.api.auth</name>
    <value>false</value>
  </property>
  
  <!-- Hive 默认在 HDFS 的工作目录 -->
  <property>
    <name>hive.metastore.warehouse.dir</name>
    <value>/user/hive/warehouse</value>
  </property>
</configuration>

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46
  • 47

4.3、登录MySQL

mysql -uroot -p000000
  • 1

4.4、新建Hive元数据库

create database metastore;
quit;
  • 1
  • 2

4.5、初始化 Hive 元数据库

schematool -initSchema -dbType mysql - verbose
  • 1

5、使用元数据服务的方式访问 Hive

  • 使用元数据服务的方式访问 Hive
<!-- 指定存储元数据要连接的地址 -->
<property>
  <name>hive.metastore.uris</name>
  <value>thrift://hadoop102:9083</value>
</property>

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 启动metastore:hive --service metastore
  • 启动Hive:bin/hive

6、使用JDBC方式访问Hive

  • hive-site.xml 文件中添加如下配置信息

    <!-- 指定 hiveserver2 连接的 host -->
    <property>
      <name>hive.server2.thrift.bind.host</name>
      <value>hadoop102</value>
    </property>
    
    <!-- 指定 hiveserver2 连接的端口号 -->
    <property>
      <name>hive.server2.thrift.port</name>
      <value>10000</value>
    </property>
    
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
  • 启动 hiveserver2

    bin/hive --service hiveserver2
    
    • 1
  • 启动 beeline 客户端

    bin/beeline -u jdbc:hive2://hadoop102:10000 -n atguigu
    
    • 1
  • 看到如下界面

    Connecting to jdbc:hive2://hadoop102:10000 Connected to: 
    Apache Hive (version 3.1.2) Driver: Hive JDBC (version 3.1.2)
    Transaction isolation: 
    TRANSACTION_REPEATABLE_READ Beeline version 3.1.2 by Apache Hive
    0: jdbc:hive2://hadoop102:10000>
    
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
  • 编写 hive 服务启动脚本

    • 前台启动的方式导致需要打开多个 shell 窗口,可以使用如下方式后台方式启动;

      • nohup: 放在命令开头,表示不挂起,也就是关闭终端进程也继续保持运行状态;
      • /dev/null:Linux 文件系统中的一个文件,被称为黑洞,所有写入改文件的内容 都会被自动丢弃;
      • 2>&1: 表示将错误重定向到标准输出上
      • &: 放在命令结尾,表示后台运行

      一般会组合使用:nohup [xxx 命令操作]> file 2>&1 &,表示将 xxx 命令运行的结 果输出到 file 中,并保持命令启动的进程在后台运行。

    nohup hive --service metastore 2>&1 &
    nohup hive --service hiveserver2 2>&1 &
    
    
    • 1
    • 2
    • 3
    • 为了方便使用,可以直接编写脚本来管理服务的启动和关闭;
    # $HIVE_HOME/bin/hiveservices.sh
    
    #!/bin/bash 
    HIVE_LOG_DIR=$HIVE_HOME/logs 
    if [ ! -d $HIVE_LOG_DIR ] 
    then
        mkdir -p $HIVE_LOG_DIR
    fi
    #检查进程是否运行正常,参数 1 为进程名,参数 2 为进程端口
    function check_process()
    {
        pid=$(ps -ef 2>/dev/null | grep -v grep | grep -i $1 | awk '{print$2}')
        ppid=$(netstat -nltp 2>/dev/null | grep $2 | awk '{print $7}' | cut - d '/' -f 1)
        echo $pid
        [[ "$pid" =~ "$ppid" ]] && [ "$ppid" ] && return 0 || return 1
    }
    
    function hive_start()
    {
        metapid=$(check_process HiveMetastore 9083)
        cmd="nohup hive --service metastore >$HIVE_LOG_DIR/metastore.log 2>&1 &"
        [ -z "$metapid" ] && eval $cmd || echo "Metastroe 服务已启动" server2pid=$(check_process HiveServer2 10000)
        cmd="nohup hiveserver2 >$HIVE_LOG_DIR/hiveServer2.log 2>&1 &"
        [ -z "$server2pid" ] && eval $cmd || echo "HiveServer2 服务已启动"
    }
    
    function hive_stop()
    {
        metapid=$(check_process HiveMetastore 9083)
        [ "$metapid" ] && kill $metapid || echo "Metastore 服务未启动" server2pid=$(check_process HiveServer2 10000)
        [ "$server2pid" ] && kill $server2pid || echo "HiveServer2 服务未启动"
    }
    
    case $1 in 
    "start")
        hive_start
        ;;
    "stop")
        hive_stop
        ;;
    "restart")
        hive_stop sleep 2 hive_start
        ;;
    "status")
        check_process HiveMetastore 9083 >/dev/null && echo "Metastore 服务运行 正常" || echo "Metastore 服务运行异常"
        check_process HiveServer2 10000 >/dev/null && echo "HiveServer2 服务运 行正常" || echo "HiveServer2 服务运行异常"
        ;;
    *)
        echo Invalid Args!
        echo 'Usage: '$(basename $0)' start|stop|restart|status'
        ;;
    esac
    
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29
    • 30
    • 31
    • 32
    • 33
    • 34
    • 35
    • 36
    • 37
    • 38
    • 39
    • 40
    • 41
    • 42
    • 43
    • 44
    • 45
    • 46
    • 47
    • 48
    • 49
    • 50
    • 51
    • 52
    • 53
  • 添加执行权限

    chmod +x $HIVE_HOME/bin/hiveservices.sh 
    
    • 1
  • 启动 Hive 后台服务

    chmod +x $HIVE_HOME/bin/hiveservices.sh 
    
    • 1

7、Hive常用交互命令

  • "-e"不进入 hive 的交互窗口执行 sql语句

    bin/hive -e "select id from student;" 
    
    • 1
  • "-f"执行脚本中 sql 语句

    • /opt/module/hive/下创建 datas 目录并在 datas 目录下创建 hivef.sql 文件

      touch hivef.sql
      
      • 1
    • 文件中写入正确的sql语句

      select *from student; 
      
      • 1
    • 执行文件中的 sql 语句

      bin/hive -f /opt/module/hive/datas/hivef.sql
      
      • 1
    • 执行文件中的 sql 语句并将结果写入文件中

      bin/hive -f /opt/module/hive/datas/hivef.sql > /opt/module/datas/hive_result.txt
      
      • 1

8、Hive其他命令操作

  • 退出 hive 窗口;
exit;
quit;
  • 1
  • 2
  • hive cli 命令窗口中如何查看 hdfs 文件系统;
dfs -ls /;
  • 1
  • 查看在hive 中输入的所有历史命令;
    • 进入到当前用户的根目录 /root/home/atguigu
    • 查看.hivehistory 文件。
cat .hivehistory 
  • 1

9、Hive常见属性配置

Hive运行日志信息配置

  • Hivelog 默认存放在/tmp/atguigu/hive.log 目录下(当前用户名下);
  • 修改 hivelog 存放日志到/opt/module/hive/logs
    • 修改/opt/module/hive/conf/hive-log4j2.properties.template 文件名称为hive-log4j2.properties

      mv hive-log4j2.properties.template hive- log4j2.properties
      
      • 1
    • hive-log4j2.properties 文件中修改 log 存放位置

      hive.log.dir=/opt/module/hive/logs
      
      • 1

10、打印当前库和表头

hive-site.xml 中加入如下两个配置:

<property>
  <name>hive.cli.print.header</name>
  <value>true</value>
</property>

<property>
  <name>hive.cli.print.current.db</name>
  <value>true</value>
</property>

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10

11、参数配置方式

11.1、查看当前所有的配置信息

set;
  • 1

11.2、参数的配置三种方式

  • 配置文件方式 默认配置文件:

    hive-default.xml 用户自定义配置文件:hive-site.xml

    用户自定义配置会覆盖默认配置。另外,Hive 也会读入Hadoop 的配置,因为 Hive 是作为 Hadoop 的客户端启动的,Hive的配置会覆盖 Hadoop 的配置。配置文件的设定对本 机启动的所有 Hive 进程都有效。

  • 命令行参数方式

    • 启动 Hive 时,可以在命令行添加-hiveconf param=value 来设定参数。

      bin/hive -hiveconf mapred.reduce.tasks=10;
      
      • 1

      仅对本次 hive 启动有效,查看参数设置:

      set mapred.reduce.tasks;
      
      • 1
  • 参数声明方式

    • 可以在 HQL中使用 SET 关键字设定参数

      set mapred.reduce.tasks=100;
      
      • 1

      仅对本次 hive 启动有效

    • 查看参数设置

      set mapred.reduce.tasks;
      
      • 1

上述三种设定方式的优先级依次递增。即配置文件<命令行参数<参数声明。注意某些系 统级的参数,例如 log4j 相关的设定,必须用前两种方式设定,因为那些参数的读取在会话 建立以前已经完成了。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Cpp五条/article/detail/478690
推荐阅读
相关标签
  

闽ICP备14008679号