当前位置:   article > 正文

Phoenix二级索引使用

phoenix create index还是全局full scan over

1.添加二级索引配置

    为使用Phoenix二级索引,需要开启HBase regionServer相关参数配置

  1. <property>
  2. <name>hbase.regionserver.wal.codec</name>
  3. <value>org.apache.hadoop.hbase.regionserver.wal.IndexedWALEditCodec</value>
  4. </property>

    用户可直接在CM中的HBase配置页,搜索hbase-site.xml配置相关参数(保存并重启服务即可)

2.全局索引

    全局索引适用于读多写少的场景,它会建立一张独立的HBase索引表,对原始数据侵入性小。所有对数据表的写操作都会引起索引表的更新(DELETE、UPSERT VALUES和UPSERT SELECT))。索引表分布在不同的数据节点上的,跨节点的数据传输带来了较大的性能消耗。如果查询列不在索引表中,默认索引表将不会被使用,除非使用hint(SELECT /*+ INDEX(table_name,index_name) */ …)。

  1. #建立全局索引
  2. CREATE INDEX IDX_PARENTID ON TMP_STAFF(parentid);
  3. #使全局地索引
  4. SELECT hrid FROM TMP_STAFF WHERE parentid = 1927;
  5. #强制使用全局索引
  6. SELECT /*+ INDEX(TMP_STAFF, IDX_PARENTID) */ hrid,departmentid
  7. FROM TMP_STAFF WHERE parentid = 1927;

    Phoenix中创建索引并查看索引表数据

    hbase shell中查看索引表数据

3.本地索引

    本地索引适用于写多、读少、空间有限的场景。与全局索引一样,Phoenix将自动选择是否在查询时使用本地索引。索引数据和原表数据存放在相同的服务器中,防止写入期间出现任何网络开销。即使查询的字段不是索引字段,本地索引也会被使用。与全局索引不同,4.8.0之前版本,表的所有本地索引都存储在单独共享表中;从4.8.0开始,本地索引数据存储在同一个数据表中单独的影子列族中。在使用本地索引进行读取时,因为不能预先确定索引数据确切的region位置,因此必须检查每个region的数据。这会给读取时带来一些额外开销。

  1. #建立本地索引
  2. CREATE LOCAL INDEX IDX_LOCAL_PARENTID ON TMP_STAFF(parentid);
  3. #使用本地索引
  4. SELECT * FROM TMP_STAFF WHERE parentid = 1927;

    Phoenix中创建索引并查看索引表数据

    hbase shell中查看索引表数据

4.覆盖索引

    覆盖索引的特点是我们可以把关心的列打包存储在索引表中,一旦在索引表中能够找到索引条目就不需要返回主表,直接拿到查询结果。

  1. #建立覆盖索引
  2. CREATE INDEX IDX_COVER_PARENTID on TMP_STAFF(parentid) include(departmentid);
  3. #使用覆盖索引
  4. SELECT departmentid FROM TMP_STAFF WHERE parentid = 1782 ;

5.函数索引

    函数索引的特点是能根据表达式创建索引,适用于对查询表过滤条件是表达式的表创建索引。

  1. #创建函数索引
  2. CREATE INDEX IDX_FUNC_DEPARTMENTID ON TMP_STAFF (UPPER(departmentid));
  3. #使用函数索引
  4. SELECT * FROM TEST WHERE UPPER(departmentid)='HOTEL';

6.执行计划与性能

    1> 创建索引并查看执行计划,发现进行了索引局部扫描RANG SCAN OVER IDX_DEPARTMENTID

  1. #创建全局索引
  2. CREATE INDEX IDX_DEPARTMENTID ON TMP_STAFF(departmentid);
  3. #查看执行计划
  4. explain select count(*) from TMP_STAFF where departmentid='hotel';

    有索引情况下用时0.023S

    2> 删除索引并查看执行计划,发现进行了全局扫描FULL SCAN OVER TMP_STAFF

  1. #删除全局索引
  2. DROP INDEX IDX_DEPARTMENTID ON TMP_STAFF;
  3. #查看执行计划
  4. explain select count(*) from TMP_STAFF where departmentid='hotel';

    无索引情况下用时0.046

转载于:https://my.oschina.net/puwenchao/blog/1935302

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小蓝xlanll/article/detail/656676
推荐阅读
相关标签
  

闽ICP备14008679号