赞
踩
StarRocks支持列级别的索引技术,比如,Bitmap索引适合低基数列,可以快速计算出枚举类型的列满足一定条件的行。Bloomfilter索引用于高基数列,可快速判断数据块中不含所查找值。
在入门阶段,我们不需要研究实现原理,可以先明确它们的使用场景,并尝试实践应用。
非前缀过滤:前面提到过,StarRocks对于表结构中的前几列可以通过前缀索引快速过滤。如果需要对非前置列进行快速过滤,就可以对这些列建立Bitmap索引。
多列过滤:Bitmap可以快速的进行bitwise运算,所以在多列过滤的场景中,也可以考虑对每列分别建立Bitmap索引。
使用Bitmap索引前我们需要注意以下几点:
1)对于明细模型,所有列都可以创建Bitmap 索引。聚合模型和更新模型,只有Key列可以建Bitmap索引。主键模型允许为非主键列创建bitmap索引,但需要建表时指定;
2)Bitmap索引,应该在取值为枚举型,取值大量重复,较低基数,并且用作等值条件查询或者可转化为等值条件查询的列上创建;
3)不支持对Float、Double、Decimal类型的列建Bitmap索引;
4)创建索引为异步操作,若需要为表中多列创建索引,需要在一个创建完成后再创建下一个。
在2.1章的table01中,我们已经演示了在创建表时创建Bitmap索引:
user_id INT COMMENT "id of user",
………………………………
index index01 (user_id) USING BITMAP COMMENT 'bitmap index'
Bitmap索引创建语法为:
INDEX index_name (col_name1[, col_name2, ...]) [USING BITMAP] COMMENT 'xxxxxx'
若我们建表完成后需要为表添加索引(增加Bitmap索引也是进行Schema Change),以table02的channel列为例:
CREATE TABLE IF NOT EXISTS starrocks.table02 (
event_time DATETIME NOT NULL COMMENT "datetime of event",
event_type INT NOT NULL COMMENT "type of event",
user_id INT COMMENT "id of user",
channel INT COMMENT ""
)
DUPLICATE KEY(event_time, event_type,user_id)
DISTRIBUTED BY HASH(user_id) BUCKETS 10;
写法为:
mysql> CREATE INDEX index_name1 ON table02 (channel) USING BITMAP COMMENT 'Bitmap Index';
Query OK, 0 rows affected (0.03 sec)
创建索引为异步操作,我们可以通过下面的命令查看状态:
mysql> SHOW ALTER TABLE COLUMN WHERE TableName = "table02";
当State为FINISHED时,即表示创建完成。
查看table02表Bitmap索引:
mysql> SHOW INDEX FROM table02;
删除channel列的bitmap索引:
mysql> DROP INDEX index_name1 ON table02;
Query OK, 0 rows affected (0.02 sec)
删除索引也为异步操作,还是通过上面的show语句查看状态,当State为FINISHED时,即表示删除完毕。
在查询时,BloomFilter可以快速判断某个列中是否存在某个值,如果Bloom Filter判定该列中不存在指定的值,就不需要读取数据文件,进而提升查询效率。
以下几种场景时可以考虑创建Bloom Filter 索引:
1)非前缀列过滤;
2)高基数列;
3)查询需对某列高频过滤,且查询条件是in和=(Bloom Filter索引只对in和=过滤查询有加速效果);
4)非Tinyint、Float、Double、DECIMAL类型的列(这些类型暂不支持)。
5)对于明细模型,所有列都可以创建Bloom Filter索引。聚合模型和更新模型,只有Key列可以建Bloom Filter索引。主键模型允许为主键列创建Bloom Filter索引,可在建表时创建,也可以建表后添加。不支持非主键列创建Bloom Filter索引。
不同于Bitmap索引,我们需要在表的PROPERTIES中指定需要建BloomFilter索引的列(一列或多列都可以),格式为:
PROPERTIES{"bloom_filter_columns"="c1,c2,c3"}
例如table01的:
mysql> CREATE TABLE table01 (
user_id INT COMMENT "id of user",
device_code INT COMMENT "code of device",
device_price DECIMAL(10,2) COMMENT "",
event_time DATETIME NOT NULL COMMENT "datetime of event",
total DECIMAL(18,2) SUM DEFAULT "0" COMMENT " total amount of equipment",
……………………………………
PROPERTIES (
"replication_num" = "1",
"bloom_filter_columns"="event_time"
);
table01的BloomFilter索引查看方式目前为:
mysql> SHOW CREATE TABLE table01;
删除索引,也即将索引列从bloom_filter_columns属性中移除:
mysql> ALTER TABLE table01 SET ("bloom_filter_columns" = "");
删除操作为异步操作,查看进度方法也是:
mysql> SHOW ALTER TABLE COLUMN WHERE TableName = "table01";
修改索引,即为修改表的bloom_filter_columns属性:
mysql> ALTER TABLE table01 SET ("bloom_filter_columns" = "device_code,event_time");
修改操作也为异步,可使用上面的show语句查看状态,当State为FINISHED时即为修改完成。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。