当前位置:   article > 正文

hbase原理-LSM_hbase lsm实现原理

hbase lsm实现原理

LSM是英文Log Structured Merge Trees的缩写,日志结构合并树,这个翻译是我自创的,不专业,但要理解LSM,这个名字中的几个关键词非常重要。

  • 日志

  • 合并

一,关键词一:日志

1,顺序写入

做过后台开发的都知道,日志都是以append方式写入的,日志只有写入和读取,没有更新和删除(文件删除除外),所以日志按照顺序读写的方式,写入效率高。

LSM就是按照这种思路,写入磁盘时以append方式写入,效率高。

hbase支持更新,但更新并非是直接修改原cell内存中的值,而是直接插入一条新的记录,用时间戳作为版本号,时间戳最新的数据通常是用户关心的数据,在hbase中可以设置超过一定版本号后,将旧记录删除。

2,记录操作

hbase以键值对的方式存储数据,key由rowkey、列族、列名、时间戳(版本号)、操作方式(put/delete)合并而成,value就是对应的值。

某种程度上,存储的是操作日志,而不是直接的数据,从这里也可以看到日志的影子。

二,关键词二:合并

LSM一般都是分级存储,hbase的存储分为内存和磁盘存储,数据写入时先写入内存即memory store,当memory store写满后,会滚动生成一个新的memory store接收新的写入。旧的memory store会被flush写入磁盘文件hfile,写入的同时支持查询。

memory store的大小默认是128m,所以一个hfile在创建后写入数据后的大小是128m。因此,随着写入数据的增多,必然会创建很多hfile文件,这对写入没有什么影响,但对于查询就非常不利:可能导致同一个rowkey的数据分布在多个hfile上,在查询时需要把所有相关的hfile读入内存进行过滤,大量的磁盘io必然降低效率。

针对这个问题,lsm采取的方式是合并,hbase的lsm实现是将多个hfile采用多路归并的方式合并为一个大的文件,称之为compaction操作,但这个操作非常耗时、耗费资源,最好采用手动的方式在服务器空闲的时间执行。compation后有利于提高读取效率。

hbase的compaction分为两种:major compaction和minor compaction。

major compaction毕其功于一役,一次将所有的小hfile合并为一个大的hfile,这种方式对应用影响很大。

minor compaction通过一定的机制选取几个小的hfile合并为一个大的hfile,局部合并。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/盐析白兔/article/detail/594109
推荐阅读
相关标签
  

闽ICP备14008679号