赞
踩
本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。
本作品 (李兆龙 博文, 由 李兆龙 创作),由 李兆龙 确认,转载请注明版权。
在时序数据库这样一个小众的圈子里面每年有意思的东西并不多,每一篇顶会paper都值得细细品读。其次靠自己想很多问题很难解决,还是需要向业界优秀的团队虚心学习,才能清除和增加自己产品的核心竞争力。
如下图是《Apache IoTDB: A Time Series Database for IoT Applications》中提出的一个典型场景:
文章开篇指出了IotDB聚焦的问题,即:
其次在优雅的解决这些问题能保证查询上做到:
InfluxDB中measurement+tags+fields的数据模型基本已经成为现实标准,但是IotDB认为这样的模型对于设备和传感器进行管理难以优化物理存储,遂使用树形管理所有的时间序列。
iotDB使用Sensor+Device管理所有的时间序列
物理模式如下:
这样的优势我理解是可以控制哪些设备处于一个Series Family中,进而利用周期性和强相关的数据执行更有效的数据压缩。
[12]中描述了iotdb的方案,后续有时间看下,influxdb的方案就很简单,不知道有什么区别。
本质上和TSM存储格式差不多,但是因为TSM是KV模型,依赖于TSI获取完整的seriesID,在这之中还需要在series file中获取时机的serieskey,这就很慢了。这也是现代时序数据库均使用Parquet,tsfile这样存储模型的原因,不仅导入导出方便,摆脱了倒排索引的依赖。
本质要解决的问题就是乱序数据会使得tsfile的时间区间存在重复,但是这只适用于乱序数据较少的情况,此时会有益于查询和写放大;否则会退化为普通版本,还增加了维护的开销。在iotdb遇到的场景下,长延时只有0.0375%;但是在我们当前的场景中,乱序数据是常态;其次influxdb内数据的写入其实是在TSM,每个memtable中包含的是kv数据,就算乱序到达也只不过是查询时需要在level0中的多扫几个块罢了;
[10]中提到了可以通过数据的到达情况自动判断是否分裂,这对于iodDB来说确实是一种很好的思路。
这几乎是领域龙头做的最好的一个方向了,因为这里非常偏学术,无论是DolphinDB还是IotDB对于各类特殊场景的算子支持都强于公有云厂商。
跟着老大InfluxDB IOX走基本上没有错,其他的路都是徒劳。
参考:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。