当前位置:   article > 正文

Spark Tungsten:数据结构与代码生成的双重革新_tungsten代码生成分为那几部分?每部分都做了哪些事情?

tungsten代码生成分为那几部分?每部分都做了哪些事情?
Tungsten 又叫钨丝计划,它主要围绕内核引擎做了两方面的改进:数据结构设计和全阶段代码生成(WSCG,Whole Stage Code Generation)。
相比 Spark Core,Tungsten 在数据结构方面做了两个比较大的改进,一个是紧凑的二进制格式 Unsafe Row,另一个是内存页管理。我们一个一个来说

Unsafe Row:二进制数据结构

Unsafe Row 是一种字节数组,它可以用来存储下图所示 Schema 为(userID,name, age,gender)的用户数据条目。总的来说,所有字段都会按照 Schema 中的顺序安放在数组中。其中, 定长字段的值会直接安插到字节中,而变长字段会先在 Schema 的相应位置插入偏移地址,再把字段长度和字段值存储到靠后的元素中
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/正经夜光杯/article/detail/998272
推荐阅读
相关标签
  

闽ICP备14008679号