赞
踩
Spark SQL和DataFrames支持以下数据类型:
Numeric types(数字类型)
ByteType: 表示1字节有符号整数。数字的范围是从-128到127。
ShortType: 表示2字节有符号整数。数字的范围从-32768到32767。
IntegerType: 表示4字节有符号整数。数字的范围是从-2147483648到2147483647。
LongType: 表示8字节有符号整数。数字范围从-9223372036854775808到9223372036854775807。
FloatType: 表示4字节单精度浮点数。
DoubleType: 表示8字节双精度浮点数
DecimalType: 表示具有任意精度的带符号小数。内部支持java.math.BigDecimal。BigDecimal由一个任意精度的整数无标度值和一个32位整数标度组成。
String type(字符串类型)
StringType: 表示字符串值。
Binary type(二进制类型)
BinaryType: 表示字节序列值。
Boolean type(布尔类型)
BooleanType: 是布尔值(true/false)。
Datetime type(日期时间类型)
TimestampType: 表示包含字段值的值,这些值包括年、月、日、小时、分钟和秒。
DateType: 表示由字段值组成的值,这些值包括年、月、日。
Complex types(复合类型)
ArrayType(elementType, containsNull): 表示包含具有elementType类型的元素序列的值。containsNull用于指示ArrayType值中的元素是否可以具有空值。
MapType(keyType, valueType, valueContainsNull): 表示由一组键-值对组成的值。键的数据类型由键类型描述,值的数据类型由valueType描述。对于MapType值,键值不允许为空。valueContainsNull用于指示MapType值的值是否可以为空值。
StructType(fields): 用StructFields (fields)序列描述的结构表示值。
StructField(name, dataType, nullable):表示结构类型中的字段。字段的名称由名称表示。字段的数据类型由数据类型表示。nullable用于指示此字段的值是否可以为空值。
Spark SQL的所有数据类型都位于包org.apache.spark.sql.types中。您可以通过以下操作访问它们:
import org.apache.spark.sql.types._
Scala
Java
在处理与标准浮点语义不完全匹配的浮点类型或双类型时,对非数字(NaN)有特殊的处理。具体地说:
(1).NaN = NaN 返回true.
(2).在聚合中,所有NaN值都分组在一起。
(3).NaN 被视为联接键中的正常值。
(4).NaN 值按升序排列,比任何其他数字值都大,持续时间最长.
对数值类型(小数除外)执行的操作不检查溢出。这意味着如果一个操作导致溢出,结果与Java/Scala程序中返回的操作相同。(如:如果两个整数的和大于可表示的最大值,则结果为负数)。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。