当前位置:   article > 正文

Spark MLlib 特征工程系列—相关性计算

Spark MLlib 特征工程系列—相关性计算

Spark MLlib 特征工程系列—相关性计算

计算两个数据序列之间的相关性是统计学中的一项常见操作。在spark.ml中,提供了计算许多成对序列之间相关性的操作,目前支持的相关方法是Pearson和Spearman。

Correlation 相关性计算

计算两个序列之间的相关性
val seriesX: RDD[Double] = sc.parallelize(Array(1, 2, 3, 3, 5))  // a series
// must have the same number of partitions and cardinality as seriesX
val seriesY: RDD[Double] = sc.parallelize(Array(11, 22, 33, 33, 555))

// compute the correlation using Pearson's method. Enter "spearman" for Spearman's method. If a
// method is not specified, Pearson's method will be used by default.
val correlation: Double = Statistics.corr(seriesX, seriesY, "pearson")
println(s"Correlation is: $correlation")
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8

image-20240805143506795

计算DataFr
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/黑客灵魂/article/detail/997149
推荐阅读
相关标签
  

闽ICP备14008679号