当前位置:   article > 正文

spark中的online均值/方差统计_spark 方差

spark 方差

1. 统计量

这个summarizer用于计算样本各维特征的均值,方差等常用统计量

class MultivariateOnlineSummarizer extends MultivariateStatisticalSummary with Serializable {
   

  private var n = 0
  //均值
  private var currMean: Array[Double] = _
  //用于方差统计
  private var currM2n: Array[Double] = _
  //平方和
  private var currM2: Array[Double] = _
  //L1范数
  private var currL1: Array[Double] = _
  //样本计数
  private var totalCnt: Long = 0
  //所有样本weight的和
  private var totalWeightSum: Double = 0.0
  //weight平方和,用于计算方差
  private var weightSquareSum: Double = 0.0
  //每维特征非0的权重和
  private var weightSum: Array[Double] = _
  //非0计数
  private var nnz: Array[Long] = _
  //最大值
  private var currMax: Array[Double] = _
  //最小值
  private var currMin: Array[Double] = _
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26

2. online统计

这里的统计项,除了均值和方差,其他的直接计算即可,
Wikipedia给出了带权online统计算法,这里的算法支持分布式统计,各部分样本先合并,然后各个统计器再合并。样本统计

EN=EN1+wNNi=0wi(xEN1)(1)SN=SN1+wN(xEN1)(xEN)(2)
EN=EN1+wNNi=0wi(xEN1)(1)SN=SN1+wN(xEN1)(xEN)(2)

ENEN SNSN
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/547152
推荐阅读
相关标签
  

闽ICP备14008679号