当前位置:   article > 正文

大数据与机器学习 入门篇_大数据与机器学习 filter_columns = filter_target.index.inse

大数据与机器学习 filter_columns = filter_target.index.insert(0,'id') filter_

注:本文中用到的Python及其模块安装教程参见


#大数据产业概述

数据生命周期中的环节

Created with Raphaël 2.2.0 数据收集 数据储存 数据建模 数据分析 数据变现

什么是数据?

数据是承载一定的信息的符号。

什么是信息?1

信息是用来消除随机不定性的东西。


#数学基础:统计与分布

加和值

$\sum_{i=0}^n Xi $

平均值

X ‾ = ∑ i = 0 n X i n \overline X=\frac{ \sum_{i=0}^n Xi } {n} X=ni=0nXi

标准差

σ = 1 n ∑ i = 0 n ( X i − X ‾ ) 2 σ=\sqrt{\frac{1}{n}\sum_{i=0}^n (Xi-\overline X)^2} σ=n1i=0n(XiX)2

加权平均

X ‾ = ∑ i = 0 n X i ∗ f ( X i ) ∑ i = 0 n f ( X i ) \LARGE \overline X=\frac{ \sum_{i=0}^n Xi*f(Xi) } {\sum_{i=0}^n f(Xi)} X=i=0nf(Xi)i=0nXif(Xi)

欧式距离

d = ∑ i = 0 n ( X i 1 − X i 2 ) 2 d=\sqrt{\sum_{i=0}^n (Xi1-Xi2)^2} d=i=0n(Xi1Xi2)2

曼哈顿距离

d = ∑ i = 0 n ∣ X i 1 − X i 2 ∣ d=\sum_{i=0}^n \lvert Xi1-Xi2\rvert d=i=0nXi1Xi2

同比和环比

同比:相邻大周期的相同小周期的比较。

环比:相邻小周期的比较。

抽样

抽样(Sampling)是一种非常好的了解大量样本空间分布情况的方法,样本越大则抽样带来的成本减少的收益就越明显。

抽样对象要更加具有代表性和分散性,这样才会体现出与整个样本空间更为相近的分布特点。

高斯分布

概率函数: f ( x ) = 1 2 π σ e x p ( − ( x − μ ) 2 2 σ 2 ) \LARGE f(x)=\frac{1}{\sqrt{2π}σ}exp(-\frac{(x-μ)^2}{2σ^2}) f(x)=2π σ1exp(2σ2(xμ)2)

  • X的分布:
  • (μ-σ , μ+σ): 68.2%
  • (μ-2σ , μ+2σ): 95.4%
  • (μ-3σ , μ+3σ): 99.6%

泊松分布

概率密度函数: P ( X = k ) = λ k k ! e − λ \LARGE P(X=k)=\frac{λ^k}{k!}e^{-λ} P(X=k)=k!λkeλ

参数λ是单位时间(或单位面积)内随机事件的平均发生率。泊松分布适合于描述单位时间内随机事件发生的次数。

  • 泊松分布适用的事件需要满足以下3个条件:
  1. 这个事件是一个小概率事件。
  2. 事件的每次发生是独立的不会相互影响。
  3. 事件的概率是稳定的。

例子:

已知有一个书店,售卖许多图书,其中工具书销售一直较稳定且数量较少(概率较小的事件),
新华字典平均每周卖出4套。作为书店老板,新华字典应该备多少本为宜?

每周卖出的新华字典数量k满足λ为4的泊松分布:

  • 表1:不同k值对应的累计概率
k值概率累积概率
17.33%7.33%
214.7%22.03%
319.5%41.53%
419.5%61.03%
515.6%76.63%
610.4%87.03%
75.95%92.98%
82.98%95.96%
91.32%97.28%
  • 图1:不同k值对应的概率散点图
    这里写图片描述

在泊松分布的例子里,可以看到一个现象:就是k每增加1,在k小于λ的时候,累积函数的增加是很快的,而且每次增加的量比上一次增加的要多;而在k越过λ之后,虽然还在增加,但是每次增加的量比上一次增加的要少,然后越来越少。

伯努利分布

概率函数: P ( X = k ) = C n k ⋅ p k ( 1 − p ) n − k P(X=k)=C_n^k ·p^k(1-p)^{n-k} P(X=k)=Cnkpk(1p)nk


#指标

指标就是制定的标准,就是为了描述一些对象的状态而制定出来的标准。

  • 指标的选择:
  1. 数字化
  2. 易衡量
  3. 意义清晰
  4. 周期适当
  5. 尽量客观

#信息论

##信息的定义

首先引用最被大家广泛认可的一种科学性的信息定义——“信息是被消除的不确定性。”2

例子:

抛一枚硬币。假设不会出现硬币立在地面上的情况。
结果A说:“硬币落地后正面朝上。”
然后B说:“硬币落地后朝上的面不是反面。”

在我们不知道硬币落地的结果之前,正面朝上的反面朝上的可能性都是存在的,当A告诉我准确的信息之后,那么硬币反面朝上的结果就不存在了,这里“硬币落地后正面朝上”就是信息;而当随机不确定性被消除之后,再被告知的这些信息里就没有消除随机不确定性的因素了,如B说的“硬币落地后朝上的面不是反面”就不是信息。

但如果C说:“这枚硬币最后落在了桌子上”,那么它又是信息,因为它消除了其他的不确定性。

##信息量

在信息论中,对信息量是有确定解释并且可以量化计算的,这里的信息量就是一种信息数量化度量的规则。

一段文字有多少信息的想法最早还是在1928年由哈特莱(R.V.L.Hartley)首先提出,他将信息数的对数定义为信息量。

若信源有m种信息,且每个信息是以相等可能产生的,则该信源的信息量可表示如下:

I = l o g 2 m I=log_2m I=log2m

如上面提到的抛硬币的例子,因为硬币落地有正面和反面两种可能性,所以m=2,信息量 I = l o g 2 2 = 1 I=log_22=1 I=log22=1。极端情况是,只有一个可能值的时候信息量为0,也就是无须告知也知道结果,即便告知了结果,信息量也为0,如一般情况下硬币抛出后必然会落地,所以“硬币落地”这句话的信息量就是0。

在概率不等的情况下,事件出现的概率越小,信息量越大。
Xi表示一个发生的事件,Pi表示这个事件发生的先验概率,则这个事件的信息量为:

H ( X i ) = − l o g 2 P i H(X_i)=-log_2P_i H(Xi)=log2Pi

还是上面提到的抛硬币的例子,假设硬币被动过手脚,正面朝上的概率为 1 8 \frac{1}{8} 81,反面朝上的概率为 7 8 \frac{7}{8} 87,则抛一次硬币之后,正面朝上的信息量为:

H ( X i ) = − l o g 2 1 8 = 3 H(X_i)=-log_2\frac{1}{8}=3 H(Xi)=log281=3

反面朝上的信息量为:

H ( X i ) = − l o g 2 7 8 = 0.193 H(X_i)=-log_2\frac{7}{8}=0.193 H(Xi)=log287=0.193

##信息熵

信息熵是信息的杂乱程度的量化描述,公式如下:

H ( x ) = − ∑ i = 1 n p ( x i ) l o g 2 P ( x i ) H(x)=-\sum_{i=1}^np(x_i)log_2P(x_i) H(x)=i=1np(xi)log2P(xi)

信息越确定,越单一,信息熵越小。
信息越不确定,越混乱,信息熵越大。

如上面抛硬币的例子中,

  1. 硬币还没有被动过手脚,两面朝上的概率都是 1 2 \frac{1}{2} 21
    信息熵为 1 2 ⋅ − l o g 2 1 2 + 1 2 ⋅ − l o g 2 1 2 = 1 \frac{1}{2}·-log_2\frac{1}{2}+\frac{1}{2}·-log_2\frac{1}{2}=1 21log221+21log221=1
  2. 硬币已经被动过手脚,正面朝上的概率为 1 8 \frac{1}{8} 81,反面朝上的概率为 7 8 \frac{7}{8} 87
    信息熵为 1 8 ⋅ − l o g 2 1 8 + 7 8 ⋅ − l o g 2 7 8 = 0.544 \frac{1}{8}·-log_2\frac{1}{8}+\frac{7}{8}·-log_2\frac{7}{8}=0.544 81log281+87log287=0.544

即知道第一种情况的信息比第二种情况的信息更有价值。

注:信息量和信息熵的单位都是比特(bit)。

注:在计算信息量或信息熵时,取10的对数lg,或自然常数e的对数ln都是可以的,但是在一次应用过程中,所有的信息量或信息熵都必须采用同一个底。


#多维向量空间

一般来说,向量的每个维度之间是不相关的。应尽可能保证维度设置的“正交性”。

例如向量定义:

(姓名,姓,名,出生日期,年龄)

在本例中,“姓名”这个维度可以由“姓”和“名”这两个维度推出,“年龄”也可以由“出生日期”推出。所以说,这种记录方式存在冗余信息,其中一个字段发生变化时,与其相关的其他字段也需要做出变化,这对于保持数据一致性来说,维护成本显然会提高。

在具体场景中,冗余字段也有优点。

例如向量定义:

(用户ID,第一季度销费额,第二季度销费额,第三季度销费额,第四季度销费额, 全年消费总额)

在这种情况下,如果没有“全年消费总额”这一字段,在统计所有用户一年的消费总额时需要将所有的值加起来,在业务反馈时增加了额外的计算量。


想了解更多关于大数据和机器学习:大数据与机器学习专栏


  1. 取自《通信的数学理论》,香农,1948。 ↩︎

  2. 哈特莱(R.V.L.Hartley),1928 ↩︎

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/羊村懒王/article/detail/543888
推荐阅读
相关标签
  

闽ICP备14008679号