当前位置:   article > 正文

机器学习·概率论基础

机器学习·概率论基础

概率论

概率基础

这部分太简单,直接略过

条件概率

独立性

独立事件A和B的交集如下

在这里插入图片描述

非独立事件

非独立事件A和B的交集如下

在这里插入图片描述

贝叶斯定理

先验 事件 后验

在概率论和统计学中,先验概率和后验概率是贝叶斯统计的核心概念
简单来说后验概率就是结合了先验概率的前提和新事件的信息

在这里插入图片描述

自然贝叶斯

自然贝叶斯就是在有多个先验的前提下,假设它们相互独立,利用公式算出来的近似概率

在这里插入图片描述

贝叶斯与机器学习

  • 条件概率生成像素
    在这里插入图片描述

  • 条件概率识别图像
    在这里插入图片描述

概率分布

随机变量

随机变量分为离散型随机变量和连续型随机变量

区别如下

在这里插入图片描述

两个分布函数

  • 概率质量函数PMF

适用离散型随机变量

在这里插入图片描述

  • 概率密度函数PDF

适用连续性随机变量

  • 累积分布函数

概率分布

  • 离散型概率分布和连续型概率分布

纵坐标都是概率密度函数,面积才是概率,且总面积为1

  • 伯努利分布和二项分布

伯努利分布和二项分布的区别在于二项分布中事件发生的概率带有二项式系数

  • 均匀分布或标准分布

概率密度函数在一个范围[a,b]为定值

在这里插入图片描述

  • 正态分布

μ和σ的几何意义:μ是对称中心,σ是标准差,直接决定曲线的高度和形状

在这里插入图片描述

箱型图

箱线图也称箱须图、箱形图、盒图,用于反映数据的离散程度,倾斜程度
主要由Q1,Q2,Q3百分位数组成,
在这里插入图片描述

QQ图

定义

分位数-分位数图是通过比较两个概率分布的分位数对这两个概率分布进行比较的概率图方法
横坐标是理论正态概率分布的百分数,纵坐标是数据概率分布的百分数
在这里插入图片描述

具体定义如下
在这里插入图片描述

统计意义

  • 比较数据是否符合正态分布
  • 越接近直线越可能是正态分布

边缘分布

将高维度密度分布降低至低纬度密度分布

离散型随机变量

*唯一公式

在这里插入图片描述

体现在联合分布的散点图上
在这里插入图片描述

连续性随机变量

本质是散点图+概率密度绘制成三维图像上的一个横截面,公式与离散型完全一致

在这里插入图片描述

条件分布

两个随机变量的条件分布

公式:本质上是条件概率

  • 离散型随机变量
    在这里插入图片描述
    在这里插入图片描述
  • 连续型随机变量

在这里插入图片描述

几何意义:横截面只是上式的分母

在这里插入图片描述

协方差

公式

对于数据集来收,概率分布为恒定值;对于随机变量来说,公式要变成加权的形式
在这里插入图片描述

在这里插入图片描述

统计意义

协方差为正或负说明数据集之间有正相关或负相关的关系,接近0说明数据集几乎没有关系

协方差矩阵

对角线上都是变量的方差,其他都是两个变量之间的协方差

在这里插入图片描述

相关系数

就是把协方差标准化的结果

在这里插入图片描述




数理统计

总体和样本的统计属性

样本的方差

这种结果更接近总体真实的方差

在这里插入图片描述

大数定理

大数定律揭示了随着样本量 声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】

推荐阅读
相关标签