赞
踩
边学边写
Python库不用记,知道每个库能干什么就行,有哪些常用函数
每个类都有属性(attribute)和方法(method)
属性:身高、体重、年龄(变量定义,=)
方法:吃饭、说话、睡觉(函数定义,def开头)
两大基石函数:概率分布函数,概率密度函数
如果随机变量X的值可以逐个列举出来,则X为离散随机变量;如果随机变量X的值无法逐个列举,则X为连续随机变量。
离散型随机变量:自然数或整数,企业个数、员工人数、设备台数
连续型随机变量:相邻两个值之间可无限分割,生产零件的规格尺寸、人的身高、人的体重
概率分布函数
连续型随机变量的概率函数换了一个 名字,叫做 "概率密度函数".
(a)概率分布函数
(b)概率密度函数
概率密度函数其实一个定积分的函数,定积分在数学一般用来求面积,可把"概率"理解为"面积".
概率密度函数在某点的函数值,即为概率在该点的变化率
分号代表前后是两类东西,分号前面是x样本,分号后边是模型参数
表示 A和B事件同时发生的概率,是联合概率分布。逗号在这里分开两个事件,有“与”的关系
大多数情况下表示条件概率,表示在B的条件下A发生的概率
P(Y=y|x;θ)实际上就是P(Y=y|X=x;Θ=θ)的一个简写形式,P(Y=y|x;θ)的意思即为在X = x;Θ = θ的条件下,Y = y 的概率。
p(yi|xi;w,b)---(概率密度value=0~1)
p(yi|xi;w,b) 是 给定xi,w,b的条件下y=yi的概率,分号用于区别参数,分号后为参数w,b
两个连续型变量相互独立的充要条件就是联合概率密度等于两个边缘概率密度的乘积
似然函数L(θ|x)(在数值上)等于给定参数θ后变量X的概率:
目标找到使似然函数最大的θ
离散型随机变量的似然函数是概率连乘,连续型随机变量似然函数是概率密度连乘
基础是机器学习
机器学习需要:算法、数据、程序、评估、应用
数据收集与预处理
特征选择与模型构建
评估和预测
机器学习本质包含数学原理推导和实际应用技巧
弄清楚算法的推导及应用
高等数学基础很重要,通学一遍后边学变查即可
学生:推导是重中之重
程序员:重点在如何应用(库的使用,完整项目如何构建,从头到尾的流程)
算法推导如何学:
书、博客、视频都可
深度学习是机器学习中神经网络算法的延伸,只不过应用的比较广
深度学习在计算机视觉和自然语言处理中更厉害一些
案例很重要,先模仿再创作,有套路,很少从头开始写
案例:GitHub、kaggle
数据特征(x):年龄、工资
标签(y):预测银行给的贷款额度
偏置项:相当于y=wx+b 中的 b 即函数的截距
整合即用求和公式表示hθ(x)、
上标(i)表示样本数 i=1,2,3,,,n
独立:数据特征之间互相独立且不受排名前后影响(需要对数据集进行Random shuffle dataset)
求出最大似然函数即是最优参数解
似然函数L(θ|x)(在数值上)等于给定参数θ后变量X的概率,能使似然函数最大的参数θ即最优参数
引入似然函数:概率密度累乘即似然函数,求参数θ使数据预测值接近真实值
求解似然函数两边取对数
似然函数中得到目标函数如何求解?
直接解:并不一定可解,线性回归可以当做是一个特例
求解方法:按照正确的学习方式迭代求解
因为θ0,θ1独立,所以要分别求偏导,再确定优化方向
选择方向
确定步长
按照方向和步长迭代更新
梯度:梯度的方向是函数值增加最快的方向
求θj偏导,再θj迭代. 梯度下降,迭代需要加负号,(θj=θj-目标函数偏导数)
样本x, i行j列
32,64,128为一组都可
对结果影响较大,一般从小开始,不行再小
解决经典二分类问题
是一个分类算法
先用逻辑回归,不合适再用复杂的算法
决策边界可以是非线性的
将值转化为概率
事件发生概率大于0.5机器归类为1
将函数映射到sigmoid函数中得到预测函数
预测函数值为概率值
无监督问题:无标签值
聚类难点:如何调参,分为几类(K值)
质心:均值,向量维度取平均
距离的度量:欧几里得距离和余弦相似度(必须先标准化)
劣势:
k值难确定
样本越大越复杂
难发现任意形状簇
类似传销发展下线,在一定距离内可发展,所有下线为一类
核心对象即传销头子,成为传销头子对象是在指定范围内(r邻域)能发展大于一定数量的下线(minpts密度阈值)
所有下线不能成为核心对象是停止迭代
p、q点同在一个圈内--直接密度可达
可检测离群点检测
树模型关键在选特征
解决如下问题:如何选择根节点以及根节点的顺序?
选择分类能力最强的
有多个特征就有多少种分类方式,选择每一个特征作为节点,算出熵,进而得出信息增益,选信息增益最大的特征作为节点。
概率越大越纯,熵值越小接近0
对不同的类别,熵值累加求总熵值
解决ID 问题
如果ID作为特征,特征内类别非常多,分类后熵均为0,但是ID与play无关
决策树过拟合高风险大,每个样本点可分为一类
限制深度:叶子节点数
信息增益量:信息增益太小结束剪枝
建立完决策树后剪枝
给定alpha,alpha越大越不过拟合
总体损失:C(T)= gini+alpha*节点个数
剪完后损失大就不剪
决策数回归问题
衡量标准:方差
相似的样本(值差不多)放在一起
集成算法基本是树模型
类似串联电路(boosting)、并联电路(bagging)
用多个算法
树模型可解释性强(可视化强)
能处理高维数据(不用选择特征,能给出特征重要性)
并行处理,速度快
特征重要性衡量方法
将B特征破坏,加入离散值错误值等,计算破坏前后模型错误率,用错误率判断特征重要性(前后错误差距小,特征不重要)
通过特征位置,节点位置判断重要性
并行训练一堆分类器
典型:随机森林
随机:特征选择、数据采样随机(保证泛化能力)
建立多个树模型(森林),求均值(R2?)
树模型数量
二十个左右即可
前一轮模型(多个)+后一个(更强的,通过比较标签值)模型
将划分错误的样本加大权重,再进行下一次分类
堆叠各种算法
分阶段,用上一阶段结果训练下一阶段
决策边界
目标是是点到线的最大距离,即优化方向
是有监督算法
有边界点的向量(x1,x3)支撑起来
引入松弛因子(C 大,松弛因子小)
核函数
核函数
增加一个维度将红点绿点分开,z轴为xy时,可将红绿点用平面划分
机器学习 特征工程占首位
需要人工选出合适特征选择算法进行建模然后评估
深度学习为了解决人工挑选特征问题,更智能,解决特征工程问题。
能学习什么特征时最合适的,选好特征用常用算法(RF、SVM)效果就会很好
在一定范围内,哪一类数量多,未知量就判断为哪一类
计算绿点距每个类别点的距离,然后确定范围
分类为10,则有是个权重参数w,每个权重参数含3072个像素值
b为偏置参数,权重参数起决定作用,偏置参数微调
w值越大说明对应x越重要,正值促进,负值抑制
预测值437.9最大,结果预测为狗,因此需要修改权重参数
神经网络主要工作:需要根据监督标签调整权重参数,进行学习
如何衡量分类结果
取 错误得分-正确得分+1或0中最大值为损失值
求损失值
分类问题需要将得分转化成概率(sigmoid函数)
通过exp函数,将得分结果放大,然后归一化得到结果概率值
对数函数求损失,预测结果概率接近1,损失越小
梯度下降,减小损失值
分步求偏导
通过对原始数据进行权重计算,选出重要的特征,然后进行权重迭代计算
从后往前逐步对w求偏导,逼近loss最小值
理解即可
整体计算(几步流程时完成一个公式,因此可以对公式求偏导)
计算涉及求导
加法对x、y求偏导均等;
乘法对x求偏导得出y的函数即互换;
max门单元,将梯度给大的值,不给小的?
全连接:中间全连接为赋予权重参数,原数据转化为新的矩阵数据
非线性:神经网络是非线性的,不能有W4,代替W2,因为这是有顺序的
神经元:神经元越多,过拟合风险越大
神经网络就是找最优的w解,使得损失函数最小,预测概率最正确
神经元为1(类似画1条线)
神经元为2(类似画2条线)
神经元为3(类似画3条线)
神经元为5
神经元为10
神经元为20
绿色是异常值,该点更应为红色
能够做其他算法做不到的分类
比如随机数据,其他算法无法得出规律,神经网络可进行分类
激活函数
不用sigmoid因为其梯度(偏导)会接近0,传递梯度0,作用不大
去中心化(减均值)
归一化(除标准差)
参数初始化
乘0.01保证w波动变化均匀
drop out
训练阶段:在每一个hidden layer中随机选择一定比例的神经元进行杀死
前向传播:数据预处理-赋予权重-激活函数-赋予权重-激活函数-赋予权重-loss
反向传播:求出loss-对w3求偏导-对激活函数求偏导-对w2求偏导-对激活函数求偏导-对w1求偏导
什么样的权重参数最适合与当前任务,将w里的值求出来神经网络即完成(过拟合问题必出现,解决过拟合问题很重要)
已知概率
未知概率,通过现象判断概率
不同任务先验概率P(h)不一样
p(h1)为文本库中than出现的概率
p(h2)为文本库中the出现的概率
p(D|h)为将the拼成tha的概率(需要自己定规则)
假设特征之间条件无关,用来化简时候用
两个或以上变量值之间有关联
特征之间的组合
X、Y项集同时出现/项集总数
X、Y项集同时出现/购买X项集的数量
可能A、B之间独立,但是置信度很高
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。