赞
踩
机器学习的主要任务便是聚焦于两个问题:分类和回归
机器学习在不同的维度会有不同的划分,最普遍的划分大致可以分为监督学习、非监督学习、半监督学习、增强学习
监督学习的数据集拥有既定的标签,即训练的数据集已经有了某种特定的属性,例如医院有很多病人的数据,可以根据患者的数据进行病情的鉴定、银行有很多人的信用信息,根据这些信息可以判定申请人的信用程度等等。
非监督学习的数据集没有任何既定标签,完全让算法去分析这些数据,找出一些特殊情况,大多数聚类算法都是非监督学习。
半监督学习,虽然数据集有既定标签,但是有时候有些数据会有缺失,例如银行信用体系中,有些人的年龄数据缺失、有些人性别数据缺失等等。
增强学习,即根据当下的环境不断的去学习,不断的发现数据集,不断的训练自己,例如阿尔法狗以及无人驾驶等,都是增强学习的应用。
下面的数据很容易获得房屋面积与价格之间的关系面积 * 2.1 = 价格,在二维的线性关系公式为:y = kx + b 添加b是为了单个特征的情况更通用,例如x=0时y可以不经过原点
如果是多个特征例如房子重要的两个参数 面积,位置。那么多特征公式为:k1房子面积 + k2房子位置 + b
线性回归通过一个或者多个自变量与因变量之间进行建模的回归分析,其中可以为一个或者多个自变量之间的线性组合
矩阵乘法必须满足特定条件:(m行,L列) * (L行,n列) = (m行,n列), 矩阵的乘法背后的业务逻辑就是多元线性回归的公式
Scikit learn 也简称 sklearn, 是机器学习领域当中最知名的 python 模块之一
通过pandas可以很方便加载csv,excel,sql,html,json中的数据,加载成功默认保存为DataFrame对象。
Sklearn 把所有机器学习的模式整合统一起来了,学会了一个模式就可以通吃其他不同类型的学习模式
y = wx + b 这种单项式在数学模型中表示一根直线,但是生产环境中很多的数据例如股票,销售涨跌它都是曲线结构的,这就会导致单项式的线性回归预测率低
大家可以看到,单项式线性回归在可视化中生成的就是一条直线,直线的情况下预测曲线的真实数据是非常低的,因此一章节我们就来看如何采用多项式预测曲线数据
直线回归研究的是一个依变量与一个自变量之间的回归问题,但是,在畜禽、水产科学领域的许多实际问题中,影响依变量的自变量往往不止一个,而是多个,比如绵羊的产毛量这一变量同时受到绵羊体重、胸围、体长等多个变量的影响,因此需要进行一个依变量与多个自变量间的回归分析,即多元回归分析
研究一个因变量与一个或多个自变量间多项式的回归分析方法,称为多项式回归(Polynomial Regression)。如果自变量只有一个时,称为一元多项式回归;如果自变量有多个时,称为多元多项式回归。在一元回归分析中,如果依变量y与自变量x的关系为非线性的,但是又找不到适当的函数曲线来拟合,则可以采用一元多项式回归
一元m次多项式回归方程为:
二元二次多项式回归方程为:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。