赞
踩
由于我最近拿到offer还是想再找找更好的机会,目前有很多的面试,面试的时候很多面试官会问一些机器学习的基础知识,由于我上一段实习的时候主要是机器学习和部分深度学习的内容,为了避免在面试的时候想不起来自己学习的内容,我还是决定边复习边学习,新开一个自我复习系列,巩固已经学到的知识。
--------------------------------------------------------------------------------------------------------------
机器学习——>有监督,无监督,强化学习
有监督:数据有标签,——>回归(标签连续)、分类(标签离散)
无监督:没有标签——>聚类(识别数据的组)、降维(从高维数据检测识别低维的数据结构)
强化学习:让他自己学习
机器学习的分类主要包括有监督学习、无监督学习和强化学习。每个类别都有其独特的特点和应用场景。以下是对这三种主要类型的详细介绍:
训练数据集中的每个样本都有对应的标签(或目标值),模型学习输入到输出的映射关系。模型的目标是根据输入预测输出,常用于分类和回归任务。
线性回归 (Linear Regression):
线性回归模型假设目标变量 y与特征变量 X之间的关系可以用一个线性函数表示:
找到回归系数 β 使得预测值 与实际值 之间的误差最小。误差通常用均方误差(Mean Squared Error, MSE)来度量:
最小二乘法是最常用的方法,通过最小化误差平方和来估计回归系数。
岭回归 (Ridge Regression):
Lasso 回归 (Lasso Regression):
Lasso 回归 vs. 岭回归:
多项式回归 (Polynomial Regression):
逻辑回归 (Logistic Regression):
支持向量机 (SVM):
决策树 (Decision Tree):
信息增益(Information Gain): 信息增益是通过衡量分割前后信息熵的减少量来选择分割特征。信息熵(Entropy)的计算公式为:
基尼指数(Gini Index): 基尼指数用于衡量数据集的不纯度,其计算公式为:
卡方统计量(Chi-square): 卡方统计量用于衡量特征与目标变量之间的独立性,其计算公式为:
随机森林 (Random Forest):
梯度提升树 (Gradient Boosting Tree, GBT)
梯度提升树通过逐步构建决策树,每棵树都在前一棵树的基础上进行优化,以最小化损失函数。每次迭代中,新的树拟合当前模型的残差。
极端梯度提升 (XGBoost)
LightGBM
决策树及其变种(如随机森林、梯度提升树、XGBoost、LightGBM、CatBoost)在分类和回归任务中具有广泛应用。决策树通过递归分割特征空间构建树结构,而其变种通过集成学习和优化技术提高模型的性能和泛化能力。理解这些算法的原理和公式,有助于在实际应用中选择和优化模型。
k近邻 (k-NN):
朴素贝叶斯 (Naive Bayes):
高斯朴素贝叶斯:
多项式朴素贝叶斯:
伯努利朴素贝叶斯:
神经网络 (Neural Networks):
k-means 聚类 (k-means Clustering):
层次聚类 (Hierarchical Clustering):
DBSCAN (Density-Based Spatial Clustering of Applications with Noise):
主成分分析 (PCA, Principal Component Analysis):
1.数据中心化:
2.计算协方差矩阵:
3.计算特征值和特征向量:
4.选择主成分:
5.投影数据:
t-SNE (t-Distributed Stochastic Neighbor Embedding):
线性判别分析 (LDA, Linear Discriminant Analysis):
马尔可夫决策过程 (MDP, Markov Decision Process):
深度Q网络 (DQN, Deep Q-Network):
有监督学习 vs. 无监督学习:
有监督学习 vs. 强化学习:
无监督学习 vs. 强化学习:
特化与泛化:泛化能力——>验证一个模型是否强,得到的机器学习模型对新东西的预测能力
1、拓展数据集(数据增强:①有监督②无监督:例如生成对抗网络,随机生成一些新的数据)
2、正则化:在损失函数上加正则化项,①L1②L2:岭回归
3、减少特征的选择①dropout ②集成学习:例如决策树变成随机森林 ③早停:提早结束对神经网络迭代
过拟合(Overfitting)和欠拟合(Underfitting)是机器学习中常见的两个问题。
过拟合:
欠拟合:
L1 正则化(Lasso):
L2 正则化(Ridge):
Dropout:
集成学习:
早停:
分类
错误率e=1/m*100%,acc=1-e,查准率P:预测的有多少是真的,召回率R:所有为1的样本中,预测对了多少
P-R曲线、ROC曲线(曲线下面积——AUC)、ks曲线、
回归
r^2,均方误差mse
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。