通过有无标签分类：

有监督学习、无监督学习、半监督学习。

与监督学习相比，无监督学习的训练集中没有人为的标注的结果，在非监督的学习过程中，数据并不被特别标识，学习模型是为了推断出数据的一些内在结构。

通过功能性分类：

分类、回归、聚类、降维

给定一个样本特征 ,希望预测其对应的属性值 , 如果是离散的, 那么这就是一个分类问题，反之，如果是连续的实数, 这就是一个回归问题。

给定一组样本特征 , 我们没有对应的属性值 , 而是想发掘这组样本在多维空间的分布, 比如分析哪些样本靠的更近，哪些样本之间离得很远, 这就是属于聚类问题。

如果我们想用维数更低的子空间来表示原来高维的特征空间, 那么这就是降维问题。

什么是数据集？

由特征值和目标值构成的集合。

什么是特征工程？

将原始数据转换为更好地代表预测模型的潜在问题的特征的过程，从而提高了对未知数据模型的准确性。

特征工程包括什么？

特征抽取、特征预处理、特征降维。

特征提取：将任意数据转换为可用于机器学习的数字特征。例如字典型特征提取、文本型特征提取。

特征预处理：预先处理，包括归一化标准化、异常样本清洗、样本数据不平衡问题处理。

特征降维:降低的对象是多维数组。降低的是特征的个数，得到一组“不相关”的主变量的过程

字典型特征提取和文本型特征提取

什么是无量纲化？

包括归一化、标准化。

归一化：将原始数据映射到一个区间内，异常值可能会影响归一化。

标准化：准化后会使每个特征中的数值平均变为0，标准差变为1。

标准化方式：L1L2范数标准化、（L1范数生成稀疏矩阵，L2可以利用正则化防止过拟合）

特征降维的方法有什么？

有过滤式和嵌入式。

过滤式：方差选择(过滤掉低方差的特征)；相关系数（两个特征的相关性）如果两个特征相关性强①选择一个②加权变成新特征

嵌入式：决策树、正则化、深度学习

什么是主成分分析（pca）？

目的是，将高维数据转化为低维数据，尽可能降低源数据的维数，损失少量信息

什么是过拟合和欠拟合？

过拟合：机器学习训练的模型在训练集中表现非常好，但缺少泛化性，导致在测试集中表现不佳。

欠拟合：机器学习训练的模型在训练集中表现就很差。

处理过拟合：1. 添加训练数据 2. 减少特征个数 3. 增加lamda的值 4.正则化L1 L2正则化

处理欠拟合：1. 增加特征个数 2. 降低lamda的值

什么是正则化；

给定一组数据，用一个函数去拟合这组数据，如果数据中有噪声，那么函数的波动就会比较大，函数不够平滑就会出现过拟合现象。用正则化，给参数一个取值范围，就可以减少噪声的影响，减少过拟合现象的发生。正则化的表现形式是通过在函数末尾加一个正则化项来实现的。

分类、回归、聚类、降维的代表性算法分别有什么？

1、分类：

朴素贝叶斯

贝叶斯分类法是基于贝叶斯公式（先验概率和后验概率的关系）的统计学分类方法。

它通过预测一个给定的元组属于一个特定类的概率，来进行分类。

logistic回归（逻辑回归）

logistic回归得出预测值后，根据预测值大小进行分类。（通常是二分类）

决策树

基于树的结构来进行决策

KNN算法

支持向量机（SVM）算法

2、回归

线性回归

用直线进行拟合。

逻辑回归

用logistic函数拟合。

3、聚类

K-means算法

4、降维

主成分分析法

knn算法和kmeans算法的区别

knn算法是监督学习算法，处理分类问题classification；

kneans算法是无监督学习算法，处理聚类问题；

未完待续。。。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/2023面试高手/article/detail/457988