小蓝xlanll

这个屌丝很懒，什么也没留下！

热门标签

机器学习面试真题1000题详细讲解第八集_数据科学家可能会同时使用多个算法(模型)进行预测, 并且最后把这些算法的结果集成

作者：小蓝xlanll | 2024-04-14 14:18:39

踩

数据科学家可能会同时使用多个算法(模型)进行预测, 并且最后把这些算法的结果集成

机器学习面试真题1000题详细讲解第八集

231 SVM模型中, 真正影响决策边界的是支持向量以下哪些算法, 可以用神经网络去构造:

1. KNN

2. 线性回归

3. 对数几率回归

A. 1和 2

B. 2 和 3

C. 1, 2 和 3

D. 以上都不是

答案: B

在这里给大家推荐一个python系统学习q群：250933691有免费开发工具以及初学资料，（数据分析，爬虫，AI, 机器学习，神经网络）每天有老师给大家免费授课，欢迎一起交流学习

1. KNN算法不需要训练参数, 而所有神经网络都需要训练参数, 因此神经网络帮不上忙

2. 最简单的神经网络, 感知器, 其实就是线性回归的训练

3. 我们可以用一层的神经网络构造对数几率回归

232 请选择下面可以应用隐马尔科夫(HMM)模型的选项:

A. 基因序列数据集

B. 电影浏览数据集

C. 股票市场数据集

D. 所有以上

答案: D

只要是和时间序列问题有关的 , 都可以试试HMM

233 我们建立一个5000个特征, 100万数据的机器学习模型. 我们怎么有效地应对这样的大数据训练 :

A. 我们随机抽取一些样本, 在这些少量样本之上训练

B. 我们可以试用在线机器学习算法

C. 我们应用PCA算法降维, 减少特征数

D. B 和 C

E. A 和 B

F. 以上所有

答案: F

234 我们想要减少数据集中的特征数, 即降维. 选择以下适合的方案 :

1. 使用前向特征选择方法

2. 使用后向特征排除方法

3. 我们先把所有特征都使用, 去训练一个模型, 得到测试集上的表现. 然后我们去掉一个特征, 再去训练, 用交叉验证看看测试集上的表现. 如果表现比原来还要好, 我们可以去除这个特征.

4. 查看相关性表, 去除相关性最高的一些特征

A. 1 和 2

B. 2, 3和4

C. 1, 2和4

D. All

答案: D

1.前向特征选择方法和后向特征排除方法是我们特征选择的常用方法

2.如果前向特征选择方法和后向特征排除方法在大数据上不适用, 可以用这里第三种方法.

3.用相关性的度量去删除多余特征, 也是一个好方法

所有D是正确的

235 对于随机森林和GradientBoosting Trees, 下面说法正确的是:

1.在随机森林的单个树中, 树和树之间是有依赖的, 而GradientBoosting Trees中的单个树之间是没有依赖的.

2.这两个模型都使用随机特征子集, 来生成许多单个的树.

3.我们可以并行地生成GradientBoosting Trees单个树, 因为它们之间是没有依赖的, GradientBoosting Trees训练模型的表现总是比随机森林好

A. 2

B. 1 and 2

C. 1, 3 and 4

D. 2 and 4

答案: A

1.随机森林是基于bagging的, 而Gradient Boosting trees是基于boosting的, 所有说反了,在随机森林的单个树中, 树和树之间是没有依赖的, 而GradientBoosting Trees中的单个树之间是有依赖关系.

2.这两个模型都使用随机特征子集, 来生成许多单个的树.

所有A是正确的

236 对于PCA(主成分分析)转化过的特征 , 朴素贝叶斯的”不依赖假设”总是成立, 因为所有主要成分是正交的, 这个说法是 :

A. 正确的

B. 错误的

答案: B.

这个说法是错误的, 首先, “不依赖”和”不相关”是两回事, 其次, 转化过的特征, 也可能是相关的

237 对于PCA说法正确的是 :

1. 我们必须在使用PCA前规范化数据

2. 我们应该选择使得模型有最大variance的主成分

3. 我们应该选择使得模型有最小varian

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小蓝xlanll/article/detail/422516