赞
踩
以下是 Part 1, 26个AI/数据科学面试问题,每个问题都有一个可接受的答案。这些问题将由难度和主题混合而成,但都与机器学习和数据科学有关。我建议你在继续验证你的答案之前,先看看这个问题,花点时间思考一下答案。 无论你是大学生还是有经验的专业人士,每个人都可以花一些时间来测试(或更新)他们的技能! 你能全部回答吗?加Q群:361598961 课程资料免费领取+大牛答疑指导+人工智能系列录播课程!更有200G人工智能资料大礼包奉上!
1 | 区分机器学习、人工智能和数据科学。(主题:概述)
人工智能是一个广泛的术语,它集中于从机器人到文本分析的各种应用,作为一个角色,它同时服务于业务和技术两个方面。机器学习是人工智能的一个子集,它关注范围很窄的活动,并且服务于纯技术性的角色。数据科学并不完全是机器学习的一个子集,而是利用机器学习来分析和预测未来,并可以发挥商业作用。
2 | 什么是推荐系统?(主题:词汇)
推荐系统是信息过滤系统的一个子类,用于预测用户对产品的偏好或评价。推荐系统广泛应用于电影、新闻、研究文章、产品、音乐等领域。
3 | 什么是正态分布?(主题:统计、词汇)
正态分布也称为钟形曲线,可以描述为大多数实例聚集在中心的分布,并且实例的数量随着距中心距离的增加而减少。更严格的统计定义是66%的数据在平均值的一个标准差内,95%的数据在平均值的两个标准差内,99%的数据在平均值的三个标准差内。
4 | 线性回归和逻辑回归有什么区别?(主题:回归与分类算法)
线性回归是一种将一条直线(或多元线性回归中的n维平面)拟合到数据上的统计技术。它用于回归,也就是说,当目标值在一个连续的尺度上时。Logistic回归是通过sigmoid函数对线性回归的一种变换,给出了一组输入在分类0或分类1中的概率。
5 | 如何选择K中的K值表示聚类而不查看聚类?(聚类算法)
在k均值聚类中,有两种选择k值的方法。一种方法是肘部方法,在一个图中,y轴是一些误差函数,x轴是簇的数量,如果图是一个手臂,那么最好的簇数量是看起来像肘部的簇。
6 | 试验真阳性率100%,假阳性率5%。有一个人群有千分之一的人有接受测试的条件。只考虑到你有一个阳性的测试,有这种情况的概率是多少?(主题:分类费率)
假设你正在接受一种疾病的测试——如果你有这种疾病,测试结果会说你有这种疾病。然而,如果你没有生病,5%的时间测试将结束说你有病,95%的时间测试将确定你没有生病。因此,如果你没有生病,就有5%的错误。在1000人中,有1人会得到真正的阳性结果。在剩下的999人中,5%也会得到(假)阳性结果。将近50人将得到这种疾病的阳性结果。这意味着,在1000人中,51人将被检测出该病阳性,即使只有一人患病。即使检测呈阳性,你得这种病的概率也只有2%。
7 | 如何应用Box-Cox变换来帮助模型性能?(主题:统计、算法)
Box-Cox转换包括将数据提升到某个幂,例如将其平方、立方或平方(提升到1/2幂)。由于第0次幂的值总是1,所以Box-Cox变换中的“第0次幂”被认为是对数变换。 对数函数特别能提高模型的性能,因为它把指数函数放在线性尺度上。这意味着线性回归等线性模型可以更好地处理数据。 对函数进行平方和立方化也可以理顺数据或强调数据中某些重要部分。
8 | 梯度下降法总是在同一点收敛吗?(主题:神经网络)
不,梯度下降法并不总是在同一点收敛。由于误差空间可能有多个局部极小值,梯度下降法可能会在不同的地方结束,这取决于它们的特性,例如动量或权重。
9 | 分析项目中有哪些关键步骤?(主题:组织)
了解业务问题和分析目标。 探索数据并熟悉它。 通过清理数据(检测异常值、缺失值、转换变量等)准备建模数据。 运行模型并相应地调整参数。 使用新数据验证模型。 实施模型并从中获得见解。
10 | 解释维度的诅咒。(主题:数据)
维度诅咒 Curse of Dimensionality 是指在分析具有许多特征(高维数据)的数据时出现的某些现象,这些特征不是在普通的二维或三维空间中出现的。一个共同的主题是,随着维数的增加,稀疏性增加得如此之快,以至于对于机器学习模型这样的模型,有意义地计算所有的值在计算上是不可行的。需要注意的一点是,在非常高维的空间中,任意两个样本之间的欧几里德距离太小,不可能使用任何需要计算两点之间距离的统计或机器学习方法。(这也是为什么卷积神经网络在高维图像识别中更受欢迎的原因。)
11 | 什么是回忆和精确?(主题:分类费率)
回忆Recall, 可以被描述为“在所有真实的样本中,有多少模型被归类为真实的?”?“精度可以描述为”在所有样本中,我们的模型分类器为真,有多少是真的?
12 | 在时间序列建模中,如何处理不同形式的季节性?(主题:时间序列)
通常在现实世界的时间序列数据中(比如说,在玩具厂购买的泰迪熊),会有不同形式的季节性因素相互干扰。每年的季节性,如圣诞节前后的高峰和夏季的低谷,可能与每月、每周甚至每天的季节性重叠。这使得时间序列非平稳,因为变量的平均值在不同的时间段是不同的。 对时间序列进行差分是消除其季节性的最好方法。这是将时间x和x中的一个日期减去季节性周期(可能是一年、一个月或其他时间)之间的差额的过程。这意味着一个季节性周期值的原始数据丢失,因为在前几个样本中x减去季节性周期是不可访问的。
13 | 通常认为假阴性比假阳性更糟。假阳性比假阴性更糟的例子是什么?(主题:分类费率、组织)
这是许多可能的例子之一。假设一家电子商务公司决定向他们认为至少会购买价值5000美元的商品的客户赠送1000美元的礼品券。如果电子商务公司的模式有一个假阴性,它将(错误地)不发送凭证,因为它正确地认为客户不会花费至少价值5000美元的物品。虽然这并不理想,但公司并没有亏损。如果电子商务公司向假阳性(他们错误地预测某人将花费至少5000美元)发送优惠券,那么该公司将为那些不会花费至少5000美元的人赔钱。
14 | 测试集和验证集有什么区别?(主题:数据、组织)
测试集用于评估模型经过训练后的性能。在训练期间使用验证集进行参数选择并防止训练集上的过度拟合。
15 | 您希望何时在随机林上使用SVM?(主题:算法)
支持向量机和随机森林都是强大的分类算法。如果数据是无异常且干净的,支持向量机将是一个不错的选择。如果它是相反的,随机森林可能能够适应它。支持向量机(特别是广泛的参数搜索)比随机森林消耗更多的计算能力,所以如果你有内存限制,随机森林将更好。在多类问题中,随机森林是首选,而在高维问题(如文本分类)中,支持向量机是首选。
16 | 合奏是什么?它们带来了什么价值?(主题:算法)
集合是对最终决定进行投票的一组算法。合奏之所以成功,是因为一种模式的弱点可能会被另一种模式的长处所压倒,但这意味着一个成功的模式必须是多样化的。这意味着每种模式的弱点必须是不同的。研究表明,正确创建的组合几乎总是比单个分类器表现更好。
17 | 您可能会使用哪些方法来填写丢失的数据,如果您不小心填写丢失的数据,会产生什么后果?(主题:数据清理)
现实世界的数据往往会丢失数据。填写的方法多种多样。完整的案例处理是删除任何具有NA值的行的过程。这是可行的,如果没有非常多的NA值分布在几行,并且有足够的数据;否则,完整的病例处理可能会造成损害。在实际数据中,删除任何具有NA值的行可以消除数据中的某些可观察模式。 在无法完成病例治疗的情况下,有多种方法来填写缺失的数据,如模式、中位数或平均值。使用哪一个取决于上下文。 另一种方法是使用K近邻(KNN)计算缺失数据点的K近邻,并使用这些近邻的平均值、中值或模式。它提供了更多的可定制性和规范,这是使用统计摘要值无法实现的。 如果填充数据的方法做得一团糟,可能会导致选择偏差——一个模型只能和数据一样好,如果数据有偏差,模型也会有偏差。
18 | 在将数据转换为线性回归模型之前,需要对数据进行哪些基本假设?(主题:算法)
数据应具有正态残差分布、误差的统计相关性和线性。
19 | 贝叶斯估计和最大似然估计有什么区别?(主题:算法)
在贝叶斯估计中,模型对数据(先验)有一定的了解。可能有几个参数值可以解释数据,因此,我们可以查找多个参数,如5个gammas和5个lambdas。作为贝叶斯估计的结果,有多个模型用于进行多个预测(每对参数一个,但具有相同的先验)。因此,如果需要预测一个新的例子,那么计算这些预测的加权和就可以了。 最大似然不考虑先验,因此它类似于使用某种平坦先验的贝叶斯模型。
20 | 您什么时候使用MSE和MAE?(主题:准确度指标)
均方误差经常被使用,因为它“突出”了较大的误差。由于x 2的导数是2x,x越大,x和x-1之间的差异就越大。然而,平均绝对误差可能是有利的,因为它是一个更容易解释的结果。因此,当结果不需要解释时,MSE可能会更好,而只是作为一个数值分数(可能用于模型之间的比较),但是当结果需要解释时,MAE可能会更好(例如,该模型平均价值约为4美元)。
21 | 关于数据,P值意味着什么?(主题:统计)
在统计学中,P值用于确定假设检验后结果的显著性。P值有助于分析人员得出结论,并且总是在0到1的范围内。 P值大于0.05表示对无效假设的证据不足,这意味着无效假设不能被拒绝。 小于0.05的P值表示有有力的证据反对零假设,这意味着可以拒绝零假设。 P值为0.05是边际值,这表明这两种情况都有可能发生。
22 | 什么是ROC曲线?什么是AUC?(主题:准确度指标)
ROC曲线是模型的假阳性率与其真阳性率的比值。完全随机的预测将是一条直线(黑色虚线)。优化模型将尽可能靠近轴。
23 | 什么是PCA,它能有什么帮助?(主题:算法)
主成分分析(PCA)是一种降维方法,它通过寻找n个正交向量来表示数据中的最大方差,其中n是用户希望数据降维到的维数。n个向量用作新数据的维度。PCA可以帮助加快机器学习算法的速度,也可以用来可视化高维数据。
24 | 解释偏差-方差权衡,并为具有高偏差和低偏差的算法提供示例。(主题:算法)
偏差是由于机器学习算法过于简单化而在模型中引入的错误,这可能会导致拟合不足。当您在那时训练模型时,模型会简化假设,使目标函数更容易理解。低偏差机器学习算法包括决策树、KNN和支持向量机。高偏差机器学习算法包括线性回归和logistic回归。 方差是由于复杂的机器学习算法在模型中引入的误差,其中模型还从训练数据集学习噪声,因此在测试数据集上表现不佳。它会导致高灵敏度和过度拟合。通常,当您增加模型的复杂性时,您将看到由于模型中较低的偏差而导致的错误减少。然而,这种情况只会发生在特定点之前——当您继续使模型更复杂时,您最终会过度拟合模型。
25 | 为什么Softmax非线性函数常常是复杂神经网络中的最后一个操作?(主题:神经网络)
这是因为它接受实数向量并返回概率分布。设x为实数向量(正数,负数,随便什么)。应该清楚的是,输出是一个概率分布:每个元素都是非负的,所有分量的和是1。
26 | 什么是TF/IDF矢量化?(主题:NLP)
TF-IDF是短期频率逆文档频率的缩写。这是一个数字统计,旨在反映一个词对语料库中的文档有多重要。在信息检索和文本挖掘中,它常被用作一个权重因子。TF–IDF值随单词出现在文档中的次数成比例增加,但随单词在语料库中的频率成比例减少,这有助于调整某些单词出现的频率。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。