赞
踩
1.在NumPy中创建一个元素均为0的数组可以使用( )函数。 [A]
A.zeros( ) B.arange( ) C.linspace( ) D.logspace( )
2.通常( )误差作为泛化误差的近似。 [A]
A.测试 B.训练 C.经验 D.以上都可以
3.梯度为( )的点,就是损失函数的最小值点,一般认为此时模型达到了收敛。 [B]
A.-1 B.0 C.1 D.无穷大
4.创建一个3*3的数组,下列代码中错误的是( )。 [C]
A.np.arange(0,9).reshape(3,3) B.np.eye(3) C.np.random.random([3,3,3]) D.np.mat(“1,2,3;4,5,6;7,8,9”)
5.关于数据集的标准化,正确的描述是:( )。 [A]
A.标准化有助于加快模型的收敛速度 B.标准化一定是归一化,即数据集的取值分布在[0,1]区间上 C.数据集的标准化一定是让标准差变为1 D.所有的模型建模之前,必须进行数据集标准化
6.Python安装第三方库的命令是( )。 [C]
A.pip –h B.pyinstaller <拟安装库名> C.pip install <拟安装库名> D.pip download <拟安装库名>
7.如果发现模型在验证集上的准确性整体高于训练集,在验证集上的损失整体低于训练集,则最可能的情况是:( )。 [B]
A.验证集的数据样本与训练集相比,数量过少和过于简单 B.模型没有采用正则化方法 C.以上都对
8.DL是下面哪个术语的简称( )。 [D]
A.人工智能 B.机器学习 C.神经网络 D.深度学习
9.验证集和测试集,应该:( )。 [A]
A.样本来自同一分布 B.样本来自不同分布 C.样本之间有一一对应关系 D.拥有相同数量的样本
10.一般使用以下哪种方法求解线性回归问题:( )。 [A]
A.最小二乘法 B.最大似然估计 C.对数变换 D.A和B
11.以下哪个函数可以实现画布的创建?( )。 [C]
A.subplots( ) B.add_subplot( ) C.figure( ) D.subplot2grid( )
12.Numpy中统计数组元素个数的方法是( )。 [C]
A.ndim B.shape C.size D.itemsize
13.决策树中的分类结果是最末端的节点,这些节点称为( )。 [D]
A.根节点 B.父节点 C.子节点 D.叶节点
14.以下哪种不是Python第三方库的安装方法( )。 [C]
A.pip工具安装 B.自定义安装 C.网页安装 D.文件安装
15.关于学习率,以下描述错误的是:( )。 [B]
A.如果学习率足够小,随机梯度下降算法将更容易获得全局最优解。 B.降低学习率有可能导致模型训练时间增加。 C.以上都不对。
16.将数据集划分成训练集S和测试集T的常见方法有( )。 [D]
A.留出法 B.交叉验证法 C.自助法 D.以上均正确
17.ML是下面哪个术语的简称( )。 [B]
A.人工智能 B.机器学习 C.神经网络 D.深度学习
18.当数据特征不明显、数据量少的时候,采用下面哪个模型( )。 [C]
A.线性回归 B.逻辑回归 C.支持向量机 D.神经网络
19.机器学习的流程包括:分析案例、数据获取、( )和模型验证这四个过程。 [C]
A.数据清洗 B.数据分析 C.模型训练 D.模型搭建
20.一般而言,某个人的学习时间长短与测验成绩之间的关系是:( )。 [D]
A.不能确定 B.负相关 C.不相关 D.正相关
21.Matplotlib中的哪个包提供了一批操作和绘图函数?( )。 [A]
A.pyplot B.Bar C.rcparams D.pprint
22.Numpy.random模块中用于对一个序列进行随机排序的函数是( )。 [B]
A.uniform B.shuffle C.permutation D.normal
23.以下哪种不是Python第三方库的安装方法( )。 [B]
A.pip install B.pip install -U pip C.pip update D.pip uninstall
24.以下哪个软件包用于矩阵和向量的科学计算?( )。 [A]
A.Numpy B.Pandas C.Matplotlib D.Seaborn
25.在逻辑斯蒂(对数几率)回归中将输出y视为样本x属于正例的概率。给定训练数据集,通常采用( )来估计参数w和b,最大化样本属于其真实类标记的概率的对数,即最大化对数似然。 [B]
A.最小二乘法 B.极大似然法 C.交叉验证法 D.留出法
26.使下面哪个函数可以将线性回归线转为逻辑回归线?( )。 [A]
A.Sigmoid B.高斯核函数 C.P(A) D.H(x)
27.支持向量机的简称是( )。 [D]
A.AI B.ML C.ANN D.SVM
28.线性回归方程y=-2x+7揭示了割草机的剩余油量(升)与工作时间(小时)的关系,以下关于斜率描述正确的是:( )。 [C]
A.割草机可以被预测到的油量是2升 B.割草机每工作1小时大约需要消耗7升油 C.割草机每工作1小时大约需要消耗2升油 D.割草机工作1小时后剩余油量是2升
29.如果学习率过大,以下描述正确的是:( )。 [A]
A.模型需要更长的训练时间才能收敛到最优值 B.模型需要消耗更多的计算资源 C.模型难以泛化
30.下面不属于人工神经网络的是( )。 [C]
A.卷积神经网络 B.循环神经网络 C.网络森林 D.深度神经网络
31.Numpy提供了两种基本对象,一种是ndarray,另一种是( )。 [B]
A.array B.func C.matrix D.Series
32.以下( )函数可以在绘制图表时,设置x轴的名称。 [C]
A.xlim() B.ylim() C.xlabel() D.xticks()
33.用于度量样本点之间距离的距离度量函数有( )。 [D]
A.连续属性距离度量函数 B.离散属性距离度量函数 C.混合属性距离度量函数 D.以上都是
34.使用Pandas库设置索引使用哪种方法( )。 [D]
A.merge()方法 B.concat()方法 C.to_datetime()方法 D.set_index()方法
35.对于机器学习表述下列正确的是( )。 [B]
A.机器学习和人工智能是独立的两种技术 B.机器学习是人工智能的核心技术和重要分支 C.机器学习的目标是让机器设备像人类一样学习书本知识 D.机器学习是指一系列程序逻辑控制算法
36.下列选项中不能创建Numpy数组的选项是( )。 [B]
A.a = numpy.array([1,2,3]) B.a = numpy.array([1,[1,2,3],3]) C.a = numpy.array([[1,2,3],[4,5,6]]) D.a = numpy.array([[‘xiao’,’qian’],[‘xiao’,’feng’]])
37.如果你有10000000 个样本,将如何划分数据集?( )。 [A]
A.98% train ,1% dev ,1% test B.34% train,33% dev,33% test C.60% train,20% dev,20% test D.50% train ,20% dev ,30% test
38.%matplotlib inline指令的作用是:( )。 [A]
A.将Matplotlib命令绘制的图形嵌入到当前文档中显示 B.Matplotlib命令可以用于当前文档绘图 C.Matplotlib命令只能在文档内部运行 D.必须包含该指令,Matplotlib命令才能被执行
39.假设我们获得了具有n条记录的数据集,其中输入变量为x,输出变量为y。使用线性回归方法对该数据集进行建模,将数据集随机分为训练集和测试集。如果我们逐渐增加训练集的大小,随着训练集大小的增加,则平均训练误差会发生什么变化?( )。 [C]
A.减少 B.不确定 C.以上都不对
40.机器学习的简称是( )。 [B]
A.AI B.ML C.DL D.NN
41.对没有标签的数据进行分类的问题属于机器学习中哪一类问题( )。 [C]
A.回归 B.分类 C.聚类 D.强化
42.有程序段:
a=np.random.randn(4,3)
b=np.random.randn(3,2)
c=a*b
根据数组a、b、c的定义,推断c的维度为:( )。 [D]
A.c.shape = (3, 3) B.c.shape = (4,2) C.c.shape = (4, 3) D.c的计算会出错,因为a和b的维度不匹配
1.神经网络优化计算存在的问题有( )。 [ABC]
A.解的不稳定性 B.参数难以确定 C.难以保证最优解 D.能量函数存在大量局部极大值
2.下列Python数据类型中,可变数据类型是( )。 [AC]
A.字典 B.元组 C.列表 D.字符串
3.下面哪些Python数据类型是有序序列( )。 [ABD]
A.元组 B.列表 C.字典 D.字符串
4.决定人工神经网络性能的要素有( )。 [ABC]
A.神经元的特性 B.神经元之间相互连接的形式为拓扑结构 C.为适应环境而改善性能的学习规则 D.数据量大小
5.Python语言的应用领域有( )。 [ABCD]
A.Web开发 B.操作系统管理和服务器运维的自动化脚本 C.科学计算 D.游戏开发
6.前馈型神经网络常用于( )。 [AD]
A.图像识别 B.文本处理 C.问答系统 D.图像检测
7.机器学习的实现过程,包括数据收集、( … )。等环节。 [ABCD]
A.数据分析处理 B.算法选择 C.训练模型 D.模型调整
8.以下属于人工神经网络的应用方向的是( )。 [ABCD]
A.自动控制 B.信号处理 C.软测量 D.智能计算
9.Python语言的特点有( )。 [ABD]
A.简单易学 B.开源 C.面向过程 D.可移植性
10.传统机器学习的应用领域有( )。 [ABD]
A.信用风险检测 B.销售预测 C.语音合成 D.商品推荐
11.下列说法不正确的是( )。 [CD]
A.Pandas库中处理数据缺陷时经常会使用dropna将缺陷数据清除 B.Pandas库中isnull判断数据是否为空 C.Pandas不能读取csv文本 D.Pandas能够读取word文件
12.一个完整的人工神经网络包括( )。 [AC]
A.一层输入层 B.多层分析层 C.多层隐藏层 D.两层输出层
13.按照学习方式的不同,可以将机器学习分为以下哪几类( )。 [ABC]
A.有监督学习 B.无监督学习 C.半监督学习 D.自主学习
14.以下属于深度学习框架的有:( )。 [ABCD]
A.Keras B.TensorFlow C.PaddlePaddle D.PyTorch
15.( )和( )是分类任务中最常用的两种评估指标。 [BC]
A.查全率 B.错误率 C.准确率(精度) D.查准率
16.机器学习的核心要素包括( )。 [ACD]
A.数据 B.操作人员 C.算法 D.算力
17.关于sigmoid函数,以下描述正确的是:( )。 [ABD]
A.输出值的范围为0-1之间的实数 B.输入值靠近0的位置,输入与输出近似线性关系 C.输入值靠近0的位置,斜率近似为0 D.输入值是任意的实数
18.在多分类学习中,经典的拆分策略有( )。 [ACD]
A.一对其余(One vs Rest) B.二对二(Two vs Two) C.多对多(Many vs Many) D.一对一(One vs One)
19.a = numpy.array([[1,2,3],[4,5,6]])
下列选项中可以选取数字5的索引的是( )。 [AC]
A.a[1][1] B.a[2][2] C.a[1,1] D.a[2,2]
20.以下哪些属于分类问题的是:( )。 [BCD]
A.多标签单分类 B.单标签多分类 C.二分类 D.多标签多分类
21.如何判断一个理想的训练集?( )。 [ABC]
A.理想的训练集具有均衡的多样性分布,不容易发生过拟合现象 B.相对于样本的数量,样本自身的代表性和质量更为重要 C.数据集的内容与模型需要达成的目标具有高度的一致性 D.交叉验证方法可以弥补数据集的缺陷
22.机器学习与数据挖掘之间的关系和区别为( )。 [ABC]
A.数据挖掘可以视为机器学习和数据库的交叉。 B.数据挖掘主要利用机器学习界提供的技术来分析海量数据,利用数据库界提供的技术来管理海量数据。 C.机器学习偏理论,数据挖掘偏应用。 D.两者是相互独立的两种数据处理技术。
23.下列哪些函数语句可以设置坐标轴的刻度:( )。 [AB]
A.plt.xticks() B.plt.yticks() C.plt.xlabel() D.plt.ylabel()
24.在现实世界的数据中,缺失值是常有的,一般的处理方法有( )。 [ABCD]
A.忽略 B.删除 C.平均值填充 D.最大值填充
25.以下哪些方法可以用于评估分类算法的性能:( )。 [ABC]
A.F1 Score B.精确率 C.AUC D.预测结果分布
26.在类不平衡数据集中,( )和( )通常作为更合适的性能度量。 [AB]
A.查全率 B.查准率 C.错误率 D.准确率
1.集合中的元素没有特定顺序但可以重复。 [B]
2.在距离度量中,最常用的是“闵可夫斯基距离”。当p=2时,闵可夫斯基距离就是欧式距离,当p=1时,闵可夫斯基距离就是曼哈顿距离。 [A]
3.聚类和分类的区别在于用于聚类的训练样本的类标记是未知的。 [A]
4.机器学习算法在图像识别领域的性能表现可能会超过人类。 [A]
5.列表是不可变对象,支持在原处修改。 [B]
6.决策树学习是一种逼近离散值目标函数的方法,学习到的函数被表示为一棵决策树。 [A]
7.梯度下降,就是沿着函数的梯度(导数)方向更新自变量,使得函数的取值越来越小,直至达到全局最小或者局部最小。 [A]
8.学习率越大,训练速度越快,最优解越精确。 [B]
9.线性回归是一种有监督机器学习算法,它使用真实的标签进行训练。 [A]
10.最小二乘法是基于预测值和真实值的均方差最小化的方法来估计线性回归学习器的参数w和b。 [A]
11.完成的训练模型可以保存为外部文件,再次使用模型时,不需要重新训练。 [A]
12.精确率、查全率、准确率、F1分数四种指标各有侧重,指标值都是越高越好,最佳值均为1,最差值均为0。 [A]
13.查全率越高,意味着模型漏掉的样本越少,当假阴性的成本很高时,查全率指标有助于衡量模型的好坏。 [A]
14.列表、元组和字符串都支持双向索引,有效索引的范围为[-L,L],L为列表、元组或字符串的长度。 [B]
15.列表、元组和字符串属于有序序列,其中的元素有严格的先后顺序。 [A]
16.一般的,一棵决策树包含一个根结点、若干个内部结点和若干个叶结点;叶结点对应于决策结果,其他每个结点则对应于一个属性测试;根结点包含样本全集。 [A]
17.Sigmoid函数能够把输入的连续实值变换为0和1之间的输出。 [A]
18.监督学习的学习数据既有特征(feature),也有标签(label)。 [A]
19.线性回归主要用于解决回归问题,其因变量是连续的值。 [A]
20.k均值算法,是一种原型聚类算法。 [A]
21.聚类生成的组称为簇,簇内任意对象之间具有较高的相似度,而簇间任意对象之间具有较高的相异度。 [A]
22.超参数选择不当,会对模型有较大的负面影响,所以在参数调整策略方面,所有超参数都同等重要。 [B]
23.训练集与验证集的样本是不同的。 [A]
24.在各类机器学习算法中,过拟合和欠拟合都是可以彻底避免的。 [B]
25.寻找最优超参数费时费力,应该在模型训练之前就指定最优参数。 [B]
26.准确率是所有正确识别的样本占样本总量的比例。当所有类别都同等重要时,采用准确率最为简单直观。 [A]
27.Pandas中利用merge函数合并数据表时默认的是内连接方式。 [A]
28.同一个列表中的元素的数据类型可以各不相同。 [A]
29.回归中利用最小二乘法主要通过最小化误差的平方来寻找一个数据匹配的最佳函数。 [A]
30.均方根误差与均方误差二者没有关系。 [B]
31.k近邻学习是一种常用的监督学习方法,其工作机制为:给定测试样本,基于某种距离度量找出训练集中与其最靠近的k个训练样本,然后基于这k个邻居信息进行预测。因此k近邻算法的核心是k值和距离度量的选取。 [A]
32.信息熵是度量样本集合纯度最常用的一种指标。信息熵的值越大,说明样本集合的纯度越高。 [B]
33.Sigmoid函数的导数是以它本身为因变量的函数。 [A]
34.数据集一般划分为训练集、验证集和测试集三部分,训练集用于建模,验证集(开发集)用于模型验证与矫正,测试集用于模型的最终评估。 [A]
35.F1值是精确率与查全率的加权平均值,综合平衡了精确率与查全率两个指标的特点,F1值突出对分类错误的评估。 [A]
36.在数据规模较小时,通过数据增强技术,可以有效弥补数据集的不足,扩充数据量,改善数据分布,提升模型训练质量。 [A]
37.岭回归是对线性回归的优化,在线性回归的基础上,对损失函数增加了一个L2正则项,目的是降低方差,提高模型泛化能力。 [A]
38.训练/测试集的划分要尽可能保持数据分布的一致性,避免因数据划分过程引入额外的偏差而对最终结果产生影响,例如在分类任务中至少要保持样本的类别比例相似。 [A]
39.Python使用lambda创建匿名函数,匿名函数拥有自己的命名空间。 [A]
40.Pandas中可以通过行索引或行索引位置的切片形式选取行数据。 [A]
41.面对大规模数据集时,模型训练更容易发生过拟合现象。 [B]
42.直观上看,我们希望“物以类聚”,即聚类的结果“簇内相似度”高,且“簇间”相似度低。 [A]
43.若按照属性a划分后获得的信息增益越大,意味着使用属性a划分所获得的纯度提升越大。因此,可选择获得最大信息增益的属性作为决策树的最优划分属性。著名的ID3决策树学习算法就是以信息增益为准则来选择划分属性的。 [A]
44.通过求解损失函数的最小值,可以实现求解模型参数、优化模型参数和评价模型学习效果的目的。 [A]
45.逻辑回归算法是一种广义的线性回归分析方法,它仅在线性回归算法的基础上,利用Sigmoid函数对事件发生的概率进行预测。 [A]
46.逻辑斯蒂(对数几率)回归是一种回归学习方法。 [B]
47.正则化是为了防止模型过拟合而引入额外信息,对模型原有逻辑进行外部干预和修正,从而提高模型的泛化能力。 [A]
48.聚类需要从没有标签的一组输入向量中寻找数据的模型和规律。 [A]
49.对于大规模数据集而言,数据增强是一种有效提升数据质量的手段。 [A]
50.Lasso回归是对线性回归的优化,在线性回归的基础上,对损失函数增加了一个L1正则项,目的是降低方差,提高模型泛化能力。 [A]
51.回归预测的目标函数是离散值,分类预测的目标函数是连续值。 [B]
52.数据标准化有利于加快模型的收敛速度,提升模型的泛化能力。 [A]
53.精确率越高,意味着误报率越低,因此,当误报的成本较高时,精确率指标有助于判断模型的好坏。 [A]
1.Series是一种一维数组对象,包含一个值序列。Series中的数据通过( )访问。 [索引]
2.理想中的激活函数是阶跃函数,但因其不连续、不光滑,实际常用( )作为激活函数。该函数把可能在较大范围内变化的输入值挤压到(0,1)输出值范围内,因此有时也被称为“挤压函数”。 [sigmoid函数]
3.属性shape返回的是( )。 [维度]
4.自助法约有( )的样本没有出现在训练集中,可用作测试集。 [1/3]
5.Numpy中的ndarray的size属性返回的是( )。 [数组元素个数]
6.从数据中学得模型的过程称为“学习”或( ),这个过程通过执行某个学习算法来完成。 [训练]
7.SVM的主要目标是寻找最佳( ),以便在不同类的数据间进行正确分类。 [超平面]
8.当学习器把训练样本学得“太好”了的时候,可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,这样就会导致泛化性能下降。这种现象在机器学习中称为( )。 [过拟合]
9.训练过程中使用的数据称为“训练数据”,其中每个样本称为一个“训练样本”;学得模型后,使用其进行预测的过程称为( )。 [测试]
10.sklearn模块的( )子模块提供了多种自带的数据集,可以通过这些数据集进行数据的预处理、建模等操作,从而练习使用sklearn模块实现数据分析的处理流程和建模流程。 [datasets]
11.Pandas通过read_json函数读取( )数据。 [JSON]
12.回归任务中最常用的性能度量是( )。 [均方误差]
13.Numpy的主要数据类型是( )。 [ndarray]
14.若训练过程的目标是预测连续值,此类学习任务称为( )。 [回归]
15.聚类试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个( )。 [簇]
16.在K-Means算法中,由簇的( )来代表整个簇。 [平均值]
17.高维情形下出现的数据样本稀疏、距离计算困难等问题,是所以机器学习方法共同面临的严重障碍,被称为( )。 [维数灾难]
18.学得模型适用于新样本的能力,称为( )能力。该能力越强,说明学得的模型越能很好地适用于整个样本空间。 [泛化]
19.Scipy中的( )模块提供了常用的优化方法。 [optimize]
20.一个DataFrame对象的属性values和ndim分别指数据元素和( )。 [维度]
21.Numpy中的random模块中的函数shuffle的功能是对一个序列进行( )。 [随机排序]
22.scikit-learn是面向( )方向第三方库。 [机器学习]
23.线性学习适合结合连续属性值的问题,对于离散属性值的问题,需要首先将其( ),这一步也称为数字化编码。 [连续化]
24.( )是缓解维数灾难的一个重要途径,即通过某种谁学变换将原始高维属性空间转变为一个低维“子空间”,在这个子空间中样本密度大幅提高,距离计算也变得更为容易。 [降维]
25.测试集应该尽可能与训练集( ),即测试样本尽量不在训练集中出现、未在训练过程中使用过。 [互斥]
26.若训练过程的目标是预测离散值,此类任务称为( )。 [分类]
27.已知字典dic={‘w’:97,‘a’:19},则dic.get(‘w’, None)的值是( )。 [97]
28.Pandas中的( )方法可以根据索引或字段对数据进行分组。 [groupby]
29.Scipy中的( )模块包含大量用于科学计算的常数。 [constants]
30.反映事件或对象在某方面的表现或性质的事项,例如“色泽”等,称为“属性”(attribute)或“特征”(feature),属性上的取值,例如“青绿”“乌黑”,称为( )。 [属性值]
31.利用二分类学习器解决多分类任务的基本策略是对多分类任务进行( ),为拆出的每个二分类任务训练一个分类器,然后对每个分类器的预测结果进行集成,以获得最终的多分类结果。 [拆分]
32.数组转置是数据重塑的一种特殊形式,可以通过( )方法或数组的T属性实现。 [transpose]
33.通常( )作为泛化误差的近似。 [测试误差]
34.创建一个范围在(0,1)之间的长度为12的等差数列的语句是( )。 [np.linspace(0,1,12)]
35.根据训练数据是否拥有标记信息,可将学习任务大致划分为有监督学习和( )。 [无监督学习]
36.matplotlib库是用于( )方向的第三方库。 [数据可视化]
37.( )分析通过建模研究多个自变量对因变量的影响强度,预测数值型目标值。 [回归]
38.学习器在训练集上的误差称为训练误差或经验误差,在新样本上的误差称( )。该误差越小,说明学习器的学习性能越好。 [泛化误差]
1.简述数据分析中进行数据标准化的主要原因。
[数据的不同特征之间往往具有不同的量纲,由此造成数值间的差异很大。为了消除特征之间量纲和取值范围的差异可能会造成的影响,需要对数据进行标准化处理。]
2.简述强化学习的概念。
[强化学习是以在某个环境下行动的智能体获得的奖励最大化为目标而进行学习的方法。用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题,基于与环境的交互是最大特征。通过尝试来发现各个动作产生的结果,对各个动作产生的结果进行反馈(奖励或惩罚)。在这种学习模式下,输入数据直接反馈到模型,模型再做出调整。]
3.简述Jupyter notebook的功能。
[Jupyter Notebook是开源的Web应用程序,允许用户创建和共享包含代码、方程式、可视化和文本的文档。在编辑的过程中,每次编辑一行代码就可以运行一行代码,运行的结果也可以显示在代码的下方,方便查看。当所有的程序编写和运行完毕之后,还可以直接把编辑和运行之后的所有信息保存在文件中。用途包括:数据清理和转换、数值模拟、统计建模、数据可视化、机器学习等等。它具有以下优势:1)可选择语言:支持超过40种编程语言,包括Python、R、Julia、Scala等;2)分享笔记本:可以使用电子邮件、Dropbox、GitHub和Jupyter Notebook Viewer与他人共享;3)交互式输出:代码可以生成丰富的交互式输出,包括HTML、图像、视频、LaTeX等;4)大数据整合:通过Python、R、Scala编程语言使用Apache Spark等大数据框架工具。支持使用pandas、scikit-learn、ggplot2、TensorFlow来探索同一份数据。]
4.简述机器学习与人工智能的关系。
[相比机器学习,人工智能具有更加广泛的含义,它包括知识表示、智能推理等基础领域和机器人、自然语言处理、计算机视觉等应用领域,而机器学习是实现人工智能的一种方法。机器学习并非实现人工智能的唯一方法,但是近年来人工智能的研究一般使用机器学习。实现人工智能的方法还有很多,比如根据事先定好的规则进行数理统计预测等方法。]
5.简述过拟合和欠拟合的概念及应对方案。
[当训练损失较大时,说明模型不能对数据进行很好的拟合,称这种情况为欠拟合。当训练误差小且明显低于泛化误差时,称这种情况为过拟合,此时模型的泛化能力往往较弱。对于欠拟合情况,通常是由于模型本身不能对训练集进行拟合或者训练迭代次数太少,解决问题的主要方法是对模型进行改进、设计新的模型重新训练、增加训练过程的迭代次数等。对于过拟合的情况,往往是由于数据量太少或者模型太复杂导致,可以通过增加训练数据量、对模型进行裁剪、正则化等方式来缓解。]
6.回归任务和分类任务的区别是什么?
[回归:预测连续值的学习任务成为回归。分类:预测离散值的学习任务称为分类。]
7.简述K-means聚类算法流程。
[参考输入:样本集D,簇的数目k,最大迭代次数N;输出:簇划分(k个簇,使平方误差最小);算法步骤:1)为每个聚类选择一个初始聚类中心;2)将样本集按照最小距离原则分配到最邻近聚类;3)使用每个聚类的样本均值更新聚类中心;4)重复步骤2、3,直到聚类中心不再发生变化;5)输出最终的聚类中心和k个簇划分。]
8.简述机器学习的定义。
[机器学习是计算机科学与统计学结合的产物,主要研究如何选择统计学习模型,从大量已有数据中学习特定经验。机器学习中的经验称为模型,机器学习的过程即根据一定的性能度量准则对模型参数进行近似求解,以使得模型在面对新数据时能够给出相应的经验指导。机器学习的定义:为“对于某类任务T和性能度量P,一个计算机程序被认为可以从经验E中学习是指:通过经验E改进后,它在任务T上的性能度量P有所提升。”]
9.什么是最小二乘法?
[基于预测值和真实值的均方误差最小化来进行求解的方法叫做最小二乘法。在线性回归中,最小二乘法就是试图找到一条直线,使所有样本到直线上的欧氏距离之和最小。求解w和b使得均方误差最小化的过程,称为线性回归模型的最小二乘“参数估计”。]
10.简述scikit-learn库的功能。
[Scikit-learn是基于NumPy、SciPy和Matplotlib的开源Python机器学习包,它封装了一系列数据预处理、机器学习算法、模型选择等工具,是数据分析师首选的机器学习工具包。scikit-learn是Python重要的机器学习库,scikit-learn简称sklearn,支持包括分类,回归,降维和聚类四大机器学习算法。还包括了特征提取,数据处理和模型评估三大模块。]
11.简述Markdown语言。
[Markdown是一种可以使用普通文本编辑器编写的标记语言,通过简单的标记语法,它可以使普通文本内容具有一定的格式。Markdown具有一系列衍生版本,用于扩展Markdown的功能(如表格、脚注、内嵌HTML等等),这些功能原初的Markdown尚不具备,它们能让Markdown转换成更多的格式,例如LaTeX,Docbook等]
12.简述有监督学习的概念及其典型任务。
[有监督学习是将问题的答案告知计算机,使计算机进行学习并给出机器学习模型的方法。这种方法要求数据中包含表示特征的数据和作为答案的目标数据。有监督学习处理的对象是所谓的有标签训练数据,它利用有标签的训练数据来学习一个模型,它的目标是用学到的模型给无标签的测试数据打上标签。其典型任务包括:分类和回归任务、决策树、贝叶斯模型、支持向量机、深度学习等。]
13.简述混淆矩阵的概念。
[混淆矩阵(Confusion Matrix)是理解大多数评价指标的基础。从集合的角度来看,定义∪为并集运算符,则混淆矩阵具有:样本全集 = ???∪???∪???∪???、任何一个样本属于且只属于4个集合中的一个,没有交集的特征。混淆矩阵包含四部分的信息:1)真阳率(True Positive,TP)表明实际是正样本预测成正样本的样本数;2)假阴率(False Negative,FN)表明实际是正样本预测成负样本的样本数;3)假阳率(False Positive,FP)表明实际是负样本预测成正样本的样本数;4)真阴率(True Negative,TN)表明实际是负样本预测成负样本的样本数。]
14.有监督学习和无监督学习的区别是什么,各举出一个例子。
[有监督学习:对具有标记的训练样本进行学习,如分类和回归。无监督学习:对未标记的训练样本进行学习,如聚类。]
15.简述半监督学习的概念。
[半监督学习是监督学习和无监督学习相结合的一种学习方法,介于监督学习和非监督学习之间,输入数据部分被标识,部分没有被标识,没标识数据的数量常常远远大于有标识数据数量。某些情况下,我们仅能够获得部分样本的标签,半监督学习就是同时从有标签数据及无标签数据中进行经验学习的机器学习。这种学习模型可以用来进行预测,但是模型首先需要学习数据的内在结构以便合理的组织数据来进行预测。]
16.简述正则化项中的L1和L2方法。
[参考正则化(Normalization)是一种抑制模型复杂度的常用方法。L1正则化和L2正则化可以看作损失函数的惩罚项。L1正则化是指权值向量w中各个元素的绝对值之和。L2正则化是指权值向量w中各个元素的平方和然后再求平方根(可以看到Ridge 回归的L2 正则化项有平方符号)。L1正则化可以产生稀疏权值矩阵,即产生一个稀疏模型,可以用于特征选择;L2正则化可以防止模型过拟合;一定程度上,L1正则化也可以防止过拟合。]
17.简述数据集的概念。
[数据是进行机器学习的基础,所有数据的集合称为数据集。数据集分为训练数据和测试数据。测试数据即为测试集,是需要应用模型进行预测的那部分数据,是机器学习所有工作的最终服务对象。为了防止训练出来的模型只对训练数据有效,一般将训练数据又分为训练集和验证集,训练集用来训练模型,而验证集一般只用来验证模型的有效性,不参与模型训练。]
18.k均值算法采用了什么策略?简要描述其算法流程。
[k均值算法采用了贪心策略。其算法流程为:1. 输入样本集D、聚类簇数k;2. 对均值向量进行初始化(从D中随机选择k个样本作为初始化均值向量);3. 依次对当前簇划分及均值向量迭代更新;4. 若迭代更新后聚类结果保持不变,则将当前簇划分结果返回。]
19.简述scikit-learn库的通用学习模式。
[1)导入训练数据;2)数据划分;3)数据预处理;4)特征选择;5)选择机器学习方法训练得到模型。6)预测数据;7)模型评估、验证、参数调优。按此顺序,或以关键部分展开陈述。]
20.简述numpy库的功能。
[numpy是SciPy、Pandas等数据处理或科学计算库的基础。它提供了许多高级的数值编程工具,如:矩阵数据类型、矢量处理,以及精密的运算库,为进行严格的数字处理而产生。numpy是开源的Python科学计算基础库,具有强大的N维数组对象ndarray、成熟的(广播)函数库、整合了C/C++/Fortran代码的工具、实用的线性代数、傅里叶变换和随机数生成函数、与稀疏矩阵运算包scipy配合使用更加方便等特征。]
21.简述准确率、精确率与召回率的概念。
[准确率(Accuracy)是最为常见的一项指标,即预测正确的结果占总样本的百分比;精确率(Precision)又称查准率,是针对预测结果而言的,表示在所有被预测为正的样本中实际为正的样本的概率。召回率(Recall)又叫查全率,是针对原样本而言的,表示在所有实际为正类的样本中被预测为正样本的概率。]
22.简述回归分析的主要过程。
[回归分析可以简单理解为数据分析与预测,通过对数据进行分析实现预测,也就是适当扩大已有自变量的取值范围,并承认该回归方程在扩大的定义域内成立。一般来说,回归分析的主要过程和步骤如下:(1)收集一组包含因变量和自变量的数据;(2)根据因变量和自变量之间的关系,初步设定回归模型;(3)求解合理的回归系数;(4)进行相关性检验,确定相关系数;(5)利用模型对因变量作出预测或解释,并计算预测值的置信区间。]
23.简述有监督学习中分类和回归的区别。
[1)输出不同。分类问题输出的是物体所属的类别,回归问题输出的是物体的值。分类问题输出的值是定性的,回归问题输出的值是定量的。2)目的不同。分类的目的是为了寻找决策边界,回归的目的是为了找到最优拟合。3)结果不同。分类的结果没有逼近,对就是对,错就是错,回归是对真实值的一种逼近预测。]
24.简述机器学习的开发流程。
[1)问题构建;2)获取数据;3)准备数据(数据清洗);4)特征工程;5)选择并定义模型;6)训练模型;7)评估模型;8部署模型。按此顺序,或以关键部分展开陈述。]
25.简要描述聚类的定义。
[聚类直观上讲是将相似的样本聚在一起,形成一个类簇(或者说:将数据集中的样本划分为若干个通常是不相交的子集),试图通过对无标记训练样本的学习来揭示数据的内在性质及规律,为进一步的数据分析提供基础。]
26.什么是交叉验证法?
[交叉验证法先将数据集D划分为k个大小相似的互斥子集,每个子集都尽可能保持数据分布的一致性,然后,每次用k-1个子集的并集作为训练集,余下那个子集作为测试集,这样就可获得k组训练/测试集,从而可进行k次训练和测试,最终返回k个测试结果的均值。交叉验证法评估结果的稳定性和保真性在很大程度上取决于k的取值,通常把交叉验证法称为k折交叉验证。k常取10。在划分过程中存在多种方式,通常要随机使用不同的划分重复p次,最终评估结果取p次验证结果的均值。]
27.简述k-means算法的主要优缺点及优化方案。
[参考优点:经典、简单、快速、对密集簇效果较好;缺点:对K值敏感,且只适用于能求距离均值的应用,不适合非凸簇或大小差别很大的簇;改进:二分k-means,k-means++…。]
28.简述matplotlib库的功能。
[matplotlib是Python优秀的数据可视化第三方库,是非常强大的Python画图工具。它可以以各种硬拷贝格式和跨平台的交互式环境生成出版质量级别的图形,能绘制线图、散点图、等高线图、条形图、柱状图、3D 图形、甚至是图形动画等等。]
29.简述SciPy的主要功能。
[Scipy是一款用于数学、科学和工程领域的Python工具包,可以处理插值、积分、优化、图像处理、常微分方程数值解的求解、信号处理等问题。]
30.简述无监督学习的概念及其典型任务。
[无监督学习的数据中没有作为答案的目标变量,即无监督学习的训练数据没有标签,它自动从训练数据中学习知识,建立模型。数据并不被特别标识,计算机自行学习分析数据内部的规律、特征等,进而得出一定的结果(如内部结构、主要成分等)。其典型任务包括:聚类、降维。]
31.简述Anaconda的功能。
[Anaconda是一个开源的Python发行版本,其包含了conda、Python等800多个科学包及其依赖项。它具有:开源免费、内置近800个第三方库、包含多个主流工具、适合数据计算领域开发、支持多操作系统平台等特征。]
32.简述机器学习与人脑学习的异同。
[人类在成长、生活过程中积累了很多的历史与经验。人类定期地对这些经验进行“归纳”,获得了生活的“规律”。当人类遇到未知的问题或者需要对未来进行“推测”的时候,人类使用这些“规律”,对未知问题与未来进行“推测”,从而指导自己的生活和工作。机器学习中的“训练”与“预测”过程可以对应到人类的“归纳”和“推测”过程。通过这样的对应,发现机器学习的思想并不复杂,仅仅是对人类在生活中学习成长的一个模拟。由于机器学习不是基于编程形成的结果,因此它的处理过程不是因果的逻辑,而是通过归纳思想得出的相关性结论。人脑:总结经验、发现规律、预测未来;机器学习:训练数据、建立模型、预测未知属性。]
33.简述生成式模型和判别式模型的异同。
[根据机器学习模型是否可用于生成新数据,可以将机器学习模型分为生成模型和判别模型。生成模型是指通过机器学习算法,从训练集中学习到输入和输出的联合概率分布??(??]
34.什么是线性回归?
[1.给定由d个属性描述的示例x,其中xi是x在第i个属性上的取值,线性模型试图学得一个通过属性的线性组合来进行预测的函数。2.给定数据集D,“线性回归”试图学得一个线性模型以尽可能准确的预测实值输出标记。3.线性回归试图学得f(xi)=wxi+b,使得f(xi)≈yi。利用最小二乘法,使得均方误差最小化,进而求得w和b的最优解。]
35.简述分类和聚类的主要特点。
[分类是一种重要的数据分析形式,它提取刻画重要数据类的模型。数据分类也被称为有监督学习,用来训练分类模型的数据需要有已标注的标签,包括学习阶段(构建分类模型)和分类阶段(使用模型预测给定数据的类标号)两个阶段。将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。聚类不需要有事先标注的标签。]
36.简述机器学习的分类。
[按照功能分类,机器学习的功能大致可分为:回归、分类和聚类;按照学习方式分类,机器学习的学习方式大体分为三类:有监督学习、无监督学习和半监督学习。]
37.什么是k近邻学习?
[k近邻学习是一种常用的监督学习方法,其工作机制为:给定测试样本,基于某种距离度量找出训练集中与其最靠近的k个训练样本,然后基于这k个邻居的信息来进行预测。通常在分类任务中可使用“投票法”,即选择这k个样本中出现最多的类别标记作为预测结果;在回归任务中可使用平均法,即将这k个样本的实值输出标记的平均值作为预测结果;还可基于距离远近进行加权平均或者加权投票,距离越近的样本权重越大。]
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。