赞
踩
1.softmax([100, 101, 102])的结果等于以下的哪一项
softmax([10.0, 10.1, 10.2])
softmax([-100, -101, -102])
softmax([-2 -1, 0])
softmax([1000, 1010, 1020])
正确选项C,softmax([100,101,102])理解为线性代数的矩阵向量,可以通过加减一个向量得到一个新的值而不影响分类概率的输出结果,不能通过乘除。
1.假如你用全连接层处理一张256 \times 256256×256的彩色(RGB)图像,输出包含1000个神经元,在使用偏置的情况下,参数数量是:
65536001
65537000
196608001
196609000
正确答案B,图像展平后长度为3×256×256,权重参数和偏置参数的数量是3 × 256 × 256 × 1000 + 1000 = 1966090003×256×256×1000+1000=196609000。
2.假如你用全连接层处理一张256 \times 256256×256的彩色(RGB)图像,卷积核的高宽是3 \times 33×3,输出包含10个通道,在使用偏置的情况下,这个卷积层共有多少个参数:
90
100
280
300
正确答案:C,输入通道数是3,输出通道数是10,所以参数数量是10 \times 3 \times 3 \times 3 + 10 = 28010×3×3×3+10=280。
1.无论use_special_token参数是否为真,都会使用的特殊token是____,作用是用来____。
< pad>,在小批量中数据不等长时做填充
< bos>,标记句子的开始
< eos>,标记句子的结束
< unk>,表示未登录词
正确答案D,概念性问题。
1.给定训练数据[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10],批量大小为batch_size=2,时间步数为2,使用本节课的实现方法进行相邻采样,第二个批量为:
[5, 6]和[7, 8]
[2, 3]和[7, 8]
[4, 5]和[6, 7]
[2, 3]和[6, 7]
正确答案B,因为训练数据中总共有11个样本,而批量大小为2,所以数据集会被拆分成2段,每段包含5个样本:[0, 1, 2, 3, 4]和[5, 6, 7, 8, 9],而时间步数为2,所以第二个批量为[2, 3]和[7, 8]。
1.关于循环神经网络描述错误的是:
在同一个批量中,处理不同语句用到的模型参数W和b是一样的
循环神经网络处理一个长度为TT的输入序列,需要维护TT组模型参数
各个时间步的隐藏状态不能并行计算
可以认为第tt个时间步的隐藏状态包含截止到第tt个时间步的序列的历史信息
正确答案B,循环神经网络通过不断循环使用同样一组参数来应对不同长度的序列,故网络的参数数量与输入序列长度无关。
1.下列关于RNN的说法错误的是?
GRU、LSTM都能捕捉时间序列中时间步距离较⼤的依赖关系。
双向循环神经网络在文本任务里能做到同时考虑上文和下文与当前词之间的依赖。
LSTM和GRU能一定程度缓解梯度消失与梯度爆炸的问题。
深层循环网络能有效抽取更高层更抽象的信息,层数越深效果越好。
正确答案D,层数越深效果未必越好,层数的加深会导致模型的收敛变得困难。
1.下列不属于单词表里的特殊符号的是?
未知单词
空格符
句子开始符
句子结束符
正确答案B,参考建立词典部分代码,空格不被认为是特殊字符,在该项目里,空格在预处理时被去除。
2.关于集束搜索(Beam Search)说法错误的是
集束搜索结合了greedy search和维特比算法。
集束搜索使用beam size参数来限制在每一步保留下来的可能性词的数量。
集束搜索是一种贪心算法。
集束搜索得到的是全局最优解。
正确答案D,集束搜索是贪心算法,不一定是全局最优解。
1.以下对于注意力机制叙述错误的是:
注意力机制借鉴了人类的注意力思维方式,以获得需要重点关注的目标区域。
在计算注意力权重时,key 和 query 对应的向量维度需相等。
点积注意力层不引入新的模型参数。
注意力掩码可以用来解决一组变长序列的编码问题。
正确答案B,在Dot-product Attention中,key与query维度需要一致,在MLP Attention中则不需要。
1.可以通过修改视频中 train_sgd 函数的参数_______来分别使用梯度下降、随机梯度下降和小批量随机梯度下降。
batch_size
lr
num_epochs
都不可以
正确答案A,三者的区别在于每次更新时用的样本量。
1.下列算法中哪个没有使用到Exponential Moving Average:
RMSProp
Adam
Adagrad
SGD Momentum
正确答案C,Adagrad的自适应学习率没有使用EMA,而是对梯度平方进行累加,因而存在梯度消失的问题。
1.相比于使用 one-hot 向量表示词语,以下哪一项不是词嵌入模型的优点:
训练好的词向量中能够包含更多语义信息
词向量的维度是可以自由设定的
词嵌入的实现与使用都更方便
词嵌入模型需要运用大规模语料进行训练
正确答案C,词嵌入模型首先需要在大规模语料库上进行训练,才能得到更有意义的词向量,其次在后续模型的训练过程中,可能还需要进行进一步的模型参数优化,所以在实现和使用上,都是比 one-hot 向量更复杂的。
1.关于利用词向量求近义词和类比词,以下哪项描述是错误的:
我们可以直接使用他人预训练好的词向量,而不必从头开始训练
载入预训练词向量时,语料库和词向量维度的选取并不会对任务的表现有所影响
词语含义上的相似性和词向量空间中的余弦相似性是可以对应的
求类比词时可以复用求近义词的代码
正确答案B,在进行预训练词向量的载入时,我们需要根据任务的特性来选定语料库的大小和词向量的维度,以均衡模型的表达能力和泛化能力,同时还要兼顾计算的时间复杂度。
1.关于数据的读取,以下哪项描述是错误的:
除了运用一个固定的分割符进行单词的切分外,在实现分词函数时,还能加上更多的功能,如子词的切分和特殊字符的处理等
从原理上来说,对数据中的句子进行补齐或截断是不必要的,这么做是为了加强模型并行计算的能力
将文本序列转化为下标张量时,需要将张量转换为 torch.float 进行存储
直接读取预训练好的 GloVe 词向量和其对应的词典也能完整地实现文本情感分类模型,并不一定需要针对数据集本身创建词典
正确答案C,PyTorch 的嵌入层在进行前向传播时,其输入张量需要为 torch.long 格式。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。