赞
踩
11,Bert的CLS能够有效的表达Sentence Embeddings吗?
12,使用BPE (Byte-Pair Encoding) 进行Tokenization对于Cross-lingual语言模型的意义是什么?是否会有问题及如何改进?
13,如果使用Transformer对不同类别的数据进行训练,数据集有些类别的数据量很大(例如有10亿条),而大多数类别的数据量特别小(例如可能只有100条),此时如何训练出一个相对理想的Transformer模型来对处理不同类别的任务?
14,如何使用使用多种类小样本对Transformer训练而取得很好的分类效果,请详述背后的架构设计和数学机制
15,在给Transformer输入Embeddings的时候是否可以使用多方来源的词嵌入训练模型?请阐述背后的数学原理及工程上的具体实现机制
16,更深更宽的Transformer网络是否意味着能够获得更强的预训练模型?请至少从3个角度,例如架构的工程化落地、参数的信息表达能力、训练任务等,来展开具体的分析
17,如何大规模降低Transformer中Embedding中的参数数量?请至少具体分析一种具体方法背后的数学原理和工程实践
18,请描述Trasnformer不同的Layer之间的FeedForward神经网络之间的联系,例如在Bert中不同Layer之间的CLS 有什么关系、对角矩阵随着Layer的加深有何变化等
19,如何降低Transformer的Feedforward层的参数数量?请详述背后的数学原理和工程实践
20,Transformer的Layer深度过深,例如512个Layer,会可能导致什么现象?请详述背后的数学机制
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。