自然语言处理NLP星空智能对话机器人系列：NLP on Transformers 101_使用bpe(byte-pair encoding)进行tokenization对于cross-lin

作者：煮酒与君饮 | 2024-08-15 07:24:05

踩

使用bpe(byte-pair encoding)进行tokenization对于cross-lingual(跨语言)语言模型

11，Bert的CLS能够有效的表达Sentence Embeddings吗？
12，使用BPE (Byte-Pair Encoding) 进行Tokenization对于Cross-lingual语言模型的意义是什么？是否会有问题及如何改进？
13，如果使用Transformer对不同类别的数据进行训练，数据集有些类别的数据量很大(例如有10亿条)，而大多数类别的数据量特别小(例如可能只有100条)，此时如何训练出一个相对理想的Transformer模型来对处理不同类别的任务？
14，如何使用使用多种类小样本对Transformer训练而取得很好的分类效果，请详述背后的架构设计和数学机制
15，在给Transformer输入Embeddings的时候是否可以使用多方来源的词嵌入训练模型？请阐述背后的数学原理及工程上的具体实现机制
16，更深更宽的Transformer网络是否意味着能够获得更强的预训练模型？请至少从3个角度，例如架构的工程化落地、参数的信息表达能力、训练任务等，来展开具体的分析
17，如何大规模降低Transformer中Embedding中的参数数量？请至少具体分析一种具体方法背后的数学原理和工程实践
18，请描述Trasnformer不同的Layer之间的FeedForward神经网络之间的联系，例如在Bert中不同Layer之间的CLS 有什么关系、对角矩阵随着Layer的加深有何变化等
19，如何降低Transformer的Feedforward层的参数数量？请详述背后的数学原理和工程实践
20，Transformer的Layer深度过深，例如512个Layer，会可能导致什么现象？请详述背后的数学机制

声明：本文内容由网友自发贡献，转载请注明出处：【wpsshop】