当前位置:   article > 正文

自然语言处理NLP星空智能对话机器人系列:NLP on Transformers 101_使用bpe(byte-pair encoding)进行tokenization对于cross-lin

使用bpe(byte-pair encoding)进行tokenization对于cross-lingual(跨语言)语言模型

11,Bert的CLS能够有效的表达Sentence Embeddings吗?
12,使用BPE (Byte-Pair Encoding) 进行Tokenization对于Cross-lingual语言模型的意义是什么?是否会有问题及如何改进?
13,如果使用Transformer对不同类别的数据进行训练,数据集有些类别的数据量很大(例如有10亿条),而大多数类别的数据量特别小(例如可能只有100条),此时如何训练出一个相对理想的Transformer模型来对处理不同类别的任务?
14,如何使用使用多种类小样本对Transformer训练而取得很好的分类效果,请详述背后的架构设计和数学机制
15,在给Transformer输入Embeddings的时候是否可以使用多方来源的词嵌入训练模型?请阐述背后的数学原理及工程上的具体实现机制
16,更深更宽的Transformer网络是否意味着能够获得更强的预训练模型?请至少从3个角度,例如架构的工程化落地、参数的信息表达能力、训练任务等,来展开具体的分析
17,如何大规模降低Transformer中Embedding中的参数数量?请至少具体分析一种具体方法背后的数学原理和工程实践
18,请描述Trasnformer不同的Layer之间的FeedForward神经网络之间的联系,例如在Bert中不同Layer之间的CLS 有什么关系、对角矩阵随着Layer的加深有何变化等
19,如何降低Transformer的Feedforward层的参数数量?请详述背后的数学原理和工程实践
20,Transformer的Layer深度过深,例如512个Layer,会可能导致什么现象?请详述背后的数学机制

声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop】
推荐阅读
相关标签
  

闽ICP备14008679号