当前位置:   article > 正文

自然语言处理NLP星空智能对话机器人系列:NLP on Transformers 101 第8章 轻量级ALBERT模型剖析及BERT变种中常见模型优化方式详解_albert 模型 优化方法

albert 模型 优化方法

自然语言处理NLP星空智能对话机器人系列:NLP on Transformers 101 第8章

第8章: 轻量级ALBERT模型剖析及BERT变种中常见模型优化方式详解
1,从数学原理和工程实践的角度阐述BERT中应该设置Hidden Layer的维度高于(甚至是高几个数量级)Word Embeddings的维度背后的原因
2,从数学的角度剖析Neural Networks参数共享的内幕机制及物理意义
3,从数学的角度剖析Neural Networks进行Factorization的机制及物理意义
4,使用Inter-sentence coherence任务进行模型训练的的数学原理剖析
5,上下文相关的Hidden Layer Embeddings
6,上下午无关或不完全相关的Word Embeddings
7,ALBERT中的Factorized embedding parameterization剖析
8,ALBERT中的Cross-Layer parameter sharing机制:只共享Attention参数
9,ALBERT中的Cross-Layer parameter sharing机制:只共享FFN参数
10,ALBERT中的Cross-Layer parameter sharing机制:共享所有的参数
11,ALBERT不同Layers的Input和Output相似度分析
12,训练Task的复杂度:分离主题预测和连贯性预测的数学原因及工程实践
13,ALBERT中的不同于BERT的 Sentence Negative Sampling
14,句子关系预测的有效行分析及问题的底层根源
15,ALBERT的SOP(Sentence Order

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/blog/article/detail/47007
推荐阅读
相关标签
  

闽ICP备14008679号