当前位置:   article > 正文

论文阅读:GPT2--Language Models are Unsupervised Multitask Learners

language models are unsupervised multitask learners 2019
  • Abstact
    • GPT2的核心思想就是认为可以用无监督的预训练模型去做有监督任务。
  • Introduction:
    • 典型应用:最著名的语言模型就是手机上面的输入法,根据当前输入词推荐下一个词
    • 目标上想构造一个通用的NLP模型,可以执行很多任务,不需要为每个任务手动创建和标记数据集
    • 多任务学习:把多个相关的任务放在一起学习,同时学习多个任务。
      • 基于共享表示,把多个相关的任务放在一起学习的机器学习方法

      • 多个相关任务同时并行学习,梯度同时反向传播,多个任务通过底层的共享表示、互相补充学习到的领域相关的信息,互相帮助学习任务,提升泛化效果。

    • 把多任务学习和非监督学习联系起来。在没有进行微调的情况下,也取得了很好的效果。说明了泛化能力进一步增强 训练集和测试集同分布
  • Approach
    • 2.1 Training Dataset 
      • 抓了800万个文档 40G数据
    • 2.2 Input Representation 
      • BPE
        • 基本词汇表13W 常用3.2-6.4W 字节层面词典大小256
        • 防止Bpe字符类别合并任何序列
        • 不需要分词预处理 字节<
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/煮酒与君饮/article/detail/872415
推荐阅读
相关标签
  

闽ICP备14008679号