当前位置:   article > 正文

自然语言处理(NLP)入门——预训练模型_nlp 入门模型

nlp 入门模型

ELMo和GPT认识

  • ELMO模型

    • 本质: Embeddings from Language Models.
    • 解决的问题: 多义词的问题

    结构图
    在这里插入图片描述

    结构:

    • 最下层是embedding层
    • 中间是双向的LSTM
    • 最上层是词向量表征 2L+1 L —> 层数

    ELMo的预训练过程

    • 第一个阶段: 预训练语言模型
    • 第二个阶段: 根据下游任务, 去动态调整word embedding的向量表示,然后将去融入到之前的向量中, 就完成了动态调整的过程
    • 每层词向量表示的意义
      • 第一层: 静态词向量
      • 第二层(第一层LSTM): 表示句法信息更多一点
      • 第三层(第二层LSTM): 表示语义信息更多一点.

    ELMo的待改进点:

    • 没有选取Transformer进行特征提取, 效果没有bert好.
    • 特征融合的时候没有想bert一体化的效果好, LSTM双层的融合过程, 效果不太好.
  • GPT模型

    • 本质: Transformer中的decoder部分, 然后去除了中间的attention层, 然后层数增加到了12层
    • 应用: 更擅长与自然语言的文本生成任务
    • 原理:
      • mask的使用时机: 在进行完QK乘积之后, 在softmax之前进行使用, 使用方式和Transformer中的一样
    • 预训练任务:
      • 第一阶段: 无监督的语言模型
      • 第二个阶段: 有监督的训练过程
  • GPT2模型

    • 文本处理的长度是1024
    • 生成过程也是自回归的模式
    • 最后的输出值的时候做了一些策略调整
      • 1: 使用贪心算法获取最优可能值
        1. 在此技术上进行调优, 进行排序输出
        2. 折中办法是将排序之后的数值, 在去topk范围进行抽取, 最后输出.,
  • BERT, GPT, ELMo各自的优点和缺点

    • ELMo
      • 优点:根据上下文动态调整word embedding, 可以解决多义词的问题
      • 缺点: 使用向量拼接的方式融合上下文特征的能力弱于Transformer.
    • GPT
      • 优点:GPT使用了Transformer提取特征, 使得模型能力大幅提升
      • 缺点:GPT只使用了单向Decoder, 无法融合未来的信息
    • Bert
      • 优点:
      • 缺点:
  • HMM模型

    • 马尔科夫链: 状态空间从一种转态转化到另一种转态随机过程
    • 无记忆性: 下一个转态的概率分布只由当前的转态决定.
  • HMM模型中的两个重要假设

    • 齐次马尔科夫链假设:
      • 任意时刻的隐含转态只由前一时刻的隐含转态决定
    • 观测独立性假设
      • 任意时刻的观测转态只由当前时刻的隐含转态决定
  • HMM和CRF

    • 作用: 解决文本序列标注任务
    • 差异:
      • HMM中有假设, 而CRF中没有, 要求性能高的场景: HMM 效率高
      • 要求准确率高的场景: CRF.

第一定律:机器人不得伤害人类个体,或者目睹人类个体将遭受危险而袖手不管,除非这违反了机器人学第零定律。

第二定律:机器人必须服从人给予它的命令,当该命令与第零定律或者第一定律冲突时例外。

第三定律:机器人在不违反第一、第二定律的情况下要尽可能保护自己的生存

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/IT小白/article/detail/787868
推荐阅读
相关标签
  

闽ICP备14008679号