weixin_40725706

这个屌丝很懒，什么也没留下！

热门标签

预训练语言模型概述（持续更新ing...）_预训练语言模型综述

作者：weixin_40725706 | 2024-04-05 08:04:54

踩

预训练语言模型综述

1. 万物起源-文本表征和词向量

语言模型：对自然语言进行建模
序列化概率模型的思想，如在给定的语境下预测下一个词出现的概率
n-gram语言模型：通过统计数据中给定词在长度为n的上文的条件下出现的频率来表征这些词在相应语境下的条件概率。
基本思路是基于给定文本信息，预测下一个最可能出现的词语。N=1称为unigram，表示下一词的出现不依赖于前面的任何词；N=2称为bigram，表示下一词仅依赖前面紧邻的一个词语，依次类推。

$P(w_1,w_2,\dots,w_n)=P(w_1)\boldsymbol{\cdot} P(w_2|w_1)\boldsymbol{\cdot}\dots\boldsymbol{\cdot}P(w_n|w_1,w_2,\dots,w_{n-1})$
（马尔科夫假设）
学习语言结构：人工标注然后分类
前向神经网络（FFNN）语言模型（维度灾难）和循环神经网络（RNN）语言模型（长距离依赖）

在这里插入图片描述

Standard Language Model (SLM)：用multi-class one-label分类任务范式，用autogressive范式，每次预测序列中的下一个token。常用于left to right模型，但也可以用于其他顺序。
denoising objectives：对输入进行扰动，预测原始输入
1. Corrupted Text Reconstruction (CTR)：仅计算扰动部分的损失函数
2. Full Text Reconstruction (FTR)：计算所有输入文本的损失函数（无论是否经扰动）

其他各种Auxiliary Objective：
在这里插入图片描述

在这里插入图片描述

Masking：mask可以是根据分布随机生成的，也可以根据prior knowledge设计（如上图中的实体）。
特殊的掩码方式：全词掩码WWM（谷歌）、实体、短语（百度ERNIE）、n-gram掩码、动态掩码（RoBERTa）、基于语言知识的掩码（二郎神）
Replacement：span由另一种信息而非[MASK]填充
Deletion：常与FTR loss共用
Permutation

应用这些策略的方式：attention masking
在这里插入图片描述

在这里插入图片描述

简称L2R LMs（AR LM变体）

预测下一个单词，或计算当前一系列单词出现的概率：
在这里插入图片描述

right-to-left LM类似：
在这里插入图片描述

简称MLM

用全连接mask编码输入，以AR方式解码输出。

Prefix Language Model：在同一套参数下，输出部分是left-to-right，输入部分是全连接mask。输入部分常用CTR目标，输出部分常用标准conditional language modeling目标
Encoder-decoder：与Prefix Language Model类似，但编码和解码用不同的模型参数

在这里插入图片描述

我又写了一个新的博文。具体对这两个博文的合并和解耦工作以后再做吧，现在先凑合看好了：各种预训练模型的理论和调用方式大全

在这里插入图片描述

位置编码
1. 绝对位置编码APE
2. 参数式相对位置编码RPE
LN层的位置
1. Post-LN
2. Pre-LN（可去除warm-up学习率阶段）
3. Sandwich-LN
MoE层：该组件通过在网络中引入多个专家来减少需要激活的神经元数量，以此提升模型的计算效率
多粒度训练：指的是不同分词粒度
外部信息
1. 命名实体（百度ERNIE）
2. 知识图谱（百度ERNIE3.0，鹏城-百度文心，神舟）
3. 语言学知识（Chinese BERT，孟子）
4. 特定知识
多模态
高效计算
特定领域
英文预训练模型在中文语料库上训练且开源的中文版本

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/weixin_40725706/article/detail/364381