以网易严选为例，人工智能实战系列之预训练语言模型_网易自研 nlp 核心算法

作者：木道寻08 | 2024-08-04 14:10:55

踩

网易自研 nlp 核心算法

导读：随着Bert的发布，预训练 ( pre-train ) 成为NLP领域最为热门的方向之一，大规模的无监督语料加上少量有标注的语料成为了NLP模型的标配。本文将介绍几种常见的语言模型的基本原理和使用方式，以及语言模型在网易严选NLP业务上的实践，包括分类、文本匹配、序列标注、文本生成等。

01 前言

文本的表征经历了漫长的发展历程，从最简单经典的bow词袋模型、以LDA为代表的主题模型、以word2vec为代表的稠密向量模型、到现在以Bert为代表的通用语言模型。词语是文本细粒度的表达，早期的预训练词向量虽简单易用，但无法解决一词多义的问题。近年来，基于大规模上下文语料，训练的通用语言模型，可以产出更细致的语义表征向量，相同的词在不同的语境中能抽取出不同的语义向量。

在通用常见的NLP任务中，数据标注是不能缺少的重要环节。数据的量级及质量会直接影响任务的效果。现实条件下，数据标注的成本往往很高，但好在我们拥有大量的无标注的语料。因此，基于无监督的海量语料训练一个通用的语言模型，然后针对不同的NLP任务，进行少量数据标注后，再对模型进行微调成为了发展的趋势。

02 模型结构

我们选取最具代表性的三个语言模型: ELMO[1]、GPT[2]、BERT[3] 进行对比，如下表所示。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/木道寻08/article/detail/928165