大语言模型原理基础与前沿：基于监督学习进行微调 Supervised Learning & Fine-Tuning

作者：知新_RL | 2024-07-22 14:52:00

踩

大语言模型原理基础与前沿基于监督学习进行微调

作者：禅与计算机程序设计艺术

文章目录

大语言模型原理基础与前沿基于监督学习进行微调

1. 背景介绍

1.1 大语言模型的发展历程

1.1.1 早期的语言模型

语言模型的研究可以追溯到20世纪50年代,最初的语言模型主要基于统计方法,如 N-gram 模型。这些模型通过计算一个单词在给定前 n-1 个单词的条件下出现的概率来预测下一个单词。虽然 N-gram 模型在一定程度上捕捉了语言的统计规律,但其表达能力有限,难以刻画语言的深层语义信息。

1.1.2 神经网络语言模型的兴起

进入21世纪后,随着深度学习的发展,研究者们开始尝试使用神经网络来构建语言模型。2003年,Bengio等人提出了神经概率语言模型(NPLM),使用浅层神经网络学习单词的分布式表示,显著提升了语言模型的性能。此后,研究者不断探索更深、更复杂的神经网络结构,如循环神经网络(RNN)和长短期记忆网络(LSTM),进一步增强了语言模型对长距离依赖关系的建模能力。

1.1.3 Transformer架构的革命性突破

2017年,Google提出了Transformer架构,引入了自注意力机制来捕捉单词之间的依赖关系,避免了RNN的顺序计算限制,实现了高效的并行训练。Transformer架构的出现标志着语言模型进入了一个新的时代,其强大的表达能力和可扩展性为后续大语言模型的发展奠定了基础。

1.2 预训练范式的提出

1.2.1 无监督预训练的思想

有监督学习的定义与模型
机器学习：

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度

声明：本文内容由网友自发贡献，转载请注明出处：【wpsshop】

大语言模型原理基础与前沿：基于监督学习进行微调 Supervised Learning & Fine-Tuning