当前位置:   article > 正文

探索大语言模型垂直化训练技术和应用-陈运文_大语言模型的训练及应用

大语言模型的训练及应用

内容来源:ChatGPT 及大模型专题研讨会 

分享嘉宾:达观数据董事长兼CEO 陈运文博士

分享主题:《探索大语言模型垂直化训练技术和应用》 

转载自CSDN稿件

本文整理自 3月11日 《ChatGPT 及大规模专题研讨会》上,达观数据董事长兼CEO 陈运文博士关于《探索大语言模型垂直化训练技术和应用》的分享,将介绍达观数据在大语言模型应用中的探索与思考。

此次分享的主要内容分为 6 块,分别是:

  1. 参数规模和数据规模的探索

  2. 垂直领域适应预训练

  3. 微调技术探索

  4. 提示工程和垂直优化

  5. 模型训练加速思路

  6. 模型功能的垂直效能增强

在探索大语言模型应用过程中,将团队的思考列为了四点:

  • 整体来看,尽管模型的参数规模越大越好,但可探索性价比更高的参数规模方案

  • 训练数据尽管越多越好,但针对垂直场景可探索更高效和有针对性的数据提炼方法

  • 为强化垂直方向的效果,可在模型预训练和微调技术上探索一些好的思路

  • 为更贴合垂直场景的产品应用,探索模型的功能增强、以及 prompt 等方向的产品创新 

陈运文,达观数据董事长兼CEO,复旦大学博士,计算机技术专家,国际计算机学会(ACM)和电子电器工程师学会(IEEE)会员

参数规模和数据规模的探索

一、缩放法则 (Scaling Laws)

众所周知,大模型的算力非常惊人。在 2020 年,从 OpenAI 在语言模型方面的研究可以看到,语言模型的效果与参数量、数据量、计算量基本呈平滑的幂定律——缩放法则 (Scaling Laws) 。随着模型的参数量(Parameters)、参与训练的数据量(Tokens)以及训练过程累积的计算量(FLOPS)的指数性增大, 模型在测试集上的 Loss 就线性降低,也就意味着模型的效果越好。

Kaplan J, McCandlish S, Henighan T, et al. Scaling laws for neural language models[J]. arXiv preprint arXiv:2001.08361, 2020.

如下图所示,在运算量的增加过程中,参数规模的增加可以起到更关键的作用。在给定的计算量且参数规模较小时, 增大模型参数量对于模型效果的贡献,远优于增加数据量和训练步数。这也作为后续推出的 GPT-3(175B) 和其他千亿级别模型奠定了理论基础。

Kaplan J, McCandlish S, Henighan T, et al. Scaling laws for neural language models[J]. arXiv preprint arXiv:2001.08361, 2020.

二、Compute-Optimal 

在 2022 年,DeepMind 在 ScalingLaw 里又做了进一步分析。研究通过定量的实验验证,语言模型训练数据大小,应该和模型参数量大小等比放大。可以看到,在计算总量不变的情况下,模型训练的效果在参数量和训练数据量当中有个最优平衡点,曲线下面的最低点是在参数规模和训练数据量当中有个非常好的折中点。

Hoffmann J, Borgeaud S, Mensch A, et al. Training compute-optimal large language models[J]. arXiv preprint arXiv:2203.15556, 2022.

进一步研究表明,像 GPT-3(175B) 这么大规模的参数里,用这三种计算方式进行拟合的话,会发现 GPT-3 并没有充分得到训练。

因此,我们需要考虑真正落地应用在垂直领域时,千亿级别参数规模的庞大模型所消耗的巨大成本,以避免参数的浪费。

Hoffmann J, Borgeaud S, Mensch A, et al. Training compute-optimal large language models[J]. arXiv preprint arXiv:2203.15556, 2022.

三、Open and Efficient 

Touvron H, Lavril T, Izacard G, et al. LLaMA: Open and Efficient Foundation Language Models[J]. arXiv preprint arXiv:2302.13971, 2023.

Meta 受到 DeepMind 理论的启发,在 2023 年推出了百亿模型 LLaMA,经过 1.4 万亿 Token(近 4.7 倍于 GPT-3 )的训练数据,在很多下游实验任务当中效果明显好于 GPT3 千亿规模的参数。因此,即便你的参数规模可能没那么大,增加训练 Token 量依然能够看到效果。

Touvron H, Lavril T, Izacard G, et al. LLaMA: Open and Efficient Foundation Language Models[J]. arXiv preprint arXiv:2302.13971, 2023.

在训练过程中,无论是 65B、33B、17B,甚至 7B 的小模型,在训练数据接近超过万亿 Token 之后,下游任务的效果仍在提升,也就是说这些参数的潜力可以通过更多 Token 训练进一步激发出来。故此可推测,百亿模型的潜力仍有待深入挖掘,尤其在算力资源受限的情况下,存在性价比更高的优化空间。

四、数据规模存在瓶颈 :开放数据即将耗尽    

Villalobos P, Sevill

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/IT小白/article/detail/810754
推荐阅读
相关标签
  

闽ICP备14008679号