人工智能论文：GPT, GPT-2, GPT-3 对比和演进的思路

作者：小小林熬夜学编程 | 2024-05-03 16:25:24

踩

2018.6 GPT： Improving Language Understanding by Generative Pre-Training

第一篇主要强调无监督预训练+有监督微调+transformer

主要成果：

1，无监督预训练：使得模型能够从海量未标记数据中自主学习，为后续任务提供了强大的初始权重。
2，有监督微调：过结合具体任务的数据对预训练模型进行微调，以进一步提升其在特定任务上的表现。
3，使用了Transformer 的decoder模块：相较于传统的RNN等模型，其性能优势显著，这主要得益于Transformer的自注意力机制，使其能够更有效地捕捉序列中的长距离依赖关系。
4，下一步继续致力于推动无监督学习领域的发展

2019.2 GPT-2：2019.2 Language Models are Unsupervised Multitask Learners

第二篇接续第一篇的结论，我们进一步强调了无监督学习的重要性，并致力于推动其向通用人工智能的方向发展，而非仅限于应试目的。

主要成果：

1，继续大规模无监督预训练，不要有监督微调。虽然无监督学习在训练过程中可能较为缓慢，但我们通过增大训练数据集规模和模型参数数量，成功弥补了与有监督微调在性能上的差距。
2，scaling law 大力出奇迹。即通过提升模型规模和训练数据的量来获得性能的提升。例如，GPT-2 的参数量达到1.5B，相较于原始GPT的0.1B，直接提高了15倍；而BERT的参数量也达到了0.3B，相较于之前的模型提高了5倍。
3, zero-shot 零样本的设定，不要有监督微调。即模型在未经任何有监督微调的情况下，直接应用于新任务。这一设定不仅展示了无监督学习的强大潜力，也为我们实现通用人工智能提供了更为灵活和高效的解决方案。

2020.5 GPT-3：2020.5 Language Models are Few-Shot Learners

第三篇接续第二篇的目标，继续探索通用人工智能的实现路径。我们参考了人类的学习方式，即只需少量示例就能快速适应并执行新的语言任务。GPT-3在这一方向上取得了显著进展，通过进一步提高模型尺寸，并避免繁琐的有监督微调过程，仅通过少量样本配置，便达到了与最先进微调方式相媲美的性能。

主要成果：

1，scaling law 大力出奇迹。GPT-3的参数规模达到了惊人的175B，相较于GPT-2的1.5B，直接提升了100倍；而相较于原始GPT的0.1B和BERT的0.3B，更是有了质的飞跃。
2, 摒弃了传统的有监督微调方法，转而采用few-shot学习策略，即仅通过少量样本配置，便能让模型快速适应新任务。这种方式直接对标了目前最先进的微调技术，展示了无监督学习在通用人工智能领域的巨大潜力。
3，晒了一堆结果，就是没告诉大家如何做到的。openAI开启了闭源发展。
4，随着GPT-3能力的不断增强，其在社会中的影响也日益显著。我们引发了关于AI能力增长对社会影响的广泛讨论，以期能够共同探索和解决这些潜在问题，推动AI技术的健康发展。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小小林熬夜学编程/article/detail/530539