当前位置:   article > 正文

笔记-《A Survey of Large Language Models》- 尾声

笔记-《A Survey of Large Language Models》- 尾声
  • 尾声:
    • 尾声:
      • 本综述是由我们研究团队在一次讨论会上计划的, 我们旨在总结 LLM 的最新进展,为我们的团队成员提供一份高度可读性的报告。第一稿于 2023 年 3 月 13 日完成,我们的团队成员尽最大努力以相对客观、全面的方式囊括有关LLM 的相关研究。接着,我们进行了多次细致的写作和内容修订。尽管我们付出了巨大的努力,但这份综述仍远非完美: 我们可能会遗漏重要的参考文献或主题,也可能存在不严谨的表述或讨论。 由于空间有限, 我们只能按照特定的选择标准在图 1和表 1中展示部分现有的 LLM。
      • 然而,我们在 GitHub 页面(https://github.com/RUCAIBox/LLMSurvey)上设置了更为宽松的模型选择标准,该页面将定期维护。我们将不断更新这份文献综述,并尽力提高质量。对于我们来说,综述写作也是我们自己对 LLM 的学习过程。 对于那些有建设性意见来改进这份文献综述的读者,欢迎在我们综述的 GitHub 页面上留言或直接给我们的作者发电子邮件。我们将根据收到的评论或建议进行修订,并在我们的综述中致谢为此做出建设性贡献的读者。
    • 更新日志
      • 在这部分中,我们会定期更新这篇综述文章提交到 arXiv 的更新日志:
      • • 2023 年 3 月 31 日首次发布:初始版本。
      • • 2023 年 4 月 9 日更新:添加了附属信息,修订了图 1和表 1,澄清了 LLM 的相应选择标准,改进了写作,并纠正了一些小错误。
      • • 2023 年 4 月 11 日更新:纠正了关于代码库资源的错误。
      • • 2023 年 4 月 12 日更新:修订了图 1和表 1,澄清了 LLM 的发布日期。
      • • 2023 年 4 月 16 日更新:添加了第 2.2节关于 GPT 系列模型的技术演进。
      • • 2023 年 4 月 24 日更新:添加了关于扩展法则的讨论,为出现涌现能力的模型尺寸添加了一些解释(第 2.1节) ; 在图 4中添加了不同架构的注意力模式的示意图,并在表 4中添加了详细的公式。
      • • 2023 年 4 月 25 日更新:修订了图表中的一些拷贝错误。
      • • 2023 年 4 月 27 日更新:在第 5.3节中添加了高效微调。
      • • 2023 年 4 月 28 日更新:修订了第 5.3节。
      • • 2023 年 5 月 7 日更新:修订了表 1、表 2和一些细节。
    • 计划内容
      • 我们将定期将新内容加入本篇文献综述中,使其更加完整并切合最新情况。 在这里, 我们列出了几个可能出现在下一主要版本中的主题
        • (1) 从 GPT-1 到 ChatGPT 的技术演进 (部分完成)
        • (2) 基于 LLaMA 的微调 (如 Alpaca)
        • (3) 轻量级微调策略(已完成)
        • (4)模型细节的详细公式(已完成) 。
    • 致谢
      • 作者们感谢和 Yutao Zhu 对本文的校对。自本文首次发布以来,我们收到了许多来自读者的宝贵意见。我们真诚地感谢给我们邮件并提出建设性建议和评论的读者:Tyler Suard, Damai Dai, Liang Ding, Stella Biderman, Kevin Gray, and Jay Alammar.
      • [450] Y. Tay, M. Dehghani, D. Bahri, and D. Metzler, “Efficient transformers: A survey,” ACM Comput. Surv., vol. 55, no. 6, pp. 109:1–109:28, 2023.

