Parallel Context Windows for Large Language Models

作者：盐析白兔 | 2024-07-15 13:28:33

踩

parallel context windows for large language models

本文是LLM系列文章，针对《Parallel Context Windows for Large Language Models》的翻译。

大语言模型并行上下文窗口

摘要
1 引言
2 并行上下文窗口
3 上下文学习的PCW
4 PCW用于QA
5 相关工作
6 结论和未来工作
不足

摘要

当应用于处理长文本时，大型语言模型（LLM）受到其上下文窗口的限制。现有的解决这一限制的努力涉及训练专门的体系结构，并且不能很容易地应用于现成的LLM。我们提出了并行上下文窗口（PCW），这是一种在没有进一步训练的情况下减轻任何现成LLM的上下文窗口限制的方法。该方法的关键是将长上下文分割成块（“窗口”），将注意力机制限制为仅在每个窗口内应用，并在窗口之间重复使用位置嵌入。我们的主要结果测试了PCW方法在上下文学习中的应用，模型的大小在7.5亿到1780亿个参数之间，并显示出对具有不同输入和输出空间的任务的显著改进。我们在长上下文窗口可能有益的其他设置中展示了额外的好处：多跳问题和使用多个检索到的文档的检索增强问答。我们的研究结果强调，并行上下文窗口是一种很有前途的方法，可以在一系列需要长文本序列的设置中应用现成的LLM。我们在https://github.com/ai21labs/parallel-context-windows.

1 引言

2 并行上下文窗口

3 上下文学习的PCW

4 PCW用于QA

5 相关工作

6 结论和未来工作

近年来，已经提出了许多成功的方法࿰

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/盐析白兔/article/detail/829585