手撕Flash Attention！原理解析及代码实现_flashattention 的torch实现

作者：空白诗007 | 2024-07-20 10:57:05

踩

flashattention 的torch实现

手撕Flash Attention！原理解析及代码实现

大模型智能 2024-05-21 00:04 吉林

大模型智能｜分享

来源 | https://zhuanlan.zhihu.com/p/696850636

作者丨晚安汤姆布利多

前言

自 2022 年 11 月 OpenAI 发布 ChatGPT 以来，这一年多来大语言模型 (Large Language Model, LLM) 的发展十分迅速，国内外众多厂商纷纷加入“百模大战”。但是，由于大语言模型的参数量非常巨大（通常为十亿、百亿甚至千亿量级），加之训练语料很庞大，模型的训练成本十分高昂。

当前，Transformer 已经成为了大语言模型的默认网络结构，为了降低大语言模型的训练成本，一些工作尝试对 Transformer 的计算成本进行优化，比如降低注意力运算的时间成本或者显存占用等。

本文介绍 Flash Attention，一种优化的注意力算法。Flash Attention 论文链接如下：

https://arxiv.org/pdf/2205.14135

本文从注意力机制出发，分析

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/空白诗007/article/detail/856514