【高效注意力机制量化:SageAttention】
当前许多AI模型都依赖于Transformer架构,而其中的注意力机制计算量巨大,尤其在处理长序列时。现有模型加速方法主要针对线性层,忽略了注意力机制。本文提出了SageAttention,一种高效且准确的注意力机制量化方法。实验表明,SageAttention的速度比FlashAttention2和xformers分别快2.1倍和2.7倍,且精度优于FlashAttention3,在各种模型(包括大语言模型、图像生成和视频生成模型)上几乎没有精度损失。参考博客链接: