efficient-attention

话题找到数量

thu-ml/SageAttention

量化注意力机制相比FlashAttention和xformers实现了2-5倍和3-11倍的速度提升,且在语言、图像和视频模型上保持端到端指标无损。

3.3k
391
182
+149
排名 #15
4月9日
查看详情
助手