inference-acceleration

共找到 2 个相关项目

thu-ml/SageAttention

量化注意力机制相比FlashAttention和xformers实现了2-5倍和3-11倍的速度提升,且在语言、图像和视频模型上保持端到端指标无损。

3.2k
355
62
+149
排名 #15
2月23日
查看详情

thu-ml/SpargeAttn

SpargeAttention:一种免训练的稀疏注意力机制,可加速任何模型推理

938
84
82
+4
排名 #16
2月13日
查看详情
助手