thu-ml

thu-ml/SageAttention

Cuda 一般
187
2026-04-11
3.3k
+2
#2
394

项目介绍

量化注意力机制相比FlashAttention和xformers实现了2-5倍和3-11倍的速度提升,且在语言、图像和视频模型上保持端到端指标无损。

[ICLR2025, ICML2025, NeurIPS2025 Spotlight] Quantized Attention achieves speedup of 2-5x compared to FlashAttention, without losing end-to-end metrics across language, image, and video models.

智能解读

点击生成更详细的项目介绍

智能标签

生成技术栈、用途、特征、受众等多维度标签

使用场景

了解这个项目能帮你解决什么问题

项目健康度

C
50/100
一般
活跃度人气增长社区文档
活跃度 10/23

距上次更新 84 天

人气 16/25

平台 Star TOP 46% · Forks 394

增长 9/25

本周 +22 ⭐ · 本月 +88 ⭐

社区 8/17

17 位贡献者 · 0 条平台评论

文档 7/10

缺少 2 项内容

在 GitHub 上查看

项目信息

作者 thu-ml
来源 GitHub
周期 每日
仓库ID thu-ml/SageAttention
最新提交 2026-01-17 17:43:28
第一收录 2026-04-12 08:42:07
最后更新 2026-04-12 08:42:07

赞赏支持

如果本站对你有帮助,欢迎打赏支持

微信打赏码

微信

支付宝打赏码

支付宝

评论 0

登录 后发表评论

加载评论中...

助手