thu-ml

thu-ml/SageAttention

Cuda 一般
64
2026-02-23
3.2k
+2
#2
355

项目简介

量化注意力机制相比FlashAttention和xformers实现了2-5倍和3-11倍的速度提升,且在语言、图像和视频模型上保持端到端指标无损。

[ICLR2025, ICML2025, NeurIPS2025 Spotlight] Quantized Attention achieves speedup of 2-5x compared to FlashAttention, without losing end-to-end metrics across language, image, and video models.

智能解读

点击生成更详细的项目介绍

智能标签

生成技术栈、用途、特征、受众等多维度标签

使用场景

了解这个项目能帮你解决什么问题

项目健康度

57
C 一般

综合活跃度、人气、增长、社区、文档评估

活跃度
18/25
人气
22/25
增长
4/20
社区
5/15
文档
8/15
在 GitHub 上查看

项目信息

作者 thu-ml
来源 GitHub
周期 每日
仓库 ID thu-ml/SageAttention
最新提交 2026-01-17 17:43:28
首次采集 2026-02-24 08:00:24
最后更新 2026-02-24 08:00:24

赞赏支持

如果本站对你有帮助,欢迎打赏支持

微信打赏码

微信

支付宝打赏码

支付宝

评论 0

登录 后发表评论

加载评论中...

助手