❤️❤️❤️❤️❤️❤️ 我们已经正式推出微信小程序，在微信中搜索 TrendForge Pro 即可使用小程序，如果使用 Telegram 请搜索 trendforge_tg ❤️❤️❤️❤️❤️❤️

项目介绍快速开始学习路径项目截图 3 贡献者 17 增长趋势 Commit 历史代码统计生态关系项目时间线项目竞品依赖分析上榜历史

thu-ml/SageAttention

Cuda 一般

360

最后更新2026-05-26

3.4k

422

项目介绍

量化注意力机制相比FlashAttention和xformers实现了2-5倍和3-11倍的速度提升，且在语言、图像和视频模型上保持端到端指标无损。

[ICLR2025, ICML2025, NeurIPS2025 Spotlight] Quantized Attention achieves speedup of 2-5x compared to FlashAttention, without losing end-to-end metrics across language, image, and video models.

智能解读

点击生成更详细的项目介绍

正在分析项目...

原始标签

attention cuda efficient-attention inference-acceleration llm llm-infra mlsys quantization triton video-generate video-generation vit

智能标签

生成技术栈、用途、特征、受众等多维度标签

使用场景

了解这个项目能帮你解决什么问题

项目健康度

50/100

一般

活跃度 5/23

距上次更新 131 天

人气 22/25

平台 Star TOP 16% · Forks 422

增长 8/25

本周 +16 ⭐ · 本月 +74 ⭐

社区 8/17

17 位贡献者 · 0 条平台评论

文档 7/10

缺少 2 项内容

1 项改进建议

活跃度：项目已超过 131 天未更新，可能处于低维护状态

在 GitHub 上查看

项目信息

作者 thu-ml

来源 GitHub

周期每日

仓库ID thu-ml/SageAttention

最新提交 2026-01-17 17:43:28

第一收录 2026-05-27 08:02:01

最后更新 2026-05-27 08:02:01

赞赏支持

如果本站对你有帮助，欢迎打赏支持

微信

支付宝

Widget 徽章

预览

Markdown

HTML

登录后发表评论

加载评论中...

相关项目推荐

karpathy/llm.c

基于纯C/CUDA的简易大语言模型训练

30k Cuda

NVlabs/instant-ngp

即时神经图形原语：极速神经辐射场（NeRF）及其他技术

17k Cuda

deepseek-ai/FlashMLA

FlashMLA: Efficient MLA decoding kernels

11k Cuda

HigherOrderCO/HVM

基于Rust的大规模并行最优函数运行时

11k Cuda

deepseek-ai/DeepEP

DeepEP：高效的专家并行通信库

9.7k Cuda

deepseek-ai/DeepGEMM

DeepGEMM：具备细粒度缩放功能的精简高效FP8通用矩阵乘内核

7.3k Cuda