triton

话题找到数量

NVIDIA/GenerativeAIExamples

面向加速基础设施与微服务架构优化的生成式AI参考工作流

3.9k
1k
241
+21
排名 #15
4月6日
查看详情

thu-ml/SageAttention

量化注意力机制相比FlashAttention和xformers实现了2-5倍和3-11倍的速度提升,且在语言、图像和视频模型上保持端到端指标无损。

3.3k
394
202
+149
排名 #15
4月11日
查看详情
助手