❤️❤️❤️❤️❤️❤️ 我们已经正式推出微信小程序，在微信中搜索 TrendForge Pro 即可使用小程序，如果使用 Telegram 请搜索 trendforge_tg ❤️❤️❤️❤️❤️❤️

项目介绍快速开始学习路径项目截图 3 贡献者 230 增长趋势 Commit 历史代码统计生态关系项目时间线项目竞品依赖分析上榜历史

NVIDIA/cutlass

C++ 活跃

467

最后更新2026-05-22

9.8k

#22

1.9k

项目介绍

线性代数子程序的CUDA模板

CUDA Templates and Python DSLs for High-Performance Linear Algebra

智能解读

智能解读自动生成

CUTLASS 是 NVIDIA 官方提供的一套用于 CUDA 编程的 C++ 模板库，其核心目标是实现高性能的矩阵乘法（GEMM）及相关计算。它将复杂的计算过程分解为可重用、模块化的软件组件，允许开发者通过自定义分块大小、数据类型等策略，灵活构建和优化适用于不同 GPU 架构（如 Volta、Ampere、Hopper）的深度学习与科学计算内核。该库广泛支持混合精度计算、张量核心指令以及多种数据类型（包括 FP16、BF16、INT8 乃至 1 位二进制数据），是许多深度学习框架底层加速的关键组件。从 4.0 版本开始，CUTLASS 引入了基于 Python 的领域特定语言（DSL），使得开发者无需深厚的 C++ 模板元编程知识也能高效编写高性能 CUDA 内核，显著降低了使用门槛并提升了开发效率。

原始标签

cpp cuda deep-learning deep-learning-library gpu nvidia python

智能标签

智能标签自动生成

CUDA模板库高性能计算线性代数深度学习库高性能可扩展 GPU开发者深度学习工程师

使用场景

使用场景自动生成

CUTLASS最适合需要在NVIDIA GPU上快速开发或集成高性能、定制化线性代数计算（尤其是矩阵乘法及其变体）的场景。

自定义高效GEMM内核

开发者需要实现特定数据格式（如混合精度、窄整数）的高性能矩阵乘法，但直接编写CUDA代码复杂且难以优化。

使用CUTLASS的C++模板库，通过组合预定义的模块化组件（如tiling策略、数据搬运抽象），快速构建针对特定硬件（如Tensor Core）优化的GEMM内核。

为推理引擎实现INT4权重的矩阵乘法，利用CUTLASS对窄整数类型的支持，快速组装出在Ampere架构上高效运行的内核。

快速原型新算法

研究人员想验证新的线性代数算法（如特殊分解或稀疏计算）在GPU上的性能，但底层CUDA编程门槛高、编译慢。

使用CUTLASS 4新增的CuTe DSL（Python接口），用更直观的语法描述计算和数据布局，无需深入C++即可快速编写和测试高性能CUDA内核。

在Hopper GPU上尝试一种新的混合精度（FP16累加到FP32）卷积算法，用CuTe DSL几天内完成原型和性能评测，而传统方式可能需要数周。

集成定制算子到DL框架

深度学习框架（如PyTorch）缺少某个专用算子（如基于MXFP8数据类型的注意力计算），需要高性能实现且易于集成。

用CuTe DSL编写算子内核，它天然支持与DL框架交互，无需编写胶水代码，编译出的高效CUDA内核可直接被框架调用。

为大型语言模型添加支持OCP标准MXFP4数据类型的线性层，用CuTe DSL实现内核并封装为PyTorch扩展，显著降低部署内存。

教学与学习GPU编程

学生或新手想理解GPU上高性能矩阵计算的核心概念（如层次化分解、数据搬运），但纯CUDA示例过于底层和冗长。

利用CUTLASS良好抽象的C++组件或更友好的CuTe DSL，通过修改参数（如分块大小、数据布局）来直观学习不同优化策略的影响。

在课程实验中，让学生用CuTe DSL调整GEMM的Tile大小和Shared Memory使用，观察性能变化，从而理解GPU内存层次的作用。

项目健康度

80/100

优秀

活跃度 20/23

距上次更新 5 天

人气 23/25

平台 Star TOP 8% · Forks 1,867

增长 13/25

本周 +53 ⭐ · 本月 +212 ⭐

社区 14/17

230 位贡献者 · 0 条平台评论

文档 10/10

文档资料完整

在 GitHub 上查看

项目信息

作者 NVIDIA

来源 GitHub

周期每日

仓库ID NVIDIA/cutlass

最新提交 2026-05-21 03:05:38

第一收录 2026-05-23 08:01:48

最后更新 2026-05-23 08:01:48

赞赏支持

如果本站对你有帮助，欢迎打赏支持

微信

支付宝

Widget 徽章

预览

Markdown

HTML

登录后发表评论

加载评论中...

NVIDIA/cutlass - 项目详情

NVIDIA/cutlass - 项目详情

每日趋势

每周趋势

每月趋势

趋势分析