NVIDIA/cutlass - 快速上手

❤️❤️❤️❤️❤️❤️ 我们已经正式推出微信小程序，在微信中搜索 TrendForge Pro 即可使用小程序，如果使用 Telegram 请搜索 trendforge_tg ❤️❤️❤️❤️❤️❤️

项目介绍快速开始学习路径项目截图 3 贡献者 230 增长趋势 Commit 历史代码统计生态关系项目时间线项目竞品依赖分析上榜历史

5分钟上手CUTLASS CuTe DSL

通过Python快速体验CUTLASS CuTe DSL，运行一个简单的矩阵乘法示例

环境要求

支持的操作系统

Linux Windows WSL2

运行环境

Python >=3.8 必需

CUDA Toolkit >=12.0 (推荐13.1) 必需

所需工具

Git

克隆项目仓库

必需

操作步骤

克隆项目并进入目录

获取CUTLASS最新代码

克隆仓库

git clone https://github.com/NVIDIA/cutlass.git

进入项目目录

cd cutlass

预期结果：：成功下载项目文件

确保网络连接正常

设置CuTe DSL环境

安装CuTe DSL Python包

进入CuTe DSL目录

cd python/CuTeDSL

运行安装脚本（默认使用CUDA 12）

bash setup.sh

预期结果：：看到安装成功的提示信息

如果使用CUDA 13.1，请运行 bash setup.sh --cu13

运行简单示例

执行一个基本的矩阵乘法示例

进入示例目录

cd examples/python/CuTeDSL/cute

运行FP16矩阵乘法示例

python gemm_f16_f16_f16.py

预期结果：：看到类似 'PASSED' 或 'Success' 的输出，以及性能数据

第一次运行可能需要编译，请耐心等待

验证成功

成功运行示例代码并看到正确结果

看到 'PASSED' 或 'Success' 输出

看到矩阵乘法的性能数据（GFLOPS）

没有错误信息

快速提示

配置

如果遇到CUDA版本问题，使用 setup.sh --cu13 安装CUDA 13.1版本

性能

第一次运行示例时会有编译时间，后续运行会更快

其他

查看 examples/python/CuTeDSL/ 目录下的更多示例

常见问题

setup.sh 执行失败

确保已安装正确版本的CUDA Toolkit，并设置好CUDA_HOME环境变量

Python报错找不到模块

确保在正确的虚拟环境中，或尝试 pip install -e . 手动安装

GPU内存不足

尝试减小示例中的矩阵大小，或使用更小的数据类型

编译时间过长

这是正常现象，CuTe DSL需要编译CUDA内核，第一次运行后会有缓存

下一步

查看官方文档

访问 https://docs.nvidia.com/cutlass/latest/media/docs/pythonDSL/quickstart.html 获取详细指南

尝试更多示例

探索 examples/python/CuTeDSL/ 目录下的其他示例，如attention、convolution等

学习CUTLASS C++版本

如果你需要C++版本，查看 examples/ 目录下的C++示例