5分钟上手CUTLASS CuTe DSL

通过Python快速体验CUTLASS CuTe DSL,运行一个简单的矩阵乘法示例

环境要求

支持的操作系统

Linux Windows WSL2

运行环境

Python >=3.8 必需
CUDA Toolkit >=12.0 (推荐13.1) 必需

所需工具

Git

克隆项目仓库

必需

操作步骤

1

克隆项目并进入目录

获取CUTLASS最新代码

克隆仓库
git clone https://github.com/NVIDIA/cutlass.git
进入项目目录
cd cutlass

预期结果:成功下载项目文件

确保网络连接正常

2

设置CuTe DSL环境

安装CuTe DSL Python包

进入CuTe DSL目录
cd python/CuTeDSL
运行安装脚本(默认使用CUDA 12)
bash setup.sh

预期结果:看到安装成功的提示信息

如果使用CUDA 13.1,请运行 bash setup.sh --cu13

3

运行简单示例

执行一个基本的矩阵乘法示例

进入示例目录
cd examples/python/CuTeDSL/cute
运行FP16矩阵乘法示例
python gemm_f16_f16_f16.py

预期结果:看到类似 'PASSED' 或 'Success' 的输出,以及性能数据

第一次运行可能需要编译,请耐心等待

验证成功

成功运行示例代码并看到正确结果

看到 'PASSED' 或 'Success' 输出
看到矩阵乘法的性能数据(GFLOPS)
没有错误信息

快速提示

配置

如果遇到CUDA版本问题,使用 setup.sh --cu13 安装CUDA 13.1版本

性能

第一次运行示例时会有编译时间,后续运行会更快

其他

查看 examples/python/CuTeDSL/ 目录下的更多示例

常见问题

1

setup.sh 执行失败

确保已安装正确版本的CUDA Toolkit,并设置好CUDA_HOME环境变量

2

Python报错找不到模块

确保在正确的虚拟环境中,或尝试 pip install -e . 手动安装

3

GPU内存不足

尝试减小示例中的矩阵大小,或使用更小的数据类型

4

编译时间过长

这是正常现象,CuTe DSL需要编译CUDA内核,第一次运行后会有缓存

下一步

查看官方文档

访问 https://docs.nvidia.com/cutlass/latest/media/docs/pythonDSL/quickstart.html 获取详细指南

尝试更多示例

探索 examples/python/CuTeDSL/ 目录下的其他示例,如attention、convolution等

学习CUTLASS C++版本

如果你需要C++版本,查看 examples/ 目录下的C++示例

助手