5分钟上手CUTLASS CuTe DSL
通过Python快速体验CUTLASS CuTe DSL,运行一个简单的矩阵乘法示例
环境要求
支持的操作系统
运行环境
所需工具
克隆项目仓库
操作步骤
克隆项目并进入目录
获取CUTLASS最新代码
git clone https://github.com/NVIDIA/cutlass.git
cd cutlass
预期结果:成功下载项目文件
确保网络连接正常
设置CuTe DSL环境
安装CuTe DSL Python包
cd python/CuTeDSL
bash setup.sh
预期结果:看到安装成功的提示信息
如果使用CUDA 13.1,请运行 bash setup.sh --cu13
运行简单示例
执行一个基本的矩阵乘法示例
cd examples/python/CuTeDSL/cute
python gemm_f16_f16_f16.py
预期结果:看到类似 'PASSED' 或 'Success' 的输出,以及性能数据
第一次运行可能需要编译,请耐心等待
验证成功
成功运行示例代码并看到正确结果
快速提示
如果遇到CUDA版本问题,使用 setup.sh --cu13 安装CUDA 13.1版本
第一次运行示例时会有编译时间,后续运行会更快
查看 examples/python/CuTeDSL/ 目录下的更多示例
常见问题
setup.sh 执行失败
确保已安装正确版本的CUDA Toolkit,并设置好CUDA_HOME环境变量
Python报错找不到模块
确保在正确的虚拟环境中,或尝试 pip install -e . 手动安装
GPU内存不足
尝试减小示例中的矩阵大小,或使用更小的数据类型
编译时间过长
这是正常现象,CuTe DSL需要编译CUDA内核,第一次运行后会有缓存
下一步
查看官方文档
访问 https://docs.nvidia.com/cutlass/latest/media/docs/pythonDSL/quickstart.html 获取详细指南
尝试更多示例
探索 examples/python/CuTeDSL/ 目录下的其他示例,如attention、convolution等
学习CUTLASS C++版本
如果你需要C++版本,查看 examples/ 目录下的C++示例
相关项目推荐
tensorflow/tensorflow
面向所有人的开源机器学习框架
facebook/react-native
一个使用React构建原生应用程序的框架
electron/electron
使用 JavaScript、HTML 和 CSS 构建跨平台桌面应用程序
godotengine/godot
Godot引擎——跨平台2D与3D游戏引擎
microsoft/terminal
全新Windows Terminal与经典Windows控制台主机,集于一处!
ggml-org/llama.cpp
使用 C/C++ 实现的大语言模型推理框架