❤️❤️❤️❤️❤️❤️ 我们已经正式推出微信小程序,在微信中搜索 TrendForge Pro 即可使用小程序,如果使用 Telegram 请搜索 trendforge_tg ❤️❤️❤️❤️❤️❤️
项目介绍
CUDA编程练习项目——动手实践CUDA内核与性能优化,涵盖GEMM、FlashAttention、Tensor Cores、CUTLASS、量化、KV缓存、NCCL及性能分析。
CUDA编程练习项目-Hands-on CUDA kernels and performance optimization, covering GEMM, FlashAttention, Tensor Cores, CUTLASS, quantization, KV cache, NCCL, and profiling.
智能解读
原始标签
智能标签
使用场景
项目健康度
距上次更新 30 天
平台 Star TOP 32% · Forks 12
本周 0 ⭐ · 本月 +49 ⭐
2 位贡献者 · 0 条平台评论
缺少 3 项内容
2 项改进建议
- 增长:近期 Star 增长缓慢,项目热度有待提升
- 社区:贡献者较少,可通过完善文档和社区运营吸引更多参与者
项目信息
赞赏支持
如果本站对你有帮助,欢迎打赏支持
微信
支付宝
Widget 徽章
相关项目推荐
karpathy/llm.c
基于纯C/CUDA的简易大语言模型训练
NVlabs/instant-ngp
即时神经图形原语:极速神经辐射场(NeRF)及其他技术
deepseek-ai/FlashMLA
FlashMLA: Efficient MLA decoding kernels
HigherOrderCO/HVM
基于Rust的大规模并行最优函数运行时
deepseek-ai/DeepEP
DeepEP:高效的专家并行通信库
deepseek-ai/DeepGEMM
DeepGEMM:具备细粒度缩放功能的精简高效FP8通用矩阵乘内核
加载评论中...