项目介绍
DeepGEMM:具备细粒度缩放功能的精简高效FP8通用矩阵乘内核
DeepGEMM: clean and efficient FP8 GEMM kernels with fine-grained scaling
智能解读
智能标签
使用场景
项目健康度
距上次更新 19 天
平台 Star TOP 31% · Forks 856
本周 +27 ⭐ · 本月 +105 ⭐
40 位贡献者 · 0 条平台评论
缺少 4 项内容
1 项改进建议
- 文档:完善项目文档(截图、AI 分析等)可提升健康度得分
项目信息
赞赏支持
如果本站对你有帮助,欢迎打赏支持
微信
支付宝
Widget 徽章
相关项目推荐
karpathy/llm.c
基于纯C/CUDA的简易大语言模型训练
NVlabs/instant-ngp
即时神经图形原语:极速神经辐射场(NeRF)及其他技术
deepseek-ai/FlashMLA
FlashMLA: Efficient MLA decoding kernels
HigherOrderCO/HVM
基于Rust的大规模并行最优函数运行时
deepseek-ai/DeepEP
DeepEP:高效的专家并行通信库
nerfstudio-project/gsplat
CUDA加速的高斯泼溅渲染技术
加载评论中...