项目简介
DeepGEMM:具备细粒度缩放功能的精简高效FP8通用矩阵乘内核
DeepGEMM: clean and efficient FP8 GEMM kernels with fine-grained scaling
智能解读
智能标签
使用场景
项目健康度
综合活跃度、人气、增长、社区、文档评估
项目信息
赞赏支持
如果本站对你有帮助,欢迎打赏支持
微信
支付宝
Widget 徽章
相关项目推荐
karpathy/llm.c
基于纯C/CUDA的简易大语言模型训练
NVlabs/instant-ngp
即时神经图形原语:极速神经辐射场(NeRF)及其他技术
deepseek-ai/FlashMLA
FlashMLA: Efficient MLA decoding kernels
HigherOrderCO/HVM
基于Rust的大规模并行最优函数运行时
deepseek-ai/DeepEP
DeepEP:高效的专家并行通信库
nerfstudio-project/gsplat
CUDA加速的高斯泼溅渲染技术
加载评论中...