vllm

话题找到数量

meta-llama/llama-cookbook

欢迎来到Llama实践指南!这是您使用Llama进行开发的必备指南:涵盖推理入门、微调及RAG技术。我们还将展示如何利用Llama模型家族解决端到端问题,并在不同云服务平台上进行部署

18k
2.7k
196
+23
排名 #14
2月16日
查看详情

LMCache/LMCache

通过最快的KV缓存层为您的LLM加速

7.8k
1.1k
165
+632
排名 #12
4月1日
查看详情

Orchestra-Research/AI-Research-SKILLs

面向任意AI模型的综合性开源人工智能研究与工程技能库。

6.2k
485
132
+1.8k
排名 #11
4月5日
查看详情

OpenBMB/UltraRAG

UltraRAG v3:一个用于构建复杂创新RAG管道的低代码MCP框架

5.4k
387
174
+2.6k
排名 #13
3月3日
查看详情

kserve/kserve

面向 Kubernetes 可扩展多框架部署的标准化分布式生成式与预测式 AI 推理平台

5.3k
1.4k
126
+8
排名 #16
4月8日
查看详情

kvcache-ai/Mooncake

Mooncake是Moonshot AI旗下领先大语言模型服务Kimi的部署平台。

5k
651
216
+14
排名 #21
4月3日
查看详情

vllm-project/semantic-router

面向混合模型的智能路由器。

3.6k
601
217
+479
排名 #15
4月7日
查看详情

mostlygeek/llama-swap

llama.cpp(或任何兼容本地OpenAI API的服务器)的模型热替换

3.1k
228
140
+212
排名 #19
4月5日
查看详情

vllm-project/vllm-ascend

面向昇腾平台的vLLM社区维护硬件插件

1.8k
962
272
+31
排名 #7
3月22日
查看详情

vllm-project/vllm-ascend

面向昇腾平台的vLLM社区维护硬件插件

1.8k
962
272
+25
排名 #20
3月20日
查看详情

SemiAnalysisAI/InferenceX

开源持续推理基准测试:Qwen3.5、DeepSeek、GPTOSS - GB200 NVL72对比MI355X、B200、GB300 NVL72、H100,即将支持TPUv6e/v7/Trainium2/3

500
86
174
+6
排名 #6
2月18日
查看详情
助手