项目介绍
llama.cpp(或任何兼容本地OpenAI API的服务器)的模型热替换
Reliable model swapping for any local OpenAI/Anthropic compatible server - llama.cpp, vllm, etc
智能解读
llama-swap 是一个用 Go 语言编写的高性能工具,旨在管理运行在本地的生成式 AI 模型。它充当一个智能代理服务器,能够无缝连接并热切换多个兼容 OpenAI API 的本地推理服务,例如 llama.cpp、vLLM 或 TabbyAPI。用户只需一个可执行文件和配置文件即可快速部署,无需复杂依赖。 其核心价值在于实现了“模型即服务”的灵活管理。用户可以预先配置好多个不同用途的模型,在实际调用时,只需在请求中指定目标模型名称,llama-swap 便会自动将请求路由到对应的后端服务,并支持按需加载和卸载模型以节省资源。这极大地简化了在单台机器上构建多模型AI工作流的复杂度,适用于开发测试、研究实验或需要灵活切换不同AI能力的本地应用场景。
智能标签
使用场景
项目健康度
距上次更新 6 天
平台 Star TOP 48% · Forks 228
本周 +154 ⭐ · 本月 +616 ⭐
33 位贡献者 · 0 条平台评论
缺少 1 项内容
项目信息
赞赏支持
如果本站对你有帮助,欢迎打赏支持
微信
支付宝
Widget 徽章
相关项目推荐
ollama/ollama
开始使用OpenAI gpt-oss、DeepSeek-R1、Gemma 3及其他模型。
avelino/awesome-go
一份精选的Go语言优秀框架、库及软件列表
golang/go
Go 编程语言
kubernetes/kubernetes
生产级容器调度与管理平台
fatedier/frp
一款快速反向代理,可帮助您将NAT或防火墙后的本地服务器暴露至互联网。
gin-gonic/gin
Gin 是一个用 Go (Golang) 编写的 HTTP Web 框架。它提供了类似 Martini 的 API,但性能更优——速度提升高达 40 倍。如果您需要出色的性能,请使用 Gin。
加载评论中...