grpo
共找到 2 个相关项目
OpenPipe/ART
智能体强化训练器:使用GRPO为现实任务训练多步智能体。为智能体提供在职培训。支持Qwen2.5、Qwen3、Llama等模型的强化学习
8.5k
699
60
+85
adongwanai/AgentGuide
https://adongwanai.github.io/AgentGuide | AI智能体开发指南 | LangGraph实战 | 高级RAG | 转型大模型 | 大模型面试 | 算法工程师 | 面试题库 | 强化学习 | 数据合成
1.7k
177
94
+24