grpo

共找到 2 个相关项目

OpenPipe/ART

智能体强化训练器:使用GRPO为现实任务训练多步智能体。为智能体提供在职培训。支持Qwen2.5、Qwen3、Llama等模型的强化学习

8.5k
699
60
+85
排名 #4
1月30日
查看详情

adongwanai/AgentGuide

https://adongwanai.github.io/AgentGuide | AI智能体开发指南 | LangGraph实战 | 高级RAG | 转型大模型 | 大模型面试 | 算法工程师 | 面试题库 | 强化学习 | 数据合成

1.7k
177
94
+24
排名 #12
2月5日
查看详情
助手