grpo

话题找到数量

modelscope/ms-swift

使用PEFT或全参数方法对500余个大语言模型和200余个多模态大语言模型进行CPT/SFT/DPO/GRPO训练

12k
1.2k
139
+26
排名 #9
2月27日
查看详情

OpenPipe/ART

智能体强化训练器:使用GRPO为现实任务训练多步智能体。为智能体提供在职培训。支持Qwen2.5、Qwen3、Llama等模型的强化学习

8.5k
699
164
+85
排名 #4
1月30日
查看详情

Orchestra-Research/AI-Research-SKILLs

面向任意AI模型的综合性开源人工智能研究与工程技能库。

6.2k
485
121
+1.8k
排名 #11
4月5日
查看详情

adongwanai/AgentGuide

https://adongwanai.github.io/AgentGuide | AI智能体开发指南 | LangGraph实战 | 高级RAG | 转型大模型 | 大模型面试 | 算法工程师 | 面试题库 | 强化学习 | 数据合成

3.4k
333
177
+1.1k
排名 #12
4月9日
查看详情
助手