grpo
话题找到数量
modelscope/ms-swift
使用PEFT或全参数方法对500余个大语言模型和200余个多模态大语言模型进行CPT/SFT/DPO/GRPO训练
12k
1.2k
139
+26
OpenPipe/ART
智能体强化训练器:使用GRPO为现实任务训练多步智能体。为智能体提供在职培训。支持Qwen2.5、Qwen3、Llama等模型的强化学习
8.5k
699
164
+85
Orchestra-Research/AI-Research-SKILLs
面向任意AI模型的综合性开源人工智能研究与工程技能库。
6.2k
485
121
+1.8k
adongwanai/AgentGuide
https://adongwanai.github.io/AgentGuide | AI智能体开发指南 | LangGraph实战 | 高级RAG | 转型大模型 | 大模型面试 | 算法工程师 | 面试题库 | 强化学习 | 数据合成
3.4k
333
177
+1.1k