reinforcement-learning
共找到 17 个相关项目
unslothai/unsloth
大语言模型微调与强化学习 🦥 以2倍速度训练OpenAI gpt-oss、Qwen3、Llama 4、DeepSeek-R1、Gemma 3,节省70%显存
Unity-Technologies/ml-agents
Unity机器学习代理工具包(ML-Agents)是一个开源项目,能让游戏和模拟场景成为训练智能代理的环境,支持深度强化学习与模仿学习。
AI4Finance-Foundation/FinGPT
FinGPT:开源金融大语言模型!我们发布革命性🔥训练模型于HuggingFace平台
datawhalechina/easy-rl
强化学习中文教程(蘑菇书🍄),在线阅读地址:https://datawhalechina.github.io/easy-rl/
OpenPipe/ART
智能体强化训练器:使用GRPO为现实任务训练多步智能体。为智能体提供在职培训。支持Qwen2.5、Qwen3、Llama等模型的强化学习