reinforcement-learning
话题找到数量
unslothai/unsloth
大语言模型微调与强化学习 🦥 以2倍速度训练OpenAI gpt-oss、Qwen3、Llama 4、DeepSeek-R1、Gemma 3,节省70%显存
Unity-Technologies/ml-agents
Unity机器学习代理工具包(ML-Agents)是一个开源项目,能让游戏和模拟场景成为训练智能代理的环境,支持深度强化学习与模仿学习。
AI4Finance-Foundation/FinGPT
FinGPT:开源金融大语言模型!我们发布革命性🔥训练模型于HuggingFace平台
bulletphysics/bullet3
Bullet Physics SDK:面向 VR、游戏、视觉效果、机器人、机器学习等领域的实时碰撞检测与多物理场模拟
datawhalechina/easy-rl
强化学习中文教程(蘑菇书🍄),在线阅读地址:https://datawhalechina.github.io/easy-rl/
aws/amazon-sagemaker-examples
示例 📓 Jupyter 笔记本,展示如何使用 🧠 Amazon SageMaker 构建、训练和部署机器学习模型。
OpenPipe/ART
智能体强化训练器:使用GRPO为现实任务训练多步智能体。为智能体提供在职培训。支持Qwen2.5、Qwen3、Llama等模型的强化学习
antinomyhq/forgecode
支持Claude、GPT、O系列、Grok、Deepseek、Gemini及300多种模型的AI配对编程助手
google-deepmind/open_spiel
OpenSpiel是一个用于通用强化学习及游戏搜索与规划研究的游戏环境与算法集合。
antinomyhq/forge
面向Claude、GPT、O系列、Grok、Deepseek、Gemini及300多种模型的AI增强型结对编程工具