项目竞品
共找到 12 个竞品unslothai/unsloth
大语言模型微调与强化学习 🦥 以2倍速度训练OpenAI gpt-oss、Qwen3、Llama 4、DeepSeek-R1、Gemma 3,节省70%显存
sgl-project/sglang
SGLang是面向大语言模型与视觉语言模型的高速推理框架。
Unity-Technologies/ml-agents
Unity机器学习代理工具包(ML-Agents)是一个开源项目,能让游戏和模拟场景成为训练智能代理的环境,支持深度强化学习与模仿学习。
AI4Finance-Foundation/FinGPT
FinGPT:开源金融大语言模型!我们发布革命性🔥训练模型于HuggingFace平台
microsoft/agent-lightning
点亮AI智能体的终极训练器
datawhalechina/easy-rl
强化学习中文教程(蘑菇书🍄),在线阅读地址:https://datawhalechina.github.io/easy-rl/
OpenPipe/ART
智能体强化训练器:使用GRPO为现实任务训练多步智能体。为智能体提供在职培训。支持Qwen2.5、Qwen3、Llama等模型的强化学习
google-deepmind/open_spiel
OpenSpiel是一个用于通用强化学习及游戏搜索与规划研究的游戏环境与算法集合。
huggingface/deep-rl-class
该仓库包含Hugging Face的深度强化学习课程。
rasbt/reasoning-from-scratch
使用PyTorch从零开始逐步实现一个推理大语言模型
enactic/openarm
用于接触密集型环境中物理AI研究和部署的全开源仿人机械臂
HenryHuYu/DiffPhysDrone
发表于《自然·机器智能》!首个基于可微分物理训练的实体机器人(四旋翼飞行器)。