项目竞品

共找到 12 个竞品
unslothai

unslothai/unsloth

52.6k 4.4k

大语言模型微调与强化学习 🦥 以2倍速度训练OpenAI gpt-oss、Qwen3、Llama 4、DeepSeek-R1、Gemma 3,节省70%显存

Python reinforcement-learning
相似度
100%
+538
sgl-project

sgl-project/sglang

23.4k 4.3k

SGLang是面向大语言模型与视觉语言模型的高速推理框架。

Python reinforcement-learning
相似度
100%
+128
Unity-Technologies

Unity-Technologies/ml-agents

19.1k 4.4k

Unity机器学习代理工具包(ML-Agents)是一个开源项目,能让游戏和模拟场景成为训练智能代理的环境,支持深度强化学习与模仿学习。

C# reinforcement-learning
相似度
100%
+31
AI4Finance-Foundation

AI4Finance-Foundation/FinGPT

18.7k 2.6k

FinGPT:开源金融大语言模型!我们发布革命性🔥训练模型于HuggingFace平台

Jupyter Notebook reinforcement-learning
相似度
100%
+16
microsoft

microsoft/agent-lightning

15.0k 1.3k

点亮AI智能体的终极训练器

Python reinforcement-learning
相似度
100%
+1.5k
datawhalechina

datawhalechina/easy-rl

13.7k 2.2k

强化学习中文教程(蘑菇书🍄),在线阅读地址:https://datawhalechina.github.io/easy-rl/

Jupyter Notebook reinforcement-learning
相似度
100%
+14
OpenPipe

OpenPipe/ART

8.5k 699

智能体强化训练器:使用GRPO为现实任务训练多步智能体。为智能体提供在职培训。支持Qwen2.5、Qwen3、Llama等模型的强化学习

Python reinforcement-learning
相似度
100%
+85
google-deepmind

google-deepmind/open_spiel

5.0k 1.1k

OpenSpiel是一个用于通用强化学习及游戏搜索与规划研究的游戏环境与算法集合。

C++ reinforcement-learning
相似度
100%
+2
huggingface

huggingface/deep-rl-class

4.8k 776

该仓库包含Hugging Face的深度强化学习课程。

MDX reinforcement-learning
相似度
100%
+19
rasbt

rasbt/reasoning-from-scratch

2.8k 398

使用PyTorch从零开始逐步实现一个推理大语言模型

Jupyter Notebook reinforcement-learning
相似度
100%
+29
enactic

enactic/openarm

1.8k 193

用于接触密集型环境中物理AI研究和部署的全开源仿人机械臂

MDX reinforcement-learning
相似度
100%
+108
HenryHuYu

HenryHuYu/DiffPhysDrone

461 71

发表于《自然·机器智能》!首个基于可微分物理训练的实体机器人(四旋翼飞行器)。

Cuda reinforcement-learning
相似度
100%
+45
助手