reinforcement-learning

话题找到数量

unslothai/unsloth

大语言模型微调与强化学习 🦥 以2倍速度训练OpenAI gpt-oss、Qwen3、Llama 4、DeepSeek-R1、Gemma 3,节省70%显存

60k
5.2k
303
+6.1k
排名 #19
4月8日
查看详情

sgl-project/sglang

SGLang是面向大语言模型与视觉语言模型的高速推理框架。

23k
4.3k
327
+128
排名 #9
2月6日
查看详情

Unity-Technologies/ml-agents

Unity机器学习代理工具包(ML-Agents)是一个开源项目,能让游戏和模拟场景成为训练智能代理的环境,支持深度强化学习与模仿学习。

19k
4.4k
198
+31
排名 #15
3月14日
查看详情

AI4Finance-Foundation/FinGPT

FinGPT:开源金融大语言模型!我们发布革命性🔥训练模型于HuggingFace平台

19k
2.7k
166
+93
排名 #16
4月5日
查看详情

microsoft/AirSim

基于Unreal Engine/Unity构建的开源自动驾驶模拟器,由微软人工智能与研究部门开发

18k
4.9k
193
+3
排名 #19
3月20日
查看详情

microsoft/agent-lightning

点亮AI智能体的终极训练器

16k
1.4k
253
+1.5k
排名 #13
4月5日
查看详情

AI4Finance-Foundation/FinRL

FinRL®:金融强化学习框架。🔥

14k
3.3k
232
+608
排名 #18
4月5日
查看详情

bulletphysics/bullet3

Bullet Physics SDK:面向 VR、游戏、视觉效果、机器人、机器学习等领域的实时碰撞检测与多物理场模拟

14k
3.1k
186
+5
排名 #18
4月2日
查看详情

datawhalechina/easy-rl

强化学习中文教程(蘑菇书🍄),在线阅读地址:https://datawhalechina.github.io/easy-rl/

13k
2.2k
179
+14
排名 #18
4月4日
查看详情

carla-simulator/carla

开源自动驾驶研究模拟器

13k
4.5k
230
+37
排名 #21
3月28日
查看详情

aws/amazon-sagemaker-examples

示例 📓 Jupyter 笔记本,展示如何使用 🧠 Amazon SageMaker 构建、训练和部署机器学习模型。

10k
7k
173
+1
排名 #6
3月22日
查看详情

simular-ai/Agent-S

Agent S:仿人类操作计算机的开放式智能体框架

10k
1.2k
130
+43
排名 #11
3月21日
查看详情

MITDeepLearning/introtodeeplearning

麻省理工学院6.S191课程实验材料:深度学习导论

8.6k
4.5k
228
+32
排名 #16
4月7日
查看详情

OpenPipe/ART

智能体强化训练器:使用GRPO为现实任务训练多步智能体。为智能体提供在职培训。支持Qwen2.5、Qwen3、Llama等模型的强化学习

8.5k
699
165
+85
排名 #4
1月30日
查看详情

antinomyhq/forgecode

支持Claude、GPT、O系列、Grok、Deepseek、Gemini及300多种模型的AI配对编程助手

6.4k
1.3k
133
+663
排名 #15
4月9日
查看详情

PufferAI/PufferLib

简化复杂游戏环境中的强化学习实现

5.5k
428
139
+121
排名 #19
4月8日
查看详情

google-deepmind/open_spiel

OpenSpiel是一个用于通用强化学习及游戏搜索与规划研究的游戏环境与算法集合。

5.1k
1.1k
167
+2
排名 #16
3月20日
查看详情

antinomyhq/forge

面向Claude、GPT、O系列、Grok、Deepseek、Gemini及300多种模型的AI增强型结对编程工具

4.9k
1.2k
136
+240
排名 #17
3月15日
查看详情

huggingface/deep-rl-class

该仓库包含Hugging Face的深度强化学习课程。

4.8k
780
194
+19
排名 #19
3月12日
查看详情

inclusionAI/AReaL

专为大型语言模型推理与智能体打造的闪电式强化学习框架。

4.6k
378
126
+969
排名 #9
3月8日
查看详情

HenryNdubuaku/maths-cs-ai-compendium

成为顶尖的人工智能与机器学习研究工程师

2.9k
423
43
+603
排名 #14
4月5日
查看详情

rasbt/reasoning-from-scratch

使用PyTorch从零开始逐步实现一个推理大语言模型

2.8k
398
174
+29
排名 #11
2月3日
查看详情

AI4Finance-Foundation/FinRL-Trading

用于交易。请点星支持。

2.7k
850
146
+12
排名 #10
1月24日
查看详情

enactic/openarm

用于接触密集型环境中物理AI研究和部署的全开源仿人机械臂

2.1k
217
204
+191
排名 #22
4月9日
查看详情
助手