reinforcement-learning

大语言模型微调与强化学习 🦥 以2倍速度训练OpenAI gpt-oss、Qwen3、Llama 4、DeepSeek-R1、Gemma 3，节省70%显存

agent deepseek fine-tuning

unslothai 开发者

66k

6k

606

+6.1k

排名 #19

6月20日

查看详情

rohitg00/ai-engineering-from-scratch

学习它。构建它。为他人交付它。

agents ai ai-agents

rohitg00 开发者

34k

5.5k

363

+19k

排名 #16

6月17日

查看详情

d2l-ai/d2l-en

一本包含多框架代码、数学原理与深度讨论的交互式深度学习书籍，已被斯坦福、麻省理工、哈佛和剑桥等全球70个国家500所高校采用。

book computer-vision data-science

d2l-ai 开发者

28k

5k

472

+14

排名 #9

4月19日

查看详情

sgl-project/sglang

SGLang是面向大语言模型与视觉语言模型的高速推理框架。

attention blackwell cuda

sgl-project 开发者

27k

5.8k

762

+509

排名 #13

5月9日

查看详情

AI4Finance-Foundation/FinGPT

AI4Finance-Foundation 开发者

FinGPT：开源金融大语言模型！我们发布革命性🔥训练模型于HuggingFace平台

chatgpt finance fingpt

20k

3k

539

+973

排名 #18

7月13日

查看详情

Unity-Technologies/ml-agents

C#

Unity机器学习代理工具包（ML-Agents）是一个开源项目，能让游戏和模拟场景成为训练智能代理的环境，支持深度强化学习与模仿学习。

deep-learning deep-reinforcement-learning machine-learning

Unity-Technologies 开发者

19k

4.5k

628

+31

排名 #20

6月25日

查看详情

microsoft/AirSim

基于Unreal Engine/Unity构建的开源自动驾驶模拟器，由微软人工智能与研究部门开发

ai airsim artificial-intelligence

microsoft 开发者

18k

4.9k

531

+3

排名 #19

3月20日

查看详情

microsoft/agent-lightning

点亮AI智能体的终极训练器

agent agentic-ai llm

microsoft 开发者

16k

1.5k

549

+1.5k

排名 #13

4月13日

查看详情

AI4Finance-Foundation/FinRL

AI4Finance-Foundation 开发者

FinRL®：金融强化学习框架。🔥

algorithmic-trading deep-reinforcement-learning drl-algorithms

15k

3.4k

544

+608

排名 #18

7月12日

查看详情

owainlewis/awesome-artificial-intelligence

未知

A curated list of Artificial Intelligence (AI) courses, books, video lectures and papers.

ai artificial-intelligence deep-learning

owainlewis 开发者

14k

2.4k

204

+48

排名 #15

6月20日

查看详情

bulletphysics/bullet3

Bullet Physics SDK：面向 VR、游戏、视觉效果、机器人、机器学习等领域的实时碰撞检测与多物理场模拟

computer-animation game-development kinematics

bulletphysics 开发者

14k

3.1k

560

+5

排名 #18

4月2日

查看详情

datawhalechina/easy-rl

强化学习中文教程（蘑菇书🍄），在线阅读地址：https://datawhalechina.github.io/easy-rl/

a3c ddpg deep-reinforcement-learning

datawhalechina 开发者

14k

2.3k

497

+14

排名 #18

5月20日

查看详情

carla-simulator/carla

开源自动驾驶研究模拟器

ai artificial-intelligence autonomous-driving

carla-simulator 开发者

14k

4.6k

590

+37

排名 #21

6月16日

查看详情

simular-ai/Agent-S

Agent S：仿人类操作计算机的开放式智能体框架

agent-computer-interface ai-agents computer-automation

simular-ai 开发者

11k

1.3k

413

+43

排名 #12

5月17日

查看详情

aws/amazon-sagemaker-examples

示例 📓 Jupyter 笔记本，展示如何使用 🧠 Amazon SageMaker 构建、训练和部署机器学习模型。

aws data-science deep-learning

aws 开发者

10k

7k

582

+1

排名 #6

6月25日

查看详情

OpenPipe/ART

智能体强化训练器：使用GRPO为现实任务训练多步智能体。为智能体提供在职培训。支持Qwen2.5、Qwen3、Llama等模型的强化学习

agent agentic-ai grpo

OpenPipe 开发者

9.8k

867

444

+85

排名 #15

5月23日

查看详情

MITDeepLearning/introtodeeplearning

麻省理工学院6.S191课程实验材料：深度学习导论

computer-vision deep-learning deep-reinforcement-learning

MITDeepLearning 开发者

8.6k

4.5k

450

+32

排名 #16

4月12日

查看详情

NVlabs/Sana

SANA：基于线性扩散 Transformer 的高效高分辨率图像合成

diffusion dit linear-transformer

NVlabs 开发者

7.5k

568

275

+1.5k

排名 #15

5月24日

查看详情

tailcallhq/forgecode

Rust

面向Claude、GPT、O系列、Grok、Deepseek、Gemini及300多种模型的AI增强型结对编程工具

ai-pair-programming ai-workflows artifical-intelligense

tailcallhq 开发者

7.1k

1.4k

330

+1.9k

排名 #6

4月30日

查看详情

antinomyhq/forgecode

Rust

支持Claude、GPT、O系列、Grok、Deepseek、Gemini及300多种模型的AI配对编程助手

ai-pair-programming ai-workflows artifical-intelligense

antinomyhq 开发者

6.4k

1.3k

401

+663

排名 #15

4月9日

查看详情

PufferAI/PufferLib

C

简化复杂游戏环境中的强化学习实现

reinforcement-learning

PufferAI 开发者

6k

474

402

+121

排名 #19

6月11日

查看详情

kvcache-ai/Mooncake

Mooncake是Moonshot AI旗下领先大语言模型服务Kimi的部署平台。

disaggregation inference kvcache

kvcache-ai 开发者

5.7k

909

531

+233

排名 #18

6月30日

查看详情

HenryNdubuaku/maths-cs-ai-compendium

TypeScript

成为顶尖的人工智能与机器学习研究工程师

ai-textbook algorithms artificial-intelligence

HenryNdubuaku 开发者

5.2k

701

295

+603

排名 #16

7月14日

查看详情

google-deepmind/open_spiel