evaluation

langfuse/langfuse

TypeScript

🪢 开源LLM工程平台：LLM可观测性、指标评估、提示管理、游乐场、数据集。与OpenTelemetry、Langchain、OpenAI SDK、LiteLLM等工具集成。🍊YC W23

analytics autogen evaluation

langfuse 开发者

30k

3.2k

441

+977

排名 #12

7月9日

查看详情

mlflow/mlflow

Python

构建AI/大语言模型应用的开源开发者平台，提供端到端追踪、可观测性与评估功能的一体化集成平台

agentops agents ai

mlflow 开发者

26k

5.8k

604

+74

排名 #14

6月11日

查看详情

promptfoo/promptfoo

TypeScript

测试您的提示词、智能体和检索增强生成系统。针对大语言模型的红队测试、渗透测试与漏洞扫描。对比GPT、Claude、Gemini、Llama等模型的性能表现。支持命令行与CI/CD集成的简易声明式配置。

ci ci-cd cicd

promptfoo 开发者

22k

2k

572

+8.2k

排名 #18

6月17日

查看详情

comet-ml/opik

Python

通过全面的追踪、自动化评估和生产就绪的仪表盘，调试、评估并监控您的LLM应用、RAG系统和智能体工作流。

evaluation hacktoberfest hacktoberfest2025

comet-ml 开发者

19k

1.6k

551

+281

排名 #18

6月28日

查看详情

Tencent/WeKnora

Go

基于大语言模型的深度文档理解框架，支持使用 RAG 范式实现语义检索和上下文感知应答。

agent agentic ai

Tencent 开发者

18k

2.5k

501

+1.8k

排名 #18

7月15日

查看详情

confident-ai/deepeval

Python

大语言模型评估框架

evaluation-framework evaluation-metrics llm-evaluation

confident-ai 开发者

15k

1.4k

611

+109

排名 #12

5月16日

查看详情

EleutherAI/lm-evaluation-harness

Python

用于语言模型少样本评估的框架。

evaluation-framework language-model transformer

EleutherAI 开发者

12k

3.3k

516

+22

排名 #6

5月13日

查看详情

Arize-ai/phoenix

Jupyter Notebook

AI可观测性与评估体系。

agents ai-monitoring ai-observability

Arize-ai 开发者

9.2k

808

714

+443

排名 #17

4月11日

查看详情

oumi-ai/oumi

Python

轻松微调、评估和部署gpt-oss、Qwen3、DeepSeek-R1或任何开源LLM/VLM！

dpo evaluation fine-tuning

oumi-ai 开发者

9.1k

738

462

+29

排名 #14

4月3日

查看详情

NVIDIA/garak

HTML

大语言模型漏洞扫描器

ai llm-evaluation llm-security

NVIDIA 开发者

7.7k

898

507

+348

排名 #12

4月25日

查看详情

Helicone/helicone

TypeScript

🧊 开源大语言模型可观测性平台。一行代码实现监控、评估与实验。YC W23 🍓

agent-monitoring analytics evaluation

Helicone 开发者

5.5k

543

289

+7

排名 #7

4月21日

查看详情

Agenta-AI/agenta

TypeScript

开源LLMOps平台：集提示词游乐场、提示词管理、大语言模型评估与模型可观测性于一体。

agents evaluation llm-as-a-judge

Agenta-AI 开发者

4k

499

553

+6

排名 #9

3月23日

查看详情

TEAMMATES/teammates

Java

TEAMMATES 是一款用于教育的反馈管理工具

angular educators feedback-systems

TEAMMATES 开发者

1.8k

3.6k

502

+1

排名 #16

6月7日

查看详情

trpc-group/trpc-agent-go

Go

trpc-agent-go 是一个基于 Go 语言的强大框架，用于利用大语言模型和工具构建智能代理系统。

a2a a2a-protocol ag-ui

trpc-group 开发者

1.5k

201

187

+20

排名 #14

7月2日

查看详情

cyberark/FuzzyAI

Jupyter Notebook

一款用于自动化大语言模型模糊测试的强大工具。

ai ai-red-team fuzzing

cyberark 开发者

1.4k

197

321

+26

排名 #15

5月17日

查看详情

Q00/ouroboros

Python

停止手动提示，开始精确指定

ai-agent claude-code codex-cli

Q00 开发者

1.3k

122

390

+373

排名 #18

3月15日

查看详情

NVIDIA-NeMo/Gym

Python

为大型语言模型训练构建强化学习环境

agents benchmarks environments

NVIDIA-NeMo 开发者

941

169

477

+1

排名 #14

6月3日

查看详情

ScalingIntelligence/KernelBench

Jupyter Notebook

KernelBench：大语言模型能否编写GPU内核？——支持Torch转CUDA的基准测试与工具集

benchmark codegen evaluation

ScalingIntelligence 开发者

882

147

374

+4

排名 #13

3月23日

查看详情

JuliaReach/LazySets.jl

Julia

Julia中可扩展的符号-数值集合计算

calculus computational-geometry convex-hull

JuliaReach 开发者

259

39

150

排名 #20

6月25日

查看详情

zeno-ml/zeno

Svelte

AI数据管理与评估平台

ai data-science evaluation

zeno-ml 开发者

214

11

162

排名 #14

6月29日

查看详情

hatnote/montage

CSS

📷 专为维基爱竞赛设计且由该竞赛使用的照片评估工具

photo-evaluation voting wiki-loves-competitions

hatnote 开发者

47

49

356

排名 #10

3月30日

查看详情

evaluation - 主题项目

evaluation - 主题项目

每日趋势

每周趋势

每月趋势

趋势分析

langfuse/langfuse

mlflow/mlflow

promptfoo/promptfoo

comet-ml/opik

Tencent/WeKnora

confident-ai/deepeval

EleutherAI/lm-evaluation-harness

Arize-ai/phoenix

oumi-ai/oumi

NVIDIA/garak

Helicone/helicone

Agenta-AI/agenta

TEAMMATES/teammates

trpc-group/trpc-agent-go

cyberark/FuzzyAI

Q00/ouroboros

NVIDIA-NeMo/Gym

ScalingIntelligence/KernelBench

JuliaReach/LazySets.jl

zeno-ml/zeno

hatnote/montage

TrendForge 助手