evaluation

话题找到数量

mlflow/mlflow

构建AI/大语言模型应用的开源开发者平台,提供端到端追踪、可观测性与评估功能的一体化集成平台

24k
5.3k
303
+74
排名 #9
2月19日
查看详情

langfuse/langfuse

🪢 开源LLM工程平台:LLM可观测性、指标评估、提示管理、游乐场、数据集。与OpenTelemetry、Langchain、OpenAI SDK、LiteLLM等工具集成。🍊YC W23

24k
2.4k
126
+78
排名 #12
3月31日
查看详情

promptfoo/promptfoo

测试您的提示词、智能体和检索增强生成系统。针对大语言模型的红队测试、渗透测试与漏洞扫描。对比GPT、Claude、Gemini、Llama等模型的性能表现。支持命令行与CI/CD集成的简易声明式配置。

18k
1.6k
256
+8.2k
排名 #18
3月31日
查看详情

comet-ml/opik

通过全面的追踪、自动化评估和生产就绪的仪表盘,调试、评估并监控您的LLM应用、RAG系统和智能体工作流。

17k
1.4k
209
+44
排名 #17
3月2日
查看详情

Tencent/WeKnora

基于大语言模型的深度文档理解框架,支持使用 RAG 范式实现语义检索和上下文感知应答。

13k
1.6k
190
+123
排名 #18
3月31日
查看详情

confident-ai/deepeval

大语言模型评估框架

13k
1.2k
242
+109
排名 #12
2月6日
查看详情

oumi-ai/oumi

轻松微调、评估和部署gpt-oss、Qwen3、DeepSeek-R1或任何开源LLM/VLM!

9.1k
738
109
+29
排名 #14
4月3日
查看详情

Arize-ai/phoenix

AI可观测性与评估体系。

9.1k
784
221
+443
排名 #17
3月31日
查看详情

NVIDIA/garak

大语言模型漏洞扫描器

7.4k
849
206
+348
排名 #12
3月31日
查看详情

Agenta-AI/agenta

开源LLMOps平台:集提示词游乐场、提示词管理、大语言模型评估与模型可观测性于一体。

4k
499
142
+6
排名 #9
3月23日
查看详情

TEAMMATES/teammates

TEAMMATES 是一款用于教育的反馈管理工具

1.8k
3.5k
108
+1
排名 #12
4月6日
查看详情

Q00/ouroboros

停止手动提示,开始精确指定

1.3k
122
129
+373
排名 #18
3月15日
查看详情

ScalingIntelligence/KernelBench

KernelBench:大语言模型能否编写GPU内核?——支持Torch转CUDA的基准测试与工具集

882
147
95
+4
排名 #13
3月23日
查看详情

hatnote/montage

📷 专为维基爱竞赛设计且由该竞赛使用的照片评估工具

47
49
83
排名 #10
3月30日
查看详情
助手