llm-evaluation

话题找到数量

mlflow/mlflow

构建AI/大语言模型应用的开源开发者平台,提供端到端追踪、可观测性与评估功能的一体化集成平台

24k
5.3k
267
+74
排名 #9
2月19日
查看详情

langfuse/langfuse

🪢 开源LLM工程平台:LLM可观测性、指标评估、提示管理、游乐场、数据集。与OpenTelemetry、Langchain、OpenAI SDK、LiteLLM等工具集成。🍊YC W23

24k
2.4k
114
+78
排名 #12
3月31日
查看详情

promptfoo/promptfoo

测试您的提示词、智能体和检索增强生成系统。针对大语言模型的红队测试、渗透测试与漏洞扫描。对比GPT、Claude、Gemini、Llama等模型的性能表现。支持命令行与CI/CD集成的简易声明式配置。

18k
1.6k
253
+8.2k
排名 #18
3月31日
查看详情

comet-ml/opik

通过全面的追踪、自动化评估和生产就绪的仪表盘,调试、评估并监控您的LLM应用、RAG系统和智能体工作流。

17k
1.4k
180
+44
排名 #17
3月2日
查看详情

confident-ai/deepeval

大语言模型评估框架

13k
1.2k
226
+109
排名 #12
2月6日
查看详情

Arize-ai/phoenix

AI可观测性与评估体系。

9.1k
784
216
+443
排名 #17
3月31日
查看详情

NVIDIA/garak

大语言模型漏洞扫描器

7.4k
849
183
+348
排名 #12
3月31日
查看详情

Agenta-AI/agenta

开源LLMOps平台:集提示词游乐场、提示词管理、大语言模型评估与模型可观测性于一体。

4k
499
123
+6
排名 #9
3月23日
查看详情
助手