❤️❤️❤️❤️❤️❤️ 我们已经正式推出微信小程序,在微信中搜索 TrendForge Pro 即可使用小程序,如果使用 Telegram 请搜索 trendforge_tg ❤️❤️❤️❤️❤️❤️

llm-evaluation

话题找到数量

langfuse/langfuse

🪢 开源LLM工程平台:LLM可观测性、指标评估、提示管理、游乐场、数据集。与OpenTelemetry、Langchain、OpenAI SDK、LiteLLM等工具集成。🍊YC W23

26k
2.6k
274
+977
排名 #12
4月26日
查看详情

mlflow/mlflow

构建AI/大语言模型应用的开源开发者平台,提供端到端追踪、可观测性与评估功能的一体化集成平台

25k
5.6k
434
+74
排名 #11
4月24日
查看详情

promptfoo/promptfoo

测试您的提示词、智能体和检索增强生成系统。针对大语言模型的红队测试、渗透测试与漏洞扫描。对比GPT、Claude、Gemini、Llama等模型的性能表现。支持命令行与CI/CD集成的简易声明式配置。

18k
1.6k
375
+8.2k
排名 #18
3月31日
查看详情

comet-ml/opik

通过全面的追踪、自动化评估和生产就绪的仪表盘,调试、评估并监控您的LLM应用、RAG系统和智能体工作流。

17k
1.4k
345
+44
排名 #17
3月2日
查看详情

confident-ai/deepeval

大语言模型评估框架

15k
1.4k
389
+109
排名 #12
5月16日
查看详情

Arize-ai/phoenix

AI可观测性与评估体系。

9.2k
808
420
+443
排名 #17
4月11日
查看详情

NVIDIA/garak

大语言模型漏洞扫描器

7.7k
898
316
+348
排名 #12
4月25日
查看详情

Helicone/helicone

🧊 开源大语言模型可观测性平台。一行代码实现监控、评估与实验。YC W23 🍓

5.5k
543
169
+7
排名 #7
4月21日
查看详情

Agenta-AI/agenta

开源LLMOps平台:集提示词游乐场、提示词管理、大语言模型评估与模型可观测性于一体。

4k
499
287
+6
排名 #9
3月23日
查看详情

cyberark/FuzzyAI

一款用于自动化大语言模型模糊测试的强大工具。

1.4k
197
150
+26
排名 #15
5月17日
查看详情
助手