llm-evaluation

共找到 5 个相关项目

mlflow/mlflow

构建AI/大语言模型应用的开源开发者平台,提供端到端追踪、可观测性与评估功能的一体化集成平台

24k
5.3k
69
+74
排名 #9
2月19日
查看详情

confident-ai/deepeval

大语言模型评估框架

13k
1.2k
95
+109
排名 #12
2月6日
查看详情

promptfoo/promptfoo

测试您的提示词、智能体和检索增强生成系统。针对大语言模型的红队测试、渗透测试与漏洞扫描。对比GPT、Claude、Gemini、Llama等模型的性能表现。支持命令行与CI/CD集成的简易声明式配置。

10k
907
86
+11
排名 #13
2月7日
查看详情

Arize-ai/phoenix

AI可观测性与评估体系。

8.6k
721
76
+64
排名 #17
2月22日
查看详情

NVIDIA/garak

大语言模型漏洞扫描器

7k
786
62
+56
排名 #12
2月19日
查看详情
助手