evaluation

共找到 6 个相关项目

mlflow/mlflow

构建AI/大语言模型应用的开源开发者平台,提供端到端追踪、可观测性与评估功能的一体化集成平台

24k
5.3k
98
+74
排名 #9
2月19日
查看详情

confident-ai/deepeval

大语言模型评估框架

13k
1.2k
126
+109
排名 #12
2月6日
查看详情

Tencent/WeKnora

基于大语言模型的深度文档理解框架,支持使用 RAG 范式实现语义检索和上下文感知应答。

13k
1.5k
86
+123
排名 #18
2月22日
查看详情

promptfoo/promptfoo

测试您的提示词、智能体和检索增强生成系统。针对大语言模型的红队测试、渗透测试与漏洞扫描。对比GPT、Claude、Gemini、Llama等模型的性能表现。支持命令行与CI/CD集成的简易声明式配置。

10k
907
102
+11
排名 #13
2月7日
查看详情

Arize-ai/phoenix

AI可观测性与评估体系。

8.6k
721
106
+64
排名 #17
2月22日
查看详情

NVIDIA/garak

大语言模型漏洞扫描器

7k
786
98
+56
排名 #12
2月19日
查看详情
助手