evaluation-framework

话题找到数量

promptfoo/promptfoo

测试您的提示词、智能体和检索增强生成系统。针对大语言模型的红队测试、渗透测试与漏洞扫描。对比GPT、Claude、Gemini、Llama等模型的性能表现。支持命令行与CI/CD集成的简易声明式配置。

18k
1.6k
253
+8.2k
排名 #18
3月31日
查看详情

confident-ai/deepeval

大语言模型评估框架

13k
1.2k
235
+109
排名 #12
2月6日
查看详情
助手