llm-evaluation-framework

共找到 2 个相关项目

confident-ai/deepeval

大语言模型评估框架

13k
1.2k
95
+109
排名 #12
2月6日
查看详情

promptfoo/promptfoo

测试您的提示词、智能体和检索增强生成系统。针对大语言模型的红队测试、渗透测试与漏洞扫描。对比GPT、Claude、Gemini、Llama等模型的性能表现。支持命令行与CI/CD集成的简易声明式配置。

10k
907
86
+11
排名 #13
2月7日
查看详情
助手