llm-evaluation
共找到 5 个相关项目
promptfoo/promptfoo
测试您的提示词、智能体和检索增强生成系统。针对大语言模型的红队测试、渗透测试与漏洞扫描。对比GPT、Claude、Gemini、Llama等模型的性能表现。支持命令行与CI/CD集成的简易声明式配置。
10k
907
86
+11