❤️❤️❤️❤️❤️❤️ 我们已经正式推出微信小程序，在微信中搜索 TrendForge Pro 即可使用小程序，如果使用 Telegram 请搜索 trendforge_tg ❤️❤️❤️❤️❤️❤️

llm-evaluation

话题找到数量

langfuse/langfuse

TypeScript

🪢 开源LLM工程平台：LLM可观测性、指标评估、提示管理、游乐场、数据集。与OpenTelemetry、Langchain、OpenAI SDK、LiteLLM等工具集成。🍊YC W23

analytics autogen evaluation

langfuse 开发者

26k

2.6k

276

+977

排名 #12

4月26日

查看详情

mlflow/mlflow

Python

构建AI/大语言模型应用的开源开发者平台，提供端到端追踪、可观测性与评估功能的一体化集成平台

agentops agents ai

mlflow 开发者

25k

5.6k

435

+74

排名 #11

4月24日

查看详情

promptfoo/promptfoo

TypeScript

测试您的提示词、智能体和检索增强生成系统。针对大语言模型的红队测试、渗透测试与漏洞扫描。对比GPT、Claude、Gemini、Llama等模型的性能表现。支持命令行与CI/CD集成的简易声明式配置。

ci ci-cd cicd

promptfoo 开发者

18k

1.6k

377

+8.2k

排名 #18

3月31日

查看详情

comet-ml/opik

Python

通过全面的追踪、自动化评估和生产就绪的仪表盘，调试、评估并监控您的LLM应用、RAG系统和智能体工作流。

evaluation hacktoberfest hacktoberfest2025

comet-ml 开发者

17k

1.4k

353

+44

排名 #17

3月2日

查看详情

confident-ai/deepeval

Python

大语言模型评估框架

evaluation-framework evaluation-metrics llm-evaluation

confident-ai 开发者

15k

1.4k

408

+109

排名 #12

5月16日

查看详情

Arize-ai/phoenix

Jupyter Notebook

AI可观测性与评估体系。

agents ai-monitoring ai-observability

Arize-ai 开发者

9.2k

808

423

+443

排名 #17

4月11日

查看详情

NVIDIA/garak

HTML

大语言模型漏洞扫描器

ai llm-evaluation llm-security

NVIDIA 开发者

7.7k

898

317

+348

排名 #12

4月25日

查看详情

Helicone/helicone

TypeScript

🧊 开源大语言模型可观测性平台。一行代码实现监控、评估与实验。YC W23 🍓

agent-monitoring analytics evaluation

Helicone 开发者

5.5k

543

170

排名 #7

4月21日

查看详情

Agenta-AI/agenta

TypeScript

开源LLMOps平台：集提示词游乐场、提示词管理、大语言模型评估与模型可观测性于一体。

agents evaluation llm-as-a-judge

Agenta-AI 开发者

499

287

排名 #9

3月23日

查看详情

cyberark/FuzzyAI

Jupyter Notebook

一款用于自动化大语言模型模糊测试的强大工具。

ai ai-red-team fuzzing

cyberark 开发者

1.4k

197

150

+26

排名 #15

5月17日

查看详情

首页上一页

下一页末页

llm-evaluation - 主题项目

llm-evaluation - 主题项目

每日趋势

每周趋势

每月趋势

趋势分析

llm-evaluation

langfuse/langfuse

mlflow/mlflow

promptfoo/promptfoo

comet-ml/opik

confident-ai/deepeval

Arize-ai/phoenix

NVIDIA/garak

Helicone/helicone

Agenta-AI/agenta

cyberark/FuzzyAI

TrendForge 助手