CrewAI Evaluation 学习笔记：我如何评价 Agent 是否可靠

type

Post

status

Published

date

Oct 11, 2025

slug

crewai-evaluation-learning-notes

summary

我从 CrewAI Evaluation 出发梳理 Agent 评测：可运行不等于可靠，评测要覆盖任务完成度、过程质量、稳定性和成本。

📝 主旨内容

Agent 项目最容易出现的问题，是 demo 看起来很顺，但真实任务里不稳定。

我第一次做 Agent 时，常常会被一次成功运行骗到。模型成功调用了工具，生成了答案，页面看起来也像完成了任务。但只要换一个输入、换一个环境、换一个边界条件，就可能出错。

CrewAI 这类多 Agent 框架更是如此。多个角色协作时，错误可能来自任务拆分、角色提示词、工具调用、上下文传递，也可能来自最终输出没有验证。没有评测，我很难知道问题到底在哪里。

我现在会把 Agent 评测拆成几层：

这比普通文本生成评测更复杂。Agent 是一个过程系统，不能只看最后一句话。

评测集要尽量贴近真实任务，而不是只测模型会不会说漂亮话。

如果我要评测一个 CrewAI 项目，我会先准备一批固定任务，每个任务都有明确预期结果。比如资料整理、代码审查、报告生成、数据清洗。然后记录每次运行的工具调用、耗时、输出和失败原因。

我也会给评测任务分难度：简单任务看基本稳定性，中等任务看多角色协作，复杂任务看规划和纠错能力。这样才能知道系统是在全面变好，还是只在某类任务上表现好。

我现在会优先做这些事情

评测不是项目最后才补的东西，而应该从 Agent 设计初期就加入。

学习 CrewAI Evaluation 后，我更清楚 Agent 工程的核心问题：可运行不等于可靠。没有评测，就无法知道一次成功是能力还是运气。

作为学习者，我会把评测当成 Agent 项目的基础设施。只有能持续评价，才能持续改进。

💡

我后面如果继续做多 Agent 项目，会先写一小批评测任务，再开始堆角色和工具。