type
Post
status
Published
date
Oct 11, 2025
slug
crewai-evaluation-learning-notes
summary
我从 CrewAI Evaluation 出发梳理 Agent 评测:可运行不等于可靠,评测要覆盖任务完成度、过程质量、稳定性和成本。
tags
LLM
agent
工具
category
LLM
icon
password
🧪
这篇是我学习 CrewAI Evaluation 时整理的笔记。以前我更关心 Agent 能不能跑起来,现在我越来越觉得,真正难的是如何评价它跑得好不好。
 

📝 主旨内容

💡 一、为什么我开始关注 Agent 评测

Agent 项目最容易出现的问题,是 demo 看起来很顺,但真实任务里不稳定。
我第一次做 Agent 时,常常会被一次成功运行骗到。模型成功调用了工具,生成了答案,页面看起来也像完成了任务。但只要换一个输入、换一个环境、换一个边界条件,就可能出错。
CrewAI 这类多 Agent 框架更是如此。多个角色协作时,错误可能来自任务拆分、角色提示词、工具调用、上下文传递,也可能来自最终输出没有验证。没有评测,我很难知道问题到底在哪里。

🔍 二、我理解的评测不只是看最终答案

我现在会把 Agent 评测拆成几层:
  • 任务完成度:最终有没有解决用户问题
  • 过程质量:中间步骤是否合理,是否乱调用工具
  • 输出质量:结果是否清楚、可用、有证据
  • 稳定性:同类任务多次运行是否一致
  • 成本和延迟:完成任务用了多少调用和时间
这比普通文本生成评测更复杂。Agent 是一个过程系统,不能只看最后一句话。

🛠️ 三、我会如何设计 CrewAI 的评测集

评测集要尽量贴近真实任务,而不是只测模型会不会说漂亮话。
如果我要评测一个 CrewAI 项目,我会先准备一批固定任务,每个任务都有明确预期结果。比如资料整理、代码审查、报告生成、数据清洗。然后记录每次运行的工具调用、耗时、输出和失败原因。
我也会给评测任务分难度:简单任务看基本稳定性,中等任务看多角色协作,复杂任务看规划和纠错能力。这样才能知道系统是在全面变好,还是只在某类任务上表现好。

🧩 四、我学到的工程原则

我现在会优先做这些事情
  1. 固定评测输入,避免每次凭感觉判断。
  1. 保存 Agent 中间轨迹,方便定位失败原因。
  1. 把工具调用结果和最终答案分开评估。
  1. 明确成功标准,不用“看起来还行”做结论。
评测不是项目最后才补的东西,而应该从 Agent 设计初期就加入。

🤗 总结归纳

学习 CrewAI Evaluation 后,我更清楚 Agent 工程的核心问题:可运行不等于可靠。没有评测,就无法知道一次成功是能力还是运气。
作为学习者,我会把评测当成 Agent 项目的基础设施。只有能持续评价,才能持续改进。

📎 参考文章

 
💡
我后面如果继续做多 Agent 项目,会先写一小批评测任务,再开始堆角色和工具。
Turn Your PC into AIPC:我对端侧智能的理解Talky 学习笔记:一个大模型数据生成工具的想法
Loading...