作者:Meltem Subasioglu, Turan Bulmus, 和 Wafae Bakkali
发布日期:2025年11月
在非确定性世界中构建值得信赖的AI智能体
探索AI智能体质量评估、可观测性和持续改进的完整框架
核心目标:本文档作为实践指南,帮助架构师、工程师和产品领导者构建可靠、值得信赖的AI智能体
轨迹即真相:
可观测性是基础:
评估是持续循环:
核心理念:AI的未来是智能体化的,其成功取决于质量
本文档结构从"为什么"到"什么"再到"如何",根据你的角色选择重点章节
所有读者:
产品经理、数据科学家、QA负责人:
工程师、架构师、SRE:
团队负责人、战略师:
背景:AI世界正全速转型,从构建可预测的工具转向设计自主的智能体
Delivery Truck(配送卡车)
Formula 1 Race Car(一级方程式赛车)
关键挑战:智能体的失败不是代码bug,而是判断缺陷。传统QA无法应对这种非确定性行为
传统软件验证:"我们正确地构建产品了吗?" - 验证逻辑是否符合固定规范
现代AI评估:"我们构建了正确的产品吗?" - 评估质量、鲁棒性和可信度
关键洞察:AI智能体的失败是隐蔽的、非确定性的,需要全新的质量保证方法
四种主要失败模式:
定义:智能体操作化并可能放大训练数据中存在的系统性偏见
定义:智能体生成听起来合理但事实错误或虚构的信息
定义:智能体性能随时间退化
定义:智能体发展出新颖或未预料的策略
核心挑战:从模型中心AI到系统中心AI的演进
Traditional Machine Learning
The Passive LLM
Retrieval-Augmented Generation
The Active AI Agent
主动AI智能体的三大核心能力打破了传统的评估模型
规划与多步推理:
工具使用与函数调用:
记忆:
终极架构复杂性:多个主动智能体集成到共享环境中
涌现系统失败:
合作 vs 竞争评估:
关键结论:评估单元不再是模型,而是整个系统轨迹。智能体的涌现行为来自规划模块、工具、记忆和动态环境的复杂交互
"Outside-In"方法:以用户为中心的指标和高层业务目标为锚点
效果性(目标达成):
效率性(运营成本):
鲁棒性(可靠性):
安全性与对齐(可信度):
从测试到评估:
传统测试:
Agent评估:
核心转变:必须从"测试"输出转向"评估"过程。判断智能体从初始意图到最终结果的整个决策轨迹
战略框架:避免迷失在组件级指标的海洋中,评估必须是自上而下的战略过程
黑盒视图
端到端评估
"智能体实现了用户目标吗?"
玻璃盒视图
轨迹评估
分析每个组件的执行轨迹
图:"Outside-In"评估层次框架
关键原则:首先评估最重要的指标 - 真实世界成功 - 然后深入分析技术细节
首要问题:"智能体是否有效实现了用户的目标?"
任务成功率:
用户满意度:
整体质量:
评估流程:如果智能体在此阶段得分100%,工作可能完成。但在复杂系统中很少如此。当智能体产生有缺陷的最终输出、放弃任务或无法收敛时,黑盒视图告诉我们哪里出了问题
玻璃盒视图:分析智能体的方法,系统评估其执行轨迹的每个组件
LLM规划("思考"):
工具使用(选择与参数化):
工具响应解释("观察"):
RAG性能:
轨迹效率:
鲁棒性:
多智能体动态:
诊断能力:通过分析轨迹,我们可以从"最终答案是错误的"(黑盒)移动到"最终答案是错误的,因为..."(玻璃盒)。这种诊断能力是Agent评估的整个目标
混合方法:自动化系统提供规模,但人工判断仍然是质量的关键仲裁者
自动化指标:
LLM作为评估者:
人工评估(HITL):
特点:提供速度和可重复性,适用于回归测试和基准测试
基于字符串的相似性:
基于嵌入的相似性:
任务特定基准:
局限性:指标高效但浅层,捕获表面相似性而非深层推理或用户价值。应作为趋势指标而非绝对质量衡量标准
核心思想:使用我们正在评估的相同技术 - 使用强大的LLM评估另一个智能体的输出
优势:可扩展、快速、令人惊讶地细致。使数据科学团队能够快速评估数千个场景的性能,使迭代评估过程可行
最佳实践:优先使用成对比较而非单次评分以缓解偏差。运行两个不同智能体版本,生成"答案A"和"答案B",然后让LLM评估者选择更好的一个
新兴范式:使用一个智能体评估另一个智能体的完整执行轨迹
仅评估输出:
评估过程:
计划质量:
工具使用:
上下文处理:
价值:特别适用于过程评估,失败通常来自有缺陷的中间步骤而非最终输出
不可替代的价值:捕获自动化系统错过的关键定性信号和细致判断
领域专业知识:
解释细微差别:
创建"黄金集":
重要理念:人工评级不是提供完美的"客观基本事实"。对于高度主观的任务,完美的注释者间一致性很少见。HITL是建立人工校准基准的不可或缺的方法论
实时反馈:每个交互都是有用性、清晰度和信任的信号
定性信号:
定量指标:
低摩擦反馈:
上下文丰富的审查:
审查用户界面:
不可协商的门槛:一个100%有效但造成伤害的智能体是完全失败的
系统性红队测试:
自动化过滤器与人工审查:
遵守准则:
关键区别:性能指标告诉我们智能体能否完成工作,但安全评估告诉我们它是否应该完成工作
从监控到可观测性:AI智能体是一种新型软件,它们不只是遵循指令,而是做出决策
传统软件 = 快餐厨师
AI智能体 = 美食大厨
核心转变:从"智能体在运行吗?"转向"智能体在有效思考吗?"
获取"思维过程":我们不能直接读取智能体的思维,但可以分析它留下的证据
日志
智能体的日记
原子事实记录
追踪
叙事线索
连接因果关系
指标
健康报告
聚合性能评分
图:可观测性的三大支柱
协同工作:三大支柱协同工作,将原始数据转化为完整的图景,让我们从品尝最终菜肴转向批评整个烹饪表演
定义:日志是可观测性的原子单位,是智能体日记中的时间戳条目
超越print():
一流框架:
核心信息:
权衡:
应用技巧:
定义:如果日志是日记条目,追踪就是将它们连接成连贯故事的叙事线索
孤立日志:
追踪:
跨度:
属性:
上下文传播:
定义:指标是定量的、聚合的健康评分,提供对智能体整体性能的即时、一目了然的了解
系统指标:
质量指标:
关键洞察:指标不是新的数据源。它们是通过随时间聚合日志和追踪的数据得出的。它们回答的问题是"平均来说,性能进行得如何?"
系统指标:运营健康的基础定量衡量标准
性能:
成本:
效果性:
错误率:包含error=true属性的跨度的追踪百分比
用途:这些指标对于运营、设置警报和管理智能体机队的成本和性能至关重要
质量指标:评估智能体推理和最终输出质量的二阶指标
正确性与准确性:
轨迹遵循度:
安全性与责任:
有用性与相关性:
实施挑战:生成这些指标需要简单的数据库查询。通常涉及将智能体输出与"黄金"数据集进行比较,或使用复杂的LLM-as-a-Judge根据标准对响应进行评分
实际组装:将可观测性数据转化为实时操作和洞察
仪表板与警报:
安全与PII:
粒度与开销:
最佳实践:战略平衡。为指标提供广泛的性能数据,同时仍捕获调试每个失败所需的丰富诊断细节
核心挑战:AI智能体的非确定性和自主性质打破了传统的软件质量模型
四大支柱:
可观测性:
评估:
下一步:将这些原则运营化。通过强大的CI/CD管道、安全的推出策略和可扩展的基础设施,在生产环境中成功运行经过评估的智能体
核心理念:一个优秀的智能体不仅执行,它还会改进
图:Agent质量飞轮
工作原理:就像启动一个巨大的重型飞轮。第一次推动是最难的。但结构化的评估实践提供了随后的、一致的推动。每次推动都增加动量,直到轮子以不可阻挡的力量旋转,创造质量和信任的良性循环
如果你从本文档中只记住一件事,那就是这三个原则
将评估视为架构支柱,而非最终步骤
轨迹即真相
人类是仲裁者
我们正处于智能体时代的黎明
创建能够推理、规划和行动的AI将是我们这个时代最具变革性的技术转变之一
但伴随巨大力量而来的是构建值得我们信任的系统的深刻责任
最终目标:不仅构建工作的智能体,而是构建值得信赖的智能体。这种信任不是希望或偶然的问题,它是在持续、全面和架构合理的评估的熔炉中锻造的
内容贡献者:
策划人和编辑:
设计师:
感谢所有为本文档做出贡献的人员
The future is agentic - and reliable
未来是智能体化的 - 并且可靠