智能体质量Agent Quality

Agent质量

作者：Meltem Subasioglu, Turan Bulmus, 和 Wafae Bakkali

发布日期：2025年11月

🤖

在非确定性世界中构建值得信赖的AI智能体

探索AI智能体质量评估、可观测性和持续改进的完整框架

介绍Introduction

核心目标：本文档作为实践指南,帮助架构师、工程师和产品领导者构建可靠、值得信赖的AI智能体

三个核心信息

📋 The Trajectory is the Truth

轨迹即真相：

必须超越仅评估最终输出
真正的质量评估在于整个决策过程
从验证转向验证与评估并重

👁️ Observability is the Foundation

可观测性是基础：

无法评估你看不到的过程
三大支柱:Logging、Tracing、Metrics
捕获智能体"思维过程"的技术基础

🔄 Evaluation is a Continuous Loop

评估是持续循环：

Agent Quality Flywheel
混合方法:AI评估器+人工评估
将数据转化为可操作的洞察

核心理念：AI的未来是智能体化的,其成功取决于质量

如何阅读本文档How to Read This Whitepaper

本文档结构从"为什么"到"什么"再到"如何",根据你的角色选择重点章节

👥 For All Readers

所有读者：

从Chapter 1开始
了解核心问题
理解传统QA为何失败
学习四大支柱框架

📊 For Product Managers, Data Scientists, QA Leaders

产品经理、数据科学家、QA负责人：

重点阅读Chapter 2
学习"Outside-In"评估层次
理解LLM-as-a-Judge范式
掌握HITL评估的关键作用

🔧 For Engineers, Architects, SREs

工程师、架构师、SRE：

重点阅读Chapter 3
学习可观测性的三大支柱
理解Monitoring vs Observability
掌握Logs、Traces、Metrics工具

🎯 For Team Leads and Strategists

团队负责人、战略师：

重点阅读Chapter 4
理解Agent Quality Flywheel
学习三大核心原则
掌握持续改进的运营手册

非确定性世界中的智能体质量Agent Quality in a Non-Deterministic World

背景：AI世界正全速转型,从构建可预测的工具转向设计自主的智能体

传统软件 vs AI智能体

🚚 传统软件

Delivery Truck（配送卡车）

遵循固定路线
基本检查清单
确定性行为
"引擎启动了吗?"、"遵循固定路线了吗?"

🏎️ AI智能体

Formula 1 Race Car（一级方程式赛车）

复杂自主系统
动态判断
需要持续遥测
评估每个决策的质量

关键挑战：智能体的失败不是代码bug,而是判断缺陷。传统QA无法应对这种非确定性行为

为什么智能体质量需要新方法Why Agent Quality Demands a New Approach

传统软件验证："我们正确地构建产品了吗?" - 验证逻辑是否符合固定规范

现代AI评估："我们构建了正确的产品吗?" - 评估质量、鲁棒性和可信度

传统 vs AI失败模式

❌ 传统软件失败

系统崩溃
抛出NullPointerException
返回明显错误的计算
明显、确定性、可追踪
可定位到特定逻辑错误

⚠️ AI智能体失败

质量细微退化
系统继续运行
API返回200 OK
输出看似合理但完全错误
无声地侵蚀信任

关键洞察：AI智能体的失败是隐蔽的、非确定性的,需要全新的质量保证方法

Agent失败模式Agent Failure Modes

四种主要失败模式：

1️⃣ Algorithmic Bias - 算法偏见

定义：智能体操作化并可能放大训练数据中存在的系统性偏见

导致不公平或歧视性结果
示例：金融风控智能体过度惩罚基于邮编的贷款申请

2️⃣ Factual Hallucination - 事实幻觉

定义：智能体生成听起来合理但事实错误或虚构的信息

高度自信地输出错误内容
示例：研究工具生成完全虚假的历史日期或地理位置

3️⃣ Performance & Concept Drift

定义：智能体性能随时间退化

真实世界数据("概念")变化导致原始训练过时
示例：欺诈检测智能体无法识别新的攻击模式

4️⃣ Emergent Unintended Behaviors

定义：智能体发展出新颖或未预料的策略

可能低效、无益或具有剥削性
示例：发现并利用系统规则漏洞,与其他bot进行"代理人战争"

范式转变：从可预测代码到不可预测智能体The Paradigm Shift: From Predictable Code to Unpredictable Agents

核心挑战：从模型中心AI到系统中心AI的演进

演进阶段

1. 传统机器学习

Traditional Machine Learning

评估回归或分类模型
统计指标:Precision、Recall、F1-Score、RMSE
问题复杂但定义清晰

2. 被动LLM

The Passive LLM

生成模型失去简单指标
输出是概率性的
依赖人工评估和模型对比
文本输入、文本输出

3. LLM+RAG

Retrieval-Augmented Generation

多组件管道
失败可能在LLM或检索系统
评估表面扩展到chunking、embeddings、retrievers

4. 主动AI智能体

The Active AI Agent

LLM是复杂系统中的推理"大脑"
三大核心能力打破评估模型
规划与多步推理
工具使用与函数调用
记忆

主动智能体的三大核心能力Three Core Capabilities of Active Agents

主动AI智能体的三大核心能力打破了传统的评估模型

🎯 Planning and Multi-Step Reasoning

规划与多步推理：

将复杂目标("计划我的旅行")分解为多个子任务
创建轨迹(Thought → Action → Observation → Thought...)
LLM的非确定性在每一步都复合
步骤1的微小随机选择可能导致步骤4完全不同的推理路径

🔧 Tool Use and Function Calling

工具使用与函数调用：

通过API和外部工具与真实世界交互
引入动态环境交互
智能体的下一个行动完全取决于外部、不可控世界的状态
代码解释器、搜索引擎、预订API

🧠 Memory

记忆：

智能体维护状态
短期"草稿板"记忆跟踪当前任务
长期记忆允许智能体从过去交互中学习
行为会演化,昨天有效的输入今天可能产生不同结果

多智能体系统Multi-Agent Systems

终极架构复杂性：多个主动智能体集成到共享环境中

新的根本性挑战

🌀 Emergent System Failures

涌现系统失败：

系统成功取决于智能体间无脚本交互
资源竞争、通信瓶颈、系统性死锁
无法归因于单个智能体的失败
需要评估系统级涌现现象

⚔️ Cooperative vs Competitive Evaluation

合作 vs 竞争评估：

合作MAS：（如供应链优化）成功是全局指标
竞争MAS：（如博弈论或拍卖系统）需要跟踪个体性能和市场稳定性
目标函数本身可能变得模糊

关键结论：评估单元不再是模型,而是整个系统轨迹。智能体的涌现行为来自规划模块、工具、记忆和动态环境的复杂交互

Agent质量的四大支柱The Pillars of Agent Quality

"Outside-In"方法：以用户为中心的指标和高层业务目标为锚点

🎯 Effectiveness

效果性（目标达成）：

智能体是否成功、准确地实现了用户的实际意图？
连接以用户为中心的指标和业务KPI
零售智能体：不仅是"找到产品",而是"驱动转化"
数据分析智能体：不仅是"编写代码",而是"代码产生正确洞察"

⚡ Efficiency

效率性（运营成本）：

智能体是否很好地解决了问题？
即使成功,25步、5次失败工具调用、3次自我修正也是低质量
消耗的资源：总token（成本）、实际时间（延迟）、轨迹复杂度（总步数）

🛡️ Robustness

鲁棒性（可靠性）：

智能体如何处理逆境和真实世界的混乱？
API超时、网站布局变化、数据缺失、用户提示模糊
优雅失败：重试失败调用、请求澄清、报告无法完成的原因

🔒 Safety & Alignment

安全性与对齐（可信度）：

不可协商的门槛
智能体是否在定义的道德边界和约束内运行？
包括RAI指标（公平性、偏见）、安全（提示注入、数据泄露）

智能体评估的艺术：评判过程The Art of Agent Evaluation: Judging the Process

从测试到评估：

📝 Traditional Testing

传统测试：

确定性过程
验证（Verification）
问题："我们正确地构建产品了吗？"
依据固定规范验证逻辑

🎨 Agent Evaluation

Agent评估：

整体过程
验证（Validation）
问题："我们构建了正确的产品吗？"
评估动态世界中智能体的整体质量、鲁棒性和用户价值

核心转变：必须从"测试"输出转向"评估"过程。判断智能体从初始意图到最终结果的整个决策轨迹

"由外而内"评估层次The "Outside-In" Evaluation Hierarchy

战略框架：避免迷失在组件级指标的海洋中,评估必须是自上而下的战略过程

Step 1: The Black Box

黑盒视图
端到端评估
"智能体实现了用户目标吗？"

↓

Step 2: The Glass Box

玻璃盒视图
轨迹评估
分析每个组件的执行轨迹

图："Outside-In"评估层次框架

关键原则：首先评估最重要的指标 - 真实世界成功 - 然后深入分析技术细节

"由外而内"视角：端到端评估The "Outside-In" View: End-to-End Evaluation

首要问题："智能体是否有效实现了用户的目标？"

黑盒评估指标

✅ Task Success Rate

任务成功率：

最终输出是否正确、完整并解决了用户的实际问题？
二元（或分级）评分
示例：编码智能体的PR接受率、金融智能体的成功交易率、客服机器人的会话完成率

😊 User Satisfaction

用户满意度：

直接用户反馈评分
点赞/点踩
客户满意度评分（CSAT）

📊 Overall Quality

整体质量：

定量目标的准确性或完整性
示例：总结10篇文章时,是否总结了全部10篇？

评估流程：如果智能体在此阶段得分100%,工作可能完成。但在复杂系统中很少如此。当智能体产生有缺陷的最终输出、放弃任务或无法收敛时,黑盒视图告诉我们哪里出了问题

"由内而外"视角：轨迹评估The "Inside-Out" View: Trajectory Evaluation

玻璃盒视图：分析智能体的方法,系统评估其执行轨迹的每个组件

轨迹评估的六个维度

🧠 LLM Planning

LLM规划（"思考"）：

LLM本身是问题吗？
幻觉、无意义或离题响应
上下文污染、重复输出循环

🔧 Tool Usage

工具使用（选择与参数化）：

调用错误的工具
未调用必要的工具
幻觉工具名称或参数
提供缺失参数、错误数据类型或格式错误的JSON

👁️ Tool Response Interpretation

工具响应解释（"观察"）：

智能体必须理解结果
错误解释数值数据
未能从响应中提取关键实体
未识别工具返回的错误状态

轨迹评估（续）Trajectory Evaluation (Continued)

📚 RAG Performance

RAG性能：

检索不相关的文档
获取过时或错误的信息
LLM完全忽略检索的上下文并幻觉化答案

⚡ Trajectory Efficiency

轨迹效率：

暴露低效的资源分配
过多的API调用
高延迟
冗余努力

🛡️ Robustness

鲁棒性：

未处理的异常
优雅失败能力
错误恢复机制

🤝 Multi-Agent Dynamics

多智能体动态：

评估必须包括智能体间通信日志
检查误解或通信循环
确保智能体遵守定义的角色而不与其他智能体冲突

诊断能力：通过分析轨迹,我们可以从"最终答案是错误的"（黑盒）移动到"最终答案是错误的,因为..."（玻璃盒）。这种诊断能力是Agent评估的整个目标

评估者：智能体评判的人员和内容The Evaluators: The Who and What of Agent Judgment

混合方法：自动化系统提供规模,但人工判断仍然是质量的关键仲裁者

三种评估方法

🤖 Automated Metrics

自动化指标：

提供速度和可重复性
适用于回归测试和基准测试
示例：ROUGE、BLEU、BERTScore
高效但浅层：捕获表面相似性,而非深层推理或用户价值

🎯 LLM-as-a-Judge

LLM作为评估者：

使用强大的LLM评估另一个智能体的输出
可扩展、快速、令人惊讶地细致
特别适用于中间步骤（如智能体"思考"的质量）
不替代人工判断,但使迭代评估过程可行

👥 Human-in-the-Loop

人工评估（HITL）：

捕获自动化系统错过的关键定性信号和细致判断
领域专业知识
解释细微差别
创建"黄金集"

自动化指标Automated Metrics

特点：提供速度和可重复性,适用于回归测试和基准测试

常用指标类型

📝 String-based Similarity

基于字符串的相似性：

ROUGE：用于评估摘要质量
BLEU：用于评估机器翻译
将生成文本与参考进行比较
基于n-gram重叠

🔢 Embedding-based Similarity

基于嵌入的相似性：

BERTScore：基于BERT的评估
Cosine Similarity：余弦相似度
测量语义接近度
捕获深层语义相似性

🎯 Task-specific Benchmarks

任务特定基准：

TruthfulQA：评估模型是否模仿人类虚假信息
其他特定领域的评估数据集

局限性：指标高效但浅层,捕获表面相似性而非深层推理或用户价值。应作为趋势指标而非绝对质量衡量标准

LLM作为评估者范式The LLM-as-a-Judge Paradigm

核心思想：使用我们正在评估的相同技术 - 使用强大的LLM评估另一个智能体的输出

实施方法

📋 输入给评估者LLM：

智能体的输出
原始提示
"黄金"答案或参考（如果存在）
详细的评估标准

📊 评估标准示例：

"在1-5分范围内评估此响应的有用性、正确性和安全性"
"解释你的推理"
评估中间步骤（如智能体"思考"的质量）

优势：可扩展、快速、令人惊讶地细致。使数据科学团队能够快速评估数千个场景的性能,使迭代评估过程可行

最佳实践：优先使用成对比较而非单次评分以缓解偏差。运行两个不同智能体版本,生成"答案A"和"答案B",然后让LLM评估者选择更好的一个

智能体作为评估者Agent-as-a-Judge

新兴范式：使用一个智能体评估另一个智能体的完整执行轨迹

与LLM-as-a-Judge的区别

🎯 LLM-as-a-Judge

仅评估输出：

对最终响应进行评分
关注结果质量
适用于端到端评估

🔍 Agent-as-a-Judge

评估过程：

评估完整执行轨迹
评估推理和行动
适用于过程评估

关键评估维度

📋 Plan Quality

计划质量：

计划逻辑结构是否合理？
是否可行？

🔧 Tool Use

工具使用：

是否选择了正确的工具？
是否正确应用？

🧠 Context Handling

上下文处理：

智能体是否有效使用了先前的信息？

价值：特别适用于过程评估,失败通常来自有缺陷的中间步骤而非最终输出

人在环路(HITL)评估Human-in-the-Loop (HITL) Evaluation

不可替代的价值：捕获自动化系统错过的关键定性信号和细致判断

HITL的核心功能

🎓 Domain Expertise

领域专业知识：

对于专业智能体（医疗、法律、金融）
利用领域专家评估事实正确性
确保遵守特定行业标准

🎨 Interpreting Nuance

解释细微差别：

判断定义高质量交互的微妙品质
语气、创造力、用户意图
复杂的伦理对齐

🏆 Creating the "Golden Set"

创建"黄金集"：

人工必须建立"黄金标准"基准
策划全面的评估集
定义成功目标
构建健壮的测试用例套件

重要理念：人工评级不是提供完美的"客观基本事实"。对于高度主观的任务,完美的注释者间一致性很少见。HITL是建立人工校准基准的不可或缺的方法论

用户反馈和审核者界面User Feedback and Reviewer UI

实时反馈：每个交互都是有用性、清晰度和信任的信号

反馈类型

👍 Qualitative Signals

定性信号：

点赞/点踩
快速滑块
简短评论

📊 Quantitative Metrics

定量指标：

编码智能体的PR接受率
旅行智能体的成功预订完成率
产品内成功指标

最佳实践

⚡ Low-friction Feedback

低摩擦反馈：

点赞/点踩
快速滑块
简短评论

📋 Context-rich Review

上下文丰富的审查：

反馈应与完整对话配对
包括智能体的推理轨迹

🖥️ Reviewer UI

审查用户界面：

双面板界面
左侧：对话
右侧：推理步骤
内联标签

超越性能：负责任AI(RAI)和安全评估Beyond Performance: Responsible AI (RAI) & Safety Evaluation

不可协商的门槛：一个100%有效但造成伤害的智能体是完全失败的

安全评估的三个关键方面

🔴 Systematic Red Teaming

系统性红队测试：

主动尝试使用对抗性场景破坏智能体
尝试生成仇恨言论
揭示私人信息
传播有害刻板印象
诱导智能体进行恶意行动

🛡️ Automated Filters & Human Review

自动化过滤器与人工审查：

实施技术过滤器以捕获策略违规
与人工审查相结合
自动化单独可能无法捕获偏见或毒性的细微形式

📜 Adherence to Guidelines

遵守准则：

明确评估智能体输出
对照预定义的道德准则和原则
确保对齐
防止意外后果

关键区别：性能指标告诉我们智能体能否完成工作,但安全评估告诉我们它是否应该完成工作

可观测性：洞察智能体内部思维Observability: Seeing Inside the Agent's Mind

从监控到可观测性：AI智能体是一种新型软件,它们不只是遵循指令,而是做出决策

厨房类比

👨‍🍳 Traditional Software = Line Cook

传统软件 = 快餐厨师

有层压的食谱卡
步骤是刚性和确定性的
烤面包30秒,烤汉堡90秒
监控是检查清单
验证已知、可预测的过程

👨‍🍳 AI Agent = Gourmet Chef

AI智能体 = 美食大厨

给定目标（"创建惊人的甜点"）
一篮子食材（用户提示、数据、可用工具）
没有单一的正确食谱
可观测性是美食评论家的评判
需要理解过程和推理

核心转变：从"智能体在运行吗？"转向"智能体在有效思考吗？"

可观测性的三大支柱The Three Pillars of Observability

获取"思维过程"：我们不能直接读取智能体的思维,但可以分析它留下的证据

📋 Logs

日志
智能体的日记
原子事实记录

🔍 Traces

追踪
叙事线索
连接因果关系

📊 Metrics

指标
健康报告
聚合性能评分

图：可观测性的三大支柱

协同工作：三大支柱协同工作,将原始数据转化为完整的图景,让我们从品尝最终菜肴转向批评整个烹饪表演

支柱1：日志记录 – 智能体的日记Pillar 1: Logging – The Agent's Diary

定义：日志是可观测性的原子单位,是智能体日记中的时间戳条目

什么是有效的日志？

📝 Beyond print()

超越print()：

使用结构化JSON格式
Google Cloud Logging等托管服务
存储、搜索和分析日志数据
运行SQL查询以发现趋势

🔧 Best-in-Class Framework

一流框架：

ADK基于Python标准logging模块
配置所需细节级别
生产环境：INFO消息
开发环境：DEBUG消息

关键日志条目的组成部分

📋 Core Information

核心信息：

提示/响应对
中间推理步骤
结构化工具调用
智能体内部状态变化

⚖️ The Tradeoff

权衡：

Verbosity vs Performance
详细DEBUG日志对开发有利
生产环境中可能太嘈杂
结构化日志允许高效过滤

🎯 Applied Tip

应用技巧：

在行动前记录智能体意图
在行动后记录结果
立即阐明失败尝试和故意不行动的区别

支柱2：追踪 – 跟随智能体的足迹Pillar 2: Tracing – Following the Agent's Footsteps

定义：如果日志是日记条目,追踪就是将它们连接成连贯故事的叙事线索

为什么追踪不可或缺？

📄 Isolated Logs

孤立日志：

ERROR: RAG搜索失败
ERROR: LLM响应验证失败
看到错误,但根本原因不清楚

🔍 A Trace

追踪：

用户查询 → RAG搜索（失败）→ 故障工具调用（接收空输入）→ LLM错误（被不良工具输出困惑）→ 错误最终答案
揭示完整的因果链
根本原因立即显而易见

Agent追踪的关键元素

📋 Spans

跨度：

追踪中的单个命名操作
例如：llm_call、tool_execution

🏷️ Attributes

属性：

附加到每个跨度的丰富元数据
prompt_id、latency_ms、token_count、user_id

🔗 Context Propagation

上下文传播：

通过唯一trace_id链接跨度的"魔法"
允许后端组装完整图景

支柱3：指标 – 智能体的健康报告Pillar 3: Metrics – The Agent's Health Report

定义：指标是定量的、聚合的健康评分,提供对智能体整体性能的即时、一目了然的了解

指标分类

📊 System Metrics

系统指标：

直接可测量的运营健康
从日志和追踪的属性计算
智能体的生命体征：脉搏、温度、血压
通过聚合函数（平均、求和、百分位数）计算

🎯 Quality Metrics

质量指标：

更复杂、评估性的指标
评估智能体推理和最终输出质量
二阶指标
在原始可观测性数据之上应用判断框架

关键洞察：指标不是新的数据源。它们是通过随时间聚合日志和追踪的数据得出的。它们回答的问题是"平均来说,性能进行得如何？"

系统指标：生命体征System Metrics: The Vital Signs

系统指标：运营健康的基础定量衡量标准

关键系统指标

⚡ Performance

性能：

Latency (P50/P99)：通过聚合追踪的duration_ms属性计算
典型和最坏情况用户体验

💰 Cost

成本：

Tokens per Task：所有追踪中token_count属性的平均值
API Cost per Run：结合token计数和模型定价

✅ Effectiveness

效果性：

Task Completion Rate：成功到达指定"成功"跨度的追踪百分比
Tool Usage Frequency：每个工具作为跨度名称出现的次数

❌ Error Rate

错误率：包含error=true属性的跨度的追踪百分比

用途：这些指标对于运营、设置警报和管理智能体机队的成本和性能至关重要

质量指标：评判决策制定Quality Metrics: Judging the Decision-Making

质量指标：评估智能体推理和最终输出质量的二阶指标

关键质量指标

✅ Correctness & Accuracy

正确性与准确性：

智能体是否提供了事实正确的答案？
如果它总结了文档,摘要是否忠实于源？

📋 Trajectory Adherence

轨迹遵循度：

智能体是否遵循了预定路径或"理想配方"？
是否按正确顺序调用了正确的工具？

🛡️ Safety & Responsibility

安全性与责任：

智能体的响应是否避免了有害、偏见或不当内容？

😊 Helpfulness & Relevance

有用性与相关性：

智能体的最终响应是否真的对用户有帮助？
是否与他们的查询相关？

实施挑战：生成这些指标需要简单的数据库查询。通常涉及将智能体输出与"黄金"数据集进行比较,或使用复杂的LLM-as-a-Judge根据标准对响应进行评分

整合一切：从原始数据到可操作的洞察Putting It All Together: From Raw Data to Actionable Insights

实际组装：将可观测性数据转化为实时操作和洞察

三个关键运营实践

📊 Dashboards & Alerting

仪表板与警报：

Operational Dashboards：系统健康（P99延迟、错误率、API成本、token消耗）
Quality Dashboards：智能体有效性（事实正确性、轨迹遵循度、有用性评分、幻觉率）

🔒 Security & PII

安全与PII：

不可协商的生产运营方面
用户输入包含PII
健壮的PII清理机制
集成到日志记录管道中

⚖️ Granularity vs Overhead

粒度与开销：

Dynamic Sampling：动态采样
开发环境：高粒度日志（DEBUG级别）
生产环境：较低默认日志级别（INFO）
追踪10%的成功请求,100%的错误

最佳实践：战略平衡。为指标提供广泛的性能数据,同时仍捕获调试每个失败所需的丰富诊断细节

结论：在自主世界中建立信任Conclusion: Building Trust in an Autonomous World

核心挑战：AI智能体的非确定性和自主性质打破了传统的软件质量模型

我们的旅程

🎯 Four Pillars

四大支柱：

Effectiveness
Cost-Efficiency
Safety
User Trust

👁️ Observability

可观测性：

Logs
Traces
Metrics
"眼睛和耳朵"

🎨 Evaluation

评估：

Outside-In框架
LLM-as-a-Judge
Human-in-the-Loop

下一步：将这些原则运营化。通过强大的CI/CD管道、安全的推出策略和可扩展的基础设施,在生产环境中成功运行经过评估的智能体

智能体质量飞轮The Agent Quality Flywheel

核心理念：一个优秀的智能体不仅执行,它还会改进

Step 1
Define Quality
定义质量

→

Step 2
Instrument for Visibility
为可见性而装备

→

Step 3
Evaluate the Process
评估过程

→

Step 4
Architect the Feedback Loop
构建反馈循环

图：Agent质量飞轮

工作原理：就像启动一个巨大的重型飞轮。第一次推动是最难的。但结构化的评估实践提供了随后的、一致的推动。每次推动都增加动量,直到轮子以不可阻挡的力量旋转,创造质量和信任的良性循环

构建可信智能体的三大核心原则Three Core Principles for Building Trustworthy Agents

如果你从本文档中只记住一件事,那就是这三个原则

🏗️ Principle 1

将评估视为架构支柱,而非最终步骤

不要构建智能体然后添加传感器
从一开始就设计遥测端口
可靠的智能体是"可评估设计"
从第一行代码开始装备以发出日志和追踪
质量是架构选择,而非最终QA阶段

🔍 Principle 2

轨迹即真相

最终答案只是长故事的最后一句话
智能体逻辑、安全性和效率的真正衡量在于其端到端"思维过程" - 轨迹
这是过程评估
只有通过深度可观测性实践才可能实现

👤 Principle 3

人类是仲裁者

自动化是我们扩展的工具
人性是我们真理的来源
LLM-as-a-Judge和安全分类器至关重要
"好"的基本定义、细致输出的验证、安全和公平性的最终判断必须锚定于人类价值观
AI可以帮助评分测试,但人类编写标准并决定"A+"真正意味着什么

未来是智能体的 - 而且可靠的The Future is Agentic - and Reliable

我们正处于智能体时代的黎明

巨大的机遇

创建能够推理、规划和行动的AI将是我们这个时代最具变革性的技术转变之一

巨大的责任

但伴随巨大力量而来的是构建值得我们信任的系统的深刻责任

竞争优势

❌ 失败路径

继续将智能体质量视为事后考虑
陷入承诺的演示和失败的部署循环

✅ 成功路径

投资于这种严格的、架构集成的评估方法
超越炒作,部署真正变革性的企业级AI系统
掌握"评估工程" - 下一波AI的关键差异化因素

最终目标：不仅构建工作的智能体,而是构建值得信赖的智能体。这种信任不是希望或偶然的问题,它是在持续、全面和架构合理的评估的熔炉中锻造的

参考文献References

学术论文、书籍和正式报告

Lewis et al. (2020) - Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks
Lin et al. (2022) - TruthfulQA: Measuring how models mimic human falsehoods
Li et al. (2024) - From Generation to Judgment: Opportunities and Challenges of LLM-as-a-judge
Zhuge et al. (2024) - Agent-as-a-Judge: Evaluate Agents with Agents
Amodei et al. (2016) - Concrete Problems in AI Safety
NIST (2023) - AI Risk Management Framework (AI RMF 1.0)

网络文章、博客文章和一般网页

Bunnyshell - LLM-as-a-Judge: How AI Can Evaluate AI Faster and Smarter
Coralogix - OpenTelemetry for AI: Tracing Prompts, Tools, and Inferences
Dynatrace - What is OpenTelemetry?
Galileo - Comprehensive Guide to LLM-as-a-Judge Evaluation
IBM - What is LLM Observability?
MIT Sloan - When AI Gets It Wrong: Addressing AI Hallucinations and Bias

致谢Acknowledgements

📝 Content Contributors

内容贡献者：

Hussain Chinoy
Ale Fin
Peter Grabowski
Michelle Liu
Anant Nawalgaria
Kanchana Patlolla
Steven Pecht
Julia Wiesinger

✏️ Curators and Editors

策划人和编辑：

Anant Nawalgaria
Kanchana Patlolla

🎨 Designer

设计师：

Michael Lanning

🎉

感谢所有为本文档做出贡献的人员

The future is agentic - and reliable
未来是智能体化的 - 并且可靠

智能体质量Agent Quality

Agent质量

目录

第一部分:基础概念

第二部分:质量框架

第三部分:评估与观测

第四部分:结论

介绍Introduction

三个核心信息

📋 The Trajectory is the Truth

👁️ Observability is the Foundation

🔄 Evaluation is a Continuous Loop

如何阅读本文档How to Read This Whitepaper

👥 For All Readers

📊 For Product Managers, Data Scientists, QA Leaders

🔧 For Engineers, Architects, SREs

🎯 For Team Leads and Strategists

非确定性世界中的智能体质量Agent Quality in a Non-Deterministic World

传统软件 vs AI智能体

🚚 传统软件

🏎️ AI智能体

为什么智能体质量需要新方法Why Agent Quality Demands a New Approach

传统 vs AI失败模式

❌ 传统软件失败

⚠️ AI智能体失败

Agent失败模式Agent Failure Modes

1️⃣ Algorithmic Bias - 算法偏见

2️⃣ Factual Hallucination - 事实幻觉

3️⃣ Performance & Concept Drift

4️⃣ Emergent Unintended Behaviors

范式转变：从可预测代码到不可预测智能体The Paradigm Shift: From Predictable Code to Unpredictable Agents

演进阶段

1. 传统机器学习

2. 被动LLM

3. LLM+RAG

4. 主动AI智能体

主动智能体的三大核心能力Three Core Capabilities of Active Agents

🎯 Planning and Multi-Step Reasoning

🔧 Tool Use and Function Calling

🧠 Memory

多智能体系统Multi-Agent Systems

新的根本性挑战

🌀 Emergent System Failures

⚔️ Cooperative vs Competitive Evaluation

Agent质量的四大支柱The Pillars of Agent Quality

🎯 Effectiveness

⚡ Efficiency

🛡️ Robustness

🔒 Safety & Alignment

智能体评估的艺术：评判过程The Art of Agent Evaluation: Judging the Process

📝 Traditional Testing

🎨 Agent Evaluation

"由外而内"评估层次The "Outside-In" Evaluation Hierarchy

Step 1: The Black Box

Step 2: The Glass Box

"由外而内"视角：端到端评估The "Outside-In" View: End-to-End Evaluation

黑盒评估指标

✅ Task Success Rate

😊 User Satisfaction

📊 Overall Quality

"由内而外"视角：轨迹评估The "Inside-Out" View: Trajectory Evaluation

轨迹评估的六个维度

🧠 LLM Planning

🔧 Tool Usage

👁️ Tool Response Interpretation

轨迹评估（续）Trajectory Evaluation (Continued)

📚 RAG Performance

⚡ Trajectory Efficiency

🛡️ Robustness

🤝 Multi-Agent Dynamics

评估者：智能体评判的人员和内容The Evaluators: The Who and What of Agent Judgment

三种评估方法

🤖 Automated Metrics

🎯 LLM-as-a-Judge

👥 Human-in-the-Loop

自动化指标Automated Metrics

常用指标类型

📝 String-based Similarity

🔢 Embedding-based Similarity

🎯 Task-specific Benchmarks