智能体质量Agent Quality

Agent质量

作者:Meltem Subasioglu, Turan Bulmus, 和 Wafae Bakkali

发布日期:2025年11月

🤖

在非确定性世界中构建值得信赖的AI智能体

探索AI智能体质量评估、可观测性和持续改进的完整框架

目录

第一部分:基础概念

  • Introduction - 介绍
  • How to Read This Whitepaper - 如何阅读本文档

第二部分:质量框架

  • Agent Quality in a Non-Deterministic World
  • The Paradigm Shift - 范式转变
  • The Pillars of Agent Quality - Agent质量的四大支柱

第三部分:评估与观测

  • The Art of Agent Evaluation - Agent评估的艺术
  • Observability - 可观测性
  • The Three Pillars of Observability

第四部分:结论

  • Conclusion - 结论
  • The Agent Quality Flywheel
  • Three Core Principles
  • References - 参考文献

介绍Introduction

核心目标:本文档作为实践指南,帮助架构师、工程师和产品领导者构建可靠、值得信赖的AI智能体

三个核心信息

📋 The Trajectory is the Truth

轨迹即真相:

  • 必须超越仅评估最终输出
  • 真正的质量评估在于整个决策过程
  • 从验证转向验证与评估并重

👁️ Observability is the Foundation

可观测性是基础:

  • 无法评估你看不到的过程
  • 三大支柱:Logging、Tracing、Metrics
  • 捕获智能体"思维过程"的技术基础

🔄 Evaluation is a Continuous Loop

评估是持续循环:

  • Agent Quality Flywheel
  • 混合方法:AI评估器+人工评估
  • 将数据转化为可操作的洞察

核心理念:AI的未来是智能体化的,其成功取决于质量

如何阅读本文档How to Read This Whitepaper

本文档结构从"为什么"到"什么"再到"如何",根据你的角色选择重点章节

👥 For All Readers

所有读者:

  • Chapter 1开始
  • 了解核心问题
  • 理解传统QA为何失败
  • 学习四大支柱框架

📊 For Product Managers, Data Scientists, QA Leaders

产品经理、数据科学家、QA负责人:

  • 重点阅读Chapter 2
  • 学习"Outside-In"评估层次
  • 理解LLM-as-a-Judge范式
  • 掌握HITL评估的关键作用

🔧 For Engineers, Architects, SREs

工程师、架构师、SRE:

  • 重点阅读Chapter 3
  • 学习可观测性的三大支柱
  • 理解Monitoring vs Observability
  • 掌握Logs、Traces、Metrics工具

🎯 For Team Leads and Strategists

团队负责人、战略师:

  • 重点阅读Chapter 4
  • 理解Agent Quality Flywheel
  • 学习三大核心原则
  • 掌握持续改进的运营手册

非确定性世界中的智能体质量Agent Quality in a Non-Deterministic World

背景:AI世界正全速转型,从构建可预测的工具转向设计自主的智能体

传统软件 vs AI智能体

🚚 传统软件

Delivery Truck(配送卡车)

  • 遵循固定路线
  • 基本检查清单
  • 确定性行为
  • "引擎启动了吗?"、"遵循固定路线了吗?"

🏎️ AI智能体

Formula 1 Race Car(一级方程式赛车)

  • 复杂自主系统
  • 动态判断
  • 需要持续遥测
  • 评估每个决策的质量

关键挑战:智能体的失败不是代码bug,而是判断缺陷。传统QA无法应对这种非确定性行为

为什么智能体质量需要新方法Why Agent Quality Demands a New Approach

传统软件验证:"我们正确地构建产品了吗?" - 验证逻辑是否符合固定规范

现代AI评估:"我们构建了正确的产品吗?" - 评估质量、鲁棒性和可信度

传统 vs AI失败模式

❌ 传统软件失败

  • 系统崩溃
  • 抛出NullPointerException
  • 返回明显错误的计算
  • 明显、确定性、可追踪
  • 可定位到特定逻辑错误

⚠️ AI智能体失败

  • 质量细微退化
  • 系统继续运行
  • API返回200 OK
  • 输出看似合理但完全错误
  • 无声地侵蚀信任

关键洞察:AI智能体的失败是隐蔽的、非确定性的,需要全新的质量保证方法

Agent失败模式Agent Failure Modes

四种主要失败模式:

1️⃣ Algorithmic Bias - 算法偏见

定义:智能体操作化并可能放大训练数据中存在的系统性偏见

  • 导致不公平或歧视性结果
  • 示例:金融风控智能体过度惩罚基于邮编的贷款申请

2️⃣ Factual Hallucination - 事实幻觉

定义:智能体生成听起来合理但事实错误或虚构的信息

  • 高度自信地输出错误内容
  • 示例:研究工具生成完全虚假的历史日期或地理位置

3️⃣ Performance & Concept Drift

定义:智能体性能随时间退化

  • 真实世界数据("概念")变化导致原始训练过时
  • 示例:欺诈检测智能体无法识别新的攻击模式

4️⃣ Emergent Unintended Behaviors

定义:智能体发展出新颖或未预料的策略

  • 可能低效、无益或具有剥削性
  • 示例:发现并利用系统规则漏洞,与其他bot进行"代理人战争"

范式转变:从可预测代码到不可预测智能体The Paradigm Shift: From Predictable Code to Unpredictable Agents

核心挑战:从模型中心AI到系统中心AI的演进

演进阶段

1. 传统机器学习

Traditional Machine Learning

  • 评估回归或分类模型
  • 统计指标:Precision、Recall、F1-Score、RMSE
  • 问题复杂但定义清晰

2. 被动LLM

The Passive LLM

  • 生成模型失去简单指标
  • 输出是概率性的
  • 依赖人工评估和模型对比
  • 文本输入、文本输出

3. LLM+RAG

Retrieval-Augmented Generation

  • 多组件管道
  • 失败可能在LLM或检索系统
  • 评估表面扩展到chunking、embeddings、retrievers

4. 主动AI智能体

The Active AI Agent

  • LLM是复杂系统中的推理"大脑"
  • 三大核心能力打破评估模型
  • 规划与多步推理
  • 工具使用与函数调用
  • 记忆

主动智能体的三大核心能力Three Core Capabilities of Active Agents

主动AI智能体的三大核心能力打破了传统的评估模型

🎯 Planning and Multi-Step Reasoning

规划与多步推理:

  • 将复杂目标("计划我的旅行")分解为多个子任务
  • 创建轨迹(Thought → Action → Observation → Thought...)
  • LLM的非确定性在每一步都复合
  • 步骤1的微小随机选择可能导致步骤4完全不同的推理路径

🔧 Tool Use and Function Calling

工具使用与函数调用:

  • 通过API和外部工具与真实世界交互
  • 引入动态环境交互
  • 智能体的下一个行动完全取决于外部、不可控世界的状态
  • 代码解释器、搜索引擎、预订API

🧠 Memory

记忆:

  • 智能体维护状态
  • 短期"草稿板"记忆跟踪当前任务
  • 长期记忆允许智能体从过去交互中学习
  • 行为会演化,昨天有效的输入今天可能产生不同结果

多智能体系统Multi-Agent Systems

终极架构复杂性:多个主动智能体集成到共享环境中

新的根本性挑战

🌀 Emergent System Failures

涌现系统失败:

  • 系统成功取决于智能体间无脚本交互
  • 资源竞争、通信瓶颈、系统性死锁
  • 无法归因于单个智能体的失败
  • 需要评估系统级涌现现象

⚔️ Cooperative vs Competitive Evaluation

合作 vs 竞争评估:

  • 合作MAS:(如供应链优化)成功是全局指标
  • 竞争MAS:(如博弈论或拍卖系统)需要跟踪个体性能和市场稳定性
  • 目标函数本身可能变得模糊

关键结论:评估单元不再是模型,而是整个系统轨迹。智能体的涌现行为来自规划模块、工具、记忆和动态环境的复杂交互

Agent质量的四大支柱The Pillars of Agent Quality

"Outside-In"方法:以用户为中心的指标和高层业务目标为锚点

🎯 Effectiveness

效果性(目标达成):

  • 智能体是否成功、准确地实现了用户的实际意图?
  • 连接以用户为中心的指标和业务KPI
  • 零售智能体:不仅是"找到产品",而是"驱动转化"
  • 数据分析智能体:不仅是"编写代码",而是"代码产生正确洞察"

⚡ Efficiency

效率性(运营成本):

  • 智能体是否很好地解决了问题?
  • 即使成功,25步、5次失败工具调用、3次自我修正也是低质量
  • 消耗的资源:总token(成本)、实际时间(延迟)、轨迹复杂度(总步数)

🛡️ Robustness

鲁棒性(可靠性):

  • 智能体如何处理逆境和真实世界的混乱?
  • API超时、网站布局变化、数据缺失、用户提示模糊
  • 优雅失败:重试失败调用、请求澄清、报告无法完成的原因

🔒 Safety & Alignment

安全性与对齐(可信度):

  • 不可协商的门槛
  • 智能体是否在定义的道德边界和约束内运行?
  • 包括RAI指标(公平性、偏见)、安全(提示注入、数据泄露)

智能体评估的艺术:评判过程The Art of Agent Evaluation: Judging the Process

从测试到评估:

📝 Traditional Testing

传统测试:

  • 确定性过程
  • 验证(Verification)
  • 问题:"我们正确地构建产品了吗?"
  • 依据固定规范验证逻辑

🎨 Agent Evaluation

Agent评估:

  • 整体过程
  • 验证(Validation)
  • 问题:"我们构建了正确的产品吗?"
  • 评估动态世界中智能体的整体质量、鲁棒性和用户价值

核心转变:必须从"测试"输出转向"评估"过程。判断智能体从初始意图到最终结果的整个决策轨迹

"由外而内"评估层次The "Outside-In" Evaluation Hierarchy

战略框架:避免迷失在组件级指标的海洋中,评估必须是自上而下的战略过程

Step 1: The Black Box

黑盒视图
端到端评估
"智能体实现了用户目标吗?"

Step 2: The Glass Box

玻璃盒视图
轨迹评估
分析每个组件的执行轨迹

图:"Outside-In"评估层次框架

关键原则:首先评估最重要的指标 - 真实世界成功 - 然后深入分析技术细节

"由外而内"视角:端到端评估The "Outside-In" View: End-to-End Evaluation

首要问题:"智能体是否有效实现了用户的目标?"

黑盒评估指标

✅ Task Success Rate

任务成功率:

  • 最终输出是否正确、完整并解决了用户的实际问题?
  • 二元(或分级)评分
  • 示例:编码智能体的PR接受率、金融智能体的成功交易率、客服机器人的会话完成率

😊 User Satisfaction

用户满意度:

  • 直接用户反馈评分
  • 点赞/点踩
  • 客户满意度评分(CSAT)

📊 Overall Quality

整体质量:

  • 定量目标的准确性或完整性
  • 示例:总结10篇文章时,是否总结了全部10篇?

评估流程:如果智能体在此阶段得分100%,工作可能完成。但在复杂系统中很少如此。当智能体产生有缺陷的最终输出、放弃任务或无法收敛时,黑盒视图告诉我们哪里出了问题

"由内而外"视角:轨迹评估The "Inside-Out" View: Trajectory Evaluation

玻璃盒视图:分析智能体的方法,系统评估其执行轨迹的每个组件

轨迹评估的六个维度

🧠 LLM Planning

LLM规划("思考"):

  • LLM本身是问题吗?
  • 幻觉、无意义或离题响应
  • 上下文污染、重复输出循环

🔧 Tool Usage

工具使用(选择与参数化):

  • 调用错误的工具
  • 未调用必要的工具
  • 幻觉工具名称或参数
  • 提供缺失参数、错误数据类型或格式错误的JSON

👁️ Tool Response Interpretation

工具响应解释("观察"):

  • 智能体必须理解结果
  • 错误解释数值数据
  • 未能从响应中提取关键实体
  • 未识别工具返回的错误状态

轨迹评估(续)Trajectory Evaluation (Continued)

📚 RAG Performance

RAG性能:

  • 检索不相关的文档
  • 获取过时或错误的信息
  • LLM完全忽略检索的上下文并幻觉化答案

⚡ Trajectory Efficiency

轨迹效率:

  • 暴露低效的资源分配
  • 过多的API调用
  • 高延迟
  • 冗余努力

🛡️ Robustness

鲁棒性:

  • 未处理的异常
  • 优雅失败能力
  • 错误恢复机制

🤝 Multi-Agent Dynamics

多智能体动态:

  • 评估必须包括智能体间通信日志
  • 检查误解或通信循环
  • 确保智能体遵守定义的角色而不与其他智能体冲突

诊断能力:通过分析轨迹,我们可以从"最终答案是错误的"(黑盒)移动到"最终答案是错误的,因为..."(玻璃盒)。这种诊断能力是Agent评估的整个目标

评估者:智能体评判的人员和内容The Evaluators: The Who and What of Agent Judgment

混合方法:自动化系统提供规模,但人工判断仍然是质量的关键仲裁者

三种评估方法

🤖 Automated Metrics

自动化指标:

  • 提供速度和可重复性
  • 适用于回归测试和基准测试
  • 示例:ROUGE、BLEU、BERTScore
  • 高效但浅层:捕获表面相似性,而非深层推理或用户价值

🎯 LLM-as-a-Judge

LLM作为评估者:

  • 使用强大的LLM评估另一个智能体的输出
  • 可扩展、快速、令人惊讶地细致
  • 特别适用于中间步骤(如智能体"思考"的质量)
  • 不替代人工判断,但使迭代评估过程可行

👥 Human-in-the-Loop

人工评估(HITL):

  • 捕获自动化系统错过的关键定性信号和细致判断
  • 领域专业知识
  • 解释细微差别
  • 创建"黄金集"

自动化指标Automated Metrics

特点:提供速度和可重复性,适用于回归测试和基准测试

常用指标类型

📝 String-based Similarity

基于字符串的相似性:

  • ROUGE:用于评估摘要质量
  • BLEU:用于评估机器翻译
  • 将生成文本与参考进行比较
  • 基于n-gram重叠

🔢 Embedding-based Similarity

基于嵌入的相似性:

  • BERTScore:基于BERT的评估
  • Cosine Similarity:余弦相似度
  • 测量语义接近度
  • 捕获深层语义相似性

🎯 Task-specific Benchmarks

任务特定基准:

  • TruthfulQA:评估模型是否模仿人类虚假信息
  • 其他特定领域的评估数据集

局限性:指标高效但浅层,捕获表面相似性而非深层推理或用户价值。应作为趋势指标而非绝对质量衡量标准

LLM作为评估者范式The LLM-as-a-Judge Paradigm

核心思想:使用我们正在评估的相同技术 - 使用强大的LLM评估另一个智能体的输出

实施方法

📋 输入给评估者LLM:

  • 智能体的输出
  • 原始提示
  • "黄金"答案或参考(如果存在)
  • 详细的评估标准

📊 评估标准示例:

  • "在1-5分范围内评估此响应的有用性、正确性和安全性"
  • "解释你的推理"
  • 评估中间步骤(如智能体"思考"的质量)

优势:可扩展、快速、令人惊讶地细致。使数据科学团队能够快速评估数千个场景的性能,使迭代评估过程可行

最佳实践:优先使用成对比较而非单次评分以缓解偏差。运行两个不同智能体版本,生成"答案A"和"答案B",然后让LLM评估者选择更好的一个

智能体作为评估者Agent-as-a-Judge

新兴范式:使用一个智能体评估另一个智能体的完整执行轨迹

与LLM-as-a-Judge的区别

🎯 LLM-as-a-Judge

仅评估输出:

  • 对最终响应进行评分
  • 关注结果质量
  • 适用于端到端评估

🔍 Agent-as-a-Judge

评估过程:

  • 评估完整执行轨迹
  • 评估推理和行动
  • 适用于过程评估

关键评估维度

📋 Plan Quality

计划质量:

  • 计划逻辑结构是否合理?
  • 是否可行?

🔧 Tool Use

工具使用:

  • 是否选择了正确的工具?
  • 是否正确应用?

🧠 Context Handling

上下文处理:

  • 智能体是否有效使用了先前的信息?

价值:特别适用于过程评估,失败通常来自有缺陷的中间步骤而非最终输出

人在环路(HITL)评估Human-in-the-Loop (HITL) Evaluation

不可替代的价值:捕获自动化系统错过的关键定性信号和细致判断

HITL的核心功能

🎓 Domain Expertise

领域专业知识:

  • 对于专业智能体(医疗、法律、金融)
  • 利用领域专家评估事实正确性
  • 确保遵守特定行业标准

🎨 Interpreting Nuance

解释细微差别:

  • 判断定义高质量交互的微妙品质
  • 语气、创造力、用户意图
  • 复杂的伦理对齐

🏆 Creating the "Golden Set"

创建"黄金集":

  • 人工必须建立"黄金标准"基准
  • 策划全面的评估集
  • 定义成功目标
  • 构建健壮的测试用例套件

重要理念:人工评级不是提供完美的"客观基本事实"。对于高度主观的任务,完美的注释者间一致性很少见。HITL是建立人工校准基准的不可或缺的方法论

用户反馈和审核者界面User Feedback and Reviewer UI

实时反馈:每个交互都是有用性、清晰度和信任的信号

反馈类型

👍 Qualitative Signals

定性信号:

  • 点赞/点踩
  • 快速滑块
  • 简短评论

📊 Quantitative Metrics

定量指标:

  • 编码智能体的PR接受率
  • 旅行智能体的成功预订完成率
  • 产品内成功指标

最佳实践

⚡ Low-friction Feedback

低摩擦反馈:

  • 点赞/点踩
  • 快速滑块
  • 简短评论

📋 Context-rich Review

上下文丰富的审查:

  • 反馈应与完整对话配对
  • 包括智能体的推理轨迹

🖥️ Reviewer UI

审查用户界面:

  • 双面板界面
  • 左侧:对话
  • 右侧:推理步骤
  • 内联标签

超越性能:负责任AI(RAI)和安全评估Beyond Performance: Responsible AI (RAI) & Safety Evaluation

不可协商的门槛:一个100%有效但造成伤害的智能体是完全失败的

安全评估的三个关键方面

🔴 Systematic Red Teaming

系统性红队测试:

  • 主动尝试使用对抗性场景破坏智能体
  • 尝试生成仇恨言论
  • 揭示私人信息
  • 传播有害刻板印象
  • 诱导智能体进行恶意行动

🛡️ Automated Filters & Human Review

自动化过滤器与人工审查:

  • 实施技术过滤器以捕获策略违规
  • 与人工审查相结合
  • 自动化单独可能无法捕获偏见或毒性的细微形式

📜 Adherence to Guidelines

遵守准则:

  • 明确评估智能体输出
  • 对照预定义的道德准则和原则
  • 确保对齐
  • 防止意外后果

关键区别:性能指标告诉我们智能体能否完成工作,但安全评估告诉我们它是否应该完成工作

可观测性:洞察智能体内部思维Observability: Seeing Inside the Agent's Mind

从监控到可观测性:AI智能体是一种新型软件,它们不只是遵循指令,而是做出决策

厨房类比

👨‍🍳 Traditional Software = Line Cook

传统软件 = 快餐厨师

  • 有层压的食谱卡
  • 步骤是刚性和确定性的
  • 烤面包30秒,烤汉堡90秒
  • 监控是检查清单
  • 验证已知、可预测的过程

👨‍🍳 AI Agent = Gourmet Chef

AI智能体 = 美食大厨

  • 给定目标("创建惊人的甜点")
  • 一篮子食材(用户提示、数据、可用工具)
  • 没有单一的正确食谱
  • 可观测性是美食评论家的评判
  • 需要理解过程和推理

核心转变:从"智能体在运行吗?"转向"智能体在有效思考吗?"

可观测性的三大支柱The Three Pillars of Observability

获取"思维过程":我们不能直接读取智能体的思维,但可以分析它留下的证据

📋 Logs

日志
智能体的日记
原子事实记录

🔍 Traces

追踪
叙事线索
连接因果关系

📊 Metrics

指标
健康报告
聚合性能评分

图:可观测性的三大支柱

协同工作:三大支柱协同工作,将原始数据转化为完整的图景,让我们从品尝最终菜肴转向批评整个烹饪表演

支柱1:日志记录 – 智能体的日记Pillar 1: Logging – The Agent's Diary

定义:日志是可观测性的原子单位,是智能体日记中的时间戳条目

什么是有效的日志?

📝 Beyond print()

超越print():

  • 使用结构化JSON格式
  • Google Cloud Logging等托管服务
  • 存储、搜索和分析日志数据
  • 运行SQL查询以发现趋势

🔧 Best-in-Class Framework

一流框架:

  • ADK基于Python标准logging模块
  • 配置所需细节级别
  • 生产环境:INFO消息
  • 开发环境:DEBUG消息

关键日志条目的组成部分

📋 Core Information

核心信息:

  • 提示/响应对
  • 中间推理步骤
  • 结构化工具调用
  • 智能体内部状态变化

⚖️ The Tradeoff

权衡:

  • Verbosity vs Performance
  • 详细DEBUG日志对开发有利
  • 生产环境中可能太嘈杂
  • 结构化日志允许高效过滤

🎯 Applied Tip

应用技巧:

  • 在行动前记录智能体意图
  • 在行动后记录结果
  • 立即阐明失败尝试和故意不行动的区别

支柱2:追踪 – 跟随智能体的足迹Pillar 2: Tracing – Following the Agent's Footsteps

定义:如果日志是日记条目,追踪就是将它们连接成连贯故事的叙事线索

为什么追踪不可或缺?

📄 Isolated Logs

孤立日志:

  • ERROR: RAG搜索失败
  • ERROR: LLM响应验证失败
  • 看到错误,但根本原因不清楚

🔍 A Trace

追踪:

  • 用户查询 → RAG搜索(失败)→ 故障工具调用(接收空输入)→ LLM错误(被不良工具输出困惑)→ 错误最终答案
  • 揭示完整的因果链
  • 根本原因立即显而易见

Agent追踪的关键元素

📋 Spans

跨度:

  • 追踪中的单个命名操作
  • 例如:llm_call、tool_execution

🏷️ Attributes

属性:

  • 附加到每个跨度的丰富元数据
  • prompt_id、latency_ms、token_count、user_id

🔗 Context Propagation

上下文传播:

  • 通过唯一trace_id链接跨度的"魔法"
  • 允许后端组装完整图景

支柱3:指标 – 智能体的健康报告Pillar 3: Metrics – The Agent's Health Report

定义:指标是定量的、聚合的健康评分,提供对智能体整体性能的即时、一目了然的了解

指标分类

📊 System Metrics

系统指标:

  • 直接可测量的运营健康
  • 从日志和追踪的属性计算
  • 智能体的生命体征:脉搏、温度、血压
  • 通过聚合函数(平均、求和、百分位数)计算

🎯 Quality Metrics

质量指标:

  • 更复杂、评估性的指标
  • 评估智能体推理和最终输出质量
  • 二阶指标
  • 在原始可观测性数据之上应用判断框架

关键洞察:指标不是新的数据源。它们是通过随时间聚合日志和追踪的数据得出的。它们回答的问题是"平均来说,性能进行得如何?"

系统指标:生命体征System Metrics: The Vital Signs

系统指标:运营健康的基础定量衡量标准

关键系统指标

⚡ Performance

性能:

  • Latency (P50/P99):通过聚合追踪的duration_ms属性计算
  • 典型和最坏情况用户体验

💰 Cost

成本:

  • Tokens per Task:所有追踪中token_count属性的平均值
  • API Cost per Run:结合token计数和模型定价

✅ Effectiveness

效果性:

  • Task Completion Rate:成功到达指定"成功"跨度的追踪百分比
  • Tool Usage Frequency:每个工具作为跨度名称出现的次数

❌ Error Rate

错误率:包含error=true属性的跨度的追踪百分比

用途:这些指标对于运营、设置警报和管理智能体机队的成本和性能至关重要

质量指标:评判决策制定Quality Metrics: Judging the Decision-Making

质量指标:评估智能体推理和最终输出质量的二阶指标

关键质量指标

✅ Correctness & Accuracy

正确性与准确性:

  • 智能体是否提供了事实正确的答案?
  • 如果它总结了文档,摘要是否忠实于源?

📋 Trajectory Adherence

轨迹遵循度:

  • 智能体是否遵循了预定路径或"理想配方"?
  • 是否按正确顺序调用了正确的工具?

🛡️ Safety & Responsibility

安全性与责任:

  • 智能体的响应是否避免了有害、偏见或不当内容?

😊 Helpfulness & Relevance

有用性与相关性:

  • 智能体的最终响应是否真的对用户有帮助?
  • 是否与他们的查询相关?

实施挑战:生成这些指标需要简单的数据库查询。通常涉及将智能体输出与"黄金"数据集进行比较,或使用复杂的LLM-as-a-Judge根据标准对响应进行评分

整合一切:从原始数据到可操作的洞察Putting It All Together: From Raw Data to Actionable Insights

实际组装:将可观测性数据转化为实时操作和洞察

三个关键运营实践

📊 Dashboards & Alerting

仪表板与警报:

  • Operational Dashboards:系统健康(P99延迟、错误率、API成本、token消耗)
  • Quality Dashboards:智能体有效性(事实正确性、轨迹遵循度、有用性评分、幻觉率)

🔒 Security & PII

安全与PII:

  • 不可协商的生产运营方面
  • 用户输入包含PII
  • 健壮的PII清理机制
  • 集成到日志记录管道中

⚖️ Granularity vs Overhead

粒度与开销:

  • Dynamic Sampling:动态采样
  • 开发环境:高粒度日志(DEBUG级别)
  • 生产环境:较低默认日志级别(INFO)
  • 追踪10%的成功请求,100%的错误

最佳实践:战略平衡。为指标提供广泛的性能数据,同时仍捕获调试每个失败所需的丰富诊断细节

结论:在自主世界中建立信任Conclusion: Building Trust in an Autonomous World

核心挑战:AI智能体的非确定性和自主性质打破了传统的软件质量模型

我们的旅程

🎯 Four Pillars

四大支柱:

  • Effectiveness
  • Cost-Efficiency
  • Safety
  • User Trust

👁️ Observability

可观测性:

  • Logs
  • Traces
  • Metrics
  • "眼睛和耳朵"

🎨 Evaluation

评估:

  • Outside-In框架
  • LLM-as-a-Judge
  • Human-in-the-Loop

下一步:将这些原则运营化。通过强大的CI/CD管道、安全的推出策略和可扩展的基础设施,在生产环境中成功运行经过评估的智能体

智能体质量飞轮The Agent Quality Flywheel

核心理念:一个优秀的智能体不仅执行,它还会改进

Step 1
Define Quality
定义质量

Step 2
Instrument for Visibility
为可见性而装备

Step 3
Evaluate the Process
评估过程

Step 4
Architect the Feedback Loop
构建反馈循环

图:Agent质量飞轮

工作原理:就像启动一个巨大的重型飞轮。第一次推动是最难的。但结构化的评估实践提供了随后的、一致的推动。每次推动都增加动量,直到轮子以不可阻挡的力量旋转,创造质量和信任的良性循环

构建可信智能体的三大核心原则Three Core Principles for Building Trustworthy Agents

如果你从本文档中只记住一件事,那就是这三个原则

🏗️ Principle 1

将评估视为架构支柱,而非最终步骤

  • 不要构建智能体然后添加传感器
  • 从一开始就设计遥测端口
  • 可靠的智能体是"可评估设计"
  • 从第一行代码开始装备以发出日志和追踪
  • 质量是架构选择,而非最终QA阶段

🔍 Principle 2

轨迹即真相

  • 最终答案只是长故事的最后一句话
  • 智能体逻辑、安全性和效率的真正衡量在于其端到端"思维过程" - 轨迹
  • 这是过程评估
  • 只有通过深度可观测性实践才可能实现

👤 Principle 3

人类是仲裁者

  • 自动化是我们扩展的工具
  • 人性是我们真理的来源
  • LLM-as-a-Judge和安全分类器至关重要
  • "好"的基本定义、细致输出的验证、安全和公平性的最终判断必须锚定于人类价值观
  • AI可以帮助评分测试,但人类编写标准并决定"A+"真正意味着什么

未来是智能体的 - 而且可靠的The Future is Agentic - and Reliable

我们正处于智能体时代的黎明

巨大的机遇

创建能够推理、规划和行动的AI将是我们这个时代最具变革性的技术转变之一

巨大的责任

但伴随巨大力量而来的是构建值得我们信任的系统的深刻责任

竞争优势

❌ 失败路径

  • 继续将智能体质量视为事后考虑
  • 陷入承诺的演示和失败的部署循环

✅ 成功路径

  • 投资于这种严格的、架构集成的评估方法
  • 超越炒作,部署真正变革性的企业级AI系统
  • 掌握"评估工程" - 下一波AI的关键差异化因素

最终目标:不仅构建工作的智能体,而是构建值得信赖的智能体。这种信任不是希望或偶然的问题,它是在持续、全面和架构合理的评估的熔炉中锻造的

参考文献References

学术论文、书籍和正式报告

  • Lewis et al. (2020) - Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks
  • Lin et al. (2022) - TruthfulQA: Measuring how models mimic human falsehoods
  • Li et al. (2024) - From Generation to Judgment: Opportunities and Challenges of LLM-as-a-judge
  • Zhuge et al. (2024) - Agent-as-a-Judge: Evaluate Agents with Agents
  • Amodei et al. (2016) - Concrete Problems in AI Safety
  • NIST (2023) - AI Risk Management Framework (AI RMF 1.0)

网络文章、博客文章和一般网页

  • Bunnyshell - LLM-as-a-Judge: How AI Can Evaluate AI Faster and Smarter
  • Coralogix - OpenTelemetry for AI: Tracing Prompts, Tools, and Inferences
  • Dynatrace - What is OpenTelemetry?
  • Galileo - Comprehensive Guide to LLM-as-a-Judge Evaluation
  • IBM - What is LLM Observability?
  • MIT Sloan - When AI Gets It Wrong: Addressing AI Hallucinations and Bias

致谢Acknowledgements

📝 Content Contributors

内容贡献者:

  • Hussain Chinoy
  • Ale Fin
  • Peter Grabowski
  • Michelle Liu
  • Anant Nawalgaria
  • Kanchana Patlolla
  • Steven Pecht
  • Julia Wiesinger

✏️ Curators and Editors

策划人和编辑:

  • Anant Nawalgaria
  • Kanchana Patlolla

🎨 Designer

设计师:

  • Michael Lanning
🎉

感谢所有为本文档做出贡献的人员

The future is agentic - and reliable
未来是智能体化的 - 并且可靠

1 / 37

目录