智能体介绍Introduction to Agents

作者:Alan Blount, Antonio Gulli, Shubham Saboo, Michael Zimmermann, 和 Vladimir Vuskovic

发布日期:2025年11月

🤖

从预测AI到自主智能体

探索智能体架构、设计和部署的全面指南

目录

第一部分:基础概念

  • 从预测AI到自主智能体
  • AI智能体介绍
  • 智能体问题解决过程
  • 智能体系统分类

第二部分:核心架构

  • 核心智能体架构
  • 模型(大脑)
  • 工具(手)
  • 编排层(神经系统)
  • 核心设计选择

第三部分:部署和运维

  • 智能体部署和服务
  • Agent Ops
  • 衡量重要指标
  • 使用OpenTelemetry跟踪调试

第四部分:高级主题

  • 智能体互操作性
  • 保护单个智能体
  • 扩展到企业级舰队
  • 智能体如何学习和进化
  • 高级智能体示例

从预测AI到自主智能体From Predictive AI to Autonomous Agents

范式转变:人工智能正在发生变化。多年来,重点一直放在擅长被动、离散任务的模型上:回答问题、翻译文本或从提示生成图像

传统AI范式

📝 被动任务

特点:

  • 回答问题
  • 翻译文本
  • 生成图像
  • 需要持续的人类指导

🎯 局限性

问题:

  • 模型本身无法独立工作
  • 每一步都需要人工干预
  • 无法自主解决问题

新范式:我们正在看到一个范式转变,从只是预测或创建内容的AI转向一类能够自主解决问题和执行任务的新软件。这个新前沿围绕AI智能体构建

什么是智能体?What is an Agent?

定义:智能体不仅仅是在静态工作流中的AI模型;它是一个完整的应用程序,制定计划并采取行动以实现目标

智能体的核心能力

🧠 推理能力

Reasoning:

  • 结合语言模型(LM)的推理能力
  • 处理信息
  • 评估选项
  • 做出决策

🖐️ 行动能力

Acting:

  • 结合实际行动能力
  • 处理复杂、多步骤任务
  • 模型本身无法完成的任务

关键特性:智能体的关键能力是它可以自主工作,弄清楚实现目标所需的下一步,而无需人在每个转弯处指导它

本质:智能体是语言模型的自然进化,在软件中变得有用

文档范围Document Scope

目标:本文档是五部分系列中的第一部分,作为从概念验证转向稳健、生产级智能体系统的开发人员、架构师和产品领导者的正式指南

核心内容

🔧 Core Anatomy

核心解剖:

  • 将智能体解构为三个基本组件
  • 推理模型
  • 可操作工具
  • 治理编排层

📊 A Taxonomy of Capabilities

能力分类:

  • 从简单的连接问题解决者
  • 到复杂的多智能体系统
  • 分类智能体系统

🏗️ Architectural Design

架构设计:

  • 深入每个组件的实际设计考虑
  • 从模型选择到工具实现

🚀 Building for Production

构建生产级系统:建立Agent Ops学科,用于评估、调试、保护和扩展智能体系统,从单个实例到具有企业治理的舰队

AI智能体介绍Introduction to AI Agents

定义:在最简单的术语中,AI智能体可以定义为模型、工具、编排层和运行时服务的组合,它使用LM在循环中实现目标

四个基本元素

🧠 The Model (The "Brain")

模型(大脑):

  • 核心语言模型(LM)或基础模型
  • 作为智能体的中央推理引擎
  • 处理信息、评估选项和做出决策
  • 模型类型决定智能体的认知能力

🖐️ Tools (The "Hands")

工具(手):

  • 将智能体的推理与外部世界连接起来
  • 启用文本生成之外的操作
  • 包括API扩展、代码函数和数据存储
  • 访问实时、事实信息

🔗 The Orchestration Layer (The "Nervous System")

编排层(神经系统):

  • 管理智能体操作循环的治理过程
  • 处理规划、记忆(状态)和推理策略执行
  • 使用提示框架和推理技术
  • 决定何时思考与使用工具

🏃 Deployment (The "Body and Legs")

部署(身体和腿):

  • 在生产环境中部署智能体
  • 托管在安全、可扩展的服务器上
  • 集成监控、日志记录和管理服务
  • 通过图形界面或A2A API访问

开发范式转变Paradigm Shift in Development

归根结底,构建生成式AI智能体是一种开发解决方案以完成任务的新方式

传统开发者 vs 智能体开发者

🧱 Traditional Developer

传统开发者:

  • 像"砌砖工人"
  • 精确定义每个逻辑步骤
  • 为每个操作编写显式代码
  • 确定性方法

🎬 Agent Developer

智能体开发者:

  • 更像"导演"
  • 设置场景(指导指令和提示)
  • 选择演员(工具和API)
  • 提供必要的上下文(数据)

核心任务:主要任务变成引导这个自主"演员"交付预期的性能

上下文工程:我们过去称之为"提示工程",现在称之为"上下文工程",指导LM生成所需的输出

智能体问题解决过程The Agentic Problem-Solving Process

定义:我们将AI智能体定义为完整的、面向目标的应用程序,它集成了推理模型、可操作工具和治理编排层。简短版本是"LM在循环中使用工具以实现目标"

核心问题

问题:这个系统实际上是如何工作的?智能体从收到请求到交付结果的时刻做了什么?

核心循环:在核心,智能体在一个连续、循环的过程中运行以实现其目标。虽然这个循环可能变得非常复杂,但它可以分解为五个基本步骤

本质:智能体是一个致力于上下文窗口策展艺术的系统。它是一个无情的循环:组装上下文、提示模型、观察结果,然后为下一步重新组装上下文

五步循环The 5-Step Loop

概述:智能体操作循环可以分解为五个基本步骤

1️⃣ Get the Mission

获取任务:

  • 过程由特定的、高级目标启动
  • 由用户提供
  • 或由自动化触发

2️⃣ Scan the Scene

扫描场景:

  • 智能体感知其环境以收集上下文
  • 访问可用资源
  • 了解用户请求
  • 检查记忆和工具

3️⃣ Think It Through

思考:

  • 智能体的核心"思考"循环
  • 分析任务与场景
  • 制定计划
  • 推理链

4️⃣ Take Action

采取行动:

  • 编排层执行计划的第一步
  • 选择并调用适当的工具
  • 调用API、运行代码或查询数据库
  • 智能体对世界采取行动

5️⃣ Observe and Iterate

观察和迭代:

  • 智能体观察其行动的结果
  • 新信息添加到智能体的上下文或"记忆"
  • 循环重复
  • 返回步骤3

示例:客户支持智能体Example: Customer Support Agent

场景:想象一个用户问:"我的订单#12345在哪里?"

智能体的执行过程

思考阶段:智能体首先进入其"思考"阶段以制定完整策略

  • 识别:必须在内部数据库中找到订单以确认其存在并获取详细信息
  • 跟踪:从这些详细信息中,提取承运商的跟踪号码。然后查询外部承运商API以获取实时状态
  • 报告:将收集的信息综合成清晰、有帮助的响应给用户

执行:有了这个多步骤计划,智能体开始执行。调用find_order("12345")工具,观察结果(包括跟踪号码"ZYX987"),然后调用get_shipping_status("ZYX987")工具,观察新结果:"Out for Delivery"

最终响应:"您的订单#12345是'Out for Delivery'!"

智能体系统分类A Taxonomy of Agentic Systems

分类的重要性:理解5步操作循环只是谜题的第一部分。第二部分是认识到这个循环可以扩展复杂性以创建不同类别的智能体

关键决策

架构师或产品领导者的关键初始决策:确定构建什么类型的智能体

分类方法:我们可以将智能体系统分为几个广泛的级别,每个级别都建立在前一个级别的能力之上

级别:Level 0到Level 4,每个级别代表智能体能力的不同复杂度和自主性水平

Level 0:核心推理系统Level 0: The Core Reasoning System

定义:在我们拥有智能体之前,我们必须从"大脑"的最基本形式开始:推理引擎本身

Level 0的特点

✅ 优势

能力:

  • 语言模型(LM)独立运行
  • 仅基于其大量预训练知识响应
  • 没有工具、记忆或与实时环境的交互
  • 可以解释既定概念
  • 深入规划如何解决问题

❌ 局限性

限制:

  • 完全缺乏实时意识
  • 功能上对其训练数据之外的任何事件或事实都是"盲目"的
  • 无法回答训练数据收集后发生的具体现实世界事件

示例:它可以解释职业棒球的规则和纽约洋基队的完整历史。但如果你问:"昨晚洋基队比赛的最终比分是多少?",它将无法回答

Level 1:连接的问题解决者Level 1: The Connected Problem-Solver

定义:在这个级别,推理引擎通过连接和利用外部工具——我们架构的"手"组件——成为一个功能智能体

Level 1的能力

突破:智能体的问题解决不再局限于其静态、预训练的知识。使用5步循环,智能体现在可以回答我们之前的问题

示例:给定"任务":"昨晚洋基队比赛的最终比分是多少?",其"思考"步骤认识到这是实时数据需求。其"行动"步骤然后调用工具,如带有适当日期和搜索词的Google Search API。它"观察"搜索结果(例如,"洋基队5-3获胜"),并将该事实综合成最终答案

核心能力:与世界交互的基本能力——无论是使用搜索工具获取比分、金融API获取实时股票价格,还是通过检索增强生成(RAG)查询数据库——是Level 1智能体的核心能力

Level 2:战略问题解决者Level 2: The Strategic Problem-Solver

定义:Level 2标志着能力的重大扩展,从执行简单任务转向战略性地规划复杂、多部分目标

关键技能:上下文工程

上下文工程:智能体主动选择、包装和管理其计划每个步骤的最相关信息的能力

重要性:智能体的准确性取决于专注、高质量的上下文。上下文工程策展模型的有限注意力,以防止过载并确保高效性能

示例:任务:"在我的办公室(1600 Amphitheatre Parkway, Mountain View)和客户办公室(1 Market St, San Francisco)之间找到一个好的咖啡店"

战略规划还允许主动协助,例如,一个智能体阅读长航班确认电子邮件,工程关键上下文(航班号码、日期),并通过将其添加到日历来行动

Level 3:协作多智能体系统Level 3: The Collaborative Multi-Agent System

范式转变:在最高级别,范式完全转变。我们远离构建单一的、全能的"超级智能体",转向"专家团队"协同工作,一个直接镜像人类组织的模型

系统优势

集体力量:系统的集体力量在于这种劳动分工

核心概念:在这里,智能体将其他智能体视为工具。想象一个"项目经理"智能体收到"任务":"推出我们新的'Solaris'耳机"

👥 团队协作

  • 委托给MarketResearchAgent
  • 委托给MarketingAgent
  • 委托给WebDevAgent

🎯 目标

  • 分析竞争对手定价
  • 起草新闻稿
  • 生成产品页面HTML

前沿:这种协作模型代表了从头到尾自动化整个、复杂业务工作流程的前沿

Level 4:自我进化系统Level 4: The Self-Evolving System

定义:Level 4代表了从委托到自主创造和适应的深刻飞跃。在这个级别,智能体系统可以识别其自身能力中的差距,并动态创建新工具甚至新智能体来填补它们

自主进化

转变:从使用固定资源集到主动扩展它们

示例:"项目经理"智能体,负责'Solaris'推出,可能意识到它需要监控社交媒体情绪,但其团队上不存在这样的工具或智能体

过程:

  • 思考(元推理):"我必须跟踪'Solaris'的社交媒体热度,但我缺乏这种能力"
  • 行动(自主创建):调用高级AgentCreator工具,创建一个新的SentimentAnalysisAgent
  • 观察:新的、专门的智能体被创建、测试并即时添加到团队中

意义:这种自主性,系统可以动态扩展其自身能力,将智能体团队转变为真正的学习和进化组织

核心智能体架构Core Agent Architecture

概述:我们知道智能体做什么以及它如何扩展。但我们实际上如何构建它?从概念到代码的转变在于其三个核心组件的特定架构设计

三个核心组件

🧠 Model

模型(大脑):

  • LM是智能体的推理核心
  • 选择是关键架构决策
  • 决定认知能力、运营成本和速度

🖐️ Tools

工具(手):

  • 工具是将推理连接到现实的手
  • 允许智能体超越静态训练数据
  • 检索实时信息并在世界中采取行动

🔗 Orchestration Layer

编排层(神经系统):

  • 连接模型和工具的中央神经系统
  • 运行"思考、行动、观察"循环的引擎
  • 管理智能体行为的状态机

模型:AI智能体的"大脑"Model: The "Brain" of your AI Agent

重要性:LM是智能体的推理核心,其选择是关键架构决策,决定智能体的认知能力、运营成本和速度

常见错误

错误方法:将此选择视为简单地选择具有最高基准分数的模型是通往失败的常见路径。智能体在生产环境中的成功很少由通用学术基准决定

正确方法:现实世界的成功需要一个在智能体基础方面表现出色的模型:卓越的推理以导航复杂、多步骤的问题,以及可靠的工具使用以与世界交互

最佳实践:从定义业务问题开始,然后根据直接映射到该结果的指标测试模型。"最佳"模型是在质量、速度和价格的最佳交叉点上为你的特定任务服务的模型

多模型策略Multi-Model Strategy

策略:你可能选择不止一个模型,一个"专家团队"。你不会用大锤砸坚果

模型路由

示例:一个稳健的智能体架构可能使用像Gemini 2.5 Pro这样的前沿模型来进行初始规划和复杂推理的繁重工作,但随后智能地将更简单、高容量的任务——如分类用户意图或总结文本——路由到更快、更具成本效益的模型,如Gemini 2.5 Flash

优势:模型路由可能是自动的或硬编码的,但它是优化性能和成本的关键策略

多模态处理:同样的原则适用于处理不同的数据类型。虽然像Gemini live mode这样的原生多模态模型提供了处理图像和音频的简化路径,但另一种选择是使用专门的工具,如Cloud Vision API或Speech-to-Text API

工具:AI智能体的"手"Tools: The "Hands" of your AI Agent

定义:如果模型是智能体的大脑,工具是将推理连接到现实的手。它们允许智能体超越静态训练数据以检索实时信息并在世界中采取行动

主要工具类型

📚 Retrieving Information

检索信息:

  • 访问最新信息的能力
  • RAG(检索增强生成)
  • 向量数据库或知识图谱
  • NL2SQL工具

⚡ Executing Actions

执行操作:

  • 从读取信息到主动做事
  • 包装现有API和代码函数
  • 发送电子邮件、安排会议
  • 编写和执行代码

👤 Human Interaction

人机交互:

  • Human in the Loop (HITL)工具
  • 暂停工作流程并请求确认
  • 从用户界面请求特定信息
  • 确保人在关键决策中参与

函数调用:将工具连接到智能体Function Calling: Connecting Tools to your Agent

要求:为了让智能体可靠地进行"函数调用"并使用工具,它需要清晰的指令、安全的连接和编排

标准和协议

📋 OpenAPI Specification

OpenAPI规范:

  • 长期标准
  • 提供结构化契约
  • 描述工具目的、必需参数和预期响应
  • 让模型每次都生成正确的函数调用

🔗 Model Context Protocol (MCP)

模型上下文协议:

  • 开放标准
  • 更方便的工具发现和连接
  • 变得流行

原生工具:一些模型有原生工具,如带有原生Google Search的Gemini,其中函数调用作为LM调用本身的一部分发生

编排层The Orchestration Layer

定义:如果模型是智能体的大脑,工具是它的手,编排层是连接它们的中央神经系统

编排层的作用

核心功能:

  • 运行"思考、行动、观察"循环的引擎
  • 管理智能体行为的状态机
  • 开发者精心制作的逻辑得以实现的地方
  • 决定模型何时应该推理
  • 决定哪个工具应该行动
  • 决定该行动的结果如何告知下一步

本质:这一层不仅仅是管道;它是整个智能体交响乐的指挥家

核心设计选择Core Design Choices

第一个架构决策:确定智能体的自主程度。选择存在于一个光谱上

自主程度光谱

📋 Deterministic Workflows

确定性工作流:

  • 光谱的一端
  • 确定性、可预测的工作流
  • 将LM作为特定任务的工具调用
  • 一点AI来增强现有流程

🤖 LM in the Driver's Seat

LM在驾驶座上:

  • 光谱的另一端
  • LM在驾驶座上
  • 动态适应、规划和执行任务
  • 实现目标

实现方法:并行选择是实施方法。无代码构建器提供速度和可访问性。对于更复杂、任务关键型系统,代码优先框架(如Google的Agent Development Kit (ADK))提供深度控制

生产级框架要求Production-Grade Framework Requirements

关键要求:无论采用何种方法,生产级框架都是必不可少的

框架必须具备的特性

🔓 Open

开放性:

  • 允许插入任何模型或工具
  • 防止供应商锁定

🎯 Precise Control

精确控制:

  • 启用混合方法
  • LM的非确定性推理由硬编码业务规则管理

👁️ Observability

可观察性:

  • 为可观察性而构建
  • 生成详细的跟踪和日志
  • 暴露整个推理轨迹

🔍 Debugging Support

调试支持:

  • 模型的内部独白
  • 它选择的工具
  • 它生成的参数
  • 它观察到的结果

使用领域知识和人设进行指导Instruct with Domain Knowledge and Persona

最强大的杠杆:在这个框架内,开发者最强大的杠杆是用领域知识和独特的人设指导智能体

系统提示

实现方式:这是通过系统提示或一组核心指令完成的。这不仅仅是一个简单的命令;它是智能体的宪法

内容:在这里,你告诉它,"你是Acme Corp的有用客户支持智能体..."并提供约束、期望的输出模式、参与规则、特定的语气,以及关于何时以及为什么应该使用其工具的明确指导。指令中的几个示例场景通常非常有效

重要性:系统提示定义了智能体的身份、行为和边界

使用上下文增强Augment with Context

智能体的"记忆":智能体的"记忆"在运行时被编排到LM上下文窗口中

记忆类型

📝 Short-term Memory

短期记忆:

  • 智能体的活动"草稿板"
  • 维护当前对话的运行历史
  • 跟踪来自持续循环的(行动、观察)对序列
  • 提供模型决定下一步所需的直接上下文
  • 可以实现为状态、工件、会话或线程等抽象

📚 Long-term Memory

长期记忆:

  • 跨会话提供持久性
  • 几乎总是实现为另一个专门的工具
  • 连接到向量数据库或搜索引擎的RAG系统
  • 允许智能体预取并主动查询其自己的历史
  • "记住"用户偏好或类似任务的结果

个性化体验:为真正个性化和连续的体验

多智能体系统和设计模式Multi-Agent Systems and Design Patterns

挑战:随着任务复杂性的增长,构建单一的、全能的"超级智能体"变得低效

专家团队方法

更有效的解决方案:采用"专家团队"方法,这镜像了人类组织

多智能体系统:复杂过程被分割成离散的子任务,每个子任务都分配给专门的、专注的AI智能体。这种劳动分工允许每个智能体更简单、更专注、更容易构建、测试和维护

设计模式:架构师可以依赖经过验证的智能体设计模式,尽管智能体能力因此模式正在快速演变

智能体设计模式Agentic Design Patterns

关键模式

🎯 Coordinator Pattern

协调器模式:

  • 对于动态或非线性任务至关重要
  • 引入"经理"智能体
  • 分析复杂请求
  • 分割主要任务
  • 智能地将每个子任务路由到适当的专家智能体
  • 聚合响应以制定最终、全面的答案

📋 Sequential Pattern

顺序模式:

  • 更适合更线性工作流
  • 像数字装配线
  • 一个智能体的输出成为下一个的直接输入

🔄 Iterative Refinement Pattern

迭代改进模式:

  • 关注质量和安全
  • 创建反馈循环
  • 使用"生成器"智能体创建内容
  • 使用"评论家"智能体根据质量标准进行评估

👤 Human-in-the-Loop (HITL) Pattern

人机循环模式:对于高风险任务至关重要,在工作流程中创建故意暂停,在智能体采取重大行动之前获得人的批准

智能体部署和服务Agent Deployment and Services

概述:在本地构建智能体后,您希望将其部署到服务器上,在那里它一直运行,其他人和智能体可以使用它

部署要求

比喻:继续我们的比喻,部署和服务将是我们的智能体的身体和腿

智能体所需的服务:

  • 会话历史和记忆持久化
  • 监控、日志记录和管理
  • 决定记录什么
  • 为数据隐私、数据驻留和法规合规性采取的安全措施

部署选项:智能体构建者可以依赖数十年的应用程序托管基础设施。有专门的、特定于智能体的部署选项,如Vertex AI Agent Engine,支持运行时和所有其他内容在一个平台上

Agent Ops:处理不可预测性的结构化方法Agent Ops: A Structured Approach to the Unpredictable

新挑战:当您构建第一个智能体时,您将反复手动测试行为。添加功能时是否工作?修复错误时是否导致了不同的问题?

范式转变

转变:从传统的、确定性软件到随机的、智能体系统的转变需要新的操作哲学

传统测试的局限性:传统软件单元测试可以简单地断言output == expected;但这在智能体的响应在设计上是概率性的情况下不起作用

Agent Ops:Agent Ops是管理这种新现实的纪律、结构化方法。它是DevOps和MLOps的自然演变,专门用于构建、部署和治理AI智能体的独特挑战

衡量重要指标:像A/B实验一样装备成功Measure What Matters: Instrumenting Success Like an A/B Experiment

第一步:在改进智能体之前,您必须在业务上下文中定义"更好"意味着什么

可观察性策略

方法:将可观察性策略框架化为A/B测试,并问自己:证明智能体正在交付价值的关键绩效指标(KPI)是什么?

指标应该超越技术正确性:

  • 目标完成率
  • 用户满意度分数
  • 任务延迟
  • 每次交互的运营成本
  • 对业务目标的影响(收入、转化或客户保留)

自上而下的视图:将指导其余的测试,使您走上指标驱动开发的道路,并让您能够计算投资回报率

质量而非通过/失败:使用LM评估器Quality Instead of Pass/Fail: Using a LM Judge

挑战:业务指标不能告诉您智能体是否正确行为。由于简单的通过/失败是不可能的,我们转向使用"LM作为评估器"来评估质量

LM评估器

方法:这涉及使用强大的模型根据预定义的评分标准评估智能体的输出:它是否给出了正确的答案?响应是否基于事实?它是否遵循了指令?

自动化评估:这种自动化评估,针对提示的黄金数据集运行,提供了一致的质量衡量

评估数据集:创建评估数据集——包括理想(或"黄金")问题和正确响应——可能是一个乏味的过程。要构建这些,您应该从智能体的现有生产或开发交互中采样场景

指标驱动开发:您的部署Go/No-GoMetrics-Driven Development: Your Go/No-Go for Deployment

流程:一旦您自动化了数十个评估场景并建立了可信的质量分数,您可以自信地测试对开发智能体的更改

部署流程

简单流程:运行新版本对抗整个评估数据集,并直接将其分数与现有生产版本进行比较

稳健系统:这个稳健系统消除了猜测,确保您对每次部署都有信心

其他因素:虽然自动化评估至关重要,但不要忘记其他重要因素,如延迟、成本和任务成功率。为了最大安全,使用A/B部署缓慢推出新版本,并将这些真实世界生产指标与模拟分数进行比较

使用OpenTelemetry跟踪调试:回答"为什么?"Debug with OpenTelemetry Traces: Answering "Why?"

调试需求:当您的指标下降或用户报告错误时,您需要理解"为什么"

OpenTelemetry跟踪

定义:OpenTelemetry跟踪是智能体整个执行路径(轨迹)的高保真、逐步记录,允许您调试智能体的步骤

跟踪提供:

  • 发送到模型的确切提示
  • 模型的内部推理(如果可用)
  • 它选择调用的特定工具
  • 它为该工具生成的精确参数
  • 作为观察返回的原始数据

平台支持:跟踪数据可以在Google Cloud Trace等平台中无缝收集,这些平台可以可视化和搜索大量跟踪,简化根本原因分析

珍惜人类反馈:指导您的自动化Cherish Human Feedback: Guiding Your Automation

价值:人类反馈不是需要处理的烦恼;它是您拥有的最有价值和数据丰富的资源,用于改进智能体

反馈的价值

礼物:当用户提交错误报告或点击"向下"按钮时,他们给了您一份礼物:一个新的、现实世界的边缘案例,您的自动化评估场景错过了

闭环:有效的Agent Ops流程通过捕获此反馈、复制问题并将该特定场景转换为评估数据集中的新、永久测试用例来"闭环"

结果:这确保您不仅修复错误,而且使系统对整个类别的错误免疫,使其永远不会再发生

智能体互操作性Agent Interoperability

概述:一旦您构建了高质量智能体,您希望能够将它们与用户和其他智能体互连

互操作性的三个方面

👤 Agents and Humans

智能体与人类:

  • 最常见的智能体-人类交互形式
  • 通过用户界面
  • 聊天机器人
  • 结构化数据(JSON)
  • Human in the Loop (HITL)

🤖 Agents and Agents

智能体与智能体:

  • 智能体必须彼此连接
  • 发现和通信挑战
  • Agent2Agent (A2A)协议
  • 任务导向架构

💰 Agents and Money

智能体与金钱:

  • 购买或销售任务
  • 谈判或促进交易
  • 授权、真实性和问责制
  • Agent Payments Protocol (AP2)

智能体与人类Agents and Humans

用户界面:最常见的智能体-人类交互形式是通过用户界面

交互类型

💬 Chatbot

聊天机器人:

  • 最简单的形式
  • 用户输入请求
  • 智能体作为后端服务处理
  • 返回文本块

📊 Structured Data

结构化数据:

  • 更高级的智能体
  • 提供结构化数据,如JSON
  • 支持丰富、动态的前端体验

Computer Use:计算机使用是LM控制用户界面的工具类别,通常有人类交互和监督。启用了计算机使用的智能体可以决定下一个最佳操作是导航到新页面、突出显示特定按钮或用相关信息预填充表单

Gemini Live API:实时多模态通信Gemini Live API: Real-time Multimodal Communication

突破:高级智能体正在打破文本障碍,进入与"实时模式"的实时、多模态通信,创造更自然、类似人类的连接

Gemini Live API的能力

双向流式传输:

  • 允许用户与智能体交谈并中断它
  • 就像他们在自然对话中一样
  • 访问设备的摄像头和麦克风
  • 智能体可以看到用户所看到的
  • 听到用户所说的
  • 以模仿人类对话的延迟用生成的语音响应

用例:这开启了大量用例,从技术人员在修理设备时获得免提指导,到购物者获得实时风格建议。它使智能体成为更直观和可访问的合作伙伴

智能体与智能体Agents and Agents

挑战:就像智能体必须与人类连接一样,它们也必须彼此连接

核心挑战

🔍 Discovery

发现:

  • 我的智能体如何找到其他智能体
  • 知道它们能做什么?

💬 Communication

通信:

  • 我们如何确保它们说相同的语言?

Agent2Agent (A2A)协议:为解决这个问题而设计的开放标准。它充当智能体经济的通用握手。A2A允许任何智能体发布数字"名片",称为Agent Card

Agent Card:这个简单的JSON文件宣传智能体的能力、其网络端点和与其交互所需的安全凭据

智能体与金钱Agents and Money

新挑战:随着AI智能体为我们做更多任务,其中一些任务涉及购买或销售、谈判或促进交易

信任危机

问题:当前网络是为人类点击"购买"而构建的,责任在人类。如果自主智能体点击"购买",它会产生信任危机——如果出了问题,谁负责?

需求:这些是授权、真实性和问责制的复杂问题。为了解锁真正的智能体经济,我们需要允许智能体代表其用户安全可靠地进行交易的新标准

关键协议:Agent Payments Protocol (AP2)和x402是为智能体经济铺平道路的两个关键协议

保护单个智能体:信任权衡Securing a Single Agent: The Trust Trade-Off

根本张力:当您创建第一个AI智能体时,您立即面临根本张力:效用与安全之间的权衡

权衡

⚡ Utility

效用:

  • 使智能体有用
  • 必须给它权力
  • 自主决策的自主权
  • 执行操作的工具

🔒 Security

安全:

  • 每一盎司权力都引入相应的风险
  • 流氓行为
  • 敏感数据泄露

挑战:您希望给智能体足够长的绳子来完成工作,但也足够短以防止它跑进交通,特别是当交通涉及不可逆转的操作或您公司的私人数据时

深度防御方法Defense-in-Depth Approach

最佳实践:要管理这一点,您不能仅依赖AI模型的判断,因为它可能被提示注入等技术操纵

混合、深度防御方法

🛡️ First Layer

第一层:

  • 传统的、确定性护栏
  • 一组硬编码规则
  • 在模型推理之外充当安全扼杀点
  • 策略引擎
  • 提供可预测、可审计的硬限制

🤖 Second Layer

第二层:

  • 基于推理的防御
  • 使用AI帮助保护AI
  • 训练模型更具弹性
  • 使用较小的、专门的"守卫模型"
  • 在执行前检查智能体的提议计划

结果:这种混合模型,结合代码的刚性确定性与AI的上下文感知,为即使是单个智能体创建了稳健的安全姿态

智能体身份:一类新的主体Agent Identity: A New Class of Principal

新类别:在传统安全模型中,有使用OAuth或SSO的人类用户,以及使用IAM或服务账户的服务。智能体添加了第3类主体

智能体作为自主行动者

定义:智能体不仅仅是一段代码;它是一个自主行动者,一类新的主体,需要其自己的可验证身份

数字护照:就像员工被发ID徽章一样,平台上的每个智能体都必须被颁发安全的、可验证的"数字护照"

独特身份:此智能体身份与调用它的用户身份和构建它的开发人员身份不同。这是企业中我们必须如何处理身份和访问管理(IAM)的根本转变

身份验证和访问控制Authentication and Access Control

基础:验证每个身份并拥有所有身份的访问控制是智能体安全的基石

最小权限原则

授权:一旦智能体具有加密可验证的身份(通常使用SPIFFE等标准),它可以被授予其自己的特定、最小权限权限

示例:SalesAgent被授予CRM的读/写访问权限,而HRonboardingAgent被明确拒绝。这种细粒度控制至关重要。它确保即使单个智能体被泄露或行为异常,潜在爆炸半径也被包含

重要性:没有智能体身份构造,智能体无法代表人类以有限的委托权限工作

策略限制访问Policies to Constrain Access

定义:策略是授权(AuthZ)的一种形式,与身份验证(AuthN)不同

策略的作用

限制能力:通常,策略限制主体的能力;例如,"营销中的用户只能访问这27个API端点,不能执行DELETE命令"

应用于智能体:随着我们开发智能体,我们需要对智能体、其工具、其他内部智能体、它们可以共享的上下文以及远程智能体应用权限

推荐方法:应用最小权限原则,同时保持上下文相关性。如果您将所有API、数据、工具和智能体添加到您的系统,那么您必须将访问限制为仅完成其工作所需的能力子集

保护ADK智能体Securing an ADK Agent

实践练习:在建立了身份和策略的核心原则后,使用Agent Development Kit (ADK)构建的智能体的安全成为通过代码和配置应用这些概念的实际练习

安全层

🔐 Identity

身份:

  • 用户账户(例如OAuth)
  • 服务账户(运行代码)
  • 智能体身份(使用委托权限)

🛡️ Policies

策略:

  • 建立策略以限制对服务的访问
  • 通常在API治理层完成
  • 支持MCP和A2A服务的治理

🔒 Guardrails

护栏:

  • 在工具、模型和子智能体中构建护栏
  • 强制执行策略
  • 工具自己的逻辑将拒绝执行不安全或违反策略的操作

使用ADK进行动态安全Dynamic Security with ADK

动态检查:对于可以适应智能体运行时行为的更动态安全,ADK提供回调和插件

安全机制

🔍 Callbacks

回调:

  • before_tool_callback
  • 在工具运行前检查参数
  • 根据智能体当前状态验证
  • 防止错位行动

🔌 Plugins

插件:

  • 构建更可重用的策略
  • "Gemini as Judge"模式
  • 使用快速、廉价的模型
  • 实时筛选用户输入和智能体输出

Model Armor:对于更喜欢完全管理的、企业级解决方案的组织,Model Armor可以作为可选服务集成。它充当专门的安全层,筛选提示和响应以应对广泛的威胁

从单个智能体扩展到企业级舰队Scaling Up from a Single Agent to an Enterprise Fleet

挑战:单个AI智能体的生产成功是一个胜利。扩展到数百个是一个架构挑战

复杂性管理

规模效应:如果您构建一两个智能体,您的担忧主要是关于安全性。如果您构建许多智能体,您必须设计系统来处理更多

智能体蔓延:就像API蔓延一样,当智能体和工具在组织中激增时,它们创建了一个新的、复杂的交互、数据流和潜在安全漏洞网络

治理层:管理这种复杂性需要一个更高阶的治理层,集成所有身份和策略,并将报告到中央控制平面

安全和隐私:加强智能体前沿Security and Privacy: Hardening the Agentic Frontier

企业级要求:企业级平台必须解决生成式AI固有的独特安全和隐私挑战,即使只运行单个智能体

新攻击向量

智能体作为攻击向量:智能体本身成为新的攻击向量。恶意行为者可以尝试提示注入劫持智能体的指令,或数据中毒破坏其用于训练或RAG的信息

深度防御策略:稳健平台提供深度防御策略来缓解这些风险。它从数据开始,确保企业的专有信息永远不会用于训练基础模型,并通过VPC Service Controls等控制进行保护

输入和输出过滤:需要输入和输出过滤,充当提示和响应的防火墙

智能体治理:控制平面而非蔓延Agent Governance: A Control Plane instead of Sprawl

智能体蔓延:随着智能体及其工具在组织中激增,它们创建了一个新的、复杂的交互和潜在漏洞网络,这通常被称为"智能体蔓延"

中央网关方法

控制平面:管理这需要超越保护单个智能体,实施更高阶的架构方法:一个中央网关,作为所有智能体活动的控制平面

比喻:想象一个熙熙攘攘的大都市,有数千辆自动驾驶汽车——用户、智能体和工具——都在有目的地移动。没有交通灯、车牌和中央控制系统,混乱将统治

网关方法:网关方法创建该控制系统,建立所有智能体流量的强制性入口点

控制平面功能Control Plane Functions

关键交叉点:通过处于这个关键交叉点,组织可以检查、路由、监控和管理每个交互

两个主要、相互关联的功能

🛡️ Runtime Policy Enforcement

运行时策略执行:

  • 充当实施安全的架构扼杀点
  • 处理身份验证("我知道这个参与者是谁吗?")
  • 授权("他们有权限这样做吗?")
  • 提供可观察性的"单一窗格"

📋 Centralized Governance

集中治理:

  • 需要真实来源
  • 中央注册表——智能体和工具的企业应用商店
  • 允许开发人员发现和重用现有资产
  • 启用正式生命周期
  • 创建细粒度策略

结果:通过结合运行时网关与中央治理注册表,组织将混乱蔓延的风险转变为管理的、安全的和高效的生态系统

成本和可靠性:基础设施基础Cost and Reliability: The Infrastructure Foundation

最终要求:企业级智能体必须既可靠又具有成本效益

基础设施要求

平衡:经常失败或提供缓慢结果的智能体具有负ROI。相反,成本过高的智能体无法扩展以满足业务需求

基础设施设计:底层基础设施必须设计为管理这种权衡,安全并符合监管和数据主权合规

可扩展性选项:在某些情况下,您需要的功能是零扩展,当您对特定智能体或子功能有不规则流量时。对于任务关键、延迟敏感的工作负载,平台必须提供专用、保证的容量

智能体如何学习和进化How Agents Evolve and Learn

动态环境:部署在现实世界中的智能体在动态环境中运行,其中策略、技术和数据格式不断变化

适应的必要性

老化问题:没有适应能力,智能体的性能会随着时间的推移而退化——一个通常被称为"老化"的过程——导致效用和信任的丧失

手动更新的挑战:手动更新大量智能体以跟上这些变化既不经济又缓慢。更可扩展的解决方案是设计能够自主学习和进化的智能体,在工作时提高其质量,只需最少的工程工作

自主进化:更可扩展的解决方案是设计能够自主学习和进化的智能体,在工作时提高其质量,只需最少的工程工作

智能体如何学习和自我进化How Agents Learn and Self Evolve

学习过程:就像人类一样,智能体从经验和外部信号中学习

学习信息来源

📊 Runtime Experience

运行时经验:

  • 从运行时工件学习
  • 会话日志、跟踪和记忆
  • 捕获成功、失败、工具交互和决策轨迹
  • 关键是Human-in-the-Loop (HITL)反馈

📚 External Signals

外部信号:

  • 学习也由新的外部文档驱动
  • 更新的企业策略
  • 公共监管指南
  • 来自其他智能体的批评

适应性技术:最成功的适应技术分为两类:增强上下文工程和工具优化与创建

适应性技术Adaptation Techniques

两类主要技术

🎯 Enhanced Context Engineering

增强上下文工程:

  • 系统持续优化其提示
  • 优化少样本示例
  • 优化从记忆中检索的信息
  • 优化为每个任务提供给LM的上下文
  • 增加成功的可能性

🔧 Tool Optimization and Creation

工具优化和创建:

  • 智能体的推理可以识别其能力中的差距
  • 采取行动填补它们
  • 获得对新工具的访问权限
  • 即时创建新工具(例如Python脚本)
  • 修改现有工具(例如更新API模式)

其他优化技术:动态重新配置多智能体设计模式或使用来自人类反馈的强化学习(RLHF)是活跃的研究领域

示例:学习新合规指南Example: Learning New Compliance Guidelines

场景:考虑在金融或生命科学等高度监管行业运营的企业智能体。其任务是生成必须遵守隐私和监管规则(例如GDPR)的报告

多智能体工作流

实现:这可以使用多智能体工作流实现:

  • Querying Agent:检索响应于用户请求的原始数据
  • Reporting Agent:将这些数据综合成草稿报告
  • Critiquing Agent:用已知的合规指南审查报告。如果遇到歧义或需要最终签署,则升级到人类领域专家
  • Learning Agent:观察整个交互,特别注意来自人类专家的纠正反馈

泛化:然后,它将此反馈泛化为新的、可重用的指南(例如,评论智能体的更新规则或报告智能体的优化上下文)

模拟和Agent Gym - 下一前沿Simulation and Agent Gym - the next frontier

新方法:我们提出的设计模式可以归类为在线学习,其中智能体需要使用它们被工程化的资源和设计模式进行学习

Agent Gym的关键属性

🚫 Not in Execution Path

不在执行路径中:

  • 独立于生产平台
  • 可以有任何LM模型的帮助
  • 离线工具、云应用等

🎮 Simulation Environment

模拟环境:

  • 提供模拟环境
  • 智能体可以在新数据上"锻炼"
  • 学习
  • 非常适合"试错"

📊 Synthetic Data Generators

合成数据生成器:

  • 调用高级合成数据生成器
  • 指导模拟尽可能真实
  • 压力测试智能体
  • 包括高级技术,如红队、动态评估和评论智能体家族

Agent Gym:高级属性Agent Gym: Advanced Attributes

更多关键属性

🔧 Flexible Arsenal

灵活的武器库:

  • 优化工具的武器库不是固定的
  • 可以采用新工具
  • 通过开放协议如MCP或A2A
  • 或在更高级的设置中
  • 学习新概念并围绕它们制作工具

👥 Human Fabric Connection

人类结构连接:

  • Agent Gym甚至可能无法克服某些边缘情况
  • 由于企业中众所周知的"部落知识"问题
  • Agent Gym能够连接到领域专家的人类结构
  • 就正确的结果集与他们协商
  • 指导下一组优化

意义:Agent Gym代表了智能体优化和进化的下一前沿,提供了专门的、离线的平台,用于高级工具和能力

高级智能体示例Examples of Advanced Agents

概述:让我们看看高级智能体系统的几个实际例子

示例智能体

🔬 Google Co-Scientist

Google Co-Scientist:

  • 虚拟研究合作者
  • 加速科学发现
  • 系统探索复杂问题空间
  • 生成和评估新颖假设

🧬 AlphaEvolve Agent

AlphaEvolve Agent:

  • 发现和优化算法
  • 数学和计算机科学中的复杂问题
  • 结合创意代码生成
  • 自动化评估系统

Google Co-ScientistGoogle Co-Scientist

定义:Co-Scientist是一个高级AI智能体,旨在作为虚拟研究合作者,通过系统探索复杂问题空间来加速科学发现

Co-Scientist的能力

功能:

  • 允许研究人员定义目标
  • 将智能体置于指定的公共和专有知识源中
  • 生成和评估新颖假设的景观
  • 生成整个智能体生态系统
  • 彼此协作

设计系统:将系统视为研究项目经理。AI首先采用广泛的研究目标并创建详细的项目计划。然后,"主管"智能体充当经理,将任务委托给专业智能体团队并分配计算能力等资源

AlphaEvolve AgentAlphaEvolve Agent

定义:AlphaEvolve是一个AI智能体,发现和优化数学和计算机科学中复杂问题的算法

工作原理

进化过程:AlphaEvolve通过结合Gemini语言模型的创意代码生成与自动化评估系统来工作。它使用进化过程:AI生成潜在解决方案,评估器对它们进行评分,最有前途的想法被用作下一代代码的灵感

突破:这种方法已经导致了重大突破,包括:提高Google数据中心的效率、芯片设计和AI训练;发现更快的矩阵乘法算法;找到开放数学问题的新解决方案

优势:AlphaEvolve在验证解决方案的质量远比首先找到它更容易的问题上表现出色

人机协作Human-AI Collaboration

深度伙伴关系:AlphaEvolve旨在实现人类与AI之间的深度、迭代伙伴关系

协作方式

👁️ Transparent Solutions

透明解决方案:

  • AI生成解决方案为人类可读代码
  • 这种透明度允许用户理解逻辑
  • 获得见解
  • 信任结果
  • 直接修改代码以满足其需求

🎯 Expert Guidance

专家指导:

  • 人类专业知识对于定义问题至关重要
  • 用户通过完善评估指标指导AI
  • 引导探索
  • 防止系统利用问题定义中的意外漏洞

结果:这种交互循环确保最终解决方案既强大又实用。智能体的结果是代码的持续改进,不断改进人类指定的指标

结论Conclusion

范式转变:生成式AI智能体标志着关键演变,将人工智能从用于内容创建的被动工具转变为问题解决的主动、自主合作伙伴

核心贡献

本文档提供了:

  • 理解和构建这些系统的正式框架
  • 超越概念验证
  • 建立可靠、生产级架构

三个基本组件:我们将智能体解构为其三个基本组件:推理模型("大脑")、可操作工具("手")和治理编排层("神经系统")。正是这些部分的无缝集成,在连续的"思考、行动、观察"循环中运行,解锁了智能体的真正潜力

分类系统:通过分类智能体系统——从Level 1连接的问题解决者到Level 3协作多智能体系统——架构师和产品领导者现在可以战略性地确定其野心范围,以匹配手头任务的复杂性

开发者范式转变Paradigm Shift in Development

核心挑战:中心挑战和机会在于新的开发者范式。我们不再是简单地"砌砖工人"定义显式逻辑;我们是"架构师"和"导演",必须引导、约束和调试自主实体

灵活性的双刃剑

挑战:使LM如此强大的灵活性也是其不可靠性的来源。因此,成功不仅仅在于初始提示,而在于应用于整个系统的工程严谨性:在稳健的工具契约、有弹性的错误处理、复杂的上下文管理和全面评估中

指导原则:这里概述的原则和架构模式作为基础蓝图。它们是导航这个新软件前沿的路标,使我们能够构建不仅仅是"工作流自动化",而是我们团队的真正协作、有能力和适应能力的新成员

未来:随着这项技术的成熟,这种纪律、架构方法将是充分利用智能体AI力量的决定因素

智能体介绍Introduction to Agents

作者:Alan Blount, Antonio Gulli, Shubham Saboo, Michael Zimmermann, 和 Vladimir Vuskovic

发布日期:2025年11月

🤖

从预测AI到自主智能体

🧠 Model

推理模型(大脑)

🖐️ Tools

可操作工具(手)

🔗 Orchestration

编排层(神经系统)

感谢您的阅读!

Introduction to Agents

智能体介绍

1 / 65

目录