← 返回文章列表
AI Agent 约 2032 字 预计阅读 9 分钟

深度解析 AI Agent 架构演进:从 Prompt 到 Loop 工程

深度解析 AI Agent 架构演进,探讨从 Prompt、Context、Harness 到 Loop 工程的四层控制面外推,以及 ReAct 架构的四大顽疾。

深度解析 AI Agent 架构演进:从 Prompt 到 Loop 工程

在当今的 AI Agent 开发圈,你一定被海量的名词轰炸过:ReAct、Plan-and-Execute、RAG、MCP、Doom-loop、Maker-checker、LangGraph、状态图…… 这些概念往往是散乱的,导致我们在遇到“AI 表现不好”时,只能凭直觉去盲目修改 Prompt。

本文将结合行业最新的工程实践与深度思考,为你梳理出一条清晰的因果链。你将看到,AI Agent 的开发经历了四次范式转移:Prompt 工程 -> Context 工程 -> Harness 工程 -> Loop 工程

这并不是四种截然不同的技术,而是**“控制面外推”的四个嵌套层级**。每一层都在试图解决上一层留下的结构性盲区。


零、原点与困境:ReAct 架构的四大顽疾

一切的起点是 2022 年提出的 ReAct (Reasoning + Acting) 架构。它用极简的三步逻辑(Thought -> Action -> Observation)让大模型具备了与环境交互的能力。

然而,将 ReAct 投入真实的、长程的生产环境中,它暴露出了四个无法单纯通过“模型变聪明”来解决的结构性顽疾:

  1. 误差累积 (Error Compounding):概率的铁律。每一步 95% 的正确率,在 20 步之后整体成功率仅剩约 36%。长程任务必须有纠错机制,而不是单向累积。
  2. 死亡循环 (Doom-loop):模型遇到失败后,由于上下文中塞满了“失败”的记录,反而强化了它继续盲目重试的倾向。没有外部打断机制,Agent 可能会陷入无限重启或重复调用同一工具的崩溃螺旋。
  3. 上下文爆炸与污染:每一次尝试的中间产物都被追加进历史记录,导致上下文越来越脏。模型的注意力被严重稀释,表现出现可测量的断崖式下跌。
  4. 缺乏独立验证:ReAct 架构中,模型既是“运动员”又是“裁判”。工具调用成功并不代表任务朝正确方向推进,模型容易陷入“盲目自信”。

为了解决这四大顽疾,Agent 工程体系开始了向外扩展的四次演进。


第一层:Prompt Engineering(控制“怎么说”)

  • 核心动作:通过 Few-shot、Chain of Thought (CoT)、角色扮演等技巧,调整大模型的条件概率分布,收窄采样空间的方差。
  • 控制面消息层 (Message Layer)。你控制的是这一轮对话中,指令如何被精准表达。
  • 致命盲区:Prompt 是一份静态说明书。当系统需要处理实时数据源、更新的代码库时,写得再好的 Prompt 也无法应对动态的信息变化。你无法用静态指令应对动态世界。

第二层:Context Engineering(控制“看到什么”)

为了解决信息过时和缺失,工程师们开始构建 RAG(检索增强生成)、记忆管理系统和渐进式披露机制。

  • 核心动作:用恰到好处的有效信息填充上下文窗口。通过召回(Recall)和重排(Rerank),过滤掉会分散注意力的噪声 Context。
  • 控制面会话层 (Session Layer)。你控制了模型在推理前能够获取到的数据源。
  • 致命盲区看到正确的信息 ≠ 做出正确的决策。即使 Context 喂得极其精准,模型也可能基于正确的知识做出越权、危险或多余的操作(例如看懂了架构图,然后自作主张执行了删库跑路)。它缺的不是信息输入,而是行动约束。

第三层:Harness Engineering(控制“怎么做”)

“Agent = Model + Harness”

到了这一层,开发重点转移到了围绕模型搭建的安全线束/脚手架 (Harness) 上。例如利用 LangGraph 等框架设计严格的状态机边界。

  • 核心动作:引入权限控制、工具标准化(如 MCP 协议)以及最重要的 Maker-Checker 分离(执行与验收分离)
  • 运行机制:模型(Maker)只负责生成产物(如一段代码),Harness 负责在沙箱里执行真实验证(如跑 npm run test),测试套件(Checker)给出客观物理判断,而不是让模型自己说“我觉得写好了”。
  • 控制面系统层 (System Layer)。Agent 只能在白名单内操作,所有的行动被物理事实(如 Exit code 0)所锚定。
  • 致命盲区:Harness 是一条完美的质量检测线,但它不是生产调度系统。它可以防止 Agent 在每一步犯错,但它不知道什么时候该停止任务。只要没有叫停,Agent 可能会在一个合规的范围内疯狂烧掉成千上万美元。

第四层:Loop Engineering(控制“何时停”)

“你不再是给 Agent 写提示词,你是设计一个循环,让这个循环去提示 Agent。”

真正的 Loop Engineering 绝对不是简单地写一个 while(true)。它是一个收敛控制系统 (Convergence Control System)。一个生产级的 Loop 必须由以下五个组件严密构成:

  1. 目标与终止条件 (GOAL): 必须是可以被机器和代码客观判定的指标(如:所有测试通过且覆盖率 > 90%)。这是 Loop 的灵魂,写不出终止条件,就绝对不要启动循环。
  2. 驱动器 (DRIVE): 根据当前状态自动组装 Prompt,驱动下一步行动。
  3. 执行约束 (HARNESS): 沿用第三层的所有安全防护、工具调用和沙箱执行机制。
  4. 独立裁判 (CHECKER)隔离上下文的独立验证节点。评估者不能看到 Agent 的原始推理路径,只能看最终产物和评分标准,以此消除模型的认知偏差(避免模型被自己此前的错误推理“说服”)。
  5. 安全闸门 (GATES): 终结 Doom-loop 的终极武器。必须设置最大迭代次数(Max Iterations)、预算上限(Max Budget)和无进展检测(检测到连续循环调用则强制阻断,请求人类介入 / Human-in-the-loop)。
  • 控制面生命周期层 (Lifecycle Layer)。你设计的是任务从启动到收敛结束的全过程。

终局:四层嵌套与排错指南

理解了这四层的演进,你会发现它们是嵌套的Loop 内部跑着 Harness -> Harness 的每一步在组装 Context -> Context 组装好最终构成 Prompt。

掌握了这个因果链,下次遇到 Agent 翻车时,你就不需要盲目地去改 System Prompt 了。请对照以下速查表进行降维打击:

你遇到的症状 (Symptom) 问题大概率所在的层级 推荐的修复手段 (Solution)
Agent 答非所问、输出格式错乱、扮演角色不对 Prompt 层 修改指令措辞,增加高质量的 Few-shot 示例,强制使用 JSON 模式。
Agent 自信地编造事实、引用了过期的文档或接口 Context 层 优化 RAG 的召回率和重排策略,清理向量库中的脏数据,裁剪无关上下文。
Agent 越权操作、无视错误继续执行、自己验证自己 Harness 层 搭建明确的 Maker-Checker 分离验证链;收紧工具的权限白名单(MCP 鉴权)。
Agent 陷入死循环重复同一报错、无人值守时烧光 Token Loop 层 完善终止条件(Goal);增加硬性迭代次数上限、状态去重检测和人机介入(HitL)断点。

结语

从“怎么说”到“何时停”,AI 工程正迅速向传统的软件工程靠拢。未来的优秀 Agent 开发者,必然是精通状态管理、收敛判定和系统架构的 Loop 工程师

相关文章

优先推荐同标签内容,其次补充最新文章。

Context Engineering 实战指南:把上下文窗口当 RAM 管理

2026 年最火的新概念,从 Prompt Engineering 进化到 Context Engineering。详解如何通过 Write/Select/Compress/Isolate 四大策略管理上下文窗口,解决长对话遗忘、幻觉与上下文污染。

做 AI Agent 的 7 条运行时实践

基于一个真实数据分析智能体项目,总结 7 条可复用的 Agent Runtime 实践,包括状态暴露、工具设计、上下文治理、guardrail、delegate 和 trace 审计。

从零搭建 AI Agent 应用

手把手教你使用 LangChain 和 Claude API 构建智能代理系统。包含完整代码与架构设计。

← 上一篇 Agent 可观测性与调试:从黑盒到白盒的进阶之路
← 返回文章列表