AI Agent 2026.06.28 • 约 2032 字 • 预计阅读 9 分钟

深度解析 AI Agent 架构演进：从 Prompt 到 Loop 工程

深度解析 AI Agent 架构演进，探讨从 Prompt、Context、Harness 到 Loop 工程的四层控制面外推，以及 ReAct 架构的四大顽疾。

深度解析 AI Agent 架构演进：从 Prompt 到 Loop 工程

在当今的 AI Agent 开发圈，你一定被海量的名词轰炸过：ReAct、Plan-and-Execute、RAG、MCP、Doom-loop、Maker-checker、LangGraph、状态图…… 这些概念往往是散乱的，导致我们在遇到“AI 表现不好”时，只能凭直觉去盲目修改 Prompt。

本文将结合行业最新的工程实践与深度思考，为你梳理出一条清晰的因果链。你将看到，AI Agent 的开发经历了四次范式转移：Prompt 工程 -> Context 工程 -> Harness 工程 -> Loop 工程。

这并不是四种截然不同的技术，而是**“控制面外推”的四个嵌套层级**。每一层都在试图解决上一层留下的结构性盲区。

零、原点与困境：ReAct 架构的四大顽疾

一切的起点是 2022 年提出的 ReAct (Reasoning + Acting) 架构。它用极简的三步逻辑（Thought -> Action -> Observation）让大模型具备了与环境交互的能力。

然而，将 ReAct 投入真实的、长程的生产环境中，它暴露出了四个无法单纯通过“模型变聪明”来解决的结构性顽疾：

误差累积 (Error Compounding)：概率的铁律。每一步 95% 的正确率，在 20 步之后整体成功率仅剩约 36%。长程任务必须有纠错机制，而不是单向累积。
死亡循环 (Doom-loop)：模型遇到失败后，由于上下文中塞满了“失败”的记录，反而强化了它继续盲目重试的倾向。没有外部打断机制，Agent 可能会陷入无限重启或重复调用同一工具的崩溃螺旋。
上下文爆炸与污染：每一次尝试的中间产物都被追加进历史记录，导致上下文越来越脏。模型的注意力被严重稀释，表现出现可测量的断崖式下跌。
缺乏独立验证：ReAct 架构中，模型既是“运动员”又是“裁判”。工具调用成功并不代表任务朝正确方向推进，模型容易陷入“盲目自信”。

为了解决这四大顽疾，Agent 工程体系开始了向外扩展的四次演进。

第一层：Prompt Engineering（控制“怎么说”）

核心动作：通过 Few-shot、Chain of Thought (CoT)、角色扮演等技巧，调整大模型的条件概率分布，收窄采样空间的方差。
控制面：消息层 (Message Layer)。你控制的是这一轮对话中，指令如何被精准表达。
致命盲区：Prompt 是一份静态说明书。当系统需要处理实时数据源、更新的代码库时，写得再好的 Prompt 也无法应对动态的信息变化。你无法用静态指令应对动态世界。

第二层：Context Engineering（控制“看到什么”）

为了解决信息过时和缺失，工程师们开始构建 RAG（检索增强生成）、记忆管理系统和渐进式披露机制。

核心动作：用恰到好处的有效信息填充上下文窗口。通过召回（Recall）和重排（Rerank），过滤掉会分散注意力的噪声 Context。
控制面：会话层 (Session Layer)。你控制了模型在推理前能够获取到的数据源。
致命盲区：看到正确的信息 ≠ 做出正确的决策。即使 Context 喂得极其精准，模型也可能基于正确的知识做出越权、危险或多余的操作（例如看懂了架构图，然后自作主张执行了删库跑路）。它缺的不是信息输入，而是行动约束。

第三层：Harness Engineering（控制“怎么做”）

“Agent = Model + Harness”

到了这一层，开发重点转移到了围绕模型搭建的安全线束/脚手架 (Harness) 上。例如利用 LangGraph 等框架设计严格的状态机边界。

核心动作：引入权限控制、工具标准化（如 MCP 协议）以及最重要的 Maker-Checker 分离（执行与验收分离）。
运行机制：模型（Maker）只负责生成产物（如一段代码），Harness 负责在沙箱里执行真实验证（如跑 npm run test），测试套件（Checker）给出客观物理判断，而不是让模型自己说“我觉得写好了”。
控制面：系统层 (System Layer)。Agent 只能在白名单内操作，所有的行动被物理事实（如 Exit code 0）所锚定。
致命盲区：Harness 是一条完美的质量检测线，但它不是生产调度系统。它可以防止 Agent 在每一步犯错，但它不知道什么时候该停止任务。只要没有叫停，Agent 可能会在一个合规的范围内疯狂烧掉成千上万美元。

第四层：Loop Engineering（控制“何时停”）

“你不再是给 Agent 写提示词，你是设计一个循环，让这个循环去提示 Agent。”

真正的 Loop Engineering 绝对不是简单地写一个 while(true)。它是一个收敛控制系统 (Convergence Control System)。一个生产级的 Loop 必须由以下五个组件严密构成：

目标与终止条件 (GOAL)：必须是可以被机器和代码客观判定的指标（如：所有测试通过且覆盖率 > 90%）。这是 Loop 的灵魂，写不出终止条件，就绝对不要启动循环。
驱动器 (DRIVE)：根据当前状态自动组装 Prompt，驱动下一步行动。
执行约束 (HARNESS)：沿用第三层的所有安全防护、工具调用和沙箱执行机制。
独立裁判 (CHECKER)： 隔离上下文的独立验证节点。评估者不能看到 Agent 的原始推理路径，只能看最终产物和评分标准，以此消除模型的认知偏差（避免模型被自己此前的错误推理“说服”）。
安全闸门 (GATES)：终结 Doom-loop 的终极武器。必须设置最大迭代次数（Max Iterations）、预算上限（Max Budget）和无进展检测（检测到连续循环调用则强制阻断，请求人类介入 / Human-in-the-loop）。

控制面：生命周期层 (Lifecycle Layer)。你设计的是任务从启动到收敛结束的全过程。

终局：四层嵌套与排错指南

理解了这四层的演进，你会发现它们是嵌套的： Loop 内部跑着 Harness -> Harness 的每一步在组装 Context -> Context 组装好最终构成 Prompt。

掌握了这个因果链，下次遇到 Agent 翻车时，你就不需要盲目地去改 System Prompt 了。请对照以下速查表进行降维打击：

你遇到的症状 (Symptom)	问题大概率所在的层级	推荐的修复手段 (Solution)
Agent 答非所问、输出格式错乱、扮演角色不对	Prompt 层	修改指令措辞，增加高质量的 Few-shot 示例，强制使用 JSON 模式。
Agent 自信地编造事实、引用了过期的文档或接口	Context 层	优化 RAG 的召回率和重排策略，清理向量库中的脏数据，裁剪无关上下文。
Agent 越权操作、无视错误继续执行、自己验证自己	Harness 层	搭建明确的 Maker-Checker 分离验证链；收紧工具的权限白名单（MCP 鉴权）。
Agent 陷入死循环重复同一报错、无人值守时烧光 Token	Loop 层	完善终止条件(Goal)；增加硬性迭代次数上限、状态去重检测和人机介入(HitL)断点。

结语

从“怎么说”到“何时停”，AI 工程正迅速向传统的软件工程靠拢。未来的优秀 Agent 开发者，必然是精通状态管理、收敛判定和系统架构的 Loop 工程师。

← 上一篇 Agent 可观测性与调试：从黑盒到白盒的进阶之路

深度解析 AI Agent 架构演进：从 Prompt 到 Loop 工程

深度解析 AI Agent 架构演进：从 Prompt 到 Loop 工程

零、原点与困境：ReAct 架构的四大顽疾

第一层：Prompt Engineering（控制“怎么说”）

第二层：Context Engineering（控制“看到什么”）

第三层：Harness Engineering（控制“怎么做”）

第四层：Loop Engineering（控制“何时停”）

终局：四层嵌套与排错指南

结语

相关文章

Context Engineering 实战指南：把上下文窗口当 RAM 管理

做 AI Agent 的 7 条运行时实践

从零搭建 AI Agent 应用