职贝云数AI新零售门户

标题: Manus 揭秘本人的7大核心技术:上下文工程架构设计与落地阅历 [打印本页]

作者: J6BRl3n6 时间: 昨天 09:18
标题: Manus 揭秘本人的7大核心技术:上下文工程架构设计与落地阅历
大家好，我是玄姐。

▼全新《AI 大模型运用新架构师课程》重磅发布，预定保你有播种
随着 AI 智能体技术的疾速发展，如何高效构建和优化 AI 智能体系统已成为业界关注的焦点。本文是对 7月19日 Manus 结合创始人兼首席迷信家季逸超（Yichao 'Peak' Ji）在撰写的《Context Engineering for AI Agents: Lessons from Building Manus》一文的整理。

Manus 团队在构建 AI 智能体过程中关于上下文工程的宝贵阅历，包括： KV 缓存优化设计、动态动作空间管理设计以及应用文件系统作为扩展上下文等7大核心技术架构设计。

这些阅历不只揭示了当前 AI 智能体开发的技术架构设计的应战和处理思绪，也为将来 AI 智能体技术的发展提供了重要参考。

下文我们详细分析之，

—1—

Manus 智能体6大核心技术分析

1、围绕 KV 缓存停止设计

假如必须选择一个关键目的，KV 缓存命中率无疑是消费环境中 AI 智能体最重要的目的。KV 缓存是 Transformer 模型中用于存储留意力计算结果的机制，高命中率意味着可以重用之前的计算结果，从而分明降低延迟和成本。
第一、KV 缓存的重要性

典型 AI 智能体的运作流程如下：

用户输入后，AI 智能体经过一系列工具调用来完成义务。在每次迭代中，模型根据当前上下文从预定义的动作空间中选择一个动作，并在环境中执行（比如：Manus 的虚拟机沙盒环境，用于确保代码安全运转），从而产生观测结果。动作和观测结果被附加到上下文中，构成下一次迭代的输入，循环直到义务完成。

由于 AI 智能体的上下文随着每一步增长，而输入（通常是结构化的函数调用）相对较短，因此 AI 智能体的预填充（prefilling，一次性处理输入 token 的阶段）和解码（decoding，逐终身成输入 token 的阶段）比例与聊天机器人相比高度倾斜。比如：在 Manus 中，平均输入与输入 token 比例约为100:1。

侥幸的是，具有相反前缀的上下文可以应用 KV 缓存，这大大减少了首 token 工夫（TTFT，Time-To-First-Token）和推理成本。比如：运用Claude Sonnet 时，缓存的输入 token 成本为0.30美元/百万 token，而未缓存的成本为3美元/百万 token，相差10倍。

(, 下载次数: 0)

第二、提高 KV 缓存命中率的关键实际

由于 LLMs 的自回归特性（模型按顺序生成 token，每个 token 的生成都依赖于之前的一切 token），即便是单个 token 的差异也能够使该 token 之后的缓存失效。一个常见错误是在系统提示词的扫尾包含工夫戳（特别是准确到秒的工夫戳），这虽然能让模型告诉你当前工夫，但会直接降低缓存命中率。

避免修正之前的动作或观测结果，确保序列化过程是确定性的。许多编程言语和库在序列化 JSON 对象时不保证波动的键排序，这能够会悄无声息地毁坏缓存。

一些模型提供商或推理框架不支持自动增量前缀缓存，而是需求在上下文中手动插入缓存断点。分配这些断点时，要思索潜在的缓存过期工夫，并确保断点包含在系统提示词的末尾。

此外，假如你运用 vLLM（一个高功能的 LLM 推理框架）等框架自托管模型，请确保启用前缀/提示词缓存，并运用会话 ID 等技术在分布式工作节点间分歧地路由央求。

2、遮盖（Mask），而非移除

随着 AI 智能体才能的提升，其动作空间（action space）会变得愈发复杂，工具数量也会呈爆炸式增长。最近 MCP 的盛行更是加剧了这一成绩。假如允许用户配置工具，总有人会将大量不明来源的工具塞入精心设计的动作空间中，导致模型更容易选错举动或采取低效途径，从而使 AI 智能体变得迟钝。

一种自然的想法是设计一个动态的动作空间，按需动态加载工具，在 Manus 中也尝试过这种方法。但实验表明，除非相对必要，否则应避免在迭代中途动态增删工具，缘由次要有以下两点：

为了处理这个成绩，同时又能优化动作选择，Manus 运用一个上下文感知的形态机来管理工具的可用性。它并不移除工具，而是在解码阶段遮盖掉 token logits，从而根据当前上下文，阻止（或强迫）模型选择某些动作。

(, 下载次数: 0)

在实际中，大多数模型提供商和推理框架都支持某种方式的呼应预填充，这允许你在不修正工具定义的状况下约束动作空间。函数调用通常有以下三种形式（以 NousResearch 的 Hermes format 为例）：

应用这一点，我们经过直接遮盖 token logits 来约束动作选择。比如：当用户提供新输入时，Manus 必须立刻回复，而不是执举动作。

我们还设计了具有分歧性前缀的动作称号，比如：一切阅读器相关的工具都以browser_扫尾，而命令行工具则以 shell_ 扫尾。这使得我们可以在特定形态下，轻松地强迫 AI 智能体只能从某一类工具中停止选择，而无需运用有形态的 logits 处理器。

这些设计有助于确保 Manus 的 AI 智能体 loop 在模型驱动的架构下，依然保持牢靠波动。

3、将文件系统作为上下文

虽然古代前沿大模型曾经可以支持高达 128K 甚至更长的上下文窗口，但在实践的 AI 智能体运用场景中，这往往依然不够，甚至有时会成为负担。以下是三个常见的痛点：

当 AI 智能体与网页、PDF 等非结构化数据交互时，观测结果能够极其庞大，很容易超出上下文长度的限制。

即便模型在技术上支持长上下文窗口，其功能通常会在上下文长度超过一定阈值后分明下降。

长输入的成本非常高，即便有前缀缓存，你依然需求为每个 token 的传输和预填充支付费用。

为了处理这些成绩，许多 AI 智能体系统采用了上下文截断或紧缩策略。但是，过于激进的紧缩不可避免地会导致信息丢失。这是一个根本性成绩，由于 AI 智能体需求基于一切先前的形态来预测下一个动作，而你无法牢靠地预测哪些观测结果在将来会变得至关重要。从逻辑上讲，任何不可逆的紧缩都伴随着风险。
第一、文件系统作为终极上下文

因此，我们将文件系统视为 Manus 的终极上下文处理方案。文件系统具有以下优势：

(, 下载次数: 0)

模型不只将文件系统用作存储，更是将其视为一个结构化的外部记忆体。经过这种方式，模型可以按需读写文件，而不是将一切信息都保留在上下文中。
第二、可恢复的紧缩策略

我们的紧缩策略一直被设计为可恢复的，比如：

经过这种方式，Manus 可以在不永世丢失信息的前提下，有效缩减上下文长度。
第三、对形态空间模型的思索

在开发此功能时，我常常思索，如何让一个形态空间模型（SSM）在 AI 智能体场景中有效工作。与 Transformer 不同，SSM 缺乏全局留意力，难以处理长程的回溯依赖。但假如它们可以掌握基于文件的记忆——将长期形态外化，而不是保留在上下文中——那么它们的速度和效率或许能开启一类全新的 AI 智能体。具有 AI 智能体才能的 SSM，或许才是 Neural Turing Machines 真正的承继者。

4、经过“复述”来操控留意力

假如你运用过 Manus，能够曾经留意到一个风趣的现象：在处理复杂义务时，Manus 会创建一个名为 todo.md 的文件，并随着义务的停顿逐渐更新它，勾掉已完成的项。这并非只是为了看起来“心爱”，而是一种精心设计的留意力操控机制。

(, 下载次数: 0)

在 Manus 中，一个典型义务平均需求约50次工具调用。这是一个相当长的循环，由于 Manus 依赖大模型停止决策，很容易出现偏离主题或遗忘早期目的的成绩，尤其是在长上下文或复杂义务中。

经过不断更新待办事项列表，Manus 实践上是在将义务目的“复述”到上下文的末尾。这将全局计划注入到模型的近期留意力范围，从而避免“中间遗忘”（lost-in-the-middle）成绩，并减少目的偏离。实践上，这是一种用自然言语引导本身留意力的方式，使其聚焦于义务目的，而无需依赖特殊的架构。

5、保留出错记录

AI 智能体会犯错，这不是一个缺陷，而是理想的一部分。言语模型能够会产生幻觉，运转环境能够会前往错误，外部工具能够会出现缺点，各种意想不到的边界状况也屡见不鲜。在多步骤义务中，失败并不是例外，而是整个流程的组成部分。

但是，一个常见的做法是隐藏这些错误：清算错误痕迹、重试动作，或者重置模型形态，然后将其交给所谓的“温度（Temperature）”参数来调整。这种做法看似更安全、更可控，但却有代价：它消弭了失败的记录，也就抹去了过往举动的证据。而没有这些证据，模型就无法从中学习和顺应。

(, 下载次数: 0)

根据我们的阅历，提升 AI 智能体行为表现最有效的方法之一其实非常简单：将失败的尝试保留在上下文中。当模型看到一个失败的动作——以及由此产生的观测结果或堆栈跟踪（stack trace）——它会隐式地更新其外部认知，改变对相似动作的先验判别，从而减少反复犯异样错误的能够性。

理想上，我们以为错误恢复才能是真正 AI 智能体行为最明白的标志之一。但是，在大多数学术研讨和公开基准测试中，这一点依然没有得到充分的表现，它们往往只关注理想条件下的义务成功率。

6、不要堕入 Few-Shot 圈套

Few-shot Prompting 是一种常用技术，用于经过大指示例提升大言语模型的输入表现。但是，在构建 AI 智能体系统时，它能够会带来一些意想不到的成绩。

言语模型本质上是出色的模拟者，它们会学习并模拟上下文中呈现的行为形式。假如上下文中充斥着大量相似的“动作-观测结果”对，模型往往会倾向于遵照这些形式，即便这些形式曾经不再是最优选择。

这在触及反复性决策或动作的义务中尤其风险。比如：在运用 Manus 协助审阅 20 份简历时，AI 智能体能够会堕入一种惯性节拍，仅仅由于它在上下文中看到了相似的行为，就不断反复相似的动作。这不只会导致行为漂移和过度泛化，有时甚至会产生幻觉。

(, 下载次数: 0)

为了处理这一成绩，Manus 在动作和观测结果中引入了大批结构化的变动，比如：运用不同的序列化模板、变换措辞、在顺序或格式上引入宏大的噪音。这种受控的随机性有助于打破单一的形式，调整模型的留意力，使其愈加灵敏。

简而言之，不要让本人堕入“少样本”的思想定势中。上下文的形式越单一，AI 智能体的行为就越脆弱。多样化是提升 AI 智能体波动性和顺应性的关键。
7、上下文工程：AI 智能体系统的核心

上下文工程虽然还是一门新兴学科，但对于 AI 智能体系统来说，它曾经变得至关重要。无论模型变得多么弱小、疾速或低成本，都无法替代对记忆、环境和反馈的需求。你如何塑造上下文，最终决议了AI 智能体的行为方式：它的运转速度、恢复才能和扩展潜力。
第一、Manus 的阅历

在 Manus，我们经过不断的重构、失败的尝试以及面向数百万用户的真实世界测试，才逐渐积累了这些宝贵的阅历。我们分享的这些阅历并非放之四海而皆准的真理，但它们对 Manus 来说是行之有效的。假如这些阅历能协助你减少哪怕一次痛苦的迭代，那么我们的分享就达到了目的。
第二、AI 智能体的将来

AI 智能体的将来将由一个个精心设计的上下文构建而成。希望你能精心设计它们，让AI 智能体发挥出最大的潜力。

Enjoy！
PS：以上干货内容只是全新《AI 大模型运用新架构师课程》的很小一部分内容，新课会在8月1日重磅发布，也是业界首发，欢迎点击预定。
▼全新《AI 大模型运用新架构师课程》重磅发布，预定保你有播种

—2—

加我微信
扫码加我👇有很多不方便公开发公众号的我会直接分享在冤家圈，欢迎你扫码加我个人微信来看👇

加星标★，不错过每一次更新！参考来源：
https://manus.im/blog/Context-Engineering-for-AI-Agents-Lessons-from-Building-Manus⬇戳”阅读原文“，立刻预定！
END

欢迎光临职贝云数AI新零售门户 (https://www.taojin168.com/cloud/)