职贝云数AI新零售门户

标题: Manus 揭秘本人的7大核心技术:上下文工程架构设计与落地阅历 [打印本页]

作者: J6BRl3n6    时间: 昨天 09:18
标题: Manus 揭秘本人的7大核心技术:上下文工程架构设计与落地阅历
大家好,我是玄姐。

▼全新 《AI 大模型运用新架构师课程》重磅发布,预定保你有播种
随着 AI 智能体技术的疾速发展,如何高效构建和优化 AI 智能体系统已成为业界关注的焦点。本文是对 7月19日 Manus 结合创始人兼首席迷信家季逸超(Yichao 'Peak' Ji)在撰写的《Context Engineering for AI Agents: Lessons from Building Manus》一文的整理。

Manus 团队在构建 AI 智能体过程中关于上下文工程的宝贵阅历,包括: KV 缓存优化设计、动态动作空间管理设计以及应用文件系统作为扩展上下文等7大核心技术架构设计。

这些阅历不只揭示了当前 AI 智能体开发的技术架构设计的应战和处理思绪,也为将来  AI 智能体技术的发展提供了重要参考。

下文我们详细分析之,

1

Manus 智能体6大核心技术分析

1、围绕 KV 缓存停止设计

假如必须选择一个关键目的,KV 缓存命中率无疑是消费环境中 AI 智能体最重要的目的。KV 缓存是 Transformer 模型中用于存储留意力计算结果的机制,高命中率意味着可以重用之前的计算结果,从而分明降低延迟和成本。
第一、KV 缓存的重要性

典型 AI 智能体的运作流程如下:

用户输入后,AI 智能体经过一系列工具调用来完成义务。在每次迭代中,模型根据当前上下文从预定义的动作空间中选择一个动作,并在环境中执行(比如:Manus 的虚拟机沙盒环境,用于确保代码安全运转),从而产生观测结果。动作和观测结果被附加到上下文中,构成下一次迭代的输入,循环直到义务完成。

由于 AI 智能体的上下文随着每一步增长,而输入(通常是结构化的函数调用)相对较短,因此 AI 智能体的预填充(prefilling,一次性处理输入 token 的阶段)和解码(decoding,逐终身成输入 token 的阶段)比例与聊天机器人相比高度倾斜。比如:在 Manus 中,平均输入与输入 token 比例约为100:1。

侥幸的是,具有相反前缀的上下文可以应用 KV 缓存,这大大减少了首 token 工夫(TTFT,Time-To-First-Token)和推理成本。比如:运用Claude Sonnet 时,缓存的输入 token 成本为0.30美元/百万 token,而未缓存的成本为3美元/百万 token,相差10倍。

(, 下载次数: 0)

第二、提高 KV 缓存命中率的关键实际


由于 LLMs 的自回归特性(模型按顺序生成 token,每个 token 的生成都依赖于之前的一切 token),即便是单个 token 的差异也能够使该 token 之后的缓存失效。一个常见错误是在系统提示词的扫尾包含工夫戳(特别是准确到秒的工夫戳),这虽然能让模型告诉你当前工夫,但会直接降低缓存命中率。

避免修正之前的动作或观测结果,确保序列化过程是确定性的。许多编程言语和库在序列化 JSON 对象时不保证波动的键排序,这能够会悄无声息地毁坏缓存。

一些模型提供商或推理框架不支持自动增量前缀缓存,而是需求在上下文中手动插入缓存断点。分配这些断点时,要思索潜在的缓存过期工夫,并确保断点包含在系统提示词的末尾。

此外,假如你运用 vLLM(一个高功能的 LLM 推理框架)等框架自托管模型,请确保启用前缀/提示词缓存,并运用会话 ID 等技术在分布式工作节点间分歧地路由央求。

2、遮盖(Mask),而非移除

随着 AI 智能体才能的提升,其动作空间(action space)会变得愈发复杂,工具数量也会呈爆炸式增长。最近 MCP 的盛行更是加剧了这一成绩。假如允许用户配置工具,总有人会将大量不明来源的工具塞入精心设计的动作空间中,导致模型更容易选错举动或采取低效途径,从而使 AI 智能体变得迟钝。

一种自然的想法是设计一个动态的动作空间,按需动态加载工具,在 Manus 中也尝试过这种方法。但实验表明,除非相对必要,否则应避免在迭代中途动态增删工具,缘由次要有以下两点:

为了处理这个成绩,同时又能优化动作选择,Manus 运用一个上下文感知的形态机来管理工具的可用性。它并不移除工具,而是在解码阶段遮盖掉 token logits,从而根据当前上下文,阻止(或强迫)模型选择某些动作。

(, 下载次数: 0)

在实际中,大多数模型提供商和推理框架都支持某种方式的呼应预填充,这允许你在不修正工具定义的状况下约束动作空间。函数调用通常有以下三种形式(以 NousResearch 的 Hermes format 为例):

应用这一点,我们经过直接遮盖 token logits 来约束动作选择。比如:当用户提供新输入时,Manus 必须立刻回复,而不是执举动作。

我们还设计了具有分歧性前缀的动作称号,比如:一切阅读器相关的工具都以browser_扫尾,而命令行工具则以 shell_ 扫尾。这使得我们可以在特定形态下,轻松地强迫 AI 智能体只能从某一类工具中停止选择,而无需运用有形态的 logits 处理器。

这些设计有助于确保 Manus 的 AI 智能体 loop 在模型驱动的架构下,依然保持牢靠波动。

3、将文件系统作为上下文

虽然古代前沿大模型曾经可以支持高达 128K 甚至更长的上下文窗口,但在实践的 AI 智能体运用场景中,这往往依然不够,甚至有时会成为负担。以下是三个常见的痛点:

当 AI 智能体与网页、PDF 等非结构化数据交互时,观测结果能够极其庞大,很容易超出上下文长度的限制。

即便模型在技术上支持长上下文窗口,其功能通常会在上下文长度超过一定阈值后分明下降。

长输入的成本非常高,即便有前缀缓存,你依然需求为每个 token 的传输和预填充支付费用。

为了处理这些成绩,许多 AI 智能体系统采用了上下文截断或紧缩策略。但是,过于激进的紧缩不可避免地会导致信息丢失。这是一个根本性成绩,由于 AI 智能体需求基于一切先前的形态来预测下一个动作,而你无法牢靠地预测哪些观测结果在将来会变得至关重要。从逻辑上讲,任何不可逆的紧缩都伴随着风险。
第一、文件系统作为终极上下文

因此,我们将文件系统视为 Manus 的终极上下文处理方案。文件系统具有以下优势:

(, 下载次数: 0)


模型不只将文件系统用作存储,更是将其视为一个结构化的外部记忆体。经过这种方式,模型可以按需读写文件,而不是将一切信息都保留在上下文中。
第二、可恢复的紧缩策略

我们的紧缩策略一直被设计为可恢复的,比如:

经过这种方式,Manus 可以在不永世丢失信息的前提下,有效缩减上下文长度。
第三、对形态空间模型的思索

在开发此功能时,我常常思索,如何让一个形态空间模型(SSM)在 AI 智能体场景中有效工作。与 Transformer 不同,SSM 缺乏全局留意力,难以处理长程的回溯依赖。但假如它们可以掌握基于文件的记忆——将长期形态外化,而不是保留在上下文中——那么它们的速度和效率或许能开启一类全新的 AI 智能体。具有 AI 智能体才能的 SSM,或许才是 Neural Turing Machines 真正的承继者。

4、经过“复述”来操控留意力

假如你运用过 Manus,能够曾经留意到一个风趣的现象:在处理复杂义务时,Manus 会创建一个名为 todo.md 的文件,并随着义务的停顿逐渐更新它,勾掉已完成的项。这并非只是为了看起来“心爱”,而是一种精心设计的留意力操控机制。

(, 下载次数: 0)

在 Manus 中,一个典型义务平均需求约50次工具调用。这是一个相当长的循环,由于 Manus 依赖大模型停止决策,很容易出现偏离主题或遗忘早期目的的成绩,尤其是在长上下文或复杂义务中。

经过不断更新待办事项列表,Manus 实践上是在将义务目的“复述”到上下文的末尾。这将全局计划注入到模型的近期留意力范围,从而避免“中间遗忘”(lost-in-the-middle)成绩,并减少目的偏离。实践上,这是一种用自然言语引导本身留意力的方式,使其聚焦于义务目的,而无需依赖特殊的架构。

5、保留出错记录

AI 智能体会犯错,这不是一个缺陷,而是理想的一部分。言语模型能够会产生幻觉,运转环境能够会前往错误,外部工具能够会出现缺点,各种意想不到的边界状况也屡见不鲜。在多步骤义务中,失败并不是例外,而是整个流程的组成部分。

但是,一个常见的做法是隐藏这些错误:清算错误痕迹、重试动作,或者重置模型形态,然后将其交给所谓的“温度(Temperature)”参数来调整。这种做法看似更安全、更可控,但却有代价:它消弭了失败的记录,也就抹去了过往举动的证据。而没有这些证据,模型就无法从中学习和顺应。

(, 下载次数: 0)

根据我们的阅历,提升 AI 智能体行为表现最有效的方法之一其实非常简单:将失败的尝试保留在上下文中。当模型看到一个失败的动作——以及由此产生的观测结果或堆栈跟踪(stack trace)——它会隐式地更新其外部认知,改变对相似动作的先验判别,从而减少反复犯异样错误的能够性。

理想上,我们以为错误恢复才能是真正 AI 智能体行为最明白的标志之一。但是,在大多数学术研讨和公开基准测试中,这一点依然没有得到充分的表现,它们往往只关注理想条件下的义务成功率。

6、不要堕入 Few-Shot 圈套

Few-shot Prompting 是一种常用技术,用于经过大指示例提升大言语模型的输入表现。但是,在构建 AI 智能体系统时,它能够会带来一些意想不到的成绩。

言语模型本质上是出色的模拟者,它们会学习并模拟上下文中呈现的行为形式。假如上下文中充斥着大量相似的“动作-观测结果”对,模型往往会倾向于遵照这些形式,即便这些形式曾经不再是最优选择。

这在触及反复性决策或动作的义务中尤其风险。比如 :在运用 Manus 协助审阅 20 份简历时,AI 智能体能够会堕入一种惯性节拍,仅仅由于它在上下文中看到了相似的行为,就不断反复相似的动作。这不只会导致行为漂移和过度泛化,有时甚至会产生幻觉。

(, 下载次数: 0)

为了处理这一成绩,Manus 在动作和观测结果中引入了大批结构化的变动,比如:运用不同的序列化模板、变换措辞、在顺序或格式上引入宏大的噪音。这种受控的随机性有助于打破单一的形式,调整模型的留意力,使其愈加灵敏。

简而言之,不要让本人堕入“少样本”的思想定势中。上下文的形式越单一,AI 智能体的行为就越脆弱。多样化是提升 AI 智能体波动性和顺应性的关键。
7、上下文工程:AI 智能体系统的核心

上下文工程虽然还是一门新兴学科,但对于 AI 智能体系统来说,它曾经变得至关重要。无论模型变得多么弱小、疾速或低成本,都无法替代对记忆、环境和反馈的需求。你如何塑造上下文,最终决议了AI 智能体的行为方式:它的运转速度、恢复才能和扩展潜力。
第一、Manus 的阅历

在 Manus,我们经过不断的重构、失败的尝试以及面向数百万用户的真实世界测试,才逐渐积累了这些宝贵的阅历。我们分享的这些阅历并非放之四海而皆准的真理,但它们对 Manus 来说是行之有效的。假如这些阅历能协助你减少哪怕一次痛苦的迭代,那么我们的分享就达到了目的。
第二、AI 智能体的将来

AI 智能体的将来将由一个个精心设计的上下文构建而成。希望你能精心设计它们,让AI 智能体发挥出最大的潜力。

Enjoy!
PS:以上干货内容只是全新《AI 大模型运用新架构师课程》的很小一部分内容,新课会在8月1日重磅发布,也是业界首发,欢迎点击预定。
▼全新 《AI 大模型运用新架构师课程》重磅发布,预定保你有播种

2

加我微信
扫码加我👇有很多不方便公开发公众号的我会直接分享在冤家圈,欢迎你扫码加我个人微信来看👇

加星标★,不错过每一次更新!参考来源:
https://manus.im/blog/Context-Engineering-for-AI-Agents-Lessons-from-Building-Manus⬇戳”阅读原文“,立刻预定!
END




欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/) Powered by Discuz! X3.5