▼全新 《AI 大模型运用新架构师课程》重磅发布,预定保你有播种
随着 AI 智能体技术的疾速发展,如何高效构建和优化 AI 智能体系统已成为业界关注的焦点。本文是对 7月19日 Manus 结合创始人兼首席迷信家季逸超(Yichao 'Peak' Ji)在撰写的《Context Engineering for AI Agents: Lessons from Building Manus》一文的整理。
Manus 团队在构建 AI 智能体过程中关于上下文工程的宝贵阅历,包括: KV 缓存优化设计、动态动作空间管理设计以及应用文件系统作为扩展上下文等7大核心技术架构设计。
这些阅历不只揭示了当前 AI 智能体开发的技术架构设计的应战和处理思绪,也为将来 AI 智能体技术的发展提供了重要参考。
下文我们详细分析之,
—1—
Manus 智能体6大核心技术分析
1、围绕 KV 缓存停止设计
假如必须选择一个关键目的,KV 缓存命中率无疑是消费环境中 AI 智能体最重要的目的。KV 缓存是 Transformer 模型中用于存储留意力计算结果的机制,高命中率意味着可以重用之前的计算结果,从而分明降低延迟和成本。
第一、KV 缓存的重要性
我们还设计了具有分歧性前缀的动作称号,比如:一切阅读器相关的工具都以browser_扫尾,而命令行工具则以 shell_ 扫尾。这使得我们可以在特定形态下,轻松地强迫 AI 智能体只能从某一类工具中停止选择,而无需运用有形态的 logits 处理器。
这些设计有助于确保 Manus 的 AI 智能体 loop 在模型驱动的架构下,依然保持牢靠波动。
3、将文件系统作为上下文
虽然古代前沿大模型曾经可以支持高达 128K 甚至更长的上下文窗口,但在实践的 AI 智能体运用场景中,这往往依然不够,甚至有时会成为负担。以下是三个常见的痛点:
观测结果过于庞大
当 AI 智能体与网页、PDF 等非结构化数据交互时,观测结果能够极其庞大,很容易超出上下文长度的限制。
模型功能下降
即便模型在技术上支持长上下文窗口,其功能通常会在上下文长度超过一定阈值后分明下降。
成本高昂
长输入的成本非常高,即便有前缀缓存,你依然需求为每个 token 的传输和预填充支付费用。
为了处理这些成绩,许多 AI 智能体系统采用了上下文截断或紧缩策略。但是,过于激进的紧缩不可避免地会导致信息丢失。这是一个根本性成绩,由于 AI 智能体需求基于一切先前的形态来预测下一个动作,而你无法牢靠地预测哪些观测结果在将来会变得至关重要。从逻辑上讲,任何不可逆的紧缩都伴随着风险。
第一、文件系统作为终极上下文
在开发此功能时,我常常思索,如何让一个形态空间模型(SSM)在 AI 智能体场景中有效工作。与 Transformer 不同,SSM 缺乏全局留意力,难以处理长程的回溯依赖。但假如它们可以掌握基于文件的记忆——将长期形态外化,而不是保留在上下文中——那么它们的速度和效率或许能开启一类全新的 AI 智能体。具有 AI 智能体才能的 SSM,或许才是 Neural Turing Machines 真正的承继者。