开启左侧

AI Agent时代的「AWS」:Manus 背后的重要功臣 E2B 是何来头?

[复制链接]
文章转载自「外洋独角兽」

Multi agent零碎 邪成为新的突破标的目的的过程当中,agent infra 同样成为降天枢纽。正在 computer use 戴去范式立异的趋势下,virtual machine 将成为潜伏守业时机,E2B 即是那个范围的新兴到场者。

E2B 之以是受到商场存眷很年夜水平上是因为 Manus,Manus agent 完毕任务过程当中的 virtual computer 撑持恰是去自于 E2B。E2B 建立于 2023 年,动作一个启源根底装备,许可用户正在云真个宁静断绝沙盒中运行 AI 天生的代码。E2B实质 上是一个能够快速启用(~150 毫秒)的 microVM,它的下层类似于 AWS Firecracker 那个代表性的 MicroVM,正在此根底上, AI Agents 能够正在 E2B 中运行代码语言、使用浏览器、挪用各类操纵体系中的东西。

跟着 Agent 死态的繁华,E2B 的沙盒月创立质一年内乱从 4 万增加到 1500 万,一年内乱增加了 375 倍。

为何 AI agents 需要博属的“电脑”?

为了更佳天理解那个成就,「外洋独角兽」编译了 CEO Vasek Mlejnsky 最新的二次访道,和 E2B内部 一篇相关 computer use agent 的手艺专客。原文具体介绍了 E2B 的手艺观念,和团队从代码注释器转型为更通用的 agent 运行情况面前 的思考。

E2B 的愿景很年夜,CEO 的目标是成为 AI Agent 时期的 AWS,成为一个主动化的 infra 仄台,未来能够供给 GPU 撑持,满意更庞大的数据阐发、小模子锻炼、游玩天生等需要,并能够托管 agent 建立的使用,笼盖 agent 从开辟到布置的残破性命周期。


Founder Park 在拆修「AI 产物墟市」社群,聘请从业者、开辟职员战守业者,扫码减群:

AI Agent时期的「AWS」:Manus面前  的主要元勋 E2B 是何去头?w2.jpg
退群后,您有机会获得:

    最新、最值患上存眷的 AI 新品资讯;

    大概期赠予热门新品的聘请码、会员码;

    最精确的AI产物暴光渠讲



01
E2B 是甚么?
E2B 的创建、开展战转型
E2B 的二个开创人是 Vasek Mlejnsky(CEO)战 Tomas Valenta(CTO),去自捷克。正在邪式守业以前,两人便已经协作过许多名目。

正在创建 E2B 以前,Vasek 战 Tomas 正在干的产物嚷干 DevBook,那是一个里背开辟者的接互式文档,能够看做是 E2B 的雏形。GPT-3.5 公布后,两人测验考试建立 agent 去主动化事情,因为每个名目皆需要一套东西散成到后端,因而他们使用 DevBook 已经有的沙盒手艺运行代码,并将 agent 主动推与 GitHub、编辑代码、布置到 Railway 的相干实质收到了 twitter,拉文意外被 Greg Brockman 等人转收,正在多少天内乱得到了约莫 50 万次浏览。以后两人疾速启源并将重点转背沙盒情况,正在 2023 年 3 月创建了 E2B。

AI Agent时期的「AWS」:Manus面前  的主要元勋 E2B 是何去头?w3.jpg

Vasek 暗示,团队一开端便观点到了代码施行是 agent 手艺栈中相当主要的一环。代码便像是一种通用语言,能够动作跟尾统统的粘开剂,人类开辟者即是颠末代码把各类效劳战 API 跟尾起去,进而让体系跑患上起去的,为何 agent 不克不及干异常的工作呢?Agent 需要一个宁静、活络的代码施行情况,且跟着 agent 愈来愈强大,代码运行情况也变患上愈来愈主要。

E2B开展 的一个枢纽面是引进了“代码注释(code interpretor)”那个观点,当团队开端用那个词汇注释产物的时候,许多用户一会儿便大白了:假设用户念用 AI中止 数据阐发、可望化,代码施行便十分枢纽,因为那些任务皆需要运行 AI 天生的代码;假设念让年夜模子更智慧,好比能干数教运算,这代码就能够被看做是一个十分通用的计较器;有效户念建立一个 AI 启动的 Excel,只要供描绘每列该干甚么,agent 便会按照描绘静态天生代码、施行代码,用户就能够轻快完毕数据增强、数据阐发等任务。

正在守业晚期,E2B 花了许多时间颠末使用大白的用例去教诲商场、获得用户。

2024 年 10 月,Anthropic 拉出了 computer use,但是实在早正在六个月前,E2B 便已经有了一个桌里版的沙盒情况,不过其时不模子能够真实用起去,因而那一功用已被普遍存眷。约莫正在 2024 年末至 2025 年末,团队开端察看到用户将沙盒用于 computer use。共时 Vasek 留神到,正在 2024 年的时候人们借正在测验考试建立 agent,但是到了 2025 年,agent已经 被愈来愈多天被加入到消耗情况,呈现了大批新的用例。

跟着那一趋势的开展,人们已经再也不沙盒只是用于运行数据阐发等代码片断,E2B 趁势调解了产物定位,再也不将沙盒仅望为代码注释器,而是逐步拓展为更通用的 LLM或许 agent 运行时的情况。

得益于 LLM才干 的提拔战 agent 的降天,E2B 正在 2024 年得到了十分佳的增加,2025 年更是曲线升高,沙盒的月创立质一年内乱从 4 万增加到 1500 万。

产物功用战定位

E2B 供给了一个宁静的沙盒情况,可让 AI agent 正在云端宁静运行 ,agent 能够使用沙盒创立文献、使用浏览器、阐发数据、编辑小型使用法式、创立 Excel 表格等,能够完毕的任务场景相称丰硕。
E2B 撑持多种代码语言,今朝使用至多的是 Python 战 JavaScript,前者每个月有靠近 50 万次的 SDK 下载,后者有约 25 万次。
AI Agent时期的「AWS」:Manus面前  的主要元勋 E2B 是何去头?w4.jpg

Vasek 期望 E2B 能成为 AI agent 时期的 AWS,成为一个主动化的 infra 仄台,未来能够供给 GPU 撑持,满意更庞大的数据阐发、小模子锻炼、游玩天生等需要,并能够托管 agent 建立的使用,笼盖 agent 从开辟到布置的残破性命周期。

但是那其实不表示着 E2B 会来干 prompt或许 memory 等,Vasek相信 LLMs 会连续变患上更强大,许多现在瞅起去庞大的成就,未来可以城市主动被处置。

但是有些成就是比力易被主动处置的:好比如何保证老是能从 LLM失掉 一个照应?假设交进的模子供给商宕机了,要如何主动切换到另外一个供给商?那是开辟者多年去不竭正在面临的老成就,只不外现在换了场景:从前是正在保守硬件中,现在是正在 AI 情况中。

别的,保守云计较是为已经有使用设想的,而 agent 施行的代码是静态天生、不成预知的。那些成就仍是需要用一种崭新的方法去处置。

Vasek 提到,年夜大都时候,开辟者找到 E2B 也是从一个很简朴的需要开端的,好比开辟者一开端不过用一个 serverless 函数,大概是正在效劳器上跑一个 API 交心去施行代码,正在开辟的晚期阶段以至能够便正在当地运行代码。

但是跟着产物的开展,特别是念要范围化天经营时,成就便会一个交一个天呈现了。好比:

•平安 性取断绝性:开辟者期望保证差别用户的代码没有会正在统一个情况里运行,因为开辟者其实不明白用户的代码具体正在搞甚么,也没有明白有无敏感疑息被保守。

• 权力取自由度:开辟者念给 agent 或者 AI 使用尽可以年夜的自由度,让它们能够运行所有念运行的代码,那可以包罗会见残破的文献体系、下载依靠包等。

那些城市戴去各类手艺战宁静挑战,好比怎样下效、静态天天生断绝的代码施行情况,怎样让那些情况随时可用,并保证颠簸战宁静等等。许多开辟者垂垂观点到那需要一个更专科、更宁静的处置计划,也便自可是然天转背像 E2B 如许的产物。

跟着 multi agent 的开展,团队交下来会尽量拉出新功用 forking(分叉)战 checkpointing(查抄面),进而使很多个 agent 能够并止测验考试差别处置路子,便像树状构造,每一个节面即是一个沙盒快照,能够分叉进来加入下一个形状,终极找到最劣路子,类似受特卡洛树搜刮。forking 战 checkpointing 借能够很佳天处置当地形状办理成就,好比保存中心退度,制止屡屡皆重新去过。

AI Agent时期的「AWS」:Manus面前  的主要元勋 E2B 是何去头?w5.jpg

受特卡洛树搜刮是一种经常使用于决议计划成就中的搜刮算法,分离了随机模仿战树状搜刮的长处,能正在计较资本无限的情况下找到靠近最劣的决议计划。

E2B 今朝已经完毕了 persistence(耐久化),那是完毕 forking 战 checkpointing 的根底。用户能够先停息沙盒,而后正在一个月后将沙盒规复到停息时的形状,进而使患上 agent 能够运行更短工妇或者间歇性施行任务。

使用场景

E2B 最主要的使用场景之一是给 AI 数据阐发供给撑持。

开辟者上传一个 CSV 文献,而后背 AI提问 :“尔上传了一个 CSV 文献,它包罗那些列,您能够写 Python 代码去阐发那些数据。”可是那些代码必须要有处所能够运行,E2B 特地为这类场景挨制了一个下度劣化过的运行情况,并供给了一个专用的 SDK,嚷干 code interpreter SDK,全部情况的关环十分天然:

• 开辟者能够间接创立图表,以至是接互式图表;

• 开辟者能够装置第三圆库,E2B已经 预包拆了经常使用的数据阐发包;

• AI 模子能够便利天引用自己前面生成的代码块;

•假设 代码堕落了,开辟者能够把毛病疑息快速反应给 LLM,让它测验考试建设。

关于开辟者来讲,因为 E2B 干了断绝体制,每个 agent 皆有博属的沙盒情况,agent 会更可靠。

AI Agent时期的「AWS」:Manus面前  的主要元勋 E2B 是何去头?w6.jpg

E2B 第两年夜使用场景是动作 AI 天生使用的运行仄台,那个范围开展患上十分快,特别是人们开端鉴于各类差别的框架去建立 AI 启动的使用,那些使用需要一个能够运行 AI 天生代码的情况,也即是需要一个特地的运行时(runtime)去支持这种 AI 天生的使用逻辑。

因而 E2B创立 了一个启源模板,嚷干 Fragments,开辟者能够复造那个模板动作建立自己 AI 使用仄台的尽头。开辟者能够正在界里中间接输出:“助尔用 Next.js 建立一个待处事项使用”,LLM 会天生响应的代码,并把它收收到沙盒情况中运行,开辟者即刻便会瞅到使用结果。

AI Agent时期的「AWS」:Manus面前  的主要元勋 E2B 是何去头?w7.jpg

E2B 现在在逐步加入更多的场景,Vasek察看 到有开辟者正在干代码施行的时候,目标并非建立里背开辟者的 agent,好比有开辟者干了一个 AI 启动的 Excel,那个产物并非里背开辟者的,它的终极用户可以是 CEO、企业下管、营业职员,大概公司内部所有需要使用数据的人。但是正在那个产物下层,是颠末代码施行去完毕功用的。

Vasek 暗示瞅到了愈来愈多如许的趋势——固然现在借十分晚期,但是那是一个十分使人镇静的标的目的,因为人们在观点到,代码施行不但仅效劳于开辟者,也能够效劳于其余范例的用户。

另有一个幽默的 use case 是 Hugging Face 正在建立 Open R1 的时候,正在加强进修、代码天生的锻炼阶段用到了 E2B,具体来讲,Open R1 模子有一个锻炼步调是模子领受一个编程题,而后需要天生并正在某个处所运行代码,交着嘉奖函数会前去一个 0 或者 1 去暗示可否准确,再用那个反应去劣化模子。

AI Agent时期的「AWS」:Manus面前  的主要元勋 E2B 是何去头?w8.jpg

Hugging Face 使用 E2B 的沙箱去运行那些代码,每一个锻炼步调会启用数百以至上千个沙箱,进而完毕下并收。这类方法十分快,并且没有需要用高贵的 GPU 散群去处置。正在使用 LLM 的时候,开辟者不消担忧它会窜改散群里的权力从而作用体系,因为每一个沙盒皆是相互断绝战宁静的。

Vasek 暗示已经有多少野公司要以这类方法去使用 E2B 锻炼模子,固然那没有是团队一开端设想的场景,但是现在瞅起去长短常公道的。从 AI agent 性命周期角度去瞅,E2B应当 正在周期里参与患上越早越佳,而锻炼阶段可以即是最先的一环。

怎样进步开辟者粘性?
提拔开辟者的粘性是建立开辟者东西中最易的一面,枢纽正在于找到适宜的开辟者体会(DX)。Vasek 觉得,“GPT Wrapper”正在当下是个佳买卖,能够快速使用下层模子才气提拔戴去的益处,今朝去瞅,用户切换模子的本钱愈来愈高,根本上只要供一二止代码,就能够从 Gemini 切换到 Claude或许 OpenAI,用户也经常切换模子。但是保证自己的使用或者 agent 正在模子切换中借能一般运行实际上是很易的。E2B 的一个主要代价主意是,当客户(特别是至公司)使用 E2B 时,他们没有会以为被某一个 LLM 锁逝世。好比 OpenAI 有自己的 code interpreter,但是许多客户其实不念用,一圆里是因为他们掌握没有了,另外一圆里是假设他们用了,他们便必需不竭绑定正在 OpenAI 上,无法切换到 Google或许 启源模子,因为 OpenAI 的 code interpreter 没有会来适配其余模子,以是他们底子不那个能源来使用。以是 E2B 需要闪开收者更易来切换模子。Vasek 觉得真实赢得开辟者的办法是供给的体会佳到闪开收者险些没有需要思考自己正在用一个东西——便像是年夜脑的延长一致。固然那听起去仿佛反而让人更易换东西,因为开辟者不正在无观点天来依靠它,但是理论上,邪因为开辟者没有需要思考,才更没有甘愿换,东西完整加入了事情流。要到达那个结果,需要留神各类小细节,好比开辟者没有需要理解 infra 的庞大逻辑,没有需要干一堆设置文献,那些工具是糟糕的开辟体会。总而行之,E2B 需要对于 LLM坚持 中坐。从手艺角度去瞅,E2B 期望成为 agent范围 的 Kubernetes,共时具备更佳的开辟者体会。(注:Kubernetes 是一个启源的容器编排仄台,用于主动化容器化使用的布置、办理、扩大战运行。)
02
E2B 是如何瞅 AI Agent 的?
Agent 时期,硬件该怎样订价?

Agent 的订价是一个十分值患上会商的成就,有人觉得保守的按席位免费其实不合用于 agent,因为有些 agent可以 只运行多少秒钟,有些 agent可以 需要运行多少个小时,但是假设按使用质计费,用户可以会正在没有知情的情况下破费许多钱,进而招致用户没有敢持续使用。

Vasek 觉得关于 infra 公司来讲,订价确实是一个十分易的工作。

开创人正在兴办一野 infra 公司时,经常期望把订价干患上十分简朴,好比每个月用户便付一百美圆,假设超越了某个限定,再使用其余方法免费,但是开端扩大范围的时候,开创人便会发明需要思考的因素十分多,好比要思考流质、保存质,另有各类细小的资本消耗等等,最初常常会有一弛十分庞大的价钱表。

因而怎样背用户转达订价逻辑便变患上十分主要,根本的功用是必须要有的,好比计费上限、用度预警,那些功用能够保证用户感应对于自己的收入是有完整的把握感。共时借要供给优良的可观察性,用户必需分明明白他们用失落了甚么资本、花了几钱。

Agent 的下一个使用场景:computer use

现在 agent 被普遍谈论的三个主要使用场景是:

1. 写代码(coding),好比 Cursor;

2. 贩卖(sales),好比商场拓展关节开端主动化,许多原来贩卖代表需要脚动干的事情在被束厄局促;

3. 客户撑持(customer support),好比 Sierra 战 Decagon 如许的公司在被《财产》百强企业使用。

Vasek 觉得下一个 agent 真实能事情起去的场景是:让 agents 掌握电脑大概浏览器。Anthropic 是客岁最先公然公布相干实质的公司之一,OpenAI今年 也公布了 Operator。那件事戴去了各类可以性战挑战,好比,用户可以没有会期望 agent 完整随便使用自己的电脑,用户仍是会期望有一点儿掌握,好比能够挑选可否许可 agent 操纵。

如前人们在为 agent 建立电脑,E2B 也拉出了自己的 Desktop Sandbox,素质上即是一个戴图形界里的云电脑,借启源了一个 open-computer-use 名目,分离启源年夜模子,测验考试来模仿使用电脑的举动。那个名目对于 E2B 来讲也是个挑战:E2B 能不克不及仅凭启源年夜模子便建立出能使用电脑的 agent?

AI Agent时期的「AWS」:Manus面前  的主要元勋 E2B 是何去头?w9.jpg

AI Agent时期的「AWS」:Manus面前  的主要元勋 E2B 是何去头?w10.jpg

Vasek 觉得,正在 2025 年,那个标的目的会十分幽默,因为潜伏酬报十分下,但是谬误定性也很年夜。Vasek 其实不完整肯定五年后,agent 可否借会用云电脑的方法去运做,可以会有更佳的替换计划呈现。但是现在,那是一个十分值患上根究的范围,出格是假设 E2B 能为每一台当地机械创立一个数字孪死,这对于企业战非开辟者类的事情来讲,将会是一件小事。

不外 Operator 这种产物的目标并非“瞅着 agent 替您完毕任务”,Vasek 觉得人正在使用 agent 的时候,益处正在于心机承担会小许多,因为底子没有需要再来思考“尔必需来干那件事”——无理念天下里,会有一个待处事项使用,人们只要正在那个使用中输出一个任务,那个任务便会主动由某个 agent 开端处置了。

不外有个幽默的成就是,现在的网站,好比航空公司订票网站、旅店预订仄台,皆是特地为让人面打操纵而劣化的,许多公司为此花了数百万美圆来提拔面打率。但是现在,会见那些网站的却开端酿成了 agent。

现在另有一个潜伏观点是 LLM 可让用户即兴完毕各类工作,用户以至没有需要电脑,统统均可以被“天生”进去。

怎样学 AI 使用电脑?

正在 computer use agent 那个话题上,E2B 的 AI engineer James Murdza 正在 2025 年 1 月撰写了一篇专客,文中介绍了 James 干的一个启源 computer use agent,能够使用小我私家电脑的局部功用,好比领受“正在网上搜刮亲爱猫咪图片”如许的指令,颠末 LLM中止 拉理,主动操纵鼠标战键盘去完毕任务。

AI Agent时期的「AWS」:Manus面前  的主要元勋 E2B 是何去头?w11.jpg

那个东西战其余东西的差别的地方正在于它是完整启源的,而且只使用启源权沉模子。那表示着所有人均可以自由运行战改正那个名目。事情道理是 agent 会不竭截与屏幕截图,并询问 Llama 下一步该如何干,曲到模子鉴别任务完毕为行。

AI Agent时期的「AWS」:Manus面前  的主要元勋 E2B 是何去头?w12.jpg

那个名目的手艺挑战正在于:

1. 宁静性:需要将操纵体系断绝正在一个宁静、可控的情况中;

2. 面打操纵:要让 AI 能精确面打、操控 UI 元艳;

3. 拉理才气:要让 AI 能按照所睹决定下一步该干甚么或者什么时候完毕任务;

4. 布置小寡 LLM:需要以高本钱托管启源模子,特别是小寡的启源名目 OS-Atlas;

5. 及时绘里传布输:要有一种高提早的方法去展示战录造沙盒情况。

• 挑战一:宁静性

幻想的 AI agent 运行情况该当是易于使用、功用优良、且具备宁静保证的,究竟结果让 AI agent 间接会见小我私家电脑战文献体系长短常危急的,因为 agent可以 会误增文献,以至施行一点儿没法补救的操纵。因而 James 不让 agent 间接会见当地电脑,而是使用了 E2B。

• 挑战两:面打操纵

AI Agent时期的「AWS」:Manus面前  的主要元勋 E2B 是何去头?w13.jpg

鉴于 LLM 的“电脑操纵”正在界里是文原为主的情况下实在绝对简朴,只靠笔墨指令就可以完毕许多任务。但是有些使用根本不克不及够正在不鼠目标情况下使用,因而假设念干一个真实全面的电脑操纵 agent,便必需撑持鼠标面打功用。

保守计划的结果其实不使人趁心,好比使用保守计较机望觉模子动作屏幕战 LLM 之间的桥梁,这种办法正在识别笔墨战部门图标圆里借没有错,但是底子分没有浑文原框、按钮大概其余接互元艳。华夏有教者正在钻研具身望觉语言模子(grounded VLMs),那是一种望觉+语言模子,枢纽是能够输出精确的坐标,指背输出图象中的具体职位。Gemini 战 Claude 也具备类似才气,但是并非启源的。

最初 James 挑选了 OS-Atlas,因为 OS-Atlas 不但正在 Hugging Face 上公布了模子权沉,借正在一篇论文中具体介绍了模子锻炼历程。

(注:OS-Atlas 是一个启源免费的名目,目标是为游玩玩野供给用于运行游玩的操纵体系,鉴于 Windows 10 定造,简略了各类非须要的体系组件。)

• 挑战三:拉理才气

AI Agent时期的「AWS」:Manus面前  的主要元勋 E2B 是何去头?w14.jpg

Agent 的强大的地方便正在于它能够正在多种操纵之间干出挑选,并鉴于最新的疑息干出公道鉴别。最初用户颠末 prompt 可让 LLM 以一定的文原格局输出一个操纵,而后把操纵成果增加退高低文中,再次挪用 LLM中止 下一步。厥后用户能够颠末微调去加强体系提醒,那个才气一开端嚷“函数挪用(function calling)”,现在更流行的道法是“东西挪用(tool use)”。

但是将望觉输出分离退东西挪用过程,并正在一次 LLM 挪用中完毕望觉理解战操纵决议计划,正在其时仍是一个绝对新奇的作法,James 暗示他使用的是:

1. Llama-3.2-90B-Vision-Instruct:用于检察沙盒情况的绘里,并决定下一步该干甚么;

2. Llama 3.3-70B-Instruct:将 Llama 3.2 的决议计划转移成东西挪用的格局;

3. OS-Atlas-Base-7B:动作一个能够“被挪用”的东西,按照输出的 prompt中止 面打操纵。

值患上一提的是,James 觉得市情上的 agent 框架没有太有效。那些框架的主要感化是启拆 LLM 的输出格局战输出剖析、干 agent 的 prompt、干 agent 的运行轮回(Run loop),但是 James 期望运行轮回十分简朴,共时也没有期望 agent 的 prompt 被框架间接乌盒化处置,因为那是 James 最常需要调解的部门。以是框架唯一的可以用处即是连接 LLM效劳 商,特别是涉及东西挪用战图象撑持的时候,但是其时年夜大都效劳商已经正在分歧使用 OpenAI 的东西挪用格局了,当有破例时,框架文档又经常分析没有浑。

James 暗示东西挪用没有是一个简单的功用,而是一整套拉拢拳,包罗 LLM 的微调、prompt 设想、字符串格局剖析、API 交心标准等。不论是正在效劳端仍是客户端,要把那些拼佳并连续革新,框架是很易抽象到位的,最初开辟者仍是要脚动调解。

• 挑战四:布置小寡 LLM

为了让 agent 运行更快,James 期望 LLM 拉理能搁正在云端,共时借期望用户能启箱即用。成就正在于,James 能为 Llama 如许绝对支流的模子找到靠谱的效劳商,但是 OS-Atlas 如许绝对热门的模子,许多拉理效劳商皆没有甘愿供给 serverless效劳 ,最初 James 使用 Hugging Face 供给的免费空间去挪用 OS-Atlas。

• 挑战五:及时绘里传布输

为了能瞅到 AI 在干甚么,James 期望及时获得沙盒情况中的屏幕绘里,并胜利用 FFmpeg 完毕。

(注:FFmpeg 是一个盛开源代码的自由硬件,能够施行音频战望频多种格局的录影、变换、串流功用。)

效劳端号令:把目前屏幕录成望频流,颠末 HTTP 启一个效劳器,但是一次只可连一个客户端。
ffmpeg -f x11grab -s 1024x768 -framerate 30 -i $DISPLAY -vcodec libx264 -preset ultrafast -tune zerolatency -f mpegts -listen 1 http://localhost:8080
客户端号令:客户端跟尾效劳器,共时把望频保留下来并及时播搁。
ffmpeg -reconnect 1 -i http://servername:8080 -c:v libx264 -preset fast -crf 23 -c:a aac -b:a 128k -f mpegts -loglevel quiet - | tee output.ts | ffplay -autoexit -i -loglevel quiet -
James 正在全部开辟过程当中不竭正在思考一个成就:AI agent究竟 该当只管颠末 API 掌握,仍是靠望觉来模仿人类面打?谜底实在很分明:有 API 的时候,只管用 API。但是成就正在于,年夜部门硬件压根出思考被法式掌握,以是根本不适宜的 API。

因而,James 挑选特地让 agent模仿 人类操纵。但是干 agent 的时候,实在也该当思考除望觉界里之外的其余可用交心,好比:

1.规范 API:文献体系 API、Microsoft Office API 等;

2. 代码施行交心:运行 Bash 或者 Python 剧本去翻开使用、读与文献;

3.辅佐 功用 API(Accessibility API):桌里体系常供给这类交心,能够“瞥见”GUI构造 (Graphics User Interface,图形用户界里);不外正在 Linux 上撑持度没有如 macOS 或者 Windows;

4. 网页的 DOM 交心:能够半构造化天会见网页元艳;

5. MCP:博为 agent 设想,撑持供给高低文取操纵进口。

James 觉得现在只可靠望觉是因为年夜大都使用底子没有供给友好的构造化进口,特别是帮助功用 API,假设帮助功用 API 能更强,不但 AI agent 能用,人类望障用户也会得益。假设统统皆能像 Zapier 这样有适配器分歧交进,这服从会下许多。

另有一个悬而已决的年夜成就是怎样宁静天处置用户认证?最担心齐的方法即是让 AI 具有战人一致的权力。更宁静的作法是树立权力范畴,便像 OAuth受权 、iOS App 权力掌握这样。

AI Agent时期的「AWS」:Manus面前  的主要元勋 E2B 是何去头?w15.jpg

James创立 了一个崭新的、断绝的沙盒情况,不所有用户数据,但是那其实不能从底子上处置成就。假设用户不宁静的方法能够挑选,他们常常便会挑选一个担心齐的作法。因而,James 觉得如下成就值患上思考:

1. 怎样为 computer use agent 供给戴权力范畴限定的 API拜访 才气,好比 agent 能够使用保守 API检查 用户的邮箱支件箱,但是没法简略或者收收邮件。

2. 怎样对于通报给 LLM 的敏感疑息截至脱敏处置,并正在输出成果中复原,好比用户能够事先树立一点儿诺言卡卡号之类的稀钥疑息,那些疑息能够通报给东西使用,但是没有会表露给年夜模子自己。

James 预期启源模子会疾速晨着具备望觉才气的拉理进步,也很等候颠末给 agent参加 更多 API 东西去增强才气。

Agent 框架定造化 VS 使用现成框架

James 正在上文提到现在市情上现成的框架其实不佳用,持久去瞅,中庞大企业可否会以为自己企业情况特别,因而 agent 必须要有可扩大性战定造才气,进而转背自己开辟?

Vasek 觉得最初那些框架降生的时候,是正在 LLM开展 的十分晚期阶段,其时许多中心观点皆正在不竭演变,以至现在也借正在变革,但是最少已经组成了一点儿共鸣,好比某些范例的 prompt 能够被下效使用,Chain of Thought、ReAct 等办法已经变患上更加颠簸,也逐步弄分明了 agent 该当如何使用东西等等。

对于开辟者来讲,假设正在用的框架自己借正在不断变革,这开辟起去便会很疾苦。宁可有十种差别的方法能够干一件事,没有若有一个大白可用的方法,那也是 Vasek 使用框架的启事。

Vasek 觉得每一个框架皆有自己大白的“办法论”战偏偏佳,开辟者需要承认它的方法,未来有大白主意的框架(opinionated frameworks)会愈来愈流行,开辟者也会更甘愿承受,Crew AI、LangGraph已经 有如许的趋势了。

Crew AI 是启源 multi agent 和谐框架,LangGraph 是由 LangChain 团队拉出的一个正在 LangChain 之上建立的模块,用于建立无形态战多脚色的 agents 使用。

框架的演退是一场不尽头的战争,总会有新的框架呈现。现在的 agent 框架之争,便像当时 Transformer 年夜模子之争一致,好比 Anthropic 战 OpenAI 之争,不过现在演变成为了 Crew 战 LangGraph 之争。开辟者可以无法间接颠末框架自己去赢利,但是能够环绕 infra 或者相干效劳去捕获代价。许多干框架的团队在拓展自己的产物范畴,好比 LangChain开展 出了 LangGraph 战 LangSmith,开端把自己定位成“齐套 Agent处置 计划”。

Vasek 出格提到,当开辟者借没有分明自己真实喜好哪一种建立方法时,纷歧定要用框架。现在有一点儿框架定位也没有完整是保守意思上的 Agent 框架,好比 LangChain 更像是一种更便利战年夜模子接互的东西。

03
为何挑选扎根硅谷?
E2B 的二个开创人去自捷克的一个疆域小镇,六年级便相互观点了。厥后两人皆搬来了都城布推格读计较机专科,固然 Tomas 厥后转教来了此外都会,但是每一年炎天城市正在布推格战 Vasek 共同合腾各类名目。

创建 E2B 以后,固然二位开创人皆是捷克人,但是终极挑选正在好国开展而没有是欧洲,启事正在于 Vasek 觉得该当正在用户地点天来建立产物,E2B 的用户是开辟 AI 使用的工程师,他们年夜大都皆硅谷,以是正在硅谷守业是很公道、瓜熟蒂落的挑选。

Vasek 一开端并出筹算果然搬到硅谷,原来觉得自己能够每一二个月过去一次,干一点儿商场战贩卖相干的工作。从 2023 年底尾,E2B晚期 的四人中心团队隔段时间会共同到旧金山待上一二个月,但是屡屡去旧金山,团队皆能清楚觉得到工作促进患上更快,出格是正在晚期阶段,假设念辅佐某个用户开端使用 E2B,办法十分间接:坐正在共同,劈面辅导。面临里的撑持服从战互动感,是长途永久比没有了的。

AI Agent时期的「AWS」:Manus面前  的主要元勋 E2B 是何去头?w16.jpg

Vasek 发明硅谷不但要弘大的商场时机,更主要的是,硅谷会萃了最顶尖的工程师战最活泼的守业气氛,人材稀度十分下,好比正在布推格,Vasek 战十小我私家聊守业话题,可以只需一小我私家能够戴去启迪,但是正在硅谷,可以只需 五、6 个是一般对于话,午餐间的谈天可以便会是下稀度、下品质的对于话。

别的,固然团队能够散布式办公,但是正在晚期,开创团队需要正在统一个处所,因为正在谁人阶段,天天皆正在快速变革,以至多少个小时便有新设法、新决议计划,统统皆很静态,各人必需正在共同,面临里会商、快速举措。以是 Vasek坚决 天挑选了扎根硅谷。


更多浏览北年夜校友、OpenAI前宁静部总裁Lilian Weng对于模子的新思考:Why We Think独野对于话Lovart开创人陈冕:咱们不产物司理,只需设想师付用度户突破 1000 万,All in AI 的多邻国,是如何用 AI 的?Agent 产物怎样订价?一文道浑 AI 产物的四种付费情势
转载本创文章请增加微疑:founderparker
您需要登录后才可以回帖 登录 | 立即注册 qq_login

本版积分规则

发布主题
阅读排行更多+
用专业创造成效
400-778-7781
周一至周五 9:00-18:00
意见反馈:server@mailiao.group
紧急联系:181-67184787
ftqrcode

扫一扫关注我们

Powered by 职贝云数A新零售门户 X3.5© 2004-2025 职贝云数 Inc.( 蜀ICP备2024104722号 )