职贝云数AI新零售门户

标题: AI Agent时代的「AWS」:Manus 背后的重要功臣 E2B 是何来头? [打印本页]

作者: 2TWRsXY3o    时间: 昨天 20:14
标题: AI Agent时代的「AWS」:Manus 背后的重要功臣 E2B 是何来头?
文章转载自「海外独角兽」

Multi agent 系统正成为新的打破方向的过程中,agent infra 也成为落地关键。在 computer use 带来范式创新的趋向下,virtual machine 将成为潜在创业机会,E2B 就是这个范畴的新兴参与者。

E2B 之所以遭到市场关注很大程度上是由于 Manus,Manus agent 完成义务过程中的 virtual computer 支持正是来自于 E2B。E2B 成立于 2023 年,作为一个开源基础设备,允许用户在云端的安全隔离沙盒中运转 AI 生成的代码。E2B 本质上是一个可以疾速启动(~150 毫秒)的 microVM,它的底层相似于 AWS Firecracker 这个代表性的 MicroVM,在此基础上, AI Agents 可以在 E2B 中运转代码言语、运用阅读器、调用各种操作系统中的工具。

随着 Agent 生态的繁荣,E2B 的沙盒月创建量一年内从 4 万增长到 1500 万,一年内增长了 375 倍。

为什么 AI agents 需求专属的“电脑”?

为了更好地了解这个成绩,「海外独角兽」编译了 CEO Vasek Mlejnsky 最新的两次访谈,以及 E2B 外部一篇有关 computer use agent 的技术博客。本文详细引见了 E2B 的技术理念,以及团队从代码解释器转型为更通用的 agent 运转环境背后的思索。

E2B 的愿景很大,CEO 的目的是成为 AI Agent 时代的 AWS,成为一个自动化的 infra 平台,将来可以提供 GPU 支持,满足更复杂的数据分析、小模型训练、游戏生成等需求,并可以托管 agent 构建的运用,覆盖 agent 从开发到部署的残缺生命周期。


Founder Park 正在搭建「AI 产品市集」社群,约请从业者、开发人员和创业者,扫码加群:

(, 下载次数: 0)
进群后,你无机会得到:


01
E2B 是什么?
E2B 的创立、发展和转型
E2B 的两个创始人是 Vasek Mlejnsky(CEO)和 Tomas Valenta(CTO),来自捷克。在正式创业之前,二人就曾经合作过很多项目。

在创立 E2B 之前,Vasek 和 Tomas 在做的产品叫做 DevBook,这是一个面向开发者的交互式文档,可以看作是 E2B 的雏形。GPT-3.5 发布后,二人尝试构建 agent 来自动化工作,由于每一个项目都需求一套工具集成到后端,于是他们应用 DevBook 已有的沙盒技术运转代码,并将 agent 自动拉取 GitHub、编写代码、部署到 Railway 的相关内容发到了 twitter,推文不测被 Greg Brockman 等人转发,在几天内获得了大约 50 万次阅读。之后二人迅速开源并将重心转向沙盒环境,在 2023 年 3 月创立了 E2B。

(, 下载次数: 0)

Vasek 表示,团队一末尾就看法到了代码执行是 agent 技术栈中至关重要的一环。代码就像是一种通用言语,可以作为衔接一切的粘合剂,人类开发者就是经过代码把各种服务和 API 衔接起来,从而让系统跑得起来的,为什么 agent 不能做异样的事情呢?Agent 需求一个安全、灵敏的代码执行环境,且随着 agent 越来越弱小,代码运转环境也变得越来越重要。

E2B 发展的一个关键点是引入了“代码解释(code interpretor)”这个概念,当团队末尾用这个词解释产品的时分,很多用户一下子就明白了:假如用户想用 AI 停止数据分析、可视化,代码执行就非常关键,由于这些义务都需求运转 AI 生成的代码;假如想让大模型更聪明,比如能做数学运算,那代码就可以被看作是一个非常通用的计算器;有用户想构建一个 AI 驱动的 Excel,只需求描画每一列该做什么,agent 就会根据描画动态生成代码、执行代码,用户就可以轻松完成数据加强、数据分析等义务。

在创业早期,E2B 花了很多工夫经过运用明白的用例来教育市场、获取用户。

2024 年 10 月,Anthropic 推出了 computer use,但其实早在六个月前,E2B 就曾经有了一个桌面版的沙盒环境,只是当时没有模型可以真正用起来,因此这一功能未被广泛关注。大约在 2024 年底至 2025 年终,团队末尾观察到用户将沙盒用于 computer use。同时 Vasek 留意到,在 2024 年的时分人们还在尝试构建 agent,但到了 2025 年,agent 曾经被越来越多地被投入到消费环境,出现了大量新的用例。

随着这一趋向的发展,人们曾经不再沙盒仅仅用于运转数据分析等代码片段,E2B 顺势调整了产品定位,不再将沙盒仅视为代码解释器,而是逐渐拓展为更通用的 LLM 或者 agent 运转时的环境。

受益于 LLM 才能的提升和 agent 的落地,E2B 在 2024 年获得了非常好的增长,2025 年更是直线上升,沙盒的月创建量一年内从 4 万增长到 1500 万。

产品功能和定位

E2B 提供了一个安全的沙盒环境,可以让 AI agent 在云端安全运转 ,agent 可以运用沙盒创建文件、运用阅读器、分析数据、编写小型运用程序、创建 Excel 表格等,可以完成的义务场景相当丰富。
E2B 支持多种代码言语,目前运用最多的是 Python 和 JavaScript,前者每月有接近 50 万次的 SDK 下载,后者有约 25 万次。
(, 下载次数: 0)

Vasek 希望 E2B 能成为 AI agent 时代的 AWS,成为一个自动化的 infra 平台,将来可以提供 GPU 支持,满足更复杂的数据分析、小模型训练、游戏生成等需求,并可以托管 agent 构建的运用,覆盖 agent 从开发到部署的残缺生命周期。

但这并不意味着 E2B 会去做 prompt 或者 memory 等,Vasek 置信 LLMs 会持续变得更弱小,很多如今看起来复杂的成绩,将来能够都会自动被处理。

但有些成绩是比较难被自动处理的:比如怎样确保总是能从 LLM 得到一个呼应?假如接入的模型提供商宕机了,要怎样自动切换到另一个提供商?这是开发者多年来不断在面对的老成绩,只不过如今换了场景:以前是在传统软件中,如今是在 AI 环境中。

此外,传统云计算是为已有运用设计的,而 agent 执行的代码是动态生成、不可预知的。这些成绩还是需求用一种全新的方式来处理。

Vasek 提到,大多数时分,开发者找到 E2B 也是从一个很简单的需求末尾的,比如开发者一末尾只是用一个 serverless 函数,或者是在服务器上跑一个 API 接口来执行代码,在开发的早期阶段甚至可以就在本地运转代码。

但随着产品的发展,尤其是想要规模化地运营时,成绩就会一个接一个地出现了。比如:

• 安全性与隔离性:开发者希望确保不同用户的代码不会在同一个环境里运转,由于开发者并不知道用户的代码详细在干什么,也不知道有没有敏感信息被泄露。

• 权限与自在度:开发者想给 agent 或 AI 运用尽能够大的自在度,让它们可以运转任何想运转的代码,这能够包括访问残缺的文件系统、下载依赖包等。

这些都会带来各种技术和安全应战,比如如何高效、动态地生成隔离的代码执行环境,如何让这些环境随时可用,并确保波动和安全等等。很多开发者渐渐看法到这需求一个更专业、更安全的处理方案,也就自但是然地转向像 E2B 这样的产品。

随着 multi agent 的发展,团队接上去会尽快推出新功能 forking(分叉)和 checkpointing(检查点),从而使得多个 agent 可以并行尝试不同处理途径,就像树状结构,每个节点就是一个沙盒快照,可以分叉出去进入下一个形态,最终找到最优途径,相似蒙特卡洛树搜索。forking 和 checkpointing 还可以很好地处理本地形态管理成绩,比如保留中间进度,避免每次都从头来过。

(, 下载次数: 0)

蒙特卡洛树搜索是一种常用于决策成绩中的搜索算法,结合了随机模拟和树状搜索的优点,能在计算资源有限的状况下找到接近最优的决策。

E2B 目前曾经完成了 persistence(持久化),这是完成 forking 和 checkpointing 的基础。用户可以先暂停沙盒,然后在一个月后将沙盒恢复到暂停时的形态,从而使得 agent 可以运转更长工夫或间歇性执行义务。

运用场景

E2B 最重要的运用场景之一是给 AI 数据分析提供支持。

开发者上传一个 CSV 文件,然后向 AI 发问:“我上传了一个 CSV 文件,它包含这些列,你可以写 Python 代码来分析这些数据。”但是这些代码必需要有地方可以运转,E2B 专门为这种场景打造了一个高度优化过的运转环境,并提供了一个公用的 SDK,叫做 code interpreter SDK,整个环境的闭环非常自然:

• 开发者可以直接创建图表,甚至是交互式图表;

• 开发者可以安装第三方库,E2B 曾经预包装了常用的数据分析包;

• AI 模型可以方便地援用本人后面熟成的代码块;

• 假如代码出错了,开发者可以把错误信息疾速反馈给 LLM,让它尝试修复。

对于开发者来说,由于 E2B 做了隔离机制,每一个 agent 都有专属的沙盒环境,agent 会更牢靠。

(, 下载次数: 0)

E2B 第二大运用场景是作为 AI 生成运用的运转平台,这个范畴发展得非常快,尤其是人们末尾基于各种不同的框架来构建 AI 驱动的运用,这些运用需求一个可以运转 AI 生成代码的环境,也就是需求一个专门的运转时(runtime)来支撑这类 AI 生成的运用逻辑。

因此 E2B 创建了一个开源模板,叫做 Fragments,开发者可以复制这个模板作为构建本人 AI 运用平台的终点。开发者可以在界面中直接输入:“帮我用 Next.js 构建一个待办事项运用”,LLM 会生成相应的代码,并把它发送到沙盒环境中运转,开发者马上就会看到运用效果。

(, 下载次数: 0)

E2B 如今正在逐渐进入更多的场景,Vasek 观察到有开发者在做代码执行的时分,目的并不是构建面向开发者的 agent,比如有开发者做了一个 AI 驱动的 Excel,这个产品并不是面向开发者的,它的最终用户能够是 CEO、企业高管、业务人员,或者公司外部任何需求运用数据的人。但在这个产品底层,是经过代码执行来完成功能的。

Vasek 表示看到了越来越多这样的趋向——虽然如今还非常早期,但这是一个非常令人兴奋的方向,由于人们正在看法到,代码执行不只仅服务于开发者,也可以服务于其他类型的用户。

还有一个风趣的 use case 是 Hugging Face 在构建 Open R1 的时分,在强化学习、代码生成的训练阶段用到了 E2B,详细来说,Open R1 模型有一个训练步骤是模型接收一个编程题,然后需求生成并在某个地方运转代码,接着奖励函数会前往一个 0 或 1 来表示能否正确,再用这个反馈来优化模型。

(, 下载次数: 0)

Hugging Face 运用 E2B 的沙箱来运转这些代码,每个训练步骤会启动数百甚至上千个沙箱,从而完成高并发。这种方式非常快,而且不需求用昂贵的 GPU 集群来处理。在运用 LLM 的时分,开发者不用担心它会改动集群里的权限进而影响系统,由于每个沙盒都是彼此隔离和安全的。

Vasek 表示曾经有几家公司要以这种方式来运用 E2B 训练模型,虽然这不是团队一末尾想象的场景,但如今看起来是非常合理的。从 AI agent 生命周期角度来看,E2B 该当在周期里介入得越早越好,而训练阶段能够就是最早的一环。

如何提高开发者粘性?
提升开发者的粘性是构建开发者工具中最难的一点,关键在于找到合适的开发者体验(DX)。Vasek 以为,“GPT Wrapper”在当下是个好生意,可以疾速应用底层模型才能提升带来的好处,目前来看,用户切换模型的成本越来越低,基本上只需求一两行代码,就可以从 Gemini 切换到 Claude 或者 OpenAI,用户也常常切换模型。但确保本身的运用或 agent 在模型切换中还能正常运转其实是很难的。E2B 的一个重要价值主张是,当客户(尤其是大公司)运用 E2B 时,他们不会觉得被某一个 LLM 锁死。比如 OpenAI 有本人的 code interpreter,但很多客户并不想用,一方面是由于他们控制不了,另一方面是假如他们用了,他们就必须不断绑定在 OpenAI 上,没法切换到 Google 或者开源模型,由于 OpenAI 的 code interpreter 不会去适配其他模型,所以他们根本没有这个动力去运用。所以 E2B 需求让开发者更容易去切换模型。Vasek 以为真正博得开发者的方法是提供的体验好到让开发者几乎不需求思索本人在用一个工具——就像是大脑的延伸一样。虽然这听起来好像反而让人更容易换工具,由于开发者没有在无看法地去依赖它,但实践上,正由于开发者不需求思索,才更不情愿换,工具完全进入了工作流。要达到这个效果,需求留意各种小细节,比如开发者不需求了解 infra 的复杂逻辑,不需求做一堆配置文件,这些东西是蹩脚的开发体验。总而言之,E2B 需求对 LLM 保持中立。从技术角度来看,E2B 希望成为 agent 范畴的 Kubernetes,同时具有更好的开发者体验。(注:Kubernetes 是一个开源的容器编排平台,用于自动化容器化运用的部署、管理、扩展和运转。)
02
E2B 是怎样看 AI Agent 的?
Agent 时代,软件该如何定价?

Agent 的定价是一个非常值得讨论的成绩,有人以为传统的按席位收费并不适用于 agent,由于有些 agent 能够只运转几秒钟,有些 agent 能够需求运转几个小时,但假如按运用量计费,用户能够会在不知情的状况下花费很多钱,从而导致用户不敢继续运用。

Vasek 以为对于 infra 公司来说,定价的确是一个非常难的事情。

创始人在创办一家 infra 公司时,常常希望把定价做得非常简单,比如每月用户就付一百美元,假如超过了某个限制,再运用其他方式收费,但末尾扩展规模的时分,创始人就会发现需求思索的要素非常多,比如要思索流量、存储量,还有各种粗大的资源耗费等等,最后往往会有一张非常复杂的价格表。

因此如何向用户传达定价逻辑就变得非常重要,基本的功能是必需要有的,比如计费下限、费用预警,这些功能可以确保用户感到对本人的支出是有完全的掌控感。同时还要提供良好的可观测性,用户必须清楚知道他们用掉了什么资源、花了多少钱。

Agent 的下一个运用场景:computer use

如今 agent 被广泛议论的三个次要运用场景是:

1. 写代码(coding),比如 Cursor;

2. 销售(sales),比如市场拓展环节末尾自动化,很多本来销售代表需求手动做的工作正在被束缚;

3. 客户支持(customer support),比如 Sierra 和 Decagon 这样的公司正在被《财富》百强企业运用。

Vasek 以为下一个 agent 真正能工作起来的场景是:让 agents 控制电脑或者阅读器。Anthropic 是去年最早公开发布相关内容的公司之一,OpenAI 往年也发布了 Operator。这件事带来了各种能够性和应战,比如,用户能够不会希望 agent 完全随意运用本人的电脑,用户还是会希望有一些控制,比如可以选择能否允许 agent 操作。

如古人们正在为 agent 构建电脑,E2B 也推出了本人的 Desktop Sandbox,本质上就是一个带图形界面的云电脑,还开源了一个 open-computer-use 项目,结合开源大模型,尝试去模拟运用电脑的行为。这个项目对 E2B 来说也是个应战:E2B 能不能仅凭开源大模型就构建出能运用电脑的 agent?

(, 下载次数: 0)

(, 下载次数: 0)

Vasek 以为,在 2025 年,这个方向会非常风趣,由于潜在报答非常高,但不确定性也很大。Vasek 并不完全确定五年后,agent 能否还会用云电脑的方式来运作,能够会有更好的替代方案出现。但如今,这是一个非常值得探求的范畴,特别是假如 E2B 能为每台本地机器创建一个数字孪生,那对企业和非开发者类的工作来说,将会是一件大事。

不过 Operator 这类产品的目的并不是“看着 agent 替你完成义务”,Vasek 以为人在运用 agent 的时分,好处在于心思负担会小很多,由于根本不需求再去思索“我必须去做这件事”——在理想世界里,会有一个待办事项运用,人们只需在这个运用中输入一个义务,这个义务就会自动由某个 agent 末尾处理了。

不过有个风趣的成绩是,如今的网站,比如航空公司订票网站、酒店预订平台,都是专门为让人点击操作而优化的,很多公司为此花了数百万美元去提升点击率。但如今,访问这些网站的却末尾变成了 agent。

如今还有一个潜在概念是 LLM 可以让用户即兴完成各种事情,用户甚至不需求电脑,一切都可以被“生成”出来。

如何教 AI 运用电脑?

在 computer use agent 这个话题上,E2B 的 AI engineer James Murdza 在 2025 年 1 月撰写了一篇博客,文中引见了 James 做的一个开源 computer use agent,可以运用个人电脑的全部功能,比如接收“在网上搜索心爱猫咪图片”这样的指令,经过 LLM 停止推理,自动操作鼠标和键盘来完成义务。

(, 下载次数: 0)

这个工具和其他工具的不同之处在于它是完全开源的,并且只运用开源权重模型。这意味着任何人都可以自在运转和修正这个项目。工作原理是 agent 会不断截取屏幕截图,并讯问 Llama 下一步该怎样做,直到模型判别义务完成为止。

(, 下载次数: 0)

这个项目的技术应战在于:

1. 安全性:需求将操作系统隔离在一个安全、可控的环境中;

2. 点击操作:要让 AI 能精准点击、操控 UI 元素;

3. 推理才能:要让 AI 能根据所见决议下一步该做什么或何时结束义务;

4. 部署小众 LLM:需求以低成本托管开源模型,尤其是小众的开源项目 OS-Atlas;

5. 实时画面传播输:要有一种低延迟的方式来展现和录制沙盒环境。

• 应战一:安全性

理想的 AI agent 运转环境应该是易于运用、功能良好、且具有安全保障的,毕竟让 AI agent 直接访问个人电脑和文件系统是非常风险的,由于 agent 能够会误删文件,甚至执行一些无法挽回的操作。因此 James 没有让 agent 直接访问本地电脑,而是运用了 E2B。

• 应战二:点击操作

(, 下载次数: 0)

基于 LLM 的“电脑操作”在界面是文本为主的状况下其实相对简单,只靠文字指令就能完成很多义务。但有些运用基本不能够在没有鼠标的状况下运用,因此假如想做一个真正片面的电脑操作 agent,就必须支持鼠标点击功能。

传统方案的效果并不令人称心,比如运用传统计算机视觉模型作为屏幕和 LLM 之间的桥梁,这类方法在辨认文字和部分图标方面还不错,但根本分不清文本框、按钮或者其他交互元素。中国有学者在研讨具身视觉言语模型(grounded VLMs),这是一种视觉+言语模型,关键是可以输入准确的坐标,指向输入图像中的详细地位。Gemini 和 Claude 也具有相似才能,但并不是开源的。

最后 James 选择了 OS-Atlas,由于 OS-Atlas 不只在 Hugging Face 上发布了模型权重,还在一篇论文中详细引见了模型训练过程。

(注:OS-Atlas 是一个开源收费的项目,目的是为游戏玩家提供用于运转游戏的操作系统,基于 Windows 10 定制,删除了各种非必要的系统组件。)

• 应战三:推理才能

(, 下载次数: 0)

Agent 的弱小之处就在于它可以在多种操作之间做出选择,并基于最新的信息做出合理判别。最后用户经过 prompt 可以让 LLM 以特定的文本格式输入一个操作,然后把操作结果添加进上下文中,再次调用 LLM 停止下一步。后来用户可以经过微调来强化系统提示,这个才能一末尾叫“函数调用(function calling)”,如今更盛行的说法是“工具调用(tool use)”。

但将视觉输入结合进工具调用流程,并在一次 LLM 调用中完成视觉了解和操作决策,在当时还是一个相对新颖的做法,James 表示他运用的是:

1. Llama-3.2-90B-Vision-Instruct:用于查看沙盒环境的画面,并决议下一步该做什么;

2. Llama 3.3-70B-Instruct:将 Llama 3.2 的决策转化成工具调用的格式;

3. OS-Atlas-Base-7B:作为一个可以“被调用”的工具,根据输入的 prompt 停止点击操作。

值得一提的是,James 以为市面上的 agent 框架不太有用。这些框架的次要作用是封装 LLM 的输入格式和输入解析、做 agent 的 prompt、做 agent 的运转循环(Run loop),但 James 希望运转循环非常简单,同时也不希望 agent 的 prompt 被框架直接黑盒化处理,由于这是 James 最常需求调整的部分。所以框架独一的能够用途就是对接 LLM 服务商,尤其是触及工具调用和图像支持的时分,但当时大多数服务商曾经在一致运用 OpenAI 的工具调用格式了,当有例外时,框架文档又常常阐明不清。

James 表示工具调用不是一个单一的功能,而是一整套组合拳,包括 LLM 的微调、prompt 设计、字符串格式解析、API 接口规范等。不管是在服务端还是客户端,要把这些拼好并持续更新,框架是很难笼统到位的,最后开发者还是要手动调整。

• 应战四:部署小众 LLM

为了让 agent 运转更快,James 希望 LLM 推理能放在云端,同时还希望用户能开箱即用。成绩在于,James 能为 Llama 这样相对主流的模型找到靠谱的服务商,但 OS-Atlas 这样相对冷门的模型,很多推理服务商都不情愿提供 serverless 服务,最后 James 运用 Hugging Face 提供的收费空间来调用 OS-Atlas。

• 应战五:实时画面传播输

为了能看到 AI 正在做什么,James 希望实时获取沙盒环境中的屏幕画面,并成功用 FFmpeg 完成。

(注:FFmpeg 是一个开放源代码的自在软件,可以执行音频和视频多种格式的录影、转换、串流功能。)

服务端命令:把当前屏幕录成视频流,经过 HTTP 开一个服务器,但一次只能连一个客户端。
ffmpeg -f x11grab -s 1024x768 -framerate 30 -i $DISPLAY -vcodec libx264 -preset ultrafast -tune zerolatency -f mpegts -listen 1 http://localhost:8080
客户端命令:客户端衔接服务器,同时把视频保存上去并实时播放。
ffmpeg -reconnect 1 -i http://servername:8080 -c:v libx264 -preset fast -crf 23 -c:a aac -b:a 128k -f mpegts -loglevel quiet - | tee output.ts | ffplay -autoexit -i -loglevel quiet -
James 在整个开发过程中不断在思索一个成绩:AI agent 到底应该尽量经过 API 控制,还是靠视觉去模拟人类点击?答案其实很清楚:有 API 的时分,尽量用 API。但成绩在于,大部分软件压根没思索被程序控制,所以基本没有合适的 API。

因此,James 选择特意让 agent 模拟人类操作。但做 agent 的时分,其实也应该思索除了视觉界面以外的其他可用接口,比如:

1. 标准 API:文件系统 API、Microsoft Office API 等;

2. 代码执行接口:运转 Bash 或 Python 脚本来打开运用、读取文件;

3. 辅助功能 API(Accessibility API):桌面系统常提供这种接口,可以“看见”GUI 结构(Graphics User Interface,图形用户界面);不过在 Linux 上支持度不如 macOS 或 Windows;

4. 网页的 DOM 接口:可以半结构化地访问网页元素;

5. MCP:专为 agent 设计,支持提供上下文与操作入口。

James 以为如今只能靠视觉是由于大多数运用根本不提供敌对的结构化入口,尤其是辅助功能 API,假如辅助功能 API 能更强,不光 AI agent 能用,人类视障用户也会受益。假如一切都能像 Zapier 那样有适配器一致接入,那效率会高很多。

还有一个悬而未决的大成绩是如何安全地处理用户认证?最不安全的方式就是让 AI 拥有和人一样的权限。更安全的做法是设置权限范围,就像 OAuth 授权、iOS App 权限控制那样。

(, 下载次数: 0)

James 创建了一个全新的、隔离的沙盒环境,没有任何用户数据,但这并不能从根本上处理成绩。假如用户没有安全的方式可以选择,他们往往就会选择一个不安全的做法。因此,James 以为以下成绩值得思索:

1. 如何为 computer use agent 提供带权限范围限制的 API 访问才能,比如 agent 可以运用传统 API 查看用户的邮箱收件箱,但无法删除或发送邮件。

2. 如何对传递给 LLM 的敏感信息停止脱敏处理,并在输入结果中还原,比如用户可以预先设置一些信誉卡卡号之类的密钥信息,这些信息可以传递给工具运用,但不会暴露给大模型本身。

James 预期开源模型会迅速朝着具有视觉才能的推理提高,也很等待经过给 agent 加入更多 API 工具来加强才能。

Agent 框架定制化 VS 运用现成框架

James 在上文提到如今市面上现成的框架并不好用,长期来看,中大型企业能否会觉得本身企业环境特殊,因此 agent 必需要有可扩展性和定制才能,从而转向本人开发?

Vasek 以为最后这些框架诞生的时分,是在 LLM 发展的非常早期阶段,当时很多核心概念都在不断演化,甚至如今也还在变化,但至少曾经构成了一些共识,比如某些类型的 prompt 可以被高效运用,Chain of Thought、ReAct 等方法曾经变得更为波动,也逐渐搞清楚了 agent 应该怎样运用工具等等。

对开发者来说,假如在用的框架本身还在不停变化,那开发起来就会很痛苦。与其有十种不同的方式可以做一件事,不如有一个明白可用的方式,这也是 Vasek 运用框架的缘由。

Vasek 以为每个框架都有本身明白的“方法论”和偏好,开发者需求认可它的方式,将来有明白主张的框架(opinionated frameworks)会越来越盛行,开发者也会更情愿接受,Crew AI、LangGraph 曾经有这样的趋向了。

Crew AI 是开源 multi agent 协调框架,LangGraph 是由 LangChain 团队推出的一个在 LangChain 之上构建的模块,用于构建有形态和多角色的 agents 运用。

框架的演进是一场没有终点的战役,总会有新的框架出现。如今的 agent 框架之争,就像当初 Transformer 大模型之争一样,比如 Anthropic 和 OpenAI 之争,只是如今演化成了 Crew 和 LangGraph 之争。开发者能够没法直接经过框架本身来赚钱,但可以围绕 infra 或相关服务来捕捉价值。很多做框架的团队正在拓展本身的产品范围,比如 LangChain 发展出了 LangGraph 和 LangSmith,末尾把本人定位成“全套 Agent 处理方案”。

Vasek 特别提到,当开发者还不清楚本人真正喜欢哪种构建方式时,不一定要用框架。如今有一些框架定位也不完全是传统意义上的 Agent 框架,比如 LangChain 更像是一种更方便和大模型交互的工具。

03
为什么选择扎根硅谷?
E2B 的两个创始人来自捷克的一个边境小镇,六年级就互相看法了。后来二人都搬去了首都布拉格读计算机专业,虽然 Tomas 后来转学去了别的城市,但每年夏天都会在布拉格和 Vasek 一同折腾各种项目。

创立 E2B 之后,虽然两位创始人都是捷克人,但最终选择在美国发展而不是欧洲,缘由在于 Vasek 以为应该在用户所在地去构建产品,E2B 的用户是开发 AI 运用的工程师,他们大多数都硅谷,所以在硅谷创业是很合理、顺理成章的选择。

Vasek 一末尾并没打算真的搬到硅谷,本来以为本人可以每两个月过来一次,做一些市场和销售相关的事情。从 2023 年末尾,E2B 早期的四人核心团队隔段工夫会一同到旧金山待上一两个月,但每次来旧金山,团队都能分明感觉到事情推进得更快,特别是在早期阶段,假如想协助某个用户末尾运用 E2B,方法非常直接:坐在一同,当面指点。面对面的支持效率和互动感,是远程永远比不了的。

(, 下载次数: 0)

Vasek 发现硅谷不只要宏大的市场机会,更重要的是,硅谷聚集了最顶尖的工程师和最活跃的创业氛围,人才密度非常高,比如在布拉格,Vasek 和十个人聊创业话题,能够只要一个人可以带来启示,但在硅谷,能够只要 5、6 个是普通对话,午饭间的聊天能够就会是高密度、高质量的对话。

此外,虽然团队可以分布式办公,但在早期,创始团队需求在同一个地方,由于在那个阶段,每天都在疾速变化,甚至几个小时就有新想法、新决策,一切都很动态,大家必须在一同,面对面讨论、疾速举动。所以 Vasek 坚定地选择了扎根硅谷。


更多阅读北大校友、OpenAI前安全部总裁Lilian Weng关于模型的新思索:Why We Think独家对话Lovart创始人陈冕:我们没有产品经理,只要设计师付费用户打破 1000 万,All in AI 的多邻国,是怎样用 AI 的?Agent 产品如何定价?一文说清 AI 产品的四种付费形式
转载原创文章请添加微信:founderparker




欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/) Powered by Discuz! X3.5