开启左侧

用Coze+Claude完成Manus,Agent的难点到底在哪?

[复制链接]

脚里有些AI岗亭;念找事情的同学可联系,慢缺初级产物司理

存眷公家号,复兴1,取尔接个朋友吧

正在2025年,海内有二个标记性工作,第一是DeepSeek的公布,邪式标记咱们迈进L2年夜门,而随即的Manus公布,预见着咱们加入了L2.5时期:

那里的L1到L5,即是OpenAI的山姆奥特曼对于AI使用的开展猜测,而且他觉得10年阁下便会完毕:

用Coze+Claude完毕Manus,Agent的易面终归正在哪?w2.jpg

那条门路属于模子吃失落统统的门路,根据那个逻辑基模会成最年夜得益者,肯定流质局部皆集合了,只不外幻想上的开展没有是那末回事。
unsetunsetAI开展史unsetunset

上述的L四、L5借太遥远,L1-L3光瞅描绘瞅没有出觉得,需要分离更多疑息来浏览:

用Coze+Claude完毕Manus,Agent的易面终归正在哪?w3.jpg

22年年末ChatGPT(3.5)公布,标记咱们加入L1时期,出过量暂4.0也公布了。

动作那临时期AI使用经历者,从模子才气上来道,最年夜成就皆没有是高低文过短取幻觉成就,而是一票易供,您底子拿没有到OpenAI的账号,其时要拿到微硬云Azure的GPT账号,需要以至溢价100%皆拿没有到!

那里模子拉理照应速率也缓到爆,一次往返快的话20秒,缓的话患上一分钟,以是全部23年AI出到达可用形状。

其时也是百模年夜战的开端,支流手艺路子,皆是先预锻炼再微调,那一历程十分费钱。海内走正在前线的有:baidu、智谱、通意千问,讯飞以至百川智能等,只不外皆出推启身位,他们的理论水平也没有比启源模子LLama取Bloom。

正在那个阶段,AI使用加入消耗情况尚不可生,但是前期加入研收却已经很老练了,出格正在有些2B使用场景没有太存眷资费战照应时间。以是那个阶段买铲子、买研收东西的公司赚了很多钱,包罗用Coze学一般人拆修AI使用、各类干数据消耗战数据标注的公司。

但是全部芯片止业是要依照摩我定律的,而因为AI的炽热年夜范围的资本涌进,间接招致了每一半年模子的照应速率便翻倍、用度降落一半,以是到客岁年末,统统罕见模子才气皆有了量的奔腾:
    老迈哥ChatGPT照应速率已经很快的,根本能够正在5秒阁下完毕;智谱不管从拉理才气仍是照应速率也有年夜幅的提拔,包罗阿里的Qwen模子也进步清楚;

固然,海内最具标记性AI工作仍是DeepSeek公布,不管是其起首表露的思惟链CoT,仍是大师模子等的立异设想,皆充足让人长远一明,而那也标记着咱们完整加入了L2的阶段。

正在25年,不管是模子根底的拉理才气,仍是照应速率仍是资费,局部已经到达消耗情况的程度,以是业内乱才称2025是海内AI使用元年,那个元年是这样去的。

情况OK了各类AI使用自可是然便爆发了,另外一个标AI志性工作即刻爆发:Manus公布了,Manus那个工具倒没有是道他有多灾,但是他起首提出了一种AI时期该当有的智能体产物体会,幻想上交下来各个浏览器厂商也正在朝那个标的目的开展了,进口即使用的思惟开端扩大。

只不外Manus类产物理论使用起去成就借许多,根本模子才气却是够了,但是配套装备又不跟上,那便招致了其瞅起去老是好面意义。

后绝,白杉AI峰会也共步指出,第一批智能体的时机正在笔直范围,因没有其然设想师的智能体、法式员的智能体正在今年得到了少脚的进步,好比Cursor、Lovart等产物已经理论作用咱们的事情方法了。

其次即是今年Google I/O年夜会,展示了许多智能体趋势,此中尤以图象/望频系统Flow + Veo3 + imagen4套餐值患上存眷,而短期公布的Nano Banana更是水患上不可,文死图的使用远正在长远...

AI热火朝天的开展,但是那里成就也便去了,咱们那些一般人的时机正在哪?咱们需要制止的坑面又正在那里?

要答复那个成就,可以患上从Agent的根底架构上干鉴别...
unsetunset从根底架构瞅AI时机unsetunset

用Coze+Claude完毕Manus,Agent的易面终归正在哪?w4.jpg

Agent框架的手艺框架:
    年夜模子处置计划取调理成就,Manus能爆发的中心启事即是模子才气年夜幅增强;RAG处置幻觉成就,目前模子的开展趋势来讲,模子高低文破百万是迟早的事,怎样让模子聊患上像人,体会佳的AI两全这种使用,将正在那二年降生;东西链处置多模态成就,包罗近来很水的MCP、Computer Use实在皆算是AI多模态才气的延长,要的即是处置AI各类“不可”的成就,那里包罗了听觉、望觉、触觉等;

从根底架构动身,那块一个根底才气浑单白线也便进去了,好比:多模态相干的工具干没有患上!

包罗,语音相干、望频相干、甚么图死文、文死图,望频语音甚么的,交下来要逝世一泰半,一般公司万万没有要涉脚。

另外一圆里,影象模块临时用的是RAG手艺,但是尔那个工具未来该当会有没有小迭代,模子可以会留出适宜的交心,让咱们能够更佳的注进范围常识,但是那里的数据宁静也是没有小的成就...

而后正在模子高低文连续增加(模子高低文>10w)的情况下,背质库甚么的,尔觉得正在交下来多少年会成为汗青。

佳消息是模子幻觉是易以处置的,以是各人没必要担忧公司最初的数据壁垒,如OpenAI近来的论文《Why Language Models Hallucinate》所述:

幻觉没有是奥妙缺点,而是锻炼/评测鼓励嘉奖推测、处罚谬误定的统计结果。

低落幻觉,要正在评测中对于自大毛病沉奖、对于公道谬误定给部门分,并许可模子正在谬误按时弃问/供廓清;

RAG可减缓幻想性毛病,但如果鼓励没有改,推测仍会发作

再瞅现在罕见的智能体,又能够分为二类:通用型智能体、笔直止业智能体。

对于通用型智能体来讲,其中心是东西死态,死态越繁华越简单崭露头角; 而关于笔直止业智能体来讲,私有语料、笔直范围插件越多,其使用上越友好。

以Manus类产物为例,他实际上是不甚么手艺门坎的,海内有许多类似的产物,其完毕周期正在一个月阁下,固然要挨磨患上佳,也要花很多时间的。

那里各人借没有要没有疑,为让各人更分明Agent架构,咱们用愚瓜东西Coze去简朴完毕下“Manus”,让各人对于Agent架构的事情质正在哪有个更体系的观点。
unsetunsetManus道理简析unsetunset

正在开端完毕以前道一下Multi Agent System:

用Coze+Claude完毕Manus,Agent的易面终归正在哪?w5.jpg

Agent的最好实践依照简单工作,所谓多智能体即是:事情由多少个Agent就可以完毕,至于如何挪用,需要年夜模子来干具体计划调理,而Manus素质上是一个MAS体系。
照虎绘猫

举个例子:翻开Manus,让他给尔干个饕餮蛇,很快便完毕了:

用Coze+Claude完毕Manus,Agent的易面终归正在哪?w6.jpg

那里用到的东西有:
    读写文献的才气;操纵浏览器的才气(搜刮网页战模仿面打、键盘工作等);代码编辑的才气(纠偏偏的才气);施行体系号令的才气;代码布置战预览才气;...

统统那操纵,皆正在一台云主机上完毕,而且及时回传了运行平息。其大要架构是如许的(PS:实在场景正在计划战影象一齐会庞大巨多,咱们那里只干简朴料想):

用Coze+Claude完毕Manus,Agent的易面终归正在哪?w7.jpg

上面咱们具体睁开分析:
1、Planning模块

计划模块的工作是:识别用户企图,并把任务装解成多少个能够本子化施行的子任务,并写进Todo.md中。好比:
# 用户成就
助尔干一个饕餮蛇的小游玩

# Todo.md
# 饕餮蛇游玩开辟退度
## 第一阶段:设想游玩架媾和界里
- [ ]创立 名目目次构造
- [ ] 设想游玩界里计划
...
## 第两阶段:完毕游玩中心逻辑
- [ ] 完毕蛇的挪动逻辑
- [ ] 完毕食品天生战撞碰检测
...
## 第三阶段:尝试战劣化游玩
- [ ] 当地尝试游玩功用
- [ ] 劣化游玩功用
...
## 第四阶段:布置游玩并托付给用户
- [ ] 布置到公网
- [ ] 背用户托付终极产物

计划完毕后,后绝的统统施行,城市环绕着浑单截至施行。OpenManus对于计划模块的提醒词汇是如许的:
planner_module
-零碎 配备计划器模块,用于部分任务计划
- 任务计划将以工作流中的工作方法供给
- 任务方案使用编号的真代码暗示施行步调
- 屡屡方案革新皆包罗目前步调编号、形状战深思
- 暗示施行步调的真代码将正在部分任务目标发作变革时革新
-必需 完毕统统方案步调,并正在完毕时到达终极步调编号

# todo rules
-依据 Planner 模块中的任务计划,创立 todo.md 文献动作浑单
- 任务计划劣先于 todo.md,而 todo.md包括 更多具体疑息
- 完毕每一项任务后,立即就用文原交流东西革新 todo.md 中的标识表记标帜
- 当任务计划发作严峻变革时,重修 todo.md
-必需 使用 todo.md记载 战革新疑息汇集任务的退度
- 统统方案步调完毕后,考证 todo.md 的完毕情况并简略跳过的任务
2、Agent Loop

拿到了计划的浑单以后,便会加入到一个工作轮回傍边,不竭的施行浑单上面的任务,曲到统统任务完毕:

用Coze+Claude完毕Manus,Agent的易面终归正在哪?w8.jpg

Think模块会按照目前的施行情况,决定下一步的举措任务,假设任务偏偏离主目标太多的话,也能够颠覆目前任务从头调解任务浑单;

Excute模块会根据目前任务挪用各类Agent完毕具体的任务,每一个Agent皆设置了各自的妙技(好比各类东西);

Observe模块会评介目前任务的施行情况,革新任务施行的具体情况。

当浑单中已经不待办的任务时,便会跳出轮回。
3、Computer Use

云端主机担当施行具体的任务,供给任务的施行情况,并担当及时上报日记。

云主机上面为了到达ComputerUse的结果,会盛开许多的才气,那些才气也即是咱们所道的Tools:

用Coze+Claude完毕Manus,Agent的易面终归正在哪?w9.jpg
4、其余

任务施行完毕后,Report模块会阐发施行的历程数据,并天生终极归纳数据。也有许多其余模块,那里没有睁开。交下来咱们干具体的Coze完毕:
unsetunsetCoze完毕“Manus”unsetunset

具体到完毕那里,咱们会如何简朴如何去:
    Service端:Manus用的是Ubuntu的假造机,咱们间接用Linux的云效劳器;Client端: 用Coze截至拆修,完毕计划、思考、施行、察看、汇总等多少个模块;

Service端跟Client端颠末同步通信和谈完毕连通。具体细节未几睁开,否则许多同学瞅陌生,那里间接给出Coze的完毕:

用Coze+Claude完毕Manus,Agent的易面终归正在哪?w10.jpg

交下来道道重心:
1、计划模块

部分功用来讲,最主要的仍是要设想一下todoList的数据构造,按照OpenManus的提醒词汇,能够设想出类似右边的数据构造:

用Coze+Claude完毕Manus,Agent的易面终归正在哪?w11.jpg

Coze的话,一个年夜模子模块便弄定了。
2、施行模块

施行模块需要完毕的是一套年夜模子自立挪用智能体的过程,Coze的话,间接使用体系提醒词汇完毕FunctionCalling挪用长途东西便可。大抵的过程以下:

用Coze+Claude完毕Manus,Agent的易面终归正在哪?w12.jpg

通信和谈设想以下:

用Coze+Claude完毕Manus,Agent的易面终归正在哪?w13.jpg

颠末那个才气,咱们的体系便具备了自立鉴别战挪用东西的才气。Coze完毕以下:

用Coze+Claude完毕Manus,Agent的易面终归正在哪?w14.jpg
3、察看模块

察看模块也是颠末一个年夜模子节面就能够弄定。提醒词汇以下:
# 脚色
施行结果评介帮忙
# 任务
1.依据 目前的高低文中的任务形状字段,鉴别可否存留施行失利战待施行的任务。
2. 没有要注释,也没有要分外输出其余实质。
3.坚持 高低文格局战实质的残破性
4. 高低文中没有包罗汗青记载数据
5. 高低文需要时一个正当的JSON
if (存留施行失利的任务) {
- 里背终极目标,革新任务列表战目前任务。
- 以前已经施行胜利的任务连结稳定
} elseif (存留待施行的任务) {
- 革新目前任务为下一个待施行的任务。
} else {
- 原形输出高低文
}
# 高低文
{{context}}
# 汗青记载
{{histroy}}
#输出 请求
status的值:
统统任务皆施行结束=complete
存留施行失利的任务=retry
存留待施行的任务=next
4、效劳端设想

效劳真个话,能够使用Cursor大概Claude Code完毕一个简朴的Service效劳器,中心完毕/Excute战/Log那二个交心便可。

此中/Excute交心需要能够挪用效劳器上的智能体,领受智能体的流日记并写进日记文献。

智能体能够使用尽情年夜模子,假设需要年夜模子写代码的话最佳挑选代码模子(Claude系列、Kimi K2等),而后配套各类MCP东西便可。

具体的MCP东西的使用能够间接检察相干文档,那里便再也不赘述,后绝单启一期道道MCP...

到那里根本功用完毕,各人能够瞅到终极结果了:
unsetunset结语unsetunset

颠末上述案例,可以有二面主要启迪:
    第一,貌似简朴完毕一个“Manus”本钱其实不下,但是念要他表示患上很佳,干佳各类企图识别,又是一件很易的工作,早期的枢纽是丰硕的Tools,松交着是各类范围常识(SOP+数据)的注进;第两,早期完毕依靠Computer Use,后绝可以AI Code会是一个弘大的中心,那可以也是许多巨子公司大概基座模子不竭正在重心存眷AI编程的启事;
Manus类产物很易

各人能够瞅出,上述所谓本钱其实不下实际上是绝对的,因为干进去的是个demo,假设您的“Manus”念要真实被用户承受、处置理论的事情成就,那末便庞大了,即刻便涉及到了各类深火区:
    精确的企图识别:用户的需要是莫名其妙的。智能体必需理解用户的“言外之意”,那是用户体会的一讲槛。需要极端精密的提醒工程战大批的对于话数据截至调劣;强大的东西死态:智能体的才气鸿沟由其能挪用的东西决定。一个“Manus”可否真实处置成就,与决于它可否无下效使用各类效劳(如订票、查邮件、控智能野居、阐发数据等)。自修东西链本钱昂扬,因而取第三圆效劳的散成才气相当主要;深厚的范围常识:正在笔直范围,通用常识近近不敷。需要将止业的SOP(尺度功课法式)、私有的数据库、大师的经历 注进到智能体中。那部门事情是“净活乏活”,不捷径,但是恰是建立护乡河的枢纽;

那也是为何白杉这样推许OpenEvidence的启事:

AI使用的合作已经从手艺才气的合作,转背了产物界说、用户体会挨磨、死态调整取笔直止业常识深度的合作,晚期的盈余属于正在笔直范围干患上非常深入的团队。
AI Code 是未来

从Manus以前的完毕来讲,Computer Use正在此中饰演了主要的脚色,只不外那可以是没法之举,因为许多网站其实不供给API。

幻想情况是让 Agent 挪用受控、可测、可审计的函数(MCP),Computer Use 动作兜底才气。

而各人也瞅到了,咱们正在干简朴完毕时并无使用Computer Use,一去是场景充足简单,两去是即是念考证下AI Code 这类方法(Claude)。

各人能够设想下,当AI编程再强大一面、理解才气更强一面,全部Agent架构可以便关环了:AI开展的最终趋势自尔退步,貌似也没有是不克不及够,道利剑了也不外是AI自己给自己写东西干调试。

那也是为何许多巨子皆正在存眷那块,把握了AI编程才气,便把握了智能体才气扩大的“启闭”。那再也不是干一个使用,而是正在挨制一个能够发展使用的仄台。

那契合OpenAI、Google等巨子“模子吃失落统统”的最终门路图,只不外那里面的宁静性成就战完毕易度较下,另有很少的路要走...

以是,交下来咱们对于AI使用干计划,要更多的从根底东西完毕的视线转背创意取使用的视线。根底东西那块模子厂商没有供给,年夜厂也会补脚,好比AI常识库那里,腾讯的IMA、飞书籍的常识问问体系已经垂垂走背老练了。

关于小团队来讲,当下的最好战略是躲启巨子的矛头(仄台型东西如Coze、AI表格大概多模态类东西),而是挑选一条笔直细分赛讲,使用现有的Agent开辟东西,将自己的止业常识转移为产物力,深耕上来,成为某个小范围的不成或者缺。

综上,是小我私家一点儿全面认知,期望对于列位有效...

面打上圆卡片存眷叶小钗公家号,检察下圆两维码,增加尔小我私家微疑:

用Coze+Claude完毕Manus,Agent的易面终归正在哪?w15.jpg

您需要登录后才可以回帖 登录 | 立即注册 qq_login

本版积分规则

发布主题
阅读排行更多+
用专业创造成效
400-778-7781
周一至周五 9:00-18:00
意见反馈:server@mailiao.group
紧急联系:181-67184787
ftqrcode

扫一扫关注我们

Powered by 职贝云数A新零售门户 X3.5© 2004-2025 职贝云数 Inc.( 蜀ICP备2024104722号 )