职贝云数AI新零售门户

标题: MiniMax Agent内测来了!比Manus更繁复的思想链+多模态优势,或成AI智能体赛道包围关键 [打印本页]

作者: dyfowXijS 时间: 12 小时前
标题: MiniMax Agent内测来了!比Manus更繁复的思想链+多模态优势,或成AI智能体赛道包围关键

2025年5月19日 09:05

最近AI圈的繁华，全在“智能体（Agent）”赛道上——先是Manus上周宣布开放注册、取消等待名单，紧接着大模型“六小龙”之一的MiniMax，也在5月17日低调开启了自家Agent的内测。

这场“智能体军备赛”里，MiniMax的新动作有点看头：它的Agent不只能像人类一样“拆解义务”，还会在思索过程中反复“碎碎念”；更关键的是，其多模态才能（文本+语音+图像+视频）或许藏着包围的胜负手。

从“标准”到“深度”：MiniMax Agent的“话痨式”思索有多强？

打开MiniMax的Agent内测页面，用户首先要选“标准”或“深度”形式。前者合适简单义务（比如“整理会议纪要”），后者则会触发深度推理——用官方的话说，就是“耗时更长，但完成质量更高”。实测中，无论是“核查文档理想”这类研讨型义务，还是“搭建网站+规划旅游行程” 的综合需求，MiniMax Agent都能拆解成明晰的步骤链。

有意思的是，对比近期刷屏的Manus Agent，MiniMax的“思想链”显得更“话痨”：Manus 的思索过程更简约，只展现关键步骤；而MiniMax会把每个步骤的初步结论都列出来，甚至反复补充、纠错。比好像样生成“中国市场Agent行业报告”，Manus用40分钟产出1.2万字，MiniMax花了50分钟却只写了8000字——但后者的思索记录里，能看到它多次搜索实时资讯、核对数据来源，甚至标注“第3次补充：修正了2024年Q4市场规模数据”。

更直观的是“当行进程”视窗：用户能实时看到Agent的工作流，一切信息搜集、分析、验证都集中在一个窗口里，不像智谱AI的“AutoGLM沉思”需求跳转多个网页。这种“透明化”的思考过程，或许能让用户更信任AI的决策逻辑。

多模态才是机密武器？MiniMax的“全栈”规划早有预谋

假如说“话痨式”思索是MiniMax Agent的“显性特征”，那么多模态才能才是它真正的底牌。

从公司早期规划就能看出端倪：MiniMax自研了文本、语音、音乐、视频、图像等多模态大模型，还推出了Chatbot（智能助手）、海螺视频（视频生成）、星野（多模态陪伴产品）等AI原生运用。5月15日，其最新语音模型Speech 02更是直接“杀疯了”——支持32语种、不同口音和心情，还在两项全球语音测评榜单上力压OpenAI，拿下第一。

(, 下载次数: 0)

这种才能落实到Agent里，效果立竿见影。比如用户让Agent“生成3分钟温顺女性声响的冥想引导音频”，Manus虽能完成，但人声效果分明僵硬；而MiniMax的Agent不只能精准控制语气，还能根据用户需求调整节拍——毕竟，它背后是一整套语音、文本、心道了解的多模态模型在协同。

正如MiniMax创始人闫豪杰此前在“下一代智能体自主退化”沙龙中提到的：“模态交融（文本+语音+视觉）是智能体退化的核心方向。”如今看来，这句话绝非口号。

Agent赛道混战：2025年，谁能定义“智能体”的将来？

MiniMax的动作，只是2025年“AI Agent元年”的一个缩影。

目前赛道上，既有Manus、Genspark等创业公司，也有字节、百度、腾讯等大厂——腾讯甚至放话要依托微信生态，用社交、内容、小程序“拼”出独特的智能体。而“大模型六小龙”中，智谱AI早已推出能操作手机、发微信红包的智能体；阶跃星斗则押注“智能终端Agent”，同样强调多模态优势。

但正如一位Agent创业者对蓝鲸旧事所言：“如今不是拼竞争的时分，而是拼产品。Agent渗透率还很低，大家都在尝试定义成绩、处理成绩。”

回到MiniMax，它的优势或许在于“全栈多模态才能+透明化思索过程”——前者让它能处理更复杂的义务（比好像时生成文字报告和语音总结），后者则降低了用户对AI“黑箱”的疑虑。至于能否在这场混战中包围，能够就看它能否把“多模态”这张牌打得更透了。

互动话题：你更等待AI Agent具有哪些才能？是“更聪明的思索”，还是“更自然的多模态交互”？欢迎在评论区聊聊～（本文信息综合自MiniMax内测页面、蓝鲸旧理想测及公开报道）

欢迎光临职贝云数AI新零售门户 (https://www.taojin168.com/cloud/)