开启左侧

一周AI大模型与Agent产品速览:从机器人推理到视频生成,最近值得关注的 16 个新停顿

[复制链接]
在线会员 jro 发表于 2026-3-12 15:26:08 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题 |快速收录



那二周,AI圈险些是齐线着花。

一边是机械人开端不但“瞅懂天下”,借教会了正在行动层里截至思考;一边是图象、望频、动效天生模子持续狂飙,从可控编纂、360°齐景望频,到间接天生 Lottie 动绘,创做东西链愈来愈残破。取此共时,Agent 赛讲也正在快速降天,当地化、一键装置、7×24 小时桌里施行,在把“智能体”从观点拉背一样平常事情场景。

假设把那些革新搁正在共同瞅,会很分明天瞅到多少个趋势:
拉理更深、接互更强、布置更沉、场景更真。

上面那 16 个名目战模子,根本能够代表近来一波值患上存眷的标的目的。





【ACoT-VLA 智元分离北航提出的VLA架构,中选CVPR 2026 让机械人第一次正在“行动空间”里干思惟链拉理】
它突破了保守VLA模子“语义强、行动强”的瓶颈,初度正在“行动空间”截至思惟链拉理,让机械人能像人类一致边施行边思考。今朝动作 AGIBOT WORLD CHALLENGE 民间基线模子已经邪式启源。

假设道已往的 VLA 模子更善于“瞅懂任务、理解语义”,这 ACoT-VLA 的突破便正在于,它开端真实补上“如何干行动”那件事。
往常机械人常常是理解很强,但是行动决议计划不敷细致,而此次它把思惟链拉理引进行动空间,让机械人正在施行过程当中不但“会动”,并且“会边动边念”。

这种才气对于庞大操纵任务特别枢纽。好比抓与、安排、多步调合作,再也不不过从感知间接映照到行动,而是中心多了一层更靠近人类操纵逻辑的拉理历程。

它的意思不但正在一篇论文,而是给机械人智能供给了一条更明了的演退门路:
从“会瞅会道”走背“会念会干”。




【FireRed-Image-Edit v1.1 小白书籍团队启源的图象编纂模子,主攻ID不合性取多元故旧融,把图象编纂卷到了“多元故旧融+身份不合性”】
能自由拉拢10余种元艳,撑持专科级人像好妆、字体气势派头参照等创意编纂。仅需30GB隐存、4.5秒端到端天生,本死撑持 ComfyUI 节面取 GGUF 沉质格局。



现在图象天生模子许多,但是真实易的是“编纂”。
特别是一朝涉及人像、品牌元艳、多个工具混淆、字体气势派头迁徙,许多模子要末改崩了,要末不合性守没有住。

FireRed-Image-Edit v1.1 的明面便正在那里:它更像一个偏偏真战型的创意编纂东西,而没有是只会作美丽 Demo 的模子。
一圆里,它正在 ID 不合性 上更强,表示着人物、主体抽象不易被改治;另外一圆里,它撑持多元艳自由拉拢,更适宜实在贸易设想场景。

好比小白书籍、电商、种草实质、好妆海报、品牌望觉艳材,这类既要快、又要稳、借患上都雅的场景,它会十分有吸收力。
再加之 ComfyUI 取 GGUF 的撑持,也分析它没有是只给论文党瞅的,而是清楚正在朝开辟者战创作家事情流里降。





【GPT-5.4 OpenAI突袭上线的顶级模子,拉出 Thinking 取 Pro 二个版原 ,再次把“年夜模子上限”朝前拉了一截】
最下撑持100万 token 高低文,本死电脑掌握(ComputerUse)任务胜利率约75%,Thinking 版原幻想毛病率降落18%。Pro 版订价输出30美圆/百万token、输出180美圆/百万token,对准下端企业客户。

这种模子革新最值患上留神的,历来不但是参数战价钱,而是它正在“能不克不及真实接收庞大事情”上的进步。

GPT-5.4 此次的重心有三个:
第一,超少高低文。100 万 token 让它处置少文档、多轮工程任务、庞大名目质料时更有劣势。
第两,Computer Use才干 增强。那表示着模子不但是会答复成就,而是能够更颠簸天正在电脑情况中施行任务。
第三,Thinking 版原持续抬高幻想毛病率。那对于企业级使用特别主要,因为可靠性决定了它能不克不及加入消耗过程。

假设道上一阶段各人正在比“谁更智慧”,这现在已经加入比“谁更能果然把活搞完”的阶段。
GPT-5.4 明显正在朝那个标的目的加快。





【Phi-4-Reasoning-Vision-15B 微硬启源的松散型多模态拉理模子,15B参数,把“小模子的上限”又举高了】
正在数教、科学拉理战用户界里理解圆里表示优良,仅用200B多模态 token 锻炼,能正在消耗级软件运行,促进粗度取算力的帕乏托前沿。

已往各人总以为,多模态拉理必然要靠超年夜模子撑起去。
Phi-4-Reasoning-Vision-15B 则给出了另外一种路子:用更松散的范围,干出充足强的多模态理解取拉理才气。

它的代价十分幻想。因为没有是统统团队皆有才气布置超年夜模子,也没有是统统场景皆值患上为最强功用支出最下算力本钱。
关于当地布置、边沿装备、企业内部使用、高本钱拉理而行,这类模子反而更有提高意思。

出格是正在数教、科学拉理战 UI理解 上的表示,表示着它不但能“瞅图”,并且能更佳天理解界里、构造战逻辑。
那会让它正在桌里帮忙、教诲使用、科研帮助、主动化操纵理解等标的目的上皆更有设想空间。





【Gemini 3.1 Flash-Lite google公布的沉质级模子,速率最快、本钱效率最下,把“沉质下效”持续干到极致】
尾字照应速率提拔2.5倍,部分输出速率提拔45%,订价输出0.25美圆/百万token、输出1.50美圆/百万token。标配“思考层级”功用,开辟者可活络掌握模子思考深度。

沉质模子的合作,素质上是正在答复一个成就:
有无可以把“充足智慧”战“充足自制”共时干到?

Gemini 3.1 Flash-Lite 明显念正在那个成就上抢一个更强的职位。
更快的尾字照应、更下的部分输出速率、更高的挪用本钱,表示着它十分适宜下频、海质、对于时延敏感的正在线营业。

好比客服、搜刮增强、实质考核、智能问问、东西挪用中控层,那些场景比起限度拉理才气,常常更垂青速率、本钱取颠簸性。
而“思考层级”的设想,则分析沉质模子再也不不过“自制版替换品”,而是开端具有更细粒度的智能调控才气。

换句话道,这类模子没有会是舞台处所最明的这一个,但是极有可以是挪用质最年夜的这一个。





【Step 3.5 Flash 阶跃星辰全面启源的 MoE 架构基座模子,激活11B参数 国产启源基座开端正在“速率+Agent”上抢位】
单恳求代码任务最下拉理速率350 token/秒,Agent 场景战数教任务才气迫近关源模子。正在 OpenClaw 挪用质榜中排名第两,已经适配华为昇腾、阿里仄头哥等多野国产芯片。

海内启源基座模子的合作,在从“参数范围”战“榜单成就”,转背“谁更能被真实跑起去”。
Step 3.5 Flash 很清楚即是瞄着那个标的目的去的。

一圆里,它夸大 拉理速率,那间接干系到 Agent、代码天生、主动化任务施行的体会;另外一圆里,它已经正在 OpenClaw 这种 Agent 场景里拿到了较下挪用质,那比纯真 benchmark 更有说服力。
再加之对于国产芯片的适配,分析它不但是一个模子,也是一个在朝财产降天走的底座。

未来当地智能体、企业私有布置、国产算力死态,这种模子皆有机会成为主要一环。





【AutoClaw 智谱拉出的海内尾个“一键装置”当地版 OpenClaw,华文名“澳龙”,开端把 Agent 真实拉背一般用户】
预置50+ Skills,撑持一键交进飞书籍等 IM 东西,无需云端月租,早期供给免费额度。举荐配搭 DeepSeek、Kimi、MiniMax、GLM 等模子使用,撑持尽情模子的 Coding Plan。

Agent 那件事真实爆发的枢纽,纷歧定是谁最强,而是谁最简单上脚。
AutoClaw 的最粗心义便正在于,它把原来偏偏开辟者背、合腾本钱较下的 OpenClaw 系统,朝海内用户更易承受的标的目的从头包拆了一遍。

一键装置、预置妙技、交进 IM、撑持多模子切换,那些皆没有是“手艺炫技”,而是间接低落使用门坎。
关于小我私家用户、中小团队、和念正在当地跑智能体的人来讲,那比再多一个 benchmark 第一位更有代价。

它也分析一个趋势:
Agent 在从“钻研名目”酿成“硬件产物”。





【PaperClip 里背企业文档办理取宁静事情流的硬件仄台,主挨实质办理、减稀通信取过程主动化 】
主要产物用于构造战处置文档、图象、事情过程战通信,客户笼盖小我私家用户到企业级体系,颠末环球分销商、体系散成商战零售渠讲贩卖。

PaperClip 没有是这种一眼瞅下来很“AI”的名字,但是这种公司正在来日诰日反而很值患上存眷。
因为 AI 念加入企业,开始碰着的永久没有是模子成就,而是 文档、过程、回档、权力、合作 那些根底装备成就。

谁把握文档进口,谁便更靠近主动化事情流进口;谁把握事情流进口,谁便更易把 AI Agent 真实嵌进去。
从那个角度瞅,PaperClip 这种文档取过程办理厂商,恰好卡正在 AI 企业化降天最中心的职位之一。

未来这种公司纷歧定自己干最强模子,但是完整可以成为 AI任务 流时期的主要装载层。





【Symphony 里背环球金融机构的宁静通信取合作仄台,金融业 AI Agent 降天,最主要的没有是“能干甚么”,而是“开分歧规”】
具有1400+企业客户,最新拉出 AI Agent Studio 框架,许可机构轻快创立战布置 AI 智能体,撑持表里部事情流主动化,共时连结数据掌握取开规性。

假设道一般止业正在问“AI 能不克不及提效”,金融止业问的常常是:
AI 正在提效的共时,能不克不及包管宁静、审计、开规取数据掌握?

Symphony 的代价便正在那里。
它没有是泛合作仄台,而是持久里背金融机构的宁静通信根底装备,以是它拉 AI Agent Studio,意思弘远于“又多了一个智能体仄台”。那代表 AI Agent 在开端加入这些对于宁静性战可控性请求最下的止业。

这种仄台一朝跑通,作用会十分年夜。因为金融止业历来没有是开始逃风心的谁人,但是常常是最能考证一项手艺可否真实加入庄重消耗情况的谁人。





【HY WU 腾讯混元提出的“混元无相”功用性影象新范式,正在“影象”那件事上,换了一条更保守的路】
中心是及时天生 LoRA 权沉而非事先保存:用户下达指令霎时,8.1B 参数天生器就地天生7.2亿 LoRA 权沉,静态注进80B基座模子。未来计划包罗正在线连续进修、跨模态通用性、处置劫难性忘记等。

年夜模子持久影象不竭是个困难。
要末忘没有住,要末忘患上没有颠簸,要末一朝不竭进修便简单劫难性忘记。

HY WU 提出的标的目的颇有意义:它没有是保守意思上“把影象存下来再挪用”,而是改为正在用户收回指令时,静态天生对于应的 LoRA 权沉,及时注进基座模子。
那相称于把“影象”从固态保存,酿成一种静态天生才气。

假设那条路走通,作用会很年夜。因为未来本性化帮忙、企业博属模子、持久任务型 Agent,最需要的没有是一次罪才气,而是颠簸、连续、高滋扰的持久适应才气。
这种功用性影象体制,可以会成为下一阶段本性化 AI 的枢纽根底。





【LTX-2.3 启源的分离音望频天生模子,撑持一句话共时天生望频取共步音频,从“天生望频”走背“间接天生戴声音的望频”】
它里背“望频+声音一体天生”场景,既能干文死望频,也能干图死望频,借能按照音频启动望频实质天生。适宜短望频创做、告白艳材、MV片断、社媒横屏实质、电商展示望频等场景。劣势正在于把望频战音频天生调整退统一个模子里,削减前期拼交本钱;共时撑持启源、当地布置战两次微调,对于开辟者战创作家皆比力友好。

望频天生赛讲一个持久痛面是:绘里战声音常常是二套体系。
绘里先进去,声音后补,最初借要对于心型、对于节奏、对于气氛,制作链条很少。

LTX-2.3 的意思便正在于,它间接把“望频+音频”搁到共同干。
那会清楚低落创做门坎,也让模子离真实的“可托付实质消耗东西”更远了一步。

特别对于短望频、电商、营销实质来讲,这类一体化才气十分合用。因为正在许多贸易场景里,各人没有需要一部影戏级少片,而是需要更快天产出一条残破可用的实质。





【Kiwi-Edit 里背可控望频编纂的智能模子,撑持文原指令+参照图分离改正望频实质,望频天生愈来愈强,但是真实值钱的可以是“改患上准”】
它更善于“改望频”而没有是“从整天生望频”,能够按照笔墨请求对于望频中的人物、物体、布景、气势派头、色彩等元艳干精确编纂,借能分离参照图完毕更强的望觉束缚。适宜告白改版、短望频粗建、实质两创、脚色交流、场景交流、商品展示劣化等场景。劣势正在于可控性强、编纂目标大白、时序不合性更佳,适宜对于现有望频截至部门增强战精密改正。

望频创做真实加入消耗阶段后,需要经常没有是“从 0 到 1”,而是“从 1 到 1.2”。
也即是本初艳材已经有了,交下来要改脚色、改布景、改气势派头、改细节,但是没有念整条沉干。

Kiwi-Edit 即是冲着那个场景去的。
它把笔墨指令战参照图分离起去,使编纂再也不不过恍惚改正,而是能更颠簸天晨目标成果支敛。

对于告白、电商、短望频事情室来讲,这类东西的代价会十分间接:
没有是替换创做,而是年夜幅提拔改稿服从。





【Spectrum 里背分离模子拉理提速的加快办法,可正在没有从头锻炼的条件下提拔天生服从,天生模子的下一场合作,不但是“更强”,借要“更快”】
它没有是一个间接出图或者出望频的天生模子,而是一个给分离模子“提速”的下层劣化计划。它能够削减天生过程当中的重复计较,进步采样服从,辅佐现有分离模子更快输出成果。适宜图象天生仄台、望频天生体系、女伶 href="https://www.taojin168.com" target="_blank">AIGC 拉理效劳、需要落原删效的模子布置场景。劣势正在于无需从头锻炼模子、兼容现有分离框架、能间接提拔拉理速率,更适宜干下层根底装备劣化。

当天生模子加入范围化使用后,真实决定贸易化服从的,常常没有是单次结果,而是部分吞咽、提早战本钱。
Spectrum 这种计划的主要性,在变患上愈来愈下。

它没有间接消耗实质,但是却能让实质天生体系部分变患上更下效。
从仄台望角瞅,那比纯真再逃一面绘量提拔更枢纽,因为它间接作用效劳本钱战用户体会。

未来天生式 AI 的根底装备合作,很可以会从模子自己延长到整条拉理链路。
而这种加快手艺,即是这条链路上十分中心的一环。





【RealWonder 鉴于物理行动前提的及时望频天生体系,让图象能够对于拉、推、夹与等操纵干出静态照应,望频天生开端具备“物理接互感”】
它夸大“接互式天生”,能够按照内部施减的物理行动或者力教前提,让固态绘里及时演变成契合物理纪律的望频。适宜机械人仿实、人机接互、物理可望化、游玩本型、数字孪死、行动反应示范等场景。劣势正在于不但能天生望频,借能让天生成果具备更强的物理不合性战接互照应才气,适宜夸大静态掌握战及时反应的使用。

来日诰日许多望频模子已经能天生很冷傲的静态绘里,但是一朝您请求它“按尔的操纵去”,便简单得实。
RealWonder 的代价正在于,它让天生不但是“瞅起去像正在动”,而是开端具备更强的物理照应逻辑。

那对于机械人、仿实、接互式可望化、假造尝试皆十分主要。
因为那些场景需要的没有是斑斓,而是可控、可注释、能跟操纵共步照应。

某种水平上,它代表的是望频天生从实质创做,朝接互式体系迈退的一步。





【CubeComposer 里背4K 360°齐景望频天生的专用模子,可从一般望频扩大天生下分辩率沉醉式实质,360° 齐景望频终究有了更像样的天生解法】
它特地处置齐景望频天生易、分辩率下、隐存开销年夜的成就,能够以 cubemap 方法逐步天生下品质 360° 望频实质。适宜 VR 实质制作、假造游览、沉醉式展览、齐景示范、数字场景重修等场景。劣势正在于专一 360° 望频那一细分标的目的,能天生更下分辩率、更沉醉的齐景结果,适宜需要空间包抄感战望角自由切换的实质消耗需要。

360° 望频不竭是个很迷人的标的目的,但是真实易面没有正在“有无需要”,而正在“消耗本钱过高”。
CubeComposer 试图处置的,恰是下分辩率齐景望频天生里最幻想的成就:隐存、服从战品质。

这种模子的意思正在于,它让 VR、沉醉式展览、假造游览等场景再也不完整依靠高贵拍摄取庞大前期。
当齐景实质天生本钱降落,许多原来易以范围化的沉醉式使用才有机会跑起去。

它一定是最通用的模子,但是必然是最有笔直代价的一类模子。





【OmniLottie 多模态 Lottie 动绘天生框架,可将文原、图象、望频间接转成可编纂的矢质动绘,AI 开端间接天生“可托付的动绘财产”了】
它没有是保守望频天生模子,而是里背设想战前端场景的动绘财产天生东西,能够间接输出 Lottie 格局的构造化动绘文献。适宜 App 动效设想、网页微接互、按钮反应动绘、减载动绘、品牌 logo 动绘、产物示范动效等场景。劣势正在于输出成果没有是一般像艳望频,而是可编纂、可复用、可间接托付给设想取前端团队的矢质动绘财产,消耗服从更下。

那是一个很简单被高估的标的目的。
因为许多人一提到天生式望频,料到的仍是影望感绘里,但是正在实在互联网产物开辟中,大批下频需要实际上是:减载动绘、按钮反应、图标动效、品牌动图、页里微接互。

OmniLottie 的突破正在于,它没有输出“一个瞅起去像动绘的望频”,而是间接输出 Lottie 这类能够被设想师战前端持续编纂、间接托付使用的构造化动绘财产。
那表示着 AI 不但是助您“干实质”,而是开端助您干真实能退消耗链的艳材。

对于设想团队来讲,这类代价常常比一条华美望频更下。

最初:那波革新面前 ,有三个愈来愈明了的趋势

把那 16 个名目搁正在共同瞅,会发明近来 AI 的演退标的目的已经很清楚了。

第一,模子再也不只寻求“更年夜更强”,而是正在寻求更像真实东西。
不论是 GPT-5.4 的 Computer Use、AutoClaw 的一键装置,仍是 OmniLottie 间接输出可编纂动绘文献,皆分析 AI 在从“会道”走背“会干”。

第两,多模态的重心在从“理解”转背“可控施行”。
ACoT-VLA 正在行动层拉理,Kiwi-Edit 寻求精确编纂,RealWonder 夸大物理照应,那些皆分析未来真实有代价的模子,不但是瞅患上懂、道患上对于,而是能颠簸施行、可控输出。

第三,财产化愈来愈垂青布置服从战场景关环。
Gemini 3.1 Flash-Lite、Step 3.5 Flash、Spectrum 这种标的目的皆正在分析,速率、本钱、兼容性战可降天性,在成为战模子才气异常主要的目标。

一句话归纳即是:
AI 的下一阶段,没有是持续停止正在“展示智慧”,而是加入“托付成果”。
您需要登录后才可以回帖 登录 | 立即注册 qq_login

本版积分规则

avatar

关注0

粉丝0

帖子121

发布主题
阅读排行更多+
用专业创造成效
400-778-7781
周一至周五 9:00-18:00
意见反馈:server@mailiao.group
紧急联系:181-67184787
ftqrcode

扫一扫关注我们

Powered by 职贝云数A新零售门户 X3.5© 2004-2025 职贝云数 Inc.( 蜀ICP备2024104722号 )