职贝云数AI新零售门户
标题:
首个国产“手机智能体”问世,智谱补位Manus
[打印本页]
作者:
OWrZ
时间:
2025-8-26 11:34
标题:
首个国产“手机智能体”问世,智谱补位Manus
(文/陈济深 编辑/张广凯)
8月20日,智谱在iOS安卓,PC三端同步推出AutoGLM 2.0,并初次面向公众片面开放,无需约请码即可运用。
(, 下载次数: 0)
上传
点击文件名下载附件
作为一款纯国产智能体,AutoGLM的发布也给了中国用户一个在Manus加入中国后可以合规便利体验智能体的选择。
不同于Manus等网页端原生的智能体产品,智谱AutoGLM 2.0作为全球首个手机通用Agent,被定位为“执行型助手”。相比目前主流AI产品和智能体助手多停留在“对话”层面,只能完成信息查询和整理回答,AutoGLM则完成了质的飞跃——它不再只是“说”,而是真正可以“做”。
3月AutoGLM1.0发布时,AI虽然也可以操作手机,但是在AI做事时期人不能切屏,不能打断,只能看着干瞪眼。本次AutoGLM2.0则给每个用户预制了一台虚拟手机和电脑,直接处理了AI和人抢屏幕的操作痛点,让AI从只能在人眼皮子底下干活变成了“你干你的,我干我的”的异步处理形式。
在实践测试中,虽然部分功能的执行效率和优化程度依然有待提升,但目前AutoGLM曾经可以较好地执行包括购物、订餐、买机票、自动写文案等大众场景,智能体不再是极客们的工具,末尾步入了愈加大众的群体。
作为全球首个通用手机智能体,AutoGLM的发布也代表着AI从能说会道到真无能活的技术跃迁,而AI不再需求和人类争抢手机开启“自动驾驶形式”,不只要效地束缚了真人诸多日常繁琐操作的工夫,可以24小时执行义务的数字“牛马”也直接打开了Agent发展的有数能够性。
(, 下载次数: 0)
上传
点击文件名下载附件
用嘴真能操作手机
Agent毫无疑问是AI行业2025年最炙手可热的关键词,Manus的出现一度让Linux底座+调用外部API“套壳”成为了行业的主流选择。但随着Claude加紧对中国的限制,Manus“跑路”新加坡加入中国后,“套壳”智能体形式在中国显然难以为继。
同时,中国用户侧重移动端的特点也和传统Agent重PC端轻移动端的思绪有所冲突,对于AI智能体到底应该是什么产品外形,显然需求愈加了解中国用户的中国公司去探求开发。
智谱总裁张鹏对观察者网表示:“早在2023年底,(智谱)就决议一定要让Agent有才能去运用手机,有才能去运用电脑,有才能去运用设备。”
他表示,一方面目前互联网上,很多基础设备都隐藏在各种网站和数据库中,假如不采用相似人工点击阅读器登录的形式,也没有办法充分发挥个人所拥有的消费材料和数据带给你的价值。
另一方面,假如AI不能本人操作设备,那么很多定时义务就需求人工点击末尾,而不能相似闹钟普通自动执行,也难言智能。
相比传统的问答式和信息辅助式的手机智能助手次要经过AI输入文本答案让用户本人根据指示操作,本次新发布的AutoGLM内置了智谱GLM4.5模型,不只全部国产还完成了端到端操作设备的才能,让AI真的长出了“手”,替用户自动操作设备。
在我们的测试义务中,诸如在赵露思微博超话打卡,点开B站抢手视频发布弹幕,美团下单奶茶等单一义务,AutoGLM都能迅速在无需干涉的状况下一气呵成,而传统多模态模型的义务更是信手拈来。
(, 下载次数: 0)
上传
点击文件名下载附件
AI生成莫奈风格雨中路人图
面对稍微复杂一点的单一APP全链路操作,AutoGLM也能胜任。
在向AI提出“搜索知乎昔日最抢手的话题,总结一下高赞评论的核心观点,然后关注点赞数前三的博主”的需求后,AutoGLM直接登陆了知乎并看到了昔日最抢手的话题《黑神话:钟馗》的官宣,随后整理了高赞内容的核心并顺利的关注点赞了前三的答主。
(, 下载次数: 0)
上传
点击文件名下载附件
而随着义务进一步复杂触及长链路,多运用交互的行为,AutoGLM也能做到常用场景下基础操作层面的游刃不足。
再给出“播放QQ音乐,搜索昔日抢手歌曲播放,然后搜索B站东方明珠大战蜜雪冰城抢手视频播放并一键三连”的提示后,AutoGLM成功播放了排行榜第一的抢手歌曲时代少年团“I Like U Like”,然后打开了B站搜索并播放了“在上海随意喝蜜雪冰城,故乡会保护你”的视频
(, 下载次数: 0)
上传
点击文件名下载附件
值得留意的是,AutoGLM并没有在搜索结果中选择标题中明白带有东方明珠和蜜雪冰城字样的内容,而是似乎了解了这个主题,选择了播放量最高的相关内容。
不过在测试过程中,在支付、发布帖子等环节,依然需求人类接管确认,我们不止一次遇到在自动发布文案时触发风控/系统衔接限制等状况无法发帖的状况。
而想要运用云手机和云电脑,用户需求提早在虚拟设备上登录账号。对于用户安全和隐私成绩,智谱表示,其云服务与阿里云合作,智谱并不会读取用户的登录信息。但是如何博得用户的信任显然并不是一个简单的成绩,也不是智谱一家企业可以自行处理的痛点。本次智谱没有在默许程序中内置微信这个国民运用的理由,恐怕也是出于这方面的用户顾虑。
在初步体验后,可以发现AutoGLM除了让普通用户也能体验到AI智能体的便捷外,它的出现也分明的协助了另一个很容易被忽视的群体——中老年用户。
互联网时代,随着数字化和智能化的发展,无论是银行,医院,还是政务类业务,在线或者扫码办理成为了习以为常的日常,而很多APP的交互设计对于老年人群体来说难度不言而喻。
另一方面,中老年群体在自主学习如何下载APP时,也很容易在安装各类APP软件的过程中有意间下载广告乃至诈骗软件而不自知。
AutoGLM的出现给出了一个可行的处理方案,让人顺应APP转变成了AI代人操作APP,用嘴操作手机,让AI来完成万物互联的愿景,方便各类人群运用。
(, 下载次数: 0)
上传
点击文件名下载附件
Agent“云端执行”的战略拐点
相比Manus等Agent采用Linux+VSCode的配置范式,智谱本次采用了云端手机+电脑的技术新范式。
对于为何选择云端执行的战略,智谱总裁张鹏分享了AutoGLM的「3A 准绳」:
Around-the-clock(全时),是指AI 必须可以 24 小时待命并持续执行义务。无论用户是在工作、睡觉还是文娱,AI 都应在云端持续产出价值。
Autonomy without interference(自运转、零干扰),官方也称之为 Asynchronous (异步),其核心是 Agent 在云端设备的独立运转,不占用用户的本地屏幕和算力。
Affinity(全域衔接),则意味着Agent 的才能不能局限于阅读器对话框,必须能衔接手机、电脑、手表、眼镜等多种设备与服务,打通数字世界与物理世界。这三大准绳,共同构成了 AutoGLM 对一个成熟 Agent 外形的定义,也解释了其当前产品架构。
而为了完成这个愿景,选择云手机和电脑不只能处理用户和AI抢屏幕的痛点,也处理了软件适配的难度,成为了顺理成章的选择。
AutoGLM技术担任人、算法研讨员刘潇对观察者网解释道:“假如智能体为满足用户需求诸如点外卖,发微信都需求抢占手机屏幕,AI在做事时真人就不能插手,这种让人类二选一的状况既不智能也不合理,因此经过本地调用APP抢占用户屏幕并不是一个合适的处理方案。”
抢屏幕带来的一个副作用便是执行中缀的能够,锁屏、网络波动、切换运用等任何用户行为都能够中缀 Agent 的长义务流。AI难以在用户非关注时段(如睡眠、文娱时)持续工作,其价值被大打折扣。
采用云手机/电脑的另一个动机则在于减少适配难度,尤其是安卓设备的适配难度,虽然每家基于安卓厂商的系统看着大差不差,实践上底层可谓大相径庭,在这个系统生态下,自家的软件能在哪个系统跑曾经属于玄学范畴,存在宏大的适配成本门槛。
详细到技术细节,过去,许多 Agent 的训练依赖于监督微调(SFT),即学习人类专家的操作轨迹。这种方法的弊端是「泛化才能差」——AI 只会模拟它见过的操作,对于未见过的场景或界面改动,往往一筹莫展。
为了让 Agent 在复杂多变的真实环境中(数千个并发的手机、电脑、阅读器环境)真正具有完成义务的才能,AutoGLM 团队选择了端到端在线强化学习的技术道路。
其核心思想是,在经过大批专家数据「冷启动」后,让模型在数千个并行的真实云环境中,像人类一样去「试错」。系统不再告诉模型「下一步该点哪里」,而是只在义务最终完成时给予一个「成功」的奖励信号(Reward)。模型必须本人探求出最优的决策途径。
从底层末尾的原生设计,使得 AutoGLM 在多个公开基准测试中表现出色。比如,在调查电脑操作才能的 OSWorld Benchmark 中,AutoGLM 获得 48.1 分,超越了 ChatGPT Agent 和 Anthropic 的模型。
而在跑分之外,智谱模型即Agent的形式也带来了宏大的成本优化空间。
传统基于第三方大模型API构建的Agent,单次复杂义务(如 Deep Research)的成本高达 3-5 美元。而 AutoGLM 借助自研模型和一体化架构,将包含模型调用和虚拟机资源的单次义务成本,紧缩到了约 0.2 美元(约 1.5 元人民币)。这曾经与谷歌单次搜索约 0.02 美元的成本相差不到一个数量级。
这种数量级的成本降低,让智谱有底气在此次发布中不用约请码,直接向一切 C 端用户开放。
(, 下载次数: 0)
上传
点击文件名下载附件
智能体背后的生态规划
除了在手机端规划,智谱对于AutoGLM的定位超越了单一的效率工具,末尾构建一个衔接多设备和服务的生态,这也是其将AutoGLM从智谱清言中独立出来单独做一个APP的理由之一。
智谱泄漏,除了曾经展现的跨运用操作,AutoGLM的云电脑目的是支持 Office、Photoshop 等更专业的消费力工具。
而在后续的更新中AutoGLM将添加定时义务功能,即AI从被动接授命令执行呼应转变成半自动规划,从每天早上根据本人的消费记录买一杯合适口味的咖啡,到办公室自动总结未读邮件,也将从梦想走进理想。
而对智能硬件生态的赋能才是智谱真正的杀手锏。
目前的智能设备中,存在分明的算力、续航和交互的不能够三角,如苹果的Vision Pro存在续航短板,Meta Quest 2则存在分明的算力短板,苹果即将发布的桌面机器人更是在预告公布后由于蹩脚的交互才能饱受诟病。
对于很多智能设备,堆大电池和复杂系统的处理方案并不合适,如何在功能合格状况下控制成本也成为了制约硬件厂商的痛点。
智谱AutoGLM对此提出的一个解法——让这些端侧硬件「轻量化」,只担任感知和发起指令,而将复杂的运用操作和义务执行全部交由云端的Agent完成。
智谱对观察者网展现了若干案例,如体重秤接入智能体后,在检测体重超标后自动下单减肥代餐,而气体传感器在接入了智能体后,一旦检测到鞋柜忧虑就会下单除臭脚垫。
打印机接入Agent完成缺墨自动购买
这条物理传感器—云端 Agent—理想世界服务的链路,打开了智能体完成对物理世界的衔接和操作的能够性。
对于AI和智能体发展的将来时,AutoGLM技术担任人刘潇提出了一个关于 AGI(通用人工智能)的阶段性定义,他称之为“AGI 的下限”——当一个 Agent 能自主波动地运转一整天(24小时),作为你的同事或秘书,协同完成工作与生活义务,使你的综合效率提升超过 2 倍时,AGI 的曙光初现。
AutoGLM 的这次退化,或许离这个下限还有间隔。它仍处于早期外形,对指令的了解还很初级,也存在一些Bug。但经过构建云端分身这一核心架构,它的确末尾在为Agent的独立行走铺平道路。
从同步操作转变为异步委托,或许是人机协作范式的转变的末尾,将来的个人竞争力能够取决于本身才能+N 个 AI 智能体形式,用户经过下达指令,让多个 AI 并行完成义务,从而根本性地改变个人处理日常与工作事务的方式。
而当智谱与一些手机厂商达成更系统级的合作后,这个Agent的想象空间将彻底打开,成为我们真正等待的数字助理。
欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/)
Powered by Discuz! X3.5