职贝云数AI新零售门户
标题:
什么?!美团也出大模型,对标 DeepSeek?
[打印本页]
作者:
U4MxpqoQqf
时间:
昨天 19:05
标题:
什么?!美团也出大模型,对标 DeepSeek?
美团9月1日扔了个重磅炸弹出来:美团大模型LongCat(龙猫)问世!并在τ2-Bench 智能体测试中反超 DeepSeek-V3.1,真是外卖中来了个狠角色!
到底美团这款大模型凶猛在哪?居然能反超DeepSeek?!让我们来深扒一下!
(, 下载次数: 0)
上传
点击文件名下载附件
LongCat真能碾压DeepSeek?
在AI大模型对决路上,两者选择了不同的路:“外卖调度思想”VS“学术优化思想”:
美团用外卖逻辑做AI,开启了非典型玩家的技术突袭。美团的大模型之路一末尾就透着“不按常理出牌”的气质,当其他厂商在参数规模死磕万亿大关时,LongCat-Flash 却反其道而行之 —— 采用创新的混合专家(MoE)架构,总参数量达 5600亿,但每个 Token 仅激活 186亿~313亿 参数,平均上去不过 270亿。相较于DeepSeek V3.1的6710亿参数,固定激活370亿参数分明小得多。这种 "按需分配算力" 的思绪,像极了美团外卖的动态路由系统:就像不会让骑手空驶一样,AI 算力也不该有丝毫糜费。
这种设计带来的效果可谓冷艳。在 H800 GPU 上,LongCat 完成了 100+ tokens/s 的推理速度,输入成本低至 5 元 / 百万 Token,仅为行业平均程度的三分之一。技术圈津津有味的 "零计算专家" 机制,让模型在处理常见成绩时直接调用缓存结果,复杂推理时才激活更多模块,这种 "能省则省" 的适用主义,与 DeepSeek 等通用大模型的 "满功率运转" 构成鲜明对比。
更令人称奇的是其训练效率。美团用 "数万个加速卡" 在 30 天内完成了 20 万亿 Token 的训练,时期可用率高达 98.48%。这种工程化才能的背后,是美团十年积累的分布式系统阅历 —— 毕竟每天调度数百万骑手的技术,稍加改培育能变成大模型的训练调度引擎。当 DeepSeek 还在优化算法精度时,美团曾经用外卖的 "时效思想" 重构了大模型的消费方式。
实测LongCat表现力如何?
让我们抛出一些实践场景案例让LongCat和DeepSeek分别处理:
案例1:处理外卖订单异常处理成绩
提出成绩:我的外卖超时30分钟了,骑手如今联络不上,该这么办?
LongCat表现:第一步自动触发「骑手定位查询」「订单形态追踪」「用户历史偏好分析」3 个工具,耗时 0.8 秒。
(, 下载次数: 0)
上传
点击文件名下载附件
第二步:美团客服介入,自动联络用户处理成绩。
(, 下载次数: 0)
上传
点击文件名下载附件
第三步:提供补偿方案,结合美团APP内的全额退款和大额无门槛券。
(, 下载次数: 0)
上传
点击文件名下载附件
DeekSeek V3.1表现:DeekSeek直接帮我生成一个处理方案,可是细心发现,这个方案的处理成绩在于用户必须自动去联络相关平台,讯问赔偿方案。
(, 下载次数: 0)
上传
点击文件名下载附件
不难发现:LongCat和DeekSeek在详细生活化场景的处理方案中的最大区别在于:自动和被动,当然这无可厚非,由于LongCat关联美团,直接会生成一步到位的、用户只需“被动”接受的现成方案就行,那么对于点外卖、酒店订购、旅游景点、美食团购相关生活化场景处理,LongCat处理会更优秀、便利。
案例2:几何数学成绩
提出成绩:一个底面半径为 3,高为 8 的圆锥,被平行于底面的平面截取,使得截得的小圆锥体积是原圆锥体积的 1/8。求截取平面间隔底面的高度。
LongCat表现:应用圆锥体积公式V=1/3πr²h,根据大小圆锥体积的倍数关系先得到方程1,再应用两圆锥相似性,对应的半径和高成相反比例得出方程2,联立两方程得出小圆锥的高,从而求出截取平面间隔底面的高度。
(, 下载次数: 0)
上传
点击文件名下载附件
(, 下载次数: 0)
上传
点击文件名下载附件
(, 下载次数: 0)
上传
点击文件名下载附件
DeekSeek V3.1表现:经过思索形式分步骤推导,应用大小圆锥的体积比等于高度比的立方直接求出小圆锥的高度,从而得出截取平面间隔底面的高度为4。
(, 下载次数: 0)
上传
点击文件名下载附件
经过对比分明发现,DeekSeek的求解方法更简单更直观,直接应用两圆锥的体积比等于高度比的立方求解,这也正是DeekSeek的“学术优化思想”,经过学术基准训练,逻辑严谨性强。而LongCat因训练数据侧重本地生活服务,数学推理才能较弱,容易犯简题复杂化,使人更迷糊了。
(, 下载次数: 0)
上传
点击文件名下载附件
案例3:法律条文分析
提出成绩:亚硝酸盐混入食品导致中毒,应如何定性?
LongCat表现:直接婚配《刑法》第 143 条(消费、销售不符合安全标准的食品罪),未思索「过失以风险方法危害公共安全罪」等竞合罪名。最终总结的能够性里未出现“过失投放风险物质罪”。
(, 下载次数: 0)
上传
点击文件名下载附件
反观DeekSeek V3.1表现:对比《刑法》第 115 条(过失以风险方法危害公共安全罪)和第 144 条(消费、销售有毒、有害食品罪),对法律犯罪的能够性总结更片面。
核心差异在于龙猫依赖预训练的法律条文库,疾速婚配最常见罪名,但缺乏深度竞合分析。而DeepSeek 经过逻辑推理和多罪名对比,提供更严谨的法律建议,但需专业用户进一步验证。
LongCat 与市面上其他大模型产品最大的区别在于,它会结合用户需求婚配美团相关业务的营销建议。DoNews 的测试结果显示,当讯问“三家外卖谁会笑到最后?”时,LongCat 会优先思索美团的业务,并给出相应的市场分析和预测。
美团为何要进军AI大模型?
美团走到如今这步,只能是“被逼”的!
前几天美团第二季度财报显示:第二季度的运营利润下滑至2.26亿人民币,同比大幅下降98%,运营利润率也由13.7%降至0.2%。详细来看,受外卖竞争影响,二季度核心本地商业分部运营利润仅为37亿人民币,同比下降75.6%。同时,由于海外扩张,新业务分部的运营盈余同比扩展至19亿人民币。
同时,伴随着京东、淘宝闪购纷纷加入绝后绝后的外卖市场夺战,“大额补贴”、“收费喝奶茶”等曾经卷到不行。2025 年第二季度,美团外卖日均订单量虽打破 9000 万单,但市场份额从 74% 暴跌至 65%。淘宝闪购仰仗阿里生态协同,日订单峰值达 1.2 亿单,京东外卖日单量打破 2500 万单。价格战导致美团核心本地商业利润率从 25.1% 骤降至 5.7%,净利润同比下滑 89%。若按当前补贴速度,美团全年营销费用将超 500 亿元,相当于每天烧掉 1.37 亿元。
“外卖市场”如今已然是存量市场,争破了头最终也仅仅是“增收不增利”,那么,寻觅新的业务打破口成了关键,AI大模型就是尝试方向之一。
流量方面更是竞争激烈:最大对手抖音经过“内容 + 本地生活”形式,2025 年 GMV 打破 9000 亿元,日均 2 亿次本地兴味内容曝光直接分流美团用户。用户从自动搜索转向被动种草,美团传统搜索引荐算法失效。例如,用户在抖音刷到餐厅短视频后直接下单,跳过美团平台,导致美团佣金支出流失。
利润下降+微弱竞争如何“虎口夺食”逼得美团必须进一步做出转机,换言之,美团想要捍卫本人“外卖一哥”的地位,钱是不得不烧的,跨界AI是必需要做的。
此时不跟牌,要等何时跟?
饿了么、京东能否迎战?
关于美团发布AI大模型搜索引擎,饿了么、京东能否迎战?
理想上,饿了么、京东等异样在偷偷加码AI:
饿了么目前的选择是不直接发布通用大模型,而是更专注于将AI技术深度运用于其骑手端和商家端的详细业务场景。
在往年的4月,饿了么推出了本人的骑手端智能体AI助手“小饿”,已完成接单确认、到店核验、活动查询等全流程自动化配送操作。该系统还能实时推送天气预警、路况封锁等信息,协助骑手动态调整配送道路,有效降低极端天气与突发路况带来的风险。
商家端饿了么上线了智能入驻系统,经过AI自动完成资质审核、商圈分析、菜单优化等入驻流程。
而京东在外卖方面运用的核心AI技术是它的智能调度系统,这套系统能经过商家、骑手、调度中心三方的实时联动停止精准管理,调度中心会整合城市交通、天气等动态信息,为配送决策提供根据。
美团探求更多能够
DeepSeek 代表的是象牙塔式的技术探求,而美团则诠释了市井烟火中的 AI 哲学。当 LongCat 在为麻辣烫店优化出餐流程时,当它为骑手生成最优避雨道路时,我们忽然看法到:大模型的终极战场或许不在基准测试的排行榜上,而在千万商家的收银台和亿万用户的手机屏幕里。
美团的入局不是对 DeepSeek 的简单对标,而是宣告 AI 行业进入 "适用主义时代"。在这里,能帮商家多赚一块钱的模型,能够比在学术榜单上多拿一分的模型更有价值。这场由外卖平台掀起的 AI 革命,或许将彻底改写大模型的发展规则。
参考链接:
https://mp.weixin.qq.com/s/g2U0hvQ95i-q00-46F9XBg
https://www.163.com/dy/article/K8FC3119055616YL.html?spss=dy_author
https://m.163.com/dy/article/K8CV8QFA05198CJN.html
— 完 —点这里👇 关注我们
欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/)
Powered by Discuz! X3.5