开启左侧

Llama 4,超过DeepSeek了吗

[复制链接]
在线会员 jilidfTu 发表于 2025-4-6 18:08:43 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题 |快速收录
正在科技巨子连接狂跌的周终喘气之际,Meta拉出了Llama 4。

它念用万万高低文、本死多模态战一个行将拉出的2万亿参数基座模子,证实它反超了DeepSeek,自己仍然是硅谷盛开权严峻模子之王。

客岁底今年末,DeepSeek正在一个月内乱连接拉出启源基座模子V3战拉理模子R1,完胜Llama 3,扎克伯格懵逼了,Meta AI陷入一片惊愕。

R1的锻炼仅用了2000多弛H800,用度下来500多万美圆,相称于仅用了Meta一位手艺年夜咖的年薪,并且Llama 3 锻炼用了16000弛H100。

从这以后,各人皆等着Meta会拿出一个甚么样的Llama 4。

此次公布的Llama 4 群,包罗了二个年夜模子Maverick-400B参数(17B活泼参数,128大师模子),Scout-109B (17B活泼,16大师)。另有一个仍正在锻炼中的基座模子Behemoth-2T(288B活泼,16大师)。

Llama 4 群从整体上完毕了对于DeepSeek V3.1的逾越,如万万高低文,本死多模态,和瞅起去更自制的价钱,可是它不拉理模子。Llama 4也超越了其余主要的盛开权沉或者免费的小模子,如Ge妹妹a 三、Mistral 3.1战Gemini 2.0 Flash-lite。

Behemoth-2T已经超越了包罗GPT-4.5正在内乱的前沿基座模子,可是Meta正在介绍中不说起、也可以减色于Gemini 2.5 Pro。

细瞅一下各主要目标的患上分比照:

Behemoth超越了今朝最前沿的年夜模子GPT-4.5,Gemini 2.0 pro, Claude Sonnet 3.7,但是Gemini 2.5 Pro之外:

Maverick的性价比上超越了支流使用模子GPT-4o、DeepSeek V3.一、Gemini 2.0 Flash:

Llama 4,超越DeepSeek了吗w2.jpg

Scout吊挨其余支流的启源模子:

Llama 4,超越DeepSeek了吗w3.jpg

预锻炼

Llama 4 初度接纳大师混淆架构(Mixture of Experts,简称 MoE)。以 Llama 4 Maverick 为例,该模子具有 170 亿个激活参数,总参数目达 4000 亿。为了提拔拉理服从,麋集层战 MoE 层可瓜代使用。MoE 层包罗 128 个路由大师战一个同享大师。每一个 token 会共时收收到同享大师战 128 个大师中的一个。因而,固然统统参数皆被保留正在内乱存中,但是理论拉理时只激活此中一部门参数。这类设想低落了模子的拉理本钱战提早,使患上 Llama 4 Maverick 能够正在一台 英伟达 H100 DGX 主机上运行,就于布置,也可撑持散布式拉理以得到更下服从。

Llama 4 模子本死撑持多模态,颠末晚期融合(early fusion)将文原取望觉 token 无缝调整到分歧的模子骨干中。晚期融合是一个主要突破,使患上模子能够使用海质的无标注文原、图象战望频数据截至分离预锻炼。Meta AI借升级了望觉编码器,其根底为 MetaCLIP,但是颠末取解冻的 Llama 模子分离锻炼,以更佳天适配 LLM。

Meta AI开辟了一种名为 MetaP 的新锻炼手艺,用于可靠设定枢纽模子超参数,如各层的进修率战初初化比率。那些超参数具备优良的可迁徙性,合用于差别的 batch size、模子严度、深度战锻炼 token 数。Llama 4 正在预锻炼阶段笼盖了 200 种语言,此中超越 100 种语言的锻炼 token 数超 10 亿,整体多语言 token 数是 Llama 3 的 10 倍,为启源微调供给了优良的根底。

Behemoth使用 FP8 粗度战 32K 弛 GPU中止 预锻炼,到达了每一弛 GPU 390 TFLOPs 的锻炼服从。锻炼所用数据总质超越 30 万亿 tokens,是 Llama 3 的二倍以上,涵盖了丰硕的文原、图象战望频数据散。比拟之下,Llama 3的粗度是BF16,使用了16000弛GPU,到达了每一弛GPU 400 TFLOPs的锻炼服从。

Meta AI借引进了“中期锻炼”(mid-training)阶段,以新奇的锻炼战略加强模子的中心才气,包罗使用专用数据散完毕超少高低文扩大,正在提拔模子品质的共时,为 Llama 4 Scout 完毕了业界争先的 1000 万 token输出 高低文少度。

后锻炼

Maverick充任了主力帮忙战对于话模子,正在截至后锻炼时,最年夜的挑战是怎样均衡多模态输出、拉理才气战对于话表示。正在多模态融合圆里,Meta AI设想了课程式锻炼战略(curriculum strategy),保证模子正在多模态任务中的功用没有逊于各个简单模态大师模子。针对于 Llama 4,Meta AI全面革新了后锻炼过程,接纳了新的办法链条:沉质监视微调(SFT)> 正在线加强进修(RL)> 沉质偏偏佳劣化(DPO)。他们发明,SFT 战 DPO假设 过于严峻,会限定模子正在正在线 RL 阶段的根究才气,特别作用拉理、编程取数教任务的表示。

为了处置那一成就,Meta AI使用 Llama 模子动作判定器,对于数据截至选择,剔除超越 50% 被标识表记标帜为“简朴”的锻炼数据,仅正在剩下的下易度数据上截至沉质微调。

正在后绝的多模态正在线加强进修阶段,Meta AI颠末粗浮薄细选更具挑战性的 prompt,完毕了功用的跃迁。Meta AI借引进了一种持续正在线 RL战略 :锻炼过程当中瓜代截至模子锻炼战数据过滤,仅保存中比及下易度的 prompt,进而完毕了计较服从战精确率之间的最好均衡。

Meta AI再颠末一次沉质级 DPO 微调,处置模子照应品质中的边沿情况,使模子正在智能才气取对于话表示之间告竣了幻想的均衡。

这类崭新的后锻炼过程架构,和分离自适应数据选择的连续正在线加强进修战略,使 Llama 4 Maverick 成为一款正在智能才气战图象理解上均到达止业顶尖水平的通用谈天模子。

拉理才气减色

Llama 4 群不拉理模子,假设用基座Behemoth去比力,能够收现在数教战通识圆里仍然减色于DeepSeek-R1,全面不迭OpenAI o1。

假设拿通用的Maverick 去比力,它跻身于今朝支流的多模态模子,正在编程、拉理、多语言、少高低文处置战图象任务等多个基准上逾越了共类模子(如 GPT-4o 战 Gemini 2.0),正在编程取拉理才气上也能够取体质更年夜的 DeepSeek v3.1 相媲好。

为何周六公布

因为硅谷的多少野头部AI尝试室的下层,相互理解公布时间表已经屡见不鲜,以是对于 Meta 周六公布,也是无奈的挑选,因为下周将会十分猖獗,大概最少有可以盖过 Llama 4 的风头;而原来念上周被特朗普弄患上更猖獗。

Semianalysis开创人Dylan Patel道:

“阿里巴巴战DeepSeek会很快公布,并再次逾越Meta的。”
您需要登录后才可以回帖 登录 | 立即注册 qq_login

本版积分规则

发布主题
阅读排行更多+
用专业创造成效
400-778-7781
周一至周五 9:00-18:00
意见反馈:server@mailiao.group
紧急联系:181-67184787
ftqrcode

扫一扫关注我们

Powered by 职贝云数A新零售门户 X3.5© 2004-2025 职贝云数 Inc.( 蜀ICP备2024104722号 )