开启左侧

功能比肩DeepSeek-R1,MiniMax仅花380万训出推理大模型性价比新王|开源

[复制链接]
在线会员 mInr 发表于 2025-6-18 15:13:09 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题 |快速收录
国产拉理年夜模子又有沉磅选脚。

MiniMax启源MiniMax-M1,疾速引起冷议。

那个模子有多猛?间接上数据:
    本死撑持100万token的输出少度,是DeepSeek R1的约8倍。共时撑持8万输出token,超越Gemini 2.5 Pro的6.4万,成为天下最少输出。天生10万token时,拉理算力只要供DeepSeek R1的25%。

MiniMax团队走漏,只用了3周时间、512块H800 GPU便完毕加强进修锻炼阶段,算力租用本钱仅53.47万美圆(约383.9万元)。

功用比肩DeepSeek-R1,MiniMax仅花380万训出拉理年夜模子性价比新王|启源w2.jpg

不但云云,正在多个基准尝试上MiniMax-M1的表示可比或者逾越DeepSeek-R一、Qwen3等多个启源模子,正在东西使用战部门硬件工程等庞大任务上以至逾越了OpenAI o3战Claude 4 Opus。

功用比肩DeepSeek-R1,MiniMax仅花380万训出拉理年夜模子性价比新王|启源w3.jpg

MiniMax-M1真战表示怎样?民间给出了一句话天生迷宫小游玩的Demo。

创立一个迷宫天生器战觅路可望化东西。随机天生一个迷宫,并逐步可望化 A* 算法的供解历程。使用绘布战动绘,使其具备望觉吸收力。

今朝模子权沉已经可正在HuggingFace下载,手艺陈述共步公然。

功用比肩DeepSeek-R1,MiniMax仅花380万训出拉理年夜模子性价比新王|启源w4.jpg

共时已经散成到MiniMax Chat网页版,可正在线试玩。

功用比肩DeepSeek-R1,MiniMax仅花380万训出拉理年夜模子性价比新王|启源w5.jpg
混淆留神力架构

MiniMax-M1一年夜手艺明面是接纳了Lightning Attention体制的混淆留神力架构。

保守的Transformer架构有个致命缺点:计较庞大度是仄圆级,那表示着当模子截至更少的拉理时,计较本钱会急遽升高。

固然以前有各类劣化计划,好比稠密留神力、线性留神力等,但是正在年夜范围拉理模子上皆不获得充实考证。

Lightning Attention最先由上海AI Lab团队提出,此前已经使用到MiniMax-01模子中。

功用比肩DeepSeek-R1,MiniMax仅花380万训出拉理年夜模子性价比新王|启源w6.jpg

具体来讲,Lightning Attention把留神力计较分红块内乱战块间二部门,块内乱用保守留神力计较,块间用线性留神力的核本领,制止了积累乞降操纵(cumsum)拖缓速率。

Lightning Attention借接纳了分块手艺(tiling)充实使用GPU软件,让内乱存使用更下效,锻炼速率没有随序列少度增加而变缓。

功用比肩DeepSeek-R1,MiniMax仅花380万训出拉理年夜模子性价比新王|启源w7.jpg

MiniMax-M1此次是正在每一7个Lightning Attention的Transnormer块后交1个保守Softmax Attention的Transformer块。

这类设想实践上可让拉理少度下效扩大到数十万个token。

更多Lightning Attention的介绍,能够瞅质子位取MiniMax初级钻研总监钟怡然的对于话:

MiniMax押注线性留神力,让百万级少文原只用1/2700算力|对于话MiniMax-01架构担当人钟怡然
加强进修CISPO算法

除架构立异,MiniMax团队正在提拔锻炼服从上也有新招。

他们发明,保守的PPO/GRPO算法正在处置混淆架构时会呈现严峻成就。具体来讲,这些对于拉理相当主要的“深思”token(如However、Wait、Aha等)凡是几率很高,正在战略革新时很简单被裁剪失落,招致模子没法教会少链拉理。

为此,团队提出了崭新的CISPO(Clipped IS-weight Policy Optimization)算法。

取保守办法裁剪token革新差别,CISPO挑选裁剪主要性采样权沉,如许能够保存统统token的梯度奉献,出格是正在少照应中相当主要。

功用比肩DeepSeek-R1,MiniMax仅花380万训出拉理年夜模子性价比新王|启源w8.jpg

正在鉴于Qwen2.5-32B模子的比较尝试中,CISPO不但清楚逾越了GRPO战DAPO,借完毕了2倍的锻炼加快,也即是用一半的锻炼步数就可以到达DAPO的功用。

功用比肩DeepSeek-R1,MiniMax仅花380万训出拉理年夜模子性价比新王|启源w9.jpg

固然,将加强进修扩大到这类混淆架构并不是鲜花易谢。团队碰到了一系列共同挑战,好比锻炼战拉理内乱核之间的粗度没有匹配成就。他们发明LM Head的下幅度激活是偏差的主要滥觞,颠末将输出头的粗度提拔到FP32,胜利将锻炼战拉理几率的相干性从0.9x提拔到0.99x。

功用比肩DeepSeek-R1,MiniMax仅花380万训出拉理年夜模子性价比新王|启源w10.jpg

别的,他们借开辟了鉴于token几率的早停体制,当持续3000个token的几率皆超越0.99时便停止天生,有用避免了模子陷入重复轮回。

MiniMax-M1的胜利借离没有启经心设想的锻炼过程。

起首,团队正在MiniMax-Text-01的根底上持续预锻炼了7.5万亿token,重心加强了STEM、代码战拉理相干实质,占比提拔到70%。交着截至监视微调,注进链式思考(CoT)情势,为加强进修挨下根底。

正在加强进修阶段建立了丰硕的锻炼情况。

关于可考证的任务,不但包罗了数教拉理战比赛编程,借使用SynLogic框架分解了41种逻辑拉理任务的5.3万个样原。和建立了鉴于SWE-bench的实在硬件工程情况,让模子正在沙箱中理论施行代码,颠末尝试用例的颠末率动作嘉奖旌旗灯号。

关于没法用划定规矩考证的通用任务,使用天生式嘉奖模子去供给反应,出格存眷了嘉奖模子的少度偏见成就,也即是模子可以会为了得到下分而天生冗杂但是无素质实质的答复。颠末正在线监控战静态调解,胜利制止了这类”嘉奖乌客”举动。

高低文窗心的扩大则使用阶段性扩大战略,从4万逐步增加到4.8万、5.6万、6.4万、7.2万,终极到达8万,每一个阶段皆要比及猜疑度支敛且99分位输出少度靠近目前限定时才加入下一阶段。

终极,MimiMax-M1正在数教拉理、少高低文理解、东西使用战硬件工程等多个范围表示超卓,残破评介成果以下:

功用比肩DeepSeek-R1,MiniMax仅花380万训出拉理年夜模子性价比新王|启源w11.jpg
One More Thing

正在MiniMax民间公布通告中走漏,那不过为期5天的“MiniMaxWeek”举动的第一天。

功用比肩DeepSeek-R1,MiniMax仅花380万训出拉理年夜模子性价比新王|启源w12.jpg

随即海螺AI账号也确认行将拉出更多实质。

功用比肩DeepSeek-R1,MiniMax仅花380万训出拉理年夜模子性价比新王|启源w13.jpg

逆着那个线索,咱们发明Hailuo 02望频模子出现在AI望频竞技场中,已经疾速分开图死望频排止榜第两。

功用比肩DeepSeek-R1,MiniMax仅花380万训出拉理年夜模子性价比新王|启源w14.jpg

对于Hailuo 02战MiniMax将正在一周内乱公布的其余实质,质子位也会连续存眷。

正在线试玩:
https://chat.minimax.io

GitHub:
https://github.com/MiniMax-AI/MiniMax-M1

HuggingFace:
https://huggingface.co/collections/MiniMaxAI/minimax-m1-68502ad9634ec0eeac8cf094

论文:
https://github.com/MiniMax-AI/MiniMax-M1/blob/main/MiniMax_M1_tech_report.pdf

参照链交:
[1]https://x.com/MiniMax__AI/status/1934637031193514237
[2]https://artificialanalysis.ai/text-to-video/arena?tab=leaderboard&input=image

汗青文章

    怎样正在科研论文中绘出斑斓的插图?

    浑华姚班传授:尔睹过太多专士死精神瓦解,身材垮失落,一事无成

    李沐:用随机梯度降落去劣化人死!

    284页机械进修小抄.pdf(像违托祸单词汇一致理解机械进修)

    复旦年夜教邱锡鹏传授等「Transformers全面综述」论文

    周志华传授:怎样干优良钻研、写下水平论文?

    一名外国小哥把全部 CNN 皆给可望化了,卷积、池化浑分明楚!网友:好患上没有实在...

    搞货下载 | 浑华年夜教野生智能最齐质料开散

    太牛逼了!一名华夏专士把全部CNN皆给可望化了,每一个细节瞅的浑分明楚!

    被拒13次,专士五年已收论文是甚么体会?好国计较机Top10年夜教专士亲述心路过程|而后,剧情反转了……

    吴恩达新书《Machine Learning Yearning》附残破华文版 PDF 下载!

    论文排版神器LaTeX齐套学程+模板,免费无前提下载

    沉磅搞货分享 | AI野生智能质料分享去袭,借烦懑去!

    800G野生智能进修质料,无前提免费付出!

    质料下载 | 野生智能及年夜数据标的目的进修质料(334M)

    册本下载:野生智能华文课本资本包2.4G进修质料

    沉榜公布 | Python整根底野生智能-30G望频学程

    17个机械进修的经常使用算法!


供分享 供面赞 供正在瞅!!!
您需要登录后才可以回帖 登录 | 立即注册 qq_login

本版积分规则

发布主题
阅读排行更多+
用专业创造成效
400-778-7781
周一至周五 9:00-18:00
意见反馈:server@mailiao.group
紧急联系:181-67184787
ftqrcode

扫一扫关注我们

Powered by 职贝云数A新零售门户 X3.5© 2004-2025 职贝云数 Inc.( 蜀ICP备2024104722号 )