职贝云数AI新零售门户

标题: 被卡脖子?DeepSeek下一代模型R2,至今没亮相!自研芯片联手包围 把开发顺序搞反了?国产大模型自动适配国产芯片,还 [打印本页]

作者: Ph55Ox    时间: 2025-9-1 06:33
标题: 被卡脖子?DeepSeek下一代模型R2,至今没亮相!自研芯片联手包围 把开发顺序搞反了?国产大模型自动适配国产芯片,还
假如你关注AI,最近一定被这条音讯刷屏了:阶跃星斗结合近10家芯片厂商,正式成立了“模芯生态创新联盟”。这能够正在改写中国AI发展的游戏规则。

稀有的是,沐曦陈维良、天数智芯盖鲁江、燧原赵立东、壁仞张文,这四位很少同台的国产算力芯片领军者,同时出如今阶跃星斗的发布会现场。而更值得玩味的是,他们携手发布的Step 3大模型,在国产芯片上的推理效率居然达到DeepSeek-R1的300%!

为什么说“过去产业把开发顺序搞反了”?

就在往年终,我们还沉浸在DeepSeek带来的震撼中。但很少有人留意到,DeepSeek原计划5月发布的下一代模型R2,至今没有亮相。

背后缘由令人沉思:英伟达H20芯片的断供风险,让依赖英伟达生态的大模型企业措手不及。

这暴露了一个致命成绩:芯片开发周期长达两年,而模型迭代速度只要半年到一年。假如总是让芯片厂商追着模型做适配,结果就是“适配做好了,模型早已迭代”。

但阶跃星斗选择了一条相反的路:在模型开发阶段,就自动适配国产芯片的特性。

(, 下载次数: 1)

阶跃星斗结合创始人朱亦博解释得特别直白:“国产芯片在制程工艺、HBM(高带宽内存)等方面还相对落后,所以我们需求在算法设计上提早做调整。”

他们展现的一张对比图非常阐明成绩:在算术强度特性上,DeepSeek V3更适配英伟达H800,阿里Qwen 3倾向H20,而Step 3则与华为昇腾910B高度吻合。

这种吻合并非偶然。得益于阶跃星斗往年终发布的多矩阵分解留意力机制,Step 3将推理过程中的键值缓存用量降低了93.7%,这对算力相对有限的国产芯片来说几乎是雪中送炭。

沐曦创始人陈维良的评价一针见血:“阶跃星斗对国产芯片的了解深度,曾经不亚于芯片企业本身。”

(, 下载次数: 1)

你有没有发现,最近国产AI的风向变了?

以前大家聊大模型,总绕不开一个词:英伟达。仿佛没有H800、H20这些高端显卡,就别想训练出像样的AI。可如今,风头正在悄然转向——国产大模型末尾自动“适配国产芯片”,甚至拉上一帮“兄弟”组了个局,叫“模芯生态创新联盟”。

这不是简单的技术合作,而是一次从“被动等硬件”到“自动设计系统” 的思想跃迁。去我们是“模型做完,再找芯片跑”,如今是“做模型时,就想着怎样让国产芯片跑得更快”。

这背后,是中国AI产业正在阅历一场闹哄哄的“软硬协同革命”。

(, 下载次数: 1)

为什么如今要搞“模芯联盟”?

先说个理想:英伟达的高端芯片,越来越难买了。从去年的H800,到往年的H20,一次次被列入出口管制名单。这对大模型公司来说,几乎是“断粮”。

你能够会问:不是还有库存吗?可成绩是,库存总有用完的一天。而且,就算你有钱囤卡,下游客户怎样办?中小企业、地方政府、行业用户,谁情愿花大价钱去买一堆“将来能够用不了”的算力?

所以,国产芯片必须上位。但成绩来了:国产AI芯片(比如华为昇腾、壁仞、燧原、天数智芯等)虽然功能在追逐,可和英伟达的CUDA生态比,差的不只是算力,更是整个软件栈和工具链。

(, 下载次数: 1)

以前的大模型,比如DeepSeek V3、R1,都是基于英伟达架构优化的。如今要搬到国产芯片上运转,就得重新“翻译”一遍,工作量宏大。算力平台硅基活动的创始人袁进辉就说过,为了在昇腾上跑通DeepSeek,他们团队春节都没休息,天天和华为工程师“结合作战”。

这就像你写了一本英文小说,如今要翻译成中文出版,不只费时,还能够“水土不服”。

(, 下载次数: 1)

阶跃星斗的“反向操作”:模型为芯片而生。

于是,阶跃星斗决议换个玩法:我不等你适配,我从一末尾就为你设计。

他们在开发新一代多模态大模型Step 3时,就自动思索了国产芯片的特性——比如制程工艺没那么先进、高带宽内存容量有限、算力密度不如英伟达等。

怎样处理?他们搞了个新技术:多矩阵分解留意力机制。相比主流的多头留意力,MFA能把推理时的键值缓存用量降低93.7%!这意味着什么?意味着模型对内存的“胃口”变小了,更合适在资源受限的国产芯片上高效运转。

结果呢?在昇腾910B上,Step 3的推理效率最高能达到DeepSeek-R1的300%!更夸张的是,哪怕在英伟达Hopper架构上跑,Step 3的吞吐量也比R1提升了70%以上。

这阐明优化得当,国产模型在国产芯片上,也能跑出世界级功能。

(, 下载次数: 1)

联盟的意义:从“单打独斗”到“系统作战”。

更关键的是,阶跃星斗不打算一个人玩。他们结合华为昇腾、沐曦、壁仞、燧原、天数智芯、寒武纪、摩尔线程等近10家国产芯片和算力企业,成立了“模芯生态创新联盟”。

这个联盟简单说,就是打通模型和芯片的“任督二脉”。

过去,模型公司半年一迭代,芯片公司两年才出一代,节拍完全对不上。如今,联盟成员要同步产品开发节拍,甚至将来芯片还没发布,模型团队就能提早拿到设计参数,提早做适配。

这就像盖房子,以前是“先盖好楼,再装电梯”,如今是“设计图纸时,就把电梯井留好”。效率自然不可同日而语。

沐曦创始人陈维良说得好:“阶跃星斗对国产芯片的了解,曾经不亚于我们这些芯片公司本人。”这种深度协同,才是中国AI真正包围的关键。

训练仍难,但推理已破局。

当然,我们也要清醒:目前的打破次要在推理端。训练大模型,尤其是千亿参数以上的“巨无霸”,依然高度依赖英伟达万卡集群。

国产训练生态还在起步。目前最接近万卡规模的是科大讯飞和华为共建的“飞星二号”,但总算力仍难比肩英伟达。其他国产GPU集群,大多还在几百到几千卡的规模。

而且,训练不只是拼算力,还要拼底层工具链。英伟达的CUDA生态,积累了十几年,人才、库、框架一应俱全。而国产芯片的工具链,还得从头建,人才也极度稀缺。

所以,推理端的适配成功,是第一步;训练端的自主可控,才是真正的“圣杯”。

但别忘了,AI的赛道还在疾速演进。多模态——能看、能听、能说、能生成图像视频的AI——正成为新战场。

言语模型曾经“卷”到极限,但多模态的“GPT-4时辰”还没真正到来。这意味着,技术架构仍有宏大创新空间,国产芯片和模型无机会从早期就深度绑定,避免重演“CUDA一家独大”的场面。

阶跃星斗正是看准了这一点。他们一口吻发布了Step系列的多模态模型矩阵,包括视觉了解、语音生成、图像编辑、视频生成等。甚至在反光严重的菜单照片上,也能准确辨认价格——这种“真实场景可用性”,才是商业落地的关键。

更猛的是,他们曾经和一半以上的国产手机厂商合作,打造手机AI助手;和吉利合作,把端到端语音大模型装进汽车座舱;还在金融、批发、内容创作等范畴落地运用。

天数智芯CEO盖鲁江说得透彻:“从芯片、零件、模型到运用,假如能经过联盟建立一致标准,能省下多少适配成本?”

上海:软硬协同的“隐形冠军”。

有意思的是,这个联盟里,上海企业占了半壁江山:壁仞、燧原、天数智芯、沐曦、无问芯穹、硅基活动……全是上海本土成长起来的硬科技公司。

为什么是上海?由于这座城市,既有中芯国际、华虹这样的芯片制造根基,又有丰富的工业场景和金融、汽车等高端运用生态。更重要的是,上海国资敢于在早期重金投入AI,比如上海国投直接投资壁仞、阶跃星斗。

当其他地方还在“补链”时,上海曾经把AI做成了“城市基础设备”。

从依赖出口芯片,到自动适配国产硬件;从单点打破,到生态联盟;从纯软件创新,到软硬协同——这不只是技术的晋级,更是产业思想的跃迁。

模芯联盟的成立,或许就是那个“跳变”的末尾。将来,我们或许不再问“这模型能不能跑国产卡”,而是问:“这国产卡,是不是为最好的中国模型而生?”

那一天,才算真正跑通了中国AI的闭环。




欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/) Powered by Discuz! X3.5