职贝云数AI新零售门户

标题: AIGC算力玩家现状:爆单与应战并行,洞察趋向更为关键 | AIGC算力沙龙 [打印本页]

作者: hd7Jjj    时间: 9 小时前
标题: AIGC算力玩家现状:爆单与应战并行,洞察趋向更为关键 | AIGC算力沙龙
明敏 发自 凹非寺
量子位 | 公众号 QbitAI


AIGC算力更行业内的动向,如今曝光了。

新款服务器还没发布便已爆单;

云计算厂商不单求N卡,异样关注国产厂商;

相比预训练而言,推理需求如今愈加被关注、热议。

在量子位智库最新举行的AIGC算力沙龙上,算力范畴数月来备受关注的趋向发展、行业应战及最新动向,都有了愈加明白的解读。

来自国产芯片厂商、服务器厂商、云厂商以及加速方案明星玩家,分别从各自角度出发带来分享,由此构成对AIGC算力产业愈加片面的认知。

他们分别是昆仑芯、天数智芯、联想集团、首都在线和潞晨科技。

作为算力范畴不同层玩家,在最新趋向下他们有哪些切身感受?对将来进程又有哪些思索和看法?

量子位在不改变嘉宾原意的基础上,对分享内容及圆桌对话停止了编辑整理。希望可以给你带来更多的启示与思索。

本次沙龙约请的嘉宾分别是:
ChatGPT之前算力需求趋向已有显现

单卡推理成本面临应战

国产芯片厂商昆仑芯最新分享了对大模型推理方面的关注。

目前行业内曾经达成了一种共识,市场对于推理的需求正在疾速增长。随着大模型生态的持续发展,大模型的效果不断提升,同时推理成本也在逐渐下降,这些要素都将加速大模型的商业化运用。随之而来的便是对模型推理的海量需求。

(, 下载次数: 0)

昆仑芯互联网行业总经理王志鹏表示:

当百亿、千亿规模参数的模型需求部署推理时,推理技术面临分布式化的应战。详细来说,需求把一个大模型拆分到单台机器多张加速卡上并行存放、并行计算。

(, 下载次数: 0)

这些技术之前在训练场景运用很广泛,比如pipeline并行。但是推理有本身特殊需求,比如很多对话类义务对推理时延要求很高。Tensor并行会比较合适在线推理,而pipeline并行有助于提升吞吐,在一些离线的推理场景中也有用。

大模型推理引入了对通讯的需求,多卡之间在每一层计算完成后都有一层通讯。这种状况下怎样顺应推理场景的优化?针对非常多高频次、小数据量的推理场景,需求重点去优化时延,而不是提升带宽应用率?

所以当下面临的一个核心成绩是:如何在单机8卡上达到大模型推理的最优功能。在真实业务场景落地中,昆仑芯采用INT8、Continuous Batching等关键技术,为业务带来了数倍的功能提升。
中国芯面临哪些技术瓶颈?

国产GPU厂商天数智芯,愈加关注芯片底层面临的应战。

天数智芯副总裁郭为表示,次要应战来自Chiplet D2D的IP成熟度、3D封装技术、工艺三方面。

我们很希望有一家成熟的D2D IP供我们直接运用,但是国内还存在标准不一致的成绩。

3D封装技术触及到堆叠,也是应战。

而且Chiplet不是万能的,不能够经过14nm的Chiplet来“干翻”5nm、3nm的技术,所以从根本来讲还是一个工艺成绩。

(, 下载次数: 0)

那么从GPU厂商角度来看,大模型将会驶向何处?

郭为给出了4个方向:
联想:新一代8NVLink GPU服务器爆单了

联想集团ISG服务器产品总监黄山泄漏的一个小音讯,让人愈加直观感遭到当下算力行业的火热:

我们8月18日预备推出的新一代8NVLink GPU服务器,还没发布订单曾经爆了。

实践上,对于千亿级大模型训练,8NVLink GPU服务器是一个最好的选择。假如进入到训推一体阶段,联想给出的引荐为8PCle服务器。

(, 下载次数: 0)

如上是关于行业当下的需求,将来AI服务器架构发展会呈现怎样的趋向?

联想以为,其一是独立的“GPU Box”,经过PCle Switch与服务器节点互联;其二是围绕CPU和GPU芯粒互联的设计。

与此同时,在算力需求暴增的现状下,关于绿色低碳、AI基础设备能效和散热方面也需求予以注重。

(, 下载次数: 0)

GPU容量增速没有跟上算力需求增速

潞晨科技是一家从诞生起,就面向大模降本增效的初创公司。

潞晨科技生态担任人李永彬表示,近一两年来算力增长需求非常快,对于GPU算力来说,GPU容量的增长速度没有这么快,中间构成了GAP。

而且AI大模型的计算形式也发生了改变,不会像之前Deep Learning时代,针对某一个义务直接去顺应模型,它会基于基础模型再微调的方式,来做范畴/行业内大模型。

(, 下载次数: 0)

对于大模型来说,计算量非常大,预训练需求1-2个月工夫也很常见,因此对于速度优化的要求非常高。

所以潞晨打造了Colossal-AI系统,在过去两年来提出了多套训练/推理加速方案,并积极拥抱开源。

比如最近,Colossal-AI发布类LLaMA基础大模型预训练方案,训练速度较传统方案提升38%,分明降低成本,不限制商业运用,开箱即用仅需4步。
云计算发展不同于传统架构

首都在线作为一家资深云厂商,趋向下的直接感受是,行业对于云计算架构的需求不再是一个传统的池化、资源池,而是要求整个架构变得非常灵敏。

首都在线产品中心总经理朱湛峰表示:

GPU业务不同场景对于服务的配置需求是非常零散的,怎样在同一个架构上满足这些需求?这是一个非常复杂的过程,我们如今能做到一台服务器、经过一个后台的开关就可以把它切换到不同的外形,以不同方式交付给客户,这个和传统云行业很不一样。

同时在一些技术细节上也会变得不同。

GPU业务大部分都是高并发的,服务器之间要求低延迟、高带宽、高并发存储,这都是一个很大的应战。

(, 下载次数: 0)

圆桌实录

趋向前后规划有何变化

量子位:目前各家在生成式AI上的规划如何?和趋向发生前相比有哪些变化?

潞晨科技李永彬:由于我们本身就是做大模型相关的,如今ChatGPT等大模型趋向非常符合潞晨的发展途径。前两年我们刚末尾做这个方向的时分,能够大家对大模型还有疑虑,这么高的成天分做什么?那么如今来看,很侥幸我们提早规划踩在了风口上。我们最近的动态也会不断更新,并且在Colossal-AI GitHub上同步。

天数智芯郭为:粗浅来讲我们就是铲子的,做通用的铲子,接上去还会继续在这个方向上行进,努力帮大家更好挖金子。

联想黄山:明天我们首先处理的最基本成绩是,让基础设备如何能提供最高效的算力。同时联想也会去做大模型,以及算力服务、云服务等。

昆仑芯王志鹏:我们由于和场景、业务走得很近,所以更聚焦在生成式AI范畴,因此较早停止了规划。

首都在线朱湛峰:我们比较明白是不会去设计本人的大模型的,我们将以云上算力给大模型企业提供强有力的支持。

(, 下载次数: 0)
技术将会不断迭代

量子位:生成式AI之后的发展趋向将会如何?是基于原有技术不断加码,还是从更底层创新?

首都在线朱湛峰:从云的角度来看,如今这个趋向走向还没有完全展现出来。结合我们本身的状况微观来看一下,我们AI事业部从技术架构到业务角度完全是跟原来的公有云完全独立开的,由于几乎没法以同一种方法运作,所以我们看到说AIGC对计算的基础架构都能够有非常大的应战。

我置信随着AIGC的演进,从机柜到带宽、到服务器、到存储将会对整个云架构或服务架构的方式产生宏大改变,这也是需求我们和客户公司来一同顺应的。

昆仑芯王志鹏:我们会从这样几个角度来看:首先一定是持续的迭代过程,不只是靠一代芯片就能达到理想形态,而且这个过程是跟算法运用场景一同迭代。当前最主流的AI芯片曾经到达算力边界,然后算法就会基于AI芯片继续迭代,同时为下一代硬件指明方向。

第二点是看接上去要做什么。一个变化思绪是,打破对一个单卡的局限,上升到服务器零件以及大集群系统层面,在这个层次上有一些全体的处理方案或者优化思绪。

联想黄山:我们这边什么都做,在AI算力需求迸发的时代,我们看到从最底层的新品到服务器,再到下面中间件、算子、算法库、模型库、运用、实践场景,做API服务。包括变成一个方案级服务,订阅、包租,整个采购和之前自动计算、迷信计算都有宏大区别。

由于AI数据类型不一样,所以对算力基础设备的要求也不一样。这是整个一套残缺的技术栈,不能分开去看,我们虽然说本人什么都做,但不是什么都卖。我们希望可以推进AI运用、合适它的全栈方案智能化。

(, 下载次数: 0)

天数智芯郭为:我们是一家芯片厂商,从芯片厂商的角度来看,这件事还是回到实践上我们芯片是为算法服务,然后对于算法它是一个怎样的发展趋向?

假话实说,由于我们不是算法公司所以不是非常专业。比如往年的状况,恨不得Transformer要一致天下,那么明年还是不是这个状况?这个事情我置信谁都给不出一个明白的答案,对于芯片公司来讲我们该怎样办?

从我的认知来看,依然还是回到通用这件事。我们依然会坚持提供一个通用的架构、通用的算力。这件事说一千道一万,产品到底好不好,还是能不能实践用、实践用的人用得舒适,才能给客户提供最大价值。我们不断以为坚持在通用这条道路上,可以给客户、给算法工程师提供最大价值。

潞晨科技李永彬:潞晨这边是做软件的,所以对AI浪潮变化也是深有体会。像刚刚提到2、3年前,GPT-3刚出来当前,大模型赛道只要多数人参与。

如今ChatGPT带起来这么大的风潮,很多企业都想要参与出去。能够前几年大家都还在搞CPU大数据,市场虽然需求GPU但是还没有这么高,所以如今来看市场变化还是很大的。生成式AI也带了许多新的技术应战,正是潞晨和Colossal-AI所擅长和努力的方向。
算力中心成为新基建

量子位:各位如今所在企业的算力基础设备规划如何?算力中心内行业内最终会扮演一个怎样的角色?

潞晨科技李永彬:算力中心如今都很重要,尤其像如今高端算力出现了一些监管措施,那对于大模型浪潮来说,算力中心要比其他时辰愈加重要,对算力提供者也提出了更高要求,比多么多云厂商,当然包括做软件基础设备的角色也会参与出去。

天数智芯郭为:重要性无须置疑,这个属于新基建。除了商业方面的算力建设,各个地方政府也都在积极建设算力中心,包括一线、省会、二三线城市等。在算力中心建设这部分我们也在积极参与。最重要回到一句话,算力中心建起来之后谁来用?这个成绩我们也在和各个合作伙伴、地方政府讨论。

联想黄山:我也以为算力中心是很重要的。有一份行业报告显示,它对比中国、美国、日本的算力投资。在2020年,对算力投资最大是中国——7000亿,其次是美国,最后是日本。

这些投资在以前叫做算力中心、超算中心,后来发展到明天叫智算中心。为什么叫智算?由于有一个东西叫智慧算力,它在2022年的规模曾经超过了其他算力,并且在将来5年内会以57%的速度增长,其他算力的增长速度大概为10-30%。

所以这意味着什么?什么叫智慧算力?刚刚我也提到从底层来看,它从芯片设计上都会有不一样的设计。联想是世界HPC TOP500强里top最多的公司,持续曾经5年了。但是HPC有很多本人的才能,可以为储存中心提供整套的IPC方案。

但是明天我们遇到新的难题,由于新的智算中心给我们提出新要求。这需求全部重新梳理,从驱动、中间件层再到下面软件。所以这也是我以为在这个时代下要去帮客户处理的痛点。至于怎样把智慧算力运用?首要是要把基础层都做明白。

(, 下载次数: 0)

昆仑芯王志鹏:生成式AI,我们看到它的运用场景是非常广阔的,它其实改变了AI和人的交互方式,因此会成为流量的新入口,将来会运用于手机、云端、边缘、端侧等等。这种潜力是有限的。

在这种趋向下,变化不光会发生在智算中心。作为芯片公司,我以为思绪有很多,其实我们看到的是一个个独立的负载(workload),对workload了解得越深,在数据处理、处理方案等下游整个链条上就能做得更多。全体来说,可以提供给客户或智算中心的面向产品的方案也会更完善。从这个角度来说,规划的重要性就不必多说了。
新范式出现了吗?

量子位:AIGC趋向推进算力厂商有哪些范式、形式的创新?能助推我们在不同层级做疾速迭代?

首都在线朱湛峰:我以为很多变革都是一点一点发生,如今能看到一个实例是,原来很多合作伙伴会把他的业务交给一两家厂商来做。但是如今它会变成一个标准调度来运用多个云。所以对于云厂商来说,产品弹性、标准化有提升到了一个新高度,不只是让客户顺应,而是本人要顺应行业。这是我们看到的一个分明变化。

昆仑芯王志鹏:对于芯片公司来说,我觉得很多创新是围绕市场的核心需求。大家对于芯片最关注的还是核心功能,但是除此之外,我们假如可以和上下层一些运用场景结合,就能有一些更残缺的端到端方案让客户疾速感知。比如硬件层面的一体机,结合对算法加运用的全体端到端方案。

联想黄山:我觉得离范式改变还有点远。由于我刚才的观点是说是很多东西都要从底层到向上都要做,所以我们觉得我们建立于建立范式还是有差距的。我觉得但是这外面刚才我也是从模型提供的这种方式,这个我们在不光是金融和医疗,我们其实本身上也都有一些实际,这些东西即取即用,然后教这个我觉得是一个 AI 运用落地的一个范式,一个范例,这个也能够也不是由于 AIGC 导致 ,AI 运用落地本身就需求这样的。

天数智芯郭为:从芯片厂家的角度来讲,我觉得跟下去讲的话还是得产品,就还是说这个就是我们本身芯片本身的才能。那比如说在对于芯片来讲,那比如说在工艺受限的状况下,我们是不是可以有一些别的方式可以提高带芯片的算力?

同时在单芯片算力不能够有限增大,那对于集群来讲,会设计到芯片之间的互联,以及集群之间的互联,这会不会影响一些新互联技术的出现?带来更快互联速度?

当然这又是另外一件事。芯片之间互联速度太快也会有其他影响,但是这个不重要,更重要的是说还是回到产品本身——怎样做对产品有更好把握?做更快迭代?这样才能顺应AIGC时代以及发展需求。

(, 下载次数: 0)

潞晨科技李永彬:软件层面看到很多新变化。比如大模型的开源。在Deep Learning时代,由于成本不高所以大家上手做的门槛不高。但是大模型只要头部厂商、大集团、明星初创有实力去思索预训练,有一些厂商情愿开源供市场运用,但也有厂商选择不开源。目前我们也在做一些开源方面的工作。

量子位:诘问一下潞晨,对于OpenAI的开源/闭源成绩怎样看?

潞晨科技李永彬:我个人觉得开源能有更长的发展和更多成长。OpenAI它当然有一些本身商业方面的思索,想要保持竞争力。但是如Meta开源LLaMA后,全世界都有参与出去共建生态。当然包括像硬件厂商,英伟达的弱小不只在于它的硬件,也包括它开放的生态,大家情愿留在这个生态里不断共建。
开源还是闭源?

量子位:最近英伟达和HuggingFace上达成了最新合作,国内也会看到相似的合作方式吗?

潞晨科技李永彬:生态方面,国内很多模型也会开源分享,以及国内也有像model as service这样的尝试。

天数智芯郭为:开源显然是优于闭源的。对于生态来讲,回到天数智芯的角度来讲,我们坚定用户主流生态。对于OpenAI,最近它的财报披露还在亏钱。在技术层面曾经强到如此了但还是在亏钱,所以我以为还是要拥抱开源。

当然,开源和闭源不是相对对立的。我们了解有些闭源是从公司商业形式出发。从天数的立场来说,我们积极拥抱开源,同时也情愿同合作伙伴讨论实践的商业落地形式。

联想黄山:仅代表个人观点,由于我们不做这方面。我以为OpenAI这样的头部厂商,市场机会很多。另外对于开源,对于我们联想来说是非常喜欢开源的,这能给我们本人做模型时提供更多阅历。

昆仑芯王志鹏:我以为开源大模型生态会与商用大模型长期共存,由于两者面向的是互补的市场,市场需求也不尽相反。做一个类比,我们如今回头来看CPU市场,以Windows为代表的闭源商用市场,和以Linux为代表的开源软件市场,如今也是处于长期共存的形态。

首都在线朱湛峰:我们本人的定位是不做大模型。但是从生态来讲,我们非常积极自动去和上下级厂商沟通,促进国内生态发展。

(, 下载次数: 0)
算力租赁会如何发展?

量子位:最近算力租赁这个概念很火,但这不是个新概念了。所以AIGC时代下,算力租赁服务有发生哪些变化?长期来看算力租赁会不断由产业去推进?还是发展成为一种公共服务?

首都在线朱湛峰:对于算力租赁,我们可以把它定义为算力的云化服务。我以为云化服务是将来,我想象中AI的将来里,一切终端都是云终端,从AI的计算到媒体传输、视频传播输都是在云端停止,这个过程中必定会触及到不同业务在做,所以算力的需求会变成弹性需求,弹性对于租赁来说是一个非常大的优势。

第二点,它可以协助成本分担。任何一个公司想要从底层末尾构建一套残缺的技术栈都是非常烧钱的,租赁方式也大大降低了一个公司进入到这一行业的成本。所以我以为它必然是一个将来趋向。

昆仑芯王志鹏:作为芯片公司,从AI算力提供商的角度来看,对我们本身的要求是提供"归一化的算力"。希望可以降低云厂商对我们的接入成本,同时希望做到单位算力价格更低。

联想黄山:大模型在做预训练的时分,能够需求拥有本人的集群,在当前这个阶段它能够不太可以独立完成。我也非常认同二位所说的趋向,真正有一天做完预训练、需求真正产生社会价值、商业价值的时分,推理需求会扩展。这样估算,我以为推理市场需求能占到60%,由此我以为算力租赁应该是一个最好的方式,所以我以为算力租赁这条路还是很有前景的。

天数智芯郭为:我以为显然不需求每一家公司都做一个本人的示范途径。当然假如非要这样做,从我们芯片公司的角度来说非常欢迎。可是客观理想下这分明不能够。对于算力主体来讲,我们要思索的是什么样的算力才能让客户情愿买单?我们以为是通用算力,所以我觉得算力租赁的确是一个和大模型算力出口相伴的趋向。
最新趋向下如何规划业务?

量子位:作为底层算力提供商,对于将来下层需求发展有哪些判别?基于这些判别,能否在业务发展优先级上做了相应规划?

潞晨科技李永彬:目前的市场需求能够训练方面多一些,后续推理需求会更多一些。这个趋向和目前我们的优化重点也是相符合的。Colossal-AI如今针对不同市场需求做了相应的工作,对于资源少的状况,我们提供一些方案使其可以在更少资源下去完成义务;对于资源充足状况,在相反硬件的计算效率上做更大提升。总体上起到对AI大模型相关需求降本增效的效果。

天数智芯郭为:目前大模型的趋向是十亿、百亿、千亿规模,但是后续会想万亿、十万亿级发展吗?能够也不至于。回到主流厂商供不应求的话题,这对于国产厂商来说,后续发展需求找好着力点。这个着力点就是产品本身好不好用,这样后续才能讨论是不是能跟上脚步的成绩。

联想黄山:市场目前给了我们非常明晰的反馈,往年年终客户对GPU需求都是成千上万块,由于很多人要去给大模型做预训练。但是从7月末尾,各行各业的客户来和我们提的需求是几十台服务器,来做训推一体。这些客户曾经想好了,在预训练大模型成熟的时分加入出去,我们要在这个时分和它的项目停止婚配。

那么现内行业推进的下一步是什么呢?也许明年就要变成真正企业专属运用的一套东西,所以我在这方面就是规划一整套残缺的技术栈,从训到推,各有各的特点,各自能顺应相应的客户需求。

昆仑芯王志鹏:我的想法差不多。有一类客户本身的定位是提供基础大模型,他们对算力是不计成本的,但这类玩家很少。如今也出现了大量企业,它需求算成本账、评价效果和业务收益,随着算法开源、模型效果逐渐变好,推理各方面成本下降,这一类客户也正在成为我们重点关注的对象。

首都在线朱湛峰:我从另外一个角度来谈一下。目前英伟达内行业里的占比非常非常高,我们在业务规划的时分会将很大一部分精神放在国产芯片、国产GPU上,我们还是希望这个市场里不只要一家厂商能提供算力,也有更多国产厂商可以为我们本人的模型、业务提供算力,这是我们不断在做的事。
关于量子位智库沙龙

量子位智库主题活动,围绕AI和前沿科技相关的最新停顿和抢手话题,约请一线行业专家,系统性分享认知。

— 完 —

「AIGC+垂直范畴社群」

招募中!

欢迎关注AIGC的伙伴们加入AIGC+垂直范畴社群,一同窗习、探求、创新AIGC!

请备注您想加入的垂直范畴「教育」或「广告营销」,加入AIGC人才社群请备注「人才」&「姓名-公司-职位」。

(, 下载次数: 0)

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿停顿日日相见 ~






欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/) Powered by Discuz! X3.5