职贝云数AI新零售门户

标题: AI大模型的价格被“打上去”了? [打印本页]

作者: mInr    时间: 2025-3-6 08:54
标题: AI大模型的价格被“打上去”了?
继DeepSeek R1以有限算力,仰仗弱小算法创新“冷艳”全球之后,大模型研发范畴似乎也末尾打起“价格战”。美国斯坦福大学、加利福尼亚大学伯克利分校等机构的研讨团队,先后宣布仅以几十美元成本,开发出功能可媲美前沿推理模型的人工智能(AI)模型。这能否意味着大模型研发成本正逐渐下探,动辄数千亿美元的研发费用将成为过去?

1月8日,在美国拉斯维加斯,人们在展区观看运用AI技术的新款电视   新华社发 (曾慧摄)
1
低成本玩转高级推理
“这是开源模型对闭源模型的成功。”正如法国计算机迷信家、图灵奖得主杨立昆此前在个人社交媒体评价DeepSeek时所说,开源模型正不断推进AI范畴的诸多打破性停顿。微调、蒸馏等建立在开源模型基础上的低成本创新技术,似乎正在应战大模型的烧钱逻辑。
美国斯坦福大学和华盛顿大学的研讨团队日前宣布研发出名为S1的模型,在衡量数学和编码才能的测试中,表现出与OpenAI o1和DeepSeek R1等前沿推理模型不相上下的功能。
这一研讨可以算是“站在巨人肩上摘果子”。根据论文,S1的核心创新在于采用了知识“蒸馏”技术和“预算强迫”方法。“蒸馏”技术就好比对别人酿好的酒进一步提纯。该模型的训练数据是基于谷歌Gemini Thinking Experimental模型“蒸馏”出的仅有1000个样本的小型数据集。
在算法上,S1则是对阿里云的通义千问开源模型停止监督微调,并经过“预算强迫”方法,控制训练后的模型计算量。最后,运用16个英伟达H100 GPU仅停止了26分钟的训练便达成目的。
美国加利福尼亚大学伯克利分校研讨团队最近也开发出一款精简的AI模型TinyZero,宣称完成了DeepSeek R1-Zero在倒计时和乘法义务中的复刻版。该模型经过强化学习,完成了3B(30亿模型参数)的大言语模型的自我思想验证和搜索才能。
两个研讨团队都以“低成本”为卖点,对外宣称训练成本仅为几十美元。参与S1项目的斯坦福大学研讨人员尼克拉斯·米尼霍夫告诉科技媒体TechCrunch,训练租用所需的计算资源大约只需20美元。而TinyZero团队核心成员加利福尼亚大学伯克利分校博士潘家怡也在其个人社交媒体上发文称,其项目训练成本不到30美元。
2
“低成本”小模型背后的真相
清华大学计算机系长聘副教授刘知远接受《环球》杂志记者采访时说,部分海外研讨团队采用DeepSeek R1、OpenAI o1等高功能推理大模型构建、挑选高质量长思想链数据集,用这些数据微调小模型,可以低成本疾速获得高阶推理才能。这些研讨停顿进一步验证了DeepSeek R1论文中提出的观点:应用大模型停止知识蒸馏可有效提升小模型的推理功能,这是AI行进方向的有益尝试,但成本和全体功能都有夸张之嫌。
首先,超低成本只是部分费用。AI智库“快思慢想研讨院”院长田丰告诉《环球》杂志记者,几十美元成本只是最后一个环节的算力成本,并没有计算基模型的预训练成本、数据采集加工成本,与DeepSeek、GPT o1的残缺训练周期成本不具有可比性。此外,二者的成功均建立在其他成熟开源模型的微调基础之上,而非从0到1的原始创新,底座大模型高昂的训练成本并未被计入。这就好比盖房子,只算了最后装修的钱,却没算买地、打地基的钱。
其次,全体功能尚无法比肩成熟大模型。TinyZero仅在简单数学义务、编程及数学益智游戏等特定义务中有良好表现,但无法适用于愈加复杂、多样化的义务场景。而S1模型也只能经过精心挑选的训练数据,在特定测试集上超过GPT o1-preview,而远远没有超过o1正式版或DeepSeek R1。在运用“预算强迫”方法时,当思索的工夫和内容越来越多时,S1模型还会有点“后劲不足”,功能提升不太分明。
不过田丰以为,新研讨中延伸模型思索工夫的方法、强迫模型反思发现答案错误、高质量蒸馏数据集的推理提升等探求,都对科研群体有启示性。
以“二创”方式构建小模型的探求,也加强了AI的普惠性。这对采用基础模型微调的二次开发企业具有理想价值,可疾速根据本身实践状况微调出小模型,以更低成本将AI技术运用于业务中,推进更多范畴的智能化变革。
3
成本逐年降低是趋向
对于AI大模型的将来退化而言,此类小微创新只能算是“灵光一现”。
刘知远指出,就推进大模型才能边界而言,“知识蒸馏”技术意义不大,将来依然需求探求大规模强化学习技术,以持续激发大模型在思索、反思和探求等方面的涌现才能,从而不断探求人工智能的迷信化技术方案。TechCrunch也刊文表示,蒸馏技术已被证明是一种以低成本重现AI模型才能的有效方法,但它并不能创造出比现有模型优越得多的全新AI模型。
目前,大模型研发成本依然高昂。2025年,Meta、谷歌和微软计划在AI基础设备上投入数千亿美元,部分资金将用于训练下一代AI模型。相关专家以为,要推进AI创新的前沿发展,这一规模的投资仍不可或缺。
不过,拉长工夫尺度来看,大模型研发成本还是呈逐年降低趋向。百度2024年宣布,其文心大模型推理成本已降至2023年3月版本的1%,算法训练效率提升到原来的5.1倍,推理功能提升105倍。清华大学和面壁智能2024年推出MiniCPM最新端侧模型,只需求几十亿参数便可以完成GPT-4o程度的才能,可在手机上高效运转。于2024年9月发布的DeepSeek V3激活参数降低到2024年4月同程度模型LlaMA 3 405B的1/10,训练和推理成本相应降低,而时隔不到一年后发布的R1单义务推理成本仅为V3的40%,这均是才能密度持续加强的例证。
在大模型迭代过程中,存在相似摩尔定律的现象,即大模型的才能密度正随工夫呈指数级加强。刘知远指出,2023年以来,大模型的才能密度大约每100天翻一倍,即每过100天,只需求一半的算力和一半的参数就能完成相反的才能。将来应继续推进计算系统的智能化,不断追求更高的才能密度,努力以更低成本——包括训练成本和计算成本——完成大模型的高效发展。
在可以预见的将来,功能弱小的模型终将不被算力巨头垄断,而是“飞入寻常百姓家”。

(, 下载次数: 0)

END

关注环球杂志视频号

(, 下载次数: 0)

来源:《环球》杂志第5期编辑:乐艳娜
监      制:李晓明责任编辑:乐艳娜编      辑:张海鑫





欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/) Powered by Discuz! X3.5