开启左侧

国内外这么多 AI 大模型,为什么是 DeepSeek 火了?

[复制链接]
在线会员 DDeEB0 发表于 2025-1-29 00:44:23 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题 |快速收录
面打上圆卡片存眷👆
克日,名为 DeepSeek(深度供索)的华夏 AI 草创公司正在短短 30 天的时间内乱前后公布了 DeepSeek-V三、R一、Janus-Pro 等多款年夜模子,水爆齐网,连续激发冷议。

每款新模子公布当天,知乎城市会萃大批科技从业者问主睁开丰硕专科的阐发会商。
共同去瞅瞅年夜模子话题优良问主@段小草 战英伟达 AI 计较架构手艺总监@杨军 的专科答复吧~

国产之光 DeepSeek 把 AI 年夜佬齐炸进去了,对于 AI 止业合作格式有何作用?

| 问主:段小草

来日诰日正在闲过年前最初的事情,刚刚瞅到那讲题,简朴提多少句吧。

DeepSeek 此次激发的会商度很年夜,并且那波会商更多的是手艺圈自觉的会商,PR 商稿的水份未几,尔以为那里面实际上是许多种因素叠减正在共同的。

第一面正在于 DeepSeek 启源。

启源正在目前是一种公理的年夜旗,OpenAI 的模子再强,各人也是雾里瞅山,OpenAI 从 GPT-3 开端便酿成了彻彻底底的 ClosedAI。

能够道除引爆那一轮天生式狂言语模子的海潮中,给各人供给一个恍惚的图景中,对于启源社区险些不辅佐。

而 DeepSeek 则否则,DeepSeek 不但完整启源,并且搁出了具体的手艺陈述;不但启源了自己最年夜的 671B R1 模子,借「逆戴脚」助各人蒸馏质化佳了 1.5B~70B 多个尺微暇的模子;不但是体面上启源,以至挑选了最严紧的 MIT License 和谈,许可所有人无偿使用、改正、散发,包罗用于贸易用处。

外洋许多报酬 DeepSeek 举年夜旗,甘愿阻挡 DeepSeek 为真实的 OpenAI。

LeCun 正在蹭 DeepSeek 冷度的时候收了这样一篇揭子[1]:

关于这些瞅到 DeepSeek 表示超卓并觉得「华夏正在野生智能上逾越了好国」的人,您们理解错了。准确的理解该当是:
「启源模子在逾越私有模子。」
DeepSeek受害 于盛开钻研战启源(比方 Meta 的 PyTorch 战 Llama)。他们提出了新设法,并正在他人的根底上截至建立。因为他们的事情是公然公布并启源的,每一个人皆能从中获益。

那即是盛开钻研战启源的气力。

第两,DeepSeek 的锻炼本钱出人意料的高。

那一面去自于 DeepSeek V3 的手艺陈述中[2]:

DeepSeek V3 总锻炼本钱为 278.8 万 H800 GPU 小时,仅 557.6 万美圆。

那是甚么观点呢?一个 Meta 的内部职工藏名爆料道,Meta 的天生式 AI 部分对于 DeepSeek 感应惊愕,启事是他们随便一个办理职员的薪资便超越了 DeepSeek V3 的总锻炼本钱,他们底子没法背下管注释那件事。

海内中这样多 AI 年夜模子,为何是 DeepSeek 水了?w2.jpg

那也是一点儿人所道的,DeepSeek V3 很年夜水平上改动了年夜模子商场的底子逻辑,已往觉得十分烧钱的现在发明一定需要。

而那面前 是去自于 DeepSeek 正在架媾和 AI Infra 上的立异事情。

第三是 DeepSeek 模子的功用确实强。

模子评测具备相称的挑选性,佳用欠好用也望使用场景而定,不克不及有某多少个具体的成就来必然或者否认某个模子。DeepSeek V3 能赢 GPT-4o,R1 能赢 o1 也皆是某些评测成果。

但是尔仍是要道,思考到 DeepSeek免费 供给使用,且 API价钱 十分自制,那末分析思考用户使用本钱,DeepSeek 的体会即是 T1 级此外。

那一面有年夜模子竞技场 Arena 左证,不外因为 DeepSeek R1 的挨分数据质尚少,以是其相信区间绝对较年夜,也表示着成就可以借没有太颠簸。

海内中这样多 AI 年夜模子,为何是 DeepSeek 水了?w3.jpg




第四,DeepSeek 去自幻圆质化而没有是保守互联网年夜厂,更具幻想主义气味。

DeepSeek开创 人梁文锋那多少天也是存眷的核心,各人道他上往事联播,翻进去他从前的讲话逐字解读,很有种制神的表示。

海内中这样多 AI 年夜模子,为何是 DeepSeek 水了?w4.jpg

但是 DeepSeek 比拟于其余模子,确实贸易气味更少一点儿,也更像一个小而好的钻研机构,而非罪利性的 AI 企业。那便天然地区去了话题上的反好,更易引起会商。

关于科研构造那一条,有多少个标的目的可供睁开。

一是战 OpenAI 出格是晚期的 OpenAI,和贸易化后的 OpenAI 做类比,小而粗的构造能够快速演退,快速公布,而没有像年夜厂这样有商毁承担,好比 Google晚期 钻研出年夜模子后因为幻觉成就和天生式 AI 对于搜刮营业的作用而作用了对于年夜模子的钻研决议计划,终极招致提早公布,错得了先机;而 DeepSeek 现在被幻圆包养,临时不营支压力,以是瞅下来也没有会像 OpenAI 这样奸商罪利。

两是 Meta 职工正在藏名收揭中道,天生式 AI 部分原应是一个小而粗的部分,但是因为 AI 的冷度被塞进来太多人而变患上痴肥。构造的痴肥固然便会戴去服从成就。

三是有人把 DeepSeek 比做幻圆质化内部的 Skunk Works(臭鼬工场)[3],夸大其主动的立异才气。

第五,DeepSeek 去自华夏。

异常一个模子,异常一句话,海内外洋味道判然不同。

好国现在已经明牌要浮薄起 AI 武备比赛了,特朗普正在颁布发表 5000 亿美圆投资的星际之门时道,那些投资假设没有流背好国,便很可以会流背华夏。

那里非此即彼的合作表示十分大白,很多人把星际之门解读为新星球年夜战方案。

不管是利剑宫对于芯片的禁令,仍是 OpenAI 等 AI 企业分离起去的号令,皆正在大白一件事,即是停止华夏的 AI开展 ,保证好国的争先职位。

正在那个枢纽时候,华夏企业干出了 DeepSeek,那关于海内来讲即是很奋发的工作。叠加之前面道到的 DeepSeek 锻炼本钱极高,正在必然水平上也削弱了对于下功用隐卡的依靠。

那关于好国来讲是不成承受的。可是那件事的确实确实真实邪天发作了,那有很幽默了,下一步走背会很奇妙,或许 DeepSeek 会成为咱们脚中的枢纽一招。

| 问主:杨军

尔小我私家的概念是,软核手艺的开展过程里,所有成果的组成皆没有是一蹴而就的。

尔比力认共梁自己所道的,DeepSeek 今朝的功效,以国内止业尺度去瞅,确实是得到了没有错的成就,值患上承认,但是假设缩小时空,类似成就搁正在好国科技止业,相称于只不外是诸多没有错的手艺立异中的一个。

咱们既不该该因为好国科技争先的劣势(今朝那仍是一个尔觉得的主观幻想)而以为华夏人便只可干 follower,不克不及干太多软核立异;也不该该不过因为一个去自华夏公司的单面的手艺功效便把制作那个功效的团队战公司捧到天上。那二种极度做法一体二里,关于软核手艺立异皆有着极年夜的破坏性。

已经有机会听一名止业里十分资深的华人晚辈正在介绍其创建的公司的构造设想观念时,他特地 highlight 道会正在好国物色处置根底模子手艺钻研的人材,海内的团队干偏偏使用层的模子手艺钻研。

固然自己的从业经历其实不能间接关于年夜模子的修模手艺提出很强的洞睹,也会认可部分来讲好国的科技程度要争先于华夏,出格是 IT 手艺范围(包罗芯片战野生智能)。但是关于这类让好国团队处置根底手艺,华夏团队处置使用手艺的本能机能设定,仍是让自己十分的没有舒适,因为那隐露了一种剧烈的代价才气的揣度。

出格是瞅到一名资深晚辈有如许的认知,仍是让自己有些感慨,因为如许的人常常对于止业资本的分派有着更强的作用力。

其时自己的觉得是假设按那个逻辑,OpenAI 的这助人正在微硬或者 Google 的资深年夜佬眼前即是一堆小屁孩,完整不该该拿到那末多的社会资本去干出现在的 OpenAI。DeepSeek 的事情功效某种水平上,以一个十分间接的示例去证真了这类手艺鉴别的分歧理性,也给华夏的手艺圈戴去了一点儿潜伏的作用,尔自己长短常惊喜的。

尔不间接的一脚经历,但是从一点儿草蛇飞线的布景链路,加之自己的一点儿从业经历去瞅,尔会偏向于觉得 DeepSeek 的功效很年夜水平上与决于他们的中心决议计划过程能够鉴于充足 hands-on 的手艺细节,正在没有需要思考短时间 KPI 压力的情况下,截至着有明了弘远末端目标(AGI)设定的手艺根究。

有明了的弘大目标去供给反应指挥,又没有像是杂根底科学这样完整不克不及计划(尔自己觉得年夜模子手艺突破素质上仍是工程手艺的突破,而没有是天然科学的突破,以是固然具备很强的谬误定性,但是实际上是这种颠末工程手艺构造施行能够处置的谬误定性,而并非这种人类汗青上小几率发生的先天人物才气促进的天然科学进步),再加之有充足 hands-on 的中心决议计划过程战团队,共时又有着充足盛开包涵的事情气氛,就可以让手艺团队不竭天一面面按照内部反应去调解战略,迫近设定目标。固然正在那个过程当中,能够逾越目前支流修模手艺,提出新的模子根底零件,是值患上歌颂的事情。

但是假设咱们仔细思考一下,疏忽年夜模子锻炼所需要消耗的弘大软件本钱,正在 pre-LLM 时期,设想浅层模子的时候,引进一点儿特别的模子构造的设想,并非素质易的工作。

关于有着踏实的数理逻辑根底战机械进修素质的工程师来讲,实在对于模子的修模公式截至调解,是优良的算法工程师天然该具备的才气。年夜模子时期屡屡迭代的巨质计较资本,使患上尝试本钱升高,而假设有了「强 KPI」导背的文化包管,实在能够很年夜水平上复原浅层模子时期的模子立异才气。许多时候,可以是人性上对于失利战本钱的怕惧增加了「布朗活动式」的重复,瞅似行动很快,反而低落了立异的迭代服从。咱们既该当浏览承认 DeepSeek 团队的功效,也该当理性天阐发此中值患上进修借鉴之处。那生怕也是 DeepSeek 所得到的功效面前 尔小我私家以为更有代价的工具。因为一代模子手艺总会被新的模子手艺代替。支持那一代模子手艺的AI体系的功效也会被新一代的 AI零碎 的进步交流,但是面前 谁人素质性,纪律性的工具,才是最枢纽的值患上贯串的。因为这才是连结手艺立异突破的源泉。

参照

1.^https://www.linkedin.com/business-manager-api/bzmEnterpriseAccessCookie/posts/yann-lecun_to-people-who-see-the-performance-of-deepseek-activity-7288591087751884800-I3sN

2.^https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf

3.^https://x.com/8teAPi/status/1882836551866204656




🧨奖金翻 4 倍,问题 PK 嗨翻天!🐍蛇年透亮退场,祝知友们「蛇」年年夜凶,「蛇」去运行、「蛇」齐「蛇」好!

一波超年夜新年祸利去袭🎉知乎分离华夏煤油、华夏石化、华夏船舶、中航产业、本神、国专日历和百位知乎问主配合拉出「蛇拿九稳」秋节问题挑战赛,邀您共同「在意过小年」,朋分1000000奖金!

❗1 月 28 日 -  2 月 1 日 过年期间,奖金朋分奖池将增加至本来的 4 倍🎁奖金翻倍,快乐翻倍!

过年去知乎,蛇么皆佳玩!共同「在意过小年」!
面打文终【浏览本文】,直达挑战赛现场!
您需要登录后才可以回帖 登录 | 立即注册 qq_login

本版积分规则

发布主题
阅读排行更多+
用专业创造成效
400-778-7781
周一至周五 9:00-18:00
意见反馈:server@mailiao.group
紧急联系:181-67184787
ftqrcode

扫一扫关注我们

Powered by 职贝云数A新零售门户 X3.5© 2004-2025 职贝云数 Inc.( 蜀ICP备2024104722号 )