职贝云数AI新零售门户
标题:
DeepSeek识图上线:梁文锋的"选择"有了新答案
[打印本页]
作者:
TG3eX0y
时间:
昨天 22:27
标题:
DeepSeek识图上线:梁文锋的"选择"有了新答案
5天前说不支持多模态,5天后灰度测试识图形式——这不是打脸,是分阶段。
之前写过一篇文章,标题是《DeepSeek V4发布了,为什么还是纯文本?》。
核心结论是:梁文锋选择了先适配国产芯片,牺牲了多模态。
如今看来,这个结论只猜对了一半。
发生了什么
4月24日,DeepSeek V4发布。技术规格写得清清楚楚:纯文本模型,不支持多模态。
当时很多人困惑:别家都在卷多模态,DeepSeek为什么不跟?
4月28日,DeepSeek多模态团队的陈小康发了条推文:"Soon, we see you. 👀"
配图是两只鲸鱼logo,一只戴着"XX"眼罩,一只摘下眼罩。
4月29日,他又发了一条:"Now, we see you."
同一天,DeepSeek网页端上线了"识图形式",标注"图片了解功能内测中"。
从"不支持多模态"到"灰度测试识图",只隔了5天。
梁文锋的选择2
之前我们分析过,DeepSeek V4为什么不做多模态:
是由于政治义务,要用国产芯片,而国产芯片适配曾经吃掉了一切资源。
从CUDA转向华为昇腾,不是简单的迁移,是"从底层架构末尾的换骨"。
梁文锋的取舍很清楚:
资源有限,必须做选择。先证明国产芯片能用,再思索其他。
这个逻辑变了吗?
没有。
那为什么5天后又有识图形式了?
由于国产芯片适配这一关,先迈过去了。
关键不在"做不做",在"什么时分做"
V4发布的时分,很多人以为DeepSeek放弃了多模态。
其实不是放弃,是排队。
梁文锋的优先级很清楚:
国产芯片适配 > 多模态功能。
V4发布意味着什么?意味着国产芯片适配这一关,曾经过了最难的时分。
资源可以释放出来,补其他课。
多模态就是一门要补的课。
为什么多模态这门课必须补?
不是跟风,是真需求。
V4发布稿里,DeepSeek把Agent才能作为三个核心卖点之一。
但纯文本Agent有下限。
举个例子:
你让Agent帮你操作阅读器,它看不到屏幕,怎样操作?
你让Agent帮你读一份PDF报告,它看不到图表,怎样了解?
你让Agent帮你分析一张截图,它看不到图片,怎样处理?
没有视觉了解,Agent就是残废的。
所以识图才能不是"如虎添翼",是Agent才能的"入场券"。
DeepSeek的识图有什么不一样?
这个值得多说几句。
传统的OCR是“读文字”,辨认图片里的字,输入出来。
DeepSeek的识图形式是“读画面”,了解图片的语义,输入分析。
有个实测案例:
有人上传了一张"慵懒风躺姿"的照片。
DeepSeek不是简单说"这是一张人像照片"。
它是这样思索的:
先拆解画面,地位、姿态、头发、着装、光影。
然后自我修正,“能够是淑女姿态”、“能够是忧郁自拍”,不对,这些都不能完全涵盖,“慵懒氛围感姿态”才是最准确的描画。
最后辨认文明语境,这是小红书、抖音上常见的“清冷氛围感姿态”。
最关键的是"自我修正"这一步。
模型会先列出几种能够的解读,再判别哪个最能解释一切细节。
这不是在"辨认",是在"了解"。
梁文锋的选择还在继续
之前那篇文章,我们说梁文锋选择了"先适配国产芯片,再补其他"。
如今看,这个判别是对的。
但他还有一个选择:灰度测试,不高调发布。
没有发布会,没有宣传,就是一个小范围的灰度,标注"内测中"。
这是梁文锋一向的风格,先做出来,让用户试,好用了再说。
还有一个选择没定:开源还是闭源?
DeepSeek一向开源。
但思索到正在以超过200亿美元估值寻求融资,这个选择能够有变化。
开源意味着技术外溢,闭源意味着护城河。
这次识图形式的模型,会不会开源?
这个信号值得关注。
回到那个成绩:梁文锋变了吗?
没有。
V4发布时不做多模态,是由于资源被国产芯片适配占满了。
如今做,是由于适配这一关先过了。
先做什么后做什么,这个优先级从来没变。
梁文锋的选择逻辑很清楚:
资源有限,必须取舍。先过国产芯片这一关,再补多模态这门课。
5天前说不支持,5天后灰度测试,这不是"反复",是"分阶段"。
这门课补上之后呢?
DeepSeek的Agent才能终于残缺了。
之前只能处理文本,如今能看图、读截图、了解界面。
和Claude Code竞争,也有了基础。
国产大模型的多模态竞争,又多了一个玩家。
梁文锋的"选择",还在继续。
你怎样看DeepSeek这次识图上线?
评论区聊聊!
点个"在看",让更多关注国产AI的冤家看到。 👇
欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/)
Powered by Discuz! X3.5