职贝云数AI新零售门户

标题: DeepSeek 模型25年下半年更新前瞻 [打印本页]

作者: NWI    时间: 4 天前
标题: DeepSeek 模型25年下半年更新前瞻

“本文内容基于公开信息与个人推理,仅供参考,非 DeepSeek 官方声明。”

之所以动笔写这篇文章,源于一同 AI 圈经典的“出口转外销”闹剧。

往年 4 月底,不知哪家海外媒体扒拉到国内炒股社区的一篇DeepSeek写的、预测DeepSeek r2更新的、内容离谱程度曾经打破当后人类科技下限的ai文,结果不只当了真,还当成“第一手爆料”大肆宣发。更讽刺的是,这条分明未经核实的内容很快又被国内 AI 媒体当作“外媒报道”原路带回,完成了完美的信源闭环。

6月2日,《南风窗》居然把这玩意当作“各方泄漏”的牢靠信息,堂而皇之写进本人文章里——令人忍俊不由。

(, 下载次数: 0)

6月5日最新音讯:摩根士丹利也干了!

(, 下载次数: 0)

What can i say?

人类就是这么草台班子,假旧事转一圈大家互相转载互相印证就可以变成多方交叉核验的牢靠信源。

时无英雄,使竖子成名。

如今我也来“预测”一次,尝试结合当前业内研发节拍与 DeepSeek 既有的发布规律,对其 2025 下半年模型停顿做一份不严肃但尽量靠谱的前瞻。

一、火鸡迷信家:DeepSeek 模型的研发&发布节拍

深度求索不愧为幻方旗下的究极理工科公司,在整个大模型行业里,他们能够是最讲节拍感的一家。大家能够曾经感遭到他们发新模型的频率非常波动:差不多每两个月就得整点动静。而且不是光有动静,更新还真的有条不紊:两轮小版本热身,接着一个大版本换代,这个“2小1大”规律,从 2024 年年终一路沿用到如今。

以下我们按工夫线盘一下 DeepSeek 模型的次要发布节拍:

从 V2 末尾,DeepSeek 基本维持“两个月一大更”的节拍,每个主版本之间都穿插两轮小版本热身或专项模型补强(如 V2 Chat 的 0517 / 0628,Coder 的 0614 / 0724),2024 年 9 月正式完成 Chat / Code 道路交融,最终以 V2.5-1210 封顶,随后迅速过渡到 V3 与 R1 世代,迄今节拍依旧如一。

所以,我们可以先扮演一下火鸡迷信家,纯从发布节拍角度揣测一下 DeepSeek 后续的停顿:

首先,假如沿用“两个月一次大更 + 中间热身小版本”的节拍推理,那 2025 年 7 月,很能够会迎来 V3.5 的发布。

而 V3.5 相比 V3,大概率将成为一次“结构优化 + 才能扩展”的过渡版本,最有能够引入的,是多模态才能:比如图文对话、网页截图了解,甚至代码可视化与图形化推理等特化才能——这正是目前一切主流模型发力的方向,如o3和Gemini 2.5 Pro故事,DeepSeek 若要维持竞争态势,必须在这条线上补全短板。

接着,大概在 9 月份左右,应该会出现 DeepSeek 两条道路的同步晋级——
即:

假如这个推演成立,那么我们有理由等待:

二、目前大模型科研的方向浅析

假如说 DeepSeek 本身的发布节拍是其将来计划的“内因”,那么整个行业的技术发展趋向,则是不可忽视的“外因”。当前大模型范畴的科研方向,曾经非常明晰地聚焦在如何让模型“更好用”、“更无能活”上。
1. 以 o3 为代表的 Agentic 模型发力:大模型走向适用的必由之路

“Agentic” 这个词,近一年来在 AI 圈的热度持续走高。简单来说,Agentic AI 指的是那些不只仅能了解和生成内容,更能自主规划、执行复杂义务、并与环境动态交互的 AI 系统。它们具有一定程度的自我导向和决策才能,可以为了达成特定目的而自动调用工具、访问数据库、甚至与其他 AI 或人类协作。Agentic AI 之所以成为兵家必争之地,根本缘由在于它是大模型真正落地到产业化、工程化运用的必经之路。

OpenAI在2025年4月正式发布o3模型,被以为是 Agentic AI 的一个重要里程碑。o3 的核心特点在于其弱小的 “工具运用”才能和“链式思索”才能。在执行义务时,o3可以自动分析义务需求,自主决议调用哪些工具(例如网络搜索、代码执行、图像生成等),并经过多步骤的推理来完成复杂义务。

OpenAI 甚至提到,o3 可以在一次运转中执行超过 600 次工具调用来处理特别具有应战性的义务。这种才能使得 o3 在处理需求多方面分析、答案并非不言而喻的复杂查询时表现尤为出色。

在国内,阿里巴巴的Qwen 3系列模型在其发布时就明白强调了其先进的 Agent 才能。Qwen3 可以准确地与外部工具停止交互,无论是在其“思索形式”(用于复杂逻辑推理、数学和编码)还是“非思索形式”(用于高效的通用对话)下,都能在复杂的 Agent 驱动义务中达到开源模型的抢先程度。
2. 以 Gemini 2.5 Pro 为代表的多模态推理模型:更接近人类的交互与了解

假如说 Agentic AI 处理了模型“如何做事”的成绩,那么多模态推理模型则着重于模型“如何了解世界”以及“如何与我们交互”的成绩。

Google 在 2025 年终发布的 Gemini 2.5 Pro,在多模态才能上展现了令人印象深入的停顿。它不只仅能处理文本,还能原生了解和处理图像、音频、视频等多种信息模态。这意味着你可以直接向 Gemini 2.5 Pro 输入视频,并获得结构化的输入,而无需手动停止中间步骤或切换模型——这种跨模态的一致了解才能,使得 AI 更接近人类感知和交互的方式。

目前Gemini 2.5 Pro也是社区公认的真全能模型,可谓高性价比六边形战士

三、跳大神工夫到!

假如说后面两部分还算有板有眼、数据充分,那么接上去我们要进入的环节,就纯属信口开河 + 玄学推演 + 大胆假设,小心求证了。

这部分就纯属是我参考 DeepSeek 过去的发布节拍、公开发言中的蛛丝马迹、行业竞品的演进趋向,再加上点人类写手的直觉 + 八卦 + 社区心情嗅觉,试图“料事如神”一下 2025 年底之前 DeepSeek 能够还会整出哪些幺蛾子。

以下内容不保证正确,只保证离谱中带点合理,也欢迎大家看完之后自行打脸,或者半年后回来复读——就当是 AI 圈的星象占卜了。
1.DeepSeek V3.5 的目的能够会完成多模态 & 全模态推理

多模态很棒,因此值得一次中版本晋级;
单纯的多模态更新又似乎不值得以 AGI 为目的的 DeepSeek 单开一个大版本号——所以我悍跳:

V3.5 很能够将作为一次“通向全模态了解”的关键跳板。在这个阶段,DeepSeek 有望初次引入原生的图像处理才能,支持图片输入、图文对话、表格辨认等功能,逐渐补齐与 GPT-4o、Gemini 2.5 Pro 等竞品在交互模态上的差距。

除此之外,v3.5能够还会跟Qwen3那样支持自动&手动选择能否开启思索推理形式,支持调整推理预算。
2. Agentic 才能加强:思想链内的模型调用,迈向“执行力强”的AI助手

在 V3.5 或后续版本中,我猜测 DeepSeek 有能够末尾显性加强 Agentic 才能,其关键点就在于——支持思想链(CoT, Tree-of-Thoughts)外部的动态模型调用与工具调度,提升全体义务完成速度与执行表现。

换句话说,将来的 DeepSeek 模型很能够会不只“本人思索”,而且“知道该什么时分调用谁来帮忙”。

这种演进趋向在 o3 身上曾经有了明晰表现:经过嵌套式的推理结构,模型可以在思索过程中动态决策能否中缀当前流程、调用外部工具(如代码执行器、搜索引擎、函数库),再将结果引入当前上下文继续推理。
3.超长上下文探求

假如说多模态和 Agentic 才能是模型“才能广度”和“执行深度”的拓展,那么超长上下文技术则是支撑这一切的底层基础设备,更是将来构建更复杂、更智能 AI 系统的基石。 我在博客《浅谈ChatGPT的记忆完成机制 兼论工程端记忆设计》[https://www.lapis.cafe/posts/technicaltutorials/chatgpt-memory-system-breakdown/]就曾经解释过模型记忆机制和上下文管理的重要性,因此就不在这里赘述。

我们曾经看到,无论是 Google 的 Gemini 2.5 Pro 还是 OpenAI 的 GPT-4.1,都在不遗余力地扩展模型的上下文窗口。Gemini 2.5 Pro 曾经支持高达 100 万 token 的上下文窗口,并计划很快扩展到 200 万;GPT-4.1 异样将上下文窗口提升到了 100 万 token。

开源社区做了很大有益探求的还有我们的 Minimax-01 模型

只要拥有了处理海量信息的才能,DeepSeek 的模型才能在更复杂的义务中游刃不足,真正成为可以了解世界、处理成绩的智能体。当然,超长上下文也带来了新的技术应战,例如如何保持模型在长序列中的留意力、如何有效降低计算成本和推理延迟等。但正如 DeepSeek 在其 R1 模型中展现出的创新才能(如经过强化学习激励推理才能),我们有理由置信,这家以技术见长的公司,有才能在超长上下文这个关键范畴再次带来惊喜。
4. 进一步“降本增效”:昇腾集群上的训练调优 + 小型 MoE 模型补位

DeepSeek 作为目前最坚定拥抱昇腾集群的头部模型厂商之一,早在 R1 阶段就曾经末尾将核心模型推理管线部署到昇腾系统之上,构成异构算力环境下的高效推理流程。接上去,降本增效势必会成为其下一阶段优化重心之一。

从目前趋向来看,昇腾的最大价值并不在于功能赶上黄卡,而是在于“足够好 + 足够便宜 + 足够多”。尤其在推理场景中,在美帝封锁曾经到悲天悯人,模型功能已趋波动的前提下,华卡提供的算力完全可以胜任绝大多数商业级调用需求。

换句话说,昇腾最大的意义在于让“客户侧推理”不再耗费珍贵的 NVIDIA 训练卡资源。

过去,大模型厂商在应对海量推理央求时,往往不得不动用与训练共用的 GPU 集群,形成高昂的资源占用与调度冲突。而如今,经过将推理管线外包到昇腾集群,大模型公司得以 “集中力气办大事”:将 A100 / H100 等昂贵资源彻底回归训练主线,片面加速基础模型的退化节拍。

在这种趋向下,我们有理由置信 DeepSeek 会:
5.更长、更波动且多线程的编程 Agent 框架研发(但大概率不会由 DeepSeek 亲身主导)

其实这一块有点凑数的味了,毕竟从 DeepSeek 一向的风格来看,他们并没有太大志愿去做复杂系统的工程封装,也鲜少在社区或发布会(假如官网发个通告也算的话)上强调 Agent 框架、插件生态、IDE 插件集成这些开发体验相关的内容。

但这不代表 DeepSeek 会在这一赛道上彻底出席。随着业界逐渐从“能写代码”向“能写能改能跑”的多线程 AI 编程助手过渡,模型本身的结构和才能边界也需求配套晋级。就目前趋向来看,DeepSeek 至少会在以下几个维度提供潜在支撑:

DeepSeek 能够不会亲身去造 IDE,但它会造出可以被 IDE 驱动的强模型;不会去做残缺的 Agent 运转框架,但它会在底层提供更合适被封装成 Agent 的模型。在 Jules、Codex、Windsurf、Cursor 等产品把“AI 工程助手”这条路铺通之后,DeepSeek 将来假如希望其模型参与企业级运用,迟早也得提供一条通向“能用”的高速通道。

四、最后再骂一嘴炒股社区

炒股社区是我这辈子见过中老登最多、最傲慢、讨论质量最低的社区之一。你很难在别的地方看到这么多既缺乏基本理想判别才能、又习气用“我看你这样就不懂”启齿的中年人类,在大模型、芯片、算力、AI训练架构等完全不属于他们认知温馨区的范畴里,侃侃而谈、信口开河,散播着一堆似是而非、但由于语气自信而极具误导性的观点。

最讽刺的是,他们很多人其实根本不懂本人在说什么,但照旧能把谣言传成“共识”,还能顺带编出几条股价逻辑链自相矛盾。

你永远不知道一条“DeepSeek片面采用昇腾集群停止训练”、“xxx传要在美国要上市”的假旧事,会从哪个贴子冒出来,又会在多短工夫内被转到什么公众号里变成“知情人士泄漏”。而当你追溯源头时,却发现整个链条的终点,是一篇用大模型写的预测贴。

当然,他们也不会觉得有什么成绩。对炒股社区而言,一切信息都只服务于一个目的:讲一个能让人抬轿的故事。至于那个故事本身是真是伪、有没有技术根据、有没有人真在干活,谁在乎呢?

也正因如此,我觉得写这篇文章是有点意义的。在一个真假信息混杂、专家话语失效、热钱和短线心情主导讨论的时代,哪怕只是稍微把节拍理清楚、逻辑讲明白,也不失为一种小小的抵抗。




欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/) Powered by Discuz! X3.5