职贝云数AI新零售门户
标题:
DeepSeek V3.1出缺点了?惊现奥秘「极」字Bug
[打印本页]
作者:
DDeEB0
时间:
2025-9-1 06:53
标题:
DeepSeek V3.1出缺点了?惊现奥秘「极」字Bug
引自机器之心
DeepSeek 最近开源了新的基础模型,但不是万众等待的 V4,而是 V3.1-Base,而更早时分,DeepSeek-V3.1 就曾经上线了其网页、App 端和小程序。
经过这差不多一周工夫的真适用户测试,DeepSeek-V3.1 却被发现存在一个相当让人无语的成绩:其某些输入 token 会被随机交换为「极」。
详细来说,据知乎用户 Fun10165 描画,她在调用火山引擎版 DeepSeek V3.1 协助整理一份物理试卷时发现,该模型的输入中会莫名出现一些「极」字。
(, 下载次数: 0)
上传
点击文件名下载附件
图源:知乎 @Fun10165
而后面在 Trae 中测试 DeepSeek-V3.1 时也异样出现了这个成绩。
有意思的是,她还尝试了调用官方 API 修复这个成绩。结果,在修复的过程中又出现了这个成绩。
(, 下载次数: 0)
上传
点击文件名下载附件
图源:知乎 @Fun10165
她表示:「实测,官方网页 / API 能复现,概率不高,但多试几次就能出来。VolcEngine API 复现概率非常高。」
帖子下方,也有一些其他用户分享了相似的发现。
比如知乎用户「去码头整点薯条」分享说 R1 也存在相似的成绩,他还简单猜想了缘由:「运用 R1 0528 的时分就遇到了很多次,我观察到的现象更离谱,会在代码外面插入 “极客园”,而且遇到不止一次,怀疑是不是学习的时分吃出来了什么电子水印吃坏肚子了。」
知乎用户「琪洛」则发现 V3-0324 也存在相似成绩,只不过这一次输入的是「极速赛车开奖直播」字符串。
(, 下载次数: 0)
上传
点击文件名下载附件
图源:知乎 @琪洛
她猜想道:「怀疑能够数据没洗干净,即便重新训了 base 这个成绩还是留下了,题主和其他回答所述「极」和「极速」能够就是这个词的残余痕迹。」
而在 Reddit 上,相关话题也正被热烈讨论中。
发帖者用户 u/notdba 表示,在测试 DeepSeek V3.1 时,他发现模型会莫名地在某些预料之外的地位输入如下 token:
extreme (id:15075)
极 (id:2577)
極 (id:16411)
很显然,这仨都是同一个词。
他继续描画到,除了这 3 种「极」 token 在贪心解码中成为首选的状况之外,这些「极」 token 也常常在其他意想不到的地方潜伏为第二或第三选择。
他说:「我曾经对一切盛行的编码模型都做过异样的评价,这是我第一次遇到这种成绩。」
他的猜测是该成绩能够会被 MTP(多 token 预测)掩盖,并且当推理堆栈不支持 MTP 时就会变得愈加分明,比如 llama.cpp 就还不支持 MTP。这个猜想的合理之处在于支持 MTP 的 DeepSeek 官方 API 更不容易遇到这种状况,而第三方部署的同款模型则更容易出现这个成绩。
用户 u/nekofneko 则分享了另一个案例:
(, 下载次数: 1)
上传
点击文件名下载附件
图源:Reddit u/nekofneko
他给出的能够解释是:「极」的 token 是 2577,而省略号「...」的 token 是 2576。这两者能够被模型混淆了。
还不只是「极」,也有用户发现 DeepSeek-V3.1 还存在多言语混用的成绩,u/Kitano_o 分享说:「我运用 3.1 从中文翻译成俄语时,遇到一些奇异的行为。它末尾混合多种言语 —— 添加英文词,也留下些中文词。有时这些成绩会占到文本的 5%,有时只占 1%,甚至 0%。而且运用 OpenRouter 的不同提供商都会出现这个成绩,即便我运用 DeepSeek 作为提供商也会。」
(, 下载次数: 1)
上传
点击文件名下载附件
图源:Reddit u/Kitano_o
总体而言,对于 DeepSeek-V3.1 这个可以说相当严重的成绩的缘由,网友给出的猜测更多还是「数据污染」。
比如阶跃星斗黄哲威表示:「我以为是本身 sft 数据合成甚至是构造预训练数据的时分没洗干净引入了 “极长的数组” 这种怪东西(从 R1 的行为看,似乎大量运用了 RAG 方法来造难题的解答),然后 RL 的时分模型直接把这个字当某种终止符或者言语切换标记运用了。」
(, 下载次数: 1)
上传
点击文件名下载附件
图源:知乎 @hzwer 黄哲威
他还提到:「其实推理出 bug,大概率都是数据成绩,很多人都知道。只是 R1 的其它 bug 没有这么高频发生,社区不太关注而已。」
这次事情也给一切模型开发者敲响了警钟:在追求更高功能的 AI 模型时,最基础的数据质量,才是决议 AI 能否会「行为异常」的关键。
我们也把相关事情发送给了 DeepSeek 本尊,让它分析了一下能够的缘由:
上下滑动查看
你遇到过这个成绩吗?觉得能够的缘由是什么?
参考链接
https://www.zhihu.com/question/1942934856603505597
https://www.reddit.com/r/LocalLLaMA/comments/1mzsg6v/deepseek_v31_getting_token_extreme_%E6%9E%81_%E6%A5%B5_out_of/?rdt=36282
欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/)
Powered by Discuz! X3.5