开启左侧

DeepSeek V3.1出缺点了?惊现奥秘「极」字Bug

[复制链接]
在线会员 DDeEB0 发表于 2025-9-1 06:53:11 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题 |快速收录
引自机械之心
DeepSeek 近来启源了新的根底模子,但是没有是万寡等候的 V4,而是 V3.1-Base,而更早时候,DeepSeek-V3.1 便已经上线了其网页、App 端战女伶 href="https://www.taojin168.com/cloud/" target="_blank">小法式

颠末那好未几一周时间的实合用户尝试,DeepSeek-V3.1 却被发明存留一个相称让人无语的成就:其某些输出 token 会被随机交流为「极」。

具体来讲,据知乎用户 Fun10165 描绘,她正在挪用水山引擎版 DeepSeek V3.1 辅佐收拾整顿一份物理试卷时发明,该模子的输出中会莫名呈现一点儿「极」字。

DeepSeek V3.1有缺面了?惊现奥妙「极」字Bugw2.jpg

图源:知乎 @Fun10165

然后里正在 Trae 中尝试 DeepSeek-V3.1 时也异常呈现了那个成就。

故意思的是,她借测验考试了挪用民间 API 建设那个成就。成果,正在建设的过程当中又呈现了那个成就。

DeepSeek V3.1有缺面了?惊现奥妙「极」字Bugw3.jpg

图源:知乎 @Fun10165

她暗示:「真测,民间网页 / API 能复现,几率没有下,但是多试几回就可以进去。VolcEngine API 复现几率十分下。」

帖子下圆,也有一点儿其余用户分享了类似的发明。

好比知乎用户「来船埠整面薯条」分享道 R1 也存留类似的成就,他借简朴料想了启事:「使用 R1 0528 的时候便碰到了许多次,尔察看到的征象更离谱,会正在代码里面拔出 “极客园”,并且碰到不只一次,疑心是否是进修的时候吃进去了甚么电子火印吃坏肚子了。」

知乎用户「琪洛」则发明 V3-0324 也存留类似成就,只不外那一次输出的是「极速赛车启奖曲播」字符串。

DeepSeek V3.1有缺面了?惊现奥妙「极」字Bugw4.jpg

图源:知乎 @琪洛

她料想讲:「疑心可以数据出洗洁净,即使从头训了 base 那个成就仍是留住了,题主战其余答复所述「极」战「极速」可以即是那个词汇的残存陈迹。」

而正在 Reddit 上,相干话题也邪被强烈热闹会商中。

收帖者用户 u/notdba 暗示,正在尝试 DeepSeek V3.1 时,他发明模子会莫名天正在某些意料以外的职位输出以下 token:

    extreme (id:15075)

    极 (id:2577)

    極 (id:16411)

很明显,那仨皆是统一个词汇。

他持续描绘到,除那 3 种「极」 token 正在贪婪解码中成为尾选的情况以外,那些「极」 token 也经常正在其余预想没有到之处埋伏为第两或者第三挑选。

他道:「尔已经对于统统流行的编码模子皆干过异常的评介,那是尔第一次碰到这类成就。」

他的推测是该成就可以会被 MTP(多 token 猜测)袒护,而且当拉理仓库没有撑持 MTP 时便会变患上越发清楚,好比 llama.cpp 便借没有撑持 MTP。那个料想的公道的地方正在于撑持 MTP 的 DeepSeek 民间 API 更不易碰到这类情况,而第三圆布置的共款模子则更易呈现那个成就。

用户 u/nekofneko 则分享了另外一个案例:

DeepSeek V3.1有缺面了?惊现奥妙「极」字Bugw5.jpg

图源:Reddit u/nekofneko

他给出的可以注释是:「极」的 token 是 2577,而简略号「...」的 token 是 2576。那二者可以被模子混合了。

借不但是「极」,也有效户发明 DeepSeek-V3.1 借存留多语言混用的成就,u/Kitano_o 分享道:「尔使用 3.1 从华文翻译成俄语时,碰到一点儿奇特的举动。它开端混淆多种语言 —— 增加英文词汇,也留住些华文词汇。偶然那些成就会占到文原的 5%,偶然只占 1%,以至 0%。并且使用 OpenRouter 的差别供给商城市呈现那个成就,即使尔使用 DeepSeek 动作供给商也会。」

DeepSeek V3.1有缺面了?惊现奥妙「极」字Bugw6.jpg

图源:Reddit u/Kitano_o

整体而行,关于 DeepSeek-V3.1 那个能够道相称严峻的成就的启事,网友给出的推测更多仍是「数据净化」。

好比阶跃星辰黄哲威暗示:「尔觉得是自己 sft 数据分解以至是机关预锻炼数据的时候出洗洁净引进了 “极少的数组” 这类怪工具(从 R1 的举动瞅,仿佛大批使用了 RAG办法 去制困难的解问),而后 RL 的时候模子间接把那个字当某种停止符大概语言切换标识表记标帜使用了。」

DeepSeek V3.1有缺面了?惊现奥妙「极」字Bugw7.jpg

图源:知乎 @hzwer 黄哲威

他借提到:「实在拉理出 bug,大要率皆是数据成就,许多人皆明白。不过 R1 的别的 bug 不这样下频发作,社区没有太存眷罢了。」

此次工作也给统统模子开辟者敲响了警钟:正在寻求更下功用的 AI 模子时,最根底的数据品质,才是决定 AI 可否会「举动非常」的枢纽。

咱们也把相干工作收收给了 DeepSeek 原尊,让它阐发了一下可以的启事:

高低滚动检察
您碰到过那个成就吗?以为可以的启事是甚么?

参照链交

https://www.zhihu.com/question/1942934856603505597

https://www.reddit.com/r/LocalLLaMA/co妹妹ents/1mzsg6v/deepseek_v31_getting_token_extreme_%E6%9E%81_%E6%A5%B5_out_of/?rdt=36282
您需要登录后才可以回帖 登录 | 立即注册 qq_login

本版积分规则

发布主题
阅读排行更多+
用专业创造成效
400-778-7781
周一至周五 9:00-18:00
意见反馈:server@mailiao.group
紧急联系:181-67184787
ftqrcode

扫一扫关注我们

Powered by 职贝云数A新零售门户 X3.5© 2004-2025 职贝云数 Inc.( 蜀ICP备2024104722号 )