热议!DeepSeek V3.1惊现神秘「极」字Bug,模型故障了?

文章摘要
【关 键 词】 DeepSeek、模型Bug、数据污染、社区热议、数据质量
DeepSeek 最新的 V3.1 模型上线不到一周,因离奇 Bug 引发社区热议。该模型无论执行写代码还是整理物理试卷等任务,都会莫名其妙在文本中插入「极」字,甚至在自我修复时也无法避免。
上周三,DeepSeek 开源新的基础模型 V3.1 – Base,此前 DeepSeek – V3.1 已上线网页、App 端和小程序。经过近一周真实用户测试,其问题逐渐暴露。知乎用户 Fun10165 调用火山引擎版 DeepSeek V3.1 整理物理试卷时,发现输出中会莫名出现「极」字,在 Trae 中测试及调用官方 API 修复时同样出现该问题。她表示官方网页 / API 复现概率不高,但多试几次能出现,VolcEngine API 复现概率非常高。
帖子下方其他用户也分享了类似发现。知乎用户「去码头整点薯条」称 R1 会在代码里插入「极客园」;用户「琪洛」发现 V3 – 0324 会输出「极速赛车开奖直播」字符串,她怀疑数据没洗干净。在 Reddit 上,相关话题也在热烈讨论。用户 u/notdba 测试 DeepSeek V3.1 时,发现模型会莫名输出「extreme」「极」「極」,且这些 token 常潜伏为第二或第三选择,他猜测问题可能被 MTP 掩盖,不支持 MTP 时更明显。用户 u/nekofneko 认为「极」和省略号的 token 可能被模型混淆。
此外,还有用户发现 DeepSeek – V3.1 存在多语言混用问题,如 u/Kitano_o 使用其进行中文到俄语翻译时,会混合英文、中文词。网友对问题原因猜测多为「数据污染」,阶跃星辰黄哲威认为是数据合成或构造预训练数据时没洗干净,模型把该字当终止符或语言切换标记使用。
这次事件给所有模型开发者敲响警钟,在追求高性能 AI 模型时,最基础的数据质量才是决定 AI 是否「行为异常」的关键。
原文和模型
【原文链接】 阅读原文 [ 1306字 | 6分钟 ]
【原文作者】 机器之心
【摘要模型】 doubao-1-5-pro-32k-250115
【摘要评分】 ★★★☆☆