💡
原文中文,约7000字,阅读约需17分钟。
📝
内容提要
本文研究了DeepSeek-V3中异常Token的识别与归档,分析了其在大型语言模型中的异常表现。通过自动测试发现,许多Token在特定上下文中无法正常输出,出现碎片化和映射异常等问题。作者希望此研究能激励更多人关注这一领域。
🎯
关键要点
- 本文首次识别与归档DeepSeek中的异常Token,分析其在大型语言模型中的表现。
- 异常Token会引发奇怪行为,无法正常输出,出现碎片化和映射异常等问题。
- DeepSeek-V3的分词器包含大量中文文本,导致处理困难,产生难以解码的碎片。
- 通过自动测试,发现70698个Token中存在异常行为,进行分类和人工探索。
- 碎片类Token在单独出现时无法正确输出,通常只在更长字符串中出现。
- 一些Token在r1模式下表现异常,可能导致模型进入混乱状态。
- 非英文Token中,宿务语和其他菲律宾语言的异常Token数量较多,表现各异。
- 特殊Token如'<|begin▁of▁thinking|>'和'<|end▁of▁thinking|>'在r1模式下触发异常行为。
- 希望此研究能激励更多人关注异常Token的探索,未来将研究其在嵌入空间中的分布和关系。
❓
延伸问答
DeepSeek-V3中的异常Token是什么?
异常Token是指在大型语言模型中引发奇怪行为或无法正常输出的Token。
如何识别DeepSeek-V3中的异常Token?
通过导出分词器词表并对每个Token进行自动测试,观察其是否表现出异常行为。
DeepSeek-V3中异常Token的主要问题是什么?
主要问题包括无法正常输出、出现碎片化和映射异常等。
哪些语言的Token在DeepSeek-V3中表现异常较多?
宿务语和其他菲律宾语言的异常Token数量较多,表现各异。
DeepSeek-V3中的特殊Token有哪些?
特殊Token包括'<|begin▁of▁thinking|>'和'<|end▁of▁thinking|>'等,用于上下文标记。
未来对异常Token的研究方向是什么?
未来的研究方向包括异常Token在嵌入空间中的分布和关系。
➡️