DeepSeek-V3 与 r1 中的异常 Token [译]

DeepSeek-V3 与 r1 中的异常 Token [译]

💡 原文中文,约7000字,阅读约需17分钟。
📝

内容提要

本文研究了DeepSeek-V3中异常Token的识别与归档,分析了其在大型语言模型中的异常表现。通过自动测试发现,许多Token在特定上下文中无法正常输出,出现碎片化和映射异常等问题。作者希望此研究能激励更多人关注这一领域。

🎯

关键要点

  • 本文首次识别与归档DeepSeek中的异常Token,分析其在大型语言模型中的表现。
  • 异常Token会引发奇怪行为,无法正常输出,出现碎片化和映射异常等问题。
  • DeepSeek-V3的分词器包含大量中文文本,导致处理困难,产生难以解码的碎片。
  • 通过自动测试,发现70698个Token中存在异常行为,进行分类和人工探索。
  • 碎片类Token在单独出现时无法正确输出,通常只在更长字符串中出现。
  • 一些Token在r1模式下表现异常,可能导致模型进入混乱状态。
  • 非英文Token中,宿务语和其他菲律宾语言的异常Token数量较多,表现各异。
  • 特殊Token如'<|begin▁of▁thinking|>'和'<|end▁of▁thinking|>'在r1模式下触发异常行为。
  • 希望此研究能激励更多人关注异常Token的探索,未来将研究其在嵌入空间中的分布和关系。

延伸问答

DeepSeek-V3中的异常Token是什么?

异常Token是指在大型语言模型中引发奇怪行为或无法正常输出的Token。

如何识别DeepSeek-V3中的异常Token?

通过导出分词器词表并对每个Token进行自动测试,观察其是否表现出异常行为。

DeepSeek-V3中异常Token的主要问题是什么?

主要问题包括无法正常输出、出现碎片化和映射异常等。

哪些语言的Token在DeepSeek-V3中表现异常较多?

宿务语和其他菲律宾语言的异常Token数量较多,表现各异。

DeepSeek-V3中的特殊Token有哪些?

特殊Token包括'<|begin▁of▁thinking|>'和'<|end▁of▁thinking|>'等,用于上下文标记。

未来对异常Token的研究方向是什么?

未来的研究方向包括异常Token在嵌入空间中的分布和关系。

➡️

继续阅读