宝玉的分享 ·

DeepSeek-V3 与 r1 中的异常 Token [译]

💡 原文中文，约7000字，阅读约需17分钟。

📝

内容提要

本文研究了DeepSeek-V3中异常Token的识别与归档，分析了其在大型语言模型中的异常表现。通过自动测试发现，许多Token在特定上下文中无法正常输出，出现碎片化和映射异常等问题。作者希望此研究能激励更多人关注这一领域。

🎯

🔎

DeepSeek-V3中的异常Token可能导致模型输出不稳定，影响其在实际应用中的可靠性。这些Token在特定上下文中表现异常，可能会引发意想不到的结果，尤其是在处理多语言文本时，开发者需特别关注这些潜在问题。

由于DeepSeek-V3的训练数据中包含大量中文文本，分词器在处理中文时面临字节切分的问题，导致生成难以解码的碎片。这一现象提醒研究者在设计语言模型时，需考虑不同语言的特性，以提高模型的整体表现。

作者希望本研究能激励更多人关注异常Token的探索，未来的研究可以集中在这些Token在嵌入空间中的分布和关系上。这将有助于深入理解模型的行为，并可能为改进模型的设计提供新的思路。

❓

异常Token是指在大型语言模型中引发奇怪行为或无法正常输出的Token。

通过导出分词器词表并对每个Token进行自动测试，观察其是否表现出异常行为。

主要问题包括无法正常输出、出现碎片化和映射异常等。

宿务语和其他菲律宾语言的异常Token数量较多，表现各异。

特殊Token包括'<｜begin▁of▁thinking｜>'和'<｜end▁of▁thinking｜>'等，用于上下文标记。

未来的研究方向包括异常Token在嵌入空间中的分布和关系。

🏷️