DEV Community ·

超越Logits：语言建模中的三元民主崛起

💡 原文英文，约1300词，阅读约需5分钟。

📝

内容提要

现代语言模型在标记预测中存在缺陷，庞大的softmax层导致架构臃肿且易出错。引入三元编码（tribits）可以提升模型的表达能力和容错性，克服传统token化的局限，增强模型的鲁棒性和可解释性，标志着后softmax时代的到来。

🎯

🔎

三元编码（tribits）通过将每个token表示为多个神经元的投票结果，显著提升了模型的表达能力和容错性。这种方法不仅增加了信息容量，还允许模型在面对噪声时依然能够做出正确的预测，展示了其在语言建模中的潜力。

随着三元编码的引入，语言模型的设计将进入后softmax时代。这一转变意味着模型将更加高效，能够处理更复杂的语言结构，同时减少对庞大softmax层的依赖，提升了模型的可解释性和鲁棒性。

采用三元编码的模型设计不仅在参数数量上更为精简，还能通过冗余和分布式投票机制提高容错能力。这种新方法可能会改变未来语言模型的构建方式，使其在处理复杂语言任务时更加灵活和高效。

❓

现代语言模型的标记预测依赖庞大的softmax层，导致架构臃肿且易出错，且需要记忆超过50,000个离散类的映射。

三元编码（tribits）通过将标记表示为多个神经元的投票结果，提升了模型的表达能力和容错性，克服了传统token化的局限。

三元编码显著增加了容量，每个额外的tribit携带更多信息，允许模型编码更多的输出，提升了表达能力和错误容忍度。

三元编码的冗余容量允许模型编码多个正确输出，即使部分神经元投票受到干扰，仍能正确解析。

三元编码重新定义了“预测一个token”的含义，通过小型民主决策而非单一的softmax输出，提供了更好的可解释性和容错性。

后softmax时代的语言模型设计将更加高效、快速且对小的推理噪声几乎免疫，采用更小的输出头和更好的可解释性。

🏷️