土法炼钢兴趣小组的博客 ·

【Transformer 与注意力机制】59｜推理退化：为什么大模型会输出乱码、死循环和无意义文本

💡 原文中文，约12100字，阅读约需29分钟。

📝

内容提要

本文探讨了大语言模型在推理阶段的退化现象，如死循环和乱码等问题。退化源于自回归Transformer的注意力机制和数值精度，导致输出失控。文章分析了退化的数学根源、表现形式及其机制，并提出了多层防御策略，包括架构设计、数值工程和解码策略，以提高模型在生产环境中的稳定性。

🎯

🔎

大语言模型在推理阶段的退化现象并非模型质量问题，而是自回归Transformer结构的固有特性。注意力机制、Causal Mask和数值精度的正反馈回路使得微小的偏差在生成过程中被放大，导致输出失控。理解这一机制对于优化模型的稳定性至关重要。

为了解决推理退化问题，文章提出了多层防御策略，包括架构设计、数值工程和解码策略的优化。这些策略从根本上减少了模型在推理时的脆弱性，确保在生产环境中能够更稳定地运行。

解码策略在推理退化中扮演着重要角色。贪婪解码虽然简单，但容易导致循环输出，而Top-P和Top-K采样则提供了更多的随机性，有助于打破循环。选择合适的解码策略可以有效降低退化风险。

❓

大语言模型在推理阶段可能出现死循环、乱码和无意义文本等现象。

注意力机制、Causal Mask和数值精度形成正反馈回路，微小偏差被放大，导致输出失控。

贪婪解码会锁定小概率偏差，形成自增强循环，使得模型不断重复同一词或句。

可以通过引入专用的sink token和滑动窗口注意力等方法来减少注意力坍塌的风险。

使用FP16/BF16精度时，可能导致数值溢出，进而引发NaN或Inf的扩散，影响推理稳定性。

可以采取多层防御策略，包括架构设计、数值工程和解码策略的优化，以提高模型稳定性。

🏷️