小红花·文摘

本文探讨了大语言模型在推理阶段的退化现象，如死循环和乱码等问题。退化源于自回归Transformer的注意力机制和数值精度，导致输出失控。文章分析了退化的数学根源、表现形式及其机制，并提出了多层防御策略，包括架构设计、数值工程和解码策略，以提高模型在生产环境中的稳定性。