科学空间|Scientific Spaces ·

低精度Attention可能存在有偏的舍入误差

💡 原文中文，约6000字，阅读约需15分钟。

📝

内容提要

本文分析了论文《Why Low-Precision Transformer Training Fails: An Analysis on Flash Attention》中低精度Attention计算的偏差问题，指出低精度运算导致的舍入误差可能引发MaxLogit爆炸等训练异常。作者提出通过调整计算公式消除偏差，并探讨注意力集中对训练崩溃的影响。

🎯

关键要点

本文分析了低精度Attention计算的偏差问题，指出舍入误差可能导致训练异常。
低精度计算下的偏差可能引发MaxLogit爆炸和Loss Spike等问题。
论文提出通过调整计算公式消除偏差，建议使用'向偶舍入'原则。
BF16格式的低精度计算在累积误差时可能导致偏差的产生。
注意力集中在少数Token上可能加剧偏差问题，形成特定的Bug。
提出的解决方案是修改Attention计算公式以消除小余项。
论文对MaxLogit爆炸现象提供了独特视角，但无法全面解释所有异常情况。
注意力偏差的产生与模型的各向异性有关，可能影响训练的稳定性。

❓

延伸问答

低精度Attention计算的偏差问题是什么？

低精度Attention计算的偏差问题主要是由于舍入误差导致的，这可能引发MaxLogit爆炸和Loss Spike等训练异常。

如何消除低精度计算中的偏差？

可以通过调整计算公式，采用'向偶舍入'原则来消除偏差，或在特定条件下修改Attention计算公式以消除小余项。

低精度计算中舍入误差的影响是什么？

舍入误差在低精度计算中会导致长期偏差累积，从而引发训练崩溃，如MaxLogit爆炸和Loss Spike。

注意力集中在少数Token上如何影响训练？

注意力集中在少数Token上可能加剧偏差问题，形成特定的Bug，影响训练的稳定性。

BF16格式的低精度计算有什么特点？

BF16格式用16位二进制表示浮点数，保留较多的指数位但尾数较少，适合LLM训练，但精度较低，容易产生累积误差。

论文中提到的MaxLogit爆炸现象是什么？

MaxLogit爆炸是指在低精度计算中，由于舍入误差的累积，导致模型输出的最大值异常增大，从而引发训练崩溃。

🏷️

继续阅读

约翰·特纳斯将接替蒂姆·库克成为苹果公司的首席执行官
苹果公司宣布，约翰·特纳斯将于2026年9月1日接替蒂姆·库克成为新任首席执行官，库克将转任董事会执行主席。约翰·斯鲁吉被任命为新的硬件主管。库克在信中感...
阅读蒂姆·库克致苹果世界的信件，告别首席执行官职务
苹果首席执行官蒂姆·库克将在九月辞职，转任执行董事长，感谢用户的支持，并宣布约翰·特纳斯将接任CEO。库克回顾了15年的任期，期待特纳斯的领导能带来更大成就。
Christophe Pettus: Hints, Part 1: The State of the Art Everywhere But Here
pg_plan_advice is expected to land in PostgreSQL 19. That makes this a good m...
Postgres中的写放大：每次插入的3-4倍开销
Every 1 KB insert in Postgres becomes ~2.5 KB of committed I/O before it'...
苹果公司任命Johny Srouji为首席硬件官
苹果公司任命Johny Srouji为新任硬件主管，接替即将成为CEO的John Ternus。Srouji自2008年加入苹果，负责苹果自家芯片的推出，...
苹果首席执行官蒂姆·库克将辞职
苹果首席执行官蒂姆·库克将于2026年9月1日辞职，由硬件工程高级副总裁约翰·特纳斯接任。库克自1998年加入苹果，2011年成为CEO，未来将担任董事会...