一种基于度量的混合精度训练方法

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

深度学习中,增加神经网络大小可以提高模型质量,但也增加了内存和计算需求。使用低精度数值的效率技术可以降低硬件成本。本文通过度量驱动的方法选择数值,展示了该方法如何帮助扩展语言表示模型的训练,并可推广到其他模型架构。

🎯

关键要点

  • 深度学习中,增加神经网络大小可以提高模型质量。
  • 增加神经网络大小也会增加内存和计算需求。
  • 使用低精度数值的效率技术可以降低硬件成本。
  • 本文通过度量驱动的方法选择数值。
  • 该方法帮助扩展语言表示模型的训练。
  • 该技术可以推广到其他模型架构。
➡️

继续阅读