在 Transformer 中重用 Softmax 硬件单元进行 GELU 计算

原文约200字，阅读约需1分钟。发表于：。

通过将 GELU 计算映射到 softmax 运算符，本文提出了一种在硬件中重新利用预设计的 softmax 硬件单元来计算 GELU 的方法，实验结果证明这种方法不会减少代表性自然语言处理应用的准确性，并且可以平均降低 6.1% 的硬件面积和 11.9% 的功耗。

本文介绍了一种利用上下文向量的聚类结构的软最大似然层逼近算法，能在移动设备上比传统方法更快地进行推理。使用 Gumbel softmax 对筛选模型进行端到端训练，通过预测前 k 个单词，在各种 NLP 任务中实现了更快的推理速度。在德语到英语的机器翻译任务中，相比现有技术，实现了20.4倍的加速。