在 Transformer 中重用 Softmax 硬件单元进行 GELU 计算
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
本文介绍了一种利用上下文向量的聚类结构的软最大似然层逼近算法,能在移动设备上比传统方法更快地进行推理。使用 Gumbel softmax 对筛选模型进行端到端训练,通过预测前 k 个单词,在各种 NLP 任务中实现了更快的推理速度。在德语到英语的机器翻译任务中,相比现有技术,实现了20.4倍的加速。
🎯
关键要点
-
介绍了一种利用上下文向量的聚类结构的软最大似然层逼近算法。
-
该算法在移动设备上比传统方法具有更快的推理速度。
-
使用 Gumbel softmax 对筛选模型进行端到端训练。
-
通过预测前 k 个单词,在各种 NLP 任务中实现了更快的推理速度。
-
在德语到英语的机器翻译任务中,实现了20.4倍的加速。
🏷️
标签
➡️