Apple Machine Learning Research ·

Sigmoid自注意力的理论、分析与最佳实践

💡 原文英文，约300词，阅读约需1分钟。

📝

内容提要

本文探讨了变压器架构中的sigmoid注意力机制，证明其为通用函数逼近器，并在训练初期的稳定性上优于softmax注意力。提出的FLASHSIGMOID实现提升了17%的推理速度。实验结果表明，sigmoid注意力在多个领域的表现与softmax相当，提供了最佳实践。

🎯

❓

sigmoid注意力机制是一种替代softmax的注意力机制，能够在变压器架构中实现通用函数逼近，并在训练初期提供更好的稳定性。

sigmoid注意力在正则性上优于softmax注意力，并且在训练初期的稳定性更强，有助于成功训练模型。

FLASHSIGMOID是一种硬件感知和内存高效的sigmoid注意力实现，推理速度比FLASHATTENTION2快17%。

实验表明，适当归一化的sigmoid注意力在语言、视觉和语音等多个领域的表现与softmax注意力相当。

本文为sigmoid注意力建立了最佳实践，作为变压器中softmax的替代方案，统一了之前的研究。

sigmoid注意力的大初始注意力范数的稳定性是成功训练模型的关键因素，能够提高训练的有效性。

🏷️

阶跃Step 3.7 Flash登顶AA榜：速度、性价比、端到端三项第一
阶跃星辰推出的Step 3.7 Flash模型在速度和成本上表现优异，推理速度超过400 tokens/s，单任务成本仅为Claude Opus 4.6的...
论独立游戏的起步立项方法论
在当下这个互联网时代做独立游戏，是幸运的，得益于各路大佬的经验分享，诸如引擎选择、外包渠道、素材获取，编程整合 […]
技嘉在COMPUTEX 2026展示多款生活美学主机
(全球TMT2026年6月5日讯)技嘉科技于COMPUTEX 2026展示多款生活美学主机，包含展现简约风格的 […]
技嘉于COMPUTEX 2026以“ENTER INFINITY”为主题开展
(全球TMT2026年6月5日讯)技嘉科技正式于COMPUTEX 2026以“ENTER INFINITY”为 […]
华为云发布Agentic AI系列新品打造智能时代“硅基黑土地”
华为云在上海INSPIRE大会上发布了Agentic Infra新范式及多款Agentic AI产品，旨在推动企业智能化转型。大会还推出“行业AI梦工厂”...
史上最强游戏掌机来了！性能堪比 PS5，但……
今年掌机市场因元器件成本上涨而涨价，但英特尔等公司推出的新芯片提升了掌机性能和能效。微星和宏碁的新款掌机搭载英特尔 Arc G3 处理器，表现出色，续航能...