BriefGPT - AI 论文速递 ·

On Vanishing Variance in Transformer Length Generalization

💡 原文英文，约100词，阅读约需1分钟。

📝

内容提要

本研究探讨了变压器模型在短序列训练后对长序列泛化不良的问题。通过分析消失方差，证明了长序列导致多头注意力模块输出方差降低。实验结果表明，在注意力输出后应用层归一化能显著改善长度泛化效果，减少分布偏移。

🎯

🏷️

2026 年 3 月和 4 月该入手的模型手办
2026年3月和4月的特别作品主要包括《光能使者》系列的光能使者和超级光能使者，以及记录孙悟空和库林修行的龟仙屋，但缺少布尔玛和朗琪，显得不太完整。
弘信电子盈利结构优化，算力业务成为增长核心引擎
弘信电子发布2025年年报与2026年第一季报，显示盈利结构优化。2025年营业收入73.13亿元，同比增长24.47%；净利润1.47亿元，同比增长15...
小米最新人形机器人的手，会「出汗」了
小米最新发布的人形机器人CyberOne V2在投资者大会上亮相。该机器人高178cm，重52kg，具备22-27个自由度的灵巧手，能够进行精细操作，并配...
Netmarble将举办《权力的游戏：国王大道》角色名称预留活动
Netmarble将于5月8日启动《权力的游戏：国王大道》的角色名称预留活动，玩家可通过官网锁定角色名称。游戏预注册已开启，5月7日将发布特别视频，计划于...
e&第一季度合并收入达194亿迪拉姆，同比增长15.1%
e&在2026年第一季度实现合并收入194亿迪拉姆，同比增长15.1%；净利润29亿迪拉姆，同比增长3.9%。EBITDA增长16.5%，达86亿...
Supermicro扩展数据中心构建模块解决方案产品组合
Supermicro推出了搭载新Arm AGI CPU的服务器平台和符合OCP ORv3标准的新机架方案，包括支持高性能工作负载的2U GPU系统，适用于大规模AI部署。