小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
揭示批量归一化与层归一化

批量归一化和层归一化通过规范化激活来提高训练稳定性,减少对初始化的敏感性。批量归一化对每个训练小批量进行规范化,确保后续层输入的稳定分布;层归一化则对单个样本的特征进行规范化,适用于小批量或可变批量的情况。两者均包含可学习参数,以保持模型的表示能力。

揭示批量归一化与层归一化

Louis Aeilot's Blog
Louis Aeilot's Blog · 2026-04-06T23:45:09Z

本研究探讨了变压器模型在短序列训练后对长序列泛化不良的问题。通过分析消失方差,证明了长序列导致多头注意力模块输出方差降低。实验结果表明,在注意力输出后应用层归一化能显著改善长度泛化效果,减少分布偏移。

On Vanishing Variance in Transformer Length Generalization

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-03T00:00:00Z

本研究提出了一种新型混合归一化策略HybridNorm,旨在解决深层变换器网络训练中的层归一化问题。实验结果表明,HybridNorm在密集和稀疏架构中均优于传统方法,显著提升了大语言模型的训练稳定性和性能。

HybridNorm: Achieving Stable and Efficient Transformer Training via Hybrid Normalization

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-06T00:00:00Z

本研究提出“深度诅咒”概念,针对现代大语言模型的层效能低下问题,分析发现问题源于预层归一化,提出层归一化缩放作为解决方案,显著提升模型训练效果。

The Deep Curse in Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-09T00:00:00Z

本研究提出了一种新层归一化策略Peri-LN,旨在解决变压器架构中的不足。Peri-LN在大规模训练中表现优异,能够有效平衡方差、改善梯度流动并提高收敛稳定性,具有潜在应用价值。

Peri-LN: Revisiting Layer Normalization in Transformer Architectures

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-04T00:00:00Z

本文通过几何视角揭示了Transformer操作的内部机制,说明层归一化将潜在特征限制在超球面上,从而塑造了单词的语义表示。通过探究GPT-2模型,发现了早期层中的清晰查询-键注意力模式,并构建了关于注意力头部的特定主题性的先前观察。通过这些几何洞察,给出了Transformer的直观理解。

变形金刚,语境主义和异义性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-15T00:00:00Z

本文从几何视角揭示了Transformer操作的内部机制,说明层归一化将潜在特征限制在超球面上,塑造单词的语义表示。通过探究GPT-2模型,发现了早期层中的清晰查询-键注意力模式,并构建了关于注意力头部的特定主题性的先前观察。利用这些洞察,将Transformer描述为沿着超球面的词粒子的轨迹的建模过程。

迷宫解决变形器中的结构化世界表示

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-05T00:00:00Z

本文从几何视角揭示了Transformer操作的内部机制,说明层归一化将潜在特征限制在一个超球面上,从而使得注意力能够塑造单词在这个表面上的语义表示。通过对GPT-2模型进行探究,发现了早期层中的清晰查询-键注意力模式,并在更深层次上进一步构建了关于注意力头部的特定主题性的先前观察。利用这些几何洞察,给出了Transformer的直观理解,将其描述为沿着超球面的词粒子的轨迹的建模过程。

GTA:一种面向几何的多视角 Transformer 的注意机制

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-16T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码