小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
揭示批量归一化与层归一化

批量归一化和层归一化通过规范化激活来提高训练稳定性,减少对初始化的敏感性。批量归一化对每个训练小批量进行规范化,确保后续层输入的稳定分布;层归一化则对单个样本的特征进行规范化,适用于小批量或可变批量的情况。两者均包含可学习参数,以保持模型的表示能力。

揭示批量归一化与层归一化

Louis Aeilot's Blog
Louis Aeilot's Blog · 2026-04-06T23:45:09Z

阿里巴巴Qwen团队的论文《Gated Attention》提出在Transformer注意力机制中引入门控,以解决训练不稳定、注意力聚焦和长上下文表现不佳的问题。该方法通过选择性过滤信息,提升了模型性能和训练稳定性,已在Qwen3-Next模型中应用,效果显著。

Gated Attention Neurips Best Paper

Micropaper
Micropaper · 2026-02-28T00:00:00Z

何恺明团队推出了改进版单步生成模型iMF,解决了训练的稳定性和效率问题。在ImageNet测试中,iMF表现优异,FID成绩为1.72,超越多步扩散模型,证明其性能可与之媲美。

后生可畏!何恺明团队新成果发布,共一清华姚班大二在读

量子位
量子位 · 2025-12-04T00:50:19Z

Thinking Machines公司发布了关于“模块化流形”的论文,旨在提升神经网络训练的稳定性和效率。研究通过对权重矩阵施加流形约束,解决训练不稳定问题,优化算法表现优于传统方法,预计将提高大型模型的训练效率。

翁荔陈丹琦加盟的840亿AI公司,公开第二篇论文

量子位
量子位 · 2025-09-27T05:08:45Z
批量归一化入门

批量归一化是一种深度学习技术,旨在稳定训练过程并加速收敛。通过对神经网络各层输入进行归一化,解决内部协变量偏移问题,减少梯度消失现象。该方法通常应用于隐藏层,提高模型鲁棒性并减少过拟合。在Keras中实现批量归一化非常简单,只需在层定义和激活函数之间添加BatchNormalization()。

批量归一化入门

MachineLearningMastery.com
MachineLearningMastery.com · 2025-09-05T12:00:46Z

本文介绍了一种新型强化学习算法——群体序列策略优化(GSPO),旨在提升大型语言模型的训练稳定性和效率。GSPO通过基于序列概率定义重要性比率,解决了GRPO算法的稳定性问题,显著提高了Qwen3模型的性能。

一文通透GSPO——Qwen3所用的“群体序列策略优化”:摒弃token级别的off-policy校正,而在序列级别利用重要性权重进行优化

结构之法 算法之道
结构之法 算法之道 · 2025-08-25T04:42:10Z
GSPO:迈向持续拓展的语言模型强化学习

本文提出了一种新型强化学习算法Group Sequence Policy Optimization (GSPO),旨在提升语言模型的训练稳定性和效率。与传统算法GRPO相比,GSPO在混合专家模型中表现出更高的效率和稳定性,通过序列级别的优化简化了训练过程,减少了对复杂策略的依赖,从而提升了Qwen3模型的性能。

GSPO:迈向持续拓展的语言模型强化学习

Blog on Qwen
Blog on Qwen · 2025-07-27T07:00:00Z

本文探讨了传统单调多层感知器(MLP)在优化过程中的挑战,提出了带有非负权重约束和饱和激活的MLP作为单调函数的通用逼近器。通过分析激活函数与权重约束的关系,提供了理论支持,简化了网络架构,并提出了通过激活调整来改善优化困难的新方法,从而增强了训练的稳定性。

Advancing Constrained Monotonic Neural Networks: Universal Approximation Beyond Bounded Activations

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-05T00:00:00Z

该研究提出了一种新型“集成流”方法,旨在解决传统ODE生成模型在样本质量和训练稳定性方面的不足。通过学习ODE轨迹的积分,该方法提高了模型的稳定性和准确性,并在多个ODE基础模型中展现出更优的性能。

Ensemble Flow Model

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-28T00:00:00Z

本研究提出了一种新型智能优化器FSCO,旨在解决生成对抗网络(GAN)训练中的敏感性问题。通过强化学习动态控制训练步长,提高训练稳定性,降低对步长的敏感性。实验结果表明,该方法在多个基准数据集上表现有效。

Fast-Slow Co-advancing Optimizer: Toward Harmonious Adversarial Training of GAN

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-21T00:00:00Z

本研究探讨了数据质量对大语言模型后期训练的影响。通过层级梯度分析,发现高质量数据与低核范数和高有效秩相关,推理数据在复杂任务中表现出更高的有效秩,揭示了数据质量与训练稳定性之间的关系。

指令和推理数据如何塑造后期训练:通过层级梯度透视数据质量

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-14T00:00:00Z

本研究提出了2D-Curri-DPO框架,克服了传统偏好优化方法的局限性,通过建模复杂性和可区分性,提升了训练的稳定性和优化效果。实验结果表明,该框架在多个基准测试中表现优异。

2D Curriculum Learning for Direct Preference Optimization

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-10T00:00:00Z

本研究提出HyperLLM框架,旨在解决现有推荐系统无法有效捕捉文本和语义层次信息的问题,从而显著提升推荐性能和训练稳定性。

Enhanced Hyper-Surface Space Recommendation System for Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-08T00:00:00Z

蚂蚁公司Ling模型研发负责人表示,国产GPU训练大模型的成本与英伟达相当或更低。近期技术论文显示,蚂蚁的MoE大模型在国产GPU上实现高效训练,受到广泛关注。张志强分享了训练过程中的经验,强调训练稳定性和成本优化的重要性,并指出国产加速卡的潜力。

蚂蚁国产GPU训练大模型细节曝光!Ling模型研发负责人回应

量子位
量子位 · 2025-03-27T03:11:01Z

本研究提出了一种新型混合归一化策略HybridNorm,旨在解决深层变换器网络训练中的层归一化问题。实验结果表明,HybridNorm在密集和稀疏架构中均优于传统方法,显著提升了大语言模型的训练稳定性和性能。

HybridNorm: Achieving Stable and Efficient Transformer Training via Hybrid Normalization

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-06T00:00:00Z

本研究在CrossQ框架中整合权重归一化,解决了强化学习的样本效率瓶颈,显著提升了训练的稳定性和效率。

通过批量和权重归一化扩大脱政策强化学习的规模

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-11T00:00:00Z
GAN归来:模型大幅简化,训练更稳定,逆袭扩散模型,AI社区疯传

2025年,研究者提出了一种新型极简GAN(R3GAN),通过新损失函数解决了传统GAN的不稳定性问题。R3GAN在图像生成和数据增强任务中超越了现有GAN和扩散模型,展现了更高的训练稳定性和性能,为未来研究奠定基础。

GAN归来:模型大幅简化,训练更稳定,逆袭扩散模型,AI社区疯传

机器之心
机器之心 · 2025-01-11T07:47:03Z

YuLan-Mini是一种开放的数据高效语言模型,旨在提高大语言模型的预训练效率。通过优化数据处理、增强训练稳定性和有效的退火策略,YuLan-Mini显著提升了训练效率,展现出卓越性能和减少资源需求的潜力。

YuLan-Mini: An Open Data-Efficient Language Model

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-23T00:00:00Z

本研究提出了Spike2Former架构,以提升脉冲神经网络在图像分割中的性能。通过优化关键模块和归一化整数脉冲神经元,增强了训练的稳定性。实验结果表明,Spike2Former在多个数据集上显著提高了分割精度和效率。

Spike2Former: An Efficient Spiking Transformer for High-Performance Image Segmentation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-19T00:00:00Z
Ai2推出OLMo 2,完全开源的基础模型

Allen人工智能研究所推出了OLMo 2系列开源语言模型,参数为70亿和130亿。该模型经过5万亿个标记训练,采用分阶段训练和多样化数据集,显著提升了训练稳定性和模型鲁棒性。在知识回忆、推理和语言能力方面,OLMo 2超越了前代模型,成为开源AI的新标杆。

Ai2推出OLMo 2,完全开源的基础模型

InfoQ
InfoQ · 2024-12-05T15:36:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码