小红花·文摘

揭示批量归一化与层归一化

Louis Aeilot's Blog ·

阿里巴巴Qwen团队的论文《Gated Attention》提出在Transformer注意力机制中引入门控，以解决训练不稳定、注意力聚焦和长上下文表现不佳的问题。该方法通过选择性过滤信息，提升了模型性能和训练稳定性，已在Qwen3-Next模型中应用，效果显著。

Gated Attention Neurips Best Paper

Micropaper ·

何恺明团队推出了改进版单步生成模型iMF，解决了训练的稳定性和效率问题。在ImageNet测试中，iMF表现优异，FID成绩为1.72，超越多步扩散模型，证明其性能可与之媲美。

后生可畏！何恺明团队新成果发布，共一清华姚班大二在读

量子位 ·

Thinking Machines公司发布了关于“模块化流形”的论文，旨在提升神经网络训练的稳定性和效率。研究通过对权重矩阵施加流形约束，解决训练不稳定问题，优化算法表现优于传统方法，预计将提高大型模型的训练效率。

翁荔陈丹琦加盟的840亿AI公司，公开第二篇论文

量子位 ·

批量归一化入门

MachineLearningMastery.com ·

本文介绍了一种新型强化学习算法——群体序列策略优化（GSPO），旨在提升大型语言模型的训练稳定性和效率。GSPO通过基于序列概率定义重要性比率，解决了GRPO算法的稳定性问题，显著提高了Qwen3模型的性能。

一文通透GSPO——Qwen3所用的“群体序列策略优化”：摒弃token级别的off-policy校正，而在序列级别利用重要性权重进行优化

结构之法算法之道 ·

GSPO：迈向持续拓展的语言模型强化学习

Blog on Qwen ·

本文探讨了传统单调多层感知器（MLP）在优化过程中的挑战，提出了带有非负权重约束和饱和激活的MLP作为单调函数的通用逼近器。通过分析激活函数与权重约束的关系，提供了理论支持，简化了网络架构，并提出了通过激活调整来改善优化困难的新方法，从而增强了训练的稳定性。

Advancing Constrained Monotonic Neural Networks: Universal Approximation Beyond Bounded Activations

BriefGPT - AI 论文速递 ·

该研究提出了一种新型“集成流”方法，旨在解决传统ODE生成模型在样本质量和训练稳定性方面的不足。通过学习ODE轨迹的积分，该方法提高了模型的稳定性和准确性，并在多个ODE基础模型中展现出更优的性能。

Ensemble Flow Model

BriefGPT - AI 论文速递 ·

本研究提出了一种新型智能优化器FSCO，旨在解决生成对抗网络（GAN）训练中的敏感性问题。通过强化学习动态控制训练步长，提高训练稳定性，降低对步长的敏感性。实验结果表明，该方法在多个基准数据集上表现有效。

Fast-Slow Co-advancing Optimizer: Toward Harmonious Adversarial Training of GAN

BriefGPT - AI 论文速递 ·

本研究探讨了数据质量对大语言模型后期训练的影响。通过层级梯度分析，发现高质量数据与低核范数和高有效秩相关，推理数据在复杂任务中表现出更高的有效秩，揭示了数据质量与训练稳定性之间的关系。

指令和推理数据如何塑造后期训练：通过层级梯度透视数据质量

BriefGPT - AI 论文速递 ·

本研究提出了2D-Curri-DPO框架，克服了传统偏好优化方法的局限性，通过建模复杂性和可区分性，提升了训练的稳定性和优化效果。实验结果表明，该框架在多个基准测试中表现优异。

2D Curriculum Learning for Direct Preference Optimization

BriefGPT - AI 论文速递 ·

本研究提出HyperLLM框架，旨在解决现有推荐系统无法有效捕捉文本和语义层次信息的问题，从而显著提升推荐性能和训练稳定性。

Enhanced Hyper-Surface Space Recommendation System for Large Language Models

BriefGPT - AI 论文速递 ·

蚂蚁公司Ling模型研发负责人表示，国产GPU训练大模型的成本与英伟达相当或更低。近期技术论文显示，蚂蚁的MoE大模型在国产GPU上实现高效训练，受到广泛关注。张志强分享了训练过程中的经验，强调训练稳定性和成本优化的重要性，并指出国产加速卡的潜力。

蚂蚁国产GPU训练大模型细节曝光！Ling模型研发负责人回应

量子位 ·

本研究提出了一种新型混合归一化策略HybridNorm，旨在解决深层变换器网络训练中的层归一化问题。实验结果表明，HybridNorm在密集和稀疏架构中均优于传统方法，显著提升了大语言模型的训练稳定性和性能。

HybridNorm: Achieving Stable and Efficient Transformer Training via Hybrid Normalization

BriefGPT - AI 论文速递 ·

本研究在CrossQ框架中整合权重归一化，解决了强化学习的样本效率瓶颈，显著提升了训练的稳定性和效率。

通过批量和权重归一化扩大脱政策强化学习的规模

BriefGPT - AI 论文速递 ·

GAN归来：模型大幅简化，训练更稳定，逆袭扩散模型，AI社区疯传

机器之心 ·

YuLan-Mini是一种开放的数据高效语言模型，旨在提高大语言模型的预训练效率。通过优化数据处理、增强训练稳定性和有效的退火策略，YuLan-Mini显著提升了训练效率，展现出卓越性能和减少资源需求的潜力。

YuLan-Mini: An Open Data-Efficient Language Model

BriefGPT - AI 论文速递 ·

本研究提出了Spike2Former架构，以提升脉冲神经网络在图像分割中的性能。通过优化关键模块和归一化整数脉冲神经元，增强了训练的稳定性。实验结果表明，Spike2Former在多个数据集上显著提高了分割精度和效率。

Spike2Former: An Efficient Spiking Transformer for High-Performance Image Segmentation

BriefGPT - AI 论文速递 ·

Ai2推出OLMo 2，完全开源的基础模型

InfoQ ·