小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

DeepSeek-V4通过创新技术实现高性价比,采用MoE模型分离总参数与每token成本,结合混合注意力CSA和HCA降低计算需求,引入mHC和Muon优化训练稳定性,利用磁盘缓存减少重复计算成本,最终实现1M上下文的高效推理。

【大模型基础设施工程·特别篇】27:DeepSeek-V4 的极致性价比从哪来

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-05-27T00:00:00Z
自适应并行推理:高效推理扩展的新范式

自适应并行推理(APR)是一种新兴的推理模型,能够动态决定何时并行化和分解任务。与传统顺序推理相比,APR通过并行处理多个线程,提高了推理效率,降低了延迟。研究表明,APR在复杂任务中表现出更高的准确性和更低的计算成本,但仍需解决训练稳定性和硬件适应性等问题。

自适应并行推理:高效推理扩展的新范式

The Berkeley Artificial Intelligence Research Blog
The Berkeley Artificial Intelligence Research Blog · 2026-05-08T09:00:00Z

本文探讨了在Transformer模型中将点积结果除以√d_k的原因。这一操作旨在避免softmax函数饱和,确保梯度有效传播。通过数学推导,证明了点积的方差为d_k,缩放后方差归一化为1,从而保持训练的稳定性。文章还讨论了不同维度下的训练效果及现代优化器如何与√d_k的设计结合,以提升模型性能。

15|Scaled Dot-Product:那个根号 d_k 是怎么来的

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-15T00:00:00Z

残差连接在Transformer中至关重要,它通过提供直通路径解决深层网络的优化问题,使每层只需学习小的修正。残差连接提高了训练的稳定性,促进了梯度的顺畅传播,避免了梯度消失问题,是Transformer成功的关键因素之一。

【Transformer 与注意力机制】24|残差连接:为什么深层网络必须留一条直路

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-15T00:00:00Z
揭示批量归一化与层归一化

批量归一化和层归一化通过规范化激活来提高训练稳定性,减少对初始化的敏感性。批量归一化对每个训练小批量进行规范化,确保后续层输入的稳定分布;层归一化则对单个样本的特征进行规范化,适用于小批量或可变批量的情况。两者均包含可学习参数,以保持模型的表示能力。

揭示批量归一化与层归一化

Louis Aeilot's Blog
Louis Aeilot's Blog · 2026-04-06T23:45:09Z

阿里巴巴Qwen团队的论文《Gated Attention》提出在Transformer注意力机制中引入门控,以解决训练不稳定、注意力聚焦和长上下文表现不佳的问题。该方法通过选择性过滤信息,提升了模型性能和训练稳定性,已在Qwen3-Next模型中应用,效果显著。

Gated Attention Neurips Best Paper

Micropaper
Micropaper · 2026-02-28T00:00:00Z

何恺明团队推出了改进版单步生成模型iMF,解决了训练的稳定性和效率问题。在ImageNet测试中,iMF表现优异,FID成绩为1.72,超越多步扩散模型,证明其性能可与之媲美。

后生可畏!何恺明团队新成果发布,共一清华姚班大二在读

量子位
量子位 · 2025-12-04T00:50:19Z

Thinking Machines公司发布了关于“模块化流形”的论文,旨在提升神经网络训练的稳定性和效率。研究通过对权重矩阵施加流形约束,解决训练不稳定问题,优化算法表现优于传统方法,预计将提高大型模型的训练效率。

翁荔陈丹琦加盟的840亿AI公司,公开第二篇论文

量子位
量子位 · 2025-09-27T05:08:45Z
批量归一化入门

批量归一化是一种深度学习技术,旨在稳定训练过程并加速收敛。通过对神经网络各层输入进行归一化,解决内部协变量偏移问题,减少梯度消失现象。该方法通常应用于隐藏层,提高模型鲁棒性并减少过拟合。在Keras中实现批量归一化非常简单,只需在层定义和激活函数之间添加BatchNormalization()。

批量归一化入门

MachineLearningMastery.com
MachineLearningMastery.com · 2025-09-05T12:00:46Z

本文介绍了一种新型强化学习算法——群体序列策略优化(GSPO),旨在提升大型语言模型的训练稳定性和效率。GSPO通过基于序列概率定义重要性比率,解决了GRPO算法的稳定性问题,显著提高了Qwen3模型的性能。

一文通透GSPO——Qwen3所用的“群体序列策略优化”:摒弃token级别的off-policy校正,而在序列级别利用重要性权重进行优化

结构之法 算法之道
结构之法 算法之道 · 2025-08-25T04:42:10Z
GSPO:迈向持续拓展的语言模型强化学习

本文提出了一种新型强化学习算法Group Sequence Policy Optimization (GSPO),旨在提升语言模型的训练稳定性和效率。与传统算法GRPO相比,GSPO在混合专家模型中表现出更高的效率和稳定性,通过序列级别的优化简化了训练过程,减少了对复杂策略的依赖,从而提升了Qwen3模型的性能。

GSPO:迈向持续拓展的语言模型强化学习

Blog on Qwen
Blog on Qwen · 2025-07-27T07:00:00Z

本文探讨了传统单调多层感知器(MLP)在优化过程中的挑战,提出了带有非负权重约束和饱和激活的MLP作为单调函数的通用逼近器。通过分析激活函数与权重约束的关系,提供了理论支持,简化了网络架构,并提出了通过激活调整来改善优化困难的新方法,从而增强了训练的稳定性。

Advancing Constrained Monotonic Neural Networks: Universal Approximation Beyond Bounded Activations

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-05T00:00:00Z

该研究提出了一种新型“集成流”方法,旨在解决传统ODE生成模型在样本质量和训练稳定性方面的不足。通过学习ODE轨迹的积分,该方法提高了模型的稳定性和准确性,并在多个ODE基础模型中展现出更优的性能。

Ensemble Flow Model

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-28T00:00:00Z

本研究提出了一种新型智能优化器FSCO,旨在解决生成对抗网络(GAN)训练中的敏感性问题。通过强化学习动态控制训练步长,提高训练稳定性,降低对步长的敏感性。实验结果表明,该方法在多个基准数据集上表现有效。

Fast-Slow Co-advancing Optimizer: Toward Harmonious Adversarial Training of GAN

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-21T00:00:00Z

本研究探讨了数据质量对大语言模型后期训练的影响。通过层级梯度分析,发现高质量数据与低核范数和高有效秩相关,推理数据在复杂任务中表现出更高的有效秩,揭示了数据质量与训练稳定性之间的关系。

指令和推理数据如何塑造后期训练:通过层级梯度透视数据质量

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-14T00:00:00Z

本研究提出了2D-Curri-DPO框架,克服了传统偏好优化方法的局限性,通过建模复杂性和可区分性,提升了训练的稳定性和优化效果。实验结果表明,该框架在多个基准测试中表现优异。

2D Curriculum Learning for Direct Preference Optimization

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-10T00:00:00Z

本研究提出HyperLLM框架,旨在解决现有推荐系统无法有效捕捉文本和语义层次信息的问题,从而显著提升推荐性能和训练稳定性。

Enhanced Hyper-Surface Space Recommendation System for Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-08T00:00:00Z

蚂蚁公司Ling模型研发负责人表示,国产GPU训练大模型的成本与英伟达相当或更低。近期技术论文显示,蚂蚁的MoE大模型在国产GPU上实现高效训练,受到广泛关注。张志强分享了训练过程中的经验,强调训练稳定性和成本优化的重要性,并指出国产加速卡的潜力。

蚂蚁国产GPU训练大模型细节曝光!Ling模型研发负责人回应

量子位
量子位 · 2025-03-27T03:11:01Z

本研究提出了一种新型混合归一化策略HybridNorm,旨在解决深层变换器网络训练中的层归一化问题。实验结果表明,HybridNorm在密集和稀疏架构中均优于传统方法,显著提升了大语言模型的训练稳定性和性能。

HybridNorm: Achieving Stable and Efficient Transformer Training via Hybrid Normalization

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-06T00:00:00Z

本研究在CrossQ框架中整合权重归一化,解决了强化学习的样本效率瓶颈,显著提升了训练的稳定性和效率。

通过批量和权重归一化扩大脱政策强化学习的规模

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-11T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码