量子位 ·

这些大神在Meta的论文看一篇少一篇了

💡 原文中文，约2300字，阅读约需6分钟。

📝

内容提要

Meta的研究揭示了强化学习（RL）训练中参数更新稀疏的现象，并提出了三种理论来解释其机制。尽管RL训练显著提升性能，但仅有少量参数被修改，主要由于KL锚定、模型几何和精度过滤等因素。研究表明，RL与监督微调（SFT）在参数优化区域存在显著差异，为RL训练算法设计提供了新思路。

🎯

关键要点

Meta的研究揭示了强化学习（RL）训练中参数更新稀疏的现象。
RL训练显著提升性能，但仅有少量参数被修改，主要由于KL锚定、模型几何和精度过滤等因素。
研究表明，RL与监督微调（SFT）在参数优化区域存在显著差异。
提出了三门理论（Three-Gate Theory）来解释RLVR的参数更新机制。
第一门：KL锚定，限制了每步更新的漂移，确保参数移动范围小。
第二门：模型几何，RL更新倾向于保持模型的原始权重结构，优化低曲率方向。
第三门：精度过滤，bfloat16的有限精度隐藏了微小更新，导致稀疏性表现。
研究确认RLVR和SFT在参数空间中的优化区域完全不同。
发现更新非主成分、低幅度权重能更好地跟踪密集RLVR轨迹。
对参数高效微调方法的启示，许多SFT时代的PEFT方法在RLVR中的迁移效果差。

❓

延伸问答

Meta的研究揭示了什么现象？

Meta的研究揭示了强化学习训练中参数更新稀疏的现象。

为什么强化学习训练只改变少量参数？

因为KL锚定、模型几何和精度过滤等因素限制了参数的移动范围。

三门理论是如何解释RL训练的参数更新机制的？

三门理论通过KL锚定、模型几何和精度过滤解释了RL训练中参数更新的约束和引导机制。

RL训练与监督微调（SFT）在参数优化上有什么显著差异？

RL训练的参数更新是稀疏的，而SFT的参数更新是密集的，优化区域完全不同。

精度过滤在RL训练中起到什么作用？

精度过滤通过bfloat16的有限精度隐藏了微小更新，导致参数更新表现为稀疏性。

这项研究对参数高效微调方法有什么启示？

研究表明，许多SFT时代的PEFT方法在RLVR中的迁移效果差，更新非主成分、低幅度权重更有效。

🏷️

继续阅读

人工智能论文评审：通过人类反馈训练语言模型以遵循指令（InstructGPT）
GPT-3在自然语言处理上取得了重大突破，但未能有效转化为助手。为此，OpenAI推出了InstructGPT，通过人类反馈训练模型更好地遵循指令，强调模...
五篇清晰解释大型语言模型的有趣论文
本文介绍了五篇关于大型语言模型（LLMs）的重要论文，涵盖其核心概念和技术。首先是“Attention Is All You Need”，提出了Trans...
免费证书颁发机构Let’s Encrypt宣布迈向后量子时代将采用MTC后量子认证方案
Let’s Encrypt 宣布将采用默克尔树证书（MTC）技术，以应对量子计算机对现有加密算法的威胁。该技术通过批量签名和默克尔树设计，减少证书体积，提...
Stefan Fercot：pgBackRest与pg_tde兼容吗？
Percona的pg_tde扩展为PostgreSQL提供透明数据加密（TDE），保护静态数据，并通过OpenBao管理加密密钥。测试显示，pgBackR...
线上剧本杀「多房间 + 多角色 + 强流程」的实时音视频架构
线上剧本杀结合多房间、角色权限和严格流程，技术复杂度高于普通视频聊天。关键在于动态音频拓扑、信息隔离和流程引擎。DM可控制房间和广播信息，玩家可在不同房间...
你来啦！ — 半正式上线
前段时间提到的那个心血来潮的项目，经过这几天的反复折腾。现在算是有些眉目了，虽然离一个正式的产品依然差很多。 […]