量子位 ·

阿里开源长文本深度思考模型！渐进式强化学习破解长文本训练难题

💡 原文中文，约2500字，阅读约需6分钟。

📝

内容提要

阿里开源的长文本深度思考模型QwenLong-L1在长文本推理中表现优异，采用渐进式强化学习解决训练难题。其32B版本性能与Claude-3.7相当，成功过滤干扰信息，提升推理准确性。通过预热微调和分阶段强化学习，模型逐步适应长文本，显著超越传统模型。

🎯

关键要点

阿里开源长文本深度思考模型QwenLong-L1在长文本推理中表现优异。
QwenLong-L1的32B版本性能与Claude-3.7相当，成功过滤干扰信息。
模型通过预热微调和分阶段强化学习逐步适应长文本，显著超越传统模型。
传统模型容易被无关细节误导，而QwenLong-L1通过回溯和验证机制整合关键数据。
QwenLong-L1训练框架通过渐进式上下文扩展解决长文本推理的训练难题。
训练过程分为预热监督微调和课程引导的分阶段强化学习两个阶段。
引入难度感知的回溯采样机制，确保模型不会忘记处理困难案例。
QwenLong-L1在七个长文本基准测试中平均提升了4.1分，超越多个模型。
长文本SFT能带来2.6分的提升，但在此基础上再做RL提升幅度有限。
强化学习能有效调整输出空间，优先保留有助于得出准确解答的推理模式。

❓

延伸问答

QwenLong-L1模型的主要优势是什么？

QwenLong-L1在长文本推理中表现优异，能够有效过滤干扰信息，提升推理准确性。

QwenLong-L1是如何解决长文本训练难题的？

通过渐进式上下文扩展和分阶段强化学习，模型逐步适应长文本推理，提升训练效率和稳定性。

QwenLong-L1与传统模型相比有什么不同？

传统模型容易被无关细节误导，而QwenLong-L1通过回溯和验证机制整合关键数据，避免了这种问题。

QwenLong-L1的训练过程分为哪几个阶段？

训练过程分为预热监督微调和课程引导的分阶段强化学习两个阶段。

QwenLong-L1在基准测试中的表现如何？

在七个长文本基准测试中，QwenLong-L1平均提升了4.1分，超越多个模型，表现优异。

为什么在长文本SFT基础上再做强化学习提升幅度有限？

在长文本SFT基础上再做RL，提升幅度只有0.3分，表明SFT已提供了较好的性能基础。

🏷️

继续阅读

本地可跑的隐私检测模型：Privacy Filter 低成本实现高质量 PII 过滤；硬核开源！涵盖超 8 万场比赛的 Transfermarkt 结构化足球数据集
Privacy Filter 是 OpenAI 开源的双向标记分类模型，专门用于检测和屏蔽文本中的个人身份信息。该模型基于小型预训练架构，采用高效的片段解码方式。
重新思考现代数据平台的SQL ETL
SQL ETL实施面临碎片化挑战，导致操作复杂且难以扩展。Databricks通过统一平台整合执行、调度和监控，简化数据管道管理，提升性能和可靠性，支持多...
现实世界中的自托管大型语言模型：限制、解决方案与深刻教训
自托管大型语言模型（LLM）面临硬件限制、延迟和模型行为不一致等挑战。运行7B参数模型至少需要16GB显存，量化虽然能节省资源，但会影响精度。自托管模型通...
腾讯开源手机端离线翻译模型，仅0.4G，支持33种语言
腾讯混元推出了开源的离线翻译模型Hy-MT1.5-1.8B-1.25bit，支持33种语言，压缩至440MB，翻译质量优于谷歌翻译。该模型可在手机本地运行...
2026 年 3 月和 4 月该入手的模型手办
《光能使者》可变模型
Zed 1.0协议风波：你的代码被用来做训练数据
Zed 1.0协议引发了开发者对数据使用权和隐私的担忧。模糊的条款导致用户误解，认为自己的代码可能被滥用。AI补全功能需要访问用户代码，可能导致数据外流。...