我爱自然语言处理 ·

QwenLong-L1：通过强化学习实现长上下文推理的大模型飞跃

💡 原文中文，约2800字，阅读约需7分钟。

📝

内容提要

阿里巴巴团队提出的QwenLong-L1框架，通过强化学习和渐进式上下文扩展，有效解决了长上下文推理问题，显著提升了文档问答的表现，展现了在复杂认知任务中的潜力。

🎯

❓

QwenLong-L1的主要创新包括渐进式上下文扩展、混合奖励机制和课程引导的强化学习。

长上下文推理需要从外部长文本中检索信息并逐步整合，训练效率和稳定性要求更高，而短上下文推理主要依赖模型内部参数知识生成推理链。

在7个长上下文文档问答基准测试中，QwenLong-L1显著超越现有模型，得分达到70.7。

QwenLong-L1通过渐进式上下文扩展和课程引导的强化学习策略，分阶段增加输入长度，避免模型崩溃。

混合奖励机制结合规则验证和LLM评判，确保答案的准确性和多样性，最终奖励取两者最大值。

未来方向包括任务扩展、架构优化和强化学习范式革新，以支持更复杂的认知任务。

🏷️

在Vibe编码时代使OWASP前十名更具影响力
2025年OWASP前十名更新将重点从“过时组件”转向软件供应链安全，新增内存安全和“vibe编码”意识项，反映了开发者和网络应用安全领域对关键安全风险的共识。
B站宣布启动AI创造公开赛打造中国版Build in Public
100亿砸向人形，不如先让10万台机器狗走进家庭
所有通用技术，最后都要回到消费市场。
Mavrix在劳德代尔堡设立美国新总部
Mavrix在佛罗里达州劳德代尔堡设立美国总部，标志着其拓展北美市场的重要一步。该公司专注于数据采集和调研，预计2026年同比增长超过25%。新总部将推动...
云端Wireshark
https://wireshark.cloud/ 此网站相当于远程解析pcap文件。传个pcapRead More
与TorchRec KeyedJaggedTensor的同步
推荐系统中的稀疏特征用于建模用户偏好和物品特性，但存在输入数据长度不一和内存浪费的问题。TorchRec的KeyedJaggedTensor通过合并稀疏特...