机器之心 ·

中科大、中兴提出新后训练范式：小尺寸多模态模型，成功复现R1推理

💡 原文中文，约4300字，阅读约需11分钟。

📝

内容提要

本文提出了一种课程式强化学习后训练范式（Curr-ReFT），旨在提升小规模视觉-语言模型（VLMs）的推理能力和域外泛化性能。通过结合课程学习与自我改进策略，Curr-ReFT 有效解决了小模型在复杂任务中的性能瓶颈，实验结果表明其在多个基准测试中表现优异。

🎯

❓

课程式强化学习后训练范式（Curr-ReFT）是一种结合课程学习与自我改进策略的训练方法，旨在提升小规模视觉-语言模型的推理能力和域外泛化性能。

Curr-ReFT通过难度感知的奖励设计，逐步提升任务难度，确保模型能力从基础任务到复杂推理任务的稳步提升，从而突破性能瓶颈。

实验结果表明，Curr-ReFT在多个基准测试中表现优异，尤其在域外数据上的表现显著提升，甚至超越了某些大规模模型。

小规模视觉-语言模型主要面临域外泛化能力不足和推理能力有限的问题，容易过拟合训练数据，难以处理复杂任务。

Curr-ReFT包含两个训练阶段：课程强化学习和基于拒绝采样的自我改进。

课程学习在Curr-ReFT中通过逐步暴露模型于递增复杂任务，确保模型能力的稳步提升，帮助克服训练不稳定性。

🏷️

将DSA注意力引入多模态，快手Keye2.0开启强化推理新范式
快手发布了多模态大模型Keye-VL-2.0-30B-A3B，具备深度视频理解能力，采用DSA机制处理超长视频上下文，提升推理效率和准确性。该模型能够精准...
GR00T N1.7的简介与微调——其中的VLM是“基于Qwen3-VL”的Cosmos-Reason2，且预训练数据中包含2 万小时的 EgoScale人类视频数据(含GR00T N1.6的简介)
GR00T N1.6和N1.7是NVIDIA开发的视觉语言模型（VLM），用于机器人控制。N1.6改进了模型结构，支持灵活分辨率，并引入新数据集；N1.7...
小米宣布下调MiMo-V2.5模型定价对标深度求索DSV4系列模型的API价格
小米宣布自2026年5月27日起下调MiMo-V2.5模型的API调用价格，取消256K/1M长度定价区分，新的计费方式为信用点模式，同时Token Pl...
Sony’s DualSense controllers are almost 30 percent off
Sony has a tradition of marking down its PlayStation 5 hardware a couple of t...
Robinhood will let your AI agent trade stocks and make (or lose) lots of money
Robinhood is opening its trading platform to AI agents. In an announcement on...
Build a Live Object Detection App for the Reachy Mini With TensorFlow and PyCharm
This is a guest post from Iulia Feroli, founder of the Back To Engineering Yo...