量子位 ·

Thinking Machine新研究刷屏！结合RL+微调，小模型训练更具性价比

💡 原文中文，约3400字，阅读约需8分钟。

📝

内容提要

Thinking Machine的新研究提出了一种名为在线策略蒸馏的方法，结合强化学习与微调，显著提高小模型的训练效率，减少训练步骤50-100倍，适合资源有限的个人和小公司。同时，该方法有效解决了AI的“灾难性遗忘”问题，支持模型的终身学习。

🎯

❓

在线策略蒸馏是一种结合强化学习与微调的方法，旨在提高小模型的训练效率。

该方法通过结合自主探索与密集监督，显著减少训练步骤，效率提升50-100倍。

它通过让模型向能力完整的版本学习，恢复遗忘的核心能力，同时保留新知识。

实验表明，在线策略蒸馏在计算效率上具有巨大优势，能以更低的成本实现性能提升。

该方法特别适合资源有限的个人和小公司，能够高效训练小模型。

研究的核心作者是Kevin Lu，他曾在OpenAI工作并参与多个重要项目。

🏷️

Arm Open-Sources Metis, an AI Security Framework Outperforming Traditional SAST Tools
Arm has open-sourced Metis, an agentic AI security framework designed to auto...
《Backrooms》首日票房达到3800万美元，成为认证的大片
电影《Backrooms》首日票房达到3800万美元，预计首周末可达9000万美元，创下A24电影的开画纪录。该片预算仅1000万美元，尽管评价不如其他低...
《欢迎来到夜谷》主持人塞西尔·鲍德温分享他的科技烦恼
播客《欢迎来到夜谷》的主持人塞西尔·鲍德温分享了他的科技烦恼，包括希望在驾驶时无法手动发短信，以及希望能安静观看电影或电视节目的片尾字幕。他表示自己最自豪...
DoorDash如何构建评估大型语言模型的测试系统
DoorDash开发了一种模拟和评估系统，以改善客户支持聊天机器人，成功解决了“幻觉”问题。该系统通过离线模拟生成真实客户对话，并自动评估聊天机器人的表现...
微软因公开漏洞威胁采取法律行动
微软因处理零日漏洞而受到批评，安全研究员“梦魇日蚀”公开发布了漏洞代码，微软威胁提起刑事诉讼。研究员凯文·博蒙特指出，微软的做法与其雇佣曾公开漏洞的员工相...
我们最喜欢的艺术电视在这个周末降价超过40%
Woot正在进行促销，折扣高达40%。三星2025年Frame电视和海信CanvasTV均有优惠，65英寸CanvasTV售价779.99美元，Frame...