量子位 ·

AI慢思考蒸馏进快思考，Llama2升至GPT4水平，不写过程也能做对题

💡 原文中文，约2500字，阅读约需6分钟。

📝

内容提要

研究人员通过将AI的“慢思考”结果蒸馏进“快思考”，使Llama2的表现提升了257%，超过了GPT4，同时降低了推理成本。他们使用了四种不同的系统2方法进行微调，发现这种模式使系统1模型的表现大幅提升，甚至超过了真正的系统2模型。这种蒸馏方法在实时交互和移动设备部署等场景下具有优势。

🎯

关键要点

研究人员通过将AI的慢思考结果蒸馏进快思考，使Llama2表现提升257%，超过GPT4。
慢思考和快思考分别对应系统2和系统1，系统1是快速直觉，系统2是复杂推理。
蒸馏过程使用系统2生成数据，对系统1模型进行微调，提升其表现。
研究了四种系统2方法：CoT、S2A、RaR和BSM，均能生成推理结果。
高质量蒸馏数据通过一致性和鲁棒性筛选，确保其可靠性。
微调系统1模型的目标是学习系统2的输出行为，而非复杂推理过程。
系统2速度慢，适合实时交互和移动设备，系统1则能快速生成输出。
Llama2在不同任务上表现优异，超越了GPT-4，尤其在BSM方法中增幅最大。
S2A方法解决模型偏见，RaR方法在推理任务中表现突出。
CoT方法在数学推理任务上效果不佳，未来研究需明确蒸馏的应用场合。

❓

延伸问答

Llama2是如何提升到超过GPT-4的水平的？

Llama2通过将AI的慢思考结果蒸馏进快思考，表现提升了257%，超过了GPT-4。

什么是AI的慢思考和快思考？

慢思考对应系统2，涉及复杂推理；快思考对应系统1，指快速直觉反应。

研究人员使用了哪些系统2方法进行微调？

研究人员使用了CoT、S2A、RaR和BSM四种系统2方法进行微调。

为什么不直接使用系统2模型进行推理？

因为系统2速度慢，适合复杂推理，而系统1能快速生成输出，适合实时交互。

蒸馏过程中如何确保数据的高质量？

通过一致性和鲁棒性筛选，确保蒸馏数据的可靠性。

CoT方法在数学推理任务上的表现如何？

CoT方法在数学推理任务上效果不佳，蒸馏后的模型准确率很低。

🏷️

标签

AI GPT4 Llama2 系统2 蒸馏方法

➡️

继续阅读

AI 成本战的隐性成本与降本五层：从"成功率悖论"到"系统复杂度"（中） - 张善友
今天很多 AI 降本，表面上看是在压 token，本质上是在压复杂度
10 Newsletters Keeping You Ahead in AI
Cut through AI noise with 10 curated newsletters covering daily news, technic...
Meta made its own AI detection system. It should have just used Google’s
IIn March, Meta's Oversight Board called on the company to "meet its ...
Utility companies promise to spare us from AI’s energy bill
In the face of backlash to concerns the AI boom will increase consumer electr...
智谱开源模型立大功！摆平一起美国AI内乱事件
【TechWeb】7月22日消息，一场本该在沙盒中进行的内部安全测试，演变为全球首例由AI模型自主实施的真实网络攻击。OpenAI在一篇官方博客文章中承认...
GKE Security Blueprint Joins Growing List of Cloud AI Frameworks
Google Cloud has published a new blueprint setting out how organisations shou...