InfoQ ·

谷歌发布大型语言模型自我纠正算法SCoRe

💡 原文英文，约600词，阅读约需2分钟。

📝

内容提要

谷歌DeepMind研究人员提出了一种通过强化学习进行自我纠正（SCoRe）的方法，提升大型语言模型在数学和编程问题上的自我纠正能力。SCoRe使用模型生成的数据进行自我纠正，通过两阶段强化学习微调。与基线模型相比，SCoRe在MATH和HumanEval测试中分别提高了15.6和9.1个百分点。

🎯

关键要点

谷歌DeepMind研究人员提出了一种通过强化学习进行自我纠正（SCoRe）的方法，提升大型语言模型在数学和编程问题上的自我纠正能力。
SCoRe使用模型生成的数据进行自我纠正，通过两阶段强化学习微调。
与基线模型相比，SCoRe在MATH和HumanEval测试中分别提高了15.6和9.1个百分点。
SCoRe不同于以往依赖提示工程或单独“教师”模型的自我纠正方法，使用模型自身生成的数据进行自我纠正。
SCoRe的两阶段强化学习过程包括：第一阶段保持初始响应不变，第二次尝试生成正确响应；第二阶段对两个响应的正确答案给予奖励，并对改进的第二响应给予额外奖励。
DeepMind团队在研究其他方法的不足后开发了SCoRe，指出仅依靠提示工程无法成功实现自我纠正。
SCoRe的训练方法旨在防止模型仅学习“产生最佳首次响应并进行小幅编辑”。
用户在Reddit和Hacker News讨论中对SCoRe与OpenAI的Omni模型微调方法进行了比较，认为两者在自我纠正技术的学习上有相似之处。

🏷️

继续阅读

LWD——结合“分布式隐式价值学习与基于QAM的策略提取”的RL策略框架，先离线RL预训练，后在线RL微调
本文讨论了在真实世界中部署通用机器人策略的挑战，提出了一种名为“部署中学习”（LWD）的框架，通过车队规模的离线到在线强化学习（RL）实现策略的持续改进。...
配备谷歌内置的汽车将因Gemini而变得更智能
Gemini是谷歌助手的升级版，已在配备谷歌内置的汽车中推出。用户可以通过自然对话获取信息、规划行程、管理消息和控制车辆功能。Gemini支持实时更新，帮...
Gemini助手正在向内置谷歌助手的汽车推出
谷歌为内置谷歌助手的汽车推出Gemini AI助手，提供更自然的对话体验。此更新适用于2020年及以后的车型，通过软件更新实现。Gemini可以推荐餐厅、...
在谷歌地图上探索66号公路的新方式
美国66号公路长达2448英里，连接芝加哥和圣塔莫尼卡。为庆祝其100周年，推出两种新方式，帮助人们虚拟或现实中探索这条公路。
拆解微软、谷歌、亚马逊、Meta最新财报：AI变现进入验证期 | 全球深一度
2026年第一季度，微软、谷歌、亚马逊和Meta四大科技巨头财报显示强劲增长。谷歌营收接近1100亿美元，微软AI业务年化收入达370亿美元。市场关注AI...
人工智能沙箱正迎来其Kubernetes时刻
Recently, Anthropic announced that its new model, Mythos, had autonomously fo...

谷歌发布大型语言模型自我纠正算法SCoRe

内容提要

关键要点

标签

继续阅读