小红花·文摘

清华与通院提出的“绝对零”训练法，通过自我博弈提升大模型的推理能力，无需外部数据。该方法在代码环境中训练，模型在数学推理和编程任务上表现优异，超越传统专家标注样本训练的模型。

量子位 ·

本研究提出了一种自我博弈评价器(SPC)方法，旨在解决大语言模型(LLM)推理中缺乏高质量逐步监督的问题。通过对抗性自我博弈，SPC能够有效识别错误推理步骤，提高错误检测能力和准确率，显著超越现有基线，对LLM推理表现产生重要影响。

BriefGPT - AI 论文速递 ·

本研究探讨自我博弈在模拟环境中提升自主驾驶能力。通过Gigaflow模拟器进行的1.6亿公里模拟驾驶中，该政策在三项自动驾驶基准测试中表现优异，超越真实场景中的最佳表现，展现出卓越的鲁棒性和自然性。

BriefGPT - AI 论文速递 ·

本文介绍了一种基于统一表示的扑克牌智能对手系统，该系统通过自我博弈学习在多个扑克游戏中表现优异。采用新的扑克表示方法和基于CNN的学习模型，显著超越传统启发式程序。此外，研究探讨了结合大型语言模型和蒙特卡洛树搜索的创新方法，推动游戏开发的民主化，使用户能够通过自然语言简化游戏创作过程。

BriefGPT - AI 论文速递 ·