清华与通院提出的“绝对零”训练法,通过自我博弈提升大模型的推理能力,无需外部数据。该方法在代码环境中训练,模型在数学推理和编程任务上表现优异,超越传统专家标注样本训练的模型。
本研究提出了一种自我博弈评价器(SPC)方法,旨在解决大语言模型(LLM)推理中缺乏高质量逐步监督的问题。通过对抗性自我博弈,SPC能够有效识别错误推理步骤,提高错误检测能力和准确率,显著超越现有基线,对LLM推理表现产生重要影响。
本研究探讨自我博弈在模拟环境中提升自主驾驶能力。通过Gigaflow模拟器进行的1.6亿公里模拟驾驶中,该政策在三项自动驾驶基准测试中表现优异,超越真实场景中的最佳表现,展现出卓越的鲁棒性和自然性。
本文介绍了一种基于统一表示的扑克牌智能对手系统,该系统通过自我博弈学习在多个扑克游戏中表现优异。采用新的扑克表示方法和基于CNN的学习模型,显著超越传统启发式程序。此外,研究探讨了结合大型语言模型和蒙特卡洛树搜索的创新方法,推动游戏开发的民主化,使用户能够通过自然语言简化游戏创作过程。
完成下面两步后,将自动完成登录并继续当前操作。