竞技学习:通过模拟聊天机器人竞技场为 LLM 后训练建立数据循环
原文中文,约400字,阅读约需1分钟。发表于: 。评估大型语言模型的有效性是具有挑战性的,本文引入了 Arena Learning 方法来通过离线模拟评估对战结果,从而通过监督微调和强化学习实现目标模型的持续改进。Arena Learning 包括离线测试和训练数据的持续优化,通过 WizardArena...
大型语言模型在竞争环境中展示高级推理技能,需要评估环境来探测战略推理和竞争动态场景中的长期规划。AucArena是一个评估LLMs的新型模拟环境,在竞拍中证明了LLMs展示了参与竞拍所需的技能。使用LLM代理模拟复杂社交动态的潜力在竞争环境中表现出来,但个体LLMs的能力存在变异性。最先进的模型(GPT-4)有时会被启发式基准线和人类代理超越,突显了进一步提高LLM代理设计和模拟环境的重要性。