研究发现,大型语言模型在多臂赌博机环境中探索能力有限,未经训练干预难以稳定探索。在复杂环境中,需要算法干预才能做出理想决策。
该研究探讨了现代大型语言模型(LLMs)在强化学习和决策中的探索能力。研究发现在多臂赌博机环境中测试LLMs的本地性能时,模型无法稳定地进行探索。因此,在复杂环境中,可能需要算法干预才能使LLMs代理能够做出理想的决策。
完成下面两步后,将自动完成登录并继续当前操作。