小红花·文摘

研究发现，大型语言模型在多臂赌博机环境中探索能力有限，未经训练干预难以稳定探索。在复杂环境中，需要算法干预才能做出理想决策。

BriefGPT - AI 论文速递 ·

该研究探讨了现代大型语言模型（LLMs）在强化学习和决策中的探索能力。研究发现在多臂赌博机环境中测试LLMs的本地性能时，模型无法稳定地进行探索。因此，在复杂环境中，可能需要算法干预才能使LLMs代理能够做出理想的决策。

BriefGPT - AI 论文速递 ·