本研究提出了一套评估大型语言模型反思能力的工具,包含七个任务。结果显示,当前模型在反思能力上仍有不足,为未来研究提供了方向。
Optimus-1是一个在Minecraft中具有更好规划和反思能力的多模态代理。实验结果显示,Optimus-1在挑战性任务上优于其他代理,接近人类水平。多模态大型语言模型支撑Optimus-1,实验结果显示其在许多任务上优于GPT-4V基线,具有强大泛化能力。
完成下面两步后,将自动完成登录并继续当前操作。