语言模型代理在 Web 自动化中受到构成性泛化的影响

LMA 在基本任务上的表现优于人类和强化学习代理,但在涉及任务组合的实际应用中,它们的性能仍未得到充分探索。通过引入新的基准 CompWoB,我们展示了从基本任务到组合任务的 LMA 表现下降,而在训练过程中平衡任务数据分布后,我们设计了一个新模型 HTML-T5++,在 MiniWoB 上超过人类水平并在 CompWoB...

LMA在基本任务上表现优于人类和强化学习代理,但在涉及任务组合的实际应用中,性能仍未得到充分探索。通过引入新的基准CompWoB,展示了LMA在组合任务上的表现下降。设计了新模型HTML-T5++,在MiniWoB上超过人类水平并在CompWoB上取得最佳零样本性能。然而,在改变组合顺序的不同指令组合下,性能进一步下降。与LMA的最新成功相反,基准和分析突出了构建稳健且可泛化的LMA的必要性。

原文中文,约400字,阅读约需1分钟。发表于:
阅读原文