本文介绍了多模态互联网代理的基准测试MMInA,旨在评估自主体代理在复杂用户任务中的表现。研究发现,代理在长链多跳任务中面临挑战,并提出了一种记忆增强方法,显著提升了其网络浏览能力。同时,文章探讨了多模态代理在视觉任务中的评估,揭示了当前模型的局限性和未来研究方向。
完成下面两步后,将自动完成登录并继续当前操作。