小红花·文摘

本文介绍了多模态互联网代理的基准测试MMInA，旨在评估自主体代理在复杂用户任务中的表现。研究发现，代理在长链多跳任务中面临挑战，并提出了一种记忆增强方法，显著提升了其网络浏览能力。同时，文章探讨了多模态代理在视觉任务中的评估，揭示了当前模型的局限性和未来研究方向。