Multitask Multimodal Prompt Training for Interactive Embodied Task Completion
原文英文,约100词,阅读约需1分钟。发表于: 。我们提出了一种统一的编码 - 解码模型,称为 Embodied MultiModal Agent (EMMA),可以处理交互和具身任务,其中每个任务对目标完成做出贡献,取得了与类似模型相当的性能并在 Dialog-guided Task Completion (DTC) 中取得了新的最佳结果(36.81% 的成功率)用于评估 Alexa Arena 中的对话引导代理。
EMMA是一种编码-解码模型,能够处理交互和具身任务,并在Alexa Arena中的对话引导代理中取得了新的最佳结果。