Meta和佐治亚理工的研究者提出了LEGO模型,该模型结合用户问题和场景照片生成第一视角动作图像,提升技能学习效率。通过微调大语言模型和扩散模型生成图像,LEGO在Ego4D和Epic-Kitchens数据集上表现出色,图像准确反映动作细节并保留背景信息,用户满意度高。研究证明了LEGO在多场景下的泛化能力,推动了动作图像生成领域的发展。
完成下面两步后,将自动完成登录并继续当前操作。