该论文探讨了多模态对话生成任务,提出了一种结合图像和对话历史生成回答的方法。研究表明,在低资源情况下,图像驱动的对话生成能够有效提升样本数量和应答质量,且在多模态对话系统中表现出良好的泛化性能和人类评估效果。
美团技术团队在CVPR 2024上发表了7篇论文,涵盖了OCR预训练、长尾半监督学习、图像驱动、数字人生成、视听分割和视觉叙事等领域。这些论文的研究成果有助于提高场景文本检测、图像生成和目标检测等任务的性能。
完成下面两步后,将自动完成登录并继续当前操作。