本研究提出了新评估数据集ProMQA,包含401对多模态程序性问题及答案,解决了现有系统评估不足的问题,显示系统与人类性能存在显著差距。
该文章介绍了一种机器-人类管道,通过使用基于LLM的代理体系结构和将对话与人物和时间事件图进行关联,生成高质量的非常长期的对话。作者通过人类注释者对对话进行检验和编辑,以确保其长程一致性和对事件图的关联。实验结果表明,LLM在理解冗长对话和理解对话中的长程时间和因果动态方面存在挑战。使用长上下文LLM或RAG等策略可以提供改进,但这些模型仍然远远落后于人类的性能。
该文章介绍了一种新颖的任务视觉问题生成(VQG)系统,通过展示图片后提出问题。通过训练和测试多种生成和检索模型来解决VQG任务,结果显示模型能够提出合理的问题,但与人类性能仍有差距。
完成下面两步后,将自动完成登录并继续当前操作。