这篇论文研究了大型语言模型(LLMs)在理解语境和生成对话中的能力。实验表明,LLMs在二进制推断对话中表现平庸,需要改进以更好适应人类意图。研究还探讨了LLMs在教育、常识规划和社交交流中的表现,发现其在生成语法流畅文本方面优秀,但在推理和规划任务中存在限制。
本文介绍了视觉蕴含(VE)任务及其解决方案,包括新的数据集SNLI-VE和可解释的视觉蕴含模型(EVE)。通过在SNLI-VE数据集上评估EVE和其他视觉问答模型,促进了基于语境的语言理解,并提供了关于现代VQA模型性能的见解。
完成下面两步后,将自动完成登录并继续当前操作。