基于场景上下文的视觉引用表达生成中的弹性

原文约400字，阅读约需1分钟。发表于：。

探究场景背景在图像中物体指称生成中的作用，并以转换器为基础的 REG 模型为训练和测试对象，结果显示即使简单的场景背景也能使模型对干扰具有出乎意料的韧性，甚至在完全缺失目标的视觉信息情况下也能辨别出指称类型。

本文研究了上下文中生成指代表达式的任务，分析了自然语言处理的语言和科学方面。研究发现GREC数据集不可靠评估模型仿真人类参考生成能力。预训练语言模型对语料库选择不依赖，提供更强大的类别预测。