时效性基础的语言生成:实时视觉语言模型的基准
📝
内容提要
本研究针对视觉语言模型在交互环境下的实时语言生成问题,提出了“时效性基础的语言生成”的基准任务,要求生成的语言内容与动态视觉输入时间对齐。我们引入了一种新模型VLM-TSI,通过时间同步的方式交错处理视觉和语言信息,实验结果表明其在关键指标上优于传统模型,但整体性能仍有待提高,这凸显了实时视觉语言模型研究的挑战和必要性。
🏷️
标签
➡️