该论文提出了一种利用单张静态图片中的自由文本来学习人际互动的新方法。作者使用了基于大型语言模型生成的合成标题数据的知识蒸馏方法,成功训练出一种“理解”图像中人际互动的字幕模型。该方法在人际互动理解任务上表现优于目前最先进的图像字幕生成和情境识别模型。
完成下面两步后,将自动完成登录并继续当前操作。