小红花·文摘

该研究提出了一种新的视觉-语言模型，通过采用样本级文本描述进行零样本分类，取得了显著的改进。在四个动态情感识别数据集上测试，该方法在下游任务中表现出与人类专家相当或更优的性能。