小红花·文摘

我们提出了一种新方法MOCHa，通过使用强化学习来处理图像字幕中幻觉的序列级性质，共同优化字幕的准确性和生成内容的逻辑一致性。该方法在不同规模的字幕模型上展示了卓越性能。