我们提出了一种新方法MOCHa,通过使用强化学习来处理图像字幕中幻觉的序列级性质,共同优化字幕的准确性和生成内容的逻辑一致性。该方法在不同规模的字幕模型上展示了卓越性能。
完成下面两步后,将自动完成登录并继续当前操作。