利用强化学习与人类反馈增强图像字幕生成

本研究探索了一种潜在的方法，通过使用 Flickr8k 数据集，将监督学习和强化学习与人类反馈相结合，以提高深度神经网络模型生成符合人类偏好的标题的性能，并引入了一种新的损失函数，能够基于人类反馈优化模型。

本研究使用Flickr8k数据集，结合监督学习和强化学习以提高深度神经网络模型生成符合人类偏好的标题的性能，并引入一种新的损失函数优化模型。