利用强化学习与人类反馈增强图像字幕生成

BriefGPT - AI 论文速递 BriefGPT - AI 论文速递 ·

本研究使用Flickr8k数据集,结合监督学习和强化学习以提高深度神经网络模型生成符合人类偏好的标题的性能,并引入一种新的损失函数优化模型。

原文中文,约200字,阅读约需1分钟。
阅读原文