NICE 2023 零 - shot 图像标题挑战
原文中文,约300字,阅读约需1分钟。发表于: 。NICE 项目是挑战计算机视觉社区发展准确性和公平性都达到最新水平的强大图像字幕模型,通过测试使用一个包含多个领域的大量可视化概念的新评估数据集,没有提供特定的训练数据,要求适应在训练过程中没有见过的新型图像描述。该报告包括 NICE 数据集、评价方法、挑战结果和前列参赛作品的技术细节,预期挑战的结果将促进 AI 模型在各种视觉语言任务上的改进。
本文介绍了一种基于深度递归结构的生成模型,能够生成图像描述的自然语言句子。通过多个数据集的实验验证了模型的准确性和语言流畅性。在COCO数据集比赛中获得了与Microsoft Research团队平分秋色的好成绩,并提供了基于TensorFlow的开源实现。