小红花·文摘

该研究提出了一种端到端模型，用于为嵌入新闻文章的图像生成标题。该模型采用多模态、多头注意力机制和转换器语言模型，解决了命名实体识别和多义词汇等问题，并在 CIDEr 评分上实现了四倍提升。