本文介绍了一种新方法,将人名加入生成文本。通过 OCR 识别图像中的文字并 fine-tuning 预训练模型,同时修改了之前的多模态框架,接受来自任意数量的辅助分类器提供的相关信息。同时,创建了一个新的图像-标题数据集,名为 PAC,包含了一些知名人物的图像和对这些图像的描述,这些描述中包含了人名。
完成下面两步后,将自动完成登录并继续当前操作。