从图书中构建图像与文本对数据集 原文约200字,阅读约需1分钟。发表于:2023-10-03T00:00:00Z。 利用数字档案进行机器学习的新方法,通过光学字符阅读器(OCR)、物体检测器和布局分析器构建数据集,展示其在图像 - 文本检索和洞察力提取方面的有效性。 该文介绍了一种新的文本到图像人物检索框架,利用全 CLIP 模型作为双编码器,引入文本引导的图像恢复辅助任务和交叉模态三元组损失,取得了三个基准数据集上的最先进结果。 交叉模态三元组损失 全 CLIP 模型 图像恢复辅助任务 基准数据集 数据集 文本到图像人物检索