从图书中构建图像与文本对数据集

原文约200字,阅读约需1分钟。发表于:

利用数字档案进行机器学习的新方法,通过光学字符阅读器(OCR)、物体检测器和布局分析器构建数据集,展示其在图像 - 文本检索和洞察力提取方面的有效性。

该文介绍了一种新的文本到图像人物检索框架,利用全 CLIP 模型作为双编码器,引入文本引导的图像恢复辅助任务和交叉模态三元组损失,取得了三个基准数据集上的最先进结果。

相关推荐 去reddit讨论