从图书中构建图像与文本对数据集

原文约200字，阅读约需1分钟。发表于：。

利用数字档案进行机器学习的新方法，通过光学字符阅读器（OCR）、物体检测器和布局分析器构建数据集，展示其在图像 - 文本检索和洞察力提取方面的有效性。

该文介绍了一种新的文本到图像人物检索框架，利用全 CLIP 模型作为双编码器，引入文本引导的图像恢复辅助任务和交叉模态三元组损失，取得了三个基准数据集上的最先进结果。