小红花·文摘

该文章介绍了一个创新的大规模专利图像数据集 Qatent PatFig，包括来自超过11,000个欧洲专利申请的30,000多个专利图像。通过在该数据集上微调LVLM模型以生成简短和长篇描述，并研究在专利图像字幕生成过程中加入不同的基于文本的线索在预测阶段的效果，评估了数据集的可用性。