发明专利图生成短长说明
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
该文章介绍了一个创新的大规模专利图像数据集 Qatent PatFig,包括来自超过11,000个欧洲专利申请的30,000多个专利图像。通过在该数据集上微调LVLM模型以生成简短和长篇描述,并研究在专利图像字幕生成过程中加入不同的基于文本的线索在预测阶段的效果,评估了数据集的可用性。
🎯
关键要点
- 介绍了 Qatent PatFig,这是一个创新的大规模专利图像数据集。
- 该数据集包括来自超过 11,000 个欧洲专利申请的 30,000 多个专利图像。
- 每个图像都提供简短和长篇的描述、参考编号及其相应的术语。
- 数据集还包含描述图像组件之间相互作用的最小索赔集。
- 通过在 Qatent PatFig 上微调 LVLM 模型以生成描述,评估了数据集的可用性。
- 研究了在专利图像字幕生成过程中加入不同的基于文本的线索的效果。
🏷️
标签
➡️