本研究提出了Multimodal Aspect-Category Sentiment Analysis (MACSA) 数据集,包含21K个文本-图像对,并提供细粒度注释。建立了多模态情感分类任务和融合模型,实验结果表明该方法优于现有技术,为未来研究提供了基准。数据集和代码将公开。
本研究融合目标检测和光学字符识别模型,提高细粒度图像理解能力和多模态大型语言模型性能。实验结果显示改进后的模型在多个基准测试中表现优异,标志着多模态理解领域的重大进展。希望通过发布代码进一步探索多模态大型语言模型在细粒度多模态对话能力方面的应用。
完成下面两步后,将自动完成登录并继续当前操作。