该研究提出了一种基于图像-上下文-文本交互的新范式,通过使用大型多模态模型生成描述性文本上下文来弥合图像和文本之间的语义和形式差距。实验结果表明,该方法在多模态信息提取方面优于现有的最先进方法。
完成下面两步后,将自动完成登录并继续当前操作。