PuzzleGPT:模拟人类解谜能力进行时间和地点预测
📝
内容提要
本研究针对从图像中预测时间和地点的挑战,提出了一种新颖的方法PuzzleGPT,旨在模拟人类的解谜能力。该方法通过多模块的专家流程实现,包括视觉线索识别、推理、信息组合、外部知识检索和噪声过滤,展现了在TARA和WikiTilo两个数据集上的最先进表现,超越了大型视觉语言模型,具有良好的解释性和稳健性。
➡️
本研究针对从图像中预测时间和地点的挑战,提出了一种新颖的方法PuzzleGPT,旨在模拟人类的解谜能力。该方法通过多模块的专家流程实现,包括视觉线索识别、推理、信息组合、外部知识检索和噪声过滤,展现了在TARA和WikiTilo两个数据集上的最先进表现,超越了大型视觉语言模型,具有良好的解释性和稳健性。