小红花·文摘

本文探索了视觉语言模型在电子表格理解方面的能力，并提出了三个自我学习挑战和相应的评估方法。研究结果显示，VLMs在OCR方面有潜力，但在空间感知和格式识别方面仍有不足。为了增强其理解能力，提出了三种电子表格到图像的设定。需要进一步研究。