本文探索了视觉语言模型在电子表格理解方面的能力,并提出了三个自我学习挑战和相应的评估方法。研究结果显示,VLMs在OCR方面有潜力,但在空间感知和格式识别方面仍有不足。为了增强其理解能力,提出了三种电子表格到图像的设定。需要进一步研究。
完成下面两步后,将自动完成登录并继续当前操作。