小红花·文摘

利用多模式大型语言模型（MLLMs）的视觉提示方法，我们提出了一种用于传感器数据的视觉提示方法，该方法在处理长传感器数据序列时不会出现性能下降。在九个涉及四种感应模态的感应任务上，我们的方法实现了比基于文本的提示更高的平均准确度（高达10%），并且减少了15.8倍的令牌成本，突出了使用MLLMs的视觉提示方法在各种感应任务中的有效性和成本效益。