利用多模式大型语言模型(MLLMs)的视觉提示方法,我们提出了一种用于传感器数据的视觉提示方法,该方法在处理长传感器数据序列时不会出现性能下降。在九个涉及四种感应模态的感应任务上,我们的方法实现了比基于文本的提示更高的平均准确度(高达10%),并且减少了15.8倍的令牌成本,突出了使用MLLMs的视觉提示方法在各种感应任务中的有效性和成本效益。
完成下面两步后,将自动完成登录并继续当前操作。