GPT-4V 在仙境中：用于零封注册手机 GUI 导航的大型多模态模型

使用基于 GPT-4V 的 MM-Navigator 代理，通过先进的屏幕解析、动作推理和精确的动作定位能力，在智能手机图形用户界面（GUI）导航任务中实现了零射击导航，并在 iOS 和 Android 上展示了优异的性能。

对GPT-4V在医学视觉问答任务中的能力进行评估，发现其在处理11种模态和15种对象的病理学及放射学问题时准确性不足。研究还揭示了GPT-4V的七个特征及局限性。评估详情可在线查看。

gpt gui