GPT4Vis：GPT-4 能为零样本视觉识别做什么？

本研究对 GPT-4 在零样本视觉识别任务中的语言和视觉能力进行了评估，发现利用 GPT-4 生成丰富的文本描述明显提高了零样本识别性能，并且在视觉熟练度方面，GPT-4V 在 16 个基准数据集中表现介于 OpenAI-CLIP 的 ViT-L 和 EVA-CLIP 的 ViT-E 之间。

本论文评估了GPT-4V在医学图像任务中的能力，发现其在生成胸部X射线图像描述性报告方面有潜力，但仍需改进。在医学问答方面，GPT-4V在问题类型上表现熟练，但准确性不如现有基准。在视觉基础领域，GPT-4V在识别边界框方面显示潜力，但精度不够。评估强调了GPT-4V在医学图像领域的潜力，但需要改进来充分发挥其能力。

GPT-4V gpt 医学图像医学问答描述性报告胸部X射线