量子位 ·

GPT-5超越人类医生！推理能力比专家高出24%，理解力强29%

💡 原文中文，约2600字，阅读约需7分钟。

📝

内容提要

最新研究表明，GPT-5在医学影像推理和理解方面的准确率分别比人类医生高出24%和29%。其跨模态注意力和对齐能力的提升使其在多模态测试中表现出色，但在实际临床应用中仍需进一步验证。

🎯

🔎

尽管GPT-5在标准化测试中表现出色，超越了人类医生，但其能力仍需在实际临床环境中验证。现实中的病例复杂多变，AI的推理能力可能无法完全适应这些情况。

GPT-5的成功源于其跨模态注意力与对齐能力的提升，使其能够在处理医学影像时实现更高效的信息整合。这种端到端的多模态架构为未来医学AI的发展提供了新的方向。

虽然GPT-5在多项测试中表现优异，但在真实临床场景中，AI仍需面对各种突发状况和患者个体差异。因此，AI在医疗领域的应用仍需谨慎推进，确保其安全性和有效性。

❓

GPT-5在医学影像推理的准确率比人类医生高出24%。

GPT-5在USMLE考试中全面超越GPT-4o，且在MedXpertQA测试中推理和理解得分分别提高了近30%和36%。

GPT-5的能力提升主要源于其跨模态注意力与对齐能力的增强，构建了端到端的多模态架构。

尽管GPT-5在标准测试中表现优秀，但在实际临床应用中仍需经过更多实战考验。

MedXpertQA测试用于评估模型的医学知识与推理能力，涵盖4460道题目，涉及多个医学专科和身体系统。

VQA-RAD测试用于评估医学多模态大语言模型解读复杂医学图像的能力，包含315张放射影像及3515个问答对。

🏷️