量子位 ·

AI医生终于有了硬标尺！全球首个专病循证评测框架GAPS发布，蚂蚁联合北大王俊院士团队出品

💡 原文中文，约4400字，阅读约需11分钟。

📝

内容提要

蚂蚁健康与北大王俊院士团队发布全球首个专病循证评测框架GAPS，专注于肺癌，包含92个问题和1691个临床要点，旨在提升医疗AI的评测深度与可靠性。GAPS通过四个维度评估AI的临床能力，克服现有评测的局限，推动医疗AI向临床应用转型。

🎯

🔎

GAPS评测框架的推出为医疗AI的临床应用提供了新的标准，尤其是在肺癌领域。通过系统性评估，GAPS能够帮助医疗机构更准确地判断AI的临床能力，从而提升患者的治疗效果。未来，随着GAPS的推广，可能会推动更多专病领域的AI应用，提升整体医疗水平。

GAPS不仅关注AI的准确率，还引入了四个维度的评估标准，强调了临床决策的复杂性。这种创新的评测方式能够更全面地反映AI在真实临床场景中的表现，尤其是在处理不确定性和复杂病例时的能力。这为医疗AI的研发提供了重要的指导方向。

尽管当前主流医疗AI模型在知识广度上表现出色，但在实际应用中仍显脆弱，尤其是在应对复杂临床场景时。GAPS的研究揭示了这些模型在推理和决策方面的不足，提醒开发者在设计AI时需更加关注模型的临床适用性和安全性。

❓

GAPS评测框架旨在提升医疗AI的评测深度与可靠性，克服现有评测的局限，推动医疗AI向临床应用转型。

GAPS通过四个维度评估AI的临床能力，包括认知深度、回答完备性、鲁棒性和安全性。

GAPS解决了医疗AI评测仅关注准确率的局限，实现了系统性、自动化评估，关注循证决策能力和安全性。

GAPS由北大人民医院院士团队主导，王俊教授领衔，团队包括多位胸外科医生，确保评测指标扎根真实临床实践。

GAPS通过基于临床指南的自动化生成工厂，实现了从问题生成到评分标准制定的端到端自动化评测。

研究显示，当前主流医疗大模型在应对复杂临床场景时表现脆弱，尤其在推理和决策能力上存在不足。

🏷️