AI医生终于有了硬标尺!全球首个专病循证评测框架GAPS发布,蚂蚁联合北大王俊院士团队出品
💡
原文中文,约4400字,阅读约需11分钟。
📝
内容提要
蚂蚁健康与北大王俊院士团队发布全球首个专病循证评测框架GAPS,专注于肺癌,包含92个问题和1691个临床要点,旨在提升医疗AI的评测深度与可靠性。GAPS通过四个维度评估AI的临床能力,克服现有评测的局限,推动医疗AI向临床应用转型。
🎯
关键要点
- 蚂蚁健康与北大王俊院士团队发布全球首个专病循证评测框架GAPS,专注于肺癌。
- GAPS包含92个问题和1691个临床要点,旨在提升医疗AI的评测深度与可靠性。
- GAPS通过四个维度评估AI的临床能力,克服现有评测的局限。
- 院士团队主导临床标准构建,确保评测指标扎根真实临床实践。
- GAPS解决了医疗AI评测仅关注准确率的局限,实现系统性、自动化评估。
- GAPS的评测框架具备专家级可靠性,能够量化、复现和进化AI医疗能力。
- 研究显示,当前主流医疗大模型在应对复杂临床场景时表现脆弱。
- GAPS标志着医疗AI评测标准的转移,从考试分数向临床胜任力的范式转变。
➡️