斯坦福临床医疗AI横评，DeepSeek把谷歌OpenAI都秒了

含35个基准测试的综合评估框架，覆盖22个子类别医疗任务

斯坦福大学评测显示，DeepSeek R1在35个基准测试中表现最佳，胜率达到66%，涵盖22个经过临床医生验证的医疗任务，显示出不同模型的显著表现差异。

DeepSeek R1 ai deepseek openai 医疗AI 基准测试胜率评测谷歌

原文中文，约3300字，阅读约需8分钟。发表于：。

分享给好友