斯坦福临床医疗AI横评,DeepSeek把谷歌OpenAI都秒了 含35个基准测试的综合评估框架,覆盖22个子类别医疗任务 斯坦福大学评测显示,DeepSeek R1在35个基准测试中表现最佳,胜率达到66%,涵盖22个经过临床医生验证的医疗任务,显示出不同模型的显著表现差异。 DeepSeek R1 ai deepseek openai 医疗AI 基准测试 胜率 评测 谷歌