量子位 ·

斯坦福临床医疗AI横评，DeepSeek把谷歌OpenAI都秒了

💡 原文中文，约3300字，阅读约需8分钟。

📝

内容提要

斯坦福大学评测显示，DeepSeek R1在35个基准测试中表现最佳，胜率达到66%，涵盖22个经过临床医生验证的医疗任务，显示出不同模型的显著表现差异。

🎯

关键要点

斯坦福大学评测显示，DeepSeek R1在35个基准测试中表现最佳，胜率达到66%。
评测框架包含35个基准测试，覆盖22个经过临床医生验证的医疗任务。
评测重点关注临床医生的日常工作场景，而非传统医疗执照考试题。
评测团队由29名来自14个医学专科的执业医师共同参与开发。
DeepSeek R1以66%胜率和0.75宏观平均分领先，o3-mini紧随其后，胜率为64%。
评测结果显示模型表现存在显著差异，部分模型在特定任务中表现较差。
评测采用大语言模型评审团方法，显示与临床医生评分一致性较高。
成本效益分析显示，DeepSeek R1和o3-mini的成本较高，但胜率也较高。

❓

延伸问答

DeepSeek R1在评测中表现如何？

DeepSeek R1在35个基准测试中以66%的胜率表现最佳，宏观平均分为0.75。

评测框架包含哪些内容？

评测框架包含35个基准测试，覆盖22个经过临床医生验证的医疗任务。

评测团队由哪些专业人士组成？

评测团队由29名来自14个医学专科的执业医师共同参与开发。

DeepSeek R1的成本效益如何？

DeepSeek R1的成本为1806美元，胜率为0.66，显示出较高的性价比。

评测中模型表现的差异有哪些？

模型表现存在显著差异，部分模型在特定任务中表现较差，如Gemini 2.0 Flash和GPT-4o的胜率较低。

大语言模型评审团方法的有效性如何？

大语言模型评审团方法与临床医生评分的一致性达到0.47，优于传统自动化评估指标。

🏷️

继续阅读

早报｜小米玄戒O1出货破百万，未来还将「上车」/OpenAI与微软「分手」/小红书发布首份AI治理主张
OpenAI 正在与联发科和高通合作开发新款手机处理器，预计2028年量产，立讯精密为独家制造商。新手机将由 AI 智能体直接调度用户任务，采用云端与端侧...
谷歌正在测试用于YouTube的AI聊天机器人搜索
谷歌正在测试一种名为“Ask YouTube”的新搜索方式，旨在提供更对话式的搜索体验。该功能允许用户获取长视频、短视频和相关文本信息，目前仅对美国的Yo...
微软与OpenAI的重写为Anthropic和谷歌打开了大门
OpenAI与微软重新调整合作协议，旨在简化合作方式并增强灵活性。OpenAI将能够在其他云平台提供服务，而微软希望发展自己的AI模型。尽管两者关系紧张，...
Lovelace在隐秘中崭露头角，推出声称具备1000倍AI调查能力的上下文引擎
安德鲁·摩尔创立了Lovelace AI，推出了企业级上下文引擎Elemental，旨在解决高风险AI项目失败的核心原因。该系统通过预计算和缓存大量信息，...
Open Generative AI免费开源无审查AI工作室 | 替代Higgsfield和Krea的最佳选择
Open Generative AI是一个完全免费、开源的AI图像和视频生成平台，提供200多个模型，无需订阅，用户创作成果归自己所有。该平台不进行内容审...
Presentation: AI-Powered SRE for Autonomous Incident Response
The presenters discuss incident response, how AI-enhanced SRE platforms conne...