量子位 ·

7B打败o3、GPT-5！医学AI智能体让模型学会“看哪里、怎么看”

💡 原文中文，约3600字，阅读约需9分钟。

📝

内容提要

医学AI正在经历重要转型，Ophiuchus和MedScope提出了“以图像/视频思考”的新范式。模型不再被动接收视觉信息，而是主动调用视觉工具，实时修正推理过程。Ophiuchus专注于图像，MedScope处理长视频，强调证据驱动的推理，提升医学AI的可解释性和准确性。这一转变使模型能够在临床推理中主动寻找和验证视觉证据，推动医学AI向更高水平发展。

🎯

关键要点

医学AI正在经历重要转型，Ophiuchus和MedScope提出了“以图像/视频思考”的新范式。
模型不再被动接收视觉信息，而是主动调用视觉工具，实时修正推理过程。
Ophiuchus专注于图像，MedScope处理长视频，强调证据驱动的推理，提升医学AI的可解释性和准确性。
这一转变使模型能够在临床推理中主动寻找和验证视觉证据，推动医学AI向更高水平发展。
Ophiuchus通过与医学图像工具协同工作，提升了模型在细粒度视觉证据任务中的表现。
MedScope则在长视频场景中模拟临床医生的观察方式，强调时间和内容的结合。
两者共同定义了一种新的医学多模态智能范式，推动医学AI向交互式、证据驱动的推理方式发展。

🔎

延伸解读

医学AI的新范式

Ophiuchus和MedScope的研究标志着医学AI领域的重大转型。通过引入“以图像/视频思考”的新范式，模型不仅被动接收信息，而是主动寻找和验证视觉证据。这种转变提升了模型的可解释性和准确性，使其在临床推理中更具实用性。

工具的有效整合

Ophiuchus通过与医学图像工具的协同工作，提升了模型在细粒度视觉证据任务中的表现。这种工具的有效整合不仅提高了模型的准确性，还使其能够在推理过程中动态调整策略，增强了临床应用的可靠性。

长视频理解的挑战

MedScope在处理长视频时面临的挑战在于关键证据的稀疏性和时间敏感性。通过模拟临床医生的观察方式，MedScope能够更好地捕捉和整合重要时刻的视觉信息，从而提升模型在复杂场景下的推理能力。

❓

延伸问答

Ophiuchus和MedScope的主要创新是什么？

Ophiuchus和MedScope提出了“以图像/视频思考”的新范式，使模型在推理过程中主动调用视觉工具，实时修正判断。

Ophiuchus如何提升医学AI的推理能力？

Ophiuchus通过与医学图像工具协同工作，使模型能够主动决定何时调用工具，提升细粒度视觉证据的处理能力。

MedScope在处理长视频时面临哪些挑战？

MedScope面临的挑战包括关键证据稀疏和时间敏感性，需要模拟临床医生的观察方式来提取重要信息。

这两种模型如何改变医学AI的推理方式？

这两种模型通过将视觉证据纳入推理过程，推动医学AI从被动生成答案转向主动寻找和验证证据。

Ophiuchus和MedScope的共同目标是什么？

它们的共同目标是定义一种新的医学多模态智能范式，使推理过程成为语言、工具和视觉证据的闭环交互。

“Think with Images/Videos”对医学AI的意义是什么？

这一范式使医学AI能够在推理中主动寻找、验证并引用视觉证据，提升了模型的可解释性和准确性。

🏷️