量子位 ·

36.4万超声图文对！中国团队构建首个大规模超声专属数据集，让AI真正读懂临床诊断语义丨CVPR’26

💡 原文中文，约3500字，阅读约需9分钟。

📝

内容提要

浙大城市学院等团队构建了首个专用超声图像-文本数据集US-365K，解决了超声影像领域的数据缺口和语义模糊问题。提出的Ultrasound-CLIP框架通过结构化推理和双目标优化，提升了超声诊断的准确性和模型的泛化能力，相关成果已开源，为超声AI研究奠定基础。

🎯

🔎

超声影像因其无辐射和实时性，已成为临床诊断的重要工具。US-365K数据集的构建为超声AI的发展提供了坚实基础，未来可能推动超声在更多临床场景中的应用，提升诊断效率和准确性。

Ultrasound-CLIP框架通过引入UDAF引导的异质图编码器和语义软标签，突破了传统模型的局限，使得超声图像与文本的理解更加精准。这一创新可能为其他医学影像领域的AI研究提供借鉴。

US-365K数据集及相关代码的开源，为后续研究者提供了可直接复用的资源。这种开放性不仅促进了学术交流，也可能加速超声AI技术的迭代与应用，推动整个领域的发展。

❓

US-365K数据集包含36.4万对超声图像-文本样本，覆盖全解剖区域，是业内首个100%专属超声的大规模图文数据集。

Ultrasound-CLIP框架通过结构化推理和双目标优化，提升了超声诊断的准确性和模型的泛化能力。

超声样本在现有医疗跨模态数据集中占比不足5%，缺乏大规模、标准化的专属训练数据。

框架创新融入UDAF引导的异质图编码器和基于UDAF的语义软标签，突破了通用模型的局限。

团队从5个国际权威医疗数据库收集超声数据，经过多步骤处理和医疗专家审核，最终构建出US-365K数据集。

在图像到文本检索任务中，Ultrasound-CLIP的准确率达37.45%，文本到图像检索达80.22%，实现高效双向匹配。

🏷️