InfoQ ·

谷歌发布MedGemma：用于医疗文本和图像分析的开源AI模型

💡 原文英文，约500词，阅读约需2分钟。

📝

内容提要

谷歌推出了MedGemma，包含两个开源生成AI模型，分别为多模态的MedGemma 4B和专注于医疗文本的27B。它们可用于放射报告生成和临床总结等任务，但谷歌强调需进一步验证，不能直接用于临床。

🎯

🔎

尽管MedGemma模型在医疗文本和图像分析方面具有潜力，但谷歌明确指出，这些模型在未经进一步验证和适应的情况下不应直接用于临床。这意味着开发者在使用这些模型时，必须谨慎评估其适用性，尤其是在关键医疗决策中。

早期测试者的反馈表明，MedGemma 4B在处理某些病例时可能会出现误判，强调了高质量标注数据在模型训练中的重要性。为了提高模型的临床适应性，开发者应考虑在高质量数据集上进行额外训练，以确保输出结果符合临床期望。

MedGemma 4B作为一个多模态模型，能够同时处理图像和文本，展现了在医疗领域的广泛应用潜力。未来，随着技术的进步和模型的进一步优化，可能会实现更复杂的任务，如结合影像分析与临床文本生成，从而提升医疗服务的效率和准确性。

❓

MedGemma模型主要用于放射报告生成、临床总结、患者分诊和一般医疗问答等任务。

MedGemma 4B是一个多模态模型，能够处理图像和文本，而MedGemma 27B专注于医疗文本。

谷歌强调，MedGemma在未经进一步验证和适应的情况下不应直接用于临床。

建议在高质量标注数据上进行额外训练，以提高模型输出与临床期望的一致性。

模型的训练数据包括公共数据集如MIMIC-CXR、Slake-VQA等，以及一些专有和内部数据集。

模型可以通过提示工程、微调和与Gemini生态系统其他工具的集成进行适应。

🏷️