通过改进多模态大型语言模型应用临床指南进行前列腺癌 PI-RADS 评分

本论文提出了一种新的方法，利用多模态大型语言模型（MLLM）在不需要额外注释和网络参数的情况下将临床指南（PICG）融入 PI-RADS 评分，通过两阶段微调过程，将 MLLM 从自然图像训练转移到 MRI 数据领域，并有效地集成 PICG。实验结果表明，我们的方法改进了当前评分网络的性能。

研究提出了一种新的评估框架，使用大型语言模型对医学成像报告进行评估。通过与放射科医生评估结果对比，提出了一种性能接近GPT-4的度量标准。利用语言模型评估结果构建数据集，进行了知识蒸馏以训练较小的模型，该模型的评估能力与GPT-4相当。该方法提供了一种易于使用和高效的评估方法，促进了更具临床相关性的模型的开发。

医学成像报告大型语言模型度量标准知识蒸馏评估框架语言模型