量子位 ·

GPT-4o医学知识覆盖率仅55%？腾讯优图团队发布大模型医疗能力“体检报告”

💡 原文中文，约2900字，阅读约需7分钟。

📝

内容提要

腾讯优图团队发布的MedKGEval框架首次量化了GPT-4o等大语言模型在医学知识覆盖度，仅为55%。该框架通过医疗知识图谱进行多层级评估，揭示了模型在医学知识存储与推理能力上的优势与局限，为提升医疗模型的可靠性提供依据。

🎯

🔎

GPT-4o在医学知识覆盖度仅为55%，显示出当前大语言模型在医学领域的知识储备仍有不足。这一结果提示医疗行业在依赖这些模型时需谨慎，尤其是在处理复杂病例或罕见病症时，可能会面临知识盲区。

MedKGEval框架通过多层级评估体系，首次系统性地量化大语言模型的医学知识。这种创新方法不仅能识别模型的优势，还能有效定位其认知缺陷，为后续的模型优化提供了重要依据，推动医疗AI的可靠性提升。

MedKGEval框架的三级评估体系涵盖实体理解、医学关联认知和结构化推理，能够全面评估模型的医学知识。这种细致的评估方式为医疗领域的AI应用提供了更为科学的依据，帮助开发者在微调过程中有针对性地补充知识。

❓

MedKGEval框架通过医疗知识图谱进行多层级评估，量化大语言模型在医学知识覆盖度的表现。

GPT-4o在评估中表现最佳，平均准确率为70.65%，在知识覆盖度上领先其他模型。

框架设计了三级评估体系，包括实体层、关系层和子图层，评估任务涵盖实体理解、医学关联认知和结构化推理。

主流评估体系存在长尾数据覆盖不足、任务导向设计局限和传统问答形式的缺陷。

研究团队建议在微调中针对性补充医学知识，以提升医疗领域大语言模型的整体性能。

评估任务包括实体理解、医学关联认知和结构化推理，采用真伪判断和多选题形式。

🏷️