小红花·文摘

腾讯优图团队发布的MedKGEval框架首次量化了GPT-4o等大语言模型在医学知识覆盖度，仅为55%。该框架通过医疗知识图谱进行多层级评估，揭示了模型在医学知识存储与推理能力上的优势与局限，为提升医疗模型的可靠性提供依据。

GPT-4o医学知识覆盖率仅55%？腾讯优图团队发布大模型医疗能力“体检报告”

量子位 ·

本研究针对医学知识图谱在治疗映射中普遍存在的知识缺失和结构性局限性这一问题，探讨了大型语言模型（LLMs）在补全缺失治疗关系中的应用。研究发现，尽管LLMs具有知识增强的潜力，但其在医学知识补全中的应用存在事实不准确、幻觉关联和稳定性问题，提醒研究者和实践者在使用LLMs时应加强评估和采用混合方法。

大型语言模型能支持医学知识补全吗？基于评估的视角

BriefGPT - AI 论文速递 ·

本研究针对大语言模型在医学知识回忆和应用方面的不足进行探索，尤其是在现有评测中难以隔离其内在医学知识和推理能力的情况下。研究引入了医学知识判断数据集，专注于评估LLMs在医学事实上的一跳知识，其发现表明LLMs在保留医学事实方面存在显著困难，特别是在稀有疾病的语义类别中表现不佳，同时还存在过于自信的错误回答现象。通过检索增强生成的方法，研究显示在提高医学决策的准确性和减少不确定性方面具有有效性。

事实还是猜测？评估大语言模型的医学知识与结构化单步判断

BriefGPT - AI 论文速递 ·

本研究提出了MedXpertQA，这是一个全面且具有挑战性的基准，用于评估专家级医学知识和高级推理能力。该基准涵盖4460个问题，涉及17个专业和11个身体系统，旨在填补现有评估的不足，对医学决策具有潜在影响。

MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，通过结合医学知识和增强特征重演，解决胸部CT图像中的自监督学习挑战，显著提升模型特征表示能力，实验结果优于现有技术。

Continuous Self-Supervised Learning for Chest CT Images Considering Medical Domain Knowledge

BriefGPT - AI 论文速递 ·

本研究提出了多模态推荐系统的新方法，包括基于图形的物品结构增强方法MM-GEF和多模态UMLS图神经网络学习MMUGL。这些方法通过整合多模态特征和医学知识，提升了推荐和疾病预测的性能，实验结果显示其优于现有技术。

GUME：针对长尾多模态推荐的图和用户模态增强

BriefGPT - AI 论文速递 ·

本文提出了一种结合医学知识的深度生成时间序列方法，用于复杂疾病轨迹的建模与分析。该方法在系统性硬化病中展示了有效性，能够进行个性化在线监测、疾病预测及临床假设测试。通过神经随机微分方程，模型能高置信度地预测患者的疾病进展和治疗效果。

半监督生成模型用于疾病轨迹研究：以系统性硬化为例

BriefGPT - AI 论文速递 ·

本研究聚焦于日语癫痫病，推出了基于大型语言模型的EpilepsyLLM，经过细调后能提供专业医学知识。评估显示，医学领域的推理能力存在差距，尤其在数值问题上不及人类。研究探讨了医学LLMs的应用、挑战及未来方向，为医疗应用提供指导。

SemioLLM：大型语言模型在癫痫研究中的符号学分析评估

BriefGPT - AI 论文速递 ·

通过结合 Large Language Models 的推理能力和 Tree Search 的效果，我们提出了一种基于 Self-Rewarding Tree Search 的新型 LLM 检索方法，通过使用 SeRTS 收集的轨迹作为反馈来使用 Proximal Policy Optimization 优化 LLMs，从而显著提高了在医学知识查询背景下 RAG...

增强医学知识检索辅助生成：自奖励树搜索和近端策略优化

BriefGPT - AI 论文速递 ·

临床问题解决需要处理语义医学知识，如疾病描述和诊断测试的数值医学知识进行循证决策。因此，我们评估了大型语言模型（LLMs）在数值和语义问题类型上的表现，并将其与人类进行比较。研究发现，LLMs 在语义问题上的表现优于数值问题，在不同的医学方面存在差距，仍然不及人类，因此应该谨慎对待它们的医疗建议。

大型语言模型在数值和语义医学知识方面的性能表现：基于循证问题与答案的基准评估

BriefGPT - AI 论文速递 ·

目前的大型语言模型在实际应用于医学领域中的任务时，存在显著的实际效果与报道性能之间的差距，这篇论文通过多方面的评估方法发现当前大型语言模型在医学知识的掌握方面缺乏深度、准确性和全面性，因此尚不适用于真实医学任务。

MultifacetEval: 探索 LLM 在掌握医学知识中的多方面评估

BriefGPT - AI 论文速递 ·

该论文介绍了MedExpQA，这是一个用于评估大型语言模型在医学问答中的表现的多语言基准，指出其在非英语语言中的性能仍需改进，并强调整合医学知识的挑战，呼吁开发其他语言的基准。

AdvisorQA: 以集体智慧解答有益无害的咨询问题

BriefGPT - AI 论文速递 ·

本文介绍了多模态自然语言处理模型MedViLL，该模型基于BERT，采用新颖的多模态注意力机制。经过严格评估，MedViLL在医学影像报告的分类、检索和生成等任务中表现优越。研究还探讨了生成式模型、医学图像文本匹配及会话式医疗视觉模型，展示了其在医学图像分析中的潜力和效果。

DeViDe：基于分面的医学知识，以提升医学视觉 - 语言预训练

BriefGPT - AI 论文速递 ·

本文介绍了综合连续场景图生成（CSEGG）数据集，探讨了现有场景图生成（SGG）方法在学习新对象时对旧对象的保留情况，以及如何通过连续目标检测提升对未知对象的泛化能力。同时，研究发展了基于多种模型的场景图像生成基准测试，并提出了优化视觉语言融合和医学知识提炼的新方法。

HiKER-SGG：分层知识增强鲁棒场景图生成

BriefGPT - AI 论文速递 ·

我们提出了一个名为Heath-LLM的创新框架，结合大规模特征提取和医学知识权衡评分，具有整合健康报告、调整特征得分和提高疾病预测准确性的优势。实验结果表明该方法有潜力改变疾病预测和个性化健康管理。

健康 - LLM: 个性化检索增强疾病预测模型

BriefGPT - AI 论文速递 ·

本文评估了大型语言模型（LLM）在生物医学任务中的性能，发现LLMs在具有较小训练集的生物医学数据集中的效果超过了当前最先进的生物医学模型。尽管与精细调整的生物医学模型相比，LLMs的性能仍然较差，但它们在缺乏大规模注释数据的生物医学任务中具有潜在的价值。

癫痫 LLM: 领域特定的大型语言模型，以癫痫医学知识进行了精细调整

BriefGPT - AI 论文速递 ·

我们提出了一个深度生成时间序列的方法，用于建模和分析复杂疾病轨迹。通过结合生成方法与医学知识，我们展示了学习到的时间潜在过程可用于数据分析和临床假设测试。我们的方法能够进行个性化在线监测和多变量时间序列的预测，包括不确定性量化。我们在系统性硬化病过程中展示了我们方法的有效性，展示了我们机器学习模型捕捉复杂疾病轨迹和获取新医学知识的潜力。

解释可微潜在状态对医疗时间序列数据

BriefGPT - AI 论文速递 ·

通过引入医学知识，构建了大规模的分割数据集SA-Med2D-20M，包含460万个2D医学图像和1970万个蒙版，旨在开发医学人工智能，提升诊断、医学图像分析、知识共享和教育。

SA-Med2D-20M 数据集：用 2000 万个掩模对 2D 医学影像进行分割

BriefGPT - AI 论文速递 ·

本文提出了一种深度生成时间序列的方法，用于建模和分析复杂疾病轨迹，并结合生成方法与医学知识进行数据分析和临床假设测试。该方法还可用于个性化在线监测和多变量时间序列预测。通过在系统性硬化病过程中的应用，展示了该方法的有效性和获取新医学知识的潜力。

利用半监督潜在过程的深度生成模型对复杂疾病轨迹进行建模

BriefGPT - AI 论文速递 ·