腾讯优图团队发布的MedKGEval框架首次量化了GPT-4o等大语言模型在医学知识覆盖度,仅为55%。该框架通过医疗知识图谱进行多层级评估,揭示了模型在医学知识存储与推理能力上的优势与局限,为提升医疗模型的可靠性提供依据。
本研究针对医学知识图谱在治疗映射中普遍存在的知识缺失和结构性局限性这一问题,探讨了大型语言模型(LLMs)在补全缺失治疗关系中的应用。研究发现,尽管LLMs具有知识增强的潜力,但其在医学知识补全中的应用存在事实不准确、幻觉关联和稳定性问题,提醒研究者和实践者在使用LLMs时应加强评估和采用混合方法。
本研究针对大语言模型在医学知识回忆和应用方面的不足进行探索,尤其是在现有评测中难以隔离其内在医学知识和推理能力的情况下。研究引入了医学知识判断数据集,专注于评估LLMs在医学事实上的一跳知识,其发现表明LLMs在保留医学事实方面存在显著困难,特别是在稀有疾病的语义类别中表现不佳,同时还存在过于自信的错误回答现象。通过检索增强生成的方法,研究显示在提高医学决策的准确性和减少不确定性方面具有有效性。
本研究提出了MedXpertQA,这是一个全面且具有挑战性的基准,用于评估专家级医学知识和高级推理能力。该基准涵盖4460个问题,涉及17个专业和11个身体系统,旨在填补现有评估的不足,对医学决策具有潜在影响。
本研究提出了一种新方法,通过结合医学知识和增强特征重演,解决胸部CT图像中的自监督学习挑战,显著提升模型特征表示能力,实验结果优于现有技术。
大视觉语言模型(LVLMs)在医学上下文中容易产生幻觉,对其稳健性的研究有限。医学LVLMs比通用模型更容易产生幻觉,引发对其可靠性的担忧。医学LVLMs需要准确整合医学知识,并保持稳健的推理能力以防止幻觉。
大视觉语言模型(LVLMs)在医学上下文中容易产生幻觉,对模型的稳健性提出了担忧。研究引入了医学视觉幻觉测试(MedVH)数据集来评估LVLMs的幻觉。实验结果显示,医学LVLMs在标准医学任务上表现良好,但比通用模型更容易产生幻觉。医学LVLMs需要准确整合医学知识并保持稳健的推理能力以在真实世界应用中有价值。
通过结合 Large Language Models 的推理能力和 Tree Search 的效果,我们提出了一种基于 Self-Rewarding Tree Search 的新型 LLM 检索方法,通过使用 SeRTS 收集的轨迹作为反馈来使用 Proximal Policy Optimization 优化 LLMs,从而显著提高了在医学知识查询背景下 RAG...
临床问题解决需要处理语义医学知识,如疾病描述和诊断测试的数值医学知识进行循证决策。因此,我们评估了大型语言模型(LLMs)在数值和语义问题类型上的表现,并将其与人类进行比较。研究发现,LLMs 在语义问题上的表现优于数值问题,在不同的医学方面存在差距,仍然不及人类,因此应该谨慎对待它们的医疗建议。
目前的大型语言模型在实际应用于医学领域中的任务时,存在显著的实际效果与报道性能之间的差距,这篇论文通过多方面的评估方法发现当前大型语言模型在医学知识的掌握方面缺乏深度、准确性和全面性,因此尚不适用于真实医学任务。
DeViDe是一种基于Transformer的新方法,用于胸片X光的视觉语言预训练,利用放射照片描述和开放网络中的通用视觉特征,提供了对医学知识的整体快照。在零样本设置下,DeViDe在外部数据集上表现出与全监督模型相当的性能,并在三个大规模数据集上达到了最先进的结果。此外,DeViDe在下游任务和分割任务上也展示了优越的性能。
利用强大的视觉-语言模型(VLM)解决下游任务,通过可解释提示学习框架对医学知识和临床概念进行语义对齐,提供视觉和文本解释。实验证明该方法在诊断性能、灵活性和可解释性方面优越。
我们提出了一个名为Heath-LLM的创新框架,结合大规模特征提取和医学知识权衡评分,具有整合健康报告、调整特征得分和提高疾病预测准确性的优势。实验结果表明该方法有潜力改变疾病预测和个性化健康管理。
本文评估了大型语言模型(LLM)在生物医学任务中的性能,发现LLMs在具有较小训练集的生物医学数据集中的效果超过了当前最先进的生物医学模型。尽管与精细调整的生物医学模型相比,LLMs的性能仍然较差,但它们在缺乏大规模注释数据的生物医学任务中具有潜在的价值。
我们提出了一个深度生成时间序列的方法,用于建模和分析复杂疾病轨迹。通过结合生成方法与医学知识,我们展示了学习到的时间潜在过程可用于数据分析和临床假设测试。我们的方法能够进行个性化在线监测和多变量时间序列的预测,包括不确定性量化。我们在系统性硬化病过程中展示了我们方法的有效性,展示了我们机器学习模型捕捉复杂疾病轨迹和获取新医学知识的潜力。
通过引入医学知识,构建了大规模的分割数据集SA-Med2D-20M,包含460万个2D医学图像和1970万个蒙版,旨在开发医学人工智能,提升诊断、医学图像分析、知识共享和教育。
本文提出了一种深度生成时间序列的方法,用于建模和分析复杂疾病轨迹,并结合生成方法与医学知识进行数据分析和临床假设测试。该方法还可用于个性化在线监测和多变量时间序列预测。通过在系统性硬化病过程中的应用,展示了该方法的有效性和获取新医学知识的潜力。
完成下面两步后,将自动完成登录并继续当前操作。