近年来,医学领域面临大语言模型应用的挑战。牛津、卡内基梅隆和爱丁堡大学联合提出的MedGraphRAG方法,通过生成循证回答和医学术语解释,显著提升了模型在医学问答中的表现,确保了回答的可信度和准确性。该研究已入选ACL 2025。
ETH苏黎世和斯坦福大学的研究人员发布了MIRIAD,一个包含580万医学问答对的开源数据集,旨在解决医学领域数据不足的问题。该数据集基于900,000篇同行评审文献,经过多阶段过滤以确保数据质量,能显著减少医学AI中的幻觉现象,提升其可靠性和应用。研究者计划每年更新MIRIAD,以促进医学AI系统的发展。
本研究探讨了在隐私限制下,日本医学问答中基于知识图谱的检索增强生成框架(KG-based RAG)的有效性。结果表明,KG-based RAG对小规模开源LLMs的影响有限,效果依赖于外部检索内容的质量和相关性。
本研究评估了检索增强生成(RAG)模型在医学问答系统中的偏见,特别关注种族、性别和健康社会决定因素。通过分析MMLU和MedMCQA数据集,发现RAG管道存在显著的人口统计差异,强调了公平性在临床决策中的重要性。
蚂蚁医疗大模型在MedBench评测中获得双料冠军,得分分别为97.5和98.2。该模型在医学问答和语言生成等领域表现出色,具备多模态交互能力。自2023年进入医疗AI领域以来,已服务近3000万人次,推动了多个智能医疗应用的研发。
本研究提出了MedAgentsBench基准,旨在评估复杂医学推理的不足,尤其是在多步骤临床推理和诊断形成方面。实验结果表明,最新的思维模型在这些任务中表现优异,而高级搜索代理方法具有较高的性价比,推动了医学问答领域的发展。
本研究提出了MedBioLM模型,通过微调和检索增强生成技术,提高医学与生物学问答的准确性和可靠性,显示出大型语言模型在生物医学研究和临床决策支持中的重要潜力。
本研究提出K-COMP方法,旨在解决医学领域问答中的理解困难。通过自动生成先验知识并与压缩文献结合,显著提高了问答模型的准确性和信任度。
本研究探讨了大语言模型和视觉语言模型在医学问答中的适应性,结果显示其表现不及基础模型,尤其在零样本和少样本条件下。未来研究需加强相关方法。
本文探讨了大型语言模型(LLMs)在医学问答中的应用,特别是GPT-3.5和Med-PaLM 2的表现。研究表明,这些模型在医学考试和阅读理解中达到了人类水平,能够生成高质量的医学解释,提升回答能力。此外,多语言模型在某些情况下优于单语模型,研究呼吁开发新的评估标准以支持可解释的医疗问答研究。
本文介绍了多个基于机器学习的生物医学知识图谱的研究进展,如BIOS、DisgeNET KG和Know2BIO。这些知识图谱在医学问答、自动诊断生成和信息整合方面展现出显著潜力,能够提高医学问答系统的准确性和效率。
本文探讨了七种数据扩增方法在生物医学领域的应用,强调了数据扩增对医学问答系统性能的提升。研究提出了BioAug和Self-BioRAG框架,通过知识增强和自我反思显著提高了系统的准确性和效率,并公开了相关数据和模型以促进生物医学研究的发展。
Med-PaLM 2通过改进大型语言模型和医学领域微调,提升了医学问答的性能,接近医生水平。研究评估了多种语言模型在临床任务中的表现,发现它们在问答任务中表现优异,但在分类和关系抽取任务上不如专门模型。提出的“扩展-猜测-精化”策略显著提高了模型性能,初步结果显示在USMLE数据集上达到了70.63%的准确率。
这项研究探讨了大型语言模型中的不确定性量化,提出了新的度量标准以评估生成解释的可靠性。研究发现,口头化不确定性不可靠,而探测不确定性与解释忠实度相关。通过实证分析,提出了Two-phase Verification方法,旨在提高医学问答中的不确定性估计,结果显示该方法在准确性和稳定性上优于现有技术。
本文探讨了基于检索增强生成(RAG)的大规模语言模型在医学领域的应用,提出了Distill-Retrieve-Read框架以提高证据检索的准确性。研究表明,RAG技术能有效改善语言模型在医学问答中的表现,解决幻觉和知识更新等问题,并讨论了未来的研究方向和挑战。
本研究比较了通用语言模型和医学专用语言模型在医学问答中的性能,探讨了如何通过微调通用模型来提升医疗咨询和诊断能力。研究提出了有效的对齐策略,显著增强了模型在医学领域的推理和应答能力。
本文探讨了检索增强型大型语言模型(RAG-LLMs)的研究进展,包括其架构、训练策略及在医疗领域的应用潜力。RAG通过从外部知识库检索信息,显著提升了LLMs的性能,尤其在医学问答中表现突出。同时,研究指出了当前的局限性及未来的研究方向,如优化检索算法和评估模型有效性。
本文评估了大型语言模型(LLMs)在医疗领域的表现,探讨了其在临床语言理解和医学问答中的应用。研究引入自问自答提示策略,提升了模型在医疗任务中的效果,并指出了跨语言能力的不足。通过多语言实验,强调了增强模型能力和公平信息生态系统的必要性,展示了从传统预训练模型向大型语言模型的转变及其在医学领域的潜力与挑战。
该论文介绍了MedExpQA,一个用于评估大型语言模型在医学问答中的多语言基准。研究发现,现有模型在非英语语言的表现仍需改进,并强调获取医学知识的挑战。通过新数据集和评估方法,旨在提升模型的可靠性和有效性,以支持临床决策。
本研究评估了九个大语言模型在中英文医学问答中的表现,发现模型对多选题的选项顺序敏感且一致性较差。分析小型开源模型时,发现大多数模型理解任务的能力不足。研究提出了新的评估方法,强调改进医学问答模型性能的必要性,并呼吁开发新的基准和度量指标。
完成下面两步后,将自动完成登录并继续当前操作。