小红花·文摘

近年来，医学领域面临大语言模型应用的挑战。牛津、卡内基梅隆和爱丁堡大学联合提出的MedGraphRAG方法，通过生成循证回答和医学术语解释，显著提升了模型在医学问答中的表现，确保了回答的可信度和准确性。该研究已入选ACL 2025。

ACL 2025丨牛津大学等提出医学GraphRAG，刷新问答准确性记录，在11个数据集评测上达SOTA

HyperAI超神经 ·

Qdrant在研究中的应用：ETH与斯坦福大学MIRIAD数据集的背后故事

Qdrant - Vector Database ·

本研究探讨了在隐私限制下，日本医学问答中基于知识图谱的检索增强生成框架（KG-based RAG）的有效性。结果表明，KG-based RAG对小规模开源LLMs的影响有限，效果依赖于外部检索内容的质量和相关性。

Exploring the Role of Knowledge Graph-based RAG in Japanese Medical Q&A

BriefGPT - AI 论文速递 ·

本研究评估了检索增强生成（RAG）模型在医学问答系统中的偏见，特别关注种族、性别和健康社会决定因素。通过分析MMLU和MedMCQA数据集，发现RAG管道存在显著的人口统计差异，强调了公平性在临床决策中的重要性。

Evaluating Bias in Retrieval-Augmented Medical Question-Answering Systems

BriefGPT - AI 论文速递 ·

蚂蚁医疗大模型在MedBench评测中获得双料冠军，得分分别为97.5和98.2。该模型在医学问答和语言生成等领域表现出色，具备多模态交互能力。自2023年进入医疗AI领域以来，已服务近3000万人次，推动了多个智能医疗应用的研发。

蚂蚁医疗大模型拿下MedBench测评“双料”冠军，原生多模态+千亿数据

量子位 ·

本研究提出了MedAgentsBench基准，旨在评估复杂医学推理的不足，尤其是在多步骤临床推理和诊断形成方面。实验结果表明，最新的思维模型在这些任务中表现优异，而高级搜索代理方法具有较高的性价比，推动了医学问答领域的发展。

MedAgentsBench: Benchmarking Thinking Models and Agent Frameworks for Complex Medical Reasoning

BriefGPT - AI 论文速递 ·

本研究提出了MedBioLM模型，通过微调和检索增强生成技术，提高医学与生物学问答的准确性和可靠性，显示出大型语言模型在生物医学研究和临床决策支持中的重要潜力。

MedBioLM: Optimizing Medical and Biological Question Answering through Fine-Tuning Large Language Models and Retrieval-Augmented Generation

BriefGPT - AI 论文速递 ·

本研究提出K-COMP方法，旨在解决医学领域问答中的理解困难。通过自动生成先验知识并与压缩文献结合，显著提高了问答模型的准确性和信任度。

K-COMP: Retrieval-Augmented Medical Domain Question Answering with Knowledge-Injected Compressor

BriefGPT - AI 论文速递 ·

本研究探讨了大语言模型和视觉语言模型在医学问答中的适应性，结果显示其表现不及基础模型，尤其在零样本和少样本条件下。未来研究需加强相关方法。

大型语言和视觉语言模型的医学适应性：我们取得进展了吗？

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLMs）在医学问答中的应用，特别是GPT-3.5和Med-PaLM 2的表现。研究表明，这些模型在医学考试和阅读理解中达到了人类水平，能够生成高质量的医学解释，提升回答能力。此外，多语言模型在某些情况下优于单语模型，研究呼吁开发新的评估标准以支持可解释的医疗问答研究。

医学问答数据集CasiMedicos-Arg的解释性论证结构注释

BriefGPT - AI 论文速递 ·

本文介绍了多个基于机器学习的生物医学知识图谱的研究进展，如BIOS、DisgeNET KG和Know2BIO。这些知识图谱在医学问答、自动诊断生成和信息整合方面展现出显著潜力，能够提高医学问答系统的准确性和效率。

基于知识图谱的复杂知识密集型医学问答代理

BriefGPT - AI 论文速递 ·

本文探讨了七种数据扩增方法在生物医学领域的应用，强调了数据扩增对医学问答系统性能的提升。研究提出了BioAug和Self-BioRAG框架，通过知识增强和自我反思显著提高了系统的准确性和效率，并公开了相关数据和模型以促进生物医学研究的发展。

生物信息学检索增强数据（BRAD）数字助手

BriefGPT - AI 论文速递 ·

Med-PaLM 2通过改进大型语言模型和医学领域微调，提升了医学问答的性能，接近医生水平。研究评估了多种语言模型在临床任务中的表现，发现它们在问答任务中表现优异，但在分类和关系抽取任务上不如专门模型。提出的“扩展-猜测-精化”策略显著提高了模型性能，初步结果显示在USMLE数据集上达到了70.63%的准确率。

采用人类启发学习策略对大型语言模型进行微调以应对医学问答

BriefGPT - AI 论文速递 ·

这项研究探讨了大型语言模型中的不确定性量化，提出了新的度量标准以评估生成解释的可靠性。研究发现，口头化不确定性不可靠，而探测不确定性与解释忠实度相关。通过实证分析，提出了Two-phase Verification方法，旨在提高医学问答中的不确定性估计，结果显示该方法在准确性和稳定性上优于现有技术。

大语言模型中量化不确定性的问题改述：在分子化学任务中的应用

BriefGPT - AI 论文速递 ·

本文探讨了基于检索增强生成（RAG）的大规模语言模型在医学领域的应用，提出了Distill-Retrieve-Read框架以提高证据检索的准确性。研究表明，RAG技术能有效改善语言模型在医学问答中的表现，解决幻觉和知识更新等问题，并讨论了未来的研究方向和挑战。

查询的几何：检索增强生成中的查询创新

BriefGPT - AI 论文速递 ·

本研究比较了通用语言模型和医学专用语言模型在医学问答中的性能，探讨了如何通过微调通用模型来提升医疗咨询和诊断能力。研究提出了有效的对齐策略，显著增强了模型在医学领域的推理和应答能力。

针对增强长上下文理解和领域专业知识的优化医学语言模型微调

BriefGPT - AI 论文速递 ·

本文探讨了检索增强型大型语言模型（RAG-LLMs）的研究进展，包括其架构、训练策略及在医疗领域的应用潜力。RAG通过从外部知识库检索信息，显著提升了LLMs的性能，尤其在医学问答中表现突出。同时，研究指出了当前的局限性及未来的研究方向，如优化检索算法和评估模型有效性。

评估检索增强生成模型的答案质量：强大的 LLM 足够了

BriefGPT - AI 论文速递 ·

本文评估了大型语言模型（LLMs）在医疗领域的表现，探讨了其在临床语言理解和医学问答中的应用。研究引入自问自答提示策略，提升了模型在医疗任务中的效果，并指出了跨语言能力的不足。通过多语言实验，强调了增强模型能力和公平信息生态系统的必要性，展示了从传统预训练模型向大型语言模型的转变及其在医学领域的潜力与挑战。

大型语言模型是否是真正的全才医护人员？超越医生考试进行健康专业基准测试

BriefGPT - AI 论文速递 ·

该论文介绍了MedExpQA，一个用于评估大型语言模型在医学问答中的多语言基准。研究发现，现有模型在非英语语言的表现仍需改进，并强调获取医学知识的挑战。通过新数据集和评估方法，旨在提升模型的可靠性和有效性，以支持临床决策。

MedExQA：具备多重解释的医学问答基准

BriefGPT - AI 论文速递 ·

本研究评估了九个大语言模型在中英文医学问答中的表现，发现模型对多选题的选项顺序敏感且一致性较差。分析小型开源模型时，发现大多数模型理解任务的能力不足。研究提出了新的评估方法，强调改进医学问答模型性能的必要性，并呼吁开发新的基准和度量指标。

多项选择题与大型语言模型：以虚构医疗数据为例的案例研究

BriefGPT - AI 论文速递 ·

ACL 2025丨牛津大学等提出医学GraphRAG，刷新问答准确性记录，在11个数据集评测上达SOTA

Qdrant在研究中的应用：ETH与斯坦福大学MIRIAD数据集的背后故事

Exploring the Role of Knowledge Graph-based RAG in Japanese Medical Q&A

Evaluating Bias in Retrieval-Augmented Medical Question-Answering Systems

蚂蚁医疗大模型拿下MedBench测评“双料”冠军，原生多模态+千亿数据

MedAgentsBench: Benchmarking Thinking Models and Agent Frameworks for Complex Medical Reasoning

MedBioLM: Optimizing Medical and Biological Question Answering through Fine-Tuning Large Language Models and Retrieval-Augmented Generation

K-COMP: Retrieval-Augmented Medical Domain Question Answering with Knowledge-Injected Compressor

大型语言和视觉语言模型的医学适应性：我们取得进展了吗？

医学问答数据集CasiMedicos-Arg的解释性论证结构注释

基于知识图谱的复杂知识密集型医学问答代理

生物信息学检索增强数据（BRAD）数字助手

采用人类启发学习策略对大型语言模型进行微调以应对医学问答

大语言模型中量化不确定性的问题改述：在分子化学任务中的应用

查询的几何：检索增强生成中的查询创新

针对增强长上下文理解和领域专业知识的优化医学语言模型微调

评估检索增强生成模型的答案质量：强大的 LLM 足够了

大型语言模型是否是真正的全才医护人员？ 超越医生考试进行健康专业基准测试

MedExQA：具备多重解释的医学问答基准

多项选择题与大型语言模型：以虚构医疗数据为例的案例研究

大型语言模型是否是真正的全才医护人员？超越医生考试进行健康专业基准测试