小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

腾讯优图团队发布的MedKGEval框架首次量化了GPT-4o等大语言模型在医学知识覆盖度,仅为55%。该框架通过医疗知识图谱进行多层级评估,揭示了模型在医学知识存储与推理能力上的优势与局限,为提升医疗模型的可靠性提供依据。

GPT-4o医学知识覆盖率仅55%?腾讯优图团队发布大模型医疗能力“体检报告”

量子位
量子位 · 2025-04-30T05:59:47Z

本研究针对医学知识图谱在治疗映射中普遍存在的知识缺失和结构性局限性这一问题,探讨了大型语言模型(LLMs)在补全缺失治疗关系中的应用。研究发现,尽管LLMs具有知识增强的潜力,但其在医学知识补全中的应用存在事实不准确、幻觉关联和稳定性问题,提醒研究者和实践者在使用LLMs时应加强评估和采用混合方法。

大型语言模型能支持医学知识补全吗?基于评估的视角

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-29T00:00:00Z

本研究针对大语言模型在医学知识回忆和应用方面的不足进行探索,尤其是在现有评测中难以隔离其内在医学知识和推理能力的情况下。研究引入了医学知识判断数据集,专注于评估LLMs在医学事实上的一跳知识,其发现表明LLMs在保留医学事实方面存在显著困难,特别是在稀有疾病的语义类别中表现不佳,同时还存在过于自信的错误回答现象。通过检索增强生成的方法,研究显示在提高医学决策的准确性和减少不确定性方面具有有效性。

事实还是猜测?评估大语言模型的医学知识与结构化单步判断

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-20T00:00:00Z

本研究提出了MedXpertQA,这是一个全面且具有挑战性的基准,用于评估专家级医学知识和高级推理能力。该基准涵盖4460个问题,涉及17个专业和11个身体系统,旨在填补现有评估的不足,对医学决策具有潜在影响。

MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-30T00:00:00Z

本研究提出了一种新方法,通过结合医学知识和增强特征重演,解决胸部CT图像中的自监督学习挑战,显著提升模型特征表示能力,实验结果优于现有技术。

Continuous Self-Supervised Learning for Chest CT Images Considering Medical Domain Knowledge

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-08T00:00:00Z

大视觉语言模型(LVLMs)在医学上下文中容易产生幻觉,对其稳健性的研究有限。医学LVLMs比通用模型更容易产生幻觉,引发对其可靠性的担忧。医学LVLMs需要准确整合医学知识,并保持稳健的推理能力以防止幻觉。

引导医学大型视觉 - 语言模型通过视觉问答诊断病变

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-31T00:00:00Z

大视觉语言模型(LVLMs)在医学上下文中容易产生幻觉,对模型的稳健性提出了担忧。研究引入了医学视觉幻觉测试(MedVH)数据集来评估LVLMs的幻觉。实验结果显示,医学LVLMs在标准医学任务上表现良好,但比通用模型更容易产生幻觉。医学LVLMs需要准确整合医学知识并保持稳健的推理能力以在真实世界应用中有价值。

BEAF:评估视觉语言模型中的幻觉的前后变化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-18T00:00:00Z

通过结合 Large Language Models 的推理能力和 Tree Search 的效果,我们提出了一种基于 Self-Rewarding Tree Search 的新型 LLM 检索方法,通过使用 SeRTS 收集的轨迹作为反馈来使用 Proximal Policy Optimization 优化 LLMs,从而显著提高了在医学知识查询背景下 RAG...

增强医学知识检索辅助生成:自奖励树搜索和近端策略优化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-17T00:00:00Z

临床问题解决需要处理语义医学知识,如疾病描述和诊断测试的数值医学知识进行循证决策。因此,我们评估了大型语言模型(LLMs)在数值和语义问题类型上的表现,并将其与人类进行比较。研究发现,LLMs 在语义问题上的表现优于数值问题,在不同的医学方面存在差距,仍然不及人类,因此应该谨慎对待它们的医疗建议。

大型语言模型在数值和语义医学知识方面的性能表现:基于循证问题与答案的基准评估

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-06T00:00:00Z

目前的大型语言模型在实际应用于医学领域中的任务时,存在显著的实际效果与报道性能之间的差距,这篇论文通过多方面的评估方法发现当前大型语言模型在医学知识的掌握方面缺乏深度、准确性和全面性,因此尚不适用于真实医学任务。

MultifacetEval: 探索 LLM 在掌握医学知识中的多方面评估

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-05T00:00:00Z

DeViDe是一种基于Transformer的新方法,用于胸片X光的视觉语言预训练,利用放射照片描述和开放网络中的通用视觉特征,提供了对医学知识的整体快照。在零样本设置下,DeViDe在外部数据集上表现出与全监督模型相当的性能,并在三个大规模数据集上达到了最先进的结果。此外,DeViDe在下游任务和分割任务上也展示了优越的性能。

DeViDe:基于分面的医学知识,以提升医学视觉 - 语言预训练

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-04T00:00:00Z

利用强大的视觉-语言模型(VLM)解决下游任务,通过可解释提示学习框架对医学知识和临床概念进行语义对齐,提供视觉和文本解释。实验证明该方法在诊断性能、灵活性和可解释性方面优越。

XCoOp:基于概念引导的上下文优化的计算机辅助诊断可解释式提示学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-14T00:00:00Z

我们提出了一个名为Heath-LLM的创新框架,结合大规模特征提取和医学知识权衡评分,具有整合健康报告、调整特征得分和提高疾病预测准确性的优势。实验结果表明该方法有潜力改变疾病预测和个性化健康管理。

健康 - LLM: 个性化检索增强疾病预测模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-01T00:00:00Z

本文评估了大型语言模型(LLM)在生物医学任务中的性能,发现LLMs在具有较小训练集的生物医学数据集中的效果超过了当前最先进的生物医学模型。尽管与精细调整的生物医学模型相比,LLMs的性能仍然较差,但它们在缺乏大规模注释数据的生物医学任务中具有潜在的价值。

癫痫 LLM: 领域特定的大型语言模型,以癫痫医学知识进行了精细调整

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-11T00:00:00Z

我们提出了一个深度生成时间序列的方法,用于建模和分析复杂疾病轨迹。通过结合生成方法与医学知识,我们展示了学习到的时间潜在过程可用于数据分析和临床假设测试。我们的方法能够进行个性化在线监测和多变量时间序列的预测,包括不确定性量化。我们在系统性硬化病过程中展示了我们方法的有效性,展示了我们机器学习模型捕捉复杂疾病轨迹和获取新医学知识的潜力。

解释可微潜在状态对医疗时间序列数据

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-29T00:00:00Z

通过引入医学知识,构建了大规模的分割数据集SA-Med2D-20M,包含460万个2D医学图像和1970万个蒙版,旨在开发医学人工智能,提升诊断、医学图像分析、知识共享和教育。

SA-Med2D-20M 数据集:用 2000 万个掩模对 2D 医学影像进行分割

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-20T00:00:00Z

本文提出了一种深度生成时间序列的方法,用于建模和分析复杂疾病轨迹,并结合生成方法与医学知识进行数据分析和临床假设测试。该方法还可用于个性化在线监测和多变量时间序列预测。通过在系统性硬化病过程中的应用,展示了该方法的有效性和获取新医学知识的潜力。

利用半监督潜在过程的深度生成模型对复杂疾病轨迹进行建模

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-14T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码