小红花·文摘

4o-mini只有8B，Claude 3.5 Sonnet有175B，微软论文「透露」了下顶级模型参数

机器之心 ·

本研究解决了大语言模型在验证现有或生成医疗文本的正确性和一致性能力上的研究空白。我们提出了MEDEC，这是首个针对临床笔记中医疗错误检测与修正的公开基准，涵盖了五种错误类型并包含3848篇临床文本。研究表明，尽管最近的大语言模型在错误检测与修正方面表现良好，但仍不及医疗医生的表现，揭示了该领域进一步研究的潜力。

MEDEC：临床笔记中医疗错误检测与修正的基准

BriefGPT - AI 论文速递 ·