OpenAI最近发布的GPT-4o-mini模型参数为8B,引发广泛讨论。微软与华盛顿大学的论文介绍了MEDEC基准测试,评估多个模型在医疗错误检测中的表现。网友对模型参数的准确性提出质疑,认为这些数字可能只是猜测,讨论热烈但无明确结论。
本研究解决了大语言模型在验证现有或生成医疗文本的正确性和一致性能力上的研究空白。我们提出了MEDEC,这是首个针对临床笔记中医疗错误检测与修正的公开基准,涵盖了五种错误类型并包含3848篇临床文本。研究表明,尽管最近的大语言模型在错误检测与修正方面表现良好,但仍不及医疗医生的表现,揭示了该领域进一步研究的潜力。
完成下面两步后,将自动完成登录并继续当前操作。