比利时研究团队开发了MetaMedQA评估基准,以测试大语言模型(LLMs)在医学推理中的表现,尤其是识别知识盲区的能力。研究表明,尽管LLMs在准确率上表现良好,但在处理不确定性时存在系统性缺陷,未来需改进评估标准和模型的自我认知能力。
完成下面两步后,将自动完成登录并继续当前操作。