本研究探讨了大语言模型在医疗领域的评估有效性,提出了一种多维度评估套件,揭示开放式与封闭式评估的关系及盲点。研究发布了新的医疗基准CareQA,并引入放松困惑度指标,以克服现有评估方法的局限性。
完成下面两步后,将自动完成登录并继续当前操作。