小红花·文摘 - 小红花技术领袖俱乐部

本研究探讨了大语言模型在医疗领域的评估有效性，提出了一种多维度评估套件，揭示开放式与封闭式评估的关系及盲点。研究发布了新的医疗基准CareQA，并引入放松困惑度指标，以克服现有评估方法的局限性。

Automatic Evaluation of Healthcare Large Language Models Beyond Question-Answering

BriefGPT - AI 论文速递 ·

本研究提出PARAPHRASUS基准，以解决现有释义检测模型评估过于简化的问题。该基准通过多维度评估，全面反映模型的语义理解能力，揭示传统分类数据集中无法捕捉的权衡关系。

PARAPHRASUS: A Comprehensive Benchmark for Evaluating Paraphrase Detection Models

BriefGPT - AI 论文速递 ·