我们提出了一种适用于放射学领域的新的自动评估度量标准,使用成功的 COMET 架构。通过在放射学知识图谱 RadGraph 上训练和发布四个面向医学的模型检查点,我们的结果表明我们的度量标准与已有度量标准呈现中高度相关性。我们证明了我们的一个检查点与使用公开可用的六个董事认证的放射科医生的注释集评估人类判断具有很高的相关性,并使用一套包含 200 份报告的数据集进行了分析,同时还与两名放射科医生在一组包含 100 份报告的集合上进行了自己的分析。结果表明我们的方法有潜在效力作为放射学特定评估度量标准。我们的代码、数据和模型检查点将公开提供。
研究人员提出了基准系统ComperDial,用于开放领域对话系统的训练和评估。系统包括1,485个对话中的10,395个对话转折的人工评分响应。研究人员还开发了自动评估度量标准CPDScore,与人类判断相关。ComperDial和CPDScore已发布给社区,加速开放领域对话系统自动评估度量标准的开发。
我们提出了一种适用于放射学领域的新的自动评估度量标准,使用 COMET 架构。通过在放射学知识图谱 RadGraph 上训练和发布四个面向医学的模型检查点,我们的结果表明我们的度量标准与已有度量标准呈现中高度相关性。我们的方法有潜在效力作为放射学特定评估度量标准。
我们提出了一种适用于放射学领域的新的自动评估度量标准,使用COMET架构。通过在放射学知识图谱RadGraph上训练和发布四个面向医学的模型检查点,我们的结果表明我们的度量标准与已有度量标准(如BERTscore、BLEU和CheXbert分数)呈现中高度相关性。我们的方法有潜在效力作为放射学特定评估度量标准。
完成下面两步后,将自动完成登录并继续当前操作。