该研究介绍了一种名为RaTEScore的新型度量标准,用于评估人工智能模型生成的医学报告质量。RaTEScore强调诊断结果和解剖细节等重要医学实体,并对医学近义词和否定表达式具有鲁棒性。该度量标准通过比较实体嵌入的相似性来衡量,根据类型和临床重要性相关性进行评估。RaTEScore在公开基准和新提出的RaTE-Eval基准上得到了验证。
该研究使用抽象意义表示(AMR)图构建医学对话框架,实验结果表明该框架优于强基线模型,证明了 AMR 图在增强医学知识和逻辑关系的表示方面的有效性。
完成下面两步后,将自动完成登录并继续当前操作。