小红花·文摘 - 小红花技术领袖俱乐部

介绍HealthBench

介绍HealthBench

OpenAI ·

本研究探讨了大语言模型在医疗领域的评估有效性，提出了一种多维度评估套件，揭示开放式与封闭式评估的关系及盲点。研究发布了新的医疗基准CareQA，并引入放松困惑度指标，以克服现有评估方法的局限性。

Automatic Evaluation of Healthcare Large Language Models Beyond Question-Answering

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，将多种医疗评估中的不同模态数据可视化为图像。使用视觉变换器模型ViTiMM，该方法在预测住院死亡率和性状表征方面优于现有技术，简化了数据处理，降低了多模态医疗AI训练的门槛。

Arbitrary Data as Images: Fusion of Patient Data Across Modalities and Irregular Intervals with Vision Transformers

BriefGPT - AI 论文速递 ·