HealthBench是一个新基准,旨在评估人工智能在医疗领域的能力。它与来自60个国家的262名医生合作,包含5000个真实的健康对话,并使用医生制定的评分标准来评估模型的响应。该基准强调评估的意义、可信度和进步空间,以确保AI系统在改善人类健康方面的有效性和安全性。
本研究探讨了大语言模型在医疗领域的评估有效性,提出了一种多维度评估套件,揭示开放式与封闭式评估的关系及盲点。研究发布了新的医疗基准CareQA,并引入放松困惑度指标,以克服现有评估方法的局限性。
本研究提出了一种新方法,将多种医疗评估中的不同模态数据可视化为图像。使用视觉变换器模型ViTiMM,该方法在预测住院死亡率和性状表征方面优于现有技术,简化了数据处理,降低了多模态医疗AI训练的门槛。
完成下面两步后,将自动完成登录并继续当前操作。