HealthBench是一个新基准,旨在评估人工智能在医疗领域的能力。它与来自60个国家的262名医生合作,包含5000个真实的健康对话,并使用医生制定的评分标准来评估模型的响应。该基准强调评估的意义、可信度和进步空间,以确保AI系统在改善人类健康方面的有效性和安全性。
完成下面两步后,将自动完成登录并继续当前操作。