小红花·文摘

本研究分析了中国医学大型语言模型在准确性、安全性和伦理一致性方面的不足，提出了细致的错误分类法，并评估了前10个模型在MedBench上的表现。研究还提出了四级优化策略，以提升医学LLMs的临床应用价值和安全性。