小红花·文摘

本文介绍了针对大型语言模型的评估工具和基准测试，特别关注中文和中医领域。研究提出了CMB、MedBench和Qibo等工具，旨在评估模型在医学和传统汉语中的表现，揭示其能力与局限性，促进中医智能助手的发展，并强调本土化模型的必要性。