本文介绍了针对大型语言模型的评估工具和基准测试,特别关注中文和中医领域。研究提出了CMB、MedBench和Qibo等工具,旨在评估模型在医学和传统汉语中的表现,揭示其能力与局限性,促进中医智能助手的发展,并强调本土化模型的必要性。
完成下面两步后,将自动完成登录并继续当前操作。