TCMBench:中医药领域大型语言模型综合评估基准
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
该研究提出了综合评估大型语言模型的工具,发现汉语和台湾国语的公开权重模型在复杂推理能力上表现较差。研究强调了培养本土化台湾国语大型语言模型的目标,并公开了基准测试和评估脚本。
🎯
关键要点
- 该研究提出了适用于评估大型语言模型的 TMLU 综合评估工具。
- 研究发现传统汉语在现有基准测试中的低覆盖率。
- 通过对37个科目的链式思考式少样本解释,证明汉语公开权重模型在复杂推理能力上表现较差。
- 台湾国语的开放权重模型相对于简体中文版本存在差距。
- 研究发现存在提升潜力,强调了培养本土化台湾国语大型语言模型的目标。
- 研究公开了基准测试和评估脚本以促进未来研究。
➡️