该研究提出了综合评估大型语言模型的工具,发现汉语和台湾国语的公开权重模型在复杂推理能力上表现较差。研究强调了培养本土化台湾国语大型语言模型的目标,并公开了基准测试和评估脚本。
完成下面两步后,将自动完成登录并继续当前操作。