本研究提出Fùxì基准,旨在评估语言模型在古汉语文本理解与生成中的能力。基准涵盖21个多样化任务,平衡理解与生成任务,设计特殊评估指标,以揭示古汉语处理中的文化理解和格式遵循挑战。
完成下面两步后,将自动完成登录并继续当前操作。