小红花·文摘

本研究提出了开源工具Evalica，旨在解决自然语言处理协议的可靠性和可复现性问题。该工具支持现代排行榜的创建，并通过Web界面、命令行和Python API优化模型评估流程。