本研究提出了KORGym,一个灵活的动态评估平台,旨在解决大型语言模型推理评估的局限性。通过对19个大型语言模型和8个视觉语言模型的实验,发现闭源模型表现更优,预计将推动语言模型推理研究的发展。
完成下面两步后,将自动完成登录并继续当前操作。