小红花·文摘

本研究提出了KORGym，一个灵活的动态评估平台，旨在解决大型语言模型推理评估的局限性。通过对19个大型语言模型和8个视觉语言模型的实验，发现闭源模型表现更优，预计将推动语言模型推理研究的发展。