小红花·文摘

本研究提出了一种上下文化评估协议，旨在解决语言模型评估中的上下文缺失问题。研究表明，上下文显著影响评估结果，揭示了模型在不同情境下的表现差异，促进了对模型行为的新理解。