小红花·文摘

本研究提出了 IC R^2 基准，以更准确评估长上下文语言模型（LCLM）的性能。通过引入复杂上下文和优化方法，实验表明 Mistral-7B 模型显著提升了性能，展示了其实际应用潜力。