MIR-Bench:通过多次上下文归纳推理评估LLM的长上下文智能
📝
内容提要
本研究解决了当前大语言模型在长上下文归纳推理评估中的不足,提出了MIR-Bench这一首个多次上下文归纳推理基准。该基准要求模型通过输入输出示例从多样数据格式中归纳输出,研究了模型在面对错误示例和思路链效应下的鲁棒性,并获得了有价值的发现。
🏷️
标签
➡️