低Token高精度!字节复旦推出自适应推理框架CAR
💡
原文中文,约2500字,阅读约需6分钟。
📝
内容提要
字节与复旦大学研究人员提出了自适应推理框架CAR,该框架根据模型困惑度动态选择短回答或长文本推理,以平衡准确性与效率。研究表明,长CoT推理并不总能提高准确率,甚至可能降低简单任务的处理能力。CAR在低置信度时使用长推理,高置信度时直接输出短回答,显著提升了多模态视觉问答和信息提取任务的表现。
🎯
关键要点
- 字节与复旦大学提出自适应推理框架CAR,动态选择短回答或长文本推理。
- CAR框架实现了准确性与效率的最佳平衡,避免了过度依赖长CoT推理导致的性能下降。
- 研究发现长CoT推理并不总能提高准确率,可能会降低简单任务的处理能力。
- CAR在低置信度时使用长推理,高置信度时直接输出短回答,提升了多模态视觉问答和信息提取任务的表现。
- 研究聚焦文本密集型视觉问答和关键信息抽取领域,使用8个公开数据集进行实验。
- 实验结果显示,准确率与困惑度(PPL)之间存在显著的负相关性。
- 基于PPL的动态推理决策机制在低置信度场景下触发长文本推理,高置信度场景下直接输出简短答案。
- CAR框架通过困惑度量化模型对答案的置信度,提供灵活高效的推理解决方案。
- CAR在多个数据集上表现优越,使用更少的输出Token数量,提升了推理效率。
❓
延伸问答
CAR框架的主要功能是什么?
CAR框架根据模型困惑度动态选择短回答或长文本推理,以实现准确性与效率的最佳平衡。
为什么长CoT推理可能降低模型性能?
长CoT推理并不总能提高准确率,甚至可能削弱模型处理简单任务的能力,导致冗长输出。
CAR框架如何决定使用短回答还是长推理?
CAR框架通过评估模型的困惑度(PPL),在低置信度时使用长推理,高置信度时直接输出短回答。
CAR框架在多模态视觉问答中的表现如何?
CAR框架在多模态视觉问答和信息提取任务中表现优越,显著提升了准确性与效率。
研究中使用了哪些数据集进行实验?
研究使用了8个公开数据集,包括DocVQA、InfoVQA、ChartQA、VisualMRC等用于视觉问答,以及SROIE、CORD、FUNSD、POIE等用于信息提取。
CAR框架如何提高推理效率?
CAR框架通过在高置信度时直接输出短回答,减少了冗长推理的时间,从而提高推理效率。
➡️