量子位 ·

低Token高精度！字节复旦推出自适应推理框架CAR

💡 原文中文，约2500字，阅读约需6分钟。

📝

内容提要

字节与复旦大学研究人员提出了自适应推理框架CAR，该框架根据模型困惑度动态选择短回答或长文本推理，以平衡准确性与效率。研究表明，长CoT推理并不总能提高准确率，甚至可能降低简单任务的处理能力。CAR在低置信度时使用长推理，高置信度时直接输出短回答，显著提升了多模态视觉问答和信息提取任务的表现。

🎯

❓

CAR框架根据模型困惑度动态选择短回答或长文本推理，以实现准确性与效率的最佳平衡。

长CoT推理并不总能提高准确率，甚至可能削弱模型处理简单任务的能力，导致冗长输出。

CAR框架通过评估模型的困惑度（PPL），在低置信度时使用长推理，高置信度时直接输出短回答。

CAR框架在多模态视觉问答和信息提取任务中表现优越，显著提升了准确性与效率。

研究使用了8个公开数据集，包括DocVQA、InfoVQA、ChartQA、VisualMRC等用于视觉问答，以及SROIE、CORD、FUNSD、POIE等用于信息提取。

CAR框架通过在高置信度时直接输出短回答，减少了冗长推理的时间，从而提高推理效率。

🏷️

教你薅token：构建agent无关的AI工作流
目前使用AI的主要痛点是高昂的账单。用户可以通过维护良好的文档来优化使用流程，减少对高价Agent的依赖。合理利用免费资源可以节省开支，维护好文档有助于降...
微软新模型MAI-Code-1-Flash：比Claude Haiku强还省60%Token
微软新发布的MAI-Code-1-Flash编程模型专注于代码生成，声称能比Claude Haiku节省60%的Token。该模型适合简单任务，执行效率高...
微软首款高级推理人工智能问世
微软在2026年Build大会上发布了多款新AI模型，旗舰模型MAI-Thinking-1是其自主开发的重要进展，表现优异，基于干净数据训练。此外，还推出...
OpenAI是如何构建其数据代理的
OpenAI的数据平台存储了1.5 exabytes的数据，支持约4000名内部用户。为提高数据分析效率，OpenAI开发了一个数据代理，能够快速回答用户...
为什么程序员反而是受 AI 冲击最大的岗位
AI对程序员职业的冲击主要源于工作高度结构化和自动化能力。代码生成和错误排查等任务易被AI替代，但复杂决策仍需人类参与。未来程序员应专注于问题定义、系统拆...
用 Ruby 构建 AI Agent 之二：工具调用
本文介绍了如何在 Chat CLI 中实现工具调用功能，使 AI 能够获取外部信息并执行任务。通过 OpenAI API 的 Tool Call 功能，A...