DeepSeek R1 是中国 AI 公司推出的模型,采用纯强化学习实现自主推理,突破传统监督学习模式。R1-Zero 模型无需人类标注,展现出链式推理能力。GRPO 算法提升训练效率,简单的奖励系统驱动复杂推理策略。R1 的成功降低了推理模型的门槛,启发了新的研究方向,展示了纯强化学习的潜力,标志着 AI 训练的重要转变。
本研究探讨了问答系统中链式推理生成的可解释追踪与最终性能之间的关系。研究表明,基于规则的问题分解方法并不总能确保模型输出正确答案,挑战了知识蒸馏的假设。
本研究提出链式推理百科全书,以解决大型语言模型在推理策略理解方面的不足,通过自动提取标准和语义嵌入分析来提升模型性能。
本文探讨了链式推理(CoT)在AI安全中的潜在价值,发现其可信度不足。尽管基于结果的强化学习在初期提升了CoT的可信度,但未能持续,表明CoT监控能够识别不良行为,但无法完全消除。
本文总结了大型语言模型高效推理的方法,重点在链式推理优化,以降低计算成本并保持准确性。通过自适应推理和选择性推理等技术,评估性能与效率的权衡。
本研究提出ExCoT框架,解决文本到SQL转换中的推理能力不足问题,通过链式推理和直接偏好优化迭代提升执行准确性,尤其在BIRD和Spider数据集上表现突出。
本研究提出了GraspCoT框架,解决了6自由度抓取中对物体物理特性理解不足的问题。通过链式推理和问答模板优化抓取动作选择,实验结果表明该方法在多物体抓取任务中表现优越,具有实际应用潜力。
IBM推出Granite 3.2多模态推理模型,具备链式推理能力和新视觉语言模型,显著提升性能。该模型支持灵活推理选项,采用推理缩放技术,增强数学推理基准表现。此外,Granite Guardian 3.2风险检测和时间序列模型专为企业需求设计。
该研究提出了一种监督链式推理方法,以提升AI模型对长文档的理解能力。通过专门的训练数据和逻辑推理链,测试结果显示其在长文档理解任务中的表现更佳。
本研究探讨了链式推理对直接偏好优化(DPO)在文本到SQL应用中的影响。通过增强数据集并注入合成的链式推理,DPO的性能显著提升,表明链式推理对DPO潜力的激发至关重要,为文本到SQL模型的构建提供了重要见解。
本研究提出了开放的泰语推理模型Typhoon T1,解决了低资源语言推理模型开发中的细节不足问题,并通过监督微调方法提升了链式推理能力。
本研究探讨了训练具有非线性注意力机制的变换器,以提升链式推理能力,量化训练样本和迭代次数,并验证其在噪声示例下的泛化能力,对大语言模型的推理效果具有重要影响。
本文介绍了一种新方法ProbTree,用于解决复杂问题时避免大型语言模型出错。ProbTree利用外部知识检索加强链式推理,通过问题分解和回答的置信度来消除负面检索问题,并通过全局推理弥补局部错误。实验证明ProbTree在三个复杂问答数据集上优于最先进方法。
概率思维树推理(ProbTree)是一种新方法,通过外部知识检索加强链式推理,解决复杂问题中的错误推理步骤。实验证明,该方法在三个复杂问答数据集上优于最先进方法,证明了其有效性。
完成下面两步后,将自动完成登录并继续当前操作。