智谱推出了新模型GLM-4.1V-9B-Thinking,参数仅9B,却在28项评测中获得23个SOTA,超越8倍参数模型。该模型采用思维链推理和课程采样强化学习,具备超长视频解析和智能读图问答能力,表现优异。
大语言模型在高考文科中取得高分的原因包括优质训练数据、思维链推理、长上下文处理和多模态能力,这些因素提升了模型对复杂问题的理解和回答能力。
本研究提出了推理边界框架++(RBF++),旨在解决思维链推理(CoT)在实际应用中的两个主要问题:缺乏可量化指标和评估不可测能力的方法。实验结果表明,该框架在跨模态场景中有效,促进了对推理边界和优化策略的理解。
本研究提出COT Fine-tuned框架,通过双任务方法提升AI生成文本的检测准确性,并利用思维链推理增强模型的透明度与可解释性。实验结果表明,该框架在文本分类和LLM识别方面表现优异。
本研究提出了一种生成思维链推理的方法,解决了文本到SQL模型的合理性缺失问题。通过逐步拆解SQL查询并提供解释,显著提高了复杂查询的执行准确性和模型的可解释性。
这篇文章介绍了Satori,一种新型强化学习方法,使大型语言模型能够更像人类进行思考和决策。它结合了思维链推理与基于行动的学习,在复杂推理任务中表现优异,并通过自回归搜索提升决策能力。
本研究提出了一种新颖的相关性-多样性增强选择(RDES)方法,以提升模型的泛化能力。实验结果表明,RDES在文本分类任务中显著优于十种基准方法,且结合思维链推理可进一步提高预测性能。
AIxiv专栏促进学术交流,报道超过2000篇研究。提出推理边界框架(RBF),量化大型语言模型(LLMs)在思维链推理中的能力,并优化推理效率。实验验证推理边界的存在性与组合律,提出最短可接受推理路径(MARP)策略,显著提升模型性能。期望该框架推动LLMs在复杂推理任务中的发展。
Meta FAIR、加州大学伯克利分校和纽约大学的研究人员提出了一种思维偏好优化(TPO)方法,旨在提高大语言模型(LLM)在指令微调中的响应质量。与传统模型不同,TPO鼓励模型在回应前进行内部思考,从而生成更准确的答案。该方法结合了改进的思维链推理,优化了模型的思维过程,提升了响应的相关性和质量,适用于多种复杂任务。
谷歌的研究团队发现了一种名为“思维链提示”的技术,利用计算复杂性理论的方法,探索了思维链推理的力量。研究人员发现,思维链提示可以帮助Transformer解决更困难的问题,但需要大量的计算工作。
完成下面两步后,将自动完成登录并继续当前操作。