小红花·文摘

学习推理以检测幻觉跨度

Apple Machine Learning Research ·

链式思维在推理中的潜力：对轨迹动态的深入探讨

Apple Machine Learning Research ·

2025年末对人工智能的思考

<antirez> ·

提升视觉语言模型的链式思维推理

Apple Machine Learning Research ·

本研究推出基准EasyMath，旨在提升小型语言模型的数学推理能力，涵盖十三类问题。测试结果表明，模型规模和训练程度均能提高准确性，链式思维有助于提升表现，而一致性在模型规模增大时显著改善。

EasyMath：一种针对小型语言模型的零-shot数学基准

BriefGPT - AI 论文速递 ·

本研究提出自适应GoGI-Skip框架，旨在解决大型语言模型在复杂任务中链式思维推理的冗长低效问题。该框架结合目标梯度重要性与动态跳过机制，显著提高推理效率与准确性，令牌数量平均减少超过45%，推理速度提升1.6-2.0倍。

Accelerating Chain-of-Thought Reasoning: The Combination of Goal-Gradient Importance and Dynamic Skipping

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，通过自适应问题难度生成高质量链式思维（CoT）数据，以解决大型语言模型在复杂任务中的推理能力不均衡问题。该方法显著降低了数据生成成本，提高了模型微调效率，并在数学竞赛和代码生成领域验证了其有效性。

Rethinking the Generation of High-Quality CoT Data from the Perspective of LLM-Adaptive Question Difficulty Grading

BriefGPT - AI 论文速递 ·

本研究评估了结构性推理技术在心理健康预测中的有效性，特别是链式思维和树状思维。结果表明，这些推理技术在分类表现上优于传统方法，尤其在复杂情况下，具有良好的临床应用潜力，同时也指出了模型的可靠性和可解释性挑战。

认知-心理-大型语言模型：通过在线文本利用推理进行心理健康预测

BriefGPT - AI 论文速递 ·

检测前沿推理模型中的不当行为

OpenAI ·

本研究探讨了零-shot链式思维提示在日语中的有效性。比较GPT-3.5与GPT-4o-mini后发现，前者在大学数学和抽象代数领域表现提升，但在更先进模型中效果有所下降，为日语处理中的推理能力改进提供了新见解。

零-shot链式思维在日语提示中的有效性

BriefGPT - AI 论文速递 ·

本研究提出了Audio-Reasoner，一个大型音频语言模型，旨在提升音频推理能力。通过构建包含120万个样本的高质量推理数据集CoTA，显著提高了音频推理的逻辑能力，并在多个基准测试中表现优异。研究强调了结构化链式思维训练的重要性。

Audio Reasoner: Enhancing Reasoning Capabilities in Large Audio Language Models

BriefGPT - AI 论文速递 ·

本研究提出了一种新颖的连续空间推理方法，通过引入轻量级助手模型生成软思维令牌，克服了链式思维的局限性，显著提升了大语言模型的推理能力。

SoftCoT: A Soft Thinking Chain for Efficient Reasoning

BriefGPT - AI 论文速递 ·

本研究提出了一种链式思维提示方法，以提高大型语言模型在抑郁症检测中的准确性和可解释性。该方法将检测过程分为四个阶段，在分类准确率和诊断深度上优于传统方法，具有重要的临床应用潜力。

Enhancing Depression Detection with Chain-of-Thought Prompting: Application of Large Language Models from Emotion to Reasoning

BriefGPT - AI 论文速递 ·

在本地运行DeepSeek-R1 - 与Open WebUI、Chatbox和CodeGPT一起使用

学习推理以检测幻觉跨度

链式思维在推理中的潜力：对轨迹动态的深入探讨

2025年末对人工智能的思考

提升视觉语言模型的链式思维推理

EasyMath：一种针对小型语言模型的零-shot数学基准

Accelerating Chain-of-Thought Reasoning: The Combination of Goal-Gradient Importance and Dynamic Skipping

Rethinking the Generation of High-Quality CoT Data from the Perspective of LLM-Adaptive Question Difficulty Grading

认知-心理-大型语言模型：通过在线文本利用推理进行心理健康预测

检测前沿推理模型中的不当行为

零-shot链式思维在日语提示中的有效性

Audio Reasoner: Enhancing Reasoning Capabilities in Large Audio Language Models

SoftCoT: A Soft Thinking Chain for Efficient Reasoning

Enhancing Depression Detection with Chain-of-Thought Prompting: Application of Large Language Models from Emotion to Reasoning

在本地运行DeepSeek-R1 - 与Open WebUI、Chatbox和CodeGPT一起使用

掌握提示中的逐步推理

DeepSeek AI：击败OpenAI的AI——如何私密使用DeepSeek R1

Can We Generate Images with Chain-of-Thought? A Step-by-Step Validation and Enhancement of Image Generation

Beyond Outcomes: Transparent Assessment of LLM Reasoning in Games

OpenAI发布Sora视频生成模型及o1推理模型完整版本和微调功能

C3oT：在不妥协有效性的前提下生成更短的思维链