小红花·文摘

中国国产AI算力栈深度解析：进展、瓶颈与投资机会

极道 ·

[对比学习LangChain和MAF-03]完全不同的Agent设计哲学 - Artech

Artech ·

一分钟读论文：《同等预算下，单智能体为何胜过多智能体？》

Micropaper ·

使小型语言模型能够解决复杂推理任务

MIT News - Computer Science and Artificial Intelligence Laboratory (CSAIL) ·

DeepSeek-V3.2和V3.2-Speciale是新发布的开源AI模型，推理任务表现优异，性能接近顶尖闭源模型，且成本显著低于竞争对手，适合在国产算力上部署以进一步降低推理成本。

DeepSeekV3.2技术报告还是老外看得细

量子位 ·

网易有道开源了“子曰3”数学模型，专注于数学教育，能在消费级GPU上高效运行。该模型在数学推理任务中表现优异，训练和服务成本低，推动教育公平，促进AI在教育领域的应用发展。

有道14B低成本轻量模型“子曰3”开源，数学推理性能超越大模型

量子位 ·

本研究提出FlashThink方法，通过引入验证模型，解决了大语言模型推理任务中生成内容过长的问题，有效缩短推理长度并保持准确性。

FlashThink: An Efficient Early Exit Method for Inference

BriefGPT - AI 论文速递 ·

本研究提出了一种新调度系统ELIS，旨在解决大语言模型服务中的前端阻塞问题。通过训练响应长度预测器和优化调度策略，ELIS使推理任务效率提高，平均作业完成时间降低了19.6%。

ELIS: An Efficient Iterative Scheduling System for Large Language Models with Response Length Prediction

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，通过考虑模型架构约束设计推理任务，并开发了开源库“enigme”，用于生成文本谜题，以提升生成性人工智能模型的推理能力。

Enigme: Generative Text Puzzles for Evaluating Language Model Reasoning Abilities

BriefGPT - AI 论文速递 ·

扩散式语言模型AI如何加速推理

The New Stack ·

小米MiMo-7B技术报告深度解读：如何打造面向推理的高效大模型？

我爱自然语言处理 ·

本研究针对多模态大型语言模型在视觉层选择分析不足的问题，提出逐层表示相似性的方法，发现浅层和中层在推理任务中表现显著优于深层，为视觉表示学习提供了基础。

Rethinking Visual Layer Selection in Multimodal Large Language Models

BriefGPT - AI 论文速递 ·

本研究提出了专为通用推理任务设计的检索器ReasonIR-8B，克服了现有检索器在推理任务中的局限性。通过合成数据生成，ReasonIR-8B在BRIGHT基准测试中取得了新成绩，显著提升了MMLU和GPQA的性能，展示了其优势和广泛适用性。

ReasonIR：为推理任务训练检索器

BriefGPT - AI 论文速递 ·

本研究提出了一种神经符号方法$Π$-NeSy，将神经网络的低级感知任务与基于可能性的规则系统的高级推理任务结合，旨在推导输入实例属于目标概念的可能性程度。实验证明该方法在解决MNIST加法和数独问题时优于现有方法。

Possibilistic Neuro-Symbolic Method $Π$-NeSy

BriefGPT - AI 论文速递 ·

本研究提出了一种新的信任区域偏好近似（TRPA）算法，旨在解决偏好优化算法在推理任务中的不足。TRPA结合了规则基优化与偏好基优化，消除了奖励黑客问题，并在推理任务中展现出竞争力和稳定性，具有显著的应用潜力。

Trust Region Preference Approximation: A Simple and Stable Reinforcement Learning Algorithm for LLM Reasoning

BriefGPT - AI 论文速递 ·

本研究探讨大型语言模型（LLMs）的推理能力，提出KUMO评估框架，结合LLMs与符号引擎，动态生成推理任务。结果表明，LLMs在简单推理任务上超越大学生，而在复杂任务中表现相当，验证了KUMO的有效性。

Generative Evaluation of Complex Reasoning in Large Language Models

BriefGPT - AI 论文速递 ·

本研究探讨了大型视觉-语言模型在外科图像理解中的应用，发现其在泛化能力和上下文学习方面表现优异，但在空间和时间推理任务上仍显不足，为未来的应用提供了重要见解。

外科学人工智能中大型视觉-语言模型的系统评估

BriefGPT - AI 论文速递 ·

LMM-R1框架通过创新的两阶段训练策略，显著提升小型多模态模型的数学推理能力。第一阶段增强基础推理，第二阶段实现多模态泛化，减少对高质量数据的依赖。实验结果表明，该框架在推理密集型任务中表现优异，展现了多模态模型的应用潜力。

240元打造擅长数学的多模态版R1，基于DeepSeek核心思想，两阶段训练提升推理能力至工业级应用标准

量子位 ·

本研究探讨大型语言模型在规则导向文字游戏中的应用，提出基于连锁思维的调度框架，显著提升了模型在推理任务中的表现，展示了其在结构化游戏环境中的推理和社交能力。

探索大型语言模型在文字游戏中的应用：谁是间谍？

BriefGPT - AI 论文速递 ·

本研究针对小型语言模型在乌克兰语言和推理任务中的不足，通过对LLaMA和Gemma模型进行高效调优，提出结合任务主题与逐步解决方案的方法，显著提升了解释性和可靠性。在复杂匹配任务中，得分提升可达17.4%，展示了小型模型在低资源环境中的潜力。

Empowering Smaller Models: Tuning LLaMA and Gemma with Chain-of-Thought for Ukrainian Exam Tasks

BriefGPT - AI 论文速递 ·