小红花·文摘 - 小红花技术领袖俱乐部

理解 KV Cache：Attention、P/D 分离与 vLLM 的页式显存管理

理解 KV Cache：Attention、P/D 分离与 vLLM 的页式显存管理

Steins;Lab ·

将RAG推向主流的公司如今正对其下注

将RAG推向主流的公司如今正对其下注

The New Stack ·

文章探讨了大模型的使用成本，特别是输入、输出和缓存的费用。模型越大，能力越强，价格越高。推理过程分为预填充和解码，前者并行处理，后者逐个生成，导致计算量非线性增长。通过缓存技术可以降低重复计算成本，有效的上下文管理和明确的需求描述有助于节省Token，提升使用效率。

LLM Token 消耗节省计划

范叶亮的博客 ·

代理可观察性推动代理评估

代理可观察性推动代理评估

LangChain Blog ·

Meta与多所大学合作提出了一种元认知复用机制，通过回顾推理过程提炼简洁的“行为”，显著减少推理token使用量，最多可减少46%。该方法在数学测试中保持准确率不变，提升了模型的推理效率。

推理token减少46%！Meta新方法缩短思维链，告别重复推导

量子位 ·

思维的幻觉：通过问题复杂性视角理解推理模型的优势与局限性

思维的幻觉：通过问题复杂性视角理解推理模型的优势与局限性

Apple Machine Learning Research ·

自定义后端允许用户编写推理过程，整合多个模型的逻辑判断，简化调用流程，降低HTTP传输延迟。

【Triton 教程】triton_language.permute

HyperAI超神经 ·

Anthropic开源工具追踪大型语言模型的“思维”

Anthropic开源工具追踪大型语言模型的“思维”

InfoQ ·

揭示大型语言模型的内部机制：人工智能洞察

揭示大型语言模型的内部机制：人工智能洞察

DEV Community ·

本研究提出了一种新方法——携带视觉条件（TVC），旨在解决多模态任务中视觉信息关注度下降的问题。TVC策略优化了推理过程中的视觉输入使用，提升了多模态推理系统的表现，平均性能提高了3.4%。

Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long Chain Reasoning

BriefGPT - AI 论文速递 ·

DeepAI：为任意AI模型增加强化思考链

DeepAI：为任意AI模型增加强化思考链

苍穹の下 ·

长链推理表象下，大模型精细表征张冠李戴的本质

长链推理表象下，大模型精细表征张冠李戴的本质

机器之心 ·

本研究提出了ReasonGraph网络平台，旨在可视化和分析大型语言模型的推理过程，以降低认知负担、提高错误检测并促进有效开发。

ReasonGraph: 可视化推理路径

BriefGPT - AI 论文速递 ·

深入探讨Llama3：揭示详细见解与实现

深入探讨Llama3：揭示详细见解与实现

DEV Community ·

本研究提出了一种基于自由论辩的图像分类器解释方法，旨在提高深度学习模型的透明度。通过代理之间的辩论，该方法能够更准确地反映分类器的推理过程，其评估结果优于传统的解释方法。

A Method for Explaining Image Classifiers Based on Free Argumentative Exchanges

BriefGPT - AI 论文速递 ·

本研究提出了CopySpec技术，旨在提高大型语言模型生成相似响应的效率。该方法通过识别聊天历史中的重复序列，推测后续标记，实现无损复制，显著加速推理过程，最高提升达2.35倍，尤其在大上下文中表现优异。

CopySpec: Accelerating Large Language Models with Speculative Copy-and-Paste Without Compromising Quality

BriefGPT - AI 论文速递 ·

本研究探讨了语言模型在数学问题求解中的假阳性现象，提出了一种新检查方法，揭示了假阳性对推理过程和时间的影响，提醒研究者需谨慎对待。

Examining False Positives in Mathematical Reasoning Under Extended Inference

BriefGPT - AI 论文速递 ·

在Ruby中构建一个微型语言模型（LLM）：逐步指南 - V3 "将推理整合到微型LLM中"

在Ruby中构建一个微型语言模型（LLM）：逐步指南 - V3 "将推理整合到微型LLM中"

DEV Community ·

OpenAI 突然公开 o3-mini 思维链！首秀遭质疑，实测对比 DeepSeek R1，差距太明显

OpenAI 突然公开 o3-mini 思维链！首秀遭质疑，实测对比 DeepSeek R1，差距太明显

爱范儿 ·

OpenAI公开了o3-mini的思维链，用户可以查看其推理过程。尽管有网友感谢DeepSeek，但许多人质疑公开的思维链并非原始版本。OpenAI确认已对其进行处理，以确保安全和简化复杂性。o3-mini在回答问题时展现幽默感，但其思维过程仍有不足，引发讨论。

OpenAI突然公开o3思维链！网友：让我们谢谢DeepSeek

量子位 ·