小红花·文摘

一分钟读论文：《归一化计算下单Agent为何优于多Agent》

Micropaper ·

在生产中扩展人工智能代理所需的条件

The New Stack ·

GraphRAG结合知识图谱与生成模型，提升大语言模型的推理能力，克服传统RAG的局限性。通过结构化关系网络，GraphRAG实现多跳推理，增强上下文理解，适用于复杂分析与决策支持。

GraphRAG技术深度解析：重新定义智能问答的未来

dotNET跨平台 ·

GraphRAG与RAG的细微差别

The New Stack ·

本研究提出了一种自适应上下文压缩（ACC）技术，旨在解决缓存增强生成（CAG）在大规模动态知识库中的扩展性问题。该方法有效管理上下文输入，提升了可扩展性和多跳推理性能，为知识集成提供了解决方案。

Enhancing Scalable Knowledge Integration in Cache-Augmented Generation (CAG) through Adaptive Contextual Compression

BriefGPT - AI 论文速递 ·

本研究提出了基于家庭知识图谱的FamilyTool基准，旨在解决个性化动态环境中的多跳推理问题。研究表明，现有语言模型在复杂场景中的表现不佳，推理复杂度增加时准确性下降，需改进个性化工具的使用。

FamilyTool: A Benchmark for Multi-hop Personalized Tool Usage

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法CaKE，克服了现有知识编辑在多跳推理中的局限性。实验结果显示，CaKE在MQuAKE数据集上的推理准确性提高了20%。

CaKE：电路感知编辑实现通用知识学习

BriefGPT - AI 论文速递 ·

AI大佬曼宁转赞，MetaGPT团队首提「Atom of Thoughts」，原子化思考让4o-mini暴打推理模型？

机器之心 ·

本研究提出了一种名为本体指导的逆向思维（ORT）的新框架，旨在解决大型语言模型在知识图谱问答中的多跳推理问题。ORT通过反向构建推理路径，显著提升了LLMs在KGQA任务中的表现。

Ontology-Guided Reverse Thinking Empowers Large Language Models in Knowledge Graph Question Answering

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法CG2C，通过提取文档上下文图进行多跳推理，解决了传统自然语言推断数据不足的问题。实验结果表明，FactCG模型在连接推理方面表现优越，且模型规模更小。

FactCG: A Graph-Based Multi-Hop Data Augmentation Framework for Fact Checking

BriefGPT - AI 论文速递 ·

本研究探讨大型语言模型在多跳推理中选取和组合外部知识的能力，发现即使使用思维链提示，模型仍存在显著不足，与人类表现差距较大，为提升推理能力提供了参考。

大型语言模型在多跳推理和外部知识方面仍面临挑战

BriefGPT - AI 论文速递 ·

近期，多模态大型语言模型（MLLM）发展迅速，但常因单模态偏见在复杂任务中出错。研究者提出因果框架分析视觉问答（VQA）中的偏见，并设计因果图进行深入分析。基于此，推出包含12,000个VQA实例的MORE数据集，挑战MLLMs的多跳推理能力。提出“分解-验证-回答”策略和微调方法以减轻偏见，实验结果为未来研究提供了重要见解。

相信但要验证：程序化视觉语言模型评估

BriefGPT - AI 论文速递 ·

本文分析了现有知识图谱的复杂查询基准，发现其复杂性不足，影响领域进展理解。研究表明大多数查询可简化，因此提出更具挑战性的基准，以更真实地反映多跳推理能力。新基准显示现有方法仍需改进。

复杂查询回答真的复杂吗？

BriefGPT - AI 论文速递 ·

本研究分析大型语言模型在多跳推理中的挑战，特别是文档顺序对性能的影响。提出的CoRe方法通过优化文档顺序，显著提高多跳问答任务的F1得分和合成任务的准确率，解决了“困于中间”问题。

通过重复错序上下文释放大型语言模型中的多跳推理潜力

BriefGPT - AI 论文速递 ·

研究发现，大型语言模型在多跳推理中使用复杂提示。对于某些关系类型的提示，超过80%的情况下使用多跳推理路径。模型大小的增加对第一个跳跃有明显影响，但对第二个跳跃没有影响。这些结果对未来语言模型的发展和应用提出了挑战和机遇。

貌似合理的干扰项在多跳推理中的作用：大型语言模型是否是细致的读者？

BriefGPT - AI 论文速递 ·

研究发现，大型语言模型在多跳推理中使用复杂提示。第一个跳跃的证据较显著，第二个跳跃的证据相对适度。模型大小对第一个跳跃有明显的规模性趋势。这些结果对未来语言模型的发展和应用具有挑战和机遇。

滞后的跳跃：探索大型语言模型在多次跳跃查询上的限制

BriefGPT - AI 论文速递 ·

研究改进了基准测试StepGame，发现GPT在映射自然语言文本到空间关系方面表现优势，但在多跳推理方面有局限性。通过模板映射和逻辑推理相结合，提供了完美解决方案，显著提高了准确性。研究揭示了模型不足，并提出增强措施。

大型语言模型的空间推理推进：使用 StepGame 基准进行深入评估和增强

BriefGPT - AI 论文速递 ·

该研究提出了一种基于概率的方法来训练可解释的多跳问答系统，无需基于理由的监督。该方法将理由明确建模为集合，能够在文档内外进行交互和多跳推理，选择理由更准确。

利用结构化信息进行可解释的多跳问题回答和推理

BriefGPT - AI 论文速递 ·

该文介绍了一种通过内存注入来解决多跳推理失败的方法，提高了多跳提示完成的质量。研究表明，注入关键注意力层的记忆可以显著提高下一个标记的概率，最高可达424%。

内存注入：纠正变压器式语言模型推理中的多跳推理错误

BriefGPT - AI 论文速递 ·