小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究提出KG-IRAG框架,解决了现有检索增强生成方法在多步骤推理中的不足。通过迭代检索整合知识图谱,提升了大语言模型在时间和逻辑依赖查询中的能力。实验结果表明,KG-IRAG在复杂推理任务中的准确性显著提高,并构建了三个新数据集以评估其性能。

A Knowledge Graph-Based Iterative Retrieval-Augmented Generation Framework for Temporal Reasoning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-18T00:00:00Z

研究评估了大型语言模型在长上下文理解中的表现,发现商业模型(如GPT-3.5-Turbo-16k)优于开源模型,但在长序列上仍存在困难。引入检索增强技术可以改善模型性能,尤其是在长上下文任务中。提出的M4LE基准测试揭示了当前模型在处理复杂推理任务时的不足,并为未来研究提供了参考。

多语言长文本检索与推理的评估

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-26T00:00:00Z
OpenAI 发布最强模型 o1 !打破 AI 瓶颈开启新时代,GPT-5 可能永远不会来了

OpenAI发布了OpenAI o1系列模型,代表了人工智能最强的推理能力。o1适用于处理各个领域的复杂推理任务,o1 mini则适用于不需要广泛世界知识的应用场景。模型已全量推送,o1-preview每周30条消息,o1-mini每周50条。新模型能够推理复杂任务,并解决科学、编码和数学领域中的问题。OpenAI还发布了更快、更便宜的推理模型o1-mini,在物理、化学和生物等任务中表现出色,但仍无法解决一些经典难题。

OpenAI 发布最强模型 o1 !打破 AI 瓶颈开启新时代,GPT-5 可能永远不会来了

爱范儿
爱范儿 · 2024-09-13T02:32:24Z

这项研究介绍了ALCE基准,用于评估大型语言模型(LLMs)在流畅度、正确性和引用质量方面的表现。研究发现,商业模型在短任务上优于开源模型,但在长依赖任务中表现不佳。提出了细粒度奖励训练框架和Ada-LEval基准,以评估LLMs在长上下文理解中的能力,结果显示当前模型在复杂推理任务中表现欠佳。此外,推出了Citekit工具包,旨在提高引用生成的质量和准确性。

LongCite:使长文本问答中的大语言模型生成细粒度引用

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-04T00:00:00Z

最近的研究提出了层次化推理聚合框架AoR,提高大型语言模型在复杂推理任务中的性能。实验结果显示,AoR优于其他集成方法,适应多种语言模型,达到更高的性能上限。

推理的聚合:一个增强大型语言模型中答案选择的层次框架

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-21T00:00:00Z

本文探讨了大型语言模型在解谜方面的能力,指出了其在复杂推理任务中的潜力和挑战。通过对不同方法的评估,发现大型语言模型在高级逻辑推理方面与人类存在差距。文章强调了提升大型语言模型在解谜方面的需求,并为人工智能的逻辑推理和创造性问题解决提供了贡献。

LLM 作为主脑:大型语言模型的战略推理综述

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-01T00:00:00Z

大型语言模型(LLMs)在复杂推理任务中取得了显著进展。提出了一种名为“交换思路(EoT)”的新框架,实现了跨模型通信,解决了推理局限和缺乏外部洞察力的问题。EoT整合了四种独特的通信范式,并实现了健壮的置信度评估机制。实验结果表明,EoT超过了基线方法,展示了外部洞察力在增强LLM性能方面的价值。EoT以成本效益的方式实现了卓越结果,有望发展高效而协同的人工智能问题解决。

思想交流:通过模型协作提升大型语言模型的能力

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-04T00:00:00Z

大型语言模型可以通过预测生成理由来解决复杂的推理任务。较小的模型在推理方面主要因为难以启动过程而失败,引导它们朝正确的方向发展可以使性能提高100%以上。

第一步优势:多步推理中开始正确的重要性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-14T00:00:00Z

该文介绍了Active-Prompt方法,通过任务特定的示例提示来适应LLMs的不同任务,实验结果表明该方法在8项复杂推理任务中表现优异。

大语言模型文本的成对比较扩展中的概念导向思路引导

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-18T00:00:00Z

该文介绍了Active-Prompt方法,通过任务特定的示例提示来适应LLMs的不同任务,经验结果表明该方法在8项复杂推理任务中取得了最新成果。

利用思维链激发大规模语言模型进行少样本知识库问题生成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-12T00:00:00Z

该文介绍了Active-Prompt方法,通过任务特定的示例提示来适应LLMs的不同任务。经验结果表明该方法在8项复杂推理任务中取得了最新成果。

思维传播:以类比方式进行复杂推理的大型语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-06T00:00:00Z

Active-Prompt是一种新方法,通过任务特定的示例提示来适应LLMs的不同任务,并通过选择最不确定的问题进行注释来确定哪些问题是最重要和有帮助的。实验结果表明该方法在八项复杂推理任务中取得了最新成果。

大型语言模型作为类比推理耠

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-03T00:00:00Z

研究发现ChatGPT在处理复杂推理任务时存在局限性,但在处理大量自然语言或理解明确的棋盘状态时决策能力增强。这为突破自然语言处理的局限和展示类人认知能力的模型提供了宝贵信息。

大型语言模型在国际象棋棋盘上的应用:对 ChatGPT 的形式语言理解和复杂推理能力的研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-08-29T00:00:00Z

本文介绍了一种新的方法Active-Prompt,通过示例提示适应LLMs的不同任务,并通过选择最不确定的问题进行注释来确定最重要和有帮助的问题。该方法在八项复杂推理任务中取得了最新成果。

角色扮演引导的零样本推理的改进

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-08-15T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码