小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

DeepSeek R1 是中国 AI 公司推出的模型,采用纯强化学习实现自主推理,突破传统监督学习模式。R1-Zero 模型无需人类标注,展现出链式推理能力。GRPO 算法提升训练效率,简单的奖励系统驱动复杂推理策略。R1 的成功降低了推理模型的门槛,启发了新的研究方向,展示了纯强化学习的潜力,标志着 AI 训练的重要转变。

DeepSeek-R1:用纯强化学习解锁大语言模型的推理能力

Micropaper
Micropaper · 2026-03-01T22:30:00Z

本研究探讨了问答系统中链式推理生成的可解释追踪与最终性能之间的关系。研究表明,基于规则的问题分解方法并不总能确保模型输出正确答案,挑战了知识蒸馏的假设。

Interpretable Traces, Unexpected Outcomes: Investigating the Disconnect in Trace-Based Knowledge Distillation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z

本研究提出链式推理百科全书,以解决大型语言模型在推理策略理解方面的不足,通过自动提取标准和语义嵌入分析来提升模型性能。

链式推理百科全书:分析、预测和控制推理模型的思维方式

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-15T00:00:00Z

本文探讨了链式推理(CoT)在AI安全中的潜在价值,发现其可信度不足。尽管基于结果的强化学习在初期提升了CoT的可信度,但未能持续,表明CoT监控能够识别不良行为,但无法完全消除。

Reasoning Models Do Not Always Express What They Intend

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-08T00:00:00Z
大型语言模型推理突破:降低成本高达70%而不牺牲准确性

本文总结了大型语言模型高效推理的方法,重点在链式推理优化,以降低计算成本并保持准确性。通过自适应推理和选择性推理等技术,评估性能与效率的权衡。

大型语言模型推理突破:降低成本高达70%而不牺牲准确性

DEV Community
DEV Community · 2025-04-19T00:01:28Z

本研究提出ExCoT框架,解决文本到SQL转换中的推理能力不足问题,通过链式推理和直接偏好优化迭代提升执行准确性,尤其在BIRD和Spider数据集上表现突出。

ExCoT: Optimizing Text-to-SQL Reasoning through Execution Feedback

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-25T00:00:00Z

本研究提出了GraspCoT框架,解决了6自由度抓取中对物体物理特性理解不足的问题。通过链式推理和问答模板优化抓取动作选择,实验结果表明该方法在多物体抓取任务中表现优越,具有实际应用潜力。

GraspCoT: Integrating Physical Property Reasoning for 6-DoF Grasping under Flexible Language Instructions

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-20T00:00:00Z
IBM Granite 3.2 引入新视觉语言模型、链式推理能力及改进的时间序列分析

IBM推出Granite 3.2多模态推理模型,具备链式推理能力和新视觉语言模型,显著提升性能。该模型支持灵活推理选项,采用推理缩放技术,增强数学推理基准表现。此外,Granite Guardian 3.2风险检测和时间序列模型专为企业需求设计。

IBM Granite 3.2 引入新视觉语言模型、链式推理能力及改进的时间序列分析

InfoQ
InfoQ · 2025-03-02T15:00:00Z
人工智能突破:新方法使模型更好地理解长文档,像人类一样

该研究提出了一种监督链式推理方法,以提升AI模型对长文档的理解能力。通过专门的训练数据和逻辑推理链,测试结果显示其在长文档理解任务中的表现更佳。

人工智能突破:新方法使模型更好地理解长文档,像人类一样

DEV Community
DEV Community · 2025-02-20T07:17:21Z

本研究探讨了链式推理对直接偏好优化(DPO)在文本到SQL应用中的影响。通过增强数据集并注入合成的链式推理,DPO的性能显著提升,表明链式推理对DPO潜力的激发至关重要,为文本到SQL模型的构建提供了重要见解。

Uncovering the Impact of Chain-of-Thought Reasoning on Direct Preference Optimization: Insights from Text-to-SQL

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-17T00:00:00Z

本研究提出了开放的泰语推理模型Typhoon T1,解决了低资源语言推理模型开发中的细节不足问题,并通过监督微调方法提升了链式推理能力。

台风T1:开放的泰语推理模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-13T00:00:00Z

本研究探讨了训练具有非线性注意力机制的变换器,以提升链式推理能力,量化训练样本和迭代次数,并验证其在噪声示例下的泛化能力,对大语言模型的推理效果具有重要影响。

链式思维的理论理解:连贯推理与错误意识演示

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-21T00:00:00Z

本文介绍了一种新方法ProbTree,用于解决复杂问题时避免大型语言模型出错。ProbTree利用外部知识检索加强链式推理,通过问题分解和回答的置信度来消除负面检索问题,并通过全局推理弥补局部错误。实验证明ProbTree在三个复杂问答数据集上优于最先进方法。

指导而非协助:基于 LLM 的多轮规划和分层提问用于苏格拉底代码调试

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-17T00:00:00Z

概率思维树推理(ProbTree)是一种新方法,通过外部知识检索加强链式推理,解决复杂问题中的错误推理步骤。实验证明,该方法在三个复杂问答数据集上优于最先进方法,证明了其有效性。

大型语言模型推理的分而治之

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-10T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码